Étiquette : intelligence artificielle

Vers une sémantique « user-centric » ?

Au début des années 2000, je bossais (déjà) dans les panels Internet. J’étais (déjà) intéressé par la sémantique et l’IA.

Je bossais avec un labo de recherche en traitement du langage, quand une équipe de Google a publié un article révolutionnaire. Leurs algorithmes utilisaient d’énormes volumes de données, et obtenaient des résultats extraordinaires. « The power of one billion » : ces méthodes ne devenaient efficaces qu’à partir d’un milliard de documents analysés.

Les chercheurs du labo étaient sonnés : linguistes de formation, leurs analyses reposaient principalement sur les liens entre les mots, les champs linguistiques. L’approche statistique de Google remettait en cause 20 ans de travail pour certains.

Aujourd’hui, on a tous intégré qu’une Intelligence Artificielle n’a besoin de rien connaître a priori pour fournir des résultats intéressants. Les algorithmes statistiques n’ont pas besoin de savoir ce qu’est un nom ou un verbe (je schématise mais l’idée est là), comme l’IA générative peut créer une image très ressemblante à Emmanuel Macron, mais avec six doigts…

Après la sémantique linguistique, la sémantique statistique des documents, Implcit a peut-être inventé la sémantique statistique des personnes. 😉

Le panel de Médiamétrie nous fournit plus d’un milliard de signaux du type : le panéliste 123 a visité la page ABC. En découpant les URLs en mots, on décuple cette information : le panéliste 123 a visité une page qui parle de A, de B et de C.

Il y a du bruit évidemment, mais peut-être dix fois moins qu’une analyse de contenu des pages. Et pourquoi ? Parce que les URLs sont un élément-clé du référencement dans les moteurs de recherche. Les sections et sous-sections sont donc nommées avec beaucoup de précautions. Notamment, les homonymes sont évités la plupart du temps, pour que les recherches soient efficaces.

On obtient donc une énorme base de données entre des individus (les panélistes) et leurs centres d’intérêts.

Créer une cible des internautes intéressés par les voitures hybrides ou le déménagement devient un jeu d’enfants.

Alors, je me suis amusé à regarder les relations entre les mots-clés. L’idée est la suivante : quels sont les mots-clés les plus affinitaires avec la population qui est intéressée par un mot-clé donné ?

Rendez-vous compte de la complexité de cette simple question. Cela revient à construire une matrice de plusieurs milliards de lignes et plusieurs milliards de colonnes !

Un des premiers besoins auxquels cette méthode répond est la brand safety. Dans certains résultats, on cherche à bloquer des mots (block-list). Prenons l’exemple du porno. On peut se creuser les méninges pour trouver des mots liés à cette thématique, si on n’est pas expert. Ou on peut demander à notre système les mots les plus affinitaires avec les individus intéressés par le porno.

Et là, les résultats sont impressionnants ! Des centaines de mots et de combinaisons de mots sont venus remplir notre block-list, simplement sur le thème du porno. Je ne vous cache pas que j’ai appris plein de trucs, dont certains que je regrette de connaître maintenant 😳 !

Pour rappel, ce ne sont pas des mots qui se retrouvent dans des pages porno, mais simplement les mots les plus affinitaires avec les individus intéressés par le porno. Ce sont donc des liens beaucoup plus larges, mais tout aussi puissants !

Cette méthode s’applique à des thèmes comme la guerre, Gaza, les accidents, etc. Naviguer de mots en mot est une activité assez fascinante. C’est toute la sociologie des Français en un clic !

On a donc considérablement renforcé notre brand safety de cette manière.

Mais on en arrive aussi à se poser des questions philosophiques amusantes. Par exemple, doit-on bloquer un mot anodin, lorsqu’il n’est affinitaire qu’avec des mots qui sont eux-mêmes bloqués ? En effet, ce mot anodin en apparence, ne l’est peut-être plus sur Internet. Donc la plupart des contenus liés à ce mot pourraient ne pas être « brand safe ».
Par exemple, les mots affinitaires avec « chat » (litière, croquettes…), ne sont pas les mêmes qu’avec « chatte » (pas besoin de vous donner d’exemples). Ce qui est étonnant, c’est que dans ce cas, les mots liés au porno sont écrasants !

Étant donnée la représentativité du panel Internet de Médiamétrie, on ne parle pas ici d’un biais d’analyse, mais bien d’une vérité sociologique. Je vous laisse en tirer vos conclusions sur vos voisins de bureau… 🤔

Cette nouvelle méthode d’analyse sémantique trouve plusieurs applications :

Faire penser à des thématiques affinitaires avec une population intéressée par un thème donné.
En effet, lorsqu’on cible des individus, on cherche à obtenir une population large mais cohérente. Avec cette méthode, on trouve des individus « voisins » d’une population donnée. Par construction, ils sont proches des premiers, plus proches mêmes que ceux ciblés sur des mots d’un même champ sémantique par exemple.

Étendre les mots-clés de recherche lors d’une campagne adwords.
Vous achetez des mots-clés, mais vous pensez certainement aux mêmes mots que vos concurrents. Et Google se frotte les mains parce que les enchères augmentent. Et les mots que Google vous propose sont les mêmes que ceux qu’il propose à vos concurrents, et hop! les enchères s’envolent encore ! Trouver les mots différents de ceux de vos concurrents, mais qui seront cherchés par les mêmes personnes que vous ciblez, vous permet de vous démarquer.

En conclusion, je dis parfois qu’un panel comme celui-ci constitue une immense base sociologique. On comprend les relations entre les centres d’intérêts, les comportements, et même les achats.

De quoi alimenter notre IA et rendre ces informations opérationnelles !

26 septembre 2024
Les panels, c’est de l’Intelligence Artificielle !
Je dis souvent : « Le machine-learning, c’est écrit en Python, l’Intelligence Artificielle, c’est écrit en Powerpoint ». 😉

Je préfère donc dire que l’on fait du machine-learning chez Implcit, parce qu’on code beaucoup en Python. Mais je pourrais tout aussi bien parler d’IA, parce que les problèmes que l’on résout sont du même ordre de complexité que ceux auxquels s’attaque l’IA.

Prenons la question de l’optimisation des performances en publicité digitale.

Grâce à une projection statistique innovante, Implcit est capable de modéliser une population de cliqueurs ou d’acheteurs au sein du panel Internet de Médiamétrie. Comme pour tous les panélistes, Implcit connaît tout d’eux :
- tous leurs critères socio-démographiques (sexe, âge, revenus, nombre d’enfants, etc.)
- toute leur activité digitale (sites, sections de sites, pages visitées, applications utilisées, etc.)
- tous leurs centres d’intérêts (« voitures hybrides », « écologie », etc.)
On a donc une population de cliqueurs (ou d’acheteurs, ou de convertisseurs) qui sont par exemple un peu plus âgés que la moyenne des internautes, un peu plus visiteurs de tel site, un peu plus intéressés par tel sujet, etc. Non seulement on se retrouve avec des milliers d’attributs descriptifs de cette population, mais ces attributs ne sont même pas discrets (au sens mathématique). Une variable est discrète lorsqu’elle prend un nombre fini de valeurs (oui/non, 1, 2, 3…). Dans notre cas, on a, pour chaque attribut, plusieurs valeurs (nombre d’individus uniques, nombre de pages, temps passé, etc.).

Du point de vue mathématique, on se retrouve donc avec un système de milliers d’équations à des centaines de milliers d’inconnues. C’est le genre de problème dont l’IA raffole…

Que cherche-t-on en résolvant ce système ?
On cherche non seulement le mouton à cinq pattes (le persona qui représente le mieux l’individu qui clique ou qui convertit), mais aussi comment le toucher via la publicité. En publicité contextuelle, cela revient à trouver les pages, les sections de sites ou les sites sur lesquels ce persona est le plus sur-représenté. La complexité du système augmente encore…

Un réseau de neurones pourrait-il résoudre ce système ?
Peut-être, à condition de l’entraîner sur d’énormes jeux de données, qui n’existent pas aujourd’hui, et seraient très longs à constituer.
J’écris « peut-être » parce qu’on n’a même pas essayé !

On n’a pas essayé parce qu’on a résolu ce système impossible d’une manière simple et élégante.

Ce jeu de données d’entrainement, on l’a. Pas au même sens qu’un réseau de neurones, mais d’une manière plus structurée, grâce au panel.

Panel is the new Artificial Intelligence

Un panel internet, c’est la donnée détaillée du comportement de 25 000 individus qui installent volontairement un logiciel de mesure. Chaque URL visitée par ces panélistes est enregistrée. Au total, cela revient à plus de 75 millions d’évènements par mois, soit plus d’un milliard d’évènements par an !

On utilise cette masse de données pour répondre à la question du ciblage publicitaire des cliqueurs, sans même avoir à résoudre l’équation du persona.

La modélisation des cliqueurs (ou des convertisseurs) créée une population sous la forme d’un sous-échantillon du panel. Chez Implcit, on appelle ça une cible.

A la différence des cibles habituelles, qui sont des combinaisons de critères explicites (femmes qui visitent Sephora et sont intéressées par l’écologie), ces cibles d’individus performants sont construites mathématiquement. Les critères de cette cible sont implicites (vous voyez l’allusion ?😉).

Le métier originel d’Implcit est le ciblage. Nous avons donc résolu ce système infernal en adaptant nos algorithmes de ciblage.

Ces algorithmes (de ciblage contextuel rappelons-le) nous apportent sur un plateau les pages, les sections de sites et les sites sur lesquels les cliqueurs (ou les acheteurs) sont le plus sur-représentés, exactement comme ces algorithmes le font sur les « femmes qui visitent Sephora et sont intéressées par l’écologie ».

Non seulement Implcit fait du machine-learning, mais nos algorithmes font même peut-être mieux que ne le ferait de l’Intelligence Artificielle.

L’Intelligence Artificielle peut faire beaucoup, mais elle ne sait rien. Elle ne sait pas faire des additions simples (2+3+5+7=14 🤪). Elle ne sait pas qu’un humain possède généralement cinq doigts à chaque main 🙃

Un panel, inversement, est constitué de vraies personnes, dont les mains ont cinq doigts et qui sont normalement capables de calculer 2+3+5+7 (quoi que, à voir l’audience de « Les Marseillais », on peut parfois en douter). Le panel va éviter les pièges mathématiques dans lesquels l’IA peut tomber, car les vrais individus en chair, en os, et avec cinq doigts, ne tombent pas dans des pièges mathématiques.

A l’heure où la moindre start-up affiche « Intelligence Artificielle » en tête de son Business Plan, il est bon de rappeler que l’on peut faire mieux que l’IA sur certains problèmes.
15 novembre 2023
Informer sur l’usage de l’IA générative

On parle maintenant de l’IA générative (de texte, d’image voire de vidéos), mais ça fait très longtemps que l’on modifie, truque ou invente grâce aux technologies.

La seule vraie révolution c’est la démocratisation des outils.

N’importe qui peut depuis des dizaines d’années copier-coller des textes depuis une source externe, supprimer le contexte, modifier certains mots, voire inventer des citations entières !

Mais ça demande du boulot. Il faut trouver l’information (avant internet, cette étape demandait beaucoup de ressources), savoir écrire. Bref, avoir du temps.

Les modifications d’images existent aussi depuis des dizaines d’années. Il faut des outils un peu costauds (photoshop par exemple), donc savoir les utiliser, et ça prend du temps aussi.

Les trucages vidéos ont toujours existé, mais avec un réalisme discutable (sauf à utiliser sa propension naturelle à rêver pour se croire sur la Lune avec Mélies) et des moyens importants. Les capacités de calculs décuplées remplissent maintenant les génériques de centaines de nouveaux noms (ingénieurs, graphistes digitaux, etc.).

Bref, la manipulation des textes, des images et des vidéos n’a pas attendu l’IA.

Et les critiques non plus n’ont pas attendu l’IA. On le sait depuis des années, les photos retouchées de mannequins créent un idéal féminin inaccessible (sauf à s’étirer les jambes pour qu’elles mesurent deux mètres).

Theresia Fischer : La mannequin allemande dépense une fortune pour allonger ses jambes. Source

Le législateur a donc tranché en imposant la mention « photo retouchée » lorsque l’image n’est pas naturelle. Mais comme les images ne sont jamais naturelles, la mention est systématiquement ajoutée, donc plus personne ne la voit, et elle ne sert donc à rien.

Il faut donc aller plus loin.

Je pense qu’il faut que des métadonnées standardisées soient insérées dans les photos et les vidéos.

Les logiciels auraient un label s’ils mettent ces infos systématiquement. Il ne serait pas possible de les retirer, sauf à faire des copies d’écran. Seuls des logiciels pirates permettraient de frauder, mais leurs capacités devraient rester inférieures aux logiciels pros. Une nomenclature par exemple de 0 à 10 pourrait être inventée :
– 0 : image (ou vidéo non retouchée)
– 1 : contraste, luminosité
– 2 : couleurs modifiées (global)
– 3 : déformations de l’image (global)
– 4 : couleurs modifiées sur certaines zones
– 5 : déformations de certaines zones (jambes de mannequin allongées par exemple)
– 6 : suppression d’éléments
– 7 : ajout d’éléments
– 8 : plus de 50% des éléments sont ajoutés
– 9 : image générée par un humain assisté par une IA
– 10 : image 100% générée par une IA
Tous les supports d’affichage pourraient lire et montrer ce score et ce qu’il signifie. Un navigateur pourrait en clic droit fournir cette information par exemple.

Cette méthode ne tuerait évidemment pas ces méthodes de désinformation. Mais elle les rendrait plus difficiles à utiliser dans des buts de tromperie.

Comme je le disais au début, la vraie révolution c’est la démocratisation.
Gardons la démocratisation pour ceux qui n’ont rien à cacher, et qui accepteront que leurs modifications soient si ce n’est visibles, au moins identifiables.
Et rendons un peu plus difficile la vie de ceux qui cherchent délibérément à tromper.

Par ailleurs, j’aimerais voir des plateformes qui engloutissent des milliards pour générer des contenus réalistes, en investir un faible pourcentage pour informer leurs utilisateurs.

Je trouve une telle fonctionnalité vitale pour notre société attaquée par des fake news de tous types…

7 juin 2023
L’IA générative une chance pour les média ?

Depuis des années, des contenus sont automatiquement générés lors des élections locales par exemple. A partir des décomptes de votes, il est possible de générer de petits textes pour chaque département, chaque ville, voire chaque bureau de vote. Pas de l’IA, mais de la génération de textes qui simplifient le travail des journalistes.

ChatGPT a ouvert les yeux du public à d’autres applications. Des textes plus complets, des points de vue plus orientés, voire de la véritable création d’opinions ! On imagine donc que des journaux vont utiliser ChatGPT pour générer des contenus semi-automatisés.

La génération d’images avec des outils comme MidJourney ou Criayon a aussi fait grand bruit. Il est souvent aujourd’hui difficile de détecter ces images 100% artificielles. Bon d’accord, il y a parfois quelques doigts de trop à une main, mais ça passe souvent inaperçu.

Côté vidéo, dès 2019, un deep fake remplaçait le visage de Jack Nicholson par celui de Jim Carrey. De nombreux ‘autres exemples sont venus récemment montrer le potentiel et la dangerosité de ces outils.

On pourrait donc penser que les média vont très vite se saisir des nouvelles technologies, et faire générer par ordinateur des textes, des images (ça coûte cher un photographe), et des vidéos (c’est dangereux le métier de reporter de guerre !).

Mais non, je pense que c’est tout le contraire qui va se passer.

Vous savez peut-être comme je suis attaché à la lutte contre la désinformation scientifique, sociale et politique. C’est je pense l’un des plus grands dangers pour nos démocraties.

Ce ne sont pas les journalistes qui vont le plus s’accaparer ces outils. Ce sont ceux qui n’ont justement pas les principes déontologiques des journalistes. Les technologies génératives vont pulluler sur les réseaux sociaux, les sites conspirationnistes.

Pourquoi ? Justement parce qu’elles s’affranchissent de la vérité. Elles sont intrinsèquement faites pour créer des vérités alternatives, voire des mensonges, donc des fake news.

Que va-t-il donc se passer ? Une prolifération illimitée de contenus créés, plus vrais que nature. Il ne sera pas possible de distinguer le vrai du faux (le problème du nombre de doigts n’est que transitoire). Plus encore que maintenant, l’accent sera mis sur l’émotion, au détriment de la raison. Plutôt que de suggérer que Macron et Céline Dion se repaissent de sang d’enfants sacrifiés pour l’élite (le mythe de l’adrénochrome, présenté dans TPMP sans que M. Anouna ne le démonte), on montrera une vidéo où les intéressés sont pris la main dans le sac.

« Vu à la télé », vous vous souvenez de ces étiquettes qui fleurissaient sur les packagings ? « C’est vrai, je l’ai vu sur Internet » disons-nous depuis 20 ans. Plus aucun de ces mantras n’aura peut-être de sens à l’avenir.

Qui croira-t-on alors ? On croira ses proches (cet aspect ne disparaîtra pas). Certains, pourfendeurs de l’ordre établi, croiront les sources qui corroborent leurs points de vue. Mais la grande majorité ne croira plus grand-monde au final.

C’est là qu’intervient la fiabilité des sources. On ne croira plus que ceux en qui on peut avoir confiance.

La démocratisation de l’accès puis de la génération de l’information ont créé les deux premières grandes périodes de l’internet. On a atteint aujourd’hui les limites de ce système. Certains disent déjà : pourquoi croire un journaliste (payé pour écrire, par des journaux eux-mêmes financés par des milliardaires ou des états) plutôt qu’un individu lambda, seulement mu par sa volonté de faire éclater la vérité ?

Cela correspond je trouve à un aspect de la République de Platon : la démocratie dégénère en anarchie. Dans un précédent article, j’avais pointé la responsabilité des algorithmes des réseaux sociaux dans cette évolution. Cette responsabilité se voit maintenant amplifiée par l’IA générative.

A force de dire que tout le monde se vaut, plus personne n’a de valeur. Lorsqu’il y aura tellement de contenus crédibles que tout et son contraire pourra être cru, plus rien n’aura d’importance.

Il se peut alors, je croise les doigts, que des marques média, à condition qu’elles mettent en avant leur déontologie, redeviennent des sources fiables auxquelles il faudra se référer.

Non pas pour les irrécupérables qui ne comprennent que ce qu’ils veulent comprendre.
Mais pour ceux, sincères, qui s’intéressent, qui cherchent à rationaliser le monde, qui critiquent ce qu’ils voient et ne croiront plus tout ce qu’on leur montre, pour ceux là, les média redeviendront une source de confiance.

En politique, la démocratie me semble un meilleur système que l’oligarchie. Mais à l’ère de l’anarchie créée par l’intelligence artificielle générative et les réseaux sociaux, le système oligarchique, où certains ont plus de crédibilité (les média, avec des contenus sourcés, vérifiés et passés au crible de principes déontologiques), un tel système peut nous protéger des réalités alternatives, des mensonges et des fake news.

18 avril 2023