Étiquette : ia

  • Du bon usage de l’IA dans la publicité digitale

    Du bon usage de l’IA dans la publicité digitale

    IA, agents, AdCP, MCP… Le marché publicitaire est à l’image de la planète : tout est IA.

    Ne pas en faire, c’est disparaître à court terme. En faire, c’est faire disparaître ses concurrents, ses salariés, et au final son propre job…

    Alors on voit fleurir tout et n’importe quoi sur l’IA dans la publicité digitale. L’automatisation de tâches répétitives et inintéressantes fait fantasmer les cost-killers. Et c’est certainement justifié.

    Mais la pensée magique est aussi à l’œuvre pour résoudre toutes les questions de performance publicitaire. On prête à l’IA la capacité de gérer des campagnes, de choisir qui toucher, où les toucher, comment les toucher, avec quels messages, quelles créations (elles aussi générées par IA), et finalement d’analyser les milliards de données collectées.

    Tout ceci est vrai.
    Mais tout ceci était déjà vrai avec des méthodes éprouvées et des personnes expérimentées. Donc l’IA permettra de mieux gérer les campagnes, de mieux choisir qui toucher, etc.

    Alors dans quels cadres l’IA va-t-elle le plus apporter dans la publicité digitale ?

    L’agrégation de données bas niveau : comment rendre service sans créer de biais

    L’IA sait très bien agréger des données textuelles massives et granulaires. Chez Implcit, nous l’utilisons depuis des années pour regrouper les centres d’intérêts (des dizaines de milliards de lignes), les produits sur les sites de e-commerce, les vidéos sur des plateformes, etc.
    Ca fonctionne très bien, et de toutes façons, ce serait impossible à faire à la main.

    Mieux, les erreurs de l’IA (elles sont inévitables) se produisent dans ce que j’appelle les « basses couches » de l’analyse. Au-dessus de ces agrégations, nous faisons toutes sortes de calculs. Si l’IA se trompe sur un mot-clé, elle ne se trompe pas sur le mot-clé d’à côté. Dans ce cas, les erreurs de l’IA ne génèrent qu’un bruit.

    Le bruit n’est pas un biais.
    Le bruit peut limiter la qualité de l’information produite ensuite. Mais il ne remet pas en question les décisions qui sont prises. Car ce n’est pas l’IA qui prend les décisions.

    Le prompt comme interface homme-machine

    L’autre bon usage de l’IA, c’est le prompt.
    Les agences média et les régies publicitaires doivent gérer des campagnes de tous les secteurs. Comment peut-on être spécialiste de tous les secteurs ?

    Il faudrait en théorie connaître les acteurs concurrents de l’annonceur, les outils qui permettent de choisir la bonne marque (comparateurs), les centres d’intérêts des clients de l’annonceur, et même de ses prospects ! Mission impossible…

    La puissance du ciblage d’Implcit est que l’on peut créer une cible média sur des critères variés (comportement digital, intérêts, achats…).
    Lorsque l’on cherche à traduire un besoin d’annonceur, on cherche à se mettre dans la peau de son client : qu’est-ce qui m’intéresse, qu’est-ce que j’achète, où puis-je trouver de l’information, quels sont les concurrents ? Et ça se termine souvent par des recherches sur Google ou autres.

    Et c’est là que les prompts remplissent un rôle d’intermédiaire entre l’homme et la machine. Il suffit de décrire la population que l’on cherche à toucher, et l’agent Implcit préremplit tous les champs pertinents.

    Si on n’aime pas la course à pied (c’est mon cas), on ne connaît pas grand chose à ce sujet. Il est donc difficile de se mettre dans la peau d’un marathonien, ou, pire, d’un ultra-trailer…

    Voici un exemple de réponse apportée par notre agent à une demande de ciblage sur le marathon, l’hyrox, le triathlon, etc.

    L’IA connaît tous les sites et toutes les applications qui peuvent intéresser la cible. Plus besoin d’être un spécialiste !

    Un gain de temps tel que, après quelques mois d’utilisation interne, l’agent a été déployé aux clients d’Implcit avant même que l’annonce soit faite (cet article) ! On ne peut pas priver un client d’un tel outil !!!

    Maîtriser l’Intelligence Artificielle

    L’IA peut se tromper en agrégeant des données, mais, on l’a vu, ses erreurs ne génèrent au pire que du bruit.

    L’agent IA aussi peut se tromper. Dans ce cas, l’important est que l’humain aura le dernier mot.
    Dans l’exemple que j’ai cité, j’ai retiré le site decathlon.fr. Ce n’est pas une erreur (ce site est très affinitaire avec tous les sportifs, dont les coureurs). Mais sur une population très spécialisée, ce site m’a semblé trop généraliste.

    Dans les deux cas, il faut tenir compte des erreurs (bruit), ou contrôler l’IA. Ses erreurs ne doivent pas impacter les décisions importantes.

    Chez Implcit, les décisions importantes concernent l’allocation de budgets publicitaires. Les sommes en jeu peuvent être colossales ! En France, on parle de milliards d’Euros investis annuellement. Pire, ceux qui gèrent ces investissements (les agences média) ne sont pas ceux qui fournissent les fonds (les annonceurs). Lorsqu’on vous confie les cordons de la bourse, on n’a pas le droit à l’erreur.

    Les statistiques fournissent des solutions fiables et démontrables. Ces méthodes ont démontré leur efficacité depuis des décennies. On peut expliquer les calculs si besoin. Rien à voir avec les boites noires des IA.

    « T’inquiète, c’est de l’IA, tu peux pas comprendre ! ».

    Et que dire des données qui nourrissent les IA ? Sont-elles vraies ? Le taux de fausses informations sur Internet baisse en permanence et dépasse les 10% (voir https://www.franceinfo.fr/internet/reseaux-sociaux/les-reseaux-sociaux-sont-durablement-permeables-aux-fake-news-avec-notamment-un-contenu-d-information-sur-quatre-trompeur-sur-tiktok-selon-une-etude_7877903.html).
    Quand bien même elles sont vraies, sont-elles biaisées ? Une IA entraînée sur X, comme Grok, sera-t-elle pertinente pour décrire des cibles autres que les hommes américains, blancs et chrétiens et hétéros ?

    Un jour peut-être l’IA sera fiable et démontrable. En attendant, il faut l’utiliser quand elle rend des services utiles, la contrôler, quand elle peut se tromper, et la remplacer, quand on doit prendre des décisions importantes.

  • Machine-learning ou Human-learning ?

    Machine-learning ou Human-learning ?

    L’industrie des média n’est pas radicalement différente des autres. La révolution de l’IA y est à l’œuvre depuis longtemps. Et pas seulement l’IA générative qui fait le buzz, mais l’IA « dure », celle qui calcule, fait des statistiques…

    La complexité des signaux que l’on peut traiter en publicité digitale, et l’imprédictibilité de l’être humain (je crois que c’est dans Amphitryon 38 qu’il est dit que le meilleur endroit pour qu’un dieu se cache, c’est l’âme humaine, tellement elle est complexe) font de la publicité est sujet d’étude plus intéressant qu’on ne le croit souvent.

    De plus, ce qui est vrai pour le média digital ne l’est pas pour la télévision, la presse, l’affichage voire la radio, où les données sont beaucoup plus rares.

    Une marque peut dire : je connais ma cible, ce sont des femmes qui achètent des parfums et sont sensibles à l’écologie.

    Un informaticien peut dire : moins j’ai d’a priori au départ, plus je garde de possibilités d’optimisation.

    Qui a raison ?

    A un certain niveau de complexité, nos neurones atteignent leurs limites. Seules des machines peuvent tout traiter, corréler, analyser et piloter.

    Doit-on pour autant laisser les clés de sa voiture à une machine ?

    Comme me l’avait dit Nico (mon cofondateur préféré, Alenty et Implcit), « avec la publicité, on ne sauve pas de vie, mais au moins on ne tue personne ». Les enjeux ne sont donc pas aussi importants que dans la conduite autonome.

    Mais pour les personnes qui pilotent les stratégies média, si elles ne perdent pas la vie, elles peuvent perdre leur job ou leur prime en cas d’erreur.

    Selon Descartes, « le bon sens est la chose du monde la mieux partagée ». On interprète souvent mal cet aphorisme. « La mieux partagée » signifie que certains n’en ont pas beaucoup, et non que tout le monde en a.

    Mais si certains humains peuvent d’avoir que peu de bon sens, au moins en ont-ils un peu. Ce qui n’est pas le cas des machines.

    J’ai déjà montré comme ChatGPT est moins bon qu’un élève de CE1 pour faire des additions. Une machine n’a aucun bon sens. Elle fera ce qu’on lui dit de faire, bêtement, sans prendre de recul. Quel humain aurait viré 81 000 milliards de dollars sur un compte de particulier ?

    Les machines peuvent donc se tromper et doivent toujours être surveillées.

    En publicité digitale, les optimisations sont souvent difficiles à comprendre. Par exemple, chez Implcit, on modélise les populations performantes pour une campagne (cliqueurs, visiteurs, etc.) à partir des remontées réelles. Ce profil d’individus performants est complexe : il peut être décrit à l’aide de milliers de critères : profil socio-démographique, comportement, centres d’intérêts, etc.

    Mais quand bien même il ne peut pas se résumer à une caractéristique humainement compréhensible, ce profil multiforme devient, dans notre système, la nouvelle population à cibler.

    Et les performances sont là, comme on peut le voir dans cette analyse :

    On pourrait donc dire que le machine-learning l’emporte sur le human-learning.

    Et bien je ne le pense pas. Les deux doivent coexister.

    Premièrement, parce que le machine-learning ne travaille que sur les objectifs qu’on lui a donnés. Par exemple, les clics sont-ils vraiment le but ultime de la marque ? La machine peut donc fournir d’excellents résultats sur le mauvais objectif.

    Deuxièmement parce que les algorithmes sont trop souvent des boites noires. Mon argument ci-dessus sur la complexité des profils performants reste vrai. Mais ça ne doit pas interdire au donneur d’ordre d’en apprendre plus.

    Et sur ce point, les pires algorithmes sont les réseaux de neurones, ceux qui font le deep learning et l’IA générative. Par construction, il leur est impossible d’expliquer pourquoi ils ont pris telle ou telle décision (sauf à développer une IA dédiée à trouver cette explication).

    En conclusion, l’humain a encore son mot à dire.
    En amont d’une campagne, il va choisir des persona qu’il souhaite toucher. Que ces persona soient définis à partir de données complexes n’est pas incompatible avec un choix stratégique qui peut même aller à l’encontre des chiffres (ne serait-ce que pour se différencier).
    En cours de campagne, les remontées d’informations humainement compréhensibles peuvent permettre de rattraper des erreurs. Mais peut-être plus important encore, de construire de la confiance envers le système.
    Enfin, après une campagne, l’humain doit s’approprier les enseignements. La publicité n’est qu’un élément dans la stratégie d’un produit. Les évolutions du produit, les messages, les tactiques média, tout doit se combiner.

    Car in fine, ce sont des humains qui prennent les grandes décisions.

  • Vers une sémantique « user-centric » ?

    Vers une sémantique « user-centric » ?

    Au début des années 2000, je bossais (déjà) dans les panels Internet. J’étais (déjà) intéressé par la sémantique et l’IA.

    Je bossais avec un labo de recherche en traitement du langage, quand une équipe de Google a publié un article révolutionnaire. Leurs algorithmes utilisaient d’énormes volumes de données, et obtenaient des résultats extraordinaires. « The power of one billion » : ces méthodes ne devenaient efficaces qu’à partir d’un milliard de documents analysés.

    Les chercheurs du labo étaient sonnés : linguistes de formation, leurs analyses reposaient principalement sur les liens entre les mots, les champs linguistiques. L’approche statistique de Google remettait en cause 20 ans de travail pour certains.

    Aujourd’hui, on a tous intégré qu’une Intelligence Artificielle n’a besoin de rien connaître a priori pour fournir des résultats intéressants. Les algorithmes statistiques n’ont pas besoin de savoir ce qu’est un nom ou un verbe (je schématise mais l’idée est là), comme l’IA générative peut créer une image très ressemblante à Emmanuel Macron, mais avec six doigts…

    Après la sémantique linguistique, la sémantique statistique des documents, Implcit a peut-être inventé la sémantique statistique des personnes. 😉

    Le panel de Médiamétrie nous fournit plus d’un milliard de signaux du type : le panéliste 123 a visité la page ABC. En découpant les URLs en mots, on décuple cette information : le panéliste 123 a visité une page qui parle de A, de B et de C.

    Il y a du bruit évidemment, mais peut-être dix fois moins qu’une analyse de contenu des pages. Et pourquoi ? Parce que les URLs sont un élément-clé du référencement dans les moteurs de recherche. Les sections et sous-sections sont donc nommées avec beaucoup de précautions. Notamment, les homonymes sont évités la plupart du temps, pour que les recherches soient efficaces.

    On obtient donc une énorme base de données entre des individus (les panélistes) et leurs centres d’intérêts.

    Créer une cible des internautes intéressés par les voitures hybrides ou le déménagement devient un jeu d’enfants.

    Alors, je me suis amusé à regarder les relations entre les mots-clés. L’idée est la suivante : quels sont les mots-clés les plus affinitaires avec la population qui est intéressée par un mot-clé donné ?

    Rendez-vous compte de la complexité de cette simple question. Cela revient à construire une matrice de plusieurs milliards de lignes et plusieurs milliards de colonnes !

    Un des premiers besoins auxquels cette méthode répond est la brand safety. Dans certains résultats, on cherche à bloquer des mots (block-list). Prenons l’exemple du porno. On peut se creuser les méninges pour trouver des mots liés à cette thématique, si on n’est pas expert. Ou on peut demander à notre système les mots les plus affinitaires avec les individus intéressés par le porno.

    Et là, les résultats sont impressionnants ! Des centaines de mots et de combinaisons de mots sont venus remplir notre block-list, simplement sur le thème du porno. Je ne vous cache pas que j’ai appris plein de trucs, dont certains que je regrette de connaître maintenant 😳 !

    Pour rappel, ce ne sont pas des mots qui se retrouvent dans des pages porno, mais simplement les mots les plus affinitaires avec les individus intéressés par le porno. Ce sont donc des liens beaucoup plus larges, mais tout aussi puissants !

    Cette méthode s’applique à des thèmes comme la guerre, Gaza, les accidents, etc. Naviguer de mots en mot est une activité assez fascinante. C’est toute la sociologie des Français en un clic !

    On a donc considérablement renforcé notre brand safety de cette manière.

    Mais on en arrive aussi à se poser des questions philosophiques amusantes. Par exemple, doit-on bloquer un mot anodin, lorsqu’il n’est affinitaire qu’avec des mots qui sont eux-mêmes bloqués ? En effet, ce mot anodin en apparence, ne l’est peut-être plus sur Internet. Donc la plupart des contenus liés à ce mot pourraient ne pas être « brand safe ».
    Par exemple, les mots affinitaires avec « chat » (litière, croquettes…), ne sont pas les mêmes qu’avec « chatte » (pas besoin de vous donner d’exemples). Ce qui est étonnant, c’est que dans ce cas, les mots liés au porno sont écrasants !

    Étant donnée la représentativité du panel Internet de Médiamétrie, on ne parle pas ici d’un biais d’analyse, mais bien d’une vérité sociologique. Je vous laisse en tirer vos conclusions sur vos voisins de bureau… 🤔

    Cette nouvelle méthode d’analyse sémantique trouve plusieurs applications :

    Faire penser à des thématiques affinitaires avec une population intéressée par un thème donné.
    En effet, lorsqu’on cible des individus, on cherche à obtenir une population large mais cohérente. Avec cette méthode, on trouve des individus « voisins » d’une population donnée. Par construction, ils sont proches des premiers, plus proches mêmes que ceux ciblés sur des mots d’un même champ sémantique par exemple.

    Étendre les mots-clés de recherche lors d’une campagne adwords.
    Vous achetez des mots-clés, mais vous pensez certainement aux mêmes mots que vos concurrents. Et Google se frotte les mains parce que les enchères augmentent. Et les mots que Google vous propose sont les mêmes que ceux qu’il propose à vos concurrents, et hop! les enchères s’envolent encore ! Trouver les mots différents de ceux de vos concurrents, mais qui seront cherchés par les mêmes personnes que vous ciblez, vous permet de vous démarquer.

    En conclusion, je dis parfois qu’un panel comme celui-ci constitue une immense base sociologique. On comprend les relations entre les centres d’intérêts, les comportements, et même les achats.

    De quoi alimenter notre IA et rendre ces informations opérationnelles !

  • L’IA générative une chance pour les média ?

    L’IA générative une chance pour les média ?

    Depuis des années, des contenus sont automatiquement générés lors des élections locales par exemple. A partir des décomptes de votes, il est possible de générer de petits textes pour chaque département, chaque ville, voire chaque bureau de vote. Pas de l’IA, mais de la génération de textes qui simplifient le travail des journalistes.

    ChatGPT a ouvert les yeux du public à d’autres applications. Des textes plus complets, des points de vue plus orientés, voire de la véritable création d’opinions ! On imagine donc que des journaux vont utiliser ChatGPT pour générer des contenus semi-automatisés.

    La génération d’images avec des outils comme MidJourney ou Criayon a aussi fait grand bruit. Il est souvent aujourd’hui difficile de détecter ces images 100% artificielles. Bon d’accord, il y a parfois quelques doigts de trop à une main, mais ça passe souvent inaperçu.

    Côté vidéo, dès 2019, un deep fake remplaçait le visage de Jack Nicholson par celui de Jim Carrey. De nombreux ‘autres exemples sont venus récemment montrer le potentiel et la dangerosité de ces outils.

    On pourrait donc penser que les média vont très vite se saisir des nouvelles technologies, et faire générer par ordinateur des textes, des images (ça coûte cher un photographe), et des vidéos (c’est dangereux le métier de reporter de guerre !).

    Mais non, je pense que c’est tout le contraire qui va se passer.

    Vous savez peut-être comme je suis attaché à la lutte contre la désinformation scientifique, sociale et politique. C’est je pense l’un des plus grands dangers pour nos démocraties.

    Ce ne sont pas les journalistes qui vont le plus s’accaparer ces outils. Ce sont ceux qui n’ont justement pas les principes déontologiques des journalistes. Les technologies génératives vont pulluler sur les réseaux sociaux, les sites conspirationnistes.

    Pourquoi ? Justement parce qu’elles s’affranchissent de la vérité. Elles sont intrinsèquement faites pour créer des vérités alternatives, voire des mensonges, donc des fake news.

    Que va-t-il donc se passer ? Une prolifération illimitée de contenus créés, plus vrais que nature. Il ne sera pas possible de distinguer le vrai du faux (le problème du nombre de doigts n’est que transitoire). Plus encore que maintenant, l’accent sera mis sur l’émotion, au détriment de la raison. Plutôt que de suggérer que Macron et Céline Dion se repaissent de sang d’enfants sacrifiés pour l’élite (le mythe de l’adrénochrome, présenté dans TPMP sans que M. Anouna ne le démonte), on montrera une vidéo où les intéressés sont pris la main dans le sac.

    « Vu à la télé », vous vous souvenez de ces étiquettes qui fleurissaient sur les packagings ? « C’est vrai, je l’ai vu sur Internet » disons-nous depuis 20 ans. Plus aucun de ces mantras n’aura peut-être de sens à l’avenir.

    Qui croira-t-on alors ? On croira ses proches (cet aspect ne disparaîtra pas). Certains, pourfendeurs de l’ordre établi, croiront les sources qui corroborent leurs points de vue. Mais la grande majorité ne croira plus grand-monde au final.

    C’est là qu’intervient la fiabilité des sources. On ne croira plus que ceux en qui on peut avoir confiance.

    La démocratisation de l’accès puis de la génération de l’information ont créé les deux premières grandes périodes de l’internet. On a atteint aujourd’hui les limites de ce système. Certains disent déjà : pourquoi croire un journaliste (payé pour écrire, par des journaux eux-mêmes financés par des milliardaires ou des états) plutôt qu’un individu lambda, seulement mu par sa volonté de faire éclater la vérité ?

    Cela correspond je trouve à un aspect de la République de Platon : la démocratie dégénère en anarchie. Dans un précédent article, j’avais pointé la responsabilité des algorithmes des réseaux sociaux dans cette évolution. Cette responsabilité se voit maintenant amplifiée par l’IA générative.

    A force de dire que tout le monde se vaut, plus personne n’a de valeur. Lorsqu’il y aura tellement de contenus crédibles que tout et son contraire pourra être cru, plus rien n’aura d’importance.

    Il se peut alors, je croise les doigts, que des marques média, à condition qu’elles mettent en avant leur déontologie, redeviennent des sources fiables auxquelles il faudra se référer.

    Non pas pour les irrécupérables qui ne comprennent que ce qu’ils veulent comprendre.
    Mais pour ceux, sincères, qui s’intéressent, qui cherchent à rationaliser le monde, qui critiquent ce qu’ils voient et ne croiront plus tout ce qu’on leur montre, pour ceux là, les média redeviendront une source de confiance.

    En politique, la démocratie me semble un meilleur système que l’oligarchie. Mais à l’ère de l’anarchie créée par l’intelligence artificielle générative et les réseaux sociaux, le système oligarchique, où certains ont plus de crédibilité (les média, avec des contenus sourcés, vérifiés et passés au crible de principes déontologiques), un tel système peut nous protéger des réalités alternatives, des mensonges et des fake news.

  • ChatGPT, 14 et l’infini

    ChatGPT, 14 et l’infini

    Je pense que c’est le titre le plus ésotérique de mes articles !

    Si vous avez compris de quoi je vais parler aujourd’hui, vous êtes plus forts que ChatGPT, dont tout le monde parle en ce moment !

    « ChatGPT est un prototype d’agent conversationnel utilisant l’intelligence artificielle développé par OpenAI et spécialisé dans le dialogue. » (source Wikipedia).

    A partir d’une interface de tchat (j’écris « tchat » en français pour éviter les félineries induites par le mot « chat »), on interroge une intelligence artificielle, qui répond en langage humain. ChatGPT a ingurgité tout ce qu’il est possible de trouver sur Internet jusqu’en 2021. Il comprend plusieurs langues, en parle plusieurs, traduit de l’une à l’autre, synthétise des textes, relie des informations, etc.
    Selon mon fils cadet qui est en quatrième, l’un de ses copains a déjà utilisé ChatGPT pour répondre à un devoir à la maison.

    Je me suis donc attelé à tester ChatGPT, selon une méthode que j’utilise depuis 1994.

    Petit aparté personnel.

    En 1993, élève ingénieur, j’ai proposé à mon école (ENSTA ParisTech) d’étudier le thème de l’infini dans l’oeuvre de l’écrivain argentin Jorge Luis Borges. Mes horaires ont été adaptés (je n’ai jamais trop aimé l’électronique), et j’ai écrit un essai d’une centaine de pages qui couvre les différentes formes de l’infini chez Borges : l’accumulation, le cercle, le « ou » borgesien, la bibliothèque objet fractal, et le 14.

    Le 14 est la seule forme de l’infini dont je n’ai pas trouvé l’explication. J’ai trouvé de nombreuses références au 14 dans l’oeuvre de Borges : 14 jours qui durent en fait une éternité, les 14 pièces de la demeure d’Astérion (« Le texte original dit quatorze, mais maintes raisons invitent à supposer que, dans la bouche d’Astérion, ce nombre représente l’infini ».), etc.

    En 1998, je suis contacté par le Borges Research Center qui me propose de publier mon essai ! Vous pouvez lire une version sur le site de l’université de Pittsburg.

    Depuis 1993, à l’occasion de mes lectures, je cherche des références au nombre 14, dans la cabale juive, dans d’obscurs poètes médiévaux que chérissait Borges. Rien. En 1993, j’avais déjà conclu que Borges avait inventé cette référence.

    Dès qu’un nouveau moteur de recherche sort, je teste « 14 infini ». Je ne trouve généralement que mon propre texte, ou quelques autres qui y font référence. Mais toujours rien.

    Donc en 2018, passant par Buenos-Aires, je visite le musée Borges. Je discute avec la mamie qui le surveille, et parle de mon essai sur l’infini. Elle a connu Borges et me confirme sa connaissance approfondie des mathématiques. Je lui demande si le nombre 14 avait une signification particulière pour Borges. Elle ne voit pas, non…

    Quelques minutes plus tard, je vois la mamie au téléphone. Lorsqu’elle raccroche, elle vient me voir et m’explique qu’elle a appelé la femme de Borges ! Elle non plus ne voit pas de lien entre 14 et l’infini. Tant pis, ça m’aura au moins fait une jolie histoire à raconter dans le blog de notre voyage.

    J L Borges par Séverin, 8 ans

    Fin de l’aparté personnel.

    Arrive ChatGPT. Par réflexe, je tape, non pas une recherche, mais une question ouverte : « Pourquoi Borges fait-il référence au nombre 14 ? ».
    Réponse de l’IA : « Jorge Luis Borges fait souvent référence au nombre 14 comme symbole de l’infini et de l’éternité ».

    Wow ! ChatGPT a non seulement lu mon essai, mais il semble l’avoir compris ! Je me sens un peu fier…

    Je continue mes investigations : « Quel est le lien entre 14 et l’infini ? ».
    Réponse de l’IA : « Le nombre 14 est souvent utilisé pour symboliser l’infini parce que c’est la somme des quatre premiers nombres premiers (2+3+5+7 = 14). C’est parce que les nombres premiers sont considérés comme les blocs fondateurs de l’univers, et la somme des quatre premiers nombres premiers est vue comme la représentation des infinies possibilités de l’univers ».

    Wow, wow, wow ! Après 30 ans de recherche, j’aurais donc trouvé la solution !!! Grâce à une simple question à une IA !

    J’étais à la fois content. La réponse est argumentée, logique, borgesienne.
    Mais j’étais aussi déçu de ne pas avoir découvert cette explication en fouillant dans d’obscurs grimoires dans 20 ans, pendant ma retraite (j’apprends en ce moment l’espagnol avec le projet fou de faire un doctorat sur l’infini chez Borges pendant mes vieux jours).

    Je me dis que cette piste me laisse de la matière pour continuer mes recherches, et que mon projet fou peut encore se faire.

    Le lendemain matin, je fais deux ou trois calculs autour des nombres premiers. Et j’arrive à la conclusion suivante : ChatGPT s’est foutu de ma gueule ! Il a écrit 2+3+5+7=14, alors que 2+3+5+7=17 !!!

    Un milliard de dollars investis dans une IA qui ne sait pas faire une addition d’école primaire !!!

    Je ne suis pas le seul à avoir trouvé des failles dans ChatGPT, mais la mienne est vraiment criante.

    Ca m’inspire quelques réflexions sur l’intelligence artificielle.
    Une IA est faite pour proposer des idées, trouver des liens improbables, même les présenter d’une manière intelligente, presque humaine, comme ChatGPT.

    Mais l’IA n’est pas fiable. Elle peut se tromper. La complexité obscure de ses mécanismes rend possibles des erreurs indétectables. Les réseaux de neurones donnent des réponses probables, mais pas certaines.

    Dans mon cas, ChatGPT a inventé une réponse sur la base de vérités. Mais il a surtout cherché à répondre à ma question, quitte à raconter n’importe quoi !

    En conclusion, laisser une IA prendre des décisions à votre place est très risqué. Une IA peut déceler des cancers sur une image de mammographie. Mais on est loin de la laisser décider d’opérer, encore moins d’opérer elle-même. Pensez-y quand vous vous remettez aux mains d’une IA dans votre business…

    Quant à ma quête, j’avais exploré les nombres premiers lors de mon étude sur Borges. Les voir comme les briques de base de la construction de l’univers est une piste intéressante, mais ça n’explique pas le 14. Il me reste de quoi occuper mes vieux jours…

    Copie d’écran de ma discussion avec ChatGPT

  • De l’empilement des niveaux d’abstraction

    De l’empilement des niveaux d’abstraction

    Lorsqu’on invente une solution technologique, on passe son temps à imaginer comment on peut faire parler les data. C’est mon métier depuis 25 ans, j’affirme donc sans fausse modestie que je peux m’exprimer sur le sujet. Mais cet article a aussi une dimension métaphorique (je généralise volontairement à outrance), et humoristique…

    Toute analyse met en scène des niveaux d’abstraction. Regrouper des données selon une dimension revient à perdre de l’information, mais en même temps, cela revient à l’abstraire selon un axe, un concept, qui la rend plus compréhensible.

    Ce concept peut lui-même se trouver relié à d’autres concepts selon des formules plus variées, et avec des fiabilités variables.

    Ainsi, on empile les niveaux d’abstraction. Au final, on peut tout relier à tout, et au bout du bout, plus rien ne veut rien dire. « Tout est dans tout » écrivait Anaxagore vers 450 avant JC., « Et réciproquement » ajoutait malicieusement Alfred Capus début XXème.

    Prenons un exemple concret. Chez Implcit, nous avons accès à toutes les données mesurées par Médiamétrie sur le panel Internet. Pour chaque page, groupe de pages, site, groupe de sites, application, groupe d’applications, nous savons quels panelistes ont visité ce groupe. Il suffit alors de les agréger pour connaître le profil complet de leurs visiteurs. C’est une mesure directe.
    Nous aurions pu passer par un niveau d’abstraction supplémentaire. Aller voir de quoi parlent les pages, analyser les profils par thématique, et en déduire le profil d’un groupe de thématiques. Mais pourquoi ajouter un niveau d’abstraction inutile ? Cela ne ferait qu’augmenter le flou des données, baisser la confiance que l’on pourrait avoir dans les résultats.

    Il vaut mieux une lecture directe des profils qu’une lecture indirecte.

    Pas plus tard qu’hier, un client m’a dit : pour certains annonceurs, « IA » est un deal breaker !
    Pourquoi l’Intelligence Artificielle qui rend riche quiconque l’ajoute à son Business Plan a-t-elle mauvaise presse chez certains opérationnels ?
    L’IA utilise souvent des réseaux de neurones. Cette simplification du cerveau humain se matérialise par des couches de neurones, chaque couche étant reliée à la précédente et à la suivante. Par exemple, une première couche peut représenter les pixels d’une image, et la couche finale, les 10 valeurs de chiffres (le résultat de la reconnaissance d’images). Au milieu des couches d’abstraction qui ne représentent véritablement rien du monde réel. Plus on empile les couches, plus on transforme les données, mais moins le résultat final est explicable.

    L’explicabilité des résultats est importante pour créer la confiance.
    C’est pourquoi certains annonceurs ne se contentent pas de lire « IA » pour croire ce qu’on leur vend. L’IA donne parfois de bons résultats. Elle permet de découvrir des relations cachées.
    Mais l’IA peut se tromper, souvent. Et surtout l’IA est une boite noire dont personne, pas même ses créateurs, ne peut expliquer le processus de décision.

    La publicité digitale a longtemps travaillé avec zéro degrés d’abstraction. Les cookies étaient reliés les uns aux autres de manière déterministe. L’identifiant 123 est égal à l’identifiant 456, 123 a visité la page abc, donc je sais que 456 a visité la page abc.

    L’approche par panel ajoute un niveau d’abstraction. N panélistes ont visité la page abc, le panel est représentatif donc je peux estimer le profil des publicités de la page abc.

    En ajoutant un niveau d’abstraction supplémentaire, on commence à faire une inférence d’inférence, c’est à dire une « Opération logique par laquelle on admet une proposition en vertu de sa liaison avec d’autres propositions déjà tenues pour vraies ». A est relié à B (avec un coefficient de corrélation), B est relié à C (avec un autre coefficient de corrélation), donc A est relié à C.

    On en arrive presque aux corrélations absurdes listées dans un site comme celui-ci : https://www.tylervigen.com/spurious-correlations . J’adore la corrélation entre le nombre de films avec Nicolas Cage et le nombre de noyades dans des piscines ! 😀

    Bref, ne nous gargarisons pas de buzzwords, faisons des choses simples, compréhensibles, et qui marchent. Ce serait déjà pas mal !