Au début des années 2000, je bossais (déjà) dans les panels Internet. J’étais (déjà) intéressé par la sémantique et l’IA.
Je bossais avec un labo de recherche en traitement du langage, quand une équipe de Google a publié un article révolutionnaire. Leurs algorithmes utilisaient d’énormes volumes de données, et obtenaient des résultats extraordinaires. « The power of one billion » : ces méthodes ne devenaient efficaces qu’à partir d’un milliard de documents analysés.
Les chercheurs du labo étaient sonnés : linguistes de formation, leurs analyses reposaient principalement sur les liens entre les mots, les champs linguistiques. L’approche statistique de Google remettait en cause 20 ans de travail pour certains.
Aujourd’hui, on a tous intégré qu’une Intelligence Artificielle n’a besoin de rien connaître a priori pour fournir des résultats intéressants. Les algorithmes statistiques n’ont pas besoin de savoir ce qu’est un nom ou un verbe (je schématise mais l’idée est là), comme l’IA générative peut créer une image très ressemblante à Emmanuel Macron, mais avec six doigts…
Après la sémantique linguistique, la sémantique statistique des documents, Implcit a peut-être inventé la sémantique statistique des personnes. 😉
Le panel de Médiamétrie nous fournit plus d’un milliard de signaux du type : le panéliste 123 a visité la page ABC. En découpant les URLs en mots, on décuple cette information : le panéliste 123 a visité une page qui parle de A, de B et de C.
Il y a du bruit évidemment, mais peut-être dix fois moins qu’une analyse de contenu des pages. Et pourquoi ? Parce que les URLs sont un élément-clé du référencement dans les moteurs de recherche. Les sections et sous-sections sont donc nommées avec beaucoup de précautions. Notamment, les homonymes sont évités la plupart du temps, pour que les recherches soient efficaces.
On obtient donc une énorme base de données entre des individus (les panélistes) et leurs centres d’intérêts.
Créer une cible des internautes intéressés par les voitures hybrides ou le déménagement devient un jeu d’enfants.
Alors, je me suis amusé à regarder les relations entre les mots-clés. L’idée est la suivante : quels sont les mots-clés les plus affinitaires avec la population qui est intéressée par un mot-clé donné ?
Rendez-vous compte de la complexité de cette simple question. Cela revient à construire une matrice de plusieurs milliards de lignes et plusieurs milliards de colonnes !
Un des premiers besoins auxquels cette méthode répond est la brand safety. Dans certains résultats, on cherche à bloquer des mots (block-list). Prenons l’exemple du porno. On peut se creuser les méninges pour trouver des mots liés à cette thématique, si on n’est pas expert. Ou on peut demander à notre système les mots les plus affinitaires avec les individus intéressés par le porno.
Et là, les résultats sont impressionnants ! Des centaines de mots et de combinaisons de mots sont venus remplir notre block-list, simplement sur le thème du porno. Je ne vous cache pas que j’ai appris plein de trucs, dont certains que je regrette de connaître maintenant 😳 !
Pour rappel, ce ne sont pas des mots qui se retrouvent dans des pages porno, mais simplement les mots les plus affinitaires avec les individus intéressés par le porno. Ce sont donc des liens beaucoup plus larges, mais tout aussi puissants !
Cette méthode s’applique à des thèmes comme la guerre, Gaza, les accidents, etc. Naviguer de mots en mot est une activité assez fascinante. C’est toute la sociologie des Français en un clic !
On a donc considérablement renforcé notre brand safety de cette manière.
Mais on en arrive aussi à se poser des questions philosophiques amusantes. Par exemple, doit-on bloquer un mot anodin, lorsqu’il n’est affinitaire qu’avec des mots qui sont eux-mêmes bloqués ? En effet, ce mot anodin en apparence, ne l’est peut-être plus sur Internet. Donc la plupart des contenus liés à ce mot pourraient ne pas être « brand safe ».
Par exemple, les mots affinitaires avec « chat » (litière, croquettes…), ne sont pas les mêmes qu’avec « chatte » (pas besoin de vous donner d’exemples). Ce qui est étonnant, c’est que dans ce cas, les mots liés au porno sont écrasants !

Étant donnée la représentativité du panel Internet de Médiamétrie, on ne parle pas ici d’un biais d’analyse, mais bien d’une vérité sociologique. Je vous laisse en tirer vos conclusions sur vos voisins de bureau… 🤔
Cette nouvelle méthode d’analyse sémantique trouve plusieurs applications :
Faire penser à des thématiques affinitaires avec une population intéressée par un thème donné.
En effet, lorsqu’on cible des individus, on cherche à obtenir une population large mais cohérente. Avec cette méthode, on trouve des individus « voisins » d’une population donnée. Par construction, ils sont proches des premiers, plus proches mêmes que ceux ciblés sur des mots d’un même champ sémantique par exemple.
Étendre les mots-clés de recherche lors d’une campagne adwords.
Vous achetez des mots-clés, mais vous pensez certainement aux mêmes mots que vos concurrents. Et Google se frotte les mains parce que les enchères augmentent. Et les mots que Google vous propose sont les mêmes que ceux qu’il propose à vos concurrents, et hop! les enchères s’envolent encore ! Trouver les mots différents de ceux de vos concurrents, mais qui seront cherchés par les mêmes personnes que vous ciblez, vous permet de vous démarquer.
En conclusion, je dis parfois qu’un panel comme celui-ci constitue une immense base sociologique. On comprend les relations entre les centres d’intérêts, les comportements, et même les achats.
De quoi alimenter notre IA et rendre ces informations opérationnelles !








