Étiquette : sémantique

  • Vers une sémantique « user-centric » ?

    Vers une sémantique « user-centric » ?

    Au début des années 2000, je bossais (déjà) dans les panels Internet. J’étais (déjà) intéressé par la sémantique et l’IA.

    Je bossais avec un labo de recherche en traitement du langage, quand une équipe de Google a publié un article révolutionnaire. Leurs algorithmes utilisaient d’énormes volumes de données, et obtenaient des résultats extraordinaires. « The power of one billion » : ces méthodes ne devenaient efficaces qu’à partir d’un milliard de documents analysés.

    Les chercheurs du labo étaient sonnés : linguistes de formation, leurs analyses reposaient principalement sur les liens entre les mots, les champs linguistiques. L’approche statistique de Google remettait en cause 20 ans de travail pour certains.

    Aujourd’hui, on a tous intégré qu’une Intelligence Artificielle n’a besoin de rien connaître a priori pour fournir des résultats intéressants. Les algorithmes statistiques n’ont pas besoin de savoir ce qu’est un nom ou un verbe (je schématise mais l’idée est là), comme l’IA générative peut créer une image très ressemblante à Emmanuel Macron, mais avec six doigts…

    Après la sémantique linguistique, la sémantique statistique des documents, Implcit a peut-être inventé la sémantique statistique des personnes. 😉

    Le panel de Médiamétrie nous fournit plus d’un milliard de signaux du type : le panéliste 123 a visité la page ABC. En découpant les URLs en mots, on décuple cette information : le panéliste 123 a visité une page qui parle de A, de B et de C.

    Il y a du bruit évidemment, mais peut-être dix fois moins qu’une analyse de contenu des pages. Et pourquoi ? Parce que les URLs sont un élément-clé du référencement dans les moteurs de recherche. Les sections et sous-sections sont donc nommées avec beaucoup de précautions. Notamment, les homonymes sont évités la plupart du temps, pour que les recherches soient efficaces.

    On obtient donc une énorme base de données entre des individus (les panélistes) et leurs centres d’intérêts.

    Créer une cible des internautes intéressés par les voitures hybrides ou le déménagement devient un jeu d’enfants.

    Alors, je me suis amusé à regarder les relations entre les mots-clés. L’idée est la suivante : quels sont les mots-clés les plus affinitaires avec la population qui est intéressée par un mot-clé donné ?

    Rendez-vous compte de la complexité de cette simple question. Cela revient à construire une matrice de plusieurs milliards de lignes et plusieurs milliards de colonnes !

    Un des premiers besoins auxquels cette méthode répond est la brand safety. Dans certains résultats, on cherche à bloquer des mots (block-list). Prenons l’exemple du porno. On peut se creuser les méninges pour trouver des mots liés à cette thématique, si on n’est pas expert. Ou on peut demander à notre système les mots les plus affinitaires avec les individus intéressés par le porno.

    Et là, les résultats sont impressionnants ! Des centaines de mots et de combinaisons de mots sont venus remplir notre block-list, simplement sur le thème du porno. Je ne vous cache pas que j’ai appris plein de trucs, dont certains que je regrette de connaître maintenant 😳 !

    Pour rappel, ce ne sont pas des mots qui se retrouvent dans des pages porno, mais simplement les mots les plus affinitaires avec les individus intéressés par le porno. Ce sont donc des liens beaucoup plus larges, mais tout aussi puissants !

    Cette méthode s’applique à des thèmes comme la guerre, Gaza, les accidents, etc. Naviguer de mots en mot est une activité assez fascinante. C’est toute la sociologie des Français en un clic !

    On a donc considérablement renforcé notre brand safety de cette manière.

    Mais on en arrive aussi à se poser des questions philosophiques amusantes. Par exemple, doit-on bloquer un mot anodin, lorsqu’il n’est affinitaire qu’avec des mots qui sont eux-mêmes bloqués ? En effet, ce mot anodin en apparence, ne l’est peut-être plus sur Internet. Donc la plupart des contenus liés à ce mot pourraient ne pas être « brand safe ».
    Par exemple, les mots affinitaires avec « chat » (litière, croquettes…), ne sont pas les mêmes qu’avec « chatte » (pas besoin de vous donner d’exemples). Ce qui est étonnant, c’est que dans ce cas, les mots liés au porno sont écrasants !

    Étant donnée la représentativité du panel Internet de Médiamétrie, on ne parle pas ici d’un biais d’analyse, mais bien d’une vérité sociologique. Je vous laisse en tirer vos conclusions sur vos voisins de bureau… 🤔

    Cette nouvelle méthode d’analyse sémantique trouve plusieurs applications :

    Faire penser à des thématiques affinitaires avec une population intéressée par un thème donné.
    En effet, lorsqu’on cible des individus, on cherche à obtenir une population large mais cohérente. Avec cette méthode, on trouve des individus « voisins » d’une population donnée. Par construction, ils sont proches des premiers, plus proches mêmes que ceux ciblés sur des mots d’un même champ sémantique par exemple.

    Étendre les mots-clés de recherche lors d’une campagne adwords.
    Vous achetez des mots-clés, mais vous pensez certainement aux mêmes mots que vos concurrents. Et Google se frotte les mains parce que les enchères augmentent. Et les mots que Google vous propose sont les mêmes que ceux qu’il propose à vos concurrents, et hop! les enchères s’envolent encore ! Trouver les mots différents de ceux de vos concurrents, mais qui seront cherchés par les mêmes personnes que vous ciblez, vous permet de vous démarquer.

    En conclusion, je dis parfois qu’un panel comme celui-ci constitue une immense base sociologique. On comprend les relations entre les centres d’intérêts, les comportements, et même les achats.

    De quoi alimenter notre IA et rendre ces informations opérationnelles !

  • Les deux visages du contextuel

    Les deux visages du contextuel

    En publicité, quand on parle de contexte, on fait référence à l’environnement dans lequel une publicité s’affiche : la page ou l’application, l’heure, le jour, etc.

    On distingue donc le contexte de la cible. Et c’est bien normal, puisque l’un et l’autre font partie des cinq piliers de l’efficacité publicitaire.

    L’expression « ciblage contextuel » n’est-elle donc qu’un oxymore, une association de termes contradictoires ?

    Que nenni !

    D’une part, avec la disparition des data (baisse des cookies et du consentement), on n’aura pas le choix. A part des ids unifiés qui ne concerneront pas grand-monde, seul le contexte sera accessible, même pour cibler !

    D’autre part, il y a je pense deux façons de voir le contexte :

    • un environnement plus ou moins favorable à une exposition publicitaire
    • un support consulté par certains individus, et pas par d’autres

    Les deux approches ne sont pas incompatibles.
    Un « bon » individu dans un mauvais environnement ne répondra pas favorablement à un stimulus publicitaire.
    Inversement, un environnement favorable peut être visité par des individus absolument pas concernés par ma publicité.

    L’approche « environnement » a récemment fait de grands progrès avec l’analyse sémantique. Pour simplifier, on analyse les sujets d’environnements dont on connaît l’efficacité, et on achète des publicités sur d’autres environnements qui traitent des mêmes sujets.

    Mais il est dommage que la dimension « qui ? » soit négligée dans cette approche. Ok, on peut se dire qu’à thème identique, on retrouve des individus identiques. C’est peut-être vrai, mais on raisonne alors par inférence, sans analyser ces deux dimensions (qui et où) indépendamment l’une de l’autre.

    Chez Implcit, nous analysons la cible et l’environnement indépendamment.

    Grâce aux données du panel auquel nous avons accès, nous pouvons modéliser la structure de l’audience potentielle d’une impression publicitaire. Oui, j’ai bien parlé d’audience d’une impression, pas d’audience d’une page (elles sont différentes, je reviendrai dessus une autre fois).

    L’approche contextuelle comportementale consiste donc à analyser le comportement de la cible que l’annonceur veut toucher, et à choisir les environnements (pages ou applications) des impressions sur lesquelles cette cible est la plus sur-représentée.

    Une cible peut donc être touchée dans un nombre important d’environnements différents.
    Certains sont évidents. Les femmes qui font du sport vont plus sur des sites de sport. Mais faut-il pour cela cibler un site comme l’Equipe ? Ca dépend.
    D’autres ne se devinent pas, mais peuvent se comprendre a posteriori. On va trouver les femmes qui aiment le sport sur certains sites de mode, mais pas sur d’autres.
    Enfin, une fois qu’on a construit sa confiance dans les résultats en validant les deux premières étapes (« c’est évident », et « ah oui, j’y avais pas pensé, c’est pas con »), on laisse l’algorithme trouver des pépites d’audience. La troisième étape, c’est « je ne sais pas pourquoi, mais ça marche ».

    On peut donc affirmer que le contexte se divise en :

    • sémantique
    • comportemental

    Et que les deux ne sont pas exclusifs.

    Mais seul le ciblage contextuel comportemental permet de séparer la cible et l’environnement.

    Ok, l’association des mots « contextuel » et « comportemental » n’est pas très jolie. Ca fait un peu « con-con », ce qui n’est pas idéal pour décrire la stratégie de sa boite. 🙂

    En Anglais, « behavioral context » sonne bien mieux. Peut-être dérogerai-je à ma règle sacrée d’éviter les anglicismes pour une fois. Sauf si vous m’aidez !

    Et vous, vous avez mieux pour nommer l’autre visage du contexte ?