Étiquette : panel

Les panels, c’est de l’Intelligence Artificielle !
Je dis souvent : « Le machine-learning, c’est écrit en Python, l’Intelligence Artificielle, c’est écrit en Powerpoint ». 😉

Je préfère donc dire que l’on fait du machine-learning chez Implcit, parce qu’on code beaucoup en Python. Mais je pourrais tout aussi bien parler d’IA, parce que les problèmes que l’on résout sont du même ordre de complexité que ceux auxquels s’attaque l’IA.

Prenons la question de l’optimisation des performances en publicité digitale.

Grâce à une projection statistique innovante, Implcit est capable de modéliser une population de cliqueurs ou d’acheteurs au sein du panel Internet de Médiamétrie. Comme pour tous les panélistes, Implcit connaît tout d’eux :
- tous leurs critères socio-démographiques (sexe, âge, revenus, nombre d’enfants, etc.)
- toute leur activité digitale (sites, sections de sites, pages visitées, applications utilisées, etc.)
- tous leurs centres d’intérêts (« voitures hybrides », « écologie », etc.)
On a donc une population de cliqueurs (ou d’acheteurs, ou de convertisseurs) qui sont par exemple un peu plus âgés que la moyenne des internautes, un peu plus visiteurs de tel site, un peu plus intéressés par tel sujet, etc. Non seulement on se retrouve avec des milliers d’attributs descriptifs de cette population, mais ces attributs ne sont même pas discrets (au sens mathématique). Une variable est discrète lorsqu’elle prend un nombre fini de valeurs (oui/non, 1, 2, 3…). Dans notre cas, on a, pour chaque attribut, plusieurs valeurs (nombre d’individus uniques, nombre de pages, temps passé, etc.).

Du point de vue mathématique, on se retrouve donc avec un système de milliers d’équations à des centaines de milliers d’inconnues. C’est le genre de problème dont l’IA raffole…

Que cherche-t-on en résolvant ce système ?
On cherche non seulement le mouton à cinq pattes (le persona qui représente le mieux l’individu qui clique ou qui convertit), mais aussi comment le toucher via la publicité. En publicité contextuelle, cela revient à trouver les pages, les sections de sites ou les sites sur lesquels ce persona est le plus sur-représenté. La complexité du système augmente encore…

Un réseau de neurones pourrait-il résoudre ce système ?
Peut-être, à condition de l’entraîner sur d’énormes jeux de données, qui n’existent pas aujourd’hui, et seraient très longs à constituer.
J’écris « peut-être » parce qu’on n’a même pas essayé !

On n’a pas essayé parce qu’on a résolu ce système impossible d’une manière simple et élégante.

Ce jeu de données d’entrainement, on l’a. Pas au même sens qu’un réseau de neurones, mais d’une manière plus structurée, grâce au panel.

Panel is the new Artificial Intelligence

Un panel internet, c’est la donnée détaillée du comportement de 25 000 individus qui installent volontairement un logiciel de mesure. Chaque URL visitée par ces panélistes est enregistrée. Au total, cela revient à plus de 75 millions d’évènements par mois, soit plus d’un milliard d’évènements par an !

On utilise cette masse de données pour répondre à la question du ciblage publicitaire des cliqueurs, sans même avoir à résoudre l’équation du persona.

La modélisation des cliqueurs (ou des convertisseurs) créée une population sous la forme d’un sous-échantillon du panel. Chez Implcit, on appelle ça une cible.

A la différence des cibles habituelles, qui sont des combinaisons de critères explicites (femmes qui visitent Sephora et sont intéressées par l’écologie), ces cibles d’individus performants sont construites mathématiquement. Les critères de cette cible sont implicites (vous voyez l’allusion ?😉).

Le métier originel d’Implcit est le ciblage. Nous avons donc résolu ce système infernal en adaptant nos algorithmes de ciblage.

Ces algorithmes (de ciblage contextuel rappelons-le) nous apportent sur un plateau les pages, les sections de sites et les sites sur lesquels les cliqueurs (ou les acheteurs) sont le plus sur-représentés, exactement comme ces algorithmes le font sur les « femmes qui visitent Sephora et sont intéressées par l’écologie ».

Non seulement Implcit fait du machine-learning, mais nos algorithmes font même peut-être mieux que ne le ferait de l’Intelligence Artificielle.

L’Intelligence Artificielle peut faire beaucoup, mais elle ne sait rien. Elle ne sait pas faire des additions simples (2+3+5+7=14 🤪). Elle ne sait pas qu’un humain possède généralement cinq doigts à chaque main 🙃

Un panel, inversement, est constitué de vraies personnes, dont les mains ont cinq doigts et qui sont normalement capables de calculer 2+3+5+7 (quoi que, à voir l’audience de « Les Marseillais », on peut parfois en douter). Le panel va éviter les pièges mathématiques dans lesquels l’IA peut tomber, car les vrais individus en chair, en os, et avec cinq doigts, ne tombent pas dans des pièges mathématiques.

A l’heure où la moindre start-up affiche « Intelligence Artificielle » en tête de son Business Plan, il est bon de rappeler que l’on peut faire mieux que l’IA sur certains problèmes.
15 novembre 2023
Le ciblage par panels améliore l’acceptabilité de la publicité

Selon plusieurs études (comme celle-ci qui date un peu ou avec simplement une pincée de bon sens), les internautes acceptent la publicité à une condition : ne pas se sentir traqués. Parfois même ils l’apprécient.

En fait, là où ça devient intéressant c’est que l’acceptabilité et le rejet semblent conditionnés par la même chose : le ciblage.

On accepte, voire on aime, les publicités qui nous intéressent. Certains sont aussi favorables à des publicités pour leurs marques préférées. Le ciblage est donc un attribut positif de la publicité.

Alors quel ciblage est massivement rejeté ?

A mon avis, c’est le ciblage qui se remarque.

Tant qu’on ne remarque pas le ciblage, on ne peut pas se sentir ciblé. Cela semble une évidence mais c’est un peu plus subtil que ça.

Je pense que tout le monde sait plus ou moins consciemment qu’on est ciblés. Ce n’est pas qu’on ne remarque pas certains ciblages, mais on préfère les ignorer.
D’une part parce qu’une publicité ciblée intelligemment est « globalement inoffensive ». Je ne suis pas choqué si je vois de la publicité pour des rasoirs sur un site de rugby. Il n’y a rien de méchant, tant que la pub n’affiche pas « Laurent, tu n’as pas changé tes lames depuis trois semaines »…

Je ne pouvais pas louper cette référence 🙂

D’autre part, quand bien même on se douterait qu’une publicité est ciblée, on préfèrerait l’ignorer car elle correspond à un de ses centres d’intérêts.
Enfin, si on remarque que la publicité est ciblée, on se dit parfois que cela vaut mieux, car sinon, on aurait des pubs inintéressantes, voire dérangeantes.

Comment se fait-il donc qu’un même critère (le ciblage) crée à la fois de l’agrément et du rejet ?

Tout est dans la granularité du ciblage.
Le ciblage que l’on accepte, voire que l’on veut, est un ciblage macro. Un ciblage dans lequel des milliers, voire des millions d’autres personnes peuvent se reconnaître.
Le ciblage que l’on rejette, à l’inverse, est un micro-ciblage. Un ciblage qui ne concerne qu’une personne, soi-même.

Tout est donc une question de quantité. Par quantité j’entends la taille de la cible.

Une cible de une personne (moi) se repère facilement. Elle provoque une gêne, un énervement (surtout lorsqu’elle est répétée des dizaines de fois), et parfois un rejet.

Une cible de plusieurs millions sera peut-être moins pertinente qu’une cible de taille « un ». Mais elle sera mieux acceptée, et l’acceptation est un critère de pertinence en soi aussi.

Ou placer le curseur entre un et un million ? Il dépend certainement du secteur d’activité (la santé est beaucoup plus sensible que l’alimentation par exemple). Mais quel que soit le niveau où on place le curseur, le passage du micro-ciblage à un ciblage modéré est clé si on veut éviter de renforcer le rejet de la publicité.

Les data utilisateurs se sont tiré une balle dans le pied. Ils ont créé les conditions de leur rejet et de leur disparition partielle.

Avec des technologies de ciblage contextuel, sans data, statistiques, on évite le risque de rejet de la publicité. Est-ce à dire que sans data utilisateurs, le RGPD n’existerait pas, que les cookies tiers seraient toujours supportés par les navigateurs ? Cette question n’a pas vraiment de sens, le mal est fait.

Mais ce qui est sûr, c’est qu’à l’avenir, si on veut éviter d’alimenter le rejet de la publicité (avec les conséquences que l’on sait sur la presse notamment), des solutions respectueuses de la vie privé doivent être privilégiées.

22 février 2023
On n’est pas monomaniaques !

C’est un fait établi, l’homo occidentalus passe sa vie sur Internet. Autrement dit, nos centres d’intérêts se retrouvent immédiatement sur notre consommation Internet.

On ne s’en rend souvent même plus compte. On dégaine nos smartphones à la moindre question. On oublie même souvent qu’on a fait telle ou telle recherche.
Et après on croit que nos téléphones nous espionnent !

En 1998, j’ai rejoint une start-up (le mot même n’était pas très connu), NetValue. Nous y avons développé un logiciel (meter) que des volontaires (panélistes) installaient sur leur ordinateur. J’ai adoré ce job : avec un panel, on est au courant de toutes les nouvelles tendances, on connaît tous les centres d’intérêts, on découvre d’improbables corrélations.

Les données étaient évidemment anonymes, donc on pouvait sans voyeurisme suivre un individu tout au long de sa consommation digitale. Les changements de thématiques étaient aussi soudains qu’intrigants, la variété des centres d’intérêts (nous étions en 2000 !) préfigurait notre addiction actuelle.

NetValue a été rachetée en 2002 par Nielsen / NetRatings, et les panels de Médiamétrie / NetRatings en sont aujourd’hui les héritiers.

Entre temps, Internet est devenu mainstream. 54 millions de personnes se connectent mensuellement et le temps passé a explosé. Avec notre accès unique aux données désagrégées du panel Internet de Médiamétrie, je peux recommencer mes investigations. Et je retrouve la même passion aujourd’hui, 24 ans plus tard !

Là où certains contenus manquaient en 2000, tout est aujourd’hui disponible sur Internet. Le constat que je faisais chez NetValue trouve maintenant sa plus complète réalisation : tout ce qui intéresse un individu est tôt ou tard consulté. Certains chercheurs en sociologie ne s’y trompent pas, les panels internet fournissent de magnifiques laboratoires de la société.

Il devient souvent plus efficace de simplement regarder ce que font les gens sur Internet plutôt que de leur demander. Trouver les individus intéressés par telle ou telle problématique est donc pour nous un jeu d’enfants.

« voiture électrique » ? « allaitement » ? « réchauffement climatique » ? En une seconde, on isole une population spécifique. Et on sait alors tout d’elle : sa taille, son profil socio-démographique, les sites qu’elle visite. Tout.

Mais ce qui nous intéresse chez Implcit c’est son exposition aux publicités.

Nos algorithmes trouvent les pages où cette population est la plus sur-représentée. Évidemment, les femmes (ou les hommes) qui se renseignent sur l’allaitement se retrouvent souvent sur des sites d’allaitement. Mais aussi, sans que l’on ait besoin de faire la moindre analyse de proximité sémantique, sur des sites de bébés, de couches, de santé post-partum, etc. Le lien comportemental permet de relier des concepts entre eux. Simplement parce que ce sont les mêmes personnes qui leur marquent de l’intérêt.

Il n’y a qu’à voir la pertinence des propositions que fait notre interface quand on tape les premières lettres d’un mot : les premiers thèmes proposés sont vraiment les plus pertinents. Le secret, c’est l’humain : le panel est composé d’humains, qui raisonnent peu ou prou comme vous et moi.

Mais ce caractère humain présente un autre avantage de taille.

Les femmes qui allaitent, les amateurs de trek, les intentionnistes voiture, etc. ne font pas qu’allaiter, marcher ou conduire. Ils et elles sont aussi des amateurs de mode, d’information locale, de foot.

Trek en Nouvelle-Zélande

Personne n’est monomaniaque !

Cela signifie que l’on peut trouver des jeunes mamans sur des sites de mode, des amateurs de trek sur des pages hyperlocales, et des intentionnistes voiture électrique sur des sites sur le réchauffement climatique.

L’intérêt pour nous, c’est que les publicités auxquelles ces populations sont exposées ne se trouvent pas que sur les pages qui parlent d’allaitement, de trek ou de voitures. L’inventaire disponible est démultiplié par rapport au ciblage d’une thématique donnée.

Ensuite, nos algorithmes viennent trier, sélectionner, pour ne garder que les pages où la population ciblée est la plus sur-représentée.
Évidemment les pages thématiques sont éligibles. Mais en fonction de l’objectif d’affinité, le nombre de pages éligibles (visitées par la même population, mais sur d’autres thématiques) est très significativement augmenté.

Les inventaires publicitaires disponibles sont donc bien plus importants avec cette approche.

Tout cela ne serait pas possible si nous étions tous monomaniaques, ou si l’on ne regardait les pages qu’une par une…

17 juin 2022
Le contextuel d’Implcit parfois plus puissant que les data !
Les adeptes des data pleurent depuis quelques années de la perte abyssale générée par la fin des cookies tiers et la baisse du consentement. Sans data, plus de ciblage, plus de mesure, plus de capping ! ;-(

C’est sûr, Internet s’est beaucoup développé sur la promesse d’une publicité plus efficace, moins chère, plus efficiente…

C’est sûr aussi, le contextuel ne permettra jamais de faire du micro-ciblage (terme que je préfère à retargeting, plus restrictif). Mais les internautes semblent rejeter cette possibilité, donc est-ce si grave ?

Et le monde d’avant était-il si paradisiaque que ça ?
- Le post-view tel qu’il est (était ?) pratiqué (sans visibilité) n’a aucun sens
- Le capping ne tient pas ses promesses
- Le ciblage par data touche des identifiants techniques et non des individus
- Les data nécessitent la pose de pixels, cause de grandes limitations
C’est ce dernier point que je vais détailler aujourd’hui.

Pour recueillir des données, il existe deux méthodes, le déclaratif et la mesure.

On sait que le déclaratif est limité par la confiance que l’on peut avoir dans les réponses apportées. Dans le monde des sondages, les méthodes pour détecter les erreurs, traiter les non-réponses, identifier les valeurs aberrantes sont bien connues. Mais dans le monde des data, la volumétrie importe tellement, que l’on peut facilement privilégier la quantité à la qualité.

Et dans tous les cas, il est illusoire de tenter de viser une quelconque exhaustivité. Il est même souvent difficile d’obtenir le moindre volume significatif sur certaines questions.

La data mesurée s’affranchit de tout déclaratif. On place un pixel dans une page. Lorsqu’un internaute voit la page, le pixel enregistre l’information « l’identifiant X a vu la page Y ». Donc, en reciblant X, on n’expose que les internautes intéressés par le contenu Y.

C’est donc une information certaine. Or cette information est souvent traduite par « l’individu X (et non plus l’identifiant X) a vu la page Y ». Et là, on peut se tromper. Il suffit que l’ordinateur soit partagé (c’est le cas dans tous les foyers), et on peut cibler un individu qui n’a pas du tout le comportement escompté.

Lorsque l’on fait du ciblage contextuel sur la base de panels, on n’a pas besoin de poser des pixels. Dans notre cas, le pilote que l’on fait avec Médiamétrie, nous connaissons l’exhaustivité du comportement digital des panélistes. Nous savons quelles pages il a visitées, quelles applications il a utilisées, etc. Pas besoin de placer le moindre pixel.

Je cite souvent un exemple qui était jusqu’à présent théorique. Le panel est cross-device. Nous pouvons donc créer la cible des panélistes qui utilisent une application bancaire sur leur mobile.
Vous avez déjà essayé, vous, de faire poser un pixel dans une application bancaire ? Et dans toutes les applications bancaires, vous imaginez ?

Et bien, nous, on peut créer la cibles des utilisateurs d’applications bancaires. Tiens la data, prends ça !

Saga du Phénix Noir

Pas plus tard qu’aujourd’hui, on nous l’a demandé. Un vrai cas d’école ai-je répondu !

On a créé la cible et on s’est vite aperçus qu’elle est très importante. Tellement massive même, que le ciblage en est moins efficace. Small is beautiful disais-je dans un précédent article.

Qu’à cela ne tienne, on peut faire du qualitatif en plus. Nous disposons du temps passé sur les applications, alors éliminons les internautes qui ne les lancent que pour s’apercevoir qu’ils ont oublié leur mot de passe (j’exagère). Disons qu’on peut « raffiner » la cible (au sens où on raffine du pétrole pour ne garder que les composants les plus intéressants).

Et oui, on peut cibler les internautes qui utilisent une application bancaire plus de M minutes dans le mois, ou plus de J jours, etc. Tiens la data, prends en une deuxième !

Le truc marrant avec notre approche fondée sur les panels, c’est qu’on analyse le comportement mesuré de milliers de personnes. On fonde donc nos traitements sur des concepts simples, humains, non techniques (l’individu, le temps passé, etc.).

La puissance des panels est enfin en train de se révéler !
1 octobre 2021
Face aux silos des data, une alternative avec les panels ?

Dans le monde de la mesure d’audience, l’autre nom des panels, c’est la mesure user-centric. Par opposition aux compteurs de pages, site-centric, et aux pixels dans les publicités, banner-centric.

Quand une mesure est centrée sur l’utilisateur, elle doit chercher à s’affranchir des barrières technologiques. Ce n’est pas facile, il faut, dans le cas d’un panel d’audience mesuré, développer des logiciels parfois radicalement différents. La mesure de l’usage des mobiles doit s’adapter à plusieurs systèmes d’exploitation (au minimum iOS et Android), avec leurs contraintes très fortes. Dans le monde du mobile, les applications représentent l’essentiel des usages, alors que sur ordinateur, le Web garde son leadership. En plus des spécificités de Windows et de MacOS, il faut communiquer avec divers navigateurs (Chrome, Safari, Edge ou Firefox au minimum).

Bref, avec une approche user-centric, les efforts nécessaires pour obtenir une vision transversale du comportement d’un individu sont considérables.

Considérables, mais possibles.

Dans le monde de la data, ce n’est juste pas possible de suivre le comportement d’un individu entre différents silos.

Commençons par les GAFA. Chaque walled garden défend férocement son « pré carré ».

Petit aparté littéraire.
Le terme « pré carré » existe depuis le Moyen Âge. Il était utilisé pour le domaine d’un seigneur, ou une série de fortification de villes. « Aujourd’hui, l’expression « pré carré » désigne une zone d’influence exclusive, d’un État, d’une entreprise⁴ ou même d’une personne ».

L’expression « songer à faire son pré carré » fut utilisée par Vauban pour inciter Louis XIV à fortifier ses villes, comme Rocroi, dans mes Ardennes natales :

Vous ne trouvez pas que pré carré recouvre exactement la signification de walled garden ? Une forteresse aux murs infranchissables ?
Et si on utilisait pré carré à l’avenir ?
Fin de l’aparté littéraire.

Dans les prés-carrés des GAFA impossible d’insérer le moindre petit pixel, encore moins le moindre script. Elle est loin l’époque où Google testait les scripts de mesure de visibilité d’Alenty pour les autoriser ! Depuis, l’excuse de la protection de la vie privée est passée par là.

Les GAFA n’acceptent plus les scripts et les pixels tiers, officiellement pour protéger la vie privée de leurs utilisateurs. Officieusement pour garder le contrôle et l’exclusivité des informations qu’ils collectent.

Impossible donc pour un Xandr, ou un The Trade Desk de constituer des segments d’utilisateurs selon leur usage de Youtube ou Facebook. Les data collectées sont limitées aux sites avec lesquels les adtech (ou leurs clients) ont des accords.

Entendons-nous bien, cela a constitué une masse énorme d’informations, comme on n’en a jamais vu auparavant !

Mais du point de vue individuel, user-centric, chaque fournisseur de technologie ou de data ne voit qu’une partie du comportement d’un internaute.

Chacun voit tout dans son silo, et rien dans le silo d’à côté.

Lorsque j’ai expliqué les différences entre les individus et les cookies, j’ai listé les composants de l’empilement de silos concentriques : les appareils (mobile, ordinateur), les navigateurs et les applications, les technologies.

Vous changez d’ordinateur ? Vous changez de silo. Vous passez d’un navigateur à un autre ? Nouveau silo. Vous passez d’un site à un autre, qui utilisent des technologies publicitaires différentes ? Encore un silo. Le mobile ? Un autre silo !

Et il y a d’autres silos dont on parle encore moins. Ce sont les environnement hors GAFA où vous n’arriverez jamais à poser un pixel.

Essayez de connaître l’usage des internautes sur le site d’un de vos concurrents ! Bon courage !

Ou de mesurer l’usage d’un site bancaire ?

Lorsqu’on a une approche user-centric, on a accès à l’intégralité du comportement des panélistes. Pas besoin d’accord des GAFA pour savoir combien de temps un individu a passé sur son application Facebook. Pas besoin d’aller pirater le site de ses concurrents pour savoir à quelle fréquence les internautes s’y rendent.

Et une fois les panélistes identifiés, il devient possible de modéliser où on peut les toucher via des publicités. Car l’approche user-centric ouvre toutes les portes entre les silos.

Comment toucher les gens qui passent plus d’une heure par jour sur Instagram ?

Comment toucher ceux qui n’utilisent jamais une application ou un site bancaire ?

Comment cibler sur mobile les individus qui visitent des sites de jeu sur leur ordinateur ?

Loin d’un retour à des méthodes anciennes, les panels ouvrent de nouvelles perspectives au monde de la publicité digitale !

9 juin 2021