Étiquette : statistiques

2025 l’année de l’hybridation !

Non je ne parle pas de voiture ici !

En ce début d’année 2025, comme à chaque début d’année, on présente ses voeux, ce que je m’empresse de faire au nom de toute l’équipe d’Implcit. Merci pour votre fidélité, et pour les projets excitants qui nous attendent !

En début d’année, il est aussi de bon ton de s’aventurer à un peu de prospective. Je n’y dérogerai pas, mais sans prendre le moindre risque cette fois.

Quand je parle d’hybridation, je fais référence à la combinaison de deux sources de données pour construire une troisième source qui prend le meilleur des deux. En l’occurrence, les deux sources peuvent être définies ainsi :

Data déterministes	Données statistiques
Hyper granulaires	Agrégées
Parfois considérées comme certaines	Probabilistes (et assumées comme telles)
Fondées sur des identifiants	Sans identifiants
AKA first party ou third party (le second party a été cassé 😉)	AKA zero party
Nécessitent un consentement	Pas besoin de consentement
Partielles (besoin d’identifiant ET de consentement)	Exhaustives (projection)
Ces caractéristiques regroupent les cookies tiers, les identifiants (universels ou probabilistes), les data des cartes de fidélité, etc.	Les données statistiques vont du MMM pour les plus agrégées, aux sondages, et aux panels mesurés pour les plus granulaires.

La distinction « data » vs « données » insiste sur la notion de « data utilisateurs » souvent résumées à « data » dans le monde publicitaire. Les « données », elles, correspondent à des informations, non reliées à des individus.

Quand j’écris « le meilleur des deux », je fais référence à deux objectifs fondamentaux de la publicité digitale :

la précision, la granularité…
le volume, la couverture…

Ces deux objectifs sont difficiles, voire impossible, à concilier. Le Graal d’un système précis et complet reste un mythe. Comme à Galahad, seule la quête du Graal nous est ouverte, il restera introuvable. C’est vers ce Graal que tendent toutes les technologies publicitaires depuis des années.

L’animation ci-dessous présente l’évolution de différentes technologies publicitaires depuis 2018, ou plus précisément depuis le 19 mai 2018 :

Les cookies tiers règnent en maîtres (mais pâtissent d’une qualité de données limitée), les identifiants déterministes balbutient, les données statistiques sont imprécises.
20 mai 2018, le RGPD entre en action. Tous les systèmes d’identifiants et les cookies sont soumis au consentement.
2019-2020, les cookies tiers disparaissent de certains navigateurs. Avec les mobiles, les appareils deviennent de plus en plus personnels, et leurs données s’individualisent.
En 2024, les données statistiques restent à 100% de couverture, et leur précision rivalise avec les data déterministes.
En 2026 (enfin, disons, un jour), les cookies tiers sont encore plus rares, les identifiants universels s’approchent de leur plafond du consentement. Les identifiants probabilistes risquent de perdre un peu en volume si les navigateurs s’y attaquent.
Au final, un arc précision-volume dessine le Graal inatteignable, que les différentes technologies approchent, sans jamais l’atteindre.

J’écrivais en début d’article que je ne prends aucun risque avec cette vision prospective. C’est simplement qu’une prospective qui est déjà réalité n’est pas vraiment une prospective. Chez Implcit, nous faisons en effet de l’hybridation depuis toujours.

Au cours des prochaines semaines je vais développer comment on hybride déjà data et données :

en amont d’une campagne
en cours de campagne
en bilan de campagne

L’hybridation entre les data déterministes et les données statistiques permet de résoudre la conjecture de la précision et du volume. Et ce, dès aujourd’hui !

13 janvier 2025

Une forte baisse de la densité informationnelle
OK, j’avoue, j’aime bien écrire des titres compliqués. Pas très vendeur, mais je ne veux pas tromper mes lecteurs sur la marchandise, j’aborde parfois des concepts compliqués. Ce sera peut-être le cas ici, mais je vais faire de mon mieux pour me rendre clair.

Qu’est-ce que la densité informationnelle ? On peut l’illustrer par cette photo de Lena, que tous les étudiants et les chercheurs en traitement d’image connaissent. On voit Léna en 512 pixels de large et en 32 pixels. Deux images avec des densités différentes.

La célèbre Léna qui a servi pour des centaines d’algorithmes de traitement d’image, et qui devrait prendre sa retraite

En 2024, lorsque les cookies auront disparu, quel sera la part des internautes qui réuniront les conditions du ciblage et de la mesure ?

Les estimations varient entre 10% et 25% pour les plus optimistes. On se dit donc qu’on aura 10% à 25% des contacts publicitaires que l’on pourra cibler et mesurer. Mais on se trompe.

Regardons la situation aujourd’hui.

Pour avoir des données sur quelqu’un il faut qu’il remplisse deux conditions : utiliser Chrome et avoir donné son consentement pour accepter les cookies.

Le choix du navigateur est une décision individuelle. Accepter les cookies se fait site par site. Ce n’est pas parce qu’on a accepté les cookies une fois sur un site qu’on les accepte toujours. Faisons quelques hypothèses :
- 50% des internautes utilisent Chrome, donnent au moins une fois leur consentement, et peuvent donc avoir un identifiant
- sur un site donné, 70% des internautes donnent leur consentement pour être identifiés
Si on représente ces hypothèses graphiquement, on obtient une image comme celle-ci :

Au global on vérifie que moins de la moitié (35%) des contacts publicitaires remplissent les deux conditions. C’est ce que j’appelle la densité informationnelle.

Aujourd’hui, il semble que le marché croie encore que la densité informationnelle est égale à la part de marché de Chrome. Ou pour être plus précis, nombreux pensent que que si on a Chrome, il suffit qu’on ait donné son consentement une fois pour entrer dans la catégorie « utilisable ».

C’est vrai pour le ciblage. Il suffit de tomber sur un cookie une fois pour pouvoir le toucher. Mais quid de la répétition ? Quelle chance a-t-on de le retrouver s’il n’a donné qu’une fois son consentement ?

Et c’est faux pour la mesure. Pour connaître les vraies performances d’un site, il faut disposer d’une information complète, ou au minimum non biaisée. Dans l’illustration ci-dessus, le site 14 reçoit peu de consentements. La conséquence, c’est que si on n’achète que des espaces consentis, on risque de ne jamais savoir si le site 14 est performant, car on n’aura pas assez de volume.

Et dans un an, quelle sera la densité informationnelle ?

Les identifiants ne seront plus gérés par Chrome, mais par de (trop) nombreux fournisseurs d’identités numériques. Prenons la fourchette haute, celle des optimistes de la data: 25% des internautes pourront être identifiés. Rappelons la définition : ils doivent être identifiés sur au moins un site. Soyons encore gentils avec les partisans des data, et accordons-leur que ces internautes accepteront sur 25% des sites qu’ils visitent.

Refaisons une simulation sur ces nouvelles hypothèses et prenons une campagne dont on suppose que :
- 25% des internautes peuvent donc avoir un identifiant
- 25% de ces internautes sont identifiés sur un site
La matrice prend une tout autre tête :

Seules 7% des impressions peuvent être ciblées et mesurées ! C’est ce que j’appelle la densité informationnelle.

Pourra-t-on concentrer 100% des investissements publicitaires sur 7% du volume ? NON !
On devra absolument acheter des impressions sans data ! Et donc en contextuel !

Pourra-t-on tirer des enseignements sur les performances à partir de 7% des impressions ? OUI !
Et pourquoi ? Parce qu’on n’aura pas le choix !

Il faudra apprendre à tirer des conclusions sur une fraction de l’information que l’on avait avant à disposition.

Prenons une campagne dont on mesure les conversions avec des identifiants. Le tableau complet ci-dessus (y compris les cellules blanches) représente les expositions réelles d’individus qui ont réellement converti. Les cellules grises montrent uniquement celles qui sont mesurées. L’individu 29 a bien été exposé sur tous les sites de 1 à 20. Mais il n’est mesuré que sur les sites 8, 16, 17, 18 et 20.

Attention, dans le tableau ci-dessus le fait que la cellule « Site 5″ de l »‘individu 29 » est vide ne veut pas dire qu’il n’a pas été exposé sur le site 5. Il l’a été, mais on ne le sait pas. Dire que le site 5 n’a pas contribué à la conversion serait une erreur. Les analyses de données partielles doivent tenir compte d’éventuels biais.

L’approche devra être statistique, et non individuelle. Mais n’est-ce pas l’objectif même de la protection de la vie privée ?

Le monde post cookie devra raisonner à l’aide de statistiques, sur la base de données partielles.

L’analyse d’un monde de pauvreté informationnelle n’est pas nouvelle. En médecine, on raisonne sur de très petits effectifs (quelques individus, voire quelques dizaines). C’est plus compliqué, mais ça marche. Ce sont des méthodes statistiques, des corrections de biais, des corrélations.

Internet doit s’adapter à une nouvelle densité informationnelle. Et Implcit est là pour ça !
13 octobre 2023
Déterministes les data ? Elles n’ont qu’une probabilité d’être vraies !
Avec les data utilisateurs, le marché avait cru découvrir le ciblage déterministe. Un identifiant permettait de reconnaître quelqu’un qui avait eu tel ou tel comportement ou tel profil, et de décider de l’exposer à une publicité ciblée.

« Avec de la data, je n’achète que des hommes », ou « que les visiteurs de mon site », ou « que les personnes intéressées par mon produit ».

La publicité devenait déterministe. Plus de statistiques, plus de probabilités. Même les nuls en maths trouvaient leur place dans ce monde technologique. Rien de plus simple que de relier des cookies : « 1234 = 1234 », c’est à la portée de tout le monde.

L’une des raisons du succès des data (et de la réticence du marché à s’en séparer), c’est justement cette simplicité.

Mais la publicité avec des data utilisateurs était-elle vraiment aussi déterministe que ça ?

La simplicité dont je parlais ci-dessus s’apparente plutôt à de la simplification.

Quand on dit « je n’achète que des hommes », on dit en fait « je n’achète que des cookies qui me sont présentés comme des hommes ». Ce qui semble certain ne l’est soudainement plus.

Un cookie n’est pas un individu. J’en ai déjà parlé ici, je ne me focaliserai aujourd’hui que sur un point : un cookie peut représenter plusieurs individus. C’est la norme sur tous les ordinateurs familiaux (vous connaissez beaucoup de monde qui ouvre une session nominative dans un foyer vous ?). Donc si le cookie est considéré comme un homme, il y a une marge d’erreur non négligeable dans tous les foyers de plus d’une personne.

Je préfère vous épargner les calculs, mais en partant de quelques hypothèses simplificatrices et prudentes :
- 1 / 3 des foyers n’ont qu’une personne (dont la moitié d’hommes). Leurs cookies sont donc corrects.
- Les smartphones sont à usage unique. Leurs cookies (s’ils les acceptent) sont donc corrects.
- 2 / 3 des foyers ont plus d’une personne (dont au moins 80% ont au moins un homme). Il suffit qu’il y ait un homme dans le foyer pour que tous les membres du foyer soient considérés comme des hommes.
J’estime que dans 20% des cas, un cookie « homme » est en fait (à cet instant) utilisé par une femme.

En toute logique, lorsqu’on utilise un cookie « homme », on devrait se dire « ce cookie a une probabilité de 0,8 d’être un homme ». C’est bien mieux que 0,5, mais c’est moins que 1 !

Sur Internet, personne ne sait que vous êtes un chien !

D’ailleurs, il est très probable que ce même cookie appartienne aussi à la catégorie « femme » ! En effet, plus de 80% des foyers comptent au moins un homme, et la même proportion comptent au moins une femme. Donc une majorité des foyers compte un homme et une femme. Le cookie partagé sur l’ordinateur familial aura donc toutes les chances d’être enregistré une fois comme « homme » et une fois comme « femme ».

En effet, le fournisseur de data enregistre que le cookie 1234 est un homme (monsieur a répondu à un questionnaire). Un peu plus tard, madame répond à son tour à un questionnaire, et le cookie 1234 entre aussi dans le « segment » des femmes. Le business de la data a un modèle économique de volume. On ne refuse pas une information.

Autrement dit, même avec des data, même avec des cookies, on fait déjà des probabilités.

Pour couronner le tout, je glisse ici que les données socio-démographiques (hommes-femmes, âges…) sont déclaratives. Leur recueil se fait dans des conditions impossibles à contrôler.

Il faut donc envisager une marge d’erreur sur cette donnée déclarative. A 90% de véracité (je suis gentil), la probabilité de 0,8 que je mentionne au dessus descend à 0,72 environ. Arrondissons à 0,75 pour simplifier et rester prudent.

Un cookie « homme » est donc réellement utilisé par un homme dans 75% des cas. Pour rappel, un cookie non qualifié (aléatoire) est utilisé par un homme dans 50% des cas (il y a environ 50% d’hommes sur Internet).

Les data ne sont donc meilleures que l’aléatoire que d’un facteur 1,5 (50% x 1,5 = 75%) !

Donc quand on me dit que les data sont déterministes et que les panels sont probabilistes, je rigole. Quand les modèles d’Implcit me disent que la probabilité de toucher un homme sur football-addict.fr est de 99,5%, j’ai le sentiment qu’Implcit est plus déterministe que les cookies !!! D’ailleurs, il est probable qu’un cookie « femme » puisse être ciblé sur ce site ! Il suffit que la femme (ou la fille ou la mère) d’un fan de foot soit identifiée sur un autre site.

Et ça ne concerne pas que les informations socio-démographiques. Même le comportement est soumis à la même erreur. Tous les membres d’un foyer sont considérés comme ayant eu le comportement mesuré. Donc du point de vue des data, je visite des sites spécialisés dans les parfums, et ma femme regarde en boucle le dernier Angleterre-France de rugby !

Et ne croyez pas que les identifiants unifiés vont résoudre ce problème ! Même fondés sur des emails (a priori plus personnels), ces identifiants sont partagés dans les foyers.

En conclusion, arrêtons d’opposer déterministe et probabiliste. Tout n’est que probabilités. Certaines sont plus sûres que d’autres. Et ce ne sont pas toujours celles auxquelles on pense !
22 mars 2023

Étiquette : statistiques

2025 l’année de l’hybridation !

Une forte baisse de la densité informationnelle

Déterministes les data ? Elles n’ont qu’une probabilité d’être vraies !