Une forte baisse de la densité informationnelle

OK, j’avoue, j’aime bien écrire des titres compliqués. Pas très vendeur, mais je ne veux pas tromper mes lecteurs sur la marchandise, j’aborde parfois des concepts compliqués. Ce sera peut-être le cas ici, mais je vais faire de mon mieux pour me rendre clair.

Qu’est-ce que la densité informationnelle ? On peut l’illustrer par cette photo de Lena, que tous les étudiants et les chercheurs en traitement d’image connaissent. On voit Léna en 512 pixels de large et en 32 pixels. Deux images avec des densités différentes.

La célèbre Léna qui a servi pour des centaines d’algorithmes de traitement d’image, et qui devrait prendre sa retraite

En 2024, lorsque les cookies auront disparu, quel sera la part des internautes qui réuniront les conditions du ciblage et de la mesure ?

Les estimations varient entre 10% et 25% pour les plus optimistes. On se dit donc qu’on aura 10% à 25% des contacts publicitaires que l’on pourra cibler et mesurer. Mais on se trompe.

Regardons la situation aujourd’hui.

Pour avoir des données sur quelqu’un il faut qu’il remplisse deux conditions : utiliser Chrome et avoir donné son consentement pour accepter les cookies.

Le choix du navigateur est une décision individuelle. Accepter les cookies se fait site par site. Ce n’est pas parce qu’on a accepté les cookies une fois sur un site qu’on les accepte toujours. Faisons quelques hypothèses :

  • 50% des internautes utilisent Chrome, donnent au moins une fois leur consentement, et peuvent donc avoir un identifiant
  • sur un site donné, 70% des internautes donnent leur consentement pour être identifiés

Si on représente ces hypothèses graphiquement, on obtient une image comme celle-ci :

Au global on vérifie que moins de la moitié (35%) des contacts publicitaires remplissent les deux conditions. C’est ce que j’appelle la densité informationnelle.

Aujourd’hui, il semble que le marché croie encore que la densité informationnelle est égale à la part de marché de Chrome. Ou pour être plus précis, nombreux pensent que que si on a Chrome, il suffit qu’on ait donné son consentement une fois pour entrer dans la catégorie “utilisable”.

C’est vrai pour le ciblage. Il suffit de tomber sur un cookie une fois pour pouvoir le toucher. Mais quid de la répétition ? Quelle chance a-t-on de le retrouver s’il n’a donné qu’une fois son consentement ?

Et c’est faux pour la mesure. Pour connaître les vraies performances d’un site, il faut disposer d’une information complète, ou au minimum non biaisée. Dans l’illustration ci-dessus, le site 14 reçoit peu de consentements. La conséquence, c’est que si on n’achète que des espaces consentis, on risque de ne jamais savoir si le site 14 est performant, car on n’aura pas assez de volume.

Et dans un an, quelle sera la densité informationnelle ?

Les identifiants ne seront plus gérés par Chrome, mais par de (trop) nombreux fournisseurs d’identités numériques. Prenons la fourchette haute, celle des optimistes de la data: 25% des internautes pourront être identifiés. Rappelons la définition : ils doivent être identifiés sur au moins un site. Soyons encore gentils avec les partisans des data, et accordons-leur que ces internautes accepteront sur 25% des sites qu’ils visitent.

Refaisons une simulation sur ces nouvelles hypothèses et prenons une campagne dont on suppose que :

  • 25% des internautes peuvent donc avoir un identifiant
  • 25% de ces internautes sont identifiés sur un site

La matrice prend une tout autre tête :

Seules 7% des impressions peuvent être ciblées et mesurées ! C’est ce que j’appelle la densité informationnelle.

Pourra-t-on concentrer 100% des investissements publicitaires sur 7% du volume ? NON !
On devra absolument acheter des impressions sans data ! Et donc en contextuel !

Pourra-t-on tirer des enseignements sur les performances à partir de 7% des impressions ? OUI !
Et pourquoi ? Parce qu’on n’aura pas le choix !

Il faudra apprendre à tirer des conclusions sur une fraction de l’information que l’on avait avant à disposition.

Prenons une campagne dont on mesure les conversions avec des identifiants. Le tableau complet ci-dessus (y compris les cellules blanches) représente les expositions réelles d’individus qui ont réellement converti. Les cellules grises montrent uniquement celles qui sont mesurées. L’individu 29 a bien été exposé sur tous les sites de 1 à 20. Mais il n’est mesuré que sur les sites 8, 16, 17, 18 et 20.

Attention, dans le tableau ci-dessus le fait que la cellule “Site 5″ de l”‘individu 29” est vide ne veut pas dire qu’il n’a pas été exposé sur le site 5. Il l’a été, mais on ne le sait pas. Dire que le site 5 n’a pas contribué à la conversion serait une erreur. Les analyses de données partielles doivent tenir compte d’éventuels biais.

L’approche devra être statistique, et non individuelle. Mais n’est-ce pas l’objectif même de la protection de la vie privée ?

Le monde post cookie devra raisonner à l’aide de statistiques, sur la base de données partielles.

L’analyse d’un monde de pauvreté informationnelle n’est pas nouvelle. En médecine, on raisonne sur de très petits effectifs (quelques individus, voire quelques dizaines). C’est plus compliqué, mais ça marche. Ce sont des méthodes statistiques, des corrections de biais, des corrélations.

Internet doit s’adapter à une nouvelle densité informationnelle. Et Implcit est là pour ça !

Une réflexion au sujet de « Une forte baisse de la densité informationnelle »

  1. Laurent, c’est juste limpide, et cristallin de conséquence !!!! Incroyable ce phénomène chez beaucoup de ne pas vouloir voir la réalité ou la densité….. C’est déjà à notre porte !!! Les dégats seront lourds. et encore une fois, c’est lorsque l’eau ne coulera plus du robinet qu’on ira voir si le compteur a été changé et pire s’il n’y a juste plus d’eau dans les tuyaux. La sécheresse.

Laisser un commentaire