Déterministes les data ? Elles n’ont qu’une probabilité d’être vraies !

Avec les data utilisateurs, le marché avait cru découvrir le ciblage déterministe. Un identifiant permettait de reconnaître quelqu’un qui avait eu tel ou tel comportement ou tel profil, et de décider de l’exposer à une publicité ciblée.

“Avec de la data, je n’achète que des hommes”, ou “que les visiteurs de mon site”, ou “que les personnes intéressées par mon produit”.

La publicité devenait déterministe. Plus de statistiques, plus de probabilités. Même les nuls en maths trouvaient leur place dans ce monde technologique. Rien de plus simple que de relier des cookies : “1234 = 1234”, c’est à la portée de tout le monde.

L’une des raisons du succès des data (et de la réticence du marché à s’en séparer), c’est justement cette simplicité.

Mais la publicité avec des data utilisateurs était-elle vraiment aussi déterministe que ça ?

La simplicité dont je parlais ci-dessus s’apparente plutôt à de la simplification.

Quand on dit “je n’achète que des hommes”, on dit en fait “je n’achète que des cookies qui me sont présentés comme des hommes”. Ce qui semble certain ne l’est soudainement plus.

Un cookie n’est pas un individu. J’en ai déjà parlé ici, je ne me focaliserai aujourd’hui que sur un point : un cookie peut représenter plusieurs individus. C’est la norme sur tous les ordinateurs familiaux (vous connaissez beaucoup de monde qui ouvre une session nominative dans un foyer vous ?). Donc si le cookie est considéré comme un homme, il y a une marge d’erreur non négligeable dans tous les foyers de plus d’une personne.

Je préfère vous épargner les calculs, mais en partant de quelques hypothèses simplificatrices et prudentes :

  • 1 / 3 des foyers n’ont qu’une personne (dont la moitié d’hommes). Leurs cookies sont donc corrects.
  • Les smartphones sont à usage unique. Leurs cookies (s’ils les acceptent) sont donc corrects.
  • 2 / 3 des foyers ont plus d’une personne (dont au moins 80% ont au moins un homme). Il suffit qu’il y ait un homme dans le foyer pour que tous les membres du foyer soient considérés comme des hommes.

J’estime que dans 20% des cas, un cookie “homme” est en fait (à cet instant) utilisé par une femme.

En toute logique, lorsqu’on utilise un cookie “homme”, on devrait se dire “ce cookie a une probabilité de 0,8 d’être un homme”. C’est bien mieux que 0,5, mais c’est moins que 1 !

Sur Internet, personne ne sait que vous êtes un chien !

D’ailleurs, il est très probable que ce même cookie appartienne aussi à la catégorie “femme” ! En effet, plus de 80% des foyers comptent au moins un homme, et la même proportion comptent au moins une femme. Donc une majorité des foyers compte un homme et une femme. Le cookie partagé sur l’ordinateur familial aura donc toutes les chances d’être enregistré une fois comme “homme” et une fois comme “femme”.

En effet, le fournisseur de data enregistre que le cookie 1234 est un homme (monsieur a répondu à un questionnaire). Un peu plus tard, madame répond à son tour à un questionnaire, et le cookie 1234 entre aussi dans le “segment” des femmes. Le business de la data a un modèle économique de volume. On ne refuse pas une information.

Autrement dit, même avec des data, même avec des cookies, on fait déjà des probabilités.

Pour couronner le tout, je glisse ici que les données socio-démographiques (hommes-femmes, âges…) sont déclaratives. Leur recueil se fait dans des conditions impossibles à contrôler.

Il faut donc envisager une marge d’erreur sur cette donnée déclarative. A 90% de véracité (je suis gentil), la probabilité de 0,8 que je mentionne au dessus descend à 0,72 environ. Arrondissons à 0,75 pour simplifier et rester prudent.

Un cookie “homme” est donc réellement utilisé par un homme dans 75% des cas. Pour rappel, un cookie non qualifié (aléatoire) est utilisé par un homme dans 50% des cas (il y a environ 50% d’hommes sur Internet).

Les data ne sont donc meilleures que l’aléatoire que d’un facteur 1,5 (50% x 1,5 = 75%) !

Donc quand on me dit que les data sont déterministes et que les panels sont probabilistes, je rigole. Quand les modèles d’Implcit me disent que la probabilité de toucher un homme sur football-addict.fr est de 99,5%, j’ai le sentiment qu’Implcit est plus déterministe que les cookies !!! D’ailleurs, il est probable qu’un cookie “femme” puisse être ciblé sur ce site ! Il suffit que la femme (ou la fille ou la mère) d’un fan de foot soit identifiée sur un autre site.

Et ça ne concerne pas que les informations socio-démographiques. Même le comportement est soumis à la même erreur. Tous les membres d’un foyer sont considérés comme ayant eu le comportement mesuré. Donc du point de vue des data, je visite des sites spécialisés dans les parfums, et ma femme regarde en boucle le dernier Angleterre-France de rugby !

Et ne croyez pas que les identifiants unifiés vont résoudre ce problème ! Même fondés sur des emails (a priori plus personnels), ces identifiants sont partagés dans les foyers.

En conclusion, arrêtons d’opposer déterministe et probabiliste. Tout n’est que probabilités. Certaines sont plus sûres que d’autres. Et ce ne sont pas toujours celles auxquelles on pense !

Laisser un commentaire