On oppose souvent les data aux approches statistiques, comme celle d’Implcit.
“Avec les data, on est sûrs”. “Avec les data, on n’a pas besoin de réfléchir en probabilités”…
La « certitude » des données des data s’avère n’être en fait que l’approximation d’une probabilité.
Lorsqu’on achète un segment de data socio-démographiques, on achète une information déclarative de sources variées. Elle peut provenir de sondages express sur un site, d’informations demandées lors de la création d’un compte (pour accéder à un site média), ou lors d’un achat sur un site de e-commerce.
Parfois, on veut soutenir le site, ou on a besoin d’être précis (son adresse pour une livraison par exemple), et on prend soin de donner des informations exactes.
D’autres fois, on veut juste répondre rapidement, et on se trompe ou on répond au hasard.
D’autres fois encore, on est exaspérés par ces demandes, et on ment, tout simplement.
Lorsque la data est liée à un comportement, vous me direz qu’il n’y a pas de déclaratif.
C’est vrai, mais il y a des cookies. Et comme je le rabâche depuis des mois, les cookies et les individus, ce n’est pas la même chose !
Dans un foyer, le cookie est relié à un ordinateur qui peut être utilisé par plusieurs personnes.
Lorsqu’on croit cibler un individu qui fait partie d’un segment comportemental, on cible un foyer, pas un individu. Plus précisément, on cible un ordinateur dans lequel une personne sur deux, trois, quatre a eu le comportement ciblé. On a donc parfois 100% de chances de cibler le bon comportement, parfois une chance sur deux, parfois une sur trois…
Toujours à propos des cookies, les silos (par navigateur, device ou plateforme) conduisent à des erreurs. On croit comparer ceux qui ont eu un comportement donné avec ceux qui ne l’ont pas eu. Mais “ceux qui ne l’ont pas eu” sont en fait ceux pour lesquels on n’a pas eu l’information. Donc parmi eux, il en existe qui ont eu le comportement recherché (mais dans un autre silo de data). Les analyses s’en trouvent bruitées, et je pense que peu de monde tient compte de cette erreur.
D’autres segments de data sont plus complexes et reposent sur des traitements statistiques. Encore une fois, dans ce cas, aucune certitude.
Enfin, les data ont une durée de vie au cours de laquelle leur véracité (la probabilité qu’elles correspondent à un véritable comportement) décroit. Jusqu’à ne plus pouvoir être utilisées.
Dans tous ces cas, celui qui pense manipuler de l’information certaine, manipule en fait des probabilités. Il fait des statistiques.
Ces dernières sont parfois proches de 1, souvent proches de 0,5 (une chance sur deux de se tromper).
Bref, considérer ces informations comme certaines, c’est faire une approximation dont il faut a minima avoir conscience.
Il y a d’autres cas où l’utilisation de statistiques est connue, et assumée.
Lorsque l’on cherche à générer des clics, on raisonne sur le fameux CTR, le taux de clic.
Et on fait l’hypothèse qu’un environnement ou un segment de data qui ont eu un bon taux de clic, aura un bon taux de clic.
Le clic est un évènement à venir, on ne peut donc qu’en apprécier la probabilité de réalisation.
Ce faisant, on transforme une mesure en probabilité. L’acheteur va donc fonder sa stratégie d’achats sur des probabilités. Et chercher à maximiser ces probabilités.
Autre exemple, qui n’étonnera personne ici, la visibilité.
Le taux de visibilité ressemble par certains aspects au taux de clic. Lors de l’enchère publicitaire, la visibilité est un évènement à venir ! Au moment où une impression est servie, contrairement à ce que beaucoup pensent, elle n’est pas encore visible.
Quand bien même elle serait en haut de page, elle doit rester à l’écran au moins une seconde après avoir été affichée.
Inversement, si la publicité est servie en bas de page, elle pourra devenir visible une minute plus tard par exemple, lorsque l’internaute aura lu l’article et sera descendu en base de la page.
Donc un taux de visibilité, appliqué à une enchère publicitaire, n’exprime rien d’autre que la probabilité que la publicité soit visible, à l’avenir.
Monsieur Jourdain fait de la prose sans le savoir.

En programmatique, tous les traders qui utilisent des data font des statistiques sans qu’ils n’en sussent rien ! 😉
Molière démystifiait la prose, pour se moquer de Monsieur Jourdain.
Loin de moi l’idée de me moquer des traders media ! Mais j’affirme ici que les statistiques, pour reprendre l’expression de Doc et Difool (sorry les millenials !), ce n’est pas sale ! Ce n’est pas si compliqué, ce n’est pas si différent de ce que vous faites.
Pour conclure, l’approche data, n’est pas si déterministe qu’on le croit. Alors ne doutons pas a priori de la fiabilité de l’approche contextuelle !