Panels vs data : la qualité des données

Dans le match qui oppose les panels d’audience et les data (au sens de données individuelles), j’ai déjà parlé de la notion d’individus et de la répétition.

Parlons un peu maintenant, et puisque nous mettons le pied dans le monde des échantillons, parlons de la notion de représentativité.

En 1936, Georges Gallup (ce nom vous dit peut-être quelque chose si vous avez déjà vu des sondages) a prédit la victoire de Roosevelt aux élections présidentielles américaines. Face à une enquête massive réalisée par un journal auprès de ses dix millions de lecteurs, Gallup n’a aligné qu’un échantillon de 50 000 répondants.
Petit, oui, mais représentatif.

La représentativité statistique signifie qu’un échantillon a la même structure que la population qu’il est censé représenter. Dans le cas de Gallup, les lecteurs du journal n’avaient certainement pas le même profil (sexe, âge, niveau social, etc.) que les électeurs.

La représentativité est clé si l’on veut réaliser des projections. Projeter un résultat revient à dire « Si 55% de mon échantillon vote pour Roosevelt, alors environ 55% des électeurs voteront pour lui ».

Je visualise la projection comme un projecteur de cinéma qui reproduit la pellicule de 35 millimètres sur un écran de dix mètres de large, ou comme Thalès, lorsqu’il mesura la hauteur de la Grande Pyramide de Gizeh.

Obtenir un échantillon représentatif est compliqué et coûteux. Médiamétrie a récemment publié un article sur les panels d’audience. Je ne m’étendrai pas ici sur les techniques, mais il faut juste garder à l’esprit que l’on peut agir sur le recrutement (aléatoire) ou sur les calculs (avec des poids de redressements).

Une fois la représentativité de l’échantillon assurée, il faut savoir recueillir l’information. Soit en posant les bonnes questions, soit en mesurant le comportement. Une fois encore, comme en physique quantique, la mesure peut modifier le résultat qu’elle cherche à quantifier.
Demandez à quelqu’un s’il va voter pour ce « gros connard de XXX », et vous aurez des résultats biaisés.
De même, un échantillon mesuré (dans le cas d’une mesure d’audience média) peut être biaisé par des limitations techniques (ne pas être capable de mesurer la radio dans les voitures par exemple).

On voit donc que la qualité d’un panel d’audience relève d’un véritable savoir-faire.

A l’autre bout du spectre, dans le monde de la publicité digitale, on a les data. Par « data » je fais toujours référence aux données liées à un identifiant.

Ici, l’objectif n’est habituellement pas de projeter. On utilise la data pour cibler et mesurer. Si on n’a pas de data, on ne fait rien, on est aveugles.

La data aussi peut s’avérer de plus ou moins bonne qualité.

Lors de son recueil, elle va dépendre de la question posée , ou de l’intérêt que l’on a d’y répondre correctement (« vous avez bien 18 ans ? » avant d’accéder à un site porno par exemple). Pourquoi devrais-je donner ma vraie date de naissance pour valider un achat de bouquin ???

Vous me direz, une bonne partie des data utilisées n’est pas déclarative. Les data comportementales sont enregistrées automatiquement (un pixel ne peut pas mentir). Mais on aurait tort de les croire parfaites.

Lorsque je détaille les différences entre les cookies et les individus, j’explique que les premiers sont souvent en silos. Il y a donc de nombreux cookies pour un même individu. Les techniques de cookie matching règlent ce problème (avec des pertes).
Mais à l’inverse, il y a souvent aussi plusieurs individus pour un même cookie. Et dans le cas, le comportement mesuré ne correspond parfois plus à la personne que l’on cherche à toucher lorsqu’on achète une publicité. Sur un ordinateur familial partagé comme chez moi, on a pratiquement quatre utilisateurs, dont au moins deux quotidiens. Alors imaginez chez Nico qui a cinq gosses !

La croyance en la perfection de la data doit donc être relativisée chez nombre de ses utilisateurs.

Est-ce à dire que la qualité de la data ne permet pas de réaliser des projections ? Pas du tout ! Mais il faut prendre la data pour ce qu’elle est : une mesure imparfaite obtenue sur un échantillon imparfait.

Si l’on veut projeter (ou extrapoler), il faut 1. être conscient des limitations des data dont on dispose 2. maîtriser les techniques de redressement.

Le hic c’est qu’aujourd’hui, ces notions ne sont pas partagées, et que, en digital, la notion même de qualité n’a jamais eu autant de poids que la quantité.

Car le pendant de la qualité, c’est son coût. Et le coût d’un échantillon représentatif dicte sa limitation principale, la taille.
Plusieurs fois, mes interlocuteurs en agence, qui n’avaient jamais été formés aux panels, ont comparé les tailles d’échantillons (quelques dizaines de milliers) avec les volumes de data (plusieurs dizaines de millions de cookies).

La taille importerait donc ?

Cela dépend de ce que l’on veut faire.

Si on cherche la finesse, la taille permettra de créer des cibles sur des comportements les plus fins, jusqu’au micro-ciblage, le retargeting. Et si on utilise la data pour cibler directement, on ne commet que l’erreur que je mentionnais plus haut (individus vs cookies).

Mais si on veut projeter des résultats, on peut se tromper lourdement, car les biais peuvent s’avérer énormes. En effet, les projections démultiplient les erreurs. Si Thalès avait mal mesuré son bâton de quelques centimètres, son estimation aurait été fausse de plusieurs dizaines de mètres !

Pour les panels, c’est pareil. Des données fausses (recrutement biaisé, mesure incomplète) génèrent des écarts de prévisions importants. Vous pouvez par exemple croire qu’un site est bien adapté à votre cible, alors qu’une partie importante de son audience est sous représentée dans votre échantillon.

Inversement, les erreurs de projection d’un échantillon représentatif sont bien inférieures (merci M. Gallup). Mais la finesse reste limitée.

En conclusion, tout dépend de ce que l’on cherche. Si on a droit à une marge d’erreur importante, la qualité peut rester en second plan par rapport à la qualité.

Mais si on cherche à construire la confiance, et c’est un facteur-clé de succès des études, la marge d’erreur acceptable doit être minime. Et la qualité prime.

Une réflexion au sujet de « Panels vs data : la qualité des données »

Laisser un commentaire