Étiquette : qualité

  • Panels vs data : la qualité des données

    Panels vs data : la qualité des données

    Dans le match qui oppose les panels d’audience et les data (au sens de données individuelles), j’ai déjà parlé de la notion d’individus et de la répétition.

    Parlons un peu maintenant, et puisque nous mettons le pied dans le monde des échantillons, parlons de la notion de représentativité.

    En 1936, Georges Gallup (ce nom vous dit peut-être quelque chose si vous avez déjà vu des sondages) a prédit la victoire de Roosevelt aux élections présidentielles américaines. Face à une enquête massive réalisée par un journal auprès de ses dix millions de lecteurs, Gallup n’a aligné qu’un échantillon de 50 000 répondants.
    Petit, oui, mais représentatif.

    La représentativité statistique signifie qu’un échantillon a la même structure que la population qu’il est censé représenter. Dans le cas de Gallup, les lecteurs du journal n’avaient certainement pas le même profil (sexe, âge, niveau social, etc.) que les électeurs.

    La représentativité est clé si l’on veut réaliser des projections. Projeter un résultat revient à dire « Si 55% de mon échantillon vote pour Roosevelt, alors environ 55% des électeurs voteront pour lui ».

    Je visualise la projection comme un projecteur de cinéma qui reproduit la pellicule de 35 millimètres sur un écran de dix mètres de large, ou comme Thalès, lorsqu’il mesura la hauteur de la Grande Pyramide de Gizeh.

    Obtenir un échantillon représentatif est compliqué et coûteux. Médiamétrie a récemment publié un article sur les panels d’audience. Je ne m’étendrai pas ici sur les techniques, mais il faut juste garder à l’esprit que l’on peut agir sur le recrutement (aléatoire) ou sur les calculs (avec des poids de redressements).

    Une fois la représentativité de l’échantillon assurée, il faut savoir recueillir l’information. Soit en posant les bonnes questions, soit en mesurant le comportement. Une fois encore, comme en physique quantique, la mesure peut modifier le résultat qu’elle cherche à quantifier.
    Demandez à quelqu’un s’il va voter pour ce « gros connard de XXX », et vous aurez des résultats biaisés.
    De même, un échantillon mesuré (dans le cas d’une mesure d’audience média) peut être biaisé par des limitations techniques (ne pas être capable de mesurer la radio dans les voitures par exemple).

    On voit donc que la qualité d’un panel d’audience relève d’un véritable savoir-faire.

    A l’autre bout du spectre, dans le monde de la publicité digitale, on a les data. Par « data » je fais toujours référence aux données liées à un identifiant.

    Ici, l’objectif n’est habituellement pas de projeter. On utilise la data pour cibler et mesurer. Si on n’a pas de data, on ne fait rien, on est aveugles.

    La data aussi peut s’avérer de plus ou moins bonne qualité.

    Lors de son recueil, elle va dépendre de la question posée , ou de l’intérêt que l’on a d’y répondre correctement (« vous avez bien 18 ans ? » avant d’accéder à un site porno par exemple). Pourquoi devrais-je donner ma vraie date de naissance pour valider un achat de bouquin ???

    Vous me direz, une bonne partie des data utilisées n’est pas déclarative. Les data comportementales sont enregistrées automatiquement (un pixel ne peut pas mentir). Mais on aurait tort de les croire parfaites.

    Lorsque je détaille les différences entre les cookies et les individus, j’explique que les premiers sont souvent en silos. Il y a donc de nombreux cookies pour un même individu. Les techniques de cookie matching règlent ce problème (avec des pertes).
    Mais à l’inverse, il y a souvent aussi plusieurs individus pour un même cookie. Et dans le cas, le comportement mesuré ne correspond parfois plus à la personne que l’on cherche à toucher lorsqu’on achète une publicité. Sur un ordinateur familial partagé comme chez moi, on a pratiquement quatre utilisateurs, dont au moins deux quotidiens. Alors imaginez chez Nico qui a cinq gosses !

    La croyance en la perfection de la data doit donc être relativisée chez nombre de ses utilisateurs.

    Est-ce à dire que la qualité de la data ne permet pas de réaliser des projections ? Pas du tout ! Mais il faut prendre la data pour ce qu’elle est : une mesure imparfaite obtenue sur un échantillon imparfait.

    Si l’on veut projeter (ou extrapoler), il faut 1. être conscient des limitations des data dont on dispose 2. maîtriser les techniques de redressement.

    Le hic c’est qu’aujourd’hui, ces notions ne sont pas partagées, et que, en digital, la notion même de qualité n’a jamais eu autant de poids que la quantité.

    Car le pendant de la qualité, c’est son coût. Et le coût d’un échantillon représentatif dicte sa limitation principale, la taille.
    Plusieurs fois, mes interlocuteurs en agence, qui n’avaient jamais été formés aux panels, ont comparé les tailles d’échantillons (quelques dizaines de milliers) avec les volumes de data (plusieurs dizaines de millions de cookies).

    La taille importerait donc ?

    Cela dépend de ce que l’on veut faire.

    Si on cherche la finesse, la taille permettra de créer des cibles sur des comportements les plus fins, jusqu’au micro-ciblage, le retargeting. Et si on utilise la data pour cibler directement, on ne commet que l’erreur que je mentionnais plus haut (individus vs cookies).

    Mais si on veut projeter des résultats, on peut se tromper lourdement, car les biais peuvent s’avérer énormes. En effet, les projections démultiplient les erreurs. Si Thalès avait mal mesuré son bâton de quelques centimètres, son estimation aurait été fausse de plusieurs dizaines de mètres !

    Pour les panels, c’est pareil. Des données fausses (recrutement biaisé, mesure incomplète) génèrent des écarts de prévisions importants. Vous pouvez par exemple croire qu’un site est bien adapté à votre cible, alors qu’une partie importante de son audience est sous représentée dans votre échantillon.

    Inversement, les erreurs de projection d’un échantillon représentatif sont bien inférieures (merci M. Gallup). Mais la finesse reste limitée.

    En conclusion, tout dépend de ce que l’on cherche. Si on a droit à une marge d’erreur importante, la qualité peut rester en second plan par rapport à la qualité.

    Mais si on cherche à construire la confiance, et c’est un facteur-clé de succès des études, la marge d’erreur acceptable doit être minime. Et la qualité prime.

  • Thémis, déesse des études ?

    Thémis, déesse des études ?

    Quand on a créé Alenty avec Nico en 2007, on venait déjà du monde des études (NetValue, rachetée par Nielsen//NetRatings).

    Je venais de terminer un MBA, mes connaissances en analyse stratégique étaient encore toutes fraîches.
    J’avais donc en tête les KSF (Key Success Factors, facteurs-clé de succès) du secteur des études.

    Nous étions en train d’inventer une nouvelle industrie, la mesure de la visibilité publicitaire.
    Personne avant nous n’avait ne serait-ce que pensé que l’on pouvait mesurer la visibilité des publicités sur Internet.
    Aucun modèle économique n’existait, il fallait tout inventer.

    Alors, dès notre première embauche, lorsque je formais nos jeunes ingénieurs à leur nouveau métier, j’insistais lourdement sur l’un de ces facteurs-clé : la qualité.
    Et pour commencer, il nous fallait créer de la confiance dans cette nouvelle mesure. Je disais : « on va mettre des années à créer de la confiance, mais on peut la perdre en 24h ».

    On a donc constamment cherché à améliorer notre mesure, même après l’acquisition par AppNexus en 2014.

    Lorsque la concurrence est arrivée, vers 2009-2010, les comparaisons sont venues avec.
    La principale différence venait de l’univers mesuré. Partis les premiers, nous avions une longueur d’avance et pouvions mesurer plus de cas (iframes cross domain sur Chrome, publicité mobile…). Nos concurrents les considéraient « unmeasurable ».
    Puis, une fois rapportés à des univers comparables, on pouvait analyser l’indicateur phrare : le taux de visibilité.

    Les différences étaient très limitées avec nos concurrents qui avaient suffisamment investi en R&D.
    Et là, dans la grande majorité des cas, Alenty présentait un taux de visibilité légèrement inférieur aux autres.

    Pourquoi ?
    Parce que nos ingénieurs avaient bien retenu la leçon : la qualité de la mesure était une priorité. Dès qu’ils découvraient un cas de non visibilité (utilisation de css, empilement d’objets…), ils cherchaient une solution pour le détecter.

    Et parfois, cette obsession de la qualité pouvait nous jouer des tours. Certains sites se montraient mécontents de nos résultats, car une visibilité plus faible ne faisait pas leurs affaires. On pourrait penser qu’en face, côté agence, notre orthodoxie de la qualité aurait été mieux accueillie. Mais pas toujours ! Certaines agences s’engageaient sur des taux de visibilité qu’elles avaient du mal à atteindre. Et préféraient une mesure plus « gentille ».

    Fallait-il pour autant réduire nos efforts de R&D, et baisser la qualité de notre mesure pour aller dans le sens de nos clients ?

    Je m’y suis toujours refusé. Et cette qualité a été largement reconnue lors de l’acquisition par AppNexus.

    Les dirigeants de Facebook ont-ils eu ce type de conversation ?

    Les récents documents publiés dans le cadre d’un procès semblent le démontrer. Facebook savait que les audiences prévues étaient surestimées. Les faux comptes, les comptes fantômes (connus) et dupliqués étaient utilisés dans les estimations de volumes.
    Mais Facebook n’est pas une société d’études. Et ses facteurs-clé de succès ne privilégient pas la qualité de la mesure.

    Ce n’est pas la première fois que Facebook se fait prendre la main dans le sac. Un précédent scandale avait porté sur la durée des vidéos, surestimée de 60 à 80% !
    A chaque fois, deux problèmes ont été remontés :

    • comment se fait-il qu’on laisse Facebook être juge et partie ?
    • pourquoi les conséquences sont-elles si faibles ?

    Lorsqu’AppNexus a intégré la visibilité dans sa place de marché, on aurait pu dire que l’on devenait juge et partie. Mais non :

    • AppNexus ne possède pas l’inventaire, donc n’avait pas intérêt à surévaluer la visibilité. Au contraire, AppNexus prenait un risque en achetant des espaces qui ne seraient payés que si les publicités étaient visibles.
    • AppNexus autorise tous les autres mesureurs de visibilité à vérifier ses propres mesures. Facebook (et Google) non.

    Ces géants sont-ils trop gros pour être mesurés par des tiers ? Non. Les capacités des serveurs autorisent maintenant des volumes inimaginables il y a seulement quelques années. Les mesureurs peuvent mesurer les GAFA.

    La vie privée des utilisateurs de Facebook serait-elle en danger ? C’est l’excuse facile, brandie dès que l’on veut fermer toutes les portes de ces walled gardens.
    Là encore, non. La mesure (visibilité, audience, complétion) se moque éperdument de l’identité de ceux qu’elle analyse.

    Une mesure indépendante serait donc possible.

    Sauf qu’un tiers mesureur, s’il avait fait un MBA, aurait érigé la qualité au rang de vertu cardinale. Et il aurait immédiatement corrigé l’erreur d’estimation de l’audience, ou de la durée des vidéos.

    Et Facebook aurait perdu 5%, 10% 15% (?) de chiffre d’affaires.

    Ce n’est pas le choix qui a été fait. Facebook a semble-t-il préféré attendre jusqu’à ce que le pot-aux-roses soit découvert.

    Tout autre société aurait perdu de grosses plumes dans une telle situation. Beaucoup même auraient coulé !
    Mais lorsqu’on est incontournable, too big to fail, on peut se permettre de dire « oops, pardon, je m’ai trompé ! » et faire un petit cadeau en dédommagement.

    Et la qualité de la mesure n’a pas besoin d’être un facteur-clé de succès de son département « mesure ».

    Thémis, la déesse de la justice, brandit une balance, symbole de la qualité de ses jugements. Elle a les yeux bandés, pour ne pas voir qui elle juge, symbole de son indépendance. Et si on en faisait aussi la déesse des études ?

    Thémis, déesse de la justice. Et des études ?