De l’empilement des niveaux d’abstraction

Lorsqu’on invente une solution technologique, on passe son temps à imaginer comment on peut faire parler les data. C’est mon métier depuis 25 ans, j’affirme donc sans fausse modestie que je peux m’exprimer sur le sujet. Mais cet article a aussi une dimension métaphorique (je généralise volontairement à outrance), et humoristique…

Toute analyse met en scène des niveaux d’abstraction. Regrouper des données selon une dimension revient à perdre de l’information, mais en même temps, cela revient à l’abstraire selon un axe, un concept, qui la rend plus compréhensible.

Ce concept peut lui-même se trouver relié à d’autres concepts selon des formules plus variées, et avec des fiabilités variables.

Ainsi, on empile les niveaux d’abstraction. Au final, on peut tout relier à tout, et au bout du bout, plus rien ne veut rien dire. “Tout est dans tout” écrivait Anaxagore vers 450 avant JC., “Et réciproquement” ajoutait malicieusement Alfred Capus début XXème.

Prenons un exemple concret. Chez Implcit, nous avons accès à toutes les données mesurées par Médiamétrie sur le panel Internet. Pour chaque page, groupe de pages, site, groupe de sites, application, groupe d’applications, nous savons quels panelistes ont visité ce groupe. Il suffit alors de les agréger pour connaître le profil complet de leurs visiteurs. C’est une mesure directe.
Nous aurions pu passer par un niveau d’abstraction supplémentaire. Aller voir de quoi parlent les pages, analyser les profils par thématique, et en déduire le profil d’un groupe de thématiques. Mais pourquoi ajouter un niveau d’abstraction inutile ? Cela ne ferait qu’augmenter le flou des données, baisser la confiance que l’on pourrait avoir dans les résultats.

Il vaut mieux une lecture directe des profils qu’une lecture indirecte.

Pas plus tard qu’hier, un client m’a dit : pour certains annonceurs, “IA” est un deal breaker !
Pourquoi l’Intelligence Artificielle qui rend riche quiconque l’ajoute à son Business Plan a-t-elle mauvaise presse chez certains opérationnels ?
L’IA utilise souvent des réseaux de neurones. Cette simplification du cerveau humain se matérialise par des couches de neurones, chaque couche étant reliée à la précédente et à la suivante. Par exemple, une première couche peut représenter les pixels d’une image, et la couche finale, les 10 valeurs de chiffres (le résultat de la reconnaissance d’images). Au milieu des couches d’abstraction qui ne représentent véritablement rien du monde réel. Plus on empile les couches, plus on transforme les données, mais moins le résultat final est explicable.

L’explicabilité des résultats est importante pour créer la confiance.
C’est pourquoi certains annonceurs ne se contentent pas de lire “IA” pour croire ce qu’on leur vend. L’IA donne parfois de bons résultats. Elle permet de découvrir des relations cachées.
Mais l’IA peut se tromper, souvent. Et surtout l’IA est une boite noire dont personne, pas même ses créateurs, ne peut expliquer le processus de décision.

La publicité digitale a longtemps travaillé avec zéro degrés d’abstraction. Les cookies étaient reliés les uns aux autres de manière déterministe. L’identifiant 123 est égal à l’identifiant 456, 123 a visité la page abc, donc je sais que 456 a visité la page abc.

L’approche par panel ajoute un niveau d’abstraction. N panélistes ont visité la page abc, le panel est représentatif donc je peux estimer le profil des publicités de la page abc.

En ajoutant un niveau d’abstraction supplémentaire, on commence à faire une inférence d’inférence, c’est à dire une “Opération logique par laquelle on admet une proposition en vertu de sa liaison avec d’autres propositions déjà tenues pour vraies”. A est relié à B (avec un coefficient de corrélation), B est relié à C (avec un autre coefficient de corrélation), donc A est relié à C.

On en arrive presque aux corrélations absurdes listées dans un site comme celui-ci : https://www.tylervigen.com/spurious-correlations . J’adore la corrélation entre le nombre de films avec Nicolas Cage et le nombre de noyades dans des piscines ! 😀

Bref, ne nous gargarisons pas de buzzwords, faisons des choses simples, compréhensibles, et qui marchent. Ce serait déjà pas mal !

Laisser un commentaire