#LifeHack : Pourquoi et comment éviter le sampling dans les données de vos campagnes
Quelle est la meilleure façon de structurer vos campagnes dans Google Analytics afin d’éviter l’échantillonnage dans vos résultats? Découvrez-le dans cet article écrit par notre expert en analytics.
Renversez la pyramide
La structure pyramidale est une excellente façon d’expliquer les concepts derrière le tagging utm d’une campagne, comme je l’ai fait dans mon article sur la structure à adopter dans la hiérarchie de vos campagnes utm. Sauf que UN détail met à mal cette hiérarchie : le sampling, ou l’échantillonnage, qui est enclenché lorsqu’on utilise trop ou mal certaines dimensions.
Ainsi, si on veut respecter au maximum le processing flow chart (le processus qui attribue une source à une session), il ne vaut mieux pas représenter la structure comme ceci :
Mais plutôt comme cela :
L’architecture intuitive des campagnes de Google Analytics fonctionne, et regroupe les résultats de manière esthétique, où chaque campagne est associée à une ligne dans les rapports. Malheureusement, cette stratégie de tagging ne permet pas d’éviter le sampling. Cette démarche sera convenable pour de petites campagnes dans un premier temps, mais posera problème quand viendra le temps d’analyser beaucoup de données, via des analyses annuelles par exemple. Et ne parlons pas de campagnes d’envergure! La solution? Adopter une stratégie de tagging basée sur la déclinaison du paramètre utm Campaign. Cette manière de faire permet d’éviter le sampling, et donc de ruiner votre analyse.
Petit rappel : sampling et rapports préétablis
Le sampling s’applique seulement lorsque les requêtes d’un utilisateur dépassent 500 000 sessions sur la propriété qu’il analyse ET que l’analyse n’est pas faite sur les tables préconfigurées de Google Analytics.
Dans la dernière étape du traitement de vos données, Google Analytics créé des rapport préétablis, aussi appelés rapports standards. Ces rapports ont un énorme avantage, celui d’échapper totalement au sampling. Comme la plupart des rapports produits par Google Analytics, les rapports par campagne en sont des standards, et ce même si une dimension secondaire Source / Medium est ajoutée au rapport. Autre détail intéressant, vous pouvez filtrer autant que vous voulez les données tant sur le champ Campaign que Source / Medium, aucun sampling ne sera appliqué au rapport. Plutôt pratique pour analyser!
Par contre, si on croise les rapports en ajoutant une dimension secondaire qui ne fait pas partie des dimensions standards, ces rapports ne seront plus standards. Prenez le même rapport par campagne mais en y ajoutant la dimension secondaire Ad content (contenu de l’annonce) qui est issu du paramètre utm_content : Patatra, méga sampling et rapport potentiellement inutilisable.
Pour illustrer, voici le même rapport de campagne mais associé avec deux dimensions secondaires différentes : à droite avec Source / Medium et à gauche avec Ad Content.
On peut observer que le message à côté de l’écusson orange dans le rapport avec le Ad Content montre que le rapport est échantillonné à partir de 30,39% des sessions. Le rapport avec Source / Medium n’est quand à lui pas échantillonné, car l’écusson est resté vert.
On peut aussi voir que l’échantillonnage a pour conséquence d’altérer le nombre d’utilisateurs : le nombre réel est de 288 531 dans le rapport de droite, alors que ce nombre est surestimé dans le rapport de gauche à 292 757. Bien que cette différence ne semble pas majeure à première vue (4 226 utilisateurs), l’échantillonnage est dommageable à plusieurs niveaux :
- Le processus d’échantillonnage n’est pas constant : il peut varier si vous générez votre analyse ce matin, ce soir ou demain. Ainsi, l’analyse n’est pas fiable car la même requête varie dans le temps.
- L’écart peut être assez petit sur les totaux, par contre il peut être beaucoup plus important sur les plus petits ensembles comme des petites campagnes ou sous campagnes.
- Les différents indicateurs ne varient pas à la même ampleur : l’échantillonnage fait baisser vos sessions de 15% mais votre revenu de 30%.
Si vous avez la chance d’avoir accès à un compte Google Analytics Premium, vous pouvez alors télécharger un rapport non échantillonné. Mais si vous faites partie de l’immense majorité des utilisateurs de Google Analytics, vous n’avez pas d’autre choix que de réduire ou morceler vos plages de dates pour abaisser le taux de sampling à un pourcentage raisonnable. Donc, il en résulte une perte de temps, plus de manipulations manuelles, sans parler des métriques non additionnables, comme les utilisateurs par exemple, qui viennent complexifier l’analyse.
Comment éviter le sampling?
La réponse est en utilisant tout le potentiel des trois paramètres obligatoires que chaque session comporte dans Google Analytics. J’insiste ici sur toutes les sessions, car même les sessions ne faisant pas partie d’une campagne ont un paramètre utm_campaign : la valeur est alors attribuée à (not set).
Passons en revue ces trois paramètres :
1 – utm_medium : il est déconseillé de personnaliser ce paramètre étant donné son importance capitale dans la définition du channel grouping (à moins de personnaliser votre channel grouping.)
2 – utm_source : la personnalisation de ce paramètre est possible mais déconseillée compte tenu de l’importance du nom du site / réseau (Facebook, Google, Adwords) dans l’analyse d’une campagne. Sans oublier de mentionner que ce paramètre est déjà formaté d’une manière particulière dans l’écriture par défaut des autres utms source de votre système Google Analytics. Idéalement, comme pour toutes les autres sources de vos analytics, il est préférable de se limiter au site sur lequel était votre utilisateur avant de se rendre sur le vôtre. Un exemple : vous voulez comparer la performance de vos publications sponsorisées sur Facebook avec celle des publications organiques. Si vous gardez un utm de type : utm_source=facebook, utm_medium=cpc et utm_campaign=masupercampagne, vous pourrez alors facilement faire cette analyse en sélectionnant filtrer la source dans votre rapport. Si, par contre, la valeur du utm_source est personnalisée (facebook_campagneXcreatifY), votre analyse risque d’être plus compliquée car le nombre de déclinaisons de votre paramètre source pour votre trafic identifié par un utm risque d’être important.
3 – utm_campaign : il est vivement recommandé de le personnaliser, il existe et a été créé à cet effet. De nombreuses déclinaisons pour la même campagne ne semblent pas jolies dans votre rapport par campagne, car les résultats d’une campagne sont éclatés sur plusieurs lignes. Mais par contre, grâce à une nomenclature rigoureuse, vous pourrez facilement filtrer vos résultats autant dans Google Analytics que dans une plateforme de visualisation comme Google Data Studio, Datorama ou Microsoft Power BI, et ce sans aucun échantillonage.
En conclusion, il est important d’insister sur deux points :
-
Un autre avantage majeur de concentrer le maximum d’information dans le trio utm campaign / source / medium est que comme ces données sont situées dans les rapports pré-agrégés, ils ne seront pas concernés en cas d’erreur de gestion sur la rétention de données. En d’autres termes, vous ne perdrez aucune donnée si certaines de votre compte sont effacées par la mise en place des nouveaux paramètres relatifs à la conservation des données.
-
Adopter une nomenclature claire et limitant au maximum l’échantillonnage dans vos structures de campagnes est un des piliers central d’un reporting efficace, d’autant plus que l’échantillonnage peut parfois ne pas se voir directement, en particulier quand les données sont traitées dans des plateformes de visualisation.
Bonne analyse!