TNS Sofres utilise le module d'optimisation statistique SAS/OR®

Comment un module d'optimisation permet d'affiner les estimations électorales au soir des Présidentielles… et bien d'autres choses 

C'est devenu un rituel des soirées électorale : dès 20 heures, à peine fermés les derniers bureaux de vote, les instituts de sondage livrent leur première estimation du résultat.
Pour atteindre un résultat aussi fiable que possible dans des conditions de pression intense, TNS Sofres utilise depuis 2007 le module d'optimisation statistique SAS/OR®. Un outil qui permet aussi d'optimiser l'échantillonnage des sondages d'opinion, et d'industrialiser certaines enquêtes. Comment ? C'est ce qu'explique Régis Bénichou, DirecteurSscientifique de TNS Sofres.

SAS nous a permis de présenter la meilleure estimation au premier tour en 2007, où nous étions les seuls à donner Nicolas Sarkozy au-dessus de 30%, et en 2012.

Régis Bénichou
Directeur Scientifique de TNS Sofres

 

L'enjeu : une estimation fiable et précise

Les soirées présidentielles sont un enjeu majeur pour TNS Sofres. Devant 19 millions de téléspectateurs (sur TF1), nous n'avons pas le droit à l'erreur ! Dans un contexte concurrentiel, où trois instituts proposent une estimation, l'objectif est clair : il s'agit d'être, dès 20 heures, aussi proche que possible des résultats qui seront donnés à 23 heures par le ministère de l'Intérieur. Et chaque décimale est importante, notamment au premier tour, où l'effet psychologique est important.

Pour répondre à l'enjeu, nous mettons en place un dispositif exceptionnel, avec des enquêteurs dans 219 bureaux de vote. Ils transmettent les résultats par téléphone (participation, résultats partiels après dépouillement des 200 premiers bulletins, résultats définitifs). Au centre de Montrouge, des opérateurs entrent les résultats dans une base de données. Après un premier contrôle de vraisemblance, nos statisticiens entrent dans la base et extrapolent un résultat national. A chaque nouvelle remontée du terrain, le résultat s'affine. En bout de chaîne, les experts politologues de TNS Sofres et du CEVIPOF (le centre de recherches politiques de Sciences Po) croisent les données et livrent à TF1 l'estimation finale.

La grande difficulté de l'exercice vient de ce que l'estimation de 20 heures se base principalement sur les résultats des bureaux fermant à 18 heures, qui sont surtout ruraux. Or, on sait que les campagnes votent plus à droite que les villes... C'est là qu'entrent en jeu SAS/OR et l'optimisation statistique, pour retraiter avec la plus grande acuité possible les données brutes remontant des premiers bureaux.

Précision et modélisation en continu

Le secret d'une bonne estimation réside d'abord dans la composition de l'échantillon, pour être le plus représentatif possible avec un minimum de bureaux. Contrairement à une idée reçue, nous ne cherchons pas des bureaux qui « votent comme la France ». Au contraire, nous privilégions avec nos experts des bureaux très « typés » (un tel très marqué à gauche, l'autre très UMP, un bureau où les chasseurs ont fait un gros score en 2007...), et relativement stables dans leur comportement.

L'autre secret, c'est la rapidité et la précision du calcul. Car tout se joue très vite - surtout entre 19h30 et 19h50 ! Notre modèle tourne sur une boucle d'actualisation de 15 à 30 secondes – ce qui permet d'intégrer les premiers résultats partiels des bureaux fermant à 19 heures. Les outils d'analyse prédictive sont au cœur de ce dispositif. Car en réalité, nous faisons tourner deux modèles en parallèle : l'algorithme de calcul se double d'un modèle explicatif, qui analyse en direct les résultats et permet à nos experts de comprendre ce qui est en train de se passer, et donc de retenir le scénario le plus pertinent pour tirer la meilleure extrapolation « France entière » des résultats.

Au final, l'outil nous a permis de présenter la meilleure estimation au premier tour en 2007 (où nous étions les seuls à donner Nicolas Sarkozy au-dessus de 30%) et en 2012.

D'autres champs d'optimisation des algorithmes

Au-delà de cette « vitrine » que sont les soirs d'élection, les outils d'optimisation statistique sont intégrés à de nombreuses activités de TNS Sofres. Nous avons ainsi adopté le module SAS/OR® pour élaborer l'échantillonnage des sondages politiques de Sofres Opinion, ou pour réaliser des échantillonnages aléatoires sous contrainte lors de certaines études. Les contraintes sont similaires : il s'agit d'obtenir des résultats précis avec un échantillon aussi petit que possible – avec une problématique toujours plus grande d’industrialisation de nos process.

On trouve un cas récent d'application avec notre offre « AdEffect » pour mesurer le ROI de campagnes publicitaires multimédias. L'objectif est d’analyser l’impact d’une campagne sur un indicateur donné (notoriété, reconnaissance…), puis de mesurer la contribution de chaque média à cette évolution et de rapprocher cette contribution de la part d’investissement consacrée au média. La solution AdEffect répondait en grande partie au besoin ; nous l'avons enrichie d'une étape supplémentaire de modélisation, avec SAS/OR®, notamment pour prendre en compte les effets de croisements de cibles entre les différents médias – un élément que nous ne pouvons maîtriser.

Comme lors des élections, nous partons d’une solution générique que nous déclinons avec de multiples paramétrages possibles, pour examiner toutes les hypothèses. Nous construisons l'échantillon sur des éléments classiques maîtrisés dans ce type d’études, puis la modélisation permet de retenir l'hypothèse la plus significative et la plus crédible en termes de sens – à l'image du « scénario » retenu pour les estimations électorales. Les contraintes sont elles aussi comparables à celles des soirs d'élection dans la mesure où la modélisation doit aboutir à des résultats précis (sur l'élasticité de l’indicateur cible relativement aux actions sur chaque média) sans être trop gourmande en terme de taille d’échantillon.

L'ensemble de ces étapes est également industrialisé - car même si nos clients n’exigent pas de réponse à ces questions dans des délais aussi courts que lors des soirées électorales, la quantité de demandes nous oblige à automatiser le plus possible nos offres.

Quant aux résultats, ils restent vérifiables. Certes, nous ne pouvons comparer nos conclusions à une réalité tangible comme le résultat officiel des élections. Mais dans la mesure où les campagnes médias sont souvent répétées, parfois avec des différences minimes, notre dispositif est rapidement soumis à un test de stabilité tout aussi complexe. Sans compter que nos clients peuvent vérifier dans le temps si les recommandations issues de nos travaux portent leurs fruits ou non, notamment en termes de ROI sur les campagnes ultérieures.

Article écrit par Régis Bénichou, Directeur Scientifique de TNS Sofres
Pour le site Les Dieux de la STAT - Dossier Spécial Optimisation

TNS Sofres, leader français des études marketing et d'opinion

Créé en 1963, TNS Sofres est la référence des études marketing et d'opinion en France. L'entreprise appartient au groupe TNS , l'un des leaders mondiaux du marché et n°1 mondial des études ad hoc. Le groupe emploie 15 000 personnes dans plus de 80 pays.

Enjeux

Détecter les invraisemblances
Corriger automatiquement les erreurs
Livrer une estimation très proche du résultat final

Solution

SAS/OR®

Bénéfices

SAS/OR® a permis à TNS Sofres de présenter la meilleure estimation au premier tour des présidentielles en 2007 et en 2012.
SAS/OR® permet aussi d'élaborer l'échantillonnage des sondages politiques de Sofres Opinion, ou pour réaliser des échantillonnages aléatoires sous contrainte lors de certaines études.

Les Dieux de la STAT

A l'initiative de SAS France, des experts, des enseignants, des statisticiens dans leurs entreprises s'expriment afin de montrer tout l'éventail des utilisations et des métiers offerts par l'analytique. www.statistique-2013.fr

Les résultats présentés dans cet article sont spécifiques à des situations, problématiques métiers et données particulières, et aux environnements informatiques décrits. L'expérience de chaque client SAS est unique et dépend de variables commerciales et techniques propres, de ce fait les déclarations ci-dessus doivent être considérées dans un contexte. Les gains, résultats et performances peuvent varier selon les configurations et conditions de chaque client. SAS ne garantit ni ne déclare que chaque client obtiendra des résultats similaires. Les seules garanties relatives aux produits et services de SAS sont celles qui sont expressément stipulées dans les garanties contractuelles figurant dans l’accord écrit conclu avec SAS pour ces produits et services. Aucune information contenue dans le présent document ne peut être interprétée comme constituant une garantie supplémentaire. Les clients ont partagé leurs succès avec SAS dans le cadre d’un accord contractuel ou à la suite de la mise en œuvre réussie du progiciel SAS. Les noms de marques et de produits sont des marques déposées de leurs sociétés respectives.