Les débats de 2ème tour des présidentielles

Candidats

1974 – 2017, d’un siècle à l’autre, 7 affrontements pour présider à la destinée des français. Permanence ou nouvelle donne, les discours politiques changent-ils vraiment ?

Les transcriptions ont été récupérées sur Internet à l’exception du dernier débat retranscrit par nos soins à partir d’un enregistrement vidéo, seul trace de l’événement sur le web. Le corpus de l’ensemble des débats fait 330 pages et 176 616 mots. Il est disponible au format word. Il a été intégré par SphinxIQ2, logiciel utilisé pour structurer la base de données et mener les analyses lexicales et sémantiques. Les résultats sont présentés ici avec DataViv. Cliquez sur les liens ci dessous pour y accéder.

Le corpus des débats (cliquez)

Ce lien permet de découvrir l’ensemble du corpus à partir du nuage des mots clés les plus fréquents et des verbatim vers lesquels ils pointent. Les débats sont de plus en plus abondants et l’expression des candidats de plus en plus vive. L’examen des mots clés donne une première idée des évolutions et des particularités des candidats.

Dès ce premier niveau l’évolution du début à la fin de la période est perceptible, et le tout dernier débat se distingue nettement. 

Approximation lexicale (Cliquez)

Une carte d’analyse factorielle établie à partir des 300 premiers mots donne une représentation plus riche que les nuages de mots. Elle met en évidence des univers lexicaux qui dessinent des configurations de termes proches évoquant les thèmes du corpus.

Par exemple à gauche sur la carte les termes de la vie politique et à droite ceux de l’économie et de la société.

Cette première approximation est affinée par une classification automatique. Elle permet d’explorer plus systématiquement et plus profondément les univers lexicaux. On obtient  ainsi 11 classes thématiques dénommées en fonction de la signification des mots qui les distinguent les unes des autres. Le nombre de phrases correspondant à ces catégories donne une idée de leur importance.

Ainsi les débats de la dernière période se distinguent par les thèmes ‘Entreprise salariés’, ‘Chômage emploi’, ceux du début par ‘Gouvernement majorité’, ‘Socialiste communiste’.

Analyse sémantique standard (Cliquez)

L’analyse sémantique donne une perception plus agrégés en repérant avec plus ou moins de détail les idées et concepts reconnus par un thésaurus généraliste. Sans surprise les idées de ‘politique’, ‘finance’, ‘économie’ viennent en tête. Le sens de ces catégories dénommées selon la terminologie du thésaurus est précisé par les nuages de mots et verbatim correspondants.

Le corpus se découvre ainsi par des entrées plus synthétiques que celles du lexique. Elles mettent en évidence ce qui différencie les périodes et les orientations politiques.

On retrouve les spécificités sémantiques des position gauche / droite,  mais l’orientation politique semble avoir moins d’influence sur les contenus que l’époque à laquelle les débats ont lieu.

Analyse de contenu et thésaurus ad’hoc (Cliquez)

Pour plus de pertinence on construit un thésaurus ad’hoc en répartissant les mots en familles de significations voisines, dénommées et organisées selon les connaissances du domaine. On obtient ainsi une représentation plus adaptée que celle provenant d’un  thésaurus général. Ce thésaurus, utilisé pour coder automatiquement le contenu du corpus, donne une autre vision que celle apportée par la classification selon les univers lexicaux.

On fait ainsi ressortir que les catégories ‘acteurs’ et ‘service public’ sont spécifiques aux derniers débats alors que les catégories ‘instituions’ et ‘gouvernement’ sont des marqueurs de l’époque de Giscard Mitterand Chirac. Avec le passage du siècle, les clivages gauche/droite apparaissent beaucoup moins nettement.

Triangulation des approches (Cliquez)

L’analyse de données  lexicale (classification automatique), L’analyse sémantique (thésaurus standard) ou l’analyse de contenu (thésaurus ad’hoc) donnent des visions différentes. Leur triangulation présente une convergence statistique et un cohérence sémantique qui fonde et stimule les interprétations de l’analyste.

On vérifie ainsi l’opposition entre les thèmes de ‘l’économie’ et de ‘la société’ qui se différencient nettement du discours politique articulé sur ‘la puissance publique’ et ‘le débat politique’.

Focus (Cliquez)

De nombreuses autres analyses, répondant à la curiosité du chercheur ou du lecteur, peuvent être menées pour apprécier les choix de langue et les variations sémantiques selon les époques ou les candidats. La data visualisation facilite la mise en évidence de ces différences.

Ainsi ‘France’ et ‘français’ sont plus marqués à droite, ‘état’ à gauche. L’usage de ‘pays’ ou ‘gens’ distinguent le dernier débat. Pour le vocabulaire de l’économie il est surprenant de constater qu’au XXIème siècle les candidats de gauche sur utilisent ‘investissement’ et ‘croissance’ alors qu’au XXème la droite se distingue par l’usage de ‘social’ et ’emploi’. Mais ce n’est peut être que la conséquence du scrutin majoritaire. Pour être élu il faut convaincre l’autre camp ! Ceci explique aussi la position très centrale de  Chirac et dans une moindre mesure de Sarkosy et Hollande dont le vocabulaire est moins spécifique que celui des autres candidats.

Enfin l’usage des mots ‘présent’ et ‘avenir’ et la référence aux idées de ‘court et long terme’ met en évidence une immédiateté de plus en plus marqués dans l’expression des candidats.

Pour conclure, l’analyse lexicale et sémantique objective des propriétés du corpus sous forme de mots clés, univers lexicaux, concepts, cartes… L’interprétation de ces données repose sur les connaissances de l’analyste et sur sa capacité à les commenter de manière pertinente. Ce qui fait la différence c’est qu’il peut partager avec son lecteur les éléments sur lesquels il se base.  Ainsi pouvez vous discuter les interprétations, très sommaires, données ici en exemple. Mais si vous êtes fin connaisseur de la science politique vous pouvez aussi vous appuyer sur ce matériau pour des analyses bien plus fines qui répondent à vos centres d’intérêt.

Pour en savoir plus lire l’article présenté aux Journées d’Analyse de Données Textuelles 2018. Télécharger l’article