Ben Blatt, Nabokov's Favorite Word Is Mauve. What the numbers reveal about the classics, bestsellers, and our own writing, New York, Simon & Schuster, 2017, 272 p. , $25.
Cet ouvrage est consacré aux résultats d'analyses lexicales d'œuvres littéraires : le corpus étudié compte 1500 ouvrages sans compter ceux qui sont publiés uniquement sur le web (romans de fanfiction et literotica). Les titres et auteurs sont cités en note de fin d'ouvrage.
La méthodologie mobilisée par Ben Blatt est de strict comptage statistique : compter et caractériser les mots (fréquence, statut grammatical). Pour cela, l'auteur recourt au Natural Language Toolkit (NLTK), une bibliothèque de programmes en PYTHON pour réaliser différentes opérations courantes : classification, parsing, stemming, tagging, tokenisation notamment. Pour certaines analyses, l'auteur a également effectué des opérations manuelles (mesurer la hauteur des titres sur la couverture, la surface occupée par le nom de l'auteur sur la couverture, par exemple).
Comme toute analyse utilisant des data élémentaires, ce travail fait voir de l'invisible dans le texte, manifeste ce que ne voit pas et ne peut voir le lecteur. Le texte, ainsi que l'énonce l'étymologie du mot, est un tissage (latin texere, tisser, ourdir) et c'est ce tissage que défait l'analyse.
Un long développement est consacré aux adverbes : les lauréats (livres ayant obtenu un prix, best sellers) mobilisent moins d'adverbes que les livres d'auteurs moins distingués et encore beaucoup moins que les textes d'amateurs (comme fanfiction.net). Il y a beaucoup moins d'adverbes formés avec le suffixe ly ajoutés à un adjectif dans les romans d'Ernest Hemingway que dans ceux de J.K. Rowlings (Harry Potter). De telles analyses peuvent êtres utiles pour l'enseignement de la littérature, la compréhension du style. Ernest Hemingway réclamait un style sobre, dépouillé, concis ; selon lui, les lois de la prose sont immuables (immutable), comme celles des mathématiques ou de la physique. Il n'est dépassée pour la concision que par Toni Morrison (76 adverbes pour 10 000 mots contre 80 chez Ernest Hemingway, mais 140 chez J.K. Rowling, cf. tableau infra) : "I never says -she says sofly. If it's not already soft, you know, I have to leave a lot of space around it so a reader can hear that it's soft" explique Toni Morrison
L'ouvrage se poursuit en analysant la fréquence des marqueurs masculins et féminins selon que les auteurs sont des femmes ou des hommes, la fréquence d'utilisation des points d'exclamation, faible chez Ernest Hemingway (59/100 000 mots, élevée chez James Joyce 1105/100 000mots, 2102 pour Finneganswake)... Et ainsi de suite avec la fréquence des répétitions et des clichés, l'étude les premières phrases d'un livre (incipit), la mention de la météo dans cette première phrase...
Lire autrement, en comptant. Passionant : toutefois, on voudrait en savoir davantage, dépasser le stade des curiosités et de l'intelligence naturelle.
Hélas, nous sommes en présence d'une sorte d'inventaire d'objets langagiers séparés, isolés. Nulle relation n'est dégagée entre les mots (corrélations, co-occurrences, etc.). Pour cela, il faudrait aller plus loin, mobiliser des clusters et le machine learning...et l'intelligence artificielle.
o.c. p. 13