Deux brillants scientifiques diplômés d’Harvard racontent dans Culturama (Robert Laffont) la genèse de leur incroyable invention : un robot informatique qui lit les millions de livres numérisés du programme Google Books et qui est capable de situer l’apparition d’un mot dans l’histoire, puis ses différentes occurrences. Un outil qui révolutionne bien des champs du savoir, l’étude de nos cultures écrites… et qui le fait dans 8 langues.

Les forts en maths auront toujours un avantage certain sur les littéraires : ils peuvent lire des livres, parfois même y prendre beaucoup de plaisir et, éventuellement, à la fin, devenir redoutables en culture générale. A l’inverse, des littéraires, entre deux lectures de Musil et de Proust, vont plus que rarement s’aérer l’esprit ou se divertir en résolvant des équations du troisième degré… Pour illustrer ce propos, prenons les cas d’Erez Aiden, diplômé d’Harvard et du MIT, et de Jean-Baptiste Michel, un polytechnicien également diplômé d’Harvard, deux matheux passionnés de livres et qui ont choisi la forme on ne peut plus classique d’un livre imprimé pour raconter leurs travaux communs.

Le robot qui lit tout

Au départ de cette histoire, une fascination commune pour l’évolution du langage en général et l’évolution des verbes irréguliers anglais en particulier réunit les deux compères. Quand on étudie par exemple les changements morphologiques dans une langue, il est intéressant de pouvoir disposer de données très nombreuses, mais aussi de données longues : ces données longues et profondes sont tout simplement ce dont tout le monde parle depuis près de 10 ans : les big data. C’est à ce moment de la réflexion de J.B. Michel et E. Aiden que les fondateurs de Google (qui sont aussi passionnés de livres soit dit en passant) ont commencé le programme de numérisation mondial Google Books. Un programme qui a fait couler beaucoup d’encre dans le monde et qui a déclenché l’ire de nombreux éditeurs et acteurs de la chaîne du livre. De 2004 à 2013, Google Books a numérisé plus de 30 millions de livres, soit 1 livre sur 4 jamais publié. Comme le disent les auteurs à la parution de leur livre, « A l’heure actuelle, la seule bibliothèque qui possède plus de livres est la Bibliothèque américaine du Congrès (33 millions) ». Aiden et Michel ont ainsi profité de cette aubaine en persuadant Google de l’intérêt de leur outil, avec l’aide de quelques amis enthousiastes et le coup de pouce décisif du linguiste vedette Steven Pinker. C’est ainsi qu’est né en 2010 le Ngram Viewer, le robot qui lit tous les livres numérisés du monde, qui présente l’apparition historique d’un mot dans les textes, ses occurrences… le tout en un clin d’œil. Aiden et Michel donnent de nombreux exemples très convaincants de leur invention dans Culturama, dans un vrai style, à la fois alerte, amusant et « fécondant » pour le lecteur. Ils donnent de nombreuses clés d’analyse des graphiques en précisant les réserves d’usage et les limites de l’outil comme les changements de graphie, la structure des publications par pays, etc.

La Culturomique

Sondant ce concentré de cultures humaines écrites, il fallait bien que ces archéologues de la langue inventent un nom pour désigner leur nouvelle science socio-culturelle. Le mot forgé par Aiden et Michel , inspiré des travaux de l’anthropologue américain Franz Boas, est Culturomics (la culturomique). Culturomics a été élu mot de l’année aux Etats-unis en 2010 et vu la vitesse d’expansion des big data (pour ne parler que du programme Google Books, 130 millions de livres seront numérisés en 2020), on peut lui prédire un bel avenir.

burned vs. burnt

Pour ne citer qu’un exemple sur un sujet qui passionne les lecteurs de ce blog, l’évolution de la langue, le passage consacré aux verbes irréguliers anglais est particulièrement remarquable. Les deux auteurs ont remarqué qu’un processus de « régularisation » touche les verbes irréguliers anglais. En d’autres termes, des verbes irréguliers peu utilisés voit petit à petit leur morphologie se régulariser et adopter la désinence en -ed au prétérit et au present perfect. Le Ngram Viewer permet de visualiser ces évolutions de façon extrêmement précise dans le temps, et de façon quantitative. Exemple ci-dessous avec les Ngrams burnt et burned (pour le verbe to burn au prétérit).


Ce graphique montre clairement que les deux formes (la régulière et l’irrégulière) cohabitent dans l’usage écrit et que la forme régulière non prescrite est devenue plus fréquente que l’officielle, enseignée au collège (ce moment où les 2 courbes se croisent). Et ça ne date pas d’hier ! On peut imaginer qu’à l’oral, ces occurrences de la forme régulière sont encore plus nombreuses. Cela confirme ce que les linguistes et les observateurs des langues savent depuis longtemps : la norme et le prescrit ont toujours plusieurs temps de retard sur l’usage réel de la langue. On ne parle pas ici de mots à la mode qui ne sont que des déjeuners de soleil, mais de tendances profondes, lourdes et lentes, qui métamorphosent la langue en profondeur.

Histoire lexicographique du barbelé

Quant à l’apparition d’un mot dans l’histoire de la langue écrite, les résultats seront d’autant plus précis et faciles à décrypter si le mot en question est monosémique, c’est-à-dire qu’il ne désigne qu’une seule chose. Prenons un mot aussi spécifique que « barbelé ». Son graphique dans la langue française depuis la fin du XIXe siècle dit beaucoup de choses.


Jusqu’en 1900, le mot barbelé est quasiment absent du radar. Puis deux pics apparaissent. L’un en 1916, correspondant à la Première Guerre Mondiale et à l’immobilisation des troupes dans les tranchées, l’autre en 1943, l’année de la Solution Finale dans les camps d’extermination nazis. Dans les deux cas, le barbelé est utilisé massivement. Imaginez ce qu’Olivier Razac, auteur d’une passionnante Histoire politique du barbelé (La Fabrique, 2000) aurait pu tirer de ce graphique et vous comprendrez aisément pourquoi le Ngram Viewer est devenu une addiction plus grave que l’opium pour tous les bibliomanes et les lexicographes de la planète.
Mais le Ngram Viewer est également très intéressant dans les silences qu’il fait apparaître. La censure dans les différentes formes d’expression artistique et littéraire y apparaît de façon limpide, et encore davantage quand il s’agit d’événements politiques que les dictatures cherchent à effacer. Les auteurs illustrent notamment ce chapitre avec le mot Tiananmen en chinois. Edifiant.
A l’inverse, le robot dévoile la biblio-notoriété des personnalités. Le cas des écrivains est un des plus intéressants car le Ngram Viewer  révèle la vitalité des parutions leur étant consacrées. Et, pour être encore plus précis, c’est le prestige des écrivains qui est pleinement exprimé dans les graphiques générés.

Baudelaire vs. Rimbaud vs. Mallarmé

Par exemple, une question brûlante et totalement inutile : qui est le plus grand poète français du XIXe siècle ? Qui a vu sa cote monter ou s’effondrer ? Quelques éléments de réponse avec le graphique suivant qui interrogent les parutions de langue française depuis 1800.


La courbe de Baudelaire, victime de la censure dès 1857, pâtit de celle-ci pendant de longues années. Sa biblio-notoriété augmente dès son entrée dans le domaine public en 1915. C’est d’ailleurs une constante pour les écrivains : leur entrée dans le domaine public déclenche un raz-de-marée éditorial.
Pour en revenir à Baudelaire, il n’est enseigné dans les écoles françaises que depuis l’après-guerre et sa revanche devient alors éclatante. A l’inverse, la cote de Lamartine s’effondre dès le XIXe siècle et, si on regarde la fin du XXe siècle, elle montre l’intérêt tout relatif des chercheurs actuels pour son travail.

Baudelaire & Poe

Aiden et Michel aiment beaucoup Edgar Allan Poe, qu’ils évoquent à plusieurs reprises dans Culturama. Accordons-leur un petit plaisir en rapprochant Baudelaire et Poe, une évidence pour un lecteur francophone. En effet, Charles Baudelaire est considéré à juste titre comme le plus grand traducteur d’Edgar Allan Poe, qu’il a contribué à faire connaître en France assez tôt. Comment leurs courbes respectives se comportent-elles si on interroge les parutions de langue française depuis 1880 ?


Jusqu’à la fin de la Première Guerre mondiale, les courbes de Baudelaire et de Poe sont homogènes et relativement proches. Leurs destinées littéraires s’épousent clairement et la dépendance de l’un vis-à-vis de l’autre paraît assez évidente. Mais dès que Baudelaire entre dans le domaine public, sa biblio-notoriété décolle alors que la courbe de Poe demeure celle d’un écrivain de langue anglaise. Baudelaire et Mallarmé ont grandement contribué au prestige de Poe, mais il faut cependant retenir qu’ils en ont donné une vision tronquée et sans doute partisane. Poe n’était pas seulement cette âme noire, romantique et dépressive, c’était aussi (surtout) un sacré plaisantin qui aimait beaucoup les canulars et la parodie. Il faut attendre 1989 et l’édition des œuvres de Poe par Claude Richard (collection Bouquins) pour que soient réunis et traduits en France les textes qui révèlent cette face inconnue de l’écrivain américain. Etrangement, cette importante parution n’a pas forcément relancé la publication d’études comme on peut le remarquer à l’examen de la courbe depuis 1989.

Poids lourd vs. ultra-léger : Moby Dick vs. Bartleby

Restons un peu sur la littérature américaine pour examiner par exemple la biblio-notoriété de personnages de roman. Prenons comme sujet de notre étude Moby Dick d’Herman Melville, que tout le monde connaît sans forcément l’avoir lu. Et prenons un autre personnage de Melville, bien moins connu : Bartleby le scribe. Sur le ring et dans le coin gauche, un poids lourd, un cachalot albinos qui donne son nom à un roman de 720 pages (édition Penguin). Dans le coin droit, un poids ultra-léger, Bartleby, un obscur employé de bureau un peu nerd qui donne son nom à une nouvelle de 40 pages environ. A première vue, il n’y a pas de match question notoriété et ça sent vraiment le K.O.

Le graphique révèle une tout autre réalité : le vrai monstre, ce n’est pas Moby Dick, c’est Bartleby. Comme sujet d’études, de commentaires, de publications, Bartleby le scribe tient largement tête à la baleine blanche. Et ce n’est pas seulement vrai en langue anglaise, même si le phénomène est moins puissant dans les autres langues. Bartleby doit détenir le titre non officiel de « personnage-le-plus-commenté-de-l’histoire-de la-littérature-si-on rapporte-la longueur-de-la-nouvelle-au-nombre-de-publications-et-de-commentaires-qu’elle-a-fait-naître ». Mais quand on y regarde bien, rien de plus logique à cela. Bartleby, 150 ans après sa parution, demeure un mystère et un personnage impénétrable qui échappe à l’analyse et à la compréhension alors que Moby Dick a livré la plupart de ses secrets. Bartleby, c’est un peu le code Enigma sans Turing, le hiéroglyphe sans Champollion…

L’incroyable et tragique histoire de Léon Thérémine (1896-1993)

Aiden et Michel font une rapide allusion au thérémine dans Culturama, un instrument de musique considéré comme l’ancêtre du synthétiseur. Son inventeur est un ingénieur russe, Lev Sergueïevitch Termen, plus connu en France sous le nom de Léon Thérémine. La biographie de Thérémine est un fabuleux roman scientifique, culturel et d’espionnage qui couvre toute l’histoire du XXe siècle. Pour la résumer brièvement, Thérémine rencontre un succès fulgurant aux Etats-Unis après l’invention de son instrument en 1919, même si Lénine aimait beaucoup le thérémine et en avait fait distribuer sur le territoire soviétique.  En 1938 il est enlevé par le NKVD dans son appartement new-yorkais sous les yeux de sa femme (qu’il ne reverra d’ailleurs jamais plus). 7 ans de goulag attendent Léon Thérémine pour son retour en URSS, avant  qu’il intègre un laboratoire où il doit, sous contrôle policier, créer des instruments d’espionnage de la population. En Amérique, ses amis, et notamment la virtuose du thérémine Clara Rockmore, estiment que Thérémine est probablement mort. Mais le hasard permettra à Clara Rockmore de rencontrer Thérémine en URSS et de confirmer qu’il est bel et bien vivant. Il ne pourra retourner aux USA qu’à partir de la glasnost, pour un court voyage. Ceux qui souhaitent les détails de cette histoire peuvent visionner le fabuleux documentaire Theremin, an Electronic Odyssey de Steven Martin.
Mais que dit le Ngram Viewer du destin tragique de Léon Thérémine, de son instrument, dans les livres russes et dans les livres en anglais ?


Une première lecture du graphique montre que la biblio-notoriété de Termen en russe est moins faible que celle de sa création. La deuxième remarque concerne l’extrême faiblesse du signal. On peut affirmer que la biblio-notoriété du thérémine est proche de zéro en Union soviétique comme dans l’actuelle Russie. Quant à celle de son créateur, elle demeure infinitésimale. On voit bien que seules la glasnost (à partir de 1985) puis la chute de l’URSS (1991) permettent à la courbe de Termen de décoller, mais dans des proportions modestes. Thérémine, ingénieur de génie, est l’une des victimes méconnues de la Guerre Froide et reste méconnu dans son pays d’origine.

La biblio-notoriété du thérémine et de son inventeur en anglais est différente du domaine russe. En Occident, le thérémine demeure très utilisé en musique après la disparition inexpliquée de son créateur en 1938, notamment dans de nombreux films hollywoodiens des années 40 et 50, ce que la courbe montre bien. Certains de ces films sont des classiques comme Le Jour où la Terre s’arrêta, mais bien d’autres sont des navets de science-fiction ou d’épouvante. Dans tous les cas à cette époque la courbe de l’inventeur et de son instrument s’épousent plutôt. Puis, au début des années 1990, la notoriété du thérémine s’envole. L’instrument est de plus en plus utilisé par des musiciens de tous horizons, en pop (Led Zeppelin), en électro (AIR, Portishead), dans des séries comme les Simpsons, toujours au cinéma, mais aussi par des compositeurs contemporains comme le britannique Christian Mason.

Culturama d’Erez Aiden & Jean-Baptiste Michel (Robert Laffont). 304 pages, 20 euros.
Pour utiliser le Ngram Viewer : https://books.google.com/ngrams
Le site des culturomics : http://www.culturomics.org/Resources/A-users-guide-to-culturomics

https://blog.assimil.com/wp-admin/post.php?post=4442&action=edit<iframe name= »ngram_chart » src= » » width=900 height=500 marginwidth=0 marginheight=0 hspace=0 vspace=0 frameborder=0 scrolling=no></iframe>