Seconde partie de ma conférence consacrée à la diversité linguistique et aux nouvelles technologies (prononcée à Mundolingua le jeudi 19 novembre). Ce deuxième épisode s’intéresse à la représentation des langues sur la Toile et aux enjeux économiques d’un Web voué à devenir toujours plus multilingue.

Malheureusement, la mort annoncée de nombreuses langues s’inscrit dans un ensemble anthropologique et biologique plus vaste, que les scientifiques ont nommé « la sixième extinction ». Cette expression désigne évidemment la disparition inéluctable et massive de milliers d’espèces et des écosystèmes dans lesquelles elles vivent. Les langues naturelles étant, dans bien des cas, inséparables des milieux qui les abritent (il suffit de comparer la diversité biologique et la diversité linguistique en Papouasie Nouvelle-Guinée pour s’en convaincre), détruire ces derniers revient bel et bien à détruire les premières. Autrement dit, le monde va vers moins de diversité dans tous les domaines (et la culture n’échappe pas à ce constat). Dans le cas du Web, permettre toujours davantage la communication et le contact entre différentes populations présente le risque paradoxal de voir seulement quelques modes de vie et de pensée s’imposer partout – surtout si l’épicentre du Web demeure la Silicon Valley.

L’impossible mesure de la diversité linguistique

Mesurer la diversité linguistique sur le Web s’avère une tâche d’une extrême complexité. De nombreux chercheurs, depuis la création d’Internet, s’y sont cassé les dents. Entre les moteurs de recherche qui n’indexent qu’une partie du contenu, le fait que seuls les langues possédant une écriture soient représentées (voir la première partie de la conférence), la méconnaissance du Web par les chercheurs (et/ou leur méconnaissance de l’univers des langues), la censure, les robots qui envahissent désormais la Toile pour créer des contenus ou générer un trafic artificiel, les biais sont innombrables et chaque jour qui passe en ajoute un nouveau, rendant l’image quasi illisible. Autre problème : le Web est un objet en mouvement perpétuel. Dès qu’on écrit une ligne à ce sujet, dans la minute qui suit cette assertion est déjà obsolète. Pour utiliser une image, documenter l’ensemble du Web reviendrait à vous demander de décrire 5m3 d’une rivière assez tumultueuse, tous les jours pendant plusieurs mois. Vous devriez décrire à la fois les mouvements subtils du courant en surface, les crues, les périodes d’étiage, les incroyables effets de la lumière (le Web surfacique en quelque sorte), mais aussi ce que vous pourriez discerner sous la surface (le Web profond, qui ne fait l’objet d’aucune étude sérieuse pour les langues).
Cependant, des études importantes sont en cours à l’Université de Nagaoka, dont les fondements sont détaillés dans un article de NET.LANG.

Photographier des parties plutôt que l’ensemble

Après des années d’études plus ou moins satisfaisantes où les chercheurs tentaient d’obtenir une photographie de l’ensemble du Web (les difficultés méthodologiques sont évoquées dans le détail dans le rapport « Douze années de mesure de la diversité linguistique sur l’Internet : bilan et perspectives » ), on a le sentiment qu’ils ont désormais renoncé pour scruter davantage des parties distinctes de la Toile. Cela leur permet d’approfondir davantage leurs recherches et d’aller dans le détail, et d’explorer des domaines oubliés (comme le bilinguisme ou le multilinguisme, jamais ou peu pris en compte auparavant). C’est ainsi qu’est né NET.LANG, cette somme, cette référence sur les langues dans le cyberespace. La réussite de cette entreprise a consisté à faire appel à des spécialistes qui n’étaient plus seulement des linguistes, mais aussi des ingénieurs en informatique, des juristes, des mathématiciens, des professionnels du Web, etc.

Le web-marketing, un biais considérable et oublié

La seule dimension du sujet qui a été oubliée est celle du Web-Marketing (et aussi le Web sur mobile et tablette, mais cela est tout à fait naturel et pardonnable puisqu’à l’époque on n’était qu’au début de l’histoire), qui joue pourtant un rôle capital dans la génération des contenus de la Toile.
Prenons un exemple concret : si on décide d’analyser la production de contenus dans une langue, on trouvera pour certaines langues une proportion très importantes de blogs. Or, si vous voulez que votre blog soit bien visible (bien référencé) sur la Toile, il faut respecter un certain nombre de règles (ce sont les fameuses « best practices » des professionnels du marketing), et publier régulièrement. Plus vous publiez régulièrement et plus votre blog gagne en audience. Le nombre de pages créées dans une langue donnée révèle aussi le niveau de culture marketing des locuteurs. Si on rentre encore davantage dans les détails, la mise en forme et la rédaction des contenus d’un blog participent aussi au référencement naturel. Bref, la course à l’audience et à la visibilité est complètement occultée dans les recherches actuelles.
Dans le même ordre d’idée, écrire un blog ou un site dans plusieurs langues est sans doute une idée louable, mais c’est une hérésie pour le référencement. Il faut concevoir un menu sur la page d’accueil qui permette de passer d’une langue à l’autre de façon à ce que chaque interface soit dans une langue donnée, mais ne pas faire cohabiter sur une même page différents contenus dans différentes langues. Ainsi diverses langues évoluent toujours en parallèle sur les sites mais jamais de façon simultanée ou dans le même espace (on verra un peu plus loin que ce n’est pas forcément le cas des futurs résultats de recherche de Google, et du Web du futur en général).

Ceux qui choisissent l’anglais

Un autre phénomène qui mériterait d’être analysé est celui qui consiste, pour de nombreux locuteurs dont la langue maternelle n’est pas l’anglais, à écrire directement en anglais. Ceci pour tenter d’augmenter l’audience globale de leur site ou de leur blog. Il en résulte de facto une dégradation importante de la langue anglaise : le Web aussi a son globish, ou plutôt ses globish.
En Estonie, l’Etat le plus digital du monde qui entend attirer des cybercitoyens du monde entier, l’anglais est forcément l’hyperlangue, la langue universelle.
Si on regarde le Web indien en 2015, une quantité infinitésimale des contenus était disponible en hindi ou en bengali. L’analyse jusqu’alors n’était pas très compliquée : l’anglais est la langue de l’informatique en Inde comme elle l’est pour les médias, l’administration, etc. et peu d’outils avaient été développés pour la création de contenus dans d’autres langues. Mais on le verra plus loin, la situation va changer dans des proportions considérables. En Afrique, la situation risque d’être assez identique où le français est souvent la langue des élites politiques, intellectuelles, etc. : l’usage du français (et aussi de l’anglais, qui s’invite partout) empêchera dans une certaine mesure le développement de contenus dans des langues vernaculaires, tant que ces langues ne seront pas prises en compte.

L’anglais ne sera pas la langue cannibale du cyberespace

A la fin du vingtième siècle, il était commun de lire que les contenus en anglais représentaient 80 à 90% des contenus du Web. Ces affirmations, souvent produites par des ayatollahs de la Francophonie, étaient rarement étayées par des statistiques ou des informations objectives. L’idée que l’anglais était (et est) la langue hégémonique du Web s’est installée durablement dans les esprits. Or, ce n’est pas tout à fait le cas en 2016.
Malgré certaines réserves et interrogations sur le plan méthodologique, les chercheurs utilisent les statistiques de l’Internet World Stats. Selon ce site, la part des contenus en anglais du Web mondial ne dépasse pas 26%.
Et surtout, l’anglais ne semble pas disposer d’un réservoir de contenus/locuteurs très important si on regarde le taux de pénétration internet (déjà très élevé) dans les pays de langue anglaise. A la différence du chinois, déjà deuxième langue de contenus sur le Web mais avec un taux de pénétration du Web moyen. Cela signifie donc que lorsque le Web sera accessible dans la plupart des foyers en Chine, le mandarin sera la langue la plus représentée sur la Toile. Le taux élevé de contenus en chinois concerne surtout des publications scientifiques, dont le nombre a cru de façon exponentielle depuis 2007.
Les contenus en espagnol et en français vont forcément augmenter si on regarde le taux de pénétration du Web en Afrique ou en Amérique du Sud. A l’inverse, le japonais n’a quasiment aucune marge de progression puisqu’il n’est pas parlé en dehors de ses frontières et que le taux de pénétration du Web y est déjà très élevé (90,6%).
Dans ce ce contexte, parler plusieurs langues permet d’accéder à davantage d’informations disponibles immédiatement sur la Toile. Le  chercheur et hyperpolyglotte Michaël Oustinoff a publié un article convaincant dans NET.LANG sur ce sujet précis, où il démontre, en rappelant le paradoxe de la langue dominante du linguiste Louis-Jean Calvet, que le monolinguisme de langue anglaise aboutit à une sous-information.
Les statistiques du consortium W3C, qui s’intéressent aux principaux sites (les 10 premiers millions dans le monde) montrent forcément une domination plus importante des contenus en anglais.

Le Web multilingue, un enjeu économique

Dans tous les cas, 82% des contenus du Web sont rédigés dans seulement 10 langues. On est loin de la diversité linguistique telle qu’on l’imagine sur la Toile. Cependant, ma conviction est que cette situation va forcément s’améliorer car aucun des acteurs du Web n’a intérêt à ce que seules quelques langues soient représentées. Par acteurs du Web, je pense aux multinationales stars de la Silicon Valley comme Google et Facebook. Mais je pense aussi à des société ou des organismes à but non lucratif, comme Wikipedia, dont le multilinguisme est aujourd’hui exemplaire. UNICODE ou le W3C dont on a déjà parlé, sont d’autres exemples de société non lucratives pour lesquels la diversité linguistique du cyberespace représente un enjeu capital. Or il se trouve que ces sociétés ont souvent des intérêts communs (tout en poursuivant des buts différents). Pour Google, Facebook et les autres, c’est la certitude d’ouvrir demain des marchés juteux dans des parties du monde où le Web est peu présent et l’anglais peu su ou insuffisant. L’enjeu économique qui se cache derrière l’enjeu d’un Web multilingue est tout simplement colossal. Qu’on songe simplement à un marché comme l’Indonésie qui voit l’avènement d’une classe moyenne, ou au marché indien (le second marché potentiel après la Chine), pour s’en persuader.

Le cas de l’Inde

On sait ainsi que Google s’est associé au groupe d’e-commerce indien Snapdeal, qu’il a aidé au développement d’un clavier virtuel et de polices d’écriture devanagari en open source (permettant de noter l’hindi et le sanskrit, entre autres) et qu’il a accompagné des sites indiens pour la création de contenus en hindi. Pour Google, le problème de l’hindi en ligne est réglé : la part de pages vues en hindi a bondi de 84% en Inde en 2014, tandis que la progression de pages vues en anglais n’était que de 14%. L’hindi, qui jusqu’à présent représentait moins de 0,1% des contenus, va donc exploser dans toutes les études statistiques. Rajan Anadan, le vice-président de Google pour l’Inde et l’Asie du Sud-Est, a annoncé récemment au Financial Times que 10 nouvelles langues seront bientôt disponibles sur le moteur de recherche, parmi lesquelles le tamoul, le bengali et le kannada. Il est certain que des géants de l’information et du commerce vont naître demain dans des langues quasi invisibles sur la Toile, et que l’avenir du Web se trouve en Asie et en Afrique.

À lire aussi : Claviers AZERTY et QWERTY : quelles différences ?

Le rôle du smartphone

Dans de nombreuses régions du monde, une connexion à internet par câble est tout simplement inenvisageable. Et on ne parle évidemment pas de la fibre ou du haut débit. La solution passe par le ciel et les satellites, mais la fracture numérique demeure cependant. Pas besoin d’aller très loin pour s’en apercevoir : en France, la Lozère et ses 70000 habitants est un cas d’école. La couverture réseau y est particulièrement discontinue et hétérogène. A l’inverse, en Italie, la presse a beaucoup évoqué l’addiction de Matteo Renzi à son smartphone : certains observateurs ont observé avec malice que l’Internet fixe italien est si lent qu’il est bien normal que Renzi utilise davantage la 4G sur son smartphone qu’une connexion sur ordinateur portable.
Le succès du smartphone a complètement bouleversé les usages de l’Internet mondial et marginalisé l’usage du PC domestique. En mai 2015, Google a annoncé que les recherches sur smartphone dépassent désormais celles effectuées sur ordinateur fixe ou portable. Quoi de plus logique ? Dans de nombreux pays, on ne possède pas d’ordinateur ni d’installation câblée. Le smartphone devient ainsi le seul moyen d’accès à l’Internet et aux contenus. C’est particulièrement vrai en Afrique, où la détention de PC est très faible. La conséquence est l’explosion prochaine des ventes de smartphones sur le continent africain : le marché est stimulé par la forte croissance de l’économie africaine et l’offre de smartphones low cost. Une étude du cabinet Deloitte estime que le marché progresserait de 40% en 2015 pour atteindre plus de 350 millions de smartphones en 2017. Le smartphone possède de sérieux atouts puisqu’il accompagne, prolonge, amplifie, etc. les deux dimensions de la langue. La dimension orale évidemment, mais aussi la dimension écrite grâce aux SMS, aux mails, etc. Du coup, c’est un outil forcément « ami » de la diversité linguistique.

Le Web comme pierre de Rosette 2.0

C’est tout sauf un hasard, Google expérimente également un nouveau type de résultats pour son moteur de recherche. Il s’agit de listes de résultats en deux langues affichées simultanément. Dans l’image qui circule sur les sites spécialisées, une des listes de résultats est en anglais, l’autre en hindi sur une capture écran de portable. La plupart des commentateurs s’interrogent sur ces expérimentations, mais à n’en pas douter la prise en compte de populations multilingues est au cœur de la stratégie de Google. Le Web va devenir une gigantesque pierre de Rosette où des langues et des écritures différentes vont pouvoir cohabiter sur une seule et même page.

Google teste l'affichage de résultats de recherche en 2 langues sur mobile.
Google teste l’affichage de résultats de recherche en 2 langues sur mobile.

Google et les autres géants de la Silicon Valley ont rapidement compris que s’ils voulaient conquérir de nouveaux territoires et augmenter leurs parts de marché, il fallait réussir un mix « équipement-couverture réseau-outils de communication ». En d’autres termes : réunir les mêmes conditions que dans les pays les plus riches où tout le monde possède une connexion rapide, un smartphone (ou un ordinateur) et des outils pour communiquer dans sa langue.

Google et Facebook, les nouveaux évangélistes

Connecter les zones les plus reculées de la planète et le Tiers Monde, soit 57% de la population mondiale : telle est la nouvelle mission de Google et Facebook qui s’affrontent pied à pied sur cette question. Officiellement, on revient à l’origine du Web où il était question de permettre l’accès de l’information au plus grand nombre, à grand coup de déclarations philanthropiques et de promesses d’innovation. La réalité est évidemment moins flatteuse et beaucoup moins désintéressée. Connecter l’ensemble du monde, c’est évidemment s’assurer de nouveaux revenus publicitaires et un statut de précurseur sur ce marché. Premier arrivé, premier servi… une fois installé, on voit bien par exemple à quel point il est difficile de lutter contre le monopole de Google.

Loon vs. Aquila, le match

Du côté de Facebook, le projet internet.org a fait couler beaucoup d’encre. Mark Zuckerberg se proposait, associé à des opérateurs télécoms et d’autres sociétés high tech, d’offrir un accès gratuit et simplifié à des populations privés de Web. Or cet accès permettait seulement l’utilisation d’une trentaine de sites et de services… dont Facebook, évidemment. Tollé chez les gardiens du Temple et notamment chez Tim Berners-Lee qui a pris la parole pour dire, au nom de la neutralité du Web, tout le mal qu’il pensait de cette entreprise. Zuckerberg a dû revoir sa copie mais n’a pas abandonné puisque le projet est revenu récemment sous le nom Free Basics, tout aussi décrié. Par ailleurs, Il travaille d’arrache-pied à son projet de drone (l’Aquila) qui doit permettre, en tournant en cercles concentriques dans la stratosphère, de connecter des zones où l’Internet est inexistant.

Chez Google, l’évangélisation digitale des païens (i.e. les peuples sans connexion) ne passe pas par un drone mais par un ballon. C’est le projet Loon, un ballon qui sert de relais de communication une fois placé dans la stratosphère. Les premiers tests on été effectués en Nouvelle-Zélande et on parle d’un déploiement prochain en Indonésie. Mais c’est exactement la même idée et le même mélange de mystique philantropique, d’innovation technologique et de néo-libéralisme.

Paracelse et Google, même combat

J’écrivais dans la première partie de cette contribution que le Web est une pierre philosophale. En utilisant cette image, je pensais surtout à Google. La pierre philosophale est le but ultime des alchimistes, elle permet de transformer les métaux en or, de guérir toutes les maladies et d’accéder à la connaissance universelle. Les créateurs de Google sont-ils des lecteurs et des disciples de Paracelse ? Il y a de fortes chances que ce soit le cas. Google entend documenter toutes les activités humaines de la planète, et toute la planète elle-même. Son ennemi, c’est la tache blanche, le vide, l’inconnu. Google entend faire le grand inventaire de tout, poussant l’encyclopédisme à la Diderot et d’Alembert à ses dernières extrémités. Google Maps a déjà documenté la moindre parcelle de la surface de la Terre. Demain, c’est le comportement de l’ensemble des humains connectés qui sera connu de Google, sans parler des voitures sans pilotes et des algorithmes qui seront les arbitres de nos existences. Google récupère les données des utilisateurs de son moteur de recherche : ces données longues et profondes, les célèbres Big Data, leur permettront de proposer des contenus, des produits ou des publicités toujours plus ciblés. Les données, ce sont les métaux que les alchimistes 2.0 de Google transforment (et transformeront toujours davantage) en or.
En ce qui concerne la guérison des maladies, Google entend jouer un rôle majeur dans le domaine de la santé. Avec plus ou moins de succès, comme en témoigne l’échec du programme Flu Trends, mais nous n’en étions alors qu’au tout début de l’histoire. En fondant Calico (California Life Company), Larry Page et Sergueï Brin affichent leurs ambitions dans le transhumanisme et promettent l’immortalité, en toute modestie (pour les projets de Google, voir cet article).
Donc, Google reprend les grandes lignes de l’alchimie :
– En transformant vos données en monnaie sonnante et trébuchante
– En documentant l’ensemble des activités de la planète Terre (l’accès à toute connaissance)
– En se promettant de guérir les maladies et de repousser la mort

Autrefois, des tribus, des peuples, des communautés se tournaient vers le ciel, vers des statues, des totems et des temples, cherchant le réconfort, l’approbation, le pardon, etc. et questionnaient leurs dieux. Aujourd’hui (et au moins en Europe), à la moindre inquiétude, au moindre doute, à la moindre hésitation c’est désormais vers Google qu’on se tourne.

Le solutionnisme, cette maladie de l’ère digitale

L’échec du programme Flu Trends de Google (mais ce n’est pas le seul) montre pourtant que, malgré ses dires, la Silicon Valley ne peut apporter des solutions à tous les problèmes de l’humanité. De la même manière, le Web ne pourra pas sauver certaines langues de la disparition malgré des initiatives très intéressantes de linguistes, de passionnés, qui transforment la Toile en un gigantesque conservatoire des langues (voir par exemple Sorosoro). La richesse multimédiatique du Web permet beaucoup de choses. On pourrait par exemple imaginer reconstituer une langue disparue à partir d’enregistrements audio et/ou vidéo : ceci est tout à fait réalisable. Notons que Google s’est aussi intéressé aux langues en danger, au même titre que d’autres phénomènes humains restant à documenter, avec le projet Endangered Project, mais a fini par abandonner cette entreprise, comme bien d’autres. Dans le cas des langues comme dans le reste, il convient de garder un esprit critique face à la Toile. Peu d’observateurs ont adopté ce credo : la plupart sont hypnotisés par le mirage digital et font montre d’une foi infaillible. Seuls quelques-uns, dont le chercheur américain Evgeny Morozov, font entendre une voix dissonante (voir par exemple son article récent Le culte du techno-populisme).

Conclusion

De la même façon que le Web ne peut pas résoudre tous les problèmes, il est un peu facile de le rendre responsable de tous les maux et notamment du peu de diversité linguistique dans le cyberespace. On l’a vu, la route est longue pour qu’une langue finisse par être présente sur la Toile. Du coup, la véritable question se pose davantage dans le monde physique que dans le monde digital, car si une langue disparaît dans l’un, elle ne sera jamais dans l’autre : c’est une lapalissade. Mais si on examine la situation de l’ïle de Papouasie (Papouasie Occidentale et Nouvelle-Guinée), on a une sorte de concentré et de synthèse de ce que les langues et leurs locuteurs doivent surmonter pour survivre : colonisation, destruction des habitats et des écosystèmes, maladies exogènes, répression, etc. A l’Ouest, en Papouasie occidentale, les compagnies minières Freeport et Rio Tinto détruisent systématiquement les milieux naturels et polluent les rivières sur un territoire plus grand que la Belgique. Le tout avec la bénédiction et le soutien de l’armée indonésienne, qui exécute les opposants papous. On parle du « génocide le moins médiatisé du monde ». Sur ce territoire, la diversité linguistique a reculé de façon dramatique au cours des 20 dernières années. La situation de la Papouasie occidentale contraste pour le moment avec celle de la Nouvelle-Guinée, mais il ne faut pas s’y tromper : le pays est riche en ressources de toutes sortes (pétrole, cuivre, or, etc.) et attise les convoitises des grandes compagnies occidentales. L’exploitation minière ne fait que commencer, et sans doute pour le pire. Protégeons ce qui reste des sociétés qui ne vivent et ne pensent pas comme nous, le reste viendra naturellement.

Nicolas Ragonneau est directeur du marketing et du développement éditorial aux éditions Assimil.