Nouvelles technologies et diversité linguistique : de l’écriture au Web

Publié le 11/12/2015 par Éditions Assimil
0 commentaire

Stats pour blog.001

Voici la version écrite de la conférence donnée par Nicolas Ragonneau au musée des langues Mundolingua le jeudi 19 novembre. Pour ne pas rendre cette contribution trop indigeste, nous publions ici la première partie de son intervention. La seconde partie est consacrée aux langues et à la Toile.

Préambule

En assurant la veille d’Assimil ces cinq dernières années, j’ai constaté qu’une idée revenait inlassablement dans bon nombre d’articles qui paraissaient s’être nourris les uns les autres : les nouvelles technologies, et particulièrement le Web ou les TIC (Technologies de l’Information et de la Communication), favoriseraient principalement la langue anglaise et empêcheraient le déploiement d’autres langues sur la Toile. En outre, en surreprésentant l’anglais, le Web présenterait principalement une vision anglo-saxonne du monde, une vision forcément capitaliste ou néo-libérale. Une fois encore, on s’en remettait — sans doute de façon bien inconsciente — à l’hypothèse du linguiste Benjamin Lee Whorf, qui défendait qu’une langue véhicule une vision particulière du monde.
D’une part c’est oublier un peu vite que la langue d’Adam Smith est aussi celle de George Orwell ou des Sex Pistols. D’autre part, les différents articles glanés sur la Toile me semblaient peu convaincants d’un point de vue scientifique, mais également trop récurrents pour ne pas se faire l’écho d’idées, peut-être séduisantes mais fausses, qui finissent par constituer un cybermythe.
Il me semblait enfin que ce sujet méritait autre chose, et c’est armé de cette conviction que j’ai commencé à m’intéresser au sujet.

Après avoir beaucoup écumé le Web, fouillé dans mes souvenirs récents, lu de nombreux rapports et  l’intégralité de l’ouvrage de référence NET.LANG, voici ce qu’on peut affirmer aujourd’hui, en novembre 2015 :

  1. L’anglais n’est pas la langue cannibale ou tueuse de diversité linguistique sur le Web
  2. L’avenir du Web sera toujours plus multilingue, mais il sera un des nouveaux espaces de la lutte pour le prestige linguistique
  3. Aucun des acteurs du Web n’a intérêt à voir l’avènement d’une oligarchie de langues
  4. Le téléphone mobile va jouer un rôle majeur dans cette « rebabélisation du monde » pour utiliser la belle formule du chercheur Michael Oustinoff
  5. Les TIC ne sauveront pas certaines langues de la disparition
  6. Le Web peut jouer un rôle majeur de conservation de certaines langues, comme un « Muséum des langues naturelles »

Je reviendrai en détail sur chacun de ces points. J’insisterai aussi sur le fait que l’éducation et l’alphabétisation sont vraiment au cœur du problème, et que de trop nombreux observateurs ont tendance à se focaliser exclusivement sur le taux d’équipement et de pénétration d’Internet. Enfin, je vous invite à un peu de relativisme : les bénéfices du Web pour l’Humanité, de postulat, sont devenus un axiome dont on ne peut plus vraiment débattre. On peut pourtant imaginer vivre heureux et dans une certaine harmonie sans ordinateurs, sans mobiles, sans connection au Web. C’est ce que font certains peuples ou une poignée de tribus, certes de moins en moins nombreux, mais qui comme par hasard sont souvent les plus multilingues du monde.

Le Web, un monde qui ressemble au Monde ?

Quand on cherche à se représenter la Toile, on imagine souvent un monde sans frontières ni contours aux dimensions cosmiques. Cette vision s’impose naturellement dès la création du Web puisque Tim Berners-Lee, au début des années 90, l’imaginait « universel, ouvert et accessible à tous ». Pourtant l’idée d’un Web sans frontières a vécu et cette utopie n’en est plus vraiment une : la censure dans plusieurs pays, notamment en Chine (qui compte une cyberpolice et des « modérateurs » chargés de surveiller la Toile), l’affaire Snowden et l’actualité la plus récente liée au cyberterrorisme, entre autres, viennent le rappeler avec force.
Il faut se méfier de trop comparer Internet au monde physique, mais dans bien des domaines, l’analogie est possible. La première des frontières sur la Toile, c’est tout simplement celle de la langue. Et ce n’est pas seulement un problème d’intercompréhension mais un problème d’accès (dans tous les sens de ce terme) comme on le verra un peu plus loin. La question linguistique a poussé les acteurs du Web à le « régionaliser » toujours davantage, par exemple en créant des moteurs de recherches spécifiques pour certains groupes de langues ou certaines régions du monde. Et si le web n’est pas un « miroir qu’on promène le long du chemin » comme certains naïfs continuent à le croire, il semble épouser de plus en plus les contours du monde géopolitique et/ou économique.

La fracture numérique

Ainsi il existe toujours une véritable « fracture numérique »  dont la carte ressemble beaucoup à celle de l’économie mondiale. Et généralement le « Tiers-monde » est souvent perçu par les Occidentaux en ce début de XXIe siècle comme un espace où obtenir un accès à Internet est impossible, un territoire non technologique et arriéré. Rappelons que si certaines zones géographiques demeurent non couvertes par les réseaux de télécommunication, c’est à la fois parce que certains biotopes ou milieux naturels (montagnes, forêts ou marécages inextricables…) sont difficilement accessibles, mais aussi parce que les populations locales présentent un mode de vie éloigné des canons occidentaux… qui ne représentent pas un marché suffisant pour les multinationales high tech. Il suffit, par exemple, de comparer le taux de pénétration d’Internet au Tchad, au Cameroun, etc. avec celui constaté en France et au Danemark.
Ce qui nous ramène à la diversité linguistique et à la diversité en général. Les langues ne sont pas également réparties à la surface du globe : leur densité est très importante dans l’hémisphère Sud, et la diversité linguistique diminue quand on part de l’Equateur vers des latitudes plus au nord. Si on additionne les langues présentes en Afrique (environ 2000) et les langues de Papouasie Nouvelle-Guinée (environ 800), on obtient un hallucinant pourcentage de 40 % de l’ensemble des langues parlées dans le monde (environ 7000).

Définir la diversité linguistique

Il existe plusieurs indicateurs de la diversité linguistique, dont certains sont assez complexes. Dans le cadre de cette communication, on peut adopter cette définition simple : la diversité linguistique est le nombre de langues natales au km2. Mesurer la diversité linguistique dans le cyberespace est une tâche beaucoup plus délicate en raison des nombreux biais que sont les moteurs de recherche et l’indexation de seulement une partie des contenus par ceux-ci. L’analyse de la diversité linguistique sur le Web intéresse seulement le Web surfacique. Le Web profond (ou deep Web) mériterait pourtant d’être étudié et révélerait peut-être des surprises de taille quant à la représentation de certaines langues. La présence de robots qui génèrent désormais des contenus sur la Toile viennent également complexifier l’analyse ; des travaux importants pour définir des méthodes fiables sont en cours à l’Université de Nagaoka. Dans tous les cas, la plupart des chercheurs s’entendent pour considérer les chiffres de l’Internet World Stats comme les plus fiables aujourd’hui.

Un monde en expansion, un monde en réduction

42 % de la population mondiale utilise Internet, tandis que 50 à 90 % des 7000 langues parlées aujourd’hui devraient disparaître à la fin du XXIe siècle. Le Web est mondial, mais il est évident qu’il va devenir encore plus mondial dans les années à venir. A l’inverse de ce monde en expansion, le monde des langues ressemble davantage à un territoire en réduction rapide. La présence accrue de certaines langues dans le cyberespace peut cependant changer la donne et retarder l’inéluctable disparitions de certains idiomes. Avant l’apparition d’Internet, seules les publications, les livres et l’édition participaient à cette course au prestige des langues écrites. Moins coûteux et beaucoup plus facile d’accès que l’édition de livres imprimés, Internet rebat indéniablement les cartes de cette compétition entre les langues. Mais on observera sans doute, également, des phénomènes inverses, où l’accès internet dans certaines zones reculées du monde portera le coup de grâce à des langues menacées.

Les espaces symboliques du Web

Le Web doit être regardé comme un lieu d’antagonismes et comme un champ de batailles économiques. Si on ne garde pas cette donnée fondamentale à l’esprit on ne pourra pas comprendre pourquoi certaines langues sont davantage présentes. Ainsi le Web est ce territoire qui oscille entre utopie et dystopie, où s’affronte le lucratif et le non-lucratif, le superficiel et le profond, les systèmes propriétaires et les systèmes ouverts. Le Web peut aussi être considéré comme une pierre de Rosette 2.0, une pierre qui ne serait pas en cours de déchiffrement mais de chiffrement. Nous reviendrons sur cet aspect un peu plus loin. Enfin, le Web est une pierre de Rosette moderne mais c’est aussi une pierre philosophale, comme nous le verrons également dans le cas de Google.

Large band

De nombreux articles sur la Toile ont récemment reproduit  l’infographie ci-dessus publiée dans le rapport de l’Unesco sur le large bande (2015). Elle entend montrer que peu de langues existent sur la Toile aujourd’hui si on les compare à la totalité des langues naturelles. Mais ces articles rédigés à la va-vite font l’impasse sur une information fondamentale : la plupart des langues ne possèdent pas de système d’écriture. Seules 200 à 300 langues utilisent un des 50 systèmes d’écriture. Au mieux, seules 4,2 % des langues sont écrites. Et en conséquence, si on regarde la totalité des langues sans tenir compte de ce paramètre, c’est un pourcentage encore plus infime de celles-ci qui se trouvent sur le Web. Pour avoir un droit d’existence sur la Toile, une langue doit posséder une écriture, car une langue sans écriture est une langue sans mémoire et sans avenir, au moins dans la pensée occidentale ou vue par le prisme des TIC.

Un préalable : savoir lire et écrire

Par ailleurs, une connexion internet et un débit décent sont nécessaires pour pouvoir créer des contenus dans sa langue, c’est également un autre prérequis. Mais la plupart des études oublient le principal : l’alphabétisation. En d’autres termes, si vous ne savez ni lire ni écrire, l’accès au Web, même si vous bénéficiez d’une connexion et d’un débit parfaits, vous est interdit. Et je ne parle même pas de franchir une autre étape qui consiste à pouvoir maîtriser des outils informatiques dont les manuels sont souvent rédigés dans des langues qui ne sont pas les langues maternelles.

Analfabetismo2013unesco.png
« Analfabetismo2013unesco » par Alex12345yuriTravail personnel. Sous licence CC BY-SA 3.0 via Wikimedia Commons.

Si vous naissez sans handicap, vous êtes équipé pour parler une ou plusieurs langues. En revanche, l’écriture et la lecture, c’est une autre affaire. Une affaire d’éducation, évidemment, et aussi une autre affaire sur le plan cognitif. Comme vous le savez, de très nombreux enfants ne suivent pas de scolarité dans leur langue maternelle. C’est particulièrement vrai en Afrique où les langues d’enseignement sont souvent des langues exogènes héritées de la colonisation. Ce facteur limite évidemment la production de contenus dans des langues autres que les langues les plus prestigieuses et contribue à la domination de quelques langues (sur ce sujet, voir l’excellent ouvrage de Pascale Casanova, La langue mondiale — Seuil, 2015 ).
On en revient également au constat de l’inégalité des langues, inégalité dans leur répartition, inégalité dans leur rayonnement, inégalité dans leurs usages, et inégalités sur le plan de la communication et de la transmission lorsque celles-ci ne possèdent pas d’écriture. Cependant, ceci n’est pas une fatalité : certaines langues possédaient une écriture, qui a pu disparaître, tandis  que d’autres se sont dotés d’une écriture, parfois très récemment comme le wolof (depuis 1971). Une politique linguistique adaptée est évidemment essentielle pour ces langues et ces cultures.

L’écriture, œuvre collective ou individuelle

L’écriture est une convention en ce qu’elle résulte d’un choix. Autrement dit, ou pour citer le linguiste Nicolas Tournadre, « l’écriture est un vêtement qu’on peut enlever et remplacer par un autre comme on le souhaite ». Les cas sont très nombreux, on peut citer par exemple l’indonésien qui abandonne l’écriture arabe pour l’écriture latine en 1900, et le cas encore plus célèbre du turc qui, de la même manière, abandonne l’écriture arabe pour l’écriture latine sur décision d’Atatürk en 1928. Et, parfois, deux écritures différentes (ou davantage) cohabitent pour deux langues extrêmement proches ou identiques : il suffit de penser au cas du serbe et du croate aujourd’hui, mais c’est aussi vrai de certaines langues africaines, notées dans différents systèmes d’écriture. La création d’une écriture peut être une œuvre collective dont la genèse s’est perdue, mais elle peut aussi être l’œuvre d’un seul homme. Ainsi l’écriture cherokee, inventée par l’orfèvre Séquoia, qui lui demanda 12 ans de travail. Sequoia était persuadé que la puissance des blancs venait du fait qu’ils maîtrisaient l’écriture. Observant des caractères d’imprimerie, il se mit à créer au début du XIXe siècle un syllabaire qui est devenu l’écriture cherokee. Avait-il entendu parler d’autres syllabaires comme le Japonais ? Rien n’est moins sûr.

Cherokee-002

L’écriture, un système peu fidèle à la parole

Pour citer un exemple plus récent, on peut aussi s’intéresser à l’écriture n’ko, créée par Solomana Kante pour noter les langues mandées comme le bambara ou le mandingue. Œuvre individuelle ou collective, dans tous les cas l’écriture doit s’appuyer sur un standard et une langue stable, quitte à devenir dialecticide. On pourrait d’ailleurs dire qu’une écriture est forcément destructrice de diversité linguistique en ce qu’elle ne peut reproduire les infinies variations constatées au sein d’une même communauté de locuteurs. Prenons un exemple en français avec le mot « année » : au nord du pays, la dénasalisation est effective, le redoublement graphique de la lettre n est inutile et « année »  est prononcé [ane], tandis qu’à Montpellier, par exemple, l’écriture et la prononciation sont raccord : [ɑ̃ne]. Car l’écriture est infidèle à la langue en ce qu’elle reproduit de façon imparfaite les sons de celle-ci (l’écriture de l’espéranto s’attaque justement à cette question). Un des mots les plus étranges de la langue française à cet égard est le mot « gageure » puisque le digramme eu se prononce [y]. L’Alphabet Phonétique International (API) a justement été créé (entre autres) pour pallier ce peu de précision des écritures. Il est intéressant de remarquer que l’API joue un rôle majeur dans le processus de notation des langues africaines ne disposant pas d’une écriture (voir à ce sujet le cas de l’alphabet pan-nigérian servant potentiellement à noter les 250 langues du Nigéria).

L’écriture est politique…

Mais n’oubliez pas également qu’une écriture ne note pas toujours les sons d’une langue, comme les caractères chinois ou les hiéroglyphes nous le montrent, de même qu’elle ne figure pas non plus toujours les tons. Une écriture est donc un système de signes complexes (mais moins complexe que la parole), notant imparfaitement la langue parlée, véhiculant des ambiguïtés, des imprécisions, des contresens. Mais l’écriture en tant que convention repose aussi sur une sorte de contrat social qui lui permet de fonctionner comme instrument de communication utilisable par le plus grand nombre. Faute d’accord et de contrat social au sein d’une communauté linguistique, pas d’écriture possible. L’écriture, comme la langue parlée, est donc aussi essentiellement politique. Ces informations sont peu connues du grand public, mais le choix d’une écriture génère parfois de violents débats et des controverses : récemment, le choix des autorités marocaines des tifinagh pour noter les langues berbères et notamment le tamazight, a été contesté (voir à ce sujet l’article de Salem Chaker, professeur de berbère à l’Inalco).

… la typographie aussi

Une fois que l’écriture a été créée, le chemin est encore long vers une communication étendue, et la partie loin d’être gagnée. En effet, il faut s’atteler alors à la reproduction mécanique du signe écrit : la typographie. Comme l’écriture, la typographie peut être très politique. L’histoire du caractère allemand Fraktur, plus connu sous le nom d’« écriture gothique », mérite à cet égard d’être racontée. Quelque temps après l’invention de l’imprimerie par Gutenberg, la première bible imprimée en Allemagne utilise la Fraktur. Cette typographie vient en concurrence de l’Antiqua, adopté par les typographes italiens et qui se répand dans la majeure partie de l’Europe. Les Allemands utilisent d’ailleurs aussi l’antiqua, pour imprimer des ouvrages qui ne sont pas spécifiquement allemands, par exemple des traductions. Les deux typographies cohabitent dans l’édition allemande et suscitent au cours du XIXe siècle de vifs débats. Dès son arrivée au pouvoir en 1933 (puis par décret en 1934), Hitler en fait le symbole de l’identité aryenne et interdit au Juifs l’utilisation de cette typographie. Mais, en 1941 Hitler change subitement d’avis et interdit l’utilisation de la Fraktur  par le décret sur l’écriture (Schrifterlass) de Martin Bormann : on lui rapporte que les populations  dont les pays sont occupés par l’Allemagne ne parviennent pas à lire les affiches en écriture gothique, rendant la communication écrite difficile. Pour qu’Hitler et le pouvoir nazi sauvent la face, il est alors décidé de répandre l’information selon laquelle l’écriture gothique a été inventée par les Juifs. A ce titre, elle doit donc être interdite.
Cette dimension politique de la typographie, on peut la vérifier jusque dans la création récente de Canada 150, une police de caractère créée par Ray Larabie pour célébrer les 150 ans de l’Etat canadien.

Mojibake et UNICODE

A l’ère digitale, on parle évidemment de typographie numérique. Alors que l’imprimerie a permis l’édition d’innombrables ouvrages dans de nombreuses langues grâce aux caractères en plomb, il a fallu tout réinventer avec l’apparition des ordinateurs. Et reproduire certains caractères correctement en numérique n’est pas aussi simple qu’on le pense. Les diacritiques, la segmentation des énoncés, le sens de lecture, l’homographie… les embûches sont innombrables pour obtenir des résultats probants et il a fallu (il faut toujours) travailler dur pour y parvenir. Ainsi parfois, les caractères numériques s’affichent mal (exemple ci-dessous avec la capture d’écran de mobile) : c’est ce que les Japonais appellent mojibake, un substantif qui n’a pas d’équivalent en français et qui désigne précisément un ou plusieurs caractères s’affichant mal sur un écran. On peut imaginer que les Japonais, dont l’écriture est extrêmement complexe puisqu’elle utilise deux systèmes, savent parfaitement de quoi ils parlent…

Heureusement, un système de codage satisfaisant a été créé, permettant l’affichage d’innombrables caractères, quelle que soit la plateforme ou le programme informatique : l’UNICODE. UNICODE (un consortium à but non lucratif) se donne pour dessein d’inventorier tous les caractères existants pour tous les systèmes d’écriture : il compte aujourd’hui environ 130 écritures et 10 646 caractères correspondant à un numéro unique — en quelque sorte la carte d’identité de chaque caractère numérique (pour voir tous les caractères : http://unicode-table.com/fr/). UNICODE est un système récent qui n’est pas encore exhaustif (100 nouvelles écritures sont en projet ou en cours de développement), mais qui ajoute régulièrement de nouveaux caractères. Malgré le support des membres du consortium, UNICODE organise une nouvelle levée de fonds et vous propose d’adopter un emoji.
Grâce à UNICODE, des langues écrites ont un accès à l’ensemble des TIC et peuvent potentiellement exister comme langues d’interface des téléphones portables, des jeux vidéos, ou tout autre environnement numérique (mail, télévision, sous-titrages, etc.). Pour un éditeur de langues comme Assimil, L’Asiathèque, Teach Yourself, Colloquial ou d’autres, l’UNICODE a vraiment changé en profondeur le travail de composition des livres physiques et numériques. Autrefois, éditer par exemple une méthode d’arabe pour des russophones en faisant coexister dans une même page les deux systèmes d’écriture était un véritable pensum. Aujourd’hui ce travail demeure technique mais est rendu beaucoup plus fluide et accessible grâce à l’UNICODE. Le système UNICODE facilite aussi la création de livres numériques, comme la collection de guides de conversation que nous avons développée depuis deux ans chez Assimil. Le thaï, dont l’écriture assez complexe n’est pas segmentée, offre par exemple un défi de taille en termes de mise en page et d’édition.

Capture d’écran 2015-12-08 à 12.35.39

Enfin, et ce n’est pas un problème mineur, l’UNICODE permet d’envisager des noms de domaines dans des écritures autres que l’écriture latine (à ce sujet, voir l’article Wikipédia). En effet, aux premiers temps du Web les noms de domaines étaient exclusivement en anglais et en écriture latine, rendant l’accès et la compréhension impossibles aux non anglophones.

De la xylographie au smartphone

Il est certain que l’existence d’une écriture au format UNICODE favorise la ou les langues qui l’utilisent, renforce la communauté de locuteurs et permet l’affirmation de son prestige dans le cyberespace. Pour prendre un exemple concret, le tibétain a été ajouté à la liste UNICODE de manière récente et, alors qu’à la fin du XXe siècle l’avenir des langues tibétiques paraissait très assombri, a permis la création d’une blogosphère très dynamique et la naissance d’une communauté online. Nicolas Tournadre explique (voir sa communication au colloque consacré au Tibet en 2014) que les langues tibétiques offrent un exemple unique d’une écriture passant, sans réelle transition, de supports archaïques comme la xylographie au téléphone mobile et à l’utilisation de Twitter.
L’examen de la table UNICODE révèle l’absence des langues africaines subsahariennes de manière spectaculaire : 3 écritures seulement sont présentes (l’amharique, le n’ko et les tifinagh). Si on s’attarde un moment sur l’amharique, la langue de l’Ethiopie (le seul pays d’Afrique qui n’a jamais été colonisé), il est appréciable que son écriture soit au catalogue d’UNICODE, mais seuls 2,9% de la population éthiopienne utilise Internet. Difficile d’imaginer que l’amharique puisse avoir la moindre représentation sur la Toile dans ces conditions… Le fait que de très nombreuses langues africaines soient exclusivement orales ne suffit pas à expliquer leur absence : l’immense majorité des langues africaines n’a pas été documentée à ce jour alors que la carte de la Terre ne comporte plus aucune tache blanche (sur les langues africaines à l’ère des TIC, on peut télécharger Les langues africaines à l’ère du numérique de Don Osborn). De ce point de vue, une partie de l’espace mondial des langues peut encore être vu comme une  terra incognita.

Article mis à jour le 18 décembre 2015.
Deuxième partie de la conférence : les langues et la Toile
Nicolas Ragonneau est directeur du marketing et du développement éditorial aux éditions Assimil.

Ajouter un commentaire

Interviews

articles populaires

Les nouveautés de la rentrée

08/08/13
192 commentaires

Sanskrit : le making-of

06/06/13
111 commentaires

Nouveautés Assimil :
ce qui vous attend à la rentrée

24/06/14
103 commentaires

Nouveautés : ce qui vous attend
au premier trimestre 2014

01/01/14
78 commentaires

La méthode Assimil
disponible en digital

27/08/13
61 commentaires

Latin : retour vers le futur

28/09/15
57 commentaires

Les nouveautés de la rentrée 2015

05/08/15
55 commentaires

Une nouvelle ligne graphique
pour la collection sans peine

11/08/15
52 commentaires

Nouveauté : Grammaire du japonais
de Catherine Garnier

16/02/17
36 commentaires

Le roumain, Ionesco et la méthode Assimil : entretien avec Vincent Ilutiu

14/04/14
33 commentaires

derniers commentaires

au hasard

30. Le mot du jour – Today’s word
La palabra del día – La parola del giorno
Het woord van de dag

03/12/13
0 commentaire

Le roumain, Ionesco et la méthode Assimil : entretien avec Vincent Ilutiu

14/04/14
33 commentaires

Qu’est-ce que la glottophobie ?
Entretien avec Philippe Blanchet

04/02/16
10 commentaires