17 - Des hiéroglyphes contre les grandes oreilles ?
Par Jacques Favier le 30 avr. 2015, 13:36 - du secret - Lien permanent
Dans le climat suscité par le vote de la loi sur le renseignement, j'ai continué à me demander ce que les petites cervelles derrière les grandes oreilles pouvaient ou non comprendre de nos affaires. J'en étais à me demander si en écrivant ainsi le mot "b0mbe" on échappait aux algos ou au contraire si ça les excitait.
Je reviendrai une autre fois sur les algos. Car en vérité deux choses ont alors ramené mes pensées vers... mes (lointaines!) études d'égyptologie. La première c'est cette petite image un peu naïve qui traine partout sur Internet, et qui est réputée mesurer je ne sais quelle souplesse de votre cerveau. Il parait que certains ne parviennent jamais à lire ledit message "leet speak" . Dites-moi qu'ils ne travaillent pas pour les renseignements généraux...
J'ai lu cela comme le journal et ne crois pas être plus malin qu'un autre. J'ai donc regardé rapidement ce qui se disait à ce sujet sur Internet, mais (mis à part un commentaire pour dire que c'était plutôt plus facile que certains post d'adolescents sur Facebook, ce qui est une remarque féconde) je n'ai rien trouvé d'excitant.
Il s'agit en réalité d'un simple "code de César" dans lequel la suggestion subliminale (le 4 pour A, etc) est presque systématique ce qui augmente encore la vitesse d'acquisition. La prouesse du cerveau qui lit cela est moindre que celle que vous réalisez en lisant un message manuscrit. Vous parvenez à lire des milliers de formes de A plus ou moins similaires à des 4, des a typographiques ou manuscrits, des formes cursives ou non... Seulement vous ne le faites aisément dans votre langue. Essayez maintenant avec ce massage codé identiquement, et écrivez moi si vous l'avez lu à la même vitesse que le message français.
Big Mother connaissant a priori l'allemand et l'urdū autant que l'anglais ou le français, il est peu probable cependant que ces petits jeux offrent un rempart au cassage... Plus amusants sont les exercices où l'on ôte des lettres (ce qui n'est pas de nature à rebuter un lecteur d'arabe ou d'hébreu, langues qui ne notent pas les voyelles) ou ceux où l'on en permute. Cela reste des jeux dignes du Journal de Mickey. En réalité, toute forme de grammaire est une béance pour le casseur. L'orthographe d'un illettré (et le T9 d'un ado!) offrent sans doute une plus grande résistance à la machine, comme s'en sont plaints certains moteurs de recherche (voir le cas de Bing) ... A moins que l'usage de la belle langue française, telle qu'établie par Vaugelas et codifiée par Grevisse, ne soit jugée inquiétante par les algos?
Il reste ce que j'appellerais volontiers le Code Salvatore. Changer de langue en permanence. Stupido ? Dans le monde actuel, où les réunions de travail se font dans les 800 mots d'anglais que chacun connaît, la pratique paraîtrait incongrue. Puis-je rappeler la fascination qu'éprouvait au contraire un Jules Verne, visionnaire progressiste, pour les personnages (Otto Lidenbrock et d'autres) polyglottes et même latinistes ? Evidemment changer de langue au milieu de la phrase vous fera détecter... mais les maghrébins (qui sont naturellement bi ou trilingues) le font en permanence, comme vous l'entendez aisément dans le métro et t les hommes d'affaires émaillent leur pauvre français d'un (non moins pauvre) anglais. Vous serez noyé dans la masse des faux positifs. Pas si stupido...
Quel rapport ont ces considérations avec Champollion ? J'y viens. Il connaissait (un peu) la langue dans laquelle était écrite l'inscription de Rosette. C'est pourquoi il a cassé le code plus vite que Young, l'un des meilleurs savants du temps, considéré comme l'égal de Vinci ( qui avait sa propre écriture !) ou de Leibniz (qui réfléchit aussi, en marge du projet de langue universelle, sur des problèmes de cryptographie)...
Deux mots suffisent
Lors de la projection du film Imitation Game, le public rit lorsque le savant auquel on a reproché d'ignorer la langue de l'ennemi note finalement qu'il ne lui fallait pour percer le code que deux mots allemands seulement : Heil Hitler ! Ce qui m'a fait sourire alors, c'est que la découverte de Champollion fut, de même, permise par l'intuition que les deux noms en cartouche devaient fatalement se lire Ptolémée et Cléopâtre.
Passée cette intuition, les choses ne furent pas plus simples pour Champollion que pour Turing. Pourquoi?
Parce que le codage hiéroglyphiques est infiniment plus complexe que ce que l'on présente aux touristes, avec des alphabets égyptiens tout juste bon à permettre de transcrire des prénoms de barbares sur des bijoux fantaisie. En sachant qu'il devait retrouver Ptolimaïs, Champollion lui-même eut pourtant bien du mal, comme en attestent ses notes pieusement conservées.
En réalité, d'autres savants (dont Young) avait approché jusque là, c'est à dire pas bien loin. Il est instructif de voir comment Young et Champollion s'y prirent pour franchir les marches supplémentaires, vérifiant l'intuition fondamentale de la multivalence des hiéroglyphes, qui selon leur place dans le mot, voire dans la syllabe, peuvent être littéraux, bilittéraux, trilittéraux, idéographiques voire... sans signification.
Deux demi-clés qui ne se valent pas
Sur la pierre de Rosette, la même (a priori) inscription était répétée en 3 langues, dont une seule connue - le grec, sans rapport linguistique avec les deux autres- et deux alphabets, hiéroglyphique et démotique, signes inconnus d'une langue perdue. Le calcul montre vite à Young qu'il s'agit de deux alphabets pour deux langues proches (il voit juste), l'écriture démotique étant une forme simplifiée, cursive, mais évidemment étroitement liée à l'écriture sacrée et plus complexe. Certes le grec donne le sens.. du texte. Pas des mots.
Champollion, lui, parle le copte. C'est une langue encore plus tardive que le démotique (c'est pourquoi d'ailleurs elles s'écrit en caractères issus de l'alphabet grec) mais elle est également dérivée linguistiquement de la vieille langue. Son usage s'est perdu depuis des siècles, sauf pour quelques prières chez les chrétiens d'Egypte. Cette clé copte se révèlera plus féconde que la clé grecque. Connaitre le sens d'un texte ne suffit pas à le décoder, si l'on n'a pas accès à sa structure linguistique. Vieux problème des langues où le sens (où est le sujet? où est le complément d'objet dans la séquence le chat la souris mange) est donnée par l'ordre des mots et celles où il est donné par un suffixe (une déclinaison par exemple).
Incomplète victoire
Le concept de lettres plurilittères à lui seul multiplie considérablement le nombre de signes. Dans l'état le plus simple de la langue égyptienne on en compte environ 600. C'est le cas des Textes des Pyramides (ici dans celle de Ounas mort en -2323) Compte-tenu de ce que la fantaisie orthographique (elle existe) est tout de même encadrées par des règles et des usages, un ordinateur percerait cela à jour sans trop de mal, repérant des séquences évidentes.
Mais les anciens égyptiens n'en restèrent pas là. Au lieu de simplifier (comme Mao le fit du chinois - pour des raisons politiques) ils complexifièrent.
La particularité historique de la langue égyptienne vient de ce fait singulier: le cryptage a été augmenté avec le temps. Mille ans après les Pyramides, à l'apogée des Aménophis et des Ramsès, la même langue s'encode sur les murs de Karnak avec 1200 signes.
Mais encore dix à quinze siècles et dans les textes écrits alors que le pouvoir politique est désormais grec puis romain, on atteint les 12.000 signes! Indépendamment de l'évolution naturelle de toute langue, il s'agit bel et bien ici d'un encodage, d'une mystification.
Certains textes furent si bien codés qu'à ce jour... nul n'a pu les décoder.
Comme pour les cypherpunks, le codage était, chez les derniers prêtres d'Amon ou d'Osiris, une résistance politique alors que faisait belle lurette que l'on parlait une version internationale du grec, sorte de globish du temps.
Quelles leçons pourrions nous en tirer?
Pourquoi le code des prêtres d'Edfou ou de Philae a-t-il résisté plus longtemps que le chiffre de Vigenère?
La première raison est peut-être que la malice n'était pas dans la "longueur de la clé", mais de l'ordre de celle des cruciverbistes. De nouveau, il faut rappeler la présence à Bletchley park d'un égyptologue (dans la hutte 4) et de six cruciverbistes. Dès l'égyptien ancien, si le mot "fils" s'écrit avec un canard, c'est qu'il se prononce vaguement comme le canard (sa). On lira "Fils de Râ" ou "canard soleil" selon que cela fait sens ou non. Quant au canard il servira aussi de voyelle sa dans d'autres mots qui peuvent n'avoir rien à voir ni avec le canard ni avec le fils.
Au fil des temps, c'est pourrait-on dire la "bibliothèque de gags" qui s'est étoffée. De sorte que certains hiéroglyphes tardifs incompréhensibles sont sans doute des private joke dont le sens s'est perdu avec le petit groupe très fermé à qui il servait de code. Si je code le nom de M. Valls avec l'image d'un couple dansant, j'ai sans doute plus de chance d'être compris que si je le code 123. Et si (une fois de temps en temps, pour rire) je le code 13021867 parce que c'est la date de création du Beau Danube Bleu, vous allez avoir du mal à me suivre ! Et je peux multiplier les gags autour du nom de M. Valse. On entre dans la période "ptolémaïque".....
La seconde raison est évidemment que le codeur égyptien n'est pas limité aux 26 lettres et 10 chiffres, ni même à la petite centaine de caractères en tous genres productibles avec un clavier. Ni même, on l'a vu, aux 600 signes de la langue classique.
Il les dessine lui-même et peut toujours introduire une nuance, une nouveauté, simplifier... ou compliquer.
Au fait, la décision envisagée un peu partout dans le monde de ne plus apprendre aux enfants à écrire à la main ne vous met point la puce à l'oreille? Vous avez vraiment cru que c'était un truc finlandais pour aider Nokia?
Puisque la loi 1984 va (sous le contrôle d'un juge) permettre à Gouda, Tango et tous leurs petits amis, dès que les algos vous auront identifier comme déviant, de pomper dès votre clavier, avec un logiciel mouchard ou sans (la NSA le faisait déjà depuis longtemps avec SurlySpawn, Keyloggers...), peut-on imaginer lui échapper en enlevant le clavier? en mettant un pavé tactile avec stylo électronique? en écrivant mal ? en communiquant (y compris avec soi même) par rébus et calembours? en stockant les choses sous forme de dessins plus que de discours ?
La recette égyptienne tourne autour de deux concepts forts : inventer sa langue (j'ai déjà évoqué la poésie!) et dessiner ses caractères. Elle est évidemment aux antipodes du globish typographié...
L'argent consacré par l'Etat aux machines est pris sur les budgets humains de la police... allez donc lire le commentaire de "Frédéric" sous mon billet précédent!
Pour aller plus loin :
... en égyptologie
- Il existe des dizaines de sites où l'on peut télécharger des polices hiéroglyphiques. Voir ici aussi mais au total c'est évidemment très limité car un seul clavier ne permet guère plus de 100 signes...
- Il faut donc télécharger plusieurs fontes par exemple ici : hommes, poissons, oiseaux etc
- Sur le codage informatique des langues anciennes débuté des 1988, il est intéressant de voir combien la matière "résiste": on en reste le plus souvent au codage des 800 signes recensés par la grammaire de Gardiner (la langue classique) et non sans difficultés. Lire ici également.
... et aussi
- Sur la rigidité orthographique des algorithmes.
- Un article intéressant sur big data en... 65 langues.
- Enfin le site BugBrtoher est une vraie mine !
Commentaires
Qu'on dise reste oublié derrière ce qui se dit dans ce qui s'entend. C'est pourtant aux conséquences du dit que se juge le dire. Mais ce qu'on fait du dit reste ouvert. Car on peut en faire des tas de choses, comme on fait avec des meubles, à partir du moment par exemple où l'on a essuyé un siège ou un bombardement.
Jacques L
Je suis très honoré de l'intérêt que vous prenez à mes écrits. Votre référence à la situation obsidionale recoupe une étude que je poursuis actuellement sur les monnaies de siège. à suivre...
JF
Excellent post qui me rappelle une anecdote sur l'utilisation d'indiens navajos par l'armée américaine durant la seconde guerre mondiale, en remplacement des machines à chiffrer électromécaniques. Le système resta totalement impénétrable aux services japonais et allemands.
Pour en revenir à la question initiale de ce post, voici une amusante étude réalisée par des étudiants de Stanford et qui vise à détecter des messages leet speak échangés entre hackers via la blockchain bitcoin: http://snap.stanford.edu/class/cs224w-2013/projects2013/cs224w-039-final.pdf
Laurent
Merci Laurent ! J'avais songé aux navajos, car cette histoire est évidement emblématique.
Le Leet speak me semble (ai-je tort?) n'être qu'une coquetterie.
Classiquement, la langue forgée pour n'être pas comprise est l'argot, qui naît loin de l'élite et contre elle, aux marges géographiques et sociales. C'est une chose connue depuis des siècles et que Du Marsais notait déjà en 1730 dans son traité Des Tropes. Ou Des différents sens dans lesquels on peut prendre un même mot dans une même langue : « il se fait plus de figures en un seul jour de marché à la halle, qu'il ne s'en fait en plusieurs jours d'assemblées académiques ».
Aujourd'hui cela se fait donc dans les cités, pour les trafics que chacun sait...
Plus amusante encore serait le cas d'une langue à forger pour échanger entre deux locuteurs que n'unirait aucune lingua franca, aucune tierce lange et même aucune référence ou structure grammaticale commune. Bref la rencontre du troisième type.
La mathématique y reprendrait ses droits, peut-être sous la forme harmonique pressentie par les pythagoriciens...
Concernant le leet speak, il s'agit clairement plus d'un signe de reconnaissance (d'appartenance à un groupe ?) que d'un véritable code secret.
Par exemple, la "thèse" des étudiants de Stanford est que les messages détectés sont échangés pour signifier un "exploit" réalisé. Ces messages n'ont pas vocation à être fortement codés mais uniquement à "noyer" le message dans la masse de données composant la blockchain. On est donc effectivement plus dans la stéganographie que dans la cryptographie.
Laurent
Peut-être aurait-il fallu parler de l'ithkuil, ces hiéroglyphes des temps modernes (au moins sous sa forme graphique, parce qu'il y a deux façons de l'écrire). Je doute que quelqu'un qui ne le connaitrait pas arrive à le décoder sans une pierre de Rosette.
Denis Denis
______________
Merci cher lecteur inconnu.
Mon billet m'a valu d'intéressantes suggestions, et un cadeau qui m'a vraiment fait plaisir, et dont je recommande à tous la lecture !