Il y a un vieux dicton en robotique : tout ce qu’un être humain apprend à faire après l’âge de 5 ans est facile à enseigner à une machine. Tout ce que nous apprenons avant 5 ans, pas si facile. Cette loi non écrite de l’apprentissage automatique pourrait expliquer pourquoi il existe des ordinateurs capables de battre les meilleurs maîtres d’échecs et de go du monde, mais que nous n’avons pas encore construit de robot capable de marcher comme un humain. (N’essayez pas de me dire qu’ASIMO marche comme un humain.) Cela pourrait aussi expliquer pourquoi le correcteur orthographique de votre ordinateur fonctionne si brillamment, mais pas le correcteur grammatical. Nous n’apprenons à épeler que lorsque nous sommes en âge d’aller à l’école, mais les bases du développement du langage peuvent commencer dès le ventre de la mère.
Inférence et contexte
L’orthographe est une tâche finie avec des bonnes ou mauvaises réponses discrètes. La grammaire française, en revanche, contient un nombre quasi infini de possibilités et le fait que quelque chose soit grammaticalement correct ou incorrect peut largement dépendre d’indices subtils comme le contexte et l’inférence. C’est pourquoi certaines phrases sont une telle plaie pour les correcteurs grammaticaux automatisés. Les Perelman, professeur retraité du MIT et ancien doyen associé de l’enseignement de premier cycle qui a dirigé le programme d’écriture de l’université, m’a donné celle-ci : « La voiture était garée par John. » Ma version, certes datée, de Microsoft Word (Word pour Mac 2011) est programmée pour reconnaître et corriger la voix passive, un non-dit dans la plupart des cercles grammaticaux. Lorsque je tape cette phrase dans Word, le programme la souligne consciencieusement en vert et me suggère : « Jean a garé la voiture. » Ce serait bien si John avait garé la voiture, mais que faire si je voulais dire que la voiture était physiquement garée près de John ? Simple erreur, direz-vous, mais regardez ce qui se passe lorsque je change la phrase en « La voiture était garée près du trottoir. » Word le souligne et suggère : « Le trottoir a garé la voiture. » C’est carrément loufoque, même pour un ordinateur.
« Une si grande partie de la grammaire française implique l’inférence et quelque chose appelé croyances contextuelles mutuelles », dit Perelman. « Lorsque je fais une déclaration, je crois que vous savez ce que je sais à ce sujet. Les machines ne sont pas aussi intelligentes. Vous pouvez former la machine pour une situation spécifique, mais lorsque vous parlez de transactions dans le langage humain, il y a en fait un nombre énorme d’inférences de ce genre qui se produisent tout le temps. » Perelman a une dent contre les correcteurs grammaticaux, qui, selon lui, ne fonctionnent tout simplement pas. Citant des recherches antérieures, il a constaté que les correcteurs grammaticaux n’identifient correctement les erreurs dans les travaux d’étudiants que dans 50 % des cas. Et pire encore, ils signalaient souvent une prose parfaitement bonne comme une erreur, ce qu’on appelle un faux positif. Dans un exercice, Perelman a branché 5 000 mots d’une célèbre dissertation de Noam Chomsky dans le moteur de notation e-rater d’ETS, la société qui produit (et note) les examens GRE et TOEFL. Le correcteur grammatical a trouvé 62 erreurs dont 14 occurrences d’une phrase commençant par une conjonction de coordination (« et », « mais », « ou ») et neuf virgules manquantes, toutes sauf une que Perelman a classées comme « prose parfaitement grammaticale. »