Chapitre I Une base de données lexicales pour la langue française: Lexique

0.0.2 Introduction rapide pour le nouveau venu

Si vous cherchez une information particulière et ne connaissez rien à Lexique, nous vous conseillons de procéder de la façon suivante :

-.lisez ce manuel (dans les grandes lignes) afin de
- o.déterminer dans quelle base se trouve l’information que vous cherchez (le plus souvent c’est la base Lexique3)
- o.comprendre comment cette base est structurée (quel sont le ou les champs dont vous avez besoin)
- o.déterminer quelle recherche vous allez utiliser (online ou offline). Essayez d’abord la recherche online et si vous ne pouvez utiliser celle-ci pour avoir l’information qui vous intéresse, essayez alors l’interrogation offline. (Undows)

Si vous avez un problème, faites d’abord une recherche sur le forum. Si vous ne trouvez pas de réponse à votre question, n’hésitez pas à la poster.

Comment citer Lexique ?

Lexique étant souvent mis à jour, faites attention à bien citer la version de Lexique que vous avez utilisé. (p.ex. Lexique 3.01 ou Lexique 2.50, etc.)

.New B., Pallier C., Ferrand L., Matos R. (2001) Une base de données lexicales du français contemporain sur internet: LEXIQUE, L'Année Psychologique, 101, 447-462. http://www.lexique.org
.New, B., Pallier, C., Brysbaert, M., Ferrand, L. (2004) Lexique 2 : A New French Lexical Database. Behavior Research Methods, Instruments, & Computers, 36 (3), 516-524.

Historique de cette documentation

3.1 Définition des nouveaux champs de Lexique 3.6 et 3.7.

3.03 Nouvelle définition des fréquences de sous-titres

Nouvelles définitions pour les champs sur le nombre de définitions

3.02 Rajout de "Comment citer Lexique?"

Avertissement concernant la fréquence des sous-titres

3.01 Rajout d'explications à propos du code phonétique utilisé

Suppression de la partie sur les fréquences

3.00 Introduction de o ouvert/fermé; suppression de o d'origine étrangère

Changement de caractère pour le schwa

Annexe décrivant l'historique du champs "Phonologie"

Définition du nouveau champs cgramlem

3.00b3 Nombre de mots des corpora recalculé

Rajout de la catégorie grammaticale LIA (liaison euphonique)

3.00b2 Refonte de la conclusion et du début de l'état de l'art

3.00b1 Mise à jour afin de rendre compte des nouveautés de Lexique 3

TABLE DES MATIERES

TABLE des TABLEAUX

Tableau 1 Présentation d'un extrait de Lexique3.txt 13

Tableau 2 Codes phonémiques 14

Tableau 3: Codes des catégories grammaticales 15

Tableau 4: Nombre et exemples de lemmes selon leur fréquence (corpus de sous-titres) 15

Tableau 5: Informations complémentaires sur les verbes 16

Tableau 6: Nombre de mots dans Lexique 3 en fonction du nombre de syllabes et du nombre de lettres 17

Tableau 7 Présentation des opérateurs utilisés dans recherches simples 20

Tableau 8 Présentation des opérateurs utilisés dans les expressions régulières 21

TABLE des FIGURES

Figure 1 Exemple de requête de type "Recherche par Mots" 20

Figure 2 Exemple de requête effectuée sur la base Lexique3. 21

Figure 3 Résultats obtenus suite à la requête présentée dans la Figure 2 22

Figure 4 Exemple de recherche utilisant les possibilités d'Open Lexique . 22

Figure 5 Exemples de requêtes effectué "hors ligne" 23

Ce manuel explique pourquoi et comment utiliser la base de données Lexique 3. Si Lexique 1 et 2 avaient apporté quelques avantages importants par rapport aux bases de données existant à l'époque (présence des formes fléchies, actualisation, différents indices de fréquence), il y avait encore des améliorations possibles. En effet, les fréquences étaient basées sur de la langue écrites exclusivement (et pas de fréquences orales), il n'était pas possible d'obtenir les fréquences de cooccurrences de mots (ou fréquences d'expressions), les mots composés n'étaient pas présentés, et nous n'avions pas accès aux fréquences des différentes formes grammaticales d'un même mot (p.ex. fréquence de danse utilisé comme nom ou utilisé comme verbe). Ce sont tous ces avantages que cette nouvelle version de Lexique apporte.

En résumé voici les principales nouveautés de Lexique 3 par rapport à Lexique 2:

.Nouvelles fréquences écrites et orales (basées sur des sous-titres de films)
.Nouvelles entrées de mots récents ou populaires (ex: internet, mail, télécharger)
.Fréquences des films plus réalistes
.Fréquences des homonymes et homographes (la "danse" vs je "danse")
.Fréquence des syntagmes de n'importe quelle longueur (ex: la verte prairie)
.Formes orthographiques syllabées
.Nouvelles formes phonologiques (15 000)
.Présence des mots composés (ex: garde-chasse)
.Fréquences des chiffres et des nombres

0.1 Etat de l'art des bases de données lexicales en français

La première base de données lexicales informatisée mis à disposition des psycholinguistes fut Brulex (Content, Mousty et Radeau, 1990) . Brulex regroupait les 35 746 entrées lexicales du Petit Robert et leurs fréquences selon le TLF (Imbs, 1971). Ces fréquences étaient estimées sur un corpus de textes littéraires datant de 1919 à 1964 et comprenant 26 millions de mots.

Brulex connaissait cependant trois limitations importantes. La première était l’absence des formes fléchies telles que les verbes conjugués ou certaines formes écrites plurielles ou féminines. Cela pose problème par exemple pour toutes les études concernant les formes fléchies en français ou pour estimer des fréquences d’unités telles que les syllabes, les lettres, les bigrammes, ou les phonèmes. La seconde était que les fréquences étaient basées uniquement sur des textes relativement anciens de surcroît (le plus récent datant de 1964). La troisième de ces limitations était l'absence de mise à jour. Les auteurs avaient clairement indiqués que leur base ne serait pas mise à jour par de nouvelles champs ou des corrections aux données déjà existantes.

Manulex ou NOVLEX sont deux bases de données plus récente (Lambert et Chesnet, 2001), qui fournissent les formes fléchies et leurs fréquences. En revanche, elles se fondent sur des corpus de manuels scolaires pour les enfants (Novlex: CE2, 417000 mots; Manulex: CP-CM2, 1,9 millions de mots).

Morphalou (Romary, Salmon-Alt et Francopoulo, 2004) est une base encore plus récentes comprenant 539 413 formes ainsi que des informations morpho-syntaxiques (catégorie grammaticale, genre, nombre et lemme). Cependant Morphalou ne contient ni les mots composés (garde-chasse, pomme de terre), ni les fréquences de ces entrées. Vocolex est encore une autre base de données qui fournit un ensemble d'indicateurs statistiques sur les similarités entre mots de la langue française. MHATLex (Pérennou et Calmès, 2000) est une base payante qui contient 81 000 lemmes et 854 000 formes fléchies ainsi leurs représentations phonologiques, des informations morpho-syntaxiques et fréquentielles.

Afin d'avoir une base de données comprenant les formes fléchies, ainsi que des estimations de fréquences plus actuelles, nous avons créé la base de données Lexique 1 puis Lexique 2. Les fréquences de Lexique 1 & 2 furent constituées à partir d'une sélection de textes publiés après 1950 du corpus de textes Frantext. Lexique 2 comprenait ainsi 130 000 formes fléchies ainsi que leur fréquence. Si Lexique 2 apportait un certain nombre d'innovations comparativement aux bases de données existantes, il subsistait encore quelques limitations. Ainsi, les mots composés n'étaient pas présents dans la base. Un autre défaut provenait du fait que n'ayant pas eu accès aux textes, nous n'avions pas la fréquence des formes homographes telles que danse (dans sa forme nominale (la danse) et dans sa forme verbale (je danse)). Nous avons donc développé Lexique 3 afin de lever ces limitations.

Pour avoir la fréquence des formes homographes, il nous fallait avoir accès à d'importants corpus de textes. Nous avons donc demandé aux auteurs de Frantext, l'autorisation d'utiliser la partie la plus récente de leur corpus. Cependant, Frantext est un corpus de textes littéraires (ex d'auteurs: Françoise Sagan, Michel Tournier, mais aussi Georges Perec ou Marguerite Duras). Il y a donc un style assez soutenu et le vocabulaire utilisé ne reflète peut-être pas toujours l'usage de la langue française.

Pour cette raison, nous avons recherché un deuxième corpus reflétant davantage l'usage de la langue. Nous avons d'abord pensé au corpus du journal "Le Monde" mais le style utilisé était encore une fois assez élaboré et, du coup, paraissait éloigné de l'usage courant de la langue française.

Ensuite, nous avons eu l'idée de télécharger un corpus de pages web. Pour autant le contenu textuel des pages web n'est pas utilisable directement en raison des menus, des mentions légales, etc. Il exige donc un important travail de prétraitement des données différent pour chaque site web téléchargé. Ce travail de prétraitement rendait donc difficile l'obtention d'un gros corpus.

En troisième tentative, nous avons essayé de scanner des livres ou des journaux populaires tels que des romans de gare ou des journaux télé. Là encore, la tâche s'est révélée ardue en raison de la mise en page relativement complexe des magazines. Se posait aussi le problème du temps de scannage des ouvrages afin d'obtenir un corpus conséquent.

Enfin, nous avons eu l'idée de travailler sur des dialogues de films et de séries et plus précisément sur les sous-titres. En effet les sous-titres de films et de séries présentent trois avantages non négligeables:

-ils existent déjà sous forme numérique de fichiers textes

-ils proviennent de films et de séries souvent américaines très populaires (ex: Ally McBeal, 24h) qui correspondent donc à ce qui peut être entendu en regardant la télévision.

-enfin, ils correspondent à des dialogues parlés et peuvent, de ce fait, servir à estimer l'usage de la langue parlée

0.2 Constitution des corpus

0.2.1 Le corpus de textes (Frantext)

L'Atilf nous a donné accès à 218 textes littéraires (romans) publiés entre 1950 et 2000 : cela représente un corpus de 14,7 millions d’items.

0.2.2 Le corpus de films (ou corpus de sous-titres)

Ce corpu

Attention ce sont deux corpus de sous-titres différents qui ont été utilisés pour Lexique avant la version 3.40 et celui utilisé pour la version 3.40 et les versions ultérieures.

Tous les détails sur la constitution de ce corpus sont dans l’article ci-joint :

New, B., Brysbaert, M., Veronis, J., & Pallier, C. (in press). The use of film subtitles to estimate word frequencies. Applied Psycholinguistics.

Nous avons téléchargé les sous-titres de 9474 films ou saisons de séries représentant en tout 50 millions de mots. Ces films ont été classés en 4 catégories :

1. sous-titres de films français : 1.9 millions de mots (e.g., Camille Claudel,

C’est arrive pr`es de chez vous),

2. sous-titres de films anglo-saxons : 26.5 millions de mots (e.g.,

Arizona Dream, Schindler’s List),

3. sous-titres de films et series anglo-saxonnes: 19.5 millions de mots

(e.g., Friends, Ally Mc Beal), and

4. sous-titres de films européens non anglo-saxons 2.5 million words

(e.g., Cria Cuervos, Good Bye Lenin!).

Comme beaucoup de sous-titres avaient été obtenues par reconnaissance automatique de caractères, nous avons d'abord du effectuer un gros travail de sélection et de correction des fautes d'OCR. (p.ex. "i" remplacé par "l").

Nous avons calculé la fréquence des mots pour chacun de ces sous-corpus. Une fois ceci effectué, nous avons calculé la fréquence moyenne de chacun de ces mots à traver les 4 corpus. De cette façon, nos fréquences étaient basées sur le corpus le plus large possible et nous évitions une trop forte influence des films et séries américaines très fortement représentés.

L’avantage de ce corpus est de se baser davantage sur le langage oral que le corpus de livres. En effet les sous-titres de films sont composés quasiment uniquement de dialogues très proches de ce qu’entendent les gens à la télévision. Ces fréquences ont montré dans plusieurs analyses un avantage, assez souvent non négligeables, en terme d’explication de la variance des temps de réaction de tâche de décision lexicale par rapport aux fréquences de livres.

0.2.3 Etiquetage grammatical du corpus

Afin d'étiqueter grammaticalement nos corpus, nous avons utilisé l'étiqueteur Cordial Analyseur. Pour l'instant, Cordial semble parmi les tout meilleurs catégoriseurs grammaticaux pour le français.

Nous avons obtenu une liste de 293 000 items distincts incluant les mots composés ainsi que leur fréquence Ces items comprenaient des symboles (dont la ponctuation), des abréviations, des mots étrangers et des noms propres. Pour "nettoyer" cette liste, nous avons employé Aspell, le dictionnaire Francais-Gutenberg 1.0 (Pythoud, 1996) et le dictionnaire Le Grand Robert (Robert, 1996). Le résultat de ce filtrage a produit une liste de 157 920 items.

0.3 Estimation de la fiabilité des fréquences

La fréquence des mots est un facteur très important dans la reconnaissance des mots. Les mots utilisés couramment sont plus facilement et plus rapidement reconnus que les mots utilisés plus rarement. Beaucoup d'étude montrent que c'est le facteur expliquant le plus de variance dans la tâche de décision lexicale.

Cet effet n'existe pas uniquement entre les mots très fréquents et les mots très peu fréquent (comme entre porte et osselet) mais il joue aussi pour des différences plus subtiles (comme entre danger et nuage). C'est donc un facteur extrêmement important à contrôler dès lors que l'on veut mettre en évidence l'importance d'un autre facteur dans la reconnaissance de mots.

Gernsbacher (1984) a suggéré que les fréquences basées sur des corpus écrit (comme les fréquences de Brulex ou de Lexique 1 et 2) n'étaient pas de très bons estimateurs de la fréquence d'usage. Elle a notamment argumenté que ces fréquences écrites "classiques" ne prennent pas en compte la fréquence d'occurrence parlée. De plus ces fréquences reposent souvent sur des corpus anciens et non actualisés. Elle a ainsi montré que la familiarité pouvait être un meilleur prédicteur des temps de décision lexicale (notamment pour les mots de basse fréquence) que les fréquences utilisées à l'époque. Il ressort donc de ces études qu'il est crucial d'avoir les fréquences les plus actualisées et les plus proches de l'usage parlé possible.

Dans Lexique 3, nous proposons deux estimateurs des fréquences d’usage : le premier est fondé sur un sous-ensemble de de textes littéraires récents (romans) tirés du corpus Frantext; le second repose sur un corpus de sous-titres de films.

0.4 Avantages du corpus de sous-titres

Un premier avantage de la présence de ce corpus de sous-titres est qu'il contient beaucoup de films très récents ce qui permet d'avoir du vocabulaire plus actuels. Il a permis d'ajouter un grand nombre d'entrées récentes qui avaient beaucoup moins de chance de se trouver dans des textes littéraires. C'est le cas de mots tels que techno, téléchargement, internautes, internet.

Un second avantage provient du fait que les fréquences de termes caractéristiques du langage parlé tels que Salut, Bonjour, Au revoir, Oui, ou Non sont au moins 5 fois plus fréquents dans le corpus de sous-titres que dans le corpus de livres.

Enfin, un dernier avantage provient du fait qu'il sera très facile de réactualiser ce corpus très régulièrement.

0.5 Organisation de la base Lexique 3

Lexique 3 est fournie sous forme de fichiers textes, les champs étant séparés par des tabulations. Cela permet de les importer facilement avec la plupart des logiciels.

0.5.1 Organisation de la table Lexique3

La Tableau 1 présente les différents champs de cette table pour quelques items.

Attention cette fréquence a changé à partir de Lexique 3.40. (Elle est alors basée sur un plus gros corpus et un moyennage sur les sous-corpus)

- Structure phonologique syllabique (cv-cv) : Elle décrit la structure phonologique du mot syllabé. Les consonnes sont notées C, les voyelles sont notées V et les semi-voyelles Y

- Représentation orthographique inversée (orthrenv) : Ex: erbra (arbre). Ce type de champs, une fois trié, est très utile pour les personnes travaillant sur les terminaisons (p.ex. en morphologie)

- Représentation phonologique inversée (phonrenv) : Ex: RbRa (aRbR). Même champs que précédemment mais pour la représentation phonologique.

-Représentation orthographique syllabée (orthosyll): Champs encore expérimental donnant la représentation orthographique syllabée (Ex mai‑son). L'algorithme utilisé montre quelque différences avec l'algorithme de syllabation utilisée sur les formes phonologiques (p.ex. les schwas finaux sont comptés comme des voyelles). Il fait notamment des erreurs sur les mots composés et quand deux voyelles se suivent (pays, yaourt, voyant, truand).

-Catégories grammaticales possibles de la forme orthographique (cgramortho): Champs qui indique les différentes catégories grammaticales possibles pour une représentation orthographique donnée. P.ex. danse sera catégorisée comme "NOM,VER" c'est-à-dire un mot qui peut être soit un nom, soit un verbe.

-Pourcentage de personnes connaissant la définition du lemme (deflem). Ce champs indique le pourcentage de personnes ayant dit qu’il connaissait le lemme du mot sur le site « Combien de mots connaissez-vous ? ». Cet indicateur peut donc constituer une sorte de fréquence subjective objective en quelques sortes ;-).

-Nombre de personnes ayant répondu pour la définition de ce lemme (defobs). Ce champs indique le nombre de personnes à partir duquel nous avons construit le pourcentage du champs précédent (deflem).

-Distance de Levenshtein phonologique (pld20) Ce champs est l'équivalent de la distance de Levenshtein orthographique appliqué à la représentation phonologique. (calculé en fonction des 71 358 formes phonologiques différentes de Lexique 3.6.

-Morphologie Dérivationnelle (morphoder) Ce champs donne la décomposition en morphèmes dérivationnels d'un mot donné. Ainsi plumage est décomposé en plume-age. Ce champs est le résultat du programme Dérif (Namer, 2003; http://www.cnrtl.fr/outils/DeriF/). Attention pour la version actuelle de ce programme de nombreux suffixes et préfixes étant encore non traités ou traités partiellement). Par exemple, abandonner n'est pas ségmenté comme abandon-er mais comme un monomorphémique (abandonner). Nous sommes donc vivement intéressés par toute contribution concernant ce champs.

-Nombre de morphèmes (dérivationnels) (nbmorph) C'est le nombre de morphèmes dérivationnels directement calculé à partir du champs précédent.

Le Tableau 7 présente en résumé les principales caractéristiques de tous les champs sous formes numériques.

0.0.1 Organisation de la table lex3.lemmes.txt

0.1 Les autres bases

0.2 Les Outils

0.2.1 Les outils "en ligne"

0.2.1.1 La recherche de fréquence dans les corpus

0.2.1.2 La recherche par mots

0.2.1.3 La recherche par propriété

Ensuite il sélectionne les champs sur lesquels il effectue sa recherche puis tape l'expression recherchée. L'utilisateur peut aussi choisir les colonnes qu'il désire afficher et sur quelle colonne il désire qu'un tri soit effectué. Une requête est présentée dans la Error: Reference source not found. Cette requête utilise les expressions régulières et demande tous les mots commençant par la lettre a suivie d'un f ou d'un g, qui soient nom ou adjectif, dont la fréquence est supérieure à 10 occurrences par million et dont la représentation phonémique comprend la fricative /f/. Cette requête demande en outre que les résultats soient triés selon leur fréquence par ordre croissant et de n'afficher que 4 colonnes (le mot, sa représentation phonémique, sa catégorie grammaticale et sa fréquence).

De plus, deux pages html présentent beaucoup d'exemples d'utilisation à la fois de la recherche simple et de la recherche par expressions régulières.

0.2.2 Open Lexique

0.2.3 Les outils "hors ligne" : Undows

Compte tenu des différentes limites imposées par les moteurs "en ligne", nous avons mis à disposition tout un ensemble d'outils permettant d'effectuer des recherches beaucoup plus puissantes que celles "en ligne".

Ainsi, nous avons regroupé dans une application facilement utilisable dénommée Undows (http://undows.lexique.org/) des outils libres tels que gawk, perl, bash, et les textutils. Nous avons choisi d'utiliser les outils awk et perl car ce sont des langages de programmation spécialisés dans le traitement de données de type "texte". Ces langages permettent d'effectuer facilement des requêtes simples de types "sélection de données" ou des programmes beaucoup plus complexes. En démarrant cette application, l'utilisateur a accès à plusieurs exemples de recherches courantes à effectuer sur Lexique telles qu'une recherche sur tous les mots ayant la catégorie grammaticale NOM, tous les mots commençant par b, tous les mots finissant par t, ou tous les mots compris dans une certaine gamme de fréquence. La Error: Reference source not found présente des exemples de requêtes effectuées avec ces outils.

0.3 Disponibilité et site web

Afin de faciliter l'accès à Lexique, nous avons créé un site web disponible à l'adresse suivante: http://www.lexique.org. Depuis la première version de Lexique rendu publique le 19 octobre 2000, la communauté d'utilisateurs de Lexique n'a cessé de grandir. Aujourd'hui, notre site accueille, chaque mois, 3000 visiteurs en moyenne. Depuis cette première version, la base Lexique en elle-même, le site et les outils permettant de l'interroger ont été mis à jour et enrichis régulièrement. Nous avons aussi développé de nouveaux outils permettant aux utilisateurs d'interroger Lexique sans être connectés à internet.

0.4 Licence

0.5 Conclusion

Bibliographie

Lété, B., Sprenger-Charolles, L., & Colé, P. (2004). MANULEX: A grade-level lexical database from French elementary school readers. Behavior Research Methods, Instruments, & Computers, 36, 156-166.

Monsell S. (1991). The nature and locus of word frequency effects in reading, in D. Besner (Edit) et G. Humphreys (Edit), Basic processes in reading: Visual word recognition, Hillsdale, NJ, (Lawrence Erlbaum Associates), 148-197.

Morrison C., Ellis A. (1995). Roles of word frequency and age of acquisition in word naming and lexical decision, Journal of Experimental Psychology: Learning, Memory, and Cognition, 21, (1), 116-133.

New, B., Brysbaert, M., Segui, Ferrand, L., Rastle, K. (2004) The Processing of singular and plural nouns in French and English. Journal of Memory and Language, 51, 568–585.

Pagel, V. and Black, A.W. and Lenzo, K. (1998). Letter-to-Sound Rules for Accented Lexicon Compression. Proceedings of ICSLP'98, 252-255.

Peereman, R., & Dufour, S. (2003). Un correctif aux notations phonétiques de la base de données LEXIQUE [A corrective to the phonetic notations of the LEXIQUE database]. L’Année Psychologique, 103, 103-108.

Pythoud, C. (1996). Problèmes de la correction automatique de l’orthographie lexicale du Français à travers une étude de cas: Le correcteur orthographique ispell et le dictionnaire Français–IREQ [Automatic spell-checking problems: The ispell program and the French–IREQ dictionary] available at http://www.vuil.ch/ling/frgvt.html. Mémoire de licence, Université de Lausanne.

Romary L., Salmon-Alt S., Francopoulo G. (2004). Standards going concrete : from LMF to Morphalou. Workshop on Electronic Dictionaries, Coling Geneva, Switzerland.

Yarkoni, T, Balota, D.A., & Yap, M.J. (2008). Moving Beyond Coltheart's N: A New Measure of Orthographic Similarity. Psychonomic Bulletin & Review, 15, 971-979.

Annexe A: Open Lexique - Noms des champs

Annexe B: Historique de l'obtention des codes phonologiques de Lexique

Pour Lexique 1, nous avons dérivé la forme phonologique de nos entrées grâce au logiciel LAIPTTS 1.13 (Keller & Zellner, 1998). Ce logiciel utilise un noyau de 500 règles de conversion graphème-phonème rendant compte de plus de 86% des prononciations. Afin de traiter les exceptions, il dispose aussi d’un dictionnaire composé de 6 000 mots ayant des prononciations exceptionnelles. Sur 4 000 phrases du quotidien Le Monde, l’auteur rapporte que son logiciel a un taux d’erreur de 0,001 %. Cependant, ce logiciel (LAIPTTS) était un logiciel prévu pour générer de la parole à partir de textes continus et non de mots isolés (cadre dans lequel nous l'avons utilisé).

Pour Lexique 2, Peereman et Dufour (sous presse) ont examiné, les codes phonémiques de Lexique 1 en les comparant aux notations phonémiques données par Brulex (elles-mêmes basées sur le dictionnaire Le Petit Robert). Ils ont ainsi détecté 2 500 différences (sur les 30 000 entrées que contient Brulex) de codifications phonémiques entre Lexique et Brulex. Ces 2 500 différences relevaient soit de mots à prononciation exceptionnelle, soit de problèmes de règles de conversion utilisées par le logiciel. Ils ont donc corrigé ces entrées. Ils ont aussi retraité l'ensemble des codes phonémiques pour le positionnement des schwas. Afin de rendre les codes phonémiques les plus cohérents possibles, les auteurs de ces corrections ont aussi supprimé la distinction entre les deux types de "a" et les deux types de "o", les deux types de "r", l'arrêt glottique, ainsi que la marque d'aspiration "h".

Le site http://leadserv.u-bourgogne.fr/bases/lexiquecorr/ met à disposition un document décrivant les corrections réalisées, les scripts de correction utilisés ainsi que l'ensemble des correctifs. Ces corrections ont été intégrées à la version 2 de Lexique.

Pour Lexique 3, les représentations phonologiques ont été obtenues à partir de Lexique 2 pour les entrées qui le permettaient. Pour les entrées ne le permettant pas, nous avons utilisé le logiciel Multitel Elite 2.0.1 (Pagel, Black et Lenzo, 1998; Black, Lenzo et Pagel, 1998). Comme pour tout logiciel de "text to speech" adapté à la parole continue et employant un système de règles, des erreurs ont pu être introduites, notamment sur les mots d'origine étrangère. Nous en avons d'ores et déjà corrigé un certain nombre mais il peut en rester. Si vous en trouvez, n'hésitez pas à en faire part sur le forum de Lexique

Pour Lexique 3.2, Christian Lachaud a effectué un grand nombre de corrections. Il a tout d'abord réintroduit après un gros travail de vérification manuelle la différence entre o ouvert (noté o) et o fermé (noté O). Il a supprimé la présence du phonème h qui indiquait la possibilité d'une liaison ou pas. En outre, il a corrigé environ 1400 entrées (1% du Lexique) pour des problèmes diverses:

Nous avons commencé par utiliser les codes du premier logiciel de text2speech que nous avons employé. (LAIPTTS). Ensuite nous avons légèrement changé ces codes pour le rendre plus pratique (remplacement du schwa * par ° pour que les recherches soient plus faciles)

Nous n'utilisons pas API car nos fichiers sont des fichiers textes (nous passerons à l'unicode, une fois que celui-ci sera parfaitement supporté par toutes les applications), et pas X-Sampa car nous voulons que chaque phonème soit représenté par un seul caractère. Nous voulions aussi que tous ces caractères soient facilement utilisables par des anglo-saxons. Normalement, notre code phonétique est relativement proche de X-Sampa. Voici les changements de X-Sampa vers Lexique :

1 Distance de Levenshtein: Nombre de transformations (ajout, suppression, remplacement) pour arriver d'une chaîne de caractères à une autre. P.ex. la distance de Levenshtein entre jupe et juge est de 1 et de 2 entre jupe et juger.

Voyelles			Consonnes
Codes Lexique	Exemples	Sons nommés	Codes Lexique	Exemples	Sons nommés
a	bat, plat	A	p	père, soupe	p (occlusive)
i	lit, émis	I	b	bon, robe	b (occlusive)
y	lu	U	t	terre, vite	t (occlusive)
u	roue	Ou	d	dans, aide	d (occlusive)
o	peau, mot	o (fermé)	k	carré, laque	k (occlusive)
O	éloge, fort	o (ouvert)	g	gare, bague	g (occlusive)
e	été	e-fermé	f	feu, neuf	f (fricative)
E	paire, treize	e-ouvert	v	vous, rêve	v (fricative)
°	abordera	schwa élidable	s	sale, dessous	s (fricative)
2	deux	e-fermé	z	zéro, maison	z (fricative)
9	œuf, peur	e-ouvert	S	chat, tâche	ch (fricative)
5	cinq, linge	in (voy. Nasale)	Z	gilet, mijoter	ge (fricative)
1	un, parfum	un (voy. nasale)	m	main, femme	m (cons. nasale)
@	ange	an (voy. nasale)	n	nous, tonne	n (cons. nasale)
§	on, savon	on (voy. nasale)	N	agneau, vigne	gn (c. nasale palat.)
3	parvenu	schwa non élidable	l	lent, sol	l (liquide)
Semi-Voyelles			R	rue, venir	R
j	yeux, paille	y (semi-voyelle)	x	jota	jota (emprunt espagn.)
8	huit, lui	ui (semi-voyelle)	G	camping	ng (emprunt angl.)
w	oui, nouer	w (semi-voyelle)

Abréviations	Catégorie grammaticale
ADJ	Adjectif
ADJ:dem	Adjectif démonstratif
ADJ:ind	Adjectif indéfini
ADJ:int	Adjectif interrogatif
ADJ:num	Adjectif numérique
ADJ:pos	Adjectif possessif
ADV	Adverbe
ART:def	Article défini
ART:inf	Article indéfini
AUX	Auxiliaire
CON	Conjonction
LIA	Liaison euphonique (l')
NOM	Nom commun
ONO	Onomatopée
PRE	Préposition
PRO:dem	Pronom démonstratif
PRO:ind	Pronom indéfini
PRO:int	Pronom interrogatif
PRO:per	Pronom personnel
PRO:pos	Pronom possessif
PRO:rel	Pronom relatif
VER	Verbe

Mode		Personne		Temps
ind	indicatif	1s	1ère personne du singulier	pre	présent
cnd	conditionnel	2s	2ème personne du singulier	fut	futur
sub	subjonctif	3s	3ème personne du singulier	imp	imparfait
par	participe	1p	1ère personne du pluriel	pas	passé
inf	infinitif	2p	2ème personne du pluriel
imp	impératif	3p	3ème personne du pluriel

Champs	Min	1er Qu	Médiane	Moyenne	3eme Qu	Max
Fréquence du lemme (films)	0	0.12	1.02	64.83	7.71	33959.88
Fréquence du lemmes (livres)	0	0.54	2.64	48.37	13.31	38943.65
Fréquence des films	0	0	0.06	6.67	0.42	26198.37
Fréquence des livres	0	0.07	0.2	6.74	1.01	38943.65
Nombre d'homographes	1	1	1	1.27	1	6
Nombre d'homophones	1	2	2	3.45	4	24
Nombre de lettres	1	7	9	8.86	10	25
Nombre de phonèmes	1	5	6	6.44	8	20
Nombre de voisins orthographique	0	0	1	1.43	2	26
Nombre de voisins phonologiques	0	0	2	3.93	5	38
Point d'unicité orthographique	0	0	0	2.38	5	21
Point d'unicité phonologique	0	0	4	3.55	6	17
Nombre de syllabes	1	2	3	2.76	3	9

Symbole	Signification	Exemple	Résultat
*	Toute chaîne de caractères	a*	arbre, arbuste
.	Tout caractère	a.o	ado
<	Inférieur à	<10	Mots fréquence inférieure à 10
>	Supérieur à	>30	Mots de fréquence supérieure 30
=	Egal à	=10	Mots de fréquence égale à 10
< > ou > <	Inférieur et Supérieur à	<10 >30	Mots de fréquence inférieure à 10 et supérieure à 30

Symbole	Signification	Exemple	Résultat
^	Début de chaîne	^a	arbre, arbuste
$	Fin de chaîne	e$	tente, mare
.	Tout caractère	^a..e$	arme, acte
[xyz]	Les caractères x, y ou z	a[bc]	raccroché, abruti
[x-z]	La tranche de caractères de x à z	a[l-n]	amener, alourdi, anneau
[^xyz]	Tous les caractères sauf xyz	[^aeiyouéèïê]	Toutes les consonnes
*	Désigne le caractère qui précède répété un nombre quelconque de fois, y compris zéro	m*	emmener, amender, entasser
+	Désigne le caractère qui précède répété au moins une fois	m+	emmener, amender
?	Désigne le caractère qui précède répété au plus une fois	m?	amender, entasser
\|	ou	(buv\|parl)ant	buvant, parlant
{n}	désigne le caractère qui précède exactement n fois	nn{2}	patronne mais pas patron