Université de Savoie LPNC Lexique - Une Base de Données Lexicales Libre RISC CNRS
Un site réalisé par Boris New & Christophe Pallier et hébergé par le RISC


Menu principal


Gougenheim 2.0


Description

Le fichier Gougenheim.txt présente pour 8774 mots leur fréquence et pour les mots de fréquence supérieure à 20 leur répartition (nombre de textes dans lesquels ils apparaissent). Le corpus sur lequel, il est basé est un corpus de langue oral basé sur un ensembles d'entretiens avec 275 personnes. C'est donc non seulement un corpus de langue orale mais aussi de langue produite (dans le sens où les personnes interrogées avaient une conversation courante ce qui n'est pas forcément le cas dans des corpus radiophoniques ou télévisuels p. ex.). Le corpus original comprend 163 textes, 312.135 mots et 7.995 lemmes différents.

Cette base a été élaborée à partir du livre "L'élaboration du français fondamental", 1964 (pour les mots de fréquence supérieure à 20) et un ensemble de pages dactylographiées pour les mots de fréquence inférieure à 20.

Les champs sont les suivants
  • mots: le mot
  • semgram: indication grammaticale et sémantique sur le lemme
  • lemfreq: fréquence brute du lemme (p.ex. adéquat)
  • surfreq:  fréquence de surface (p.ex. adéquate) (n'existe que pour les mots de fréquence < 20)
  • répar: le nombre de textes dans lequel le mot est présent (n'existe que pour les mots de fréquence > 19)

Auteurs

  • Cette base est tirée du livre "L'élaboration du français fondamental" écrit par
  • G. Gougenheim
  • P. Rivenc
  • R. Michéa
  • A. Sauvageot
  • Pour la mise sous format électronique: Boris New

Remerciements

Je remercie les auteurs ci-dessus pour leur fabuleux travail et Liliane Sprenger-Charolles pour m'avoir prêté les feuilles dactylographiés comprenant les mots de fréquences inférieures à 20.

Téléchargement

Gougenheim 2.00

Historique

  • 2.00 Donne les fréquences inférieures à 20. Corrections mineures.
  • 1.00 Cette base élaborée uniquement d'après le livre "L'élaboration du français fondamental" ne donne pas les fréquences pour les mots de fréquences inférieures à 20.
Lexique - Une Base de Données Lexicales Libre
Copyleft © 2001 Lexique
Powered by phpWebLog