Lingunix

Les outils unix appliqués à la recherche linguistique et psycholinguistique

  • Augmenter la taille
  • Taille par défaut
  • Diminuer la taille
Calculs de fréquences

Calculer la fréquence d'occurence des bigrammes dans la langue française

Imprimer PDF

Commande :

for i in `echo {a..z}{a..z} | sed -e 's/\ /\n/g'`; do echo "$i `grep $i -ic liste_mots_mix.txt`" | awk -F"\ " '{print $1,$2,$2/286144}'; done | sort -t\  -k2nr >> freq_bigramme.txt

Résultat :

BI NBRE FREQ

er 67387 0.2355
on 57670 0.201542
nt 55588 0.194266
ra 53516 0.187025
en 50668 0.177072
es 48617 0.169904
re 46935 0.164026
ai 45629 0.159462
is 42307 0.147852
ie 39331 0.137452
ss 36994 0.129285

Explication :

Ce script calcule la fréquence des mots dans lesquels apparaissent toutes les combinaisons de bigrammes générées arbitrairement avec « l'expansion d'accolades » de la commande echo (echo {a..z}{a..z}). Le dictionnaire utilisé ici est issu de la fusion des lexiques de Louis Bronne, René Cougnenc, Serge Delbono et celui de JC Bellamy. Les fréquences sont calculées avec l'outil awk, et les résultats sont triés par ordre décroissant à l'aide de la commande sort (sort -t\  -k2nr).

Note : cette commande peut mettre plusieures minutes pour s'executer, soyez patients !

Mise à jour le Samedi, 29 Octobre 2011 16:56
 

Compter et calculer le nombre d'occurrences des lettres dans un texte

Imprimer PDF

Commande :

for i in `grep . alphabet.txt`; do echo "$i : `grep . texte.txt | sed -e 's/./&\n/g' | grep $i -ic`"; done | sort -t: -k2nr,2nr > resultat.txt

Résultat :

Ce script donne le nombre d'occurrence de chaque lettre de l'alphabet dans le fichier texte.txt affichant une colonne avec les lettres et une colonne en affichant leurs nombres d'occurrences. Le résultat est trié par ordre décroissant par rapport au nombre d'occurrence de chaque lettre.

Explication :

On utilise dans ce script deux fichiers :

  1. alphabet.txt dans ce fichier, toutes les lettres de l'alphabet doivent être écrites en minuscule dans une colonne
  2. texte.txt : c'est le texte pour lequel on va calculer le nombre d'occurrence des lettres du fichier alphabet.txt
Mise à jour le Samedi, 29 Octobre 2011 17:38