Lingunix

Les outils unix appliqués à la recherche linguistique et psycholinguistique

  • Augmenter la taille
  • Taille par défaut
  • Diminuer la taille

Calculer la fréquence d'occurence des bigrammes dans la langue française

Imprimer PDF

Commande :

for i in `echo {a..z}{a..z} | sed -e 's/\ /\n/g'`; do echo "$i `grep $i -ic liste_mots_mix.txt`" | awk -F"\ " '{print $1,$2,$2/286144}'; done | sort -t\  -k2nr >> freq_bigramme.txt

Résultat :

BI NBRE FREQ

er 67387 0.2355
on 57670 0.201542
nt 55588 0.194266
ra 53516 0.187025
en 50668 0.177072
es 48617 0.169904
re 46935 0.164026
ai 45629 0.159462
is 42307 0.147852
ie 39331 0.137452
ss 36994 0.129285

Explication :

Ce script calcule la fréquence des mots dans lesquels apparaissent toutes les combinaisons de bigrammes générées arbitrairement avec « l'expansion d'accolades » de la commande echo (echo {a..z}{a..z}). Le dictionnaire utilisé ici est issu de la fusion des lexiques de Louis Bronne, René Cougnenc, Serge Delbono et celui de JC Bellamy. Les fréquences sont calculées avec l'outil awk, et les résultats sont triés par ordre décroissant à l'aide de la commande sort (sort -t\  -k2nr).

Note : cette commande peut mettre plusieures minutes pour s'executer, soyez patients !

Mise à jour le Samedi, 29 Octobre 2011 16:56  

Ajouter un Commentaire


Code de sécurité
Rafraîchir