Commande :
for i in `echo {a..z}{a..z} | sed -e 's/\ /\n/g'`; do echo "$i `grep $i -ic liste_mots_mix.txt`" | awk -F"\ " '{print $1,$2,$2/286144}'; done | sort -t\ -k2nr >> freq_bigramme.txt
Résultat :
BI NBRE FREQ
er 67387 0.2355
on 57670 0.201542
nt 55588 0.194266
ra 53516 0.187025
en 50668 0.177072
es 48617 0.169904
re 46935 0.164026
ai 45629 0.159462
is 42307 0.147852
ie 39331 0.137452
ss 36994 0.129285
Explication :
Ce script calcule la fréquence des mots dans lesquels apparaissent toutes les combinaisons de bigrammes générées arbitrairement avec « l'expansion d'accolades » de la commande echo (echo {a..z}{a..z}). Le dictionnaire utilisé ici est issu de la fusion des lexiques de Louis Bronne, René Cougnenc, Serge Delbono et celui de JC Bellamy. Les fréquences sont calculées avec l'outil awk, et les résultats sont triés par ordre décroissant à l'aide de la commande sort (sort -t\ -k2nr).
Note : cette commande peut mettre plusieures minutes pour s'executer, soyez patients !




