Lingunix

Les outils unix appliqués à la recherche linguistique et psycholinguistique

  • Augmenter la taille
  • Taille par défaut
  • Diminuer la taille
Extraction d'informations lexicales avec AWK

Utiliser LEXIQUE, AWK et SORT pour obtenir une liste des mots les plus fréquents

Imprimer PDF

Commande :

cat Lexique3.txt | awk -F"\t" '{print $1,$10}' | sort -t\  -k2nr > mots_freq_decroissant_Lexique3.txt

Explication :

La commande "cat Lexique3.txt" permet de lire toutes les colonnes du fichier Lexique3.txt. Nous redirigeons le flux de la commande précédente à l'aide du pipe "|" dans l'éditeur AWK avec lequel nous ne conserverons uniquement la colonne 1 (les mots) et la colonne 2 (les frequences). Nous redirigeons ce flux dans le filtre sort avec lequel nous ordonnons par ordre décroissant la deuxième colonne du tableau correspondant aux fréquences. Pour finir, nous redirigeons le résultat dans le fichier mots_freq_decroissant_Lexique3.txt à l'aide du caractère de redirection greater than ">".

Résultat :

la 23633.92
et 20879.73
à 19209.05
le 18310.95
il 15832.09
les 14662.3
un 13550.68
l' 12746.76
d' 11876.35
...

Télécharger le résultat complet de ce sript : Liste des mots les plus fréquents avec LEXIQUE

Mise à jour le Dimanche, 17 Avril 2011 11:39
 

Générer un dictionnaire comprenant tous les adjectifs de la langue française avec AWK

Imprimer PDF

Commande :

awk -F"\t" '{print $1,$4}' Lexique3.txt | grep ADJ$ > dictionnaire_adjectifs_fr.txt

Résultat:

abattus ADJ
abbatial ADJ
abbatiale ADJ
abbatiales ADJ
abdominal ADJ
abdominale ADJ
...

Explication :

Dans ce script nous avons fait appel à la base de donnée Lexique3.txt. Nous avons à l'aide de la commande AWK extrait les colonnes 1 et 2 de la base Lexique3.txt correspondant respectivement au mot (colonne 1) et à sa nature (colonne 2).

Nous avons ensuite redirigé le flux de données à l'aide du pipe (le bâtonnet vertical) dans le filtre grep ne laissant passer ici uniquement les lignes se terminant par ADJ (pour adjectif).

Pour finir nous redirigeons le résultat de notre commande dans le fichier dictionnaire_adjectifs_fr.txt à l'aide du caractère "greater than".

Voir le dictionnaire des adjectifs de la langue française trié par ordre de fréquence (décroissant).

Mise à jour le Jeudi, 31 Mars 2011 10:06
 

AWK : Calculer la moyenne du nombre de lettres dans les mots en Français

Imprimer PDF

Commande :

awk -F"\t" '{sum +=$15} END {print sum/NR}' Lexique3.txt | less

Résultat :

8.86738

Ce chiffre est le nombre moyen de lettres dans chaque mot du dictionnaire Lexique3.txt (lexique.org).

Explication :

Ici on utilise la base de donnée Lexique.txt. La quizième colonne donne le nombre de lettres pour chaque mot, nous les additionnons toutes (sum +=$15) puis nous divisons le résultat par le nombre total de lignes de la base Lexique.txt (print sum/NR).

Mise à jour le Vendredi, 07 Janvier 2011 13:34
 

Lire une ou plusieures colonnes avec AWK dans un tableau

Imprimer PDF

Commande :

awk -F"\t" '{print $1,$4}' Lexique3.txt | less

Résultat :

Ce script écrit en awk nous donne les mots avec leur nature dans la langue française dans deux colonnes.

abaissait VER
abaissant ADJ
abaissant VER
abaissante ADJ
abaisse NOM

Explication :

Nous avons extrait avec AWK la premiere colonne ($1) et la quatrième colonne ($4) du tableau Lexique3.txt (téléchargeable sur lexique.org). Dans ce tableau, le caractère séparateur est "tabulation" (-F"\t"). L'éditeur less est employé ici pour faciliter la vue des résultats.

Mise à jour le Samedi, 29 Octobre 2011 17:33