Lingunix

Les outils unix appliqués à la recherche linguistique et psycholinguistique

  • Augmenter la taille
  • Taille par défaut
  • Diminuer la taille
Lingunix : linguistique informatique

Les outils unix appliqués à la recherche linguistique

Imprimer PDF

Lingunix, unix pour la linguistiqueBonjour à toutes et à tous et bienvenue sur Lingunix ! Ce site est destiné aux linguistes et aux informaticiens désirant entreprendre des travaux de recherches linguistiques. Je vous suppose un minimum de connaissances informatiques ou linguistiques pour pouvoir comprendre et suivre les sujets que j'aborderai. L'objectif de Lingunix est de vous sensibiliser à la puissance des outils Unix appliqués à l'analyse du langage écrit et de vous initier au développement de scripts Unix orientés  vers la modélisation de théories linguistiques.

Les travaux que je publierai au fur et à mesure sur Lingunix.org pourrons concerner de nombreux domaines de recherches différents à partir du moment ou ceux-ci font appel d'un traitement informatique du langage écrit.

Quelques exemples : contribution à l'élaboration de tests psycholinguistiques sur l'apprentissage de la langue écrites utilisant des bigrammes et des trigrammes - développement d'applications permettant l'extraction de représentations sociales dans un document écrit - calcule de fréquence de chaînes de caractères dans un textes - filtres - génération de dictionnaires d'anagrammes - etc...


Je n'aborderai pas les bases requises des outils Unix (Linux) puisqu'il existe un grand nombre de sites web et d'ouvrages  proposant ce genre d'introductions.

Je vous propose cependant une référence incontournable dans l'apprentissage des outils Unix et la base de donnée lexicale que nous utiliserons : 1) Le guide de survie Linux : l'essentiel du code et des connaissances (Scott Grannemen), 2) Bases de données linguistiques de la langue française : http://www.lexique.org

 

Si vous connaissez un informaticien initié au système d'exploitation Linux, il saura vous guider dans votre compréhension de mes scripts et dans votre apprentissage des outils Unix. Je précise que le système d'exploitation Mac Os, fondé sur Unix, est parfaitement compatible avec l'exécution des scripts présentés ici.

Mise à jour le Mardi, 01 Novembre 2011 12:14
 

AWK : Calculer la moyenne du nombre de lettres dans les mots en Français

Imprimer PDF

Commande :

awk -F"\t" '{sum +=$15} END {print sum/NR}' Lexique3.txt | less

Résultat :

8.86738

Ce chiffre est le nombre moyen de lettres dans chaque mot du dictionnaire Lexique3.txt (lexique.org).

Explication :

Ici on utilise la base de donnée Lexique.txt. La quizième colonne donne le nombre de lettres pour chaque mot, nous les additionnons toutes (sum +=$15) puis nous divisons le résultat par le nombre total de lignes de la base Lexique.txt (print sum/NR).

Mise à jour le Vendredi, 07 Janvier 2011 13:34
 

Calculer la fréquence d'occurence des bigrammes dans la langue française

Imprimer PDF

Commande :

for i in `echo {a..z}{a..z} | sed -e 's/\ /\n/g'`; do echo "$i `grep $i -ic liste_mots_mix.txt`" | awk -F"\ " '{print $1,$2,$2/286144}'; done | sort -t\  -k2nr >> freq_bigramme.txt

Résultat :

BI NBRE FREQ

er 67387 0.2355
on 57670 0.201542
nt 55588 0.194266
ra 53516 0.187025
en 50668 0.177072
es 48617 0.169904
re 46935 0.164026
ai 45629 0.159462
is 42307 0.147852
ie 39331 0.137452
ss 36994 0.129285

Explication :

Ce script calcule la fréquence des mots dans lesquels apparaissent toutes les combinaisons de bigrammes générées arbitrairement avec « l'expansion d'accolades » de la commande echo (echo {a..z}{a..z}). Le dictionnaire utilisé ici est issu de la fusion des lexiques de Louis Bronne, René Cougnenc, Serge Delbono et celui de JC Bellamy. Les fréquences sont calculées avec l'outil awk, et les résultats sont triés par ordre décroissant à l'aide de la commande sort (sort -t\  -k2nr).

Note : cette commande peut mettre plusieures minutes pour s'executer, soyez patients !

Mise à jour le Samedi, 29 Octobre 2011 16:56
 

Générer un dictionnaire de bigrammes et de trigrammes avec echo

Imprimer PDF

Commande :

Dictionnaire de Bigrammes :

echo {a..z}{a..z} > dictionnaire_bigramme.txt

Résultat :

aa ab ac ad ae af ag ah ai aj ak al am an ao ap aq ar as at au av aw ax ay az ba bb bc bd be bf bg bh bi bj bk bl bm bn bo bp bq br bs bt bu ...

Dictionnaire de Trigrammes :

echo {a..z}{a..z}{a..z} > dictionnaire_trigramme.txt

Résultat :

aaa aab aac aad aae aaf aag aah aai aaj aak aal aam aan aao aap aaq aar aas aat aau aav aaw aax aay aaz aba abb abc abd abe abf abg abh abi abj abk abl abm ...

Explication  :

La commande unix echo permet tout simplement d'écrire une chaine de caractères. Nous utilisons ici « l'expansion d'accolades » ( {a..z}{a..z} ) afin de générer une chaine de caractères croissante (de a à z) composée de deux et trois caractère.

Mise à jour le Samedi, 29 Octobre 2011 16:58
 

Renommer les caractères spéciaux de tous les fichiers d'un dossier avec rename

Imprimer PDF

Commande :

rename 's/\W/_/g' *

Résultat :

Tous les caractères spéciaux présents dans le nom des fichiers et dossiers dans un dossier sont remplacés par un tiret bas.

Remarque :

Il est nécessaire au préalable de se déplacer dans le dossier contenant les fichiers à renommer à l'aide de la commande cd.

Mise à jour le Samedi, 29 Octobre 2011 16:50