Lingunix

Les outils unix appliqués à la recherche linguistique et psycholinguistique

  • Augmenter la taille
  • Taille par défaut
  • Diminuer la taille
Scripts Pratiques

Remplacer les consonnes et les voyelles par C et V dans un texte avec SED

Imprimer PDF

Commande :

cat votre_texte.txt | sed 's/[zrtpqsdfghjklmwxcvbnZRTPQSDFGHJKLMWXCVBNçÇ]/C/g; s/[aeiouyAEIOUYâêîôûäëïöüÿâêîôûÂÊÎÔÛÄËÏÖÜŸåýæÅÝÆéèÉÈàÀœŒ]/V/g' > resultat_CV.txt

Résultat :

CVCC CV CVCCV, CVVCVC CVC CVCCCVC CVCC VCCV CVCCCVCVVC CVC C CVVC CVCCVCCV VV C CVVC CVVVCCV

Explication :

Nous mettons votre_texte.txt dans un flux avec cat que nous redirigeons avec le pipe ( | ) dans l'éditeur sed. La commande sed dans laquelle nous avons redirigé le flux va remplacer dans un premier temps toutes les consonnes par la lettre C puis dans un deuxième temps toutes les voyelles par la lettre V. Le résultat sera redirigé dans le fichier resultat_CV.txt à l'aide du caractère greater than (>).

Mise à jour le Samedi, 29 Octobre 2011 16:10
 

Renommer les caractères spéciaux de tous les fichiers d'un dossier avec rename

Imprimer PDF

Commande :

rename 's/\W/_/g' *

Résultat :

Tous les caractères spéciaux présents dans le nom des fichiers et dossiers dans un dossier sont remplacés par un tiret bas.

Remarque :

Il est nécessaire au préalable de se déplacer dans le dossier contenant les fichiers à renommer à l'aide de la commande cd.

Mise à jour le Samedi, 29 Octobre 2011 16:50
 

Générer un dictionnaire de bigrammes et de trigrammes avec echo

Imprimer PDF

Commande :

Dictionnaire de Bigrammes :

echo {a..z}{a..z} > dictionnaire_bigramme.txt

Résultat :

aa ab ac ad ae af ag ah ai aj ak al am an ao ap aq ar as at au av aw ax ay az ba bb bc bd be bf bg bh bi bj bk bl bm bn bo bp bq br bs bt bu ...

Dictionnaire de Trigrammes :

echo {a..z}{a..z}{a..z} > dictionnaire_trigramme.txt

Résultat :

aaa aab aac aad aae aaf aag aah aai aaj aak aal aam aan aao aap aaq aar aas aat aau aav aaw aax aay aaz aba abb abc abd abe abf abg abh abi abj abk abl abm ...

Explication  :

La commande unix echo permet tout simplement d'écrire une chaine de caractères. Nous utilisons ici « l'expansion d'accolades » ( {a..z}{a..z} ) afin de générer une chaine de caractères croissante (de a à z) composée de deux et trois caractère.

Mise à jour le Samedi, 29 Octobre 2011 16:58
 

Convertir tous les fichiers textes d'un répértoire en pdf avec for et pdftotext

Imprimer PDF

Commande :

for i in `ls | grep pdf$`; do pdftotext -nopgbrk -eol unix -layout $i; done

Explication :

"Pour chaque fichier pdf du dossier dans lequel on se trouve, on convertit ces fichiers au format txt".

Résultat :

Tous les fichiers au format pdf du répértoire dans lequel vous vous trouvez sont convertis en fichiers textes (.txt).

Note : certaines fois, il est nécéssaire de renommer les fichiers pour supprimer les caractères spéciaux.

Mise à jour le Samedi, 29 Octobre 2011 17:41
 
  • «
  •  Début 
  •  Précédent 
  •  1 
  •  2 
  •  Suivant 
  •  Fin 
  • »


Page 1 sur 2