Fiche logiciel validé
  • Création ou MAJ importante : 20/11/08
  • Correction mineure : 20/11/08
Auteur :
  • Teresa Gomez-Diaz - Laboratoire d'informatique de l'institut Gaspard-Monge (Université Paris-Est, CNRS, ESIEE)
Contributions importantes :
  • Sébastien Paumier (Université Paris-Est).
    La relecture a pas été faite par Patrick Watrin (UCL Belgique) et Denis Maurel (Université de Tours) mais off-line.
Responsable thématique :
Mots-clés

Unitex : traitement de corpus utilisant des technologies à états finis

  • Site web
  • Système : UNIX-like, Windows, MacOS X
  • Téléchargement
  • Version évaluée : 2.0
  • Langue(s) de l'interface : anglais
  • Licence : LGPL
  • Le code d’Unitex est en LGPL, mais il utilise une bibliothèque d’expressions régulières GPL (TRE). On peut choisir de linker ou non cette bibliothèque, de sorte que le code d’Unitex puisse être compatible GPL pur ou non.
    Les ressources linguistiques distribuées avec le logiciel sont sous licence LGPLLR, une licence développée par l’Université de Marne-la-Vallée et validée par la FSF comme l’équivalent de LGPL pour des données linguistiques.
    http://igm.univ-mlv.fr/~unitex/lgpllr.html

Description
Fonctionnalités générales : 

Ce système permet de construire des ressources linguistiques telles que des dictionnaires électroniques et des grammaires et de les utiliser pour effectuer des recherches complexes dans des textes et de construire des concordances.

Autres fonctionnalités : 
  • Traitement de l’ambiguïté lexicale par automates
  • Utilisation de tables de lexique-grammaire
Interopérabilité : 

Tous les formats utilisés sont décrits en détails dans le manuel d’utilisation.

Contexte d'utilisation : 

Unitex est utilisé au laboratoire IGM-LabInfo pour la construction et la maintenance de ressources linguistiques (dictionnaires et grammaires).
Il permet également d’exploiter ces ressources en les appliquant sur des textes, ce qui autorise la recherche d’expressions complexes et la construction de concordanciers.
Cet aspect du système est à la base de nombreuses applications, dont les plus importantes sont le repérage de séquences (par exemple, entités nommées), l’extraction d’informations, le filtrage et le routage de documents, etc.
Il est au centre du projet Infomagic : http://www.capdigital.com/xwiki/bin/view/Projet/In...

Limitations, difficultés, fonctionnalités importantes non couvertes : 

Les versions ultérieures à la version 1.2 requièrent Java 1.6.

Environnement du logiciel
Plates-formes : 

Système multi-plateforme testé avec succès sur toutes les versions de Windows, ainsi que sous Linux, MacOS et Sparc.
Note : les versions <= 1.2 ne supportent pas Windows Vista.

Logiciels connexes : 
Environnement de développement
Type de structure associée au développement : 

Développement coopératif grâce à un serveur SVN. Le principal développeur est Sébastien Paumier (Université Paris-Est), et d’autres personnes collaborent au développement, en particulier à Paris-Est (Marne-la-Vallée), Münich, Louvain-la-Neuve, Tours, ainsi que dans certaines universités brésiliennes.

Eléments de pérennité : 

La combinaison logiciel libre+développement coopératif via SVN permet d’éviter une dépendance de l’auteur principal. De plus, les langages de programmation utilisés (C/C++ et Java) ont été choisis pour leur portabilité et leur stabilité d’utilisation dans le temps.

Références d'utilisateurs institutionnels : 

Utilisé pour la recherche dans une cinquantaine d’universités et centres de recherche, notamment :
- à l’Université de Tours : http://www.li.univ-tours.fr/
- à l’Université de São Paulo, NILC : http://www.nilc.icmc.usp.br/nilc/
- à l’Université de Lisbonne : http://label.ist.utl.pt/
- à l’Université d’Algarve : http://www.ualg.pt/
- à l’Université de Belgrade : http://poincare.matf.bg.ac.yu/
- à la Hankuk University of Foreign Studies, Corée du Sud : http://www.hufs.ac.kr/
- à l’Université de Thessalonique : http://www.frl.auth.gr/

Utilisé comme base de travail pour le projet Outilex : http://igm.univ-mlv.fr/~mconstan/outilex/

Très utilisé à Louvain-la-Neuve, dans des projets industriels et de recherche :
- GlossaNet : http://www.atala.org/GlossaNet
- TPG (Thesaurus Patrum Graecorum) : http://tpg.fltr.ucl.ac.be/
- SMS pour la science : http://www.smspourlascience.be/
- ICLE (International Corpus of Learner English) : http://www.fltr.ucl.ac.be/FLTR/GERM/ETAN/CECL/Cecl...

Utilisé dans le projet Prolex à Tours : http://tln.li.univ-tours.fr/Tln_Unitex.html

Utilisé pour enseigner aux Universités de Munich, Tours, Paris 7, Algarve, Lisbonne, Belgrade….

Environnement utilisateur
Liste de diffusion ou de discussion, support et forums : 
Documentation utilisateur : 

Manuel d’utilisation de la version 2.0 en anglais : http://igm.univ-mlv.fr/~unitex/manuel.html
Manuel d’utilisation de la version 1.2 en français et anglais, plus une traduction partielle en portugais.

Contributions : 

Il y a une page web qui décrit la marche à suivre pour apporter une contribution linguistique ou informatique :
http://igm.univ-mlv.fr/~unitex/your_contribution.h...