Unitex

Fiche logiciel validé
  • Création ou MAJ importante : 16/11/12
  • Correction mineure : 30/09/13
  • Rédacteur de la fiche : Teresa Gomez-Diaz - LIGM (Université Paris-Est Marne-la-Vallée, CNRS, ESIEE)
  • Relecteur(s) : Sébastien Paumier (IGM-LabInfo)
  • Contributions importantes : Sébastien Paumier (Université Paris-Est Marne-la-Vallée) et responsable du projet logiciel a participé à la rédaction. La relecture a été faite par Patrick Watrin (UCL Belgique) et Denis Maurel (Université de Tours) mais off-line.
  • Responsable thématique : Raphaël Tournoy (Centre pour la Communication Scientifique Directe)
Mots-clés
Pour aller plus loin
  • Mots-clés principaux : corpus

Unitex : traitement de corpus utilisant des technologies à états finis

  • Site web
  • Système : UNIX-like, Windows, MacOS X
  • Téléchargement
  • Version évaluée : 3.0 - sept. 2012
  • Langue(s) de l'interface : anglais
  • Licence : LGPL

    Le code d'Unitex est en LGPL.
    Les ressources linguistiques distribuées avec le logiciel sont sous licence LGPLLR, une licence développée par l'Université de Marne-la-Vallée et validée par la FSF comme l'équivalent de LGPL pour des données linguistiques.
    http://igm.univ-mlv.fr/~unitex/lgpllr.html

  • Origine du développement : LIGM
Une fiche Dév Ens Sup est en relation avec cette fiche, consultez-la pour plus d'informations : Unitex
Description
Fonctionnalités générales

Ce système permet de construire des ressources linguistiques telles que des dictionnaires électroniques et des grammaires et de les utiliser pour effectuer des recherches complexes dans des textes et de construire des concordances.

Autres fonctionnalités
  • Traitement de l'ambiguïté lexicale par automates
  • Utilisation de tables de lexique-grammaire
Interopérabilité

Tous les formats utilisés sont décrits en détails dans le manuel d'utilisation.

Contexte d'utilisation dans mon laboratoire/service

Unitex est utilisé au laboratoire LIGM pour la construction et la maintenance de ressources linguistiques (dictionnaires et grammaires).
Il permet également d'exploiter ces ressources en les appliquant sur des textes, ce qui autorise la recherche d'expressions complexes et la construction de concordanciers.
Cet aspect du système est à la base de nombreuses applications, dont les plus importantes sont le repérage de séquences (par exemple, entités nommées), l'extraction d'informations, le filtrage et le routage de documents, etc.
Il est au centre du projet Infomagic : http://fr.wikipedia.org/wiki/Infomagic

Limitations, difficultés, fonctionnalités importantes non couvertes

Les versions ultérieures à la version 1.2 requièrent Java 1.6.

Environnement du logiciel
Plates-formes

Système multi-plateforme testé avec succès sur toutes les versions de Windows, ainsi que sous Linux, MacOS et Sparc.
Note : les versions <= 1.2 ne supportent pas Windows Vista.

Logiciels connexes
Environnement de développement
Type de structure associée au développement

Développement coopératif grâce à un serveur SVN. Le principal développeur est Sébastien Paumier (Université Paris-Est), et d'autres personnes collaborent au développement, en particulier à Paris-Est (Marne-la-Vallée), Münich, Louvain-la-Neuve, Tours, ainsi que dans certaines universités brésiliennes.

Eléments de pérennité

La combinaison logiciel libre+développement coopératif via SVN permet d'éviter une dépendance de l'auteur principal. De plus, les langages de programmation utilisés (C/C++ et Java) ont été choisis pour leur portabilité et leur stabilité d'utilisation dans le temps.

Références d'utilisateurs institutionnels

Utilisé pour la recherche dans une cinquantaine d'universités et centres de recherche, notamment :

Utilisé comme base de travail pour le projet Outilex : http://www.projet-plume.org/relier/outilex

Très utilisé à Louvain-la-Neuve, dans des projets industriels et de recherche :

Utilisé dans le projet Prolex à Tours : http://tln.li.univ-tours.fr/Tln_Unitex.html

Utilisé pour enseigner aux Universités de Munich, Tours, Paris 7, Algarve, Lisbonne, Belgrade....

La liste d'entreprises qui utilisent Unitex et d'autres collaborateurs institutionnels complètent ces informations.

Environnement utilisateur
Liste de diffusion ou de discussion, support et forums

unitex-users [at] univ-mlv [dot] fr

Documentation utilisateur

Manuel d'utilisation de la version 2.1 en anglais : http://igm.univ-mlv.fr/~unitex/UnitexManual2.1.pdf
Manuel d'utilisation de la version 2.0 en anglais : http://igm.univ-mlv.fr/~unitex/UnitexManual2.0.pdf
Manuel d'utilisation de la version 1.2 en français et anglais, plus une traduction partielle en portugais.

Contributions

Il y a une page web qui décrit la marche à suivre pour apporter une contribution linguistique ou informatique :
http://igm.univ-mlv.fr/~unitex/your_contribution.html