TXM
Fonctionnalités générales du logiciel
La plateforme TXM aide à construire et à analyser tout type de corpus textuel numérique éventuellement étiqueté et structuré. Elle est diffusée sous forme de logiciel Windows ou Linux et sous forme d'application web hébergée sur un serveur :
- Elle construit des sous-corpus à partir de différentes métadonnées (propriétés) des textes (eg. : date de publication, auteur, type de texte, thème)
- Elle construit des partitions à partir de ces propriétés permettant d'appliquer des calculs de contraste entre les textes ou entre groupes de textes
- Elle produit des concordances kwic à partir de recherches de motifs lexicaux complexes - construits à partir des propriétés des mots (eg. :
"un mot de lemme 'aimer' suivi à au plus de 2 mots d'un mot commençant par 'pouv'). Depuis chaque ligne de concordance, vous pouvez accéder à la page correspondante dans une édition HTML - Elle construit une édition HTML de base pour chaque texte du corpus ou intègre une édition tierce
- Elle calcule le vocabulaire d'ensemble d'un corpus ou la liste des valeurs attestées d'une propriété de mot donnée
- Elle construit des tableaux de fréquences croisant les mots et les textes
- Elle calcule la liste des mots apparaissant de façon préférentielle dans les mêmes contextes qu'un motif lexical complexe (cooccurrents statistiques)
- Elle calcule les mots, ou les propriétés de mots, particulièrement présents dans une partie du corpus (spécificités statistiques)
- Elle calcule des visualisations du corpus sous forme de cartographie de mots, de propriétés ou de textes (analyse factorielle des correspondances)
- Elle permet d'importer des ressources textuelles afin de construire un corpus provenant de diverses sources, ou directement, depuis n'importe quel texte copié dans le presse-papier. Elle intègre, par défaut, 9 modules d'importation de corpus différents (TXT, XML, XML/w, XML-TEI, XML-TXM, Alceste, Hyperbase, Transcriber+CSV, CNR+CSV)
- Elle intègre l'application automatique d'outils de traitement automatique de la langue (TAL) sur les textes. Elle est livrée avec un plugin de l'étiqueteur morphosyntaxique et lemmatiseur TreeTagger pour différentes langues (TreeTagger est à installer séparément pour des raisons de licence). Les résultats de cet outil sont accessibles dans la plateforme sous forme de propriétés de mots (eg. : mot "aime", étiquette morphosyntaxique VER:pres" - verbe au présent de l'indicatif, lemme "aimer")
- Elle exporte tous ses résultats au moins sous forme de texte brut ou au format CSV
- Elle est extensible par le biais de macros (notamment pour adapter les formats d'import)
La plateforme est enfin un environnement ouvert d'expérimentation de modèles statistiques développés en R en relation avec le moteur de recherche d'expressions CQL.