R.TeMiS

Fiche logiciel validé
  • Création ou MAJ importante : 10/06/13
  • Correction mineure : 22/09/13
  • Rédacteur de la fiche : Milan Bouchet-Valat - un des auteurs du logiciel - Laboratoire de sociologie quantitative (CREST-LSQ) (Centre de recherche en économie et statistique (CREST), OSC-Sciences Po et INED)
  • Relecteur(s) : Patrice Cacciuttolo (LEST)
    Bénédicte Garnier (INED - Service Méthodes Statistiques)
  • Responsable thématique : C FC (Inria)
Mots-clés
Pour aller plus loin
  • Mots-clés principaux : corpus

R.TeMiS : création et analyse de corpus de textes sous R

Une fiche Dév Ens Sup est en relation avec cette fiche, consultez-la pour plus d'informations : R.TeMiS
Description
Fonctionnalités générales

R.TeMiS (R Text Mining Solution) est un environnement graphique de travail sous R permettant de créer, manipuler et analyser des corpus de textes, qu'ils soient constitués d'articles de presse, de réponses à une question ouverte, d'entretiens ou encore de textes issus de la Toile. Il prend actuellement en charge les méthodes d'Analyse de données textuelles, tout en facilitant l'importation de corpus depuis des sources informatisées (Factiva, Twitter).

R.TeMiS a été conçu pour limiter les effets de « boîte noire » liés à l'utilisation de certains logiciels propriétaires dédiés à l'analyse de textes peu flexibles et dont les techniques utilisées ne sont pas toujours documentées. Il vise ainsi à favoriser la réflexivité dans l’usage sociologique des données textuelles.

Fonctions actuellement prises en charge :

  • Importation du corpus :
    • Fichiers texte brut (.txt) stockés dans un dossier.
    • Fichier tableur de divers types (voir ci-dessous).
    • Fichier XML et HTML Factiva.
    • Recherche Twitter.
  • Construction du corpus (i.e ensemble de documents) :
    • Découpage des textes longs en documents (i.e ensemble de termes).
    • Suppression optionnelle des chiffres, des mots vides et de la ponctuation.
    • Extraction optionnelle des radicaux des mots (racinisation)
    • Sélection de documents à partir de termes ou de variables.
    • Choix ou exclusion de certains termes.
    • Recodage d'une variable temporelle.
  • Statistiques descriptives sur les variables associées aux documents :
    • Tri à plat et tri croisé.
    • Évolution temporelle du nombre de documents.
  • Statistiques lexicales :
    • Nombre de mots, diversité du vocabulaire, nombre de hapax, longueur des mots.
    • Table de dissimilarité du vocabulaire.
    • Fréquence de termes.
    • Termes les plus caractéristiques de modalités d'une variable.
    • Termes co-occurrents.
    • Évolution temporelle des occurrences d'un terme.
  • Analyse des correspondances (sur tableau lexical entier ou agrégé).
  • Classification ascendante hiérarchique (sur tableau lexical entier ou à partir des axes de l'analyse des correspondances).
  • Toutes les fonctions produisent des graphiques (exportables dans une variété de formats) et les résultats sont
    facilement exportables dans un rapport au format HTML.
Interopérabilité

Les corpus peuvent être importés sous forme de textes bruts (.txt) ou de fichiers de type tableur dans de nombreux formats : CSV (valeurs séparées par des virgules), TSV (valeurs séparées par des tabulations), Open Document (LibreOffice et OpenOffice), Microsoft Excel, dBase, SPSS, SAS, Minitab et STATA.

Les graphiques peuvent être exportés dans les formats (image ou vectoriels) les plus courants, dont le PNG, le SVG, le PostScript et le WMF. Tous les formats ne sont pas disponibles dans tous les OS.

Contexte d'utilisation dans mon laboratoire/service

Bien que récent, ce logiciel a déjà été utilisé par des chercheurs de l'INED dans le cadre de formations universitaires. Il sera bientôt utilisé pour des études d'entretiens et pour d'autres cours. Son intérêt est de proposer un équivalent à des fonctions offertes dans des logiciels propriétaires fort coûteux, ne fonctionnant que sous Windows, et n'étant pas installables sur les postes d'étudiants ou de chercheurs étrangers.

Limitations, difficultés, fonctionnalités importantes non couvertes

Ne couvre pas exactement la méthode utilisée par le logiciel de statistique textuelle (Alceste) : voir dans ce cas le logiciel libre Iramuteq.

Un terme identifié comme mot vide ne correspond pas toujours à un mot-outil.

Le logiciel permet de visualiser la racinisation effectuée, mais il serait souhaitable de pouvoir la modifier si nécessaire. Le logiciel ne permet actuellement pas de créer un dictionnaire/thésaurus personnel, et ne prend pas en charge la lexémisation.

Environnement du logiciel
Logiciels connexes
  • R : intégré à R, R.TeMiS génère du code R directement visible, qui est modifiable et peut éventuellement être étendu
  • R Commander : R.TeMiS est un greffon pour R Commander
Autres logiciels aux fonctionnalités équivalentes
  • Iramuteq (licence GPL) : interface de R pour le traitement de textes et de questionnaires
  • DtmVic (gratuit) : traitement des enquêtes comportant des questions ouvertes
  • TXM (composants modulaires open-source) : plateforme combinant des techniques d'analyse de grands corpus de textes
  • Alceste (propriétaire)
  • Lexico (propriétaire)
  • Spad (propriétaire)
  • SAS (propriétaire)
  • NVivo (propriétaire)
Environnement de développement
Type de structure associée au développement

Les deux auteurs sont respectivement doctorant au Laboratoire de sociologie quantitative (LSQ-CREST) et maître de conférences en sociologie à Sciences Po Grenoble.

Eléments de pérennité

Contrairement aux logiciels propriétaires d'analyse textuelle, R.TeMiS réutilise au maximum les fonctions statistiques générales déjà développées dans R et dans ses paquets (importation et traitement des corpus, graphiques, séries temporelles, analyse des correspondances, classification...). L'interface est en grande partie fournie par le paquet R Commander. R.TeMiS bénéficie donc du travail de très nombreux chercheurs maîtrisant très bien les techniques utilisées, et n'a pas de raison de disparaître tant que l'écosystème R fonctionne.

Environnement utilisateur
Liste de diffusion ou de discussion, support et forums
Documentation utilisateur

Tutoriel en français

On peut noter la pauvreté des documents et tutoriels et le fait que l'aide intégrée est en anglais, mais une forte intuitivité du logiciel.

Divers (astuces, actualités, sécurité)

Il est possible de traiter des corpus en langues étrangères. Mais tous les documents d'un corpus doivent être dans la même langue.

Contributions