traitement de données

Traitement de données, analyste de données, classification de données...
Fiche logiciel validé
  • Création ou MAJ importante : 04/11/13
  • Correction mineure : 04/11/13
  • Rédacteur de la fiche : Pascal Mietlicki - Service informatique vice-rectorat de Nouvelle-Calédonie (Ministère de l'éducation nationale)
  • Relecteur(s) : Stéphane Deraco (DSI CNRS)
  • Responsable thématique : David Rousse (CNRS DSI)
Mots-clés

Talend Open Studio : solution d’intégration de données open source

Description
Fonctionnalités générales

Talend Open Studio for Data Integration est une solution d’intégration de données open source flexible et puissante. C'est un ETL (Extract Transform Load) open source basé sur Eclipse.

Il permet d'interagir avec les données de votre Système d'Information, les intégrer, les mettre en forme, les transformer, ...

L'interface générale vous permet de créer des "jobs" qui contiendront le workflow voulu, un workflow étant un ensemble d'activités qui s’enchaînent via l'utilisation de "composants". Comme dans un système standard d'entrée / sortie, vous avez des composants en entrée (input) et en sortie (output) qui vous permettent d'obtenir le résultat voulu (export CSV, envoi d'email pour indiquer les erreurs le cas échéant, etc). Ces composants s'interfacent entre eux via un ensemble d'"interactions" (linéaire, en cas d'erreur, en parallèle).

Un exemple typique est le fait de vouloir alimenter une base de données à partir d'autres bases tout en adaptant les données à votre convenance. Pour ce faire, vous créez un ou plusieurs "jobs", puis des composants d'entrée de base de données (tMysqlInput par exemple), puis vous récupérez le contenu de la table désirée pour laquelle vous transformez vos données (par exemple, passer d'un champ texte vers un champ date) via un composant de type tMap dont le résultat en sortie alimentera une autre base de données (tPostgresqlOutput par exemple).

Une fois terminé, il ne vous reste plus qu'à exécuter le job soit en mode débogage soit en mode normal, ce dernier étant évidemment plus rapide, avec les variables d'entrée voulues (nom de la base, nom du serveur, autres paramètres) en utilisant des variables de "contextes". En effet, vos "jobs" peuvent être paramétrés, et vous pouvez également avoir différents types de "contextes" (par exemple dév, pré-prod, prod).

Une des fonctionnalités les plus intéressantes est le fait de pouvoir générer des scripts en Perl ou Java pour exécuter vos "jobs" directement sur vos serveurs. Ainsi vous pouvez les exporter et les planifier pour s'exécuter aux heures voulues. Vous pouvez même créer un "job" qui sera en écoute d'une modification (par exemple modification d'un fichier) et qui sera alors exécuté lorsque cet événement surviendra.

Autres fonctionnalités

Talend Open Studio vous permet de créer et de générer toute la documentation de votre projet. Il utilise, pour cela, le formalisme UML. Vous pouvez indiquer des commentaires, des informations sur chaque composant de votre projet.

Etant basé sur Eclipse, vous pouvez aussi intégrer votre propre code à votre projet. Vous pouvez également y intégrer des classes ou objets ce qui vous permet de les utiliser sur plusieurs jobs différents.

Talend Open Studio permet également de traiter des problématiques proches de l'intégration des données, comme des projets de MDM (Master Data Management) et de qualité de données.

Interopérabilité

Compatible avec quasiment tous les standards du marché, une liste est visible sur :
http://www.talendforge.org/components/

Si, toutefois, un composant n'existait pas, vous pouvez le créer vous-même et le proposer à la communauté (http://www.talendforge.org).

Contexte d'utilisation dans mon laboratoire/service
  • Nous l'utilisons comme un générateur de script. Le grand atout de Talend Open Studio est de pouvoir générer des scripts très facilement, son interface est intuitive et vous permet d'effectuer très rapidement ce que vous auriez mis des semaines à coder.
  • Exemple typique : alimentation d'une base de données à partir de plusieurs bases de données différentes, création de Web Services, export LDIF paramétré du LDAP, enchaînement de tâches, création d'une IHM Java pour alimenter une base depuis un fichier CSV, ...
Limitations, difficultés, fonctionnalités importantes non couvertes
  • En cas de difficultés, il y a pléthore d'informations sur le Web :
    http://www.talendforge.org
    https://help.talend.com

  • Talend étant une entreprise française, vous n'aurez donc pas de difficultés à trouver des informations dans la langue de Molière.

Environnement du logiciel
Plates-formes

Logiciel Java

Logiciels connexes

Eclipse

Autres logiciels aux fonctionnalités équivalentes
Environnement de développement
Type de structure associée au développement

Éditeur professionnel, communauté associée.

Eléments de pérennité

Basé sur Eclipse, forte communauté d'utilisateurs et de contributeurs. De plus, Talend est une entreprise en expansion et propose tout un ensemble de services tiers, autour de l'ESB en particulier (services qui, si cela vous intéresse, sont payants).

Références d'utilisateurs institutionnels

Entre autres utilisateurs institutionnels, on peut citer :
- L'Université Toulouse 1.
- L'INRA.

Environnement utilisateur
Liste de diffusion ou de discussion, support et forums
Documentation utilisateur
Divers (astuces, actualités, sécurité)
  • Une multitude de composants existent :
    http://www.talendforge.org/components/

  • Un projet intéressant à créer serait d'avoir un composant IHM qui permettrait d'exporter une fonctionnalité présente sur Talend Open Studio (lorsque le job est exécuté depuis Open Studio), mais actuellement non présente quand le job est exporté et exécuté, qui est de renseigner les paramètres d'entrée du job. Ce composant afficherait une IHM dynamique permettant à l'utilisateur de saisir ces paramètres (une fenêtre avec les différents types de variables en entrée tel qu'un calendrier pour les dates, une zone de saisie pour le texte, un champ adresse IP ou DNS pour le serveur, etc).

Contributions

Principalement via Talend Exchange (informations sur http://www.talendforge.org/) :
http://www.talendforge.org/exchange/

Fiche dév Ens Sup - Recherche
  • Création ou MAJ importante : 11/10/13
  • Correction mineure : 11/10/13
Mots-clés

Plade : plate-forme de recherche de similarité sur du code source

Ce logiciel a été développé (ou est en cours de développement) dans la communauté de l'Enseignement Supérieur et de la Recherche. Son état peut être variable (cf champs ci-dessous) donc sans garantie de bon fonctionnement.
  • Site web
  • Système : UNIX-like
  • Version actuelle : version en préparation
  • Licence(s) : GPL - Affero GPL v3
  • Etat : en développement
  • Concepteur(s) : Michel Chilowicz (LIGM)
  • Contact concepteur(s) : michel.chilowicz @ univ-mlv.fr
  • Laboratoire(s), service(s)... : LIGM

 

Fonctionnalités générales du logiciel

Plade est une plate-forme de recherche de correspondances de code source similaire développée en Java et Python. La recherche de similarité a des applications variées telles que la réorganisation du code au sein d'un projet par factorisation de redondances ou la mise en évidence d'opérations de copie légitime ou non entre différents projets. Dans l'hypothèse d'une copie non légitime, des opérations d'édition entre le code original et sa copie peuvent être présentes. Plade cherche à identifier les portions de code présentant une similarité exacte ou approchée suite à des opérations d'édition.

Trois axes sont actuellement développés par Plade :

  1. L'usage de représentations abstraites et transformées pour le code source. Il s'agit par cette première étape de gommer certaines opérations d'édition (modification de formatage, renommage d'identificateurs...). Plade propose des représentations par séquences de lexèmes ou arbres de syntaxe (avec intégration de graphe d'appel), ces représentations pouvant être caractérisées par des niveaux d'abstraction variables. Elles sont obtenues à partir d'analyseurs lexicaux et syntaxiques externes (Plade gère actuellement les langages C++ et Java).

  2. L'utilisation de méthodes algorithmiques pour localiser et caractériser des similarités sur ces représentations. Plade ne s'oriente pas vers des méthodes de comparaison extensive de paires déterminant des chemins d'édition entre séquences ou arbres. L'approche privilégiée s'oriente vers une technique d'indexation d'empreintes de séquences ou sous-arbres avec différents profils d'abstraction pour ensuite réaliser des requêtes sur ces bases constituées. Les éléments locaux quasi-similaires retrouvés peuvent ensuite être consolidés pour former des macro-similarités. Une approche permettant la recherche de facteurs similaires sur des séquences de lexèmes par indexation de suffixe est notamment employée : elle permet de lier des groupes de correspondances avec prise en compte des relations de chevauchement. Une application pratique est la factorisation de graphes d'appel d'un jeu de projets en un graphe d'appel commun ; ce graphe peut comprendre des fonctions factorisées issues de plusieurs projets ce qui révèle la copie de code.

  3. La présentation des résultats de similarité trouvés à destination d'un utilisateur humain. Plade permet d'évaluer et filtrer les correspondances trouvées selon différents critères structurels, contextuels et statistiques. Une interface graphique basique de visualisation est proposée permettant de replacer dans leur contexte les similarités. Un service web (Tartan) permet de transmettre des projets, soumettre des travaux d'indexation et de recherche de similarité et récupérer leur résultat.

Plade est architecturé autour des modules suivants :

  • Complade (companion for Plade) qui propose une bibliothèque Java implantant les structures et algorithmes afférents couramment utilisés par Plade (graphes génériques et plus spécifiquement graphes de facteurs répétés, tables d'indexation, etc.).
  • Plade-core qui implante les primitives de définition et manipulation des représentations issues du code source et de modélisation et d'évaluation des correspondances.
  • Plade-parsers proposant des exemples de représentations concrètes de code source sous la forme d'arbres de syntaxe (augmentés par des graphes d'appel de fonctions) et de séquences de lexèmes pour les langages Java et C++. Ce module peut être étendu afin de supporter facilement de nouveaux langages.
  • Plade-fact qui s'emploie à fusionner des graphes d'appel de projets en graphe commun avec factorisation des portions de code en fonctions partagées (outlining permissif).
  • Plade-fingertree qui se préoccupe des problématiques d'indexation adaptative et parcimonieuse des représentations (séquences et arbres) à plusieurs échelles et à l'aide de plusieurs niveaux d'abstraction.
  • Plade-cons qui s'intéresse à la consolidation de correspondances locales en macro-similarités.
  • Plade-gui qui propose une interface graphique Swing de visualisation et évaluation de jeux de correspondances.

Ces différents modules principalement développés en Java sont organisés autour de modules d'interfaçage en Python (Pyplade) permettant la réalisation rapide de scripts afin d'assurer l'indexation de code et la recherche de similarité en combinant les différentes approches proposées. Une implantation de service web (Tartan) reposant sur la plate-forme Plade est également en cours de développement.

Plade est encore actuellement en phase de développement interne ; une version sous licence libre Affero GPL sera prochainement accessible en ligne.

Contexte d’utilisation du logiciel

Plade a été initié pendant la thèse de doctorat de l'auteur, et a été principalement testé en interne pour retrouver des similarités sur du code source issu de projets soumis par des étudiants.

Publications liées au logiciel
Fiche dév Ens Sup - Recherche
  • Création ou MAJ importante : 30/09/13
  • Correction mineure : 30/09/13
Mots-clés

Gramlab : plate-forme d'outils collaboratifs pour des traitements linguistiques

Ce logiciel a été développé (ou est en cours de développement) dans la communauté de l'Enseignement Supérieur et de la Recherche. Son état peut être variable (cf champs ci-dessous) donc sans garantie de bon fonctionnement.
  • Site web
  • Système : UNIX-like, Windows, MacOS X
  • Licence(s) : Apache License - v 2.0
  • Etat : diffusé, stable
  • Support : maintenu, développement en cours
  • Concepteur(s) : Consortium Gramlab
  • Contact concepteur(s) : gramlab@kwaga.com ou www.gramlab.org/en/programme-beta.html
  • Laboratoire(s), service(s)... : LIGM, Actimos, APIL, Aproged, CENTAL (Université catholique de Louvain), Kwaga, Lingway, Qwam Content Intelligence

 

Fonctionnalités générales du logiciel

Le système GramLab étend Unitex pour offrir aux équipes des outils facilitant le travail collaboratif (partage de ressources, suivi de versions, etc.) dans les traitements linguistiques. Ces outils reposent sur des technologies de type « automates à états finis » et incorporent des ressources linguistiques à large couverture, disponibles dans de nombreuses langues.

Les packages qui composent Gramlab sont disponibles sur la forge Google :

Les sources d'Unitex sont disponibles sur le site à l'Université de Marne-la-Vallée : http://igm.univ-mlv.fr/~unitex/, voir aussi la fiche PLUME sur Unitex.

Outils et fonctionnalités

  • Intégrabilité dans une chaîne UIMA (Unstructured Information Management Architecture)
  • Gestion de versions des ressources linguistiques
  • Outils de maintenance des grammaires
  • Outils de partage de ressources linguistiques
  • Gestion de projets
  • Auto-graph : création automatique de graphes de grammaires
  • Plate-forme multilingue
Contexte d’utilisation du logiciel

Ce système a été développé pour le projet FEDER Gramlab et il s'agit d'un projet labellisé CapDigital.

La mise à disposition de GramLab/Unitex sous la forme d'un annotateur UIMA donne la possibilité à des informaticiens non spécialistes du Traitement Automatique des Langues (TAL) d'ajouter une composante linguistique au sein d'une chaîne de traitements.

Pour faciliter la prise en main par les développeurs de l’annotateur Unitex-UIMA, un exemple d’intégration est fourni (https://code.google.com/p/gramlab-unitex-cpp-annot...).

Publications liées au logiciel
Fiche logiciel validé
  • Création ou MAJ importante : 30/09/13
  • Correction mineure : 30/09/13
Mots-clés

InterProScan : identification dans un jeu de séquences des signatures protéiques d'intérêt

Description
Fonctionnalités générales

InterProScan est un environnement logiciel qui permet d'identifier dans un jeu de séquences des signatures protéiques d'intérêt en scannant des banques de motifs et signatures de référence et en utilisant des algorithmes détectant des biais de composition (SEG, TMHMM, Signal-P).

En utilisant plusieurs méthodes de reconnaissance, il effectue des recherches de signatures protéiques dans 11 bases de données de motifs ou domaines protéiques telles que PROSITE, PRINTS, Pfam, ProDom, SMART ou TIGRFAMMs. Chacune de ces bases de références utilisent des méthodes différentes d'identification (HMM, profils, etc.) et de manière plus ou moins automatique.

Usage

Un site WEB est mis à la disposition de la communauté par l'EBI, mais cette fiche se penchera sur le retour d'expérience lié au déploiement d'un environnement sur une plate-forme, permettant de traiter de larges jeux de données (ex : 100 000 séquences).

InterProScan s'utilise aussi via un script frontal qui se charge de lancer les différentes comparaisons. Ces traitements peuvent s’exécuter sur un cluster. La parallélisation des traitements s'effectuera alors en deux étapes

  • tout d'abord par le découpage en sous jeu de données ("chunk") des séquences dont la taille sera définie par l'administrateur,
  • et par l’exécution en parallèle des différentes recherches  (une quinzaine dont par exemple hmmer sur la banque tigrfams) pour chaque sous jeu de données.

InterProScan est capable de traiter des séquences nucléiques et protéiques au format FASTA (multiple). Pour les séquences nucléiques, une traduction selon les 6 phases de lecture est automatiquement effectuée.

Exemple de ligne de commande

iprscan -cli -i mydataset.fasta -email myemail@mydomain -seqtype n -iprlookup -goterms -o mydataset.out -verbose

Fichiers résultats

Interproscan génère des fichiers de sorties pour chaque traitement sur les différents chunks. Un post traitement permet de filtrer et corriger certains hits. Au final, un fichier merged.raw est généré pour chaque chunk. Enfin, Interproscan concatène l'ensemble de ces résultats en un seul fichier. Il existe un fichier résultat par comparaison lancée, ainsi qu'un fichier de synthèse. Un jeu de test permet aussi de vérifier que l'outil fonctionne correctement en local.

Autres fonctionnalités

Le fichier RAW peut etre converti en divers formats (xml|ebixml|raw|html|txt|gff3) via le script converter.pl fournit dans la distribution.

Interopérabilité
  • Connexion aux environnements de calcul de type SGE 6.x, LSF et PBS.

  • Utilisation de la suite BioMaj pour mettre à jour automatiquement les banques de données associées.

  • Le site de l'EBI propose des accès Web Services (SOAP & REST).

Contexte d'utilisation dans mon laboratoire/service

InterProScan est principalement utilisé pour des traitements automatiques sur de gros volumes de séquences d'intérêt.
Les résultats donnent une information factuelle (présence/absence de domaines/sites) permettant l'annotation de protéomes. Le couplage avec la GeneOntologie ainsi que la structuration en arbre des domaines/familles InterPro permet de générer des annotation fonctionnelles synthétiques.

Limitations, difficultés, fonctionnalités importantes non couvertes
  • L'installation nécessite de disposer d'un environnement de type plate-forme.

  • La mise à jour des banques implique également une indexation à chaque miuse à jour

  • La version 5 devrait lever certains verrous en rendant l'application plus modulaire et intégrable à des pipelines et traitement annexes.

Environnement du logiciel
Plates-formes

Environnement Linux disposant du langage PERL.

Logiciels connexes
Environnement de développement
Type de structure associée au développement

Développement opéré par l'EBI.

Eléments de pérennité
  • Logiciel très utilisé par la communauté.

  • Correctifs et évolutions fréquents.

  • Banques de données mises à jour fréquemment.

Références d'utilisateurs institutionnels
Environnement utilisateur
Liste de diffusion ou de discussion, support et forums
Documentation utilisateur
Fiche dév Ens Sup - Recherche
  • Création ou MAJ importante : 22/09/13
  • Correction mineure : 22/09/13
Mots-clés

R.TeMiS : création et analyse de corpus de textes sous R

Ce logiciel a été développé (ou est en cours de développement) dans la communauté de l'Enseignement Supérieur et de la Recherche. Son état peut être variable (cf champs ci-dessous) donc sans garantie de bon fonctionnement.
  • Site web
  • Système : UNIX-like, Windows, MacOS X
  • Version actuelle : 0.6.2 - 27-08-2013
  • Licence(s) : GPL
  • Etat : diffusé, stable
  • Support : maintenu, développement en cours
  • Concepteur(s) : Milan Bouchet-Valat et Gilles Bastin
  • Contact concepteur(s) : nalimilan@club.fr
  • Laboratoire(s), service(s)... : INED, LSQ-CREST, OSC, PACTE

 

Une fiche logiciel décrit plus en détail ce développement, consultez la pour plus d’informations : R.TeMiS
Fonctionnalités générales du logiciel

R.TeMiS (R Text Mining Solution) est un environnement graphique de travail sous R permettant de créer, manipuler et analyser des corpus de textes, qu'ils soient constitués d'articles de presse, de réponses à une question ouverte, d'entretiens ou encore de textes issus de la Toile. Il prend actuellement en charge les méthodes d'analyse de données textuelles, tout en facilitant l'importation de corpus depuis des sources informatisées (Factiva, Twitter).

Contexte d’utilisation du logiciel

Utilisé par des chercheurs de diverses institutions mais aussi dans le cadre d'enseignements (Université Paris VII - Diderot et ENSAI) et de l'encadrement de mémoires d'étudiants (Sciences Po Grenoble).

Publications liées au logiciel

Bouchet-Valat, Milan ; Bastin, Gilles, « RcmdrPlugin.temis, a Graphical Integrated Text Mining Solution in R », dans The R Journal, 5 (1), 2013, p. 188-196. article

Fiche dév Ens Sup - Recherche
  • Création ou MAJ importante : 13/09/13
  • Correction mineure : 13/09/13
Mots-clés

Ibex : bibliothèque numérique C++ pour l'arithmétique d'intervalles et la programmation par contraintes

Ce logiciel a été développé (ou est en cours de développement) dans la communauté de l'Enseignement Supérieur et de la Recherche. Son état peut être variable (cf champs ci-dessous) donc sans garantie de bon fonctionnement.
  • Site web
  • Système : UNIX-like, Windows, MacOS X
  • Version actuelle : 2.0.9 - 28/08/2013
  • Licence(s) : LGPL - v3
  • Etat : diffusé en beta
  • Support : maintenu, développement en cours
  • Concepteur(s) : équipe d'Ibex
  • Contact concepteur(s) : gilles.chabert @ mines-nantes.fr
  • Laboratoire(s), service(s)... : Lab-STICC, LIGM, LINA, LIRMM, OSM, Universidad Técnica Federico Santa María (Chile)

 

Fonctionnalités générales du logiciel

Cette bibliothèque C++ s'utilise pour résoudre une variété de problèmes pouvant se formuler de la façon suivante :

Trouver une caractérisation fiable en boîtes (produits cartésiens d'intervalles) d'ensembles définis implicitement par contraintes.

L'adjectif "fiable" signifie que toutes les sources d'imprécision doivent être controlées :

  • approximation des nombres réels par réels à virgule flottante,
  • erreurs d'arrondi,
  • troncatures de linéarisation,
  • incertitudes des paramètres du modèle,
  • bruit de mesure,
  • ...
Contexte d’utilisation du logiciel

Outil de recherche en programmation par contraintes.

Publications liées au logiciel
Fiche dév Ens Sup - Recherche
  • Création ou MAJ importante : 13/09/13
  • Correction mineure : 13/09/13
Mots-clés

Norm_Est : estimation de normales de nuage de points

Ce logiciel a été développé (ou est en cours de développement) dans la communauté de l'Enseignement Supérieur et de la Recherche. Son état peut être variable (cf champs ci-dessous) donc sans garantie de bon fonctionnement.
  • Site web
  • Système : UNIX-like, Windows, MacOS X
  • Version actuelle : 20130813 - 13/08/2013
  • Licence(s) : GPL - v3
  • Etat : diffusé, stable
  • Support : maintenu, sans développement en cours
  • Concepteur(s) : Alexandre Boulc'h
  • Contact concepteur(s) : boulc-ha @ imagine.enpc.fr
  • Laboratoire(s), service(s)... : LIGM

 

Fonctionnalités générales du logiciel

Ce logiciel permet de calculer la normale à la surface sous-jacente en chaque point d'un nuage donné. L'algorithme ne lisse pas au niveau des angles tout en étant d'une rapidité comparable à l'état de l'art.

Contexte d’utilisation du logiciel

Logiciel utilisé pour obtenir des résultats de la publication [1], voir aussi les transparents de la présentation (sur le site web).

Publications liées au logiciel

[1] Alexandre Boulc'h et Renaud Marlet, Fast and Robust Normal Estimation for Point Clouds with Sharp Features,
Symposium of Geometry Processing 2012, Tallin, Estonia.

Fiche dév Ens Sup - Recherche
  • Création ou MAJ importante : 11/09/13
  • Correction mineure : 11/09/13
Mots-clés

Séparation de signaux : génération et séparation de signaux numériques

Ce logiciel a été développé (ou est en cours de développement) dans la communauté de l'Enseignement Supérieur et de la Recherche. Son état peut être variable (cf champs ci-dessous) donc sans garantie de bon fonctionnement.
  • Système : UNIX-like, Windows, MacOS X
  • Version actuelle : 2012
  • Licence(s) : Licence propriétaire
  • Etat : utilisé en interne
  • Support : non maintenu, pas de développement en cours
  • Concepteur(s) : Elena Florian, Antoine Chevreuil, Philippe Loubaton.
  • Contact concepteur(s) : Philippe.Loubaton @ univ-mlv.fr
  • Laboratoire(s), service(s)... : LIGM

 

Fonctionnalités générales du logiciel

Le but du logiciel est de générer divers types de signaux utilisés par les systèmes de communications numériques usuels et de simuler leur propagation dans un canal de propagation multi-antennes. Le logiciel implémente également différents algorithmes de séparation aveugle de sources permettant de re-générer leurs contributions respectives à partir du signal reçu sur le réseau d'antennes.

Contexte d’utilisation du logiciel

Logiciel fait dans le cadre du contrat Aintercom avec des partenaires industriels, ce logiciel n'est pas diffusé.

Publications liées au logiciel
  • Elena Florian, Antoine Chevreuil, Philippe Loubaton. Blind source separation of convolutive mixtures of non circular linearly modulated signals with unknown baud rates. Signal Processing, 2012, 92, pp. 715-726.

  • P. Jallon, Antoine Chevreuil, Philippe Loubaton. Separation of digital communication mixtures with the CMA: case of various unknown baud rates. Signal Processing, 2010, 90 (9), pp. 2633-2647.

Fiche logiciel validé
  • Création ou MAJ importante : 10/06/13
  • Correction mineure : 22/09/13
Mots-clés
Pour aller plus loin
  • Mots-clés principaux : corpus

R.TeMiS : création et analyse de corpus de textes sous R

Une fiche Dév Ens Sup est en relation avec cette fiche, consultez-la pour plus d'informations : R.TeMiS
Description
Fonctionnalités générales

R.TeMiS (R Text Mining Solution) est un environnement graphique de travail sous R permettant de créer, manipuler et analyser des corpus de textes, qu'ils soient constitués d'articles de presse, de réponses à une question ouverte, d'entretiens ou encore de textes issus de la Toile. Il prend actuellement en charge les méthodes d'Analyse de données textuelles, tout en facilitant l'importation de corpus depuis des sources informatisées (Factiva, Twitter).

R.TeMiS a été conçu pour limiter les effets de « boîte noire » liés à l'utilisation de certains logiciels propriétaires dédiés à l'analyse de textes peu flexibles et dont les techniques utilisées ne sont pas toujours documentées. Il vise ainsi à favoriser la réflexivité dans l’usage sociologique des données textuelles.

Fonctions actuellement prises en charge :

  • Importation du corpus :
    • Fichiers texte brut (.txt) stockés dans un dossier.
    • Fichier tableur de divers types (voir ci-dessous).
    • Fichier XML et HTML Factiva.
    • Recherche Twitter.
  • Construction du corpus (i.e ensemble de documents) :
    • Découpage des textes longs en documents (i.e ensemble de termes).
    • Suppression optionnelle des chiffres, des mots vides et de la ponctuation.
    • Extraction optionnelle des radicaux des mots (racinisation)
    • Sélection de documents à partir de termes ou de variables.
    • Choix ou exclusion de certains termes.
    • Recodage d'une variable temporelle.
  • Statistiques descriptives sur les variables associées aux documents :
    • Tri à plat et tri croisé.
    • Évolution temporelle du nombre de documents.
  • Statistiques lexicales :
    • Nombre de mots, diversité du vocabulaire, nombre de hapax, longueur des mots.
    • Table de dissimilarité du vocabulaire.
    • Fréquence de termes.
    • Termes les plus caractéristiques de modalités d'une variable.
    • Termes co-occurrents.
    • Évolution temporelle des occurrences d'un terme.
  • Analyse des correspondances (sur tableau lexical entier ou agrégé).
  • Classification ascendante hiérarchique (sur tableau lexical entier ou à partir des axes de l'analyse des correspondances).
  • Toutes les fonctions produisent des graphiques (exportables dans une variété de formats) et les résultats sont
    facilement exportables dans un rapport au format HTML.
Interopérabilité

Les corpus peuvent être importés sous forme de textes bruts (.txt) ou de fichiers de type tableur dans de nombreux formats : CSV (valeurs séparées par des virgules), TSV (valeurs séparées par des tabulations), Open Document (LibreOffice et OpenOffice), Microsoft Excel, dBase, SPSS, SAS, Minitab et STATA.

Les graphiques peuvent être exportés dans les formats (image ou vectoriels) les plus courants, dont le PNG, le SVG, le PostScript et le WMF. Tous les formats ne sont pas disponibles dans tous les OS.

Contexte d'utilisation dans mon laboratoire/service

Bien que récent, ce logiciel a déjà été utilisé par des chercheurs de l'INED dans le cadre de formations universitaires. Il sera bientôt utilisé pour des études d'entretiens et pour d'autres cours. Son intérêt est de proposer un équivalent à des fonctions offertes dans des logiciels propriétaires fort coûteux, ne fonctionnant que sous Windows, et n'étant pas installables sur les postes d'étudiants ou de chercheurs étrangers.

Limitations, difficultés, fonctionnalités importantes non couvertes

Ne couvre pas exactement la méthode utilisée par le logiciel de statistique textuelle (Alceste) : voir dans ce cas le logiciel libre Iramuteq.

Un terme identifié comme mot vide ne correspond pas toujours à un mot-outil.

Le logiciel permet de visualiser la racinisation effectuée, mais il serait souhaitable de pouvoir la modifier si nécessaire. Le logiciel ne permet actuellement pas de créer un dictionnaire/thésaurus personnel, et ne prend pas en charge la lexémisation.

Environnement du logiciel
Logiciels connexes
  • R : intégré à R, R.TeMiS génère du code R directement visible, qui est modifiable et peut éventuellement être étendu
  • R Commander : R.TeMiS est un greffon pour R Commander
Autres logiciels aux fonctionnalités équivalentes
  • Iramuteq (licence GPL) : interface de R pour le traitement de textes et de questionnaires
  • DtmVic (gratuit) : traitement des enquêtes comportant des questions ouvertes
  • TXM (composants modulaires open-source) : plateforme combinant des techniques d'analyse de grands corpus de textes
  • Alceste (propriétaire)
  • Lexico (propriétaire)
  • Spad (propriétaire)
  • SAS (propriétaire)
  • NVivo (propriétaire)
Environnement de développement
Type de structure associée au développement

Les deux auteurs sont respectivement doctorant au Laboratoire de sociologie quantitative (LSQ-CREST) et maître de conférences en sociologie à Sciences Po Grenoble.

Eléments de pérennité

Contrairement aux logiciels propriétaires d'analyse textuelle, R.TeMiS réutilise au maximum les fonctions statistiques générales déjà développées dans R et dans ses paquets (importation et traitement des corpus, graphiques, séries temporelles, analyse des correspondances, classification...). L'interface est en grande partie fournie par le paquet R Commander. R.TeMiS bénéficie donc du travail de très nombreux chercheurs maîtrisant très bien les techniques utilisées, et n'a pas de raison de disparaître tant que l'écosystème R fonctionne.

Environnement utilisateur
Liste de diffusion ou de discussion, support et forums
Documentation utilisateur

Tutoriel en français

On peut noter la pauvreté des documents et tutoriels et le fait que l'aide intégrée est en anglais, mais une forte intuitivité du logiciel.

Divers (astuces, actualités, sécurité)

Il est possible de traiter des corpus en langues étrangères. Mais tous les documents d'un corpus doivent être dans la même langue.

Contributions
Fiche dév Ens Sup - Recherche
  • Création ou MAJ importante : 06/06/13
  • Correction mineure : 24/06/13
  • Auteur de la fiche : Eric Hivon (IAP)
  • Responsable thématique : Dirk Hoffmann (Centre de Physique des Particules de Marseille (CPPM-IN2P3))

HEALPix : analyse de données, simulation et visualisation sur la sphère

Ce logiciel a été développé (ou est en cours de développement) dans la communauté de l'Enseignement Supérieur et de la Recherche. Son état peut être variable (cf champs ci-dessous) donc sans garantie de bon fonctionnement.
  • Site web
  • Système : UNIX-like, Windows, MacOS X
  • Version actuelle : 3.11 - avril 2013
  • Licence(s) : GPL - GPLv2
  • Etat : diffusé, stable
  • Support : maintenu, développement en cours
  • Concepteur(s) : Eric Hivon; Martin Reinecke; Krzysztof M. Gorski; Anthony J. Banday; Benjamin D. Wandelt; Emmanuel Joliet; William O'Mullane; Cyrille Rosset; Andrea Zonca
  • Contact concepteur(s) : hivon at iap.fr
  • Laboratoire(s), service(s)... : APC, IAP, IRAP, Labo à l'étranger, MPA (Garching, Allemagne), Caltech (Pasadena, CA,Etats-Unis), TAC (Copenhague, Danemark), ESAC (Madrid, Espagne), JPL (Pasadena, CA, Etats-Unis), ESO (Garching, Allemagne)

 

Fonctionnalités générales du logiciel

Le logiciel HEALPix met en œuvre la pixellisation de la sphère HEALPix (Hierarchical Equal Area iso-Latitude Pixelation ou pixellisation hiérarchique iso-latitude de surface égale). Initialement développés pour la simulation et l'analyse des observations du satellite européen Planck (dédié à l'étude du fond diffus cosmologique (ou CMB) dont les résultats ont été livrés en mars 2013), cette pixellisation et ce logiciel, sont devenus un standard dans l'analyse et la simulation de données sur la sphère, y compris le satellite WMAP de la NASA pour l'observation du CMB, et l'observatoire Pierre Auger (dédié à l'étude des rayons cosmiques de très haute énergie), et sont utilisés pour d'autres études astrophysiques et géologiques.

Spécificités de la pixellisation

A une résolution donnée, tous les pixels HEALPix ont la même surface, même si leur forme diffère légèrement. Le caractère hiérarchique de la pixellisation permet de passer à la résolution supérieure en divisant chaque pixel en 4 sous-pixels de même surface. Cette propriété permet d'effectuer efficacement et rapidement les opérations de dégradation ou d'amélioration en résolution.

L'arrangement en cercles de latitude constante des pixels permet un calcul extrêmement efficace des harmoniques sphériques réduisant le nombre d’opérations nécessaires pour une synthèse ou une analyse d'une carte de Npix pixels jusqu'au multipôle Lmax de Npix Lmax2 à Npix½ Lmax2.

Fonctionnalités du logiciel

Le logiciel HEALPix permet la représentation de données sur la sphère, et d'effectuer des analyses ou simulations de ces cartes en harmoniques sphériques (scalaires ou spinnées) ainsi que différents types d'analyses statistiques et de manipulations. Les entrées et sorties des données se font par des fichiers FITS. Sont par exemple possibles :

  • la génération de cartes aléatoires (gaussiennes ou pas) à partir d'un spectre de puissance angulaire,
  • le calcul du spectre de puissance angulaire (ou fonction de corrélation angulaire) d'une carte,
  • le filtrage spectral arbitraire d'une carte sur la sphère,
  • la pixellisation de la sphere et la manipulation des pixels jusqu'à des tailles de pixels de 0.4 milliarcsecond (ce qui équivaudrait à 3.5 1018 pixels sur la sphere),
  • l'application d'un filtre médian sur une carte,
  • l'identification des extrema locaux d'une carte,
  • la recherche de tous les pixels dans une région donnée (disque, triangle, polygone, ...),
  • la manipulation de masques binaires afin d'identifier les 'trous' pour les boucher, ou d'apodiser les masques,
  • la visualisation des cartes HEALPix, que ce soit sur tout le ciel (projections de Mollweide et orthographique) ou une partie du ciel (projections gnomonique et cartesienne),
  • la sortie des cartes produites au format Google Map/Google Sky et DomeMaster.

Les opérations les plus coûteuses (en particulier le calcul des Harmoniques Sphériques) ont été particulièrement optimisées et sont parallelisées pour les architectures à mémoire partagée (grace à OpenMP).

Contenu du logiciel

Le logiciel est disponible sous forme de codes sources en C, C++, Fortran90, IDL/GDL, java et python. Dans chacun de ces languages sont disponibles

  • une librairie d'outils (subroutines, fonctions, procédures, modules, classes, ... suivant les langages) couvrant l'ensemble des fonctionnalités décrites ci-dessus, ainsi que certaines tâches ancillaires (eg, lecture de fichiers de parametres),
  • un jeu d'applications "prêtes à servir" basées sur cette librairie et mettant chacune en oeuvre une des fonctionnalités majeures d'HEALPix (génération ou analyse de cartes, filtrages, changements de résolution, visualisation, ...). Ces applications ont généralement pour interface un dialogue interactif ou un simple fichier ASCII de parametres. Les codes sources de ces applications peuvent servir de point de départ aux développements spécifiques des utilisateurs,
  • une documentation en PDF et/ou HTML décrivant en détail l'interface de programmation, le fonctionnement et les limitations de chaque outil et de chaque application.

Enfin des outils (script interactif et Makefile) sont fournis pour prendre en charge et faciliter la compilation et l'installation d'une ou plusieurs des différentes librairies et applications, pour différentes combinaisons de materiels informatiques, systemes d'exploitations, compilateurs, ...

Developpements exterieurs

Deux types de développements exterieurs (définis comme ne faisant pas (encore) partie du logiciel HEALPix officiel décrit ci-dessus) peuvent etre distingués:

  • additions de nouvelles fonctionnalités: par exemple de nombreux outils d'analyses basés sur les fonctionnelles de Minkowski, les ondelettes (iSAP, MRS, S2LET, SphereLab) ou l'identification de structure (DisPerSE) developpés par d'autres équipes de recherche peuvent être appliqués à des données pixellisées avec HEALPix,
  • des traductions ou re-implementations d'une partie des fonctionnalités existantes: par exemple en Matlab/Octave (Mealpix) et Yorick (YHeal), voir liste (presque) complète.
Contexte d’utilisation du logiciel

Logiciel utilisé pour l'analyse des données du satellite Planck.

Format supporté par l'outil de visualisation Aladin pour la représentation de données astronomiques étendues sur le ciel.

Publications liées au logiciel

Syndiquer le contenu