statistiques

Statistiques
Fiche dév Ens Sup - Recherche
  • Création ou MAJ importante : 22/09/13
  • Correction mineure : 22/09/13
Mots-clés

R.TeMiS : création et analyse de corpus de textes sous R

Ce logiciel a été développé (ou est en cours de développement) dans la communauté de l'Enseignement Supérieur et de la Recherche. Son état peut être variable (cf champs ci-dessous) donc sans garantie de bon fonctionnement.
  • Site web
  • Système : UNIX-like, Windows, MacOS X
  • Version actuelle : 0.6.2 - 27-08-2013
  • Licence(s) : GPL
  • Etat : diffusé, stable
  • Support : maintenu, développement en cours
  • Concepteur(s) : Milan Bouchet-Valat et Gilles Bastin
  • Contact concepteur(s) : nalimilan@club.fr
  • Laboratoire(s), service(s)... : INED, LSQ-CREST, OSC, PACTE

 

Une fiche logiciel décrit plus en détail ce développement, consultez la pour plus d’informations : R.TeMiS
Fonctionnalités générales du logiciel

R.TeMiS (R Text Mining Solution) est un environnement graphique de travail sous R permettant de créer, manipuler et analyser des corpus de textes, qu'ils soient constitués d'articles de presse, de réponses à une question ouverte, d'entretiens ou encore de textes issus de la Toile. Il prend actuellement en charge les méthodes d'analyse de données textuelles, tout en facilitant l'importation de corpus depuis des sources informatisées (Factiva, Twitter).

Contexte d’utilisation du logiciel

Utilisé par des chercheurs de diverses institutions mais aussi dans le cadre d'enseignements (Université Paris VII - Diderot et ENSAI) et de l'encadrement de mémoires d'étudiants (Sciences Po Grenoble).

Publications liées au logiciel

Bouchet-Valat, Milan ; Bastin, Gilles, « RcmdrPlugin.temis, a Graphical Integrated Text Mining Solution in R », dans The R Journal, 5 (1), 2013, p. 188-196. article

Fiche dév Ens Sup - Recherche
  • Création ou MAJ importante : 15/07/13
  • Correction mineure : 15/07/13
Mots-clés

R2STATS : interface graphique sous R pour tester et comparer des GLM(M)

Ce logiciel a été développé (ou est en cours de développement) dans la communauté de l'Enseignement Supérieur et de la Recherche. Son état peut être variable (cf champs ci-dessous) donc sans garantie de bon fonctionnement.
  • Site web
  • Système : UNIX-like, Windows, MacOS X
  • Licence(s) : GPL
  • Etat : diffusé, stable
  • Support : maintenu, sans développement en cours
  • Concepteur(s) : Yvonnick Noël
  • Contact concepteur(s) : yvonnick.noel@univ-rennes2.fr
  • Laboratoire(s), service(s)... : Univ Rennes 2

 

Fonctionnalités générales du logiciel

Ce logiciel est un package pour l'environnement de calcul R. Il propose une interface graphique pour tester rapidement des GLM (ANOVA, régression, ANCOVA, régression logistique, Gamma ou Poisson), avec ou sans effets aléatoires, pour les comparer entre eux (par Chi2 de vraisemblance, F de Fisher ou critères d'information type AIC, BIC).

Un des intérêts est que des tests additionnels, quand ils sont nécessaires, sont produits automatiquement (test de normalité, d'homogénéité des variances) et que les graphiques sont automatiques. On bascule d'un graphique à l'autre en un clic sur le nom du modèle, et on visualise donc immédiatement ce qu'un modèle apporte de plus par rapport à un autre.
Cette interface est utile par exemple en contexte d'enseignement avec des étudiants à l'université.

Contexte d’utilisation du logiciel

Le logiciel a été développé initialement pour les étudiants en sciences humaines, afin de faciliter leur assimilation des GLM (Generalized Linear Models) / GLMM (Generalized Linear Mixed Models) et de leur usage. Mais l'interface peut-être utilisée pour la recherche elle-même et les études appliquées, tant que la modélisation entre dans le cadre des GLM (avec ou sans effets aléatoires).

Fiche logiciel validé
  • Création ou MAJ importante : 10/06/13
  • Correction mineure : 22/09/13
Mots-clés
Pour aller plus loin
  • Mots-clés principaux : corpus

R.TeMiS : création et analyse de corpus de textes sous R

Une fiche Dév Ens Sup est en relation avec cette fiche, consultez-la pour plus d'informations : R.TeMiS
Description
Fonctionnalités générales

R.TeMiS (R Text Mining Solution) est un environnement graphique de travail sous R permettant de créer, manipuler et analyser des corpus de textes, qu'ils soient constitués d'articles de presse, de réponses à une question ouverte, d'entretiens ou encore de textes issus de la Toile. Il prend actuellement en charge les méthodes d'Analyse de données textuelles, tout en facilitant l'importation de corpus depuis des sources informatisées (Factiva, Twitter).

R.TeMiS a été conçu pour limiter les effets de « boîte noire » liés à l'utilisation de certains logiciels propriétaires dédiés à l'analyse de textes peu flexibles et dont les techniques utilisées ne sont pas toujours documentées. Il vise ainsi à favoriser la réflexivité dans l’usage sociologique des données textuelles.

Fonctions actuellement prises en charge :

  • Importation du corpus :
    • Fichiers texte brut (.txt) stockés dans un dossier.
    • Fichier tableur de divers types (voir ci-dessous).
    • Fichier XML et HTML Factiva.
    • Recherche Twitter.
  • Construction du corpus (i.e ensemble de documents) :
    • Découpage des textes longs en documents (i.e ensemble de termes).
    • Suppression optionnelle des chiffres, des mots vides et de la ponctuation.
    • Extraction optionnelle des radicaux des mots (racinisation)
    • Sélection de documents à partir de termes ou de variables.
    • Choix ou exclusion de certains termes.
    • Recodage d'une variable temporelle.
  • Statistiques descriptives sur les variables associées aux documents :
    • Tri à plat et tri croisé.
    • Évolution temporelle du nombre de documents.
  • Statistiques lexicales :
    • Nombre de mots, diversité du vocabulaire, nombre de hapax, longueur des mots.
    • Table de dissimilarité du vocabulaire.
    • Fréquence de termes.
    • Termes les plus caractéristiques de modalités d'une variable.
    • Termes co-occurrents.
    • Évolution temporelle des occurrences d'un terme.
  • Analyse des correspondances (sur tableau lexical entier ou agrégé).
  • Classification ascendante hiérarchique (sur tableau lexical entier ou à partir des axes de l'analyse des correspondances).
  • Toutes les fonctions produisent des graphiques (exportables dans une variété de formats) et les résultats sont
    facilement exportables dans un rapport au format HTML.
Interopérabilité

Les corpus peuvent être importés sous forme de textes bruts (.txt) ou de fichiers de type tableur dans de nombreux formats : CSV (valeurs séparées par des virgules), TSV (valeurs séparées par des tabulations), Open Document (LibreOffice et OpenOffice), Microsoft Excel, dBase, SPSS, SAS, Minitab et STATA.

Les graphiques peuvent être exportés dans les formats (image ou vectoriels) les plus courants, dont le PNG, le SVG, le PostScript et le WMF. Tous les formats ne sont pas disponibles dans tous les OS.

Contexte d'utilisation dans mon laboratoire/service

Bien que récent, ce logiciel a déjà été utilisé par des chercheurs de l'INED dans le cadre de formations universitaires. Il sera bientôt utilisé pour des études d'entretiens et pour d'autres cours. Son intérêt est de proposer un équivalent à des fonctions offertes dans des logiciels propriétaires fort coûteux, ne fonctionnant que sous Windows, et n'étant pas installables sur les postes d'étudiants ou de chercheurs étrangers.

Limitations, difficultés, fonctionnalités importantes non couvertes

Ne couvre pas exactement la méthode utilisée par le logiciel de statistique textuelle (Alceste) : voir dans ce cas le logiciel libre Iramuteq.

Un terme identifié comme mot vide ne correspond pas toujours à un mot-outil.

Le logiciel permet de visualiser la racinisation effectuée, mais il serait souhaitable de pouvoir la modifier si nécessaire. Le logiciel ne permet actuellement pas de créer un dictionnaire/thésaurus personnel, et ne prend pas en charge la lexémisation.

Environnement du logiciel
Logiciels connexes
  • R : intégré à R, R.TeMiS génère du code R directement visible, qui est modifiable et peut éventuellement être étendu
  • R Commander : R.TeMiS est un greffon pour R Commander
Autres logiciels aux fonctionnalités équivalentes
  • Iramuteq (licence GPL) : interface de R pour le traitement de textes et de questionnaires
  • DtmVic (gratuit) : traitement des enquêtes comportant des questions ouvertes
  • TXM (composants modulaires open-source) : plateforme combinant des techniques d'analyse de grands corpus de textes
  • Alceste (propriétaire)
  • Lexico (propriétaire)
  • Spad (propriétaire)
  • SAS (propriétaire)
  • NVivo (propriétaire)
Environnement de développement
Type de structure associée au développement

Les deux auteurs sont respectivement doctorant au Laboratoire de sociologie quantitative (LSQ-CREST) et maître de conférences en sociologie à Sciences Po Grenoble.

Eléments de pérennité

Contrairement aux logiciels propriétaires d'analyse textuelle, R.TeMiS réutilise au maximum les fonctions statistiques générales déjà développées dans R et dans ses paquets (importation et traitement des corpus, graphiques, séries temporelles, analyse des correspondances, classification...). L'interface est en grande partie fournie par le paquet R Commander. R.TeMiS bénéficie donc du travail de très nombreux chercheurs maîtrisant très bien les techniques utilisées, et n'a pas de raison de disparaître tant que l'écosystème R fonctionne.

Environnement utilisateur
Liste de diffusion ou de discussion, support et forums
Documentation utilisateur

Tutoriel en français

On peut noter la pauvreté des documents et tutoriels et le fait que l'aide intégrée est en anglais, mais une forte intuitivité du logiciel.

Divers (astuces, actualités, sécurité)

Il est possible de traiter des corpus en langues étrangères. Mais tous les documents d'un corpus doivent être dans la même langue.

Contributions
Fiche dév Ens Sup - Recherche
  • Création ou MAJ importante : 06/06/13
  • Correction mineure : 24/06/13
  • Auteur de la fiche : Eric Hivon (IAP)
  • Responsable thématique : Dirk Hoffmann (Centre de Physique des Particules de Marseille (CPPM-IN2P3))

HEALPix : analyse de données, simulation et visualisation sur la sphère

Ce logiciel a été développé (ou est en cours de développement) dans la communauté de l'Enseignement Supérieur et de la Recherche. Son état peut être variable (cf champs ci-dessous) donc sans garantie de bon fonctionnement.
  • Site web
  • Système : UNIX-like, Windows, MacOS X
  • Version actuelle : 3.11 - avril 2013
  • Licence(s) : GPL - GPLv2
  • Etat : diffusé, stable
  • Support : maintenu, développement en cours
  • Concepteur(s) : Eric Hivon; Martin Reinecke; Krzysztof M. Gorski; Anthony J. Banday; Benjamin D. Wandelt; Emmanuel Joliet; William O'Mullane; Cyrille Rosset; Andrea Zonca
  • Contact concepteur(s) : hivon at iap.fr
  • Laboratoire(s), service(s)... : APC, IAP, IRAP, Labo à l'étranger, MPA (Garching, Allemagne), Caltech (Pasadena, CA,Etats-Unis), TAC (Copenhague, Danemark), ESAC (Madrid, Espagne), JPL (Pasadena, CA, Etats-Unis), ESO (Garching, Allemagne)

 

Fonctionnalités générales du logiciel

Le logiciel HEALPix met en œuvre la pixellisation de la sphère HEALPix (Hierarchical Equal Area iso-Latitude Pixelation ou pixellisation hiérarchique iso-latitude de surface égale). Initialement développés pour la simulation et l'analyse des observations du satellite européen Planck (dédié à l'étude du fond diffus cosmologique (ou CMB) dont les résultats ont été livrés en mars 2013), cette pixellisation et ce logiciel, sont devenus un standard dans l'analyse et la simulation de données sur la sphère, y compris le satellite WMAP de la NASA pour l'observation du CMB, et l'observatoire Pierre Auger (dédié à l'étude des rayons cosmiques de très haute énergie), et sont utilisés pour d'autres études astrophysiques et géologiques.

Spécificités de la pixellisation

A une résolution donnée, tous les pixels HEALPix ont la même surface, même si leur forme diffère légèrement. Le caractère hiérarchique de la pixellisation permet de passer à la résolution supérieure en divisant chaque pixel en 4 sous-pixels de même surface. Cette propriété permet d'effectuer efficacement et rapidement les opérations de dégradation ou d'amélioration en résolution.

L'arrangement en cercles de latitude constante des pixels permet un calcul extrêmement efficace des harmoniques sphériques réduisant le nombre d’opérations nécessaires pour une synthèse ou une analyse d'une carte de Npix pixels jusqu'au multipôle Lmax de Npix Lmax2 à Npix½ Lmax2.

Fonctionnalités du logiciel

Le logiciel HEALPix permet la représentation de données sur la sphère, et d'effectuer des analyses ou simulations de ces cartes en harmoniques sphériques (scalaires ou spinnées) ainsi que différents types d'analyses statistiques et de manipulations. Les entrées et sorties des données se font par des fichiers FITS. Sont par exemple possibles :

  • la génération de cartes aléatoires (gaussiennes ou pas) à partir d'un spectre de puissance angulaire,
  • le calcul du spectre de puissance angulaire (ou fonction de corrélation angulaire) d'une carte,
  • le filtrage spectral arbitraire d'une carte sur la sphère,
  • la pixellisation de la sphere et la manipulation des pixels jusqu'à des tailles de pixels de 0.4 milliarcsecond (ce qui équivaudrait à 3.5 1018 pixels sur la sphere),
  • l'application d'un filtre médian sur une carte,
  • l'identification des extrema locaux d'une carte,
  • la recherche de tous les pixels dans une région donnée (disque, triangle, polygone, ...),
  • la manipulation de masques binaires afin d'identifier les 'trous' pour les boucher, ou d'apodiser les masques,
  • la visualisation des cartes HEALPix, que ce soit sur tout le ciel (projections de Mollweide et orthographique) ou une partie du ciel (projections gnomonique et cartesienne),
  • la sortie des cartes produites au format Google Map/Google Sky et DomeMaster.

Les opérations les plus coûteuses (en particulier le calcul des Harmoniques Sphériques) ont été particulièrement optimisées et sont parallelisées pour les architectures à mémoire partagée (grace à OpenMP).

Contenu du logiciel

Le logiciel est disponible sous forme de codes sources en C, C++, Fortran90, IDL/GDL, java et python. Dans chacun de ces languages sont disponibles

  • une librairie d'outils (subroutines, fonctions, procédures, modules, classes, ... suivant les langages) couvrant l'ensemble des fonctionnalités décrites ci-dessus, ainsi que certaines tâches ancillaires (eg, lecture de fichiers de parametres),
  • un jeu d'applications "prêtes à servir" basées sur cette librairie et mettant chacune en oeuvre une des fonctionnalités majeures d'HEALPix (génération ou analyse de cartes, filtrages, changements de résolution, visualisation, ...). Ces applications ont généralement pour interface un dialogue interactif ou un simple fichier ASCII de parametres. Les codes sources de ces applications peuvent servir de point de départ aux développements spécifiques des utilisateurs,
  • une documentation en PDF et/ou HTML décrivant en détail l'interface de programmation, le fonctionnement et les limitations de chaque outil et de chaque application.

Enfin des outils (script interactif et Makefile) sont fournis pour prendre en charge et faciliter la compilation et l'installation d'une ou plusieurs des différentes librairies et applications, pour différentes combinaisons de materiels informatiques, systemes d'exploitations, compilateurs, ...

Developpements exterieurs

Deux types de développements exterieurs (définis comme ne faisant pas (encore) partie du logiciel HEALPix officiel décrit ci-dessus) peuvent etre distingués:

  • additions de nouvelles fonctionnalités: par exemple de nombreux outils d'analyses basés sur les fonctionnelles de Minkowski, les ondelettes (iSAP, MRS, S2LET, SphereLab) ou l'identification de structure (DisPerSE) developpés par d'autres équipes de recherche peuvent être appliqués à des données pixellisées avec HEALPix,
  • des traductions ou re-implementations d'une partie des fonctionnalités existantes: par exemple en Matlab/Octave (Mealpix) et Yorick (YHeal), voir liste (presque) complète.
Contexte d’utilisation du logiciel

Logiciel utilisé pour l'analyse des données du satellite Planck.

Format supporté par l'outil de visualisation Aladin pour la représentation de données astronomiques étendues sur le ciel.

Publications liées au logiciel

Mots-clés

4e rencontre Mixmod - 23 septembre 2013 - Paris

La quatrième rencontre Mixmod (logiciel de classification supervisée et non supervisée pour les données quantitatives et qualitatives) est prévue le lundi 23 septembre 2013 à l'IHP à Paris.

Les objectifs de cette journée sont de présenter Mixmod (et ses nouvelles fonctionnalités) et de montrer des utilisations concrètes de Mixmod. Le logiciel Blockcluster, logiciel de classification croisée, sera également présenté.

Pour avoir plus d'informations et s'inscrire, cela se passe ici.

Fiche dév Ens Sup - Recherche
  • Création ou MAJ importante : 26/03/13
  • Correction mineure : 17/04/13
Mots-clés

SVDetect : detection de variants structuraux à partir de lectures haut-débit appariées

Ce logiciel a été développé (ou est en cours de développement) dans la communauté de l'Enseignement Supérieur et de la Recherche. Son état peut être variable (cf champs ci-dessous) donc sans garantie de bon fonctionnement.
  • Site web
  • Système : UNIX-like
  • Version actuelle : 0.8 - 05/12/2011
  • Licence(s) : GPL
  • Etat : diffusé, stable
  • Support : maintenu, sans développement en cours
  • Concepteur(s) : Bruno Zeitouni, Valentina Boeva
  • Contact concepteur(s) : svdetect@curie.fr
  • Laboratoire(s), service(s)... : INSERM-U900

 

Fonctionnalités générales du logiciel

A partir de séquences pairées provenant du séquençage haut-débit et ayant préalablement été alignées contre un génome de référence, SVDetect permet de mettre en évidence des clusters de lectures pairées anormales (ordre, orientation des lectures ou distance entre les lectures) et d'en prédire une signature de variants structuraux tels que des insertions, délétions, inversions, duplications ou translocation intra- et inter-chromosomiques. Il permet ensuite de comparer les résultats avec un contrôle et de détecter les anomalies spécifiques d'un échantillon (Tumeur vs ADN contrôle).
Les réarrangements chromosomiques ainsi détectés peuvent ensuite être visualisés graphiquement via l'outil Circos ou sur le visualiseur de génome 'UCSC'.
SVDetect est compatible avec tout type de lectures appariées ("paired-end" ou "mate-pair") , de technologie de séquençage haut-débit (Illumina, SOLiD, PGM, ...) et de génome.
SVDetect permet aussi si nécessaire de dresser des profils de couverture et de pointer plus spécifiquement sur les pertes ou gains de portions génomiques à partir de l'information du nombre de copies.
Il est disponible sous la forme d'un script PERL et prend en charge le format BAM en entrée.
SVDetect est également disponible pour le toolshed de Galaxy.

Contexte d’utilisation du logiciel

SVDetect est dédié à l'identification de tout type de réarrangements chromosomiques. Il a été testé préférentiellement sur des expériences de re-séquençage de génome entier à partir de cellules cancéreuses, riches en remaniements.
Certains utilisent SVDetect pour détecter des gènes de fusion à partir d'expériences RNA-seq.

Publications liées au logiciel
  • SVDetect: a tool to identify genomic structural variations from paired-end and mate-pair sequencing data
    Bruno Zeitouni; Valentina Boeva; Isabelle Janoueix-Lerosey; Sophie Loeillet; Patricia Legoix-ne; Alain Nicolas; Olivier Delattre; Emmanuel Barillot, Bioinformatics 2010 26: 1895-1896, http://www.hal.inserm.fr/inserm-00508372
Fiche logiciel validé
  • Création ou MAJ importante : 18/03/13
  • Correction mineure : 10/06/13
  • Rédacteur de la fiche : Anne Cheylus - L2C2 (CNRS, Université Claude Bernard, Lyon 1)
  • Relecteur(s) : Milan Bouchet-Valat (Laboratoire de sociologie quantitative (CREST-LSQ))
    Delphine Grancher (Laboratoire de Géographie Physique)
  • Contributions importantes : Milan Bouchet-Valat
  • Responsable thématique : Pascal Joly (LJLL)
Mots-clés
Pour aller plus loin

R Commander : interface graphique pour réaliser des traitements statistiques avec le logiciel R

Description
Fonctionnalités générales

R-commander est une interface graphique pour le logiciel R. Elle facilite l'apprentissage de ce langage de programmation en offrant à l'utilisateur la possibilité de réaliser l'importation de données, un certain nombre de traitements statistiques élémentaires ou plus avancés, l'export des résultats de manière interactive tout en indiquant les commandes R correspondantes. Des greffons peuvent être ajoutés pour réaliser d'autres traitements statistiques.

Autres fonctionnalités
  • Importation de données :
    • depuis un fichier texte ; par copier-coller ; par URL (Windows, Mac, Linux)
    • depuis des fichiers Excel, Access, dBase, SPSS, SAS, Minitab, STATA (Windows)
    • depuis un paquet R
  • Manipulation des données (sélection, réorganisation, édition directe, recodage...)
  • Traitements statistiques :
    • statistiques descriptives : moyenne, médiane, tableau de contingence
    • tests paramétriques (tests t, ANOVA) et non paramétriques (Wilcoxon, Kruskal et Wallis)
    • analyse de données : analyse en composantes principales, analyse factorielle, analyse discriminante, classification
    • modélisation : régression linéaire, régression logistique simple, multinomiale et ordinale, modèles linéaires généralisés
  • Représentations graphiques :
    • diagramme en barres, en points, camembert, boîte à moustaches, histogramme, comparaison de quantiles...
    • diagnostics de modèles
    • les graphiques peuvent être copiés ou exportés dans un format vectoriel pour une meilleure qualité d'impression
  • Probabilités, courbes de répartition et données aléatoires à partir de nombreuses distributions.
  • Une trentaine de greffons disponibles fournissent d'autres possibilités d'analyses : analyse de durée/survie, analyse de données « à la française », analyse textuelle...
Interopérabilité

Importation depuis plusieurs formats courants ; exportation au format CSV ou TSV.

Environnement du logiciel
Logiciels connexes
  • R
  • FactoMineR, un paquet pour l'analyse de données sous R possédant un greffon pour R commander
Autres logiciels aux fonctionnalités équivalentes
  • Statistica (propriétaire)
  • SPSS (propriétaire)
  • STATA (propriétaire)
  • SAS (propriétaire)
  • S-Plus (propriétaire)
Environnement de développement
Type de structure associée au développement

L'auteur principal travaille au département de sociologie de l'université McMaster d'Hamilton, Ontario au Canada.

Eléments de pérennité

Le R commander a été inclus dans le CRAN, le répertoire commun des bibliothèques de R et plus de 20 développeurs ont contribué à son amélioration.

Références d'utilisateurs institutionnels

Une recherche de pages web contenant le mot-clé « rcmdr » et limitée au domaine cnrs.fr renvoie plus de 1000 références, essentiellement vers des documents de formation.

Environnement utilisateur
Divers (astuces, actualités, sécurité)

Pour installer ce logiciel sur un ordinateur connecté à Internet, lancez la commande

> install.packages("Rcmdr")

dans R, choisissez le miroir CRAN qui vous semble le plus proche de chez vous. Utilisez ensuite la commande

> library(Rcmdr)

pour lancer le R commander. La première fois, des installations complémentaires seront effectuées.

Contributions

Contacter directement l'auteur par courriel.

Fiche logiciel validé
  • Création ou MAJ importante : 04/03/13
  • Correction mineure : 04/03/13
  • Rédacteur de la fiche : Pierre-Antoine Delsart - LPSC (CNRS, Université Joseph Fourrier)
  • Relecteur(s) : John Idarraga (LAL)
    Benoit Clément (LPSC)
    Dirk Hoffmann (Centre de Physique des Particules de Marseille (CPPM-IN2P3))
  • Contributions importantes : Cette fiche avait été initiée par Christian Helft comme RT, puis reprise comme tel par Dirk Hoffmann qui avait fait un travail de relecteur jusqu'à ce moment-là.
  • Responsable thématique : Dirk Hoffmann (Centre de Physique des Particules de Marseille (CPPM-IN2P3))
Mots-clés

ROOT : framework d'analyse de données scientifiques

Description
Fonctionnalités générales

ROOT est une bibliothèque C++ destinée à l'analyse de larges volumes de données numériques. Écrit par et pour les physiciens des particules, ROOT est utilisé dans le cadre des principales expériences de physique des hautes énergies (LHC, Tevatron, SLAC...) depuis l'ère de HERA, par exemple par l'expérience H1 officiellement depuis 2000. ROOT est aussi utilisé par certaines communautés en biotechnologie et économie.

En résumé, ROOT sert

  • au stockage efficace de volumes importants de données numériques sous forme de ntuples ou d'objets structurés.
  • d'outil d'analyse de ces données. Pour les analyses simples, des fonctionnalités de visualisation interactive sont fournies. Une très riche API C++ est disponible pour les analyses plus complètes.

La taille et la modularité de la bibliothèque font de ROOT un outil flexible, mais nécessitant une connaissance du C++ pour une utilisation autre que superficielle.

Des interfaces en python et ruby rendent aussi ROOT utilisable à travers ces langages.
Les fonctions C++ sont accessibles à partir des langages C et FORTRAN moyennant une "traduction" (demangling, comme c++filt) des noms des méthodes. Et de ce fait, les méthodes C++ de ROOT peuvent également être utilisées à travers ces langages classiques.

Autres fonctionnalités

La bibliothèque est constituée essentiellement d'un ensemble d'objets C++ répartis en "modules".

Liste un peu plus détaillée de fonctionnalités :

  • Sauvegarde et accès aux données numériques.
  • Visualisation interactive sous diverses formes, en 1, 2 ou 3D : histogrammes, graphes, fonctions numériques, images. Export vers différents formats graphiques vectoriels et matriciels (voir détails et exemples dans le paragraphe "Interopérabilité").
  • Méthodes statistiques et d'ajustements ("fits") avancées, via le sous-projet RooStat.
  • Analyse discriminante multivariée (réseaux de neurones, rapports de vraisemblance, arbres de décision...), via le package TMVA.
  • Système de calcul distribué sur plusieurs processeurs/cœurs : PROOF.
  • Système complet d'interface graphique utilisateur (GUI).
  • Nombreuses classes utilitaires de programmation (conteneur, chaîne de caractères), pour la physique (ex: vecteur de Lorentz) ou mathématiques (ex: matrices, opération sur les matrices).
  • ...

Exemple de graphiques générées avec ROOT (CC BY-NC-SA/3.0, R. Brun) - cliquer pour un catalogue de captures d'écran :
Image 2d d une gerbeHistogramme

ROOT contient un interpréteur de C/C++ (CINT) pour une utilisation interactive en mode ligne de commande. Il inclut un générateur de dictionnaire fournissant l'introspection et permettant d'utiliser interactivement n'importe quelle classe C++ (avec complétion des noms de symboles par la touche de tabulation). Grâce à cet interpéteur, ROOT peut être utilisé en trois modes complémentaires:

  • Interprétation de lignes de commande, interprétées ligne par ligne et exécutées immédiatement
  • Interprétation d'un "script" contenant des instructions C++, également interprétées ligne par ligne
  • Compilation d'un bout de code source C++ valable, chargement dans la mémoire vive et mise à jour du dictionnaire des symboles, puis exécution directe ou via une instruction en ligne de commande qui fait appel aux symboles nouvellement chargés.

Selon la phase de développement d'un logiciel d'analyse, les trois modes rendent l'utilisation plus efficace et productive de la première ébauche jusqu'à la finalisation du code.
Le remplacement de CINT par l'interpréteur cling (basé sur LLVM) lors de la sortie de la version 6 de ROOT a été annoncé.

Illustration de l'utilisation de l'interpréteur interactif de ROOT pour générer des graphiques (CC BY-NC-SA/3.0, R. Brun) - cliquer pour un catalogue de captures d'écran :
UI et GUI

Panoplie de graphiques 2D générées avec ROOT (CC BY-NC-SA/3.0, R. Brun) - cliquer pour un catalogue de captures d'écran :
graphiques 2d

D'autre part, il est possible de se servir de ROOT uniquement comme une bibliothèque exhaustive de fonctions, algorithmes de calcul et de statistiques ainsi que d'outils graphiques qui sont intégrés directement dans une nouvelle application autonome, compilée à partir de code source utilisateur.

Interopérabilité

Formats de données numériques :

  • Natif 'ROOT': un format indépendent de l'architecture matériel et du système d'exploitation.
    Typiquement le format TTree ou TNtuple sont utilisé comme une sorte de standard de fait.
  • Certaines classes peuvent lire le csv.
  • Interface pour base de données SQL.
  • Mathematica (pour la version 5.30)
  • Interface pour XML et des extensions comme GDML, utilisé dans Geant4.
  • Des interfaces pour des structures simples de donnés tels que ceux crées par des générateurs de MonteCarlo, tels que Pythia.

Export graphique : jpeg, png, gif, svg, ps, eps, tiff, xpm, xml.

Contexte d'utilisation dans mon laboratoire/service

ROOT est un standard de fait pour tous les physiciens des particules (communauté de plus de 10 000 chercheurs en Europe) et leur collaborateurs. Le nombre de téléchargements a dépassé pour les seules sources du logiciel, la marque symbolique de 100 000 en 2011. De par son origine et sa conception il est particulièrement adapté au domaine. Il est utilisé quotidiennement et de façon satisfaisante (malgré certains points agaçants, c.f. ci-dessous) par nombre de ces chercheurs.

Limitations, difficultés, fonctionnalités importantes non couvertes

Quelques aspects critiquables résultent de la (trop) grande taille de la bibliothèque : syndrome de "ré-invention de la roue". Un exemple typique est le "ToolKit" graphique intégré qui parait peu abouti par rapport à des alternatives open source (GTK ou Qt).

En revanche, le projet évolue régulièrement et l'équipe de développement est réactive, il y a un bon soutien de la communauté.

Environnement du logiciel
Distributions dans lesquelles ce logiciel est intégré

Fedora14. Les distributions Scientific Linux ne contiennent généralement pas de paquet de ROOT, probablement parce que cette communauté préfére de loin les versions fraîchement distribuées par les auteurs au CERN.
Le site ROOT au CERN (root.cern.ch) propose, outre les sources, des paquets précompilés de binaires pour Scientific Linux (RPM, normalement compatibles avec la famille RedHat), Mac OS X, Solaris 11, AIX ainsi que Windows, mais pas Debian/Ubuntu.
Les différentes versions de ROOT ainsi que dernière version de développement du code source sont accessibles par svn

Plates-formes

Linux, Windows, Mac OS X, nombreuses variantes d'Unix. Plus généralement tout système d'exploitation avec un compilateur GNU et la bibliothèque graphique Qt.
Testé sur Scientific Linux (SL4, SL5, SL6, SLD, SLC, ...), Fedora.

Autres logiciels aux fonctionnalités équivalentes

Tous les logiciels d'analyse de données numériques : octave, R, GDL, JavaAnalysisStudio (JAS), Matlab, Mathematica, Maple, etc...

Environnement de développement
Type de structure associée au développement

Développé au CERN avec une participation significative et régulière du FNAL ainsi que des centaines de développeurs plus ou moins occasionnels de la communauté de la physique des particules (HEP - "high energy physics" en anglais).

Eléments de pérennité

Sous les auspices du CERN, le "cœur" des développeurs officiellement annoncé sur le site (début 2012) est au nombre de douze et réparti sur plusieurs continents. Le projet soutient activement tous les développeurs occasionnels de la communauté.
La pérennité est excellente pour plusieurs années, la version 1.00 de ROOT étant sortie en 1997. Il peut être considéré comme le successeur du logiciel d'analyse statistique PAW écrit en FORTRAN et développé à partir des années 1970 jusqu'à l'avènement de ROOT. Devenu projet officiel du département de physique du CERN en 2002, il sera de fait irremplaçable pour les expériences pendant la durée de vie du LHC (30 ans à partir de 2008) et des analyses de ses données qui s'ensuivront.

Références d'utilisateurs institutionnels

IN2P3 (regroupant une bonne vingtaine de laboratoires de recherche en physique), CERN, FERMILAB, DESY, SLAC

Selon cette présentation à CHEP2012, ROOT serait le deuxième logiciel le plus souvent cité (après GEANT) dans les publications du domaine de la recherche en physique des particules autour du CERN.

Environnement utilisateur
Liste de diffusion ou de discussion, support et forums
Documentation utilisateur
Fiche logiciel validé
  • Création ou MAJ importante : 04/12/12
  • Correction mineure : 02/09/13
Mots-clés
Pour aller plus loin
Fiche en recherche de repreneur
Cette fiche est en recherche d'un repreneur. Si vous êtes intéressé(e)s, contactez-nous !

BIRT : Business Intelligence and Reporting Tools, outil de création de tableau de bord

Description
Fonctionnalités générales

BIRT permet de créer des états et des tableaux de bord. Un tableau de bord est une vue synthétique qui donne des informations consolidées, c'est une photo à un instant donné des indicateurs mesurant une activité.

BIRT est exploité par les services des Systèmes d'Information et à destination :

  • des responsables, en tant qu'outil d'aide au pilotage et fournisseur de tableau de bord,
  • des personnels "métier", en tant qu'outil de reporting opérationnel et fournisseur d'états.

BIRT est un projet Eclipse, le développement du tableau de bord est réalisé depuis l'IDE Eclipse. L'exploitation par les utilisateurs des tableaux de bord peut être réalisée depuis une application ou depuis un serveur web.

Autres fonctionnalités

BIRT permet essentiellement :

  • de se connecter à une source de données (fichier texte, XML, base de données relationnelle, etc),
  • de définir les données que l'on désire exploiter (par exemple une requête SQL),
  • de croiser différentes sources de données (jointures entre différentes bases de données),
  • de réaliser des cubes (les données se déplient par clics successifs),
  • d'appliquer des traitements (par exemple des statistiques),
  • de présenter les données sous forme de tableau et de graphique.

BIRT répond à deux types d'utilisations possibles :

  • toutes les fonctionnalités sont accessibles par les interfaces graphiques,
  • et toutes les fonctionnalités peuvent être enrichies par programmation.

Les fichiers BIRT générés sont au format XML, le développeur peut, si nécessaire, les modifier. Les tableaux de bord sont dynamiques et peuvent recevoir des paramètres d'entrées saisis par l'utilisateur. Les tableaux de bord peuvent être exportés à différents formats (xls, csv, pdf).

Les graphiques proposés sont de types barre, courbe, zone, camembert, jauge, radar, etc.

Interopérabilité

BIRT supporte en entrée les connexions aux sources de données de type tableur comme Excel et Open Office, mais aussi de type JDBC vers Oracle, MySQL, PostgreSQL.

Pour l'exploitation des tableaux de bords, ils peuvent être déposés sur un serveur comme Tomcat par exemple ou intégrés dans une application Java.

Contexte d'utilisation dans mon laboratoire/service
  • Le service des Systèmes d'Information du LAAS utilise BIRT pour produire un ensemble de tableaux de bord émanant des bases de données du personnel, des publications, des contrats, etc, ...
    Les tableaux de bord sont utilisés par la direction et les responsables des services pour obtenir des renseignements structurés de l'activité du laboratoire dans le cas par exemple de l'évaluation AERES.
  • Dans le cadre du CEFE, nous souhaitons utiliser cet outil pour visualiser des données de nos bases de données scientifiques. La présence d'une maquette de tableaux croisés est le plus qui nous a fait retenir ce produit. Nous généraliserons son utilisation dès que nous serons arrivés à réaliser des mises en page adaptées à nos besoins.
Limitations, difficultés, fonctionnalités importantes non couvertes

Les utilisateurs finaux ne peuvent pas produire leur propre rapport facilement. Même si tout peut se faire par des clics de souris, une bonne connaissance technique est nécessaire, par exemple celle de SQL dans le cas d'une source de données de type base de données relationnelle ou celle de Javascript pour rendre les rapports dynamiques.

De plus, Eclipse est un environnement (IDE) dont la prise en main n'est pas forcément simple pour des personnes qui ne font pas de développement.

Lors du déploiement de rapports BIRT sur des serveurs d’applications (comme Tomcat ou JBOSS) via le composant BIRT Viewer pour fournir un accès aux rapports via un navigateur web, des problèmes de performance peuvent apparaître à partir d'un nombre d’utilisateurs clients élevés. Des solutions possibles sont : répartition de la charge en ajoutant des instances du serveur d'application ou passage à la version commerciale du BIRT Viewer.

Enfin, d'un point de vue architecture, les environnements sur lesquels BIRT est connecté peuvent être soumis à une forte charge si les requêtes créées sont trop volumineuses : un environnement dédié aux requêtes via BIRT, copie de l'environnement de production, est préconisé dans l'état de l'art.

Environnement du logiciel
Distributions dans lesquelles ce logiciel est intégré

Depuis la version 3.7 de BIRT sortie en juin 2011, la numérotation de version est identique à celle d'Eclipse. La version précédente était 2.6.2.

Plates-formes

Des versions pour GNU/Linux, Mac OS et MS Windows existent, le prérequis étant de disposer d'un Java JDK/JRE.

Logiciels connexes

Eclipse, BIRT étant un plugin de ce dernier.

Autres logiciels aux fonctionnalités équivalentes
Environnement de développement
Type de structure associée au développement

BIRT est intégré dans le projet Eclipse: l'équipe de développement est rapidement décrite ici. Pour chaque nouvelle version d'Eclipse, le plugin BIRT est mis à jour.

Eléments de pérennité

Cet outil est utilisé pour formuler les requêtes dans le cadre du projet GESLAB (ex-SILAB, ex-XLAB), l'application de gestion financière des laboratoires du CNRS. Les états et rapports BIRT à destination des gestionnaires ont été déployés sur les serveurs Web de l'application début 2012.

Références d'utilisateurs institutionnels
  • Le LAAS, par exemple pour produire des documents pour les évaluation AERES.
  • Les laboratoires du CNRS, dans le cadre de l'application de gestion GESLAB.
Environnement utilisateur
Liste de diffusion ou de discussion, support et forums
Documentation utilisateur
Contributions
Fiche logiciel validé
  • Création ou MAJ importante : 26/10/13
  • Correction mineure : 26/10/13
Mots-clés
Pour aller plus loin

MixNet/MixeR : statistiques : Mixture Models for Networks

Une fiche Dév Ens Sup est en relation avec cette fiche, consultez-la pour plus d'informations : MixNet/MixeR
Description
Fonctionnalités générales

MixNet signifie Mixture models for Networks. C'est un logiciel permettant d'établir une classification non supervisée des noeuds d'un graphe en utilisant un modèle de classification non supervisée fondé sur les mélanges de distributions. Ce modèle fait l'hypothèse que les noeuds du réseau d'intérêt sont répartis en plusieurs classes cachées (ou couleurs) qui mettent en lumière des profils de connectivité spécifiques. Nous proposons plusieurs algorithmes d'estimation des paramètres du modèle et des probabilités d'appartenance aux classes pour chaque noeud, ainsi qu'un critère statistique de choix du nombre de classes (couleurs).

  • MixNet correspond au programme en ligne de commande,
  • MixeR correspond au package R associé.
Autres fonctionnalités

Des éléments pour la représentation des résultats (réseaux avec classes colorées) sont proposés.

Contexte d'utilisation dans mon laboratoire/service

Analyse statistique de réseaux biologiques et sociaux.

Environnement du logiciel
Plates-formes
  • Unix-like (installation du package R ou du programme en ligne de commande)
  • Mac et Windows (installation du package R)
Logiciels connexes
  • R (optionnel sous les systèmes Unix-like)
  • Cytoscape (optionnel)
Environnement de développement
Type de structure associée au développement

MixNet/MixeR est une réalisation conjointe des membres du groupe Statistics for Systems Biology.

Eléments de pérennité

MixNet/MixeR est developpé et maintenu sur la plateforme collaborative Mulcyber.

Environnement utilisateur
Documentation utilisateur
Syndiquer le contenu