statistiques
R.TeMiS (R Text Mining Solution) est un environnement graphique de travail sous R permettant de créer, manipuler et analyser des corpus de textes, qu'ils soient constitués d'articles de presse, de réponses à une question ouverte, d'entretiens ou encore de textes issus de la Toile. Il prend actuellement en charge les méthodes d'analyse de données textuelles, tout en facilitant l'importation de corpus depuis des sources informatisées (Factiva, Twitter).
Ce logiciel est un package pour l'environnement de calcul R. Il propose une interface graphique pour tester rapidement des GLM (ANOVA, régression, ANCOVA, régression logistique, Gamma ou Poisson), avec ou sans effets aléatoires, pour les comparer entre eux (par Chi2 de vraisemblance, F de Fisher ou critères d'information type AIC, BIC).
Un des intérêts est que des tests additionnels, quand ils sont nécessaires, sont produits automatiquement (test de normalité, d'homogénéité des variances) et que les graphiques sont automatiques. On bascule d'un graphique à l'autre en un clic sur le nom du modèle, et on visualise donc immédiatement ce qu'un modèle apporte de plus par rapport à un autre.
Cette interface est utile par exemple en contexte d'enseignement avec des étudiants à l'université.
R.TeMiS (R Text Mining Solution) est un environnement graphique de travail sous R permettant de créer, manipuler et analyser des corpus de textes, qu'ils soient constitués d'articles de presse, de réponses à une question ouverte, d'entretiens ou encore de textes issus de la Toile. Il prend actuellement en charge les méthodes d'Analyse de données textuelles, tout en facilitant l'importation de corpus depuis des sources informatisées (Factiva, Twitter).
R.TeMiS a été conçu pour limiter les effets de « boîte noire » liés à l'utilisation de certains logiciels propriétaires dédiés à l'analyse de textes peu flexibles et dont les techniques utilisées ne sont pas toujours documentées. Il vise ainsi à favoriser la réflexivité dans l’usage sociologique des données textuelles.
Fonctions actuellement prises en charge :
- Importation du corpus :
- Fichiers texte brut (.txt) stockés dans un dossier.
- Fichier tableur de divers types (voir ci-dessous).
- Fichier XML et HTML Factiva.
- Recherche Twitter.
- Construction du corpus (i.e ensemble de documents) :
- Découpage des textes longs en documents (i.e ensemble de termes).
- Suppression optionnelle des chiffres, des mots vides et de la ponctuation.
- Extraction optionnelle des radicaux des mots (racinisation)
- Sélection de documents à partir de termes ou de variables.
- Choix ou exclusion de certains termes.
- Recodage d'une variable temporelle.
- Statistiques descriptives sur les variables associées aux documents :
- Tri à plat et tri croisé.
- Évolution temporelle du nombre de documents.
- Statistiques lexicales :
- Nombre de mots, diversité du vocabulaire, nombre de hapax, longueur des mots.
- Table de dissimilarité du vocabulaire.
- Fréquence de termes.
- Termes les plus caractéristiques de modalités d'une variable.
- Termes co-occurrents.
- Évolution temporelle des occurrences d'un terme.
- Analyse des correspondances (sur tableau lexical entier ou agrégé).
- Classification ascendante hiérarchique (sur tableau lexical entier ou à partir des axes de l'analyse des correspondances).
- Toutes les fonctions produisent des graphiques (exportables dans une variété de formats) et les résultats sont
facilement exportables dans un rapport au format HTML.
Les corpus peuvent être importés sous forme de textes bruts (.txt) ou de fichiers de type tableur dans de nombreux formats : CSV (valeurs séparées par des virgules), TSV (valeurs séparées par des tabulations), Open Document (LibreOffice et OpenOffice), Microsoft Excel, dBase, SPSS, SAS, Minitab et STATA.
Les graphiques peuvent être exportés dans les formats (image ou vectoriels) les plus courants, dont le PNG, le SVG, le PostScript et le WMF. Tous les formats ne sont pas disponibles dans tous les OS.
Bien que récent, ce logiciel a déjà été utilisé par des chercheurs de l'INED dans le cadre de formations universitaires. Il sera bientôt utilisé pour des études d'entretiens et pour d'autres cours. Son intérêt est de proposer un équivalent à des fonctions offertes dans des logiciels propriétaires fort coûteux, ne fonctionnant que sous Windows, et n'étant pas installables sur les postes d'étudiants ou de chercheurs étrangers.
Ne couvre pas exactement la méthode utilisée par le logiciel de statistique textuelle (Alceste) : voir dans ce cas le logiciel libre Iramuteq.
Un terme identifié comme mot vide ne correspond pas toujours à un mot-outil.
Le logiciel permet de visualiser la racinisation effectuée, mais il serait souhaitable de pouvoir la modifier si nécessaire. Le logiciel ne permet actuellement pas de créer un dictionnaire/thésaurus personnel, et ne prend pas en charge la lexémisation.
Le logiciel HEALPix met en œuvre la pixellisation de la sphère HEALPix (Hierarchical Equal Area iso-Latitude Pixelation ou pixellisation hiérarchique iso-latitude de surface égale). Initialement développés pour la simulation et l'analyse des observations du satellite européen Planck (dédié à l'étude du fond diffus cosmologique (ou CMB) dont les résultats ont été livrés en mars 2013), cette pixellisation et ce logiciel, sont devenus un standard dans l'analyse et la simulation de données sur la sphère, y compris le satellite WMAP de la NASA pour l'observation du CMB, et l'observatoire Pierre Auger (dédié à l'étude des rayons cosmiques de très haute énergie), et sont utilisés pour d'autres études astrophysiques et géologiques.
Spécificités de la pixellisation
A une résolution donnée, tous les pixels HEALPix ont la même surface, même si leur forme diffère légèrement. Le caractère hiérarchique de la pixellisation permet de passer à la résolution supérieure en divisant chaque pixel en 4 sous-pixels de même surface. Cette propriété permet d'effectuer efficacement et rapidement les opérations de dégradation ou d'amélioration en résolution.
L'arrangement en cercles de latitude constante des pixels permet un calcul extrêmement efficace des harmoniques sphériques réduisant le nombre d’opérations nécessaires pour une synthèse ou une analyse d'une carte de Npix pixels jusqu'au multipôle Lmax de Npix Lmax2 à Npix½ Lmax2.
Fonctionnalités du logiciel
Le logiciel HEALPix permet la représentation de données sur la sphère, et d'effectuer des analyses ou simulations de ces cartes en harmoniques sphériques (scalaires ou spinnées) ainsi que différents types d'analyses statistiques et de manipulations. Les entrées et sorties des données se font par des fichiers FITS. Sont par exemple possibles :
- la génération de cartes aléatoires (gaussiennes ou pas) à partir d'un spectre de puissance angulaire,
- le calcul du spectre de puissance angulaire (ou fonction de corrélation angulaire) d'une carte,
- le filtrage spectral arbitraire d'une carte sur la sphère,
- la pixellisation de la sphere et la manipulation des pixels jusqu'à des tailles de pixels de 0.4 milliarcsecond (ce qui équivaudrait à 3.5 1018 pixels sur la sphere),
- l'application d'un filtre médian sur une carte,
- l'identification des extrema locaux d'une carte,
- la recherche de tous les pixels dans une région donnée (disque, triangle, polygone, ...),
- la manipulation de masques binaires afin d'identifier les 'trous' pour les boucher, ou d'apodiser les masques,
- la visualisation des cartes HEALPix, que ce soit sur tout le ciel (projections de Mollweide et orthographique) ou une partie du ciel (projections gnomonique et cartesienne),
- la sortie des cartes produites au format Google Map/Google Sky et DomeMaster.
Les opérations les plus coûteuses (en particulier le calcul des Harmoniques Sphériques) ont été particulièrement optimisées et sont parallelisées pour les architectures à mémoire partagée (grace à OpenMP).
Contenu du logiciel
Le logiciel est disponible sous forme de codes sources en C, C++, Fortran90, IDL/GDL, java et python. Dans chacun de ces languages sont disponibles
- une librairie d'outils (subroutines, fonctions, procédures, modules, classes, ... suivant les langages) couvrant l'ensemble des fonctionnalités décrites ci-dessus, ainsi que certaines tâches ancillaires (eg, lecture de fichiers de parametres),
- un jeu d'applications "prêtes à servir" basées sur cette librairie et mettant chacune en oeuvre une des fonctionnalités majeures d'HEALPix (génération ou analyse de cartes, filtrages, changements de résolution, visualisation, ...). Ces applications ont généralement pour interface un dialogue interactif ou un simple fichier ASCII de parametres. Les codes sources de ces applications peuvent servir de point de départ aux développements spécifiques des utilisateurs,
- une documentation en PDF et/ou HTML décrivant en détail l'interface de programmation, le fonctionnement et les limitations de chaque outil et de chaque application.
Enfin des outils (script interactif et Makefile) sont fournis pour prendre en charge et faciliter la compilation et l'installation d'une ou plusieurs des différentes librairies et applications, pour différentes combinaisons de materiels informatiques, systemes d'exploitations, compilateurs, ...
Developpements exterieurs
Deux types de développements exterieurs (définis comme ne faisant pas (encore) partie du logiciel HEALPix officiel décrit ci-dessus) peuvent etre distingués:
- additions de nouvelles fonctionnalités: par exemple de nombreux outils d'analyses basés sur les fonctionnelles de Minkowski, les ondelettes (iSAP, MRS, S2LET, SphereLab) ou l'identification de structure (DisPerSE) developpés par d'autres équipes de recherche peuvent être appliqués à des données pixellisées avec HEALPix,
- des traductions ou re-implementations d'une partie des fonctionnalités existantes: par exemple en Matlab/Octave (Mealpix) et Yorick (YHeal), voir liste (presque) complète.
La quatrième rencontre Mixmod (logiciel de classification supervisée et non supervisée pour les données quantitatives et qualitatives) est prévue le lundi 23 septembre 2013 à l'IHP à Paris.
Les objectifs de cette journée sont de présenter Mixmod (et ses nouvelles fonctionnalités) et de montrer des utilisations concrètes de Mixmod. Le logiciel Blockcluster, logiciel de classification croisée, sera également présenté.
Pour avoir plus d'informations et s'inscrire, cela se passe ici.
A partir de séquences pairées provenant du séquençage haut-débit et ayant préalablement été alignées contre un génome de référence, SVDetect permet de mettre en évidence des clusters de lectures pairées anormales (ordre, orientation des lectures ou distance entre les lectures) et d'en prédire une signature de variants structuraux tels que des insertions, délétions, inversions, duplications ou translocation intra- et inter-chromosomiques. Il permet ensuite de comparer les résultats avec un contrôle et de détecter les anomalies spécifiques d'un échantillon (Tumeur vs ADN contrôle).
Les réarrangements chromosomiques ainsi détectés peuvent ensuite être visualisés graphiquement via l'outil Circos ou sur le visualiseur de génome 'UCSC'.
SVDetect est compatible avec tout type de lectures appariées ("paired-end" ou "mate-pair") , de technologie de séquençage haut-débit (Illumina, SOLiD, PGM, ...) et de génome.
SVDetect permet aussi si nécessaire de dresser des profils de couverture et de pointer plus spécifiquement sur les pertes ou gains de portions génomiques à partir de l'information du nombre de copies.
Il est disponible sous la forme d'un script PERL et prend en charge le format BAM en entrée.
SVDetect est également disponible pour le toolshed de Galaxy.
R-commander est une interface graphique pour le logiciel R. Elle facilite l'apprentissage de ce langage de programmation en offrant à l'utilisateur la possibilité de réaliser l'importation de données, un certain nombre de traitements statistiques élémentaires ou plus avancés, l'export des résultats de manière interactive tout en indiquant les commandes R correspondantes. Des greffons peuvent être ajoutés pour réaliser d'autres traitements statistiques.
- Importation de données :
- depuis un fichier texte ; par copier-coller ; par URL (Windows, Mac, Linux)
- depuis des fichiers Excel, Access, dBase, SPSS, SAS, Minitab, STATA (Windows)
- depuis un paquet R
- Manipulation des données (sélection, réorganisation, édition directe, recodage...)
- Traitements statistiques :
- statistiques descriptives : moyenne, médiane, tableau de contingence
- tests paramétriques (tests t, ANOVA) et non paramétriques (Wilcoxon, Kruskal et Wallis)
- analyse de données : analyse en composantes principales, analyse factorielle, analyse discriminante, classification
- modélisation : régression linéaire, régression logistique simple, multinomiale et ordinale, modèles linéaires généralisés
- Représentations graphiques :
- diagramme en barres, en points, camembert, boîte à moustaches, histogramme, comparaison de quantiles...
- diagnostics de modèles
- les graphiques peuvent être copiés ou exportés dans un format vectoriel pour une meilleure qualité d'impression
- Probabilités, courbes de répartition et données aléatoires à partir de nombreuses distributions.
- Une trentaine de greffons disponibles fournissent d'autres possibilités d'analyses : analyse de durée/survie, analyse de données « à la française », analyse textuelle...
Importation depuis plusieurs formats courants ; exportation au format CSV ou TSV.
ROOT est une bibliothèque C++ destinée à l'analyse de larges volumes de données numériques. Écrit par et pour les physiciens des particules, ROOT est utilisé dans le cadre des principales expériences de physique des hautes énergies (LHC, Tevatron, SLAC...) depuis l'ère de HERA, par exemple par l'expérience H1 officiellement depuis 2000. ROOT est aussi utilisé par certaines communautés en biotechnologie et économie.
En résumé, ROOT sert
- au stockage efficace de volumes importants de données numériques sous forme de ntuples ou d'objets structurés.
- d'outil d'analyse de ces données. Pour les analyses simples, des fonctionnalités de visualisation interactive sont fournies. Une très riche API C++ est disponible pour les analyses plus complètes.
La taille et la modularité de la bibliothèque font de ROOT un outil flexible, mais nécessitant une connaissance du C++ pour une utilisation autre que superficielle.
Des interfaces en python et ruby rendent aussi ROOT utilisable à travers ces langages.
Les fonctions C++ sont accessibles à partir des langages C et FORTRAN moyennant une "traduction" (demangling, comme c++filt
) des noms des méthodes. Et de ce fait, les méthodes C++ de ROOT peuvent également être utilisées à travers ces langages classiques.
La bibliothèque est constituée essentiellement d'un ensemble d'objets C++ répartis en "modules".
Liste un peu plus détaillée de fonctionnalités :
- Sauvegarde et accès aux données numériques.
- Visualisation interactive sous diverses formes, en 1, 2 ou 3D : histogrammes, graphes, fonctions numériques, images. Export vers différents formats graphiques vectoriels et matriciels (voir détails et exemples dans le paragraphe "Interopérabilité").
- Méthodes statistiques et d'ajustements ("fits") avancées, via le sous-projet RooStat.
- Analyse discriminante multivariée (réseaux de neurones, rapports de vraisemblance, arbres de décision...), via le package TMVA.
- Système de calcul distribué sur plusieurs processeurs/cœurs : PROOF.
- Système complet d'interface graphique utilisateur (GUI).
- Nombreuses classes utilitaires de programmation (conteneur, chaîne de caractères), pour la physique (ex: vecteur de Lorentz) ou mathématiques (ex: matrices, opération sur les matrices).
- ...
Exemple de graphiques générées avec ROOT (CC BY-NC-SA/3.0, R. Brun) - cliquer pour un catalogue de captures d'écran :
ROOT contient un interpréteur de C/C++ (CINT) pour une utilisation interactive en mode ligne de commande. Il inclut un générateur de dictionnaire fournissant l'introspection et permettant d'utiliser interactivement n'importe quelle classe C++ (avec complétion des noms de symboles par la touche de tabulation). Grâce à cet interpéteur, ROOT peut être utilisé en trois modes complémentaires:
- Interprétation de lignes de commande, interprétées ligne par ligne et exécutées immédiatement
- Interprétation d'un "script" contenant des instructions C++, également interprétées ligne par ligne
- Compilation d'un bout de code source C++ valable, chargement dans la mémoire vive et mise à jour du dictionnaire des symboles, puis exécution directe ou via une instruction en ligne de commande qui fait appel aux symboles nouvellement chargés.
Selon la phase de développement d'un logiciel d'analyse, les trois modes rendent l'utilisation plus efficace et productive de la première ébauche jusqu'à la finalisation du code.
Le remplacement de CINT par l'interpréteur cling (basé sur LLVM) lors de la sortie de la version 6 de ROOT a été annoncé.
Illustration de l'utilisation de l'interpréteur interactif de ROOT pour générer des graphiques (CC BY-NC-SA/3.0, R. Brun) - cliquer pour un catalogue de captures d'écran :
Panoplie de graphiques 2D générées avec ROOT (CC BY-NC-SA/3.0, R. Brun) - cliquer pour un catalogue de captures d'écran :
D'autre part, il est possible de se servir de ROOT uniquement comme une bibliothèque exhaustive de fonctions, algorithmes de calcul et de statistiques ainsi que d'outils graphiques qui sont intégrés directement dans une nouvelle application autonome, compilée à partir de code source utilisateur.
Formats de données numériques :
- Natif 'ROOT': un format indépendent de l'architecture matériel et du système d'exploitation.
Typiquement le formatTTree
ouTNtuple
sont utilisé comme une sorte de standard de fait. - Certaines classes peuvent lire le csv.
- Interface pour base de données SQL.
- Mathematica (pour la version 5.30)
- Interface pour XML et des extensions comme GDML, utilisé dans Geant4.
- Des interfaces pour des structures simples de donnés tels que ceux crées par des générateurs de MonteCarlo, tels que Pythia.
Export graphique : jpeg, png, gif, svg, ps, eps, tiff, xpm, xml.
ROOT est un standard de fait pour tous les physiciens des particules (communauté de plus de 10 000 chercheurs en Europe) et leur collaborateurs. Le nombre de téléchargements a dépassé pour les seules sources du logiciel, la marque symbolique de 100 000 en 2011. De par son origine et sa conception il est particulièrement adapté au domaine. Il est utilisé quotidiennement et de façon satisfaisante (malgré certains points agaçants, c.f. ci-dessous) par nombre de ces chercheurs.
Quelques aspects critiquables résultent de la (trop) grande taille de la bibliothèque : syndrome de "ré-invention de la roue". Un exemple typique est le "ToolKit" graphique intégré qui parait peu abouti par rapport à des alternatives open source (GTK ou Qt).
En revanche, le projet évolue régulièrement et l'équipe de développement est réactive, il y a un bon soutien de la communauté.
BIRT permet de créer des états et des tableaux de bord. Un tableau de bord est une vue synthétique qui donne des informations consolidées, c'est une photo à un instant donné des indicateurs mesurant une activité.
BIRT est exploité par les services des Systèmes d'Information et à destination :
- des responsables, en tant qu'outil d'aide au pilotage et fournisseur de tableau de bord,
- des personnels "métier", en tant qu'outil de reporting opérationnel et fournisseur d'états.
BIRT est un projet Eclipse, le développement du tableau de bord est réalisé depuis l'IDE Eclipse. L'exploitation par les utilisateurs des tableaux de bord peut être réalisée depuis une application ou depuis un serveur web.
BIRT permet essentiellement :
- de se connecter à une source de données (fichier texte, XML, base de données relationnelle, etc),
- de définir les données que l'on désire exploiter (par exemple une requête SQL),
- de croiser différentes sources de données (jointures entre différentes bases de données),
- de réaliser des cubes (les données se déplient par clics successifs),
- d'appliquer des traitements (par exemple des statistiques),
- de présenter les données sous forme de tableau et de graphique.
BIRT répond à deux types d'utilisations possibles :
- toutes les fonctionnalités sont accessibles par les interfaces graphiques,
- et toutes les fonctionnalités peuvent être enrichies par programmation.
Les fichiers BIRT générés sont au format XML, le développeur peut, si nécessaire, les modifier. Les tableaux de bord sont dynamiques et peuvent recevoir des paramètres d'entrées saisis par l'utilisateur. Les tableaux de bord peuvent être exportés à différents formats (xls, csv, pdf).
Les graphiques proposés sont de types barre, courbe, zone, camembert, jauge, radar, etc.
BIRT supporte en entrée les connexions aux sources de données de type tableur comme Excel et Open Office, mais aussi de type JDBC vers Oracle, MySQL, PostgreSQL.
Pour l'exploitation des tableaux de bords, ils peuvent être déposés sur un serveur comme Tomcat par exemple ou intégrés dans une application Java.
- Le service des Systèmes d'Information du LAAS utilise BIRT pour produire un ensemble de tableaux de bord émanant des bases de données du personnel, des publications, des contrats, etc, ...
Les tableaux de bord sont utilisés par la direction et les responsables des services pour obtenir des renseignements structurés de l'activité du laboratoire dans le cas par exemple de l'évaluation AERES. - Dans le cadre du CEFE, nous souhaitons utiliser cet outil pour visualiser des données de nos bases de données scientifiques. La présence d'une maquette de tableaux croisés est le plus qui nous a fait retenir ce produit. Nous généraliserons son utilisation dès que nous serons arrivés à réaliser des mises en page adaptées à nos besoins.
Les utilisateurs finaux ne peuvent pas produire leur propre rapport facilement. Même si tout peut se faire par des clics de souris, une bonne connaissance technique est nécessaire, par exemple celle de SQL dans le cas d'une source de données de type base de données relationnelle ou celle de Javascript pour rendre les rapports dynamiques.
De plus, Eclipse est un environnement (IDE) dont la prise en main n'est pas forcément simple pour des personnes qui ne font pas de développement.
Lors du déploiement de rapports BIRT sur des serveurs d’applications (comme Tomcat ou JBOSS) via le composant BIRT Viewer pour fournir un accès aux rapports via un navigateur web, des problèmes de performance peuvent apparaître à partir d'un nombre d’utilisateurs clients élevés. Des solutions possibles sont : répartition de la charge en ajoutant des instances du serveur d'application ou passage à la version commerciale du BIRT Viewer.
Enfin, d'un point de vue architecture, les environnements sur lesquels BIRT est connecté peuvent être soumis à une forte charge si les requêtes créées sont trop volumineuses : un environnement dédié aux requêtes via BIRT, copie de l'environnement de production, est préconisé dans l'état de l'art.
MixNet signifie Mixture models for Networks. C'est un logiciel permettant d'établir une classification non supervisée des noeuds d'un graphe en utilisant un modèle de classification non supervisée fondé sur les mélanges de distributions. Ce modèle fait l'hypothèse que les noeuds du réseau d'intérêt sont répartis en plusieurs classes cachées (ou couleurs) qui mettent en lumière des profils de connectivité spécifiques. Nous proposons plusieurs algorithmes d'estimation des paramètres du modèle et des probabilités d'appartenance aux classes pour chaque noeud, ainsi qu'un critère statistique de choix du nombre de classes (couleurs).
- MixNet correspond au programme en ligne de commande,
- MixeR correspond au package R associé.
Des éléments pour la représentation des résultats (réseaux avec classes colorées) sont proposés.
Analyse statistique de réseaux biologiques et sociaux.