Fiche logiciel validé
  • Création ou MAJ importante : 01/02/08
  • Correction mineure : 24/06/08
Auteur :
  • David Allouche - BIA toulouse (INRA, INRIA, CNRS)
Contributions importantes :
  • Christophe Caron (MIG INRA Jouy-en-Josas)
Responsable thématique :
Ressources complémentaires :
Mots-clés

BioMAJ : moteur de workflows pour la synchronisation des données (en biologie notamment)

Description
Fonctionnalités générales :

BioMaJ (Biologie Mise A Jour) est un moteur de workflows dédié à la synchronisation puis au traitement de données. L’application peut gérer une masse de données importante et des workflows de post-traitements relativement complexes: typiquement, l’indexation de banques de données peut constituer un post-traitement. Une des motivations de son développement a été la mise en place d’une démarche qualité pour la maintenance des données de séquence biologiques.
Initialement conçue pour traiter des données de biologie, BioMaJ est généraliste et peut être utilisée dans tout domaine ayant à gérer des données massives et distribuées, qui nécessitent des consolidations puis des traitements.
Elle peut également être utilisée simplement pour synchroniser les données entre un appareillage disposant d’un server ftp et un serveur central unix: l’avantage est alors une traçabilité complète des sessions réalisées. Enfin dans un autre registre BioMaJ peut être utilisé pour déployer des données sur une frontale de calcul en vue de leur traitement.

Autres fonctionnalités :
  • Synchronisation
    • Support de protocoles variés (ftp, http, rsync , local copy)
    • Reprise sur erreur lors de la synchronisation et des post-traitements
    • Vérification de l’intégrité des données transférées
    • Multi threading
    • Normalisation de l’organisation des versions et des données
  • Post processing
    • Formalisme facile mais avancé de description de workflows (D.A.G)
    • Post-process d’indexation prêts à l’emploi pour de multiples applications bioinformatiques (blast, srs, fastacmd, readseq, etc.)
    • Intégration aisée de script de post- traitements personnel dans le langage de votre choix
  • Supervision
    • Génération automatique de rapports au format html
    • Graphe de suivi d’évolution du dépôt global
    • Graphe de suivi d’évolution individuelle pour chaque source maintenue
    • Envoi d’un courriel lors de l’exécution d’un cycle de mise à jour
    • Interrogation en ligne du contenu du dépôt

Un éventail important de fichiers de description de workflows pour la récupération et l’indexation de banques de données biologiques est disponible sur le site du projet (Genbank, PDB, EMBL, Swissprot, génômes complets, tant eucaryotes que procaryotes, ….). Des scripts d’indexation ou de conversion de format pour une dizaine d’outils bioinformatiques sont également mis à disposition.

Contexte d'utilisation :

BioMaJ est déjà utilisée par trois plates-formes bioinformatique depuis début 2007. Elle permet de maintenir environ une soixantaine de banques biologiques (genbank , embl, swissprot, genomes, pdb …) occupant 1,5 Téraoctets.
En résumé BioMaJ permet de:

  • Réaliser le mirroring de données distantes ou locales.
  • Automatiser des traitements sur les données (via des post-processus fournis ou vos propres script de traitement).
  • Si on inverse le référentiel, l’application peut être utilisée pour déployer des données en vue de leur traitement sur un serveur distant.

Vous pouvez consulter un rapport d’exécution en cliquant ici.

Limitations, difficultés, fonctionnalités importantes non couvertes :
  • Le mode proxy n’est pas supporté.
  • Le mode block de rsync n’est pas supporté.
Environnement du logiciel
Plates-formes :
  • BioMaJ a été développé en Ant et java, elle supporte donc une grande variété de systèmes UNIX : distributions linux, solaris, MacOS X, BSD.
  • L’application ne fonctionne pas sous les OS Microsoft car elle utilise des liens dans la phase de synchronisation des données.
Logiciels connexes :
  • Java
  • ant
  • wget
  • tar
  • gzip
  • bzip
  • unzip
Autres logiciels aux fonctionnalités équivalentes :

Pas d’équivalent incorporant l’ensemble des fonctionnalités.

Environnement de développement
Type de structure associée au développement :

BioMAJ est le fruit d’une collaboration entre des membres issus de 3 équipes de recherche françaises :

Eléments de pérennité :
  • Technologie java
  • Protocoles de communication standards
Références d'utilisateurs institutionnels :

L’application est utilisée sur trois plates-formes bioinformatiques françaises (INRA, INRIA, CNRS) pour assurer la maintenance des principales banques de données biologiques mises à disposition par la communauté scientifique internationale.

Environnement utilisateur
Liste de diffusion ou de discussion, support et forums :
Documentation utilisateur :
  • Un manuel d’utilisation complet ainsi qu’un tutoriel d’installation sont disponibles sur le site.
  • L’application est distribuée avec un ensemble d’exemples de workflows de maintenance des principales banques de données biologiques.
  • Plusieurs post-processus sont également disponibles.
Contributions :

L’objectif de la fiche plume est de promouvoir l’utilisation de BioMAJ et éventuellement de mutualiser les workflows de maintenances de sources de données pour les banques de données publiques (en biologie ou autres disciplines: chimie , physique, spatial, …).
Les besoins de contribution sont :

  • Ecriture de nouveaux workflows pour des sources de données publiques en biologie, mais surtout dans d’autres disciplines
  • Ecriture de scripts de pré ou post-processus pour effectuer des traitements métiers sur les données.
  • Développement d’interfaces hommes-machines pour l’édition de workflows.

Si vous voulez contribuer, vous pouvez contacter les membres du projet à l’adresse mail : biomaj_AT_genouest.org

Commentaires

Autres fiches PLUME connexes

Mot Clé fonctionnalités principales=workflow
http://www.projet-plume.org/fonctionnalites-princi...