BioMaJ (Biologie Mise A Jour) est un moteur de workflows dédié à la synchronisation puis au traitement de données. L’application peut gérer une masse de données importante et des workflows de post-traitements relativement complexes: typiquement, l’indexation de banques de données peut constituer un post-traitement. Une des motivations de son développement a été la mise en place d’une démarche qualité pour la maintenance des données de séquence biologiques.
Initialement conçue pour traiter des données de biologie, BioMaJ est généraliste et peut être utilisée dans tout domaine ayant à gérer des données massives et distribuées, qui nécessitent des consolidations puis des traitements.
Elle peut également être utilisée simplement pour synchroniser les données entre un appareillage disposant d’un server ftp et un serveur central unix: l’avantage est alors une traçabilité complète des sessions réalisées. Enfin dans un autre registre BioMaJ peut être utilisé pour déployer des données sur une frontale de calcul en vue de leur traitement.
Un éventail important de fichiers de description de workflows pour la récupération et l’indexation de banques de données biologiques est disponible sur le site du projet (Genbank, PDB, EMBL, Swissprot, génômes complets, tant eucaryotes que procaryotes, ….). Des scripts d’indexation ou de conversion de format pour une dizaine d’outils bioinformatiques sont également mis à disposition.
BioMaJ est déjà utilisée par trois plates-formes bioinformatique depuis début 2007. Elle permet de maintenir environ une soixantaine de banques biologiques (genbank , embl, swissprot, genomes, pdb …) occupant 1,5 Téraoctets.
En résumé BioMaJ permet de:
Vous pouvez consulter un rapport d’exécution en cliquant ici.
Commentaires
Autres fiches PLUME connexes
Mot Clé fonctionnalités principales=workflow
http://www.projet-plume.org/fonctionnalites-princi...