Fiche logiciel validé
  • Création ou MAJ importante : 06/05/08
  • Correction mineure : 06/05/08
Auteur :
  • Christophe Caron - MIG (INRA)
Relecteur(s) :
Responsable thématique :
Ressources complémentaires :
Mots-clés

EMBOSS : suite logicielle pour les analyses bioinformatiques

Description
Fonctionnalités générales : 

EMBOSS (European Molecular Biology Open Software Suite) est une suite logicielle dédiée aux analyses bioinformatiques. Elle offre un ensemble d’outils d’analyse de séquences (protéiques ou nucléiques) permettant de réaliser un grand nombre de tâches bioinformatiques.
Elle est composée de 212 applications offrant une couverture fonctionnelle relativement large avec aussi bien des utilitaires de conversion et de manipulation de séquences, que des outils d’alignements (locaux, globaux), en passant par la recherche de motifs.
Elle propose également la gestion de banques de séquences qui sont indexées pour être utilisées par les programmes de la suite.

  • Une dizaine d’outils supplémentaires (Phylip, MEME…) sont également intégrés mais en conservant leur propre licence (EMBASSY).
  • Le niveau d’intégration des outils est relativement poussé et on retrouve tous les avantages inhérents à ce type d’approche comme la normalisation des options et un format de documentation unique.
Autres fonctionnalités: 
  • Outils pour la visualisation des sorties brutes
  • Indexation de banque de données quelque soit le format (Fasta, EMBL…)
  • Standardisation des passages de paramètres
  • Différents types d’options pour tous les outils : obligatoires, globales et facultatives
  • Documentation systématiquement illustrée par des exemples
  • La documentation est accessible en ligne de commande (ex: tfm water) et en ligne au format HTML
Interopérabilité: 
  • EMBOSS a pour avantage de ne pas utiliser un format de donnée supplémentaire. Il reconnaît les principaux formats de données comme FASTA ou CLUSTALW, mais aussi tous les formats GCG (RSF, MSF…).
  • Un langage de description (ACD) est utilisé pour décrire les commandes, leurs paramètres et les dépendances entre les options. Ce langage permet de déployer automatiquement les outils EMBOSS sous la forme de Web Services grâce au toolkit SoapLab.
Contexte d'utilisation: 

La suite peut s’utiliser en fonction des besoins mais aussi du type d’utilisateurs :

  • L’utilisateur occasionnel peut utiliser les différentes interfaces graphiques (JEMBOSS, Emboss Explorer…) pour bénéficier d’un accès convivial
  • Une utilisation en mode ligne de commande permet l’analyse de gros volumes de données, et un premier niveau d’automatisation
  • Une intégration des différentes commandes dans des pipelines ou scripts pour des analyses récurrentes est aussi possible
Limitations, difficultés, fonctionnalités importantes non couvertes: 
  • Pas d’outils couvrant les problématiques d’assemblage de séquences
  • Pas d’outil de calcul d’alignement multiple mais le programme ClustalW est néanmoins intégré à la suite grâce au wrapper EMMA
  • BLAST n’est pas intégré
  • L’indexation des banques de données ne peut se faire que sur 5 champs définis au maximum ce qui rend EMBOSS moins puissant que des outils dédiés à la recherche dans les banques comme SRS
  • Des outils comme seqret sont moins performants que des appels BioPerl ce qui peut-être pénalisant dans une approche d’automatisation forte
  • La seule interface graphique native (JEMBOSS) n’offre pas un accès à toutes les options
  • On ne trouve pas toujours les dernières méthodes ou algorithmes, par exemple pas d’outils d’alignement de génomes.
  • Il y a souvent un décalage entre les versions des outils du paquetage EMBASSY et leur dernière version non intégrée à EMBOSS
  • Les versions WEB proposées sont des contributions ce qui implique parfois un décalage avec la sortie des nouvelles versions.
Environnement du logiciel
Distributions dans lesquelles ce logiciel est intégré: 

On trouve des paquetages EMBOSS sous la forme de contributions pour la plupart des distributions Linux.

Plates-formes : 

Linux RedHat 4.x
Doit fonctionner sur tous les systèmes Linux sans problèmes.

Logiciels connexes: 

Pise, et désormais Mobyle (Letondal et al.) proposent une description des applications EMBOSS au format XML mais également un générateur de formulaires web à partir de ces descriptions.

Autres logiciels aux fonctionnalités équivalentes: 

La suite commerciale (obsolète) GCG est certainement l’outil le plus proche.

Environnement de développement
Eléments de pérennité: 

Depuis l’abandon du soutien du “Medical Research Council” en 2005 aux développements EMBOSS, une communauté s’est recréée autour de cette suite avec succès puisque de nouvelles versions sont apparues depuis cette date.
Le projet est sur sourceforge.

Références d'utilisateurs institutionnels: 
  • L.I.P.M. (labo INRA-CNRS)
  • Plateforme bioinformatique MIGALE (INRA Jouy-en-Josas)
  • Plateforme bioinformatique GenOuest (INRIA Rennes)
Environnement utilisateur