Apollo
Apollo est un "genome browser" permettant de visualiser l'annotation structurale d'une séquence (chromosome, scaffold, BAC, etc) ainsi que tout autre type de données, par exemple des homologies (résultats de BLAST, d'alignement d'EST), des régions répétées ou des résultats de prédicteurs de gènes. Apollo permet de naviguer simplement le long de la séquence, de zoomer sur une région et de rechercher des annotations.
Apollo est aussi une "plateforme d'annotation" qui permet de modifier l'annotation structurale :
- de créer et de supprimer une annotation,
- de modifier la structure intron/exon et la position du start d'un gène,
- de fusionner ou scinder des gènes,
- d'ajouter des commentaires (état d'avancement de l'annotation, synonyme, ...)
Depuis la version 1.11.0, la fenêtre 'Sequence Aligner' permet d'éditer la structure des gènes en s'appuyant sur des données d'alignement (résultats de prédicteurs de gènes, données RNASeq, ..)
Apollo permet également d'extraire et de sauvegarder des sous-séquences au format FASTA, par exemple le CDS ou la séquence protéique d'un gène (ou de plusieurs gènes).
Apollo propose différents formats d'entrée et de sortie. En particulier, Apollo peut se connecter à une base de données générique de type chado (cf. projet GMOD) pour en extraire les features correspondant à la région demandée (choix des features à extraire de la base à définir dans le fichier /chemin/Apollo/conf/chado-adapter.xml, représentation des features/pistes à définir dans les fichiers .tiers et .style).
L'affichage est personnalisable :
- La couleur des pistes est paramètrable (une piste représente un type de données)
- Les pistes, les codons start/stop peuvent être masqués ou affichés
- La séquence peut être reverse complémentée, un seul des deux brins peut être visualisé
L'affichage varie en fonction de la cohérence des données : par exemple, si un codon start n'est pas un codon standard, alors un symbole particulier s'affiche. Si la phase exonique n'est pas respectée, un petit triangle jaune apparaît en début ou fin d'exon.
Autres fonctionnalités :
- Exécution de NCBI Blast et NCBI Primer Blast
- Visualisation de synténie (toujours en développement)
- Recherche de sites de restriction et export des fragments digérés
- Visualisation de courbes et des sites d'épissage potentiels
- Visualisation et calcul d'"alignements" multiples via le logiciel JalView, intégré dans Apollo. Toutes les fonctionnalités de JalView ne sont pas disponibles.
Formats d'entrée/sortie :
- GAME XML
- Chado XML
- GFF/GFF3
- GenBank / EMBL
- Base de données CHADO
Sources de données, formats de fichiers uniquement d'entrée :
- Base de données Ensembl
- Sorties d'outils d'analyse de séquences (BLAST, sim4, blat, FgenesH, Genscan, tRNAscanSE, RepeatMasker) Cela ne fonctionne pas toujours car les formats de sortie des logiciels évoluent.
- GAME synteny, format pour charger des synténies
Il est possible d'intégrer successivement des données provenant de différentes sources.
Il faut être prudent lors de la sauvegarde : sauvegarder des données dans certains formats peut entrainer des pertes de données, voire des erreurs. Les développeurs d'Apollo travaillent sur ces problèmes.
Apollo est utilisé dans différents contextes :
- Dans plusieurs projets d'annotation de génome (Flybase, Wormbase, TAIR, ...) pour visualiser l'annotation structurale de régions génomiques.
Apollo a été choisi d'une part parce que son interface est conviviale, paramétrable et offre des fonctionnalités pour corriger rapidement la structure d'un modèle de gène, d'autre part parce qu'il permet de charger des données provenant d'une base de données CHADO (base de données générique pour la gestion des annotations d'un génome). - Dans le cadre de la recherche d'ARN non codant
Une grande quantité d'information est disponible pour aider à identifier des ARN non codants sur une séquence génomique : prédictions automatiques, terminateurs de transcription, courbe de l'énergie libre, etc. Afin de disposer d'un environnement de visualisation qui aide un biologiste à intégrer ces données hétérogènes, l'unité INRA BIA a fait en 2005 une étude comparative de plusieurs Genome Browsers et a sélectionné Apollo qui etait le plus adapté aux besoins, en particulier parce qu'il lit de nombreux formats de données et qu'il est extensible. A alors débuté le projet ApolloRNA http://carlit.toulouse.inra.fr/ApolloRNA/ extension d'Apollo pour aider à l'identification d'ARN non codant. ApolloRNA intègre par exemple l'affichage de la structure secondaire d'une séquence et la recherche d'interactions ARN/ARN.
La conversion de données dans différents formats ne fonctionne pas toujours correctement. Des informations peuvent être perdues ou corrompues.