MACS
MACS est un logiciel qui permet principalement d'identifier les inter-actions des protéines avec l'ADN ou des marques d'histones à partir des données obtenues par séquençage haut-débit (ChIP Seq) avec ou sans référence.
Deux versions sont actuellement disponibles :
- 1.4.2 pour la recherche de facteurs de transcription.
- 2.0 pour la recherche de pics plus larges, tels que pour les marques d'histones (H3K27me3) ou la RNA Polymerase par exemple.
MACS modélise localement le signal en l'approximant via une loi de Poisson, puis calcule la probabilité d'avoir par chance un nombre de "reads" supérieur à celui induit par le modèle. L'algorithme utilise un mécanisme de fenêtres glissantes :
- Si une référence est fournie ("two samples") ce modèle est calculé sur le contrôle dans des fenêtres de 1kb, 5kb et 10kb, ainsi que sur l'ensemble du génome.
- Si aucune référence n'est fournie ("one sample") ce modèle est calculé dans des fenêtres de 5kb et 10kb, ainsi que sur l'ensemble du génome.
Dans les 2 cas, la fenêtre choisie est la fenêtre proposant la densité de "reads" (paramètre lambda de la loi de Poisson) la plus élevée.
Dans le cas d'une expérience avec référence, MACS normalise les signaux. Pour les rendre comparables, il amplifie ou diminue linéairement les "reads" obtenus afin d'obtenir un "coverage moyen" équivalent.
L'utilisateur peut faire varier différents paramètres. Citons par exemple la stringence de détection des pics (option --pvalue), la taille du génome que MACS va considérer (--gsize, qui fait varier le paramètre de la loi de Poisson globale), la taille des fenêtres pour le calcul de la densité locale des "reads" (--lambdaset), etc... Ils permettent d'affiner la détection des pics en fonction du profil du signal brut.
L'utilisateur obtient ensuite, pour chaque pic prédit, sa position, son sommet, la p-value associée, le "fold enrichment" (nombre de "reads" du pic rapporté à la densité calculée localement), et le "FDR" (taux de découverte des faux positifs) dans le cas où une référence est fournie. Il est également possible d'obtenir des fichiers permettant de visualiser la distribution de la densité des "reads".
MACS prend au choix en entrée plusieurs types de fichiers :
- Formats de sortie ELAND (logiciel d'alignement propriétaire d'Illumina ® ELAND, ELANDMULTI, ELANDMULTIPET, ELANDEXPORT)
- Format SAM
- Format BAM
- Bowtie
- Format BED (6 colonnes)
En sortie, MACS propose la sortie des données normalisées sous format wig ou BedGraph.
MACS est utilisé à l'Institut de Génétique Humaine dans le cadre d'analyses ChIP Seq avec contrôle.
Le choix s'est porté sur MACS car il se révélait plus sensible que Cisgenome dans la détection des pics dans le cadre d'une expérience avec référence pour le type d'application étudiée.
Il est également utilisé sur la plateforme de services en génomique MGX à Montpellier.
- Ce logiciel ne possède pas d'interface graphique proposé par le site web du logiciel et nécessite d'écrire des scripts. Il est donc destiné à être utilisé par des bioinformaticiens et non des biologistes. Cependant, la dernière version de Galaxy intègre MACS en tant que service web.
- La détection de pics est moins efficace si l'on n'utilise pas de référence.