choisir des alignements de référence de haute qualité pour l’analyse comparative
différents repères entraînent souvent des paramètres optimaux contrastés (p. ex., pénalités d’ouverture et d’extension d’écart) et un classement Pour ces raisons, le choix du benchmark est de la plus haute importance lors du développement et de la comparaison d’algorithmes pour l’alignement des séquences., Pour choisir des points de repère d’alignement pour cette étude, j’ai commencé par comparer la concordance des structures secondaires entre les points de repère communs. Cette méthode de comparaison exige que la structure secondaire des séquences de référence soit disponible, ce qui exclut les repères BAliBASE populaires car la structure secondaire correspondante de la plupart des séquences BAliBASE est inconnue . Bien que l’accord sur la structure secondaire ne suffise pas à lui seul à assurer un indice de référence de haute qualité, l’absence d’accord peut indiquer une inexactitude de l’alignement.,
on s’attend à ce que de meilleurs alignements de référence aient un plus grand pourcentage de résidus alignés avec une structure secondaire identique. Cependant, un certain désaccord sur la structure secondaire est prévu en raison à la fois des difficultés intrinsèques dans l’attribution de la structure secondaire et des défis inhérents à l’alignement des structures tertiaires distantes . La Figure 1 montre la fraction de l’accord de structure secondaire par rapport à l’identité de séquence par paire pour quatre repères d’acides aminés communs., Les repères SABmark et PREFAB contiennent la plus grande fraction de leurs séquences dans ou en dessous de la « zone crépusculaire” de 20 à 35% d’identité de séquence, tandis que L’accent D’OXBench est mis sur des alignements moins difficiles. PREFAB semble être significativement mieux aligné dans l’ensemble que SABmark, malgré les deux références couvrant une plage similaire d’identités de séquence. Pour les séquences avec moins de 10% d’identité, PREFAB a une identité structurelle 13,4% plus grande (p < 1e-15) Que SABmark., Ces résultats sont en accord avec une étude précédente qui a révélé que PREFAB était la meilleure référence conçue spécifiquement pour comparer les programmes MSA, bien que PREFAB soit connu pour contenir des erreurs .
Toutes les colonnes des alignements ont été utilisées pour évaluer la précision globale de chaque repère plutôt que d’utiliser uniquement des blocs de base (régions homologues), qui sont généralement délimités par des lettres majuscules., Le choix d’utiliser l’alignement entier a été fait parce que: (i) La définition des blocs de base varie entre les repères, (ii) certaines procédures de notation utilisent l’alignement entier , (iii) la distance par paire est calculée en utilisant l’alignement entier, et (iv) les repères HOMSTRAD et SABmark ne délimitent pas les blocs de base. Les blocs de base en préfabriqué ont été attribués en fonction de l’accord entre deux programmes d’alignement structural différents., Cela m’a motivé à regarder la différence entre les repères originaux et les mêmes séquences réalignées avec le programme D’alignement structurel indépendant de la séquence MUSTANG . Les réalignements avec MUSTANG présentaient une plus grande congruence structurelle secondaire que les repères originaux, sauf dans le cas de HOMSTRAD (fig. 1). En particulier, SABmark avait 11,2% d’identité de structure secondaire supérieure après réalignement avec MUSTANG (p < 1e-15)., Ce résultat soutient l’utilisation de la base de données HOMSTRAD comme référence d’alignement, même si elle n’était pas prévue à l’origine à cette fin.
étant donné que le nombre de séquences dont la structure est connue est faible par rapport au nombre de séquences disponibles, la plupart des repères sont complétés par des séquences non alignées supplémentaires qui ne sont pas prises en compte dans la notation. Les alignements de référence préfabriqués sont complétés par des séquences supplémentaires trouvées à l’aide de recherches PSI-BLAST avec les séquences de référence. Les séquences HOMSTAD sont généralement complétées par d’autres séquences appartenant à la même famille de Pfam ., J’ai comparé ces deux approches en sélectionnant aléatoirement des séquences de la famille Pfam correspondant aux séquences de référence préfabriquées. Après avoir généré un alignement avec le même nombre de séquences supplémentaires, un arbre de jointure voisin a été construit pour déterminer la largeur des séquences ajoutées. La longueur moyenne de l’arbre était 1,6 fois plus longue pour les séquences Pfam aléatoires que celles incluses avec PREFAB (p < 1e-15)., Cela indique que l’extension de l’ensemble d’entrée d’une manière qui ne dépend pas directement des séquences de référence entraîne la plus grande diversité de séquences supplémentaires.
on ne sait pas quel repère de référence reflète le mieux les séquences d’un utilisateur typique, et la grande diversité des applications MSA couvre probablement la plupart des scénarios d’alignement trouvés dans les repères. Les ensembles SABmark couvrent une gamme étroite d’identités de séquence, tandis Qu’OXBench se concentre sur des séquences étroitement liées qui sont plus faciles à aligner., En raison de la qualité de l’alignement et de l’étendue des identités de séquence, j’ai choisi de poursuivre le reste de cette étude avec des versions légèrement modifiées des ensembles de données PREFAB et HOMSTRAD d’origine, appelées PREFAB-mod et HOMSTRAD-mod (voir méthodes). Pour compléter les benchmarks modifiés, j’ai ajouté des séquences complètes appartenant à la même famille Pfam. Des séquences complètes ont été utilisées plutôt que seulement le domaine partagé pour rendre les alignements plus difficiles et pour représenter une plus grande variété de scénarios d’utilisation potentiels., Souvent, les séquences alignées ont des longueurs variables parce qu’elles couvrent des régions qui se chevauchent d’un gène, ou ont été coupées différemment en fonction de leurs scores de qualité à chaque extrémité.
incorporation évolutive de la structure secondaire dans l’alignement
malgré le lien étroit entre la structure secondaire et l’alignement des séquences, la plupart des programmes d’alignement des protéines populaires ne prédisent pas l’information structurelle., Le principal inconvénient de la prédiction de structure secondaire est qu’elle est lente à calculer avec précision, ce qui l’empêche de s’adapter à l’alignement de centaines de séquences dans un laps de temps raisonnable . Des prédictions de structure secondaire moins précises peuvent être obtenues très rapidement en utilisant des approches à séquence unique qui ne reposent pas sur la construction d’un alignement multiple avec des séquences homologues. La méthode GOR est l’une des plus précises étant donné une seule séquence ., Dans cette méthode, la structure secondaire est assignée à l’un des trois états suivants: hélice (H), feuille (E) ou bobine (C) en fonction du contexte de séquence locale entourant un résidu. Cette approche a l’avantage d’être extrêmement rapide (< 1 % du temps requis pour l’alignement), fournit une valeur de probabilité pour chaque état, et offre environ 65 % de précision .,
pour intégrer les prédictions de structure secondaire dans le cadre de programmation dynamique pour l’alignement profil-profil, j’ai ajouté une nouvelle matrice symétrique 3 × 3 représentant les log-chances d’aligner un H, E ou C dans une séquence avec une autre position assignée à H, E ou C dans une deuxième séquence. Le couplage de cette matrice avec la probabilité attribuée à chacun des trois états structuraux a permis l’alignement profil-profil des structures secondaires., Le score obtenu en alignant des profils de structure secondaire a augmenté le score traditionnel basé sur la matrice de substitution déterminé à partir des séquences primaires (voir le texte supplémentaire du fichier 1). De cette façon, l’accord de structure primaire et secondaire peut être maximisé simultanément.
la Figure 2 montre un exemple d’alignement de la famille de protéines lactate/malate déshydrogénase (PFAM accession no. PF00056; famille HOMSTRAD « LDH ») obtenue en utilisant cette approche., Les affectations DSSP sont en accord général dans L’alignement HOMSTRAD-mod, qui est basé sur les structures tertiaires connues de ces protéines. Les prédictions faites avec la méthode GOR reflètent ces affectations de structure secondaire avec quelques divergences. Les prédictions GOR guident L’alignement de déchiffrement, qui correspond exactement à l’alignement de référence dans les régions définies comme des blocs centraux, désignés par des lettres majuscules dans l’alignement supérieur de la Fig. 2., Les régions de l’alignement de référence qui se trouvent en dehors des blocs de base ne sont pas utilisées pour déterminer la précision et diffèrent de la sortie de déchiffrement dans certaines colonnes.
un avantage de l’utilisation d’une petite matrice de structure secondaire 3 × 3 est que le nombre de paramètres libres est bien supérieur au nombre de points de données informatifs, ce qui rend l’erreur d’estimation négligeable (fichier supplémentaire 1: Figure S1)., Pour trouver des valeurs optimales pour chacun des 6 paramètres distincts de la matrice, j’ai effectué une recherche de grille pour la solution qui a abouti aux alignements de meilleur score basés sur la somme du score Q et du score M sur un sous-ensemble de HOMSTRAD-mod composé de 238 ensembles de référence. À l’optimum entre le sur-alignement et le sous-alignement, tout gain En Q-score est compensé par la perte correspondante en m-score, et vice-versa. La matrice de structure secondaire optimisée est illustrée à la Fig. 3a., Les États E sont très susceptibles d’être alignés, comme en témoigne la contribution importante des appariements E/E au score de la structure secondaire. La méthode GOR tend à sous-prédire les feuillets β, ce qui entraîne une faible fraction d’États E dans la plupart des séquences .
ensuite, j’ai demandé si l’incorporation de la structure secondaire améliorait l’alignement des séquences et comment cela s’adaptait au nombre de séquences alignées. En moyenne pour toutes les tailles d’ensembles de séquences, l’incorporation de la structure secondaire a entraîné une amélioration de 5,3% du score Q sur PREFAB-mod et de 2,1% sur HOMSTRAD-mod. Cette augmentation substantielle du score Q s’est faite au détriment d’un 0.,Diminution de 4% du score M sur PREFAB-mod et de 0,3% sur HOMSTRAD-mod. Par conséquent, la fraction d’homologies correctement alignées a légèrement diminué, tandis que le nombre total d’homologies correctement alignées a considérablement augmenté. Sans surprise, les gains les plus importants ont été enregistrés sur des ensembles de références divergents où il y a le plus de marge d’amélioration, et pratiquement aucun gain n’a été réalisé sur des références avec une distance moyenne inférieure à 60% entre les paires (Fig. 3b)., Les prédictions de structure secondaire ont fourni un plus grand avantage sur PREFAB-mod parce qu’une plus grande fraction de ses séquences de référence sont distantes de plus de 60%.
fait intéressant, l’amélioration de l’incorporation de la structure secondaire a augmenté à mesure que plus de séquences étaient alignées (Fig. 3c). Sur les plus petits ensembles de 2 séquences, il y avait une amélioration de 3,4% sur PREFAB-mod et de 1,2% sur HOMSTRAD-mod. Sur les grands ensembles de séquence 4,000, l’avantage a augmenté à 8.5% et 3.3%, respectivement., Par conséquent, l’incorporation de la structure secondaire a partiellement contrecarré la diminution du score qui est généralement observée avec des alignements plus importants . Ce comportement reflète celui de la prédiction de structure secondaire, où la précision augmente à mesure que plus de séquences sont utilisées dans le calcul . Pour cette raison, les algorithmes de prédiction de structure secondaire les plus précis utilisent plusieurs alignements. De même, ici, les prédictions initiales de structure secondaire manquent de précision puisqu’elles sont obtenues à partir de séquences uniques., Comme plus de séquences sont alignées, ces probabilités sont moyennées pour augmenter leur précision et mieux guider l’alignement. Cela contraste avec la séquence primaire, où des séquences supplémentaires entraînent inévitablement plus d’ambiguïté, ce qui provoque en partie une perte de signal qui se manifeste par un alignement de mauvaise qualité des profils Ambigus.,
y compris un modèle de probabilité indel pour améliorer le positionnement de l’écart
motivé par l’amélioration obtenue en incorporant le contexte de séquence locale via des prédictions de structure secondaire, j’ai ensuite demandé si la même approche pouvait être appliquée au placement de l’écart. Des recherches antérieures ont révélé que les insertions et les délétions (indels) sont plus susceptibles de se produire à proximité de certains acides aminés et dans les régions de bobine exposées ., Pour cette raison , il est courant de diminuer le coût de l’ouverture d’un espace dans les étirements hydrophiles, ou alternativement d’augmenter le coût dans les régions hydrophobes qui sont susceptibles d’être enterrées dans le noyau contraint de la protéine. À ma connaissance, un modèle plus sophistiqué de probabilité d’écart basé sur le contexte local n’a pas été appliqué à l’alignement de séquence. À cette fin, j’ai utilisé la base de données One Gap pour calculer la fréquence relative des événements indel en fonction des résidus à gauche et à droite d’un espace central., Ces informations de fréquence ont ensuite été converties en scores log-odds en fonction de la fréquence de fond de chaque acide aminé.
la Figure 4 montre la contribution des acides aminés proches à la probabilité d’un écart à la position zéro. Comme prévu, les résidus hydrophobes (FMILYW) diminuent considérablement la probabilité d’un écart. Les résidus hydrophiles et « brisant la structure” (p. ex., P) augmentent le risque d’un espace adjacent, mais avec moins d’effet que les résidus hydrophobes., Étant donné que les scores log-odds sont dans les mêmes unités que la matrice de substitution (troisièmes bits), ils peuvent être directement appliqués pour moduler les coûts d’ouverture et de fermeture d’écart à n’importe quelle position en fonction de son contexte de séquence locale (fichier supplémentaire 1: Tableau S1). J’ai évalué différentes tailles de fenêtre pour inclure ces informations et j’ai constaté que la meilleure fenêtre s’étendait de la position -4 à +4 par rapport à l’espace central. Par conséquent, le coût de création d’un écart à n’importe quelle position est le coût d’écart initial plus un score qui est modulé en fonction des résidus de chaque côté de l’écart (voir le fichier supplémentaire 1).,
ensuite, j’ai calculé des scores log-odds pour les résidus opposés à l’écart (dans la séquence non mappée), et j’ai constaté que ces positions présentaient un faible biais dans la teneur en acides aminés (fichier supplémentaire 1: Tableau S1). Il y avait une corrélation modérée entre les scores log-odds pour les positions à gauche ou à droite de l’écart et les résidus opposés à l’écart (R2 de 0,69 et 0,64, respectivement)., Cependant, dans ce cas, il n’y avait pas de différence apparente entre les emplacements dans la région amputée. Pour cette raison, j’ai choisi de moduler simplement le coût d’extension de l’écart en fonction des scores moyens pour les résidus « espacés” de manière indépendante de la position. Dans l’ensemble, Ce modèle probabiliste d’ouverture et d’extension d’un écart ajuste la pénalité d’écart dans une fourchette d’environ +/- 20% à chaque position.
pour développer ce modèle de placement d’écart basé sur le contexte de séquence locale, j’ai ensuite étudié l’effet des motifs de séquence courte., Les répétitions sont une source majeure de variation de longueur dans les séquences biologiques et se trouvent généralement dans toutes les branches de la vie . Les répétitions ont une grande variété de formes, y compris De courtes répétitions microsatellites d’un seul codon et des répétitions tandem plus longues de régions qui peuvent évoluer par mutation pour devenir incompatibles avec le temps . Les répétitions plus longues peuvent être alignées avec des programmes spécialisés qui utilisent des algorithmes de recherche de répétition en tandem . Les modèles courts sont généralement négligés comme insignifiants par ces programmes en raison de leur occurrence fréquente dans les séquences., Cependant, Chang et Benner ont constaté que de courtes répétitions de dipeptides (par exemple, AA) étaient plus fréquentes que prévu autour des lacunes, offrant potentiellement un moyen de moduler les coûts des lacunes. Pour étudier cet effet, j’ai examiné l’occurrence de différents modèles de séquence dans la base de données One Gap.
Les répétitions Dipeptidiques (séries de 2 acides aminés identiques) entourant les lacunes n’étaient que légèrement plus probables (< 1 troisième bit) que prévu par hasard. Cependant, les écarts étaient beaucoup plus susceptibles de se produire autour de séries de trois ou plus (p. ex., AAA), comme le montre le fichier supplémentaire 1: Figure S2., Cet effet a été particulièrement prononcé dans la séquence sans espace, ce qui indique que des espaces sont souvent présents parce qu’une séquence a une durée plus longue qu’une autre. Étonnamment, les écarts étaient moins susceptibles de se produire à la position après le début d’une course dans la séquence adverse (p. ex., AA/A-), quelle que soit la longueur de la course. Bien que le mécanisme de cette occurrence soit inconnu, il peut être dû à un rôle biologique des répétitions dipeptidiques qui entraîne leur conservation. Une étude similaire de répétitions hétéropeptidiques avec périodicité 2 (par exemple,, ACAC) à 6 n’a pas révélé un fort biais à l’égard des lacunes (fichier supplémentaire 1: Figure S2). Par conséquent, j’ai choisi d’étendre le modèle d’écart pour moduler le coût d’ouverture d’écart aux positions avant et immédiatement après le début d’une course dans la séquence adverse.
dans l’ensemble, l’utilisation de ce modèle de placement d’écart a entraîné une amélioration modeste de 0,5% sur PREFAB-mod (p< 1e-4) et de 0,3% sur HOMSTRAD-mod (p< 1e-3). Les améliorations du score Q ont été assorties d’augmentations de 0,2% du score M sur les deux indices de référence., Ces changements dans le score étaient inattendus, car les repères structurels ne tiennent pas compte de la plupart des régions espacées , car ils se produisent souvent dans des parties de la structure difficiles à superposer, et les répétitions ont tendance à se trouver dans des régions protéiques désordonnées . Bien que les simulations évolutives offrent un moyen de marquer les régions écartées, de telles simulations n’incluent actuellement pas de modèle de probabilité d’écart dépendant du contexte., Par conséquent, il est possible que le placement des écarts se soit amélioré plus que ne le reflète la modeste augmentation des scores, mais il n’existe actuellement aucun moyen adéquat de mesurer l’avantage réel d’intégrer un modèle d’écart sophistiqué dans l’alignement.
comparaison de DECIPHER avec d’autres programmes pour MSA
ayant réussi à intégrer la prise de conscience du contexte dans le logiciel DECIPHER pour l’alignement des séquences, j’ai ensuite comparé ses performances à d’autres programmes d’alignement de pointe., Tout d’abord , j’ai choisi de comparer DECIPHER à trois programmes populaires capables d’aligner efficacement des milliers de séquences: Clustal Omega , MAFFT et MUSCLE . Ces programmes sont régulièrement utilisés dans une variété d’études différentes et sont devenus la norme de facto pour la comparaison des points de référence. La Figure 5 montre les performances de chaque programme par rapport au déchiffrement pour un nombre croissant de séquences d’entrée., Le classement des performances est en fort accord entre les benchmarks HOMSTRAD-mod et PREFAB-mod, mais il y a un plus grand écart entre les programmes sur PREFAB-mod car il contient une plus grande fraction de séquences dans ou en dessous de la zone crépusculaire.
lorsque seulement deux séquences ont été alignées à partir de chaque benchmark, les programmes d’alignement ont tous donné des résultats similaires, MAFFT affichant la plus faible précision. Dans les séries de 125 séquences, DECIPHER est classé deuxième derrière MAFFT., Pour les ensembles d’entrée de cette taille, MAFFT utilise son algorithme basé sur la cohérence le plus précis (l-INS-i) qui n’est pas évolutif pour les ensembles de séquences plus grands. Au-delà de 125 séquences d’entrée, DECIPHER surpasse nettement les trois autres programmes (fichier supplémentaire 1: Tableau S2), et son avance s’améliore à mesure que plus de séquences sont alignées (Fig. 5). Cela reflète le fait que la précision de déchiffrement reste relativement constante avec un nombre croissant de séquences (Fig. 3), ce qui est en partie attribuable à son utilisation de la structure secondaire lors de l’alignement., Clustal Omega, MAFFT et DECIPHER ont tous des scores m similaires dans la plage de tailles d’entrée (fichier supplémentaire 1: Figure S3). MUSCLE avait les performances les plus médiocres, avec des scores Q et M nettement pires pour tous les ensembles de séquences d’entrée sauf les plus petits. De plus, bien que le Q-score, le total column score (TC-score) et le cline shift-score donnent parfois des classements de performance contradictoires, ces trois statistiques s’accordent fortement sur les deux points de repère (fichier supplémentaire 1: Figures S4 et S5).,
la formation excessive à un seul ensemble de référence a été une préoccupation pour certains programmes d’alignement , bien que les deux ensembles de référence utilisés ici ont montré des résultats similaires. Cependant, d’autres programmes peuvent être mieux formés sur les points de repère originaux qui ne sont pas basés sur les extrants du programme D’alignement structurel MUSTANG. Pour vérifier que DECIPHER n’était pas surentraîné aux sorties de MUSTANG, j’ai répété l’analyse en utilisant les paires de référence préfabriquées d’origine, qui étaient alignées indépendamment de MUSTANG., Les séquences de référence préfabriquées non modifiées ont montré une forte concordance de structure secondaire, et fournissent donc une référence alternative de haute qualité. Néanmoins, les résultats (fichier supplémentaire 1: Figure S6) étaient très similaires pour les deux ensembles de séquences de référence, indiquant que les performances de DECIPHER n’étaient pas étroitement liées aux sorties de MUSTANG.
j’ai ensuite comparé DECIPHER à PASTA , qui est un programme destiné à étendre la précision des algorithmes moins évolutifs aux grands alignements., PASTA fonctionne en divisant un alignement en sous-problèmes qui se chevauchent et qui sont chacun alignés avec une stratégie précise, par défaut l’approche basée sur la cohérence l-INS-i de MAFFT. Ces sous-alignements sont fusionnés à l’aide de la transitivité, et le processus est répété à partir d’un nouvel arbre guide. Fait intéressant, PASTA a surpassé DECIPHER sur des séries de séquences 125 et 250 sur HOMSTRAD-mod (Fig. 5), mais était statistiquement indiscernable sur les ensembles plus grands (fichier supplémentaire 1: Tableau S2). Cependant, DECIPHER a largement surpassé PASTA sur PREFAB-mod, et son avance a augmenté à mesure que plus de séquences étaient alignées., En outre, les pâtes ont montré une grande baisse de précision avec l’augmentation de la taille de l’alignement. Le tableau 1 montre que le rendement de DECIPHER a diminué le moins de tous les programmes d’alignement à mesure que la taille de l’alignement augmentait.
enfin, j’ai comparé les performances de DECIPHER à PROMALS , un programme qui repose sur des prédictions de structure secondaire plus précises obtenues à partir de PSIPRED ., PROMALS effectue d’abord des recherches PSI-BLAST avec des séquences représentatives de l’ensemble d’entrée, puis utilise des prédictions de structure secondaire précises avec une approche basée sur la cohérence pour aligner les séquences. PROMALS a largement surpassé tous les autres programmes d’alignement sur les plus petits ensembles de deux séquences, mais son avantage a disparu une fois que d’autres séquences ont été ajoutées à l’ensemble d’entrée (Fig. 5). De plus, il était plusieurs ordres de grandeur plus lent que les autres aligneurs (Fig. 6), et les jeux d’entrée de test de plus de 125 séquences se sont avérés chronophages prohibitifs., Des approches plus récentes utilisant des structures protéiques résolues sont disponibles, telles que PROMALS3D . Cependant, il n’est pas clair comment tester de telles approches sur des repères structurels, car les séquences de référence sont probablement présentes dans les mêmes bases de données de structure utilisées par ces programmes.
DECIPHER n’était ni le programme le plus lent ni le plus rapide pour aligner chacun des ensembles de séquences (Fig. 6)., MAFFT était généralement le programme le plus rapide, à l’exception des plus petits ensembles de séquences où il utilise des stratégies d’alignement plus lentes et plus précises. Le changement dans le temps écoulé est dramatique pour MAFFT et MUSCLE au-delà de 250 séquences où des stratégies plus efficaces ont été utilisées. PASTA était le programme le plus lent et nécessitait en moyenne 2,7 h pour aligner 4 000 séquences. Clustal Omega et DECIPHER ont été capables d’aligner 4 000 séquences en environ une demi-heure en moyenne. Étant donné que le calcul de l’arbre guide est le facteur limitant pour les grands ensembles de séquences, la parallélisation peut être utile dans de telles circonstances., Par exemple, déchiffrer était environ deux fois plus rapide lorsque 8 processeurs étaient utilisés (Fig. 6). L’utilisation maximale de la mémoire de DECIPHER était de 2 Go lors de l’alignement de 4 000 séquences.