Auswahl hochwertiger Referenzausrichtungen für das Benchmarking
Verschiedene Benchmarks führen häufig zu kontrastierenden optimalen Parametern (z. B. Lückenöffnung und Erweiterungsstrafen) und einem inkompatiblen Leistungsranking von Ausrichtungsprogrammen . Aus diesen Gründen ist die Wahl des Benchmarks bei der Entwicklung und dem Vergleich von Algorithmen zur Sequenzausrichtung von größter Bedeutung., Um Ausrichtungs-Benchmarks für diese Studie auszuwählen, begann ich mit dem Vergleich der sekundären Strukturkonkordanz über gemeinsame Benchmarks hinweg. Diese Vergleichsmethode erfordert, dass die Sekundärstruktur von Referenzsequenzen verfügbar ist, was die gängigen BAliBASE-Benchmarks ausschließt, da die entsprechende Sekundärstruktur der meisten BAliBASE-Sequenzen unbekannt ist . Obwohl eine sekundäre Strukturvereinbarung allein nicht ausreicht, um einen hohen Qualitätsmaßstab zu gewährleisten, kann eine fehlende Vereinbarung ein Hinweis auf eine Ungenauigkeit der Ausrichtung sein.,
Es wird erwartet, dass bessere Referenzausrichtungen einen größeren Prozentsatz an ausgerichteten Rückständen mit identischer Sekundärstruktur aufweisen. Es wird jedoch eine gewisse Meinungsverschiedenheit in der sekundären Struktur erwartet, die sowohl auf intrinsische Schwierigkeiten bei der Zuordnung der sekundären Struktur als auch auf Herausforderungen zurückzuführen ist, die mit der Ausrichtung distanziert verwandter tertiärer Strukturen verbunden sind . Abbildung 1 zeigt den Anteil der sekundären Strukturvereinbarung im Vergleich zur paarweisen Sequenzidentität für vier gängige Aminosäure-Benchmarks., Die SABmark-und PREFAB-Benchmarks enthalten den größten Teil ihrer Sequenzen in oder unterhalb der“ Twilight Zone “ von 20 bis 35% Sequenzidentität, während der Schwerpunkt von OXBench auf weniger herausfordernden Ausrichtungen liegt. PREFAB scheint insgesamt deutlich besser ausgerichtet zu sein als SABmark, obwohl beide Referenzen einen ähnlichen Bereich von Sequenzidentitäten abdecken. Bei Sequenzen mit einer Identität von weniger als 10% weist PREFAB eine um 13,4% höhere strukturelle Identität auf (p < 1e-15) als SABmark., Diese Ergebnisse stimmen mit einer früheren Studie überein, in der PREFAB der beste Benchmark für den Vergleich von MSA-Programmen war, obwohl bekannt ist, dass PREFAB Fehler enthält .
Alle Spalten der Ausrichtungen wurden verwendet, um die Gesamtgenauigkeit jeder Benchmark zu bewerten, anstatt nur Kernblöcke (homologe Regionen) zu verwenden, die typischerweise durch Großbuchstaben abgegrenzt sind., Die Wahl, die gesamte Ausrichtung zu verwenden, wurde getroffen, weil: (i) die Definition von Kernblöcken zwischen Benchmarks variiert, (ii) einige Bewertungsverfahren die gesamte Ausrichtung verwenden, (iii) der paarweise Abstand unter Verwendung der gesamten Ausrichtung berechnet wird und (iv) die HOMSTRAD-und SABmark-Benchmarks keine Kernblöcke abgrenzen. Core-Blöcke in PREFAB zugeordnet wurden auf der Grundlage der Vereinbarung zwischen zwei unterschiedlichen strukturellen Ausrichtung der Programme., Dies motivierte mich, den Unterschied zwischen den ursprünglichen Benchmarks und den gleichen Sequenzen zu untersuchen, die mit dem sequenzunabhängigen Strukturausrichtungsprogramm MUSTANG neu ausgerichtet wurden . Neuausrichtungen mit MUSTANG zeigten eine größere sekundäre Strukturkongruenz als die ursprünglichen Benchmarks, außer im Fall von HOMSTRAD (Abb. 1). Insbesondere hatte SABmark nach Neuausrichtung mit MUSTANG eine um 11,2% höhere Sekundärstrukturidentität (p < 1e-15)., Dieses Ergebnis unterstützt die Verwendung der HOMSTRAD-Datenbank als Alignment-Benchmark, obwohl sie ursprünglich nicht für diesen Zweck vorgesehen war.
Da die Anzahl der Sequenzen mit bekannter Struktur im Verhältnis zur Anzahl der verfügbaren Sequenzen gering ist, werden die meisten Benchmarks durch zusätzliche nicht ausgerichtete Sequenzen ergänzt, die bei der Bewertung nicht berücksichtigt werden. PREFAB Referenz Ausrichtungen werden ergänzt mit zusätzlichen Sequenzen gefunden, die mit PSI-BLAST-suchen mit der Referenz-Sequenzen. HOMSTAD-Sequenzen werden üblicherweise durch andere Sequenzen ergänzt, die derselben Pfam-Familie angehören ., Ich habe diese beiden Ansätze verglichen, indem ich zufällig Sequenzen aus der Pfam-Familie ausgewählt habe, die den Fertigabreferenzsequenzen entsprechen. Nach dem Erzeugen einer Ausrichtung mit der gleichen Anzahl ergänzender Sequenzen wurde ein Nachbarverbindungsbaum erstellt, um die Breite der hinzugefügten Sequenzen zu bestimmen. Die durchschnittliche Baumlänge war bei zufälligen Pfam-Sequenzen 1,6 mal länger als bei PREFAB (p < 1e-15)., Dies deutete darauf hin, dass eine Erweiterung des Eingabesatzes in einer Weise, die nicht direkt von den Referenzsequenzen abhängig ist, zu einer größten Vielfalt ergänzender Sequenzen führt.
Es ist unklar, welcher Referenz-Benchmark die Sequenzen eines typischen Benutzers am besten widerspiegelt, und die große Vielfalt der MSA-Anwendungen umfasst wahrscheinlich die meisten Ausrichtungsszenarien, die in Benchmarks zu finden sind. SABmark-Sets decken einen engen Bereich von Sequenzidentitäten ab, während OXBench sich auf eng verwandte Sequenzen konzentriert, die einfacher auszurichten sind., Aufgrund der Qualität der Ausrichtung und der Breite der Sequenzidentitäten entschied ich mich, den Rest dieser Studie mit leicht modifizierten Versionen der ursprünglichen PREFAB-und HOMSTRAD-Datensätze namens PREFAB-mod und HOMSTRAD-mod fortzusetzen (siehe Methoden). Um die modifizierten Benchmarks zu ergänzen, habe ich Sequenzen in voller Länge hinzugefügt, die derselben Pfam-Familie angehören. In voller Länge-Sequenzen verwendet wurden, anstatt nur die shared-domain, um die Ausrichtungen anspruchsvoller und stellen eine größere Vielfalt von möglichen Einsatzszenarien., Oft weisen die ausgerichteten Sequenzen unterschiedliche Längen auf, da sie überlappende Regionen eines Gens abdecken, oder wurden basierend auf ihren Qualitätswerten an jedem Endpunkt unterschiedlich getrimmt.
Skalierbare Einbindung der Sekundärstruktur in die Ausrichtung
Trotz der engen Verbindung zwischen Sekundärstruktur und Sequenzausrichtung prognostizieren die gängigsten Proteinausrichtungsprogramme keine Strukturinformationen., Der Hauptnachteil der Sekundärstrukturvorhersage besteht darin, dass sie langsam genau berechnet wird, was verhindert, dass sie in angemessener Zeit auf die Ausrichtung von Hunderten von Sequenzen skaliert wird . Weniger genaue Sekundärstrukturvorhersagen können sehr schnell mit Einzelsequenz-Ansätzen erhalten werden, die nicht auf der Konstruktion einer Mehrfachausrichtung mit homologen Sequenzen beruhen. Die GOR-Methode ist eine der genauesten in einer einzigen Sequenz ., Bei diesem Verfahren wird die Sekundärstruktur einem von drei Zuständen zugeordnet: Helix (H), Blatt (E) oder Spule (C) basierend auf dem lokalen Sequenzkontext, der einen Rückstand umgibt. Dieser Ansatz hat den Vorteil, dass er extrem schnell ist (< 1% der für die Ausrichtung erforderlichen Zeit), einen Wahrscheinlichkeitswert für jeden Zustand bereitstellt und eine Genauigkeit von etwa 65% bietet .,
Um sekundäre Strukturvorhersagen in das dynamische Programmierframework für die Profilprofilausrichtung zu integrieren, habe ich eine neue symmetrische 3 × 3-Matrix hinzugefügt, die die Log-Odds der Ausrichtung eines H, E oder C in einer Sequenz mit einer anderen Position darstellt, die H, E oder C in einer zweiten Sequenz zugewiesen ist. Kopplung dieser Matrix mit der Wahrscheinlichkeit, die jedem der drei Strukturzustände zugeordnet ist, die für die Profil-Profil-Ausrichtung der Sekundärstrukturen zulässig sind., Die Punktzahl, die durch Ausrichten von Sekundärstrukturprofilen erhalten wurde, erweiterte die traditionelle Substitutionsmatrix – basierte Punktzahl, die aus den Primärsequenzen ermittelt wurde (siehe zusätzlichen Datei-1-Text). Auf diese Weise können Primär – und Sekundärstrukturvereinbarungen gleichzeitig maximiert werden.
Abbildung 2 zeigt eine Beispielausrichtung der Lactat / Malat-Dehydrogenase-Proteinfamilie (Pfam) Nr. PF00056; HOMSTRAD“ ldh “ Familie) mit diesem Ansatz erhalten., Die DSSP-Zuweisungen sind im Allgemeinen über die HOMSTRAD-Mod-Ausrichtung hinweg einig, die auf den bekannten Tertiärstrukturen dieser Proteine basiert. Vorhersagen, die mit der GOR-Methode gemacht werden, spiegeln diese sekundären Strukturzuweisungen mit einigen Diskrepanzen wider. Die GOR-Vorhersagen leiten die Entschlüsselungsausrichtung, die genau der Referenzausrichtung in Regionen entspricht, die als Kernblöcke definiert sind und in der oberen Ausrichtung von Fig. 2., Regionen der Referenzausrichtung, die außerhalb von Kernblöcken liegen, werden nicht zur Bestimmung der Genauigkeit verwendet und unterscheiden sich von der Entschlüsselungsausgabe in einigen Spalten.
Ein Vorteil der Verwendung einer kleinen 3 × 3-Sekundärstrukturmatrix besteht darin, dass die Anzahl der freien Parameter weit unter der Anzahl der informativen Datenpunkte liegt, was den Schätzfehler vernachlässigbar macht (Zusätzliche Datei 1: Abbildung S1)., Um optimale Werte für jeden der 6 verschiedenen Parameter in der Matrix zu finden, führte ich eine Rastersuche nach der Lösung durch, die zu den Ausrichtungen mit der besten Bewertung führte, die auf der Summe von Q-Score und M-Score für eine Teilmenge von HOMSTRAD-mod, bestehend aus 238 Referenzsätzen. Beim Optimum zwischen Über-und Unterausrichtung wird jede Verstärkung des Q-Scores durch den entsprechenden Verlust des M-Scores aufgewogen und umgekehrt. Die optimierte Sekundärstrukturmatrix ist in Abb. 3a., E-Staaten sind sehr wahrscheinlich ausgerichtet, was sich in dem großen Beitrag von E/E-Paarungen zum sekundären Struktur-Score widerspiegelt. Die GOR-Methode neigt dazu, β-Werte zu unterschätzen, was in den meisten Sequenzen zu einem geringen Anteil von E-Zuständen führt .
Als nächstes fragte ich, ob die Einbeziehung der Sekundärstruktur die Sequenzausrichtung verbesserte und wie dies mit der Anzahl der auszurichtenden Sequenzen skaliert wurde. Gemittelt über alle Größen von Sequenzsätzen führte die Einbeziehung der Sekundärstruktur zu einer Verbesserung des Q-Scores um 5,3% auf PREFAB-mod und 2,1% auf HOMSTRAD-mod. Diese erhebliche Erhöhung der Q-Score kam auf Kosten eines 0.,4% Abnahme des M-Scores auf PREFAB-Mod und 0,3 % Abnahme auf HOMSTRAD-Mod. Daher nahm der Anteil der korrekt ausgerichteten Homologien leicht ab, während die Gesamtzahl der korrekt ausgerichteten Homologien erheblich zunahm. Es überrascht nicht, dass die größten Zuwächse bei divergierenden Referenzsätzen zu verzeichnen waren, bei denen der größte Spielraum für Verbesserungen besteht, und bei Referenzen mit einem durchschnittlichen Abstand von weniger als 60% zwischen Paaren wurde im Wesentlichen kein Gewinn erzielt (Abb. 3b)., Sekundäre Strukturvorhersagen lieferten einen größeren Vorteil auf PREFAB-mod, weil ein größerer Bruchteil seiner Referenzsequenzen über 60 % entfernt sind.
Interessanterweise nahm die Verbesserung durch die Einbeziehung der Sekundärstruktur zu, wenn mehr Sequenzen ausgerichtet wurden (Abb. 3c). Bei den kleinsten Mengen von 2 Sequenzen gab es eine Verbesserung von 3,4% gegenüber PREFAB-mod und 1,2% gegenüber HOMSTRAD-Mod. Bei großen 4.000 Sequenzsätzen erhöhte sich der Vorteil auf 8,5% bzw., Daher hat die Sekundärstruktur teilweise der Abnahme der Punktzahl entgegengewirkt, die typischerweise bei größeren Ausrichtungen beobachtet wird . Dieses Verhalten spiegelte das der Sekundärstrukturvorhersage wider, bei der die Genauigkeit zunimmt, wenn mehr Sequenzen in der Berechnung verwendet werden . Aus diesem Grund verwenden die genauesten Algorithmen zur Vorhersage der Sekundärstruktur mehrere Ausrichtungen. Ebenso fehlen hier die anfänglichen Sekundärstrukturvorhersagen an Genauigkeit, da sie aus einzelnen Sequenzen erhalten werden., Wenn mehr Sequenzen ausgerichtet werden, werden diese Wahrscheinlichkeiten gemittelt, um ihre Genauigkeit zu erhöhen und die Ausrichtung besser zu steuern. Dies steht im Gegensatz zur Primärsequenz, bei der zusätzliche Sequenzen zwangsläufig zu Mehrdeutigkeiten führen, was zum Teil zu einem Signalverlust führt, der sich in einer schlechten Ausrichtung mehrdeutiger Profile manifestiert.,
Einschließlich eines Modells der Indel-Wahrscheinlichkeit zur Verbesserung der Lückenpositionierung
Motiviert durch die Verbesserung, die durch die Einbeziehung des lokalen Sequenzkontexts über sekundäre Strukturvorhersagen erzielt wurde, fragte ich als nächstes, ob derselbe Ansatz auf die Lückenplatzierung angewendet werden könnte. Frühere Untersuchungen haben gezeigt, dass Einfügungen und Löschungen (Indels) eher neben bestimmten Aminosäuren und in exponierten Spulenregionen auftreten ., Aus diesem Grund ist es üblich , die Kosten für das Öffnen einer Lücke in hydrophilen Bereichen zu senken oder alternativ die Kosten in hydrophoben Regionen zu erhöhen, die wahrscheinlich im eingeschränkten Kern des Proteins vergraben sind. Meines Wissens wurde kein ausgefeilteres Modell der Spaltwahrscheinlichkeit basierend auf dem lokalen Kontext auf die Sequenzausrichtung angewendet. Zu diesem Zweck habe ich die One Gap-Datenbank verwendet, um die relative Häufigkeit von Indel-Ereignissen basierend auf den Resten links und rechts von einer zentralen Lücke zu berechnen., Diese Frequenzinformation wurde dann entsprechend der Hintergrundfrequenz jeder Aminosäure in Log-Odds-Scores umgewandelt.
Abbildung 4 zeigt den Beitrag benachbarter Aminosäuren zur Wahrscheinlichkeit einer Lücke an Position Null. Wie erwartet verringern hydrophobe Rückstände (FMILYW) die Wahrscheinlichkeit einer Lücke erheblich. Hydrophile und“ strukturbrechende “ (z. B. P) Rückstände erhöhen die Wahrscheinlichkeit eines benachbarten Spaltes, wenn auch mit geringerer Wirkung als hydrophobe Rückstände., Da sich die Log-Odds-Scores in den gleichen Einheiten wie die Substitutionsmatrix (Third-Bits) befinden, können sie direkt angewendet werden, um Spaltöffnungs-und Spaltschließkosten an jeder Position basierend auf ihrem lokalen Sequenzkontext zu modulieren (Zusätzliche Datei 1: Tabelle S1). Ich habe verschiedene Fenstergrößen für die Einbeziehung dieser Informationen ausgewertet und festgestellt, dass sich das beste Fenster relativ zur zentralen Lücke von Position -4 bis +4 erstreckte. Daher sind die Kosten für das Erstellen einer Lücke an jeder Position die ursprünglichen Spaltkosten zuzüglich einer Punktzahl, die basierend auf den Rückständen zu beiden Seiten der Lücke moduliert wird (siehe zusätzliche Datei 1).,
Als nächstes berechnete ich Log-Odds-Werte für die der Lücke entgegengesetzten Reste (in der nicht zugeordneten Sequenz) und stellte fest, dass diese Positionen eine geringe Verzerrung des Aminosäuregehalts zeigten (Zusätzliche Datei 1: Tabelle S1). Es gab eine moderate Korrelation zwischen den Log-Odds-Werten für Positionen links oder rechts von der Lücke und den Rückständen, die der Lücke entgegenstanden (R2 von 0,69 bzw., In diesem Fall gab es jedoch keinen offensichtlichen Unterschied zwischen den Standorten innerhalb der Gapped-Region. Aus diesem Grund habe ich mich dafür entschieden, die Kosten für die Lückenverlängerung einfach positionsunabhängig auf der Grundlage der Durchschnittswerte für die „getappten“ Rückstände zu modulieren. Insgesamt passt dieses probabilistische Modell des Öffnens und Erweiterns einer Lücke die Spaltenstrafe in einem Bereich von etwa +/- 20% an jeder Position an.
Um dieses Modell der Lückenplatzierung basierend auf dem lokalen Sequenzkontext zu erweitern, untersuchte ich als nächstes die Wirkung kurzer Sequenzmuster., Wiederholungen sind eine Hauptquelle für Längenschwankungen in biologischen Sequenzen und finden sich häufig in allen Lebensbereichen. Wiederholungen haben eine Vielzahl von Formen, einschließlich kurzer mikrosatellitischer Wiederholungen eines einzelnen Codons und längerer Tandemwiederholungen von Regionen, die sich durch Mutation entwickeln können, um im Laufe der Zeit nicht übereinzustimmen . Längere Wiederholungen können mit speziellen Programmen ausgerichtet werden, die Tandem-Wiederholungs-Suchalgorithmen verwenden . Kurze Muster werden von diesen Programmen aufgrund ihres häufigen Auftretens in Sequenzen typischerweise als unbedeutend vernachlässigt., Chang und Benner stellten jedoch fest, dass kurze Dipeptidwiederholungen (z. B. AA) häufiger als erwartet bei Lücken auftraten, was möglicherweise ein Mittel zur Modulierung der Gap-Kosten bot. Um diesen Effekt zu untersuchen, habe ich das Auftreten verschiedener Sequenzmuster in der One Gap-Datenbank untersucht.
Dipeptid-Wiederholungen (Läufe von 2 identischen Aminosäuren), die Lücken umgaben, waren nur geringfügig wahrscheinlicher (< 1 drittes Bit) als zufällig erwartet. Es war jedoch wesentlich wahrscheinlicher, dass Lücken bei Läufen von drei oder mehr (z. B. AAA) auftreten, wie in zusätzlicher Datei 1: Abbildung S2 gezeigt., Dieser Effekt war in der Sequenz ohne die Lücke besonders ausgeprägt, was darauf hindeutet, dass Lücken häufig vorhanden sind, weil eine Sequenz einen längeren Lauf als eine andere hat. Überraschenderweise war es weniger wahrscheinlich, dass Lücken an der Position nach dem Start eines Laufs in der entgegengesetzten Reihenfolge (z. B. AA/A -) auftreten, unabhängig von der Länge des Laufs. Obwohl der Mechanismus für dieses Auftreten unbekannt ist, kann es aufgrund einer biologischen Rolle für Dipeptidwiederholungen sein, die zu ihrer Konservierung führt. Eine ähnliche Untersuchung von Heteropeptid wiederholt sich mit Periodizität 2 (z.,, ACAC) bis 6 zeigte keine starke Neigung zu Lücken (Zusätzliche Datei 1: Abbildung S2). Daher habe ich mich entschieden, das Spaltmodell zu erweitern, um die Spaltöffnungskosten an Positionen vor und unmittelbar nach Beginn eines Laufs in der entgegengesetzten Reihenfolge zu modulieren.
Insgesamt führte die Verwendung dieses Modells der Lückenplatzierung zu einer bescheidenen Verbesserung von 0,5 % bei PREFAB-mod (p < 1e-4) und 0,3% bei HOMSTRAD-mod (p < 1e-3). Die Verbesserungen im Q-Score wurden durch 0.2% Erhöhungen im M-Score auf beiden Benchmarks ausgeglichen., Diese Änderungen der Punktzahl waren unerwartet, da strukturelle Benchmarks die meisten Gapped-Regionen nicht berücksichtigen , da sie häufig in Teilen der Struktur auftreten, die schwer zu überlagern sind, und Wiederholungen neigen dazu, in ungeordneten Proteinregionen zu finden . Obwohl Evolutionssimulationen ein Mittel zur Bewertung von Gapped-Regionen bieten, enthalten solche Simulationen derzeit kein kontextabhängiges Modell der Lückenwahrscheinlichkeit., Daher ist es möglich, dass sich die Platzierung von Lücken durch den bescheidenen Anstieg der Punktzahlen mehr als widerspiegelt, aber es gibt derzeit keine angemessene Möglichkeit, den tatsächlichen Vorteil der Einbeziehung eines ausgeklügelten Spaltmodells in die Ausrichtung zu messen.
Vergleich von DECIPHER mit anderen Programmen für MSA
Nachdem ich Context-Awareness erfolgreich in die DECIPHER-Software zur Sequenzausrichtung integriert hatte, verglich ich als nächstes seine Leistung mit anderen hochmodernen Ausrichtungsprogrammen., Zuerst habe ich mich entschieden , DECIPHER mit drei beliebten Programmen zu vergleichen , die Tausende von Sequenzen effizient ausrichten können: Clustal Omega, MAFFT und MUSCLE . Diese Programme werden regelmäßig in einer Vielzahl verschiedener Studien eingesetzt und sind zum De-facto-Standard für Benchmarks-Vergleiche geworden. Abbildung 5 zeigt die Leistung jedes Programms relativ zum ENTSCHLÜSSELN für eine steigende Anzahl von Eingabesequenzen., Das Leistungsranking ist in starker Übereinstimmung zwischen den HOMSTRAD-mod und PREFAB-mod Benchmarks, doch gibt es eine größere Verbreitung zwischen Programmen auf PREFAB-mod, weil es einen größeren Anteil von Sequenzen in oder unter der Dämmerungszone enthält.
Wenn nur zwei Sequenzen von jedem Benchmark ausgerichtet wurden, lieferten die Ausrichtungsprogramme ähnliche Ergebnisse, wobei MAFFT die niedrigste Genauigkeit zeigte. In den Sätzen von 125 Sequenzen belegt DECIPHER den zweiten Platz hinter MAFFT., Für Eingabesätze dieser Größe verwendet MAFFT seinen genauesten konsistenzbasierten Algorithmus (L-INS-i), der nicht auf größere Sequenzsätze skalierbar ist. Über 125 Eingabesequenzen hinaus übertrifft DECIPHER die anderen drei Programme deutlich (zusätzliche Datei 1: Tabelle S2), und sein Vorsprung verbessert sich, wenn mehr Sequenzen ausgerichtet werden (Abb. 5). Dies spiegelt die Tatsache wider, dass die Genauigkeit von DECIPHER mit zunehmender Anzahl von Sequenzen relativ konstant bleibt (Abb. 3), was teilweise auf die Verwendung der Sekundärstruktur während der Ausrichtung zurückzuführen ist., Clustal Omega, MAFFT und DECIPHER haben alle ähnliche M-Scores im Bereich der Eingabegrößen (zusätzliche Datei 1: Abbildung S3). MUSCLE hatte die schlechteste Leistung, mit wesentlich schlechteren Q – und M-Scores für alle außer den kleinsten Eingabesequenzsätzen. Obwohl Q-Score, Total Column Score (TC-Score) und Cline Shift-Score manchmal widersprüchliche Leistungsrankings ergeben, stimmten diese drei Statistiken in beiden Benchmarks stark überein (Zusätzliche Datei 1: Abbildungen S4 und S5).,
Das Übertraining zu einem einzelnen Referenzsatz war für einige Ausrichtungsprogramme ein Problem, obwohl beide hier verwendeten Referenzsätze ähnliche Ergebnisse zeigten. Andere Programme können jedoch besser auf den ursprünglichen Benchmarks trainiert werden, die nicht auf den Ausgaben des MUSTANG Structural Alignment-Programms basieren. Um zu überprüfen, ob DECIPHER nicht übermäßig auf die Ausgaben von MUSTANG trainiert wurde, wiederholte ich die Analyse mit den ursprünglichen PREFAB-Referenzpaaren, die unabhängig von MUSTANG ausgerichtet waren., Die unmodifizierten PREFAB-Referenzsequenzen zeigten eine starke Sekundärstrukturkonkordanz und bieten daher eine qualitativ hochwertige alternative Benchmark. Dennoch waren die Ergebnisse (zusätzliche Datei 1: Abbildung S6) für beide Referenzsequenzsätze sehr ähnlich, was darauf hindeutet, dass die Leistung von DECIPHER nicht eng an die Ausgaben von MUSTANG gebunden war.
Als nächstes verglich ich DECIPHER mit PASTA, einem Programm, das die Genauigkeit weniger skalierbarer Algorithmen auf große Ausrichtungen erweitern soll., PASTA funktioniert, indem eine Ausrichtung in überlappende Unterprobleme unterteilt wird, die jeweils mit einer genauen Strategie ausgerichtet sind, standardmäßig MAFFS L-INS-i-konsistenzbasierter Ansatz. Diese Unterausrichtungen werden mit Transitivität zusammengeführt und der Prozess wird ausgehend von einem neuen Führungsbaum wiederholt. Interessanterweise übertraf PASTA DECIPHER bei Sätzen von 125 und 250 Sequenzen auf HOMSTRAD-Mod (Abb. 5), war aber bei größeren Mengen statistisch nicht zu unterscheiden (Zusätzliche Datei 1: Tabelle S2). DECIPHER übertraf jedoch PASTA auf PREFAB-Mod wesentlich, und sein Vorsprung nahm zu, als mehr Sequenzen ausgerichtet wurden., Darüber hinaus zeigte PASTA einen großen Genauigkeitsabfall mit zunehmender Ausrichtungsgröße. Tabelle 1 zeigt, dass die Leistung von DECIPHER am wenigsten von allen Ausrichtungsprogrammen abnahm, wenn die Ausrichtgröße zunahm.
Schließlich habe ich DECIPHERS Leistung mit PROMALS verglichen, einem Programm , das auf genaueren sekundären Strukturvorhersagen basiert, die von PSIPRED erhalten wurden ., PROMALS führt zuerst PSI-BLAST-Suchvorgänge mit repräsentativen Sequenzen aus dem Eingabesatz durch und verwendet dann genaue Sekundärstrukturvorhersagen mit einem konsistenzbasierten Ansatz, um die Sequenzen auszurichten. PROMALS übertraf alle anderen Ausrichtungsprogramme bei den kleinsten Mengen von zwei Sequenzen erheblich, aber sein Vorteil verschwand, sobald andere Sequenzen zum Eingabesatz hinzugefügt wurden (Abb. 5). Außerdem waren die anderen Aligner um mehrere Größenordnungen langsamer (Abb. 6), und das Testen von Eingabesätzen, die größer als 125 Sequenzen sind, erwies sich als unerschwinglich zeitaufwändig., Neuere Ansätze, die gelöste Proteinstrukturen nutzen, sind verfügbar, wie zum Beispiel PROMALS3D . Es ist jedoch unklar, wie solche Ansätze an strukturellen Benchmarks getestet werden können, da die Referenzsequenzen wahrscheinlich in denselben Strukturdatenbanken vorhanden sind, die von diesen Programmen verwendet werden.
DECIPHER war weder das langsamste noch das schnellste Programm, das zum Ausrichten jedes der Sequenzsätze verwendet wurde (Abb. 6)., MAFFT war im Allgemeinen das schnellste Programm, mit Ausnahme der kleinsten Sequenzsätze, bei denen langsamere und genauere Strategien zur Ausrichtung verwendet werden. Die Veränderung der verstrichenen Zeit ist für MAFFT dramatisch und geht über 250 Sequenzen hinaus, in denen effizientere Strategien verwendet wurden. PASTA war das langsamste Programm und erforderte durchschnittlich 2,7 Stunden, um 4.000 Sequenzen auszurichten. Sowohl Clustal Omega als auch DECIPHER konnten durchschnittlich 4,000 Sequenzen in etwa einer halben Stunde ausrichten. Da die Berechnung des Führungsbaums der limitierende Faktor für große Sequenzmengen ist, kann die Parallelisierung unter solchen Umständen nützlich sein., Zum Beispiel war DECIPHER etwa doppelt so schnell, wenn 8 Prozessoren verwendet wurden (Abb. 6). Die maximale Speicherauslastung von DECIPHER betrug 2 GB beim Ausrichten von 4.000 Sequenzen.