rozszyfrowywanie: wykorzystanie lokalnego kontekstu sekwencji w celu poprawy wyrównania wielu sekwencji białek

Wybieranie wysokiej jakości wyrównań referencyjnych do benchmarkingu

różne wzorce często skutkują kontrastującymi optymalnymi parametrami (np. kary otwarcia i rozszerzenia luk) i niezgodną klasyfikacją wydajności programów wyrównujących . Z tych powodów wybór benchmarka ma ogromne znaczenie przy opracowywaniu i porównywaniu algorytmów do wyrównywania sekwencji., Aby wybrać benchmarki wyrównawcze dla tego badania, zacząłem od porównania zgodności struktury drugorzędnej we wspólnych benchmarkach. Ta metoda porównywania wymaga, aby dostępna była wtórna struktura sekwencji referencyjnych, co wyklucza popularne benchmarki Balibazy, ponieważ odpowiednia struktura wtórna większości sekwencji Balibazy jest nieznana . Chociaż samo porozumienie w sprawie struktury drugorzędnej jest niewystarczające do zapewnienia wysokiej jakości wskaźnika referencyjnego, brak porozumienia może wskazywać na niedokładność dostosowania.,

oczekuje się, że lepsze wyrównania odniesienia będą miały większy procent wyrównanych pozostałości o identycznej strukturze wtórnej. Jednak pewne rozbieżności w strukturze wtórnej są przewidywane z powodu zarówno wewnętrznych trudności w przypisaniu struktury wtórnej, jak i wyzwań związanych z dostosowaniem odległych pokrewnych struktur trzeciorzędowych . Rysunek 1 pokazuje ułamek umowy struktury drugorzędowej w porównaniu z tożsamością sekwencji pary dla czterech wspólnych kryteriów aminokwasowych., Benchmarki SABmark i PREFAB zawierają największy ułamek ich sekwencji w „strefie mroku” lub poniżej 20 do 35% tożsamości sekwencji, podczas gdy nacisk OXBench kładzie się na mniej wymagające wyrównania. PREFAB wydaje się być znacznie lepiej dopasowany niż SABmark, mimo że oba odniesienia obejmują podobny zakres tożsamości sekwencyjnych. W przypadku sekwencji o tożsamości mniejszej niż 10% PREFAB ma o 13,4% większą tożsamość strukturalną (p < 1e-15) niż SABmark., Ustalenia te są zgodne z poprzednim badaniem, w którym PREFAB był najlepszym punktem odniesienia zaprojektowanym specjalnie do porównywania programów MSA, chociaż wiadomo, że PREFAB zawiera błędy .

wszystkie kolumny wyrównań zostały użyte do oceny ogólnej dokładności każdego wzorca, a nie tylko za pomocą bloków rdzenia (regionów homologicznych), które są zazwyczaj oznaczone wielkimi literami., Wybór zastosowania całego wyrównania został dokonany, ponieważ: (i) definicja bloków podstawowych różni się w zależności od wzorca, (ii) niektóre procedury punktacji wykorzystują całe wyrównanie, (iii) odległość pairwise jest obliczana przy użyciu całego wyrównania, oraz (iv) wzorce HOMSTRAD i SABmark nie określają bloków podstawowych. Bloki rdzeniowe w PREFABIE zostały przydzielone na podstawie porozumienia między dwoma różnymi programami wyrównywania konstrukcji., To zmotywowało mnie do przyjrzenia się różnicy między oryginalnymi benchmarkami a tymi samymi sekwencjami dostosowanymi za pomocą niezależnego od sekwencji programu wyrównywania strukturalnego MUSTANG . Zmiany z Mustangiem wykazywały większą wtórną zbieżność strukturalną niż oryginalne wzorce, z wyjątkiem przypadku HOMSTRADA (rys. 1). W szczególności SABmark miał o 11,2% wyższą tożsamość struktury wtórnej po dostosowaniu do Mustanga (p < 1e-15)., Wynik ten wspiera wykorzystanie bazy danych HOMSTRAD jako wzorca porównawczego, mimo że nie była ona pierwotnie przeznaczona do tego celu.

ponieważ liczba sekwencji o znanej strukturze jest niewielka w stosunku do liczby dostępnych sekwencji, większość benchmarków jest uzupełniana o dodatkowe sekwencje nieprzypisane do scoringu. Prefabrykowane wyrównania odniesienia są uzupełniane o dodatkowe sekwencje znalezione za pomocą wyszukiwania PSI-BLAST z sekwencjami odniesienia. Sekwencje HOMSTAD są często uzupełniane innymi sekwencjami należącymi do tej samej rodziny Pfam ., Porównałem te dwa podejścia wybierając losowo sekwencje z rodziny Pfam odpowiadające prefabrykowanym sekwencjom referencyjnym. Po wygenerowaniu wyrównania z tą samą liczbą dodatkowych sekwencji, drzewo łączące sąsiada zostało skonstruowane w celu określenia szerokości dodanych sekwencji. Średnia długość drzewa była 1,6 razy dłuższa dla losowych sekwencji Pfam niż w przypadku PREFAB (p < 1e-15)., Wskazywało to, że rozszerzenie zestawu wejściowego w sposób, który nie jest bezpośrednio zależny od sekwencji odniesienia, skutkuje największą różnorodnością sekwencji uzupełniających.

nie jest jasne, który benchmark referencyjny najlepiej odzwierciedla typowe sekwencje użytkownika, a szeroka różnorodność aplikacji MSA prawdopodobnie obejmuje większość scenariuszy dopasowania występujących w benchmarkach. Zestawy SABmark obejmują wąski zakres tożsamości sekwencji, podczas gdy OXBench skupia się na ściśle powiązanych sekwencjach, które są łatwiejsze do wyrównania., Ze względu na zarówno jakość wyrównania, jak i szerokość tożsamości sekwencyjnych, zdecydowałem się kontynuować resztę tego badania z nieco zmodyfikowanymi wersjami oryginalnych zestawów danych PREFAB i HOMSTRAD, zwanych PREFAB-mod i HOMSTRAD-mod(patrz metody). Aby uzupełnić zmodyfikowane benchmarki, dodałem sekwencje pełnowymiarowe należące do tej samej rodziny Pfam. Sekwencje pełnowymiarowe były używane zamiast tylko współdzielonej domeny, aby wyrównania były trudniejsze i reprezentowały większą różnorodność potencjalnych scenariuszy użycia., Często sekwencje są wyrównane mają różną długość, ponieważ pokrywają nakładające się regiony genu, lub zostały przycięte inaczej w oparciu o ich wyniki jakości na każdym końcu.

skalowalne włączenie struktury wtórnej do osiowania

pomimo ścisłego związku między strukturą wtórną a osiowaniem sekwencji, większość popularnych programów wyrównywania białek nie przewiduje informacji strukturalnych., Główną wadą predykcji struktury wtórnej jest to, że dokładne obliczenia są powolne, co zapobiega skalowaniu do wyrównania setek sekwencji w rozsądnym czasie . Mniej dokładne przewidywania struktury wtórnej można uzyskać bardzo szybko przy użyciu podejść jednosekwencyjnych, które nie polegają na konstruowaniu wielokrotnego wyrównania z sekwencjami homologicznymi. Metoda GOR jest jedną z najdokładniejszych, biorąc pod uwagę pojedynczą sekwencję ., W tej metodzie struktura wtórna jest przypisana do jednego z trzech stanów: helisy (H), arkusza (E) lub cewki (C) na podstawie lokalnego kontekstu sekwencji otaczającej pozostałość. To podejście ma tę zaletę, że jest niezwykle szybkie (< 1 % czasu wymaganego do wyrównania), zapewnia wartość prawdopodobieństwa dla każdego stanu i oferuje około 65% dokładności .,

aby zintegrować prognozy struktury wtórnej z dynamicznym frameworkiem programowania dla wyrównania profilu, dodałem nową symetryczną macierz 3 × 3 reprezentującą szanse wyrównania H, E lub C w jednej sekwencji z inną pozycją przypisaną do H, E lub C w drugiej sekwencji. Połączenie tej macierzy z prawdopodobieństwem przypisanym każdemu z trzech stanów konstrukcyjnych pozwoliło na wyrównanie profilu-profilu struktur wtórnych., Wynik uzyskany z wyrównania drugorzędnych profili struktury powiększył tradycyjny wynik oparty na macierzy podstawienia określony z sekwencji pierwotnych(patrz dodatkowy plik 1 tekst). W ten sposób można jednocześnie zmaksymalizować pierwotną i wtórną umowę struktury.

Rysunek 2 przedstawia przykładowe wyrównanie rodziny białek dehydrogenazy mleczanowo-jabłczanowej (Pfam). PF00056; rodzina HOMSTRAD „LDH”)., Przypisania DSSP są ogólnie zgodne w całej homstrad-Mod wyrównania, który jest oparty na znanych trzeciorzędowych struktur tych białek. Prognozy wykonane metodą GOR odzwierciedlają te drugorzędne przypisania struktury z pewnymi rozbieżnościami. Przewidywania GOR kierują wyrównaniem rozszyfrowania, które dokładnie odpowiada wyrównaniu odniesienia w regionach zdefiniowanych jako bloki rdzenia, oznaczonych wielkimi literami W górnym wyrównaniu rys. 2., Obszary wyrównania odniesienia, które wykraczają poza bloki rdzenia, nie są używane do określania dokładności i różnią się od wyników rozszyfrowania w niektórych kolumnach.

rys. 2

C-końcowy koniec wyrównania rodziny białek dehydrogenazy mleczanowej/jabłczanowej (Pfam nr. PF00056) Górne wyrównanie (sekwencje nazwane przez ID PDB) pochodzi z wzorca HOMSTRAD-mod kolorowanego przez przypisania DSSP, z wielkimi literami oznaczającymi bloki rdzenia., Dolne ustawienie pokazuje te same sekwencje (nazwane przez organizm) wyrównane za pomocą rozszyfrowania i zabarwione zgodnie z prawdopodobieństwem 3-stanowym przewidywanym metodą GOR . Kolumny dolnego wyrównania pogrubione dokładnie pasują do kolumn górnego wyrównania odniesienia

jedną z zalet korzystania z małej macierzy struktury wtórnej 3 × 3 jest to, że liczba wolnych parametrów jest znacznie większa niż liczba punktów danych informacyjnych, co sprawia, że błąd szacowania jest nieistotny (dodatkowy plik 1: Rysunek S1)., Aby znaleźć optymalne wartości dla każdego z 6 różnych parametrów w macierzy, przeprowadziłem grid-search dla rozwiązania, które zaowocowało najlepiej punktowanymi wyrównaniami na podstawie sumy Q-score I m-score na podzbiorze HOMSTRAD-mod składającym się z 238 zestawów referencyjnych. W optymalnym przypadku między nadmiernym wyrównaniem a niedostatecznym wyrównaniem, każdy zysk w wyniku Q jest przewyższany przez odpowiednią stratę w wyniku m i vise-versa. Zoptymalizowana macierz struktury wtórnej pokazana jest na Rys. 3a., Państwa E są bardzo prawdopodobne, że zostaną wyrównane, co znajduje odzwierciedlenie w dużym wkładzie par E/E w drugorzędny wynik struktury. Metoda GOR ma tendencję do niedostatecznego przewidywania arkuszy β, co powoduje niski ułamek Stanów E w większości sekwencji .

rys. 3

zoptymalizowana macierz struktury do parowania między Stanami helisy (H), β-arkusza (E) lub cewki (C). b powtarzające się wartości są szaroniebieskie, ponieważ macierz jest symetryczna., Po włączeniu tej macierzy do wyrównania, średnia poprawa wyniku Q na wyrównaniach par była większa dla odległych par. wyrównania c przy użyciu macierzy struktury (symbole otwarte) wykazały niewielki spadek dokładności, ponieważ liczba sekwencji wejściowych wzrosła w stosunku do wyrównań wykonanych bez prognoz strukturalnych (symbole zamknięte). We wszystkich rozmiarach wyrównania zastosowanie struktury wtórnej poprawiło wynik Q (p < 1e-5 dla wszystkich)., Podobnie, poprawa Q-score (separacja między otwartymi i zamkniętymi symbolami) wzrosła wraz z wyrównaniem kolejnych sekwencji

następnie zapytałem, czy włączenie struktury drugorzędnej poprawiło wyrównanie sekwencji i jak to skalowało się z liczbą wyrównanych sekwencji. Uśrednione we wszystkich rozmiarach zestawów sekwencji, włączenie struktury wtórnej spowodowało poprawę o 5,3% Q-score w przypadku PREFAB-mod i 2,1% w przypadku HOMSTRAD-mod. Ten znaczny wzrost Q-score nastąpił kosztem 0.,Spadek M-score o 4% W przypadku PREFAB-mod i spadek o 0,3% W przypadku HOMSTRAD-mod. W związku z tym ułamek homologii, które są prawidłowo wyrównane, nieznacznie zmniejszył się, podczas gdy całkowita liczba prawidłowo wyrównanych homologii znacznie wzrosła. Nic dziwnego, że największe zyski odnotowano w przypadku rozbieżnych zestawów referencyjnych, w których istnieje najwięcej możliwości poprawy, i zasadniczo nie uzyskano zysku w przypadku odniesień o średniej odległości między parami mniejszej niż 60% (rys. 3b)., Przewidywania struktury wtórnej zapewniły większą korzyść PREFAB-mod, ponieważ większa część jego sekwencji referencyjnych jest odległa o ponad 60 %.

Co ciekawe, poprawa wynikająca z włączenia struktury wtórnej wzrosła wraz z wyrównaniem kolejnych sekwencji (rys. 3c). Na najmniejszych zestawach sekwencji 2 odnotowano poprawę o 3,4% w przypadku PREFAB-mod i o 1,2% W przypadku HOMSTRAD-mod. Na dużych 4000 zestawach sekwencji przewaga wzrosła odpowiednio do 8,5% i 3,3%., Dlatego włączenie struktury wtórnej częściowo przeciwdziałało spadkowi wyniku, który jest zwykle obserwowany przy większych wyrównaniach . Zachowanie to odzwierciedlało predykcję struktury wtórnej, gdzie dokładność wzrasta wraz z większą liczbą sekwencji używanych w obliczeniach . Z tego powodu najdokładniejsze algorytmy predykcji struktury wtórnej wykorzystują wiele wyrównań. Podobnie, w tym przypadku wstępne przewidywania struktury drugorzędnej nie są dokładne, ponieważ są uzyskiwane z pojedynczych sekwencji., W miarę wyrównywania większej liczby sekwencji prawdopodobieństwa te są uśredniane, aby zwiększyć ich dokładność i lepiej ukierunkować wyrównanie. Jest to w przeciwieństwie do sekwencji pierwotnej, gdzie dodatkowe sekwencje nieuchronnie powodują więcej niejednoznaczności, co częściowo powoduje utratę sygnału, który przejawia się w niskiej jakości wyrównania niejednoznacznych profili.,

w tym modelu prawdopodobieństwa indel w celu poprawy pozycjonowania luk

motywowany poprawą uzyskaną z włączenia lokalnego kontekstu sekwencji za pomocą drugorzędnych prognoz struktury, zapytałem następnie, czy to samo podejście może być stosowane do lokowania luk. Wcześniejsze badania wykazały, że insercje i delecje (indele) są bardziej prawdopodobne w sąsiedztwie niektórych aminokwasów i w odsłoniętych regionach cewki ., Z tego powodu często zmniejsza się koszt otwarcia luki w hydrofilowych odcinkach lub alternatywnie zwiększa się koszt w regionach hydrofobowych, które mogą być zakopane w ograniczonym rdzeniu białka. Według mojej wiedzy, bardziej wyrafinowany model prawdopodobieństwa luki oparty na lokalnym kontekście nie został zastosowany do wyrównania sekwencji. W tym celu użyłem bazy danych One Gap do obliczenia względnej częstotliwości zdarzeń indel na podstawie pozostałości po lewej i prawej stronie środkowej luki., Ta informacja o częstości została następnie przekształcona w wyniki log-odds zgodnie z częstotliwością tła każdego aminokwasu.

Rysunek 4 pokazuje udział pobliskich aminokwasów w prawdopodobieństwie wystąpienia luki w pozycji zerowej. Zgodnie z oczekiwaniami pozostałości hydrofobowe (FMILYW) znacznie zmniejszają prawdopodobieństwo wystąpienia luki. Pozostałości hydrofilowe i” łamające strukturę ” (np. p) zwiększają szansę na sąsiadującą szczelinę, choć z mniejszym efektem niż pozostałości hydrofobowe., Ponieważ wyniki log-odds są w tych samych jednostkach, co macierz substytucyjna (trzecie bity), można je bezpośrednio zastosować do modulacji kosztów otwarcia i zamknięcia luk w dowolnej pozycji w oparciu o lokalny kontekst sekwencji (dodatkowy plik 1: Tabela S1). Oceniłem różne rozmiary okien, aby uwzględnić te informacje i stwierdziłem, że najlepsze okno rozciągało się od pozycji -4 do +4 w stosunku do środkowej szczeliny. W związku z tym koszt utworzenia luki w dowolnej pozycji jest pierwotnym kosztem luki plus wynik, który jest modulowany na podstawie pozostałości po obu stronach luki (patrz dodatkowy plik 1).,

rys. 4

wpływ lokalnego kontekstu sekwencji na koszt otwarcia luki w wyrównaniu. Pozostałości hydrofobowe znacznie zmniejszają prawdopodobieństwo szczeliny, podczas gdy pozostałości hydrofilowe i „łamające strukturę” zwiększają prawdopodobieństwo szczeliny., W modelu gap, pozycje znajdujące się w obrębie czterech pozostałości zostały wykorzystane do modulacji kosztów otwarcia luki w pozycji zerowej

następnie obliczyłem wyniki log-odds dla pozostałości przeciwstawnych do luki (w nienapartej sekwencji) i stwierdziłem, że te pozycje wykazywały niewielkie odchylenie w zawartości aminokwasów (dodatkowy plik 1: Tabela S1). Stwierdzono umiarkowaną korelację między wynikami log-odds dla pozycji po lewej lub prawej stronie luki a pozostałościami przeciwstawnymi luki (R2 odpowiednio 0,69 i 0,64)., Jednak w tym przypadku nie było wyraźnej różnicy między lokalizacjami w obrębie gapped region. Z tego powodu zdecydowałem się po prostu modulować koszt rozszerzenia luki w oparciu o średnie wyniki dla” gapped ” pozostałości w sposób niezależny od pozycji. Ogólnie rzecz biorąc, ten probabilistyczny model otwierania i rozszerzania luki dostosowuje karę luki w zakresie około + / – 20% na każdej pozycji.

aby rozszerzyć ten model rozmieszczania luk w oparciu o lokalny kontekst sekwencji, zbadałem następnie efekt krótkich wzorców sekwencji., Powtórzenia są głównym źródłem zmienności długości sekwencji biologicznych i są powszechnie spotykane we wszystkich gałęziach życia . Powtórzenia mają wiele różnych form, w tym krótkie powtórzenia mikrosatelitarne pojedynczego kodonu i dłuższe powtórzenia tandemowe regionów, które mogą ewoluować w wyniku mutacji, aby z czasem stać się niedopasowane . Dłuższe powtórzenia można dopasować do wyspecjalizowanych programów, które wykorzystują algorytmy wyszukiwania powtórzeń tandemowych . Krótkie wzorce są zazwyczaj pomijane jako nieistotne przez te programy ze względu na ich częste występowanie w sekwencjach., Jednak Chang i Benner odkryli, że krótkie powtórzenia dipeptydu (np. AA) były bardziej powszechne niż oczekiwano wokół luk, potencjalnie oferując środki modulacji kosztów luk. Aby zbadać ten efekt, zbadałem występowanie różnych wzorców sekwencji w bazie danych One Gap.

powtórzenia dipeptydu (Przebieg 2 identycznych aminokwasów) otaczające luki były tylko nieco bardziej prawdopodobne (< 1 trzeci bit) niż oczekiwano Przez przypadek. Jednak luki były znacznie bardziej prawdopodobne w przypadku przebiegów trzech lub dłuższych (np. AAA), jak pokazano w dodatkowym pliku 1: Rysunek S2., Efekt ten był szczególnie wyraźny w sekwencji bez luki, co wskazuje, że luki są często obecne, ponieważ jedna sekwencja ma dłuższy przebieg niż inna. Co zaskakujące, luki były mniej prawdopodobne w pozycji po rozpoczęciu biegu w przeciwnej sekwencji (np. AA / A -), niezależnie od długości biegu. Chociaż mechanizm tego występowania nie jest znany, może to wynikać z biologicznej roli powtórzeń dipeptydu, która skutkuje ich konserwacją. Podobne badania heteropeptydów powtarzają się z częstotliwością 2 (np.,, ACAC) do 6 nie wykazały silnego odchylenia od luk (dodatkowy plik 1: Rysunek S2). Dlatego zdecydowałem się rozszerzyć model gap, aby modulować koszt otwarcia luki w pozycjach przed i bezpośrednio po rozpoczęciu biegu w przeciwnej sekwencji.

ogólnie rzecz biorąc, zastosowanie tego modelu lokowania luk spowodowało niewielką poprawę o 0,5% W przypadku PREFAB-mod (p< 1E-4) i 0,3% W przypadku HOMSTRAD-mod (p< 1e-3). Poprawa Q-score odpowiadała wzrostowi m-score o 0,2 % w obu benchmarkach., Te zmiany w score były nieoczekiwane, ponieważ wzorce strukturalne nie uwzględniają większości regionów Gap, ponieważ często występują w częściach struktury, które są trudne do nałożenia , a powtórki zwykle znajdują się w nieuporządkowanych regionach białkowych . Chociaż, symulacje ewolucyjne oferują sposób scoring gapped regionów, takie symulacje obecnie nie Obejmują Modelu zależnego od kontekstu prawdopodobieństwa luki., W związku z tym możliwe jest, że rozmieszczenie luk poprawiło się bardziej niż wynikałoby to z niewielkiego wzrostu wyników, ale obecnie nie istnieje odpowiedni sposób pomiaru rzeczywistej korzyści płynącej z włączenia do wyrównania zaawansowanego modelu luk.

porównanie rozszyfrowania z innymi programami dla MSA

Po pomyślnym zintegrowaniu świadomości kontekstowej z oprogramowaniem do rozszyfrowania w celu wyrównania sekwencji, porównałem następnie jego wydajność z innymi najnowocześniejszymi programami do wyrównywania., Po pierwsze, zdecydowałem się porównać rozszyfrowanie z trzema popularnymi programami zdolnymi do efektywnego wyrównania tysięcy sekwencji: Clustal Omega, MAFFT i MUSCLE . Programy te są regularnie wykorzystywane w różnych badaniach i stały się de facto standardem porównywania na benchmarkach. Rysunek 5 pokazuje wydajność każdego programu względem rozszyfrowania dla rosnącej liczby sekwencji wejściowych., Ranking wydajności jest w silnej zgodzie między homstrad-mod i PREFAB-mod benchmarks, jednak istnieje większy rozrzut między programami na PREFAB-mod, ponieważ zawiera większy ułamek sekwencji w lub poniżej Strefy Mroku.

rys. 5

wydajność popularnych programów do ustawiania wielu sekwencji względem rozszyfrowywania w benchmarkach HOMSTRAD-mod (H-mod) i PREFAB-mod (P-mod). PROMALE prezentowały najlepsze wyniki na najmniejszych zestawach dwóch sekwencji., MAFFT miał najlepszą wydajność na małych zestawach wejściowych 125 sekwencji, gdzie wykorzystuje znacznie wolniejszą strategię opartą na spójności. MUSCLE pokazał najgorszą wydajność na większych zestawach sekwencji. Wydajność DECIPHERA w porównaniu z innymi programami poprawiła się wraz z wyrównaniem większej liczby sekwencji

gdy tylko dwie sekwencje były wyrównane z każdego benchmarka, wszystkie programy wyrównujące dały podobne wyniki, a MAFFT wykazywał najniższą dokładność. W zestawie 125 sekwencji, DECIPHER zajmuje drugie miejsce za MAFFT., Dla zestawów wejściowych o tej wielkości, MAFFT używa swojego najdokładniejszego algorytmu opartego na konsystencji (L-INS-i), który nie jest skalowalny do większych zestawów sekwencji. Poza 125 sekwencjami wejściowymi, rozszyfrowanie wyraźnie przewyższa pozostałe trzy programy (dodatkowy plik 1: Tabela S2), a jego przewaga poprawia się w miarę wyrównywania kolejnych sekwencji (rys. 5). Odzwierciedla to fakt, że dokładność rozszyfrowania pozostaje stosunkowo stała wraz ze wzrostem liczby sekwencji (rys. 3), co częściowo wynika z zastosowania struktury wtórnej podczas osiowania., Clustal Omega, MAFFT i DECIPHER mają podobne wyniki m w zakresie rozmiarów wejściowych (dodatkowy plik 1: Rysunek S3). MUSCLE miał najbiedniejsze wyniki, ze znacznie gorszymi wynikami Q-I M-dla wszystkich, z wyjątkiem najmniejszych zestawów sekwencji wejściowych. Co więcej, chociaż Q-score, total column score (TC-score) i Cline shift-score czasami dają sprzeczne wyniki w rankingach wydajności, te trzy statystyki zdecydowanie zgadzają się w obu testach (dodatkowy plik 1: rysunki S4 i S5).,

przetrenowanie do jednego zestawu odniesienia było problemem dla niektórych programów wyrównywania , chociaż oba zestawy odniesienia użyte tutaj wykazały podobne wyniki. Jednak inne programy mogą być lepiej przeszkolone na oryginalnych wzorcach, które nie są oparte na wynikach programu wyrównywania strukturalnego Mustang. Aby sprawdzić, czy rozszyfrowanie nie było nadmiernie przeszkolone do wyjść Mustanga, powtórzyłem analizę używając oryginalnych prefabrykowanych par odniesienia, które zostały wyrównane niezależnie od Mustanga., Niezmodyfikowane prefabrykowane sekwencje referencyjne wykazały silną konkordancję struktury wtórnej, a zatem stanowią wysokiej jakości alternatywny punkt odniesienia. Niemniej jednak wyniki (dodatkowy plik 1: Rysunek S6) były bardzo podobne dla obu zestawów sekwencji referencyjnych, co wskazuje, że wydajność DECIPHER nie była ściśle związana z wynikami Mustanga.

porównałem następnie DECIPHER do makaronu , który jest programem mającym na celu rozszerzenie dokładności mniej skalowalnych algorytmów do dużych wyrównań., PASTA działa poprzez podzielenie wyrównania na nakładające się pod-problemy, które są dopasowane do dokładnej strategii, domyślnie podejście oparte na spójności L-INS-i MAFFT. Te podrównania są scalane za pomocą przechodniości, a Proces jest powtarzany począwszy od nowego drzewa przewodnika. Co ciekawe, makaron przewyższył rozszyfrowanie na zestawach sekwencji 125 i 250 na HOMSTRAD-mod (rys. 5), ale statystycznie nie do odróżnienia na większych zestawach (dodatkowy plik 1: Tabela S2). Jednak rozszyfrowanie znacznie przewyższało makaron na PREFAB-mod, a jego przewaga wzrosła w miarę wyrównywania kolejnych sekwencji., Ponadto makaron wykazywał duży spadek dokładności przy zwiększaniu rozmiaru osiowania. Tabela 1 pokazuje, że wydajność DECIPHER zmniejszyła się najmniej ze wszystkich programów wyrównywania wraz ze wzrostem rozmiaru wyrównania.

Tabela 1 Zmiana średniego wyniku Q w zależności od liczby wyrównanych sekwencji

wreszcie porównałem wydajność DECIPHER do PROMALI, który jest programem , który opiera się na dokładniejszych prognozach struktury wtórnej uzyskanych z PSIPRED ., PROMALS najpierw przeprowadza wyszukiwanie PSI-BLAST z reprezentatywnymi sekwencjami z zestawu wejściowego, a następnie wykorzystuje dokładne przewidywania struktury wtórnej z podejściem opartym na spójności w celu wyrównania sekwencji. PROMALS znacznie przewyższał wszystkie inne programy wyrównujące na najmniejszych zestawach dwóch sekwencji, ale jego przewaga zniknęła po dodaniu innych sekwencji do zestawu wejściowego (rys. 5). Co więcej, było kilka rzędów wielkości wolniej niż inne alignery (rys. 6), A testowanie zestawów wejściowych większych niż 125 sekwencji okazało się zbyt czasochłonne., Dostępne są nowsze podejścia wykorzystujące rozwiązane struktury białkowe, takie jak PROMALS3D . Nie jest jednak jasne, jak przetestować takie podejścia na wzorcach strukturalnych, ponieważ sekwencje referencyjne są prawdopodobnie obecne w tych samych strukturach baz danych używanych przez te programy.

rys. 6

średni czas wykonania w zależności od liczby wyrównanych sekwencji (zwróć uwagę na podziały osi i skalę dziennika)., PROMALS był znacznie wolniejszy niż inne programy, które nie polegały na dużej zewnętrznej bazie sekwencji. MAFFT był najszybszym programem dla dużych zestawów sekwencyjnych. PASTA był najwolniejszym testowanym programem do wyrównywania dużych zestawów sekwencji, wymagającym średnio 2,7 h, aby wyrównać 4000 sekwencji. Godna uwagi poprawa szybkości została uzyskana dzięki odszyfrowaniu przy użyciu wielu procesorów

rozszyfrowanie nie było ani najwolniejszym, ani najszybszym programem do wyrównywania każdego z zestawów sekwencji (rys. 6)., MAFFT był na ogół najszybszym programem, z wyjątkiem najmniejszych zestawów sekwencji, w których używa wolniejszych, dokładniejszych strategii wyrównywania. Zmiana upływającego czasu jest dramatyczna dla MAFFT i mięśni powyżej 250 sekwencji, gdzie zastosowano bardziej efektywne strategie. Makaron był najwolniejszym programem i wymagał średnio 2,7 h, aby wyrównać 4000 sekwencji. Zarówno Clustal Omega, jak i DECIPHER były w stanie wyrównać 4000 sekwencji w średnio pół godziny. Ponieważ obliczanie drzewa przewodnika jest czynnikiem ograniczającym dla dużych zbiorów sekwencji, równoległość może być przydatna w takich okolicznościach., Na przykład, rozszyfrowanie było około dwa razy szybsze, gdy użyto 8 procesorów (rys. 6). Maksymalne zużycie pamięci DECIPHERA wynosiło 2 GB przy wyrównywaniu 4000 sekwencji.

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *