Rozszyfrowywanie: wykorzystanie lokalnego kontekstu sekwencji w celu poprawy wyrównania wielu sekwencji białek / Bioinformatyka BMC

Wybieranie wysokiej jakości wyrównań referencyjnych do benchmarkingu

różne wzorce często skutkują kontrastującymi optymalnymi parametrami (np. kary otwarcia i rozszerzenia luk) i niezgodną klasyfikacją wydajności programów wyrównujących . Z tych powodów wybór benchmarka ma ogromne znaczenie przy opracowywaniu i porównywaniu algorytmów do wyrównywania sekwencji., Aby wybrać benchmarki wyrównawcze dla tego badania, zacząłem od porównania zgodności struktury drugorzędnej we wspólnych benchmarkach. Ta metoda porównywania wymaga, aby dostępna była wtórna struktura sekwencji referencyjnych, co wyklucza popularne benchmarki Balibazy, ponieważ odpowiednia struktura wtórna większości sekwencji Balibazy jest nieznana . Chociaż samo porozumienie w sprawie struktury drugorzędnej jest niewystarczające do zapewnienia wysokiej jakości wskaźnika referencyjnego, brak porozumienia może wskazywać na niedokładność dostosowania.,

oczekuje się, że lepsze wyrównania odniesienia będą miały większy procent wyrównanych pozostałości o identycznej strukturze wtórnej. Jednak pewne rozbieżności w strukturze wtórnej są przewidywane z powodu zarówno wewnętrznych trudności w przypisaniu struktury wtórnej, jak i wyzwań związanych z dostosowaniem odległych pokrewnych struktur trzeciorzędowych . Rysunek 1 pokazuje ułamek umowy struktury drugorzędowej w porównaniu z tożsamością sekwencji pary dla czterech wspólnych kryteriów aminokwasowych., Benchmarki SABmark i PREFAB zawierają największy ułamek ich sekwencji w „strefie mroku” lub poniżej 20 do 35% tożsamości sekwencji, podczas gdy nacisk OXBench kładzie się na mniej wymagające wyrównania. PREFAB wydaje się być znacznie lepiej dopasowany niż SABmark, mimo że oba odniesienia obejmują podobny zakres tożsamości sekwencyjnych. W przypadku sekwencji o tożsamości mniejszej niż 10% PREFAB ma o 13,4% większą tożsamość strukturalną (p < 1e-15) niż SABmark., Ustalenia te są zgodne z poprzednim badaniem, w którym PREFAB był najlepszym punktem odniesienia zaprojektowanym specjalnie do porównywania programów MSA, chociaż wiadomo, że PREFAB zawiera błędy .

wszystkie kolumny wyrównań zostały użyte do oceny ogólnej dokładności każdego wzorca, a nie tylko za pomocą bloków rdzenia (regionów homologicznych), które są zazwyczaj oznaczone wielkimi literami., Wybór zastosowania całego wyrównania został dokonany, ponieważ: (i) definicja bloków podstawowych różni się w zależności od wzorca, (ii) niektóre procedury punktacji wykorzystują całe wyrównanie, (iii) odległość pairwise jest obliczana przy użyciu całego wyrównania, oraz (iv) wzorce HOMSTRAD i SABmark nie określają bloków podstawowych. Bloki rdzeniowe w PREFABIE zostały przydzielone na podstawie porozumienia między dwoma różnymi programami wyrównywania konstrukcji., To zmotywowało mnie do przyjrzenia się różnicy między oryginalnymi benchmarkami a tymi samymi sekwencjami dostosowanymi za pomocą niezależnego od sekwencji programu wyrównywania strukturalnego MUSTANG . Zmiany z Mustangiem wykazywały większą wtórną zbieżność strukturalną niż oryginalne wzorce, z wyjątkiem przypadku HOMSTRADA (rys. 1). W szczególności SABmark miał o 11,2% wyższą tożsamość struktury wtórnej po dostosowaniu do Mustanga (p < 1e-15)., Wynik ten wspiera wykorzystanie bazy danych HOMSTRAD jako wzorca porównawczego, mimo że nie była ona pierwotnie przeznaczona do tego celu.

ponieważ liczba sekwencji o znanej strukturze jest niewielka w stosunku do liczby dostępnych sekwencji, większość benchmarków jest uzupełniana o dodatkowe sekwencje nieprzypisane do scoringu. Prefabrykowane wyrównania odniesienia są uzupełniane o dodatkowe sekwencje znalezione za pomocą wyszukiwania PSI-BLAST z sekwencjami odniesienia. Sekwencje HOMSTAD są często uzupełniane innymi sekwencjami należącymi do tej samej rodziny Pfam ., Porównałem te dwa podejścia wybierając losowo sekwencje z rodziny Pfam odpowiadające prefabrykowanym sekwencjom referencyjnym. Po wygenerowaniu wyrównania z tą samą liczbą dodatkowych sekwencji, drzewo łączące sąsiada zostało skonstruowane w celu określenia szerokości dodanych sekwencji. Średnia długość drzewa była 1,6 razy dłuższa dla losowych sekwencji Pfam niż w przypadku PREFAB (p < 1e-15)., Wskazywało to, że rozszerzenie zestawu wejściowego w sposób, który nie jest bezpośrednio zależny od sekwencji odniesienia, skutkuje największą różnorodnością sekwencji uzupełniających.

nie jest jasne, który benchmark referencyjny najlepiej odzwierciedla typowe sekwencje użytkownika, a szeroka różnorodność aplikacji MSA prawdopodobnie obejmuje większość scenariuszy dopasowania występujących w benchmarkach. Zestawy SABmark obejmują wąski zakres tożsamości sekwencji, podczas gdy OXBench skupia się na ściśle powiązanych sekwencjach, które są łatwiejsze do wyrównania., Ze względu na zarówno jakość wyrównania, jak i szerokość tożsamości sekwencyjnych, zdecydowałem się kontynuować resztę tego badania z nieco zmodyfikowanymi wersjami oryginalnych zestawów danych PREFAB i HOMSTRAD, zwanych PREFAB-mod i HOMSTRAD-mod(patrz metody). Aby uzupełnić zmodyfikowane benchmarki, dodałem sekwencje pełnowymiarowe należące do tej samej rodziny Pfam. Sekwencje pełnowymiarowe były używane zamiast tylko współdzielonej domeny, aby wyrównania były trudniejsze i reprezentowały większą różnorodność potencjalnych scenariuszy użycia., Często sekwencje są wyrównane mają różną długość, ponieważ pokrywają nakładające się regiony genu, lub zostały przycięte inaczej w oparciu o ich wyniki jakości na każdym końcu.

skalowalne włączenie struktury wtórnej do osiowania

pomimo ścisłego związku między strukturą wtórną a osiowaniem sekwencji, większość popularnych programów wyrównywania białek nie przewiduje informacji strukturalnych., Główną wadą predykcji struktury wtórnej jest to, że dokładne obliczenia są powolne, co zapobiega skalowaniu do wyrównania setek sekwencji w rozsądnym czasie . Mniej dokładne przewidywania struktury wtórnej można uzyskać bardzo szybko przy użyciu podejść jednosekwencyjnych, które nie polegają na konstruowaniu wielokrotnego wyrównania z sekwencjami homologicznymi. Metoda GOR jest jedną z najdokładniejszych, biorąc pod uwagę pojedynczą sekwencję ., W tej metodzie struktura wtórna jest przypisana do jednego z trzech stanów: helisy (H), arkusza (E) lub cewki (C) na podstawie lokalnego kontekstu sekwencji otaczającej pozostałość. To podejście ma tę zaletę, że jest niezwykle szybkie (< 1 % czasu wymaganego do wyrównania), zapewnia wartość prawdopodobieństwa dla każdego stanu i oferuje około 65% dokładności .,

aby zintegrować prognozy struktury wtórnej z dynamicznym frameworkiem programowania dla wyrównania profilu, dodałem nową symetryczną macierz 3 × 3 reprezentującą szanse wyrównania H, E lub C w jednej sekwencji z inną pozycją przypisaną do H, E lub C w drugiej sekwencji. Połączenie tej macierzy z prawdopodobieństwem przypisanym każdemu z trzech stanów konstrukcyjnych pozwoliło na wyrównanie profilu-profilu struktur wtórnych., Wynik uzyskany z wyrównania drugorzędnych profili struktury powiększył tradycyjny wynik oparty na macierzy podstawienia określony z sekwencji pierwotnych(patrz dodatkowy plik 1 tekst). W ten sposób można jednocześnie zmaksymalizować pierwotną i wtórną umowę struktury.

Rysunek 2 przedstawia przykładowe wyrównanie rodziny białek dehydrogenazy mleczanowo-jabłczanowej (Pfam). PF00056; rodzina HOMSTRAD „LDH”)., Przypisania DSSP są ogólnie zgodne w całej homstrad-Mod wyrównania, który jest oparty na znanych trzeciorzędowych struktur tych białek. Prognozy wykonane metodą GOR odzwierciedlają te drugorzędne przypisania struktury z pewnymi rozbieżnościami. Przewidywania GOR kierują wyrównaniem rozszyfrowania, które dokładnie odpowiada wyrównaniu odniesienia w regionach zdefiniowanych jako bloki rdzenia, oznaczonych wielkimi literami W górnym wyrównaniu rys. 2., Obszary wyrównania odniesienia, które wykraczają poza bloki rdzenia, nie są używane do określania dokładności i różnią się od wyników rozszyfrowania w niektórych kolumnach.