Výběr vysoce kvalitní referenční zarovnání pro benchmarking
Různé referenční hodnoty často za následek kontrastní optimální parametry (např. mezera otevření a rozšíření sankcí) a nekompatibilní výkon žebříčku zarovnání programy . Z těchto důvodů je volba benchmarku nanejvýš důležitá při vývoji a porovnávání algoritmů pro zarovnání sekvencí., Chcete-li zvolit srovnávací kritéria pro tuto studii, začal jsem porovnáním konkordance sekundární struktury napříč společnými benchmarky. Tento způsob srovnání vyžaduje, že sekundární struktura referenčních sekvencí být k dispozici, což vylučuje populární BAliBASE měřítek, protože odpovídající sekundární struktura většiny BAliBASE sekvence není známa . Ačkoli dohoda o sekundární struktuře sama o sobě není dostatečná k zajištění vysoké kvality, nedostatek dohody může být známkou nepřesnosti zarovnání.,
očekává se, že lepší referenční zarovnání bude mít větší procento souladu zbytků s identickou sekundární struktury. Nicméně, některé neshody v sekundární struktuře se předpokládá vzhledem k oběma vnitřní problémy v přiřazení sekundární struktury a problémy k vyrovnání vzdáleně souvisí terciární struktury . Obrázek 1 ukazuje zlomek dohody o sekundární struktuře versus identita párové sekvence pro čtyři běžné benchmarky aminokyselin., Na SABmark a PANELOVÝCH standardy obsahují největší zlomek jejich sekvence, v nebo pod „twilight zone“, 20 až 35% sekvenční identity, zatímco důraz OXBench je na méně náročné zarovnání. Zdá se, že panel je celkově výrazně lépe zarovnán než SABmark, navzdory oběma odkazům pokrývajícím podobný rozsah identit sekvencí. U sekvencí s méně než 10% identitou má PREFAB o 13,4 % větší strukturální identitu (p < 1e-15) než SABmark., Tato zjištění jsou ve shodě s předchozí studii, která zjistila, PANELÁK být nejlepší měřítko navržen speciálně pro srovnání MSA programů, i když PANELOVÉHO je známo, že obsahují chyby .
Všechny sloupce zarovnání byly použity pro posouzení celkové přesnosti každé měřítko, spíše než jen pomocí základních bloků (homologní oblastí), které jsou obvykle vymezeny velká písmena., Možnost použít celou vyrovnání byla provedena, protože: (i) definice základních bloků se pohybuje mezi kritéria, (ii) některé bodování postupy využít celý jeho zarovnání , (iii) párové vzdálenost se vypočítá pomocí celého vyrovnání, a (iv) HOMSTRAD a SABmark referenční hodnoty nejsou vymezit základní bloky. Základní bloky v PREFABU byly přiřazeny na základě dohody mezi dvěma různými programy strukturálního vyrovnání., To mě motivovalo podívat se na rozdíl mezi původní referenční hodnoty a stejné sekvence srovnal s sekvence-nezávislé strukturní alignment programu MUSTANG . Vyrovnání s Mustangem vykazovala větší sekundární strukturální shodu než původní referenční hodnoty, s výjimkou případu HOMSTRAD (obr. 1). Zejména SABmark měl o 11,2% vyšší identitu sekundární struktury po přeskupení s Mustangem (p < 1e-15)., Tento výsledek podporuje použití databáze HOMSTRAD jako srovnávací měřítko, i když pro tento účel nebyl původně určen.
Protože počet sekvencí se známou strukturou je malý v poměru k počtu dostupných sekvencí, většina kritéria jsou doplněna další nezařazená sekvence, které nejsou považovány za v bodování. Referenční zarovnání PREFABU je doplněno dalšími sekvencemi nalezenými pomocí vyhledávání PSI-BLAST s referenčními sekvencemi. HOMSTADOVÉ sekvence jsou běžně doplněny dalšími sekvencemi patřícími do stejné rodiny Pfam ., Porovnal jsem tyto dva přístupy náhodným výběrem sekvencí z rodiny Pfam odpovídající PANELOVÝCH referenční sekvence. Po vytvoření zarovnání se stejným počtem doplňkových sekvencí, soused spojující strom byl konstruován pro určení šířky přidaných sekvencí. Průměrná délka stromu byla u náhodných pfam sekvencí 1,6 krát delší než u prefabrikovaných sekvencí (p < 1e-15)., To naznačovalo, že rozšíření vstupní sady způsobem, který není přímo závislý na referenčních sekvencích, má za následek největší rozmanitost doplňkových sekvencí.
není jasné, který referenční benchmark nejlépe odráží typické sekvence uživatele, a široká rozmanitost aplikací MSA pravděpodobně pokrývá většinu scénářů zarovnání nalezených v benchmarcích. SABmark sady pokrývají úzký rozsah sled identit, zatímco OXBench se zaměřuje na úzce související sekvence, které jsou lépe zarovnat., V důsledku vyrovnání kvalitu a šíři sekvence identity, jsem se rozhodl pokračovat ve zbytku této studie s mírně upravená verze původní MONTOVANÉ a HOMSTRAD datové soubory, tzv. MONTOVANÉ-mod a HOMSTRAD-mod (viz Metody). Pro doplnění upravených referenčních hodnot jsem přidal celé sekvence patřící do stejné rodiny Pfam. Sekvence v plné délce byly použity spíše než pouze sdílená doména, aby byly zarovnání náročnější a představovaly větší škálu možných scénářů použití., Často sekvence jsou zarovnány mají různé délky, protože pokrývají překrývající se oblasti genu,nebo byly upraveny odlišně na základě jejich kvality skóre na každém konci.
Škálovatelné začlenění sekundární struktury do zarovnání
i Přes těsné spojení mezi sekundární struktura a sekvence zarovnání, nejoblíbenější protein zarovnání programy nepředpovídají strukturální informace., Hlavní nevýhodou predikce sekundární struktury je, že je pomalé přesně vypočítat, což mu brání v škálování na zarovnání stovek sekvencí v přiměřeném čase . Méně přesné sekundární struktura předpovědi lze získat velmi rychle pomocí jediného-sekvenční přístupy, které se neopírají o stavbě vícenásobné zarovnání s homologní sekvencí. Metoda GOR je jedním z nejpřesnějších vzhledem k jediné sekvenci ., V této metodě je sekundární struktura přiřazena jednomu ze tří stavů: šroubovice (H), list (E) nebo cívka (C) na základě kontextu místní sekvence obklopující zbytek. Tento přístup má tu výhodu, že je velmi rychlý (< 1 % času potřebného pro zarovnání), poskytuje hodnota pravděpodobnosti, pro každý stát, a nabízí o 65 % přesností .,
integrovat sekundární struktura předpovědi do dynamické programování rámec pro profil-profil vyrovnání, přidal jsem nové 3 × 3 symetrické matice reprezentující log-šance na vyrovnání, H, E, a nebo C v sekvenci s jinou pozici přiřazené k H, E, nebo C, v druhém pořadí. Spojování této matice s pravděpodobností přiřazenou každému ze tří strukturálních stavů povolených pro zarovnání profilu a profilu sekundárních struktur., Skóre získané zarovnáním profilů sekundární struktury rozšířilo tradiční skóre založené na substituční matici určené z primárních sekvencí (viz další text souboru 1). Tímto způsobem lze současně maximalizovat primární a sekundární strukturu.
Obrázek 2 zobrazuje příklad zarovnání rodiny proteinů laktátu / malátdehydrogenázy (pfam). Pf00056; HOMSTRAD „LDH“ rodina) získané pomocí tohoto přístupu., Přiřazení DSSP jsou obecně shodné v homstrad-mod alignment, který je založen na známých terciárních strukturách těchto proteinů. Předpovědi provedené metodou GOR odrážejí tyto přiřazení sekundární struktury s některými nesrovnalostmi. Předpovědi GOR vedou zarovnání dešifrování, které přesně odpovídá referenčnímu zarovnání v oblastech definovaných jako jádrové bloky, označených velkými písmeny v horním zarovnání obr. 2., Oblasti referenčního zarovnání, které spadají mimo jádrové bloky, se nepoužívají při určování přesnosti a liší se od dešifrovacího výstupu v některých sloupcích.
Jednou z výhod použití malé 3 × 3 sekundární struktura matrice je, že počet volných parametrů je daleko míň, než počet informativní údaje bodů, což dává odhad chyby zanedbatelné (Další soubor 1: Obrázek S1)., Najít optimální hodnoty pro každý z 6 odlišné parametry v matrixu, jsem hrál grid-hledání řešení, která vyústila v to nejlepší-bodování zarovnání na základě součtu Q-skóre a M-skóre na podmnožinu HOMSTRAD-mod se skládá z 238 referenční sady. V optimální mezi nad-zarovnání a pod-zarovnání, jakýkoliv zisk v Q-score je vyvážena odpovídající ztráty v M-skóre, a svěrák-versa. Optimalizovaná matice sekundární struktury je znázorněna na obr. 3a., E-stavy jsou velmi pravděpodobné, že budou vyrovnány, což se odráží ve velkém příspěvku dvojic E / E K skóre sekundární struktury. Metoda GOR má tendenci podceňovat β-listy, což má za následek nízkou frakci e-stavů ve většině sekvencí .
Next, jsem se zeptal, zda začlenění sekundární struktura vylepšené zarovnání sekvencí, a jak se to škálovat s počtem sekvence je sladěna. V průměru ve všech velikostech sekvenčních sad, začlenění sekundární struktury vedlo k 5.3% zlepšení Q-skóre na PREFAB-mod a 2.1% na HOMSTRAD-mod. Toto podstatné zvýšení Q-skóre přišlo na úkor 0.,4% snížení M-skóre na PREFAB-mod a 0,3% pokles na HOMSTRAD-mod. Proto se podíl homologií, které jsou správně zarovnány, mírně snížil, zatímco celkový počet správně zarovnaných homologií se podstatně zvýšil. Není překvapením, že největší zisky byly na rozdílné referenční sady, kde existuje největší prostor pro zlepšení, a v podstatě žádný zisk byl vyroben na odkazy s méně než 60 % průměrné vzdálenosti mezi páry (Obr. 3b)., Předpovědi sekundární struktury poskytly větší přínos pro PREFAB-mod, protože větší zlomek jeho referenčních sekvencí je vzdálen více než 60%.
zajímavé je, že zlepšení ze začlenění sekundární struktury se zvýšilo, když bylo zarovnáno více sekvencí (obr. 3c). Na nejmenších sadách 2 sekvencí došlo k 3,4% zlepšení na PREFAB-mod a 1,2% na HOMSTRAD-mod. U velkých 4000 sekvencí se výhoda zvýšila na 8,5% a 3,3%., Proto začlenění sekundární struktury částečně potlačilo pokles skóre, který je obvykle pozorován u větších zarovnání . Toto chování odráželo chování predikce sekundární struktury, kde se přesnost zvyšuje, protože se při výpočtu používá více sekvencí . Z tohoto důvodu nejpřesnější algoritmy predikce sekundární struktury využívají více zarovnání. Podobně zde počáteční předpovědi sekundární struktury postrádají přesnost, protože jsou získány z jednotlivých sekvencí., Vzhledem k tomu, že více sekvencí je zarovnáno, jsou tyto pravděpodobnosti zprůměrovány, aby se zvýšila jejich přesnost a lepší vedení zarovnání. To je na rozdíl od primární sekvence, kde další sekvence nevyhnutelně vedou k větší nejednoznačnosti, což částečně způsobuje ztrátu signálu, který se projevuje ve špatné kvalitě zarovnání nejednoznačných profilů.,
Včetně modelu indel pravděpodobnost zlepšit mezera umístění
Motivován zlepšení získané z zahrnující místní sekvence kontextu prostřednictvím sekundární struktury předpovědi, jsem další otázku, zda stejný přístup by mohl být aplikován na mezeru umístění. Předchozí výzkum ukázal, že inzerce a delece (indely) se častěji vyskytují v blízkosti určitých aminokyselin a v exponovaných oblastech cívky ., Z tohoto důvodu je běžné snížit náklady na otevření mezery v hydrofilních úsecích nebo alternativně zvýšit náklady v hydrofobních oblastech, které budou pravděpodobně pohřbeny v omezeném jádru proteinu. Pokud vím, sofistikovanější model pravděpodobnosti mezery založený na místním kontextu nebyl aplikován na zarovnání sekvencí. Za tímto účelem jsem použil databázi one Gap pro výpočet relativní frekvence indelových událostí na základě zbytků vlevo a vpravo od centrální mezery., Tato informace o frekvenci byla poté převedena na skóre log-odds podle frekvence pozadí každé aminokyseliny.
obrázek 4 ukazuje přínos blízkých aminokyselin k pravděpodobnosti mezery v poloze nula. Jak se očekávalo, hydrofobní zbytky (FMILYW) výrazně snižují pravděpodobnost mezery. Hydrofilní a“ rozbíjení struktury “ (např. P) zbytky zvyšují pravděpodobnost sousední mezery, i když s menším účinkem než hydrofobní zbytky., Od log-odds výsledky jsou ve stejných jednotkách jako substituční matice (třetí-bitů), mohou být přímo použity k modulaci mezera-otevření a gap-closing náklady na jakékoliv pozici na základě své místní sekvence kontextu (Další soubor 1: Tabulka S1). Vyhodnotil jsem různé velikosti oken pro zahrnutí těchto informací a zjistil jsem, že nejlepší okno se táhlo z pozice -4 na +4 vzhledem k centrální mezeře. Náklady na vytvoření mezery v libovolné poloze jsou tedy původní náklady na mezery plus skóre, které je modulováno na základě zbytků na obou stranách mezery (viz další soubor 1).,
Next, jsem vypočítá log-odds skóre pro rezidua proti mezera (v ungapped sekvence), a zjistil, že tyto pozice zobrazí malé zkreslení v obsahu aminokyselin (Další soubor 1: Tabulka S1). Došlo k mírné korelaci mezi skóre log-odds pro pozice vlevo nebo vpravo od mezery a zbytky proti mezeře (R2 0, 69 a 0, 64)., V tomto případě však nebyl zřejmý rozdíl mezi místy v oblasti gapped. Z tohoto důvodu jsem se rozhodl jednoduše modulovat náklady na rozšíření mezery na základě průměrného skóre reziduí „gapped“nezávislým způsobem. Celkově tento pravděpodobnostní model otevření a rozšíření mezery upravuje trest mezery v rozmezí přibližně + / – 20% v každé poloze.
Chcete-li rozšířit tento model umístění mezery na základě lokálního sekvenčního kontextu, dále jsem zkoumal účinek krátkých sekvenčních vzorů., Opakování jsou hlavním zdrojem změny délky v biologických sekvencích a běžně se vyskytují ve všech odvětvích života . Opakování mají širokou škálu forem, včetně krátkých mikrosatelitových opakování jediného kodonu a delších tandemových opakování regionů, které se mohou vyvinout mutací, aby se časem neshodovaly . Delší opakování lze sladit se specializovanými programy, které používají algoritmy pro vyhledávání tandemových opakování . Krátké vzory jsou obvykle zanedbávány jako nevýznamné těmito programy kvůli jejich častému výskytu v sekvencích., Chang a Benner však zjistili, že krátké opakování dipeptidu (např. Abych tento efekt prozkoumal, zkoumal jsem výskyt různých sekvenčních vzorů v databázi one Gap.
Dipeptid opakuje (běží 2 identických aminokyselin) okolní mezery byly jen mírně pravděpodobnější (< 1 třetí-bit), než se očekávalo náhodou. Nicméně, mezery byly podstatně větší pravděpodobnost, že se vyskytnou kolem běží tři nebo déle (např., AAA), jak je znázorněno v doplňkovém souboru 1: obrázek S2., Tento efekt byl nejvýraznější v pořadí, bez mezery, což naznačuje, že mezery jsou často přítomny, protože jedna sekvence má delší běh, než jiné. Překvapivě, mezery byly méně pravděpodobné, že se vyskytnou v poloze po začátku běhu v protilehlé sekvenci (např., AA/A -), bez ohledu na délku běhu. Přestože mechanismus tohoto výskytu není znám, může to být způsobeno biologickou úlohou pro opakování dipeptidu, která vede k jejich zachování. Podobné vyšetření heteropeptidu se opakuje s periodicitou 2 (např.,, ACAC) až 6 neodhalil silnou zaujatost vůči mezerám (další soubor 1: obrázek S2). Proto jsem se rozhodl rozšířit mezeru modelu modulovat mezera otevření nákladů na pozice před a bezprostředně po začátku běhu v opačném pořadí.
Celkově zaměstnává tento model gap umístění za následek mírné zlepšení o 0,5 % na MONTOVANÉ-mod (p < 1e-4) a 0,3 % na HOMSTRAD-mod (p < 1e-3). Zlepšení Q-skóre bylo uzavřeno o 0,2% zvýšení M-skóre na obou benchmarcích., Tyto změny ve skóre byly nečekané, jako strukturální kritéria nepovažuji většina gapped regionech, protože se často vyskytují v některých částech stavby, které jsou obtížné překrýt , a opakuje se většinou nacházejí v disordered protein regionů . Ačkoli, evoluční simulace nabízejí prostředek bodování gapped regionů, takové simulace v současné době nezahrnují kontextově závislý model pravděpodobnosti mezery., Proto je možné, že umístění mezery zlepšila více, než se odráží mírné zvýšení skóre, ale v současné době neexistuje žádný adekvátní způsob měření skutečných výhod zahrnující sofistikované gap model do vyrovnání.
Srovnání ROZLUŠTIT do jiných programů pro MSA
S úspěšně integrovaných kontext povědomí do DEŠIFROVAT software pro sekvence zarovnání, jsem další ve srovnání své výkonnosti s jinými state-of-the-art zarovnání programy., Nejprve jsem se rozhodl porovnat dešifrování proti třem populárním programům schopným efektivně sladit tisíce sekvencí: Clustal Omega , MAFFT a MUSCLE . Tyto programy jsou pravidelně zaměstnán v různých studiích, a staly se de facto standardem pro srovnání na referenční hodnoty. Obrázek 5 ukazuje výkon každého programu vzhledem k dešifrování pro zvýšení počtu vstupních sekvencí., Hodnocení výkonu je v silné shodě mezi benchmarky HOMSTRAD-mod a PREFAB-mod, přesto existuje větší rozpětí mezi programy na PREFAB-modu, protože obsahuje větší zlomek sekvencí v zóně soumraku nebo pod ní.
Když pouze dvě sekvence byly zarovnány z každé měřítko, zarovnání programy všechny dal podobné výsledky, s MAFFT ukazuje nejnižší přesnost. V sadách 125 sekvencí je DEŠIFROVAČ zařazen na druhé místo za MAFFTEM., Pro vstupní množiny této velikosti používá MAFFT svůj nejpřesnější algoritmus založený na konzistenci (L-INS-I), který není škálovatelný na větší množiny sekvencí. Kromě 125 vstupních sekvencí dešifrování jasně překonává další tři programy (Další soubor 1: tabulka S2) a jeho vedení se zlepšuje, protože je zarovnáno více sekvencí (obr. 5). To odráží skutečnost, že dešifrovací přesnost zůstává relativně konstantní s rostoucím počtem sekvencí (obr. 3), což je částečně způsobeno jeho použitím sekundární struktury během zarovnání., Clustal Omega, MAFFT a dešifrovat všechny mají podobné M-skóre v celém rozsahu vstupních velikostí (další soubor 1: obrázek S3). MUSCLE měl nejchudší výkon, s podstatně horšími Q-A M-skóre pro všechny, ale nejmenší sady vstupních sekvencí. Kromě toho, ačkoli Q-score, celkové skóre sloupce (TC-score) a Cline shift-score někdy dávají konfliktní hodnocení výkonu, tyto tři statistiky se silně shodly na obou benchmarcích (další soubor 1: Čísla S4 a S5).,
přeškolení na jednu referenční sadu se týkalo některých programů zarovnání, i když obě zde používané referenční sady vykazovaly podobné výsledky. Jiné programy však mohou být lépe vyškoleny na původních referenčních hodnotách, které nejsou založeny na výstupech programu strukturálního vyrovnání Mustang. Ověřte, že ROZLUŠTIT, ne-vyškoleni, aby MUSTANG výstupy, já opakovaná analýza s použitím původní MONTOVANÉ referenčních párů, které byly vyrovnány nezávisle MUSTANG., Nemodifikované referenční sekvence PREFABU vykazovaly silnou konkordanci sekundární struktury, a proto poskytují vysoce kvalitní alternativní měřítko. Nicméně, výsledky (Další soubor 1: Obrázek S6) byly velmi podobné pro obě sady referenčních sekvencí, což naznačuje, že ROZLUŠTIT, je výkon nebyl úzce vázána na MUSTANG výstupy.
dále jsem porovnal dešifrování s těstovinami, což je program určený k rozšíření přesnosti méně škálovatelných algoritmů na velké zarovnání., TĚSTOVINY pracuje dělením zarovnání do překrývajících se dílčích problémů, které jsou vždy sladěny s přesnou strategii, ve výchozím nastavení MAFFT je L-INS-i konzistence-based přístupu. Tyto podskupiny jsou sloučeny pomocí tranzitivity a proces se opakuje počínaje novým vodicím stromem. Zajímavé je, že těstoviny překonaly dešifrování na sadách 125 A 250 sekvencí na HOMSTRAD-mod (obr. 5), ale byl statisticky nerozeznatelný u větších sad (další soubor 1: tabulka S2). Nicméně, dešifrovat podstatně překonal těstoviny na PREFAB-mod, a jeho olovo se zvyšovalo, jak bylo zarovnáno více sekvencí., Kromě toho těstoviny vykazovaly velký pokles přesnosti se zvyšující se velikostí zarovnání. Tabulka 1 ukazuje, že výkon dešifrování snížil nejméně ze všech programů zarovnání, když se velikost zarovnání zvýšila.
a Konečně, I ve srovnání ROZLUŠTIT výkon PROMALS , což je program, který se opírá o přesnější sekundární struktura předpovědi získané z PSIPRED ., PROMALS nejprve provádí vyhledávání PSI-BLAST s reprezentativními sekvencemi ze vstupní sady a poté používá přesné předpovědi sekundární struktury s přístupem založeným na konzistenci k zarovnání sekvencí. PROMALS výrazně překonaly všechny ostatní programy zarovnání na nejmenších sadách dvou sekvencí, ale jeho výhoda zmizela, jakmile byly do vstupní sady přidány další sekvence (obr. 5). Ostatní zarovnávače byly navíc o několik řádů pomalejší(obr. 6) a testování vstupních sad větších než 125 sekvencí se ukázalo jako neúměrně časově náročné., K dispozici jsou novější přístupy, které využívají řešené proteinové struktury, jako je PROMALS3D . Není však jasné, jak tyto přístupy testovat na strukturálních benchmarcích, protože referenční sekvence jsou pravděpodobně přítomny ve stejných strukturách databází používaných těmito programy.
ROZLUŠTIT ani nejpomalejší, ani nejrychlejší program vzorovým pro zarovnání každé sekvence sady (Obr. 6)., MAFFT byl obecně nejrychlejší program, s výjimkou nejmenších sekvenčních sad, kde používá pomalejší, přesnější strategie pro zarovnání. Změna uplynulého času je dramatická pro MAFFT a MUSCLE nad 250 sekvencí, kde byly použity efektivnější strategie. PASTA byl nejpomalejší program, a vyžadoval v průměru 2.7 h sladit 4,000 sekvence. Jak Clustal Omega, tak DECIPHER dokázali v průměru sladit 4 000 sekvencí za půl hodiny. Vzhledem k tomu, že výpočet vodicího stromu je omezujícím faktorem pro velké množiny sekvencí, může být za takových okolností užitečná paralelizace., Například dešifrování bylo asi dvakrát rychlejší, když bylo použito 8 procesorů (obr. 6). Dešifrovací maximální využití paměti bylo 2GB při zarovnání 4000 sekvencí.