Valg af høj kvalitet reference linjeføringer for benchmarking
Forskellige benchmarks ofte resultere i modsatrettede optimale parametre (fx, hul, åbning og udvidelse sanktioner) og en inkompatibel performance ranking af tilpasningen programmer . Af disse grunde er valget af benchmark af største betydning, når man udvikler og sammenligner algoritmer til sekvensjustering., For at vælge justeringsbenchmarks for denne undersøgelse begyndte jeg med at sammenligne sekundær strukturkonkordans på tværs af fælles benchmarks. Denne sammenligningsmetode kræver, at den sekundære struktur af referencesekvenser er tilgængelig, hvilket udelukker de populære BAliBASE-benchmarks, fordi den tilsvarende sekundære struktur af de fleste BAliBASE-sekvenser er ukendt . Selv om aftalen om sekundær struktur alene ikke er tilstrækkelig til at sikre et benchmark af høj kvalitet, kan manglende aftale være en indikation af unøjagtighed i tilpasningen.,
det forventes, at bedre referencejusteringer vil have en større procentdel af justerede rester med identisk sekundær struktur. Imidlertid forventes en vis uenighed i sekundær struktur på grund af både iboende vanskeligheder med at tildele sekundær struktur og udfordringer, der er forbundet med at tilpasse fjernt beslægtede tertiære strukturer . Figur 1 viser fraktionen af sekundær strukturaftale versus parvis sekvensidentitet for fire almindelige aminosyre benchmarks., Den SABmark og PRÆFABRIKEREDE benchmarks, der indeholder den største del af deres forløb, eller under “twilight zone” på 20 til 35 % sekvens identitet, mens vægten af OXBench er på mindre udfordrende alignments. PREFAB ser ud til at være markant bedre justeret generelt end SABmark, på trods af at begge referencer dækker et lignende interval af sekvensidentiteter. For sekvenser med mindre end 10 % identitet, PRÆFABRIKEREDE er 13.4 % større strukturelle identitet (p < 1e-15) end SABmark., Disse fund er i overensstemmelse med en tidligere undersøgelse, der fandt, at PREFAB var det bedste benchmark designet specifikt til sammenligning af MSA-programmer, selvom PREFAB vides at indeholde fejl .
alle kolonner i justeringerne blev brugt til at vurdere den samlede nøjagtighed af hvert benchmark i stedet for kun at bruge kerneblokke (homologe regioner), som typisk afgrænses af store bogstaver., Mulighed for at bruge hele justering blev foretaget på grund af: (i) den definition af centrale blokke varierer mellem benchmarks, (ii) nogle scoring procedurer, der gør brug af hele tilpasningen , (iii) parvise afstande beregnes ved hjælp af den hele lovgivning, og (iv) den HOMSTRAD og SABmark benchmarks ikke afgrænse centrale blokke. Kerneblokke i PREFAB blev tildelt baseret på aftalen mellem to forskellige strukturelle justeringsprogrammer., Dette motiverede mig til at se på forskellen mellem de originale benchmarks og de samme sekvenser justeret med det sekvensuafhængige strukturelle justeringsprogram MUSTANG . Justeringer med MUSTANG udviste større sekundær strukturel kongruens end de oprindelige benchmarks, undtagen i tilfælde af HOMSTRAD (Fig. 1). SABmark havde især 11.2 % højere sekundær strukturidentitet efter justering med MUSTANG (p < 1e-15)., Dette resultat understøtter brugen af HOMSTRAD-databasen som en justeringsbenchmark, selvom den ikke oprindeligt var beregnet til dette formål.
da antallet af sekvenser med kendt struktur er lille i forhold til antallet af tilgængelige sekvenser, suppleres de fleste benchmarks med yderligere unaligned sekvenser, der ikke tages i betragtning ved scoring. PREFAB reference alignments suppleres med yderligere sekvenser fundet ved hjælp af PSI-BLAST søgninger med referencesekvenserne. HOMSTAD sekvenser er almindeligt suppleret med andre sekvenser, der tilhører den samme Pfam familie ., Jeg sammenlignede disse to fremgangsmåder ved tilfældigt at vælge sekvenser fra Pfam-familien svarende til PREFAB-referencesekvenserne. Efter at have genereret en justering med det samme antal supplerende sekvenser, en nabo sammenføjning træ blev konstrueret til at bestemme bredden af de tilføjede sekvenser. Den gennemsnitlige trælængde var 1,6 gange længere for tilfældige Pfam-sekvenser end dem, der fulgte med PREFAB (p < 1e-15)., Dette indikerede, at udvidelse af input sæt på en måde, der ikke er direkte afhængig af reference sekvenser resulterer i den største mangfoldighed af supplerende sekvenser.
det er uklart, hvilket referencebenchmark der bedst afspejler en typisk brugers sekvenser, og den store mangfoldighed af MSA-applikationer spænder sandsynligvis over de fleste justeringsscenarier, der findes i benchmarks. SABmark sæt dækker et snævert udvalg af sekvens identiteter, mens O .bench fokuserer på nært beslægtede sekvenser, der er lettere at tilpasse., På grund af både tilpasning kvaliteten og bredden af sekvens identiteter, valgte jeg at fortsætte med resten af denne undersøgelse med en smule modificerede versioner af den oprindelige PRÆFABRIKEREDE og HOMSTRAD datasæt, kaldet PREFAB-mod og HOMSTRAD-mod (se Metoder). For at supplere de ændrede benchmarks tilføjede jeg fuldlængdesekvenser, der tilhørte den samme Pfam-familie. Sekvenser i fuld længde blev brugt snarere end kun det delte domæne for at gøre justeringerne mere udfordrende og for at repræsentere en større række potentielle brugsscenarier., Ofte har sekvenser, der er justeret, forskellige længder, fordi de dækker overlappende områder af et gen, eller blev trimmet forskelligt baseret på deres kvalitetsresultater ved hver terminus.
Skalerbar inkorporering af sekundær struktur i overensstemmelse
på Trods af den tætte forbindelse mellem sekundære struktur og rækkefølge tilpasning, mest populære protein-alignment programmer ikke forudsige, strukturel information., Den største ulempe ved sekundær struktur forudsigelse er, at det er langsomt at præcist beregne, hvilket forhindrer det i at skalere til justering af hundredvis af sekvenser i en rimelig tid . Mindre nøjagtige sekundære struktur forudsigelser kan opnås meget hurtigt ved hjælp af enkelt-sekvens tilgange, der ikke er afhængige af at konstruere en multipel justering med homologe sekvenser. GOR-metoden er en af de mest nøjagtige givet en enkelt sekvens ., I denne metode sekundær struktur er tildelt en af tre tilstande: Heli. (h), ark (e), eller spole (C) baseret på den lokale sekvens sammenhæng omkring en rest. Denne tilgang har den fordel, at den er ekstremt hurtig (< 1% af den tid, der kræves til justering), giver en sandsynlighedsværdi for hver stat og tilbyder omkring 65% nøjagtighed .,
for At integrere sekundære struktur forudsigelser i dynamisk programmering rammer for profile-profile alignment, jeg har tilføjet en ny 3 × 3 symmetrisk matrix, der repræsenterer log-odds for at tilpasse en H, E, C i en sekvens med en anden holdning, der er tildelt til H, E, C i en anden sekvens. Kobling af denne Matri.med sandsynligheden tildelt hver af de tre strukturelle tilstande tilladt for profilprofiljustering af de sekundære strukturer., Scoren opnået fra justering af sekundære strukturprofiler øgede den traditionelle substitutionsmatri basedbaserede score bestemt ud fra de primære sekvenser (se yderligere fil 1-tekst). På denne måde kan primær og sekundær strukturaftale maksimeres samtidigt.figur 2 viser et eksempel justering af lactat/malat dehydrogenase protein familie (Pfam tiltrædelse nr . PF00056; HOMSTRAD” ldh ” familie) opnået ved hjælp af denne tilgang., Dssp-opgaverne er generelt enige på tværs af HOMSTRAD-mod-justeringen, der er baseret på de kendte tertiære strukturer af disse proteiner. Forudsigelser foretaget med GOR-metoden afspejler disse sekundære strukturopgaver med nogle uoverensstemmelser. GOR-forudsigelserne styrer DECHIFRERINGSJUSTERINGEN, som nøjagtigt matcher referencejusteringen i regioner defineret som kerneblokke, betegnet med store bogstaver i den øverste justering af fig. 2., Regioner af referencejusteringen, der falder uden for kerneblokke, bruges ikke til at bestemme nøjagtigheden og adskiller sig fra dechifrere output i nogle kolonner.
En fordel ved at bruge en lille 3 × 3 sekundære struktur matrix er, at antallet af frie parametre er langt i undertal antallet af informative data punkter, som gør skøn fejl ubetydelig (Ekstra fil 1: Figur S1)., For at finde optimale værdier for hver af de 6 forskellige parametre i matricen udførte jeg en gittersøgning efter løsningen, der resulterede i de bedst scorede justeringer baseret på summen af and-score og M-score på en delmængde af HOMSTRAD-mod bestående af 238 referencesæt. På det optimale mellem overjustering og underjustering opvejes enhver gevinst i Q-score af det tilsvarende tab I M-score og skruestik-versa. Den optimerede sekundære strukturmatri.er vist i fig. 3a., E-stater er meget tilbøjelige til at blive justeret, hvilket afspejles i det store bidrag fra E/E-parringer til den sekundære struktur score. GOR-metoden har en tendens til at under-forudsige β-ark, hvilket resulterer i en lav brøkdel af E-tilstande i de fleste sekvenser .
Næste, jeg spurgte, om inkorporering af sekundær struktur forbedret sekvens alignment, og hvordan dette skaleres med antallet af sekvenser, der er ved at blive tilpasset. I gennemsnit på tværs af alle størrelser af sekvenssæt resulterede inkorporering af sekundær struktur i en 5.3% forbedring i score-score på PREFAB-mod og 2.1% på HOMSTRAD-mod. Denne betydelige stigning i score-score kom på bekostning af en 0.,4 % fald i M-score på PREFAB-mod og en 0,3 % fald på HOMSTRAD-mod. Derfor faldt fraktionen af homologier, der er korrekt justeret, lidt, mens det samlede antal korrekt justerede homologier steg væsentligt. Ikke overraskende var de største gevinster på divergerende referencesæt, hvor der er mest plads til forbedringer, og i det væsentlige blev der ikke opnået nogen gevinst på referencer med mindre end 60% gennemsnitlig afstand mellem par (Fig. 3b)., Forudsigelser af sekundær struktur gav en større fordel ved PREFAB-mod, fordi en større brøkdel af dens referencesekvenser er over 60% fjernt.interessant nok steg forbedringen fra inkorporering af sekundær struktur, efterhånden som flere sekvenser blev justeret (fig. 3c). På de mindste sæt med 2 sekvenser var der en forbedring på 3, 4 % på PREFAB-mod og 1, 2% på HOMSTRAD-mod. På store 4.000 sekvens sætter fordelen steg til 8,5 % og 3,3 %, henholdsvis., Derfor inkorporerer sekundær struktur delvist modvirket faldet i score, der typisk observeres med større justeringer . Denne adfærd afspejlede den af sekundær struktur forudsigelse, hvor nøjagtigheden stiger som flere sekvenser anvendes i beregningen . Af denne grund bruger de mest nøjagtige forudsigelsesalgoritmer for sekundær struktur flere justeringer. Tilsvarende mangler her de indledende sekundære strukturforudsigelser nøjagtighed, da de opnås fra enkeltsekvenser., Efterhånden som flere sekvenser er justeret, er disse sandsynligheder i gennemsnit for at øge deres nøjagtighed og bedre styre justeringen. Dette er i modsætning til primær sekvens, hvor yderligere sekvenser uundgåeligt resulterer i mere tvetydighed, hvilket til dels forårsager et tab af signal, der manifesterer sig i dårlig kvalitetstilpasning af tvetydige profiler.,
inklusive en model af indel Sandsynlighed for at forbedre gap positionering
motiveret af forbedringen opnået ved at inkorporere lokal sekvens kontekst via sekundære struktur forudsigelser, spurgte jeg næste, om den samme tilgang kunne anvendes til gap placering. Tidligere forskning har afsløret, at Indsætninger og deletioner (indels) er mere tilbøjelige til at forekomme ved siden af visse aminosyrer og i udsatte spoleområder ., Af denne grund er det almindeligt at reducere omkostningerne ved at åbne et hul i hydrofile strækninger eller alternativt at øge omkostningerne i hydrofobe områder , der sandsynligvis vil blive begravet i proteinets begrænsede kerne. Så vidt jeg ved, en mere sofistikeret model af gap sandsynlighed baseret på lokal kontekst er ikke blevet anvendt til sekvens tilpasning. Til dette formål brugte jeg One Gap-databasen til at beregne den relative frekvens af indel-begivenheder baseret på resterne til venstre og højre for et centralt hul., Denne frekvensinformation blev derefter omdannet til log-odds-score i henhold til baggrundsfrekvensen for hver aminosyre.figur 4 viser bidraget fra nærliggende aminosyrer til sandsynligheden for et hul ved position nul. Som forventet reducerer hydrofobe rester (fmily.) i høj grad sandsynligheden for et hul. Hydrofile og” struktur-breaking ” (f), p) rester øger chancen for en tilstødende hul, omend med mindre effekt end hydrofobe rester., Da log-odds score er i de samme enheder som substitutionsmatri .en (tredje-bits), kan de anvendes direkte til at modulere gap-åbning og gap-lukning omkostninger på enhver position baseret på dens lokale sekvens kontekst (yderligere fil 1: tabel S1). Jeg evaluerede forskellige vinduestørrelser for at inkludere disse oplysninger og fandt, at det bedste vindue strakte sig fra position -4 til +4 i forhold til det centrale hul. Derfor er omkostningerne ved at skabe et hul i enhver position den oprindelige gap omkostninger plus en score, der er moduleret baseret på resterne til hver side af kløften (se yderligere fil 1).,
Næste, jeg udregnet log-odds score for rester imod hullet (i ungapped sekvens), og fandt, at disse positioner vises en lille skævhed i aminosyre-indhold (Ekstra fil 1: Tabel S1). Der var en moderat korrelation mellem log-odds scoringer for positioner til venstre eller højre for kløften og resterne imod kløften (R2 på 0,69 og 0,64, henholdsvis)., I dette tilfælde var der imidlertid ingen åbenbar forskel mellem placeringerne inden for gapped-regionen. Af denne grund valgte jeg blot at modulere gap e .tension cost baseret på de gennemsnitlige score for de “gapped” rester på en positionsuafhængig måde. Alt i alt justerer denne probabilistiske model for åbning og forlængelse af et hul spalten inden for et interval på omkring +/- 20% ved hver position.
for at udvide denne model af gap placering baseret på lokal sekvens kontekst, Jeg næste undersøgt effekten af korte sekvens mønstre., Gentagelser er en vigtig kilde til længdevariation i biologiske sekvenser og findes ofte på tværs af alle livets grene . Gentagelser har en lang række former, inklusive korte mikrosatellit-gentagelser af et enkelt kodon og længere tandem-gentagelser af regioner, der kan udvikle sig gennem mutation for at blive uoverensstemmende over tid . Længere gentagelser kan justeres med specialiserede programmer, der anvender tandem gentage finde algoritmer . Korte mønstre forsømmes typisk som ubetydelige af disse programmer på grund af deres hyppige forekomst i sekvenser., Imidlertid fandt Chang og Benner, at korte dipeptid-gentagelser (f.AA) var mere almindelige end forventet omkring huller, hvilket potentielt kunne tilbyde et middel til at modulere gap-omkostninger. For at undersøge denne effekt undersøgte jeg forekomsten af forskellige sekvensmønstre i One Gap-databasen.
dipeptid-gentagelser (kørsler med 2 identiske aminosyrer) omgivende huller var kun lidt mere sandsynlige (< 1 tredje bit) end forventet ved en tilfældighed. Imidlertid, huller var væsentligt mere tilbøjelige til at forekomme omkring kørsler af tre eller længere (f., AAA), som vist i yderligere fil 1: Figur S2., Denne effekt var især udtalt i sekvensen uden spalten, hvilket indikerer, at huller ofte er til stede, fordi en sekvens har et længere løb end en anden. Overraskende var der mindre sandsynlighed for huller i positionen efter starten af et løb i den modsatte sekvens (f/AA / A -), uanset løbets længde. Selvom mekanismen for denne forekomst er ukendt, kan det skyldes en biologisk rolle for dipeptid-gentagelser, der resulterer i deres bevarelse. En lignende undersøgelse af heteropeptid gentages med periodicitet 2 (f. eks.,, ACAC) til 6 afslørede ikke en stærk bias mod huller (yderligere fil 1: Figur S2). Derfor valgte jeg at udvide gap-modellen for at modulere gap-åbningsomkostningerne i positioner før og umiddelbart efter starten af et løb i den modsatte rækkefølge.
alt i alt anvender denne model på hul placering resulterede i en beskeden fremgang på 0,5 % på PREFAB-mod (p < 1e-4) og 0,3 % på HOMSTRAD-mod (p < 1e-3). Forbedringerne i score-score blev modsvaret af 0.2 % stigninger i M-score på begge benchmarks., Disse ændringer i score var uventede, da strukturelle benchmarks ikke betragter de fleste gapped regioner , da de ofte forekommer i dele af strukturen, der er vanskelige at overlejre, og gentagelser har tendens til at findes i forstyrrede proteinregioner . Selvom, evolutionære simuleringer tilbyder et middel til at score gapped regioner, sådanne simuleringer omfatter i øjeblikket ikke en kontekstafhængig model af gap Sandsynlighed., Derfor er det muligt, at placeringen af huller forbedrede sig mere end afspejlet af den beskedne stigning i score, men der findes i øjeblikket ingen passende måde at måle den faktiske fordel ved at inkorporere en sofistikeret gap-model i justering.
sammenligning af dechifrere til andre programmer til MSA
efter at have integreret kontekstbevidsthed i DECHIFRERINGSSOFT .aren til sekvensjustering sammenlignede jeg derefter dens ydeevne med andre avancerede justeringsprogrammer., Først valgte jeg at benchmark dechifrere mod tre populære programmer , der er i stand til effektivt at tilpasse tusinder af sekvenser: Clustal Omega , MAFFT og MUSCLE . Disse programmer er regelmæssigt ansat i en række forskellige undersøgelser, og er blevet de facto standard for sammenligning på benchmarks. Figur 5 viser udførelsen af hvert program i forhold til dechifrere for stigende antal input sekvenser., Den ranking, er i stærk aftale mellem HOMSTRAD-mod og PREFAB-mod benchmarks, men der er en større spredning mellem programmer på PREFAB-mod, fordi det indeholder en større brøkdel af sekvenser i eller under the twilight zone.
Når der kun er to sekvenser blev justeret fra hver benchmark, tilpasning programmer, der alle gav lignende resultater, med MAFFT, der viser den laveste nøjagtighed. I sæt af 125 sekvenser, dechifrere er rangeret anden bag MAFFT., For input sæt af denne størrelse, MAFFT bruger sin mest præcise konsistens-baserede algoritme (L-INS-i), der ikke kan skaleres til større sekvenser sæt. Ud over 125 input sekvenser, dechifrere klart overgår de andre tre programmer (yderligere fil 1: tabel S2), og dens bly forbedres som flere sekvenser er justeret (Fig. 5). Dette afspejler det faktum, at dechifrere nøjagtighed forbliver relativt konstant med stigende antal sekvenser (fig. 3), som delvis skyldes brugen af sekundær struktur under justering., Clustal Omega, MAFFT og dechifrere har alle lignende m-scoringer på tværs af inputstørrelser (yderligere fil 1: Figur S3). MUSCLE havde den fattigste præstation, med væsentligt værre scores – og M-scoringer for alle, men de mindste input sekvens sæt. Selv om Q-score, total kolonne score (TC-score) og Cline shift-score undertiden giver modstridende præstationsrangeringer, er disse tre statistikker stærkt enige om begge benchmarks (yderligere fil 1: tallene S4 og S5).,Over-træning til et enkelt referencesæt har været en bekymring for nogle justeringsprogrammer , selvom begge referencesæt, der bruges her, viste lignende resultater. Andre programmer kan dog trænes bedre på de originale benchmarks, der ikke er baseret på udgangene fra MUSTANG structural alignment-programmet. For at kontrollere, at dechifrere ikke var overuddannet til Mustangs udgange, gentog jeg analysen ved hjælp af de originale præfabrikerede referencepar, som blev justeret uafhængigt af MUSTANG., De umodificerede præfabrikerede referencesekvenser viste stærk sekundær strukturkonordans og giver derfor et alternativ benchmark af høj kvalitet. Ikke desto mindre var resultaterne (yderligere fil 1: Figur S6) meget ens for begge sæt referencesekvenser, hvilket indikerer, at DECHIFFRERS ydeevne ikke var tæt bundet til Mustangs udgange.
Jeg sammenlignede derefter dechifrere med PASTA , hvilket er et program, der er beregnet til at udvide nøjagtigheden af mindre skalerbare algoritmer til store justeringer., PASTA fungerer ved at opdele en justering i overlappende underproblemer, der hver især er justeret med en nøjagtig strategi, som standard MAFFTS L-INS-i konsistensbaseret tilgang. Disse underjusteringer flettes ved hjælp af transitivitet, og processen gentages fra et nyt guidetræ. Interessant nok var PASTA bedre end at dechiffrere på sæt med 125 og 250 sekvenser på HOMSTRAD-mod (fig. 5), men var statistisk uadskillelig på større sæt (yderligere fil 1: tabel S2). Imidlertid, dechifrere væsentligt bedre end PASTA på PREFAB-mod, og dens bly steg som flere sekvenser blev justeret., Desuden viste PASTA et stort fald i nøjagtighed med stigende justeringsstørrelse. Tabel 1 viser, at DECHIFRERS ydeevne formindskede det mindste af alle justeringsprogrammer, da justeringsstørrelsen steg.
Endelig vil jeg i forhold TYDE præstation at PROMALS , som er et program, der bygger på en mere præcis sekundære struktur forudsigelser indhentet fra PSIPRED ., PROMALS udfører først PSI-BLAST-søgninger med repræsentative sekvenser fra inputsættet, og bruger derefter nøjagtige sekundære strukturforudsigelser med en konsistensbaseret tilgang til at justere sekvenserne. PROMALS scorede i høj grad alle de andre justeringsprogrammer på de mindste sæt af to sekvenser, men dens fordel forsvandt, når andre sekvenser blev føjet til inputsættet (fig. 5). Endvidere var det flere størrelsesordener langsommere, at de andre aligners (Fig. 6), og test input sæt større end 125 sekvenser viste uoverkommeligt tidskrævende., Nyere tilgange, der gør brug af løst proteinstrukturer, er tilgængelige, såsom PROMALS3D . Det er imidlertid uklart, hvordan man tester sådanne tilgange på strukturelle benchmarks, fordi referencesekvenserne sandsynligvis er til stede i de samme strukturdatabaser, der bruges af disse programmer.
DECHIFRERE hverken var den langsomste eller hurtigste program benchmarkes for at tilpasse hver enkelt sekvens sæt (Fig. 6)., MAFFT var generelt det hurtigste program, bortset fra de mindste sekvenssæt, hvor det bruger langsommere, mere præcise strategier til justering. Ændringen i forløbet tid er dramatisk for MAFFT og muskel ud over 250 sekvenser, hvor mere effektive strategier blev anvendt. PASTA var det langsomste program og krævede i gennemsnit 2,7 h for at justere 4.000 sekvenser. Både Clustal Omega og dechifrere var i stand til at justere 4,000 sekvenser på cirka en halv time i gennemsnit. Da guide træ beregning er den begrænsende faktor for store sekvens sæt, parallelisering kan være nyttig under sådanne omstændigheder., For eksempel var DECHIFFRERINGEN cirka dobbelt så hurtig, når 8 processorer blev brugt (Fig. 6). DECHIFRERS maksimale hukommelsesbrug var 2 GB, når 4,000-sekvenser blev justeret.