Velge høy kvalitet referanse justeringer for benchmarking
Forskjellige benchmarks ofte resultere i kontrastfarge optimale parametre (f.eks., gap åpner og utvidelse straffer) og en inkompatibel ytelse rangering av stilling programmer . For disse grunner, valg av referanseindeks er av største betydning når utviklingen og sammenligne algoritmer for sekvens justering., For å velge justering benchmarks for denne studien, begynte jeg ved å sammenligne sekundær struktur konkordans over felles referansepunkter. Denne metoden for sammenligning krever at sekundær struktur av referanse sekvenser være tilgjengelig, noe som utelukker den populære BAliBASE benchmarks fordi de tilsvarende videregående strukturen i de fleste BAliBASE sekvenser er ukjent . Selv om sekundær struktur avtalen alene er ikke nok til å sikre en høy kvalitet målestokk, en mangel av avtale, kan være en indikasjon på justering unøyaktighet.,
Det er forventet at en bedre referanse justeringer vil ha en større andel av justert rester med identiske sekundær struktur. Imidlertid, noen uenighet i sekundær struktur er forventet både på grunn av reelle problemer i tildeling av sekundær struktur og utfordringer knyttet til å justere distantly i slekt universitets-strukturer . Figur 1 viser brøkdel av sekundær struktur avtalen versus parvis sekvens identitet for fire vanligste aminosyren benchmarks., Den SABmark og FERDIGHUS benchmarks inneholder størst andel av sine sekvenser i eller under «twilight zone» på 20 til 35 % sekvens identitet, mens vektlegging av OXBench er på mindre utfordrende justeringer. FERDIGHUS ser ut til å være vesentlig bedre justert samlet enn SABmark, til tross for at begge referanser som dekker et lignende utvalg av sekvensen identiteter. For sekvenser med mindre enn 10 % identitet, FERDIGHUS har 13.4 % større strukturelle identitet (p < 1e-15) enn SABmark., Disse funnene er i overensstemmelse med en tidligere studie som fant FERDIGHUS å være den beste målestokk som er utformet spesielt for å sammenligne MSA, programmer, selv om FERDIGHUS er kjent for å inneholde feil .
Alle kolonner med de justeringer som ble brukt til å vurdere den generelle nøyaktigheten av hver benchmark snarere enn bare å bruke core blokker (homologe regioner), som vanligvis er preget av store bokstaver., Muligheten til å bruke hele justeringen ble gjort fordi: (i) definisjon av core blokker varierer mellom milepælene, (ii) noen scoring prosedyrer gjøre bruk av hele justering , (iii) parvis avstanden er beregnet ved hjelp av det hele justering, og (iv) HOMSTRAD og SABmark benchmarks ikke avgrense core blokker. Core blokker i FERDIGHUS ble tildelt basert på avtale mellom to ulike strukturelle justering programmer., Dette motiverte meg til å se på differansen mellom den opprinnelige standarder og samme sekvenser realigned med sekvens-uavhengig strukturell justering program MUSTANG . Realignments med MUSTANG utstilt større sekundær strukturell kongruens enn den opprinnelige målsettinger, unntatt i tilfelle av HOMSTRAD (Fig. 1). Spesielt SABmark hadde 11.2 % høyere sekundær struktur identitet etter omstillingen med MUSTANG (p < 1e-15)., Dette resultatet støtter bruk av HOMSTRAD database som en justering benchmark selv om det ikke var opprinnelig ment for dette formålet.
Siden antall sekvenser med kjent struktur er liten i forhold til antall tilgjengelige sekvenser, mest benchmarks er supplert med ytterligere unaligned sekvenser som ikke er vurdert i scoring. FERDIGHUS referanse justeringer er supplert med ytterligere sekvenser funnet ved hjelp av PSI-BLAST-søk med referanse sekvenser. HOMSTAD sekvenser er ofte supplert med andre sekvenser som tilhører samme Pfam familie ., Jeg sammenlignet disse to tilnærmingene ved å tilfeldig velge sekvenser fra Pfam familie tilsvarende FERDIGHUS referanse sekvenser. Etter å generere en justering med samme antall ekstra sekvenser, en nabo å bli med treet var konstruert for å fastslå omfanget av lagt sekvenser. Gjennomsnittlig treet lengde var 1,6 ganger lenger for tilfeldige Pfam sekvenser enn de som er inkludert med FERDIGHUS (p < 1e-15)., Dette indikerte at forlengelse av input sette på en måte som ikke er direkte avhengig av referanse sekvenser resultater i størst mangfold av supplerende sekvenser.
Det er uklart hvilke referanse benchmark mest i tilstrekkelig grad reflekterer en typisk brukerens sekvenser, og bredt mangfold av MSA programmer som sannsynligvis strekker seg over de fleste av justeringen scenarier som finnes i referanseindeksene. SABmark sett dekker et smalt spekter av sekvensen identiteter, mens OXBench fokuserer på nært knyttet sekvenser som er lettere å justere., Både på grunn av justering kvalitet og bredde i sekvens identiteter, valgte jeg å fortsette med resten av denne studien med litt endrede versjoner av den opprinnelige FERDIGHUS og HOMSTRAD datasett, kalt FERDIGHUS-mod og HOMSTRAD-mod (se Metoder). For å supplere den endrede standarder, jeg har lagt full-lengde sekvenser som tilhører samme Pfam familie. Full-lengde sekvenser ble brukt snarere enn bare det delte domenet til å foreta justeringer mer utfordrende og til å representere et større utvalg av potensielle bruk scenarier., Ofte sekvenser blir justert har varierende lengder fordi de dekker overlappende regioner av et gen, eller var trimmet forskjellig basert på deres kvalitet score på hver terminus.
Skalerbare inkorporering av sekundær struktur i innretting
til Tross for den nære forbindelse mellom sekundær struktur og rekkefølge justering mest populære protein justering programmer ikke forutsi strukturell informasjon., Den største ulempen av sekundær struktur spådom er at den er treg å nøyaktig beregne, som forhindrer den fra skalering til justering av hundrevis av sekvenser i en rimelig tidsperiode . Mindre nøyaktige sekundær struktur spådommer kan fås svært raskt ved hjelp av enkelt-sekvens tilnærminger som ikke er avhengige av å bygge en multippel alignment med homologe sekvenser. Det GOR-metoden er en av de mest nøyaktige gitt en enkelt sekvens ., I denne metoden sekundær struktur er tilordnet til en av tre tilstander: helix (H), ark (E), eller spole (C) basert på de lokale sekvens konteksten rundt rester. Denne metoden har den fordelen at det er svært raskt (< 1 % av tiden som kreves for justering), gir en sannsynlighet verdi for hver stat, og tilbyr ca 65 % nøyaktighet .,
for Å integrere sekundær struktur spådommer i dynamisk programmering rammeverket for profil-profil justering, jeg har lagt til et nytt 3 × 3 symmetrisk matrise representerer log-oddsen for å justere en H, E eller C i en sekvens med en annen posisjon tildelt H, E eller C i en annen rekkefølge. Kobling dette matrise med sannsynligheten er tilordnet hver av de tre strukturelle stater tillatt for profil-profil justering av den sekundære strukturer., Score innhentet fra justere sekundær struktur profiler utvidet tradisjonell substitusjonsbehandling matrise basert resultat bestemmes ut fra primær-sekvenser (se annen fil 1 tekst). På denne måten, primær og sekundær struktur avtalen kan maksimeres samtidig.
Figur 2 viser et eksempel justering av laktat/malate dehydrogenase protein familie (Pfam tiltres ikke. PF00056; HOMSTRAD «ldh» familie) oppnådd ved hjelp av denne tilnærmingen., Den DSSP oppgaver er i generell enighet på tvers av HOMSTRAD-mod justering, som er basert på kjent universitets-strukturer av disse proteinene. Spådommer gjort med GOR metoden gjenspeiler disse sekundær struktur oppdrag med noen avvik. Det GOR spådommer guide TYDE justering, som samsvarer nøyaktig med referanse justering i områder som er definert som kjernevirksomhet blokker, angitt med store bokstaver i øvre justering av Fig. 2., Regioner av referanse justering som faller utenfor kjernen blokkene er ikke brukt for å bestemme korrektheten og er forskjellige fra TYDE utgang i enkelte kolonner.
En fordel av å bruke en liten 3 × 3 sekundær struktur matrix er at antall frie parametre er langt i mindretall av antall informative data poeng, noe som gjør estimering feil ubetydelig (Ekstra fil 1: Figur S1)., For å finne optimale verdier for hver av de 6 forskjellige parametere i matrisen, jeg utført en grid-søk etter en løsning som resulterte i den beste-scoring justeringer basert på summen av Q-score og M-score på et delsett av HOMSTRAD-mod som består av 238 referanse angir. På den optimale mellom over-justering og under-justering, noen få i Q-score er oppveies av tilsvarende tap i M-score, og skrustikke versa. Optimalisert sekundær struktur matrise er vist i Fig. 3a., E-stater er svært sannsynlig å være på linje, noe som gjenspeiles i den store bidrag av E/E tilknytninger til den sekundære struktur score. Det GOR metoden har en tendens til under-forutsi β-ark, noe som resulterer i en lav andel av E-stater i de fleste sekvenser .
Neste, jeg spurte om inkorporering av sekundær struktur forbedret sekvens justering, og hvordan dette skalert med antall sekvenser blir justert. Gjennomsnitt på tvers av alle størrelser av sekvensen sett, inkorporering av sekundær struktur resulterte i en 5,3 % forbedring i Q-score på FERDIGHUS-mod og 2,1 % på HOMSTRAD-mod. Dette betydelig økning i Q-score kom på bekostning av en 0.,4 % nedgang i M-score på FERDIGHUS-mod og et 0,3 % reduksjon på HOMSTRAD-mod. Derfor brøkdel av homologies som er riktig justert i forhold til noe redusert, mens det samlede antallet av riktig justert i forhold til homologies betydelig økt. Ikke overraskende, den største gevinsten var på divergerende referanse angir hvor det er mest rom for forbedring, og egentlig ingen gevinst ble gjort på referanser med mindre enn 60% gjennomsnittlig avstand mellom par (Fig. 3b)., Sekundær struktur spådommer gitt en større fordel på FERDIGHUS-mod fordi en større del av sin referanse sekvenser er over 60 % fjernt.
det er Interessant å merke forbedring fra å innlemme sekundær struktur økt, noe som er mer sekvenser ble justert (Fig. 3c). På den minste setter av 2-sekvenser det var 3,4 % forbedring på FERDIGHUS-mod og 1,2% i HOMSTRAD-mod. På store 4,000 sekvens sett fordelen økt til 8,5 % og 3,3 %, henholdsvis., Derfor, som omfatter sekundær struktur delvis motvirket nedgangen i resultat som er vanligvis observert med større justeringer . Dette problemet speilet som sekundær struktur prediksjon, hvor øker nøyaktigheten som flere sekvenser er brukt i beregningen . Av denne grunn, mest nøyaktige sekundær struktur prediksjon algoritmer gjøre bruk av flere linjer. På samme måte, her er den første sekundær struktur spådommer manglende nøyaktighet siden de er hentet fra enkle sekvenser., Som flere sekvenser er justert, disse sannsynlighetene er i gjennomsnitt å øke sin nøyaktighet og bedre guide justering. Dette er i kontrast til primær-sekvens, hvor flere sekvenser uunngåelig resultat i mer tvetydighet, som i en del fører til et tap av signal som manifestere seg i dårlig kvalitet justering av tvetydige profiler.,
Inkludert en modell av indel sannsynlighet for å forbedre gap lokalisering
Motivert av forbedring innhentet fra å legge inn lokale sekvens kontekst via sekundær struktur spådommer, jeg neste spurt om det samme tilnærming kan brukes til gap plassering. Tidligere forskning har avdekket at innsettinger og slettinger (indels) er mer sannsynlig å oppstå i tilknytning til visse aminosyrer og i utsatte coil regioner ., Av denne grunn er det vanlig å redusere kostnaden av å åpne en luke i hydrofile strekker seg , eller alternativt å øke kostnadene i hydrofobe regioner som er sannsynlig å bli begravet i protein er begrenset kjerne. Til min kunnskap, er en mer sofistikert modell av gapet sannsynligheten basert på lokale konteksten har ikke blitt brukt til å sekvens justering. Til dette brukte jeg En Gap-Database for å beregne den relative frekvensen av indel hendelser basert på rester til venstre og høyre for en sentral gap., Denne frekvensen informasjonen ble deretter omgjort til log-odds score i henhold til bakgrunnen frekvensen av hver aminosyre.
Figur 4 viser bidrag i nærheten av aminosyrer til sannsynligheten av et mellomrom i posisjon null. Som forventet, hydrofobe rester (FMILYW) sterkt redusere sannsynligheten for en gap. Hydrofile og «struktur-breaking» (f.eks., P) rester øke sjansen for en tilstøtende gap, om enn med mindre effekt enn hydrofobe rester., Siden log-odds score er i samme enheter som erstatning matrix (tredje-bits), de kan bli brukt direkte til å modulere gap-åpning og gap-avsluttende kostnader på hvilken som helst posisjon basert på den lokale sekvens sammenheng (Ekstra fil 1: Tabell S1). Jeg vurderte ulike vinduet størrelser for å inkludere denne informasjonen, og fant ut at den beste vinduet strakte seg fra stillingen -4 til +4 i forhold til den sentrale gap. Derfor, kostnaden av å skape et gap på hvilken som helst posisjon er den opprinnelige gap-kost pluss en poengsum som er modulert basert på rester til hver side av åpningen (se annen fil 1).,
Neste, jeg beregnet log-odds score for rester motstridende gapet (i ungapped rekkefølge), og fant at disse stillingene vises en liten skjevhet i aminosyre-innhold (Ekstra fil 1: Tabell S1). Det var en moderat korrelasjon mellom log-odds score for posisjoner til venstre eller høyre over gapet og rester motstridende gapet (R2 på 0,69 og 0.64, henholdsvis)., Men i dette tilfellet var det ingen tilsynelatende forskjell mellom steder i gapped regionen. Av denne grunn valgte jeg å bare forandre gapet extension kostnad basert på gjennomsnittlig score for «gapped» rester i en posisjon-uavhengig måte. Helt, dette probabilistisk modell for å åpne og utvide et gap justerer gap straff innenfor en rekkevidde på rundt +/- 20% i hver posisjon.
for Å utvide denne modellen av gapet plassering basert på lokale sekvens kontekst, jeg neste undersøkt effekten av kort sekvens mønstre., Gjentar, er en viktig kilde til lengde variasjon i biologiske sekvenser, og er ofte funnet i alle grener av livet . Gjentar har et bredt utvalg av former, inkludert kort microsatellite gjentas av en enkelt codon og lengre tandem gjentar til områder som kan utvikle seg gjennom mutasjon å bli feilaktige over tid . Lenger gjentar kan være på linje med spesialiserte programmer som bruker tandem repeat å finne algoritmer . Kort mønstre er vanligvis neglisjert som ubetydelig av disse programmene på grunn av sine hyppige forekomsten i sekvenser., Imidlertid, Chang og Benner funnet ut at kort dipeptide gjentar (f.eks., AA) var mer vanlig enn forventet rundt hull, potensielt tilbyr et middel for modulerende gap kostnader. For å undersøke denne effekten, jeg undersøkt forekomsten av forskjellige sekvenser mønstre i En Gap-Database.
Dipeptide gjentar (går av 2 identiske aminosyrer) rundt hullene ble bare litt mer sannsynlig (< 1 tredje-bit) enn forventet ved en tilfeldighet. Men hullene ble vesentlig mer sannsynlig å skje rundt går av tre eller lenger (f.eks., AAA), som vist i annen fil 1: Figur S2., Denne effekten var særlig markert i rekkefølge uten gap, noe som indikerer at hullene er ofte til stede fordi en sekvens har en lengre løp enn en annen. Overraskende, hull var mindre sannsynlig å skje i den posisjon etter starten av et løp i den motsatte rekkefølge (f.eks., AA/A), uavhengig av kjøre lengde. Selv om mekanismen for denne forekomsten er ukjent, kan det være på grunn av en biologisk rolle for dipeptide gjentar at resultater i sine bevaring. En lignende undersøkelse av heteropeptide gjentas med periodisitet 2 (f.eks.,, ACAC) til 6 ikke avsløre en sterk bias mot hull (Ekstra fil 1: Figur S2). Derfor valgte jeg å forlenge gap-modellen til å modulere gap åpner kostnad på stillinger før og umiddelbart etter starten av et løp i den motsatte rekkefølgen.
Samlet, og bruke denne modellen av gapet plassering resulterte i en beskjeden forbedring på 0,5 % på FERDIGHUS-mod (p < 1e-4) og 0,3 % på HOMSTRAD-mod (p < 1e-3). Forbedringer i Q-score ble matchet med 0,2 % økning i M-score på begge standarder., Disse endringer i score var uventet, som strukturelle benchmarks ikke anser de fleste gapped regioner siden de ofte forekommer i deler av den struktur som er vanskelig å legge , og gjentar har en tendens til å bli funnet i uordnede protein regioner . Selv om, evolusjonære simuleringer tilbyr et middel til å score gapped regioner, slike simuleringer for tiden ikke har en avhengig av konteksten modell av gapet sannsynligheten., Derfor er det mulig at plassering av hull økt mer enn det som reflekteres av beskjeden økning i score, men det finnes ingen adekvat måte å måle den faktiske fordelen av å innlemme en sofistikert gap-modellen i innretting.
Sammenligning av DECHIFFRERE til andre programmer for MSA
etter å Ha blitt integrert kontekst-bevissthet i DECHIFFRERE programvare for sekvens justering, jeg neste sammenlignet ytelsen til andre state-of-the-art justering programmer., Først valgte jeg å benchmark TYDE mot tre populære programmer er i stand til effektivt å justere tusenvis av sekvenser: Clustal Omega , MAFFT , og MUSKEL . Disse programmene er ofte ansatt i en rekke ulike studier, og har blitt en de facto standard for sammenligning på benchmarks. Figur 5 viser resultatene for hvert program i forhold til å DECHIFFRERE for et økende antall av input-sekvenser., Ytelsen rangeringen er i sterk avtale mellom HOMSTRAD-mod og FERDIGHUS-mod benchmarks, men det er en større spredning mellom programmer på FERDIGHUS-mod fordi den inneholder en større andel av sekvenser i eller under twilight zone.
Når bare to sekvenser ble justert fra hvert referansepunkt, justering programmer alle ga lignende resultater, med MAFFT som viser den laveste nøyaktighet. I sett av 125 sekvenser, DECHIFFRERE er rangert sekund bak MAFFT., For innspill sett av denne størrelsen, MAFFT bruker de mest nøyaktige konsistens-basert algoritme (L-INS-i) som ikke er skalerbar til større sekvenser sett. Utover 125 inngang sekvenser, DECHIFFRERE klart utkonkurrerer de andre tre programmer (Ekstra fil 1: Tabell S2), og forspranget øker ettersom flere sekvenser er justert (Fig. 5). Dette gjenspeiler det faktum at DECHIFFRERE nøyaktighet holder seg relativt konstant med økende antall sekvenser (Fig. 3), noe som delvis kan tilskrives bruken av sekundær struktur under justering., Clustal Omega, MAFFT, og DECHIFFRERE alle har lik M-score over spekter av innspill størrelser (Ekstra fil 1: Figur S3). MUSKEL hadde de fattigste ytelse, med betydelig verre Q – og M-score for alle, men den minste inngang sekvens sett. Videre, selv om Q-score, sum kolonne poengsum (TC-score), og Cline shift-score noen ganger gi motstridende resultater rangeringer, disse tre statistikk sterkt enige om både benchmarks (Ekstra fil 1: Tall S4 og S5).,
Over-trening til en enkelt referanse sett har vært en bekymring for noen justering programmer , selv om begge referanse angir brukt her viste lignende resultater. Imidlertid, andre programmer kan være bedre trent på den opprinnelige standarder som ikke er basert på resultatene av MUSTANG strukturell justering programmet. For å kontrollere at DECHIFFRERE var ikke over opplært til å MUSTANG utganger, jeg gjentok analyser ved hjelp av den opprinnelige FERDIGHUS referanse par, som var innrettet uavhengig av MUSTANG., Det uendrede FERDIGHUS referanse sekvenser viste sterk sekundær struktur konkordans, og derfor gi en høy kvalitet alternative referanseindeksen. Likevel, resultatene (Ekstra fil 1: Figur S6) var svært lik for begge settene med referanse sekvenser, noe som indikerer at DECHIFFRERE ytelsen ikke var tett knyttet til MUSTANG utganger.
jeg neste sammenlignet DECHIFFRERE til PASTA , som er et program som har til hensikt å utvide nøyaktighet på mindre-skalerbare algoritmer til store justeringer., PASTA fungerer ved å dele en justering opp i overlappende sub-problemer som er hver linje med en nøyaktig strategi, standard MAFFT L-INS-jeg konsistens-basert tilnærming. Disse sub-tilnærmingene er slått sammen ved hjelp av transitivity, og prosessen gjentas fra en ny guide treet. Interessant, PASTA bedre enn TYDE på sett av 125 og 250 sekvenser på HOMSTRAD-mod (Fig. 5), men var statistisk umulig å skille på større sett (Ekstra fil 1: Tabell S2). Imidlertid TYDE vesentlig bedre enn PASTA på FERDIGHUS-mod, og forspranget øker når flere sekvenser ble justert., Videre, PASTA viste et stort fall i korrektheten med økende justering størrelse. Tabell 1 viser at DECHIFFRERE ytelsen redusert den minste av alle justering programmer som justering størrelse økt.
til Slutt, jeg sammenlignet TYDE ytelsen til PROMALS , som er et program som baserer seg på mer nøyaktige sekundær struktur spådommer innhentet fra PSIPRED ., PROMALS først utfører PSI-BLAST-søk med representant sekvenser fra input angi, og deretter bruker nøyaktig sekundær struktur spådommer med en konsistens-basert tilnærming for å justere sekvenser. PROMALS sterkt ut-scoret alle de andre justering programmer på den minste sett av to sekvenser, men den fordelen forsvant når andre sekvenser ble lagt til inngang sett (Fig. 5). Videre, det var flere størrelsesordener tregere at andre aligners (Fig. 6), og testing inngang sett større enn 125 sekvenser viste seg å være uoverstigelig tidkrevende., Nyere tilnærminger som gjør bruk av løst protein strukturer er tilgjengelige, for eksempel PROMALS3D . Det er imidlertid uklart hvordan å teste slike tilnærminger på strukturelle benchmarks, fordi referanse sekvenser er sannsynligvis til stede i samme struktur databaser som brukes av disse programmene.
TYDE hverken var den tregeste heller raskeste program benchmarking for å justere hver av sekvensen sett (Fig. 6)., MAFFT generelt var den raskeste program, bortsett fra for de minste rekkefølge angir hvor den bruker langsommere, mer nøyaktig strategier for justering. Endring i tiden som er gått dramatisk for MAFFT og MUSKEL utover 250 sekvenser der mer effektive strategier ble brukt. PASTA var den tregeste programmet, og det kreves et gjennomsnitt på 2,7 h for å justere 4,000 sekvenser. Både Clustal Omega og DECHIFFRERE var i stand til å justere 4,000 sekvenser i omtrent en halv time i gjennomsnitt. Siden guide treet beregning er den begrensende faktor for store sekvens sett, parallelization kan være nyttig i slike situasjoner., For eksempel, DECHIFFRERE var omtrent dobbelt så fort når 8 prosessorer ble brukt (Fig. 6). DECHIFFRERE er maksimalt bruk av minne var 2GB når justere 4,000 sekvenser.