välja hög kvalitet referens anpassningar för benchmarking
olika riktmärken resulterar ofta i kontrasterande optimala parametrar (t .ex. gap öppning och förlängning påföljder) och en inkompatibel prestandarankning av anpassningsprogram. Av dessa skäl är valet av riktmärke av yttersta vikt vid utveckling och jämförelse av algoritmer för sekvensinriktning., För att välja inriktningsriktmärken för denna studie började jag med att jämföra sekundär strukturjämvikt mellan gemensamma riktmärken. Denna metod för jämförelse kräver att den sekundära strukturen av referenssekvenser är tillgänglig, vilket utesluter de populära balibasriktmärkena eftersom motsvarande sekundära struktur av de flesta Balibassekvenser är okänd . Även om avtalet om sekundär struktur enbart är otillräckligt för att säkerställa ett riktmärke av hög kvalitet, kan en brist på överenskommelse vara ett tecken på att anpassningen är felaktig.,
det förväntas att bättre referensjusteringar kommer att ha en större andel inriktade rester med identisk sekundär struktur. En viss oenighet i den sekundära strukturen förväntas dock bero på både inneboende svårigheter att tilldela sekundär struktur och utmaningar som är förknippade med att anpassa avlägset relaterade tertiära strukturer . Figur 1 visar fraktionen av sekundärstrukturavtalet mot parvis sekvensidentitet för fyra gemensamma aminosyrariktmärken., SABmark-och prefab-riktmärkena innehåller den största delen av deras sekvenser i eller under ”twilight zone” av 20 till 35% sequence identity, medan oxbenchs betoning är på mindre utmanande anpassningar. PREFAB verkar vara betydligt bättre anpassat totalt sett än SABmark, trots att båda referenserna täcker ett liknande antal sekvensidentiteter. För sekvenser med mindre än 10 % identitet, PREFAB har 13.4 % större strukturella identitet (p < 1e-15) än SABmark., Dessa resultat är överens med en tidigare studie som fann PREFAB vara det bästa riktmärket som utformats speciellt för att jämföra MSA-program, även om PREFAB är känt för att innehålla fel .
alla kolumner i justeringarna användes för att bedöma den totala noggrannheten för varje riktmärke i stället för att bara använda kärnblock (homologa regioner), som vanligtvis avgränsas med versaler., Valet att använda hela inriktningen gjordes på följande sätt: (i) definitionen av kärnblock varierar mellan riktmärken, (ii) vissa poängprocedurer använder sig av hela inriktningen , (iii) parvis avstånd beräknas med hela inriktningen, och (iv) HOMSTRAD-och SABmark-riktmärkena avgränsar inte kärnblock. Kärnblock i PREFAB tilldelades baserat på avtalet mellan två olika strukturella anpassningsprogram., Detta motiverade mig att titta på skillnaden mellan de ursprungliga riktmärkena och samma sekvenser som omformades med det sekvensoberoende strukturanpassningsprogrammet MUSTANG . Omjusteringar med MUSTANG uppvisade större sekundär strukturell kongruens än de ursprungliga riktmärkena, utom när det gäller HOMSTRAD (Fig. 1). I synnerhet hade SABmark 11,2 % högre sekundär struktur identitet efter justering med MUSTANG (p < 1e-15)., Detta resultat stöder användningen av HOMSTRAD-databasen som riktmärke för anpassning, även om den inte ursprungligen var avsedd för detta ändamål.
eftersom antalet sekvenser med känd struktur är litet i förhållande till antalet tillgängliga sekvenser kompletteras de flesta riktmärken med ytterligare ojusterade sekvenser som inte beaktas vid poängsättning. Prefab reference alignments kompletteras med ytterligare sekvenser som finns med PSI-BLAST sökningar med referenssekvenserna. HOMSTAD-sekvenser kompletteras vanligen med andra sekvenser som tillhör samma PFAM-familj ., Jag jämförde dessa två tillvägagångssätt genom att slumpmässigt välja sekvenser från PFAM-familjen som motsvarar prefab-referenssekvenserna. Efter att ha genererat en anpassning med samma antal kompletterande sekvenser konstruerades ett grann joining tree för att bestämma bredden av de extra sekvenserna. Den genomsnittliga trädlängden var 1,6 gånger längre för slumpmässiga PFAM-sekvenser än de som ingår i PREFAB (p < 1e-15)., Detta indikerade att en utvidgning av indata på ett sätt som inte är direkt beroende av referenssekvenserna resulterar i den största mångfalden av kompletterande sekvenser.
det är oklart vilket referensriktmärke som bäst återspeglar en typisk användares sekvenser, och den stora mångfalden av MSA-applikationer sträcker sig förmodligen över de flesta av de anpassningsscenarier som finns i riktmärken. SABmark-uppsättningar täcker ett smalt utbud av sekvensidentiteter, medan OXBench fokuserar på närbesläktade sekvenser som är lättare att anpassa., På grund av både anpassningskvalitet och bredden av sekvensidentiteter valde jag att fortsätta resten av denna studie med något modifierade versioner av de ursprungliga PREFAB-och HOMSTRAD-dataseten, kallade PREFAB-mod och HOMSTRAD-mod (se metoder). För att komplettera de modifierade riktmärkena lade jag till fullängdssekvenser som tillhör samma PFAM-familj. Fullängdssekvenser användes snarare än bara den delade domänen för att göra inriktningarna mer utmanande och att representera ett större utbud av potentiella användningsscenarier., Ofta har sekvenser som anpassas olika längder eftersom de täcker överlappande regioner av en gen, eller trimmades annorlunda baserat på deras kvalitetspoäng vid varje terminus.
skalbar inkorporering av sekundär struktur i anpassning
trots den nära kopplingen mellan sekundär struktur och sekvensinriktning förutspår inte de mest populära proteininriktningsprogrammen strukturell information., Den största nackdelen med sekundär struktur förutsägelse är att det är långsamt att noggrant beräkna, vilket hindrar den från att skala till anpassningen av hundratals sekvenser i en rimlig tid . Mindre exakta sekundära struktur förutsägelser kan erhållas mycket snabbt med hjälp av ensekvens metoder som inte är beroende av att konstruera en multipel anpassning med homologa sekvenser. GOR-metoden är en av de mest exakta med tanke på en enda sekvens ., I denna metod tilldelas sekundär struktur till ett av tre tillstånd: helix (H), sheet (E) eller coil (C) baserat på det lokala sekvenskontextet som omger en rest. Detta tillvägagångssätt har fördelen att det är extremt snabbt (< 1% av den tid som krävs för justering), ger ett sannolikhetsvärde för varje stat och erbjuder ca 65% noggrannhet .,
för att integrera sekundära strukturprognoser i den dynamiska programmeringsramen för profilprofiljustering, lade jag till en ny symmetrisk 3 × 3-matris som representerar log-oddsen för att anpassa en H, E eller C i en sekvens med en annan position som tilldelats H, E eller C i en andra sekvens. Koppling av denna matris med den Sannolikhet som tilldelats var och en av de tre strukturella tillstånden som är tillåtna för profilprofiljustering av sekundärstrukturerna., Poängen som erhållits genom att anpassa sekundära strukturprofiler ökade den traditionella substitutionsmatrisbaserade poängen som bestämdes från de primära sekvenserna (se ytterligare fil 1-text). På detta sätt kan primär-och sekundärstrukturavtalet maximeras samtidigt.
Figur 2 visar en exempeljustering av laktat / malat-dehydrogenasproteinfamiljen (PFAM-anslutningsnummer. PF00056; HOMSTRAD ” LDH ” – familj) som erhållits med hjälp av detta tillvägagångssätt., Dssp-uppdragen är i allmänhet överens om HOMSTRAD-mod-anpassningen, som bygger på de kända tertiära strukturerna för dessa proteiner. Förutsägelser gjorda med GOR-metoden återspeglar dessa sekundära strukturtilldelningar med vissa skillnader. GOR-förutsägelserna styr dechiffreringen, som exakt matchar referensinriktningen i regioner som definieras som kärnblock, betecknade med stora bokstäver i den övre inriktningen av Fig. 2., Regioner av referensanpassningen som faller utanför kärnblock används inte för att bestämma noggrannhet och skiljer sig från DECHIFFREFFEKTEN i vissa kolumner.
en fördel med att använda en liten 3 × 3 sekundär strukturmatris är att antalet fria parametrar är långt mer än antalet informativa datapunkter, vilket gör uppskattningsfel försumbar (ytterligare fil 1: figur S1)., För att hitta optimala värden för var och en av de 6 distinkta parametrarna i matrisen utförde jag ett rutnät-Sök efter lösningen som resulterade i de bästa poängjusteringarna baserat på summan av Q-poäng och m-poäng på en delmängd av HOMSTRAD-mod bestående av 238 referensuppsättningar. Vid det optimala mellan överjustering och underjustering uppvägs varje vinst i Q-poäng av motsvarande förlust I M-poäng och vise-versa. Den optimerade sekundära strukturmatrisen visas i Fig. 3a., E-staterna kommer sannolikt att anpassas, vilket återspeglas i det stora bidraget från E / E-parningar till sekundärstrukturens poäng. GOR-metoden tenderar att under-förutsäga β-ark, vilket resulterar i en låg fraktion av E-tillstånd i de flesta sekvenser .
Därefter frågade jag om införlivandet av sekundär struktur förbättrade sekvensinriktning och hur denna skalas med antalet sekvenser som anpassas. I genomsnitt över alla storlekar av sekvensuppsättningar resulterade införlivandet av sekundär struktur i en 5.3% förbättring av Q-poäng på PREFAB-mod och 2.1% på HOMSTRAD-mod. Denna betydande ökning av Q-poäng kom på bekostnad av en 0.,4% minskning av M-poäng på PREFAB-mod och en 0.3% minskning på HOMSTRAD-mod. Därför minskade andelen homologier som är korrekt inriktade något, medan det totala antalet korrekt inriktade homologier ökade väsentligt. Inte överraskande var de största vinsterna på divergerande referensuppsättningar där det finns mest utrymme för förbättring, och i huvudsak ingen vinst gjordes på referenser med mindre än 60% genomsnittligt avstånd mellan par (Fig. 3b)., Sekundära strukturprognoser gav en större fördel på PREFAB-mod eftersom en större del av dess referenssekvenser är över 60% avlägsna.
intressant nog ökade förbättringen från att införliva sekundär struktur när fler sekvenser justerades (Fig. 3C). På de minsta uppsättningarna av 2-sekvenser var det en 3.4% förbättring på PREFAB-mod och 1.2% på HOMSTRAD-mod. På stora 4,000 sekvens sätter fördelen ökat till 8,5% respektive 3,3%., Därför, införliva sekundär struktur delvis motverkas minskningen i poäng som vanligtvis observeras med större inriktningar . Detta beteende speglade det för sekundär struktur förutsägelse, där noggrannheten ökar när fler sekvenser används i beräkningen . Av denna anledning använder de mest exakta sekundära strukturprediktionsalgoritmerna flera anpassningar. På samma sätt saknar de ursprungliga sekundära strukturprognoserna noggrannhet eftersom de erhålls från enstaka sekvenser., Eftersom fler sekvenser är inriktade, är dessa sannolikheter i genomsnitt för att öka deras noggrannhet och bättre vägleda inriktningen. Detta är i motsats till primär sekvens, där ytterligare sekvenser oundvikligen resulterar i mer tvetydighet, vilket delvis orsakar en förlust av signal som manifesterar dålig kvalitet anpassning av tvetydiga profiler.,
inklusive en modell av indel Sannolikhet för att förbättra gappositionering
motiverad av den förbättring som erhållits från att införliva lokala sekvenskontext via sekundära strukturprognoser frågade jag nästa om samma tillvägagångssätt kunde tillämpas på gapplacering. Tidigare forskning har visat att Infogningar och deletioner (indels) är mer benägna att uppstå i anslutning till vissa aminosyror och i utsatta spolområden ., Av denna anledning är det vanligt att minska kostnaden för att öppna ett gap i hydrofila sträckor, eller alternativt att öka kostnaden i hydrofoba regioner som sannolikt kommer att begravas i proteinets begränsade kärna. Jag vet att en mer sofistikerad modell av gap Sannolikhet baserad på lokala sammanhang inte har tillämpats på sekvensanpassning. För detta ändamål använde jag databasen One Gap för att beräkna den relativa frekvensen av indelhändelser baserat på rester till vänster och höger om ett centralt gap., Denna frekvensinformation omvandlades sedan till log-odds-poäng enligt bakgrundsfrekvensen för varje aminosyra.
Figur 4 visar bidraget från närliggande aminosyror till sannolikheten för ett gap vid position noll. Som förväntat minskar hydrofoba rester (FMILYW) kraftigt sannolikheten för ett gap. Hydrofila och” strukturbrytande ” (t.ex. p) rester ökar risken för ett intilliggande gap, om än med mindre effekt än hydrofoba rester., Eftersom log-odds-poängen är i samma enheter som substitutionsmatrisen (tredje bitar) kan de appliceras direkt för att modulera gap-öppning och gap-stängning kostnader vid vilken position som helst baserat på dess lokala sekvenskontext (ytterligare fil 1: Tabell S1). Jag utvärderade olika fönsterstorlekar för att inkludera denna information och fann att det bästa fönstret sträckte sig från position -4 till +4 i förhållande till det centrala gapet. Därför är kostnaden för att skapa ett gap vid vilken position som helst den ursprungliga gapkostnaden plus en poäng som moduleras baserat på rester till vardera sidan av gapet (se ytterligare fil 1).,
därefter beräknade jag log-odds-poäng för rester som motsatte sig gapet (i den ogapped-sekvensen) och fann att dessa positioner visade en liten bias i aminosyrahalten (ytterligare fil 1: Tabell S1). Det fanns en måttlig korrelation mellan log-odds-poängen för positioner till vänster eller höger om gapet och resterna som motsatte sig gapet (R2 av 0.69 respektive 0.64)., I detta fall fanns det dock ingen uppenbar skillnad mellan platser inom gapped-regionen. Av denna anledning valde jag att helt enkelt modulera gapet förlängningskostnaden baserat på de genomsnittliga poängen för de ”gapped” rester på ett positionsoberoende sätt. Sammantaget justerar denna probabilistiska modell för öppning och förlängning av ett gap klyftstraffet inom ett intervall på cirka +/- 20% vid varje position.
för att utöka denna modell av gapplacering baserat på lokal sekvenskontext undersökte jag nästa effekten av korta sekvensmönster., Upprepningar är en viktig källa till längd variation i biologiska sekvenser och finns vanligen över alla grenar av livet . Upprepningar har en mängd olika former, inklusive korta mikrosatellit upprepningar av en enda kodon och längre tandem upprepningar av regioner som kan utvecklas genom mutation för att bli missmatchade över tiden . Längre upprepningar kan anpassas till specialiserade program som använder Tandem upprepa hitta algoritmer . Korta mönster försummas vanligtvis som obetydliga av dessa program på grund av deras frekventa förekomst i sekvenser., Chang och Benner fann dock att korta dipeptidreperationer (t.ex. AA) var vanligare än förväntat kring luckor, vilket potentiellt kunde erbjuda ett sätt att modulera klyftkostnader. För att undersöka denna effekt undersökte jag förekomsten av olika sekvensmönster i One Gap-databasen.
dipeptid upprepningar (körningar av 2 identiska aminosyror) omgivande luckor var bara något mer sannolikt (< 1 tredje bit) än väntat av en slump. Luckor var dock betydligt mer benägna att uppstå kring körningar på tre eller längre (t.ex. AAA), vilket visas i ytterligare fil 1: figur s2., Denna effekt var särskilt uttalad i sekvensen utan gapet, vilket indikerar att luckor ofta är närvarande eftersom en sekvens har en längre körning än en annan. Förvånansvärt var det mindre troligt att luckor uppstod vid positionen efter starten av en körning i motsatt sekvens (t.ex. AA/A -), oavsett körningens längd. Även om mekanismen för denna förekomst är okänd, kan det bero på en biologisk roll för dipeptid upprepningar som resulterar i deras bevarande. En liknande undersökning av heteropeptid upprepas med periodicitet 2 (t. ex.,, ACAC) till 6 visade inte en stark bias mot luckor (ytterligare fil 1: figur S2). Därför valde jag att förlänga gapmodellen för att modulera gapet öppningskostnaden vid positioner före och omedelbart efter starten av en körning i motsatt sekvens.
sammantaget resulterade användningen av denna modell av gapplacering i en blygsam förbättring på 0,5% på PREFAB-mod (p <1e-4) och 0,3% på HOMSTRAD-mod (p < 1e-3). Förbättringarna i Q-score matchades med 0.2 % ökningar i m-score på båda riktmärkena., Dessa förändringar i poäng var oväntade, eftersom strukturella riktmärken inte anser de flesta gapped regioner eftersom de ofta förekommer i delar av strukturen som är svåra att överlappa , och upprepningar tenderar att hittas i oordnade proteinregioner . Även om evolutionära simuleringar erbjuder ett sätt att göra poäng gapped regioner, innehåller sådana simuleringar för närvarande inte en kontextberoende modell av gap Sannolikhet., Därför är det möjligt att placeringen av luckor förbättrades mer än vad som återspeglades av den blygsamma ökningen av poängen, men det finns för närvarande inget lämpligt sätt att mäta den faktiska fördelen med att införliva en sofistikerad gapmodell i anpassningen.
jämförelse av dechiffrera till andra program för MSA
Efter att ha framgångsrikt integrerat kontextmedvetenhet i dechiffrera programvara för sekvensinriktning, jämförde jag sedan dess prestanda med andra toppmoderna anpassningsprogram., Först valde jag att jämföra dechiffrera mot tre populära program som effektivt kan anpassa tusentals sekvenser: Clustal Omega , MAFFT och MUSCLE . Dessa program är regelbundet anställda i en mängd olika studier, och har blivit de facto standard för jämförelse på riktmärken. Figur 5 visar resultatet för varje program i förhållande till dechiffrera för att öka antalet ingångssekvenser., Prestandarankningen är i stark överenskommelse mellan HOMSTRAD-mod och PREFAB-mod riktmärken, men det finns en större spridning mellan program på PREFAB-mod eftersom den innehåller en större del av sekvenser i eller under skymningszonen.
När endast två sekvenser justerades från varje riktmärke gav anpassningsprogrammen alla liknande resultat, med MAFFT som visade lägsta noggrannhet. I uppsättningar av 125 sekvenser, dechiffrera rankas tvåa bakom MAFFT., För inmatningsuppsättningar av denna storlek använder MAFFT sin mest exakta konsistensbaserade algoritm (L-ins-i) som inte är skalbar till större sekvenser. Utöver 125 ingångssekvenser, dechiffrera klart överträffar de andra tre programmen (ytterligare fil 1: Tabell S2), och dess ledning förbättras eftersom fler sekvenser är inriktade (Fig. 5). Detta återspeglar det faktum att dechiffrera noggrannhet förblir relativt konstant med ökande antal sekvenser (Fig. 3), som delvis kan hänföras till dess användning av sekundär struktur under anpassningen., Clustal Omega, MAFFT och dechiffrera alla har liknande m-poäng över utbudet av inmatningsstorlekar (ytterligare fil 1: figur S3). MUSCLE hade den fattigaste prestandan, med betydligt sämre Q-och M-poäng för alla utom de minsta ingångssekvensuppsättningarna. Även om Q-score, total column score (TC-score) och Cline shift-score ibland ger motstridiga prestanda ranking, dessa tre statistik kraftigt överens om båda riktmärken (ytterligare fil 1: siffror S4 och S5).,
överträning till en enda referensuppsättning har varit ett problem för vissa anpassningsprogram , även om båda referensuppsättningarna som används här visade liknande resultat. Andra program kan dock vara bättre utbildade på de ursprungliga riktmärkena som inte är baserade på resultaten från Mustang structural alignment-programmet. För att verifiera att dechiffrera inte var överutbildad till Mustangs utgångar upprepade jag analysen med de ursprungliga prefab-referensparen, som var inriktade oberoende av MUSTANG., De omodifierade prefab-referenssekvenserna visade en stark sekundär strukturkonkordance och ger därför ett högkvalitativt alternativt riktmärke. Resultaten (ytterligare fil 1: figur S6) var dock mycket lika för båda uppsättningarna av referenssekvenser, vilket indikerar att DECHIFFRERENS prestanda inte var nära knuten till Mustangs utgångar.
jag jämförde nästa dechiffrera till PASTA , vilket är ett program som är avsett att utöka noggrannheten hos mindre skalbara algoritmer till stora anpassningar., PASTA fungerar genom att dela upp en anpassning till överlappande delproblem som var och en är anpassad till en exakt strategi, som standard MAFFTS l-ins-i-konsekvensbaserade tillvägagångssätt. Dessa underjusteringar slås samman med transitivitet, och processen upprepas från ett nytt styrträd. Intressant, PASTA överträffade TYDA på uppsättningar av 125 och 250 sekvenser på HOMSTRAD-mod (Fig. 5), men var statistiskt omöjlig att skilja på större uppsättningar (ytterligare fil 1: Tabell S2). Dechiffrera emellertid väsentligt överträffad PASTA på PREFAB-mod, och dess ledning ökade när fler sekvenser justerades., Vidare visade PASTA en stor minskning av noggrannhet med ökande inriktningsstorlek. Tabell 1 visar att DECHIFFRERENS prestanda minskade minst av alla anpassningsprogram när justeringsstorleken ökade.
slutligen jämförde jag DECHIFFRERENS prestanda med PROMALER, vilket är ett program som bygger på mer exakta sekundära strukturprognoser erhållna från PSIPRED ., PROMALS utför först PSI-BLAST-sökningar med representativa sekvenser från inmatningsuppsättningen och använder sedan noggranna sekundära strukturprognoser med ett konsistensbaserat tillvägagångssätt för att anpassa sekvenserna. PROMALS kraftigt ut-gjorde alla andra anpassningsprogram på de minsta uppsättningar av två sekvenser, men dess fördel försvann när andra sekvenser tillsattes till inmatningsuppsättningen (Fig. 5). Dessutom var det flera storleksordningar långsammare att de andra aligners (Fig. 6), Och testing input uppsättningar större än 125 sekvenser visade sig oöverkomligt tidskrävande., Nyare metoder som använder sig av lösta proteinstrukturer finns tillgängliga, såsom PROMALS3D . Det är dock oklart hur man testar sådana metoder på strukturella riktmärken, eftersom referenssekvenserna sannolikt finns i samma strukturdatabaser som används av dessa program.
dechiffrera var varken den långsammaste eller snabbaste programmet benchmarked för att anpassa var och en av sekvensuppsättningarna (Fig. 6)., MAFFT var i allmänhet det snabbaste programmet, förutom de minsta sekvensuppsättningarna där det använder långsammare, mer exakta strategier för anpassning. Förändringen i förfluten tid är dramatisk för MAFFT och muskel bortom 250 sekvenser där effektivare strategier användes. PASTA var det långsammaste programmet, och krävde i genomsnitt 2,7 h för att anpassa 4,000 sekvenser. Både Clustal Omega och DECHIFFRERA kunde anpassa 4,000 sekvenser i ungefär en halvtimme i genomsnitt. Eftersom guide tree beräkning är den begränsande faktorn för stora sekvensuppsättningar, kan parallellisering vara användbar under sådana omständigheter., Dechiffrera var till exempel ungefär dubbelt så snabbt när 8-processorer användes (Fig. 6). Dechiffrera maximal minnesanvändning var 2GB när du anpassar 4,000 sekvenser.