ONTCIJFEREN: het benutten van lokale volgorde context te verbeteren eiwit multiple sequence alignment

het Kiezen van een hoge kwaliteit verwijzing optimalisaties voor benchmarking

de Verschillende benchmarks resulteren vaak in een contrasterende optimale parameters (bijvoorbeeld, gap opening en uitbreiding van de sancties) en een incompatibele performance ranking van alignment programma ‘ s . Om deze redenen is de keuze van de benchmark van het grootste belang bij het ontwikkelen en vergelijken van algoritmen voor sequence alignment., Om alignment benchmarks voor deze studie te kiezen, begon ik met het vergelijken van de concordantie van de secundaire structuur over gemeenschappelijke benchmarks. Deze methode van vergelijking vereist dat de secundaire structuur van referentieopeenvolgingen beschikbaar is, die de populaire balibasebenchmarks uitsluit omdat de overeenkomstige secundaire structuur van de meeste balibaseopeenvolgingen onbekend is . Hoewel een overeenkomst over de secundaire structuur alleen onvoldoende is om een benchmark van hoge kwaliteit te waarborgen, kan een gebrek aan overeenstemming een aanwijzing zijn voor een onnauwkeurigheid bij de aanpassing.,

verwacht wordt dat betere referentiealignments een groter percentage uitgelijnde residuen met identieke secundaire structuur zullen hebben. Er wordt echter enige onenigheid over de secundaire structuur verwacht als gevolg van zowel intrinsieke moeilijkheden bij het toewijzen van secundaire structuur als uitdagingen die inherent zijn aan het op elkaar afstemmen van verafgelegen tertiaire structuren . Figuur 1 toont de fractie van secundaire structuur overeenkomst versus paarsgewijze sequentie identiteit voor vier gemeenschappelijke aminozuur benchmarks., De sabmark en PREFAB benchmarks bevatten de grootste fractie van hun sequenties in of onder de” twilight zone ” van 20 tot 35% sequentieidentiteit, terwijl de nadruk van OXBench op minder uitdagende alignments ligt. PREFAB lijkt over het geheel genomen aanzienlijk beter op elkaar af te stemmen dan SABmark, ondanks dat beide referenties een vergelijkbaar aantal sequentieidentiteiten bestrijken. Voor sequenties met minder dan 10% identiteit heeft PREFAB 13,4% grotere structurele identiteit (p < 1e-15) dan SABmark., Deze bevindingen zijn in overeenstemming met een eerdere studie die PREFAB gevonden om de beste benchmark speciaal ontworpen voor het vergelijken van MSA-programma ‘ s, hoewel PREFAB is bekend dat fouten bevatten .

alle kolommen van de alignments werden gebruikt om de algemene nauwkeurigheid van elke benchmark te beoordelen in plaats van alleen basisblokken (homologe regio ‘ s) te gebruiken, die doorgaans worden afgebakend door hoofdletters., De keuze om de gehele afstemming te gebruiken werd gemaakt omdat: (i) de definitie van kernblokken verschilt per ijkpunt, (ii) sommige scoringsprocedures gebruik maken van de gehele afstemming , (iii) de paarsgewijze afstand wordt berekend met behulp van de gehele afstemming, en (iv) De homstrad-en SABmark-ijkpunten geen kernblokken afbakenen. Kernblokken in PREFAB werden toegewezen op basis van de overeenkomst tussen twee verschillende structurele uitlijningsprogramma ‘ s., Dit motiveerde me om te kijken naar het verschil tussen de oorspronkelijke benchmarks en dezelfde sequenties opnieuw ontworpen met de sequence-onafhankelijke structurele uitlijning programma MUSTANG . Realignments met MUSTANG vertoonde Grotere secundaire structurele Congruentie dan de oorspronkelijke benchmarks, behalve in het geval van HOMSTRAD (Fig. 1). In het bijzonder had SABmark 11,2% hogere secundaire structuuridentiteit na herschikking met MUSTANG (p < 1e-15)., Dit resultaat ondersteunt het gebruik van de HOMSTRAD-database als uitlijningsbenchmark, ook al was deze oorspronkelijk niet voor dit doel bedoeld.

aangezien het aantal sequenties met een bekende structuur klein is ten opzichte van het aantal beschikbare sequenties, worden de meeste benchmarks aangevuld met extra niet-gebonden sequenties die niet in aanmerking worden genomen bij het scoren. PREFAB referentie alignments worden aangevuld met extra sequenties gevonden met behulp van PSI-BLAST zoekopdrachten met de referentie sequenties. HOMSTAD-sequenties worden gewoonlijk aangevuld met andere sequenties die tot dezelfde Pfam-familie behoren ., Ik vergeleek deze twee benaderingen door willekeurig opeenvolgingen uit de Pfam-familie te selecteren die aan de prefabreferentieopvolgingen beantwoorden. Na het genereren van een uitlijning met hetzelfde aantal aanvullende opeenvolgingen, werd een buurman die boom toetreden geconstrueerd om de breedte van de toegevoegde opeenvolgingen te bepalen. De gemiddelde boomlengte was 1,6 keer langer voor willekeurige Pfam-sequenties dan die bij PREFAB (p < 1e-15)., Dit wees erop dat het uitbreiden van de input die wordt ingesteld op een manier die niet direct afhankelijk is van de referentiesequenties resulteert in de grootste diversiteit van aanvullende sequenties.

Het is onduidelijk welke referentiebenchmark het meest adequaat de sequenties van een typische gebruiker weerspiegelt, en de grote diversiteit van MSA-toepassingen omvat waarschijnlijk de meeste uitlijningsscenario ‘ s die in benchmarks worden gevonden. SABmark sets bestrijken een smalle waaier van opeenvolgingsidentiteiten, terwijl OXBench zich op nauw verwante opeenvolgingen richt die gemakkelijker zijn om uit te lijnen., Vanwege zowel de uitlijningskwaliteit als de breedte van de sequentieidentiteiten, koos ik ervoor om de rest van deze studie voort te zetten met licht gewijzigde versies van de originele PREFAB en HOMSTRAD datasets, genaamd PREFAB-mod en HOMSTRAD-mod (zie methoden). Om de gewijzigde benchmarks aan te vullen, heb ik volledige reeksen toegevoegd die tot dezelfde Pfam-familie behoren. De opeenvolgingen van de volledige lengte werden eerder gebruikt dan alleen het gedeelde domein om de alignments uitdagender te maken en om een grotere verscheidenheid van potentiële gebruiks scenario ‘ s te vertegenwoordigen., Vaak opeenvolgingen die worden uitgelijnd hebben variërende lengtes omdat zij overlappende gebieden van een gen behandelen, of verschillend werden bijgesneden gebaseerd op hun kwaliteitsscores bij elk eindpunt.

schaalbare integratie van secundaire structuur in alignment

ondanks het nauwe verband tussen secundaire structuur en sequentieuitlijning, voorspellen de meeste populaire eiwituitlijningsprogramma ‘ s geen structurele informatie., Het belangrijkste nadeel van de secundaire structuur voorspelling is dat het langzaam nauwkeurig te berekenen, die voorkomt dat het schalen naar de uitlijning van honderden sequenties in een redelijke hoeveelheid tijd . Minder nauwkeurige secundaire structuurvoorspellingen kunnen zeer snel worden verkregen met behulp van single-sequence benaderingen die niet afhankelijk zijn van het construeren van een veelvoudige uitlijning met homologe sequenties. De Gor methode is een van de meest nauwkeurige gegeven een enkele reeks ., In deze methode secundaire structuur wordt toegewezen aan een van de drie toestanden: helix (H), sheet (E), of spoel (C) gebaseerd op de lokale sequentie context rond een residu. Deze benadering heeft het voordeel dat ze extreem snel is (< 1 % van de tijd die nodig is voor uitlijning), een waarschijnlijkheidswaarde voor elke toestand biedt en een nauwkeurigheid van ongeveer 65% biedt .,

om secundaire structuurvoorspellingen te integreren in het dynamische programmeerkader voor profielprofieluitlijning, heb ik een nieuwe 3 × 3 symmetrische matrix toegevoegd die de log-odds weergeeft van het uitlijnen van een H, E of C in een reeks met een andere positie toegewezen aan H, E of C in een tweede reeks. Het koppelen van deze matrix met de waarschijnlijkheid toegewezen aan elk van de drie structurele toestanden toegestaan voor profiel-profiel uitlijning van de secundaire structuren., De score verkregen uit het uitlijnen van secundaire structuurprofielen verhoogde de traditionele substitutiematrix gebaseerde score bepaald op basis van de primaire sequenties (zie aanvullend bestand 1 tekst). Op deze manier kan de primaire en secundaire structuurovereenkomst tegelijkertijd worden gemaximaliseerd.

Figuur 2 geeft een voorbeeld van de uitlijning van de lactaat / malaatdehydrogenase-eiwitfamilie (pfam-toetreding nr. PF00056; HOMSTRAD ” LDH ” familie) verkregen met behulp van deze aanpak., De dssp-opdrachten zijn in het algemeen overeenstemming over de homstrad-mod-uitlijning, die op de bekende tertiaire structuren van deze proteã NEN is gebaseerd. Voorspellingen met de Gor-methode weerspiegelen deze secundaire structuurtoewijzingen met enkele discrepanties. De Gor voorspellingen begeleiden de ontcijfering uitlijning, die precies overeenkomt met de referentie uitlijning in gebieden gedefinieerd als kern blokken, aangeduid met hoofdletters in de bovenste uitlijning van Fig. 2., Regio ‘ s van de referentieuitlijning die buiten de kernblokken vallen, worden niet gebruikt bij het bepalen van de nauwkeurigheid en verschillen van de ONTCIJFERUITVOER in sommige kolommen.

Fig. 2

c-terminale end of alignments of the lactate/malate dehydrogenase protein family (pfam accession no. PF00056) gekleurd door voorspelde secundaire structuur. De top alignment (sequenties genoemd door PDB ID)is van de homstrad-mod benchmark gekleurd door dssp toewijzingen, met hoofdletters die de kern blokken., De lagere uitlijning toont dezelfde sequenties (genoemd door organisme) opnieuw uitgelijnd met ontcijfering en gekleurd volgens 3-state waarschijnlijkheden voorspeld door de Gor methode . Kolommen van de vetgedrukte onderste uitlijning komen exact overeen met kolommen van de bovenste referentie-uitlijning

een voordeel van het gebruik van een kleine 3 × 3 secundaire structuurmatrix is dat het aantal vrije parameters veel groter is dan het aantal informatieve gegevenspunten, waardoor de schattingsfout verwaarloosbaar is (aanvullend bestand 1: Figuur S1)., Om optimale waarden te vinden voor elk van de 6 verschillende parameters in de matrix, heb ik een raster-zoekopdracht uitgevoerd voor de oplossing die resulteerde in de best scorende uitlijningen op basis van de som van Q-score en M-score op een subset van HOMSTRAD-mod bestaande uit 238 referentiesets. Bij het optimale tussen over-alignment en onder-alignment, wordt elke winst in Q-score gecompenseerd door het overeenkomstige verlies in M-score, en vise-versa. De geoptimaliseerde secundaire structuurmatrix is weergegeven in Fig. 3 bis., E-Staten zullen zeer waarschijnlijk op elkaar worden afgestemd, zoals blijkt uit de grote bijdrage van E/E-koppelingen aan de secundaire structuurscore. De Gor methode neigt om β-bladen te Onder-voorspellen, resulterend in een lage fractie van e-Staten in de meeste opeenvolgingen .

Fig. 3

a Optimized structure matrix for pairings between helix (H), β-sheet (E), or coil (C) states. B herhaalde waarden zijn grijs omdat de matrix symmetrisch is., Na het opnemen van deze matrix in uitlijning, was de gemiddelde verbetering in Q-score op paarsgewijze uitlijningen groter voor verre paren. C Alignments met behulp van de structuurmatrix (open symbolen) toonde weinig daling in nauwkeurigheid als het aantal input sequenties steeg ten opzichte van alignments gemaakt zonder structurele voorspellingen (gesloten symbolen). Bij alle uitlijningsgroottes verbeterde het gebruik van secundaire structuur de Q-score (p < 1e-5 voor allen)., Op dezelfde manier nam de verbetering in Q-score (scheiding tussen open en gesloten symbolen) toe naarmate meer sequenties uitgelijnd werden

vervolgens vroeg ik of integratie van secundaire structuur de sequentieuitlijning verbeterde en hoe dit werd geschaald met het aantal sequenties dat werd uitgelijnd. Gemiddeld over alle groottes van sequentiesets, resulteerde integratie van secundaire structuur in een verbetering van 5,3% in Q-score op PREFAB-mod en 2,1% op HOMSTRAD-mod. Deze aanzienlijke stijging van de Q-score ging ten koste van een 0.,Daling van 4 % in m-score bij PREFAB-mod en een daling van 0,3% bij HOMSTRAD-mod. Daarom nam de fractie van homologieën die correct zijn uitgelijnd licht af, terwijl het totale aantal correct uitgelijnde homologieën aanzienlijk steeg. Het is dan ook niet verwonderlijk dat de grootste winst werd geboekt bij divergerende referentieverzamelingen waar de meeste ruimte voor verbetering is, en dat er in wezen geen winst werd geboekt bij Verwijzingen met een gemiddelde afstand tussen paren van minder dan 60% (Fig. 3b)., De secundaire structuurvoorspellingen verstrekten een groter voordeel op PREFAB-mod omdat een grotere fractie van zijn referentieopeenvolgingen meer dan 60% ver zijn.

interessant is dat de verbetering van het opnemen van secundaire structuur toenam naarmate meer sequenties uitgelijnd werden (Fig. 3c). Op de kleinste reeksen van 2 opeenvolgingen was er een verbetering van 3,4 % op PREFAB-mod en 1,2 % op HOMSTRAD-mod. Op grote 4.000 sequentie stelt het voordeel verhoogd tot 8,5% en 3,3 %, respectievelijk., Daarom, het opnemen van secundaire structuur gedeeltelijk gecompenseerd De daling van de score die meestal wordt waargenomen met grotere uitlijningen . Dit gedrag weerspiegelde dat van secundaire structuurvoorspelling, waar de nauwkeurigheidsverhogingen aangezien meer opeenvolgingen in de berekening worden gebruikt . Om deze reden, de meest nauwkeurige secundaire structuur voorspelling algoritmen maken gebruik van meerdere uitlijningen. Op dezelfde manier, hier missen de aanvankelijke secundaire structuurvoorspellingen nauwkeurigheid aangezien zij uit enige opeenvolgingen worden verkregen., Aangezien meer opeenvolgingen worden uitgelijnd, worden deze waarschijnlijkheden gemiddeld om hun nauwkeurigheid te verhogen en de uitlijning beter te leiden. Dit is in tegenstelling tot primaire opeenvolging, waar extra opeenvolgingen onvermijdelijk in meer ambiguïteit resulteren, die gedeeltelijk een verlies van signaal veroorzaakt dat in slechte kwaliteitsaanpassing van dubbelzinnige profielen manifesteert.,

met inbegrip van een model van de indel-waarschijnlijkheid om de positie van de gap te verbeteren

gemotiveerd door de verbetering verkregen door het opnemen van lokale sequentiecontext via secundaire structuurvoorspellingen, vroeg ik vervolgens of dezelfde benadering kon worden toegepast op de plaatsing van de gap. Eerder onderzoek heeft aangetoond dat inserties en deleties (indels) vaker voorkomen naast bepaalde aminozuren en in blootgestelde spoelgebieden ., Om deze reden is het gemeenschappelijk om de kosten van het openen van een kloof in hydrofiele stukken te verminderen , of alternatief om de kosten in hydrophobic gebieden te verhogen die waarschijnlijk in de beperkte kern van de proteã ne zullen worden begraven. Voor zover ik weet, is een meer geavanceerd model van gap waarschijnlijkheid gebaseerd op lokale context niet toegepast op sequence alignment. Hiervoor gebruikte ik de One Gap Database om de relatieve frequentie van Indel gebeurtenissen te berekenen op basis van de residu ‘ s links en rechts van een centrale gap., Deze frequentie informatie werd vervolgens omgezet in log-odds scores volgens de achtergrond frequentie van elk aminozuur.

Figuur 4 toont de bijdrage van nabijgelegen aminozuren aan de waarschijnlijkheid van een gap op positie nul. Zoals verwacht, hydrofobe residuen (FMILYW) sterk verminderen de kans op een kloof. Hydrofiele en” structuur-breken ” (b.v., P) residuen verhogen de kans op een aangrenzende kloof, zij het met minder van een effect dan hydrofobe residuen., Aangezien de log-odds scores in dezelfde eenheden zijn als de substitutiematrix( third-bits), kunnen ze direct worden toegepast om gap-opening en gap-closing kosten te moduleren op elke positie op basis van de lokale sequentiecontext (aanvullend bestand 1: tabel S1). Ik evalueerde verschillende venstergroottes voor het opnemen van deze informatie, en vond dat het beste venster strekte zich uit positie -4 naar +4 ten opzichte van de centrale kloof. Vandaar dat de kosten van het creëren van een gap op elke positie de oorspronkelijke gap kosten plus een score die wordt gemoduleerd op basis van de residuen aan weerszijden van de gap (zie aanvullend bestand 1).,

Fig. 4

bijdrage van de lokale sequentiecontext aan de kosten van het openen van een gat in de uitlijning. Hydrofobe residuen sterk verminderen de kans op een kloof, terwijl hydrofiele en “structuur-breken” residuen verhogen de kans op een kloof., In het gap-model werden posities binnen vier residu ‘ s gebruikt om de kosten van het openen van een gap op positie nul te moduleren

vervolgens berekende Ik log-odds scores voor de residu ‘ s tegen de gap (in de ongegapte sequentie), en vond ik dat deze posities een kleine bias in aminozuurgehalte vertoonden (aanvullend bestand 1: tabel S1). Er was een matige correlatie tussen de log-odds scores voor posities links of rechts van de gap en de residu ‘ s tegenover de gap (R2 van respectievelijk 0,69 en 0,64)., In dit geval was er echter geen duidelijk verschil tussen de locaties binnen de gapped-regio. Om deze reden heb ik ervoor gekozen om de gap extension kosten eenvoudig te moduleren op basis van de gemiddelde scores voor de “gapped” residuen in een positie-onafhankelijke manier. Al met al past dit probabilistische model van het openen en verlengen van een kloof de kloof boete binnen een bereik van ongeveer +/- 20% op elke positie.

om dit model van gap placement uit te breiden op basis van de lokale sequentiecontext, onderzocht ik vervolgens het effect van korte sequentiepatronen., De herhalingen zijn een belangrijke bron van lengtevariatie in biologische opeenvolgingen en worden algemeen gevonden over alle takken van het leven . De herhalingen hebben een grote verscheidenheid van vormen, met inbegrip van korte microsatellite herhalingen van één enkel codon en langere achter elkaar herhalingen van gebieden die door verandering kunnen evolueren om in tijd mismatched te worden . Langere herhalingen kunnen worden uitgelijnd met gespecialiseerde programma ‘ s die tandem herhalen vinden algoritmen gebruiken . Korte patronen worden typisch verwaarloosd als onbeduidend door deze programma ‘ s toe te schrijven aan hun frequente voorkomen in opeenvolgingen., Echter, Chang en Benner vonden dat korte dipeptide herhalingen (b.v., AA) vaker voorkwamen dan verwacht rond gaps, potentieel het aanbieden van een middel om gap kosten te moduleren. Om dit effect te onderzoeken, onderzocht ik het voorkomen van verschillende sequentiepatronen in de One Gap Database.

dipeptide-herhalingen (runs van 2 identieke aminozuren) omringende hiaten waren slechts iets waarschijnlijker (< 1 derde bit) dan per toeval werd verwacht. Echter, hiaten waren aanzienlijk meer kans op optreden rond runs van drie of langer (bijvoorbeeld AAA), zoals blijkt uit aanvullend bestand 1: Figuur S2., Dit effect was vooral uitgesproken in de sequentie zonder de kloof, wat erop wijst dat hiaten vaak aanwezig zijn omdat de ene sequentie een langere run heeft dan de andere. Verrassend genoeg waren gaten minder waarschijnlijk om te voorkomen op de positie na het begin van een run in de tegengestelde volgorde (bijvoorbeeld, AA/A-), ongeacht de lengte van de run. Hoewel het mechanisme voor dit voorkomen onbekend is, kan het toe te schrijven zijn aan een biologische rol voor dipeptide herhaalt die in hun behoud resulteert. Een soortgelijk onderzoek van heteropeptide herhaalt zich met periodiciteit 2 (bijv.,, ACAC) tot 6 niet een sterke bias naar hiaten (aanvullend bestand 1: Figuur S2). Daarom heb ik ervoor gekozen om het gap-model uit te breiden om de gap-openingskosten op posities voor en onmiddellijk na het begin van een run in de tegengestelde volgorde te moduleren.

in het algemeen resulteerde het gebruik van dit model van gap placement in een bescheiden verbetering van 0,5% op PREFAB-mod (p < 1e-4) en 0,3% op HOMSTRAD-mod (p < 1e-3). De verbeteringen in de Q-score werden geëvenaard door een stijging van 0,2% in de M-score op beide benchmarks., Deze veranderingen in de score waren onverwacht, omdat structurele benchmarks de meeste gapped regio ’s niet in aanmerking nemen , omdat ze vaak voorkomen in delen van de structuur die moeilijk te over elkaar heen te leggen zijn, en herhalingen meestal voorkomen in wanordelijke eiwitregio’ s . Hoewel evolutionaire simulaties een middel bieden om gapped regio ‘ s te scoren, bevatten dergelijke simulaties momenteel geen contextafhankelijk model van gap waarschijnlijkheid., Het is dus mogelijk dat de plaatsing van hiaten meer is verbeterd dan blijkt uit de bescheiden stijging van de scores, maar er bestaat momenteel geen adequate manier om het werkelijke voordeel van de integratie van een geavanceerd gap-model in de afstemming te meten.

vergelijking van ontcijfering met andere programma ’s voor MSA

na het succesvol integreren van contextbewustzijn in de ONTCIJFERSOFTWARE voor sequentieuitlijning, vergeleek ik vervolgens de prestaties met andere geavanceerde uitlijningsprogramma’ s., Ten eerste heb ik ervoor gekozen om ontcijfering te vergelijken met drie populaire programma ‘ s die duizenden sequenties efficiënt kunnen uitlijnen: Clustal Omega , MAFFT en MUSCLE . Deze programma ‘ s worden regelmatig gebruikt in een verscheidenheid van verschillende studies, en zijn uitgegroeid tot de de facto standaard voor vergelijking op benchmarks. Figuur 5 toont de prestaties van elk programma ten opzichte van ontcijfering voor het verhogen van het aantal invoersequenties., De performance ranking is in sterke overeenstemming tussen de homstrad-mod en PREFAB-mod benchmarks, maar er is een grotere spreiding tussen programma ‘ s op PREFAB-mod omdat het een grotere fractie van sequenties in of onder de schemerzone bevat.

Fig. 5

prestaties van populaire programma ‘ s voor het uitlijnen van meerdere reeksen ten opzichte van ontcijfering op de homstrad-mod (H-mod) en PREFAB-mod (P-mod) benchmarks. PROMALS toonde de beste prestaties op de kleinste sets van twee sequenties., MAFFT had de beste prestaties op kleine input sets van 125 sequenties, waar het gebruik maakt van een veel tragere consistentie-gebaseerde strategie. MUSCLE toonde de slechtste prestaties op grotere sequence sets. De prestaties van de ONTCIJFERSLEUTEL ten opzichte van andere programma ‘ s verbeterden naarmate meer reeksen uitgelijnd werden

toen slechts twee reeksen uitgelijnd werden van elke benchmark, gaven de uitlijningsprogramma ‘ s allemaal vergelijkbare resultaten, waarbij MAFFFT de laagste nauwkeurigheid toonde. In de sets van 125 sequenties staat ontcijfering op de tweede plaats achter MAFFT., Voor invoersets van deze grootte gebruikt MAFFFT zijn meest nauwkeurige consistentiegebaseerde algoritme (L-ins-i) dat niet schaalbaar is voor grotere reeksen. Verder dan 125 ingangssequenties, ontcijfert duidelijk beter dan de andere drie programma ‘ s (extra bestand 1: tabel S2), en de leiding verbetert naarmate meer sequenties worden uitgelijnd (Fig. 5). Dit weerspiegelt het feit dat de nauwkeurigheid van ontcijfering relatief constant blijft met toenemende aantallen sequenties (Fig. 3), die gedeeltelijk toe te schrijven is aan het gebruik van secundaire structuur tijdens de uitlijning., Clustal Omega, MAFFT en DECIPHER hebben allemaal vergelijkbare m-scores in het bereik van invoergroottes (extra bestand 1: Figuur S3). MUSCLE had de slechtste prestaties, met aanzienlijk slechtere Q – en M-scores voor alle, behalve de kleinste invoersequentiesets. Hoewel Q-score, total column score (TC-score) en Cline shift-score soms tegenstrijdige prestatieklasseringen geven, waren deze drie statistieken het over beide benchmarks sterk eens (aanvullend bestand 1: figuren S4 en S5).,

overtraining naar een enkele referentieset is een punt van zorg geweest voor sommige afstemmingsprogramma ‘ s , hoewel beide referentiesets die hier werden gebruikt vergelijkbare resultaten vertoonden. Andere programma ‘ s kunnen echter beter worden getraind op de oorspronkelijke benchmarks die niet zijn gebaseerd op de outputs van het MUSTANG structural alignment program. Om te controleren of ontcijfering niet overtrad naar MUSTANG ‘ s outputs, herhaalde ik de analyse met behulp van de originele prefab referentieparen, die onafhankelijk van MUSTANG werden uitgelijnd., De ongewijzigde prefabreferentiesequenties toonden een sterke secundaire structuurconsordantie, en bieden daarom een hoogwaardige alternatieve benchmark. Niettemin waren de resultaten (aanvullend bestand 1: Figuur S6) zeer vergelijkbaar voor beide reeksen van referentiesequenties, wat aangeeft dat de prestaties van ontcijfering niet nauw verbonden waren met MUSTANG ‘ s outputs.

i vergeleek vervolgens ontcijfering met PASTA , een programma dat bedoeld is om de nauwkeurigheid van minder schaalbare algoritmen uit te breiden tot grote uitlijningen., PASTA werkt door een uitlijning op te delen in overlappende subproblemen die elk zijn afgestemd op een nauwkeurige strategie, standaard MAFFTS l-INS-i consistentiegebaseerde aanpak. Deze sub-uitlijningen worden samengevoegd met behulp van transitiviteit, en het proces wordt herhaald vanaf een nieuwe guide tree. Interessant is dat PASTA beter presteerde dan ontcijfering op sets van 125 en 250 sequenties op HOMSTRAD-mod (Fig. 5), maar was statistisch niet te onderscheiden op grotere sets (aanvullend bestand 1: tabel S2). Nochtans, Ontcijferde wezenlijk deegwaren op PREFAB-mod overtroffen, en zijn lood nam toe aangezien meer opeenvolgingen werden uitgelijnd., Bovendien toonde PASTA een grote daling in nauwkeurigheid met toenemende uitlijning grootte. Tabel 1 laat zien dat de prestaties van DECIPHER het minst van alle uitlijningsprogramma ‘ s verminderde naarmate de uitlijningsgrootte toenam.

Tabel 1 verandering in de gemiddelde Q-score volgens het aantal uitgelijnde sequenties

ten slotte heb ik de prestaties van DECIPHER vergeleken met PROMALS, een programma dat steunt op nauwkeurigere secundaire structuurvoorspellingen verkregen uit PSIPRED ., PROMALS voert eerst PSI-BLAST zoekopdrachten uit met representatieve sequenties uit de invoerset en gebruikt vervolgens nauwkeurige secundaire structuurvoorspellingen met een consistentiegebaseerde benadering om de sequenties uit te lijnen. PROMALS scoorden veel beter dan alle andere uitlijningsprogramma ‘ s op de kleinste sets van twee sequenties, maar het voordeel ervan verdween zodra andere sequenties werden toegevoegd aan de invoerset (Fig. 5). Verder was het een aantal ordes van grootte langzamer dat de andere aligners (Fig. 6), en testing input sets groter dan 125 sequenties bleek prohibitief tijdrovend., De recentere benaderingen die van opgeloste eiwitstructuren gebruiken zijn beschikbaar, zoals PROMALS3D . Het is echter onduidelijk hoe dergelijke benaderingen op structurele benchmarks te testen, omdat de referentiesequenties waarschijnlijk aanwezig zijn in dezelfde structuurdatabanken die door deze programma ‘ s worden gebruikt.

Fig. 6

gemiddelde uitvoertijd volgens het aantal uitgelijnde sequenties (let op de asafbrekingen en log-schaal)., PROMALS was aanzienlijk langzamer dan de andere programma ‘ s die niet afhankelijk zijn van een grote externe database van sequenties. MAFFT was het snelste programma voor grote reeksen. PASTA was het langzaamste programma dat werd getest voor het uitlijnen van grote sequenties, waarbij gemiddeld 2,7 uur nodig was om 4.000 sequenties uit te lijnen. Een opmerkelijke snelheidsverbetering werd verkregen met ontcijfering door gebruik te maken van meerdere processoren

ontcijfering was niet het langzaamste en snelste programma dat werd vergeleken voor het uitlijnen van elk van de sequentiesets (Fig. 6)., MAFFFT was over het algemeen het snelste programma, behalve voor de kleinste sequentiesets waar het langzamere, nauwkeurigere strategieën gebruikt voor uitlijning. De verandering in verstreken tijd is dramatisch voor MAFFT en spier voorbij 250 opeenvolgingen waar efficiëntere strategieën werden gebruikt. PASTA was het langzaamste programma en had een gemiddelde van 2,7 uur nodig om 4.000 sequenties uit te lijnen. Zowel Clustal Omega als DECIPHER waren in staat om 4.000 sequenties in ongeveer een half uur op elkaar af te stemmen. Aangezien guide tree berekening de beperkende factor is voor grote reeksen reeksen, kan parallellisatie nuttig zijn in dergelijke omstandigheden., Bijvoorbeeld, ontcijfering was ongeveer twee keer zo snel wanneer 8 processors werden gebruikt (Fig. 6). Het maximale geheugengebruik van ontcijfering was 2GB bij het uitlijnen van 4.000 sequenties.

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *