MEGFEJTENI: a hasznosító helyi sorrend összefüggésben, hogy javítja a fehérje több szekvencia illesztés

Választott kiváló minőségű referencia nyomvonalakat a benchmarking

a Különböző minősítő gyakran eredményez kontrasztos optimális paraméterek (pl., rés, nyílás jelent, szankciók), valamint egy inkompatibilis teljesítmény rangsor igazítás programok . Ezen okok miatt a benchmark kiválasztása rendkívül fontos a szekvenciaigazítási algoritmusok kidolgozásakor és összehasonlításakor., A tanulmányhoz igazítási referenciaértékek kiválasztásához a másodlagos struktúra konkordanciájának összehasonlításával kezdtem a közös referenciaértékek között. Ez az összehasonlítási módszer megköveteli, hogy rendelkezésre álljon a referenciaszekvenciák másodlagos szerkezete, amely kizárja a népszerű Balibáz referenciaértékeket, mivel a legtöbb Balibáz szekvencia megfelelő másodlagos szerkezete ismeretlen . Bár a másodlagos szerkezeti megállapodás önmagában nem elegendő a magas színvonalú referenciaérték biztosításához, a megállapodás hiánya az összehangolás pontatlanságának jele lehet.,

várható, hogy a jobb referencia-nyomvonalaknak nagyobb százaléka lesz az azonos másodlagos szerkezetű igazított maradékanyagoknak. A másodlagos struktúrában azonban némi nézeteltérés várható mind a másodlagos struktúra hozzárendelésének belső nehézségei, mind a távoli kapcsolódó harmadlagos struktúrák összehangolásához kapcsolódó kihívások miatt . Az 1. ábra a másodlagos szerkezetmegállapodás frakcióját mutatja, szemben a négy közös aminosav-referenciaérték páronkénti szekvencia-azonosságával., A SABmark és PREFAB referenciaértékek szekvenciáik legnagyobb részét a 20-35% – os szekvencia-identitás “alkonyzónájában” vagy alatt, míg az OXBench hangsúlya a kevésbé kihívást jelentő igazításokon van. Úgy tűnik, hogy az előtag összességében lényegesen jobban igazodik, mint a SABmark, annak ellenére, hogy mindkét hivatkozás hasonló szekvencia-identitásokat fed le. A 10%-nál kisebb identitású szekvenciák esetében az PREFAB 13,4% – kal nagyobb szerkezeti identitással rendelkezik (p < 1e-15), mint a SABmark., Ezek az eredmények összhangban vannak egy korábbi tanulmány, amely megállapította, hogy a PREFAB a legjobb referenciaérték, amelyet kifejezetten az MSA programok összehasonlítására terveztek, bár az ELŐTAGRÓL ismert, hogy hibákat tartalmaz .

az igazítások összes oszlopát az egyes referenciaértékek általános pontosságának értékelésére használták, nem pedig csak a magblokkok (homológ régiók) használatára, amelyeket általában nagybetűkkel határoztak meg., A teljes igazítás használatára azért került sor, mert: (i) a magblokkok meghatározása referenciaértékek között változik, (ii) egyes pontozási eljárások a teljes igazítást használják , (iii) a páronkénti távolságot a teljes igazítás alapján számítják ki, és (iv) a HOMSTRAD és a SABmark referenciaértékek nem határozzák meg a magblokkokat. Az előlapon lévő magblokkokat két különböző strukturális igazítási program közötti megállapodás alapján rendelték hozzá., Ez motivált, hogy megnézzem a különbséget az eredeti referenciaértékek és ugyanazok a szekvenciák között, amelyek a MUSTANG szekvencia-független szerkezeti igazítási programmal valósultak meg . Igazítások MUSTANG mutatott nagyobb másodlagos szerkezeti kongruencia, mint az eredeti referenciaértékek, kivéve abban az esetben, HOMSTRAD (ábra. 1). Különösen a SABmark 11, 2%-kal magasabb másodlagos szerkezeti identitással rendelkezett a MUSTANG-val való átrendezés után (p < 1e-15)., Ez az eredmény támogatja a HOMSTRAD adatbázis igazítási referenciaértékként való használatát, annak ellenére, hogy eredetileg nem erre a célra szánták.

mivel az ismert szerkezetű szekvenciák száma a rendelkezésre álló szekvenciák számához viszonyítva kicsi, a legtöbb referenciaértéket további, nem hozzárendelt szekvenciákkal egészítik ki, amelyeket nem tekintünk a pontozásban. Az előregyártott referencia-nyomvonalakat további szekvenciákkal egészítik ki, amelyeket a PSI-BLAST keresések segítségével találnak meg a referencia-szekvenciákkal. A HOMSTAD szekvenciákat általában kiegészítik az azonos Pfam családba tartozó más szekvenciákkal ., Összehasonlítottam ezt a két megközelítést úgy, hogy véletlenszerűen kiválasztottam a pfam családból származó szekvenciákat, amelyek megfelelnek az előtag referencia-szekvenciáknak. Az azonos számú kiegészítő szekvenciával való összehangolás után egy szomszéd összekötő fát alakítottak ki a hozzáadott szekvenciák szélességének meghatározására. A véletlenszerű pfam-szekvenciák esetében az átlagos fa hossza 1,6-szor hosszabb volt, mint az előtaggal együtt (p < 1e-15)., Ez azt jelezte, hogy a bemeneti készlet kiterjesztése olyan módon, amely nem függ közvetlenül a referencia-szekvenciáktól, a kiegészítő szekvenciák legnagyobb sokféleségét eredményezi.

nem világos, hogy melyik referencia-referenciaérték a legjobban tükrözi a tipikus felhasználói szekvenciákat, és az MSA alkalmazások széles skálája valószínűleg lefedi a referenciaértékekben található igazítási forgatókönyvek nagy részét. A SABmark-készletek a szekvencia-identitások szűk körét fedik le, míg az OXBench a szorosan kapcsolódó szekvenciákra összpontosít, amelyek könnyebben igazíthatók., Mind az igazítás minősége, mind a szekvencia-identitások szélessége miatt úgy döntöttem, hogy folytatom a tanulmány többi részét az eredeti PREFAB és HOMSTRAD adatkészletek kissé módosított változataival, úgynevezett PREFAB-mod és HOMSTRAD-mod (lásd a módszereket). A módosított referenciaértékek kiegészítéséhez teljes hosszúságú szekvenciákat adtam hozzá, amelyek ugyanahhoz a Pfam családhoz tartoznak. A teljes hosszúságú szekvenciákat ahelyett, hogy csak a megosztott tartományt használták volna, hogy az igazítások nagyobb kihívást jelentsenek, valamint a lehetséges felhasználási forgatókönyvek nagyobb változatosságát képviseljék., Gyakorta szekvenciák összehangoltan különböző hosszúságú, mert kiterjed átfedő régiói egy gén, vagy vágták eltérő alapján minőségi pontszámok minden terminus.

A másodlagos struktúra méretezhető beépítése az igazításba

a másodlagos szerkezet és a szekvenciaigazítás közötti szoros kapcsolat ellenére a legnépszerűbb fehérjeigazítási programok nem jósolják meg a szerkezeti információkat., A másodlagos szerkezet-előrejelzés fő hátránya, hogy lassú a pontos számítás, ami megakadályozza, hogy ésszerű idő alatt több száz szekvencia összehangolódjon . A kevésbé pontos másodlagos struktúra előrejelzéseket nagyon gyorsan lehet elérni olyan egysoros megközelítésekkel, amelyek nem támaszkodnak a homológ szekvenciákkal való többszörös összehangolásra. A GOR módszer az egyik legpontosabb adott egyetlen szekvencia ., Ebben a módszerben a másodlagos szerkezetet három állapot egyikéhez rendelik: hélix (H), lap (E) vagy tekercs (C) a maradékot körülvevő helyi szekvencia kontextus alapján. Ennek a megközelítésnek az az előnye, hogy rendkívül gyors (< az igazításhoz szükséges idő 1% – a), valószínűségi értéket biztosít minden egyes állam számára, és körülbelül 65% pontosságot kínál .,

integrálni másodlagos szerkezet előrejelzések a dinamikus programozási keret profil-profil igazítás, én hozzá egy új, 3 × 3-as szimmetrikus mátrix képviselő napló-esélye hozzáigazítja a H, E, C, egy sorozat egy másik helyzetben rendelt H, E, vagy C-ben egy második sorozat. Ennek a mátrixnak a összekapcsolása a másodlagos struktúrák profilprofil-igazításához engedélyezett három szerkezeti állapot mindegyikéhez rendelt valószínűséggel., A másodlagos szerkezeti profilok összehangolásából kapott pontszám növelte az elsődleges szekvenciákból meghatározott hagyományos helyettesítési mátrix alapú pontszámot (lásd az 1.kiegészítő fájl szövegét). Ily módon az elsődleges és másodlagos szerkezeti megállapodás egyszerre maximalizálható.

a 2. ábra a laktát/malát-dehidrogenáz fehérjecsalád példaigazítását mutatja (Pfam csatlakozási szám. PF00056; HOMSTRAD ” ldh ” család) kapott ezzel a megközelítéssel., A DSSP hozzárendelések általában megegyeznek a HOMSTRAD-mod igazítással, amely ezen fehérjék ismert tercier szerkezetén alapul. A GOR módszerrel készített előrejelzések bizonyos eltérésekkel tükrözik ezeket a másodlagos szerkezeti hozzárendeléseket. A GOR előrejelzések irányítják a megfejtés igazítás, amely pontosan megegyezik a referencia igazítás meghatározott régiókban core blokkok, jelöli nagybetűkkel a felső igazítás ábra. 2., A referenciaigazítás azon régióit, amelyek a magblokkokon kívül esnek, nem használják a pontosság meghatározására, és különböznek az egyes oszlopok megfejtési kimenetétől.

ábra. 2

c-a laktát/malát dehidrogenáz fehérjecsalád beállításainak terminális vége (Pfam csatlakozási szám. PF00056) színezett előre jelzett másodlagos szerkezet. A felső igazítás (a PDB ID által megnevezett szekvenciák) a DSSP hozzárendelésekkel színezett HOMSTRAD-mod referenciaértékből származik , felsőbetűkkel, amelyek magblokkokat jelölnek., Az alsó igazítás ugyanazokat a szekvenciákat mutatja (organizmus szerint elnevezve), amelyek a Gor-módszerrel előre jelzett 3 állapotú valószínűségek szerint vannak megfejtve és színezve . Az alsó igazítás oszlopai vastag betűvel pontosan megegyeznek a felső referencia igazítás oszlopaival

A Kis 3 × 3 másodlagos szerkezeti mátrix használatának egyik előnye, hogy a szabad paraméterek száma messze meghaladja az informatív adatpontok számát, ami a becslési hibát elhanyagolhatóvá teszi (további fájl 1: S1 ábra)., A mátrix mind a 6 különböző paraméterének optimális értékeinek megtalálásához egy grid-keresést végeztem a megoldásra, amely a Q-pontszám és az M-pontszám összege alapján a legjobb pontozási igazításokat eredményezte a HOMSTRAD-mod egy 238 referenciakészletből álló részhalmazán. A túlbeigazítás és a túlbeigazítás közötti optimális esetben a Q-pontszám bármely nyereségét felülmúlja az M-pontszám megfelelő vesztesége, és fordítva. Az optimalizált másodlagos szerkezet mátrix ábrán látható. 3a., Az e-Államok nagyon valószínű, hogy igazodnak, amint azt az E/E párosításoknak a másodlagos struktúra pontszámához való nagy hozzájárulása is tükrözi. A GOR-módszer hajlamos alulbecsülni a β-lapokat, ami a legtöbb szekvenciában az E-állapotok alacsony hányadát eredményezi .

ábra. 3

optimalizált szerkezeti mátrix a hélix (H), β-lap (E) vagy tekercs (C) állapotok közötti párosításhoz. b az ismétlődő értékek szürkén jelennek meg, mivel a mátrix szimmetrikus., Miután beépítették ezt a mátrixot az összehangolásba, a Q-pontszám átlagos javulása a páros igazításoknál nagyobb volt a távoli párok esetében. a struktúramátrixot (nyitott szimbólumokat) használó C igazítások a pontosság csekély csökkenését mutatták, mivel a bemeneti szekvenciák száma nőtt a szerkezeti előrejelzések (zárt szimbólumok) nélküli igazításokhoz képest. Az összes igazítási méretben a másodlagos szerkezet használata javította a Q-pontszámot (p < 1E-5 mindenkinek)., Hasonlóképpen, a Q-pontszám javulása (a nyitott és zárt szimbólumok közötti elválasztás) nőtt, mivel több szekvenciát igazítottak

ezután megkérdeztem, hogy a másodlagos struktúra beépítése javította-e a szekvenciaigazítást, és hogy ez hogyan skálázott a szekvenciák számával. A szekvenciakészletek minden méretére átlagolva a másodlagos szerkezet beépítése 5,3%-os javulást eredményezett a Q-score-ban az PREFAB-mod-on, 2,1% pedig a HOMSTRAD-mod-on. Ez a jelentős növekedés Q-pontszám rovására jött egy 0.,A PREFAB-mod m-pontszámának 4% – os csökkenése, HOMSTRAD-mod esetében pedig 0,3 % – os csökkenés. Ezért a helyesen igazított homológiák töredéke kissé csökkent, míg a helyesen igazított homológiák teljes száma jelentősen megnőtt. Nem meglepő, hogy a legnagyobb nyereség az eltérő referenciakészleteken volt, ahol a legtöbb fejlesztési lehetőség van, és lényegében nem történt nyereség a párok közötti 60% – nál kisebb átlagos távolsággal rendelkező referenciákon (ábra). 3b)., A másodlagos szerkezeti előrejelzések nagyobb előnyt biztosítottak az PREFAB-mod számára, mivel referenciaszekvenciáinak nagyobb része több mint 60% – kal távol van.

érdekes módon a másodlagos szerkezet beépítésének javulása nőtt, mivel több szekvenciát igazítottak (ábra. 3c). A 2 szekvencia legkisebb készletében 3,4%-os javulás volt tapasztalható az PREFAB-mod és 1,2% A HOMSTRAD-mod esetében. A nagy 4000 szekvencia meghatározza az előnye nőtt 8,5 %, illetve 3,3%., Ezért a másodlagos szerkezet beépítése részben ellensúlyozta a pontszám csökkenését, amelyet általában nagyobb igazításokkal figyeltek meg . Ez a viselkedés tükrözte a másodlagos struktúra előrejelzését, ahol a pontosság növekszik, mivel több szekvenciát használnak a számításban . Emiatt a legpontosabb másodlagos struktúra előrejelző algoritmusok több igazítást használnak. Hasonlóképpen, itt a kezdeti másodlagos struktúra előrejelzései nem pontosak, mivel egyetlen szekvenciákból származnak., Mivel több szekvencia van igazítva, ezeket a valószínűségeket átlagolják, hogy növeljék pontosságukat, és jobban irányítsák az igazítást. Ez ellentétben áll az elsődleges szekvenciával, ahol a további szekvenciák elkerülhetetlenül több kétértelműséget eredményeznek, ami részben a jelek elvesztését okozza, amely a kétértelmű profilok rossz minőségű összehangolásában nyilvánul meg.,

beleértve a modell indel valószínűség javítása gap helymeghatározás

motiválta a javulás nyert beépítésével helyi szekvencia összefüggésben keresztül másodlagos struktúra előrejelzések, azt a következő kérdést, hogy ugyanazt a megközelítést lehetne alkalmazni a gap elhelyezés. Korábbi kutatások azt mutatták, hogy egyes aminosavak mellett és a kitett tekercsrégiókban nagyobb valószínűséggel fordulnak elő betoldások és törlések (Indel)., Ezért gyakori a hidrofil szakaszok közötti rés megnyitásának költségeinek csökkentése, vagy pedig a hidrofób régiók költségeinek növelése, amelyek valószínűleg a fehérje korlátozott magjában vannak eltemetve. Tudomásom szerint a helyi kontextuson alapuló különbség valószínűségének kifinomultabb modelljét nem alkalmazták a szekvenciaigazításra. Ebből a célból a One Gap adatbázist használtam az indel események relatív gyakoriságának kiszámításához egy központi rés bal és jobb oldalán található maradványok alapján., Ezt a frekvenciainformációt ezután az egyes aminosavak háttérfrekvenciájának megfelelően log-odds pontszámokká alakították át.

A 4. ábra a közeli aminosavak hozzájárulását mutatja a nulla pozícióban lévő rés valószínűségéhez. Ahogy az várható volt, a hidrofób maradékok (FMILYW) jelentősen csökkentik a rés valószínűségét. A hidrofil és “szerkezettörő” (pl. p) maradványok növelik a szomszédos rés esélyét, bár kisebb hatásúak, mint a hidrofób maradványok., Mivel a log-odds pontszámok ugyanabban az egységben vannak, mint a helyettesítési mátrix (harmadik bit), közvetlenül alkalmazhatók a gap-opening és gap-closing költségek modulálására bármely helyzetben, a helyi szekvencia kontextusa alapján (további fájl 1: S1 táblázat). Azt értékelni a különböző ablakok mérete, beleértve ezt az információt találtam, hogy a legjobb ablak feszített helyzetben -4 +4 képest a központi szakadék. Ezért a rés bármely pozícióban történő létrehozásának költsége az eredeti rés költsége, valamint egy olyan pontszám, amelyet a maradékanyagok alapján a rés mindkét oldalára modulálnak (lásd az 1. további fájlt).,

ábra. 4

helyi szekvencia kontextus hozzájárulása az igazítás résének megnyitásának költségéhez. A hidrofób szermaradékok jelentősen csökkentik a rés valószínűségét, míg a hidrofil és” szerkezetbontó ” maradványok növelik a rés valószínűségét., A szupermodell, pozíciók belül található négy maradékok használták, hogy módosítsam a költséget a nyitó rést a helyzetben nulla

a Következő kiszámoltam log odds-pontszámok a maradékok ellentétes a rés (a ungapped sorozat), s megállapította, hogy ezek a pozíciók jelenik meg egy kis elfogultság aminosav tartalom (Előfordulhat, hogy a fájl 1: Táblázat S1). A rés bal vagy jobb oldalán lévő pozíciókra vonatkozó log-odds pontszámok és a réssel ellentétes maradványok (R2 0,69, illetve 0,64) között mérsékelt összefüggés volt., Ebben az esetben azonban nem volt nyilvánvaló különbség a gapped régióban található helyek között. Ezért úgy döntöttem, hogy egyszerűen modulálja a gap extension költség alapján az átlagos pontszámok a “gapped” maradékok pozíciótól független módon. Összességében ez a valószínűségi modell megnyitása és kiterjesztése a rés beállítja a különbség büntetést tartományban körülbelül + / – 20% minden helyzetben.

a gap elhelyezés ezen modelljének helyi szekvencia-kontextus alapján történő kibővítéséhez ezután a rövid szekvenciaminták hatását vizsgáltam., Az ismétlések a biológiai szekvenciák hosszváltozásának egyik fő forrása, és általában az élet minden ágában megtalálhatók . Megismétli sokféle formája, beleértve a rövid microsatellite ismétli egyetlen kodon, illetve hosszabb tandem ismétlődések, a régiók, hogy lehet fejlődni mutáció lesz felemás idővel . A hosszabb ismétlések összehangolhatók a tandem repeat finding algoritmusokat alkalmazó speciális programokkal . A rövid mintákat általában elhanyagolják, mivel ezek a programok jelentéktelenek a szekvenciák gyakori előfordulása miatt., Chang és Benner azonban úgy találta, hogy a rövid dipeptid-ismétlések (például AA) a vártnál gyakoribbak voltak a rések körül, ami potenciálisan lehetőséget kínál a gap-költségek modulálására. Ennek a hatásnak a vizsgálatához megvizsgáltam a különböző szekvenciaminták előfordulását a One Gap adatbázisban.

Dipeptide ismétli (fut a 2 azonos aminosavak) körüli hézagokat csak valamivel több, valószínűleg (< 1 harmadik-bit) a vártnál véletlenül. A hiányosságok azonban lényegesen nagyobb valószínűséggel fordultak elő három vagy annál hosszabb (például AAA) futások körül, amint az az 1. kiegészítő fájlban látható: S2 ábra., Ez a hatás különösen hangsúlyos volt a rés nélküli sorrendben, jelezve, hogy a rések gyakran jelen vannak, mert az egyik szekvencia hosszabb, mint a másik. Meglepő módon a hézagok kevésbé valószínűek voltak abban a helyzetben, amikor az ellentétes szekvenciában (például AA/a -) futást indítottak, függetlenül a futás hosszától. Bár ennek az előfordulásnak a mechanizmusa nem ismert, ennek oka lehet A dipeptid ismétlések biológiai szerepe, amely megőrzésüket eredményezi. A heteropeptid hasonló vizsgálata megismétlődik a periodicitással 2 (pl.,, ACAC) a 6-hoz nem mutatott erős torzítást a rések felé (további 1. fájl: S2 ábra). Ezért úgy döntöttem, hogy kiterjesztem a gap modellt a résnyitás költségének modulálására pozíciókban, közvetlenül a futás megkezdése előtt, közvetlenül az ellenkező sorrendben.

összességében a különbségelhelyezés ezen modelljének alkalmazása 0,5% – os szerény javulást eredményezett a PREFAB-mod esetében (p < 1e-4) és 0,3% a HOMSTRAD-mod esetében (p < 1E-3). A Q-pontszám javulása az M-pontszám 0,2% – os növekedésével párosult mindkét referenciaértéken., Ezek a pontszámváltozások váratlanok voltak, mivel a strukturális referenciaértékek nem veszik figyelembe a legtöbb gapped régiót , mivel gyakran előfordulnak a szerkezet olyan részein, amelyeket nehéz egymásra helyezni, és az ismétlések általában rendezetlen fehérje régiókban találhatók . Bár az evolúciós szimulációk lehetőséget kínálnak a gapped régiók pontozására, az ilyen szimulációk jelenleg nem tartalmazzák a gap valószínűség kontextusfüggő modelljét., Ezért lehetséges, hogy a hiányosságok elhelyezése jobban javult, mint amit a pontszámok szerény növekedése tükröz, de jelenleg nincs megfelelő módszer a kifinomult rés modell összehangolásának tényleges előnyének mérésére.

A megfejtés összehasonlítása más MSA programokkal

miután sikeresen integrálta a kontextus-tudatosságot a megfejtő szoftverbe a szekvencia-igazításhoz, ezután összehasonlítottam teljesítményét más legkorszerűbb igazítási programokkal., Először úgy döntöttem, hogy összehasonlítom a megfejtést három népszerű programmal, amelyek képesek több ezer szekvenciát hatékonyan összehangolni: Clustal Omega , MAFFT, and MUSCLE . Ezeket a programokat rendszeresen alkalmazzák különböző tanulmányokban, és a referenciaértékek összehasonlításának de facto szabványává váltak. Az 5. ábra az egyes programok teljesítményét mutatja A bemeneti szekvenciák növekvő számának megfejtéséhez viszonyítva., A teljesítmény rangsorban a HOMSTRAD-mod és az PREFAB-mod referenciaértékek között erős egyetértés van, mégis nagyobb a szórás az előtag-mod programok között, mivel az alkonyzónában vagy alatt lévő szekvenciák nagyobb részét tartalmazza.

ábra. 5

a népszerű többsoros igazítási programok teljesítménye a HOMSTRAD-mod (H-mod) és a PREFAB-mod (P-mod) referenciaértékek megfejtéséhez viszonyítva. A PROMALS a legjobb teljesítményt mutatta a két sorozat legkisebb készletén., MAFFT volt a legjobb teljesítményt a kis bemeneti készletek 125 szekvenciák, ahol használ egy sokkal lassabb konzisztencia-alapú stratégia. Izom megmutatta a legrosszabb teljesítményt nagyobb szekvencia készletek. A dekódoló teljesítménye más programokhoz képest javult, mivel több szekvenciát igazítottak

amikor csak két szekvenciát igazítottak az egyes referenciaértékekhez, az igazítási programok mind hasonló eredményeket adtak, a MAFFT a legalacsonyabb pontosságot mutatta. A 125 szekvencia halmazában a megfejtés a MAFFT mögött a második helyen áll., Az ilyen méretű bemeneti készleteknél a MAFFT a legpontosabb konzisztenciaalapú algoritmust (L-INS-i) használja, amely nem skálázható nagyobb szekvenciákra. A 125 bemeneti szekvencián túl a megfejtés egyértelműen felülmúlja a másik három programot (további 1.fájl: S2 táblázat), az ólom pedig javul, mivel több szekvencia igazodik (ábra. 5). Ez tükrözi azt a tényt, hogy a megfejtés pontossága viszonylag állandó marad a szekvenciák számának növekedésével (ábra. 3), ami részben annak tulajdonítható, hogy a használata a másodlagos szerkezet során összehangolás., Clustal Omega, MAFFT, és megfejteni minden hasonló M-pontszámok tartományban bemeneti méretek (további fájl 1: ábra S3). Izom volt a legszegényebb teljesítmény, lényegesen rosszabb Q – és M-pontszámok minden, de a legkisebb bemeneti szekvencia készletek. Továbbá, bár Q-pontszám, teljes oszlop pontszám( TC-score), és Cline shift-score néha ad ütköző teljesítmény rangsor, ez a három statisztika erősen megállapodott mindkét referenciaértékek (további fájl 1: ábra S4 és S5).,

Az egyetlen referenciakészlethez való túlképzés aggodalomra ad okot néhány igazítási program esetében, bár az itt használt mindkét referenciakészlet hasonló eredményeket mutatott. Más programok azonban jobban kiképezhetők az eredeti referenciaértékekre, amelyek nem a MUSTANG strukturális igazítási program kimenetein alapulnak. Annak ellenőrzésére, hogy a megfejtés nem volt túl képzett MUSTANG kimenetek, megismételtem az elemzés segítségével az eredeti előregyártott referenciapárok, amelyek igazodtak függetlenül MUSTANG., A módosítatlan PREFAB referencia-szekvenciák erős másodlagos szerkezet-összhangot mutattak, ezért kiváló minőségű alternatív referenciaértéket biztosítanak. Ennek ellenére az eredmények (1.kiegészítő fájl: S6 ábra) nagyon hasonlóak voltak mindkét referenciasorozat esetében, jelezve, hogy a megfejtés teljesítménye nem volt szorosan kötve a MUSTANG kimeneteihez.

ezután összehasonlítottam a megfejtést a PASTA-val, amely egy olyan program, amelynek célja a kevésbé skálázható algoritmusok pontosságának kiterjesztése nagy nyomvonalakra., A tészta úgy működik, hogy egy igazítást átfedő alproblémákra osztunk, amelyek mindegyike pontos stratégiával igazodik, alapértelmezés szerint MAFFT l-INS-i konzisztenciaalapú megközelítése. Ezeket az alvonalakat tranzitivitással egyesítik, a folyamatot pedig egy új irányfából kiindulva ismételjük meg. Érdekesség, hogy a PASTA a HOMSTRAD-mod 125 és 250 szekvenciás sorozatának megfejtését is felülmúlta (2.ábra). 5), de statisztikailag megkülönböztethetetlen volt a nagyobb készleteknél (további fájl 1: táblázat S2). A megfejtés azonban lényegesen felülmúlta az előtag-mod tésztát, és az ólom növekedett, mivel több szekvenciát igazítottak., Ezenkívül a tészta nagy pontosságú csökkenést mutatott az igazítás méretének növelésével. Táblázat 1 azt mutatja, hogy megfejteni teljesítményét csökkent a legkevésbé az összes igazítás programok igazítás mérete nőtt.

1 .táblázat Az átlagos Q-pontszám változása az igazított szekvenciák száma szerint

végül összehasonlítottam a dekóder teljesítményét a PROMALOKKAL, amely egy olyan program , amely a PSIPRED-től kapott pontosabb másodlagos szerkezeti előrejelzésekre támaszkodik., A PROMALS először a PSI-BLAST kereséseket hajtja végre a bemeneti készlet reprezentatív szekvenciáival, majd pontos másodlagos szerkezeti előrejelzéseket használ, következetesség-alapú megközelítéssel a szekvenciák összehangolásához. PROMALS nagyban out-szerzett az összes többi igazítási programok a legkisebb készlet két szekvencia, de az előnye eltűnt, ha más szekvenciák adunk a bemeneti készlet (ábra. 5). Továbbá, ez több nagyságrenddel lassabb, hogy a többi Igazítók (ábra. 6), a 125 szekvenciánál nagyobb bemeneti készletek tesztelése pedig megfizethetetlenül időigényesnek bizonyult., A megoldott fehérjeszerkezeteket használó újabb megközelítések állnak rendelkezésre, mint például a PROMALS3D . Nem világos azonban, hogyan lehet ezeket a megközelítéseket strukturális referenciaértékeken tesztelni, mivel a referenciaszekvenciák valószínűleg ugyanabban a struktúraadatbázisban vannak jelen, amelyeket ezek a programok használnak.

ábra. 6

átlagos végrehajtási idő az igazított szekvenciák száma szerint (vegye figyelembe a tengelytöréseket és a naplók skáláját)., PROMALS lényegesen lassabb volt, mint a többi program, amelyek nem támaszkodnak egy nagy külső adatbázis szekvenciák. MAFFT volt a leggyorsabb program nagy szekvencia készletek. A tészta volt a leglassabb program, amelyet nagy szekvenciakészletek összehangolására teszteltek, átlagosan 2, 7 h-t igényelve a 4000 szekvencia összehangolásához. Figyelemre méltó sebesség javulás érhető MEGFEJTENI segítségével több processzor

MEGFEJTENI sem volt a leglassabb, sem a leggyorsabb program összevetni a hozzáigazítja minden a sorozat készletek (Fig. 6)., A MAFFT általában a leggyorsabb program volt, kivéve a legkisebb szekvenciakészleteket, ahol lassabb, pontosabb stratégiákat használ az igazításhoz. Az eltelt idő változása drámai a MAFFT és az izom számára a 250 szekvencián túl, ahol hatékonyabb stratégiákat alkalmaztak. A PASTA volt a leglassabb program, és átlagosan 2,7 h-ra volt szükség a 4000 szekvencia összehangolásához. Mind a Clustal Omega, mind a megfejtés átlagosan körülbelül fél óra alatt képes volt 4000 szekvenciát összehangolni. Mivel a vezetőfák számítása a nagy szekvenciakészletek korlátozó tényezője, a párhuzamosítás ilyen körülmények között hasznos lehet., Például a megfejtés körülbelül kétszer olyan gyors volt, amikor 8 processzort használtak (ábra. 6). A megfejtés maximális memóriahasználata 2 GB volt, amikor 4000 szekvenciát igazított.

Vélemény, hozzászólás?

Az email címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük