MEGFEJTENI: a hasznosító helyi sorrend összefüggésben, hogy javítja a fehérje több szekvencia illesztés

Választott kiváló minőségű referencia nyomvonalakat a benchmarking

a Különböző minősítő gyakran eredményez kontrasztos optimális paraméterek (pl., rés, nyílás jelent, szankciók), valamint egy inkompatibilis teljesítmény rangsor igazítás programok . Ezen okok miatt a benchmark kiválasztása rendkívül fontos a szekvenciaigazítási algoritmusok kidolgozásakor és összehasonlításakor., A tanulmányhoz igazítási referenciaértékek kiválasztásához a másodlagos struktúra konkordanciájának összehasonlításával kezdtem a közös referenciaértékek között. Ez az összehasonlítási módszer megköveteli, hogy rendelkezésre álljon a referenciaszekvenciák másodlagos szerkezete, amely kizárja a népszerű Balibáz referenciaértékeket, mivel a legtöbb Balibáz szekvencia megfelelő másodlagos szerkezete ismeretlen . Bár a másodlagos szerkezeti megállapodás önmagában nem elegendő a magas színvonalú referenciaérték biztosításához, a megállapodás hiánya az összehangolás pontatlanságának jele lehet.,

várható, hogy a jobb referencia-nyomvonalaknak nagyobb százaléka lesz az azonos másodlagos szerkezetű igazított maradékanyagoknak. A másodlagos struktúrában azonban némi nézeteltérés várható mind a másodlagos struktúra hozzárendelésének belső nehézségei, mind a távoli kapcsolódó harmadlagos struktúrák összehangolásához kapcsolódó kihívások miatt . Az 1. ábra a másodlagos szerkezetmegállapodás frakcióját mutatja, szemben a négy közös aminosav-referenciaérték páronkénti szekvencia-azonosságával., A SABmark és PREFAB referenciaértékek szekvenciáik legnagyobb részét a 20-35% – os szekvencia-identitás “alkonyzónájában” vagy alatt, míg az OXBench hangsúlya a kevésbé kihívást jelentő igazításokon van. Úgy tűnik, hogy az előtag összességében lényegesen jobban igazodik, mint a SABmark, annak ellenére, hogy mindkét hivatkozás hasonló szekvencia-identitásokat fed le. A 10%-nál kisebb identitású szekvenciák esetében az PREFAB 13,4% – kal nagyobb szerkezeti identitással rendelkezik (p < 1e-15), mint a SABmark., Ezek az eredmények összhangban vannak egy korábbi tanulmány, amely megállapította, hogy a PREFAB a legjobb referenciaérték, amelyet kifejezetten az MSA programok összehasonlítására terveztek, bár az ELŐTAGRÓL ismert, hogy hibákat tartalmaz .

az igazítások összes oszlopát az egyes referenciaértékek általános pontosságának értékelésére használták, nem pedig csak a magblokkok (homológ régiók) használatára, amelyeket általában nagybetűkkel határoztak meg., A teljes igazítás használatára azért került sor, mert: (i) a magblokkok meghatározása referenciaértékek között változik, (ii) egyes pontozási eljárások a teljes igazítást használják , (iii) a páronkénti távolságot a teljes igazítás alapján számítják ki, és (iv) a HOMSTRAD és a SABmark referenciaértékek nem határozzák meg a magblokkokat. Az előlapon lévő magblokkokat két különböző strukturális igazítási program közötti megállapodás alapján rendelték hozzá., Ez motivált, hogy megnézzem a különbséget az eredeti referenciaértékek és ugyanazok a szekvenciák között, amelyek a MUSTANG szekvencia-független szerkezeti igazítási programmal valósultak meg . Igazítások MUSTANG mutatott nagyobb másodlagos szerkezeti kongruencia, mint az eredeti referenciaértékek, kivéve abban az esetben, HOMSTRAD (ábra. 1). Különösen a SABmark 11, 2%-kal magasabb másodlagos szerkezeti identitással rendelkezett a MUSTANG-val való átrendezés után (p < 1e-15)., Ez az eredmény támogatja a HOMSTRAD adatbázis igazítási referenciaértékként való használatát, annak ellenére, hogy eredetileg nem erre a célra szánták.

mivel az ismert szerkezetű szekvenciák száma a rendelkezésre álló szekvenciák számához viszonyítva kicsi, a legtöbb referenciaértéket további, nem hozzárendelt szekvenciákkal egészítik ki, amelyeket nem tekintünk a pontozásban. Az előregyártott referencia-nyomvonalakat további szekvenciákkal egészítik ki, amelyeket a PSI-BLAST keresések segítségével találnak meg a referencia-szekvenciákkal. A HOMSTAD szekvenciákat általában kiegészítik az azonos Pfam családba tartozó más szekvenciákkal ., Összehasonlítottam ezt a két megközelítést úgy, hogy véletlenszerűen kiválasztottam a pfam családból származó szekvenciákat, amelyek megfelelnek az előtag referencia-szekvenciáknak. Az azonos számú kiegészítő szekvenciával való összehangolás után egy szomszéd összekötő fát alakítottak ki a hozzáadott szekvenciák szélességének meghatározására. A véletlenszerű pfam-szekvenciák esetében az átlagos fa hossza 1,6-szor hosszabb volt, mint az előtaggal együtt (p < 1e-15)., Ez azt jelezte, hogy a bemeneti készlet kiterjesztése olyan módon, amely nem függ közvetlenül a referencia-szekvenciáktól, a kiegészítő szekvenciák legnagyobb sokféleségét eredményezi.

nem világos, hogy melyik referencia-referenciaérték a legjobban tükrözi a tipikus felhasználói szekvenciákat, és az MSA alkalmazások széles skálája valószínűleg lefedi a referenciaértékekben található igazítási forgatókönyvek nagy részét. A SABmark-készletek a szekvencia-identitások szűk körét fedik le, míg az OXBench a szorosan kapcsolódó szekvenciákra összpontosít, amelyek könnyebben igazíthatók., Mind az igazítás minősége, mind a szekvencia-identitások szélessége miatt úgy döntöttem, hogy folytatom a tanulmány többi részét az eredeti PREFAB és HOMSTRAD adatkészletek kissé módosított változataival, úgynevezett PREFAB-mod és HOMSTRAD-mod (lásd a módszereket). A módosított referenciaértékek kiegészítéséhez teljes hosszúságú szekvenciákat adtam hozzá, amelyek ugyanahhoz a Pfam családhoz tartoznak. A teljes hosszúságú szekvenciákat ahelyett, hogy csak a megosztott tartományt használták volna, hogy az igazítások nagyobb kihívást jelentsenek, valamint a lehetséges felhasználási forgatókönyvek nagyobb változatosságát képviseljék., Gyakorta szekvenciák összehangoltan különböző hosszúságú, mert kiterjed átfedő régiói egy gén, vagy vágták eltérő alapján minőségi pontszámok minden terminus.

A másodlagos struktúra méretezhető beépítése az igazításba

a másodlagos szerkezet és a szekvenciaigazítás közötti szoros kapcsolat ellenére a legnépszerűbb fehérjeigazítási programok nem jósolják meg a szerkezeti információkat., A másodlagos szerkezet-előrejelzés fő hátránya, hogy lassú a pontos számítás, ami megakadályozza, hogy ésszerű idő alatt több száz szekvencia összehangolódjon . A kevésbé pontos másodlagos struktúra előrejelzéseket nagyon gyorsan lehet elérni olyan egysoros megközelítésekkel, amelyek nem támaszkodnak a homológ szekvenciákkal való többszörös összehangolásra. A GOR módszer az egyik legpontosabb adott egyetlen szekvencia ., Ebben a módszerben a másodlagos szerkezetet három állapot egyikéhez rendelik: hélix (H), lap (E) vagy tekercs (C) a maradékot körülvevő helyi szekvencia kontextus alapján. Ennek a megközelítésnek az az előnye, hogy rendkívül gyors (< az igazításhoz szükséges idő 1% – a), valószínűségi értéket biztosít minden egyes állam számára, és körülbelül 65% pontosságot kínál .,

integrálni másodlagos szerkezet előrejelzések a dinamikus programozási keret profil-profil igazítás, én hozzá egy új, 3 × 3-as szimmetrikus mátrix képviselő napló-esélye hozzáigazítja a H, E, C, egy sorozat egy másik helyzetben rendelt H, E, vagy C-ben egy második sorozat. Ennek a mátrixnak a összekapcsolása a másodlagos struktúrák profilprofil-igazításához engedélyezett három szerkezeti állapot mindegyikéhez rendelt valószínűséggel., A másodlagos szerkezeti profilok összehangolásából kapott pontszám növelte az elsődleges szekvenciákból meghatározott hagyományos helyettesítési mátrix alapú pontszámot (lásd az 1.kiegészítő fájl szövegét). Ily módon az elsődleges és másodlagos szerkezeti megállapodás egyszerre maximalizálható.

a 2. ábra a laktát/malát-dehidrogenáz fehérjecsalád példaigazítását mutatja (Pfam csatlakozási szám. PF00056; HOMSTRAD ” ldh ” család) kapott ezzel a megközelítéssel., A DSSP hozzárendelések általában megegyeznek a HOMSTRAD-mod igazítással, amely ezen fehérjék ismert tercier szerkezetén alapul. A GOR módszerrel készített előrejelzések bizonyos eltérésekkel tükrözik ezeket a másodlagos szerkezeti hozzárendeléseket. A GOR előrejelzések irányítják a megfejtés igazítás, amely pontosan megegyezik a referencia igazítás meghatározott régiókban core blokkok, jelöli nagybetűkkel a felső igazítás ábra. 2., A referenciaigazítás azon régióit, amelyek a magblokkokon kívül esnek, nem használják a pontosság meghatározására, és különböznek az egyes oszlopok megfejtési kimenetétől.