TULKITA: hyödynnetään paikallisia järjestyksessä yhteydessä parantaa proteiini useita sekvenssin rinnastus

Valitset korkea laatu viite linjauksia esikuva

Eri vertailuarvojen johtavat usein vastakkaisia optimaalinen parametrit (esim., aukko, avaus ja laajennus seuraamukset) ja yhteensopimaton suorituskyky ranking linjaus ohjelmia . Näistä syistä vertailuarvon valinta on äärimmäisen tärkeää kehitettäessä ja vertailtaessa algoritmeja sekvenssilinjaukseen., Valitakseni vertailukohtia tätä tutkimusta varten aloitin vertaamalla toissijaista rakenteellista koordinointia yhteisten vertailuarvojen välillä. Tämä menetelmä vertailu edellyttää, että toisen asteen rakenne viite sekvenssit käytettävissä, joka sulkee pois suosittu BAliBASE viitearvoja, koska vastaava toissijainen rakenne useimmat BAliBASE sekvenssejä ei tunneta . Vaikka sekundaarirakennesopimus ei yksinään riitä takaamaan korkealaatuista vertailuarvoa, sopimuksettomuus voi olla osoitus yhdenmukaistamisen epätarkkuudesta.,

odotettavissa on, että parempi viite linjauksia on suurempi prosenttiosuus tietokoneella jäämiä kanssa identtinen toissijainen rakenne. Kuitenkin, joitakin erimielisyyksiä toissijainen rakenne on odotettavissa, koska sekä sisäinen vaikeuksia osoitetaan toissijainen rakenne ja haasteita luonnostaan kohdistamalla kaukaista sukua kolmannen asteen rakenteita . Kuvassa 1 esitetään sekundaarirakennesopimuksen fraktio verrattuna pairwise-sekvenssin identiteettiin neljän yhteisen aminohappoarvon osalta., Se SABmark ja VALMISTALO vertailuarvot sisältävät suurin osa niiden sekvenssit tai alle ”twilight zone” on 20-35 % identtisyys, kun painopiste OXBench on vähemmän haastavia linjauksia. PREFAB näyttää olevan yleisesti ottaen huomattavasti paremmin linjassa kuin SABmark, vaikka molemmat viittaukset kattavat samankaltaiset sekvenssiidentiteetit. Sekvenssit, joilla on vähemmän kuin 10 % – identiteetti, VALMISTALO on 13.4 % suurempi rakenteellinen identiteetti (p < 1e-15) kuin SABmark., Nämä havainnot ovat samaa mieltä edellisen tutkimuksen, joka todettiin, VALMISTALO on paras benchmark suunniteltu erityisesti vertaillaan MSA-ohjelmia, vaikka VALMISTALO tiedetään sisältävän virheitä .

Kaikki sarakkeet linjauksia käytettiin arvioimaan yleistä tarkkuutta kunkin vertailuarvon sijaan, että vain käyttämällä ydin lohkot (homologiset alueet), jotka ovat tyypillisesti rajattu isoja kirjaimia., Mahdollisuus käyttää koko linjaus tehtiin, koska: (i) määritelmä core korttelin vaihtelee välillä vertailuarvoja, (ii) jotkut pisteytys menettelyjä käyttää koko linjaus , (iii) pareittain etäisyys lasketaan käyttäen koko linjaus, ja (iv) HOMSTRAD ja SABmark vertailuarvot eivät hahmotella keskeisiä lohkoja. Core lohkojen VALMISTALO määrättiin sopimuksen perusteella kahden eri rakenteellinen linjaus ohjelmia., Tämä motivoi minua katsomaan ero alkuperäisen vertailuarvot ja sama sekvenssit tasasimme järjestyksessä-riippumaton rakenteellinen linjaus ohjelma MUSTANG . Kurssimuutosten kanssa MUSTANG näytteillä suurempi toissijainen structural congruence kuin alkuperäinen vertailuarvoja, lukuun ottamatta HOMSTRAD (Fig. 1). Erityisesti SABmark oli 11.2 % korkeampi toisen asteen rakenne-identiteetin jälkeen uudelleensuuntausta kanssa MUSTANG (p < 1e-15)., Tämä tulos tukee HOMSTRAD-tietokannan käyttöä yhdenmukaistamisen vertailukohtana, vaikka sitä ei alun perin ollut tarkoitettu tähän tarkoitukseen.

Koska useita sekvenssejä tunnettujen rakenne on pieni suhteellinen määrä saatavilla sekvenssit, useimmat vertailuarvot ovat täydentää muita puolueeton sekvenssit, jotka ovat ei pidetä pisteytys. VALMISTALO viite linjauksia täydennetään muita sekvenssejä löytää käyttämällä PSI-BLAST-haut, joissa viite-sekvenssit. HOMSTAD-sekvenssejä täydennetään yleisesti muilla samaan Pfam-sukuun kuuluvilla sekvensseillä ., Vertasin näiden kahden lähestymistavan by satunnaisesti valitseminen sekvenssit Pfam perhe vastaa VALMISTALO viite sekvenssit. Muodostamisen jälkeen linjaus sama määrä täydentäviä sekvenssit, naapuri liittymällä puu oli rakennettu määrittää leveys lisätty sekvenssit. Keskimääräinen puun pituus oli 1,6 kertaa pidempään satunnainen Pfam sekvenssit kuin ne, mukana VALMISTALO (p < 1e-15)., Tämä osoitti, että laajentamalla input asettaa tavalla, joka ei ole suoraan riippuvainen viite sekvenssiä suurin monimuotoisuus täydentävien sekvenssit.

Se on epäselvää, mikä viitekorko useimmat heijastaa asianmukaisesti tyypillinen käyttäjän sekvenssit, ja erilaisia MSA sovelluksia luultavasti kattaa useimmat linjaus skenaarioita löydy vertailukohtia. SABmark-sarjat kattavat suppean sarjan sekvenssiidentiteettejä, kun taas OXBench keskittyy läheisesti toisiinsa liittyviin sekvensseihin, jotka on helpompi kohdistaa., Koska molemmat linjaus laatu ja laajuus järjestyksessä identiteettejä, päätin jatkaa loput tämän tutkimuksen kanssa hieman muunneltuja versioita alkuperäisestä VALMISTALO ja HOMSTRAD aineistot, nimeltään VALMISTALO-mod ja HOMSTRAD-mod (ks. Menetelmät). Muutettujen vertailuarvojen täydentämiseksi lisäsin samaan Pfam-perheeseen kuuluvia täyspitkiä sekvenssejä. Täyspitkä jaksot käytettiin sen sijaan vain jaetun toimialueen tehdä linjauksia haastavampaa ja edustaa enemmän erilaisia mahdollisuuksia käyttötilanteissa., Usein sekvenssit on linjassa ovat eripituisia, koska ne kattavat päällekkäiset alueet geenin, tai olivat leikattu eri tavalla perustuen heidän laatupisteet kussakin terminaalissa.

Skaalautuva sisällyttämällä toissijainen rakenne linjaan

Huolimatta läheinen yhteys toissijainen rakenne ja sekvenssirinnastuksen, suosituin proteiini linjaus ohjelmat eivät ennustaa rakenteellisia tietoja., Tärkein haittapuoli toissijainen rakenne ennustus on, että se on hidas tarkasti laskea, joka estää sen skaalaus linjaus satoja sekvenssejä kohtuullisessa ajassa . Vähemmän tarkkoja toissijaisen rakenteen ennusteita voidaan saada hyvin nopeasti käyttämällä yhden sekvenssin lähestymistapoja, jotka eivät ole riippuvaisia rakentaa useita yhdenmukaistaminen homologisia sekvenssejä. Myös GOR-menetelmä on yksi tarkin annettiin järjestyksessä ., Tämä menetelmä toissijainen rakenne on määritetty yksi kolme valtiota: helix (S), levy (E) tai kela (C), joka perustuu paikallisten järjestyksessä yhteydessä ympäröivän jäämiä. Tämän lähestymistavan etuna on, että se on erittäin nopea (< 1 % – aika, joka tarvitaan linjaus), tarjoaa todennäköisyys-arvo kunkin valtion, ja tarjoaa noin 65 % tarkkuudella .,

integroida toissijainen rakenne ennusteita osaksi dynaaminen ohjelmointi puitteet profiili-profiilin kohdistus, lisäsin uuden 3 × 3 symmetrinen matriisi edustaa log-kertoimet yhdenmukaistaa H -, E -, tai C yksi sekvenssi, jossa toinen asema määritetty H -, E -, tai C-toisessa järjestyksessä. Kytkentä tämä matriisi todennäköisyys kullekin kolme rakenteellista todetaan saa profiilin-profiilin kohdistus toissijaisia rakenteita., Pisteet saatu kohdistamalla toissijainen rakenne profiileja lisätyn perinteinen korvaaminen matriisi perustuu pisteet määritetään ensisijainen sekvenssit (ks. Lisää tiedosto 1 teksti). Näin primaari-ja sekundaarirakennesopimus voidaan maksimoida samanaikaisesti.

kuvassa 2 on esimerkki laktaatti-malaattidehydrogenaasiproteiiniperheen (Pfam accession no. PF00056; HOMSTRAD ” ldh ” – suku), joka on saatu tätä lähestymistapaa käyttäen., DSSP: n toimeksiannot ovat yleisesti ottaen samaa mieltä HOMSTRAD-mod-linjauksesta, joka perustuu näiden proteiinien tunnettuihin tertiäärisiin rakenteisiin. Gor-menetelmällä tehdyt ennusteet heijastavat näitä toissijaisia rakennemuutoksia, joissa on joitakin eroavaisuuksia. Että GOR ennusteita ohjata TULKITA linjaus, joka on täsmälleen sama viite-kohdistus alueilla määritellään keskeiset lohkot, merkitään isoja kirjaimia ylempi linjaus Kuva. 2., Alueiden viite-kohdistus, jotka eivät kuulu ydin lohkot eivät ole käytetty määritettäessä tarkkuus ja eroavat TULKITA tuotoksen joitakin sarakkeita.

Kuva. 2

C-terminaali lopussa linjauksia sekä laktaatti/malate dehydrogenaasi proteiinia perhe (Pfam liittymistä ei ole. PF00056), jota värittää ennustettu sekundaarinen rakenne. Alkuun linjaus (sekvenssit nimetty PDB ID) on HOMSTRAD-mod benchmark värittää DSSP tehtäviä , ylä-kirjaimia ilmaiseva core lohkoja., Alempi linjaus näkyy sama sekvenssit (nimetty organismi) tasasimme kanssa, TULKITA ja värillinen mukaan 3-valtion todennäköisyydet ennusti GOR menetelmä . Sarakkeet alemman linjaus lihavoitu vastaa tarkalleen sarakkeiden ylä-viite-kohdistus

Yksi etu käyttää pieni 3 × 3 toissijainen rakenne matriisi on, että määrä vapaita parametreja on paljon enemmän kuin määrä informatiivista tietoa pistettä, mikä tekee estimation virhe vähäinen (Lisää tiedosto 1: Kuva S1)., Löytää optimaaliset arvot kunkin 6 eri parametrien matriisi, tein grid-etsi ratkaisu, joka johti paras-pisteytys linjaukset perustuvat summa Q-pisteet ja M-pisteet osajoukko HOMSTRAD-mod, joka koostuu 238 viite sarjaa. Optimaalinen välillä yli-linjaus ja tasaus, mikä tahansa voitto Q-pisteet on heikompi kuin vastaava tappio M-pisteet, ja vise-versa. Optimoitu toisiorakenne matriisi on esitetty kuvassa. 3 A., E-valtiot ovat erittäin todennäköisesti tietokoneella, mikä näkyy suuri osuus E/E pariliitokset toissijainen rakenne pisteet. GOR-menetelmällä on taipumus aliennustaa β-arkkia, jolloin useimmissa sekvensseissä E-valtioiden osuus on pieni .

Kuva. 3

Optimoitu rakenne matrix parit välillä helix (S), β-levy (E) tai kela (C) todetaan. B toistuvat arvot harmaantuvat, koska matriisi on symmetrinen., Kun sisällyttämällä tämä matriisi linjaus, keskimääräinen parannus Q-pisteet pareittain linjauksia oli suurempi kaukainen paria. c Rinnastuksia käyttäen rakenne matriisi (avoimet symbolit) ilmaantui pieni lasku tarkkuudella kuin määrä input sekvenssit kasvanut suhteessa linjauksia on tehty ilman rakenne-ennusteet (mustat symbolit). Kaikissa linjaus koot, käyttö toissijainen rakenne parantaa Q-pisteet (p < 1e-5 kaikki)., Samoin parannusta K-pisteet (erottaminen auki-ja kiinni-symbolit) kasvoi enemmän sekvenssit rinnastettiin

Seuraavaksi kysyin, onko sisällyttäminen toisen asteen rakenne parani sekvenssirinnastuksen, ja miten tämä skaalata useita sekvenssit on rinnastettu. Keskimäärin kaikissa koot järjestyksessä sarjaa, sisällyttämällä toissijainen rakenne johti 5,3 % parannus Q-pisteet VALMISTALO-mod ja 2,1 prosenttia HOMSTRAD-mod. Q-pisteiden tuntuva nousu tuli 0: n kustannuksella.,4% lasku M-pisteet PREFAB-mod ja 0,3% lasku HOMSTRAD-mod. Siksi osa homologies, jotka ovat kohdistettu oikein laski hieman, kun taas kokonaismäärä kohdistettu oikein homologies huomattavasti. Ei ole yllättävää, että suurin voitot olivat erilaiset viite-sarjaa, jossa on eniten parantamisen varaa, ja pohjimmiltaan ei saada tehtiin viittauksia, joilla on vähemmän kuin 60 % keskimääräinen etäisyys paria (Kuva. 3 B)., Toissijainen rakenne ennusteita edellyttäen, enemmän hyötyä VALMISTALO-mod, koska suurempi osa sen viite sekvenssit ovat yli 60 % etäinen.

Mielenkiintoista, parannus, joissa toissijainen rakenne kasvoi enemmän sekvenssit olivat linjassa (Kuva. 3 C). Pienimmissä sarjoissa 2 sekvenssiä oli 3,4% parannus PREFAB-mod ja 1,2% HOMSTRAD-mod. Suurilla 4000-sekvensseillä etu kasvoi 8,5 prosenttiin ja 3,3 prosenttiin., Näin ollen, joissa toissijainen rakenne osittain torjua vähentää pisteet, joka on tyypillisesti havaittu suurempia linjauksia . Tämä käyttäytyminen peilasi toissijaisen rakenteen ennustamista, jossa tarkkuus kasvaa, kun laskelmassa käytetään useampia sekvenssejä . Tästä syystä tarkimmat sekundäärirakenteen ennustusalgoritmit hyödyntävät useita eriä. Samoin tässä alustavat sekundaarirakenteen ennusteet eivät ole tarkkoja, koska ne saadaan yksittäisistä sekvensseistä., Kun useampia sekvenssejä on linjassa, nämä todennäköisyydet ovat keskimäärin lisätä niiden tarkkuutta ja paremmin ohjata kohdistus. Tämä on toisin kuin ensisijainen järjestyksessä, jossa uusia sekvenssejä väistämättä aiheuttaa enemmän epäselvyyttä, joka osittain aiheuttaa menetys signaalin, että ilmeinen huono laatu linjaus epäselvä profiilit.,

Myös malli indel todennäköisyys parantaa kuilu paikannus

Motivoi parannusta saatu sisällyttämällä paikallisen järjestyksessä yhteydessä kautta toisen asteen rakenne-ennusteita, seuraavaksi kysyttiin, onko samaa lähestymistapaa voidaan soveltaa kuilu sijoitus. Aiemmat tutkimukset ovat osoittaneet, että insertioita ja poistoja (indels) esiintyy todennäköisemmin tiettyjen aminohappojen vieressä ja altistuneilla keloilla ., Tästä syystä on yleistä, vähentää kustannuksia avaamalla aukko hydrofiilinen venyy , tai vaihtoehtoisesti lisätä kustannuksia hydrofobisia alueita, jotka ovat todennäköisesti haudattu proteiini on rajoitettu ydin. Tietämykseni mukaan sekvenssilinjaukseen ei ole sovellettu kehittyneempää, paikalliseen kontekstiin perustuvaa aukkotodennäköisyyden mallia. Tätä varten käytin Yhden Aukon Tietokanta laskea suhteellinen tiheys indel-tapahtumia perustuu jäämiä vasemmalle ja oikealle keskeinen ero., Tämä taajuus tiedot oli sitten muunnetaan log-kertoimet tulokset mukaan taustalla taajuus kunkin aminohapon.

kuva 4 osoittaa lähiaminohappojen osuuden aukkojen todennäköisyyteen paikassa nolla. Hydrofobiset jäämät (FMILYW) vähentävät odotetusti suuresti aukon todennäköisyyttä. Hydrofiilinen ja ”rakenne-breaking” (esim., P) jäämiä lisätä mahdollisuus viereisen aukon, vaikkakin vähemmän vaikutusta kuin hydrofobinen jäämiä., Koska log-kertoimet tulokset ovat samaa yksikköä kuin korvaaminen matriisi (kolmas-bits), ne voidaan suoraan soveltaa moduloida aukko-aukko ja aukko-päätöskurssi kustannukset milloin tahansa asema perustuu sen paikallinen järjestyksessä yhteydessä (Lisää tiedosto 1: Taulukko S1). Olen arvioinut eri ikkunakoon mukaan lukien tiedot, ja totesi, että paras ikkuna ulottui asema -4 – +4 suhteessa keskeinen ero. Näin ollen kuilun syntymisen kustannukset missä tahansa tilanteessa ovat alkuperäiset gap-kustannukset sekä pisteet, jotka moduloidaan jäämien perusteella aukon kummallekin puolelle (ks.lisätiedosto 1).,

Kuva. 4

Panosta paikalliseen järjestyksessä yhteydessä kustannukset avaamalla aukko linjaus. Hydrofobiset jäämät vähentävät suuresti aukon todennäköisyyttä, kun taas hydrofiiliset ja” rakennetta rikkovat ” jäämät lisäävät aukon todennäköisyyttä., Gap-malli, kannat sijaitsevat neljä jäämiä käytettiin moduloida kustannukset aukko aukko on asennossa nolla,

Seuraava, I on laskettu log-kertoimet tulokset jäämät, jotka vastustavat kuilu (vuonna ungapped järjestyksessä), ja totesi, että nämä kannat näkyy pieni harhaa aminohappo sisältö (Tiedostojen 1: Taulukko S1). Siellä oli kohtalainen korrelaatio log-kertoimet tulokset, kannat vasemmalle tai oikealle kuilu ja jäämät vastakkaista ero (R2 0,69 ja 0,64, vastaavasti)., Tässä tapauksessa gapped-alueen sijaintipaikkojen välillä ei kuitenkaan ollut selvää eroa. Tästä syystä päätin yksinkertaisesti moduloida gap-tiedostotunnistetta kustannukset perustuvat keskimääräiset pisteet ”gapped” jäämiä kanta-riippumattomasti. Kaiken kaikkiaan tämä probabilistinen malli aukon avaamisesta ja laajentamisesta säätää kuilun rangaistusalueella noin + / – 20% kussakin asennossa.

laajentaa tämä malli aukko sijoitus, joka perustuu paikallisiin järjestyksessä yhteydessä, seuraavaksi tutkitaan vaikutus lyhyen järjestyksessä kuvioita., Toistot ovat merkittävä biologisten sekvenssien pituusvaihtelun lähde, ja niitä esiintyy yleisesti kaikissa elämän haaroissa . Toistoja on monenlaisia muotoja, kuten lyhyt mikrosatelliitti toistaa yhden kodonin ja enää tandem toistaa alueet, jotka voivat muuttua mutaation kautta tulla ristiriitaiset ajan . Pidemmät toistot voidaan sovittaa erikoistuneisiin ohjelmiin, jotka käyttävät tandem-toistojen etsintäalgoritmeja . Lyhyet kuviot ovat tyypillisesti laiminlyöty merkityksettömiä nämä ohjelmat, koska niiden usein esiintyy sekvensseissä., Kuitenkin, Chang ja Benner todettiin, että lyhyt dipeptidi toistaa (esimerkiksi AA) olivat yleisempiä kuin odotettiin noin aukkoja, mahdollisesti tarjoamalla keinoja muuttaakseen kuilu kustannuksia. Tutkiakseni tätä vaikutusta tarkastelin eri sekvenssikuvioiden esiintymistä yhden aukon tietokannassa.

Dipeptidi toistaa (toimii 2 samanlaisia aminohappoja) ympäröivän aukot olivat vain hieman todennäköisemmin (< 1 kolmas-bit) odotettua sattumalta. Kuitenkin puutteita oli huomattavasti todennäköisempää ympäri kulkee kolmen tai pidempi (esim., AAA), kuten on esitetty Tiedostojen 1: Kuva S2., Tämä vaikutus oli erityisen korostunut järjestyksessä ilman kuilu, mikä osoittaa, että puutteet ovat usein läsnä, koska yksi sekvenssi on pidempi kuin toinen. Yllättävää, aukot olivat vähemmän todennäköisesti esiintyy kohdassa, kun alkaa ajaa vastapuolen järjestyksessä (esimerkiksi AA/A-), riippumatta ajaa pituus. Vaikka ilmiön mekanismia ei tunneta, se voi johtua biologisesta roolista dipeptidikertymissä, joka johtaa niiden säilyttämiseen. Samanlainen heteropeptidin tutkimus toistuu jaksollisuudella 2 (esim.,, ACAC) to 6 ei paljastanut voimakasta vinoumaa aukkoihin (lisätiedosto 1: kuva S2). Siksi päätin laajentaa kuilu malli mukauttaa aukon avaaminen maksaa kantoja ennen ja heti sen jälkeen alkaa ajaa vastapuolen järjestyksessä.

Kaiken kaikkiaan, työllistävät tämä malli kuilu sijoittelun tuloksena vaatimaton parannus 0,5% VALMISTALO-mod (p < 1e-4) ja 0,3 prosenttia HOMSTRAD-mod (p < 1e-3). Q-Scoren paranemiseen vastasi M-Scoren 0,2 prosentin nousu molemmilla vertailuarvoilla., Nämä muutokset pisteet olivat odottamattomia, kuten rakenne-vertailuarvot eivät pidä useimmat gapped alueilla, koska ne tapahtuvat usein rakenteen osiin, joita on vaikea päällekkäin , ja se toistaa yleensä löytyy sekainen proteiinia alueilla . Vaikka evoluution simulaatiot tarjoavat keinoja pisteytys gapped alueilla, kuten simulaatiot eivät tällä hetkellä ovat yhteydessä riippuvainen malli kuilu todennäköisyyttä., Siksi on mahdollista, että sijoittaminen aukkoja parani enemmän kuin heijastuu vaatimaton kasvu tulokset, mutta siellä tällä hetkellä olemassa ei ole riittävä tapa mitata todellinen etu, joissa on hienostunut kuilu malli osaksi linjaus.

Vertailu TULKITA muita ohjelmia MSA

Ottaa onnistuneesti integroitu yhteydessä-tiedostaminen osaksi TULKITA ohjelmisto sekvenssirinnastuksen, seuraavaksi verrattuna sen suorituskykyä muihin state-of-the-art linjaus ohjelmia., Ensinnäkin, päätin benchmark TULKITA vastaan kolme suosittuja ohjelmia pystyy tehokkaasti kohdistamalla tuhansia sekvenssejä: Clustal Omega , MAFFT , ja LIHASTEN . Näitä ohjelmia käytetään säännöllisesti useissa eri tutkimuksissa, ja niistä on tullut vertailukohtien tosiasiallinen vertailustandardi. Kuva 5 näyttää kunkin ohjelman suorituskyvyn suhteessa tulkitsemaan yhä useampia tulosekvenssejä., Suorituskyky ranking on vahva sopimus HOMSTRAD-mod ja VALMISTALO-mod vertailuarvoja, mutta siellä on suurempi ero ohjelmia VALMISTALO-mod koska se sisältää suurempi osa sekvenssit tai alle hämärän rajamailla.

Kuva. 5

Suorituskyky suosittu multiple sequence alignment-ohjelmia suhteellinen TULKITA on HOMSTRAD-mod (S-mod) ja VALMISTALO-mod (P-mod) vertailukohtia. PROMALS esitti parhaan suorituksen kahden sekvenssin pienimmissä sarjoissa., MAFFT oli paras suorituskyky pieniä tulosarjoja 125 sekvenssejä, jossa se käyttää paljon hitaampaa johdonmukaisuuteen perustuva strategia. MUSCLE osoitti huonoimman suorituksen isommissa sekvenssisarjoissa. TULKITA suorituskykyä suhteessa muita ohjelmia parempi kuin enemmän sekvenssit rinnastettiin

Kun vain kaksi sekvenssit olivat linjassa kunkin vertailuarvon linjaus ohjelmat antoivat samankaltaisia tuloksia, MAFFT osoittaa alhaisin tarkkuus. 125 jakson sarjoissa DECIPER on sijoittunut toiseksi MAFFTIN taakse., Input sarjaa tämän koon, MAFFT käyttää sen tarkin johdonmukaisuus-pohjainen algoritmi (L-INS-i), joka ei ole skaalautuva suurempia sekvenssejä sarjaa. Yli 125 input sekvenssit, TULKITA selvästi päihittää muut kolme programs (Lisää tiedosto 1: Taulukko S2), ja sen johtaa paranee, kun enemmän sekvenssit ovat kohdakkain (Kuva. 5). Tämä kuvastaa sitä, että DECIPHER tarkkuus pysyy suhteellisen vakiona yhä useammat sekvenssit (Kuva. 3), joka johtuu osittain siitä, että se käyttää toissijaista rakennetta linjauksen aikana., Clustal Omega, MAFFT, ja TULKITA kaikki ovat samanlaisia M-tulokset eri input koot (Lisää tiedosto 1: Kuva S3). MUSCLE oli heikoin suorituskyky, jossa huomattavasti huonompi Q – ja M-pisteet kaikille paitsi pienimmille tulosekvenssisarjoille. Lisäksi, vaikka Q-pisteet yhteensä sarakkeen pisteet (TC-score), ja Cline vaihto-pisteet joskus antaa ristiriitaisia suorituskyvyn rankingissa, nämä kolme tilastot voimakkaasti sopivat sekä vertailuarvot (Lisää tiedosto 1: Luvut S4 ja S5).,

Yli-koulutukseen yhden reference set on ollut huolenaihe joillekin linjaus ohjelmia , vaikka molemmat viite sarjaa käytetään tässä osoitti vastaavia tuloksia. Muita ohjelmia voidaan kuitenkin kouluttaa paremmin alkuperäisillä vertailuarvoilla, jotka eivät perustu MUSTANG structural alignment program-ohjelman tuotoksiin. Tarkista, että TULKITA, ei yli-koulutettu MUSTANG lähdöt, toistin analyysin avulla alkuperäinen VALMISTALO viite paria, jotka olivat linjassa riippumatta siitä, MUSTANG., Muuntamattomat PREFAB – vertailujaksot osoittivat vahvaa sekundaarirakenteen konkordanssia ja tarjoavat siksi korkealaatuisen vaihtoehtoisen vertailuarvon. Kuitenkin tulokset (Lisää tiedosto 1: Kuva S6) olivat hyvin samankaltaisia sekä sarjaa viite sekvenssit, mikä osoittaa, että TULKITA suorituskyky ei ole tiiviisti sidottu MUSTANG on lähdöt.

seuraavaksi verrattuna TULKITA PASTA , joka on ohjelman tarkoitus laajentaa tarkkuus on vähemmän-skaalautuva algoritmeja suuria linjauksia., PASTA toimii jakamalla kohdistus ylös päällekkäisiä sub-ongelmia, jotka ovat kukin linjassa tarkka strategia, oletuksena MAFFT on L-INS-en johdonmukaisuus-pohjainen lähestymistapa. Nämä osalähetykset yhdistetään transitiivisuuden avulla, ja prosessi toistetaan uudesta opaspuusta alkaen. Mielenkiintoista, PASTA outperformed tulkita sarjaa 125 ja 250 sekvenssejä HOMSTRAD-mod (Kuva. 5), mutta se oli tilastollisesti erottamaton suuremmissa sarjoissa (lisätiedosto 1: taulukko S2). DECIPHER huomattavasti parempi PASTA PREFAB-mod, ja sen lyijy kasvoi, kun enemmän sekvenssejä oli linjassa., Lisäksi PASTA osoitti suurta tarkkuutta pudotusta linjauksen koon kasvaessa. Taulukko 1 osoittaa, että TULKITA suorituskykyä vähentynyt vähiten kaikista linjaus ohjelmat kuten tasaus koko kasvoi.

Taulukko 1 Muutos keskimääräinen Q-pisteet mukaan useita sekvenssit on linjassa

Lopuksi vertasin TULKITA suorituskykyä PROMALS , joka on ohjelma, joka perustuu tarkempi toissijainen rakenne ennusteita saatu PSIPRED ., PROMALS suorittaa ensin PSI-BLAST-haut, joissa on edustava sekvenssit panos asetettu, ja sitten käyttää tarkka toissijainen rakenne ennusteita johdonmukaisuus-pohjainen lähestymistapa yhdenmukaistaa sekvenssit. PROMALS suuresti pois-teki kaikki muut linjaus ohjelmia pienin sarjaa kaksi sekvenssit, mutta sen etuna on kadonnut kun muut sekvenssit on lisätty input-sarja (Fig. 5). Lisäksi se oli useita suuruusluokkia hitaampaa, että muut aligners(Kuva. 6), ja testaus tulosarjojen suurempi kuin 125 sekvenssit osoittautunut kohtuuttoman aikaa vievää., Uudempia lähestymistapoja, joissa hyödynnetään ratkaistuja proteiinirakenteita, ovat esimerkiksi PROMALS3D . On kuitenkin epäselvää, miten tällaisia lähestymistapoja testataan rakenteellisilla vertailuarvoilla, koska vertailujaksot ovat todennäköisesti läsnä samoissa ohjelmissa käytetyissä rakenteellisissa tietokannoissa.

Kuva. 6

Keskimääräinen suoritusaika mukaan useita sekvenssit on linjassa (huom akselin taukoja ja log-asteikko)., PROMALS oli huomattavasti hitaampi kuin muut ohjelmat, jotka eivät luota suureen ulkoiseen sekvenssitietokantaan. MAFFT oli nopein ohjelma suurille sekvenssisarjoille. PASTA oli hitain ohjelma testataan kohdistamalla suuri järjestyksessä sarjaa, jotka edellyttävät keskimäärin 2,7 s yhdenmukaistaa 4,000 sekvenssit. Huomattava nopeus parannus oli saatu TULKITA käyttämällä useita suorittimia

TULKITA ei ollut hitain eikä nopein ohjelma vertasi yhdenmukaistaa kunkin sekvenssin sarjaa (Fig. 6)., MAFFT oli yleensä nopein ohjelma, lukuun ottamatta pienin järjestys määrittää, missä se käyttää hitaammin, tarkempi strategioiden linjaus. Muutosta kulunut aika on dramaattinen MAFFT ja LIHASTEN yli 250 sekvenssejä, joissa tehokkaampia strategioita käytettiin. PASTA oli hitain ohjelma ja vaati keskimäärin 2,7 tuntia 4 000 sekvenssin tasaamiseen. Sekä Clustal Omega että DECIPER pystyivät linjaamaan 4 000 sekvenssiä keskimäärin puolessa tunnissa. Koska opas puun laskenta on rajoittava tekijä suurten järjestyksessä sarjaa, parallelization voi olla hyötyä tällaisessa tilanteessa., Esimerkiksi DECIPHER oli noin kaksi kertaa nopeampi, kun 8 prosessoria käytettiin (Fig. 6). DECIPERIN maksimimuistin käyttö oli 2GB 4 000 sekvenssin kohdistamisessa.

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *