DESCIFRA: valorificarea locale secvență de context, pentru a îmbunătăți proteine mai multe sequence alignment

Alegerea de înaltă calitate referință aliniamente pentru benchmarking

criterii de referință Diferite duce de multe ori în contrast optim de parametri (de exemplu, diferența de deschidere și prelungire penalități) și o incompatibilă performanță clasament de aliniere programe . Din aceste motive, alegerea indicelui de referință este de cea mai mare importanță atunci când se dezvoltă și se compară algoritmi pentru alinierea secvențelor., Pentru a alege repere de aliniere pentru acest studiu, am început prin compararea concordanței structurii secundare între repere comune. Această metodă de comparație necesită ca structura secundară de referință secvențe fi disponibile, ceea ce exclude populare BAliBASE de referință deoarece corespunzătoare structurii secundare de cele mai multe BAliBASE secvențe este necunoscut . Deși numai Acordul privind structura secundară este insuficient pentru a asigura un nivel de referință de înaltă calitate, lipsa unui Acord poate fi un indiciu al inexactității alinierii.,este de așteptat ca aliniamentele de referință mai bune să aibă un procent mai mare de reziduuri aliniate cu structură secundară identică. Cu toate acestea, se anticipează unele dezacorduri în structura secundară, atât din cauza dificultăților intrinseci în atribuirea structurii secundare, cât și a provocărilor inerente alinierii structurilor terțiare aflate la distanță . Figura 1 prezintă fracțiunea Acordului de structură secundară față de identitatea secvenței pereche pentru patru repere comune de aminoacizi., La SABmark și PREFABRICATE de referință conțin cea mai mare fracțiune din secvențele lor în sau sub „zona crepusculară” de la 20 la 35 % secvență de identitate, în timp ce accentul de OXBench este la mai puțin provocatoare aliniamente. PREFAB pare să fie semnificativ mai bine aliniat în general decât SABmark, în ciuda ambelor referințe care acoperă o gamă similară de identități de secvență. Pentru secvențele cu o identitate mai mică de 10%, PREFAB are o identitate structurală cu 13,4% mai mare (p < 1E-15) decât SABmark., Aceste constatări sunt în acord cu un studiu anterior care a constatat că PREFAB este cel mai bun punct de referință conceput special pentru compararea programelor MSA, deși PREFAB este cunoscut că conține erori .

toate coloanele aliniamentelor au fost utilizate pentru a evalua acuratețea generală a fiecărui punct de referință, mai degrabă decât folosind doar blocuri de bază (regiuni omoloage), care sunt de obicei delimitate cu majuscule., Alegerea de a folosi întreaga aliniere fost realizate pentru: (i) definiția de bază blocuri variază între repere, (ii) unele proceduri de evaluare a face uz de întreaga aliniere , (iii) perechi distanța este calculată folosind tot aliniere, și (iv) HOMSTRAD și SABmark de referință nu a delimita core blocuri. Blocurile de bază din PREFAB au fost atribuite pe baza acordului dintre două programe diferite de aliniere structurală., Acest lucru m-a motivat să analizez diferența dintre reperele originale și aceleași secvențe realiniate cu programul de aliniere structurală independent de secvență MUSTANG . Realignările cu MUSTANG au prezentat o congruență structurală secundară mai mare decât valorile de referință inițiale, cu excepția cazului HOMSTRAD (Fig. 1). În special, SABmark a avut o identitate de structură secundară cu 11,2 % mai mare după realinierea cu MUSTANG (p < 1E-15)., Acest rezultat susține utilizarea bazei de date HOMSTRAD ca referință de aliniere, chiar dacă nu a fost inițial destinată acestui scop.deoarece numărul de secvențe cu structură cunoscută este mic în raport cu numărul de secvențe disponibile, majoritatea valorilor de referință sunt completate cu secvențe nealiniate suplimentare care nu sunt luate în considerare la notare. Aliniamentele de referință prefabricate sunt completate cu secvențe suplimentare găsite folosind căutări PSI-BLAST cu secvențele de referință. Secvențele HOMSTAD sunt în mod obișnuit completate cu alte secvențe aparținând aceleiași familii Pfam ., Am comparat aceste două abordări prin selectarea aleatorie a secvențelor din familia Pfam corespunzătoare secvențelor de referință PREFAB. După generarea unei alinieri cu același număr de secvențe suplimentare, a fost construit un copac vecin care unește pentru a determina lățimea secvențelor adăugate. Arborele medie lungime a fost de 1,6 ori mai mult pentru aleatorii Pfam secvențe decât cele incluse cu PREFABRICATE (p < 1e-15)., Acest lucru a indicat faptul că extinderea setului de intrare într-un mod care nu depinde în mod direct de secvențele de referință are ca rezultat cea mai mare diversitate de secvențe suplimentare.

nu este clar ce referință de referință reflectă cel mai adecvat secvențele unui utilizator tipic, iar diversitatea largă a aplicațiilor MSA acoperă probabil majoritatea scenariilor de aliniere găsite în repere. Seturile SABmark acoperă o gamă restrânsă de identități de secvențe, în timp ce OXBench se concentrează pe secvențe strâns legate, care sunt mai ușor de aliniat., Datorită atât de aliniere a calității și lățimea de secvență identități, am ales pentru a continua restul de acest studiu cu versiuni ușor modificate ale originalului PREFABRICATE și HOMSTRAD seturi de date, numit PREFABRICATE-mod și HOMSTRAD-mod (a se vedea Metode). Pentru a completa valorile de referință modificate, am adăugat secvențe de lungime întreagă aparținând aceleiași familii Pfam. Secvențele de lungime întreagă au fost utilizate mai degrabă decât doar domeniul partajat pentru a face aliniamentele mai provocatoare și pentru a reprezenta o varietate mai mare de scenarii potențiale de utilizare., Deseori secvențele fiind aliniate au lungimi diferite, deoarece acestea acoperă regiunile suprapuse ale unei gene, sau au fost tăiate în mod diferit în funcție de scorurile lor de calitate la fiecare terminus.

încorporarea scalabilă a structurii secundare în aliniere

În ciuda legăturii strânse dintre structura secundară și alinierea secvenței, cele mai populare programe de aliniere a proteinelor nu prevăd informații structurale., Principalul dezavantaj al predicției structurii secundare este că este lent pentru a calcula cu precizie, ceea ce îl împiedică să scalarea la alinierea a sute de secvențe într-o perioadă rezonabilă de timp . Predicțiile structurale secundare mai puțin precise pot fi obținute foarte rapid folosind abordări cu o singură secvență care nu se bazează pe construirea unei alinieri multiple cu secvențe omoloage. Metoda GOR este una dintre cele mai exacte date o singură secvență ., În această metodă, structura secundară este atribuită uneia dintre cele trei stări: helix (H), foaie (E) sau bobină (C) pe baza contextului secvenței locale care înconjoară un reziduu. Această abordare are avantajul că este extrem de rapidă (< 1% din timpul necesar alinierii), oferă o valoare de probabilitate pentru fiecare stat și oferă o precizie de aproximativ 65%.,

pentru a integra predicțiile de structură secundară în cadrul de programare dinamică pentru alinierea profil-profil, am adăugat o nouă matrice simetrică 3 × 3 reprezentând cotele log de aliniere a unui H, E sau C într-o secvență cu o altă poziție atribuită lui H, E sau C într-o a doua secvență. Cuplarea acestei matrice cu probabilitatea atribuită fiecăreia dintre cele trei stări structurale a permis alinierea profil-profil a structurilor secundare., Scorul obținut din alinierea profilurilor de structură secundară a mărit scorul tradițional bazat pe matricea de substituție determinată din secvențele primare (a se vedea fișierul suplimentar 1 text). În acest fel, acordul de structură primară și secundară poate fi maximizat simultan.

Figura 2 prezintă un exemplu de aliniere a familiei de proteine lactat/malat dehidrogenază (aderarea Pfam nr. PF00056; familia HOMSTRAD „ldh”) obținută folosind această abordare., Alocările DSSP sunt, în general, de acord asupra alinierii HOMSTRAD-mod, care se bazează pe structurile terțiare cunoscute ale acestor proteine. Predicțiile făcute cu metoda GOR reflectă aceste atribuții de structură secundară cu unele discrepanțe. Predicțiile GOR ghidează alinierea descifrării, care se potrivește exact cu alinierea de referință în regiunile definite ca blocuri de bază, notate cu litere mari în alinierea superioară din Fig. 2., Regiunile aliniamentului de referință care se încadrează în afara blocurilor de bază nu sunt utilizate pentru determinarea preciziei și diferă de ieșirea de descifrare în unele coloane.

Fig. 2

C-terminal de aliniamente de lactat/malat dehidrogenaza familie de proteine (Pfam de aderare nr. PF00056) colorat de structura secundară prezisă. Alinierea de sus (secvențe numite de PDB ID) este de la homstrad-mod benchmark colorate de misiuni DSSP , cu litere mari care denotă blocuri de bază., Alinierea inferioară prezintă aceleași secvențe (numite de organism) realiniate cu descifrare și colorate în conformitate cu probabilitățile de stare 3 prezise prin metoda GOR . Coloane de jos aliniere în bold se potrivesc exact coloane de sus referință aliniere

Un avantaj al folosind un mic de 3 × 3 structura secundară matrice este că numărul de parametri liberi este cu mult depășite de numărul de date informative puncte, ceea ce face ca estimarea de eroare neglijabilă (fișier Suplimentar 1: Figura S1)., Pentru a găsi valori optime pentru fiecare dintre cei 6 parametri distincți din matrice, am efectuat o căutare în grilă a soluției care a dus la aliniamentele cu cel mai bun punctaj bazat pe suma scorului Q și a scorului M pe un subset de HOMSTRAD-mod format din 238 de seturi de referință. La optimul dintre supra-aliniere și sub-aliniere, orice câștig în Q-scor este compensată de pierderea corespunzătoare în m-scor, și vise-versa. Matricea structurii secundare optimizată este prezentată în Fig. 3a., Este foarte probabil ca statele E să fie aliniate, așa cum se reflectă în contribuția mare a perechilor E/e la scorul structurii secundare. Metoda GOR tinde să Sub-prezice β-foi, rezultând într-o fracțiune mică de e-state în cele mai multe secvențe .

Fig. 3

o structura Optimizata matrice pentru asocierile între helix (H), β-sheet (E), sau bobina (C) membre. b valorile repetate sunt gri – out, deoarece matricea este simetrică., După încorporarea acestei matrice în aliniere, îmbunătățirea medie a scorului Q pe aliniamentele perechilor a fost mai mare pentru perechile îndepărtate. aliniamentele c folosind matricea structurii (simboluri deschise) au arătat o scădere mică a preciziei, deoarece numărul secvențelor de intrare a crescut în raport cu aliniamentele făcute fără predicții structurale (simboluri închise). În toate dimensiunile de aliniere, utilizarea structurii secundare a îmbunătățit Scorul Q (p < 1e-5 pentru toți)., În mod similar, îmbunătățirea Q-score (separare între deschis și închis simboluri) a crescut ca mai multe secvențe au fost aliniate

Apoi, am întrebat dacă constitutive ale structurii secundare îmbunătățit secvență de aliniere, și cum acest scalate cu numărul de secvențe aliniate. În medie pentru toate dimensiunile seturilor de secvențe, încorporarea structurii secundare a dus la o îmbunătățire de 5,3% a scorului Q pe PREFAB-mod și 2,1% pe HOMSTRAD-mod. Această creștere substanțială a Q-scor a venit în detrimentul unui 0.,Scădere cu 4% a scorului m pe PREFAB-mod și o scădere cu 0,3% pe HOMSTRAD-mod. Prin urmare, fracțiunea de homologies care sunt aliniate corect a scăzut ușor, în timp ce numărul total de corect aliniate homologies crescut substanțial. Normal, cele mai mari câștiguri au fost pe seturi de referință divergente în cazul în care există cel mai mult loc pentru îmbunătățire, și, în esență, nici un câștig a fost făcut pe referințe cu mai puțin de 60% distanța medie între perechi (Fig. 3b)., Predicțiile structurii secundare au oferit un beneficiu mai mare pe PREFAB-mod, deoarece o fracțiune mai mare din secvențele sale de referință sunt peste 60% îndepărtate.interesant este că îmbunătățirea de la încorporarea structurii secundare a crescut pe măsură ce mai multe secvențe au fost aliniate (Fig. 3c). Pe cele mai mici seturi de 2 secvențe a existat o îmbunătățire de 3,4% pe PREFAB-mod și 1,2% pe HOMSTRAD-mod. Pe mare 4.000 seturi de secvență avantajul a crescut la 8,5% și 3,3 %, respectiv., Prin urmare, încorporarea structurii secundare a contracarat parțial scăderea scorului care se observă de obicei cu aliniamente mai mari . Acest comportament a reflectat predicția structurii secundare, unde precizia crește pe măsură ce se utilizează mai multe secvențe în calcul . Din acest motiv, cei mai exacți algoritmi de predicție a structurii secundare folosesc mai multe aliniamente. În mod similar, aici predicțiile structurii secundare inițiale nu au precizie, deoarece sunt obținute din secvențe unice., Pe măsură ce mai multe secvențe sunt aliniate, aceste probabilități sunt medii pentru a crește precizia lor și pentru a ghida mai bine alinierea. Acest lucru este în contrast cu secvența primară, în cazul în care secvențe suplimentare duce inevitabil la mai multă ambiguitate, care, în parte, provoacă o pierdere de semnal care se manifestă în alinierea slabă calitate a profilurilor ambigue.,

inclusiv un model de probabilitate indel pentru a îmbunătăți poziționarea gap

motivat de îmbunătățirea obținută din încorporarea contextului secvenței locale prin predicții de structură secundară, am întrebat dacă aceeași abordare ar putea fi aplicată plasării gap. Cercetările anterioare au arătat că inserțiile și ștergerile (indels) sunt mai susceptibile să apară adiacente anumitor aminoacizi și în regiunile expuse ale bobinelor ., Din acest motiv, este comun pentru a reduce costul de deschidere a unui decalaj în întinderi hidrofile, sau, alternativ, pentru a crește costul în regiunile hidrofobe, care sunt susceptibile de a fi îngropat în proteina constrânsă de bază. Din câte știu, un model mai sofisticat de probabilitate a decalajului bazat pe contextul local nu a fost aplicat alinierii secvenței. În acest scop, am folosit baza de date One Gap pentru a calcula frecvența relativă a evenimentelor indel pe baza reziduurilor din stânga și din dreapta unui gap central., Aceste informații de frecvență au fost apoi convertite în scoruri log-odds în funcție de frecvența de fond a fiecărui aminoacid.figura 4 arată contribuția aminoacizilor din apropiere la probabilitatea unui decalaj la poziția zero. După cum era de așteptat, reziduurile hidrofobe (FMILYW) scad foarte mult probabilitatea unui decalaj. Reziduurile hidrofile și „structura-rupere” (de exemplu, P) crește șansa de un decalaj adiacente, deși cu mai puțin de un efect decât reziduurile hidrofobe., Deoarece scorurile log-odds sunt în aceleași unități ca matricea de substituție( third-bits), ele pot fi aplicate direct pentru a modula costurile de deschidere a decalajului și de închidere a decalajului în orice poziție, pe baza contextului secvenței locale (fișier suplimentar 1: Tabelul S1). Am evaluat diferite dimensiuni fereastră pentru includerea acestor informații, și a constatat că cea mai bună fereastră întinsă de la poziția -4 la +4 în raport cu diferența centrală. Prin urmare, costul creării unui decalaj în orice poziție este costul inițial al decalajului plus un scor care este modulat pe baza reziduurilor de o parte și de alta a decalajului (a se vedea fișierul suplimentar 1).,

Fig. 4

contribuția contextului secvenței locale la costul deschiderii unui decalaj în aliniere. Reziduurile hidrofobe reduc foarte mult probabilitatea unui decalaj, în timp ce reziduurile hidrofile și „ruperea structurii” cresc probabilitatea unui decalaj., În spațiul model, poziții situate în patru reziduuri au fost folosite pentru a modula costul de a deschide un decalaj de la poziția zero

Apoi, am calculat log-cote scoruri pentru reziduurile opuse diferența (în ungapped secvență), și a constatat că aceste poziții afișată o mică prejudecată în conținutul de aminoacizi (fișier Suplimentar 1: Tabelul S1). A existat o corelație moderată între scorurile log-odds pentru pozițiile din stânga sau din dreapta gap-ului și reziduurile care se opun gap-ului (R2 de 0,69 și, respectiv, 0,64)., Cu toate acestea, în acest caz nu a existat nicio diferență aparentă între locațiile din regiunea gapped. Din acest motiv, am ales să modulez pur și simplu costul de extindere a decalajului pe baza scorurilor medii pentru reziduurile „gapped” într-o manieră independentă de poziție. În total, acest model probabilistic de deschidere și extindere a unui decalaj ajustează penalizarea decalajului într – un interval de aproximativ + / – 20% la fiecare poziție.

pentru a extinde acest model de plasare a decalajului bazat pe contextul secvenței locale, am investigat în continuare efectul modelelor de secvențe scurte., Repetițiile sunt o sursă majoră de variație a lungimii secvențelor biologice și se găsesc în mod obișnuit în toate ramurile vieții . Repetă au o mare varietate de forme, inclusiv pe microsateliți repetă de un singur codon și mai tandem de regiuni care pot evolua prin mutație a deveni nepotrivite de-a lungul timpului . Repetările mai lungi pot fi aliniate cu programe specializate care utilizează algoritmi de găsire a repetărilor în tandem . Modelele scurte sunt de obicei neglijate ca nesemnificative de aceste programe datorită apariției lor frecvente în secvențe., Cu toate acestea, Chang și Benner au descoperit că repetițiile scurte de dipeptide (de exemplu, AA) au fost mai frecvente decât se aștepta în jurul lacunelor, oferind potențial un mijloc de modulare a costurilor gap. Pentru a investiga acest efect, am examinat apariția diferitelor modele de secvențe în baza de date One Gap.

Dipeptidă repetă (ruleaza de 2 identice de aminoacizi) din jurul golurile au fost doar puțin mai probabil (< 1 a treia-bit) decât era de așteptat prin șansă. Cu toate acestea, lacunele au fost substanțial mai probabil să apară în jurul valorii de ruleaza de trei sau mai mult (de exemplu, AAA), așa cum se arată în fișierul suplimentar 1: Figura S2., Acest efect a fost deosebit de pronunțat în secvența fără decalaj, indicând faptul că lacunele sunt adesea prezente, deoarece o secvență are o durată mai lungă decât alta. În mod surprinzător, golurile au fost mai puțin probabil să apară la poziția după începerea unei runde în secvența opusă (de exemplu, AA/A-), indiferent de lungimea cursei. Deși mecanismul pentru această apariție este necunoscut, se poate datora unui rol biologic pentru repetițiile dipeptidice care au ca rezultat conservarea lor. O investigație similară a repetițiilor heteropeptidelor cu periodicitatea 2 (de ex.,, ACAC) la 6 nu a evidențiat o prejudecată puternică față de lacune (fișier suplimentar 1: Figura S2). Prin urmare, am ales să extind modelul gap pentru a modula costul de deschidere a gap-ului în poziții înainte și imediat după începerea unei alergări în secvența opusă.

în General, utilizarea acestui model de decalaj de plasare a dus la o îmbunătățire modestă de 0,5 % pe PREFABRICATE-mod (p < 1e-4) și cu 0,3 % pe HOMSTRAD-mod (p < 1e-3). Îmbunătățirile scorului Q au fost însoțite de creșteri de 0,2% ale scorului M pentru ambele valori de referință., Aceste modificări ale scorului au fost neașteptate, deoarece valorile de referință structurale nu iau în considerare cele mai multe regiuni gapped , deoarece acestea apar adesea în părți ale structurii care sunt dificil de suprapus, iar repetările tind să fie găsite în regiunile proteice dezordonate . Deși simulările evolutive oferă un mijloc de notare a regiunilor gapped, astfel de simulări nu includ în prezent un model dependent de context de probabilitate a decalajului., Prin urmare, este posibil ca plasarea lacunelor să se îmbunătățească mai mult decât reflectată de creșterea modestă a scorurilor, dar în prezent nu există o modalitate adecvată de măsurare a avantajului real al încorporării unui model sofisticat de decalaj în aliniere.

comparația DECIPHER cu alte programe pentru MSA

după ce am integrat cu succes conștientizarea contextului în software-ul DECIPHER pentru alinierea secvențelor, am comparat performanța sa cu alte programe de aliniere de ultimă generație., În primul rând, am ales să referință DESCIFRA împotriva a trei programe populare, capabil de eficient alinierea mii de secvențe: Clustal Omega , MAFFT , și MUSCULARE . Aceste programe sunt utilizate în mod regulat într-o varietate de studii diferite și au devenit standardul de facto pentru compararea valorilor de referință. Figura 5 arată performanța fiecărui program în raport cu descifra pentru creșterea numărului de secvențe de intrare., Clasamentul de performanță este în acord puternic între reperele HOMSTRAD-mod și PREFAB-mod, dar există o răspândire mai mare între programele de pe PREFAB-mod, deoarece conține o fracțiune mai mare de secvențe în sau sub zona crepusculară.

Fig. 5

Performanță de populare mai multe sequence alignment programe relativă a DESCIFRA pe HOMSTRAD-mod (H-mod) și PREFABRICATE-mod (P-mod) de referință. PROMALS a prezentat cea mai bună performanță pe cele mai mici seturi de două secvențe., MAFFT a avut cea mai bună performanță pe seturi mici de intrare de 125 de secvențe, unde folosește o strategie mult mai lentă bazată pe consistență. MUSCLE a arătat cea mai slabă performanță pe seturi de secvențe mai mari. DESCIFRA de performanță în raport cu alte programe de îmbunătățit în mai multe secvențe au fost aliniate

atunci Când doar două secvențe au fost aliniate la fiecare indice de referință, alinierea programe au dat rezultate similare, cu MAFFT arată cea mai mică precizie. În seturile de 125 de secvențe, DECIPHER este clasat pe locul doi în spatele MAFFT., Pentru seturile de intrare de această dimensiune, MAFFT folosește algoritmul său cel mai precis bazat pe consistență (L-INS-i) care nu este scalabil la seturi de secvențe mai mari. Dincolo de secvențele de intrare 125, DECIPHER depășește în mod clar celelalte trei programe (fișierul suplimentar 1: Tabelul S2), iar plumbul său se îmbunătățește pe măsură ce mai multe secvențe sunt aliniate (Fig. 5). Aceasta reflectă faptul că precizia DECIPHER rămâne relativ constantă cu un număr tot mai mare de secvențe (Fig. 3), care este parțial atribuibilă utilizării structurii secundare în timpul alinierii., Clustal Omega, MAFFT și DECIPHER au scoruri M similare în întreaga gamă de dimensiuni de intrare (fișier suplimentar 1: Figura S3). Musculare a avut cea mai slabă performanță, cu Q substanțial mai rău – și m-scoruri pentru toate, dar cele mai mici seturi de secvență de intrare. În plus, deși scorul Q, scorul total al coloanei (scorul TC) și scorul Cline shift dau uneori clasamente de performanță contradictorii, aceste trei statistici au fost de acord cu ambele valori de referință (fișier suplimentar 1: cifrele S4 și S5).,

supra-formarea la un singur set de referință a fost o preocupare pentru unele programe de aliniere , deși ambele seturi de referință utilizate aici au arătat rezultate similare. Cu toate acestea, alte programe pot fi mai bine instruite cu privire la reperele originale care nu se bazează pe rezultatele programului de aliniere structurală MUSTANG. Pentru a verifica dacă DECIPHER nu a fost supra-instruit la ieșirile lui MUSTANG, am repetat analiza folosind perechile de referință prefabricate originale, care au fost aliniate independent de MUSTANG., Secvențele de referință prefabricate nemodificate au arătat o concordanță puternică a structurii secundare și, prin urmare, oferă un punct de referință alternativ de înaltă calitate. Cu toate acestea, rezultatele (fișier suplimentar 1: Figura S6) au fost foarte similare pentru ambele seturi de secvențe de referință, indicând faptul că performanța DECIPHER nu a fost strâns legată de ieșirile lui MUSTANG.i next compared DECIPHER to PASTA, care este un program destinat să extindă precizia algoritmilor mai puțin scalabili la aliniamente mari., PASTA funcționează prin împărțirea unei alinieri în sub-probleme suprapuse, care sunt aliniate fiecare cu o strategie exactă, în mod implicit, abordarea bazată pe coerență l-INS-i a MAFFT. Aceste sub-aliniamente sunt îmbinate folosind tranzitivitate, iar procesul se repetă pornind de la un nou arbore de ghidare. Interesant este că pastele au depășit descifrarea pe seturi de 125 și 250 de secvențe pe HOMSTRAD-mod (Fig. 5), dar a fost imposibil de distins statistic pe seturi mai mari (fișier suplimentar 1: Tabelul S2). Cu toate acestea, DECIPHER a depășit substanțial pastele pe PREFAB-mod, iar plumbul său a crescut pe măsură ce mai multe secvențe au fost aliniate., Mai mult, pastele au arătat o scădere mare a preciziei odată cu creșterea dimensiunii de aliniere. Tabelul 1 arată că performanța DECIPHER a diminuat cel mai puțin dintre toate programele de aliniere pe măsură ce dimensiunea alinierii a crescut.

Tabelul 1 Schimba, în medie, Q-scor în funcție de numărul de secvențe aliniate

în cele din Urmă, am comparat DESCIFRA performanța de a PROMALS , care este un program care se bazează pe mai precis structura secundară previziunile obținute din PSIPRED ., PROMALS efectuează mai întâi căutări PSI-BLAST cu secvențe reprezentative din setul de intrare și apoi utilizează predicții precise ale structurii secundare cu o abordare bazată pe consistență pentru alinierea secvențelor. PROMALS a depășit cu mult toate celelalte programe de aliniere pe cele mai mici seturi de două secvențe, dar avantajul său a dispărut odată ce alte secvențe au fost adăugate la setul de intrare (Fig. 5). Mai mult, a fost cu câteva ordine de mărime mai lent decât ceilalți alinieri (Fig. 6) și testarea seturilor de intrare mai mari de 125 de secvențe s-au dovedit a fi consumatoare de timp prohibitiv., Sunt disponibile abordări mai recente care utilizează structuri proteice rezolvate, cum ar fi PROMALS3D . Cu toate acestea, nu este clar cum se testează astfel de abordări pe repere structurale, deoarece secvențele de referință sunt probabil prezente în aceleași baze de date de structură utilizate de aceste programe.

Fig. 6

Medie a timpului de execuție în funcție de numărul de secvențe aliniate (notă axa pauze și log-scară)., PROMALS a fost substanțial mai lent decât celelalte programe care nu se bazează pe o bază de date externă mare de secvențe. MAFFT a fost cel mai rapid program pentru seturi de secvențe mari. PASTA a fost cel mai lent program testat pentru alinierea seturilor de secvențe mari, necesitând în medie 2,7 ore pentru alinierea a 4.000 de secvențe. O îmbunătățire notabilă a vitezei a fost obținută cu DECIPHER prin utilizarea mai multor procesoare

DECIPHER nu a fost nici cel mai lent, nici cel mai rapid program de referință pentru alinierea fiecăruia dintre seturile de secvențe (Fig. 6)., MAFFT a fost, în general, cel mai rapid program, cu excepția celor mai mici seturi de secvențe în care utilizează strategii mai lente și mai precise pentru aliniere. Schimbarea timpului scurs este dramatică pentru MAFFT și mușchi dincolo de secvențele 250 în care s-au folosit strategii mai eficiente. PASTA a fost cel mai lent program și a necesitat o medie de 2,7 ore pentru a alinia secvențele 4,000. Atât Clustal Omega, cât și DECIPHER au reușit să alinieze secvențele 4,000 în aproximativ o jumătate de oră în medie. Deoarece calculul arborelui de ghidare este factorul limitativ pentru seturile de secvențe mari, paralelizarea poate fi utilă în astfel de circumstanțe., De exemplu, DECIPHER a fost de aproximativ două ori mai rapid când au fost utilizate 8 procesoare (Fig. 6). Utilizarea maximă a memoriei DECIPHER a fost de 2 GB la alinierea secvențelor 4,000.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *