DECIFRARE: sfruttare il contesto della sequenza locale per migliorare l’allineamento della sequenza multipla di proteine

La scelta di allineamenti di riferimento di alta qualità per il benchmarking

Diversi benchmark spesso si traducono in parametri ottimali contrastanti (ad Per questi motivi, la scelta del benchmark è della massima importanza quando si sviluppano e si confrontano algoritmi per l’allineamento delle sequenze., Per scegliere i benchmark di allineamento per questo studio, ho iniziato confrontando la concordanza della struttura secondaria tra benchmark comuni. Questo metodo di confronto richiede che sia disponibile la struttura secondaria delle sequenze di riferimento, il che esclude i popolari benchmark di BAliBASE perché la struttura secondaria corrispondente della maggior parte delle sequenze di BAliBASE è sconosciuta . Sebbene l’accordo sulla struttura secondaria da solo non sia sufficiente a garantire un benchmark di alta qualità, una mancanza di accordo può essere un’indicazione di inesattezza dell’allineamento.,

Si prevede che migliori allineamenti di riferimento avranno una percentuale maggiore di residui allineati con identica struttura secondaria. Tuttavia, alcuni disaccordi nella struttura secondaria sono previsti a causa sia delle difficoltà intrinseche nell’assegnazione della struttura secondaria che delle sfide inerenti all’allineamento delle strutture terziarie distanti . La figura 1 mostra la frazione dell’accordo di struttura secondaria rispetto all’identità di sequenza a coppie per quattro benchmark comuni di aminoacidi., I benchmark SABmark e PREFAB contengono la più grande frazione delle loro sequenze all’interno o al di sotto della “zona crepuscolare” del 20-35% di identità di sequenza, mentre l’enfasi di OXBench è su allineamenti meno impegnativi. Il prefabbricato sembra essere significativamente più allineato rispetto a SABmark, nonostante entrambi i riferimenti coprano una gamma simile di identità di sequenza. Per sequenze con un’identità inferiore al 10%, PREFAB ha un’identità strutturale maggiore del 13,4% (p < 1e-15) rispetto a SABmark., Questi risultati sono in accordo con uno studio precedente che ha trovato PREFAB come il miglior benchmark progettato specificamente per confrontare i programmi MSA, anche se PREFAB è noto per contenere errori .

Tutte le colonne degli allineamenti sono state utilizzate per valutare l’accuratezza complessiva di ciascun benchmark piuttosto che utilizzare solo blocchi core (regioni omologhe), che sono tipicamente delineati da lettere maiuscole., La scelta di utilizzare l’intero allineamento è stata fatta perché: (i) la definizione dei blocchi principali varia tra i benchmark, (ii) alcune procedure di punteggio fanno uso dell’intero allineamento , (iii) la distanza a coppie viene calcolata utilizzando l’intero allineamento e (iv) i benchmark HOMSTRAD e SABmark non delineano i blocchi principali. I blocchi principali in PREFAB sono stati assegnati in base all’accordo tra due diversi programmi di allineamento strutturale., Questo mi ha motivato a guardare la differenza tra i benchmark originali e le stesse sequenze riallineate con il programma di allineamento strutturale indipendente dalla sequenza MUSTANG . I riallineamenti con MUSTANG hanno mostrato una maggiore congruenza strutturale secondaria rispetto ai benchmark originali, tranne nel caso di HOMSTRAD (Fig. 1). In particolare, SABmark aveva un’identità di struttura secondaria superiore dell ‘ 11,2% dopo il riallineamento con MUSTANG (p < 1e-15)., Questo risultato supporta l’uso del database HOMSTRAD come benchmark di allineamento anche se non era originariamente destinato a questo scopo.

Poiché il numero di sequenze con struttura nota è piccolo rispetto al numero di sequenze disponibili, la maggior parte dei benchmark sono integrati con ulteriori sequenze non allineate che non sono considerate nel punteggio. Gli allineamenti di riferimento prefabbricati sono integrati con sequenze aggiuntive trovate utilizzando le ricerche PSI-BLAST con le sequenze di riferimento. Le sequenze HOMSTAD sono comunemente integrate con altre sequenze appartenenti alla stessa famiglia Pfam ., Ho confrontato questi due approcci selezionando casualmente sequenze dalla famiglia Pfam corrispondenti alle sequenze di riferimento prefabbricate. Dopo aver generato un allineamento con lo stesso numero di sequenze supplementari, è stato costruito un albero di giunzione vicino per determinare l’ampiezza delle sequenze aggiunte. La lunghezza media dell’albero era 1,6 volte più lunga per le sequenze Pfam casuali rispetto a quelle incluse con PREFAB (p < 1e-15)., Ciò ha indicato che l’estensione del set di input in un modo che non dipende direttamente dalle sequenze di riferimento produce la massima diversità di sequenze supplementari.

Non è chiaro quale benchmark di riferimento rifletta più adeguatamente le sequenze di un utente tipico e l’ampia diversità delle applicazioni MSA probabilmente abbraccia la maggior parte degli scenari di allineamento trovati nei benchmark. I set SABmark coprono una gamma ristretta di identità di sequenza, mentre OXBench si concentra su sequenze strettamente correlate che sono più facili da allineare., A causa della qualità dell’allineamento e dell’ampiezza delle identità di sequenza, ho scelto di continuare il resto di questo studio con versioni leggermente modificate dei set di dati PREFAB e HOMSTRAD originali, chiamati PREFAB-mod e HOMSTRAD-mod (vedi Metodi). Per integrare i benchmark modificati, ho aggiunto sequenze full-length appartenenti alla stessa famiglia Pfam. Sono state utilizzate sequenze full-length piuttosto che solo il dominio condiviso per rendere gli allineamenti più impegnativi e per rappresentare una maggiore varietà di potenziali scenari di utilizzo., Spesso le sequenze allineate hanno lunghezze variabili perché coprono regioni sovrapposte di un gene o sono state tagliate in modo diverso in base ai loro punteggi di qualità a ciascun terminale.

Incorporazione scalabile della struttura secondaria nell’allineamento

Nonostante la stretta connessione tra struttura secondaria e allineamento di sequenza, i programmi di allineamento delle proteine più diffusi non prevedono informazioni strutturali., Lo svantaggio principale della previsione della struttura secondaria è che è lento a calcolare con precisione, il che impedisce di ridimensionare l’allineamento di centinaia di sequenze in un ragionevole lasso di tempo . Previsioni di struttura secondaria meno accurate possono essere ottenute molto rapidamente utilizzando approcci a sequenza singola che non si basano sulla costruzione di un allineamento multiplo con sequenze omologhe. Il metodo GOR è uno dei più accurati dato una singola sequenza ., In questo metodo la struttura secondaria viene assegnata a uno dei tre stati: elica (H), foglio (E) o bobina (C) in base al contesto di sequenza locale che circonda un residuo. Questo approccio ha il vantaggio di essere estremamente veloce (< 1% del tempo richiesto per l’allineamento), fornisce un valore di probabilità per ogni stato e offre una precisione di circa il 65%.,

Per integrare le previsioni della struttura secondaria nel framework di programmazione dinamica per l’allineamento profilo-profilo, ho aggiunto una nuova matrice simmetrica 3 × 3 che rappresenta le probabilità di log di allineare un H, E o C in una sequenza con un’altra posizione assegnata a H, E o C in una seconda sequenza. L’accoppiamento di questa matrice con la probabilità assegnata a ciascuno dei tre stati strutturali ha permesso l’allineamento profilo-profilo delle strutture secondarie., Il punteggio ottenuto dall’allineamento dei profili di struttura secondaria ha aumentato il punteggio tradizionale basato sulla matrice di sostituzione determinato dalle sequenze primarie (vedere il testo aggiuntivo del file 1). In questo modo, l’accordo di struttura primaria e secondaria può essere massimizzato simultaneamente.

La figura 2 mostra un esempio di allineamento della famiglia di proteine lattato / malato deidrogenasi (Pfam accession no. PF00056; famiglia HOMSTRAD “ldh”) ottenuto utilizzando questo approccio., Le assegnazioni DSSP sono in accordo generale attraverso l’allineamento HOMSTRAD-mod, che si basa sulle strutture terziarie note di queste proteine. Le previsioni fatte con il metodo GOR riflettono queste assegnazioni di struttura secondaria con alcune discrepanze. Le previsioni GOR guidano l’allineamento DECIFRARE, che corrisponde esattamente l’allineamento di riferimento in regioni definite come blocchi di base, indicato da lettere maiuscole nell’allineamento superiore di Fig. 2., Le regioni dell’allineamento di riferimento che non rientrano nei blocchi principali non vengono utilizzate per determinare la precisione e differiscono dall’output di DECIFRAZIONE in alcune colonne.

Fig. 2

C-estremità terminale degli allineamenti della famiglia di proteine lattato / malato deidrogenasi (Pfam accession no. PF00056) colorato dalla struttura secondaria prevista. L’allineamento superiore (sequenze denominate da PDB ID) proviene dal benchmark HOMSTRAD-mod colorato dalle assegnazioni DSSP , con lettere maiuscole che denotano i blocchi principali., L’allineamento inferiore mostra le stesse sequenze (denominate dall’organismo) riallineate con DECIPHER e colorate secondo le probabilità a 3 stati previste dal metodo GOR . Le colonne dell’allineamento inferiore in grassetto corrispondono esattamente alle colonne dell’allineamento di riferimento superiore

Un vantaggio dell’utilizzo di una piccola matrice di struttura secondaria 3 × 3 è che il numero di parametri liberi è di gran lunga superiore al numero di punti dati informativi, il che rende trascurabile l’errore di stima (File aggiuntivo 1: Figura S1)., Per trovare valori ottimali per ciascuno dei 6 parametri distinti nella matrice, ho eseguito una ricerca in griglia per la soluzione che ha portato agli allineamenti con il punteggio migliore in base alla somma di Q-score e M-score su un sottoinsieme di HOMSTRAD-mod composto da 238 set di riferimento. All’optimum tra over-allineamento e under-allineamento, qualsiasi guadagno in Q-score è superato dalla corrispondente perdita in M-score e morsa-versa. La matrice di struttura secondaria ottimizzata è mostrata in Fig. 3 bis., È molto probabile che gli stati elettronici siano allineati, come dimostra l’ampio contributo degli accoppiamenti E/E al punteggio della struttura secondaria. Il metodo GOR tende a sottoprevedere i fogli β, risultando in una bassa frazione di stati E nella maggior parte delle sequenze .

Fig. 3

una matrice di struttura ottimizzata per accoppiamenti tra stati di elica (H), β-foglio (E) o bobina (C). b I valori ripetuti sono in grigio poiché la matrice è simmetrica., Dopo aver incorporato questa matrice nell’allineamento, il miglioramento medio del punteggio Q sugli allineamenti a coppie è stato maggiore per le coppie distanti. gli allineamenti c che utilizzano la matrice di struttura (simboli aperti) hanno mostrato un piccolo calo di precisione poiché il numero di sequenze di input è aumentato rispetto agli allineamenti realizzati senza previsioni strutturali (simboli chiusi). In tutte le dimensioni di allineamento, l’uso della struttura secondaria ha migliorato il Q-score (p < 1e-5 per tutti)., Allo stesso modo, il miglioramento del Q-score (separazione tra simboli aperti e chiusi) è aumentato man mano che venivano allineate più sequenze

Successivamente, ho chiesto se l’incorporazione della struttura secondaria migliorasse l’allineamento delle sequenze e come questo fosse scalato con il numero di sequenze allineate. In media su tutte le dimensioni dei set di sequenze, l’incorporazione della struttura secondaria ha comportato un miglioramento del 5,3% del punteggio Q su PREFAB-mod e del 2,1% su HOMSTRAD-mod. Questo sostanziale aumento del punteggio Q è venuto a scapito di un 0.,diminuzione del 4% del punteggio M su PREFAB-mod e una diminuzione dello 0,3% su HOMSTRAD-mod. Pertanto, la frazione di omologie correttamente allineate è leggermente diminuita, mentre il numero totale di omologie correttamente allineate è notevolmente aumentato. Non sorprende che i maggiori guadagni siano stati sui set di riferimento divergenti dove c’è il maggior margine di miglioramento, e in sostanza non è stato ottenuto alcun guadagno sui riferimenti con una distanza media inferiore al 60% tra le coppie (Fig. 3 ter)., Le previsioni sulla struttura secondaria hanno fornito un vantaggio maggiore su PREFAB-mod perché una frazione maggiore delle sue sequenze di riferimento è distante oltre il 60%.

È interessante notare che il miglioramento dall’incorporazione della struttura secondaria è aumentato man mano che più sequenze sono state allineate (Fig. 3 quater). Sui set più piccoli di 2 sequenze c’è stato un miglioramento del 3,4% su PREFAB-mod e dell ‘ 1,2% su HOMSTRAD-mod. Su grandi insiemi di sequenza 4,000 il vantaggio è aumentato a 8.5% e 3.3%, rispettivamente., Pertanto, l’incorporazione della struttura secondaria ha parzialmente contrastato la diminuzione del punteggio che viene tipicamente osservata con allineamenti più grandi . Questo comportamento rispecchiava quello della previsione della struttura secondaria, in cui la precisione aumenta man mano che vengono utilizzate più sequenze nel calcolo . Per questo motivo, gli algoritmi di previsione della struttura secondaria più accurati utilizzano più allineamenti. Allo stesso modo, qui le previsioni della struttura secondaria iniziale mancano di accuratezza poiché sono ottenute da singole sequenze., Man mano che più sequenze sono allineate, queste probabilità vengono calcolate in media per aumentare la loro precisione e guidare meglio l’allineamento. Ciò è in contrasto con la sequenza primaria, in cui le sequenze aggiuntive provocano inevitabilmente più ambiguità, che in parte causa una perdita di segnale che si manifesta in un allineamento di scarsa qualità di profili ambigui.,

Includendo un modello di probabilità indel per migliorare il posizionamento del gap

Motivato dal miglioramento ottenuto dall’incorporazione del contesto di sequenza locale tramite previsioni di struttura secondaria, ho quindi chiesto se lo stesso approccio potesse essere applicato al posizionamento del gap. Ricerche precedenti hanno rivelato che le inserzioni e le eliminazioni (indel) hanno maggiori probabilità di verificarsi adiacenti a determinati amminoacidi e nelle regioni della bobina esposte ., Per questo motivo è comune per diminuire il costo di apertura di una lacuna nei tratti idrofili , o in alternativa per aumentare il costo nelle regioni idrofobiche che sono suscettibili di essere sepolto nel nucleo vincolato della proteina. A mia conoscenza, un modello più sofisticato di probabilità di gap basato sul contesto locale non è stato applicato all’allineamento delle sequenze. A tal fine ho usato il database One Gap per calcolare la frequenza relativa degli eventi indel in base ai residui a sinistra ea destra di un gap centrale., Queste informazioni sulla frequenza sono state quindi convertite in punteggi log-odds in base alla frequenza di fondo di ciascun amminoacido.

La figura 4 mostra il contributo degli amminoacidi vicini alla probabilità di un gap in posizione zero. Come previsto, i residui idrofobici (FMILYW) riducono notevolmente la probabilità di una lacuna. I residui idrofili e “structure-breaking” (ad esempio, P) aumentano la possibilità di un gap adiacente, anche se con meno effetto rispetto ai residui idrofobici., Poiché i punteggi log-odds sono nelle stesse unità della matrice di sostituzione (third-bits), possono essere applicati direttamente per modulare i costi di apertura e chiusura delle lacune in qualsiasi posizione in base al contesto della sequenza locale (file aggiuntivo 1: Tabella S1). Ho valutato diverse dimensioni della finestra per includere queste informazioni e ho scoperto che la finestra migliore si estendeva dalla posizione -4 a +4 rispetto allo spazio centrale. Quindi, il costo della creazione di un gap in qualsiasi posizione è il costo del gap originale più un punteggio che viene modulato in base ai residui su entrambi i lati del gap (vedere il file aggiuntivo 1).,

Fig. 4

Contributo del contesto di sequenza locale al costo di apertura di una lacuna nell’allineamento. I residui idrofobici riducono notevolmente la probabilità di una lacuna, mentre i residui idrofili e di “rottura della struttura” aumentano la probabilità di una lacuna., Il divario modello, le posizioni si trova all’interno di quattro residui sono stati utilizzati per modulare il costo di apertura di un gap nella posizione zero

poi, ho calcolato log-odds punteggi per i residui avversaria il divario (in ungapped sequenza), e ha scoperto che queste posizioni visualizzato un piccolo bias nel contenuto di aminoacidi (file Aggiuntive 1: Tabella S1). C’era una correlazione moderata tra i punteggi log-odds per le posizioni a sinistra oa destra del divario e i residui opposti al divario (R2 di 0,69 e 0,64, rispettivamente)., Tuttavia, in questo caso non vi era alcuna differenza apparente tra le posizioni all’interno della regione gapped. Per questo motivo ho scelto di modulare semplicemente il costo di estensione del gap in base ai punteggi medi per i residui “gapped” in modo indipendente dalla posizione. Complessivamente, questo modello probabilistico di apertura ed estensione di un gap regola la penalità di gap all’interno di un intervallo di circa + / – 20% in ogni posizione.

Per espandere questo modello di posizionamento del gap in base al contesto della sequenza locale, ho quindi studiato l’effetto dei modelli di sequenza breve., Le ripetizioni sono una delle principali fonti di variazione della lunghezza nelle sequenze biologiche e si trovano comunemente in tutti i rami della vita . Le ripetizioni hanno un’ampia varietà di forme, tra cui brevi ripetizioni microsatellite di un singolo codone e ripetizioni tandem più lunghe di regioni che possono evolvere attraverso la mutazione per diventare non corrispondenti nel tempo . Le ripetizioni più lunghe possono essere allineate con programmi specializzati che impiegano algoritmi di ricerca di ripetizioni tandem . I modelli brevi sono in genere trascurati come insignificanti da questi programmi a causa della loro frequente presenza nelle sequenze., Tuttavia, Chang e Benner hanno scoperto che le ripetizioni di dipeptidi brevi (ad esempio AA) erano più comuni del previsto attorno alle lacune, offrendo potenzialmente un mezzo per modulare i costi delle lacune. Per indagare su questo effetto, ho esaminato l’occorrenza di diversi modelli di sequenza nel database One Gap.

Le ripetizioni di dipeptidi (esecuzioni di 2 amminoacidi identici) che circondano le lacune erano solo leggermente più probabili (< 1 terzo bit) di quanto previsto per caso. Tuttavia, le lacune erano sostanzialmente più probabili verificarsi intorno a tirature di tre o più (ad esempio, AAA), come mostrato nel file aggiuntivo 1: Figura S2., Questo effetto è stato particolarmente pronunciato nella sequenza senza il divario, indicando che gli spazi vuoti sono spesso presenti perché una sequenza ha una corsa più lunga di un’altra. Sorprendentemente, le lacune erano meno probabili nella posizione dopo l’inizio di una corsa nella sequenza opposta (ad esempio, AA/A-), indipendentemente dalla lunghezza della corsa. Sebbene il meccanismo per questo avvenimento sia sconosciuto, può essere dovuto un ruolo biologico per le ripetizioni del dipeptide che provoca la loro conservazione. Un’indagine simile sull’eteropeptide si ripete con periodicità 2 (ad es.,, ACAC) a 6 non ha rivelato un forte pregiudizio verso le lacune (File aggiuntivo 1: Figura S2). Pertanto, ho scelto di estendere il modello gap per modulare il costo di apertura del gap nelle posizioni prima e immediatamente dopo l’inizio di una corsa nella sequenza opposta.

Nel complesso, l’impiego di questo modello di gap placement ha comportato un modesto miglioramento dello 0,5% su PREFAB-mod (p< 1e-4) e dello 0,3% su HOMSTRAD-mod (p< 1e-3). I miglioramenti del Q-score sono stati compensati da aumenti dello 0,2% del M-score su entrambi i benchmark., Questi cambiamenti nel punteggio erano inaspettati, poiché i benchmark strutturali non considerano la maggior parte delle regioni gapped poiché spesso si verificano in parti della struttura difficili da sovrapporre e le ripetizioni tendono a trovarsi in regioni proteiche disordinate . Sebbene le simulazioni evolutive offrano un mezzo per segnare le regioni gappate, tali simulazioni attualmente non includono un modello dipendente dal contesto di probabilità di gap., Pertanto, è possibile che il posizionamento dei divari sia migliorato più che riflesso dal modesto aumento dei punteggi, ma attualmente non esiste un modo adeguato per misurare l’effettivo vantaggio di incorporare un sofisticato modello di divari nell’allineamento.

Confronto di DECIPHER con altri programmi per MSA

Avendo integrato con successo la consapevolezza del contesto nel software DECIPHER per l’allineamento delle sequenze, ho confrontato le sue prestazioni con altri programmi di allineamento all’avanguardia., In primo luogo , ho scelto di benchmark DECIFRARE contro tre programmi popolari in grado di allineare in modo efficiente migliaia di sequenze: Clustal Omega , MAFFT, e muscolare . Questi programmi sono regolarmente impiegati in una varietà di studi diversi e sono diventati lo standard de facto per il confronto sui benchmark. Figura 5 mostra le prestazioni di ciascun programma rispetto a DECIFRARE per un numero crescente di sequenze di input., La classifica delle prestazioni è in forte accordo tra i benchmark HOMSTRAD-mod e PREFAB-mod, ma c’è una maggiore diffusione tra i programmi su PREFAB-mod perché contiene una frazione maggiore di sequenze all’interno o al di sotto della zona crepuscolare.

Fig. 5

Prestazioni di popolari programmi di allineamento di sequenze multiple relative a DECIFRARE sui benchmark HOMSTRAD-mod (H-mod) e PREFAB-mod (P-mod). PROMALS esibito la migliore performance sul più piccolo set di due sequenze., MAFFT ha avuto le migliori prestazioni su piccoli set di input di 125 sequenze, dove utilizza una strategia basata sulla coerenza molto più lenta. MUSCLE ha mostrato le peggiori prestazioni su set di sequenze più grandi. Le prestazioni di DECIPHER rispetto ad altri programmi sono migliorate con l’allineamento di più sequenze

Quando solo due sequenze sono state allineate da ciascun benchmark, i programmi di allineamento hanno dato tutti risultati simili, con MAFFT che ha mostrato la precisione più bassa. Nelle serie di sequenze 125, DECIPHER è al secondo posto dietro MAFFT., Per i set di input di queste dimensioni, MAFFT utilizza il suo algoritmo più accurato basato sulla coerenza (L-INS-i) che non è scalabile per set di sequenze più grandi. Oltre 125 sequenze di input, DECIFRARE supera chiaramente gli altri tre programmi (file aggiuntivo 1: Tabella S2), e il suo piombo migliora come più sequenze sono allineati (Fig. 5). Ciò riflette il fatto che la precisione di DECIFRAZIONE rimane relativamente costante con un numero crescente di sequenze (Fig. 3), che è in parte attribuibile al suo uso della struttura secondaria durante l’allineamento., Clustal Omega, MAFFT e DECIPHER hanno tutti punteggi M simili nell’intervallo di dimensioni di input (file aggiuntivo 1: Figura S3). Il MUSCOLO ha avuto le prestazioni più povere, con punteggi Q e M sostanzialmente peggiori per tutti tranne i più piccoli set di sequenze di input. Inoltre, sebbene Q-score, total column score (TC-score) e Cline shift-score a volte diano classifiche di prestazioni contrastanti, queste tre statistiche sono fortemente concordate su entrambi i benchmark (file aggiuntivo 1: Figure S4 e S5).,

L’allenamento eccessivo a un singolo set di riferimento è stato un problema per alcuni programmi di allineamento , sebbene entrambi i set di riferimento utilizzati qui abbiano mostrato risultati simili. Tuttavia, altri programmi possono essere meglio addestrati sui benchmark originali che non sono basati sugli output del programma di allineamento strutturale MUSTANG. Per verificare che DECIPHER non fosse troppo addestrato alle uscite di MUSTANG, ho ripetuto l’analisi usando le coppie di riferimento prefabbricate originali, che erano allineate indipendentemente da MUSTANG., Le sequenze di riferimento PREFABBRICATE non modificate hanno mostrato una forte concordanza della struttura secondaria e quindi forniscono un benchmark alternativo di alta qualità. Tuttavia, i risultati (file aggiuntivo 1: Figura S6) erano molto simili per entrambi i set di sequenze di riferimento, indicando che le prestazioni di DECIPHER non erano strettamente legate agli output di MUSTANG.

Ho poi confrontato DECIPHER a PASTA , che è un programma destinato a estendere la precisione degli algoritmi meno scalabili a grandi allineamenti., PASTA funziona dividendo un allineamento in sottoproblemi sovrapposti che sono allineati con una strategia accurata, per impostazione predefinita l’approccio basato sulla coerenza L-INS-i di MAFFT. Questi sotto-allineamenti vengono uniti usando la transitività e il processo viene ripetuto a partire da un nuovo albero guida. È interessante notare che la PASTA ha sovraperformato DECIFRARE su set di 125 e 250 sequenze su HOMSTRAD-mod (Fig. 5), ma era statisticamente indistinguibile su set più grandi (file aggiuntivo 1: Tabella S2). Tuttavia, DECIFRARE sostanzialmente sovraperformato PASTA su PREFABBRICATO-mod, e il suo piombo è aumentato come più sequenze sono state allineate., Inoltre, la PASTA ha mostrato un grande calo di precisione con l’aumentare delle dimensioni di allineamento. La tabella 1 mostra che le prestazioni di DECIPHER sono diminuite meno di tutti i programmi di allineamento all’aumentare delle dimensioni dell’allineamento.

Tabella 1 Variazione media Q-punteggio in base al numero di sequenze allineate

Infine, ho confrontato DECIFRARE la performance di PROMALS , che è un programma che si basa su più accurata struttura secondaria ottenuti da PSIPRED ., PROMALS esegue prima ricerche PSI-BLAST con sequenze rappresentative dal set di input e quindi utilizza previsioni accurate della struttura secondaria con un approccio basato sulla coerenza per allineare le sequenze. PROMALS ha notevolmente superato tutti gli altri programmi di allineamento sui set più piccoli di due sequenze, ma il suo vantaggio è scomparso una volta aggiunte altre sequenze al set di input (Fig. 5). Inoltre, era diversi ordini di grandezza più lento che gli altri allineatori (Fig. 6), e test di input set più grandi di 125 sequenze dimostrato proibitivo in termini di tempo., Sono disponibili approcci più recenti che fanno uso di strutture proteiche risolte, come PROMALS3D . Tuttavia, non è chiaro come testare tali approcci su benchmark strutturali, perché le sequenze di riferimento sono probabilmente presenti negli stessi database di struttura utilizzati da questi programmi.

Fig. 6

Tempo medio di esecuzione in base al numero di sequenze allineate (notare le interruzioni degli assi e la scala di log)., PROMALS era sostanzialmente più lento rispetto agli altri programmi che non si basano su un ampio database esterno di sequenze. MAFFT è stato il programma più veloce per grandi serie di sequenze. PASTA è stato il programma più lento testato per allineare grandi serie di sequenze, che richiedono una media di 2,7 ore per allineare 4.000 sequenze. Un notevole miglioramento della velocità è stato ottenuto con DECIPHER utilizzando più processori

DECIPHER non era né il programma più lento né il più veloce benchmark per allineare ciascuno dei set di sequenze (Fig. 6)., MAFFT era generalmente il programma più veloce, ad eccezione dei più piccoli set di sequenze in cui utilizza strategie più lente e più accurate per l’allineamento. Il cambiamento nel tempo trascorso è drammatico per MAFFT e MUSCLE oltre le sequenze 250 in cui sono state utilizzate strategie più efficienti. La PASTA era il programma più lento e richiedeva una media di 2,7 ore per allineare 4.000 sequenze. Sia Clustal Omega che DECIPHER sono stati in grado di allineare 4.000 sequenze in circa mezz’ora in media. Poiché il calcolo dell’albero guida è il fattore limitante per insiemi di sequenze di grandi dimensioni, la parallelizzazione può essere utile in tali circostanze., Ad esempio, DECIFRARE era circa due volte più veloce quando sono stati utilizzati 8 processori (Fig. 6). L’utilizzo massimo della memoria di DECIPHER era di 2 GB quando si allineavano 4.000 sequenze.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *