DECIFRARE: sfruttare il contesto della sequenza locale per migliorare l'allineamento della sequenza multipla di proteine / BMC Bioinformatica

La scelta di allineamenti di riferimento di alta qualità per il benchmarking

Diversi benchmark spesso si traducono in parametri ottimali contrastanti (ad Per questi motivi, la scelta del benchmark è della massima importanza quando si sviluppano e si confrontano algoritmi per l’allineamento delle sequenze., Per scegliere i benchmark di allineamento per questo studio, ho iniziato confrontando la concordanza della struttura secondaria tra benchmark comuni. Questo metodo di confronto richiede che sia disponibile la struttura secondaria delle sequenze di riferimento, il che esclude i popolari benchmark di BAliBASE perché la struttura secondaria corrispondente della maggior parte delle sequenze di BAliBASE è sconosciuta . Sebbene l’accordo sulla struttura secondaria da solo non sia sufficiente a garantire un benchmark di alta qualità, una mancanza di accordo può essere un’indicazione di inesattezza dell’allineamento.,

Si prevede che migliori allineamenti di riferimento avranno una percentuale maggiore di residui allineati con identica struttura secondaria. Tuttavia, alcuni disaccordi nella struttura secondaria sono previsti a causa sia delle difficoltà intrinseche nell’assegnazione della struttura secondaria che delle sfide inerenti all’allineamento delle strutture terziarie distanti . La figura 1 mostra la frazione dell’accordo di struttura secondaria rispetto all’identità di sequenza a coppie per quattro benchmark comuni di aminoacidi., I benchmark SABmark e PREFAB contengono la più grande frazione delle loro sequenze all’interno o al di sotto della “zona crepuscolare” del 20-35% di identità di sequenza, mentre l’enfasi di OXBench è su allineamenti meno impegnativi. Il prefabbricato sembra essere significativamente più allineato rispetto a SABmark, nonostante entrambi i riferimenti coprano una gamma simile di identità di sequenza. Per sequenze con un’identità inferiore al 10%, PREFAB ha un’identità strutturale maggiore del 13,4% (p < 1e-15) rispetto a SABmark., Questi risultati sono in accordo con uno studio precedente che ha trovato PREFAB come il miglior benchmark progettato specificamente per confrontare i programmi MSA, anche se PREFAB è noto per contenere errori .

Tutte le colonne degli allineamenti sono state utilizzate per valutare l’accuratezza complessiva di ciascun benchmark piuttosto che utilizzare solo blocchi core (regioni omologhe), che sono tipicamente delineati da lettere maiuscole., La scelta di utilizzare l’intero allineamento è stata fatta perché: (i) la definizione dei blocchi principali varia tra i benchmark, (ii) alcune procedure di punteggio fanno uso dell’intero allineamento , (iii) la distanza a coppie viene calcolata utilizzando l’intero allineamento e (iv) i benchmark HOMSTRAD e SABmark non delineano i blocchi principali. I blocchi principali in PREFAB sono stati assegnati in base all’accordo tra due diversi programmi di allineamento strutturale., Questo mi ha motivato a guardare la differenza tra i benchmark originali e le stesse sequenze riallineate con il programma di allineamento strutturale indipendente dalla sequenza MUSTANG . I riallineamenti con MUSTANG hanno mostrato una maggiore congruenza strutturale secondaria rispetto ai benchmark originali, tranne nel caso di HOMSTRAD (Fig. 1). In particolare, SABmark aveva un’identità di struttura secondaria superiore dell ‘ 11,2% dopo il riallineamento con MUSTANG (p < 1e-15)., Questo risultato supporta l’uso del database HOMSTRAD come benchmark di allineamento anche se non era originariamente destinato a questo scopo.

Poiché il numero di sequenze con struttura nota è piccolo rispetto al numero di sequenze disponibili, la maggior parte dei benchmark sono integrati con ulteriori sequenze non allineate che non sono considerate nel punteggio. Gli allineamenti di riferimento prefabbricati sono integrati con sequenze aggiuntive trovate utilizzando le ricerche PSI-BLAST con le sequenze di riferimento. Le sequenze HOMSTAD sono comunemente integrate con altre sequenze appartenenti alla stessa famiglia Pfam ., Ho confrontato questi due approcci selezionando casualmente sequenze dalla famiglia Pfam corrispondenti alle sequenze di riferimento prefabbricate. Dopo aver generato un allineamento con lo stesso numero di sequenze supplementari, è stato costruito un albero di giunzione vicino per determinare l’ampiezza delle sequenze aggiunte. La lunghezza media dell’albero era 1,6 volte più lunga per le sequenze Pfam casuali rispetto a quelle incluse con PREFAB (p < 1e-15)., Ciò ha indicato che l’estensione del set di input in un modo che non dipende direttamente dalle sequenze di riferimento produce la massima diversità di sequenze supplementari.

Non è chiaro quale benchmark di riferimento rifletta più adeguatamente le sequenze di un utente tipico e l’ampia diversità delle applicazioni MSA probabilmente abbraccia la maggior parte degli scenari di allineamento trovati nei benchmark. I set SABmark coprono una gamma ristretta di identità di sequenza, mentre OXBench si concentra su sequenze strettamente correlate che sono più facili da allineare., A causa della qualità dell’allineamento e dell’ampiezza delle identità di sequenza, ho scelto di continuare il resto di questo studio con versioni leggermente modificate dei set di dati PREFAB e HOMSTRAD originali, chiamati PREFAB-mod e HOMSTRAD-mod (vedi Metodi). Per integrare i benchmark modificati, ho aggiunto sequenze full-length appartenenti alla stessa famiglia Pfam. Sono state utilizzate sequenze full-length piuttosto che solo il dominio condiviso per rendere gli allineamenti più impegnativi e per rappresentare una maggiore varietà di potenziali scenari di utilizzo., Spesso le sequenze allineate hanno lunghezze variabili perché coprono regioni sovrapposte di un gene o sono state tagliate in modo diverso in base ai loro punteggi di qualità a ciascun terminale.

Incorporazione scalabile della struttura secondaria nell’allineamento

Nonostante la stretta connessione tra struttura secondaria e allineamento di sequenza, i programmi di allineamento delle proteine più diffusi non prevedono informazioni strutturali., Lo svantaggio principale della previsione della struttura secondaria è che è lento a calcolare con precisione, il che impedisce di ridimensionare l’allineamento di centinaia di sequenze in un ragionevole lasso di tempo . Previsioni di struttura secondaria meno accurate possono essere ottenute molto rapidamente utilizzando approcci a sequenza singola che non si basano sulla costruzione di un allineamento multiplo con sequenze omologhe. Il metodo GOR è uno dei più accurati dato una singola sequenza ., In questo metodo la struttura secondaria viene assegnata a uno dei tre stati: elica (H), foglio (E) o bobina (C) in base al contesto di sequenza locale che circonda un residuo. Questo approccio ha il vantaggio di essere estremamente veloce (< 1% del tempo richiesto per l’allineamento), fornisce un valore di probabilità per ogni stato e offre una precisione di circa il 65%.,

Per integrare le previsioni della struttura secondaria nel framework di programmazione dinamica per l’allineamento profilo-profilo, ho aggiunto una nuova matrice simmetrica 3 × 3 che rappresenta le probabilità di log di allineare un H, E o C in una sequenza con un’altra posizione assegnata a H, E o C in una seconda sequenza. L’accoppiamento di questa matrice con la probabilità assegnata a ciascuno dei tre stati strutturali ha permesso l’allineamento profilo-profilo delle strutture secondarie., Il punteggio ottenuto dall’allineamento dei profili di struttura secondaria ha aumentato il punteggio tradizionale basato sulla matrice di sostituzione determinato dalle sequenze primarie (vedere il testo aggiuntivo del file 1). In questo modo, l’accordo di struttura primaria e secondaria può essere massimizzato simultaneamente.

La figura 2 mostra un esempio di allineamento della famiglia di proteine lattato / malato deidrogenasi (Pfam accession no. PF00056; famiglia HOMSTRAD “ldh”) ottenuto utilizzando questo approccio., Le assegnazioni DSSP sono in accordo generale attraverso l’allineamento HOMSTRAD-mod, che si basa sulle strutture terziarie note di queste proteine. Le previsioni fatte con il metodo GOR riflettono queste assegnazioni di struttura secondaria con alcune discrepanze. Le previsioni GOR guidano l’allineamento DECIFRARE, che corrisponde esattamente l’allineamento di riferimento in regioni definite come blocchi di base, indicato da lettere maiuscole nell’allineamento superiore di Fig. 2., Le regioni dell’allineamento di riferimento che non rientrano nei blocchi principali non vengono utilizzate per determinare la precisione e differiscono dall’output di DECIFRAZIONE in alcune colonne.