DECIPHER: aprovechar el contexto de secuencia local para mejorar la alineación de secuencia múltiple de proteínas

elegir alineaciones de referencia de alta calidad para benchmarking

Los diferentes puntos de referencia a menudo resultan en parámetros óptimos contrastantes (por ejemplo, apertura de brechas y penalizaciones de extensión) y una clasificación de rendimiento incompatible de los programas de alineación . Por estas razones, la elección del punto de referencia es de suma importancia al desarrollar y comparar algoritmos para la alineación de secuencias., Para elegir los puntos de referencia de alineación para este estudio, comencé comparando la concordancia de la estructura secundaria entre los puntos de referencia comunes. Este método de comparación requiere que la estructura secundaria de las secuencias de referencia esté disponible, lo que excluye los puntos de referencia populares de BAliBASE porque la estructura secundaria correspondiente de la mayoría de las secuencias de BAliBASE es desconocida . Aunque el Acuerdo de estructura secundaria por sí solo es insuficiente para garantizar un punto de referencia de alta calidad, la falta de acuerdo puede ser una indicación de inexactitud de alineación.,

se espera que las mejores alineaciones de referencia tengan un mayor porcentaje de residuos alineados con una estructura secundaria idéntica. Sin embargo, se prevé cierto desacuerdo en la estructura secundaria debido tanto a las dificultades intrínsecas en la asignación de la estructura secundaria como a los desafíos inherentes a la alineación de las estructuras terciarias relacionadas a distancia . La figura 1 muestra la fracción de acuerdo de estructura secundaria versus identidad de secuencia en pares para cuatro parámetros comunes de aminoácidos., Los puntos de referencia SABmark y PREFAB contienen la mayor fracción de sus secuencias en o por debajo de la «zona crepuscular» de 20 a 35% de identidad de secuencia, mientras que el énfasis de OXBench está en alineaciones menos desafiantes. PREFAB parece estar significativamente mejor alineado en general que SABmark, a pesar de que ambas referencias cubren un rango similar de identidades de secuencia. Para secuencias con menos del 10% de identidad, PREFAB tiene una identidad estructural 13.4% mayor (p < 1e-15) que SABmark., Estos hallazgos están de acuerdo con un estudio previo que encontró que PREFAB es el mejor punto de referencia diseñado específicamente para comparar programas MSA, aunque se sabe que PREFAB contiene errores .

todas las columnas de las alineaciones se utilizaron para evaluar la precisión general de cada punto de referencia en lugar de solo usar bloques centrales (regiones homólogas), que generalmente se delinean con letras mayúsculas., La elección de usar la alineación completa se hizo porque: (i) la definición de bloques de núcleo varía entre los puntos de referencia, (II) algunos procedimientos de puntuación hacen uso de la alineación completa , (iii) la distancia en pares se calcula utilizando la alineación completa, y (iv) los puntos de referencia de HOMSTRAD y SABmark no delinean bloques de núcleo. Los bloques de núcleo en PREFAB se asignaron en función del acuerdo entre dos programas de alineación estructural diferentes., Esto me motivó a mirar la diferencia entre los puntos de referencia originales y las mismas secuencias realineadas con el programa de alineación estructural independiente de la secuencia MUSTANG . Los realineamientos con MUSTANG mostraron mayor congruencia estructural secundaria que los puntos de referencia originales, excepto en el caso de HOMSTRAD (Fig. 1). En particular, SABmark tenía una identidad de estructura secundaria superior del 11,2% después de la realineación con MUSTANG (p < 1e-15)., Este resultado apoya el uso de la base de datos HOMSTRAD como un punto de referencia de alineación a pesar de que originalmente no estaba destinado para este propósito.

dado que el número de secuencias con estructura conocida es pequeño en relación con el número de secuencias disponibles, la mayoría de los puntos de referencia se complementan con secuencias adicionales no alineadas que no se consideran en la puntuación. Las alineaciones de referencia prefabricadas se complementan con secuencias adicionales que se encuentran utilizando búsquedas PSI-BLAST con las secuencias de referencia. Las secuencias de HOMSTAD se complementan comúnmente con otras secuencias pertenecientes a la misma familia Pfam ., Comparé estos dos enfoques seleccionando aleatoriamente secuencias de la familia Pfam correspondientes a las secuencias de referencia prefabricadas. Después de generar una alineación con el mismo número de secuencias suplementarias, se construyó un árbol de unión vecino para determinar la amplitud de las secuencias añadidas. La longitud promedio del árbol fue 1.6 veces mayor para secuencias Pfam aleatorias que las incluidas con PREFAB (p < 1e-15)., Esto indica que extender el conjunto de entrada de una manera que no dependa directamente de las secuencias de referencia resulta en la mayor diversidad de secuencias suplementarias.

no está claro qué benchmark de referencia refleja más adecuadamente las secuencias de un usuario típico, y la amplia diversidad de aplicaciones de MSA probablemente abarca la mayoría de los escenarios de alineación encontrados en benchmarks. Los conjuntos de SABmark cubren un estrecho rango de identidades de secuencia, mientras que OXBench se centra en secuencias estrechamente relacionadas que son más fáciles de alinear., Debido a la calidad de la alineación y la amplitud de las identidades de secuencia, elegí continuar el resto de este estudio con versiones ligeramente modificadas de los conjuntos de datos originales PREFAB y HOMSTRAD, llamados PREFAB-mod y HOMSTRAD-mod (ver Métodos). Para complementar los puntos de referencia modificados, agregué secuencias completas pertenecientes a la misma familia Pfam. Se utilizaron secuencias de longitud completa en lugar de solo el dominio compartido para hacer las alineaciones más desafiantes y representar una mayor variedad de escenarios de uso potenciales., A menudo las secuencias que se alinean tienen longitudes variables porque cubren regiones superpuestas de un gen, o se recortaron de manera diferente en función de sus puntuaciones de calidad en cada terminal.

incorporación escalable de la estructura secundaria en la alineación

a pesar de la estrecha conexión entre la estructura secundaria y la alineación de secuencias, los programas de alineación de proteínas más populares no predicen información estructural., El principal inconveniente de la predicción de estructuras secundarias es que es lento para calcular con precisión, lo que le impide escalar a la alineación de cientos de secuencias en una cantidad razonable de tiempo . Las predicciones de estructuras secundarias menos precisas se pueden obtener muy rápidamente utilizando enfoques de secuencia única que no se basan en la construcción de una alineación múltiple con secuencias homólogas. El método GOR es uno de los más precisos dada una sola secuencia ., En este método, la estructura secundaria se asigna a uno de tres estados: hélice (H), Hoja (e) o bobina (C) En función del contexto de secuencia local que rodea a un residuo. Este enfoque tiene la ventaja de que es extremadamente rápido (< 1% del tiempo requerido para la alineación), proporciona un valor de probabilidad para cada estado y ofrece aproximadamente un 65% de precisión .,

para integrar las predicciones de estructura secundaria en el marco de programación dinámica para la alineación de perfil-perfil, agregué una nueva matriz simétrica de 3 × 3 que representa las probabilidades logarítmicas de alinear una H, E O C En una secuencia con otra posición asignada a H, E O C en una segunda secuencia. El acoplamiento de esta matriz con la probabilidad asignada a cada uno de los tres estados estructurales permitió la alineación perfil-perfil de las estructuras secundarias., La puntuación obtenida a partir de la alineación de perfiles de estructuras secundarias aumentó la puntuación tradicional basada en la matriz de sustitución determinada a partir de las secuencias primarias (véase el texto adicional del archivo 1). De esta manera, el Acuerdo de estructura primaria y secundaria puede maximizarse simultáneamente.

La Figura 2 muestra un ejemplo de alineación de la familia de proteínas lactato/malato deshidrogenasa (Pfam accession no. PF00056; familia «ldh» de HOMSTRAD) obtenida mediante este enfoque., Las asignaciones de DSSP están en general de acuerdo a través de la alineación HOMSTRAD-mod, que se basa en las estructuras terciarias conocidas de estas proteínas. Predictions made with the GOR method reflect these secondary structure assignments with some discrepancies. Las predicciones de GOR guían la alineación del descifrador, que coincide exactamente con la alineación de referencia en regiones definidas como bloques centrales, denotadas por letras mayúsculas en la alineación superior de la Fig. 2., Las regiones de la alineación de referencia que quedan fuera de los bloques de núcleo no se utilizan para determinar la precisión y difieren de la salida de descifrado en algunas columnas.

Fig. 2

C-terminal end of alignments of the lactate/malate deshidrogenase protein family (Pfam accession no. PF00056) coloreado por la estructura secundaria prevista. La alineación superior (secuencias nombradas por PDB ID) es de la referencia HOMSTRAD-mod coloreada por asignaciones DSSP , con letras mayúsculas que denotan bloques de núcleo., La alineación inferior muestra las mismas secuencias (nombradas por el organismo) realineadas con descifrador y coloreadas de acuerdo con las probabilidades de 3 estados predichas por el método GOR . Las columnas de la alineación inferior en negrita coinciden exactamente con las columnas de la alineación de referencia superior

una ventaja de usar una pequeña matriz de estructura secundaria de 3 × 3 es que el número de parámetros libres es muy superado en número por el número de puntos de datos informativos, lo que hace que el error de estimación sea insignificante (archivo adicional 1: Figura S1)., Para encontrar valores óptimos para cada uno de los 6 parámetros distintos en la matriz, realicé una búsqueda de cuadrícula para la solución que resultó en las alineaciones de mejor puntuación basadas en la suma de Q-score y m-score en un subconjunto de HOMSTRAD-mod que consta de 238 conjuntos de referencia. En el punto óptimo entre la sobre-alineación y la sub-alineación, cualquier ganancia En Q-score es superada por la pérdida correspondiente en M-score, y viceversa. La matriz de estructura secundaria optimizada se muestra en la Fig. 3a., Es muy probable que los Estados electrónicos estén alineados, como se refleja en la gran contribución de los emparejamientos E/E a la puntuación de la estructura secundaria. El método GOR tiende a subestimar las hojas β, lo que resulta en una fracción baja de Estados E en la mayoría de las secuencias .

Fig. 3

una matriz de estructura optimizada para emparejamientos entre estados de hélice (H), hoja β (E) o bobina (C). b Los valores repetidos están atenuados ya que la matriz es simétrica., Después de incorporar esta matriz en la alineación, la mejora promedio en la puntuación Q en las alineaciones por pares fue mayor para los pares distantes. C los alineamientos que utilizan la matriz de estructura (símbolos abiertos) mostraron poca disminución en la precisión, ya que el número de secuencias de entrada aumentó en relación con los alineamientos realizados sin predicciones estructurales (símbolos cerrados). En todos los tamaños de alineación, el uso de la estructura secundaria mejoró la puntuación Q (p < 1e-5 para todos)., Del mismo modo, la mejora en la puntuación Q (separación entre Símbolos abiertos y cerrados) aumentó a medida que se alineaban más secuencias

a continuación, pregunté si la incorporación de la estructura secundaria mejoraba la alineación de secuencias y cómo se escalaba con el número de secuencias alineadas. Promediado en todos los tamaños de conjuntos de secuencias, la incorporación de la estructura secundaria resultó en una mejora del 5,3% en la puntuación Q en PREFAB-mod y del 2,1% en HOMSTRAD-mod. Este aumento sustancial en la puntuación q se produjo a expensas de un 0.,4% disminución en M-score en PREFAB-mod y un 0,3% disminución en HOMSTRAD-mod. Por lo tanto, la fracción de homologías que están correctamente alineadas disminuyó ligeramente, mientras que el número total de homologías correctamente alineadas aumentó sustancialmente. Como era de esperar, las mayores ganancias fueron en conjuntos de referencia divergentes donde hay más margen de mejora, y esencialmente no se obtuvo ninguna ganancia en referencias con menos del 60% de distancia media entre pares (Fig. 3b)., Las predicciones de estructura secundaria proporcionaron un mayor beneficio en PREFAB-mod porque una fracción mayor de sus secuencias de referencia están a más del 60% de distancia.

curiosamente, la mejora de la incorporación de la estructura secundaria aumentó a medida que se alinearon más secuencias (Fig. 3c). En los conjuntos más pequeños de 2 secuencias hubo una mejora del 3,4% en PREFAB-mod y del 1,2% en HOMSTRAD-mod. En grandes series de 4.000 secuencias, la ventaja aumentó a 8,5 % y 3,3%, respectivamente., Por lo tanto, la incorporación de la estructura secundaria contrarrestó parcialmente la disminución de la puntuación que se observa típicamente con alineamientos más grandes . Este comportamiento refleja el de la predicción de estructuras secundarias, donde la precisión aumenta a medida que se utilizan más secuencias en el cálculo . Por esta razón, los Algoritmos de predicción de estructuras secundarias más precisos hacen uso de múltiples alineaciones. Del mismo modo, Aquí las predicciones iniciales de la estructura secundaria carecen de precisión, ya que se obtienen a partir de secuencias individuales., A medida que se alinean más secuencias, estas probabilidades se promedian para aumentar su precisión y guiar mejor la alineación. Esto está en contraste con la secuencia primaria, donde las secuencias adicionales inevitablemente resultan en más ambigüedad, lo que en parte causa una pérdida de señal que se manifiesta en una alineación de mala calidad de los perfiles ambiguos.,

incluyendo un modelo de probabilidad de indel para mejorar el posicionamiento de gap

motivado por la mejora obtenida al incorporar el contexto de secuencia local a través de predicciones de estructura secundaria, pregunté si el mismo enfoque podría aplicarse a la colocación de gap. Investigaciones previas han revelado que las inserciones y deleciones (indels) son más probables que ocurran adyacentes a ciertos aminoácidos y en regiones expuestas de la bobina ., Por esta razón , es común disminuir el costo de abrir una brecha en estiramientos hidrofílicos, o alternativamente aumentar el costo en regiones hidrofóbicas que probablemente estén enterradas en el núcleo restringido de la proteína. Que yo sepa, un modelo más sofisticado de probabilidad de brecha basado en el contexto local no se ha aplicado a la alineación de secuencias. Con este fin, utilicé la base de datos One Gap para calcular la frecuencia relativa de los eventos indel basados en los residuos a la izquierda y a la derecha de un gap central., Esta información de frecuencia se convirtió entonces en puntuaciones log-odds de acuerdo con la frecuencia de fondo de cada aminoácido.

La Figura 4 muestra la contribución de los aminoácidos cercanos a la probabilidad de una brecha en la posición cero. Como se esperaba, los residuos hidrofóbicos (FMILYW) disminuyen en gran medida la probabilidad de una brecha. Los residuos hidrofílicos y de «ruptura de estructuras» (por ejemplo, p) aumentan la posibilidad de un hueco adyacente, aunque con menos efecto que los residuos hidrofóbicos., Dado que las puntuaciones log-odds están en las mismas unidades que la matriz de sustitución (terceros bits), se pueden aplicar directamente para modular los costos de apertura y cierre de brechas en cualquier posición en función de su contexto de secuencia local (archivo adicional 1: Tabla S1). Evalué diferentes tamaños de ventana para incluir esta información, y encontré que la mejor ventana se extendía desde la posición -4 a +4 en relación con la brecha central. Por lo tanto, el costo de crear una brecha en cualquier posición es el costo de la brecha original más una puntuación que se modula en función de los residuos a cada lado de la brecha (Ver archivo adicional 1).,

Fig. 4

contribución del contexto de secuencia local al costo de abrir una brecha en la alineación. Los residuos hidrofóbicos disminuyen en gran medida la probabilidad de una brecha, mientras que los residuos hidrofílicos y de «ruptura de estructura» aumentan la probabilidad de una brecha., En el modelo de brecha, se utilizaron posiciones ubicadas dentro de cuatro residuos para modular el costo de abrir una brecha en la posición cero

a continuación, calculé los puntajes log-odds para los residuos opuestos a la brecha (en la secuencia no asignada), y encontré que estas posiciones mostraban un pequeño sesgo en el contenido de aminoácidos (archivo adicional 1: Tabla S1). Hubo una correlación moderada entre las puntuaciones log-odds para las posiciones a la izquierda o a la derecha de la brecha y los residuos opuestos a la brecha (R2 de 0,69 y 0,64, respectivamente)., Sin embargo, en este caso no había ninguna diferencia aparente entre las ubicaciones dentro de la región gapped. Por esta razón, elegí simplemente modular el costo de extensión de la brecha en función de los puntajes promedio para los residuos «separados» de una manera independiente de la posición. En conjunto, Este modelo probabilístico de apertura y extensión de una brecha ajusta la penalización de brecha dentro de un rango de aproximadamente +/- 20% en cada posición.

para ampliar este modelo de colocación de huecos basado en el contexto de secuencia local, investigué a continuación el efecto de los patrones de secuencia cortos., Las repeticiones son una fuente importante de variación de longitud en las secuencias biológicas y se encuentran comúnmente en todas las ramas de la vida . Las repeticiones tienen una amplia variedad de formas, incluyendo repeticiones cortas de microsatélites de un solo codón y repeticiones en tándem más largas de regiones que pueden evolucionar a través de la mutación para no coincidir con el tiempo . Las repeticiones más largas se pueden alinear con programas especializados que emplean algoritmos de búsqueda de repeticiones en tándem . Los patrones cortos son típicamente descuidados como insignificantes por estos programas debido a su frecuente aparición en secuencias., Sin embargo, Chang y Benner encontraron que las repeticiones cortas de dipéptidos (por ejemplo, AA) eran más comunes de lo esperado alrededor de las brechas, lo que potencialmente ofrecía un medio para modular los costos de las brechas. Para investigar este efecto, examiné la ocurrencia de diferentes patrones de secuencia en la base de datos One Gap.

Las repeticiones de dipéptidos (corridas de 2 aminoácidos idénticos) que rodean las brechas fueron solo ligeramente más probables (< 1 tercer bit) de lo esperado por casualidad. Sin embargo, las brechas eran sustancialmente más probables de ocurrir alrededor de carreras de tres o más (por ejemplo, AAA), como se muestra en el archivo adicional 1: Figura S2., Este efecto fue particularmente pronunciado en la secuencia sin el espacio, lo que indica que los espacios a menudo están presentes porque una secuencia tiene una duración más larga que otra. Sorprendentemente, era menos probable que se produjeran huecos en la posición después del inicio de una carrera en la secuencia opuesta (por ejemplo, AA/A-), independientemente de la longitud de la carrera. Aunque el mecanismo para esta ocurrencia es Desconocido, puede ser debido a un papel biológico para las repeticiones de dipéptidos que resulta en su conservación. Una investigación similar de repeticiones de heteropéptidos con periodicidad 2 (E. G.,, ACAC) a 6 no reveló un fuerte sesgo hacia las brechas (archivo adicional 1: Figura S2). Por lo tanto, elegí extender el modelo de brecha para modular el costo de apertura de brecha en las posiciones antes e inmediatamente después del inicio de una carrera en la secuencia opuesta.

En general, el empleo de este modelo de colocación de huecos resultó en una mejora modesta de 0,5% en PREFAB-mod (p < 1e-4) y 0,3% en HOMSTRAD-mod (p < 1e-3). Las mejoras en la puntuación Q se compararon con aumentos del 0,2% en la puntuación M en ambos parámetros., Estos cambios en la puntuación fueron inesperados, ya que los puntos de referencia estructurales no consideran la mayoría de las regiones con huecos, ya que a menudo ocurren en partes de la estructura que son difíciles de superponer , y las repeticiones tienden a encontrarse en regiones proteicas desordenadas . A pesar de que las simulaciones evolutivas ofrecen un medio para calificar las regiones con huecos, tales simulaciones actualmente no incluyen un modelo de probabilidad de brecha dependiente del contexto., Por lo tanto, es posible que la colocación de las brechas haya mejorado más de lo que refleja el modesto aumento de las puntuaciones, pero actualmente no existe una forma adecuada de medir la ventaja real de incorporar un modelo sofisticado de brechas en la alineación.

comparación de DECIPHER con otros programas para MSA

después de haber integrado con éxito el conocimiento del contexto en el software de DECIPHER para la alineación de secuencias, comparé su rendimiento con otros programas de alineación de vanguardia., Primero, elegí comparar DECIPHER con tres programas populares capaces de alinear eficientemente miles de secuencias: Clustal Omega, MAFFT y MUSCLE . Estos programas se emplean regularmente en una variedad de estudios diferentes, y se han convertido en el estándar de facto para la comparación en puntos de referencia. La figura 5 muestra el rendimiento de cada programa en relación con DECIPHER para un número creciente de secuencias de entrada., El ranking de rendimiento está en fuerte acuerdo entre los puntos de referencia HOMSTRAD-mod y PREFAB-mod, sin embargo, hay una mayor propagación entre los programas en PREFAB-mod porque contiene una mayor fracción de secuencias en o por debajo de la dimensión desconocida.

Fig. 5

rendimiento de los populares programas de alineación de secuencias múltiples en relación con DECIPHER en los puntos de referencia HOMSTRAD-mod (h-mod) y PREFAB-mod (P-mod). PROMALS exhibió el mejor rendimiento en los conjuntos más pequeños de dos secuencias., MAFFT tuvo el mejor rendimiento en pequeños conjuntos de entrada de 125 secuencias, donde utiliza una estrategia basada en la consistencia mucho más lenta. El músculo mostró el peor rendimiento en series de secuencias más grandes. El rendimiento de DECIPHER en relación con otros programas mejoró a medida que se alinearon más secuencias

Cuando solo se alinearon dos secuencias de cada punto de referencia, todos los programas de alineación dieron resultados similares, con MAFFT mostrando la precisión más baja. En los conjuntos de 125 secuencias, DECIPHER ocupa el segundo lugar detrás de MAFFT., Para conjuntos de entrada de este tamaño, MAFFT utiliza su algoritmo basado en consistencia más preciso (L-INS-i) que no es escalable a conjuntos de secuencias más grandes. Más allá de 125 secuencias de entrada, DECIPHER supera claramente a los otros tres programas (archivo adicional 1: Tabla S2), y su ventaja mejora a medida que se alinean más secuencias (Fig. 5). Esto refleja el hecho de que la precisión de DECIPHER se mantiene relativamente constante con el aumento del número de secuencias (Fig. 3), que es en parte atribuible a su uso de la estructura secundaria durante la alineación., Clustal Omega, MAFFT y DECIPHER tienen puntuaciones m similares en el rango de tamaños de entrada (archivo adicional 1: Figura S3). El músculo tuvo el peor rendimiento, con puntuaciones Q Y M sustancialmente peores para todos, excepto para los conjuntos de secuencias de entrada más pequeños. Además, aunque el Q-score, el total column score (TC-score) y el Cline shift-score a veces dan clasificaciones de rendimiento contradictorias, estas tres Estadísticas coinciden firmemente en ambos puntos de referencia (archivo adicional 1: Figuras S4 y S5).,

el exceso de entrenamiento a un solo conjunto de referencia ha sido una preocupación para algunos programas de alineación , aunque ambos conjuntos de referencia utilizados aquí mostraron resultados similares. Sin embargo, otros programas pueden estar mejor entrenados en los puntos de referencia originales que no se basan en los resultados del programa de alineación estructural MUSTANG. Para verificar que DECIPHER no estaba sobre entrenado para las salidas de MUSTANG, repetí el análisis utilizando los pares de referencia prefabricados originales, que estaban alineados independientemente de MUSTANG., Las secuencias de referencia prefabricadas no modificadas mostraron una fuerte concordancia de estructura secundaria y, por lo tanto, proporcionan un punto de referencia alternativo de alta calidad. Sin embargo, los resultados (archivo adicional 1: Figura S6) fueron muy similares para ambos conjuntos de secuencias de referencia, lo que indica que el rendimiento de DECIPHER no estaba estrechamente vinculado a los resultados de MUSTANG.

i next comparó DECIPHER con PASTA, que es un programa destinado a extender la precisión de Algoritmos menos escalables a alineaciones grandes., PASTA funciona dividiendo una alineación en subproblemas superpuestos que están alineados con una estrategia precisa, por defecto el enfoque basado en la consistencia l-INS-i de MAFFT. Estas sub-alineaciones se fusionan usando transitividad, y el proceso se repite a partir de un nuevo árbol guía. Curiosamente, la PASTA superó a DECIPHER en series de 125 y 250 secuencias en HOMSTRAD-mod (Fig. 5), pero fue estadísticamente indistinguible en conjuntos más grandes (archivo adicional 1: Tabla S2). Sin embargo, DECIPHER superó sustancialmente a la PASTA en PREFAB-mod, y su plomo aumentó a medida que se alineaban más secuencias., Además, la PASTA mostró una gran caída en la precisión al aumentar el tamaño de la alineación. La tabla 1 muestra que el rendimiento de DECIPHER disminuyó menos de todos los programas de alineación a medida que aumentó el tamaño de la alineación.

Tabla 1 Cambio en el promedio de q-score según el número de secuencias alineadas

finalmente, comparé el rendimiento de DECIPHER con PROMALS , que es un programa que se basa en predicciones de estructura secundaria más precisas obtenidas de PSIPRED ., PROMALS primero realiza búsquedas PSI-BLAST con secuencias representativas del conjunto de entrada, y luego utiliza predicciones precisas de estructuras secundarias con un enfoque basado en la consistencia para alinear las secuencias. PROMALS superó en gran medida a todos los otros programas de alineación en los conjuntos más pequeños de dos secuencias, pero su ventaja desapareció una vez que se agregaron otras secuencias al conjunto de entrada (Fig. 5). Además, fue varios órdenes de magnitud más lento que los otros alineadores (Fig. 6), y las pruebas de conjuntos de entrada de más de 125 secuencias probaron consumir un tiempo prohibitivo., Existen enfoques más recientes que hacen uso de estructuras proteicas resueltas, como PROMALS3D . Sin embargo, no está claro cómo probar tales enfoques en puntos de referencia estructurales, porque las secuencias de referencia probablemente estén presentes en las mismas bases de datos de estructura utilizadas por estos programas.

Fig. 6

Tiempo de ejecución promedio de acuerdo con el número de secuencias que se alinean (tenga en cuenta los saltos de eje y la escala logarítmica)., PROMALS fue sustancialmente más lento que los otros programas que no dependen de una gran base de datos externa de secuencias. MAFFT fue el programa más rápido para grandes conjuntos de secuencias. PASTA fue el programa más lento probado para alinear conjuntos de secuencias grandes, requiriendo un promedio de 2.7 h para alinear 4,000 secuencias. Se obtuvo una mejora notable de la velocidad con DECIPHER mediante el uso de múltiples procesadores

DECIPHER no fue el programa más lento ni más rápido para alinear cada uno de los conjuntos de secuencias (Fig. 6)., MAFFT era generalmente el programa más rápido, excepto por los conjuntos de secuencias más pequeños donde utiliza estrategias más lentas y precisas para la alineación. El cambio en el tiempo transcurrido es dramático para MAFFT y MUSCLE beyond 250 secuencias donde se utilizaron estrategias más eficientes. PASTA fue el programa más lento, y requirió un promedio de 2.7 h para alinear 4.000 secuencias. Tanto Clustal Omega como DECIPHER fueron capaces de alinear 4.000 secuencias en aproximadamente media hora. Dado que el cálculo del árbol guía es el factor limitante para grandes conjuntos de secuencias, la paralelización puede ser útil en tales circunstancias., Por ejemplo, DECIPHER fue aproximadamente el doble de rápido cuando se utilizaron 8 procesadores (Fig. 6). El uso máximo de memoria de DECIPHER fue de 2 GB al alinear 4.000 secuencias.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *