DECIPHER: aprovechar el contexto de secuencia local para mejorar la alineación de secuencia múltiple de proteínas

elegir alineaciones de referencia de alta calidad para benchmarking

Los diferentes puntos de referencia a menudo resultan en parámetros óptimos contrastantes (por ejemplo, apertura de brechas y penalizaciones de extensión) y una clasificación de rendimiento incompatible de los programas de alineación . Por estas razones, la elección del punto de referencia es de suma importancia al desarrollar y comparar algoritmos para la alineación de secuencias., Para elegir los puntos de referencia de alineación para este estudio, comencé comparando la concordancia de la estructura secundaria entre los puntos de referencia comunes. Este método de comparación requiere que la estructura secundaria de las secuencias de referencia esté disponible, lo que excluye los puntos de referencia populares de BAliBASE porque la estructura secundaria correspondiente de la mayoría de las secuencias de BAliBASE es desconocida . Aunque el Acuerdo de estructura secundaria por sí solo es insuficiente para garantizar un punto de referencia de alta calidad, la falta de acuerdo puede ser una indicación de inexactitud de alineación.,

se espera que las mejores alineaciones de referencia tengan un mayor porcentaje de residuos alineados con una estructura secundaria idéntica. Sin embargo, se prevé cierto desacuerdo en la estructura secundaria debido tanto a las dificultades intrínsecas en la asignación de la estructura secundaria como a los desafíos inherentes a la alineación de las estructuras terciarias relacionadas a distancia . La figura 1 muestra la fracción de acuerdo de estructura secundaria versus identidad de secuencia en pares para cuatro parámetros comunes de aminoácidos., Los puntos de referencia SABmark y PREFAB contienen la mayor fracción de sus secuencias en o por debajo de la «zona crepuscular» de 20 a 35% de identidad de secuencia, mientras que el énfasis de OXBench está en alineaciones menos desafiantes. PREFAB parece estar significativamente mejor alineado en general que SABmark, a pesar de que ambas referencias cubren un rango similar de identidades de secuencia. Para secuencias con menos del 10% de identidad, PREFAB tiene una identidad estructural 13.4% mayor (p < 1e-15) que SABmark., Estos hallazgos están de acuerdo con un estudio previo que encontró que PREFAB es el mejor punto de referencia diseñado específicamente para comparar programas MSA, aunque se sabe que PREFAB contiene errores .

todas las columnas de las alineaciones se utilizaron para evaluar la precisión general de cada punto de referencia en lugar de solo usar bloques centrales (regiones homólogas), que generalmente se delinean con letras mayúsculas., La elección de usar la alineación completa se hizo porque: (i) la definición de bloques de núcleo varía entre los puntos de referencia, (II) algunos procedimientos de puntuación hacen uso de la alineación completa , (iii) la distancia en pares se calcula utilizando la alineación completa, y (iv) los puntos de referencia de HOMSTRAD y SABmark no delinean bloques de núcleo. Los bloques de núcleo en PREFAB se asignaron en función del acuerdo entre dos programas de alineación estructural diferentes., Esto me motivó a mirar la diferencia entre los puntos de referencia originales y las mismas secuencias realineadas con el programa de alineación estructural independiente de la secuencia MUSTANG . Los realineamientos con MUSTANG mostraron mayor congruencia estructural secundaria que los puntos de referencia originales, excepto en el caso de HOMSTRAD (Fig. 1). En particular, SABmark tenía una identidad de estructura secundaria superior del 11,2% después de la realineación con MUSTANG (p < 1e-15)., Este resultado apoya el uso de la base de datos HOMSTRAD como un punto de referencia de alineación a pesar de que originalmente no estaba destinado para este propósito.

dado que el número de secuencias con estructura conocida es pequeño en relación con el número de secuencias disponibles, la mayoría de los puntos de referencia se complementan con secuencias adicionales no alineadas que no se consideran en la puntuación. Las alineaciones de referencia prefabricadas se complementan con secuencias adicionales que se encuentran utilizando búsquedas PSI-BLAST con las secuencias de referencia. Las secuencias de HOMSTAD se complementan comúnmente con otras secuencias pertenecientes a la misma familia Pfam ., Comparé estos dos enfoques seleccionando aleatoriamente secuencias de la familia Pfam correspondientes a las secuencias de referencia prefabricadas. Después de generar una alineación con el mismo número de secuencias suplementarias, se construyó un árbol de unión vecino para determinar la amplitud de las secuencias añadidas. La longitud promedio del árbol fue 1.6 veces mayor para secuencias Pfam aleatorias que las incluidas con PREFAB (p < 1e-15)., Esto indica que extender el conjunto de entrada de una manera que no dependa directamente de las secuencias de referencia resulta en la mayor diversidad de secuencias suplementarias.

no está claro qué benchmark de referencia refleja más adecuadamente las secuencias de un usuario típico, y la amplia diversidad de aplicaciones de MSA probablemente abarca la mayoría de los escenarios de alineación encontrados en benchmarks. Los conjuntos de SABmark cubren un estrecho rango de identidades de secuencia, mientras que OXBench se centra en secuencias estrechamente relacionadas que son más fáciles de alinear., Debido a la calidad de la alineación y la amplitud de las identidades de secuencia, elegí continuar el resto de este estudio con versiones ligeramente modificadas de los conjuntos de datos originales PREFAB y HOMSTRAD, llamados PREFAB-mod y HOMSTRAD-mod (ver Métodos). Para complementar los puntos de referencia modificados, agregué secuencias completas pertenecientes a la misma familia Pfam. Se utilizaron secuencias de longitud completa en lugar de solo el dominio compartido para hacer las alineaciones más desafiantes y representar una mayor variedad de escenarios de uso potenciales., A menudo las secuencias que se alinean tienen longitudes variables porque cubren regiones superpuestas de un gen, o se recortaron de manera diferente en función de sus puntuaciones de calidad en cada terminal.

incorporación escalable de la estructura secundaria en la alineación

a pesar de la estrecha conexión entre la estructura secundaria y la alineación de secuencias, los programas de alineación de proteínas más populares no predicen información estructural., El principal inconveniente de la predicción de estructuras secundarias es que es lento para calcular con precisión, lo que le impide escalar a la alineación de cientos de secuencias en una cantidad razonable de tiempo . Las predicciones de estructuras secundarias menos precisas se pueden obtener muy rápidamente utilizando enfoques de secuencia única que no se basan en la construcción de una alineación múltiple con secuencias homólogas. El método GOR es uno de los más precisos dada una sola secuencia ., En este método, la estructura secundaria se asigna a uno de tres estados: hélice (H), Hoja (e) o bobina (C) En función del contexto de secuencia local que rodea a un residuo. Este enfoque tiene la ventaja de que es extremadamente rápido (< 1% del tiempo requerido para la alineación), proporciona un valor de probabilidad para cada estado y ofrece aproximadamente un 65% de precisión .,

para integrar las predicciones de estructura secundaria en el marco de programación dinámica para la alineación de perfil-perfil, agregué una nueva matriz simétrica de 3 × 3 que representa las probabilidades logarítmicas de alinear una H, E O C En una secuencia con otra posición asignada a H, E O C en una segunda secuencia. El acoplamiento de esta matriz con la probabilidad asignada a cada uno de los tres estados estructurales permitió la alineación perfil-perfil de las estructuras secundarias., La puntuación obtenida a partir de la alineación de perfiles de estructuras secundarias aumentó la puntuación tradicional basada en la matriz de sustitución determinada a partir de las secuencias primarias (véase el texto adicional del archivo 1). De esta manera, el Acuerdo de estructura primaria y secundaria puede maximizarse simultáneamente.

La Figura 2 muestra un ejemplo de alineación de la familia de proteínas lactato/malato deshidrogenasa (Pfam accession no. PF00056; familia «ldh» de HOMSTRAD) obtenida mediante este enfoque., Las asignaciones de DSSP están en general de acuerdo a través de la alineación HOMSTRAD-mod, que se basa en las estructuras terciarias conocidas de estas proteínas. Predictions made with the GOR method reflect these secondary structure assignments with some discrepancies. Las predicciones de GOR guían la alineación del descifrador, que coincide exactamente con la alineación de referencia en regiones definidas como bloques centrales, denotadas por letras mayúsculas en la alineación superior de la Fig. 2., Las regiones de la alineación de referencia que quedan fuera de los bloques de núcleo no se utilizan para determinar la precisión y difieren de la salida de descifrado en algunas columnas.