DECIFRAR: aproveitamento de sequência local de contexto para melhorar a proteína de alinhamento múltiplo de seqüência

Escolher a alta qualidade de referência alinhamentos para benchmarking

referenciais Diferentes, resultam muitas vezes em contraste ideal parâmetros (por exemplo, gap de abertura e extensão de sanções) e um incompatíveis ranking de desempenho de alinhamento de programas . Por estas razões, a escolha de benchmark é de extrema importância no desenvolvimento e comparação de algoritmos para o alinhamento de seqüências., Para escolher benchmarks de alinhamento para este estudo, eu comecei por comparar a concordância de estrutura secundária através de benchmarks comuns. Este método de comparação requer que a estrutura secundária das sequências de referência esteja disponível, o que exclui os benchmarks de BAliBASE populares porque a estrutura secundária correspondente da maioria das sequências de BAliBASE é desconhecida . Embora o Acordo de estrutura secundária, por si só, seja insuficiente para garantir um valor de referência de elevada qualidade, a falta de acordo pode ser uma indicação de inexactidão no alinhamento.,

espera-se que os alinhamentos de melhor referência tenham uma maior percentagem de resíduos alinhados com uma estrutura secundária idêntica. No entanto, prevê-se algum desacordo na estrutura secundária devido às dificuldades intrínsecas na atribuição de estrutura secundária e aos desafios inerentes ao alinhamento de estruturas terciárias distantes . A figura 1 mostra a fração do Acordo de estrutura secundária versus a identidade da sequência emparelhada para quatro parâmetros de referência comuns de aminoácidos., Os benchmarks SABmark e PREFAB contêm a maior fração de suas sequências em ou abaixo da “twilight zone” de 20 a 35% de identidade de sequência, enquanto a ênfase de OXBench é em alinhamentos menos desafiadores. PREFAB parece estar significativamente melhor alinhado em geral do que SABmark, apesar de ambas as referências cobrindo uma gama semelhante de identidades de sequência. Para sequências com menos de 10% de identidade, o PREFAB tem 13,4% maior identidade estrutural (p < 1e-15) do que o SABmark., Estes achados estão de acordo com um estudo anterior que considerou o PREFAB como a melhor referência projetada especificamente para a comparação de programas de MSA, embora o PREFAB seja conhecido por conter erros .

Todas as colunas dos alinhamentos foram usadas para avaliar a exatidão geral de cada referencial ao invés de apenas usar blocos de núcleo (regiões homólogas), que são tipicamente delineados por letras maiúsculas., A escolha de usar todo o alinhamento foi feita porque: (i) A definição de blocos principais varia entre benchmarks, (ii) alguns procedimentos de pontuação fazem uso de todo o alinhamento , (iii) distância emparelhada é calculada usando todo o alinhamento, e (iv) os benchmarks HOMSTRAD e SABmark não delineiam blocos centrais. Blocos centrais no PREFAB foram atribuídos com base no Acordo entre dois diferentes programas de alinhamento estrutural., Isso me motivou a olhar para a diferença entre os benchmarks originais e as mesmas sequências realinhadas com o programa de alinhamento estrutural independente sequência MUSTANG. Realinhamentos com MUSTANG exibiram maior congruência estrutural secundária do que os marcos de referência originais, exceto no caso de HOMSTRAD (Fig. 1). Em particular, a SABmark tinha uma identidade de estrutura secundária 11,2% superior após o realinhamento com MUSTANG (p < 1e-15)., Este resultado suporta o uso da base de dados HOMSTRAD como uma referência de alinhamento, apesar de não ter sido originalmente destinada a este propósito.

Uma vez que o número de sequências com estrutura conhecida é pequeno em relação ao número de sequências disponíveis, a maioria dos parâmetros de referência são complementados com sequências adicionais não alinhadas que não são consideradas na pontuação. Os alinhamentos de referência pré -AB são complementados com sequências adicionais encontradas usando pesquisas PSI-BLAST com as sequências de referência. Sequências HOMSTAD são comumente suplementadas com outras sequências pertencentes à mesma família Pfam ., Comparei estas duas abordagens seleccionando aleatoriamente sequências da família Pfam correspondentes às sequências de referência do PREFAB. Depois de gerar um alinhamento com o mesmo número de sequências suplementares, uma árvore de união vizinha foi construída para determinar a amplitude das sequências adicionadas. O comprimento médio da árvore foi 1,6 vezes maior para sequências de Pfam aleatórias do que as incluídas com o PREFAB (p < 1e-15)., Isto indicou que estender o conjunto de entrada de uma forma que não seja diretamente dependente das sequências de referência resulta na maior diversidade de sequências suplementares.

não é claro qual referência de referência reflecte de forma mais adequada as sequências típicas de um utilizador, e a grande diversidade de aplicações MSA abrange provavelmente a maior parte dos cenários de alinhamento encontrados nos referenciais. Os conjuntos SABmark cobrem uma estreita gama de identidades de sequência, enquanto OXBench se concentra em sequências intimamente relacionadas que são mais fáceis de alinhar., Devido tanto à qualidade do alinhamento quanto à amplitude das identidades de sequência, eu escolhi continuar o resto deste estudo com versões ligeiramente modificadas dos conjuntos de dados PREFAB e HOMSTRAD originais, chamados de PREFAB-mod e HOMSTRAD-mod (veja métodos). Para complementar os parâmetros de referência modificados, adicionei sequências de comprimento total pertencentes à mesma família Pfam. Sequências de comprimento completo foram usadas ao invés de apenas o domínio compartilhado para tornar os alinhamentos mais desafiadores e representar uma maior variedade de cenários de uso potencial., Muitas vezes as sequências que estão alinhadas têm diferentes comprimentos porque cobrem regiões sobrepostas de um gene, ou foram aparadas de forma diferente com base em suas pontuações de qualidade em cada terminus.

incorporação escalável da estrutura secundária no alinhamento

apesar da estreita ligação entre a estrutura secundária e o alinhamento da sequência, os programas de alinhamento de proteínas mais populares não prevêem informações estruturais., A principal desvantagem da predição da estrutura secundária é que é lenta para calcular com precisão, o que a impede de escalar para o alinhamento de centenas de sequências em uma quantidade razoável de tempo . Previsões de estrutura secundária menos precisas podem ser obtidas muito rapidamente usando abordagens de sequência única que não dependem da construção de um alinhamento múltiplo com sequências homólogas. O método GOR é um dos mais precisos dados uma única sequência ., Neste método, a estrutura secundária é atribuída a um dos três estados: hélice (H), folha (e), ou bobina (C) com base no contexto da sequência local em torno de um resíduo. Esta abordagem tem a vantagem de que ele é extremamente rápido (< 1 % o tempo necessário para o alinhamento), fornece um valor de probabilidade para cada estado, e oferece cerca de 65 % de precisão .,

para integrar as previsões da estrutura secundária no quadro de programação dinâmica para o alinhamento perfil-perfil, adicionei uma nova matriz simétrica de 3 × 3 representando as log-odds de alinhar um H, E, ou C em uma sequência com outra posição atribuída a H, E, ou C em uma segunda sequência. Acoplar esta matriz com a probabilidade atribuída a cada um dos três estados estruturais permitiu o alinhamento perfil-perfil das estruturas secundárias., A pontuação obtida a partir do alinhamento dos perfis de estrutura secundária aumentou a pontuação tradicional baseada na matriz de substituição determinada a partir das sequências primárias (ver texto adicional do ficheiro 1). Desta forma, o Acordo de estrutura primária e secundária pode ser maximizado simultaneamente.

A Figura 2 apresenta um exemplo de alinhamento da família proteica lactato / malato desidrogenase (n. o de adesão à Pfam). PF00056; família HOMSTRAD “ldh”) obtida por esta abordagem. , As atribuições de DSSP são de acordo geral em todo o alinhamento HOMSTRAD-mod, que é baseado nas estruturas terciárias conhecidas dessas proteínas. Previsões feitas com o método GOR refletem essas atribuições de estrutura secundária com algumas discrepâncias. As previsões do GOR guiam o alinhamento da cifra, que corresponde exatamente ao alinhamento de referência em regiões definidas como blocos centrais, denotadas por letras maiúsculas no alinhamento superior da Fig. 2., As regiões do alinhamento de referência que caem fora dos blocos centrais não são usadas na determinação da precisão e diferem da saída da cifra em algumas colunas.

Uma das vantagens de usar uma pequena 3 × 3 estrutura secundária matriz é que o número de parâmetros livres é superados em número por número de informativo de pontos de dados, o que torna a estimativa de erro desprezível (arquivo Adicionais 1: Figura S1)., Para encontrar valores ótimos para cada um dos 6 parâmetros distintos na matriz, eu realizei uma busca de grade para a solução que resultou nos alinhamentos de melhor pontuação com base na soma da pontuação Q e pontuação M em um subconjunto de HOMSTRAD-mod consistindo de 238 conjuntos de referência. Na melhor das hipóteses entre o sobre-alinhamento e o sub-alinhamento, qualquer ganho na pontuação Q é compensado pela perda correspondente na pontuação M, e vice-versa. A matriz de estrutura secundária otimizada é mostrada na Fig. 3a., É muito provável que os Estados-Membros da UE estejam alinhados, como se reflecte na grande contribuição dos pares de E/E para a Pontuação da estrutura secundária. O método GOR tende a subestimar as folhas β, resultando em uma fração baixa de estados E na maioria das sequências .