DECIFRAR: aproveitamento de sequência local de contexto para melhorar a proteína de alinhamento múltiplo de seqüência

Escolher a alta qualidade de referência alinhamentos para benchmarking

referenciais Diferentes, resultam muitas vezes em contraste ideal parâmetros (por exemplo, gap de abertura e extensão de sanções) e um incompatíveis ranking de desempenho de alinhamento de programas . Por estas razões, a escolha de benchmark é de extrema importância no desenvolvimento e comparação de algoritmos para o alinhamento de seqüências., Para escolher benchmarks de alinhamento para este estudo, eu comecei por comparar a concordância de estrutura secundária através de benchmarks comuns. Este método de comparação requer que a estrutura secundária das sequências de referência esteja disponível, o que exclui os benchmarks de BAliBASE populares porque a estrutura secundária correspondente da maioria das sequências de BAliBASE é desconhecida . Embora o Acordo de estrutura secundária, por si só, seja insuficiente para garantir um valor de referência de elevada qualidade, a falta de acordo pode ser uma indicação de inexactidão no alinhamento.,

espera-se que os alinhamentos de melhor referência tenham uma maior percentagem de resíduos alinhados com uma estrutura secundária idêntica. No entanto, prevê-se algum desacordo na estrutura secundária devido às dificuldades intrínsecas na atribuição de estrutura secundária e aos desafios inerentes ao alinhamento de estruturas terciárias distantes . A figura 1 mostra a fração do Acordo de estrutura secundária versus a identidade da sequência emparelhada para quatro parâmetros de referência comuns de aminoácidos., Os benchmarks SABmark e PREFAB contêm a maior fração de suas sequências em ou abaixo da “twilight zone” de 20 a 35% de identidade de sequência, enquanto a ênfase de OXBench é em alinhamentos menos desafiadores. PREFAB parece estar significativamente melhor alinhado em geral do que SABmark, apesar de ambas as referências cobrindo uma gama semelhante de identidades de sequência. Para sequências com menos de 10% de identidade, o PREFAB tem 13,4% maior identidade estrutural (p < 1e-15) do que o SABmark., Estes achados estão de acordo com um estudo anterior que considerou o PREFAB como a melhor referência projetada especificamente para a comparação de programas de MSA, embora o PREFAB seja conhecido por conter erros .

Todas as colunas dos alinhamentos foram usadas para avaliar a exatidão geral de cada referencial ao invés de apenas usar blocos de núcleo (regiões homólogas), que são tipicamente delineados por letras maiúsculas., A escolha de usar todo o alinhamento foi feita porque: (i) A definição de blocos principais varia entre benchmarks, (ii) alguns procedimentos de pontuação fazem uso de todo o alinhamento , (iii) distância emparelhada é calculada usando todo o alinhamento, e (iv) os benchmarks HOMSTRAD e SABmark não delineiam blocos centrais. Blocos centrais no PREFAB foram atribuídos com base no Acordo entre dois diferentes programas de alinhamento estrutural., Isso me motivou a olhar para a diferença entre os benchmarks originais e as mesmas sequências realinhadas com o programa de alinhamento estrutural independente sequência MUSTANG. Realinhamentos com MUSTANG exibiram maior congruência estrutural secundária do que os marcos de referência originais, exceto no caso de HOMSTRAD (Fig. 1). Em particular, a SABmark tinha uma identidade de estrutura secundária 11,2% superior após o realinhamento com MUSTANG (p < 1e-15)., Este resultado suporta o uso da base de dados HOMSTRAD como uma referência de alinhamento, apesar de não ter sido originalmente destinada a este propósito.

Uma vez que o número de sequências com estrutura conhecida é pequeno em relação ao número de sequências disponíveis, a maioria dos parâmetros de referência são complementados com sequências adicionais não alinhadas que não são consideradas na pontuação. Os alinhamentos de referência pré -AB são complementados com sequências adicionais encontradas usando pesquisas PSI-BLAST com as sequências de referência. Sequências HOMSTAD são comumente suplementadas com outras sequências pertencentes à mesma família Pfam ., Comparei estas duas abordagens seleccionando aleatoriamente sequências da família Pfam correspondentes às sequências de referência do PREFAB. Depois de gerar um alinhamento com o mesmo número de sequências suplementares, uma árvore de união vizinha foi construída para determinar a amplitude das sequências adicionadas. O comprimento médio da árvore foi 1,6 vezes maior para sequências de Pfam aleatórias do que as incluídas com o PREFAB (p < 1e-15)., Isto indicou que estender o conjunto de entrada de uma forma que não seja diretamente dependente das sequências de referência resulta na maior diversidade de sequências suplementares.

não é claro qual referência de referência reflecte de forma mais adequada as sequências típicas de um utilizador, e a grande diversidade de aplicações MSA abrange provavelmente a maior parte dos cenários de alinhamento encontrados nos referenciais. Os conjuntos SABmark cobrem uma estreita gama de identidades de sequência, enquanto OXBench se concentra em sequências intimamente relacionadas que são mais fáceis de alinhar., Devido tanto à qualidade do alinhamento quanto à amplitude das identidades de sequência, eu escolhi continuar o resto deste estudo com versões ligeiramente modificadas dos conjuntos de dados PREFAB e HOMSTRAD originais, chamados de PREFAB-mod e HOMSTRAD-mod (veja métodos). Para complementar os parâmetros de referência modificados, adicionei sequências de comprimento total pertencentes à mesma família Pfam. Sequências de comprimento completo foram usadas ao invés de apenas o domínio compartilhado para tornar os alinhamentos mais desafiadores e representar uma maior variedade de cenários de uso potencial., Muitas vezes as sequências que estão alinhadas têm diferentes comprimentos porque cobrem regiões sobrepostas de um gene, ou foram aparadas de forma diferente com base em suas pontuações de qualidade em cada terminus.

incorporação escalável da estrutura secundária no alinhamento

apesar da estreita ligação entre a estrutura secundária e o alinhamento da sequência, os programas de alinhamento de proteínas mais populares não prevêem informações estruturais., A principal desvantagem da predição da estrutura secundária é que é lenta para calcular com precisão, o que a impede de escalar para o alinhamento de centenas de sequências em uma quantidade razoável de tempo . Previsões de estrutura secundária menos precisas podem ser obtidas muito rapidamente usando abordagens de sequência única que não dependem da construção de um alinhamento múltiplo com sequências homólogas. O método GOR é um dos mais precisos dados uma única sequência ., Neste método, a estrutura secundária é atribuída a um dos três estados: hélice (H), folha (e), ou bobina (C) com base no contexto da sequência local em torno de um resíduo. Esta abordagem tem a vantagem de que ele é extremamente rápido (< 1 % o tempo necessário para o alinhamento), fornece um valor de probabilidade para cada estado, e oferece cerca de 65 % de precisão .,

para integrar as previsões da estrutura secundária no quadro de programação dinâmica para o alinhamento perfil-perfil, adicionei uma nova matriz simétrica de 3 × 3 representando as log-odds de alinhar um H, E, ou C em uma sequência com outra posição atribuída a H, E, ou C em uma segunda sequência. Acoplar esta matriz com a probabilidade atribuída a cada um dos três estados estruturais permitiu o alinhamento perfil-perfil das estruturas secundárias., A pontuação obtida a partir do alinhamento dos perfis de estrutura secundária aumentou a pontuação tradicional baseada na matriz de substituição determinada a partir das sequências primárias (ver texto adicional do ficheiro 1). Desta forma, o Acordo de estrutura primária e secundária pode ser maximizado simultaneamente.

A Figura 2 apresenta um exemplo de alinhamento da família proteica lactato / malato desidrogenase (n. o de adesão à Pfam). PF00056; família HOMSTRAD “ldh”) obtida por esta abordagem. , As atribuições de DSSP são de acordo geral em todo o alinhamento HOMSTRAD-mod, que é baseado nas estruturas terciárias conhecidas dessas proteínas. Previsões feitas com o método GOR refletem essas atribuições de estrutura secundária com algumas discrepâncias. As previsões do GOR guiam o alinhamento da cifra, que corresponde exatamente ao alinhamento de referência em regiões definidas como blocos centrais, denotadas por letras maiúsculas no alinhamento superior da Fig. 2., As regiões do alinhamento de referência que caem fora dos blocos centrais não são usadas na determinação da precisão e diferem da saída da cifra em algumas colunas.

Fig. 2

C-terminal da alinhamentos do lactato/malato desidrogenase proteína da família (Pfam adesão não. PF00056) colorido pela estrutura secundária prevista. O alinhamento de topo (sequências nomeadas pelo ID PDB) é a partir do benchmark HOMSTRAD-mod colorido por atribuições DSSP , com letras maiúsculas denotando blocos de núcleo., O alinhamento inferior mostra as mesmas sequências (nome do organismo) realinhadas com cifra e coloridas de acordo com probabilidades de 3 estados previstas pelo método GOR . Colunas de menor alinhamento em negrito correspondem exatamente colunas da parte superior de referência de alinhamento

Uma das vantagens de usar uma pequena 3 × 3 estrutura secundária matriz é que o número de parâmetros livres é superados em número por número de informativo de pontos de dados, o que torna a estimativa de erro desprezível (arquivo Adicionais 1: Figura S1)., Para encontrar valores ótimos para cada um dos 6 parâmetros distintos na matriz, eu realizei uma busca de grade para a solução que resultou nos alinhamentos de melhor pontuação com base na soma da pontuação Q e pontuação M em um subconjunto de HOMSTRAD-mod consistindo de 238 conjuntos de referência. Na melhor das hipóteses entre o sobre-alinhamento e o sub-alinhamento, qualquer ganho na pontuação Q é compensado pela perda correspondente na pontuação M, e vice-versa. A matriz de estrutura secundária otimizada é mostrada na Fig. 3a., É muito provável que os Estados-Membros da UE estejam alinhados, como se reflecte na grande contribuição dos pares de E/E para a Pontuação da estrutura secundária. O método GOR tende a subestimar as folhas β, resultando em uma fração baixa de estados E na maioria das sequências .

Fig. 3

a Optimized structure matrix for pairings between helix (H), β-sheet (E), or coil (C) states. b os valores repetidos são grayed-out uma vez que a matriz é simétrica., Depois de incorporar esta matriz no alinhamento, a melhoria média na pontuação Q em alinhamentos emparelhados foi maior para pares distantes. os alinhamentos de c usando a matriz de estrutura (símbolos abertos) mostraram pouco declínio na precisão como o número de sequências de entrada aumentou em relação aos alinhamentos feitos sem predições estruturais (símbolos fechados). Em todos os tamanhos de alinhamento, o uso de estrutura secundária melhorou a pontuação Q (p < 1e-5 para todos)., Da mesma forma, a melhoria da Q-pontuação (separação entre aberto e fechado de símbolos) maior quanto mais sequências foram alinhadas

em seguida, perguntei se a incorporação da estrutura secundária melhorou o alinhamento de sequências, e como este em escala com o número de seqüências de alinhamento. Em média, ao longo de todos os tamanhos de conjuntos de sequências, a incorporação de estrutura secundária resultou numa melhoria de 5, 3% na pontuação Q no pré-AB-mod e de 2, 1% no HOMSTRAD-mod. Este aumento substancial no Q-score veio à custa de um 0.,Diminuição de 4% na pontuação M no índice pré -AB-mod e diminuição de 0, 3% no índice HOMSTRAD-mod. Portanto, a fração de homologias que estão corretamente alinhadas diminuiu ligeiramente, enquanto o número total de homologias corretamente alinhadas aumentou substancialmente. Sem surpresa, os maiores ganhos foram em conjuntos de referência divergentes, onde há mais espaço para melhorias, e essencialmente nenhum ganho foi feito em referências com menos de 60% de distância média entre pares (Fig. 3b)., As previsões da estrutura secundária proporcionaram um maior benefício no pré-hab-mod porque uma maior fração de suas sequências de referência estão a mais de 60% de distância.curiosamente, a melhoria da incorporação da estrutura secundária aumentou à medida que mais sequências eram alinhadas (Fig. 3c). Nos menores conjuntos de 2 sequências verificou-se uma melhoria de 3,4% no pré -AB-mod e de 1,2% no HOMSTRAD-mod. Em grande 4,000 sequência define a vantagem aumentou para 8,5 % e 3,3 %, respectivamente., Portanto, a incorporação de estrutura secundária neutralizou parcialmente a diminuição da pontuação que é tipicamente observada com alinhamentos maiores . Este comportamento espelhou o da predição da estrutura secundária, onde a precisão aumenta à medida que mais sequências são usadas no cálculo . Por esta razão, os algoritmos de predição de estrutura secundária mais precisos fazem uso de vários alinhamentos. Da mesma forma, aqui as previsões da estrutura secundária inicial carecem de precisão, uma vez que são obtidas a partir de sequências únicas., À medida que mais sequências são alinhadas, essas probabilidades são médias para aumentar a sua precisão e orientar melhor o alinhamento. Isto está em contraste com a sequência primária, onde sequências adicionais inevitavelmente resultam em mais ambiguidade, o que em parte causa uma perda de sinal que se manifesta no alinhamento de baixa qualidade de perfis ambíguos.,incluindo um modelo de probabilidade indel para melhorar a posição de gap

motivado pela melhoria obtida pela incorporação de contexto de sequência local através de predições de estrutura secundária, perguntei em seguida se a mesma abordagem poderia ser aplicada à colocação de gap. Pesquisas anteriores revelaram que as inserções e supressões (indels) são mais prováveis de ocorrer adjacentes a certos aminoácidos e em regiões de bobinas expostas ., Por esta razão, é comum diminuir o custo de abrir uma lacuna em trechos hidrofílicos , ou, alternativamente, aumentar o custo em regiões hidrofóbicas que são susceptíveis de ser enterradas no núcleo restrito da proteína. Tanto quanto sei, não foi aplicado ao alinhamento de sequências um modelo mais sofisticado de probabilidade de lacunas baseado no contexto local. Para este fim, usei o banco de dados One Gap para calcular a frequência relativa dos eventos indel com base nos resíduos à esquerda e à direita de um gap central., Esta informação de frequência foi então convertida em log-odds de acordo com a frequência de fundo de cada aminoácido.a Figura 4 mostra a contribuição dos aminoácidos próximos para a probabilidade de um intervalo na posição zero. Como esperado, os resíduos hidrofóbicos (FMILYW) diminuem significativamente a probabilidade de um gap. Os resíduos hidrofílicos e de” quebra de estrutura ” (p.ex., P) aumentam a possibilidade de uma abertura adjacente, embora com menos efeito do que os resíduos hidrofóbicos., Uma vez que as pontuações de log-odds estão nas mesmas unidades que a matriz de substituição (terceiro-bits), elas podem ser diretamente aplicadas para modular os custos de abertura e fechamento de gap em qualquer posição com base em seu contexto de seqüência local (arquivo adicional 1: Tabela S1). Avaliei diferentes tamanhos de janelas para incluir esta informação, e descobri que a melhor janela esticada da posição -4 para +4 em relação à lacuna central. Assim, o custo de criar um gap em qualquer posição é o custo do gap original mais uma pontuação que é modulada com base nos resíduos para ambos os lados do gap (ver arquivo adicional 1).,

Fig. 4

contribuição do contexto da sequência local para o custo de abrir uma lacuna no alinhamento. Os resíduos hidrofóbicos diminuem significativamente a probabilidade de um gap, enquanto os resíduos hidrofílicos e “quebra de estrutura” aumentam a probabilidade de um gap., No modelo da lacuna, posições localizado dentro de quatro resíduos, foram utilizados para modular o custo de abertura de uma lacuna na posição zero

em seguida, eu calculado log-odds pontuações para os resíduos opondo-se a lacuna (na ungapped sequência), e descobriu que estas posições exibido um pequeno viés no conteúdo de aminoácidos (arquivo Adicionais 1: Tabela S1). Houve uma correlação moderada entre as pontuações log-odds para posições à esquerda ou à direita do gap e os resíduos que se opõem ao gap (R2 de 0, 69 e 0, 64, respectivamente)., No entanto, neste caso, não houve diferença aparente entre os locais dentro da região gapped. Por esta razão, eu escolhi simplesmente modular o custo de extensão do gap com base nos escores médios para os resíduos “gapped” de uma maneira independente da posição. Ao todo, este modelo probabilístico de abertura e extensão de uma diferença ajusta a pena de diferença dentro de um intervalo de cerca de +/- 20% em cada posição.

para expandir este modelo de colocação de gap com base no contexto da sequência local, I em seguida investigou o efeito de padrões de sequência curta., As repetições são uma grande fonte de variação de comprimento nas sequências biológicas e são comumente encontradas em todos os ramos da vida . As repetições têm uma grande variedade de formas, incluindo pequenas repetições de microssatelite de um único codon e repetições de tandem mais longas de regiões que podem evoluir através da mutação para se tornarem incompatíveis ao longo do tempo . Repetições mais longas podem ser alinhadas com programas especializados que empregam algoritmos de repetição tandem. Padrões curtos são normalmente negligenciados como insignificantes por estes programas devido à sua ocorrência frequente em sequências., No entanto, Chang e Benner descobriram que repetições curtas de dipeptídeos (por exemplo, AA) eram mais comuns do que o esperado em torno das lacunas, oferecendo potencialmente um meio de modular os custos das diferenças. Para investigar este efeito, examinei a ocorrência de diferentes padrões de sequência na Base de dados One Gap.

repetições de Dipeptidos (séries de 2 aminoácidos idênticos) em torno das aberturas eram apenas ligeiramente mais prováveis (< 1 terceiro bit) do que o esperado por acaso. No entanto, as lacunas eram substancialmente mais prováveis de ocorrer em torno de corridas de três ou mais (por exemplo, AAA), como mostrado no arquivo adicional 1: Figura S2., Este efeito foi particularmente pronunciado na sequência sem o gap, indicando que os gaps estão frequentemente presentes porque uma sequência tem uma execução mais longa do que outra. Surpreendentemente, as aberturas eram menos propensas a ocorrer na posição após o início de uma execução na sequência oposta (por exemplo, AA/A-), independentemente do comprimento da execução. Embora o mecanismo para esta ocorrência seja desconhecido, pode ser devido a um papel biológico para repetições de dipeptídeos que resulta na sua conservação. A similar investigation of heteropeptide repeats with periodicity 2 (e.g.,, ACAC) para 6 não revelou um forte viés em direção a lacunas (arquivo adicional 1: Figura S2). Portanto, eu escolhi estender o modelo de gap para modular o custo de abertura de gap em posições antes e imediatamente após o início de uma execução na sequência oposta.

em Geral, empregando este modelo de gap colocação resultou em um modesto aumento de 0,5 % no pré-FABRICADA-mod (p < 1e-4) e de 0,3 % no HOMSTRAD-mod (p < 1e-3). As melhorias no Q-score foram acompanhadas por 0.2 % de aumentos no M-score em ambos os benchmarks., Estas mudanças na pontuação foram inesperadas, como padrões de referência estruturais não consideram a maioria das regiões gapped , uma vez que muitas vezes ocorrem em partes da estrutura que são difíceis de sobrepor, e repetições tendem a ser encontradas em regiões proteicas desordenadas . Embora, simulações evolutivas oferecem um meio de scoring gapped regions, tais simulações atualmente não incluem um modelo dependente de contexto de probabilidade de gap., Por conseguinte, é possível que a colocação de lacunas tenha melhorado mais do que o reflexo do modesto aumento das Pontuações, mas não existe actualmente uma forma adequada de medir a vantagem real de incorporar um modelo de lacunas sofisticado no alinhamento.

comparação da decifração com outros programas para MSA

tendo com sucesso integrado a consciência do contexto no software de decifração para o alinhamento de sequências, comparei o seu desempenho com outros programas de alinhamento de última geração., Primeiro, escolhi comparar a decifração com três programas populares capazes de alinhar eficientemente milhares de sequências: Clustal Omega , MAFFT e MUSCLE . Estes programas são regularmente empregados em uma variedade de estudos diferentes, e tornaram-se o padrão de fato para comparação em benchmarks. A figura 5 mostra o desempenho de cada programa em relação à cifra para o aumento do número de sequências de entrada., O ranking de desempenho está em forte concordância entre os benchmarks HOMSTRAD-mod e pré -AB-mod, mas há uma maior propagação entre os programas no pré-mod porque ele contém uma maior fração de sequências dentro ou abaixo da quinta dimensão.

Fig. 5

Performance of popular multiple sequence alignment programs relative to Dec Cipher on the HOMSTRAD-mod (H-mod) and PREFAB-mod (P-mod) benchmarks. PROMALS exibiu o melhor desempenho nos menores conjuntos de duas sequências., MAFFT teve o melhor desempenho em pequenos conjuntos de entrada de 125 sequências, onde usa uma estratégia baseada em consistência muito mais lenta. O músculo mostrou o pior desempenho em conjuntos de sequência maiores. DECIFRAR o desempenho em relação a outros programas de melhoria como mais sequências foram alinhadas

Quando apenas duas sequências foram alinhadas a partir de cada benchmark, o alinhamento de programas deu resultados semelhantes, com MAFFT mostrando o menor precisão. Nos conjuntos de 125 sequências, a decifração é classificada em segundo lugar atrás do MAFFT., Para conjuntos de entrada deste tamanho, MAFFT usa seu algoritmo mais preciso baseado em consistência (L-INS-i) que não é escalável para conjuntos de sequências maiores. Além de 125 sequências de entrada, a decifração claramente supera os outros três programas (arquivo adicional 1: Tabela S2), e seu chumbo melhora à medida que mais sequências são alinhadas (Fig. 5). Isto reflete o fato de que a precisão da cifra permanece relativamente constante com um número crescente de sequências (Fig. 3), que é parcialmente atribuível à sua utilização de estrutura secundária durante o alinhamento., Clustal Omega, MAFFT, e decifrar todos têm pontuações m similares em toda a gama de tamanhos de entrada (arquivo adicional 1: Figura S3). MUSCLE teve o desempenho mais pobre, com pontuação substancialmente pior Q – E M-para todos, exceto os menores conjuntos de sequência de entrada. Além disso, embora Q-score, total column score (TC-score), e Cline shift-score às vezes dão rankings de desempenho conflitantes, estas três estatísticas concordaram fortemente em ambos os benchmarks (arquivo adicional 1: figuras S4 e S5).,

Over-training to a single reference set has been a concern for some alignment programs, although both reference sets used here showed similar results. No entanto, outros programas podem ser melhor treinados sobre os marcos de referência originais que não são baseados nas saídas do programa de alinhamento estrutural MUSTANG. Para verificar que a decifração não foi sobre-treinada para as saídas de MUSTANG, repeti a análise usando os pares de referência pré -AB originais, que foram alinhados independentemente do MUSTANG., As sequências de referência pré-fabricadas não modificadas mostraram uma forte concordância de estrutura secundária e, por conseguinte, constituem um parâmetro de referência alternativo de alta qualidade. No entanto, os resultados (arquivo adicional 1: Figura S6) foram muito semelhantes para ambos os conjuntos de sequências de referência, indicando que o desempenho da cifra não estava intimamente ligado às saídas de MUSTANG.

I em seguida comparou decifração com PASTA, que é um programa destinado a estender a precisão de algoritmos menos escaláveis para grandes alinhamentos., PASTA funciona dividindo um alinhamento em sub-problemas sobrepostos que são cada um alinhados com uma estratégia precisa, por padrão método baseado em consistência l-INS-i do MAFFT. Estes sub-alinhamentos são fundidos usando transitividade, e o processo é repetido a partir de uma nova árvore guia. Curiosamente, PASTA superou a cifra em conjuntos de 125 e 250 sequências em HOMSTRAD-mod (Fig. 5), mas foi estatisticamente indistinguível em conjuntos maiores (arquivo adicional 1: Tabela S2). No entanto, a cifra superou substancialmente a massa em pré-AB-mod, e seu chumbo aumentou à medida que mais sequências foram alinhadas., Além disso, as massas mostraram uma grande queda na precisão com o aumento do tamanho do alinhamento. A tabela 1 mostra que o desempenho da cifra diminuiu o menor de todos os programas de alinhamento à medida que o tamanho do alinhamento aumentava.

Tabela 1 variação média P-pontuação de acordo com o número de sequências de serem alinhados

Finalmente, eu comparada DECIFRAR o desempenho da PROMALS , que é um programa que depende mais preciso da estrutura secundária previsões obtidas a partir de PSIPRED ., PROMALS primeiro realiza pesquisas PSI-BLAST com sequências representativas do conjunto de entrada, e então usa predições de estrutura secundária precisas com uma abordagem baseada em consistência para alinhar as sequências. PROMALS superou grandemente todos os outros programas de alinhamento nos menores conjuntos de duas sequências, mas sua vantagem desapareceu uma vez que outras sequências foram adicionadas ao conjunto de entrada (Fig. 5). Além disso, foram várias ordens de magnitude mais lentas que os outros aligners (Fig. 6), e conjuntos de entrada de teste maiores do que 125 sequências provou ser proibitivamente demorado., Abordagens mais recentes que fazem uso de estruturas proteicas resolvidas estão disponíveis, como PROMALS3D . No entanto, não é claro como testar tais abordagens em marcos de referência estruturais, porque as sequências de referência estão provavelmente presentes nas mesmas bases de dados de estrutura utilizadas por esses programas.

Fig. 6

tempo médio de execução de acordo com o número de sequências alinhadas (note-se as quebras do eixo e a escala logarítmica)., PROMALS was substantially slower than the other programs that do not rely on a large external database of sequences. MAFFT foi o programa mais rápido para conjuntos de grandes sequências. PASTA foi o programa mais lento testado para alinhar grandes conjuntos de sequências, requerendo uma média de 2,7 h para alinhar 4.000 sequências. Uma notável melhoria de velocidade foi obtido com DECIFRAR usando vários processadores

DECIFRAR não era nem o mais lento nem rápido programa de benchmark para alinhamento de cada uma das sequência de conjuntos (Fig. 6)., MAFFT foi geralmente o programa mais rápido, exceto para os menores conjuntos de seqüências onde ele usa estratégias mais lentas e precisas para o alinhamento. A mudança no tempo decorrido é dramática para MAFFT e músculo além de 250 sequências onde estratégias mais eficientes foram usadas. PASTA foi o programa mais lento, e exigiu uma média de 2,7 h para alinhar 4,000 sequências. Tanto o Clustal Omega quanto o decifrador foram capazes de alinhar 4.000 sequências em cerca de meia hora em média. Uma vez que o cálculo da árvore guia é o fator limitante para conjuntos de grandes sequências, a paralelização pode ser útil em tais circunstâncias., Por exemplo, a decifração foi duas vezes mais rápida quando 8 processadores foram usados (Fig. 6). O uso máximo de memória da Cipher era de 2GB quando alinhava 4.000 sequências.

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *