해독:을 활용하는 로컬 시퀀스의 컨텍스트를 개선하는 여러 단백질 서열 정렬

선택하는 높은 품질의 참고 선형에 대한 벤치마킹

다른 벤치마크 결과에서 콘트라스트 최적의 변수(예를 들어,격차를 열고 확장자의 처벌)과 호환되지 않는 성능의 순위를 정렬 프로그램입니다. 이러한 이유로 벤치 마크의 선택은 시퀀스 정렬을위한 알고리즘을 개발하고 비교할 때 가장 중요합니다., 이 연구를위한 정렬 벤치 마크를 선택하기 위해 공통 벤치 마크에서 2 차 구조 일치도를 비교하는 것으로 시작했습니다. 이 방법의 비교는 차의 구조 참조 시퀀스는 사용할 수 있는 제외한 인기 있는 BAliBASE 벤치마크 때문에 해당하는 보조 구조의 가장 BAliBASE 시퀀스는 알 수 없습니다. 2 차 구조 계약만으로는 고품질 벤치 마크를 보장하기에 불충분하지만,계약 부족은 정렬 부정확성의 표시 일 수 있습니다.,

더 나은 기준 정렬은 동일한 2 차 구조를 갖는 정렬 된 잔기의 더 큰 비율을 가질 것으로 기대된다. 그러나,일부 의견에 보조 구조상으로 인해 모두에게 본질적인 어려움에 할당하는 보조 구조 및 고유의 과제를 맞추는 먼 관련된 차 구조입니다. 그림 1 은 4 가지 공통 아미노산 벤치 마크에 대한 2 차 구조 계약 대 쌍별 서열 정체성의 분율을 보여줍니다., 이 SABmark 및 조립식 벤치마크를 포함하는 가장 큰 부분의 자신의 시퀀스에서 또는 아래”황혼의 영역”20 35%sequence identity,동의 강조 OXBench 에 적은 도전 정렬입니다. 프리팹은 두 참조가 비슷한 범위의 시퀀스 정체성을 다루고 있음에도 불구하고 SABmark 보다 전체적으로 훨씬 더 잘 정렬 된 것으로 보입니다. Id 가 10%미만인 시퀀스의 경우 PREFAB 은 SABmark 보다 13.4%더 큰 구조적 id(p<1e-15)를 갖습니다., 이러한 연구 결과는 계약에 이전 연구 발견되는 조립식 할 수 최고의 벤치마크 설계를 위해 특별히 비교 MSA 프로그램이지만,조립식 가옥를 포함하는 것으로 알려진 오류가 있습니다.

모든 열의 선형이었을 평가하는 데 사용되는 전반적인 정확도는 각각의 기준이 아닌만을 사용하여 코어 블록(동종 지역)에는 일반적으로 묘사에 의 대문자., 을 사용하도록 선택 전체 선형기 때문에 만들어졌:(i)이 정의의 핵심 블록 사이에서 변화 벤치마크,(ii)몇 가지 득점은 절차의 사용 전체 정렬,(iii)쌍들의 거리가 계산 사용하여 전체 정렬,그리고(iv)HOMSTRAD 및 SABmark 벤치마크하지 않는 윤곽을 그리 코어 블록입니다. 프리팹의 코어 블록은 두 개의 서로 다른 구조적 정렬 프로그램 간의 합의에 따라 할당되었습니다., 이 나에게 동기를 부여하는 보이에는 차이 원래 벤치마크와 같은 시퀀스를 재정비하는 순서 독립 구조상 정렬 프로그램 MUSTANG. 머스탱과의 재조정은 HOMSTRAD 의 경우를 제외하고는 원래의 벤치 마크보다 더 큰 2 차 구조적 합집을 나타냈다(그림 1). 1). 특히,SABmark 는 MUSTANG(p<1e-15)과 재편성 한 후 11.2%더 높은 2 차 구조 정체성을 가졌다., 이 결과는 원래이 목적을 위해 의도되지 않았더라도 HOMSTRAD 데이터베이스를 정렬 벤치 마크로 사용하는 것을 지원합니다.

의 수 있기 때문에 시퀀스로 알려진 구조는 상대적으로 적은 수의 사용 순서 가장 기준으로 보충된 추가 정렬되지 않은 시퀀스는 것으로 간주되지 않는에서 득점이다. 조립식 참조 정렬은 참조 시퀀스와 함께 PSI-BLAST 검색을 사용하여 발견 된 추가 시퀀스로 보완됩니다. HOMSTAD 서열은 일반적으로 동일한 Pfam 계열에 속하는 다른 서열로 보충된다., 프리팹 참조 시퀀스에 해당하는 Pfam 패밀리에서 시퀀스를 무작위로 선택하여이 두 가지 접근법을 비교했습니다. 동일한 수의 보충 시퀀스로 정렬을 생성 한 후 추가 된 시퀀스의 폭을 결정하기 위해 이웃 결합 트리가 구성되었습니다. 평균 트리 길이는 프리팹에 포함 된 것보다 무작위 Pfam 서열에 대해 1.6 배 더 길었다(p<1e-15)., 이 표시는 확장하는 입력에서 설정하지 않는 방법에 직접적으로 의존 참조 시퀀스에서 결과 가장 큰 다양성을 보완할 수 있습니다.

명확하지 않는 기준 가장 적절하게 반영하는 일반적인 사용자 시퀀스,그리고 다양 MSA 응용 프로그램은 대에 걸친 대부분의 선형 시나리오에서 발견된 벤치마크. SABmark 세트는 좁은 범위의 시퀀스 id 를 다루는 반면 OXBench 는 정렬하기 쉬운 밀접한 관련 시퀀스에 중점을 둡니다., 으로 인해 양쪽 정렬 품질과 폭넓은 시퀀스의 정체성,선택하는 나머지는 계속 이 연구의 약간 수정된 버전의 원래 조립식 및 HOMSTRAD 데이터 집합이라는 조립식 모듈 및 HOMSTRAD 드(는 방법을 참조하십시오). 수정 된 벤치 마크를 보완하기 위해 동일한 Pfam 제품군에 속하는 전체 길이 시퀀스를 추가했습니다. 전체 길이 시퀀스가 사용되었다기 보다는 공유된 도메인을 선형 더 많은 도전과를 나타내는 더 중대한 다양성의 잠재력을 시나리오에서 사용할 수 있습니다., 자주 시퀀스가 정렬되고 있는 다양한 길이기 때문에 겹치는 지역의 유전자,또는 트리밍에 따라 다르게 그들의 품질의 점수가 각각 마련되어 있습니다.

확장 가능한 법인의 구조로 정렬

에도 불구하고 가까운 사이의 연결 보조 구조와 서열 정렬,가장 인기 있는 단백질 정렬 프로그램을 예측하지 않는 구조적 정보입니다., 의 주요 단점은 보조 구조 예측은 그것을 정확하게 계산을 방지하며,그것은에서 스케일링 정렬의 수백의 시퀀스에서 합당한 양의 시간입니다. 적은 정확한 보조 구조 예측을 얻을 수 있는 매우 빠르게 사용하여 단일 시퀀스 접근 방식에 의존하지 않을 구성하는 여러 정렬 동종습니다. GOR 방법은 단일 시퀀스가 주어진 가장 정확한 방법 중 하나입니다., 에서 이 방법을 보조 구조 중 하나에 할당된 세 가지국:나선(H),시트(E)또는 코일(C)이에 따라 로컬 시퀀스의 컨텍스트 둘러싼 잔류물입니다. 이 접근은 이점이 있는것은 매우 빠르(<1%시간의 필요에 대한 정렬),제공 가능성 가치에 대한 각 국가,제공에 대해 65%정확도.,

을 통합하는 보조 구조 예측을 동적으로 프로그래밍을 위한 프레임워크 프로필-프로필 정렬을 나는 새로 추가되었 3×3 대칭 행렬을 나타내는 로그의 확률은 각자 맞추는 H,전자,또는 C 에서 하나의 순서와는 또 다른 위치는 할당되는 H,전자,또는 C 에서 두 번째 순서에 있습니다. 이 행렬을 2 차 구조의 프로파일-프로파일 정렬에 허용되는 세 가지 구조 상태 각각에 할당 된 확률과 결합시킵니다., 점수에서 얻은 정렬 보조 구조 프로필을 증강하는 전통적인 대체 기반으로 행렬 점수가 결정된다는 기본 시퀀스(참조하십시오 파일을 추가 1 텍스트). 이러한 방식으로,1 차 및 2 차 구조 합의가 동시에 최대화 될 수있다.

도 2 는 락 테이트/말 레이트 탈수소 효소 단백질 계열의 예 정렬을 나타낸다(Pfam accession no. PF00056;HOMSTRAD”ldh”계열)이 접근법을 사용하여 얻었다., DSSP 할당은 HOMSTRAD-mod 정렬에 걸쳐 일반적인 합의에 있으며,이는 이들 단백질의 알려진 3 차 구조를 기반으로합니다. GOR 방법으로 이루어진 예측은 이러한 2 차 구조 할당을 약간의 불일치로 반영합니다. GOR 예측 가이드 해독 맞춤는 정확하게 일치하는 참조를 정렬하는 지역으로 정의 코어 블럭으로 표시되는 대문자 상단에서의 정렬 Fig. 2., 코어 블록의 외부에 속하는 참조 정렬의 영역은 정확도를 결정하는 데 사용되지 않으며 일부 열의 해독 출력과 다릅니다.

Fig. 2

C-말단의 선형을 젖산염의/malate dehydrogenase 단백질 가족(Pfam 가입니다 아니다. PF00056)예측 된 2 차 구조에 의해 착색된다. 상단 정렬(pdb ID 로 명명 된 시퀀스)은 DSSP 할당으로 채색 된 HOMSTRAD-mod 벤치 마크에서 비롯된 것이며 대문자는 코어 블록을 나타냅니다., 낮춤을 보여줍 같은 시퀀스(이름에 의해 유기체)재정비와 해독하고 컬러에 따르면 3-상태 확률에 의해 예측 GOR 방법입니다. 열의 선형에서 대담을 정확히 일치하는 열의 상 reference 맞춤

의 장점 중 하나를 사용하는 작은 3×3 차 구조트 매트릭스는 무료 매개 변수를 훨씬 능가의 수에 의하여 유익한 데이터 포인트,어떤 의견을 오류를 무시할 수 있(추가 파일 1:그림 S1)., 을 찾은 최적의 값을 각각 6 개의 매개변수에 매트릭스,나는 수행된 그리드 검색에 대한 솔루션에서 최고 득점을 한 선형에 따라 합의 Q-수 그리고 M-수의 하위 집합에 HOMSTRAD-모드로 구성된 238 참조합니다. Over-alignment 와 under-alignment 사이의 최적에서 Q-score 의 모든 이득은 m-score 의 해당 손실보다 중요하며 바이스-그 반대입니다. 최적화 된 2 차 구조 매트릭스는도 1 에 도시되어있다. 3a., E-상태는 2 차 구조 점수에 대한 E/E 페어링의 큰 기여에 반영된 것처럼 정렬 될 가능성이 매우 높습니다. GOR 방법은 β-시트를 과소 예측하는 경향이있어 대부분의 서열에서 e-상태의 분율이 낮아집니다.

Fig. 3

최적화되어 매트릭스 구조에 대한 짝 사이에 나선(H),β-시트(E)또는 코일(C)다. b 행렬이 대칭이므로 반복된 값은 회색으로 표시됩니다., 이 행렬을 정렬에 통합 한 후,쌍 정렬에 대한 Q-점수의 평균 개선은 먼 쌍에 대해 더 컸다. c 렬 구조를 사용하여 매트릭스(오픈 기호)를 보여주는 작은 감소에서 정확도로 번호를 입력의 순으로 증가하는 선형이 없이 구조적 예측(폐쇄 기호). 모든 정렬 크기에 걸쳐 2 차 구조를 사용하면 Q-점수가 향상되었습니다(p<1e-5 모두)., 마찬가지로 개선에서 Q-수(사이 별거 열고 닫을 기호)를 증가 많은 순서로

다음에 물었는지 여부를 설립의 보조 구조 개선 순서를 정렬,그리고 어떻게 이 조의 번호와 함께 시퀀스는 정렬되어 있습니다. 평균 모든 크기의 순서 집합,법인의 차 구조 결과 5.3%개선에서 Q-에 점수를 조립식 모듈 및 2.1%에 HOMSTRAD-mod. Q 점수의이 실질적인 증가는 0 을 희생시키면서 나타났습니다.,조립식 모드에서 M 점수가 4%감소하고 HOMSTRAD-mod 에서 0.3%감소했습니다. 따라서,올바르게 정렬 된 상 동성의 분율은 약간 감소한 반면,올바르게 정렬 된 상 동성의 총 수는 실질적으로 증가했다. 당연히 가장 큰 이익은 분기에 참조 설정이있는 곳이 대부분의 개선,그리고 본질적으로 이득을 만들어졌기에 참조로 60%사이의 평균 거리 쌍(Fig. 3b)., 2 차 구조 예측은 참조 시퀀스의 더 큰 부분이 60%이상 떨어져 있기 때문에 프리팹 모드에 더 큰 이점을 제공했습니다.

흥미롭게도,개선 통합에서 보조 구조 증가 많은 순서로(그림. 3 기음). 2 개의 시퀀스 중 가장 작은 세트에서 조립식 모드에서 3.4%,HOMSTRAD-mod 에서 1.2%의 개선이있었습니다. 큰 4,000 시퀀스 세트에서 이점은 각각 8.5%와 3.3%로 증가했습니다., 따라서 2 차 구조를 통합하면 일반적으로 더 큰 정렬로 관찰되는 점수의 감소에 부분적으로 대응했습니다. 이 동작은 계산에 더 많은 시퀀스가 사용됨에 따라 정확도가 증가하는 2 차 구조 예측의 동작을 미러링합니다. 이러한 이유로 가장 정확한 2 차 구조 예측 알고리즘은 다중 정렬을 사용합니다. 마찬가지로,여기서 초기 2 차 구조 예측은 단일 시퀀스에서 얻어지기 때문에 정확도가 부족합니다., 더 많은 시퀀스가 정렬됨에 따라 이러한 확률은 정확도를 높이고 정렬을 더 잘 안내하기 위해 평균화됩니다. 이에 대비하는 기본 시퀀스,추가 시퀀스는 필연적으로 결과에 더 많은 모호성하는 부분의 손실을 일으키는 원인이 됩 신호는 매니페스트에서 가난한 품질의 정렬 모 프로필에 있습니다.,

포함하여 모델의 indel 확률을 향상 간격을 두

동기 부여하여 개선에서 얻은 통합하는 로컬 시퀀스의 컨텍스트를 통해 차 구조 예측,나는 다음 여부를 묻는 동일한 접근 방식에 적용할 수 있는 갭 위치. 이전 연구에 공개하는 삽입과 삭제(삽입이나 삭제)은 발생할 가능성이 인접하여 특정 아미노산과에 노출된 코일 영역입니다., 이러한 이유로 그것은 일반적인 비용을 감소하기 위해 개방의 차량에서 뻗어,또는 대안 적으로 증가하는 비용에 소수의 지역 될 가능성이 매장에서는 단백질의 제한 핵심입니다. 내 지식으로는 로컬 컨텍스트를 기반으로 한 갭 우도의 더 정교한 모델이 시퀀스 정렬에 적용되지 않았습니다. 이를 위해 One Gap 데이터베이스를 사용하여 중앙 gap 의 왼쪽과 오른쪽에있는 잔기를 기반으로 indel 이벤트의 상대 빈도를 계산했습니다., 그런 다음이 주파수 정보를 각 아미노산의 배경 주파수에 따라 로그 확률 점수로 변환했습니다.

그림 4 는 위치 0 에서 갭의 가능성에 대한 인근 아미노산의 기여를 보여줍니다. 예상대로,소수성 잔기(fmilyw)는 갭의 가능성을 크게 감소시킨다. 친수성 및”구조 파괴”(예를 들어,P)잔기는 소수성 잔기보다 효과가 적기는하지만 인접한 갭의 기회를 증가시킨다., 부터 로그-점수를 확률은 같은 단위로 대체 매트릭스(세 번째 비트),그들은 바로 적용할 수 있습을 조절하는 격차를 열고 갭 결산 비용에 어떤 위치에서 현지 시퀀스의 컨텍스트(파일을 추가 1:테이블 S1). 나는 평가 서로 다른 창 크기를 포함하여 이 정보는 것을 발견하고 최 창에서 뻗어 위치 -4to+4 에 상대적인 중앙의 차이입니다. 따라서,비용의 차이를 만들 어떤 위치에서도 원 격차의 비용 플러스 점수는 변조에 따라 잔류물의 양쪽에 갭(참조하십시오 파일을 추가 1)입니다.,

Fig. 4

기여도의 순서 컨텍스트의 비용은 개방의 격차를 정렬합니다. 소수성 잔기는 갭의 가능성을 크게 줄이는 반면 친수성 및”구조 파괴”잔기는 갭의 가능성을 증가시킵니다., 갭 모델,위치에 위치한 네 가지 잔류물을 사용되었을 조절하는 비용의 열 간격 위치에 영

다음에,내가 계산 log-확률의 점수를 위한 잔류물에 반대하는 간격(에 ungapped 시퀀스),그리고 이러한 위치를 표시하는 작은 바이어스에서 아미노산 콘텐츠(추가 파일 1:테이블 S1). 가 있었 중간 사이의 상관 관계 로그인 확률 점수에 대한 위치에 왼쪽 또는 오른쪽의 틈이 생기고 잔류물에 반대하는 간격(R2 의 0.69 및 0.64,각각)., 그러나이 경우 갭 된 영역 내의 위치 간에는 명백한 차이가 없었다. 이러한 이유로 나가 선택한 단순히 조절 갭 확장 비용을 기준으로 평균 점수는”갭”잔여물에 위치 독립적인 방식으로. 모두,이 확률적 모델의 열기를 연장 격차를 조정하는 격차를 벌금 범위 내에서±20%에서 각각의 위치입니다.

로컬 시퀀스 컨텍스트를 기반으로 갭 배치의이 모델을 확장하기 위해 다음으로 짧은 시퀀스 패턴의 효과를 조사했습니다., 반복은 생물학적 서열의 길이 변화의 주요 원천이며 일반적으로 삶의 모든 지점에서 발견됩니다. 반복해야의 다양한 형태를 포함하여,단 microsatellite 의 반복이 단일 codon 고 더 이상 탠덤을 반복하의 지역을 수 있는 발전을 통해 변이가 일치하지 않는다. 더 긴 반복은 탠덤 반복 찾기 알고리즘을 사용하는 특수화 된 프로그램과 정렬 될 수 있습니다. 짧은 패턴은 일반적으로 소홀히 유효하지 않은 것으로 이러한 프로그램으로 인해 발생 빈에 있습니다., 그러나,창고 Benner 는 짧은 디 펩티드 반복(예를들면,AA)었다 더 많은 일반적이 예상보다 주변 간격,잠재적으로 제공하는 것을 의미의 변조 갭 비용. 이 효과를 조사하기 위해 One Gap 데이터베이스에서 다른 시퀀스 패턴의 발생을 조사했습니다.

디 펩티드 반복(실행의 동일한 2 개 아미노산)주변 간격이었을 가능성이 약간 더 높(<1 세 번째 비트)이상에서 예상 기회입니다. 그러나 갭은 추가 파일 1:그림 S2 에 표시된 것처럼 3 개 이상(예:AAA)의 실행 주위에서 실질적으로 발생할 가능성이 더 높았습니다., 이 효과는 특히 순서없이 간격을 나타내는 간격은 종종 존재하기 때문에 하나의 순서에는 더 이상 실행입니다. 놀랍게도,갭은 런의 길이에 관계없이 반대 시퀀스(예:AA/A-)에서 런 시작 후 위치에서 발생할 가능성이 적었습니다. 지만 메커니즘이 발생은 알 수없는,그것 때문에 생물학적 역할에 대한 디 펩티드 반복하는 결과의 보존에. 헤테로 펩타이드의 유사한 조사가 주기성 2 로 반복됩니다(예,,ACAC)to6 은 갭에 대한 강한 편향을 나타내지 않았다(추가 파일 1:그림 S2). 따라서 반대 시퀀스에서 런 시작 전과 직후의 위치에서 갭 오프닝 비용을 변조하기 위해 갭 모델을 확장하기로 결정했습니다.

전반적인 사용,이 모델의 격차를 배치의 결과에 겸손한 개선 0.5%에서 조립식 모듈(p<1e-4)과 0.3%에 HOMSTRAD 드(p<1e-3). Q-score 의 개선은 두 벤치 마크에서 m-score 의 0.2%증가와 일치했습니다., 이러한 변화에서 점수를 예상 되었으로 벤치마크 구조를 고려하지 않는 대부분의 갭 지역 때문에 그들은 종종 발생에서 부분의 구조가 어려운 겹치고,반복하는 경향이에서 발견되는 무질서 단백질의 영역입니다. 하지만,진화 시뮬레이션의 수단을 제공 득점 갭 지역,그리고 이러한 시뮬레이션 현재는 포함되지 않은 컨텍스트에 따라 모델의 격차 가능성., 따라서,그것은 배치 간격을 향상보다 더 많은 반영해 겸손의 증가 점수가 있지만,현재 존재하지 않는 적절한 방법으로 측정하는 실제의 이점을 통합하는 정교한 간격으로 모델을 정렬합니다.

의 비교를 해독하여 다른 프로그램를 위한 MSA

를 성공적으로 통합된 상황에 대한 인식을 해독을 위한 소프트웨어 순서를 정렬,내가 다음에 비해 성능을 다른 state-of-the-art 맞춤 프로그램입니다., 첫째,Clustal Omega,MAFFT 및 MUSCLE 과 같은 수천 개의 시퀀스를 효율적으로 정렬 할 수있는 세 가지 인기있는 프로그램에 대해 벤치마킹 해독을 선택했습니다. 이 프로그램은 정기적으로 다른 연구의 다양한 고용하고,벤치 마크에 비교를위한 사실상의 표준이되었다. 그림 5 는 입력 시퀀스의 수를 증가시키기 위해 해독에 상대적인 각 프로그램의 성능을 보여줍니다., 성능 랭킹에서 강한 계약 사 HOMSTRAD-모드 및 조립식 모 벤치마킹,아직 더 많이 퍼져 프로그램 사이에서 조립식 모 포함되어 있기 때문에 더 큰 분수의 시퀀스에서 또는 황혼의 영역입니다.

Fig. 5

의 성능 인기 있는 다중 서열 정렬 프로그램에 상대적인 해독에 HOMSTRAD 드(H-모드)및 조립식 모듈(P-mod)벤치마크. PROMALS 는 두 시퀀스 중 가장 작은 세트에서 최고의 성능을 발휘했습니다., MAFFT 는 훨씬 느린 일관성 기반 전략을 사용하는 125 시퀀스의 작은 입력 세트에서 최고의 성능을 보였습니다. 근육은 더 큰 시퀀스 세트에서 최악의 성능을 보였습니다. 를 해독하의 성능 기준을 다른 프로그램 개선으로 더 많은 시퀀스로

경우에만 두 시퀀스로부터 각 기준,선형 프로그램을 모두 준 유사한 결과,MAFFT 보여주는 가장 낮은 정확성입니다. 125 개의 시퀀스 세트에서 DECIPHER 는 MAFFT 뒤에서 2 위를 차지합니다., 를 입력 세트의 크기,MAFFT 사용 가장 정확한 일관성 기반 알고리즘(L-INS-i)지 않는 확장성이 큰 시퀀스를 설정합니다. Beyond125 시퀀스 입력,명확하게 해독을 성능이 뛰어난 다른 세 개의 프로그램(추가 파일 1:테이블 S2),고로 이어질 향상으로 더 많은 시퀀스가 정렬되고 있습니다(Fig. 5). 이것은 해독의 정확도가 시퀀스의 수가 증가함에 따라 상대적으로 일정하게 유지된다는 사실을 반영합니다(그림 1). 3),이는 부분적으로 정렬 동안 2 차 구조의 사용에 기인한다., Clustal Omega,MAFFT 및 DECIPHER 는 모두 입력 크기 범위에서 유사한 M-점수를 갖습니다(추가 파일 1:그림 S3). 근육은 가장 작은 입력 시퀀스 세트를 제외한 모든 것에 대해 실질적으로 더 나쁜 Q-및 M-점수와 함께 가장 열악한 성능을 보였습니다. 또한,지만 Q-수,합계 열수(TC 점수),그리고 클라인 shift-도주 충돌하는 성과 순위,이러한 세 가지 통계를 강력하게 동의에서 모두 벤치마크(추가 파일 1:치 S4,S5).,

에 훈련의 단일 참조로 설정 우려하고 있습니다에 대한 일부 정렬 프로그램이지만 모두 참조 설정 여기에 사용되는 유사한 결과입니다. 그러나 다른 프로그램은 더 나은 훈련에준을 기반으로하지 않는 출력에서 구조적 무스탕 정렬 프로그램입니다. 는지 확인하는 해독되지 않았을 통해 훈련을 머스탱의 출력,내가 반복되는 분석을 사용하여 조립식 참조 쌍으로 독립적으로 MUSTANG., 수정되지 않은 프리팹 참조 시퀀스는 강한 2 차 구조 일치도를 보였으므로 고품질의 대체 벤치 마크를 제공합니다. 그럼에도 불구하고,결과(추가 파일 1:그림 S6)매우 유사한 모두에 대한 세트를 참고의 순서를 나타내는 해독의 성과와 밀접하게 연결 머스탱의 출력이 있습니다.

다음으로 DECIPHER 를 PASTA 와 비교했는데,이는 확장 성이 낮은 알고리즘의 정확성을 큰 정렬로 확장하기위한 프로그램입니다., 파스타 작품을 분할하여 선형으로 겹치는 하위 문제는 각 맞는 정확한 전략,기본적으로 MAFFT L-INS-내 일관성 기반 접근 방법이다. 이러한 하위 정렬은 전이성을 사용하여 병합되며 프로세스는 새로운 가이드 트리에서 시작하여 반복됩니다. 흥미롭게도 파스타는 HOMSTRAD-mod 에서 125 및 250 시퀀스 세트에서 DECIPHER 를 능가했습니다(그림 1). 5),그러나 더 큰 세트(추가 파일 1:표 S2)에서 통계적으로 구별 할 수 없었다. 그러나 DECIPHER 는 PREFAB-mod 에서 파스타를 실질적으로 능가했으며 더 많은 서열이 정렬됨에 따라 리드가 증가했습니다., 또한 파스타는 정렬 크기가 증가함에 따라 정확도가 크게 떨어지는 것으로 나타났습니다. 표 1 은 DECIPHER 의 성능이 정렬 크기가 증가함에 따라 모든 정렬 프로그램 중 가장 적게 감소했음을 보여줍니다.

테이블 1 에서 변경 평균 Q-수의 수에 따라 시퀀스는 맞추

마지막으로,저는 비교를 해독하의 성능을 PROMALS 는 프로그램입에 의존하여 더 많은 정확한 보조 구조 예측에서 얻은 PSIPRED., PROMALS 첫 번째 수행 PSI 검색 폭발을 가진 담당자 시퀀스 입력에서 설정,다음 사용하 정확한 보조 구조 예측과 일관성 기반 접근 방법을 맞춥니다. PROMALS 것을 찾을 수 밖에 득점의 다른 모든 선형 프로그램에서 가장 작은 집합 두 시퀀스,그러나 그것의 이점이 사라지면 다른 시퀀스에 추가 되었을 입력 설정(그림. 5). 또한,다른 얼라이너(도 1)가 느린 크기의 여러 순서였다. 6),125 시퀀스보다 큰 입력 세트를 테스트하는 것은 엄청나게 시간이 많이 걸리는 것으로 판명되었습니다., Promals3d 와 같이 해결 된 단백질 구조를 사용하게하는보다 최근의 접근법이 이용 가능합니다. 그러나,그것은 분명을 테스트하는 방법 이러한 접근 방식에 구조적인 벤치마크기 때문에 참조 시퀀스는 가능성이 존재에서 동일한 구조를 사용되는 데이터베이스에 의해 이러한 프로그램입니다.

Fig. 6

평균 실행 시간의 수에 따라 시퀀스는 정렬(주 축 휴식 및 로그인 규모)., PROMALS 는 시퀀스의 큰 외부 데이터베이스에 의존하지 않는 다른 프로그램보다 실질적으로 느렸다. MAFFT 는 대규모 시퀀스 세트를위한 가장 빠른 프로그램이었습니다. 파스타었 가장 느린 테스트 프로그램를 위한 각자 맞추는 큰 순서 집합을 요구하는 평균의 2.7 서를 정렬하 4,000 시퀀스입니다. 주목할만한 속도 개선이 얻었으로 해독을 사용하여 여러 프로세서

해독었다도 가장 느린도 가장 빠른 벤치마킹 프로그램를 위한 각자 맞추는 각각의 순서를 설정(그림. 6)., MAFFT 일반적으로 가장 빠른 프로그램을 제외하고,가장 작은 시퀀스를 설정을 사용하여 느리고,더 많은 정확한 전략을 정렬합니다. 경과 시간의 변화는보다 효율적인 전략이 사용 된 250 개의 서열을 넘어서는 MAFFT 와 MUSCLE 에 대해서는 극적입니다. 파스타는 가장 느린 프로그램이었고 4,000 개의 시퀀스를 정렬하기 위해 평균 2.7h 가 필요했습니다. Clustal Omega 와 DECIPHER 는 모두 평균 약 30 분 만에 4,000 개의 서열을 정렬 할 수있었습니다. 가이드 트리 계산은 큰 시퀀스 세트의 제한 요소이므로 이러한 상황에서 병렬화가 유용 할 수 있습니다., 예를 들어,해독은 8 개의 프로세서가 사용되었을 때 약 두 배 빨랐습니다(그림 1). 6). 4,000 개의 시퀀스를 정렬 할 때 DECIPHER 의 최대 메모리 사용은 2GB 였습니다.피>

답글 남기기

이메일 주소를 발행하지 않을 것입니다. 필수 항목은 *(으)로 표시합니다