데이비드:데이터베이스에 대한 주석,시각화,통합 검색

자동화된 절차에 기록 Microsoft Visual Basic(VB)6.,0 업데이트 데이비드 주간 다음과 같은 절차를:호출 시리즈의 펄 Java 응용 프로그램 다운로드하는 공중 통해 데이터를 익명의 파일 전송 프로토콜 FTP()(Table1);압축을 풀고 분석하고 원하는 주석 데이터를 만들 수 탭으로 구분된 데이터 파일을 준비를 위한 데이터베이스에 가져오기;그리고 데이터 가져오기로 Oracle8i 관계형 데이터베이스 관리 시스템(RDBMS)을 이용하여 Oracle”s SQL*로더 응용 프로그램. Microsoft 의 iie 웹 서버 및 활성 서버 페이지 기술은 JavaBeans 및 sql(structured query language)을 사용하여 데이터베이스에 액세스하는 데 사용됩니다., Affymetrix 프로브 세트의 LocusLink 번호는 University Of Michigan association 또는 NetAffx 에서 파생됩니다. 기능적 주석과 데이터베이스 상호 참조는 유전자의 안정적이고 인간이 큐 레이션 한 표현을 제공하는 LocusLink 에서 파생됩니다. DAVID 가 사용하는 데이터 소스에 관한 더 자세한 정보는 에서 FAQ 섹션을 참조하십시오.,

테이블 1 원의 주석 데이터를 통합되어 데이비드

분석 모듈

데이비드로 구성된 네 가지의 주요 단위:주석 도구,GoCharts,KeggCharts 및 DomainCharts. 주석 도구는 유전자 목록의 기능적 주석을위한 자동화 된 방법입니다. 주석 데이터의 조합은 적절한 확인란을 선택하여 10 가지 옵션 중에서 선택할 수 있습니다(표 2)., 주석을 추가 제출하는 유전자 목록을 선택하여 업로드 버튼을 반환하는 HTML 표를 포함하는 사용자가”s 고유 식별자 목록에 추가되는 기능 선택할 수 있습니다. 분석되지 않은 유전자는 추적 목적으로 추가 된 데이터가없는 출력에 포함됩니다.,

표 2 제공하는 옵션에 주석 도구

GoCharts 모듈을 그래픽으로 표시의 분포를 표현 차동 유전자 중 기능을 사용하여 카테고리의 제어된 어휘의 유전자에 존재론 협회(이동), 제공하는 구조화된 언어에 적용할 수 있는 기능의 유전자 및 단백질 모든 생물체에서도 같은 지식을 계속 축적하고 변경할 수 있습니다., 언어를 구조화된 비환 그래프(DAG)에 있어서,상기 기간의 특이성이 증가하고 게놈 적용 범위는 감소한으로 중 하나 아래로 이동합니다. 과는 대조적으로 진정한 계층 구조,아이 약관에 DAG 이 두 개 이상 포함될 수 있습니다 부모는 용어와 다를 수 있습니다 클래스의 관계를 다릅니다. GO 의 구조는 생물학적 과정,분자 기능 및 세포 구성 요소의 세 가지 주요 범주로 시작됩니다., 생물학적 과정은 다음을 포함한 광범위 생물학적 목표와 같은 유사 분열 또는 purine,신진 대사를 수행할 수 있는 주문 어셈블리의 분자 기능입니다. 분자 기능은 개별 유전자 산물에 의해 수행되는 작업을 기술한다;예는 전사 인자 및 DNA 헬리 카제이다. 세포 분류 구성 요소형을 포함 subcellular 구조,위치 및 고분자 복합물;예를 포함한 핵,telomere 고,원산지 인 복잡합니다., 분류 유형을 선택한 후 목록 적용 범위와 특이성을 결정하는 레벨은 적절한 라디오 버튼을 선택하여 선택됩니다. 레벨 1 은 가장 적은 양의 용어 특이성으로 가장 높은 목록 커버리지를 제공합니다. 서로 증가하는 수준의 적용을 감소하는 동안 특이성을 증가는 제 5 수준을 제공합의 최소 금액이 적용 가장 높은 용어는 특수성입니다.

분류 데이터는 막대 차트로 표시되며,여기서 막대의 길이는 각 범주의 유전자 식별자 수를 나타냅니다., 사용자가 설정할 수 있습니다각화에 대한 매개변수를 정렬 출력 데이터를 표시하는 카테고리를 포함하는 적어도 최소한 유전자의 수 있습니다. 선택하는 개인 바가 열리는 새로운 HTML 표를 표시하는 유전자를 식별,LocusLink 수,유전자 이름이 현재의 분류,그리고 다른 분류에 대한 각각의 유전자는 카테고리입니다. 는”모든”버튼을 클릭하면 새로운 HTML 테이블을 표시하는 모든 분류 데이터와”쇼 차트 데이터”버튼을 클릭하면 HTML 표를 포함하는 기본 차트 데이터,따라서 사용자가 허용한을 다시 주문 차트에서 그래픽 스프레드시트 프로그램입니다., 새로운 차트에 표시될 수 있는 어떠한 하위 집합의 유전자에 의해 선택한 분류 유형과 수준을 확인란을 사용하여 라디오 버튼 사용할 수 있 이내에 사용자가”현재 페이지 허용하는 드릴다운 기능을 제공합니다. 수 유전자의 주석은 출력에 포함되고,됩니다 unannotated 유전자화”로 분류되지 않음”카테고리고,따라서 사용자에게 제공하는 자동화한 추적 시스템에 대한 유전자지 않은 주석이 있습니다.

KeggCharts 는 kegg 생화학 경로 사이에서 차등 적으로 발현 된 유전자의 분포를 그래픽으로 표시합니다., 각 경로는 원래 목록에서 차등 적으로 발현 된 유전자가 빨간색으로 강조 표시된 KEGG 경로 맵에 연결됩니다. 이 관점에서 유전자는 더 KEGG”의 DBGET 검색 시스템을 통해 사용할 수있는 추가 주석에 연결되어 있습니다. 로 GoCharts,사용자가 설정할 수 있습니다각화에 대한 매개변수를 정렬 출력 데이터를 표시하는 카테고리를 포함하는 적어도 최소한 유전자의 수 및 KeggCharts 시각화를 상속하는 모든의 동적 특징의 GoCharts.

DomainCharts 는 PFAM 단백질 도메인 사이에서 차등 적으로 발현 된 유전자의 분포를 나타낸다., 각각의 도메인 명칭이 연결되어 보존된 도메인 데이터베이스(CDD)의 국립 중심에 대한 바이오 정보(NCBI),어디에 관한 정보는 도메인 기능,구조 및 시퀀스는 쉽게 사용할 수 있습니다. 로 GoCharts 및 KeggCharts,사용자가 설정할 수 있습니다각화에 대한 매개변수를 정렬 출력 데이터를 표시하는 카테고리를 포함하는 적어도 최소한 유전자의 수 및 DomainCharts 시각화를 상속하는 모든의 동적 특징의 GoCharts 및 KeggCharts. DAVID 의 기능에 관한 자세한 내용은 에서 FAQ 섹션을 방문하십시오.,

를 사용하여 데이비드 내 주석 기능

기능을 설명하기 위해 다윗을 우리가 분석한 목록의 유전자는 차별적으로 표현에서 인간의 주변 혈액 단세포(PBMCs)배양 후 HIV-1 봉투 단백질이다. 의 세부 사항 실험,RNA 준비 및 GeneChip 교 잡 절차와 함께의 세부 사항 칩셋 정규화하고 통계적 분석의 차이는 유전자 발현에서 제공 Cicala et al. ., 간략하게,1 차 인간 PBMCs 및 단핵구 유래 대 식세포를 HIV-1 엔벨로프 단백질(gp120)으로 16 시간 동안 배양 하였다. 고밀도 올리고 뉴클레오티드 마이크로 어레이(Affymetrix HU-95A GeneChip)는 gp120-유도 된 전사 사건을 모니터링하는데 사용되었다. 이 분석은 402 개의 차등 적으로 발현 된 유전자를 확인하는 결과를 가져왔다.

16 반면 유전자에 의해 변조 HIV-1gp120 이전에 관련된 HIV 복제 및/또는 봉투 신호,남아있는 유전자의 알 수 없는 함수하거나 결코와 관련된 HIV-1gp120., 이 유전자 목록을 생물학적 의미로 변환하려면 여러 데이터 저장소에서 관련 정보를 수집해야합니다. 에 대한 많은 연구자들은 이 프로세스로 구성되어 있 반복적 탐색을 통해 여러 데이터베이스에 대한 각각의 유전자를 수동으로 수집하는 유전자-특정 정보에 대한 순서,함수,경로,질병 연결. 반면에,체계적인 접근의 다윗을 동시에 추가한 생물학적으로는 풍부한 정보에서 파생된 여러 공용 데이터 소스는 목록에 있는 유전자의 병행합니다., 선택하는 데이비드”의 주석 도구를 업로드한 목록의 402 차동 표현된 유전자를 시작합 기능성 주석 및 분석의 전체합니다. 한 번에 제출,유전자 목록을 저장하는 전체 세션 분석,사용자가 허용 사이를 전환하는 모듈을 다시 제출할 필요 없이 데이터입니다.

주석 도구

주석 도구를 제공하는 여러 가지 옵션에 주석을 작성 테이블 형식의 사용자는 유전자 목록 및 사용 가능한 주석(표 2)., 선택하는 주석 분야 유전자 기호,LocusLink,OMIM,Unigene,Reference 순서 유전자 이름으로 선택하면”업로드”버튼을 생산하 HTML 표 웹 브라우저에서 모두 포함하는 유전자와 그 사용할 수 있는 주석을,어디서 유전자를 식별자,설명 및 분류 데이터를 뽑아서는 데이터베이스에 추가되는 유전자 목록됩니다(그림 1). 유전자 식별자와 같은 유전자의 기호와 LocusLink 은 하이퍼 링크 추가 유전자 별에서 사용할 수 있는 데이터의 근본적인 원천이고,따라서 제공하는 깊이있는 유전자별 세부 사항 및 주석은 혈통., 분류 데이터 및 기능 요약을 사용할 수 있는 신속하게 스캔하에 대한 정보에 관련된 연구원은”s 실험 시스템입니다. 서버는 데 필요한 시간을 실행에 이 모듈의 상관관계를 선형적으로 크기의 유전자 목록 및 미만이 소요됩 45 초에 대한 목록의 최대 1,000 유전자(그림 2,괄호 안의 숫자를 나타내 r2 값). 이러한 결과는 대용량 데이터 세트의 기능적 주석에 대한 통합 된 접근 방식의 힘과 효율성을 보여줍니다.,

그림 1

출력의 주석 도구입니다. 모든 402 개의 항목을 포함하는 HTML 테이블의 첫 번째 여러 Affymetrix 프로브 세트에 대한 주석이 추가되었습니다. 실험 조건에 대한 범주 형 정보는 Affymetrix 프로브 세트 식별자와 함께 제출되었으며 값 열의 출력에 포함되었습니다. Symbol,LocusLink,OMIM,RefSeq 및 Unigene accessions 와 같은 식별자는 더 자세한 정보를 위해 원본 소스에 하이퍼 링크됩니다., 요약 필드에 포함 된 텍스트는 ncbi 의 LocusLink 보고서에서 제공되는 설명적인 기능 정보에서 파생됩니다.

림 2

간의 분석 주석 도구입니다. 크기가 100 에서 1,000(x 축)에 이르는 유전자 목록에 10 개의 주석 옵션을 동시에 추가하는 데 필요한 서버 시간(y 축)., 의 평균을 세 가지 시험에 대한 유전자 목록을 포함하는 Affymetrix,은행,LocusLink 및 UniGene 식별자는 다음과 같과 괄호 안의 숫자를 나타내 r2 의 가치 사이의 상관 관계는 유전자 목록은 크기와 서버는 데 필요한 시간에 대한 주석이 있습니다.

GoCharts

선택 GoCharts 모듈 열리면 새 창으로 다양한 옵션이 있습니다., 사용자가 선택한 세 가지 일반적인 유형의 분류(생물학적 과정,분자의 기능과 세포성분)및 다섯 가지 수준의 주석을 나타내는 용어 적용 범위 및 특이성(참조 분석 모듈을 절). 분류 및 적용 범위 수준의 모든 조합을 지정할 수 있습니다. 또한 옵션에 주석을 추가하는 유전자 목록은 모든 가 약관을 사용할 수 있는 가장 특정 조건으로 불리는 터미널 노드입니다., 는 옵션을 선택하는 수준이 다른 기간의 특이성을 제공하는 데 필요한 유연하고 따라서 연구원할 수 있습을 확인하는 동적으로는 수준의 적용과 특이성이 좋은 데이터와 무대의 분석을 실행할 수 있습니다. 예를 들면,초기 단계 분석을 수 있습으로 구성 주석 유전자 목록은 매우 일반적 조건을 얻기 위해 폭넓게 이해하고 있는 것이다. 이 경우에는 선택,생물학적 과정과 수준 1 분류하는 유전자를 사용하여 일반적인 용어와 같은”죽음에”과”세포 커뮤니케이션”., 증가 된 용어 특이성을 사용하면보다 상세한 기능 정보의 추출을 용이하게합니다. 이 경우 생물학적 과정과 수준 5 를 선택하면”아폽토틱 미토콘드리아 변화”및”화학 감각 지각”과 같은 용어를 사용하여 유전자를 분류합니다.

그러나 증가 된 용어 특이성은 증가함에 따라 목록 적용 범위가 감소한다는 점에서 비용이 발생합니다(그림 3). 우리의 연구에서 우리는 레벨 2 가 일반적으로 좋은 적용 범위를 유지하는 동시에 의미있는 용어 특이성을 제공한다는 것을 발견했습니다., 그림 4a 는 GoCharts 시각화가 35 개의 차등 적으로 발현 된 유전자가”스트레스 반응”에 관여한다는 것을 신속하게 밝혀내는 방법을 보여줍니다. 각 GO 용어는 quickgo 에 대한 하이퍼 링크를 통해 트리 또는 DAG 보기에서 볼 수 있습니다.

림 3

의 분석에 유전자 목록은 범위를 사용하여 GoCharts. 402 개의 Affymetrix 프로브 세트 식별자 목록은 LocusLink 가 제공 한 proteome assigned functional classifications 로 주석을 달았습니다., %의 범위를 나타내며 유전자의 수 밖의 402 는 주석에서 용어의 특이성 수준에서 생물학적 과정,분자의 기능,그리고 셀룰러 구성 요소 분류 형식입니다. 퍼센트 적용 범위는 용어 특이성이 증가함에 따라 감소합니다.

림 4

Ouput 의 GoCharts. (a)유전자 온톨로지(GO)생물학적 과정 중 차등 적으로 발현 된 유전자의 분포를 보여주는 막대 차트., 매개 변수는 5 의 적중 임계 값 인 레벨 2 로 이동하도록 설정되었으며 출력은 적중 횟수별로 정렬되었습니다. 파란색 막대는(b)에 표시된 추가 주석 데이터에 연결됩니다. 선택하 블루 바(a)에 해당하는”스트레스에 반응하는”열 HTML 표를 보여주는 LocusLink,유전자의 이름,현재의 분류,그리고 다른 분류에 대한 데이터의 유전자는 카테고리입니다. (c)”스트레스 반응”에 관여하는이 유전자의 하위 집합은 Go 분자 기능,GO 레벨 3,적중 임계 값 2 를 선택하고 적중 횟수로 정렬하여 더 특징 지어졌다., 선택하면”차트 값을”버튼을 새로 생성한 히스토그램을 드러내는 16 개의 35 스트레스-반응 유전자의 단백질을 인코딩을 가진 사이토카인 활동입니다.,

기 때문에 HIV-1 큰 영향을 미치고 있의 기능에 대한 세포의 면역 시스템을 수행하는 능력을 밖으로 스트레스 반응,우리가 선택한 히스토그램줄을 나타내는 숫자에 관련된 유전자의 스트레스 반응,열리는 HTML 표를 포함하는 Affymetrix 식별자,LocusLink 수,유전자의 이름,현 분류 와 다른 분류에 대한 모든 35 유전자(Figure4b)., 이제는 우리가 감소 우리의 유전자 목록을 사람들에 관여하는 유전자 스트레스 반응,우리는 더 이상 특징으로 이 하위 집합으로 반복 GoCharts 절차를 사용할 수 있에서 최고의 스트레스-반응 HTML 표입니다. 선택하는 분자의 기능,레벨 3 을 생산하는 새로운 히스토그램을 빠르게 계시는 거의 절반(16/35)의 스트레스-반응의 유전자를 소유 사이토카인 활동의(그림 4c)., 실제로,사이토카인에 표시 되었습을 재생하는 중요한 부분에 HIV-1 생활주기와 결과를 얻을 여기에는 치료의 PBMCs HIV-1 봉투 단백질 크게 변조사의 수많은 사이토카인 유전자입니다. 의 효율성 GoCharts 요약을 체계적으로 큰 이 데이터 집합과 함께 그래픽 시각화하는 동안,나머지 연결하는 주요 데이터와 외부 리소스를 대폭 향상된 검색 프로세스.,

KeggCharts

그림 5a 보여 출력 KeggCharts 으로 분포를 나타내는 히스토그램의 표현 차동 유전자 사이에 생화확적인 경로. 이 차트는 아폽토시스의 KEGG 경로가 HIV-1gp120 에 의해 유도 된 5 개의 유전자를 포함한다는 것을 보여줍니다. 선택하는 통로 이름을 열고 해당 KEGG 생화확적인 통로 지도하고의 하이라이트에 빨간색 설명 차동 표현된 유전자에서 작동하는 통로(5b). 이 관점에서 유전자는 더 KEGG”의 DBGET 검색 시스템을 통해 사용할 수있는 추가 주석에 연결되어 있습니다., 참고는 네 개의 유전자에 KEGG apoptosis 통로가 빨간색으로 강조하면서,KeggCharts 도구를 매핑된 다섯 Affymetrix 프로브 세트를 apoptosis 의 통로입니다. 이 차이는 Affymetrix probesets 중 2 개가 동일한”tnf-alpha”유전자를 표적으로한다는 사실 때문입니다.

그림 5

KeggCharts 의 출력. (a)KEGG 생화학 적 경로 중 402 개의 유전자 분포를 보여주는 시각화 차트. 적중 임계 값은 3 으로 설정되었고 출력은 적중 횟수별로 정렬되었습니다., 많은 수의 분류되지 않은 식별자는 사실로 인해 KEGG 은 생물 통로를 중심으로 하며 따라서 제공하는 낮은 범위의 유전자 목록이 있습니다. GoCharts 의 출력과 유사하게 파란색 막대는 각 경로의 유전자 수를 나타냅니다. 선택하면 파란색 막대를 열 HTML 표를 보여주는 LocusLink,유전자의 이름,현재의 분류,그리고 다른 분류에 대한 데이터의 유전자는 통로(데이터시하지 않음)., (b)KEGG 생화확적인 통로 나타나는 다음과 같은 선택의 경로 이름을”apoptosis”에서(a)묘사 네 차동 표현된 유전자에 apoptosis 통로들을 강조 표시에서는 가벼운 녹색과 빨간색입니다. 는 사실 KEGG 통로 하이라이트만 네 개의 유전자는 반면 KeggChart 지도 다섯 Affymetrix 프로브 세트를 apoptosis 통로는 사실로 인해 두 가지 프로브 세트가 대상 동일한”TNF-alpha”유전자입니다.,

DomainCharts

DomainCharts 운영에 가까운 모두 KeggCharts 및 GoCharts 것을 제외하고,결과를 시각적으로 묘사 분포의 유전자 중 PFAM 단백질 도메인(Figure6a). 이 DomainCharts 히스토그램을 식별 16 일 유전자와 키니아 도메인(pkinase),아마을 반영의 효과 HIV-1gp120 에서 신호 전달 기계장치입니다. 차트를 식별할 수도 있습니다 여섯 유전자 interleukin-8 도메인(IL-8)도메인을 나타내는 높게 보존된 모티브의 사이에 스트레스-반응 cytokines., 도메인 이름”IL8″을 선택하면 해당 PFAM 도메인에 해당하는 CDD(Conserved Domain Database)페이지가 열립니다(그림 6b). 이 페이지에서는 IL-8 도메인과 이를 포함하는 단백질에 대한 자세한 서열,구조 및 기능 정보를 제공합니다.

그림 6

DomainCharts 의 출력. (a)단백질 도메인 중 402 개의 유전자 분포를 보여주는 시각화 차트. 매개 변수를 최소 적중 임계 값 4 로 설정하고 출력을 적중 횟수로 정렬했습니다., GoCharts 및 KeggCharts 의 출력과 유사하게 파란색 막대는 해당 특정 도메인을 포함하는 유전자의 수를 나타냅니다. 선택하면 파란색 막대를 열 HTML 표를 보여주는 LocusLink,유전자의 이름,현재의 분류,그리고 다른 분류에 대한 데이터의 유전자는 통로(데이터시하지 않음)., (b)도메인을 선택하면 이름이”IL8″에서(a),을 포함하는 여섯 차동 표현된 유전자를 제공하는 사용자를 새 페이지를 포함하는 출력에서 보존된 도메인 데이터베이스(CDD)NCBI 에서 제공에 대한 자세한 정보를 IL-8 도메인을 포함하여 구조적 정보를 여러 순서를 정렬하고 설명하는 도메인에 대한 정보와 단백질은 그것을 소유하고 있다.나는 이것이 내가 할 수있는 유일한 방법이라고 생각한다.

답글 남기기

이메일 주소를 발행하지 않을 것입니다. 필수 항목은 *(으)로 표시합니다