DAVID: Database for Adnotation, Visualization, and Integrated Discovery
Posted on
zautomatyzowana procedura napisana w Microsoft Visual Basic (VB) 6.,0 aktualizuje Davida co tydzień za pomocą następujących procedur: wywołanie serii aplikacji Perl i Java, które pobierają dane publiczne za pośrednictwem protokołów anonimowego transferu plików (FTP) (Tabela 1); Rozpakowanie i przetworzenie żądanych danych adnotacji; tworzenie rozdzielanych tabulatorami plików danych gotowych do importu bazy danych; i import danych do systemu zarządzania relacyjnymi bazami danych Oracle 8i (RDBMS) przy użyciu aplikacji Oracle SQL*Loader. Microsoft IIE web server i technologia Active Server Page są używane do uzyskania dostępu do bazy danych za pomocą JavaBeans i structured Query language (SQL)., Numery LocusLink dla zestawów sond Affymetrix pochodzą od stowarzyszeń University of Michigan lub NetAffx . Adnotacje funkcjonalne i odsyłacze baz danych pochodzą z LocusLink, który zapewnia stabilne, reprezentowane przez człowieka reprezentacje genów. Więcej szczegółowych informacji na temat źródeł danych używanych przez Davida można znaleźć w sekcji FAQ na stronie .,
Moduły analizy
DAVID składa się z czterech głównych modułów: narzędzia do adnotacji, GoCharts, KeggCharts i DomainCharts. Narzędzie do adnotacji jest zautomatyzowaną metodą funkcjonalnej adnotacji list genów. Dowolną kombinację danych adnotacji można wybrać spośród 10 opcji, zaznaczając odpowiednie pola wyboru (Tabela 2)., Adnotacje są dodawane do listy przesłanych genów poprzez wybranie przycisku upload, który zwraca tabelę HTML zawierającą oryginalną listę identyfikatorów użytkownika dołączoną do wybranych adnotacji funkcjonalnych. Nieoznakowane geny są włączane do wyjścia bez dołączonych danych do celów śledzenia.,
moduł GoCharts graficznie wyświetla rozkład genów wyrażonych różnie wśród kategorii funkcjonalnych przy użyciu kontrolowanego słownictwa Konsorcjum ontologii genów (GO), które zapewnia strukturalny język, który może być stosowany do Funkcje genów i białek we wszystkich organizmach, nawet gdy wiedza nadal gromadzi się i zmienia ., Język jest skonstruowany w ukierunkowanym grafie acyklicznym (DAG), w którym specyficzność terminowa wzrasta, a pokrycie genomu maleje wraz z przesuwaniem się w dół hierarchii. W przeciwieństwie do prawdziwej hierarchii, terminy dziecięce w DAG mogą mieć więcej niż jeden termin rodzica i mogą mieć inną klasę relacji z różnymi rodzicami. Struktura GO zaczyna się od trzech głównych kategorii, procesu biologicznego, funkcji Molekularnej i składnika komórkowego., Proces biologiczny obejmuje szerokie cele biologiczne, takie jak mitoza lub metabolizm puryn, które są realizowane przez uporządkowane zespoły funkcji molekularnych. Funkcja molekularna opisuje zadania wykonywane przez poszczególne produkty genów; przykładami są czynnik transkrypcyjny i helikaza DNA. Typ klasyfikacji komponentów komórkowych obejmuje struktury subkomórkowe, lokalizacje i kompleksy makrocząsteczkowe; przykłady obejmują jądro, telomer i Kompleks rozpoznawania pochodzenia., Po wybraniu typu klasyfikacji poziomy określające zasięg i specyfikę listy są wybierane przez wybranie odpowiedniego przycisku radiowego. Poziom 1 zapewnia najwyższy zasięg listy z najmniejszą ilością specyficzności terminowej. Z każdym rosnącym poziomem pokrycia maleje, podczas gdy specyficzność wzrasta tak, że poziom 5 zapewnia najmniejszą ilość pokrycia o najwyższej specyficzności term.
dane klasyfikacyjne są wyświetlane jako wykres słupkowy, gdzie długość słupka reprezentuje liczbę identyfikatorów genów w każdej kategorii., Użytkownik może ustawić parametry wizualizacji do sortowania danych wyjściowych i wyświetlania kategorii, które zawierają co najmniej minimalną liczbę genów. Wybranie pojedynczego paska otwiera nową tabelę HTML wyświetlającą identyfikator genu, numer LocusLink, nazwę genu, aktualną klasyfikację i inne klasyfikacje dla każdego genu w tej kategorii. Przycisk” Pokaż wszystkie „otwiera nową tabelę HTML wyświetlającą wszystkie dane klasyfikacji, a przycisk” Pokaż Dane wykresu ” otwiera tabelę HTML zawierającą podstawowe dane wykresu, umożliwiając użytkownikom odtworzenie niestandardowej Grafiki wykresu w programie arkusza kalkulacyjnego., Nowy wykres może być wyświetlany dla dowolnej podgrupy genów, wybierając typ klasyfikacji i poziom za pomocą pól wyboru i przycisków opcji dostępnych na bieżącej stronie Użytkownika, które pozwalają na drill-down możliwości. Liczba genów opatrzonych adnotacją jest uwzględniana w wyjściu, a geny nie opatrzone adnotacją są przypisywane do kategorii „niesklasyfikowane”, co zapewnia użytkownikom automatyczny system śledzenia genów nie opatrzonych adnotacją.
KeggCharts graficznie przedstawia rozkład genów wyrażonych różnie wśród szlaków biochemicznych KEGG., Każda ścieżka jest powiązana z mapą szlaku KEGG, na której geny o różnej ekspresji z oryginalnej listy są zaznaczone na Czerwono. W tym ujęciu geny są dodatkowo powiązane z dodatkowymi adnotacjami dostępnymi za pośrednictwem systemu pobierania DBGET KEGG . Podobnie jak w przypadku GoCharts, użytkownik może ustawić parametry wizualizacji dla sortowania danych wyjściowych i wyświetlania kategorii, które zawierają co najmniej minimalną liczbę genów, a wizualizacja KeggCharts dziedziczy wszystkie dynamiczne cechy GoCharts.
DomainCharts wyświetlają rozkład genów wyrażonych różnie wśród domen białka PFAM ., Każda nazwa domeny jest powiązana z zachowaną bazą domen (CDD) Narodowego Centrum Informacji biotechnologicznej (NCBI), gdzie szczegóły dotyczące funkcji domeny, struktury i sekwencji są łatwo dostępne. Podobnie jak w przypadku GoCharts i KeggCharts, użytkownik może ustawić parametry wizualizacji dla sortowania danych wyjściowych i wyświetlania kategorii, które zawierają co najmniej minimalną liczbę genów, a Wizualizacja DomainCharts dziedziczy wszystkie dynamiczne cechy GoCharts i KeggCharts. Aby uzyskać więcej informacji na temat funkcjonalności DAVID odwiedź sekcję FAQ na stronie .,
Korzystanie DAVID do kopalni funkcjonalne adnotacji
aby zademonstrować funkcjonalność DAVID przeanalizowaliśmy listę genów differentially expressed in human peripheral blood mononuclear cells (PBMC) po inkubacji z HIV-1 otoczki białek. Szczegóły eksperymentu, przygotowanie RNA, i GeneChip hybrydyzacji procedur, wraz ze szczegółami chip-to-chip normalizacji i statystycznej analizy różnicowej ekspresji genów są dostarczane w Cicala et al. ., Krótko, pierwotne ludzkie PBMC i makrofagi pochodzące z monocytów były inkubowane przez 16 godzin z białkiem otoczki HIV-1 (gp120). Mikrocząsteczki oligonukleotydów o wysokiej gęstości (Affymetrix HU-95A GeneChip) były używane do monitorowania zdarzeń transkrypcyjnych indukowanych przez gp120. W wyniku tej analizy zidentyfikowano 402 geny o różnej ekspresji.
podczas gdy 16 genów modulowanych przez HIV-1 gp120 było wcześniej związanych z replikacją HIV i/lub sygnalizacją otoczki, Pozostałe geny mają nieznaną funkcję lub nigdy nie były związane z HIV-1 lub gp120., Przekształcenie tej listy genów w znaczenie biologiczne wymaga zebrania istotnych informacji z kilku repozytoriów danych. Dla wielu badaczy proces ten polega na iteracyjnym przeglądaniu kilku baz danych dla każdego genu, ręcznym zbieraniu informacji specyficznych dla genów dotyczących sekwencji, funkcji, ścieżki i Stowarzyszenia Chorób. W przeciwieństwie do tego, systematyczne podejście Dawida jednocześnie dodaje biologicznie bogate informacje pochodzące z kilku publicznych źródeł danych do list genów równolegle., Wybranie narzędzia adnotacji Davida i przesłanie listy 402 różnie wyrażonych genów inicjuje funkcjonalną adnotację i analizę całego zbioru danych. Po przesłaniu lista genów jest przechowywana przez całą sesję analizy, umożliwiając użytkownikom przełączanie się między modułami bez konieczności ponownego przesyłania danych.
narzędzie do adnotacji
narzędzie do adnotacji udostępnia kilka opcji adnotacji i tworzy tabelaryczny widok listy genów użytkowników i dostępnych adnotacji (Tabela 2)., Wybranie pól adnotacji symbol genu, LocusLink, OMIM, Unigene, Sekwencja referencyjna i nazwa genu, a następnie wybranie przycisku „Prześlij”, tworzy tabelę HTML w przeglądarce internetowej zawierającą wszystkie geny i dostępne do nich adnotacje, gdzie identyfikatory genów, dane opisowe i klasyfikacyjne są pobierane z bazy danych i dołączane do listy genów (Rysunek 1). Identyfikatory genów, takie jak symbol genu i LocusLink, są hiperłączami do dodatkowych danych specyficznych dla genów dostępnych w ich oryginalnych źródłach, zapewniając w ten sposób dogłębne szczegóły specyficzne dla genów i rodowody adnotacji., Dane klasyfikacyjne i podsumowania funkcjonalne mogą być używane do szybkiego skanowania w poszukiwaniu informacji istotnych dla eksperymentalnego systemu badacza. Czas serwera wymagany do wykonania tego modułu koreluje liniowo z wielkością listy genów i zajmuje mniej niż 45 sekund dla list do 1000 genów (Rysunek 2, liczby w nawiasach przedstawiają wartości r2). Wyniki te pokazują moc i wydajność zintegrowanego podejścia do funkcjonalnej adnotacji dużych zbiorów danych.,