DAVID: Database for Annotation, Visualization, and Integrated Discovery (Magyar)
Posted on
an automated procedure written in Microsoft Visual Basic (VB) 6.,0 frissíti DAVID weekly a következő eljárások: hívjon egy sor Perl és Java alkalmazások letölthető nyilvános adatok névtelen fájlátviteli protokollok (FTP) (1. táblázat); kicsomagolni és elemezni kívánt annotációs adatok; hozzon létre tab-körülhatárolt adatfájlokat kész adatbázis import; és importálja az adatokat egy Oracle 8i relációs adatbázis-kezelő rendszer (RDBMS) segítségével Oracle s SQL*Loader alkalmazás. A Microsoft IIE webszerver és az Active Server Page technológiát használják az adatbázis eléréséhez JavaBeans és a strukturált lekérdezési nyelv (SQL) segítségével., LocusLink számok Affymetrix szonda készletek származnak University of Michigan egyesületek vagy NetAffx . A funkcionális annotációk és adatbázis-kereszthivatkozások a LocusLink-ből származnak, amely a gének stabil, ember-kurált ábrázolását biztosítja. A DAVID által használt adatforrásokkal kapcsolatos részletesebb információkért lásd a GYIK részt .,
elemzési modulok
DAVID négy fő modulból áll: Annotation Tool, GoCharts, KeggCharts, and DomainCharts. Az annotációs eszköz egy automatizált módszer a génlisták funkcionális annotációjára. Az annotációs adatok bármilyen kombinációja 10 lehetőség közül választható ki a megfelelő jelölőnégyzetek kiválasztásával (2.táblázat)., Az annotációk adunk a benyújtott gén lista kiválasztásával a feltöltés gomb, amely visszaadja a HTML táblázatot, amely a felhasználó eredeti azonosítók listáját csatolt a kiválasztott funkcionális kommentárok. A nem jelölt gének szerepelnek a kimeneten, Nincs csatolt adat követési célokra.,
a GoCharts modul grafikusan jeleníti meg a differenciálisan expresszált gének eloszlását a funkcionális kategóriák között, a gén ontológiai konzorcium (GO) ellenőrzött szókincsét használva, amely olyan strukturált nyelvet biztosít, amely alkalmazható a a gének és fehérjék funkciói minden szervezetben, még akkor is, ha a tudás továbbra is felhalmozódik és megváltozik., A nyelv egy irányított aciklikus gráfban (DAG) van felépítve, ahol a kifejezés specifikussága növekszik, a genom lefedettsége pedig csökken, ahogy az egyik lefelé mozog a hierarchiában. A valódi hierarchiával ellentétben a DAG-ban a gyermekfogalmaknak egynél több szülői kifejezése lehet, és eltérő osztályú kapcsolatuk lehet a különböző Szülőkkel. A GO szerkezete három fő kategóriával, biológiai folyamattal, molekuláris funkcióval és Sejtkomponenssel kezdődik., A biológiai folyamat magában foglalja a széles biológiai célokat, például a mitózist vagy a purin anyagcserét, amelyeket molekuláris funkciók rendezett egységei hajtanak végre. A molekuláris függvény az egyes géntermékek által végzett feladatokat írja le; erre példa a transzkripciós faktor és a DNS helikáz. A sejtkomponens osztályozási típusa szubcelluláris struktúrákat, lokalizációkat és makromolekuláris komplexeket foglal magában; ilyenek például a sejtmag, a telomere és az eredetfelismerő komplex., A besorolási típus kiválasztása után a lista lefedettségét és specifikusságát meghatározó szinteket a megfelelő rádió gomb kiválasztásával választjuk ki. Level 1 biztosítja a legmagasabb lista lefedettség a legkisebb mennyiségű kifejezés specificitás. Minden növekvő szintű lefedettség csökken, míg a specifitás növekszik, így az 5. szint biztosítja a legkevesebb lefedettséget a legmagasabb kifejezéssel.
osztályozási adatok sávdiagramként jelennek meg, ahol a sáv hossza az egyes kategóriák génazonosítóinak számát jelöli., A felhasználó megjelenítési paramétereket állíthat be a kimeneti adatok válogatásához, valamint olyan kategóriák megjelenítéséhez, amelyek legalább minimális számú gént tartalmaznak. Az egyes sávok kiválasztásával megnyílik egy új HTML-táblázat, amely megjeleníti a génazonosítót, a LocusLink számot, a génnevet, az aktuális osztályozást és az adott kategória egyes génjeinek egyéb osztályozását. A “Show All” gombra, megnyílik egy új HTML táblázat jelenít meg az összes besorolási adat, valamint egy “Show Diagram Adatok” gombra kattintva megnyílik egy HTML táblázat, amely a diagram alapjául szolgáló adatok, így lehetővé téve a felhasználók számára, hogy újra szabott diagram, grafika a táblázatban program., Egy új diagram megjeleníthető bármely részhalmaza gének kiválasztásával a besorolás típusa és szintje a jelölőnégyzetek és rádió gombok belül elérhető a felhasználó aktuális oldal, amely lehetővé teszi a fúró-le képességeit. Az annotált gének számának számozása szerepel a kimeneten, a nem jelölt géneket pedig a “nem osztályozott” kategóriába sorolják, így a felhasználók számára automatizált nyomkövető rendszert biztosítanak a nem kommentált gének számára.
a KeggCharts grafikusan mutatja a különböző expresszált gének eloszlását a KEGG biokémiai utak között., Minden út kapcsolódik a KEGG útvonal térkép, ahol különbözőképpen expresszált gének az eredeti lista pirossal van kiemelve. Ebben a nézetben a gének tovább kapcsolódnak a KEGG”s DBGET visszakeresési rendszerén keresztül elérhető további megjegyzésekhez . A Gochartshoz hasonlóan a felhasználó megjelenítési paramétereket is beállíthat a kimeneti adatok rendezéséhez, valamint olyan kategóriák megjelenítéséhez, amelyek legalább minimális számú gént tartalmaznak, a KeggCharts vizualizáció pedig örökli a GoCharts összes dinamikus jellemzőjét.
A DomainCharts a különböző expresszált gének eloszlását mutatja A PFAM fehérje domének között ., Minden domain kijelölés kapcsolódik a National Center for Biotechnology Information (NCBI) megőrzött Domain adatbázisához (CDD), ahol a domain funkcióra, struktúrára és sorrendre vonatkozó részletek könnyen elérhetők. A Gochartshoz és a Keggchartshoz hasonlóan a felhasználó megjelenítési paramétereket is beállíthat a kimeneti adatok rendezéséhez, valamint olyan kategóriák megjelenítéséhez, amelyek legalább minimális számú gént tartalmaznak, a DomainCharts vizualizáció pedig örökli a GoCharts és a KeggCharts összes dinamikus jellemzőjét. A DAVID működésével kapcsolatos további információkért látogasson el a GYIK szakaszba .,
David használatával a funkcionális annotáció bányászatához
DAVID funkcionalitásának bizonyítására elemeztük a humán perifériás vér mononukleáris sejtekben (PBMCs) eltérő módon expresszált gének listáját a HIV-1 boríték fehérjékkel történő inkubálás után. A kísérleti, RNS-előkészítő és GeneChip-hibridizációs eljárások részleteit, valamint a chip-to-chip normalizációk részleteit, valamint a differenciál génexpresszió statisztikai elemzését Cicala et al. ., Röviden, Az elsődleges humán Pbmc-ket és a monocita eredetű makrofágokat 16 órán keresztül inkubáltuk HIV-1 boríték fehérjével (gp120). Nagy sűrűségű oligonukleotid mikroarrays (Affymetrix HU-95A GeneChip) a gp120 által indukált transzkripciós események monitorozására használták. Ez az elemzés 402 különböző expresszált gén azonosítását eredményezte.
Mivel 16 gének árnyalja a HIV-1 gp120 korábban a HIV replikáció és/vagy a boríték jelzés, a fennmaradó gének az ismeretlen függvény, vagy még soha nem volt a HIV-1 vagy gp120., A gének ezen listájának biológiai jelentéssé történő átalakítása megköveteli a vonatkozó információk összegyűjtését több adattárból. Sok kutató ezt a folyamatot áll iteratív böngészés több adatbázisban minden egyes gén, kézzel összejövetel gén-specifikus információt sorrend, funkció, út, illetve a betegség egyesület. Ezzel szemben DAVID szisztematikus megközelítése egyidejűleg több nyilvános adatforrásból származó biológiailag gazdag információt ad a gének listájához párhuzamosan., DAVID annotációs eszközének kiválasztása és a 402 különböző expresszált gén listájának feltöltése a teljes adatkészlet funkcionális annotációját és elemzését indítja el. A benyújtás után a génlistát a teljes elemzési munkamenetre tároljuk, lehetővé téve a felhasználók számára, hogy az adatok újbóli elküldése nélkül váltsanak a modulok között.
annotációs eszköz
az annotációs eszköz számos annotációs lehetőséget biztosít, és táblázatos képet készít a felhasználók génlistájáról és a rendelkezésre álló jegyzetekről (2.táblázat)., Kiválasztása a jegyzet mezők Gén Szimbólum, LocusLink, OMIM, Unigene, Referencia Szekvencia, valamint a Gén Neve követi, majd válassza a “Feltöltés” gombra termel egy HTML táblázat a böngésző tartalmazó gének, valamint a rendelkezésre álló kommentárok, ahol gene azonosító, leíró, valamint besorolási adatok húzta az adatbázisból, majd hozzáfűzi, hogy a gén listán (1.Ábra). Gene azonosítók, például a Gén-Szimbólum LocusLink vannak elhelyezett linkkel hivatkozott, hogy további gén-specifikus adatok nem állnak rendelkezésre az eredeti források, így biztosítva alapos gén-specifikus adatait, majd jegyzet növedékek., Az osztályozási adatok és a funkcionális összefoglalók a kutató kísérleti rendszere szempontjából releváns információk gyors beolvasására használhatók. A modul végrehajtásához szükséges szerveridő lineárisan korrelál a génlista méretével, és kevesebb, mint 45 másodpercet vesz igénybe legfeljebb 1000 gén listájához (2. ábra, a zárójelben lévő számok R2 értékeket képviselnek). Ezek az eredmények azt mutatják, hogy a nagy adatkészletek funkcionális annotációjának integrált megközelítése milyen hatékony és hatékony.,