DAVID: Tietokannan Merkintä, Visualisointi, ja Integroitu Löytö

automatisoitu menettely kirjoitettu Microsoft Visual Basic (VB) 6.,0 päivitykset DAVID viikoittain seuraavat toimenpiteet: soita sarjan Perl-ja Java-sovelluksia, jotka lataa julkista dataa anonyymi tiedostojen siirto protokollia (FTP) (Taulukko 1); purkaa ja jäsentää haluamasi merkintä tiedot; luoda sarkainerotellussa tiedot tiedostoja valmis tietokanta tuonti; ja tuoda tietoja osaksi Oracle 8i relaatiotietokannan hallintajärjestelmä (RDBMS), joka käyttää Oracle”s SQL*Loader-sovellusta. Microsoft”s IIE web server ja Active Server Page-tekniikkaa käytetään pääsy tietokantaan käyttäen JavaBeans ja structured query language (SQL)., Affymetrix-luotainjoukkojen LocusLink-numerot ovat peräisin Michiganin yliopiston yhdistyksistä tai Netaffxista . Toiminnallinen merkintöjä ja tietokannan viittaukset ovat peräisin LocusLink, joka tarjoaa vakaa, ihmisen kuratoinut esityksiä geenit. Lisätietoja Davidin käyttämistä tietolähteistä on UKK-osiossa osoitteessa .,

Taulukko 1. Lähteiden merkintä tiedot integroitu DAVID

Analyysi moduulit

DAVID koostuu neljästä moduulista: Annotation Tool, GoCharts, KeggCharts, ja DomainCharts. Merkintätyökalu on automaattinen menetelmä geeniluetteloiden toiminnalliseen merkitsemiseen. Kaikki merkintätietojen yhdistelmät voidaan valita 10 vaihtoehdosta valitsemalla asianmukaiset valintaruudut (Taulukko 2)., Merkinnät lisätään toimitettu geeni luettelosta valitsemalla lataa-painiketta, joka palauttaa HTML-taulukon, joka sisältää käyttäjän”s alkuperäinen luettelo tunnisteet liitettävä valittu toiminnallinen merkintöjä. Ulostuloon sisältyvät muuttumattomat geenit, joihin ei ole liitetty seurantatarkoituksiin käytettävää tietoa.,

Taulukko 2 Vaihtoehtoa esittänyt käsinkirjoitustyökalun

GoCharts moduuli graafisesti jakauma eri tavoin ilmaistuna geenien joukossa toiminnallisia luokkia käyttäen kontrolloitua sanastoa Gene Ontologia Konsortio (MENNÄ), joka tarjoaa jäsennelty kieli, jota voidaan soveltaa toimintoja geenejä ja proteiineja kaikki organismit, vaikka tieto jatkaa kerääntyä ja muuttaa ., Kieli on rakenteeltaan suunnattu asyklinen graafi (DAG), jossa termi spesifisyys kasvaa ja genomin kattavuus pienenee, kun yksi liikkuu alaspäin hierarkiassa. Toisin todellinen hierarkia, lapsi termejä DAG voi olla useampi kuin yksi vanhempi termi ja voi olla eri luokan suhdetta sen eri vanhemmat. Rakenne alkaa MENNÄ kolmeen pääryhmään, Biologinen Prosessi, Molekyyli-Toiminto, ja Solujen osien., Biologiseen prosessiin kuuluvat laajat biologiset tavoitteet, kuten mitoosi tai puriinimetabolia, jotka saavutetaan molekyylifunktioiden tilatuilla kokoonpanoilla. Molekyylifunktio kuvaa yksittäisten geenituotteiden suorittamia tehtäviä; esimerkkejä ovat transkriptiokerroin ja DNA-helikaasi. Solujen Komponenttien luokittelu tyyppi liittyy subsellulaarisia rakenteet, paikat ja makromolekyyliyhdisteisiin komplekseja; esimerkkejä ovat ydin, telomeeri, ja origin recognition complex., Luokittelutyypin valinnan jälkeen valitaan tasot, jotka määrittävät luettelon kattavuuden ja spesifisyyden valitsemalla sopiva radio-painike. Taso 1 tarjoaa korkeimman luettelon, jossa on vähiten termispesifisyyttä. Jokaisen yhä tasolla kattavuus pienenee, kun spesifisyys kasvaa niin, että taso 5 on vähiten kattavuus korkein termi spesifisyys.

Luokitus tiedot näytetään pylväskaaviona, jossa palkin pituus on määrä geeni tunnisteet kunkin luokan., Käyttäjä voi asettaa visualisointiparametreja lähtötiedon lajitteluun ja sellaisten luokkien esittämiseen, jotka sisältävät vähintään vähimmäismäärän geenejä. Valitsemalla yksittäisen baari avaa uuden HTML-taulukko näyttää geeni tunniste, LocusLink numero, geenin nimi, nykyinen luokitus, ja muut luokitukset kunkin geenin tähän luokkaan. ”Näytä Kaikki” – painiketta avaa uuden HTML-taulukko näyttää kaikki luokitus-tiedot ja ”Show Chart Data” – painiketta avaa HTML-taulukon, joka sisältää taustalla olevan kaavion tiedot, jolloin käyttäjät voivat luoda räätälöityjä kaavio grafiikka taulukkolaskenta ohjelma., Uusi kaavio voidaan näyttää mille tahansa geenien osajoukolle valitsemalla luokittelutyyppi ja-taso käyttämällä valintaruutuja ja radiopainikkeita, jotka ovat saatavilla käyttäjän nykyisellä sivulla, joka mahdollistaa porausominaisuudet. Count määrä geenejä selityksineen on mukana lähtö, ja unannotated geenit ovat jumissa osaksi ”luokittelematon” kategoria, mikä tarjoaa käyttäjille automaattinen seurantajärjestelmä geenejä ei selityksin.

KeggCharts esittää graafisesti eri tavoin ilmaistujen geenien jakautumisen KEGG-biokemiallisten reittien kesken., Jokainen reitti liittyy KEGG-polkukarttaan, jossa alkuperäisen luettelon eri tavoin ilmaistut geenit korostuvat punaisina. Tässä katsauksessa geenit liittyvät edelleen KEGG ” s DBGET-hakujärjestelmän kautta saatavilla oleviin lisähuomautuksiin . Kuten GoCharts, käyttäjä voi asettaa visualisointi parametrit lajitteluun tuotos tiedot ja näytetään luokat, jotka sisältävät vähintään vähintään useita geenejä ja KeggCharts visualisointi perii kaikki dynaamiset ominaisuudet GoCharts.

DomainCharts näyttää eri tavoin ilmaistujen geenien jakautumista PFAM-proteiinipiirien kesken ., Jokainen domain nimitys liittyy Säilytetty Toimialueen Tietokanta (CDD) National Center for Biotechnology Information (NCBI), joissa tiedot, jotka koskevat toimialueen toiminto, rakenne ja järjestys ovat helposti saatavilla. Kuten GoCharts ja KeggCharts, käyttäjä voi asettaa visualisointi parametrit lajitteluun tuotos tiedot ja näytetään luokat, jotka sisältävät vähintään vähintään useita geenejä ja DomainCharts visualisointi perii kaikki dynaamiset ominaisuudet GoCharts ja KeggCharts. Lisätietoja Davidin toimivuudesta löydät FAQ-osiosta osoitteesta .,

Käyttäen DAVID kaivoksen toiminnallinen kommentointi

osoittamaan toiminnallisuutta DAVID meillä analysoitu luettelo geenien eri tavoin ilmaistuna ihmisen perifeerisen veren mononukleaarisissa soluissa (Pbmc: t) inkubaation jälkeen HIV-1-kirjekuori proteiineja. Tiedot kokeellinen, RNA valmistelu, ja GeneChip hybridisaatio menettelyjä, sekä tietoja chip-to-chip normalizations ja tilastollisen analyysin, differentiaali-geenin ilmentyminen on esitetty Cicala et al. ., Primaarisia ihmisen Pbmc-yhdisteitä ja monosyyttiperäisiä makrofageja inkuboitiin 16 tunnin ajan HIV-1-kuoriproteiinilla (gp120). High-density-oligonukleotidi microarray (Affymetrix HU-95 A GeneChip) käytettiin seurata gp120 aiheuttama transkription tapahtumia. Tämän analyysin tuloksena tunnistettiin 402 eri tavalla ilmaistua geeniä.

ottaa huomioon, Että 16 geenejä, joita muokkaavat HIV-1 gp120 on aiemmin liittynyt HIV: n replikaation ja/tai kirjekuori signalointi, loput geenit ovat tuntematon funktio tai ole koskaan liittynyt HIV-1-tai gp120., Muuntaa tämä luettelo geenejä biologinen merkitys edellyttää kerätä merkityksellistä tietoa useista data-arkistot. Monille tutkijoille tämä prosessi koostuu iteratiivinen selata useita tietokantoja kunkin geenin, manuaalisesti kerääminen geeni-erityisiä tietoja, jotka koskevat järjestyksessä, toiminta, polku, ja sairaus ry. Sen sijaan Davidin systemaattinen lähestymistapa lisää samanaikaisesti useista julkisista tietolähteistä johdettua biologisesti rikasta tietoa geeniluetteloihin rinnakkain., Valitsemalla DAVID”s käsinkirjoitustyökalun ja lataaminen luettelo 402 differentiaalisesti ilmaisi geenien käynnistää toimiva kommentointi ja analyysi koko aineisto. Kerran toimitettu, geeni luettelo on tallennettu koko analyysi-istunnon, jonka avulla käyttäjät voivat vaihtaa moduulit tarvitsematta lähetä tiedot.

käsinkirjoitustyökalun

Kommentointi-Työkalu tarjoaa useita merkintä vaihtoehtoja ja rakentaa taulukkomuodossa näkymä käyttäjät geeni lista ja saatavilla olevat merkinnät (Taulukko 2)., Valitsemalla kommentointi kentät Geeni Symboli, LocusLink, OMIM, Unigene, Viite Järjestyksessä, ja Geenin Nimi, jonka jälkeen valitaan ”Lataa” – painiketta tuottaa HTML-taulukon web-selain, joka sisältää kaikki geenit ja niiden käytettävissä merkintöjä, jossa geeni tunnisteet, kuvaileva ja luokituksesta tiedot, jotka vedetään tietokannasta ja liitetään geeni lista (Kuva 1). Geeni tunnisteita, kuten Geeni Symboli ja LocusLink ovat linkitetään muita geeni-erityisiä tietoja saatavilla niiden alkuperäiset lähteet, mikä tarjoaa syvällistä geeni-tarkat tiedot ja kommentointi sukutauluja., Luokitustiedoilla ja toiminnallisilla yhteenvedoilla voidaan nopeasti etsiä tutkijan kokeellisen järjestelmän kannalta merkityksellisiä tietoja. Palvelimen aika, joka tarvitaan suorituksen tämän moduulin korreloi lineaarisesti koko geenin lista ja vie vähemmän kuin 45 sekuntia luettelot jopa 1000 geenit (Kuva 2, numerot suluissa kuvaavat r2-arvot). Nämä tulokset osoittavat, että suurten tietokokonaisuuksien toiminnallisia merkintöjä koskeva integroitu lähestymistapa on tehokas ja tehokas.,

Kuva 1

Ulostulo ja Annotation Tool. Näytetään liitetiedot ensimmäisistä Affymetrix-luotaimista HTML-taulukossa, joka sisältää kaikki 402 merkintää. Kategorinen tietoa koeolosuhteet olivat mukana toimitetuissa Affymetrix anturi-asettaa tunnisteiden ja mukana tuotoksen arvo-sarakkeessa. Tunnisteita, kuten Symboli, LocusLink, OMIM, RefSeq, ja Unigene liittymiset ovat hyper-liittyvät niiden alkuperä lähteistä tarkempia tietoja., Teksti, joka on sisällytetty yhteenveto kentät on johdettu kuvaileva, toiminnalliset tiedot NCBI”s LocusLink raportteja.

Luku 2

Aika-analyysi käsinkirjoitustyökalun. Palvelimen aika (y-akseli) on tarpeen liittää kaikki 10 merkintävaihtoehtoa samanaikaisesti geeniluetteloihin, joiden koko vaihtelee 100: sta 1 000: een (X-akseli)., Keskimäärin kolme tutkimuksissa geeni luettelot sisältävät Affymetrix, GenBank, LocusLink, ja UniGene tunnisteet näkyvät ja numerot suluissa kuvaavat r2-arvo korrelaatio geeni-lista koko ja palvelimen aika, joka tarvitaan merkintä.

GoCharts

Valitsemalla GoCharts moduuli avaa uuden ikkunan, jossa on useita vaihtoehtoja., Käyttäjät valita kolme yleistä tyyppiä luokitus (biologinen prosessi, molekyyli-toiminto, ja solu-komponentti) ja viisi tasoa kommentointi, joka edustaa aikavälin kattavuus ja spesifisyys (ks. Analyysi Moduulit§). Kaikki luokitusten ja kattavuustason yhdistelmät voidaan määritellä. Mukana on myös vaihtoehtoja merkitä geeni luettelot kaikki MENNÄ ehdot saatavilla tai vain kaikkein erityisiä ehtoja, joista käytetään nimitystä terminaali solmut., Mahdollisuus valita eri tasoilla aikavälillä spesifisyys tarjoaa kaivattua joustavuutta ja siten sen avulla tutkijat voivat määrittää dynaamisesti joka kattavuuden ja spesifisyyden parhaiten sopii heidän tiedot ja vaiheen analyysi. Esimerkiksi alkuvaiheen analyysit voivat koostua kommentointiin geeni luettelot hyvin yleisellä tasolla, jotta saadaan laaja käsitys tietoja. Tällöin biologisen prosessin ja tason 1 valinta luokittelee geenit yleisillä termeillä, kuten” kuolema ”ja”soluviestintä”., Tarkemman termisen spesifisyyden käyttäminen helpottaa tarkempien toiminnallisten tietojen hankkimista. Tällöin biologisen prosessin valinta ja taso 5 luokittelevat geenit termeillä ”apoptoottiset mitokondriomuutokset”ja” kemosensorinen käsitys”.

Kuitenkin, lisääntynyt aikavälillä spesifisyys tulee kalliiksi, koska se lisää luettelon kattavuus pienenee (Kuva 3). Tutkimuksissamme havaitsemme, että taso 2 ylläpitää yleensä hyvää kattavuutta ja tarjoaa myös merkityksellistä termispesifisyyttä., Kuva 4a havainnollistaa, miten Gochartsin visualisointi paljastaa nopeasti, että 35 eri tavalla ilmaistua geeniä osallistuu ”stressireaktioihin”. Jokainen GO-termi on nähtävissä puu-tai DAG-näkymissä Hyperlinkeillä Quickgoon .

Kuvio 3

Analyysi geeni-lista kattavuus käyttämällä GoCharts. Luettelo 402 Affymetrix koetin asettaa tunnisteet olivat selityksineen kanssa Proteome määritetty toiminnalliset luokitukset esittänyt LocusLink., Prosenttia kattavuus edustaa useita geenejä pois 402, jotka olivat selityksin tällä aikavälillä-spesifisyys tason sisällä Biologinen Prosessi, Molekyyli-Toiminto, ja Solujen osien luokitus tyypit. Prosentuaalinen kattavuus laskee termisen spesifisyyden kasvaessa.

Luku 4

Ulostulo ja GoCharts. (a) viivakaavio, joka osoittaa differentiaalisesti ilmaistujen geenien jakautumisen geenin ontologian (GO) biologisten prosessien kesken., Parametrit asetettiin menemään tasolle 2, iskukynnys on viisi, ja tuotos lajiteltiin osumamäärällä. Siniset palkit on liitetty b alakohdassa esitettyihin lisähuomautuksiin. Valitsemalla blue bar (a), joka vastaa ”reaktio stressiin” avaa HTML-taulukko, joka osoittaa LocusLink, geenin nimi, nykyinen luokitus, ja muut luokittelu tiedot geenit tähän luokkaan. (c) Tämän osan geenien ”stressin vastaus” oli edelleen ominaista valitsemalla MENNÄ Molekyyli-Toiminto, level 3, osuma kynnys 2, ja lajitellaan osui laskea., Valitsemalla ”Chart Values” – painiketta luo uuden histogrammi paljastaa, että 16 35 stressi-vaste-geenit koodaavat proteiineja, joilla sytokiinien toimintaa.,

Koska HIV-1 on merkittävä vaikutus solujen toimintaa immuunijärjestelmää ja niiden kyky suorittaa stressistä, olemme valinneet histogrammi bar edustavat useita geenejä mukana stressin vastaus, joka avaa HTML-taulukon, joka sisältää Affymetrix tunniste, LocusLink numero, geenin nimi, nykyinen luokitus, ja muut luokitukset kaikki 35 geenit (Kuva 4b)., Nyt olemme vähentäneet geeni lista niille, geenien mukana stressistä, olemme edelleen ominaista tämä osajoukko toistamalla GoCharts menettelyä saatavilla yläosassa stressi-vastauksen HTML-taulukon. Valitsemalla molekyyli-toiminto, taso 3 tuottaa uuden histogrammi, joka nopeasti paljastaa, että lähes puolet (16/35) stressi-vaste-geenit omaavat sytokiinien toimintaa (Kuva 4c)., Todellakin, sytokiinien on osoitettu olevan tärkeä osa HIV-1: n elinkaari ja tulokset tänne viittaavat siihen, että hoito perifeerisen veren mononukleaarisissa soluissa, joilla on HIV-1 kirjekuori proteiineja merkittävästi säätelee transkription lukuisia sytokiinien geenit. Tehokkuus, jolla GoCharts järjestelmällisesti tiivistää tämän suuren datajoukon graafisia visualisointeja, kun taas loput sidoksissa ensisijainen tiedot ja ulkoisia resursseja parantunut merkittävästi löytö prosessi.,

KeggCharts

Kuva 5a kuvaa tuotoksen KeggCharts kanssa histogrammi näyttää jakautuminen eri tavoin ilmaistuna geenien joukossa biokemiallisia reittejä. Kaavion mukaan apoptoosin KEGG-reitillä on viisi HIV-1 gp120: n indusoimaa geeniä. Valitsemalla polun nimi-avaa vastaava KEGG biokemiallinen reitti kartalla ja korostetaan punaisella hahmotella eri tavoin ilmaistuna geenit toimivat, että reitti (Kuva 5b). Tässä katsauksessa geenit liittyvät edelleen KEGG ” s DBGET-hakujärjestelmän kautta saatavilla oleviin lisähuomautuksiin ., Huomaa, että vain neljä geenien KEGG apoptoosin reitti on korostettu punaisella, kun taas KeggCharts työkalu kartoitettu viisi Affymetrix koetin asettaa apoptoosin polku. Ero johtuu siitä, että Affymetrix-luotaimista kaksi kohdistuu samaan ”TNF-alfa” – geeniin.

Kuva 5

Ulostulo ja KeggCharts. (a) Visualisointikaavio, joka osoittaa 402 geenin jakautumisen KEGG-biokemiallisten reittien kesken. Iskukynnys asetettiin kolmeen ja Lähtö lajiteltiin osumamäärällä., Suuri määrä luokittelemattomien tunnisteet johtuu siitä, että KEGG on biokemiallinen-polku centric ja tarjoaa näin alhainen kattavuus geeni luettelot. Samoin kuin Gochartsin tuotos, siniset palkit edustavat geenien määrää jokaisella reitillä. Valitsemalla blue bar avaa HTML-taulukko, joka osoittaa LocusLink, geenin nimi, nykyinen luokitus, ja muut luokittelu tiedot geenit, että reitti (tiedot eivät ole näkyvissä)., (b) KEGG biokemiallinen reitti, joka näyttää seuraavan valinnan reitin nimi ”apoptoosi” (a) kuvaa neljä eri tavoin ilmaistuna geenien sisällä apoptoosin reitti korostamalla niitä vaaleanvihreä ja punainen. Se, että KEGG pathway korostaa vain neljä geeniä, kun taas KeggChart karttoja viisi Affymetrix koetin asettaa apoptoosin polku johtuu siitä, että kaksi koetin asettaa tavoite sama ”TNF-alfa” – geeni.,

DomainCharts

DomainCharts ovat toiminnallisesti sukua sekä KeggCharts ja GoCharts, paitsi että tulokset visuaalisesti kuvaa jakelu geenien joukossa PFAM proteiini verkkotunnuksia (Kuva 6a). Se DomainCharts histogrammi ilmaisee 16 geenien kanssa kinaasi verkkotunnukset (pkinase), mikä todennäköisesti heijastaa vaikutukset HIV-1 gp120 signaalin transduktio koneet. Kaaviossa esitetään myös kuusi geeniä, interleukiini-8 verkkotunnuksia (IL-8), verkkotunnuksen, joka edustaa erittäin säilytetty motiivi keskuudessa stressi-vaste-sytokiinien., Verkkotunnuksen ” IL8 ” valitseminen avaa suojatun verkkotunnuksen tietokannan (CDD) sivun, joka vastaa kyseistä PFAM-verkkotunnusta (Kuva 6b). Tällä sivulla on yksityiskohtaista sekvenssiä, rakennetta ja toiminnallista tietoa IL-8-verkkotunnuksesta ja sitä sisältävistä proteiineista.

Luku 6

Ulostulo ja DomainCharts. (a) Visualisointikaavio, joka osoittaa 402 geenien jakautumisen proteiinialueiden kesken. Parametrit asetettiin minimihittikynnykselle neljä ja tuotos lajiteltiin osumamäärällä., Samoin kuin Gochartsin ja Keggchartsin tuotokset, siniset palkit edustavat kyseistä verkkotunnusta sisältävien geenien määrää. Valitsemalla blue bar avaa HTML-taulukko, joka osoittaa LocusLink, geenin nimi, nykyinen luokitus, ja muut luokittelu tiedot geenit, että reitti (tiedot eivät ole näkyvissä)., (b) Valitsemalla verkkotunnus ”IL8” (a), joka sisältää kuusi eri tavoin ilmaistuna geenit, tuo käyttäjälle uuden sivun, joka sisältää lähtö Säilytetty Toimialueen Tietokanta (CDD) ja NCBI, joka tarjoaa yksityiskohtaista tietoa IL-8-toimialueen, mukaan lukien rakenteelliset tiedot, useita sekvenssin rinnastuksia, ja kuvailevia tietoja verkkotunnus ja proteiineja, jotka tulevat sen kanssa.

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *