DAVID: Database per annotazione, visualizzazione e scoperta integrata
Posted on
Una procedura automatizzata scritta in Microsoft Visual Basic (VB) 6.,0 aggiorna DAVID settimanalmente con le seguenti procedure: chiamare una serie di applicazioni Perl e Java che scaricano dati pubblici tramite protocolli di trasferimento file anonimi (FTP) (Tabella 1); decomprimere e analizzare i dati di annotazione desiderati; creare file di dati delimitati da tabulazioni pronti per l’importazione di database; e importare i dati in un sistema di gestione di database relazionale Oracle 8i (RDBMS) Il server Web IIE di Microsoft e la tecnologia Active Server Page vengono utilizzati per accedere al database utilizzando JavaBeans e SQL (structured Query Language)., I numeri LocusLink per i set di sonde Affymetrix derivano dalle associazioni dell’Università del Michigan o NetAffx . Le annotazioni funzionali e i riferimenti incrociati del database derivano da LocusLink, che fornisce rappresentazioni stabili e curate dall’uomo dei geni. Per informazioni più dettagliate sulle fonti di dati utilizzate da DAVID si prega di consultare la sezione FAQ a .,
moduli di Analisi
DAVID si compone di quattro moduli principali: Strumento di Annotazione, GoCharts, KeggCharts, e DomainCharts. Lo strumento di annotazione è un metodo automatizzato per l’annotazione funzionale delle liste di geni. Qualsiasi combinazione di dati di annotazione può essere scelta tra 10 opzioni selezionando le caselle di controllo appropriate (Tabella 2)., Le annotazioni vengono aggiunti alla lista gene inviato selezionando il pulsante carica, che restituisce una tabella HTML contenente l”elenco originale dell” utente di identificatori aggiunto con le annotazioni funzionali scelti. I geni non annotati sono inclusi nell’output senza dati aggiunti per scopi di tracciamento.,
Il GoCharts modulo consente di visualizzare graficamente la distribuzione dei geni differenzialmente espressi tra categorie funzionali utilizzando il vocabolario controllato di Gene Ontology Consorzio (GO), che fornisce un linguaggio strutturato che può essere applicato alle funzioni dei geni e delle proteine in tutti gli organismi, anche come conoscenza continua ad accumulare e di cambiamento ., Il linguaggio è strutturato in un grafico aciclico diretto (DAG), in cui la specificità del termine aumenta e la copertura del genoma diminuisce man mano che si scende nella gerarchia. In contrasto con una vera gerarchia, i termini figlio in un DAG possono avere più di un termine genitore e possono avere una diversa classe di relazione con i suoi diversi genitori. La struttura di GO inizia con tre categorie principali, processo biologico, funzione molecolare e componente cellulare., Il processo biologico comprende gli ampi obiettivi biologici, quali la mitosi o il metabolismo delle purine, che sono compiuti dalle assemblee ordinate delle funzioni molecolari. La funzione molecolare descrive i compiti eseguiti dai singoli prodotti genici; esempi sono il fattore di trascrizione e l’elicasi del DNA. Il tipo di classificazione dei componenti cellulari comprende strutture subcellulari, posizioni e complessi macromolecolari; esempi includono nucleo, telomeri e complesso di riconoscimento dell’origine., Dopo aver scelto un tipo di classificazione, i livelli che determinano la copertura e la specificità dell’elenco vengono scelti selezionando il pulsante di opzione appropriato. Livello 1 fornisce la più alta copertura lista con la minor quantità di specificità termine. Ad ogni livello crescente la copertura diminuisce mentre la specificità aumenta in modo che il livello 5 fornisca la minor quantità di copertura con la più alta specificità a termine.
I dati di classificazione vengono visualizzati come un grafico a barre, in cui la lunghezza della barra rappresenta il numero di identificatori genetici in ciascuna categoria., L’utente può impostare parametri di visualizzazione per l’ordinamento dei dati di output e la visualizzazione di categorie che contengono almeno un numero minimo di geni. Selezionando una singola barra si apre una nuova tabella HTML che visualizza l’identificatore del gene, il numero LocusLink, il nome del gene, la classificazione corrente e altre classificazioni per ciascun gene in quella categoria. Un pulsante “Mostra tutto” apre una nuova tabella HTML che visualizza tutti i dati di classificazione e un pulsante “Mostra dati grafico” apre una tabella HTML contenente i dati del grafico sottostanti, consentendo così agli utenti di ricreare grafici personalizzati in un foglio di calcolo., Un nuovo grafico può essere visualizzato per qualsiasi sottoinsieme di geni selezionando il tipo di classificazione e il livello utilizzando le caselle di controllo e pulsanti di opzione disponibili all”interno della pagina corrente dell” utente che consentono funzionalità di drill-down. Un conteggio del numero di geni annotati è incluso nell’output e i geni non annotati sono raggruppati nella categoria “non classificati”, fornendo così agli utenti un sistema di tracciamento automatico per i geni non annotati.
KeggCharts mostra graficamente la distribuzione dei geni espressi in modo differenziale tra i percorsi biochimici di KEGG., Ogni percorso è collegato alla mappa del percorso di KEGG, in cui i geni espressi in modo differenziato dalla lista originale sono evidenziati in rosso. In questa vista i geni sono ulteriormente collegati a annotazioni aggiuntive disponibili attraverso il sistema di recupero DBGET di KEGG . Come con GoCharts, l’utente può impostare i parametri di visualizzazione per l’ordinamento dei dati di output e la visualizzazione di categorie che contengono almeno un numero minimo di geni e la visualizzazione KeggCharts eredita tutte le caratteristiche dinamiche di GoCharts.
DomainCharts mostra la distribuzione di geni espressi in modo differenziato tra i domini proteici PFAM ., Ogni denominazione di dominio è collegata al Conserved Domain Database (CDD) del National Center for Biotechnology Information (NCBI), dove i dettagli riguardanti la funzione del dominio, la struttura e la sequenza sono prontamente disponibili. Come con GoCharts e KeggCharts, l’utente può impostare i parametri di visualizzazione per l’ordinamento dei dati di output e la visualizzazione di categorie che contengono almeno un numero minimo di geni e la DomainCharts visualizzazione eredita tutte le caratteristiche dinamiche di GoCharts e KeggCharts. Per ulteriori informazioni sulla funzionalità di DAVID visita la sezione FAQ all’indirizzo .,
Utilizzando DAVID per estrarre l’annotazione funzionale
Per dimostrare la funzionalità di DAVID abbiamo analizzato un elenco di geni espressi in modo differenziale nelle cellule mononucleate del sangue periferico umano (PBMC) dopo l’incubazione con le proteine dell’involucro dell’HIV-1. I dettagli delle procedure sperimentali, di preparazione dell’RNA e di ibridazione GeneChip, insieme ai dettagli delle normalizzazioni chip-to-chip e all’analisi statistica dell’espressione genica differenziale sono forniti in Cicala et al. ., In breve, le PBMC umane primarie e i macrofagi derivati dai monociti sono stati incubati per 16 ore con la proteina inviluppo HIV-1 (gp120). Microarray oligonucleotidici ad alta densità (Affymetrix HU-95A GeneChip) sono stati utilizzati per monitorare gli eventi trascrizionali indotti da gp120. Questa analisi ha portato all’identificazione di 402 geni espressi in modo differenziale.
Mentre 16 geni modulati dall’HIV-1 gp120 sono stati precedentemente associati alla replicazione dell’HIV e / o alla segnalazione di inviluppo, i geni rimanenti hanno una funzione sconosciuta o non sono mai stati associati all’HIV-1 o al gp120., La conversione di questo elenco di geni in significato biologico richiede la raccolta di informazioni pertinenti da diversi archivi di dati. Per molti ricercatori questo processo consiste nella navigazione iterativa attraverso diversi database per ciascun gene, raccogliendo manualmente informazioni specifiche sul gene per quanto riguarda la sequenza, la funzione, il percorso e l’associazione della malattia. Al contrario, l’approccio sistematico di DAVID aggiunge simultaneamente informazioni biologicamente ricche derivate da diverse fonti di dati pubblici agli elenchi di geni in parallelo., Selezionando lo strumento di annotazione di DAVID e caricando l “elenco di 402 geni differenzialmente espressi avvia l” annotazione funzionale e l “analisi dell” intero set di dati. Una volta inviato, l’elenco dei geni viene memorizzato per l’intera sessione di analisi, consentendo agli utenti di passare da un modulo all’altro senza dover inviare nuovamente i dati.
Strumento di annotazione
Lo strumento di annotazione fornisce diverse opzioni di annotazione e crea una vista tabulare dell’elenco dei geni degli utenti e delle annotazioni disponibili (Tabella 2)., La scelta dei campi di annotazione Gene Symbol, LocusLink, OMIM, Unigene, Reference Sequence e Gene Name seguita selezionando il pulsante” Upload ” produce una tabella HTML nel browser web contenente tutti i geni e le loro annotazioni disponibili, dove gli identificatori dei geni, i dati descrittivi e di classificazione vengono estratti dal database e aggiunti all’elenco dei geni (Figura 1). Gli identificatori del gene quali il simbolo del gene ed il LocusLink hyperlinked ai dati gene-specifici supplementari disponibili alle loro fonti originali, così fornendo i dettagli gene-specifici approfonditi ed i pedigree dell’annotazione., Dati di classificazione e riassunti funzionali possono essere utilizzati per eseguire rapidamente la scansione di informazioni rilevanti per il sistema sperimentale del ricercatore. Il tempo del server richiesto per l’esecuzione di questo modulo è correlato linearmente con la dimensione dell’elenco dei geni e richiede meno di 45 secondi per elenchi fino a 1.000 geni (Figura 2, i numeri tra parentesi rappresentano i valori r2). Questi risultati dimostrano la potenza e l’efficienza di un approccio integrato all’annotazione funzionale di grandi set di dati.,