DAVID: Database for Annotation, Visualization, and Integrated Discovery | Genome Biology

une procédure automatisée écrite dans Microsoft Visual Basic (VB) 6.,0 met à jour DAVID chaque semaine avec les procédures suivantes: appeler une série D’applications Perl et Java qui téléchargent des données publiques via des protocoles de transfert de fichiers anonymes (FTP) (Tableau 1); décompresser et analyser les données d’annotation souhaitées; créer des fichiers de données délimités par des onglets prêts pour l’importation de base de données; et importer des Le serveur web IIe de Microsoft et la technologie Active Server Page sont utilisés pour accéder à la base de données en utilisant JavaBeans et le langage de requête structuré (SQL)., Les numéros LocusLink pour les ensembles de sondes Affymetrix sont dérivés d’associations de L’Université du Michigan ou de NetAffx . Les annotations fonctionnelles et les références croisées de base de données sont dérivées de LocusLink, qui fournit des représentations stables de gènes organisées par l’homme. Pour plus d’informations sur les sources de données utilisées par DAVID, veuillez consulter la section FAQ À l’adresse suivante:.,

Tableau 1 Sources de données d’annotation intégrée dans DAVID

l’Analyse des modules

DAVID est composé de quatre modules principaux: Outil d’Annotation, GoCharts, KeggCharts, et DomainCharts. L’Outil d’Annotation est une méthode automatisée pour l’annotation fonctionnelle des listes de gènes. Toute combinaison de données d’annotation peut être choisie parmi 10 options en cochant les cases appropriées (Tableau 2)., Les annotations sont ajoutées à la liste de gènes soumis en sélectionnant le bouton de téléchargement, qui renvoie un tableau HTML contenant la liste originale de l »Utilisateur des identifiants ajoutés avec les annotations fonctionnelles choisies. Les gènes non annotés sont inclus dans la sortie sans données ajoutées à des fins de suivi.,

Tableau 2 Options fournies par L’outil D’Annotation

le module GoCharts affiche graphiquement la distribution des gènes exprimés de manière différentielle entre les catégories fonctionnelles en utilisant le vocabulaire contrôlé du Gene Ontology Consortium (GO), qui fournit un langage structuré fonctions des gènes et des protéines dans tous les organismes alors même que les connaissances continuent de s’accumuler et de changer ., Le langage est structuré dans un graphe acyclique dirigé (DAG), dans lequel la spécificité du terme augmente et la couverture du génome diminue à mesure que l’on descend dans la hiérarchie. Contrairement à une véritable hiérarchie, les Termes enfants dans un DAG peuvent avoir plus d’un terme parent et peuvent avoir une classe de relation différente avec ses différents parents. La structure de GO commence par trois catégories principales, le processus biologique, la fonction moléculaire et la composante cellulaire., Le processus biologique comprend de larges objectifs biologiques, tels que la mitose ou le métabolisme des purines, qui sont accomplis par des assemblages ordonnés de fonctions moléculaires. La fonction moléculaire décrit les tâches effectuées par des produits génétiques individuels; des exemples sont le facteur de transcription et L’ADN hélicase. Le type de classification des composants cellulaires implique des structures subcellulaires, des emplacements et des complexes macromoléculaires; des exemples incluent le noyau, le télomère et le complexe de reconnaissance d’origine., Après avoir choisi un type de classification, les niveaux qui déterminent la couverture et la spécificité de la liste sont choisis en sélectionnant le bouton radio approprié. Le niveau 1 fournit la couverture de liste la plus élevée avec le moins de spécificité de terme. Avec chaque niveau croissant, la couverture diminue tandis que la spécificité augmente, de sorte que le niveau 5 fournit le moins de couverture avec la spécificité à terme la plus élevée.

Les données de Classification sont affichées sous forme de diagramme à barres, où la longueur de la barre représente le nombre d’identificateurs de gènes dans chaque catégorie., L’utilisateur peut définir des paramètres de visualisation pour trier les données de sortie et afficher des catégories contenant au moins un nombre minimum de gènes. La sélection d’une barre individuelle ouvre un nouveau tableau HTML affichant l’identifiant du gène, le numéro de LocusLink, le nom du gène, la classification actuelle et d’autres classifications pour chaque gène de cette catégorie. Un bouton » Afficher tout « ouvre un nouveau tableau HTML affichant toutes les données de classification et un bouton » Afficher les données de graphique » ouvre un tableau HTML contenant les données de graphique sous-jacentes, permettant ainsi aux utilisateurs de recréer des graphiques de graphique personnalisés dans un tableur., Un nouveau graphique peut être affiché pour n »importe quel sous-ensemble de gènes en sélectionnant le type et le niveau de classification en utilisant les cases à cocher et les boutons radio disponibles dans la page actuelle de l » utilisateur qui permettent des capacités d » exploration. Un décompte du nombre de gènes annotés est inclus dans la sortie, et les gènes non annotés sont regroupés dans la catégorie « non classifié », fournissant ainsi aux utilisateurs un système de suivi automatisé pour les gènes non annotés.

Les diagrammes de Kegg montrent graphiquement la distribution des gènes exprimés différentiellement entre les voies biochimiques de KEGG., Chaque voie est liée à la carte de voie de KEGG, dans laquelle les gènes exprimés différentiellement de la liste originale sont surlignés en rouge. Dans cette vue, les gènes sont en outre liés à des annotations supplémentaires disponibles via le système de récupération DBGET de KEGG . Comme avec GoCharts, l’utilisateur peut définir des paramètres de visualisation pour trier les données de sortie et afficher des catégories contenant au moins un nombre minimum de gènes et la visualisation KeggCharts hérite de toutes les fonctionnalités dynamiques de GoCharts.

Les diagrammes de domaines montrent la distribution des gènes différentiellement exprimés entre les domaines protéiques PFAM ., Chaque désignation de domaine est liée à la base de données des domaines conservés (CDD) du National Center for Biotechnology Information (NCBI), où des détails concernant la fonction, la structure et la séquence du domaine sont facilement disponibles. Comme avec GoCharts et KeggCharts, l’utilisateur peut définir des paramètres de visualisation pour trier les données de sortie et afficher des catégories contenant au moins un nombre minimum de gènes et la visualisation DomainCharts hérite de toutes les fonctionnalités dynamiques de GoCharts et KeggCharts. Pour plus d’informations sur la fonctionnalité de DAVID, visitez la section FAQ À .,

utiliser DAVID pour exploiter l’annotation fonctionnelle

pour démontrer la fonctionnalité de DAVID, nous avons analysé une liste de gènes exprimés de manière différentielle dans les cellules mononucléées du sang périphérique humain (PBMC) après incubation avec des protéines D’enveloppe du VIH-1. Des détails sur les procédures expérimentales, de préparation D’ARN et D’hybridation GeneChip, ainsi que des détails sur les normalisations de puce à puce et l’analyse statistique de l’expression différentielle des gènes sont fournis dans Cicala et al. ., En bref, les PBMC primaires humaines et les macrophages dérivés de monocytes ont été incubés pendant 16 heures avec la protéine D’enveloppe du VIH-1 (gp120). Des puces à oligonucléotides de haute densité (Affymetrix hu-95a GeneChip) ont été utilisées pour surveiller les événements transcriptionnels induits par le gp120. Cette analyse a permis d’identifier 402 gènes d’expression différentielle.

alors que 16 gènes modulés par le VIH-1 gp120 ont déjà été associés à la réplication du VIH et / ou à la signalisation de l’enveloppe, les gènes restants ont une fonction inconnue ou n’ont jamais été associés au VIH-1 ou au gp120., La conversion de cette liste de gènes en signification biologique nécessite la collecte d’informations pertinentes provenant de plusieurs dépôts de données. Pour de nombreux chercheurs, ce processus consiste à parcourir plusieurs bases de données itératives pour chaque gène, en collectant manuellement des informations spécifiques au gène concernant la séquence, la fonction, la voie et l’association des maladies. En revanche, L’approche systématique de DAVID ajoute simultanément des informations biologiquement riches dérivées de plusieurs sources de données publiques à des listes de gènes en parallèle., La sélection de L’outil D’Annotation de DAVID et le téléchargement de la liste des 402 gènes exprimés de manière différentielle initient l’annotation fonctionnelle et l’analyse de l’ensemble de données. Une fois soumise, la liste de gènes est stockée pendant toute la session d’analyse, ce qui permet aux utilisateurs de basculer entre les modules sans avoir à soumettre de nouveau des données.

outil D’Annotation

l’outil D’Annotation fournit plusieurs options d’annotation et crée une vue tabulaire de la liste des gènes des utilisateurs et des annotations disponibles (Tableau 2)., Le choix des champs d’annotation Gene Symbol, LocusLink, OMIM, Unigene, Reference Sequence et Gene Name suivi de la sélection du bouton « Upload » produit un tableau HTML dans le navigateur Web contenant tous les gènes et leurs annotations disponibles, où les identifiants de gènes, les données descriptives et de classification sont extraits de la base de données et ajoutés à la liste des gènes (Figure 1). Les identificateurs de gènes tels que Gene Symbol et LocusLink sont hyperliés à des données spécifiques de gènes supplémentaires disponibles à leurs sources d’origine, fournissant ainsi des détails spécifiques de gènes en profondeur et des pedigrees d’annotation., Les données de Classification et les résumés fonctionnels peuvent être utilisés pour rechercher rapidement des informations pertinentes pour le système expérimental du chercheur. Le temps de serveur requis pour l’exécution de ce module est corrélé linéairement à la taille de la liste de gènes et prend moins de 45 secondes pour les listes de jusqu’à 1 000 gènes (Figure 2, les nombres entre parenthèses représentent les valeurs r2). Ces résultats démontrent la puissance et l’efficacité d’une approche intégrée pour l’annotation fonctionnelle de grands ensembles de données.,

GoCharts

le Choix de la GoCharts module ouvre une nouvelle fenêtre avec une variété d’options., Les utilisateurs choisissent entre trois types généraux de classification (processus biologique, fonction moléculaire et composante cellulaire) et cinq niveaux d’annotation qui représentent la couverture et la spécificité du terme (voir la section Modules D’analyse). Toute combinaison de classification et de niveau de couverture peut être spécifiée. Sont également inclus des options pour annoter des listes de gènes avec tous les Termes GO disponibles ou seulement les termes les plus spécifiques, qui sont appelés nœuds terminaux., La possibilité de choisir différents niveaux de spécificité à terme offre la flexibilité nécessaire et permet ainsi aux chercheurs de déterminer dynamiquement quel niveau de couverture et de spécificité convient le mieux à leurs données et à leur stade d’analyse. Par exemple, les analyses à un stade précoce peuvent consister à annoter des listes de gènes avec des termes très généraux afin d’obtenir une large compréhension des données. Dans ce cas, la sélection du processus biologique et du niveau 1 classe les gènes en utilisant des termes généraux tels que « mort » et « communication cellulaire »., L’utilisation d’une spécificité de terme accrue facilite l’extraction d’informations fonctionnelles plus détaillées. Dans ce cas, la sélection du processus biologique et le niveau 5 classifie les gènes en utilisant des termes tels que « changements mitochondriaux apoptotiques » et « perception chimiosensorielle ».

cependant, l’augmentation de la spécificité des Termes a un coût, en ce sens qu’à mesure qu’elle augmente, la couverture des listes diminue (Figure 3). Dans nos études, nous constatons que le niveau 2 maintient généralement une bonne couverture tout en fournissant une spécificité de terme significative., La Figure 4a illustre comment la visualisation de GoCharts révèle rapidement que 35 gènes exprimés de manière différentielle sont impliqués dans les « réponses au stress ». Chaque terme GO peut être visualisé dans l’arborescence ou les vues DAG par des hyperliens vers QuickGO .

étant donné que le VIH-1 a un impact majeur sur la fonction des cellules du système immunitaire et leur capacité à effectuer des réponses au stress, nous avons sélectionné la barre d’histogramme représentant le nombre de gènes impliqués dans la réponse au stress, qui ouvre un tableau HTML contenant L’identifiant Affymetrix, le numéro de LocusLink, le nom du gène, la classification actuelle et d’autres classifications pour les 35 gènes (Figure 4b)., Maintenant que nous avons réduit notre liste de gènes aux gènes impliqués dans les réponses au stress, nous avons caractérisé ce sous-ensemble en répétant la procédure de GoCharts disponible en haut du tableau HTML stress-réponse. En choisissant la fonction moléculaire, le niveau 3 produit un nouvel histogramme qui révèle rapidement que près de la moitié (16/35) des gènes de réponse au stress possèdent une activité cytokine (Figure 4c)., En effet, il a été démontré que les cytokines jouent un rôle important dans le cycle de vie du VIH-1 et les résultats obtenus ici suggèrent que le traitement des PBMC avec des protéines D’enveloppe du VIH-1 module significativement la transcription de nombreux gènes de cytokines. L’efficacité avec laquelle GoCharts a systématiquement résumé ce grand ensemble de données avec des visualisations graphiques, tout en restant lié aux données primaires et aux ressources externes a considérablement amélioré le processus de découverte.,

KeggCharts

La Figure 5a représente la sortie des KeggCharts avec un histogramme montrant la distribution des gènes différentiellement exprimés entre les voies biochimiques. Le graphique montre qu’une voie de KEGG de l’apoptose comprend cinq gènes induits par le VIH-1 gp120. La sélection du nom de la voie ouvre la carte de voie biochimique de KEGG correspondante et met en évidence en rouge les gènes différentiellement exprimés fonctionnant dans cette voie (Figure 5b). Dans cette vue, les gènes sont en outre liés à des annotations supplémentaires disponibles via le système de récupération DBGET de KEGG ., Notez que seuls quatre gènes de la voie de L’apoptose de KEGG sont surlignés en rouge, tandis que l’outil KeggCharts a cartographié cinq ensembles de sondes Affymetrix sur la voie de l’apoptose. Cette différence est due au fait que deux des ensembles de sondes Affymetrix ciblent le même gène « TNF-alpha ».

diagrammes de domaines

Les diagrammes de domaines s’apparentent fonctionnellement aux diagrammes de Kegg et aux diagrammes de GoCharts, sauf que les résultats décrivent visuellement la distribution des gènes entre les domaines protéiques PFAM (Figure 6a). L’histogramme de DomainCharts identifie 16 gènes avec des domaines kinase (pkinase), reflétant probablement les effets du VIH-1 gp120 sur la machinerie de transduction du signal. Le graphique identifie également six gènes avec des domaines d’interleukine – 8 (IL-8), un domaine qui représente un motif hautement conservé parmi les cytokines de réponse au stress., La sélection du nom de domaine « IL8 » ouvre la page CDD (Conserved Domain Database) correspondant à ce domaine PFAM (Figure 6b). Cette page fournit des informations détaillées sur la séquence, la structure et la fonctionnalité du domaine IL-8 et des protéines qui le contiennent.

DAVID: Database for Annotation, Visualization, and Integrated Discovery (Français)