Arveligheden 201: Typer af arveligheden, og hvordan vi vurderer det

I Arveligheden 101 vi defineret arveligheden som “den andel af variation i et træk forklares ved arvelige genetiske varianter.”I praksis vil vi ofte stole på variationer af denne definition, dels på grund af forskellene mellem dette idealiserede koncept om arvelighed og virkeligheden af, hvad vi faktisk kan estimere videnskabeligt., I dette indlæg vil vi skitsere nogle forskellige” smag ” af arvelighed, og de måder, de kan estimeres på, med det endelige mål at forklare, hvilken form for arvelighed vi rapporterer fra dataene fra den britiske Biobank.

den hurtige version:

vores britiske Biobankanalyse estimerer \(h^2_g\) eller SNP-arvelighed., Dette er kun den andel af variation i de træk, der kan forklares med additive effekter af almindeligt forekommende genetiske varianter, der kaldes Snp (en enkelt base ændring i et DNA-sekvens), så det er næsten altid mindre end den samlede arveligheden \((H^2)\), der kunne forklares ved alle genetiske faktorer.

Vi estimering \h^2_g\) ved hjælp af en metode, der kaldes LD score regression (LDSR); hvis valg af metode betyder noget for dig, så vil du sandsynligvis sætte pris på den mere tekniske indlæg her.,

Måling af variation

Før vi taler om de forskellige varianter af arveligheden, er det nyttigt at definere, hvad vi mener med “variation”, når vi siger ting som “den andel af variation i et træk forklares ved” noget.

her, når vi siger “variation”, henviser vi til det matematiske begreb “varians”. Varians er en almindelig måling til måling af, hvor meget et træk adskiller sig mellem mennesker i en gruppe. Formelt er det den gennemsnitlige kvadrerede forskel mellem en tilfældigt valgt person og den “gennemsnitlige” person., For eksempel, på tværs af alle mænd og kvinder i UK Biobank variansen af højde i inches er 13.3 (86.0 for højde i cm), svarende til en standardafvigelse på 3,7 tommer (9.3 cm). Standardafvigelsen er simpelthen kvadratroden af variansen.

statistikere kan lide at tale om varians (i modsætning til mere intuitive mål som intervallet eller den gennemsnitlige absolutte afvigelse fra gennemsnittet), fordi det har gode matematiske egenskaber., Mest bemærkelsesværdigt, hvis du har et resultat, der er summen af effekter fra uafhængige kilder (som f.eks. At være i stand til at opdele den samlede varians af et træk i forskellige stykker, der tilføjer denne måde, er meget nyttigt, når vi vil begynde at tale om “andelen af varians forklaret af genetik”, som vi vil se nedenfor.

endelig betyder det at tale om varians implicit, at vi taler om en gruppe eller population af individer., Du kan ikke have en gennemsnitlig forskel mellem mennesker med kun .n person. Som vi understreger i arvelighed 101, betyder det, at når vi taler om arvelighed, taler vi om variation i en population af individer, ikke om genetik, der bestemmer en del af et træk hos et givet individ.

“Forklare” varians

Det er også værd at præcisere, den anden halvdel af sætningen “den andel af variation i et træk forklares ved”, nemlig hvad vi mener med “forklaret”., I dette tilfælde, varians, der er “forklaret” af genetik er varians, der kunne forudsiges baseret på genetiske data, hvis vi havde perfekt information om virkningerne af alle genetiske varianter (som, for at være klar, vi faktisk ikke har).

hvis du nogensinde har hørt udtrykket” korrelation er ikke årsagssammenhæng”, er det det problem, vi henviser til her, og hvorfor vi ikke blot siger andelen af varians forårsaget af genetiske effekter., Vi er tættere på årsagssammenhæng, da det er ret sikkert at antage, at de arvelige træk ikke forårsager de genetiske varianter, da vores genetik er fast ved befrugtning (med undtagelse af erhvervede mutationer som dem, der ses i kræft). Det er imidlertid muligt, at genetiske varianter korreleres med miljøfaktorer, der har en direkte kausal indvirkning på egenskaben. Det betyder ikke, at genetikken ikke er vigtig og informativ for det træk, men det betyder, at vi skal være forsigtige med at beskrive effekter som kausal, selv i genetik., Så som en forholdsregel mod at fremsætte for tidlige udsagn om årsagssammenhæng fokuserer vi i stedet på “forklaret” varians.

bred forstand arvelighed

vi foretager tre vigtige observationer om denne definition. For det første er det helt fleksibelt om, hvordan specifikke genetiske effekter bidrager til \(^^2_G\)., Den brede forstand \H^2\) er ligeglad med, om \(𝜎^2_G\) kommer fra et enkelt Mendelian variant i bare ét gen, eller de små additive effekter fra varianter i 100 forskellige gener, eller komplekse samspil mellem hver variant i hele genomet. Vi vil se nedenfor, at dette er en vigtig skelnen mellem bred fornuft \(H^2\) og nogle af de andre typer arvelighed.

$$H^2 = \frac{\sigma^2_G}{\sigma^2_G + \sigma^2_E}$$, men denne antagelse er ikke påkrævet., Ved blot at skrive nævneren som \(^^2_P\) tillader vi muligheden for, at genetiske og miljømæssige faktorer korreleres eller interagerer på en eller anden måde. Dette er vigtigt, da det fremhæver, at miljøets virkning på egenskaben ikke blot er “resten” efter at have taget højde for alle de genetiske effekter, i stedet kan de overlappe og interagere på komplekse måder.

Snævre forstand arveligheden

I praksis, fleksibilitet i bred forstand \H^2\) gør det meget svært at vurdere uden at gøre stærke antagelser., At tillade effekter af alle mulige interaktioner mellem alle mulige genetiske varianter betyder at have et funktionelt uendeligt rum af mulige effekter. En nyttig måde at forenkle dette på er at tænke på den samlede varians, der forklares af genetik som en kombination af additive virkninger, dominerende/recessive virkninger og interaktionseffekter mellem forskellige varianter. $$\sigma^2_G = \sigma^2_A + \sigma^2_D + \sigma^2_I$$

Historisk set har de fleste videnskabelige diskussion af arveligheden af forskellige træk har fokuseret på \h^2\)., En af de gode træk ved \(H^2\) er, at det indebærer et simpelt forhold mellem, hvor genetisk relaterede to mennesker er, og hvor lignende træk vil være for disse to personer. Vi kan bruge dette forhold til at estimere \(H^2\) i Tvilling-og familiestudier.

I det simpleste tilfælde, vi kan sammenligne enæggede tvillinger (ofte kaldet “identiske” eller MZ-tvillinger) til dizygotic (“broderlige” eller DZ) tvillinger. M.tvillinger delte alle deres DNA , mens D. tvillinger deler halvdelen af deres DNA i gennemsnit., Tvillinger deler også stort set det samme miljø, uanset om de er m .eller D.. Så for at estimere \(H^2\) kan vi observere, hvordan korreleret et træk er mellem par af M.tvillinger, og hvordan korreleret træk er mellem D. tvillinger og se om disse korrelationer er forskellige. Hvis MZ tvillinger par, med deres større genetisk lighed, er mere stærkt korreleret end DZ twin pairs, der tyder på, at genetik forklarer nogle af variansen i træk .

der har været årtier med videnskabelig forskning om arveligheden af menneskelige træk ved hjælp af denne generelle tilgang., Hjælpsomt samlede en nylig indsats fra Danielle Posthuma og kolleger meget af dette arbejde til en enkelt weebside, hvor du kan gennemse tvillingbaserede estimater af \(H^2\) for en lang række træk.

SNP-arveligheden

ovenstående varianter af arveligheden har henvist til “genetiske effekter” begrebsmæssigt uden at det kræver nogen overvejelse af specifikke genetiske varianter og deres association med den egenskab., Nu hvor fremskridt inden for genetik har gjort det muligt at indsamle data om disse specifikke varianter, er der mulighed for at evaluere, hvor meget hver af disse observerede varianter bidrager til arvelighed.

især kan vi overveje en type genetisk variant kaldet en enkelt nukleotidpolymorfisme (SNP), som er en ændring af et enkelt basepar DNA på et specifikt sted i genomet. For eksempel, nogle mennesker kan have et A på det sted, mens andre mennesker har en G., Der er millioner af disse placeringer i genomet, der ofte varierer mellem forskellige mennesker, og meget af den aktuelle forskning inden for human genetik er fokuseret på at forstå virkningerne af disse varianter .

det er værd at fremhæve to nøglefunktioner i \(h^2_g\). For det første kan du bemærke, at vi har defineret \(h^2_g\) baseret på et sæt SNPs “s”. I praksis afhænger dette sæt SNP ‘ er af (a) de SNP-data, der er blevet observeret, og (B) den metode, der bruges til estimering \(h^2_g\)., Dette gør det vanskeligt at sammenligne værdier af \(h^2_g\) mellem forskellige metoder og forskellige undersøgelser , men i de fleste tilfælde er det sikkert at i det mindste antage, at det refererer til almindeligt forekommende SNP ‘ er. For det andet kan variansen forklaret af SNP ‘er muligvis ikke afspejle virkningerne af disse særlige SNP’ er i modsætning til virkningerne af andre genetiske varianter, som SNP ‘ erne er korreleret med., Dette er blot en forlængelse af vores tidligere diskussion ovenfor om betydningen af varians “forklaret”, men værd at gentage, da det ville være let at misfortolke SNP-arveligheden, som fuldt ud, undtagen de kausale effekter af andre typer af genetisk variation.

der er et par forskellige metoder, der er udviklet til estimering \(h^2_g\) fra observerede SNP ‘ er. I praksis kender vi ikke den sande \(__j\), så vi er nødt til at bruge andre tricks., Den første tilgang, kendt som grml (genomisk relatedness Matri.begrænset maksimal sandsynlighed; almindeligt implementeret i GCTA), bruger SNP ‘ er til at estimere den genetiske lighed mellem tilfældige individer og sammenligne det med deres træk lighed. Dette svarer konceptuelt til det tvillingbaserede estimat beskrevet ovenfor, men bruger den observerede genetiske lighed på lavt niveau i SNP-data fra personer, der ikke er direkte relaterede. Du kan læse om de statistiske detaljer her med en nyere anmeldelse her.,

En anden tilgang kaldes sammenkædning uligevægt (LD) score regression, der er gennemført i ldsc. Dette er den metode, vi anvender til det britiske Biobank-datasæt. LD-score-regression afhænger af nøgleobservationen, at nogle SNP ‘ er er korreleret med (DVS.i LD med) andre genetiske varianter, så man observerer, at SNP igen “mærker” information om virkningerne af andre varianter. Den grundlæggende ID and er så, at hvis der er masser og masser af små genetiske effekter spredt over genomet (dvs ., egenskaben er” polygenisk”), så styrken af forholdet mellem hver enkelt SNP og egenskaben skal (i gennemsnit) være proportional med hvor meget total genetisk variation, som SNP tags. Statistiske oplysninger om LD score regression metode kan findes her.

varians forklaret af kendte SNP-effekter

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *