Arvbarhet 201: Typer av arvbarhet og hvordan vi regner med det

I Arvbarhet 101 vi definert arvbarhet som «den andelen av variasjonen i et trekk forklares ved arvet genetiske varianter.»I praksis vil vi ofte baserer seg på variasjoner av denne definisjonen, delvis på grunn av forskjellene mellom denne idealiserte begrepet arvbarhet og virkeligheten av hva vi kan faktisk beregne vitenskapelig., I dette innlegget vil vi skissere noen ulike «varianter» av arvbarhet, og hvordan de kan være estimert, med målet om å forklare hva form av arvbarhet vi er rapportering fra data i UK Biobank.

quick versjon:

Våre UK Biobank analysen er å beregne $h^2_g$, eller SNP-arvbarhet., Dette er bare den andelen av variasjonen i den egenskap som kan forklares ved additive effekter av vanlig forekommende genetiske varianter som kalles SNPs (single-base endring i en DNA-sekvens), så det er nesten alltid mindre enn den totale arvbarhet $(H^2)$ som kan forklares med alle genetiske faktorer.

Vi estimere $h^2_g$ ved hjelp av en metode som kalles LD score regresjon (LDSR); om valg av metode er viktig for deg, så vil du sannsynligvis sette pris på den mer tekniske innlegget her.,

Måler variasjon

Før du snakker om forskjellige smaker av arvbarhet, er det nyttig å definere hva vi mener med «variant» når vi sier ting som «den andelen av variasjonen i et trekk forklares med» noe.

Her, når vi sier «variasjon», vi henviser til det matematiske begrepet «avvik». Avvik er en felles beregning for å måle hvor mye en egenskap skiller mellom personer i en gruppe. Formelt er det gjennomsnittlige kvadrerte differansen mellom en tilfeldig valgt person og den «gjennomsnittlige» person., For eksempel, på tvers av alle menn og kvinner i UK Biobank variansen av høyde i inches er 13,3 (86.0 for høyden i centimeter), tilsvarer et standard avvik på 3,7 tommer (9,3 cm). Standardavviket er rett og slett kvadratroten av variansen.

Statistikere som snakker om avvik (i motsetning til mer intuitiv tiltak som rekkevidde, eller den mener absolutte avvik fra gjennomsnitt) fordi den har fin matematiske egenskaper., Spesielt, hvis du har et utfall som er summen av virkninger fra uavhengige kilder (som, la oss si, gener og miljø) variansen av effekter fra hver kilde legge opp til variansen av utfallet. Å være i stand til å bryte opp den totale variansen av en egenskap i forskjellige stykker som legger opp på denne måten er svært nyttig når vi ønsker å begynne å snakke om «andel av variasjon forklart av genetikk», som vi vil se nedenfor.

til Slutt, snakker om avvik implisitt betyr at vi snakker om en gruppe eller befolkning på enkeltpersoner., Du kan ikke ha en gjennomsnittlig forskjell mellom personer med bare én person. Som vi legger vekt på i Arvbarhet 101, dette betyr at når vi snakker om arvbarhet vi snakker om variasjon i noen befolkningen av personer, ikke om genetikk å bestemme noen andel av en egenskap i et gitt individ.

«Forklare» varians

Det er også verdt å avklare den andre halvparten av uttrykket «den andelen av variasjonen i et trekk forklares med», nemlig hva vi mener med «forklart»., I dette tilfellet, variansen som er «forklart» av genetikk er variansen som kan forutsies basert på genetiske data hvis vi hadde perfekt informasjon om effekten av alle genetiske varianter (som, for å være klar, vi trenger faktisk ikke har).

Hvis du har noen gang hørt uttrykket «korrelasjon er ikke kausalitet», som er problemet vi»re refererer til her, og hvorfor kan vi ikke bare si andelen av variansen som skyldes genetiske effekter., Vi er nærmere til årsakssammenheng, siden det er ganske trygt å anta at de heritable trekk ikke forårsaker den genetiske varianter, siden vår genetikk er løst ved unnfangelse (med unntak av ervervede mutasjoner slik som de man ser i kreft). Det er imidlertid mulig for genetiske varianter å være korrelert med miljømessige faktorer som har en direkte årsakssammenheng innvirkning på trekk. Det betyr ikke at genetikken ikke er viktig og informativ for at egenskap, men det betyr at vi må være forsiktig med å beskrive effektene som kausale, selv i genetikk., Så som en forholdsregel mot å gjøre noe forhastet uttalelser om kausalitet vi fokus på «forklart» varians i stedet.

Bred forstand arvbarhet

Vi gjøre tre viktige observasjoner om denne definisjonen. For det første, det er helt fleksibel om hvordan spesifikke genetiske effekter bidra til $𝜎^2_G$., Det bred forstand $H^2$ bryr seg ikke om $𝜎^2_G$ kommer fra en enkelt Mendelian variant i bare ett gen, eller små additive effekter fra varianter i 100 forskjellige gener, eller komplekse interaksjoner mellom hver variant i hele genomet. Vi får se nedenfor at dette er et viktig skille mellom bred forstand $H^2$, og noen av de andre typene av arvbarhet.

$$H^2 = \frac{\sigma^2_G}{\sigma^2_G + \sigma^2_E}$$, men at forutsetningen er ikke nødvendig., Ved å skrive nevneren som $𝜎^2_P$ vi åpner for muligheten for at genetiske og miljømessige faktorer som er korrelert eller samhandle på noen måte. Dette er viktig siden det fremhever at virkningen av miljøet på trekket er ikke bare den «resten» etter regnskap for alle de genetiske virkninger, i stedet kan de overlapper hverandre og samhandle på komplekse måter.

Smal forstand arvbarhet

I praksis, fleksibiliteten i bred forstand $H^2$ gjør det svært vanskelig å anslå uten å gjøre sterke forutsetninger., Slik at effektene av alle mulige interaksjoner av alle mulige genetiske varianter betyr å ha et funksjonelt uendelig plass av mulige effekter. En nyttig måte å gjøre dette på er å tenke på den totale variansen forklart av genetikk som en kombinasjon av additive effekter, dominant/recessiv virkninger, og interaksjon effekter mellom ulike varianter. $$\sigma^2_G = \sigma^2_A + \sigma^2_D + \sigma^2_I$$

Historisk sett, de fleste vitenskapelige diskusjon av arvbarhet av ulike egenskaper har fokusert på $h^2$., En av de fine funksjonene i $h^2$, er at det innebærer en enkel forholdet mellom mellom hvordan genetisk i slekt to menneskene er, og hvordan lignende trekk vil være for de to folk. Vi kan bruke dette forholdet til å beregne $h^2$ i twin familie og studier.

I det enkleste tilfellet, kan vi sammenligne eneggede tvillinger (ofte kalt «identiske» eller MZ tvillinger) til toeggede («broderlig» eller DZ) tvillinger. MZ tvillinger delte alle sine DNA , mens DZ tvillinger dele halvparten av deres DNA i gjennomsnitt., Tvillingene også i stor grad deler de samme miljøet, uavhengig av om de er MZ eller DZ . Så for å anslå $h^2$ vi kan observere hvordan korrelert en egenskap er mellom par av MZ tvillinger og hvordan korrelert trekk er mellom DZ tvillinger og se om de sammenhenger er forskjellige. Hvis MZ tvillinger par, med deres høyere genetisk likhet, er sterkere korrelert enn DZ tvillingpar, som tyder på at genetikk forklarer noe av variansen i den egenskap .

Det har blitt flere tiår med forskning på arvbarhet av menneskelige egenskaper ved hjelp av denne generelle tilnærmingen., Hjelpsomt, en siste innsats av Danielle Posthuma og kolleger samlet sammen mye av dette arbeidet til en enkelt nettside der du kan bla gjennom twin-baserte estimater av $h^2$ for et bredt spekter av egenskaper.

SNP-arvbarhet

ovenfor smaker av arvbarhet har referert til «genetiske effekter» konseptuelt uten å kreve noen vurdering av spesielle genetiske varianter og deres tilknytning til anlegget., Nå som fremskritt i genetikk har gjort det mulig å faktisk samle inn data på disse spesifikke varianter, det er mulighet for å vurdere hvor mye hver av disse observert varianter bidra til arvbarhet.

I bestemte vi kan vurdere en type genetisk variant som kalles et enkelt nukleotid polymorphism (SNP), som er bytte av en eneste base par av DNA på et bestemt sted i genomet. For eksempel, noen mennesker kan ha En a på det stedet, mens andre har en G., Det finnes millioner av disse steder i genomet som vanligvis varierer mellom forskjellige mennesker, og mye av dagens forskning i human genetikk er fokusert på å forstå effektene av disse variantene .

Det er verdt å understreke to viktige funksjoner i $h^2_g$. Første, du kanskje merke til at vi har definert $h^2_g$ basert på et sett av SNPs «S». I praksis er dette settet av SNPs kommer til å stole på (a) SNP-data som har blitt observert, og (b) den metoden som brukes for å estimere $h^2_g$., Dette gjør det vanskelig å sammenligne verdiene av $h^2_g$ mellom ulike metoder og ulike studier , men i de fleste tilfeller er det trygt å i det minste anta at det refererer til vanlig forekommende SNPs. For det andre, varians forklart av SNPs kan eller ikke gjenspeiler virkninger av de aktuelle SNPs i motsetning til effekten av andre genetiske varianter av SNPs er korrelert med., Dette er bare en forlengelse av vår tidligere diskusjon ovenfor om betydningen av varians «forklart», men verdt gjentok siden det ville være lett å feiltolke SNP-arvbarhet som fullt unntatt kausale effekter av andre typer genetisk variasjon.

Det finnes et par ulike metoder som har blitt utviklet for å estimere $h^2_g$ fra observert SNPs. I praksis har vi ikke kjenner den sanne $𝛽_j$ så vi må bruke andre triks., Den første tilnærmingen, kjent som GREML (Genomisk relatedness matrix Begrenset Maximum Likelihood, vanligvis implementert i GCTA), bruker SNPs for å estimere genetisk likhet mellom individer og sammenlign at deres egenskap likhet. Dette er konseptuelt lignende til twin-basert estimering beskrevet ovenfor, men bruker den observerte lavt nivå genetisk likhet i SNP-data fra personer som ikke er direkte relatert. Du kan lese om den statistiske opplysninger her med en nyere gjennomgang her.,

En annen tilnærming er kalt sammenhengen ulikevekt (LD) score regresjon, implementert i ldsc. Dette er den metoden vi søker UK Biobank datasettet. LD score regresjon avhenger nøkkelen observasjon at noen SNPs er korrelert med (dvs. i LD med) andre genetiske varianter, så å observere at SNP i sin tur «tags» informasjon om virkninger av andre varianter. Den grunnleggende ideen er at hvis det er massevis av små genetiske effekter spredt over hele genomet (dvs., trekk er «polygenic»), og deretter styrken på forholdet mellom hver enkelt SNP og trekk bør være (i gjennomsnitt) er proporsjonal med hvor mye totale genetiske variasjonen som SNP-koder. Statistisk informasjon om LD score regresjon metoden kan bli funnet her.