I Heritability 101 definierade vi heritability som ”andelen variation i ett drag som förklaras av ärftliga genetiska varianter.”I praktiken kommer vi ofta att förlita oss på variationer av denna definition, delvis på grund av skillnaderna mellan detta idealiserade koncept av heritability och verkligheten av vad vi faktiskt kan uppskatta vetenskapligt., I det här inlägget kommer vi att beskriva några olika ”smaker” av heritability, och hur de kan uppskattas, med slutmålet att förklara vilken form av heritability vi rapporterar från data från UK Biobank.
snabbversionen:
vår brittiska Biobankanalys uppskattar \(h^2_g\), eller SNP-heritability., Detta är bara andelen variation i egenskapen som kan förklaras av additiva effekter av vanligt förekommande genetiska varianter som kallas SNPs (en enda basförändring i en DNA-sekvens), så det är nästan alltid mindre än den totala heritability \((H^2)\) som kan förklaras av alla genetiska faktorer.
vi uppskattar \(h^2_g\) med en metod som heter ld score regression (LDSR); om valet av metod är viktigt för dig kommer du förmodligen att uppskatta det mer tekniska inlägget här.,
mäta variation
innan vi pratar om de olika smakerna av heritability är det användbart att definiera vad vi menar med ”variation” när vi säger saker som ”andelen variation i ett drag som förklaras av” något.
här, när vi säger ”variation”, hänvisar vi till det matematiska begreppet ”varians”. Varians är ett vanligt mått för att mäta hur mycket ett drag skiljer sig mellan personer i en grupp. Formellt är det den genomsnittliga kvadrerade skillnaden mellan en slumpmässigt vald person och den” genomsnittliga ” personen., Till exempel, över alla män och kvinnor i Storbritannien Biobank är variansen av höjd i tum 13,3 (86,0 för höjd i centimeter), vilket motsvarar en standardavvikelse på 3,7 tum (9,3 cm). Standardavvikelsen är helt enkelt kvadratroten av variansen.
statistiker gillar att prata om varians (i motsats till mer intuitiva åtgärder som intervallet eller den genomsnittliga absoluta avvikelsen från genomsnittet) eftersom det har fina matematiska egenskaper., Framför allt, om du har ett resultat som är summan av effekter från oberoende källor (som, säg, gener och miljö) variansen av effekterna från varje källa lägga upp till variansen av resultatet. Att kunna bryta upp den totala variansen av ett drag i olika bitar som lägger upp detta sätt är mycket användbart när vi vill börja prata om ”andelen varians som förklaras av genetiken”, som vi kommer att se nedan.
slutligen, talar om varians implicit innebär att vi talar om en grupp eller population av individer., Du kan inte ha en genomsnittlig skillnad mellan personer med bara en person. Som vi betonar i Heritability 101 betyder det att när vi pratar om heritability talar vi om variation i någon population av individer, inte om genetik som bestämmer en viss andel av ett drag hos en viss individ.
”Explaining” variance
det är också värt att klargöra den andra halvan av frasen ”andelen variation i ett drag som förklaras av”, nämligen vad vi menar med ”explained”., I det här fallet är varians som ”förklaras” av genetiken varians som kan förutsägas baserat på genetiska data om vi hade perfekt information om effekterna av alla genetiska varianter (vilket, för att vara tydlig, vi har faktiskt inte).
om du någonsin har hört frasen” korrelation är inte orsakssamband”, det är problemet vi ” hänvisar till här och varför vi inte bara säger andelen varians orsakad av genetiska effekter., Vi är närmare orsakssamband eftersom det är ganska säkert att anta att de ärftliga egenskaperna inte orsakar de genetiska varianterna, eftersom vår genetik är fixerad vid uppfattningen (med undantag för förvärvade mutationer som de som ses i cancer). Det är dock möjligt att genetiska varianter korreleras med miljöfaktorer som har en direkt orsakssamband på egenskapen. Det betyder inte att genetiken inte är viktig och informativ för det egenskapen, men det betyder att vi måste vara försiktiga med att beskriva effekter som orsakssamband, även i genetiken., Så som en försiktighetsåtgärd mot att göra några för tidiga uttalanden om orsakssamband fokuserar vi på ”förklarad” varians istället.
bred känsla heritability
vi gör tre viktiga observationer om denna definition. För det första är det helt flexibelt om hur specifika genetiska effekter bidrar till \(mur^2_g\)., Den breda känslan \(H^2\) bryr sig inte om huruvida \ (^2_g\) kommer från en enda Mendelisk variant i bara en gen, eller de små additiva effekterna från varianter i 100 olika gener, eller komplexa interaktioner mellan varje variant i hela genomet. Vi ser nedan att detta är en viktig skillnad mellan bred känsla \(H^2\) och några av de andra typerna av heritability.
$$h^2 = \frac{\sigma^2_g}{\sigma^2_g + \sigma^2_e}$$ men det antagandet krävs inte., Genom att helt enkelt skriva nämnaren som \ (mur 2_p\) tillåter vi möjligheten att genetiska och miljömässiga faktorer är korrelerade eller interagera på något sätt. Detta är viktigt eftersom det belyser att miljöpåverkan på egenskapen inte bara är ”resten” efter att ha redovisat alla genetiska effekter, istället kan de överlappa och interagera på komplexa sätt.
narrow-sense heritability
I praktiken gör flexibiliteten i bred mening \(h^2\) det mycket svårt att uppskatta utan att göra starka antaganden., Att tillåta effekter av alla möjliga interaktioner av alla möjliga genetiska varianter innebär att ha ett funktionellt oändligt utrymme av möjliga effekter. Ett användbart sätt att förenkla detta är att tänka på den totala variansen som förklaras av genetiken som en kombination av additiva effekter, dominerande/recessiva effekter och interaktionseffekter mellan olika varianter. $ $ \ sigma^2_g = \ sigma^2_a + \ sigma^2_d + \ sigma^2_i$$
historiskt har den mest vetenskapliga diskussionen om arv av olika egenskaper fokuserat på \(h^2\)., En av de fina egenskaperna hos \(h^2\) är att det innebär ett enkelt förhållande mellan hur genetiskt relaterade två personer är och hur liknande egenskapen kommer att vara för dessa två personer. Vi kan använda detta förhållande för att uppskatta \(h^2\) i tvilling-och familjestudier.
I det enklaste fallet kan vi jämföra monozygotiska tvillingar (ofta kallade ”identiska” eller MZ tvillingar) till dizygotiska (”fraternal” eller DZ) tvillingar. MZ tvillingar delade alla deras DNA, medan DZ tvillingar delar hälften av deras DNA i genomsnitt., Tvillingar delar också i stor utsträckning samma miljö oavsett om de är MZ eller dz . Så för att uppskatta\ (h^2\) kan vi observera hur korrelerade ett drag är mellan par MZ tvillingar och hur korrelerade egenskapen är mellan DZ tvillingar och se om dessa korrelationer är olika. Om MZ-tvillingarna par, med sin högre genetiska likhet, är starkare korrelerade än DZ-tvillingparen, vilket tyder på att genetiken förklarar en del av variansen i egenskapen .
det har funnits årtionden av vetenskaplig forskning om människans egenskaper med hjälp av detta allmänna tillvägagångssätt., Hjälpsamt samlade en ny insats av Danielle Posthuma och kollegor mycket av detta arbete till en enda webbsida där du kan bläddra i tvillingbaserade uppskattningar av \(h^2\) för en mängd olika egenskaper.
SNP-heritability
ovanstående smaker av heritability har hänvisat till ”genetiska effekter” konceptuellt utan att kräva någon hänsyn till specifika genetiska varianter och deras samband med egenskapen., Nu när framsteg inom genetiken har gjort det möjligt att faktiskt samla in data om dessa specifika varianter, finns det möjlighet att utvärdera hur mycket var och en av dessa observerade varianter bidrar till heritability.
I synnerhet kan vi överväga en typ av genetisk variant som kallas en enda nukleotid polymorfism (SNP), vilket är en förändring av ett enda baspar av DNA på en specifik plats i genomet. Till exempel kan vissa människor ha en A på den platsen, medan andra människor har en G., Det finns miljontals av dessa platser i genomet som vanligtvis varierar mellan olika människor, och mycket av den nuvarande forskningen inom humangenetik är inriktad på att förstå effekterna av dessa varianter .
det är värt att markera två viktiga funktioner i \(h^2_g\). Först kanske du märker att vi har definierat \(h^2_g\) baserat på någon uppsättning SNPs ”s”. I praktiken kommer denna uppsättning SNPs att bero på (a) de SNP-data som har observerats och (B) den metod som används för att uppskatta \(h^2_g\)., Detta gör det svårt att jämföra värden på \(h^2_g\) mellan olika metoder och olika studier , men i de flesta fall är det säkert att åtminstone anta att det refererar till vanligt förekommande SNPs. För det andra kan variansen som förklaras av SNPs eller kanske inte återspegla effekterna av dessa specifika SNPs i motsats till effekterna av andra genetiska varianter som SNPs är korrelerade med., Detta är bara en förlängning av vår tidigare diskussion ovan om betydelsen av varians ”förklarad”, men värt att upprepa eftersom det skulle vara lätt att misstolka SNP-heritability som att helt utesluta orsakseffekterna av andra typer av genetisk variation.
det finns ett par olika metoder som har utvecklats för att uppskatta \(h^2_g\) från observerade SNPs. I praktiken känner vi inte till den sanna \(trip _j\) så vi måste använda andra knep., Den första metoden, känd som GREML (Genomic relatedness matrix REstricted Maximum Likelihood; vanligen implementerad i GCTA), använder SNPs för att uppskatta den genetiska likheten mellan slumpmässiga individer och jämföra det med deras drag likhet. Detta liknar konceptuellt den tvillingbaserade uppskattningen som beskrivs ovan, men använder den observerade lågnivågenetiska likheten i SNP-data från individer som inte är direkt relaterade. Du kan läsa om de statistiska detaljerna här med en nyare recension här.,
ett andra tillvägagångssätt kallas linkage disequilibrium (ld) score regression, implementerad i ldsc. Detta är den metod vi tillämpar på den brittiska Biobankdatauppsättningen. Ld score regression beror på den viktigaste observationen att vissa SNPs är korrelerade med (dvs i LD med) andra genetiska varianter, så observera att SNP i sin tur ”taggar” information om effekterna av andra varianter. Grundidén är då att om det finns massor och massor av små genetiska effekter spridda över genomet (dvs, egenskapen är ”polygenisk”), då styrkan i förhållandet mellan varje enskild SNP och egenskapen ska vara (i genomsnitt) proportionell mot hur mycket total genetisk variation som SNP-taggar. Statistiska uppgifter om ld score regressionsmetoden finns här.