Erblichkeit 201: Arten der Erblichkeit und wie wir sie schätzen

In Erblichkeit 101 haben wir die Erblichkeit als „den Anteil der Variation in einem Merkmal definiert, der durch vererbte genetische Varianten erklärt wird.“In der Praxis verlassen wir uns oft auf Variationen dieser Definition, zum Teil aufgrund der Unterschiede zwischen diesem idealisierten Konzept der Erblichkeit und der Realität dessen, was wir tatsächlich wissenschaftlich abschätzen können., In diesem Beitrag werden wir einige verschiedene „Aromen“ der Erblichkeit und die Art und Weise, wie sie geschätzt werden können, umreißen, mit dem Endziel zu erklären, welche Form der Erblichkeit wir aus den Daten der britischen Biobank berichten.

Die Schnellversion:

Unsere britische Biobank-Analyse schätzt $h^2_g$ oder SNP-Erblichkeit., Dies ist nur der Anteil der Variation des Merkmals, der durch additive Effekte häufig vorkommender genetischer Varianten erklärt werden kann, die als SNPs bezeichnet werden (eine einzelne Basenänderung in einer DNA-Sequenz), sodass sie fast immer geringer ist als die Gesamtererbbarkeit $(H^2)$, die durch alle genetischen Faktoren erklärt werden kann.

Wir schätzen $h^2_g$ mit einer Methode namens LD score regression (LDSR); Wenn Ihnen die Wahl der Methode wichtig ist, werden Sie wahrscheinlich den technischeren Beitrag hier zu schätzen wissen.,

Variation messen

Bevor wir über die verschiedenen Geschmacksrichtungen der Erblichkeit sprechen, ist es nützlich zu definieren, was wir mit „Variation“ meinen, wenn wir Dinge sagen wie „der Anteil der Variation in einem Merkmal, der durch“ etwas “ erklärt wird.

Wenn wir hier“ Variation „sagen, beziehen wir uns auf das mathematische Konzept der“Varianz“. Varianz ist eine übliche Metrik zur Messung, wie stark sich ein Merkmal zwischen Personen in einer Gruppe unterscheidet. Formal ist es die durchschnittliche quadratische Differenz zwischen einer zufällig ausgewählten Person und der „durchschnittlichen“ Person., Zum Beispiel beträgt die Varianz der Höhe in Zoll bei allen Männern und Frauen in der britischen Biobank 13,3 (86,0 für die Höhe in Zentimetern), was einer Standardabweichung von 3,7 Zoll (9,3 cm) entspricht. Die Standardabweichung ist einfach die Quadratwurzel der Varianz.

Statistiker sprechen gerne über Varianz (im Gegensatz zu intuitiveren Kennzahlen wie dem Bereich oder der mittleren absoluten Abweichung vom Durchschnitt), da sie schöne mathematische Eigenschaften hat., Vor allem, wenn Sie ein Ergebnis haben, das die Summe der Effekte aus unabhängigen Quellen ist (wie, sagen wir, Gene und Umwelt) die Varianz der Effekte aus jeder Quelle addieren sich zu der Varianz des Ergebnisses. In der Lage zu sein, die Gesamtvarianz eines Merkmals in verschiedene Teile aufzuteilen, die sich auf diese Weise summieren, ist sehr nützlich, wenn wir über den „durch die Genetik erklärten Varianzanteil“ sprechen möchten, wie wir unten sehen werden.

Schließlich bedeutet das implizite Sprechen über Varianz, dass wir über eine Gruppe oder Population von Individuen sprechen., Sie können keinen durchschnittlichen Unterschied zwischen Personen mit nur einer Person haben. Wie wir in Heritability 101 betonen, bedeutet dies, dass wir, wenn wir über Heritability sprechen, über Variationen in einer Population von Individuen sprechen, nicht über Genetik, die einen bestimmten Anteil eines Merkmals in einem bestimmten Individuum bestimmen.

“ Explaining“variance

Es lohnt sich auch, die andere Hälfte des Ausdrucks“ the proportion of variation in a trait explained by „zu klären, nämlich was wir mit“explained“ meinen., In diesem Fall ist eine Varianz, die durch die Genetik „erklärt“ wird, eine Varianz, die basierend auf genetischen Daten vorhergesagt werden könnte, wenn wir perfekte Informationen über die Auswirkungen aller genetischen Varianten hätten (was wir, um klar zu sein, nicht wirklich haben).

Wenn Sie jemals den Satz gehört haben“ Korrelation ist nicht Ursache“, das ist das Problem, das wir hier beziehen und warum wir nicht einfach sagen, den Anteil der Varianz durch genetische Effekte verursacht., Wir sind näher an der Ursache, da es ziemlich sicher ist anzunehmen, dass die vererbbaren Merkmale nicht die genetischen Varianten verursachen, da unsere Genetik bei der Empfängnis fixiert ist (mit Ausnahme erworbener Mutationen wie bei Krebs). Es ist jedoch möglich, dass genetische Varianten mit Umweltfaktoren korreliert werden, die einen direkten kausalen Einfluss auf das Merkmal haben. Das bedeutet nicht, dass die Genetik für dieses Merkmal nicht wichtig und informativ ist, aber es bedeutet, dass wir vorsichtig sein müssen, Effekte als kausal zu beschreiben, sogar in der Genetik., Als Vorsichtsmaßnahme gegen vorzeitige Aussagen zur Kausalität konzentrieren wir uns stattdessen auf die“ erklärte “ Varianz.

Breite Erblichkeit

Wir machen drei wichtige Beobachtungen zu dieser Definition. Erstens ist es völlig flexibel, wie bestimmte genetische Effekte zu $𝜎^2_G$ beitragen., Dem breiten Sinne\ (H^2\) ist es egal, ob\ (𝜎^2_G\) aus einer einzigen Mendelschen Variante in nur einem Gen stammt oder die kleinen additiven Effekte aus Varianten in 100 verschiedenen Genen oder komplexe Wechselwirkungen zwischen jeder Variante im gesamten Genom. Wir werden unten sehen, dass dies eine wichtige Unterscheidung zwischen broad-sense $H^2$ und einigen der anderen Arten von Erblichkeit ist.

$$H^2 = \frac{\sigma^2_G}{\sigma^2_G + \sigma^2_E}$$ aber diese Annahme ist nicht erforderlich., Indem wir einfach den Nenner als $𝜎^2_P$ schreiben, lassen wir die Möglichkeit zu, dass genetische und umweltbedingte Faktoren korrelieren oder in irgendeiner Weise interagieren. Dies ist wichtig, da es hervorhebt, dass die Wirkung der Umwelt auf das Merkmal nicht einfach der „Rest“ ist, nachdem alle genetischen Effekte berücksichtigt wurden, sondern dass sie sich auf komplexe Weise überlappen und interagieren können.

Vererbbarkeit im engeren Sinne

In der Praxis ist die Flexibilität von broad-sense $H^2$ sehr schwer zu schätzen, ohne starke Annahmen zu treffen., Effekte aller möglichen Wechselwirkungen aller möglichen genetischen Varianten zuzulassen bedeutet, einen funktionell unendlichen Raum möglicher Effekte zu haben. Eine nützliche Möglichkeit, dies zu vereinfachen, besteht darin, die durch die Genetik erklärte Gesamtvarianz als Kombination aus additiven Effekten, dominanten/rezessiven Effekten und Interaktionseffekten zwischen verschiedenen Varianten zu betrachten. $$\sigma^2_G = \sigma^2_A + \sigma^2_D + \sigma^2_I$$

Historisch hat sich die meiste wissenschaftliche Diskussion über die Erblichkeit verschiedener Merkmale auf $h^2$ konzentriert., Eines der schönen Merkmale von $h^2$ ist, dass es eine einfache Beziehung zwischen der genetischen Beziehung zweier Personen und der Ähnlichkeit des Merkmals mit diesen beiden Personen impliziert. Wir können diese Beziehung verwenden, um $h^2$ in Zwillings-und Familienstudien zu schätzen.

Im einfachsten Fall können wir eineiige Zwillinge (oft als“ identische“oder MZ-Zwillinge bezeichnet) mit zweieiigen Zwillingen („brüderliche“ oder DZ-Zwillinge) vergleichen. MZ-Zwillinge teilten ihre gesamte DNA, während DZ-Zwillinge im Durchschnitt die Hälfte ihrer DNA teilen., Zwillinge teilen sich auch weitgehend die gleiche Umgebung, unabhängig davon, ob sie MZ oder DZ sind . Um also $h^2$ zu schätzen, können wir beobachten, wie korreliert ein Merkmal zwischen Paaren von MZ-Zwillingen ist und wie korreliert das Merkmal zwischen DZ-Zwillingen ist, und sehen, ob diese Korrelationen unterschiedlich sind. Wenn die MZ-Zwillingspaare mit ihrer höheren genetischen Ähnlichkeit stärker korrelieren als die DZ-Zwillingspaare, deutet dies darauf hin, dass die Genetik einen Teil der Varianz des Merkmals erklärt .

Mit diesem allgemeinen Ansatz wurden jahrzehntelange wissenschaftliche Forschungen zur Erblichkeit menschlicher Merkmale durchgeführt., Hilfreich ist, dass Danielle Posthuma und Kollegen kürzlich einen Großteil dieser Arbeit auf einer einzigen Webseite zusammengefasst haben, auf der Sie zwillingsbasierte Schätzungen von $h^2$ nach einer Vielzahl von Merkmalen durchsuchen können.

SNP-heritability

Die obigen Varianten der Erblichkeit haben sich konzeptionell auf“ genetische Effekte “ bezogen, ohne dass bestimmte genetische Varianten und deren Assoziation mit dem Merkmal berücksichtigt werden müssen., Nun, da Fortschritte in der Genetik es möglich gemacht haben, tatsächlich Daten über diese spezifischen Varianten zu sammeln, gibt es die Möglichkeit zu bewerten, wie viel jede dieser beobachteten Varianten zur Erblichkeit beiträgt.

Insbesondere können wir eine Art genetischer Variante betrachten, die als Single Nucleotide Polymorphism (SNP) bezeichnet wird und eine Veränderung eines einzelnen Basenpaares von DNA an einer bestimmten Stelle im Genom darstellt. Zum Beispiel können einige Leute ein A an diesem Ort haben, während andere Leute ein G haben., Es gibt Millionen dieser Orte im Genom, die häufig zwischen verschiedenen Menschen variieren, und ein Großteil der aktuellen Forschung in der Humangenetik konzentriert sich auf das Verständnis der Auswirkungen dieser Varianten .

Es lohnt sich, zwei Hauptmerkmale von $h^2_g$ hervorzuheben. Zunächst stellen Sie möglicherweise fest, dass wir $h^2_g$ basierend auf einer Reihe von SNPs „S“definiert haben. In der Praxis hängt dieser Satz von SNPs von (a) den beobachteten SNP-Daten und (b) der Methode zur Schätzung von $h^2_g$ ab., Dies macht es schwierig , Werte von $h^2_g$ zwischen verschiedenen Methoden und verschiedenen Studien zu vergleichen, obwohl es in den meisten Fällen sicher ist, zumindest davon auszugehen, dass es sich auf häufig vorkommende SNPs bezieht. Zweitens kann die von SNPs erklärte Varianz die Auswirkungen dieser bestimmten SNPs im Gegensatz zu den Auswirkungen anderer genetischer Varianten, mit denen die SNPs korreliert sind, widerspiegeln oder nicht., Dies ist nur eine Erweiterung unserer vorherigen Diskussion über die Bedeutung der Varianz „erklärt“, aber es lohnt sich zu wiederholen, da es leicht wäre, die SNP-Erblichkeit falsch zu interpretieren, da sie die kausalen Auswirkungen anderer Arten genetischer Variation vollständig ausschließt.

Es gibt einige verschiedene Methoden, die zur Schätzung von $h^2_g$ aus beobachteten SNPs entwickelt wurden. In der Praxis kennen wir das wahre $𝛽_j$ nicht, also müssen wir andere Tricks anwenden., Der erste Ansatz, bekannt als GREML (Genomic relatedness matrix REstricted Maximum Likelihood; commonly implemented in GCTA), verwendet SNPs, um die genetische Ähnlichkeit zwischen zufälligen Individuen zu schätzen und diese mit ihrer Merkmalsähnlichkeit zu vergleichen. Dies ähnelt konzeptionell der oben beschriebenen zwillingsbasierten Schätzung, verwendet jedoch die beobachtete genetische Ähnlichkeit auf niedriger Ebene in SNP-Daten von Personen, die nicht direkt verwandt sind. Sie können über die statistischen Details hier mit einer neueren Überprüfung hier lesen.,

Ein zweiter Ansatz heißt linkage disequilibrium (LD) score Regression, implementiert in ldsc. Dies ist die Methode, die wir auf den britischen Biobank-Datensatz anwenden. Die LD-Score-Regression hängt von der Schlüsselbeobachtung ab, dass einige SNPs mit (dh in LD mit) anderen genetischen Varianten korreliert sind, so dass SNP wiederum Informationen über die Auswirkungen anderer Varianten“ markiert“. Die grundlegende Idee ist dann, dass, wenn es viele und viele kleine genetische Effekte über das Genom verteilt (dh, das Merkmal ist „polygen“), dann sollte die Stärke der Beziehung zwischen jedem einzelnen SNP und dem Merkmal (im Durchschnitt) proportional zu der gesamten genetischen Variation sein, die SNP kennzeichnet. Statistische Details zur LD-Score-Regressionsmethode finden Sie hier.