Heritability 201: rodzaje heritability and how we estymate it

w Heritability 101 zdefiniowaliśmy heritability jako „odsetek zmienności w cechach wyjaśnionych przez dziedziczone warianty genetyczne.”W praktyce często będziemy opierać się na wariantach tej definicji, po części ze względu na różnice między wyidealizowanym pojęciem dziedziczności a rzeczywistością tego, co możemy faktycznie oszacować naukowo., W tym poście przedstawimy kilka różnych „smaków” dziedziczności i sposobów ich oszacowania, a celem końcowym będzie wyjaśnienie, jaką formę dziedziczności raportujemy na podstawie danych brytyjskiego biobanku.

szybka wersja:

nasza analiza biobanku w Wielkiej Brytanii jest szacowana \(h^2_g\), lub SNP-heritability., Jest to tylko proporcja zmienności cechy, która może być wyjaśniona przez addytywne efekty powszechnie występujących wariantów genetycznych zwanych SNPs( pojedyncza zmiana zasad w sekwencji DNA), więc prawie zawsze jest mniejsza niż całkowita dziedziczność \((H^2)\), które mogą być wyjaśnione przez wszystkie czynniki genetyczne.

szacujemy \(h^2_g\) za pomocą metody zwanej regresją wyniku LD (LDSR); jeśli wybór metody ma dla Ciebie znaczenie, prawdopodobnie docenisz bardziej techniczny post tutaj.,

pomiar zmienności

zanim porozmawiamy o różnych smakach dziedziczności, warto zdefiniować, co rozumiemy przez „zmienność”, gdy mówimy takie rzeczy, jak „proporcja zmienności w Cechie wyjaśniona przez” coś.

tutaj, kiedy mówimy „zmienność”, odnosimy się do matematycznego pojęcia”wariancji”. Wariancja jest powszechnym wskaźnikiem do pomiaru, jak bardzo dana cecha różni się między ludźmi w grupie. Formalnie jest to średnia kwadratowa różnica między losowo wybraną osobą a „przeciętną” osobą., Na przykład dla wszystkich mężczyzn i kobiet w brytyjskim biobanku wariancja wysokości w calach wynosi 13,3( 86,0 dla wysokości w centymetrach), co odpowiada standardowemu odchyleniu 3,7 cala (9,3 cm). Odchylenie standardowe jest po prostu pierwiastkiem kwadratowym wariancji.

statystycy lubią mówić o wariancji (w przeciwieństwie do bardziej intuicyjnych miar, takich jak zakres lub średnie odchylenie bezwzględne od średniej), ponieważ ma ładne właściwości matematyczne., Przede wszystkim, jeśli masz wynik, który jest sumą efektów z niezależnych źródeł (takich jak, powiedzmy, genów i środowiska) wariancja efektów z każdego źródła dodać do wariancji wyniku. Możliwość podzielenia całkowitej wariancji cechy na różne części, które sumują się w ten sposób, jest bardzo przydatna, gdy chcemy zacząć mówić o „proporcji wariancji wyjaśnionej przez genetykę”, jak zobaczymy poniżej.

wreszcie, mówienie o wariancji pośrednio oznacza, że mówimy o grupie lub populacji osób., Nie możesz mieć średniej różnicy między ludźmi, którzy mają tylko jedną osobę. Jak podkreślamy w Heritability 101, oznacza to, że ilekroć mówimy o heritability, mówimy o zmienności w pewnej populacji osób, a nie o genetyce określającej pewien odsetek cechy u danej osoby.

„wyjaśniając” wariancję

warto również wyjaśnić drugą połowę wyrażenia „proporcja zmienności w cechach wyjaśnionych przez”, a mianowicie co rozumiemy przez „wyjaśnione”., W tym przypadku wariancja, która jest „wyjaśniona” przez genetykę, jest wariancją, którą można przewidzieć na podstawie danych genetycznych, gdybyśmy mieli doskonałe informacje o skutkach wszystkich wariantów genetycznych(których, aby być jasnym, w rzeczywistości nie mamy).

jeśli kiedykolwiek słyszałeś frazę „korelacja nie jest przyczynowością”, to jest problem, do którego się tutaj odnosimy i dlaczego nie mówimy po prostu o proporcji wariancji spowodowanej efektami genetycznymi., Jesteśmy bliżej związku przyczynowego, ponieważ całkiem bezpiecznie jest założyć, że dziedziczne cechy nie powodują wariantów genetycznych, ponieważ nasze genetyki są ustalone w momencie poczęcia (z wyjątkiem nabytych mutacji, takich jak te obserwowane w raku). Możliwe jest jednak, aby warianty genetyczne były skorelowane z czynnikami środowiskowymi, które mają bezpośredni wpływ przyczynowy na cechę. Nie oznacza to, że genetyka nie jest ważna i pouczająca dla tej cechy, ale oznacza to, że musimy być ostrożni w opisywaniu efektów jako przyczynowych, nawet w genetyce., Aby zapobiec przedwczesnemu stwierdzeniu związku przyczynowego, zamiast tego skupiamy się na wariancji” wyjaśnionej”.

szeroko pojęta dziedziczność

dokonujemy trzech ważnych uwag na temat tej definicji. Po pierwsze, jest to całkowicie elastyczne o tym, jak specyficzne efekty genetyczne przyczyniają się do \(𝜎^2_g\)., Szeroko pojęty \ (H^2\) nie ma znaczenia, czy \(𝜎^2_g\) pochodzi z pojedynczego wariantu Mendla w jednym genie, czy też niewielkie efekty addycyjne z wariantów w 100 różnych genach, czy złożone interakcje między każdym wariantem w całym genomie. Zobaczymy poniżej, że jest to ważne rozróżnienie między szeroko pojętym \(H^2\) A niektórymi innymi typami dziedziczności.

$$h^2 = \frac{\sigma^2_g}{\sigma^2_g + \sigma^2_e}$$ ale to założenie nie jest wymagane., Po prostu zapisując mianownik jako \(𝜎^2_p\) pozwalamy na możliwość, że czynniki genetyczne i środowiskowe są ze sobą skorelowane lub w jakiś sposób oddziałują. Jest to ważne, ponieważ podkreśla, że wpływ środowiska na cechę nie jest po prostu „pozostałością” po uwzględnieniu wszystkich efektów genetycznych, zamiast tego mogą nakładać się i wchodzić w interakcje w złożony sposób.

dziedziczność wąsko-zmysłowa

w praktyce elastyczność szeroko-zmysłowa \(H^2\) sprawia, że bardzo trudno jest oszacować bez podejmowania mocnych założeń., Dopuszczanie efektów wszystkich możliwych oddziaływań wszystkich możliwych wariantów genetycznych oznacza posiadanie funkcjonalnie nieskończonej przestrzeni możliwych efektów. Jednym z użytecznych sposobów uproszczenia tego jest myślenie o całkowitej wariancji wyjaśnionej przez genetykę jako kombinacji efektów addytywnych, dominujących / recesywnych i efektów interakcji między różnymi wariantami. $ $ \ sigma^2_g = \ sigma ^ 2_a + \ sigma ^ 2_d + \sigma^2_i$$

historycznie większość dyskusji naukowych na temat dziedziczności różnych cech skupiała się na\(h^2\)., Jedną z fajnych cech \(h^2\) jest to, że implikuje prosty związek między tym, jak genetycznie powiązane są dwie osoby, a tym, jak podobna będzie cecha dla tych dwóch osób. Możemy użyć tej relacji do oszacowania \(h^2\) w badaniach bliźniaczych i rodzinnych.

w najprostszym przypadku możemy porównać bliźniaki jednojajowe (często nazywane „identycznymi” lub bliźniakami MZ) do bliźniaków dizygotycznych („braterskich” lub DZ). Bliźniaki MZ dzieliły się całym swoim DNA , podczas gdy bliźniaki DZ dzielą średnio połowę swojego DNA., Bliźniaki również w dużej mierze dzielą to samo środowisko niezależnie od tego, czy są MZ czy DZ . Tak więc aby oszacować \(h^2\) możemy zaobserwować, jak skorelowana jest cecha między parami bliźniąt MZ i jak skorelowana jest cecha między bliźniakami DZ i sprawdzić, czy te korelacje są różne. Jeśli pary bliźniąt MZ, z ich wyższym podobieństwem genetycznym, są silniej skorelowane niż pary bliźniąt DZ, sugeruje to, że genetyka wyjaśnia niektóre wariancji w Cechie .

przeprowadzono dziesięciolecia badań naukowych nad dziedzicznością cech ludzkich przy użyciu tego ogólnego podejścia., Z pomocą, niedawny wysiłek Danielle Posthuma i współpracowników połączył wiele z tej pracy w jedną stronę internetową, na której można przeglądać szacunki oparte na dwóch \ (h^2\) dla szerokiej gamy cech.

SNP-heritability

powyższe smaki heritability odnoszą się koncepcyjnie do „efektów genetycznych” bez konieczności rozważania konkretnych wariantów genetycznych i ich związku z cechą., Teraz, gdy postępy w genetyce umożliwiły gromadzenie danych na temat tych konkretnych wariantów, istnieje możliwość oceny, w jakim stopniu każdy z tych obserwowanych wariantów przyczynia się do dziedziczności.

w szczególności możemy rozważyć jeden rodzaj wariantu genetycznego zwanego polimorfizmem pojedynczego nukleotydu (SNP), który jest zmianą jednej pary zasad DNA w określonym miejscu w genomie. Na przykład, niektórzy ludzie mogą mieć A w tym miejscu, podczas gdy inni mają G., Istnieją miliony tych lokalizacji w genomie, które często różnią się między różnymi ludźmi, a wiele z obecnych badań w ludzkiej genetyce koncentruje się na zrozumieniu skutków tych wariantów .

warto podkreślić dwie kluczowe cechy \(h^2_g\). Po pierwsze, możesz zauważyć, że zdefiniowaliśmy \(h^2_g\) na podstawie pewnego zestawu SNP „S”. W praktyce ten zestaw SNP będzie zależał od (A) danych SNP, które zostały zaobserwowane i(b) metody stosowanej do szacowania \(h^2_g\)., To sprawia, że trudno jest porównywać wartości \(h^2_g\) między różnymi metodami i różnymi badaniami, chociaż w większości przypadków bezpiecznie jest przynajmniej założyć, że odnosi się do powszechnie występujących SNP. Po drugie, wariancja wyjaśniona przez SNP może, ale nie musi, odzwierciedlać skutki tych konkretnych SNP w przeciwieństwie do skutków innych wariantów genetycznych, z którymi SNP są skorelowane., Jest to tylko rozszerzenie naszej poprzedniej dyskusji powyżej na temat znaczenia wariancji „wyjaśnione”, ale warto powtórzyć, ponieważ byłoby łatwo błędnie zinterpretować dziedziczność SNP jako całkowicie wykluczającą skutki przyczynowe innych rodzajów zmienności genetycznej.

istnieje kilka różnych metod, które zostały opracowane do szacowania \(h^2_g\) z obserwowanych SNP. W praktyce nie znamy prawdziwego \(𝛽_j\), więc musimy użyć innych sztuczek., Pierwsze podejście, znane jako GREML (Genomic relatedness matrix ograniczone maksymalne prawdopodobieństwo; powszechnie realizowane w GCTA), wykorzystuje SNP do oszacowania podobieństwa genetycznego między przypadkowymi osobami i porównać to do ich podobieństwa cech. Jest to koncepcyjnie podobne do estymacji opartej na bliźniakach opisanych powyżej, ale wykorzystuje zaobserwowane niskopoziomowe podobieństwo genetyczne w danych SNP od osób, które nie są bezpośrednio spokrewnione. O szczegółach statystycznych możesz przeczytać tutaj, a najnowsza recenzja TUTAJ.,

drugie podejście nazywa się regresją wyniku linkage disequilibrium (LD), zaimplementowaną w ldsc. Jest to metoda, którą stosujemy do zbioru danych brytyjskiego biobanku. Regresja wyniku LD zależy od kluczowej obserwacji, że niektóre SNP są skorelowane z (tj. w LD z) innymi wariantami genetycznymi, więc obserwując, że SNP z kolei „taguje” informacje o skutkach innych wariantów. Podstawową ideą jest to, że jeśli istnieje wiele, wiele małych efektów genetycznych rozłożone w całym genomie (tj., cecha jest „poligeniczna”), wtedy siła relacji między każdym SNP a cechą powinna być (średnio) proporcjonalna do tego, ile całkowitej zmienności genetycznej taguje SNP. Dane statystyczne dotyczące metody regresji wyniku LD można znaleźć tutaj.

wariancja wyjaśniona znanymi efektami SNP

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *