「遺伝子多型」の版間の差分

編集の要約なし
(ページの作成:「= 遺伝的多型(遺伝子多型、DNA多型)genetic polymorphism = ある集団において、一つのゲノム上の場所または領域(座位locus)に、...」)
 
編集の要約なし
21行目: 21行目:


現在では遺伝的多型マーカーのみならず、全ゲノムの塩基配列を直接測定できるWGS技術が日常的になってきている。WGSを用いた国際1000ゲノム計画によれば8800万以上の遺伝的バリアントが同定されている12が、これはかならずしもSNPに限らず、集団頻度1%以下の一塩基バリアント(SNV)や挿入欠失(indel)、構造的バリアント(SV)などを含んでいる。また、SNPアレイを用いた場合でも、1000ゲノムデータ、HRC13やin-house WGSデータを参照パネルとしてimputation法を行うことによって、やはりレアバリアントを含む全ゲノムの遺伝的バリアントを推定することが可能となってきた。とりわけ遺伝的多型に着目する研究は少なくなっていくかもしれない。
現在では遺伝的多型マーカーのみならず、全ゲノムの塩基配列を直接測定できるWGS技術が日常的になってきている。WGSを用いた国際1000ゲノム計画によれば8800万以上の遺伝的バリアントが同定されている12が、これはかならずしもSNPに限らず、集団頻度1%以下の一塩基バリアント(SNV)や挿入欠失(indel)、構造的バリアント(SV)などを含んでいる。また、SNPアレイを用いた場合でも、1000ゲノムデータ、HRC13やin-house WGSデータを参照パネルとしてimputation法を行うことによって、やはりレアバリアントを含む全ゲノムの遺伝的バリアントを推定することが可能となってきた。とりわけ遺伝的多型に着目する研究は少なくなっていくかもしれない。
== 遺伝的多型と解析 ==
=== 連鎖解析 ===
遺伝的多型を用いて形質マッピングをする代表的手法が連鎖解析Linkage analysisである。これは、同じ染色体で近傍に位置する遺伝的多型は、その両者の距離に依存し親から子へと同じ染色体上のアレルの組み合わせ(ハプロタイプ)として伝達されやすいという生物学的原理(遺伝的連鎖)に基づく。交配実験が可能なショウジョウバエなどにおいては、実験的連鎖解析が可能である。しかしヒトにおいては、作為的な家系を作り出すことは不可能であるため、家系を調べて統計学的に解析する。具体的には、ある家系のデータを手にした時、「ある遺伝的多型マーカーが病気の原因バリアントと連鎖している」という仮説と、「連鎖していない」という仮説のそれぞれにもとづいて、そうだったとき現在調べた家系データを得るとした尤もらしさ(尤度likelihood)を比較する。「ある遺伝的多型マーカーが病気の原因バリアントと連鎖している」という仮説の尤もらしさが統計学的に有意に高いとするならば、その遺伝的多型マーカーは原因バリアントの近傍にあると推測する。そうだとわかれば遺伝子クローニング技術などによりその領域を調べるのである。それによりHuntingtin遺伝子14やBRCA115/BRCA216遺伝子が発見された。
現在でも連鎖解析とエクソームシークエンスを組み合わせた研究が報告される。遺伝統計学的に厳格な理論を背景としているため、その輝きはまだ色あせてはいない。
=== ゲノムワイド関連解析 ===
ゲノムワイド関連解析(Genome Wide Association Study; GWAS)も、もともとは遺伝的多型を用いた形質マッピングという研究分野から生まれたものであり、前述のようにさまざまな遺伝統計学的検討の結果、対象としてSNPを使用することとなった。
連鎖解析とは異なり、遺伝的関連解析の原理は連鎖不平衡である。このことから、SNPについてもこれまでに述べた連鎖解析用のマーカーとは異なる特徴が見られる。すなわち、全ゲノムを調べたいからと言って全てのSNPを実験的に得る必要はない。なぜなら、連鎖不平衡(有限集団において、減衰した連鎖の影響が集団レベルで観察されることによりみられる近傍の遺伝的多型同士の相関関係)を考えると、相関の強い一群のSNPセットの中から数個のSNP(tagSNP)だけを得れば、そのtagSNPと連鎖不平衡にあるSNPについては見たも同然なのである。逆にいうと、あまり何も考えずSNP密度を増やしたからと行って解像度が高まるわけではない。したがって、遺伝的多型の中でもtagSNPであるかどうか、がGWASにおいては重要である。
その後現在では、CNVアレイ結果を用いたGWAS17、さらにはエクソームシークエンスやWGSによるGWAS18,19が行われていたり、レアバリアントを搭載したアレイであるエクソームチップが使用されていて11、これらはSNPに限らず幅広い種類の遺伝的バリアントを用いて、多型マーカーに頼らず原因バリアントを直接観察しようとしていることを意味する。
とはいえ、エクソームシークエンスと比べるとSNPアレイは非遺伝子領域をきちんとカバーするし、WGSと比べるとSNPアレイはいまでもかなり安価である。CNVについては、結局SNPと連鎖不平衡にあるという評価であり、全ゲノムCNVを調べなくとも、GWASが検出した有意SNP周囲のCNVを探索(ファインマッピング)すれば足りそうだ。さらに、LDスコア回帰法20のような最新の手法においては、たとえWGSの数千万バリアントの解析結果があったとしても、そこからわざわざ100万のtagSNPに結果を減らした方が遺伝統計学的に安定した妥当な結果を得られることが示されたり、あるいはWGSを元にしたシミュレーション解析によれば、WGS解析はSNPアレイを用いたGWASに対して、多因子形質マッピングにおけるアドバンテージはほとんどないとの推定がなされている(imputationをした場合21)。遺伝統計学・量的遺伝学の界隈においては、SNPの役割はいまだ少しも減るところがない。
集団における頻度によって遺伝的バリアントを分類する別の方法としては、頻度5%以上をコモンバリアントcommon variant、0.5または1-5%を頻度の低いバリアントlow frequency variant、0.5%または1%未満のものをレアバリアントrare variantと呼ぶ分類がある。これは、適応進化にもとづく選択圧によって頻度分類ごとに疾患リスク効果が異なる(レアバリアントのリスク効果は全体的に高い)ことと、遺伝的関連解析においては頻度とリスク効果によって検出力が異なることに着目した分類であり、現代ではこちらの分類が主流となっているだろう。
== 用語の確認 ==
ゲノム上の場所や領域を座位と呼ぶ。遺伝的多型あるいは遺伝的バリアントは、個人間である座位のゲノム情報に違いがあるような状態を指す。慣用的には、遺伝的多型を示す座位を指して遺伝的多型と呼ぶこともある。
ある一本の染色体(ハプロイド染色体)上のある遺伝的バリアントにおけるDNA配列情報のことをアレルと呼ぶ。ヒトのように二倍体生物の常染色体では、染色体が二本あるので、ある遺伝的多型に関して二つのアレルの組み合わせを持っている。このような同じ遺伝的多型上のアレルの組み合わせを遺伝型genotypeと呼ぶ。
座位、遺伝的多型、アレルは、かつては「遺伝子座」「遺伝子多型」「対立遺伝子」とも呼ばれていた。しかしヒトゲノム配列を直接観察できるようになった現在では非遺伝子部位も含めた概念として捉える必要があるため、対象を遺伝子に限るように見えてしまうこれらの用語を用いるべきではない。
遺伝的変異という呼称には議論がある。欧米においてはmutantという表現を避けてvariantという用語を使用するようになっているが、これは個人が「mutantを持つ」ということにより差別を惹起することを防ぐためである。「変異」という言葉にはmutantと同様の含意があると考えられるから、避けるべきであると思われる。そこで本稿では、variantの訳語としては「バリアント」に統一した。
これらの用語は、日本人類遺伝学会2009年用語改訂に基づいている。
1. Botstein, D., White, R. L., Skolnick, M. & Davis, R. W. Construction of a genetic linkage map in man using restriction fragment length polymorphisms. Am. J. Hum. Genet. 32, 314–31 (1980).  6247908
2. Gusella, J. F. et al. A polymorphic DNA marker genetically linked to Huntington’s disease. Nature 306, 234–238 (1983)  6316146.
3. Nakamura, Y. et al. Variable number of tandem repeat (VNTR) markers for human gene mapping. Science (80-. ). 235, 1616–1622 (1987).  3029872
4. Dib, C. et al. A comprehensive genetic map of the human genome based on 5,264 microsatellites. Nature 380, 152–154 (1996)  : 8600387.
5. Hall, J. M. et al. Linkage of Early-Onset Familial Breast Cancer to Chromosome 17q21. Science (80-. ). 250, 1684–1689 (1990).  2270482
6. Wooster, R. et al. Localization of a breast cancer susceptibility gene, BRCA2, to chromosome 13q12-13. Science (80-. ). 265, 2088–2090 (1994).  8091231
7. Risch, N. & Merikangas, K. The future of genetic studies of complex human diseases. Science 273, 1516–1517 (1996). 8801636 
8. Kruglyak, L. Prospects for whole-genome linkage disequilibrium mapping of common disease genes. Nat. Genet. 22, 139–144 (1999).  10369254
9. The International HapMap Consortium. A haplotype map of the human genome. Nature 437, 1299–1320 (2005).  16255080
10. The International HapMap Consortium. A second generation human haplotype map of over 3.1 million SNPs. Nature 449, 851–61 (2007).  17943122
11. Marouli, E. et al. Rare and low-frequency coding variants alter human adult height. Nature 542, 186–190 (2017).  28146470
12. The 1000 Genomes Project Consortium. A global reference for human genetic variation. Nature 526, 68–74 (2015). 26432245 
13. McCarthy, S. et al. A reference panel of 64,976 haplotypes for genotype imputation. Nat. Genet. 48, 1279–1283 (2016). 27548312 
14. MacDonald, M. E. et al. A novel gene containing a trinucleotide repeat that is expanded and unstable on Huntington’s disease chromosomes. Cell 72, 971–983 (1993).  8458085
15. Miki, Y. et al. Strong Candidate for the Breast and Ovarian Cancer Susceptibility Gene BRCA1. Science (80-. ). 266, 66–71 (1994). 754595 
16. Wooster, R. et al. Identification of the breast cancer susceptibility gene BRCA2. Nature 378, 789–92 (1995). 8524414 
17. The Wellcome Trust Case Control Consortium. Genome-wide association study of CNVs in 16,000 cases of eight common diseases and 3,000 shared controls. Nature 11, 26–27 (2010). 2036073 
18. Mi, W. et al. Exome sequencing identifies rare LDLR and APOA5 alleles conferring risk for myocardial infarction. Nature 518, 102–106 (2014).  25487149
19. Fuchsberger, C. et al. The genetic architecture of type 2 diabetes. Nature (2016). doi:10.1038/nature18642  27398621
20. Bulik-Sullivan, B. K. et al. LD Score regression distinguishes confounding from polygenicity in genome-wide association studies. Nat Genet 47, 291–295 (2015).  25642630
21. Yang, J. et al. Genetic variance estimation with imputed variants finds negligible missing heritability for human height and body mass index. Nat. Genet. 47, 1114–1120 (2015).  26323059