遺伝子多型
鎌谷 洋一郎
京都大学大学院医学研究科附属ゲノム医学センター
DOI:10.14931/bsd.7601 原稿受付日:2018年3月9日 原稿完成日:
担当編集委員:加藤 忠史(理化学研究所 脳科学総合研究センター)
英語名:genetic polymorphism 同義語:遺伝的多型、DNA多型
遺伝子多型とは
ある集団において、一つのゲノム上の場所または領域(座位、locus)に、二つかそれ以上の、頻度の高い異なるアレル(allele)が存在する状態を言う。
ヒトゲノムが解読されていない時代には、遺伝的多型を用いて病気の原因遺伝子の探索が行われていた。遺伝的多型に「頻度の高い」という条件があるのは、このための要請である。本稿では、本辞典の性質にも鑑み、主にこの観点から遺伝的多型について述べる。ほかにも遺伝的多型は、集団遺伝学や法医学においても用いられる。
本稿では特にヒトに限定して述べるが、原則として以下の記述は他の種にもそのまま適用できる。
遺伝的多型の歴史
初期の遺伝学では、遺伝的多型は概念的なものだった。ショウジョウバエの実験において遺伝子がマーカーとして使用され始めたのは、実に遺伝情報がDNA分子からなると分かるよりも前のことであった。この時点では、遺伝的多型は表現型の個体差に対応する仮想的な存在として定義されていた。例えばショウジョウバエの目をザクロ色にするアレル、カーネーション色にするアレル、といった具合である。研究者は実際にこれらを用いて、ショウジョウバエの目の色を決定する遺伝子の、染色体へのマッピングを行なっていた。
生化学の進歩に伴い、遺伝子の産物であるタンパク質の電気泳動や免疫反応の違いを元に遺伝子の多型を推定できるようになった。この時点でも、遺伝的多型の研究はDNA配列そのものを対象としているのではなく、生化学的な違いからアレルを推定していた。ヘモグロビン遺伝子、CYP遺伝子、ABO遺伝子、HLA遺伝子など、多型性の高い(多くの異なるアレルを持つ)遺伝子がその目的で使用され、例えばHLA遺伝子のアレルはHLA-DR3などと表記した。現在では血清型などと呼ばれることもある。
このように遺伝子に着目した場合、ヒトゲノムの大半は非遺伝子部位であるため、とびとびの遺伝地図しか作成できない。また、同じ表現型を来たす異なったDNAアレルが存在しうる。分子生物学の進歩によりDNA配列を比較的手軽に直接観察できるようになったことから、全ゲノムを包括的に解析することのできる、DNA多型からなる精密なマーカーの開発が望まれていた。
最初に発見された全ゲノムに分布する汎用の遺伝的多型マーカーは、RFLP(制限酵素長多型)であった1。これはゲノムDNAを制限酵素で切断した際、アレル間でDNA配列が異なることによって切断長に違いがあることに着目したものである。RFLPを用いた連鎖解析により、ハンチントン病の原因遺伝子座位の局在領域を特定する2など多大な成果があった。しかしRFLPは数が少なく、より高密度の遺伝的多型マーカーを開発する必要があった。
次に広く使用されたのはSSLP(単純配列長多型)であり、個人間で反復配列長が異なる部位があることを利用し、PCR法で長さを判定して行われる。SSLPとしてはVNTR3(ミニサテライト)とマイクロサテライト4(STRP)がある。RFLP、VNTR、マイクロサテライトとなるにつれてゲノム上のマーカー数が増えるため、原因バリアントと連鎖している可能性が増え、解像度が高まる。VNTRを使用した連鎖解析により家族性乳がんのBRCA15、マイクロサテライトを使用してBRCA26の責任遺伝子領域が推定された。
このように連鎖解析によりメンデル遺伝性疾患の原因遺伝子の同定が続いていたが、多因子疾患については思わしい成果が上がっていなかった。多数の弱い遺伝的バリアントによって起こる多因子疾患の解析のためには連鎖解析ではなく遺伝的関連解析が適切であるとの提唱がなされ7、またそのためにはゲノム上に数十万個以上のオーダーで分布する遺伝的多型が必要8であった。その要求を満たす遺伝的多型マーカーがSNP(一塩基多型)である。これは個人間の一塩基レベルでの違いに着目したものであり、原理的に包括的なカタログを作成するにはヒトゲノム配列決定を待たねばならなかった。2001年のヒトゲノムドラフト配列決定と前後して国際HapMap計画が立ち上がり、2005年9と2007年10にSNPのカタログが報告され、最終的に数百万箇所のSNPが同定されているがこれは遺伝的多型マーカーとして最大規模である。また、それと並行してDNAチップ技術のSNPへの応用が行われ、高出力かつ高精度に全ゲノムのSNPの遺伝型を測定することができるSNPアレイが開発された。これを機にゲノムワイド関連解析が加速し、多因子疾患の遺伝因子の解明に大きく貢献した。たとえば70万人のデータを用いた身長のGWAS結果は、双生児遺伝率の27.3%を説明できるまでに至っている11。
現在では遺伝的多型マーカーのみならず、全ゲノムの塩基配列を直接測定できるWGS技術が日常的になってきている。WGSを用いた国際1000ゲノム計画によれば8800万以上の遺伝的バリアントが同定されている12が、これはかならずしもSNPに限らず、集団頻度1%以下の一塩基バリアント(SNV)や挿入欠失(indel)、構造的バリアント(SV)などを含んでいる。また、SNPアレイを用いた場合でも、1000ゲノムデータ、HRC13やin-house WGSデータを参照パネルとしてimputation法を行うことによって、やはりレアバリアントを含む全ゲノムの遺伝的バリアントを推定することが可能となってきた。とりわけ遺伝的多型に着目する研究は少なくなっていくかもしれない。
遺伝的多型と解析
連鎖解析
遺伝的多型を用いて形質マッピングをする代表的手法が連鎖解析Linkage analysisである。これは、同じ染色体で近傍に位置する遺伝的多型は、その両者の距離に依存し親から子へと同じ染色体上のアレルの組み合わせ(ハプロタイプ)として伝達されやすいという生物学的原理(遺伝的連鎖)に基づく。交配実験が可能なショウジョウバエなどにおいては、実験的連鎖解析が可能である。しかしヒトにおいては、作為的な家系を作り出すことは不可能であるため、家系を調べて統計学的に解析する。具体的には、ある家系のデータを手にした時、「ある遺伝的多型マーカーが病気の原因バリアントと連鎖している」という仮説と、「連鎖していない」という仮説のそれぞれにもとづいて、そうだったとき現在調べた家系データを得るとした尤もらしさ(尤度likelihood)を比較する。「ある遺伝的多型マーカーが病気の原因バリアントと連鎖している」という仮説の尤もらしさが統計学的に有意に高いとするならば、その遺伝的多型マーカーは原因バリアントの近傍にあると推測する。そうだとわかれば遺伝子クローニング技術などによりその領域を調べるのである。それによりHuntingtin遺伝子14やBRCA115/BRCA216遺伝子が発見された。
現在でも連鎖解析とエクソームシークエンスを組み合わせた研究が報告される。遺伝統計学的に厳格な理論を背景としているため、その輝きはまだ色あせてはいない。
ゲノムワイド関連解析
ゲノムワイド関連解析(Genome Wide Association Study; GWAS)も、もともとは遺伝的多型を用いた形質マッピングという研究分野から生まれたものであり、前述のようにさまざまな遺伝統計学的検討の結果、対象としてSNPを使用することとなった。
連鎖解析とは異なり、遺伝的関連解析の原理は連鎖不平衡である。このことから、SNPについてもこれまでに述べた連鎖解析用のマーカーとは異なる特徴が見られる。すなわち、全ゲノムを調べたいからと言って全てのSNPを実験的に得る必要はない。なぜなら、連鎖不平衡(有限集団において、減衰した連鎖の影響が集団レベルで観察されることによりみられる近傍の遺伝的多型同士の相関関係)を考えると、相関の強い一群のSNPセットの中から数個のSNP(tagSNP)だけを得れば、そのtagSNPと連鎖不平衡にあるSNPについては見たも同然なのである。逆にいうと、あまり何も考えずSNP密度を増やしたからと行って解像度が高まるわけではない。したがって、遺伝的多型の中でもtagSNPであるかどうか、がGWASにおいては重要である。
その後現在では、CNVアレイ結果を用いたGWAS17、さらにはエクソームシークエンスやWGSによるGWAS18,19が行われていたり、レアバリアントを搭載したアレイであるエクソームチップが使用されていて11、これらはSNPに限らず幅広い種類の遺伝的バリアントを用いて、多型マーカーに頼らず原因バリアントを直接観察しようとしていることを意味する。
とはいえ、エクソームシークエンスと比べるとSNPアレイは非遺伝子領域をきちんとカバーするし、WGSと比べるとSNPアレイはいまでもかなり安価である。CNVについては、結局SNPと連鎖不平衡にあるという評価であり、全ゲノムCNVを調べなくとも、GWASが検出した有意SNP周囲のCNVを探索(ファインマッピング)すれば足りそうだ。さらに、LDスコア回帰法20のような最新の手法においては、たとえWGSの数千万バリアントの解析結果があったとしても、そこからわざわざ100万のtagSNPに結果を減らした方が遺伝統計学的に安定した妥当な結果を得られることが示されたり、あるいはWGSを元にしたシミュレーション解析によれば、WGS解析はSNPアレイを用いたGWASに対して、多因子形質マッピングにおけるアドバンテージはほとんどないとの推定がなされている(imputationをした場合21)。遺伝統計学・量的遺伝学の界隈においては、SNPの役割はいまだ少しも減るところがない。
集団における頻度によって遺伝的バリアントを分類する別の方法としては、頻度5%以上をコモンバリアントcommon variant、0.5または1-5%を頻度の低いバリアントlow frequency variant、0.5%または1%未満のものをレアバリアントrare variantと呼ぶ分類がある。これは、適応進化にもとづく選択圧によって頻度分類ごとに疾患リスク効果が異なる(レアバリアントのリスク効果は全体的に高い)ことと、遺伝的関連解析においては頻度とリスク効果によって検出力が異なることに着目した分類であり、現代ではこちらの分類が主流となっているだろう。
用語の確認
ゲノム上の場所や領域を座位と呼ぶ。遺伝的多型あるいは遺伝的バリアントは、個人間である座位のゲノム情報に違いがあるような状態を指す。慣用的には、遺伝的多型を示す座位を指して遺伝的多型と呼ぶこともある。 ある一本の染色体(ハプロイド染色体)上のある遺伝的バリアントにおけるDNA配列情報のことをアレルと呼ぶ。ヒトのように二倍体生物の常染色体では、染色体が二本あるので、ある遺伝的多型に関して二つのアレルの組み合わせを持っている。このような同じ遺伝的多型上のアレルの組み合わせを遺伝型genotypeと呼ぶ。 座位、遺伝的多型、アレルは、かつては「遺伝子座」「遺伝子多型」「対立遺伝子」とも呼ばれていた。しかしヒトゲノム配列を直接観察できるようになった現在では非遺伝子部位も含めた概念として捉える必要があるため、対象を遺伝子に限るように見えてしまうこれらの用語を用いるべきではない。 遺伝的変異という呼称には議論がある。欧米においてはmutantという表現を避けてvariantという用語を使用するようになっているが、これは個人が「mutantを持つ」ということにより差別を惹起することを防ぐためである。「変異」という言葉にはmutantと同様の含意があると考えられるから、避けるべきであると思われる。そこで本稿では、variantの訳語としては「バリアント」に統一した。 これらの用語は、日本人類遺伝学会2009年用語改訂に基づいている。
参考文献
1. Botstein, D., White, R. L., Skolnick, M. & Davis, R. W. Construction of a genetic linkage map in man using restriction fragment length polymorphisms. Am. J. Hum. Genet. 32, 314–31 (1980). 6247908
2. Gusella, J. F. et al. A polymorphic DNA marker genetically linked to Huntington’s disease. Nature 306, 234–238 (1983) 6316146.
3. Nakamura, Y. et al. Variable number of tandem repeat (VNTR) markers for human gene mapping. Science (80-. ). 235, 1616–1622 (1987). 3029872
4. Dib, C. et al. A comprehensive genetic map of the human genome based on 5,264 microsatellites. Nature 380, 152–154 (1996) : 8600387.
5. Hall, J. M. et al. Linkage of Early-Onset Familial Breast Cancer to Chromosome 17q21. Science (80-. ). 250, 1684–1689 (1990). 2270482
6. Wooster, R. et al. Localization of a breast cancer susceptibility gene, BRCA2, to chromosome 13q12-13. Science (80-. ). 265, 2088–2090 (1994). 8091231
7. Risch, N. & Merikangas, K. The future of genetic studies of complex human diseases. Science 273, 1516–1517 (1996). 8801636
8. Kruglyak, L. Prospects for whole-genome linkage disequilibrium mapping of common disease genes. Nat. Genet. 22, 139–144 (1999). 10369254
9. The International HapMap Consortium. A haplotype map of the human genome. Nature 437, 1299–1320 (2005). 16255080
10. The International HapMap Consortium. A second generation human haplotype map of over 3.1 million SNPs. Nature 449, 851–61 (2007). 17943122
11. Marouli, E. et al. Rare and low-frequency coding variants alter human adult height. Nature 542, 186–190 (2017). 28146470
12. The 1000 Genomes Project Consortium. A global reference for human genetic variation. Nature 526, 68–74 (2015). 26432245
13. McCarthy, S. et al. A reference panel of 64,976 haplotypes for genotype imputation. Nat. Genet. 48, 1279–1283 (2016). 27548312
14. MacDonald, M. E. et al. A novel gene containing a trinucleotide repeat that is expanded and unstable on Huntington’s disease chromosomes. Cell 72, 971–983 (1993). 8458085
15. Miki, Y. et al. Strong Candidate for the Breast and Ovarian Cancer Susceptibility Gene BRCA1. Science (80-. ). 266, 66–71 (1994). 754595
16. Wooster, R. et al. Identification of the breast cancer susceptibility gene BRCA2. Nature 378, 789–92 (1995). 8524414
17. The Wellcome Trust Case Control Consortium. Genome-wide association study of CNVs in 16,000 cases of eight common diseases and 3,000 shared controls. Nature 11, 26–27 (2010). 2036073
18. Mi, W. et al. Exome sequencing identifies rare LDLR and APOA5 alleles conferring risk for myocardial infarction. Nature 518, 102–106 (2014). 25487149
19. Fuchsberger, C. et al. The genetic architecture of type 2 diabetes. Nature (2016). doi:10.1038/nature18642 27398621
20. Bulik-Sullivan, B. K. et al. LD Score regression distinguishes confounding from polygenicity in genome-wide association studies. Nat Genet 47, 291–295 (2015). 25642630
21. Yang, J. et al. Genetic variance estimation with imputed variants finds negligible missing heritability for human height and body mass index. Nat. Genet. 47, 1114–1120 (2015). 26323059