「遺伝子多型」の版間の差分

編集の要約なし
編集の要約なし
編集の要約なし
21行目: 21行目:
 このように遺伝子に着目した場合、ヒトゲノムの大半は非遺伝子部位であるため、とびとびの遺伝地図しか作成できない。また、同じ表現型を来たす異なったDNAアレルが存在しうる。分子生物学の進歩によりDNA配列を比較的手軽に直接観察できるようになったことから、全ゲノムを包括的に解析することのできる、DNA多型からなる精密なマーカーの開発が望まれていた。
 このように遺伝子に着目した場合、ヒトゲノムの大半は非遺伝子部位であるため、とびとびの遺伝地図しか作成できない。また、同じ表現型を来たす異なったDNAアレルが存在しうる。分子生物学の進歩によりDNA配列を比較的手軽に直接観察できるようになったことから、全ゲノムを包括的に解析することのできる、DNA多型からなる精密なマーカーの開発が望まれていた。


 最初に発見された全ゲノムに分布する汎用の遺伝的多型マーカーは、RFLP(制限酵素長多型)であった1。これはゲノムDNAを制限酵素で切断した際、アレル間でDNA配列が異なることによって切断長に違いがあることに着目したものである。RFLPを用いた連鎖解析により、[[ハンチントン病]]の原因遺伝子座位の局在領域を特定する2など多大な成果があった。しかしRFLPは数が少なく、より高密度の遺伝的多型マーカーを開発する必要があった。
 最初に発見された全ゲノムに分布する汎用の遺伝的多型マーカーは、RFLP(制限酵素長多型)であった<ref><pubmed>6247908</pubmed></ref>1。これはゲノムDNAを制限酵素で切断した際、アレル間でDNA配列が異なることによって切断長に違いがあることに着目したものである。RFLPを用いた連鎖解析により、[[ハンチントン病]]の原因遺伝子座位の局在領域を特定する<ref><pubmed>6316146</pubmed></ref>2など多大な成果があった。しかしRFLPは数が少なく、より高密度の遺伝的多型マーカーを開発する必要があった。


 次に広く使用されたのはSSLP(単純配列長多型)であり、個人間で反復配列長が異なる部位があることを利用し、PCR法で長さを判定して行われる。SSLPとしてはVNTR3(ミニサテライト)とマイクロサテライト4(STRP)がある。RFLP、VNTR、マイクロサテライトとなるにつれてゲノム上のマーカー数が増えるため、原因バリアントと連鎖している可能性が増え、解像度が高まる。VNTRを使用した連鎖解析により家族性乳がんのBRCA15、マイクロサテライトを使用してBRCA26の責任遺伝子領域が推定された。
 次に広く使用されたのはSSLP(単純配列長多型)であり、個人間で反復配列長が異なる部位があることを利用し、PCR法で長さを判定して行われる。SSLPとしてはVNTR<ref><pubmed>3029872</pubmed></ref>3(ミニサテライト)とマイクロサテライト<ref><pubmed>8600387</pubmed></ref>4(STRP)がある。RFLP、VNTR、マイクロサテライトとなるにつれてゲノム上のマーカー数が増えるため、原因バリアントと連鎖している可能性が増え、解像度が高まる。VNTRを使用した連鎖解析により家族性乳がんのBRCA1<ref><pubmed>2270482</pubmed></ref>5、マイクロサテライトを使用してBRCA2<ref><pubmed>8091231</pubmed></ref>6の責任遺伝子領域が推定された。


 このように連鎖解析によりメンデル遺伝性疾患の原因遺伝子の同定が続いていたが、多因子疾患については思わしい成果が上がっていなかった。多数の弱い遺伝的バリアントによって起こる多因子疾患の解析のためには連鎖解析ではなく遺伝的関連解析が適切であるとの提唱がなされ7、またそのためにはゲノム上に数十万個以上のオーダーで分布する遺伝的多型が必要8であった。その要求を満たす遺伝的多型マーカーがSNP(一塩基多型)である。これは個人間の一塩基レベルでの違いに着目したものであり、原理的に包括的なカタログを作成するにはヒトゲノム配列決定を待たねばならなかった。2001年のヒトゲノムドラフト配列決定と前後して国際HapMap計画が立ち上がり、2005年9と2007年10にSNPのカタログが報告され、最終的に数百万箇所のSNPが同定されているがこれは遺伝的多型マーカーとして最大規模である。また、それと並行してDNAチップ技術のSNPへの応用が行われ、高出力かつ高精度に全ゲノムのSNPの遺伝型を測定することができるSNPアレイが開発された。これを機に[[ゲノムワイド関連解析]]が加速し、多因子疾患の遺伝因子の解明に大きく貢献した。たとえば70万人のデータを用いた身長のGWAS結果は、双生児遺伝率の27.3%を説明できるまでに至っている11。
 このように連鎖解析によりメンデル遺伝性疾患の原因遺伝子の同定が続いていたが、多因子疾患については思わしい成果が上がっていなかった。多数の弱い遺伝的バリアントによって起こる多因子疾患の解析のためには連鎖解析ではなく遺伝的関連解析が適切であるとの提唱がなされ<ref><pubmed>8801636</pubmed></ref>7、またそのためにはゲノム上に数十万個以上のオーダーで分布する遺伝的多型が必要<ref><pubmed>10369254</pubmed></ref>8であった。その要求を満たす遺伝的多型マーカーがSNP(一塩基多型)である。これは個人間の一塩基レベルでの違いに着目したものであり、原理的に包括的なカタログを作成するにはヒトゲノム配列決定を待たねばならなか16255080った。2001年のヒトゲノムドラフト配列決定と前後して国際HapMap計画が立ち上がり、2005年<ref><pubmed></pubmed></ref>9と2007年<ref><pubmed>17943122</pubmed></ref>10にSNPのカタログが報告され、最終的に数百万箇所のSNPが同定されているがこれは遺伝的多型マーカーとして最大規模である。また、それと並行してDNAチップ技術のSNPへの応用が行われ、高出力かつ高精度に全ゲノムのSNPの遺伝型を測定することができるSNPアレイが開発された。これを機に[[ゲノムワイド関連解析]]が加速し、多因子疾患の遺伝因子の解明に大きく貢献した。たとえば70万人のデータを用いた身長のGWAS結果は、双生児遺伝率の27.3%を説明できるまでに至っている<ref name=Marouli2017><pubmed>28146470</pubmed></ref>11。


 現在では遺伝的多型マーカーのみならず、全ゲノムの塩基配列を直接測定できるWGS技術が日常的になってきている。WGSを用いた国際1000ゲノム計画によれば8800万以上の遺伝的バリアントが同定されている12が、これはかならずしもSNPに限らず、集団頻度1%以下の一塩基バリアント(SNV)や挿入欠失(indel)、構造的バリアント(SV)などを含んでいる。また、SNPアレイを用いた場合でも、1000ゲノムデータ、HRC13やin-house WGSデータを参照パネルとしてimputation法を行うことによって、やはりレアバリアントを含む全ゲノムの遺伝的バリアントを推定することが可能となってきた。とりわけ遺伝的多型に着目する研究は少なくなっていくかもしれない。
 現在では遺伝的多型マーカーのみならず、全ゲノムの塩基配列を直接測定できるWGS技術が日常的になってきている。WGSを用いた国際1000ゲノム計画によれば8800万以上の遺伝的バリアントが同定されている<ref><pubmed>26432245</pubmed></ref>12が、これはかならずしもSNPに限らず、集団頻度1%以下の一塩基バリアント(SNV)や挿入欠失(indel)、構造的バリアント(SV)などを含んでいる。また、SNPアレイを用いた場合でも、1000ゲノムデータ、HRC<ref><pubmed>27548312</pubmed></ref>13やin-house WGSデータを参照パネルとしてimputation法を行うことによって、やはりレアバリアントを含む全ゲノムの遺伝的バリアントを推定することが可能となってきた。とりわけ遺伝的多型に着目する研究は少なくなっていくかもしれない。


== 遺伝的多型と解析 ==
== 遺伝的多型と解析 ==
=== 連鎖解析 ===
=== 連鎖解析 ===
遺伝的多型を用いて形質マッピングをする代表的手法が連鎖解析Linkage analysisである。これは、同じ染色体で近傍に位置する遺伝的多型は、その両者の距離に依存し親から子へと同じ染色体上のアレルの組み合わせ(ハプロタイプ)として伝達されやすいという生物学的原理(遺伝的連鎖)に基づく。交配実験が可能なショウジョウバエなどにおいては、実験的連鎖解析が可能である。しかしヒトにおいては、作為的な家系を作り出すことは不可能であるため、家系を調べて統計学的に解析する。具体的には、ある家系のデータを手にした時、「ある遺伝的多型マーカーが病気の原因バリアントと連鎖している」という仮説と、「連鎖していない」という仮説のそれぞれにもとづいて、そうだったとき現在調べた家系データを得るとした尤もらしさ(尤度likelihood)を比較する。「ある遺伝的多型マーカーが病気の原因バリアントと連鎖している」という仮説の尤もらしさが統計学的に有意に高いとするならば、その遺伝的多型マーカーは原因バリアントの近傍にあると推測する。そうだとわかれば遺伝子クローニング技術などによりその領域を調べるのである。それによりHuntingtin遺伝子14やBRCA115/BRCA216遺伝子が発見された。
遺伝的多型を用いて形質マッピングをする代表的手法が連鎖解析Linkage analysisである。これは、同じ染色体で近傍に位置する遺伝的多型は、その両者の距離に依存し親から子へと同じ染色体上のアレルの組み合わせ(ハプロタイプ)として伝達されやすいという生物学的原理(遺伝的連鎖)に基づく。交配実験が可能なショウジョウバエなどにおいては、実験的連鎖解析が可能である。しかしヒトにおいては、作為的な家系を作り出すことは不可能であるため、家系を調べて統計学的に解析する。具体的には、ある家系のデータを手にした時、「ある遺伝的多型マーカーが病気の原因バリアントと連鎖している」という仮説と、「連鎖していない」という仮説のそれぞれにもとづいて、そうだったとき現在調べた家系データを得るとした尤もらしさ(尤度likelihood)を比較する。「ある遺伝的多型マーカーが病気の原因バリアントと連鎖している」という仮説の尤もらしさが統計学的に有意に高いとするならば、その遺伝的多型マーカーは原因バリアントの近傍にあると推測する。そうだとわかれば遺伝子クローニング技術などによりその領域を調べるのである。それによりHuntingtin遺伝子<ref><pubmed>8458085</pubmed></ref>14やBRCA1<ref><pubmed>754595</pubmed></ref>15/BRCA2<ref><pubmed>754595</pubmed></ref>16遺伝子が発見された。


現在でも連鎖解析とエクソームシークエンスを組み合わせた研究が報告される。遺伝統計学的に厳格な理論を背景としているため、その輝きはまだ色あせてはいない。
現在でも連鎖解析とエクソームシークエンスを組み合わせた研究が報告される。遺伝統計学的に厳格な理論を背景としているため、その輝きはまだ色あせてはいない。
40行目: 40行目:
連鎖解析とは異なり、遺伝的関連解析の原理は連鎖不平衡である。このことから、SNPについてもこれまでに述べた連鎖解析用のマーカーとは異なる特徴が見られる。すなわち、全ゲノムを調べたいからと言って全てのSNPを実験的に得る必要はない。なぜなら、連鎖不平衡(有限集団において、減衰した連鎖の影響が集団レベルで観察されることによりみられる近傍の遺伝的多型同士の相関関係)を考えると、相関の強い一群のSNPセットの中から数個のSNP(tagSNP)だけを得れば、そのtagSNPと連鎖不平衡にあるSNPについては見たも同然なのである。逆にいうと、あまり何も考えずSNP密度を増やしたからと行って解像度が高まるわけではない。したがって、遺伝的多型の中でもtagSNPであるかどうか、がGWASにおいては重要である。
連鎖解析とは異なり、遺伝的関連解析の原理は連鎖不平衡である。このことから、SNPについてもこれまでに述べた連鎖解析用のマーカーとは異なる特徴が見られる。すなわち、全ゲノムを調べたいからと言って全てのSNPを実験的に得る必要はない。なぜなら、連鎖不平衡(有限集団において、減衰した連鎖の影響が集団レベルで観察されることによりみられる近傍の遺伝的多型同士の相関関係)を考えると、相関の強い一群のSNPセットの中から数個のSNP(tagSNP)だけを得れば、そのtagSNPと連鎖不平衡にあるSNPについては見たも同然なのである。逆にいうと、あまり何も考えずSNP密度を増やしたからと行って解像度が高まるわけではない。したがって、遺伝的多型の中でもtagSNPであるかどうか、がGWASにおいては重要である。


その後現在では、CNVアレイ結果を用いたGWAS17、さらにはエクソームシークエンスやWGSによるGWAS18,19が行われていたり、レアバリアントを搭載したアレイであるエクソームチップが使用されていて11、これらはSNPに限らず幅広い種類の遺伝的バリアントを用いて、多型マーカーに頼らず原因バリアントを直接観察しようとしていることを意味する。
その後現在では、CNVアレイ結果を用いたGWAS<ref><pubmed> 2036073</pubmed></ref>17、さらにはエクソームシークエンスやWGSによるGWAS<ref><pubmed>25487149</pubmed></ref><ref><pubmed></pubmed></ref>18,19が行われていたり、レアバリアントを搭載したアレイであるエクソームチップが使用されていて<ref name=Marouli2017/>11、これらはSNPに限らず幅広い種類の遺伝的バリアントを用いて、多型マーカーに頼らず原因バリアントを直接観察しようとしていることを意味する。


とはいえ、エクソームシークエンスと比べるとSNPアレイは非遺伝子領域をきちんとカバーするし、WGSと比べるとSNPアレイはいまでもかなり安価である。CNVについては、結局SNPと連鎖不平衡にあるという評価であり、全ゲノムCNVを調べなくとも、GWASが検出した有意SNP周囲のCNVを探索(ファインマッピング)すれば足りそうだ。さらに、LDスコア回帰法20のような最新の手法においては、たとえWGSの数千万バリアントの解析結果があったとしても、そこからわざわざ100万のtagSNPに結果を減らした方が遺伝統計学的に安定した妥当な結果を得られることが示されたり、あるいはWGSを元にしたシミュレーション解析によれば、WGS解析はSNPアレイを用いたGWASに対して、多因子形質マッピングにおけるアドバンテージはほとんどないとの推定がなされている(imputationをした場合21)。遺伝統計学・量的遺伝学の界隈においては、SNPの役割はいまだ少しも減るところがない。
とはいえ、エクソームシークエンスと比べるとSNPアレイは非遺伝子領域をきちんとカバーするし、WGSと比べるとSNPアレイはいまでもかなり安価である。CNVについては、結局SNPと連鎖不平衡にあるという評価であり、全ゲノムCNVを調べなくとも、GWASが検出した有意SNP周囲のCNVを探索(ファインマッピング)すれば足りそうだ。さらに、LDスコア回帰法<ref><pubmed>25642630</pubmed></ref>20のような最新の手法においては、たとえWGSの数千万バリアントの解析結果があったとしても、そこからわざわざ100万のtagSNPに結果を減らした方が遺伝統計学的に安定した妥当な結果を得られることが示されたり、あるいはWGSを元にしたシミュレーション解析によれば、WGS解析はSNPアレイを用いたGWASに対して、多因子形質マッピングにおけるアドバンテージはほとんどないとの推定がなされている(imputationをした場合<ref><pubmed>26323059</pubmed></ref>21)。遺伝統計学・量的遺伝学の界隈においては、SNPの役割はいまだ少しも減るところがない。


集団における頻度によって遺伝的バリアントを分類する別の方法としては、頻度5%以上をコモンバリアントcommon variant、0.5または1-5%を頻度の低いバリアントlow frequency variant、0.5%または1%未満のものをレアバリアントrare variantと呼ぶ分類がある。これは、適応進化にもとづく選択圧によって頻度分類ごとに疾患リスク効果が異なる(レアバリアントのリスク効果は全体的に高い)ことと、遺伝的関連解析においては頻度とリスク効果によって検出力が異なることに着目した分類であり、現代ではこちらの分類が主流となっているだろう。
集団における頻度によって遺伝的バリアントを分類する別の方法としては、頻度5%以上をコモンバリアントcommon variant、0.5または1-5%を頻度の低いバリアントlow frequency variant、0.5%または1%未満のものをレアバリアントrare variantと呼ぶ分類がある。これは、適応進化にもとづく選択圧によって頻度分類ごとに疾患リスク効果が異なる(レアバリアントのリスク効果は全体的に高い)ことと、遺伝的関連解析においては頻度とリスク効果によって検出力が異なることに着目した分類であり、現代ではこちらの分類が主流となっているだろう。
55行目: 55行目:
== 参考文献 ==
== 参考文献 ==
<references/>
<references/>
1. Botstein, D., White, R. L., Skolnick, M. & Davis, R. W. Construction of a genetic linkage map in man using restriction fragment length polymorphisms. Am. J. Hum. Genet. 32, 314–31 (1980).  6247908
2. Gusella, J. F. et al. A polymorphic DNA marker genetically linked to Huntington’s disease. Nature 306, 234–238 (1983)  6316146.
3. Nakamura, Y. et al. Variable number of tandem repeat (VNTR) markers for human gene mapping. Science (80-. ). 235, 1616–1622 (1987).  3029872
4. Dib, C. et al. A comprehensive genetic map of the human genome based on 5,264 microsatellites. Nature 380, 152–154 (1996)  : 8600387.
5. Hall, J. M. et al. Linkage of Early-Onset Familial Breast Cancer to Chromosome 17q21. Science (80-. ). 250, 1684–1689 (1990).  2270482
6. Wooster, R. et al. Localization of a breast cancer susceptibility gene, BRCA2, to chromosome 13q12-13. Science (80-. ). 265, 2088–2090 (1994).  8091231
7. Risch, N. & Merikangas, K. The future of genetic studies of complex human diseases. Science 273, 1516–1517 (1996). 8801636 
8. Kruglyak, L. Prospects for whole-genome linkage disequilibrium mapping of common disease genes. Nat. Genet. 22, 139–144 (1999).  10369254
9. The International HapMap Consortium. A haplotype map of the human genome. Nature 437, 1299–1320 (2005).  16255080
10. The International HapMap Consortium. A second generation human haplotype map of over 3.1 million SNPs. Nature 449, 851–61 (2007).  17943122
11. Marouli, E. et al. Rare and low-frequency coding variants alter human adult height. Nature 542, 186–190 (2017).  28146470
12. The 1000 Genomes Project Consortium. A global reference for human genetic variation. Nature 526, 68–74 (2015). 26432245 
13. McCarthy, S. et al. A reference panel of 64,976 haplotypes for genotype imputation. Nat. Genet. 48, 1279–1283 (2016). 27548312 
14. MacDonald, M. E. et al. A novel gene containing a trinucleotide repeat that is expanded and unstable on Huntington’s disease chromosomes. Cell 72, 971–983 (1993).  8458085
15. Miki, Y. et al. Strong Candidate for the Breast and Ovarian Cancer Susceptibility Gene BRCA1. Science (80-. ). 266, 66–71 (1994). 754595 
16. Wooster, R. et al. Identification of the breast cancer susceptibility gene BRCA2. Nature 378, 789–92 (1995). 8524414 
17. The Wellcome Trust Case Control Consortium. Genome-wide association study of CNVs in 16,000 cases of eight common diseases and 3,000 shared controls. Nature 11, 26–27 (2010). 2036073 
18. Mi, W. et al. Exome sequencing identifies rare LDLR and APOA5 alleles conferring risk for myocardial infarction. Nature 518, 102–106 (2014).  25487149
19. Fuchsberger, C. et al. The genetic architecture of type 2 diabetes. Nature (2016). doi:10.1038/nature18642  27398621
20. Bulik-Sullivan, B. K. et al. LD Score regression distinguishes confounding from polygenicity in genome-wide association studies. Nat Genet 47, 291–295 (2015).  25642630
21. Yang, J. et al. Genetic variance estimation with imputed variants finds negligible missing heritability for human height and body mass index. Nat. Genet. 47, 1114–1120 (2015).  26323059