「遺伝子多型」の版間の差分
Junko kurahashi (トーク | 投稿記録) 細編集の要約なし |
細 (→ゲノムワイド関連解析) |
||
(2人の利用者による、間の6版が非表示) | |||
1行目: | 1行目: | ||
<div align="right"> | <div align="right"> | ||
<font size="+1">[https://researchmap.jp/7000019582 鎌谷 洋一郎]</font><br> | <font size="+1">[https://researchmap.jp/7000019582 鎌谷 洋一郎]</font><br> | ||
'' | ''東京大学大学院新領域創成科学研究科メディカル情報生命専攻複雑形質ゲノム解析分野''<br> | ||
DOI:<selfdoi /> | DOI:<selfdoi /> 原稿受付日:2018年3月9日 原稿完成日:2019年7月31日<br> | ||
担当編集委員:[https://researchmap.jp/tadafumikato 加藤 忠史](理化学研究所 脳科学総合研究センター)<br> | 担当編集委員:[https://researchmap.jp/tadafumikato 加藤 忠史](理化学研究所 脳科学総合研究センター)<br> | ||
</div> | </div> | ||
英語名:genetic | |||
英語名:genetic polymorphism 独:genetischer Polymorphismus 仏:polymorphisme génétique<br>同義語:遺伝的多型、DNA多型 | |||
{{box|text= 遺伝的多型(遺伝子多型)とは、ある集団において、一つの遺伝的座位に、二つかそれ以上の頻度の高い異なるアレルが存在する状態を言う。遺伝的多型は形質マッピングに用いられてきたほか、集団遺伝学や法医学においても用いられる。遺伝的多型を用いた形質マッピングの代表的手法としては、連鎖解析や遺伝的関連解析が挙げられる。ただし、現代では頻度の低いレアバリアントがゲノムシークエンスにより比較的安価に直接得られる時代になってきており、遺伝的多型の定義要件の一つである「頻度の高さ」の重要性は失われつつある。今後は、頻度について言及せず、単に個々人のゲノム配列の異なる部位を指す「バリアント」へと頻用される用語は変化していく可能性がある。}} | |||
==遺伝子多型とは== | ==遺伝子多型とは== | ||
ある集団において、一つの[[ゲノム]]上の場所または領域([[座位]]、locus)に、二つかそれ以上の、頻度の高い異なる[[アレル]](allele)が存在する状態を言う。 | ある集団において、一つの[[ゲノム]]上の場所または領域([[座位]]、locus)に、二つかそれ以上の、頻度の高い異なる[[アレル]](allele)が存在する状態を言う。<ref group="注"> ゲノム上の場所や領域を座位と呼ぶ。遺伝的多型あるいは遺伝的バリアントは、個人間である座位のゲノム情報に違いがあるような状態を指す。慣用的には、遺伝的多型を示す座位を指して遺伝的多型と呼ぶこともある。<br> ある一本の染色体([[ハプロイド染色体]])上のある遺伝的バリアントにおけるDNA配列情報のことをアレルと呼ぶ。ヒトのように二倍体生物の常染色体では、染色体が二本あるので、ある遺伝的多型に関して二つのアレルの組み合わせを持っている。このような同じ遺伝的多型上のアレルの組み合わせを[[遺伝型]] ([[genotype]])と呼ぶ。<br> 座位、遺伝的多型、アレルは、かつては「遺伝子座」「遺伝子多型」「対立遺伝子」とも呼ばれていた。しかしヒトゲノム配列を直接観察できるようになった現在では非遺伝子部位も含めた概念として捉える必要があるため、対象を遺伝子に限るように見えてしまうこれらの用語を用いるべきではない。<br> 遺伝的[[変異]]という呼称には議論がある。欧米においては[[mutant]]という表現を避けてvariantという用語を使用するようになっているが、これは個人が「mutantを持つ」ということにより差別を惹起することを防ぐためである。「変異」という言葉にはmutantと同様の含意があると考えられるから、避けるべきであると思われる。そこで本稿では、variantの訳語としては「バリアント」に統一した。<br> これらの用語は、日本人類遺伝学会2009年用語改訂に基づいている。</ref> | ||
[[ヒト]]ゲノムが解読されていない時代には、遺伝的多型を用いて病気の原因遺伝子の探索が行われていた。遺伝的多型に「頻度の高い」という条件があるのは、このための要請である。本稿では、本辞典の性質にも鑑み、主にこの観点から遺伝的多型について述べる。ほかにも遺伝的多型は、[[wj:集団遺伝学|集団遺伝学]]や[[wj:法医学|法医学]]においても用いられる。 | [[ヒト]]ゲノムが解読されていない時代には、遺伝的多型を用いて病気の原因遺伝子の探索が行われていた。遺伝的多型に「頻度の高い」という条件があるのは、このための要請である。本稿では、本辞典の性質にも鑑み、主にこの観点から遺伝的多型について述べる。ほかにも遺伝的多型は、[[wj:集団遺伝学|集団遺伝学]]や[[wj:法医学|法医学]]においても用いられる。 | ||
15行目: | 18行目: | ||
== 歴史 == | == 歴史 == | ||
=== 個体の表現型に対応する仮想的な遺伝的多型 === | |||
初期の遺伝学では、遺伝的多型は概念的なものだった。[[ショウジョウバエ]]の実験において遺伝子がマーカーとして使用され始めたのは、実に遺伝情報が[[DNA]]分子からなると分かるよりも前のことであった。この時点では、遺伝的多型は[[表現型]]の個体差に対応する仮想的な存在として定義されていた。例えばショウジョウバエの目をザクロ色にするアレル、カーネーション色にするアレル、といった具合である。研究者は実際にこれらを用いて、ショウジョウバエの目の色を決定する遺伝子の、[[染色体]]への[[マッピング]]を行なっていた。 | 初期の遺伝学では、遺伝的多型は概念的なものだった。[[ショウジョウバエ]]の実験において遺伝子がマーカーとして使用され始めたのは、実に遺伝情報が[[DNA]]分子からなると分かるよりも前のことであった。この時点では、遺伝的多型は[[表現型]]の個体差に対応する仮想的な存在として定義されていた。例えばショウジョウバエの目をザクロ色にするアレル、カーネーション色にするアレル、といった具合である。研究者は実際にこれらを用いて、ショウジョウバエの目の色を決定する遺伝子の、[[染色体]]への[[マッピング]]を行なっていた。 | ||
生化学の進歩に伴い、遺伝子の産物であるタンパク質の[[電気泳動]]や[[免疫]]反応の違いを元に遺伝子の多型を推定できるようになった。この時点でも、遺伝的多型の研究はDNA配列そのものを対象としているのではなく、生化学的な違いからアレルを推定していた。[[ヘモグロビン]]遺伝子、[[CYP]]遺伝子、[[ABO]]遺伝子、[[HLA]]遺伝子など、多型性の高い(多くの異なるアレルを持つ)遺伝子がその目的で使用され、例えばHLA遺伝子のアレルはHLA- | === 生化学的なデータに対応する遺伝的多型 === | ||
生化学の進歩に伴い、遺伝子の産物であるタンパク質の[[電気泳動]]や[[免疫]]反応の違いを元に遺伝子の多型を推定できるようになった。この時点でも、遺伝的多型の研究はDNA配列そのものを対象としているのではなく、生化学的な違いからアレルを推定していた。[[ヘモグロビン]]遺伝子、[[CYP]]遺伝子、[[ABO]]遺伝子、[[HLA]]遺伝子など、多型性の高い(多くの異なるアレルを持つ)遺伝子がその目的で使用され、例えばHLA遺伝子のアレルはHLA-DR3などと表記した。現在では血清型などと呼ばれることもある。「遺伝子多型」の呼称は、主にこの時期に、確かに遺伝子を対象としてゲノム多様性を表現していた頃の名残であると考えられる。 | |||
=== DNAを対象とした初期の遺伝的多型=== | |||
このように遺伝子に着目した場合、ヒトゲノムのうち遺伝子コード部位の占める割合は2%未満であるから、とびとびの遺伝地図しか作成できない。また、DNAではなくタンパク質だけに着目した場合、一つのアミノ酸残基には複数のコドンが対応することがあることから、同じ表現型を来たす異なったDNAアレルが存在しうる。分子生物学の進歩によりDNA配列を比較的手軽に直接観察できるようになったことから、全ゲノムを包括的に解析することのできる、DNA多型からなる精密なマーカーの開発が望まれていた。 | |||
最初に発見された全ゲノムに分布する汎用の遺伝的多型マーカーは、[[制限酵素長多型]]([[RFLP]])であった<ref><pubmed>6247908</pubmed></ref> | 最初に発見された全ゲノムに分布する汎用の遺伝的多型マーカーは、[[制限酵素長多型]]([[RFLP]])であった<ref><pubmed>6247908</pubmed></ref>。これはゲノムDNAを制限酵素で切断した際、アレル間でDNA配列が異なることによって切断長に違いがあることに着目したものである。RFLPを用いた連鎖解析により、[[ハンチントン病]]の原因遺伝子座位の局在領域を特定する<ref><pubmed>6316146</pubmed></ref>など多大な成果があった。しかしRFLPは数が少なく、より高密度の遺伝的多型マーカーを開発する必要があった。 | ||
次に広く使用されたのは[[単純配列長多型]]([[SSLP]])であり、個人間で反復配列長が異なる部位があることを利用し、PCR法で長さを判定して行われる。SSLPとしては[[VNTR]]<ref><pubmed>3029872</pubmed></ref> | 次に広く使用されたのは[[単純配列長多型]]([[SSLP]])であり、個人間で反復配列長が異なる部位があることを利用し、PCR法で長さを判定して行われる。SSLPとしては[[VNTR]]<ref><pubmed>3029872</pubmed></ref>(ミニサテライト)と[[マイクロサテライト]]<ref><pubmed>8600387</pubmed></ref>(STRP)がある。RFLP、VNTR、マイクロサテライトとなるにつれてゲノム上のマーカー数が増えるため、原因バリアントと連鎖している可能性が増え、解像度が高まる。VNTRを使用した連鎖解析により家族性乳がんの[[BRCA1]]<ref><pubmed>2270482</pubmed></ref>、マイクロサテライトを使用して[[BRCA2]]<ref><pubmed>8091231</pubmed></ref>の責任遺伝子領域が推定された。 | ||
このように連鎖解析によりメンデル遺伝性疾患の原因遺伝子の同定が続いていたが、多因子疾患については思わしい成果が上がっていなかった。多数の弱い遺伝的[[バリアント]]によって起こる多因子疾患の解析のためには連鎖解析ではなく遺伝的関連解析が適切であるとの提唱がなされ<ref><pubmed>8801636</pubmed></ref> | === 全ヒトゲノム配列データを利用した高密度の遺伝的多型 === | ||
このように連鎖解析によりメンデル遺伝性疾患の原因遺伝子の同定が続いていたが、多因子疾患については思わしい成果が上がっていなかった。多数の弱い遺伝的[[バリアント]]によって起こる多因子疾患の解析のためには連鎖解析ではなく遺伝的関連解析が適切であるとの提唱がなされ<ref><pubmed>8801636</pubmed></ref>、またそのためにはゲノム上に数十万個以上のオーダーで分布する遺伝的多型が必要<ref><pubmed>10369254</pubmed></ref>であった。その要求を満たす遺伝的多型マーカーが[[SNP]]([[一塩基多型]])である。これは個人間の一塩基レベルでの違いに着目したものであり、原理的に包括的なカタログを作成するにはヒトゲノム配列決定を待たねばならなかった。2001年のヒトゲノムドラフト配列決定と前後して[[国際HapMap計画]]が立ち上がり、2005年<ref><pubmed>16255080</pubmed></ref>と2007年<ref><pubmed>17943122</pubmed></ref>にSNPのカタログが報告され、最終的に数百万箇所のSNPが同定されているがこれは遺伝的多型マーカーとして最大規模である。また、それと並行して[[DNAチップ]]技術のSNPへの応用が行われ、高出力かつ高精度に全ゲノムのSNPの遺伝型を測定することができるSNP[[アレイ]]が開発された。これを機に[[ゲノムワイド関連解析]](GWAS)が加速し、多因子疾患の遺伝因子の解明に大きく貢献した。たとえば70万人のデータを用いた身長のGWAS結果は、双生児遺伝率の27.3%を説明できるまでに至っている<ref name=Marouli2017><pubmed>28146470</pubmed></ref>。 | |||
=== 遺伝的多型から遺伝的バリアントの時代へ === | |||
現在では遺伝的多型マーカーのみならず、全ゲノムの塩基配列を直接測定できるWGS技術が日常的になってきている。限られた数のマーカーをタイピングする場合は、遺伝的な情報量の多い頻度の高いアレルを持つ座位をタイピングするのが効率的だが、全ゲノムの塩基配列が得られているならそのようなことを気にする必要もない。ある座位に二つ以上のアレルがあって、頻度については特に言及しないとき、一般に「バリアント」という呼び方をする。たとえばSNPと言う場合は集団頻度1%以上である必要があるが、一塩基バリアント(SNV)と呼ぶ場合はそれよりまれな頻度であってもよい。 | |||
WGSを用いた国際1000ゲノム計画によれば8800万以上の遺伝的バリアントが同定されている<ref><pubmed>26432245</pubmed></ref>が、これはかならずしもSNPに限らず、集団頻度1%以下のSNVや挿入欠失(indel)、構造的バリアント(SV)などを含んでいる。また、SNPアレイを用いた場合でも、1000ゲノムデータ、HRC<ref><pubmed>27548312</pubmed></ref>やin-house WGSデータを参照パネルとして[[imputation法]]を行うことによって、やはりレアバリアントを含む全ゲノムの遺伝的バリアントを推定することが可能となってきた。とりわけ遺伝的多型に着目する研究は少なくなっていくかもしれない。 | |||
== 解析 == | == 解析 == | ||
=== 連鎖解析 === | === 連鎖解析 === | ||
遺伝的多型を用いて形質マッピングをする代表的手法が[[連鎖解析]] | 遺伝的多型を用いて形質マッピングをする代表的手法が[[連鎖解析]] (linkage analysis)である。これは、同じ染色体で近傍に位置する遺伝的多型は、その両者の距離に依存し親から子へと同じ染色体上のアレルの組み合わせ([[ハプロタイプ]])として伝達されやすいという生物学的原理(遺伝的連鎖)に基づく。交配実験が可能なショウジョウバエなどにおいては、実験的連鎖解析が可能である。しかしヒトにおいては、作為的な家系を作り出すことは不可能であるため、家系を調べて統計学的に解析する。具体的には、ある家系のデータを手にした時、「ある遺伝的多型マーカーが病気の原因バリアントと連鎖している」という仮説と、「連鎖していない」という仮説のそれぞれにもとづいて、そうだったとき現在調べた家系データを得るとした尤もらしさ([[尤度]] (ゆうど; likelihood))を比較する。「ある遺伝的多型マーカーが病気の原因バリアントと連鎖している」という仮説の尤もらしさが統計学的に有意に高いとするならば、その遺伝的多型マーカーは原因バリアントの近傍にあると推測する。そうだとわかれば遺伝子クローニング技術などによりその領域を調べるのである。それにより[[ハンチンチン]]遺伝子<ref><pubmed>8458085</pubmed></ref>やBRCA1<ref><pubmed>7545954</pubmed></ref>/BRCA2<ref><pubmed>8524414</pubmed></ref>遺伝子が発見された。 | ||
現在でも連鎖解析と[[エクソームシークエンス]]を組み合わせた研究が報告される。遺伝統計学的に厳格な理論を背景としているため、その輝きはまだ色あせてはいない。 | 現在でも連鎖解析と[[エクソームシークエンス]]を組み合わせた研究が報告される。遺伝統計学的に厳格な理論を背景としているため、その輝きはまだ色あせてはいない。 | ||
=== ゲノムワイド関連解析 === | === ゲノムワイド関連解析 === | ||
[[ゲノムワイド関連解析]](Genome Wide Association Study; GWAS)も、もともとは遺伝的多型を用いた形質マッピングという研究分野から生まれたものであり、前述のようにさまざまな遺伝統計学的検討の結果、対象としてSNPを使用することとなった。 | |||
連鎖解析とは異なり、遺伝的関連解析の原理は[[連鎖不平衡]]である。これを利用することにより、全ゲノムを調べたいからと言って全てのSNPを実験的に得る必要はない。なぜなら、連鎖不平衡(有限集団において、減衰した連鎖の影響が集団レベルで観察されることによりみられる近傍の遺伝的多型同士の相関関係)を考えると、相関の強い一群のSNPセットの中から数個のSNP(tagSNP)だけを得れば、そのtagSNPと連鎖不平衡にあるSNPについては見たも同然なのである。逆にいうと、あまり何も考えずSNP密度を増やしたからと行って解像度が高まるわけではない。したがって、遺伝的多型の中でもtagSNPであるかどうか、がGWASにおいては重要である。 | |||
その後現在では、CNVアレイ結果を用いたGWAS<ref><pubmed> 20360734</pubmed></ref>、さらにはエクソームシークエンスやWGSによるGWAS<ref><pubmed>25487149</pubmed></ref><ref><pubmed>27398621</pubmed></ref>が行われていたり、レアバリアントを搭載したアレイであるエクソームチップが使用されていて<ref name=Marouli2017/>、これらはSNPに限らず幅広い種類の遺伝的バリアントを用いて、多型マーカーに頼らず原因バリアントを直接観察しようとしていることを意味する。 | |||
とはいえ、エクソームシークエンスと比べるとSNPアレイは非遺伝子領域をきちんとカバーするし、WGSと比べるとSNPアレイはいまでもかなり安価である。CNVについては、結局SNPと連鎖不平衡にあるという評価であり、全ゲノムCNVを調べなくとも、GWASが検出した有意SNP周囲のCNVを探索(ファインマッピング)すれば足りそうだ。さらに、[[LDスコア回帰法]]<ref><pubmed>25642630</pubmed></ref>のような最新の手法においては、たとえWGSの数千万バリアントの解析結果があったとしても、そこからわざわざ100万のtagSNPに結果を減らした方が遺伝統計学的に安定した妥当な結果を得られることが示されたり、あるいはWGSを元にしたシミュレーション解析によれば、WGS解析はSNPアレイを用いたGWASに対して、多因子形質マッピングにおけるアドバンテージはほとんどないとの推定がなされている(imputationをした場合<ref><pubmed>26323059</pubmed></ref>)。遺伝統計学・量的遺伝学の界隈においては、SNPの役割はいまだ少しも減るところがない。 | |||
一方、連鎖不平衡によっては捕捉できないバリアントについて、シークエンス研究が有効である。そのようなものとして、[[レアバリアント]]や[[デノボバリアント]]が挙げられるだろう。[[トランスポゾン]]もそうかもしれない。シークエンスが安価になるにつれ、いずれにせよすべてのバリアントをカバーする全ゲノムシークエンスへと研究がシフトしていくことも必然だと考えられる。 | |||
集団における頻度によって遺伝的バリアントを分類する別の方法としては、頻度5%以上を[[コモンバリアント]] common variant、0.5または1-5%を[[頻度の低いバリアント]] low frequency variant、0.5%または1%未満のものをレアバリアント rare variantと呼ぶ分類がある。これは、適応進化にもとづく選択圧によって頻度分類ごとに疾患リスク効果が異なる(レアバリアントのリスク効果は全体的に高い)ことと、遺伝的関連解析においては頻度とリスク効果によって検出力が異なることに着目した分類であり、現代ではこちらの分類が主流となっているだろう。 | |||
== 注釈 == | |||
{{reflist|group="注"}} | |||
==関連項目== | |||
* [[ゲノムワイド関連解析]] | |||
== 参考文献 == | == 参考文献 == | ||
<references/> | <references/> |
2019年7月31日 (水) 23:13時点における最新版
鎌谷 洋一郎
東京大学大学院新領域創成科学研究科メディカル情報生命専攻複雑形質ゲノム解析分野
DOI:10.14931/bsd.7601 原稿受付日:2018年3月9日 原稿完成日:2019年7月31日
担当編集委員:加藤 忠史(理化学研究所 脳科学総合研究センター)
英語名:genetic polymorphism 独:genetischer Polymorphismus 仏:polymorphisme génétique
同義語:遺伝的多型、DNA多型
遺伝的多型(遺伝子多型)とは、ある集団において、一つの遺伝的座位に、二つかそれ以上の頻度の高い異なるアレルが存在する状態を言う。遺伝的多型は形質マッピングに用いられてきたほか、集団遺伝学や法医学においても用いられる。遺伝的多型を用いた形質マッピングの代表的手法としては、連鎖解析や遺伝的関連解析が挙げられる。ただし、現代では頻度の低いレアバリアントがゲノムシークエンスにより比較的安価に直接得られる時代になってきており、遺伝的多型の定義要件の一つである「頻度の高さ」の重要性は失われつつある。今後は、頻度について言及せず、単に個々人のゲノム配列の異なる部位を指す「バリアント」へと頻用される用語は変化していく可能性がある。
遺伝子多型とは
ある集団において、一つのゲノム上の場所または領域(座位、locus)に、二つかそれ以上の、頻度の高い異なるアレル(allele)が存在する状態を言う。[注 1]
ヒトゲノムが解読されていない時代には、遺伝的多型を用いて病気の原因遺伝子の探索が行われていた。遺伝的多型に「頻度の高い」という条件があるのは、このための要請である。本稿では、本辞典の性質にも鑑み、主にこの観点から遺伝的多型について述べる。ほかにも遺伝的多型は、集団遺伝学や法医学においても用いられる。
本稿では特にヒトに限定して述べるが、原則として以下の記述は他の種にもそのまま適用できる。
歴史
個体の表現型に対応する仮想的な遺伝的多型
初期の遺伝学では、遺伝的多型は概念的なものだった。ショウジョウバエの実験において遺伝子がマーカーとして使用され始めたのは、実に遺伝情報がDNA分子からなると分かるよりも前のことであった。この時点では、遺伝的多型は表現型の個体差に対応する仮想的な存在として定義されていた。例えばショウジョウバエの目をザクロ色にするアレル、カーネーション色にするアレル、といった具合である。研究者は実際にこれらを用いて、ショウジョウバエの目の色を決定する遺伝子の、染色体へのマッピングを行なっていた。
生化学的なデータに対応する遺伝的多型
生化学の進歩に伴い、遺伝子の産物であるタンパク質の電気泳動や免疫反応の違いを元に遺伝子の多型を推定できるようになった。この時点でも、遺伝的多型の研究はDNA配列そのものを対象としているのではなく、生化学的な違いからアレルを推定していた。ヘモグロビン遺伝子、CYP遺伝子、ABO遺伝子、HLA遺伝子など、多型性の高い(多くの異なるアレルを持つ)遺伝子がその目的で使用され、例えばHLA遺伝子のアレルはHLA-DR3などと表記した。現在では血清型などと呼ばれることもある。「遺伝子多型」の呼称は、主にこの時期に、確かに遺伝子を対象としてゲノム多様性を表現していた頃の名残であると考えられる。
DNAを対象とした初期の遺伝的多型
このように遺伝子に着目した場合、ヒトゲノムのうち遺伝子コード部位の占める割合は2%未満であるから、とびとびの遺伝地図しか作成できない。また、DNAではなくタンパク質だけに着目した場合、一つのアミノ酸残基には複数のコドンが対応することがあることから、同じ表現型を来たす異なったDNAアレルが存在しうる。分子生物学の進歩によりDNA配列を比較的手軽に直接観察できるようになったことから、全ゲノムを包括的に解析することのできる、DNA多型からなる精密なマーカーの開発が望まれていた。
最初に発見された全ゲノムに分布する汎用の遺伝的多型マーカーは、制限酵素長多型(RFLP)であった[1]。これはゲノムDNAを制限酵素で切断した際、アレル間でDNA配列が異なることによって切断長に違いがあることに着目したものである。RFLPを用いた連鎖解析により、ハンチントン病の原因遺伝子座位の局在領域を特定する[2]など多大な成果があった。しかしRFLPは数が少なく、より高密度の遺伝的多型マーカーを開発する必要があった。
次に広く使用されたのは単純配列長多型(SSLP)であり、個人間で反復配列長が異なる部位があることを利用し、PCR法で長さを判定して行われる。SSLPとしてはVNTR[3](ミニサテライト)とマイクロサテライト[4](STRP)がある。RFLP、VNTR、マイクロサテライトとなるにつれてゲノム上のマーカー数が増えるため、原因バリアントと連鎖している可能性が増え、解像度が高まる。VNTRを使用した連鎖解析により家族性乳がんのBRCA1[5]、マイクロサテライトを使用してBRCA2[6]の責任遺伝子領域が推定された。
全ヒトゲノム配列データを利用した高密度の遺伝的多型
このように連鎖解析によりメンデル遺伝性疾患の原因遺伝子の同定が続いていたが、多因子疾患については思わしい成果が上がっていなかった。多数の弱い遺伝的バリアントによって起こる多因子疾患の解析のためには連鎖解析ではなく遺伝的関連解析が適切であるとの提唱がなされ[7]、またそのためにはゲノム上に数十万個以上のオーダーで分布する遺伝的多型が必要[8]であった。その要求を満たす遺伝的多型マーカーがSNP(一塩基多型)である。これは個人間の一塩基レベルでの違いに着目したものであり、原理的に包括的なカタログを作成するにはヒトゲノム配列決定を待たねばならなかった。2001年のヒトゲノムドラフト配列決定と前後して国際HapMap計画が立ち上がり、2005年[9]と2007年[10]にSNPのカタログが報告され、最終的に数百万箇所のSNPが同定されているがこれは遺伝的多型マーカーとして最大規模である。また、それと並行してDNAチップ技術のSNPへの応用が行われ、高出力かつ高精度に全ゲノムのSNPの遺伝型を測定することができるSNPアレイが開発された。これを機にゲノムワイド関連解析(GWAS)が加速し、多因子疾患の遺伝因子の解明に大きく貢献した。たとえば70万人のデータを用いた身長のGWAS結果は、双生児遺伝率の27.3%を説明できるまでに至っている[11]。
遺伝的多型から遺伝的バリアントの時代へ
現在では遺伝的多型マーカーのみならず、全ゲノムの塩基配列を直接測定できるWGS技術が日常的になってきている。限られた数のマーカーをタイピングする場合は、遺伝的な情報量の多い頻度の高いアレルを持つ座位をタイピングするのが効率的だが、全ゲノムの塩基配列が得られているならそのようなことを気にする必要もない。ある座位に二つ以上のアレルがあって、頻度については特に言及しないとき、一般に「バリアント」という呼び方をする。たとえばSNPと言う場合は集団頻度1%以上である必要があるが、一塩基バリアント(SNV)と呼ぶ場合はそれよりまれな頻度であってもよい。
WGSを用いた国際1000ゲノム計画によれば8800万以上の遺伝的バリアントが同定されている[12]が、これはかならずしもSNPに限らず、集団頻度1%以下のSNVや挿入欠失(indel)、構造的バリアント(SV)などを含んでいる。また、SNPアレイを用いた場合でも、1000ゲノムデータ、HRC[13]やin-house WGSデータを参照パネルとしてimputation法を行うことによって、やはりレアバリアントを含む全ゲノムの遺伝的バリアントを推定することが可能となってきた。とりわけ遺伝的多型に着目する研究は少なくなっていくかもしれない。
解析
連鎖解析
遺伝的多型を用いて形質マッピングをする代表的手法が連鎖解析 (linkage analysis)である。これは、同じ染色体で近傍に位置する遺伝的多型は、その両者の距離に依存し親から子へと同じ染色体上のアレルの組み合わせ(ハプロタイプ)として伝達されやすいという生物学的原理(遺伝的連鎖)に基づく。交配実験が可能なショウジョウバエなどにおいては、実験的連鎖解析が可能である。しかしヒトにおいては、作為的な家系を作り出すことは不可能であるため、家系を調べて統計学的に解析する。具体的には、ある家系のデータを手にした時、「ある遺伝的多型マーカーが病気の原因バリアントと連鎖している」という仮説と、「連鎖していない」という仮説のそれぞれにもとづいて、そうだったとき現在調べた家系データを得るとした尤もらしさ(尤度 (ゆうど; likelihood))を比較する。「ある遺伝的多型マーカーが病気の原因バリアントと連鎖している」という仮説の尤もらしさが統計学的に有意に高いとするならば、その遺伝的多型マーカーは原因バリアントの近傍にあると推測する。そうだとわかれば遺伝子クローニング技術などによりその領域を調べるのである。それによりハンチンチン遺伝子[14]やBRCA1[15]/BRCA2[16]遺伝子が発見された。
現在でも連鎖解析とエクソームシークエンスを組み合わせた研究が報告される。遺伝統計学的に厳格な理論を背景としているため、その輝きはまだ色あせてはいない。
ゲノムワイド関連解析
ゲノムワイド関連解析(Genome Wide Association Study; GWAS)も、もともとは遺伝的多型を用いた形質マッピングという研究分野から生まれたものであり、前述のようにさまざまな遺伝統計学的検討の結果、対象としてSNPを使用することとなった。
連鎖解析とは異なり、遺伝的関連解析の原理は連鎖不平衡である。これを利用することにより、全ゲノムを調べたいからと言って全てのSNPを実験的に得る必要はない。なぜなら、連鎖不平衡(有限集団において、減衰した連鎖の影響が集団レベルで観察されることによりみられる近傍の遺伝的多型同士の相関関係)を考えると、相関の強い一群のSNPセットの中から数個のSNP(tagSNP)だけを得れば、そのtagSNPと連鎖不平衡にあるSNPについては見たも同然なのである。逆にいうと、あまり何も考えずSNP密度を増やしたからと行って解像度が高まるわけではない。したがって、遺伝的多型の中でもtagSNPであるかどうか、がGWASにおいては重要である。
その後現在では、CNVアレイ結果を用いたGWAS[17]、さらにはエクソームシークエンスやWGSによるGWAS[18][19]が行われていたり、レアバリアントを搭載したアレイであるエクソームチップが使用されていて[11]、これらはSNPに限らず幅広い種類の遺伝的バリアントを用いて、多型マーカーに頼らず原因バリアントを直接観察しようとしていることを意味する。
とはいえ、エクソームシークエンスと比べるとSNPアレイは非遺伝子領域をきちんとカバーするし、WGSと比べるとSNPアレイはいまでもかなり安価である。CNVについては、結局SNPと連鎖不平衡にあるという評価であり、全ゲノムCNVを調べなくとも、GWASが検出した有意SNP周囲のCNVを探索(ファインマッピング)すれば足りそうだ。さらに、LDスコア回帰法[20]のような最新の手法においては、たとえWGSの数千万バリアントの解析結果があったとしても、そこからわざわざ100万のtagSNPに結果を減らした方が遺伝統計学的に安定した妥当な結果を得られることが示されたり、あるいはWGSを元にしたシミュレーション解析によれば、WGS解析はSNPアレイを用いたGWASに対して、多因子形質マッピングにおけるアドバンテージはほとんどないとの推定がなされている(imputationをした場合[21])。遺伝統計学・量的遺伝学の界隈においては、SNPの役割はいまだ少しも減るところがない。
一方、連鎖不平衡によっては捕捉できないバリアントについて、シークエンス研究が有効である。そのようなものとして、レアバリアントやデノボバリアントが挙げられるだろう。トランスポゾンもそうかもしれない。シークエンスが安価になるにつれ、いずれにせよすべてのバリアントをカバーする全ゲノムシークエンスへと研究がシフトしていくことも必然だと考えられる。
集団における頻度によって遺伝的バリアントを分類する別の方法としては、頻度5%以上をコモンバリアント common variant、0.5または1-5%を頻度の低いバリアント low frequency variant、0.5%または1%未満のものをレアバリアント rare variantと呼ぶ分類がある。これは、適応進化にもとづく選択圧によって頻度分類ごとに疾患リスク効果が異なる(レアバリアントのリスク効果は全体的に高い)ことと、遺伝的関連解析においては頻度とリスク効果によって検出力が異なることに着目した分類であり、現代ではこちらの分類が主流となっているだろう。
注釈
- ↑ ゲノム上の場所や領域を座位と呼ぶ。遺伝的多型あるいは遺伝的バリアントは、個人間である座位のゲノム情報に違いがあるような状態を指す。慣用的には、遺伝的多型を示す座位を指して遺伝的多型と呼ぶこともある。
ある一本の染色体(ハプロイド染色体)上のある遺伝的バリアントにおけるDNA配列情報のことをアレルと呼ぶ。ヒトのように二倍体生物の常染色体では、染色体が二本あるので、ある遺伝的多型に関して二つのアレルの組み合わせを持っている。このような同じ遺伝的多型上のアレルの組み合わせを遺伝型 (genotype)と呼ぶ。
座位、遺伝的多型、アレルは、かつては「遺伝子座」「遺伝子多型」「対立遺伝子」とも呼ばれていた。しかしヒトゲノム配列を直接観察できるようになった現在では非遺伝子部位も含めた概念として捉える必要があるため、対象を遺伝子に限るように見えてしまうこれらの用語を用いるべきではない。
遺伝的変異という呼称には議論がある。欧米においてはmutantという表現を避けてvariantという用語を使用するようになっているが、これは個人が「mutantを持つ」ということにより差別を惹起することを防ぐためである。「変異」という言葉にはmutantと同様の含意があると考えられるから、避けるべきであると思われる。そこで本稿では、variantの訳語としては「バリアント」に統一した。
これらの用語は、日本人類遺伝学会2009年用語改訂に基づいている。
関連項目
参考文献
- ↑
Botstein, D., White, R.L., Skolnick, M., & Davis, R.W. (1980).
Construction of a genetic linkage map in man using restriction fragment length polymorphisms. American journal of human genetics, 32(3), 314-31. [PubMed:6247908] [PMC] [WorldCat] - ↑
Gusella, J.F., Wexler, N.S., Conneally, P.M., Naylor, S.L., Anderson, M.A., Tanzi, R.E., ..., & Sakaguchi, A.Y. (1983).
A polymorphic DNA marker genetically linked to Huntington's disease. Nature, 306(5940), 234-8. [PubMed:6316146] [WorldCat] [DOI] - ↑
Nakamura, Y., Leppert, M., O'Connell, P., Wolff, R., Holm, T., Culver, M., ..., & Kumlin, E. (1987).
Variable number of tandem repeat (VNTR) markers for human gene mapping. Science (New York, N.Y.), 235(4796), 1616-22. [PubMed:3029872] [WorldCat] [DOI] - ↑
Dib, C., Fauré, S., Fizames, C., Samson, D., Drouot, N., Vignal, A., ..., & Weissenbach, J. (1996).
A comprehensive genetic map of the human genome based on 5,264 microsatellites. Nature, 380(6570), 152-4. [PubMed:8600387] [WorldCat] [DOI] - ↑
Hall, J.M., Lee, M.K., Newman, B., Morrow, J.E., Anderson, L.A., Huey, B., & King, M.C. (1990).
Linkage of early-onset familial breast cancer to chromosome 17q21. Science (New York, N.Y.), 250(4988), 1684-9. [PubMed:2270482] [WorldCat] [DOI] - ↑
Wooster, R., Neuhausen, S.L., Mangion, J., Quirk, Y., Ford, D., Collins, N., ..., & Averill, D. (1994).
Localization of a breast cancer susceptibility gene, BRCA2, to chromosome 13q12-13. Science (New York, N.Y.), 265(5181), 2088-90. [PubMed:8091231] [WorldCat] [DOI] - ↑
Risch, N., & Merikangas, K. (1996).
The future of genetic studies of complex human diseases. Science (New York, N.Y.), 273(5281), 1516-7. [PubMed:8801636] [WorldCat] [DOI] - ↑
Kruglyak, L. (1999).
Prospects for whole-genome linkage disequilibrium mapping of common disease genes. Nature genetics, 22(2), 139-44. [PubMed:10369254] [WorldCat] [DOI] - ↑
International HapMap Consortium (2005).
A haplotype map of the human genome. Nature, 437(7063), 1299-320. [PubMed:16255080] [PMC] [WorldCat] [DOI] - ↑
International HapMap Consortium, Frazer, K.A., Ballinger, D.G., Cox, D.R., Hinds, D.A., Stuve, L.L., ..., & Stewart, J. (2007).
A second generation human haplotype map of over 3.1 million SNPs. Nature, 449(7164), 851-61. [PubMed:17943122] [PMC] [WorldCat] [DOI] - ↑ 11.0 11.1
Marouli, E., Graff, M., Medina-Gomez, C., Lo, K.S., Wood, A.R., Kjaer, T.R., ..., & Lettre, G. (2017).
Rare and low-frequency coding variants alter human adult height. Nature, 542(7640), 186-190. [PubMed:28146470] [PMC] [WorldCat] [DOI] - ↑
1000 Genomes Project Consortium, Auton, A., Brooks, L.D., Durbin, R.M., Garrison, E.P., Kang, H.M., ..., & Abecasis, G.R. (2015).
A global reference for human genetic variation. Nature, 526(7571), 68-74. [PubMed:26432245] [PMC] [WorldCat] [DOI] - ↑
McCarthy, S., Das, S., Kretzschmar, W., Delaneau, O., Wood, A.R., Teumer, A., ..., & Haplotype Reference Consortium (2016).
A reference panel of 64,976 haplotypes for genotype imputation. Nature genetics, 48(10), 1279-83. [PubMed:27548312] [PMC] [WorldCat] [DOI] - ↑
(1993).
A novel gene containing a trinucleotide repeat that is expanded and unstable on Huntington's disease chromosomes. The Huntington's Disease Collaborative Research Group. Cell, 72(6), 971-83. [PubMed:8458085] [WorldCat] [DOI] - ↑
Miki, Y., Swensen, J., Shattuck-Eidens, D., Futreal, P.A., Harshman, K., Tavtigian, S., ..., & Ding, W. (1994).
A strong candidate for the breast and ovarian cancer susceptibility gene BRCA1. Science (New York, N.Y.), 266(5182), 66-71. [PubMed:7545954] [WorldCat] [DOI] - ↑
Wooster, R., Bignell, G., Lancaster, J., Swift, S., Seal, S., Mangion, J., ..., & Micklem, G. (1995).
Identification of the breast cancer susceptibility gene BRCA2. Nature, 378(6559), 789-92. [PubMed:8524414] [WorldCat] [DOI] - ↑
Wellcome Trust Case Control Consortium, Craddock, N., Hurles, M.E., Cardin, N., Pearson, R.D., Plagnol, V., ..., & Donnelly, P. (2010).
Genome-wide association study of CNVs in 16,000 cases of eight common diseases and 3,000 shared controls. Nature, 464(7289), 713-20. [PubMed:20360734] [PMC] [WorldCat] [DOI] - ↑
Do, R., Stitziel, N.O., Won, H.H., Jørgensen, A.B., Duga, S., Angelica Merlini, P., ..., & Kathiresan, S. (2015).
Exome sequencing identifies rare LDLR and APOA5 alleles conferring risk for myocardial infarction. Nature, 518(7537), 102-6. [PubMed:25487149] [PMC] [WorldCat] [DOI] - ↑
Fuchsberger, C., Flannick, J., Teslovich, T.M., Mahajan, A., Agarwala, V., Gaulton, K.J., ..., & McCarthy, M.I. (2016).
The genetic architecture of type 2 diabetes. Nature, 536(7614), 41-47. [PubMed:27398621] [PMC] [WorldCat] [DOI] - ↑
Bulik-Sullivan, B.K., Loh, P.R., Finucane, H.K., Ripke, S., Yang, J., Schizophrenia Working Group of the Psychiatric Genomics Consortium, ..., & Neale, B.M. (2015).
LD Score regression distinguishes confounding from polygenicity in genome-wide association studies. Nature genetics, 47(3), 291-5. [PubMed:25642630] [PMC] [WorldCat] [DOI] - ↑
Yang, J., Bakshi, A., Zhu, Z., Hemani, G., Vinkhuyzen, A.A., Lee, S.H., ..., & Visscher, P.M. (2015).
Genetic variance estimation with imputed variants finds negligible missing heritability for human height and body mass index. Nature genetics, 47(10), 1114-20. [PubMed:26323059] [PMC] [WorldCat] [DOI]