16,040
回編集
細編集の要約なし |
細編集の要約なし |
||
1行目: | 1行目: | ||
<div align="right"> | <div align="right"> | ||
<font size="+1">[https://researchmap.jp/7000019582 鎌谷 洋一郎]</font><br> | <font size="+1">[https://researchmap.jp/7000019582 鎌谷 洋一郎]</font><br> | ||
'' | ''東京大学大学院新領域創成科学研究科メディカル情報生命専攻複雑形質ゲノム解析分野''<br> | ||
DOI:<selfdoi /> 原稿受付日:2018年3月9日 原稿完成日:<br> | DOI:<selfdoi /> 原稿受付日:2018年3月9日 原稿完成日:<br> | ||
担当編集委員:[https://researchmap.jp/tadafumikato 加藤 忠史](理化学研究所 脳科学総合研究センター)<br> | 担当編集委員:[https://researchmap.jp/tadafumikato 加藤 忠史](理化学研究所 脳科学総合研究センター)<br> | ||
7行目: | 7行目: | ||
英語名:genetic polymorphism 独:genetischer Polymorphismus 仏:polymorphisme génétique<br>同義語:遺伝的多型、DNA多型 | 英語名:genetic polymorphism 独:genetischer Polymorphismus 仏:polymorphisme génétique<br>同義語:遺伝的多型、DNA多型 | ||
{{box|text= 遺伝的多型(遺伝子多型)とは、ある集団において、一つの遺伝的座位に、二つかそれ以上の頻度の高い異なるアレルが存在する状態を言う。遺伝的多型は形質マッピングに用いられてきたほか、集団遺伝学や法医学においても用いられる。遺伝的多型を用いた形質マッピングの代表的手法としては、連鎖解析や遺伝的関連解析が挙げられる。ただし、現代では頻度の低いレアバリアントがゲノムシークエンスにより比較的安価に直接得られる時代になってきており、遺伝的多型の定義要件の一つである「頻度の高さ」の重要性は失われつつある。今後は、頻度について言及せず、単に個々人のゲノム配列の異なる部位を指す「バリアント」へと頻用される用語は変化していく可能性がある。}} | |||
==遺伝子多型とは== | ==遺伝子多型とは== | ||
16行目: | 18行目: | ||
== 歴史 == | == 歴史 == | ||
=== 個体の表現型に対応する仮想的な遺伝的多型 === | |||
初期の遺伝学では、遺伝的多型は概念的なものだった。[[ショウジョウバエ]]の実験において遺伝子がマーカーとして使用され始めたのは、実に遺伝情報が[[DNA]]分子からなると分かるよりも前のことであった。この時点では、遺伝的多型は[[表現型]]の個体差に対応する仮想的な存在として定義されていた。例えばショウジョウバエの目をザクロ色にするアレル、カーネーション色にするアレル、といった具合である。研究者は実際にこれらを用いて、ショウジョウバエの目の色を決定する遺伝子の、[[染色体]]への[[マッピング]]を行なっていた。 | 初期の遺伝学では、遺伝的多型は概念的なものだった。[[ショウジョウバエ]]の実験において遺伝子がマーカーとして使用され始めたのは、実に遺伝情報が[[DNA]]分子からなると分かるよりも前のことであった。この時点では、遺伝的多型は[[表現型]]の個体差に対応する仮想的な存在として定義されていた。例えばショウジョウバエの目をザクロ色にするアレル、カーネーション色にするアレル、といった具合である。研究者は実際にこれらを用いて、ショウジョウバエの目の色を決定する遺伝子の、[[染色体]]への[[マッピング]]を行なっていた。 | ||
生化学の進歩に伴い、遺伝子の産物であるタンパク質の[[電気泳動]]や[[免疫]]反応の違いを元に遺伝子の多型を推定できるようになった。この時点でも、遺伝的多型の研究はDNA配列そのものを対象としているのではなく、生化学的な違いからアレルを推定していた。[[ヘモグロビン]]遺伝子、[[CYP]]遺伝子、[[ABO]]遺伝子、[[HLA]]遺伝子など、多型性の高い(多くの異なるアレルを持つ)遺伝子がその目的で使用され、例えばHLA遺伝子のアレルはHLA- | === 生化学的なデータに対応する遺伝的多型 === | ||
生化学の進歩に伴い、遺伝子の産物であるタンパク質の[[電気泳動]]や[[免疫]]反応の違いを元に遺伝子の多型を推定できるようになった。この時点でも、遺伝的多型の研究はDNA配列そのものを対象としているのではなく、生化学的な違いからアレルを推定していた。[[ヘモグロビン]]遺伝子、[[CYP]]遺伝子、[[ABO]]遺伝子、[[HLA]]遺伝子など、多型性の高い(多くの異なるアレルを持つ)遺伝子がその目的で使用され、例えばHLA遺伝子のアレルはHLA-DR3などと表記した。現在では血清型などと呼ばれることもある。「遺伝子多型」の呼称は、主にこの時期に、確かに遺伝子を対象としてゲノム多様性を表現していた頃の名残であると考えられる。 | |||
=== DNAを対象とした初期の遺伝的多型=== | |||
このように遺伝子に着目した場合、ヒトゲノムのうち遺伝子コード部位の占める割合は2%未満であるから、とびとびの遺伝地図しか作成できない。また、DNAではなくタンパク質だけに着目した場合、一つのアミノ酸残基には複数のコドンが対応することがあることから、同じ表現型を来たす異なったDNAアレルが存在しうる。分子生物学の進歩によりDNA配列を比較的手軽に直接観察できるようになったことから、全ゲノムを包括的に解析することのできる、DNA多型からなる精密なマーカーの開発が望まれていた。 | |||
最初に発見された全ゲノムに分布する汎用の遺伝的多型マーカーは、[[制限酵素長多型]]([[RFLP]])であった<ref><pubmed>6247908</pubmed></ref>1。これはゲノムDNAを制限酵素で切断した際、アレル間でDNA配列が異なることによって切断長に違いがあることに着目したものである。RFLPを用いた連鎖解析により、[[ハンチントン病]]の原因遺伝子座位の局在領域を特定する<ref><pubmed>6316146</pubmed></ref>2など多大な成果があった。しかしRFLPは数が少なく、より高密度の遺伝的多型マーカーを開発する必要があった。 | 最初に発見された全ゲノムに分布する汎用の遺伝的多型マーカーは、[[制限酵素長多型]]([[RFLP]])であった<ref><pubmed>6247908</pubmed></ref>1。これはゲノムDNAを制限酵素で切断した際、アレル間でDNA配列が異なることによって切断長に違いがあることに着目したものである。RFLPを用いた連鎖解析により、[[ハンチントン病]]の原因遺伝子座位の局在領域を特定する<ref><pubmed>6316146</pubmed></ref>2など多大な成果があった。しかしRFLPは数が少なく、より高密度の遺伝的多型マーカーを開発する必要があった。 | ||
26行目: | 31行目: | ||
次に広く使用されたのは[[単純配列長多型]]([[SSLP]])であり、個人間で反復配列長が異なる部位があることを利用し、PCR法で長さを判定して行われる。SSLPとしては[[VNTR]]<ref><pubmed>3029872</pubmed></ref>3(ミニサテライト)と[[マイクロサテライト]]<ref><pubmed>8600387</pubmed></ref>4(STRP)がある。RFLP、VNTR、マイクロサテライトとなるにつれてゲノム上のマーカー数が増えるため、原因バリアントと連鎖している可能性が増え、解像度が高まる。VNTRを使用した連鎖解析により家族性乳がんの[[BRCA1]]<ref><pubmed>2270482</pubmed></ref>5、マイクロサテライトを使用して[[BRCA2]]<ref><pubmed>8091231</pubmed></ref>6の責任遺伝子領域が推定された。 | 次に広く使用されたのは[[単純配列長多型]]([[SSLP]])であり、個人間で反復配列長が異なる部位があることを利用し、PCR法で長さを判定して行われる。SSLPとしては[[VNTR]]<ref><pubmed>3029872</pubmed></ref>3(ミニサテライト)と[[マイクロサテライト]]<ref><pubmed>8600387</pubmed></ref>4(STRP)がある。RFLP、VNTR、マイクロサテライトとなるにつれてゲノム上のマーカー数が増えるため、原因バリアントと連鎖している可能性が増え、解像度が高まる。VNTRを使用した連鎖解析により家族性乳がんの[[BRCA1]]<ref><pubmed>2270482</pubmed></ref>5、マイクロサテライトを使用して[[BRCA2]]<ref><pubmed>8091231</pubmed></ref>6の責任遺伝子領域が推定された。 | ||
=== 全ヒトゲノム配列データを利用した高密度の遺伝的多型 === | |||
このように連鎖解析によりメンデル遺伝性疾患の原因遺伝子の同定が続いていたが、多因子疾患については思わしい成果が上がっていなかった。多数の弱い遺伝的[[バリアント]]によって起こる多因子疾患の解析のためには連鎖解析ではなく遺伝的関連解析が適切であるとの提唱がなされ<ref><pubmed>8801636</pubmed></ref>7、またそのためにはゲノム上に数十万個以上のオーダーで分布する遺伝的多型が必要<ref><pubmed>10369254</pubmed></ref>8であった。その要求を満たす遺伝的多型マーカーが[[SNP]]([[一塩基多型]])である。これは個人間の一塩基レベルでの違いに着目したものであり、原理的に包括的なカタログを作成するにはヒトゲノム配列決定を待たねばならなかった。2001年のヒトゲノムドラフト配列決定と前後して[[国際HapMap計画]]が立ち上がり、2005年<ref><pubmed>16255080</pubmed></ref>9と2007年<ref><pubmed>17943122</pubmed></ref>10にSNPのカタログが報告され、最終的に数百万箇所のSNPが同定されているがこれは遺伝的多型マーカーとして最大規模である。また、それと並行して[[DNAチップ]]技術のSNPへの応用が行われ、高出力かつ高精度に全ゲノムのSNPの遺伝型を測定することができるSNP[[アレイ]]が開発された。これを機に[[ゲノムワイド関連解析]](GWAS)が加速し、多因子疾患の遺伝因子の解明に大きく貢献した。たとえば70万人のデータを用いた身長のGWAS結果は、双生児遺伝率の27.3%を説明できるまでに至っている<ref name=Marouli2017><pubmed>28146470</pubmed></ref>11。 | このように連鎖解析によりメンデル遺伝性疾患の原因遺伝子の同定が続いていたが、多因子疾患については思わしい成果が上がっていなかった。多数の弱い遺伝的[[バリアント]]によって起こる多因子疾患の解析のためには連鎖解析ではなく遺伝的関連解析が適切であるとの提唱がなされ<ref><pubmed>8801636</pubmed></ref>7、またそのためにはゲノム上に数十万個以上のオーダーで分布する遺伝的多型が必要<ref><pubmed>10369254</pubmed></ref>8であった。その要求を満たす遺伝的多型マーカーが[[SNP]]([[一塩基多型]])である。これは個人間の一塩基レベルでの違いに着目したものであり、原理的に包括的なカタログを作成するにはヒトゲノム配列決定を待たねばならなかった。2001年のヒトゲノムドラフト配列決定と前後して[[国際HapMap計画]]が立ち上がり、2005年<ref><pubmed>16255080</pubmed></ref>9と2007年<ref><pubmed>17943122</pubmed></ref>10にSNPのカタログが報告され、最終的に数百万箇所のSNPが同定されているがこれは遺伝的多型マーカーとして最大規模である。また、それと並行して[[DNAチップ]]技術のSNPへの応用が行われ、高出力かつ高精度に全ゲノムのSNPの遺伝型を測定することができるSNP[[アレイ]]が開発された。これを機に[[ゲノムワイド関連解析]](GWAS)が加速し、多因子疾患の遺伝因子の解明に大きく貢献した。たとえば70万人のデータを用いた身長のGWAS結果は、双生児遺伝率の27.3%を説明できるまでに至っている<ref name=Marouli2017><pubmed>28146470</pubmed></ref>11。 | ||
=== 遺伝的多型から遺伝的バリアントの時代へ === | |||
現在では遺伝的多型マーカーのみならず、全ゲノムの塩基配列を直接測定できるWGS技術が日常的になってきている。限られた数のマーカーをタイピングする場合は、遺伝的な情報量の多い頻度の高いアレルを持つ座位をタイピングするのが効率的だが、全ゲノムの塩基配列が得られているならそのようなことを気にする必要もない。ある座位に二つ以上のアレルがあって、頻度については特に言及しないとき、一般に「バリアント」という呼び方をする。たとえばSNPと言う場合は集団頻度1%以上である必要があるが、一塩基バリアント(SNV)と呼ぶ場合はそれよりまれな頻度であってもよい。 | |||
WGSを用いた国際1000ゲノム計画によれば8800万以上の遺伝的バリアントが同定されている<ref><pubmed>26432245</pubmed></ref>12が、これはかならずしもSNPに限らず、集団頻度1%以下のSNVや挿入欠失(indel)、構造的バリアント(SV)などを含んでいる。また、SNPアレイを用いた場合でも、1000ゲノムデータ、HRC<ref><pubmed>27548312</pubmed></ref>13やin-house WGSデータを参照パネルとして[[imputation法]]を行うことによって、やはりレアバリアントを含む全ゲノムの遺伝的バリアントを推定することが可能となってきた。とりわけ遺伝的多型に着目する研究は少なくなっていくかもしれない。 | |||
== 解析 == | == 解析 == | ||
39行目: | 47行目: | ||
ゲノムワイド関連解析(Genome Wide Association Study; GWAS)も、もともとは遺伝的多型を用いた形質マッピングという研究分野から生まれたものであり、前述のようにさまざまな遺伝統計学的検討の結果、対象としてSNPを使用することとなった。 | ゲノムワイド関連解析(Genome Wide Association Study; GWAS)も、もともとは遺伝的多型を用いた形質マッピングという研究分野から生まれたものであり、前述のようにさまざまな遺伝統計学的検討の結果、対象としてSNPを使用することとなった。 | ||
連鎖解析とは異なり、遺伝的関連解析の原理は[[連鎖不平衡]] | 連鎖解析とは異なり、遺伝的関連解析の原理は[[連鎖不平衡]]である。これを利用することにより、全ゲノムを調べたいからと言って全てのSNPを実験的に得る必要はない。なぜなら、連鎖不平衡(有限集団において、減衰した連鎖の影響が集団レベルで観察されることによりみられる近傍の遺伝的多型同士の相関関係)を考えると、相関の強い一群のSNPセットの中から数個のSNP(tagSNP)だけを得れば、そのtagSNPと連鎖不平衡にあるSNPについては見たも同然なのである。逆にいうと、あまり何も考えずSNP密度を増やしたからと行って解像度が高まるわけではない。したがって、遺伝的多型の中でもtagSNPであるかどうか、がGWASにおいては重要である。 | ||
その後現在では、CNVアレイ結果を用いたGWAS<ref><pubmed> 20360734</pubmed></ref>17、さらにはエクソームシークエンスやWGSによるGWAS<ref><pubmed>25487149</pubmed></ref><ref><pubmed>27398621</pubmed></ref>18,19が行われていたり、レアバリアントを搭載したアレイであるエクソームチップが使用されていて<ref name=Marouli2017/>11、これらはSNPに限らず幅広い種類の遺伝的バリアントを用いて、多型マーカーに頼らず原因バリアントを直接観察しようとしていることを意味する。 | その後現在では、CNVアレイ結果を用いたGWAS<ref><pubmed> 20360734</pubmed></ref>17、さらにはエクソームシークエンスやWGSによるGWAS<ref><pubmed>25487149</pubmed></ref><ref><pubmed>27398621</pubmed></ref>18,19が行われていたり、レアバリアントを搭載したアレイであるエクソームチップが使用されていて<ref name=Marouli2017/>11、これらはSNPに限らず幅広い種類の遺伝的バリアントを用いて、多型マーカーに頼らず原因バリアントを直接観察しようとしていることを意味する。 | ||
とはいえ、エクソームシークエンスと比べるとSNPアレイは非遺伝子領域をきちんとカバーするし、WGSと比べるとSNPアレイはいまでもかなり安価である。CNVについては、結局SNPと連鎖不平衡にあるという評価であり、全ゲノムCNVを調べなくとも、GWASが検出した有意SNP周囲のCNVを探索(ファインマッピング)すれば足りそうだ。さらに、[[LDスコア回帰法]]<ref><pubmed>25642630</pubmed></ref>20のような最新の手法においては、たとえWGSの数千万バリアントの解析結果があったとしても、そこからわざわざ100万のtagSNPに結果を減らした方が遺伝統計学的に安定した妥当な結果を得られることが示されたり、あるいはWGSを元にしたシミュレーション解析によれば、WGS解析はSNPアレイを用いたGWASに対して、多因子形質マッピングにおけるアドバンテージはほとんどないとの推定がなされている(imputationをした場合<ref><pubmed>26323059</pubmed></ref>21)。遺伝統計学・量的遺伝学の界隈においては、SNPの役割はいまだ少しも減るところがない。 | とはいえ、エクソームシークエンスと比べるとSNPアレイは非遺伝子領域をきちんとカバーするし、WGSと比べるとSNPアレイはいまでもかなり安価である。CNVについては、結局SNPと連鎖不平衡にあるという評価であり、全ゲノムCNVを調べなくとも、GWASが検出した有意SNP周囲のCNVを探索(ファインマッピング)すれば足りそうだ。さらに、[[LDスコア回帰法]]<ref><pubmed>25642630</pubmed></ref>20のような最新の手法においては、たとえWGSの数千万バリアントの解析結果があったとしても、そこからわざわざ100万のtagSNPに結果を減らした方が遺伝統計学的に安定した妥当な結果を得られることが示されたり、あるいはWGSを元にしたシミュレーション解析によれば、WGS解析はSNPアレイを用いたGWASに対して、多因子形質マッピングにおけるアドバンテージはほとんどないとの推定がなされている(imputationをした場合<ref><pubmed>26323059</pubmed></ref>21)。遺伝統計学・量的遺伝学の界隈においては、SNPの役割はいまだ少しも減るところがない。 | ||
一方、連鎖不平衡によっては捕捉できないバリアントについて、シークエンス研究が有効である。そのようなものとして、レアバリアントやデノボバリアントが挙げられるだろう。トランスポゾンもそうかもしれない。シークエンスが安価になるにつれ、いずれにせよすべてのバリアントをカバーする全ゲノムシークエンスへと研究がシフトしていくことも必然だと考えられる。 | |||
集団における頻度によって遺伝的バリアントを分類する別の方法としては、頻度5%以上を[[コモンバリアント]] common variant、0.5または1-5%を[[頻度の低いバリアント]] low frequency variant、0.5%または1%未満のものを[[レアバリアント]] rare variantと呼ぶ分類がある。これは、適応進化にもとづく選択圧によって頻度分類ごとに疾患リスク効果が異なる(レアバリアントのリスク効果は全体的に高い)ことと、遺伝的関連解析においては頻度とリスク効果によって検出力が異なることに着目した分類であり、現代ではこちらの分類が主流となっているだろう。 | 集団における頻度によって遺伝的バリアントを分類する別の方法としては、頻度5%以上を[[コモンバリアント]] common variant、0.5または1-5%を[[頻度の低いバリアント]] low frequency variant、0.5%または1%未満のものを[[レアバリアント]] rare variantと呼ぶ分類がある。これは、適応進化にもとづく選択圧によって頻度分類ごとに疾患リスク効果が異なる(レアバリアントのリスク効果は全体的に高い)ことと、遺伝的関連解析においては頻度とリスク効果によって検出力が異なることに着目した分類であり、現代ではこちらの分類が主流となっているだろう。 |