「遺伝子多型」の版間の差分

編集の要約なし
編集の要約なし
編集の要約なし
2行目: 2行目:
<font size="+1">[https://researchmap.jp/7000019582 鎌谷 洋一郎]</font><br>
<font size="+1">[https://researchmap.jp/7000019582 鎌谷 洋一郎]</font><br>
''東京大学大学院新領域創成科学研究科メディカル情報生命専攻複雑形質ゲノム解析分野''<br>
''東京大学大学院新領域創成科学研究科メディカル情報生命専攻複雑形質ゲノム解析分野''<br>
DOI:<selfdoi /> 原稿受付日:2018年3月9日 原稿完成日:<br>
DOI:<selfdoi /> 原稿受付日:2018年3月9日 原稿完成日:2019年7月31日<br>
担当編集委員:[https://researchmap.jp/tadafumikato 加藤 忠史](理化学研究所 脳科学総合研究センター)<br>
担当編集委員:[https://researchmap.jp/tadafumikato 加藤 忠史](理化学研究所 脳科学総合研究センター)<br>
</div>
</div>
27行目: 27行目:
 このように遺伝子に着目した場合、ヒトゲノムのうち遺伝子コード部位の占める割合は2%未満であるから、とびとびの遺伝地図しか作成できない。また、DNAではなくタンパク質だけに着目した場合、一つのアミノ酸残基には複数のコドンが対応することがあることから、同じ表現型を来たす異なったDNAアレルが存在しうる。分子生物学の進歩によりDNA配列を比較的手軽に直接観察できるようになったことから、全ゲノムを包括的に解析することのできる、DNA多型からなる精密なマーカーの開発が望まれていた。
 このように遺伝子に着目した場合、ヒトゲノムのうち遺伝子コード部位の占める割合は2%未満であるから、とびとびの遺伝地図しか作成できない。また、DNAではなくタンパク質だけに着目した場合、一つのアミノ酸残基には複数のコドンが対応することがあることから、同じ表現型を来たす異なったDNAアレルが存在しうる。分子生物学の進歩によりDNA配列を比較的手軽に直接観察できるようになったことから、全ゲノムを包括的に解析することのできる、DNA多型からなる精密なマーカーの開発が望まれていた。


 最初に発見された全ゲノムに分布する汎用の遺伝的多型マーカーは、[[制限酵素長多型]]([[RFLP]])であった<ref><pubmed>6247908</pubmed></ref>1。これはゲノムDNAを制限酵素で切断した際、アレル間でDNA配列が異なることによって切断長に違いがあることに着目したものである。RFLPを用いた連鎖解析により、[[ハンチントン病]]の原因遺伝子座位の局在領域を特定する<ref><pubmed>6316146</pubmed></ref>2など多大な成果があった。しかしRFLPは数が少なく、より高密度の遺伝的多型マーカーを開発する必要があった。
 最初に発見された全ゲノムに分布する汎用の遺伝的多型マーカーは、[[制限酵素長多型]]([[RFLP]])であった<ref><pubmed>6247908</pubmed></ref>。これはゲノムDNAを制限酵素で切断した際、アレル間でDNA配列が異なることによって切断長に違いがあることに着目したものである。RFLPを用いた連鎖解析により、[[ハンチントン病]]の原因遺伝子座位の局在領域を特定する<ref><pubmed>6316146</pubmed></ref>など多大な成果があった。しかしRFLPは数が少なく、より高密度の遺伝的多型マーカーを開発する必要があった。


 次に広く使用されたのは[[単純配列長多型]]([[SSLP]])であり、個人間で反復配列長が異なる部位があることを利用し、PCR法で長さを判定して行われる。SSLPとしては[[VNTR]]<ref><pubmed>3029872</pubmed></ref>3(ミニサテライト)と[[マイクロサテライト]]<ref><pubmed>8600387</pubmed></ref>4(STRP)がある。RFLP、VNTR、マイクロサテライトとなるにつれてゲノム上のマーカー数が増えるため、原因バリアントと連鎖している可能性が増え、解像度が高まる。VNTRを使用した連鎖解析により家族性乳がんの[[BRCA1]]<ref><pubmed>2270482</pubmed></ref>5、マイクロサテライトを使用して[[BRCA2]]<ref><pubmed>8091231</pubmed></ref>6の責任遺伝子領域が推定された。
 次に広く使用されたのは[[単純配列長多型]]([[SSLP]])であり、個人間で反復配列長が異なる部位があることを利用し、PCR法で長さを判定して行われる。SSLPとしては[[VNTR]]<ref><pubmed>3029872</pubmed></ref>(ミニサテライト)と[[マイクロサテライト]]<ref><pubmed>8600387</pubmed></ref>(STRP)がある。RFLP、VNTR、マイクロサテライトとなるにつれてゲノム上のマーカー数が増えるため、原因バリアントと連鎖している可能性が増え、解像度が高まる。VNTRを使用した連鎖解析により家族性乳がんの[[BRCA1]]<ref><pubmed>2270482</pubmed></ref>、マイクロサテライトを使用して[[BRCA2]]<ref><pubmed>8091231</pubmed></ref>の責任遺伝子領域が推定された。


=== 全ヒトゲノム配列データを利用した高密度の遺伝的多型 ===
=== 全ヒトゲノム配列データを利用した高密度の遺伝的多型 ===
 このように連鎖解析によりメンデル遺伝性疾患の原因遺伝子の同定が続いていたが、多因子疾患については思わしい成果が上がっていなかった。多数の弱い遺伝的[[バリアント]]によって起こる多因子疾患の解析のためには連鎖解析ではなく遺伝的関連解析が適切であるとの提唱がなされ<ref><pubmed>8801636</pubmed></ref>7、またそのためにはゲノム上に数十万個以上のオーダーで分布する遺伝的多型が必要<ref><pubmed>10369254</pubmed></ref>8であった。その要求を満たす遺伝的多型マーカーが[[SNP]]([[一塩基多型]])である。これは個人間の一塩基レベルでの違いに着目したものであり、原理的に包括的なカタログを作成するにはヒトゲノム配列決定を待たねばならなかった。2001年のヒトゲノムドラフト配列決定と前後して[[国際HapMap計画]]が立ち上がり、2005年<ref><pubmed>16255080</pubmed></ref>9と2007年<ref><pubmed>17943122</pubmed></ref>10にSNPのカタログが報告され、最終的に数百万箇所のSNPが同定されているがこれは遺伝的多型マーカーとして最大規模である。また、それと並行して[[DNAチップ]]技術のSNPへの応用が行われ、高出力かつ高精度に全ゲノムのSNPの遺伝型を測定することができるSNP[[アレイ]]が開発された。これを機に[[ゲノムワイド関連解析]](GWAS)が加速し、多因子疾患の遺伝因子の解明に大きく貢献した。たとえば70万人のデータを用いた身長のGWAS結果は、双生児遺伝率の27.3%を説明できるまでに至っている<ref name=Marouli2017><pubmed>28146470</pubmed></ref>11。
 このように連鎖解析によりメンデル遺伝性疾患の原因遺伝子の同定が続いていたが、多因子疾患については思わしい成果が上がっていなかった。多数の弱い遺伝的[[バリアント]]によって起こる多因子疾患の解析のためには連鎖解析ではなく遺伝的関連解析が適切であるとの提唱がなされ<ref><pubmed>8801636</pubmed></ref>、またそのためにはゲノム上に数十万個以上のオーダーで分布する遺伝的多型が必要<ref><pubmed>10369254</pubmed></ref>であった。その要求を満たす遺伝的多型マーカーが[[SNP]]([[一塩基多型]])である。これは個人間の一塩基レベルでの違いに着目したものであり、原理的に包括的なカタログを作成するにはヒトゲノム配列決定を待たねばならなかった。2001年のヒトゲノムドラフト配列決定と前後して[[国際HapMap計画]]が立ち上がり、2005年<ref><pubmed>16255080</pubmed></ref>と2007年<ref><pubmed>17943122</pubmed></ref>にSNPのカタログが報告され、最終的に数百万箇所のSNPが同定されているがこれは遺伝的多型マーカーとして最大規模である。また、それと並行して[[DNAチップ]]技術のSNPへの応用が行われ、高出力かつ高精度に全ゲノムのSNPの遺伝型を測定することができるSNP[[アレイ]]が開発された。これを機に[[ゲノムワイド関連解析]](GWAS)が加速し、多因子疾患の遺伝因子の解明に大きく貢献した。たとえば70万人のデータを用いた身長のGWAS結果は、双生児遺伝率の27.3%を説明できるまでに至っている<ref name=Marouli2017><pubmed>28146470</pubmed></ref>
=== 遺伝的多型から遺伝的バリアントの時代へ ===
=== 遺伝的多型から遺伝的バリアントの時代へ ===
 現在では遺伝的多型マーカーのみならず、全ゲノムの塩基配列を直接測定できるWGS技術が日常的になってきている。限られた数のマーカーをタイピングする場合は、遺伝的な情報量の多い頻度の高いアレルを持つ座位をタイピングするのが効率的だが、全ゲノムの塩基配列が得られているならそのようなことを気にする必要もない。ある座位に二つ以上のアレルがあって、頻度については特に言及しないとき、一般に「バリアント」という呼び方をする。たとえばSNPと言う場合は集団頻度1%以上である必要があるが、一塩基バリアント(SNV)と呼ぶ場合はそれよりまれな頻度であってもよい。
 現在では遺伝的多型マーカーのみならず、全ゲノムの塩基配列を直接測定できるWGS技術が日常的になってきている。限られた数のマーカーをタイピングする場合は、遺伝的な情報量の多い頻度の高いアレルを持つ座位をタイピングするのが効率的だが、全ゲノムの塩基配列が得られているならそのようなことを気にする必要もない。ある座位に二つ以上のアレルがあって、頻度については特に言及しないとき、一般に「バリアント」という呼び方をする。たとえばSNPと言う場合は集団頻度1%以上である必要があるが、一塩基バリアント(SNV)と呼ぶ場合はそれよりまれな頻度であってもよい。


 WGSを用いた国際1000ゲノム計画によれば8800万以上の遺伝的バリアントが同定されている<ref><pubmed>26432245</pubmed></ref>12が、これはかならずしもSNPに限らず、集団頻度1%以下のSNVや挿入欠失(indel)、構造的バリアント(SV)などを含んでいる。また、SNPアレイを用いた場合でも、1000ゲノムデータ、HRC<ref><pubmed>27548312</pubmed></ref>13やin-house WGSデータを参照パネルとして[[imputation法]]を行うことによって、やはりレアバリアントを含む全ゲノムの遺伝的バリアントを推定することが可能となってきた。とりわけ遺伝的多型に着目する研究は少なくなっていくかもしれない。
 WGSを用いた国際1000ゲノム計画によれば8800万以上の遺伝的バリアントが同定されている<ref><pubmed>26432245</pubmed></ref>が、これはかならずしもSNPに限らず、集団頻度1%以下のSNVや挿入欠失(indel)、構造的バリアント(SV)などを含んでいる。また、SNPアレイを用いた場合でも、1000ゲノムデータ、HRC<ref><pubmed>27548312</pubmed></ref>やin-house WGSデータを参照パネルとして[[imputation法]]を行うことによって、やはりレアバリアントを含む全ゲノムの遺伝的バリアントを推定することが可能となってきた。とりわけ遺伝的多型に着目する研究は少なくなっていくかもしれない。


== 解析 ==
== 解析 ==
=== 連鎖解析 ===
=== 連鎖解析 ===
 遺伝的多型を用いて形質マッピングをする代表的手法が[[連鎖解析]] (linkage analysis)である。これは、同じ染色体で近傍に位置する遺伝的多型は、その両者の距離に依存し親から子へと同じ染色体上のアレルの組み合わせ([[ハプロタイプ]])として伝達されやすいという生物学的原理(遺伝的連鎖)に基づく。交配実験が可能なショウジョウバエなどにおいては、実験的連鎖解析が可能である。しかしヒトにおいては、作為的な家系を作り出すことは不可能であるため、家系を調べて統計学的に解析する。具体的には、ある家系のデータを手にした時、「ある遺伝的多型マーカーが病気の原因バリアントと連鎖している」という仮説と、「連鎖していない」という仮説のそれぞれにもとづいて、そうだったとき現在調べた家系データを得るとした尤もらしさ([[尤度]] (ゆうど; likelihood))を比較する。「ある遺伝的多型マーカーが病気の原因バリアントと連鎖している」という仮説の尤もらしさが統計学的に有意に高いとするならば、その遺伝的多型マーカーは原因バリアントの近傍にあると推測する。そうだとわかれば遺伝子クローニング技術などによりその領域を調べるのである。それにより[[ハンチンチン]]遺伝子<ref><pubmed>8458085</pubmed></ref>14やBRCA1<ref><pubmed>7545954</pubmed></ref>15/BRCA2<ref><pubmed>8524414</pubmed></ref>16遺伝子が発見された。
 遺伝的多型を用いて形質マッピングをする代表的手法が[[連鎖解析]] (linkage analysis)である。これは、同じ染色体で近傍に位置する遺伝的多型は、その両者の距離に依存し親から子へと同じ染色体上のアレルの組み合わせ([[ハプロタイプ]])として伝達されやすいという生物学的原理(遺伝的連鎖)に基づく。交配実験が可能なショウジョウバエなどにおいては、実験的連鎖解析が可能である。しかしヒトにおいては、作為的な家系を作り出すことは不可能であるため、家系を調べて統計学的に解析する。具体的には、ある家系のデータを手にした時、「ある遺伝的多型マーカーが病気の原因バリアントと連鎖している」という仮説と、「連鎖していない」という仮説のそれぞれにもとづいて、そうだったとき現在調べた家系データを得るとした尤もらしさ([[尤度]] (ゆうど; likelihood))を比較する。「ある遺伝的多型マーカーが病気の原因バリアントと連鎖している」という仮説の尤もらしさが統計学的に有意に高いとするならば、その遺伝的多型マーカーは原因バリアントの近傍にあると推測する。そうだとわかれば遺伝子クローニング技術などによりその領域を調べるのである。それにより[[ハンチンチン]]遺伝子<ref><pubmed>8458085</pubmed></ref>やBRCA1<ref><pubmed>7545954</pubmed></ref>/BRCA2<ref><pubmed>8524414</pubmed></ref>遺伝子が発見された。


 現在でも連鎖解析と[[エクソームシークエンス]]を組み合わせた研究が報告される。遺伝統計学的に厳格な理論を背景としているため、その輝きはまだ色あせてはいない。
 現在でも連鎖解析と[[エクソームシークエンス]]を組み合わせた研究が報告される。遺伝統計学的に厳格な理論を背景としているため、その輝きはまだ色あせてはいない。
49行目: 49行目:
 連鎖解析とは異なり、遺伝的関連解析の原理は[[連鎖不平衡]]である。これを利用することにより、全ゲノムを調べたいからと言って全てのSNPを実験的に得る必要はない。なぜなら、連鎖不平衡(有限集団において、減衰した連鎖の影響が集団レベルで観察されることによりみられる近傍の遺伝的多型同士の相関関係)を考えると、相関の強い一群のSNPセットの中から数個のSNP(tagSNP)だけを得れば、そのtagSNPと連鎖不平衡にあるSNPについては見たも同然なのである。逆にいうと、あまり何も考えずSNP密度を増やしたからと行って解像度が高まるわけではない。したがって、遺伝的多型の中でもtagSNPであるかどうか、がGWASにおいては重要である。
 連鎖解析とは異なり、遺伝的関連解析の原理は[[連鎖不平衡]]である。これを利用することにより、全ゲノムを調べたいからと言って全てのSNPを実験的に得る必要はない。なぜなら、連鎖不平衡(有限集団において、減衰した連鎖の影響が集団レベルで観察されることによりみられる近傍の遺伝的多型同士の相関関係)を考えると、相関の強い一群のSNPセットの中から数個のSNP(tagSNP)だけを得れば、そのtagSNPと連鎖不平衡にあるSNPについては見たも同然なのである。逆にいうと、あまり何も考えずSNP密度を増やしたからと行って解像度が高まるわけではない。したがって、遺伝的多型の中でもtagSNPであるかどうか、がGWASにおいては重要である。


 その後現在では、CNVアレイ結果を用いたGWAS<ref><pubmed> 20360734</pubmed></ref>17、さらにはエクソームシークエンスやWGSによるGWAS<ref><pubmed>25487149</pubmed></ref><ref><pubmed>27398621</pubmed></ref>18,19が行われていたり、レアバリアントを搭載したアレイであるエクソームチップが使用されていて<ref name=Marouli2017/>11、これらはSNPに限らず幅広い種類の遺伝的バリアントを用いて、多型マーカーに頼らず原因バリアントを直接観察しようとしていることを意味する。
 その後現在では、CNVアレイ結果を用いたGWAS<ref><pubmed> 20360734</pubmed></ref>、さらにはエクソームシークエンスやWGSによるGWAS<ref><pubmed>25487149</pubmed></ref><ref><pubmed>27398621</pubmed></ref>が行われていたり、レアバリアントを搭載したアレイであるエクソームチップが使用されていて<ref name=Marouli2017/>、これらはSNPに限らず幅広い種類の遺伝的バリアントを用いて、多型マーカーに頼らず原因バリアントを直接観察しようとしていることを意味する。


 とはいえ、エクソームシークエンスと比べるとSNPアレイは非遺伝子領域をきちんとカバーするし、WGSと比べるとSNPアレイはいまでもかなり安価である。CNVについては、結局SNPと連鎖不平衡にあるという評価であり、全ゲノムCNVを調べなくとも、GWASが検出した有意SNP周囲のCNVを探索(ファインマッピング)すれば足りそうだ。さらに、[[LDスコア回帰法]]<ref><pubmed>25642630</pubmed></ref>20のような最新の手法においては、たとえWGSの数千万バリアントの解析結果があったとしても、そこからわざわざ100万のtagSNPに結果を減らした方が遺伝統計学的に安定した妥当な結果を得られることが示されたり、あるいはWGSを元にしたシミュレーション解析によれば、WGS解析はSNPアレイを用いたGWASに対して、多因子形質マッピングにおけるアドバンテージはほとんどないとの推定がなされている(imputationをした場合<ref><pubmed>26323059</pubmed></ref>21)。遺伝統計学・量的遺伝学の界隈においては、SNPの役割はいまだ少しも減るところがない。
 とはいえ、エクソームシークエンスと比べるとSNPアレイは非遺伝子領域をきちんとカバーするし、WGSと比べるとSNPアレイはいまでもかなり安価である。CNVについては、結局SNPと連鎖不平衡にあるという評価であり、全ゲノムCNVを調べなくとも、GWASが検出した有意SNP周囲のCNVを探索(ファインマッピング)すれば足りそうだ。さらに、[[LDスコア回帰法]]<ref><pubmed>25642630</pubmed></ref>のような最新の手法においては、たとえWGSの数千万バリアントの解析結果があったとしても、そこからわざわざ100万のtagSNPに結果を減らした方が遺伝統計学的に安定した妥当な結果を得られることが示されたり、あるいはWGSを元にしたシミュレーション解析によれば、WGS解析はSNPアレイを用いたGWASに対して、多因子形質マッピングにおけるアドバンテージはほとんどないとの推定がなされている(imputationをした場合<ref><pubmed>26323059</pubmed></ref>)。遺伝統計学・量的遺伝学の界隈においては、SNPの役割はいまだ少しも減るところがない。


 一方、連鎖不平衡によっては捕捉できないバリアントについて、シークエンス研究が有効である。そのようなものとして、レアバリアントやデノボバリアントが挙げられるだろう。トランスポゾンもそうかもしれない。シークエンスが安価になるにつれ、いずれにせよすべてのバリアントをカバーする全ゲノムシークエンスへと研究がシフトしていくことも必然だと考えられる。
 一方、連鎖不平衡によっては捕捉できないバリアントについて、シークエンス研究が有効である。そのようなものとして、[[レアバリアント]]や[[デノボバリアント]]が挙げられるだろう。[[トランスポゾン]]もそうかもしれない。シークエンスが安価になるにつれ、いずれにせよすべてのバリアントをカバーする全ゲノムシークエンスへと研究がシフトしていくことも必然だと考えられる。


 集団における頻度によって遺伝的バリアントを分類する別の方法としては、頻度5%以上を[[コモンバリアント]] common variant、0.5または1-5%を[[頻度の低いバリアント]] low frequency variant、0.5%または1%未満のものを[[レアバリアント]] rare variantと呼ぶ分類がある。これは、適応進化にもとづく選択圧によって頻度分類ごとに疾患リスク効果が異なる(レアバリアントのリスク効果は全体的に高い)ことと、遺伝的関連解析においては頻度とリスク効果によって検出力が異なることに着目した分類であり、現代ではこちらの分類が主流となっているだろう。
 集団における頻度によって遺伝的バリアントを分類する別の方法としては、頻度5%以上を[[コモンバリアント]] common variant、0.5または1-5%を[[頻度の低いバリアント]] low frequency variant、0.5%または1%未満のものをレアバリアント rare variantと呼ぶ分類がある。これは、適応進化にもとづく選択圧によって頻度分類ごとに疾患リスク効果が異なる(レアバリアントのリスク効果は全体的に高い)ことと、遺伝的関連解析においては頻度とリスク効果によって検出力が異なることに着目した分類であり、現代ではこちらの分類が主流となっているだろう。


== 注釈 ==
== 注釈 ==