「遺伝子多型」の版間の差分

編集の要約なし
編集の要約なし
編集の要約なし
10行目: 10行目:
 ある集団において、一つの[[ゲノム]]上の場所または領域([[座位]]、locus)に、二つかそれ以上の、頻度の高い異なる[[アレル]](allele)が存在する状態を言う。
 ある集団において、一つの[[ゲノム]]上の場所または領域([[座位]]、locus)に、二つかそれ以上の、頻度の高い異なる[[アレル]](allele)が存在する状態を言う。


 [[ヒト]]ゲノムが解読されていない時代には、遺伝的多型を用いて病気の原因遺伝子の探索が行われていた。遺伝的多型に「頻度の高い」という条件があるのは、このための要請である。本稿では、本辞典の性質にも鑑み、主にこの観点から遺伝的多型について述べる。ほかにも遺伝的多型は、集団遺伝学や法医学においても用いられる。
 [[ヒト]]ゲノムが解読されていない時代には、遺伝的多型を用いて病気の原因遺伝子の探索が行われていた。遺伝的多型に「頻度の高い」という条件があるのは、このための要請である。本稿では、本辞典の性質にも鑑み、主にこの観点から遺伝的多型について述べる。ほかにも遺伝的多型は、[[wj:集団遺伝学|集団遺伝学]]や[[wj:法医学|法医学]]においても用いられる。


 本稿では特にヒトに限定して述べるが、原則として以下の記述は他の種にもそのまま適用できる。
 本稿では特にヒトに限定して述べるが、原則として以下の記述は他の種にもそのまま適用できる。


== 遺伝的多型の歴史 ==
== 歴史 ==
 初期の遺伝学では、遺伝的多型は概念的なものだった。[[ショウジョウバエ]]の実験において遺伝子がマーカーとして使用され始めたのは、実に遺伝情報が[[DNA]]分子からなると分かるよりも前のことであった。この時点では、遺伝的多型は[[表現型]]の個体差に対応する仮想的な存在として定義されていた。例えばショウジョウバエの目をザクロ色にするアレル、カーネーション色にするアレル、といった具合である。研究者は実際にこれらを用いて、ショウジョウバエの目の色を決定する遺伝子の、[[染色体]]への[[マッピング]]を行なっていた。
 初期の遺伝学では、遺伝的多型は概念的なものだった。[[ショウジョウバエ]]の実験において遺伝子がマーカーとして使用され始めたのは、実に遺伝情報が[[DNA]]分子からなると分かるよりも前のことであった。この時点では、遺伝的多型は[[表現型]]の個体差に対応する仮想的な存在として定義されていた。例えばショウジョウバエの目をザクロ色にするアレル、カーネーション色にするアレル、といった具合である。研究者は実際にこれらを用いて、ショウジョウバエの目の色を決定する遺伝子の、[[染色体]]への[[マッピング]]を行なっていた。


21行目: 21行目:
 このように遺伝子に着目した場合、ヒトゲノムの大半は非遺伝子部位であるため、とびとびの遺伝地図しか作成できない。また、同じ表現型を来たす異なったDNAアレルが存在しうる。分子生物学の進歩によりDNA配列を比較的手軽に直接観察できるようになったことから、全ゲノムを包括的に解析することのできる、DNA多型からなる精密なマーカーの開発が望まれていた。
 このように遺伝子に着目した場合、ヒトゲノムの大半は非遺伝子部位であるため、とびとびの遺伝地図しか作成できない。また、同じ表現型を来たす異なったDNAアレルが存在しうる。分子生物学の進歩によりDNA配列を比較的手軽に直接観察できるようになったことから、全ゲノムを包括的に解析することのできる、DNA多型からなる精密なマーカーの開発が望まれていた。


 最初に発見された全ゲノムに分布する汎用の遺伝的多型マーカーは、[[RFLP]]([[制限酵素長多型]])であった<ref><pubmed>6247908</pubmed></ref>1。これはゲノムDNAを制限酵素で切断した際、アレル間でDNA配列が異なることによって切断長に違いがあることに着目したものである。RFLPを用いた連鎖解析により、[[ハンチントン病]]の原因遺伝子座位の局在領域を特定する<ref><pubmed>6316146</pubmed></ref>2など多大な成果があった。しかしRFLPは数が少なく、より高密度の遺伝的多型マーカーを開発する必要があった。
 最初に発見された全ゲノムに分布する汎用の遺伝的多型マーカーは、[[制限酵素長多型]]([[RFLP]])であった<ref><pubmed>6247908</pubmed></ref>1。これはゲノムDNAを制限酵素で切断した際、アレル間でDNA配列が異なることによって切断長に違いがあることに着目したものである。RFLPを用いた連鎖解析により、[[ハンチントン病]]の原因遺伝子座位の局在領域を特定する<ref><pubmed>6316146</pubmed></ref>2など多大な成果があった。しかしRFLPは数が少なく、より高密度の遺伝的多型マーカーを開発する必要があった。


 次に広く使用されたのは[[SSLP]]([[単純配列長多型]])であり、個人間で反復配列長が異なる部位があることを利用し、PCR法で長さを判定して行われる。SSLPとしては[[VNTR]]<ref><pubmed>3029872</pubmed></ref>3(ミニサテライト)と[[マイクロサテライト]]<ref><pubmed>8600387</pubmed></ref>4(STRP)がある。RFLP、VNTR、マイクロサテライトとなるにつれてゲノム上のマーカー数が増えるため、原因バリアントと連鎖している可能性が増え、解像度が高まる。VNTRを使用した連鎖解析により家族性乳がんの[[BRCA1]]<ref><pubmed>2270482</pubmed></ref>5、マイクロサテライトを使用して[[BRCA2]]<ref><pubmed>8091231</pubmed></ref>6の責任遺伝子領域が推定された。
 次に広く使用されたのは[[単純配列長多型]]([[SSLP]])であり、個人間で反復配列長が異なる部位があることを利用し、PCR法で長さを判定して行われる。SSLPとしては[[VNTR]]<ref><pubmed>3029872</pubmed></ref>3(ミニサテライト)と[[マイクロサテライト]]<ref><pubmed>8600387</pubmed></ref>4(STRP)がある。RFLP、VNTR、マイクロサテライトとなるにつれてゲノム上のマーカー数が増えるため、原因バリアントと連鎖している可能性が増え、解像度が高まる。VNTRを使用した連鎖解析により家族性乳がんの[[BRCA1]]<ref><pubmed>2270482</pubmed></ref>5、マイクロサテライトを使用して[[BRCA2]]<ref><pubmed>8091231</pubmed></ref>6の責任遺伝子領域が推定された。


 このように連鎖解析によりメンデル遺伝性疾患の原因遺伝子の同定が続いていたが、多因子疾患については思わしい成果が上がっていなかった。多数の弱い遺伝的[[バリアント]]によって起こる多因子疾患の解析のためには連鎖解析ではなく遺伝的関連解析が適切であるとの提唱がなされ<ref><pubmed>8801636</pubmed></ref>7、またそのためにはゲノム上に数十万個以上のオーダーで分布する遺伝的多型が必要<ref><pubmed>10369254</pubmed></ref>8であった。その要求を満たす遺伝的多型マーカーが[[SNP]]([[一塩基多型]])である。これは個人間の一塩基レベルでの違いに着目したものであり、原理的に包括的なカタログを作成するにはヒトゲノム配列決定を待たねばならなかった。2001年のヒトゲノムドラフト配列決定と前後して国際[[HapMap]]計画が立ち上がり、2005年<ref><pubmed>16255080</pubmed></ref>9と2007年<ref><pubmed>17943122</pubmed></ref>10にSNPのカタログが報告され、最終的に数百万箇所のSNPが同定されているがこれは遺伝的多型マーカーとして最大規模である。また、それと並行して[[DNAチップ]]技術のSNPへの応用が行われ、高出力かつ高精度に全ゲノムのSNPの遺伝型を測定することができるSNP[[アレイ]]が開発された。これを機に[[ゲノムワイド関連解析]]が加速し、多因子疾患の遺伝因子の解明に大きく貢献した。たとえば70万人のデータを用いた身長のGWAS結果は、双生児遺伝率の27.3%を説明できるまでに至っている<ref name=Marouli2017><pubmed>28146470</pubmed></ref>11。
 このように連鎖解析によりメンデル遺伝性疾患の原因遺伝子の同定が続いていたが、多因子疾患については思わしい成果が上がっていなかった。多数の弱い遺伝的[[バリアント]]によって起こる多因子疾患の解析のためには連鎖解析ではなく遺伝的関連解析が適切であるとの提唱がなされ<ref><pubmed>8801636</pubmed></ref>7、またそのためにはゲノム上に数十万個以上のオーダーで分布する遺伝的多型が必要<ref><pubmed>10369254</pubmed></ref>8であった。その要求を満たす遺伝的多型マーカーが[[SNP]]([[一塩基多型]])である。これは個人間の一塩基レベルでの違いに着目したものであり、原理的に包括的なカタログを作成するにはヒトゲノム配列決定を待たねばならなかった。2001年のヒトゲノムドラフト配列決定と前後して[[国際HapMap計画]]が立ち上がり、2005年<ref><pubmed>16255080</pubmed></ref>9と2007年<ref><pubmed>17943122</pubmed></ref>10にSNPのカタログが報告され、最終的に数百万箇所のSNPが同定されているがこれは遺伝的多型マーカーとして最大規模である。また、それと並行して[[DNAチップ]]技術のSNPへの応用が行われ、高出力かつ高精度に全ゲノムのSNPの遺伝型を測定することができるSNP[[アレイ]]が開発された。これを機に[[ゲノムワイド関連解析]](GWAS)が加速し、多因子疾患の遺伝因子の解明に大きく貢献した。たとえば70万人のデータを用いた身長のGWAS結果は、双生児遺伝率の27.3%を説明できるまでに至っている<ref name=Marouli2017><pubmed>28146470</pubmed></ref>11。


 現在では遺伝的多型マーカーのみならず、全ゲノムの塩基配列を直接測定できるWGS技術が日常的になってきている。WGSを用いた国際1000ゲノム計画によれば8800万以上の遺伝的バリアントが同定されている<ref><pubmed>26432245</pubmed></ref>12が、これはかならずしもSNPに限らず、集団頻度1%以下の一塩基バリアント(SNV)や挿入欠失(indel)、構造的バリアント(SV)などを含んでいる。また、SNPアレイを用いた場合でも、1000ゲノムデータ、HRC<ref><pubmed>27548312</pubmed></ref>13やin-house WGSデータを参照パネルとして[[imputation法]]を行うことによって、やはりレアバリアントを含む全ゲノムの遺伝的バリアントを推定することが可能となってきた。とりわけ遺伝的多型に着目する研究は少なくなっていくかもしれない。
 現在では遺伝的多型マーカーのみならず、全ゲノムの塩基配列を直接測定できるWGS技術が日常的になってきている。WGSを用いた国際1000ゲノム計画によれば8800万以上の遺伝的バリアントが同定されている<ref><pubmed>26432245</pubmed></ref>12が、これはかならずしもSNPに限らず、集団頻度1%以下の一塩基バリアント(SNV)や挿入欠失(indel)、構造的バリアント(SV)などを含んでいる。また、SNPアレイを用いた場合でも、1000ゲノムデータ、HRC<ref><pubmed>27548312</pubmed></ref>13やin-house WGSデータを参照パネルとして[[imputation法]]を行うことによって、やはりレアバリアントを含む全ゲノムの遺伝的バリアントを推定することが可能となってきた。とりわけ遺伝的多型に着目する研究は少なくなっていくかもしれない。


== 遺伝的多型と解析 ==
== 解析 ==
=== 連鎖解析 ===
=== 連鎖解析 ===
 遺伝的多型を用いて形質マッピングをする代表的手法が[[連鎖解析]]Linkage analysisである。これは、同じ染色体で近傍に位置する遺伝的多型は、その両者の距離に依存し親から子へと同じ染色体上のアレルの組み合わせ([[ハプロタイプ]])として伝達されやすいという生物学的原理(遺伝的連鎖)に基づく。交配実験が可能なショウジョウバエなどにおいては、実験的連鎖解析が可能である。しかしヒトにおいては、作為的な家系を作り出すことは不可能であるため、家系を調べて統計学的に解析する。具体的には、ある家系のデータを手にした時、「ある遺伝的多型マーカーが病気の原因バリアントと連鎖している」という仮説と、「連鎖していない」という仮説のそれぞれにもとづいて、そうだったとき現在調べた家系データを得るとした尤もらしさ([[尤度]]likelihood)を比較する。「ある遺伝的多型マーカーが病気の原因バリアントと連鎖している」という仮説の尤もらしさが統計学的に有意に高いとするならば、その遺伝的多型マーカーは原因バリアントの近傍にあると推測する。そうだとわかれば遺伝子クローニング技術などによりその領域を調べるのである。それによりHuntingtin遺伝子<ref><pubmed>8458085</pubmed></ref>14やBRCA1<ref><pubmed>7545954</pubmed></ref>15/BRCA2<ref><pubmed>8524414</pubmed></ref>16遺伝子が発見された。
 遺伝的多型を用いて形質マッピングをする代表的手法が[[連鎖解析]]Linkage analysisである。これは、同じ染色体で近傍に位置する遺伝的多型は、その両者の距離に依存し親から子へと同じ染色体上のアレルの組み合わせ([[ハプロタイプ]])として伝達されやすいという生物学的原理(遺伝的連鎖)に基づく。交配実験が可能なショウジョウバエなどにおいては、実験的連鎖解析が可能である。しかしヒトにおいては、作為的な家系を作り出すことは不可能であるため、家系を調べて統計学的に解析する。具体的には、ある家系のデータを手にした時、「ある遺伝的多型マーカーが病気の原因バリアントと連鎖している」という仮説と、「連鎖していない」という仮説のそれぞれにもとづいて、そうだったとき現在調べた家系データを得るとした尤もらしさ([[尤度]]likelihood)を比較する。「ある遺伝的多型マーカーが病気の原因バリアントと連鎖している」という仮説の尤もらしさが統計学的に有意に高いとするならば、その遺伝的多型マーカーは原因バリアントの近傍にあると推測する。そうだとわかれば遺伝子クローニング技術などによりその領域を調べるのである。それによりHuntingtin遺伝子<ref><pubmed>8458085</pubmed></ref>14やBRCA1<ref><pubmed>7545954</pubmed></ref>15/BRCA2<ref><pubmed>8524414</pubmed></ref>16遺伝子が発見された。


現在でも連鎖解析と[[エクソームシークエンス]]を組み合わせた研究が報告される。遺伝統計学的に厳格な理論を背景としているため、その輝きはまだ色あせてはいない。
 現在でも連鎖解析と[[エクソームシークエンス]]を組み合わせた研究が報告される。遺伝統計学的に厳格な理論を背景としているため、その輝きはまだ色あせてはいない。


=== ゲノムワイド関連解析 ===
=== ゲノムワイド関連解析 ===
ゲノムワイド関連解析(Genome Wide Association Study; GWAS)も、もともとは遺伝的多型を用いた形質マッピングという研究分野から生まれたものであり、前述のようにさまざまな遺伝統計学的検討の結果、対象としてSNPを使用することとなった。
 ゲノムワイド関連解析(Genome Wide Association Study; GWAS)も、もともとは遺伝的多型を用いた形質マッピングという研究分野から生まれたものであり、前述のようにさまざまな遺伝統計学的検討の結果、対象としてSNPを使用することとなった。


連鎖解析とは異なり、遺伝的関連解析の原理は[[連鎖不平衡]]である。このことから、SNPについてもこれまでに述べた連鎖解析用のマーカーとは異なる特徴が見られる。すなわち、全ゲノムを調べたいからと言って全てのSNPを実験的に得る必要はない。なぜなら、連鎖不平衡(有限集団において、減衰した連鎖の影響が集団レベルで観察されることによりみられる近傍の遺伝的多型同士の相関関係)を考えると、相関の強い一群のSNPセットの中から数個のSNP(tagSNP)だけを得れば、そのtagSNPと連鎖不平衡にあるSNPについては見たも同然なのである。逆にいうと、あまり何も考えずSNP密度を増やしたからと行って解像度が高まるわけではない。したがって、遺伝的多型の中でもtagSNPであるかどうか、がGWASにおいては重要である。
 連鎖解析とは異なり、遺伝的関連解析の原理は[[連鎖不平衡]]である。このことから、SNPについてもこれまでに述べた連鎖解析用のマーカーとは異なる特徴が見られる。すなわち、全ゲノムを調べたいからと言って全てのSNPを実験的に得る必要はない。なぜなら、連鎖不平衡(有限集団において、減衰した連鎖の影響が集団レベルで観察されることによりみられる近傍の遺伝的多型同士の相関関係)を考えると、相関の強い一群のSNPセットの中から数個のSNP(tagSNP)だけを得れば、そのtagSNPと連鎖不平衡にあるSNPについては見たも同然なのである。逆にいうと、あまり何も考えずSNP密度を増やしたからと行って解像度が高まるわけではない。したがって、遺伝的多型の中でもtagSNPであるかどうか、がGWASにおいては重要である。


 その後現在では、CNVアレイ結果を用いたGWAS<ref><pubmed> 20360734</pubmed></ref>17、さらにはエクソームシークエンスやWGSによるGWAS<ref><pubmed>25487149</pubmed></ref><ref><pubmed>27398621</pubmed></ref>18,19が行われていたり、レアバリアントを搭載したアレイであるエクソームチップが使用されていて<ref name=Marouli2017/>11、これらはSNPに限らず幅広い種類の遺伝的バリアントを用いて、多型マーカーに頼らず原因バリアントを直接観察しようとしていることを意味する。
 その後現在では、CNVアレイ結果を用いたGWAS<ref><pubmed> 20360734</pubmed></ref>17、さらにはエクソームシークエンスやWGSによるGWAS<ref><pubmed>25487149</pubmed></ref><ref><pubmed>27398621</pubmed></ref>18,19が行われていたり、レアバリアントを搭載したアレイであるエクソームチップが使用されていて<ref name=Marouli2017/>11、これらはSNPに限らず幅広い種類の遺伝的バリアントを用いて、多型マーカーに頼らず原因バリアントを直接観察しようとしていることを意味する。
44行目: 44行目:
 とはいえ、エクソームシークエンスと比べるとSNPアレイは非遺伝子領域をきちんとカバーするし、WGSと比べるとSNPアレイはいまでもかなり安価である。CNVについては、結局SNPと連鎖不平衡にあるという評価であり、全ゲノムCNVを調べなくとも、GWASが検出した有意SNP周囲のCNVを探索(ファインマッピング)すれば足りそうだ。さらに、[[LDスコア回帰法]]<ref><pubmed>25642630</pubmed></ref>20のような最新の手法においては、たとえWGSの数千万バリアントの解析結果があったとしても、そこからわざわざ100万のtagSNPに結果を減らした方が遺伝統計学的に安定した妥当な結果を得られることが示されたり、あるいはWGSを元にしたシミュレーション解析によれば、WGS解析はSNPアレイを用いたGWASに対して、多因子形質マッピングにおけるアドバンテージはほとんどないとの推定がなされている(imputationをした場合<ref><pubmed>26323059</pubmed></ref>21)。遺伝統計学・量的遺伝学の界隈においては、SNPの役割はいまだ少しも減るところがない。
 とはいえ、エクソームシークエンスと比べるとSNPアレイは非遺伝子領域をきちんとカバーするし、WGSと比べるとSNPアレイはいまでもかなり安価である。CNVについては、結局SNPと連鎖不平衡にあるという評価であり、全ゲノムCNVを調べなくとも、GWASが検出した有意SNP周囲のCNVを探索(ファインマッピング)すれば足りそうだ。さらに、[[LDスコア回帰法]]<ref><pubmed>25642630</pubmed></ref>20のような最新の手法においては、たとえWGSの数千万バリアントの解析結果があったとしても、そこからわざわざ100万のtagSNPに結果を減らした方が遺伝統計学的に安定した妥当な結果を得られることが示されたり、あるいはWGSを元にしたシミュレーション解析によれば、WGS解析はSNPアレイを用いたGWASに対して、多因子形質マッピングにおけるアドバンテージはほとんどないとの推定がなされている(imputationをした場合<ref><pubmed>26323059</pubmed></ref>21)。遺伝統計学・量的遺伝学の界隈においては、SNPの役割はいまだ少しも減るところがない。


 集団における頻度によって遺伝的バリアントを分類する別の方法としては、頻度5%以上を[[コモンバリアント]]common variant、0.5または1-5%を頻度の[[低いバリアント]]low frequency variant、0.5%または1%未満のものを[[レアバリアント]]rare variantと呼ぶ分類がある。これは、適応進化にもとづく選択圧によって頻度分類ごとに疾患リスク効果が異なる(レアバリアントのリスク効果は全体的に高い)ことと、遺伝的関連解析においては頻度とリスク効果によって検出力が異なることに着目した分類であり、現代ではこちらの分類が主流となっているだろう。
 集団における頻度によって遺伝的バリアントを分類する別の方法としては、頻度5%以上を[[コモンバリアント]]common variant、0.5または1-5%[[頻度の低いバリアント]]low frequency variant、0.5%または1%未満のものを[[レアバリアント]]rare variantと呼ぶ分類がある。これは、適応進化にもとづく選択圧によって頻度分類ごとに疾患リスク効果が異なる(レアバリアントのリスク効果は全体的に高い)ことと、遺伝的関連解析においては頻度とリスク効果によって検出力が異なることに着目した分類であり、現代ではこちらの分類が主流となっているだろう。


== 用語の確認 ==
== 用語の確認 ==