遺伝子多型
遺伝的多型(遺伝子多型、DNA多型)genetic polymorphism
ある集団において、一つのゲノム上の場所または領域(座位locus)に、二つかそれ以上の、頻度の高い異なるアレルalleleが存在する状態を言う。
ヒトゲノムが解読されていない時代には、遺伝的多型を用いて病気の原因遺伝子の探索が行われていた。遺伝的多型に「頻度の高い」という条件があるのは、このための要請である。本稿では、本辞典の性質にも鑑み、主にこの観点から遺伝的多型について述べる。ほかにも遺伝的多型は、集団遺伝学や法医学においても用いられる。
本稿では特にヒトに限定して述べるが、原則として以下の記述は他の種にもそのまま適用できる。
遺伝的多型の歴史
初期の遺伝学では、遺伝的多型は概念的なものだった。ショウジョウバエの実験において遺伝子がマーカーとして使用され始めたのは、実に遺伝情報がDNA分子からなると分かるよりも前のことであった。この時点では、遺伝的多型は表現型の個体差に対応する仮想的な存在として定義されていた。例えばショウジョウバエの目をザクロ色にするアレル、カーネーション色にするアレル、といった具合である。研究者は実際にこれらを用いて、ショウジョウバエの目の色を決定する遺伝子の、染色体へのマッピングを行なっていた。
生化学の進歩に伴い、遺伝子の産物であるタンパク質の電気泳動や免疫反応の違いを元に遺伝子の多型を推定できるようになった。この時点でも、遺伝的多型の研究はDNA配列そのものを対象としているのではなく、生化学的な違いからアレルを推定していた。ヘモグロビン遺伝子、CYP遺伝子、ABO遺伝子、HLA遺伝子など、多型性の高い(多くの異なるアレルを持つ)遺伝子がその目的で使用され、例えばHLA遺伝子のアレルはHLA-DR3などと表記した。現在では血清型などと呼ばれることもある。
このように遺伝子に着目した場合、ヒトゲノムの大半は非遺伝子部位であるため、とびとびの遺伝地図しか作成できない。また、同じ表現型を来たす異なったDNAアレルが存在しうる。分子生物学の進歩によりDNA配列を比較的手軽に直接観察できるようになったことから、全ゲノムを包括的に解析することのできる、DNA多型からなる精密なマーカーの開発が望まれていた。
最初に発見された全ゲノムに分布する汎用の遺伝的多型マーカーは、RFLP(制限酵素長多型)であった1。これはゲノムDNAを制限酵素で切断した際、アレル間でDNA配列が異なることによって切断長に違いがあることに着目したものである。RFLPを用いた連鎖解析により、ハンチントン病の原因遺伝子座位の局在領域を特定する2など多大な成果があった。しかしRFLPは数が少なく、より高密度の遺伝的多型マーカーを開発する必要があった。
次に広く使用されたのはSSLP(単純配列長多型)であり、個人間で反復配列長が異なる部位があることを利用し、PCR法で長さを判定して行われる。SSLPとしてはVNTR3(ミニサテライト)とマイクロサテライト4(STRP)がある。RFLP、VNTR、マイクロサテライトとなるにつれてゲノム上のマーカー数が増えるため、原因バリアントと連鎖している可能性が増え、解像度が高まる。VNTRを使用した連鎖解析により家族性乳がんのBRCA15、マイクロサテライトを使用してBRCA26の責任遺伝子領域が推定された。
このように連鎖解析によりメンデル遺伝性疾患の原因遺伝子の同定が続いていたが、多因子疾患については思わしい成果が上がっていなかった。多数の弱い遺伝的バリアントによって起こる多因子疾患の解析のためには連鎖解析ではなく遺伝的関連解析が適切であるとの提唱がなされ7、またそのためにはゲノム上に数十万個以上のオーダーで分布する遺伝的多型が必要8であった。その要求を満たす遺伝的多型マーカーがSNP(一塩基多型)である。これは個人間の一塩基レベルでの違いに着目したものであり、原理的に包括的なカタログを作成するにはヒトゲノム配列決定を待たねばならなかった。2001年のヒトゲノムドラフト配列決定と前後して国際HapMap計画が立ち上がり、2005年9と2007年10にSNPのカタログが報告され、最終的に数百万箇所のSNPが同定されているがこれは遺伝的多型マーカーとして最大規模である。また、それと並行してDNAチップ技術のSNPへの応用が行われ、高出力かつ高精度に全ゲノムのSNPの遺伝型を測定することができるSNPアレイが開発された。これを機にゲノムワイド関連解析が加速し、多因子疾患の遺伝因子の解明に大きく貢献した。たとえば70万人のデータを用いた身長のGWAS結果は、双生児遺伝率の27.3%を説明できるまでに至っている11。
現在では遺伝的多型マーカーのみならず、全ゲノムの塩基配列を直接測定できるWGS技術が日常的になってきている。WGSを用いた国際1000ゲノム計画によれば8800万以上の遺伝的バリアントが同定されている12が、これはかならずしもSNPに限らず、集団頻度1%以下の一塩基バリアント(SNV)や挿入欠失(indel)、構造的バリアント(SV)などを含んでいる。また、SNPアレイを用いた場合でも、1000ゲノムデータ、HRC13やin-house WGSデータを参照パネルとしてimputation法を行うことによって、やはりレアバリアントを含む全ゲノムの遺伝的バリアントを推定することが可能となってきた。とりわけ遺伝的多型に着目する研究は少なくなっていくかもしれない。