「シングルセルRNAシーケンシング」の版間の差分

69行目: 69行目:


====品質の検討事項====
====品質の検討事項====
 最初に行うのは、scRNA-seqデータの品質管理である。ここでは、質の低い細胞のデータ(例えば、壊れた細胞では、転写産物の種類が少なくミトコンドリア由来の転写産物が多い)を取り除く。また、複数の試料を組み合わせる場合には、バッチごとの違いについて検討する<ref><pubmed>29608177</pubmed></ref><ref><pubmed> 28045081
 最初に行うのは、scRNA-seqデータの品質管理である。ここでは、質の低い細胞のデータ(例えば、壊れた細胞では、転写産物の種類が少なくミトコンドリア由来の転写産物が多い)を取り除く。また、複数の試料を組み合わせる場合には、バッチごとの違いについて検討する<ref><pubmed>29608177</pubmed></ref><ref><pubmed> 28045081</pubmed></ref><ref><pubmed>31948481</pubmed></ref> <ref><pubmed>32854757</pubmed></ref>。現実には、実験ごとのバッチの違いによる影響(Batch effect)がscRNA-seqの最大の問題であると示されてきており、試料の処理を同時に行うなど実験デザインを工夫する必要がある<ref><pubmed>29121214</pubmed></ref>。
</pubmed></ref><ref><pubmed>31948481</pubmed></ref> <ref><pubmed>32854757</pubmed></ref>。現実には、実験ごとのバッチの違いによる影響(Batch effect)がscRNA-seqの最大の問題であると示されてきており、試料の処理を同時に行うなど実験デザインを工夫する必要がある<ref><pubmed>29121214</pubmed></ref>。


 また、ドロップレットを使用するscRNA-seqでしばしば問題になるのが、ドロップレットに2つ以上の細胞が封じ込められ、それらが同一のCell barcodeを持ってしまうアーティファクトである。通常「Doublet」「Multilet」と呼ばれるこの問題はデータ解析を混乱させるので、細胞単離の段階から注意する必要があるが、scRNA-seqデータ取得後にもデータ処理で解決できる可能性もある<ref><pubmed>30954476</pubmed></ref><ref><pubmed>30954475</pubmed></ref> <ref><pubmed>31693907</pubmed></ref><ref><pubmed>32592658</pubmed></ref> <ref><pubmed>29227470</pubmed></ref><ref><pubmed>31836005</pubmed></ref><ref><pubmed>31856883</pubmed></ref><ref><pubmed>30567574</pubmed></ref> <ref><pubmed>31266958</pubmed></ref>   [https://doi.org/10.1101/2019.12.17.879304][https://doi.org/10.1101/699637][http://dx.doi.org/10.2139/ssrn.3646565]。なお、この手法を利用することで、バッチ効果を抑えるために、異なるバーコードを持つ複数の試料を混ぜて一つの試料として扱い、計算機的に再び分離、解析する手法が注目されている<ref><pubmed>32483174</pubmed></ref>。
 また、ドロップレットを使用するscRNA-seqでしばしば問題になるのが、ドロップレットに2つ以上の細胞が封じ込められ、それらが同一のCell barcodeを持ってしまうアーティファクトである。通常「Doublet」「Multilet」と呼ばれるこの問題はデータ解析を混乱させるので、細胞単離の段階から注意する必要があるが、scRNA-seqデータ取得後にもデータ処理で解決できる可能性もある<ref><pubmed>30954476</pubmed></ref><ref><pubmed>30954475</pubmed></ref> <ref><pubmed>31693907</pubmed></ref><ref><pubmed>32592658</pubmed></ref> <ref><pubmed>29227470</pubmed></ref><ref><pubmed>31836005</pubmed></ref><ref><pubmed>31856883</pubmed></ref><ref><pubmed>30567574</pubmed></ref> <ref><pubmed>31266958</pubmed></ref><ref><pubmed>32366989</pubmed></ref><ref><pubmed>33338399</pubmed></ref>[https://doi.org/10.1101/2019.12.17.879304]。なお、この手法を利用することで、バッチ効果を抑えるために、異なるバーコードを持つ複数の試料を混ぜて一つの試料として扱い、計算機的に再び分離、解析する手法が注目されている<ref><pubmed>32483174</pubmed></ref>。


 scRNA-seqデータの次のノイズは、ある遺伝子の発現が低いために、本来同じタイプの細胞であっても、その遺伝子の発現が全く見られない「Dropout」と呼ばれる現象であり解析に影響を与えるので、これについても検討が必要である<ref><pubmed> 24056876
 scRNA-seqデータの次のノイズは、ある遺伝子の発現が低いために、本来同じタイプの細胞であっても、その遺伝子の発現が全く見られない「Dropout」と呼ばれる現象であり解析に影響を与えるので、これについても検討が必要である<ref><pubmed>24056876
</pubmed></ref><ref><pubmed>32127540</pubmed></ref>。
</pubmed></ref><ref><pubmed>32127540</pubmed></ref>。
====次元圧縮====
====次元圧縮====
 このような品質管理、ノーマライゼーションの過程を経て<ref><pubmed>28504683</pubmed></ref>、scRNA-seqのデータ解析において、最初に行うのが、[[次元圧縮]] (dimensionality reduction)である<ref><pubmed>30617341</pubmed></ref><ref><pubmed>31780648</pubmed></ref><ref><pubmed>31955711</pubmed></ref><ref><pubmed>31823809</pubmed></ref>。PCA (Principal component analysis, 主成分分析)、更に発展させたUMAP(Uniform Manifold Approximation and Projection, 均一マニフォールド近似と投影)、Diffusion maps<ref><pubmed> 26002886
 このような品質管理、ノーマライゼーションの過程を経て<ref><pubmed>28504683</pubmed></ref>、scRNA-seqのデータ解析において、最初に行うのが、[[次元圧縮]] (dimensionality reduction)である<ref><pubmed>30617341</pubmed></ref><ref><pubmed>31780648</pubmed></ref><ref><pubmed>31955711</pubmed></ref><ref><pubmed>31823809</pubmed></ref>。PCA (Principal component analysis, 主成分分析)、更に発展させたUMAP(Uniform Manifold Approximation and Projection, 均一マニフォールド近似と投影)、Diffusion maps<ref><pubmed> 26002886