症状評価尺度

稲田俊也
公益財団法人神経研究所附属晴和病院
DOI XXXX/XXXX　原稿受付日：2014年1月2日　原稿完成日：2014年月日
担当編集委員：加藤忠史（独立行政法人理化学研究所脳科学総合研究センター）

症状評価尺度とは

　症状評価尺度（以下、評価尺度）は、精神障害における精神症状の変化や、薬物・ストレスなどの外的な刺激に対する精神状態や行動特性の変化、あるいはパーソナリティ特性などの、主としてヒトのこころの動きに起因する精神や言動の変化など、身体医学でしばしば用いられる画像診断や血液検査などの定量的な計量機器などによっては測定することができないような性質の精神・心理事象について、評価の対象となる症状の有無や重症度をできる限り定量的に測定するために開発されたものであり、精神医学や心理学の領域などで広く用いられている。

使用目的

　評価尺度は、評価の対象となる症状項目やそれらの発現や変化に関連する項目など目的とする精神現象や心理事象の特徴を特定するために必要な項目が含まれ、各症状の定義とそれらの重症度について想定されるいくつかの段階が設定されており、合計得点による症状の重症度の定量や各症状の得点分布から特定の精神現象や心理事象の判定が行われる。評価尺度を用いることにより、地域や言語、専門性などの異なる研究者や医療従事者など異なる評価者間において、症状の程度やその変化の度合いを共通の評価尺度を用いて評価することによって、評価者間の情報伝達を容易なものにする「共通言語」としての役割に加え、原理的に定量化が難しいとされるさまざまな症状項目について、できる限り定量的に計測できるような工夫をこらして、統計学的処理が可能な数値に転換することによって、さまざまな精神現象や心理事象の測定に利用されている。

　精神科領域において評価尺度を使用する具体的な目的としては、①症状の重症度評価を行うことにより、異なる被験者間での同一症状の比較や同一被験者における継時的な症状変化の観察を行うこと（症状の比較）、②特定の集団から特定の病態を呈する可能性の高い被験者を抽出すること（スクリーニング）、③被験者の呈するさまざま精神症状の特徴を把握すること（症状特性の把握）、④症状特性のパターンから操作的に精神障害の診断基準を定義して、それに合致する被験者を選ぶこと（操作的臨床診断）などがある。特に精神障害は、身体疾患とは異なり、病因論に基づいた診断分類が必ずしも容易ではないことから、その診断は操作的な手法で下されることが多く、このためさまざまな評価尺度や構造化された面接基準が考案されている。

分類

　被験者の精神現象や心理事象の測定に関する評価方法には、評価者が直接、被験者を面接して評価を行う狭義の評価尺度（評価者面接による評価尺度）のほかに、質問紙を被験者に渡して、被験者自身に評価を記入してもらう自己記入式質問票がある。

　自己記入式質問票は、被験者に質問紙を渡して、被験者自身に評価の結果を記入してもらう、いわゆるアンケート形式の主観的な評価尺度である。調査票を理解し、回答ができる被験者を対象とした調査では、被験者への配布と回収だけでデータの収集が完結するため、①実際の面接評価やそのトレーニングのために要する評価者コストがかからない、②誰でも（極端なことを言えば、調査を行う研究者自身が評価尺度の内容や意義を理解していなくても）調査が施行できる、③決められた解析手法にしたがって調査結果が得られるため判定の際に検査者のバイアスが入りにくい、などの利点がある。このため、大まかな傾向や特徴を短期間で把握するための予備的な傾向調査や、多数例の中から特定の病態を呈する可能性の高い被験者を抽出するスクリーニング検査などでしばしば用いられるが、厳密な科学研究や症状評価の際には、評価者面接による評価尺度が用いられる。しかし、①被験者が各質問に対して社会的に望ましいと思われる方向で回答する、②自分の理想を記入する、あるいは逆に悪くみせて同情や疾病利得を得ようとする、③質問票を読まずに適当に記入する、あるいは調査研究においては、その妨害となるようなあり得ない回答をする、など、被験者側のバイアスが入って調査結果が歪められる危険性がある。

　したがって、厳密な科学研究のためのデータ収集や客観的な重症度評価を行うためには、評価者面接による評価尺度（いわゆる狭義の評価尺度）を用いることが必要不可欠となる。評価者面接による評価尺度では、自己記入式質問票よりも被験者のバイアスが入りにくく、被験者の回答の姿勢や表情などが読みとれるなどの利点はあるが、その裏返しに研究者が自らの仮説に合致した方向で評価を行う危険性が指摘されている。これらを克服するために試験デザインにさまざまな工夫（例えば、薬効評価における無作為化プラセボ対照試験など。）がなされている。

信頼性と妥当性

　信頼性とは、同じ評価尺度を同じ対象に使えば一貫した結果が得られるかどうかを示す測定の正確さを表す概念であり、妥当性とは、その評価尺度で得られた測定値が、実際に測定しようとしている現象をどの程度正確に反映しているかを示す測定の意義を問う概念である。評価尺度を使用するにあたっては、その評価尺度の信頼性と妥当性が十分に担保されていることが求められる。

妥当性

　精神症状の重症度を定量することは原理的に難しく、実際に測定しようとする症状についての重症度に暗黙の了解があっても、測定値として妥当であるかどうかの本質的な根拠は乏しく、したがって妥当性を実験的・定型的に検証する方法は存在しないので、開発される尺度ごとに検討する必要がある。妥当性の検証は以下に示すいくつかの視点からの検討方法が提唱されており、複数の指標で妥当性を検証することの必要性が専門家の間で共通した見解となっている。

　表面的妥当性(face validity)は、評価尺度が測定しようとするものを正しく測定しているように見えるかどうかの指標で、これに関連する内容的妥当性(content validity）は、項目内容に関する視点から、選択された評価項目や質問内容が、測定したい領域を正しく反映しているか（すなわち、領域の範囲内から選ばれているか、偏りなく選ばれているか）どうかの指標である。

　基準連関妥当性(criterion-referenced validity)は、評価尺度がその概念を反映している外的基準と相関するかどうかの指標であり、この検証には、①過去に開発された類似の既存評価尺度を外的基準としてそれとの相関を調べる併存的妥当性(concurrent validity)の検討と、②期待される群間の有意差が当該評価尺度を用いることによって鋭敏に導き出せるかどうかを確かめる予測妥当性(predictive validity)の検討の方法がある。

　構成概念妥当性(construct validity)は、評価尺度の構成要件が測定しようとする対象と実際に相関しているかどうかを検証する指標であり、評価尺度を構成する全項目を因子分析して、もともと想定されている構成概念の理論から予測される因子構造と一致するかどうかを検証する。同じ因子構造内の項目は内的整合性が高く(内的妥当性internal validity)、異なる因子構造間の項目では内的整合性が低い(外的妥当性 external validity)ことが想定される。内的妥当性とは、理論的に関連の強い構成概念を測定する指標との相関が高い収束的妥当性(convergent validity)のことで、いわゆる因果推論の適切さを表し、ランダムアサインメントによって保証されるのに対し、外的妥当性とは、理論的に関連の弱い構成概念を測定する指標との相関が低い弁別的妥当性 (discriminant validity)のことで、いわゆる一般化可能性を表し、ランダムサンプリングによって保証される。

　また、評価尺度の合計点から精神障害の診断可能性を評価する際などのスクリーニング検査の妥当性を示す指標として、カットオフ値(cut-off value)がしばしば論文等で示されることがある。カットオフ値は、実際の該当症例が検査で正しく抽出される割合を示す感度（sensitivity）と実際に該当しない症例が検査で正しく抽出されない割合を示す特異度（specificity）のROC曲線(Receiver Operating Characteristic curve)から設定される。このほか、スクリーニング検査の精度を示す指標として、実際の該当症例が占める割合を示す陽性予測値(陽性適中率)（positive predictive value）、検査で抽出されなかったもののうち、実際に該当しない症例が占める割合を示す陰性予測値(陰性的中率)（negative predictive value）、総数において、該当症例が検査で陽性となり該当しない症例が検査で陰性になる確率を示す正診率(proper diagnosis rate)などが定義されている。

信頼性

　同じ評価尺度を同じ対象に用いても、さまざまな要因により評価にばらつきのみられることがあることから、評価尺度が開発された時には信頼性が十分であるかの確認が行われる。信頼性の確認とは当該評価尺度を用いて行われた評価の結果が、同席面接など同じ状況において評価者によってばらつくことがないか（評価者間信頼性 inter-rater reliability）や、一定期間をおいて同じ評価者が同じ状況で評価しても評価でばらつくことがないか（試験-再試験信頼性 test-retest reliability）などが行われる。これらの一致率が低い場合には、問題点を探る必要がある。

　信頼性を低下させる要因としては、被験者側の要因によるものとして、①被験者分散（被験者が各質問に対して実際の自分の症状をその通り回答せずに、より軽症に答えたり、重症に答えたりするなど回答を操作するために生じるもの）や②状況分散（面接を行う状況や環境によって生じる分散）があり、評価者側の要因としては③情報分散（被験者の症状に関する情報量や情報内容が異なるために生じるもの）、④基準分散（該当する症状なのか別の症状なのか評価者間で基準が異なるために異なる症状であると判断するなど、同一の情報が与えられても評価の対象となっている症状の基準が異なるために生じるもの）、⑤観察分散（同一の情報が与えられた場合に、その症状の重症度を判断する水準が評定者によって異なるために生じる同一項目内の重症度分散）がある。これらを防ぐためにさまざまな工夫がなされている。

　被験者側の要因による信頼性の低下を防ぐ対策としては、①被験者分散は、質問に対して正しい回答を導き出せるように、評価尺度の回答内容が他人に漏れたり、現在の治療内容や今後の治療方針に影響を与えたりすることがないということを明確に伝えること、②状況分散は面接環境をできる限り一定に保つようにすること、これらの対応によって被験者が安心して実際の症状をその通り回答できる環境を作るように心がけることが大切である。

　評価者側の要因による信頼性の低下を防ぐ対策としては、症状の把握や重症度評価のルールを習得するための評価者トレーニングで、評価者間で評価の意見が分かれた場合にはその根拠について議論し、参加する評価者全員が一貫して安定した評価得られるような教育や訓練が行われることが重要であるが、個々の分散要因については、③情報分散は、評価者の質問のしかたや質問内容が異なるために、異なった情報が得られることが要因で、異なる評価がされるような事態であり、対策としては面接内容を構造化することであり、これにより信頼性の高まることが示されている。構造化面接が開発されていない評価尺度では、面接手順をできる限り構造化して、質問の違いによる回答のずれを少なくすることが重要である。④基準分散は、評定者間で症状の定義が異なる場合や、症状に対して持つイメージが異なっている場合に起こりやすいため、開発者があらかじめ項目の名称とともに評価尺度の中でその定義を明確にすることが必要である。⑤観察分散は、「軽度」、「中等度」、「重度」や「時々」、「しばしば」、「いつも」など、程度や頻度を表す形容詞などがアンカーポイントになっていて、事実上、評価者の独自の感覚で重症度が決められるような状況で起こりがちであるために評価がばらつく事態であり、対策としては、なるべく具体的な事例を挙げてアンカーポイント間の違いをわかりやすく説明することが重要である。

精神症状評価尺度

　実際に臨床や研究の現場で使用されている評価尺度の例として、ここでは精神医学領域の代表的な評価尺度を取り上げて紹介する。

統合失調症の評価尺度

　統合失調症の重症度を評価する尺度としては、簡便で包括的な精神症状を評価する目的でOverallと Gorham (1962）が開発した18項目版の簡易精神症状評価尺度（Brief Psychiatric Rating Scale; BPRS)や、統合失調症の精神状態を全般的に把握する目的で、Kayら（1991）が開発した30項目からなる陽性・陰性症状評価尺度（Positive and Negative Syndrome Scale; PANSS）などがある。また、統合失調症の生活の質を評価する目的でCarpenterら（1984）が開発したクオリティ・オブ・ライフ尺度（Quality of Life Scale; QLS）、統合失調症の認知機能を測定する目的でKeefeら (2004)が開発した統合失調症認知機能簡易評価尺度（Brief Assessment of Cognition in Schizophrenia; BACS）や米国の精神科医や心理学者等の専門家のコンセンサスに基づいて開発されたMATRICS Consensus Cognitive Battery (MCCB) 、このほか、抗精神病薬の副作用として発現する薬原性錐体外路症状の重症度を評価する目的で稲田（1996）が開発した9項目からなる薬原性錐体外路症状評価尺度(Drug Induced Extra-Pyramidal Symptoms Scale; DIEPSS）などがある。

気分障害の評価尺度

　うつ病の重症度を評価する尺度としては、Hamilton (1960) が開発したハミルトンうつ病評価尺度（Hamilton Depression Scale; HAM-D）をはじめ、MontgomeryとAsberg (1979) が開発した10項目からなるモンゴメリ・アスベルグうつ病評価尺度 (Montgomery-Asberg Depression Rating Scale; MADRS)、 Rushら (1986) が開発した30項目からなる医師版うつ病症候学評価尺度 (Inventory of Depressive Symptomatology-Clinician Rating; IDS-C)などがある。また、うつ病の自己記入式質問票にはZung（1965）が開発したSelf-rating Depression Scale（SDS）などがある。一方、躁病エピソードの重症度を評価する尺度としてはYoungら(1978)が開発したヤング躁病評価尺度（Young Mania Rating Scale; YMRS)がある。

不安障害の評価尺度

　不安障害を評価する尺度としては、不安障害全般の重症度を評価する目的でHamilton（1959）が開発したハミルトン不安尺度（Hamilton Anxiety Scale; HAM-A）をはじめ、社交不安障害の重症度を評価する目的でLiebowitzら（1999）が開発したリーボヴィッツ社交不安尺度（Liebowitz Social Anxiety Scale; L-SAS）、パニック障害の重症度を評価する目的でShearら(2001)が開発したパニック障害重症度評価尺度 (Panic Disorder Severity Scale; PDSS)、強迫性障害の重症度を評価する目的でGoodmanら（1989）が開発したエール・ブラウン強迫尺度 (Yale-Brown Obsessive Compulsive Scale; Y-BOCS)などがある。

認知症の評価尺度

　認知症のスクリーニング検査としては長谷川（1974）が開発した改訂長谷川式簡易知能評価スケール（HDS-R）やFolsteinら（1975）が開発した11項目のミニメンタルステイト検査（Mini Mental State Examination; MMSE）などがある。また、アルツハイマー型認知症患者にみられる精神症状の重症度を評価する尺度としては、Reisbergら（1987）が開発した25項目からなるアルツハイマー病行動病理学尺度（Behavioral Pathology in Alzheimer’s Disease; Behave-AD）やMohs ら(1983)が開発したアルツハイマー病評価尺度 (Alzheimer's Disease Assessment Scale; ADAS) などがある。

参考文献

稲田俊也、岩本邦弘: 観察者による精神科領域の症状評価尺度ガイド改訂版. じほう、東京、 2009

稲田俊也、樋口輝彦: 症状評価法. In: 山内俊雄 (総編集)、岡崎祐士、神庭重信、小山司、武田雅俊 (編集): 精神科専門医のためのプラクティカル精神医学. 中山書店. 東京、pp213-220、 2009

北村俊則：精神症状測定の理論と実際（第２版）．海鳴社、東京、1995．

症状評価尺度

目次