みすず書房

測ることの悩み(3)

測ることの悩み(3)

それは何を指すのか

書類の記入サンプルに組織名をもじった名前を書くのはありがちなパターンで、例えば本サイトなら「上部みすず」(うぇぶ・みすず)といったところだろうか。ところがこれを心理学会の書類などでやると少々まずい(旨い)ことになる。つまり「佐藤心太」である。「しんた」と読ませたい気持ちはよく分かるし、そう読んでも問題はないのだが「トコロテン」とも読めてしまうからだ。この可愛らしい響きの食べ物の名前を初めて目にしたのは小学生のころだった。難しそうな本ばかりが置いてあるはずの父の書斎になぜか積まれていた『じゃりン子チエ』に、それは出てきた。「おばちゃん、ワシはトコロテン」 そんな感じのセリフだったように思う(1)

昔からの悪い癖なのだが、知らない単語や言葉を目にしたり耳にしたりすると、「それってどういう意味?」と尋ねたり辞書を引いたりするのをサボって、文脈からなんとなく意味を汲み取って分かったことにしてしまうことがよくある。相方がかき氷を注文したことからおやつの場面であることは明らかだ。おやつと言えば甘いお菓子を食べると相場が決まっている(小学生の発想である)。そして登場人物の満面の笑みを見れば、それはもう甘くて最高に甘い最高のおやつなのだろう。トコロテンは少年の憧れのおやつとなった。

それからしばらくして、あれは確か鎌倉に家族旅行をしたときではなかったか。小休憩にはいった店のメニューにトコロテンがあった。「これ食べたい」という息子の宣言に「本当にそれで良いの?」と両親が怪訝な反応をしたことを覚えている。出てきたのは果たして、なんだか酸っぱい食べ物だった。ニュルッとした食感はまだ許せるとして、酸っぱいのは許しがたい。騙された気分でいっぱいだったが、ここでもまた人に尋ねない悪癖がたたり、「トコロテン=じつはすっぱい」「世の中にはおやつに酸っぱいものを好む人もいるらしい」という風に理解を上書きし、その場を良しとした。

そもそも『じゃりン子チエ』に出てくる登場人物はことごとく自分の常識を超えた存在であったので、この理解は相応の整合性を持つものとして固定され、それが修正されるには、成人して家族を持ち、違う食習慣を持つ(しかし常識の通じる)人と生活を共にするのを待つ必要があった(その時もまた、「百年前から知ってた」という顔をして晩ごはんの副菜として出た酢醤油のトコロテンを食したのだが)。

なぜこんな話を長々としてきたのかと言えば、もちろんこれが心理学に関係するからである。文脈から語の意味を推測し、推測が正しければこういうことが生じるはずであると予測し、予測と現実の整合性を経験(データ)で検証する。このプロセスが、心理尺度開発における妥当性検証とよく似ているのだ。

心の物差しの作り方(復習)

ここで前回の復習をしておこう。心理学が扱うさまざまな概念(知能、性格、態度などなど)の一人ひとりの違いを数値化するのが心理尺度と呼ばれるもので、それを作ることを心理尺度開発と呼ぶのであった。例として「仕事が出来る」程度を測定する架空の「シゴデキ尺度」開発について紹介した。中身を再確認しておこう。

自己回答式シゴデキ尺度

  1. 「言われてからやる」仕事は少ない方だと思う。
  2. 忙しいときほどコーヒーの味にこだわる。
  3. 締切が迫っていても、作業の質を大きく落とさずに対応できる。
  4. 問題が起きそうな点に事前に気づくことが多い。
  5. 指示される前に、次に必要な作業を考えて動いている。
  6. 上司・同僚・部下で態度を極端に変えない。
  7. 会議で場の空気が悪くなる前に、話題を切り替えられる。
  8. 意見が対立しても、関係を悪化させずに話を進められる。
  9. 無駄な手順を省く方法を自然に考えている。
  10. 自分の作業スピードは周囲より速い方だと思う。
  11. 周囲から「話しやすい」と言われることが多い。
  12. 自分が動くことで、全体がスムーズに回る場面が多い。
  13. 自分の役割を越えたことでも、必要だと思えば手を出す。
  14. 複数のタスクを同時に抱えても、優先順位をすぐに決められる。

回答と採点方法

14の質問項目それぞれが自分にどれくらい当てはまるかを5段階で回答して、3つの下位尺度得点(処理効率デキ得点、対人調整デキ得点、先読みデキ得点)と総合デキ得点を計算する。得点が高いほどシゴデキであることを意味する。試しにご自分のシゴデキ得点を計算してみて欲しい。

  • 採点基準
    • 全く当てはまらない                          1点
    • 当てはまらない                          2点
    • どちらとも言えない                          3点
    • 当てはまる                                        4点
    • 良く当てはまる                                 5点
  • 得点の計算方法
    • 処理効率デキ得点:3, 9, 10, 14番の合計点
    • 対人調整デキ得点:6, 7, 8, 11番の合計点
    • 先読みデキ得点:1, 4, 5, 13番の合計点
    • 総合デキ得点:上記3つの平均点

尺度開発でクリアすべき最大の課題は、こうして得られた得点が本当にあなたのシゴデキ度を反映していると信じるに足る根拠を示すことである。その根拠を与えるもの(の一つ)が、査読つきの尺度開発論文が公刊されていることである。

新しい尺度を作った心理学者(開発者)は、まだ公に認められてはいない新尺度への回答を数百人ほど集める。そして、尺度に含める項目を選んだ手続きと回答の分析結果を並べて「シゴデキ度を測定する尺度の開発に成功した」と主張する論文にまとめる。これが尺度開発論文である。その論文を別の専門家(査読者)が読んで、開発者の主張が適切と言えるか吟味し判定を下す。この査読というプロセスを突破してみせることで、自分の主張は独りよがりのものではなく、他の専門家から見ても正当なものだという品質保証を得るのだ。市販の体温計などについているJISマークになぞらえて、これを「査読マーク」と呼んでも良いかもしれない(2)

それでは査読者は何を根拠に開発者の主張を評価するのだろうか。特に重視されるポイントが二つあって、一つが測定の信頼性(reliability)、もう一つが測定の妥当性(validity)である。前回はそのうち信頼性(同じものをくり返し測定したら、同じ値が出る)を詳しく扱った。今回は妥当性を取り上げることにしよう。

なぜ体重計はシゴデキを測っていないのか

一般に心理尺度開発において妥当性とは「測りたいものを測れている程度」であるとされる。極端な例を考えてみよう。ある人が体重計に乗った時に出た値をその人のシゴデキ度とすることは適切だろうか。

恐らく21世紀初頭の日本に暮らす人のほとんどは、適切でないと答えるだろう。それはなぜか。信頼性という点からすれば、体重計は極めて高性能な物差しである(同じ人がその場で2回測れば、ほとんど同じ値がでる)。問題があるのは妥当性のほうだ。現代日本社会では一般に、体重がシゴデキ度と関連するとは考えられていない。それゆえ体重を測る物差し(体重計)は、いくら信頼性が高くても、測りたいものを測っているとは受け取られないのだ(3)

それなら先述のシゴデキ尺度への回答から計算された値は、体重計とは違って、ちゃんとシゴデキ度を測っていると言えるのだろうか。尺度に入っている項目を例に考えてみよう。

たとえば「会議で場の空気が悪くなる前に、話題を切り替えられる」という項目(項目7)がある。たしかにこの項目に当てはまる人はシゴデキそうに思える。つまりこの項目がシゴデキ度の妥当な物差しであるように感じられるかもしれない。しかしちょっと待ってほしい。会議の場の空気が悪くなるのは、本当に大事なことを真剣に議論しているときのこともあるのではないか。項目7に当てはまる人は、そうした場を適当に流すのに長けた人で、むしろチームが前進するチャンスを邪魔するシゴデキナイ人かもしれない。

難癖にも思われるが、それなりに筋が通っているように思えるところがないでもない。困ったことに「そういうケースもあるかもしれませんが、それは極めて稀なケースではないでしょうか」「それはあなたの周りにそういう人がいないからだ。私のかつての職場はこの手のシゴデキナイ人ばかりで本当に苦労したんだ。こんな項目でシゴデキ度を測れるなんて、自分は納得できない」と議論を続けても水掛け論になるばかりで結論には至らず、いつになっても査読マークが発行できないことになりかねない(4)

それゆえもっと客観的な形で妥当性の主張を補強する必要があるというのが、心理学コミュニティの合意となっている。その補強材料として重用されるのが「収束的妥当性」と「弁別的妥当性」の二つである(5)。 ある尺度が知りたいこと(シゴデキ度)を測れているのならば、その「知りたいこと」と理論的に関連が深い別の何かとも関連が高いはず、というのが収束的妥当性のロジックで、「知りたいこと」と理論的に関連が低いものとの関連は小さい(または見られない)というのが弁別的妥当性である。いささかややこしいので、順を追って見ていこう。

収束的な関係を主張する

まずは収束的妥当性である。対人調整デキ得点を例に考えてみよう。この下位尺度得点に含まれるのは、次の4項目であった。

6. 上司・同僚・部下で態度を極端に変えない。
7. 会議で場の空気が悪くなる前に、話題を切り替えられる。
8. 意見が対立しても、関係を悪化させずに話を進められる。
11. 周囲から「話しやすい」と言われることが多い。

シゴデキ尺度開発者としては、対人調整デキ得点は、職場などにおける人間関係の調整力を測るものであると主張したい。この得点が高い人は、自ら対人トラブルを起こすことがないし、なんなら周囲のトラブルの芽を摘み、職場の雰囲気を良くしてくれることまで期待できる。そういう主張だ。

そうした能力と関連が深いものは何だろうか。日本社会なら、周囲の人々の気持ちや“空気”を読む能力かな、という気がする。もちろん他者の気持ちを読む能力に優れているだけでは、対人調整に優れるとは限らない。持てる能力の全てを己の我儘を通すことに全振りして、職場の人間関係が壊れても気にもしない人だって、理屈の上では存在しうるからだ。しかし多くの場合において他者の気持ちを読む能力が高いことは、人間関係を上手に調整するための必要条件であるように思われる。つまり両者は密接に関係していそうだ。これが収束的妥当性の発想である。

ここで大事なことが二つある。第一に、そうした両者の関係の深さにかんする主張が学問的に説得力のある形で語られることだ。「密接に関係してそうですよね」といったふわっとした説明では「あなたはそうおっしゃいますが、私はそう思いません」という先ほどの水掛け論の再現になってしまう(つまり査読マークがもらえない)。そうならないためには、そもそも日本社会とは、といった文化論から始め、日本社会における対人関係のありようだとか、そこで他者への配慮が果たす役割であるとか、そのために必要な能力とは何なのかといった事柄にかんする既存の学問的知識――専門書や査読論文など――を大量に理路整然と配置し、そこから論理的に「日本社会において対人調整力と気持ちを読む能力は深く関連します」という主張を導いてみせなければならない。そうすることで、自分の主張は研究者コミュニティが営々と築き上げてきた学問的知識に拠って立つ正当なものであることを、査読者に納得させるのである。

収束的妥当性を主張する

第二に、そうした理論的予測が現実と適合していることが重要である。対人調整デキ度と気持ちを読む能力が関連するなら、両者をそれぞれの物差しで測って、数字を見比べてみれば、一方が高い人は他方も高く、一方が低い人は他方も低くなっていると予測される。この予測を現実のデータで検証してみせることで、理論的な予測がただの机上の空論ではないことを示すのである(6)

ここでハタと気がつく方もいるだろう。話は分かった。しかし「気持ちを読む能力」はどうやって測れば良いのだろう? 実はありがたいことに世の中には先人が開発した心理尺度がすでに山ほど存在していて、それを利用できる場合が少なくない。それらをまとめた分厚い六巻シリーズ(7)も刊行されているし、ネット検索はもちろん、チャッピーに探してもらうこともできる。今回も試しにChatGPTに尋ねてみたところ「Wong and Law(2002)のEmotional Intelligenceを測定する尺度(WLEIS)はどうでしょう? 他者の情動評価次元が入ってるから、ご期待に添えると思いますよ(意訳)」と提案してくれた。WLEISは引用回数も極めて多く有名な尺度のようだし、その上、日本語版を作ってくれている人もいる。これを使えば良さそうだ(8)

さて準備が整った。あとは適当な人数(少なくとも百人以上)の回答者を集めてシゴデキ尺度とWLEISの両方に回答してもらうことで、一方が高いなら他方も高い(逆もまた然り)という予測が合っていたのか、データで答え合わせをすれば良い。予測した通りの結果が得られたら、シゴデキ尺度(正確にはその下位尺度である対人調整デキ尺度)の収束的妥当性が示されたと主張する論文に書くことができる。査読マーク獲得に向けて大きな前進だ(9)

弁別的な関係を主張する

しかしできればもう一つ、弁別的妥当性も検証しておきたい。これは「理論的に関連が弱いはずのものは、ちゃんと弱い関係になっているのか」という話である。もう少し丁寧に説明すると「自分はAというものを測っていると考えているし主張したいが、Bを測ってしまっている可能性が理屈だけでは完全には否定しがたいので、データで示そう」という話である。

こちらは「先読みデキ下位尺度」を例に考えてみよう。この下位尺度に含まれるのは以下の4項目であった。

1. 「言われてからやる」仕事は少ない方だと思う。
4. 問題が起きそうな点に事前に気づくことが多い。
5. 指示される前に、次に必要な作業を考えて動いている。
13. 自分の役割を越えたことでも、必要だと思えば手を出す。

一見したところこれらの項目に当てはまる人は、先々必要になりそうな課題をいち早く見つけて解決してくれる、いかにもシゴデキで頼りになる同僚っぽい、ように思える。

しかしこんな可能性はないだろうか。日頃からあらゆることに不安を感じやすく、〆切までに十分な余裕をもってタスクが完了する見通しがたっていないと心配でたまらない人がいたとする。この人は上司や同僚よりずっと細かく細かく先を読んでスケジュールを組み、仕事を進めるだろう。そんな彼女が先読みデキの4項目に「これは自分によく当てはまります」と回答して高得点を叩き出す可能性は高い。しかしその得点の高さは「職場で必要なことを先読みして指示前に動く能力」よりも「不安の高さ」の反映と言うべきではないだろうか。

もちろん不安の高さが結果として先読みにつながっているのだから、それで良いと考えることはできるし、彼女が先読みデキる人であることを否定する必要はない。しかし、もし先読みデキ得点が高い人のほとんどが彼女のような人だとすると、尺度開発という視点からは問題がある。先読みデキ得点と不安得点はほとんど同じものということになるので、敢えて「先読みデキ尺度」を提案するメリットがなくなってしまうのだ。先読みデキる人を採用したいなら、不安の高い人を採れば十分ということになる。

しかしシゴデキ尺度の開発者の理屈からすれば、先読みデキることと不安が高いことは違うもののはずである。不安の高さゆえに先読みデキる人もいるだろうが、不安とは関係なく先読みデキる人もいるはずだし、不安が高くタスクを早く終わらせたいと思うものの、いまいち先読みデキない人がいてもおかしくない。不安が高ければ必ず先読みデキるとは限らず、両者の関連は弱いはずである。もっともこう主張するだけでは実際にどうなのかは分からない。現実を参照することで、弁別的妥当性にかかわる理論的予測を検証してみせなければ、査読者を説得することはできない。

弁別的妥当性を主張する

そこから先の作業は収束的妥当性のときと同じである。両者をそれぞれの物差しで測って数字を見比べてみるのだ。今度は、一方が高いからといって他方が高いとは限らないし、一方が低いからといって他方も低いとも限らないことを示す。やや専門的な用語を使えば、二つの得点の相関が小さいことを示すことで、両者は別のモノを反映した数値であると主張すればよい(10)

収束的妥当性のときと同様、世の中には既存の心理尺度が大量に存在しており、その中には当然、不安の高低を測るとされる尺度も存在する。「不安」は心理学では極めて基本的な概念なので、ここでわざわざ具体的な尺度名を羅列するようなことはしない。読者の皆さんそれぞれの愛用生成AIに質問してみれば、数多くの不安尺度を紹介してくれることだろう。それらの中から適当と思われるものを選び、シゴデキ尺度と一緒に回答してもらい、予測通りの結果になっているか統計分析によって判断する。うまい結果が出れば、査読者を納得させる武器がまた一つ手に入ったこととなる。

ところで先ほどシゴデキ尺度に回答してみた時に「これって、自信過剰な人が高得点を出すだけでは?」と疑問に思った方はいないだろうか。これもまた弁別的妥当性の問題であったことが、今となってはお分かりいただけるだろう。

トコロテンの理解と心理尺度の開発

冒頭の話に戻ろう。新しい単語を目にしたり耳にしたりした時に、手元の情報からその語の意味を推測し、そこから予測をたてて検証する。おやつの場で注文されているのだから、トコロテンというのはお菓子だろう(推測)。お菓子なら甘いはずだ(予測)。甘いものを食べたら人は笑顔になる(予測)。トコロテンを口にした登場人物は、はたして満面の笑みを浮かべている(経験データによる予測の検証)。予測があたったのだから、当初の推測は合っている(はずだ)、つまりトコロテンは甘いお菓子である。そういう話であった。

心理尺度開発も似たようなことをしていることが分かっていただけたと思う。対人調整シゴデキ尺度は対人調整デキ度を測っているはずだ(推測)。それなら他者の気持ちを読む能力と密接に関係するはずだ(予測)。対人調整デキ得点が高い人は、「気持ちを読む能力」の得点も高かった(経験データによる予測の検証)。予測があたったのだから、当初の推測は合っている(はずだ)、つまり対人調整シゴデキ尺度は、対人調整デキ度を測っている。そういう話であった。

妥当性の検証は十分か

冷静な読者はここで、ふと不安になるだろう。しかしトコロテンの理解は、結果的には間違っていたではないか、と。実は注(1)でこっそりと告白しているのだが、当該場面で登場人物が注文していたのは黒蜜のトコロテンだったので、「トコロテン=甘いお菓子」という理解は、その限りにおいては間違っていなかった。トコロテンという対象の全容を知るには十分な情報が手元になかった、と言うこともできるだろう。

関連して、連載第6回で取り上げた「妄想ニホン料理」を思い出した方もいるかもしれない。「食材が親子」「出来上がりは日本語で言うと“トロトロ”」といった雑なヒントで海外のシェフに料理を作ってもらうと、ヒントには合致しているけれど、本来の親子丼とは似ても似つかない料理になってしまう。そういうテレビ番組だった。対象(「親子丼」「カツ丼」「メロンパン」など)を知るための情報をあえて十分に与えないことで、それゆえに生じるズレをエンタメにしていたのだ。

テレビ番組ならエンタメとして楽しんでいればよいが、心理尺度開発の場面ではこれは重大な問題となる。つまり妥当性検証のために十分な情報を手元に用意できているのか、という問題だ。結論から言えば、世の中に出回っている多くの心理尺度において、それは十分ではない。正確には「対象の全容を知るための十分な情報を集めきることは、多くの場合、ほとんど不可能である」というべきだろう。

心理尺度の妥当性は文脈によりがち

先ほど「会議で場の空気が悪くなる前に、話題を切り替えられる」(項目7)人はシゴデキではないかもしれないと、屁理屈を書いた。確かに屁理屈かもしれないが、こう考えてみてほしい。「空気の悪い会議の先にこそ成功がある」という信念が徹底されている組織があったとする。この組織のメンバーで誰がもっともシゴデキかをシゴデキ尺度で測ることになった。このような場面で、項目7で高得点な人ほどシゴデキ度が高いと評価することは妥当だろうか。恐らく組織のメンバーの全員が「これって逆じゃね」と言うのではないか。「なんか変だよね。たぶん誤植でしょ」

そうした反応に対して「これはきちんとした専門誌に査読を経て論文が掲載されている尺度で、項目7が高得点であるほどシゴデキであることは確認されています。マニュアル通りに計算したものが、その人のシゴデキ度です」と強弁しても、得られるものはほとんどない。恐らくその場では心理学者の体面を立てつつも、「なんか変なアンケートだったね」と言って今後のシゴデキ尺度の利用をやめるだけだろう。

なぜこのような齟齬が生じるのか。尺度開発論文で妥当性検証を行うときに用いた手元の情報が不十分であったからと考えると理解できる。確かに論文では実際の回答を集めて予測を検証するという手続きを採っていたが、その回答は全人類から集めたものではないし、全日本人から集めたものですらない。下手をするとアルバイトやサークルくらいの経験しか積んでいない大学生から集めた回答だったりする。尺度開発論文で主張できるのは、その文脈(現代日本の平均的な大学生)の限りにおいて、項目7の高得点をシゴデキと評価することが妥当であると確認された、ということに過ぎないのである。文脈が異なれば、項目7(そしてその他の全てのシゴデキ尺度の項目)をどう評価するのが妥当なのかも異なりうる(11)

それは「トコロテンは甘いおやつ」という情報しか手元になかった少年が、異なる文脈で「トコロテン」を誤解したのと同じである。そして少年が長じてトコロテンへの認識を改め、場面によっての使い分けを覚えたように、多くの心理尺度の妥当性もまた、常に検証の対象とならざるを得ない。なぜなら、ある尺度の開発論文を書いた時に使ったデータがどれだけの広がり(一般性)を持つのかは、しばしば誰にも分からないからである(12)。食堂でトコロテンを頼んだときに黒蜜(あるいは酢醤油)のそれが提供される範囲がどれくらい広いのか、理論的に予測することはできない。もしそれが出来るなら、100年後の鎌倉では何味のトコロテンが出てくるのか、正確に予測できるはずだ(13)。同じように、2020年代の日本人を対象に妥当性を検証した心理尺度が、異なる土地、異なる時代にも必ず同じ妥当性を持つのか、毎度毎度、妥当性を検証する必要があるのだ。

その上にさらに話をややこしくする「そもそも本当のトコロテンとは何か、そのようなものは存在するのか」という話があるのだが、紙幅が尽きた。次回も何が心理尺度の妥当性を支えるのかについて議論を続けたい。

  1. 以下、トコロテンを頼んだのがテツであるかのように書いていますが、どうやらこれは筆者の記憶違いのようで、注文したのはチエちゃんだったそうです(https://katagiya.jarinko.com/00/3.html)。お詫びして訂正します。チエちゃんは「おっちゃん、ところてん黒蜜で!」と言っていたそうなので、チエちゃんの食べたトコロテンはちゃんと甘かったようです。人間の記憶は当てにならないというのは、心理学入門の講義のハイライトの一つです。
  2. 「査読マーク」は本連載での用法であり、心理学業界一般で使われる語ではないことに注意。尺度開発者に「先生のその尺度は査読マークは付いているんですか」などと尋ねると大変失礼なことになるので、注意して下さい。「論文はどこに掲載されていますか」と尋ねるのが正解である。
  3. 妥当性にかんする評価は文脈によって変わりうる。体重が成績に効くような場面では、体重計の値がシゴデキ度の指標として用いられることは、十分にあるからだ。例えばサッカーJリーグの選手名鑑には体重の記載がある。
    https://www.jleague.jp/player/
  4. 実際の論文査読では、著者(開発者)と査読者がこのようにリアルタイムのやり取りをする場面はまずない。
  5. 何をもって妥当性の証拠と見なすべきかについて、ここでは典型的な尺度開発論文で用いられる外的側面からの妥当性検証(妥当性の主張)の手続きとして、収束的妥当性と弁別的妥当性を取り上げて紹介した。この二つが満たされれば妥当性検証が十分であると主張するものではない。
  6. このような時に「両者には正の相関関係がある」などという。
  7. サイエンス社発行の『心理測定尺度集』(全6巻)。出版社サイト: https://www.saiensu.co.jp/search/?isbn=978-4-7819-9999-0&y=2011
  8. Wong, C.-S., & Law, K. S. (2002). The effects of leader and follower emotional intelligence on performance and attitude. The Leadership Quarterly, 13(3), 243–274. https://doi.org/10.1016/S1048-9843(02)00099-1 
    豊田弘司, & 山本晃輔. (2011). 日本版WLEIS(Wong and Law Emotional Intelligence Scale)の作成. 教育実践総合センター研究紀要, 20, 7–12. https://cir.nii.ac.jp/crid/1050564287515798656
  9. ただしその主張に査読者が納得するかどうかは、別の話である。
  10. 少し気をつけておきたいのは、ここで示したいのは「一方が高いからといって、他方が高いとも低いとも限らない」という関係のあり方であって、「一方が高いと、他方が低い」という関係ではない。もし後者のような関係があったなら「先読みデキって、結局のところ、不安が低いことでしょ」という話になってしまう。
  11. 変わる可能性があるということで、必ず変わると言っているわけではない。
  12. これはMessick (1995)に代表される構成概念妥当性のアイディアに沿った議論である。
    Messick, S. (1995). Validity of psychological assessment: Validation of inferences from persons’ responses and performances as scientific inquiry into score meaning. American Psychologist, 50(9), 741–749. https://doi.org/10.1037/0003-066x.50.9.741
    前回も紹介したように、心理測定における妥当性の扱いについてはさまざまな議論がある。まとめとして以下の文献を再掲する。
    キャスリーン・スレイニー. (2024). 『心理学における構成概念を見つめ直す:歴史・哲学・実践の次元から』 (仲嶺真., Trans.). 金子書房. http://www.kanekoshobo.co.jp/book/b640506.html
    デニー・ボースブーム. (2022). 『心を測る:現代の心理測定における諸問題』 (仲嶺真 監訳; 下司忠大, 三枝高大, 須藤竜之介, & 武藤拓之 訳). 金子書房. http://www.kanekoshobo.co.jp/book/b614542.html
    村山,航. (2012). 妥当性:概念の歴史的変遷と心理測定学的観点からの考察. 教育心理学年報, 51, 118–130. https://doi.org/10.5926/arepj.51.118
  13. ここで「正確な予測」と言っているのは、例えば「100年後の鎌倉でも水が100度で沸騰すると予測できる」というレベルでの正確さのことを言っている。