みすず書房

測ることの悩み(2)

測ることの悩み(2)

プロフェッショナルとは

毎度毎度の昔ばなしで恐縮だが、またしても随分前のテレビ番組の話である。自分の記憶が正しければ番組そのものを見たのではなく、画面キャプチャをTwitter(旧)かなにかで見かけたのだったと思う。全く繁盛していない(という設定の)ラーメン屋の店主がカメラに向かって述べていたプロフェッショナル論が、心理学者的になかなか興味深かったのだ。曰く、料理のプロというのは、必ずしも旨い飯を作る存在ではない。プロに求められるのは、常に同じ料理を提供できることだ。そんな話であった。

別に「辛い状況におかれた人間はしばしば、自尊心を維持するための防衛機制として、自分の状況を正当化する言説を作り出してしまうものだ」といった適当な心理学的説明を思いついたから興味を引かれたのではない。心理尺度開発における信頼性と妥当性を説明するときに、これが使えそうだと思ったのだ。

心の物差し

何かのときに「あの人って、どういう人?」などと尋ねられて「すごくいい人だよ」とか「ちょっとクセ強で面白いよ」とか「めちゃくちゃシゴデキ」などと答えた経験は皆さんもお持ちだろう。この「すごく」とか「ちょっと」とか「めちゃくちゃ」などを研究の俎上に載せたい。それもできれば数字であらわして、足したり引いたり割ったり掛けたりしたい。そういう欲求が心理学研究者(の一部)にはある(1)。その時に行われるのが心理尺度開発という営みである。尺度とは物差しのことで、つまり心理尺度開発とは一人ひとりの心の在りようを測るための物差しを作ることである。「開発」などと言うと大げさに響くが、これが心を数値化して分析する定量的な心理学研究の根幹をなす営みであることを踏まえれば、大仰になるのもお許しいただきたい。

たとえば「心の温かい人は、手が冷たい」という仮説を定量的に研究することを考えてみよう。それには「心の温かさ」と「手の冷たさ」という二つの数字が必要である。後者については物理量(すなわち温度)を指すものとして差し支えないだろう。これを測ってくれる物差し(体温計)は、現代日本なら少しのお金を出せば誰でも入手できる。それでは心の温かさは? 脇の下にはさむことで「あなたの心の温かさは◯度ですね」と表示してくれる便利な機械は、筆者の知る限り、どこのドラッグストアにも売っていない。しかしそれがなければ「心の温かい人は、手が冷たい」という仮説を定量的に研究することはできない。

そんな仮説をわざわざ真面目に研究しなくても、と仰る向きもあるだろうが、そうとばかりも言っていられない。心の在りようの大小にかかわる言説は数多あり、それらは時に現実社会で力をもつからだ。「協調性のある人を採用したい」「真面目な学生に来てほしい」「優しい人を紹介してほしい」といった言葉は、それぞれの心にかかわる概念(協調性、真面目さ、優しさ)にかんする量によって対象者を選別したいという願望が人々の中にあることを示している。そうした願望に応える客観的な指標を提供しようと思うのならば、「協調性」や「真面目さ」「優しさ」を測る物差し、すなわち心理尺度が必要となる。

手軽に測ろう質問紙

実はこの連載でも、これまでに心の在りようを数字にする手続きを紹介してきた。たとえば何回も取り上げている吊り橋実験では、揺れる吊り橋で出会った女性に抱いた好意の大きさを知るために、後日、電話をかけてきた男性参加者の数を調べていた。女性に好意を抱いたら電話をかけてくるはずという理屈である。言い換えると、男性の心に生じた好意の大きさを、電話をかけたら1(好意=大)、かけなかったら0(好意=小)と数値化するものとも言える。大小しか判断できない大雑把な物差しだが、吊り橋実験では幸運にもそれで事足りたということだ。もっと細かい目盛りの物差しが手に入るなら、それに越したことはない。

「電話をかけるか否か」で心を測るやり方には他にもいくつか問題がある。まず、いかにも測定誤差が大きそうである。好意の大小のほかに影響しそうな要因が多すぎるということだ。世の中にはちょっと橋の上で会っただけの異性に電話をかけることに躊躇する人もいれば、全く気にせず電話できてしまう人もいるだろう。そのため、好意は大きかったのに電話できなかった人に0点(好意=小)、それほどでもなかったのに気軽に電話した人に1点(好意=大)をつけてしまう恐れがある。つまり測り間違いが生じやすい。

やたらと手間がかかるのも問題だろう。いちいちお芝居を打って電話番号を渡し相手が電話をかけてくるのを待つというのは、好意の大小を知る手段としていかにも迂遠である(2)。そのくせ状況があまりに具体的すぎるので、結果を他の場面に一般化できるのか不安も残る。「それって橋の上での話ですよね」と言われてしまったら、説得力のある反論をするのは容易でない。

定量的な心理学研究における中心的なアプローチである「全体の傾向を知る」という目的(3)に照らす限り、できるだけ一般化可能な測定値を、できるだけ多く、できるだけ誤差を少なく集めたい。そうした期待に応えるものとして作られ使われてきたのが心理尺度であり、その多くは質問紙尺度という形をとる(4)。対象者に一連の質問を投げかけ、得点化しやすい形で回答してもらうことで、効率的に心の在りようを数値化する方法である。最大のメリットは手軽さにあるといって差し支えないだろう(5)

シゴデキ尺度を見てみよう

具体的に質問紙形式の心理尺度とはどのようなもので、それがどのように開発されるのか、架空の「シゴデキ尺度」を通じてざっと概観してみよう。シゴデキ尺度とは名前の通り「仕事が出来る」程度を測定する尺度で、今回は自己評価式のものとする。この尺度に回答してもらえば、その人のシゴデキ度が分かるという大胆な代物である(もちろん徹頭徹尾冗談なので本気にしないで下さい)。

さっそく以下の各文が自分に当てはまると思う程度を1〜5点で回答してみてほしい。全く当てはまらないと思ったら1点、よく当てはまるなら5点といった塩梅である。印刷して点数を書き込んでもらうのも良いだろう。
 

自己回答式シゴデキ尺度

  • 採点基準
    • 全く当てはまらない             1点
    • 当てはまらない          2点
    • どちらとも言えない             3点
    • 当てはまる                     4点
    • 良く当てはまる          5点
  1. 「言われてからやる」仕事は少ない方だと思う

  2. 忙しいときほどコーヒーの味にこだわる。

  3. 締切が迫っていても、作業の質を大きく落とさずに対応できる。

  4. 問題が起きそうな点に事前に気づくことが多い。

  5. 指示される前に、次に必要な作業を考えて動いている。

  6. 上司・同僚・部下で態度を極端に変えない。

  7. 会議で場の空気が悪くなる前に、話題を切り替えられる。

  8. 意見が対立しても、関係を悪化させずに話を進められる。

  9. 無駄な手順を省く方法を自然に考えている。

  10. 自分の作業スピードは周囲より速い方だと思う。

  11. 周囲から「話しやすい」と言われることが多い。

  12. 自分が動くことで、全体がスムーズに回る場面が多い。

  13. 自分の役割を越えたことでも、必要だと思えば手を出す。

  14. 複数のタスクを同時に抱えても、優先順位をすぐに決められる。

シゴデキ尺度の採点

回答していただけただろうか。それでは採点である。少しややこしいがお付き合い頂きたい。次の点数を求めてほしい。

  • 処理効率デキ得点:3, 9, 10, 14番の合計点
  • 対人調整デキ得点:6, 7, 8, 11番の合計点
  • 先読みデキ得点:1, 4, 5, 13番の合計点
  • 総合デキ得点:上記3つの平均点

ここで処理効率デキ得点、対人調整デキ得点、先読みデキ得点のことを一般に下位尺度得点と呼ぶ。これらは「シゴデキ」という概念が複数の要素の組み合わせだというアイディアを反映している。シゴデキにも色々な側面があるということだ。たとえば処理効率デキ下位尺度には「3. 締切が迫っていても、作業の質を大きく落とさずに対応できる」「9. 無駄な手順を省く方法を自然に考えている」などが入っていて、いかにも処理効率が高い人っぽい。それぞれのシゴデキ下位概念に相当する項目に「あてはまる」と回答するほど、その下位尺度の得点が高くなるという寸法だ。

3つの下位尺度には4項目ずつが割り振られているので、得点幅はそれぞれ4点〜20点となる。回答が「どちらとも言えない」だったときの配点が3点なので、下位尺度得点が12点(「どちらとも言えない(3点)」✕4項目)だったら、その下位尺度についてあなたはどちらとも言えない人である、という目安になる。16点(「当てはまる(4点)」✕4項目)を上回るようなら、けっこうシゴデキそうだ。少なくともこの尺度を開発した架空の心理学者の視点からすれば、そういうことになる。

それらシゴデキ下位尺度得点を総合したのが総合デキ得点で、これは3つの下位尺度得点を合計して3で割った平均点だから、同じく4点〜20点の幅を持つ。12点なら「総合的に見てどちらとも言えない」ことになるし、これが16点以上なら全方位的にシゴデキな化け物人材と言えそうだ。

数字を信じる根拠

いかがだろう。ご自身のシゴデキ得点にご納得いただけただろうか。繰り返しになるがこれは徹頭徹尾適当に(チャッピー(6)に手伝ってもらって)作った架空の心理尺度であり、各項目の文言など含め、心理尺度の専門家に見せたら非難轟々であろうこと間違いない代物である。そこを再確認していただいたうえで、架空の話にもう少しお付き合いいただきたい。

こうした心理尺度をなんとなく作ってみたからといって、それだけでは一人前の「心理尺度」として専門家(すなわち心理学者)に認められることはない。この尺度が「これはシゴデキ度をきちんと測っていますね」とお墨付きを得るための基準の一つが、尺度開発のあらましを紹介する論文が査読つきで専門誌に掲載されることである(7)。なぜ査読付きの論文がそこまで大事なのかというと、それが物差しの性能を担保すると信じられているからだ(8)

たとえば体温計ならば、JIS基準などの認証機関において製品の性能や製造プロセスがチェックされ、それをパスしたものにJISマークが付される。JISマークがあることで、体温計の仕組みを全く知らない熱力学の素人でも、その体温計が表示する数値を(JIS認証機関を信じる限り)信じることができる。心理尺度においてこのJISマークに相当するのが「査読つきの尺度論文あり」という査読マークだと言えば、語弊はあるものの、おおよそのイメージはつかんで頂けるだろう。

信頼性チェック

それでは査読マークを得るために心理尺度はどのようなチェックを受けるのだろうか。大きく分けると、信頼性チェックと妥当性チェックという二つの観点からのチェックが行われる。厳密に言えばこの二つは分かちがたく結びついており、信頼性は妥当性の一部をなすとも言えるのだが、ここでは説明のしやすさをとって、二つを分けて説明していきたい。

尺度の信頼性とは、同じものを測ると同じ値が得られるということである。体温が変わらないのに測るたびに違う値を示す体温計があったら、とても信頼することはできない。同じことが心理尺度についても言えるので、まずこの信頼性チェックが大事である。

ここでやや困ったことがある。こと心理尺度にかんしては「全く同じもの」をくり返し測定することが不可能なのだ。試しにもう一度シゴデキ尺度に回答してみて欲しい。「さっきはこの質問に4点って答えたけど、やっぱり5点かもな」「これってさっきは3点って答えたっけ?」など、最初に回答した時の記憶が影響しかねないことが分かるだろう。たとえ同一人物が回答したとしても、最初に回答した時と二回目に回答した時とで、回答者はもはや同じ存在ではない。異なる存在(人)のシゴデキ度を測っているのだから、二回の得点が違ったとしても、それは尺度の信頼性が低いせいではないかもしれない。その場合、信頼性が過小評価されてしまう。

他方で、回答者が(親切にも)前回の回答に寄せてしまうことも考えられる。その場合、信頼性は過大評価されかねない。仮病で保健室を訪れた生徒が体温を測ったところ、体温計が壊れていて幸運にも高い数値が出たと想像してみてほしい。怪しんだ保健教員から測り直しを命じられた生徒が、振ったり叩いたりこすったりしてなんとか前回の値を再現させたとする。二度の測定結果は似たものとなるが、それは体温計の信頼性が高いことを意味しない。それと同じで、記憶にある回答に寄せた場合、心理尺度の信頼性も過大評価されかねない。つまり尺度の信頼性は過小評価される可能性もあるし、過大評価される可能性もあるのだ。

次善策としての再検査信頼性

これはもう原理的に解決不可能な問題なので、現場では次善策として、同じ人に(前回の回答を忘れるくらい)“適当な”期間をおいて二度回答してもらって、そこから得られた二度の回答の類似度(再検査信頼性)が“十分に”高ければ、尺度の信頼性は確保されたと判断することにしている。“適当な”、“十分に”とカッコで括ったのには理由がある。どれくらいが“適当”で“十分”なのか、客観的な基準が存在しないのだ。慣習的には、1週間から1ヶ月くらいの間をおいて再回答してもらい、二度の回答の類似度(相関係数や級内相関係数という数値を使うことが多い)が0.7を上回れば、信頼性は十分に高いと判断するというあたりだろうか(これらの数値の最大値は1である)。

新しい心理尺度を開発する研究者は、この信頼性にかかわるデータを収集し、その収集プロセスと結果を論文に記載して学術誌に投稿する。「300人の回答者に2週間の間をおいて二度の回答を求め、級内相関係数を求めることで再検査信頼性を確認した。対人調整デキ得点(ICC = 0.65)(9)を除く下位尺度得点ならびに総合デキ得点の級内相関係数は全て 0.75 を上回り、尺度の信頼性は十分に高いと判断された」といった感じである。それを読んだ査読者が「うん、これは十分に信頼性が高いね」とOKを出したり、はたまた「対人調整の信頼性が低いなぁ。これはもうちょっと項目を考え直した方が良いんじゃないの? 項目12とか、その時の気分で上下しそうに思うけど、これが悪さしてない? 項目ごとの相関も見て再検討してみてよ」などと注文を付けたりする。最悪の場合「2週間しかあけてなかったら前のこと覚えちゃってるでしょ! 1ヶ月あけた場合のデータも取り直してきて!」などといっためんどくさい要求が来ることも、絶対にないとは言えない(10)

このようなやり取りを何回か繰り返し、無事に査読者を納得させることができると、晴れて信頼性チェックをパスしたことになる。ここで気をつけておきたいのは、査読者の判断基準は理論的に決まっているものではない、ということである。基本的には業界の慣習と査読者の経験知、それと性格に依存するもので、それゆえ、時と場合と人によってさまざまに変わりうる。厳しい査読者に当たると厳しい修正要求がくるし、“幸運にも”甘い人に当たると比較的すんなりと査読マークをもらえることもある(11)。これはJISマークと大きく異なるところである。

信頼性と妥当性

「査読マーク」を手に入れるためのもう一つの重要なチェックポイントが妥当性である。妥当性という概念は、心理学や隣接領域で少しずつ異なった使われ方をする。その上、心理尺度における妥当性概念を巡っては長いこと活発な議論があり、困ったことにそれらが未だに収束していない(12)。つまりどれだけ気をつけて何を言っても多方面から批判を受ける可能性が高い取り扱い注意物件である。

実のところ、当連載ではこれまでなるべく「妥当」という言葉を使うことを避けてきた。例外が前回の記事で、「カップの中のサイコロ」という実験手法――サイコロの出目に応じて報酬が増えるという設定を用意した上で、伏せた紙コップの中のサイコロを覗いた参加者が実際より大きな出目を報告したならば、それを「嘘」と呼ぶ――が「嘘」の妥当な操作的定義であると論じた。このように心理学研究で「妥当」という語を使うときには一般に、その研究手続きが知りたいことを調べるのに適切なのか、という話であることが多い。

たとえば心理尺度の枠組みでは、その尺度が知りたいことを測れているのならば「妥当な尺度である」ということになる。信頼性と妥当性の区別を説明しておくと、もう少し分かりやすくなるかも知れない。シゴデキ尺度の2番目の項目をみて欲しい。「忙しいときほどコーヒーの味にこだわる」とある。果たしてこれは「シゴデキ度」と関係する項目だろうか。忙しいときほど敢えてコーヒーの味にこだわるという心の余裕を持てる人はシゴデキかもしれない。しかし、皆が忙しくしている時ほど余計なことにエネルギーを割いてしまう困った人である可能性も否定しがたい。つまり結局のところコーヒーへのこだわりはシゴデキ度とは関係がなさそうである(コーヒーにこだわるシゴデキもいれば、コーヒーにこだわるシゴデキナイもいる)。

この項目の得点が高いからシゴデキとは限らないし、低いからシゴデキナイとも限らないなら、この項目からはその人のシゴデキ度は分からないことになる。この項目をシゴデキ度の計算に用いるのは(恐らく)妥当でないということだ。ところで、この項目への回答は、一週間や一ヶ月の間をおいたからと言って大きく変わることはなさそうである。嗜好品への好みはそこそこ安定したものだろう。つまりこの項目の信頼性はおそらく高い。信頼性は高いが、妥当性は低いのである。他にもこうしたものはいくらでも考えることができる。「字がきれい」「ネコ好き」「家族思い」なども、シゴデキにかんする、信頼できるけれども妥当でない項目になりそうだ。

信頼性だけを満たしても

ここまで読んでいただければ、冒頭のラーメン屋の店主の話が興味深く響いた理由がわかって頂けるだろう。「プロの料理人は、いつも同じ味を提供できなければならない」という主張は、すなわちその料理人の信頼性にかかわる問題であったと言えそうだ。確かに行くたびに味が変わってしまう店だったら、その店の味を「信頼」することはできない。昨日は旨かったが、今日は分からない。下手するととんでもないものを食べさせられるかもしれないし、昨日を上回る美味を堪能できるかも知れない。もちろんそんなドキドキもまた食事の楽しみと言える可能性もなくはないが、安心して人に勧めるのは難しい。

他方で、いつも同じ味のラーメンを提供することができるのであれば、少なくともその点にかんして「信頼」はできる。その味が好みに合わなかった客は「ひょっとしたらものすごい美味を食べ損なうかも」などと心配することもなく、自信をもって通うのを止めることができる。そのように考えると、なるほど確かにプロフェッショナルと言えそうである。実際、同じレシピで作っても毎回の生姜焼きの出来ばえがバラバラである当方としては、いつも同じ味を提供できるなんてそれだけで尊敬の対象である。しかし信頼性が高いだけでは商売がうまくいくとは限らない。それは心理尺度も同じで、信頼性チェックを通過しただけではまだプロの仕事として不十分なのだ。

そして、料理で言えば味のクオリティに当たる部分が、心理尺度開発における妥当性に該当する(13)。ここを(ここも)しっかり作り込まないと、プロフェッショナルの使用に耐える心理尺度とは言えない。妥当性をチェックする手続きはいくつかあるのだが、残念ながら紙幅が尽きたので、それは次回以降に回すことにして、ここでは最後に、前回まで見てきた実験研究と今回見てきた心理尺度開発の関係を少し整理しておこう。

信頼性と誤差、攪乱要因

前回までの連載では定量的な心理学の中でも、いわゆる実験研究を中心に紹介してきた。そこで大事だったのが実験的統制と統計的検定という発想だった。

たとえば「不安な場面で会った異性に強い魅力を感じやすい」という仮説を検証するために、揺れる吊り橋の上で女性が男性に声をかける条件(実験条件)と、頑丈な橋の上で声をかける条件(統制条件)を設ける。吊り橋条件の男性の方が後で電話をかけてくる確率が高いなら仮説が支持される。この理屈が成立するためには「吊り橋によって生じる不安」以外の要因で電話をかけるか否かが大きく変化してはならない。そこで二つの条件で「橋の怖さ」以外をできるかぎり揃えるのが実験的統制であった。しかし条件を完璧に揃えることは現実的に不可能であり、どうしても何らかの攪乱要因が残る。攪乱要因の影響を統計的に加味して最終的な判断を導くために帰無仮説検定を行うのであった(第4回)。

ここで、今回の記事の最初のほうで、電話をかけてくるか否かで好意の大きさを測る方法は測定誤差が大きいのが難点だと説明したのを思い出してほしい。この測定誤差は上で言うところの攪乱要因の一部に相当する。なぜ一部である(全部ではない)かというと、攪乱要因には他のものも含まれるからだ。たとえば対象男性のあいだの「惚れっぽさ」という個人差も攪乱要因になる。たまたま惚れっぽい男性ばかりが吊り橋に集まり、身持ちの固い男性ばかりが頑丈橋に集まると、そのために実験結果が影響を受けてしまう。この場合、好意そのものが、橋の怖さと無関係に変わってしまうという話なので、測り間違い(測定誤差)の問題ではない。

他方で、せっかく吊り橋に惚れっぽい男性ばかりが集まったのに、恥ずかしがり屋さんが多くて電話をかけることができなかったとすれば、それは好意を測り損なったことになる。今回の記事で主に取り扱った尺度得点の再検査信頼性は、この測定誤差にかかわるものであり、その誤差の大きさを「同じものを測った時の再現度」という形で数値化するものである。同じ男性に同じ状況でまた声をかけたら、結果(電話の有無)がどれくらい再現されそうか、という話である。

それでは再検査信頼性が高ければ測定誤差は小さいと言えるのかと言えば、そうでもない。たとえば恥ずかしがり屋さんだったら、いつも電話をかけることができないだろう。つまり彼の好意は安定して過小評価されてしまうのだが、毎回の結果が同じという意味で、再検査信頼性は高い。このような「安定した測り間違い」も測定において生じることがあり、これを系統的誤差と呼ぶこともある。こうした系統的誤差を生じさせかねない要因についても、実験的に統制したり、データ分析の過程で統計的に統制を試みたりする(14)

このように見てくると、実験と尺度開発では、一見するとずいぶん違うことをやっているように見えるが、心を数値化する際に生じるゆらぎ、誤差といったものを小さくするために様々に工夫を重ねるところに共通点も見えてくる。そしてこの話を深堀りしていくと、そもそも誤差とは何なのかというややこしい問題が顔をのぞかせてくる。そのややこしさと難しさが分かる妥当性検証の話に、次回は挑戦してみよう。

  1. 何を隠そう筆者もそちら側の人間である。他方で一人ひとりを質的に捉えようとするアプローチも心理学にはある。
  2. 言うまでもないが、実生活で「運命の人」にアプローチするときならば、こうした迂遠なやり方にもそれなりのメリットはあるかもしれない。
  3. 定量的な心理学がしばしば「全体的な傾向」しか扱わないことについては、連載の第1回で紹介した。
  4. 質問紙ではない心理尺度もある。知能検査はその代表的なものである。精神疾患の診断基準も(極めて広義の)心理尺度の一種と考えることができるが、それは医師による問診という複雑な手続きを経て“得点化”が行われるものである。
  5. かつては質問を印刷した紙を配布し、鉛筆やペンで回答してもらっていたために質問紙という呼び名がついている。2020年代ではほとんどの調査はオンラインで行われ、スマホやPCなどの電子機器を通じて回答するようになっている。
  6. ChatGPT 5.2 Thinking mode を利用
  7. もちろん世の中にはこの基準を満たしていなくても立派に心理尺度と認められているものもあるので、絶対的な基準というわけではない。他方で、怪しげな心理テストを心理学者が批判するときの常套句の一つが「ま、あれは査読誌に載ってないんで」であることも否定しがたい。
  8. 学術専門誌に投稿された論文について、その掲載の可否を他の研究者仲間(peer)がチェックし、場合によっては論文の修正を要求することを査読(review)という。心理学の世界では一般に、こうした査読を経た上での論文(査読論文)の方が価値が高いとされる(査読の重要性は学問分野ごとに異なる)。査読誌に載ることが心理学者(研究者)にとっていかに大事かは、連載の第1回でも述べた。
  9. ICCはIntraClass Correlation (級内相関)の略。つまり級内相関係数が0.65であったという報告である。
  10. 言うまでもないが、実際の査読ではもっと格式高い表現が用いられる。
  11. こうした査読の不安定さ(信頼性の低さ)については、第2回の記事でも紹介した。そこでは架空の心理学者の話として、国内雑誌の査読が厳しかったので、英文雑誌に投稿したところ(日本の事情を知らない査読者によって)比較的容易に査読マークを入手できた経験談が語られていた。
  12. 心理尺度の妥当性を巡る議論としては以下の文献を参照。
    キャスリーン・スレイニー. (2024).『心理学における構成概念を見つめ直す——歴史・哲学・実践の次元から』 (仲嶺真., Trans.). 金子書房. http://www.kanekoshobo.co.jp/book/b640506.html
    デニー・ボースブーム. (2022). 『心を測る——現代の心理測定における諸問題』(仲嶺真 監訳; 下司忠大, 三枝高大, 須藤竜之介, & 武藤拓之 訳). 金子書房. http://www.kanekoshobo.co.jp/book/b614542.html
    村山,航. (2012). 妥当性:概念の歴史的変遷と心理測定学的観点からの考察. 教育心理学年報, 51, 118–130. https://doi.org/10.5926/arepj.51.118
  13. ただし料理のクオリティの問題と尺度の妥当性の問題は、信頼性のときほどには似ていない。
  14. この統計的統制の手続きにおいて、第3回で紹介した「多元宇宙」の問題が生じることが多々ある。