みすず書房

心理学が科学であるために(1)

心理学が科学であるために(1)

料理はゆらぐ

とあるシェフのレシピ動画が好きで、あまつさえ動画をもとにしたレシピ本まで買ってしまったのだが、困っていることがある。本に従って同じメニューを作っても、その日によって料理のできばえが微妙に違うのだ。この前はとても美味しくできたのに、今回は肉が固すぎるなんてことは日常茶飯事で、そしてこれが今回取り上げたいことでもある。つまり人間がやることにはどうしてもブレが出る。

うっかりこのようなことを書くと「安易に“人間”などと大きな主語を使ってくれるな。料理のできが安定しないのはあなたの腕前の問題だろう」と指摘が入りそうである。たしかに作り手の腕前の問題もあることは認める。しかしそもそも「腕前」とは何だろうか。レシピに「醤油大さじ1」と書かれているとき、手元に計量スプーンさえあれば、大きく外すことなく大さじ1杯の醤油を計ることができそうなものである。どうも「香りが立ってきたら」とか「玉ねぎに火が通ったら」といった指示への対応に鍵があるような気がする。

なぜこうも曖昧な指示なのかと文句の一つも言いたくなるところだが、少し考えると素材や環境にばらつきがあるためだろうと思い至る。全く同じ玉ねぎを同じ火力のコンロで同じ熱伝導率のフライパンを使って調理できるなら、「玉ねぎを投入して2分43秒後に大さじ1の醤油を入れる」といった明確な指示が可能なはずだ。しかし普段の家庭料理にそれを求めるのは現実的でない。買ってきた玉ねぎの大きさは毎回微妙に違うし、産地や保管状態その他で成分や水分量などの諸々も異なる。「繊維にそって2mm厚に薄切り」と言われたって毎回均一な厚みに切れるわけがない。いつでもどこでも2分43秒加熱すれば良いとはいかないのが、家庭料理というものなのだろう。

ゆらぎの元を求めて

それでは毎回の料理がまったく違うものになるのかといえば、もちろんそんなことはない。豚の生姜焼きを作っていたつもりがトンカツが完成することはまずないし、レシピに従っている限りは「すごく美味しい」から「あまり美味しくない」のあいだの、些細といえば些細な違いしか生じないのが実際のところだろう。しかしこの些細な違いがその日の食卓の幸福感に与える影響はときに甚大で、それゆえ私たちは「なぜ今日の料理はいまひとつだったのだろう」と思い悩むのだ。

いつまで料理の話が続くのかと読者もいい加減しびれを切らす頃合いだろうが、もう少しお付き合いいただきたい。この前はすごく美味しかった生姜焼きが、今回は「いまひとつ」にとどまったのはなぜだろう。自分の腕前を棚に上げ、スーパーで安売りされていた肉を使ったせいではないかと疑って、初回と同じ地元のお肉屋さんで豚バラを入手してみたところ、すごく美味しい豚生姜焼きができた。やはり肉は肉屋で買うべきだったのだ! と、言いたくなりそうだが、果たしてそれで良いのだろうか。普通の人が普通に料理をする限りにおいては特に問題ないかもしれない。しかしこの“データ”をもって「大規模店舗にたいする個人商店の優位性を示すエビデンス」と主張したならば、いささか問題があると考える人は少なくないだろう。

なぜだろうか。肉の入手先以外にも3回の調理で違っていた点が色々とありすぎるからである(1)。使った玉ねぎの新鮮さが違ったかもしれないし、2回目だけチューブの生姜を使っていたかもしれない。棚に上げたはずの「腕前」が実はきいていて、加熱時間や火力がそろってなかった可能性もある。付け合わせのキャベツの千切りのクオリティにけっこうなバラつきがあったなどという落とし穴もあるかもしれない。「生姜焼きの美味しさ」に影響しかねない要因が多すぎて、これだけの“実験”から、どれか一つの要因を特定したと大声で主張するのには無理がある。

料理と吊り橋の違い

ようやく心理学の話である。生姜焼きが「すごく美味しく」できた原因を探る試みは、心理学の研究、とりわけ心理学実験とよく似た構造を持っている。ある現象の原因を突き止めたいと思ったとき、候補となる要因が存在する条件(肉屋で購入)と存在しない条件(スーパーで購入)を設け、前者において当該の現象(すごく美味しい生姜焼き)が生じるのか検討する手続きは、連載1回目で紹介した「不安が高まると、異性にたいして強い魅力を感じるようになる」という仮説にもとづいて、魅力を亢進させる要因(不安)が存在する条件(吊り橋)と、存在しない条件(頑丈な橋)を設け、前者で異性により強い性的魅力を感じたかを調べた実験と、同じ構造を持っていることが分かる。

同じ構造なのに、生姜焼きの実験は「エビデンスとしてはいかがなものか」と言われてしまい、吊り橋の実験は「これなら成功する恋愛の心理学(2)」として人口に膾炙するにまで至った、その差はどこからくるのだろうか。常識的に考えれば「専門店の目利きが丁寧に選んだ食材の方が美味しい」という話の方が、「不安なときは目の前の異性が魅力的に見えてしまう」などという話よりも、よっぽど信憑性が高そうである。怪しげと言えば怪しげな後者のほうが、「心の科学」を謳う心理学の専門誌に堂々と掲載され、50年ほどたった今でも遠く離れた異国の人々の口の端に上るまでに至った、その理由はどこにあるのか(3)。心理学研究の科学性はいったい何によって担保されているのだろうか。

実験的統制

大雑把にいってポイントは二つある。実験的統制と、統計分析である。生姜焼きの実験がエビデンスとして弱いとされた理由は、二つの条件(肉屋で購入 vs. スーパーで購入)で、食材の入手先の他に異なる点が色々ありすぎたからであった。ならば逆にそれらをそろえられれば、肉の購入先で料理のできばえが変わったという主張の説得力は増すだろう。豚肉以外の食材をできる限り同じものにそろえ、調理環境もできるだけ等しくする。理想は同じ日に同じ場所で購入した玉ねぎその他の食材を使い、同じ日に調理をするのが良いだろう。肉以外の食材の処理はまとめて行い、正確に二分割する。同じメーカーの手になるフライパンを二枚用意し、二口あるコンロで左右同時に調理を開始して、同じタイミングで客に提供する。半分の客には肉屋のものを先に食べてもらい、残り半分にはスーパのものを先に食べてもらう。ここまでやって肉屋の豚肉のほうが美味しければ「肉は肉屋!」と宣言しても良さそうな気がしてくる(4)

このように現象の原因と目された要因(肉の購入先)以外を可能なかぎりそろえることで、ターゲットとなる要因の効果をより鮮明にあぶり出そうとするのが、実験における統制(control)という発想である。実際、吊り橋効果を報告した論文を読むと「不安」という要因を浮かび上がらせるために、さまざまな工夫がなされていたことが分かる。実験は吊り橋(または頑丈な橋)を渡っている人に声をかけることから始まるのだが、その対象は18〜30才の男性に限定されている。吊り橋では思春期男性ばかり、頑丈な橋では高齢男性ばかりが参加したとなったら、二つの条件間で見られた差が何によるものなのか分からなくなってしまうから、これは大事な実験的統制である。同じ理由から、インタビュアー役も二つの橋で同じ女性が担当した。論文に明記されてはいないものの、恐らくはシナリオを用意し、話す内容がいつも同じになるよう練習を積んだうえで実験に臨んだものと思われる(5)

統計的検定の出番

ここまでやった上で吊り橋での得点のほうが高かったら、吊り橋効果があったと高らかに宣言して良いような気もする。しかしそうは問屋と心理学者が下ろさない。実際のところ、当該論文の最初の実験では、女性にたいして感じた魅力度の得点は吊り橋条件で平均2.47点、頑丈橋条件では1.41点だった(6)。「それだけ点数が違うなら、もう吊り橋の効果があったと言ってしまって良いんじゃない?」という気もしてくるが、著者たちはこのデータに統計的検定という分析を重ねがけし、それが“有意”だったことをもって初めて「吊り橋の効果がみられた」と宣言している。

前回も触れたように、心理学研究においてデータに統計的検定をかけることは極めて重要なのである(7)。実際、これがあるからこそ自分たちの研究は科学的と言えるのだと信じている心理学者もいるのではないかと思えるくらい、検定結果が有意であることは心理学研究において重要視されがちである。では、その統計的検定とはいったい何で、なぜこれを行うことで、常識的に考えれば胡散臭そうな主張(「不安だと惚れやすくなっちゃうんですよ」)が、科学的に信憑性のある“知見”へと昇華されるのだろうか。

実は検定について“分かりやすい”説明を試みることの難易度は、極めて高い。それは数学という言語で書かれたものを日常言語に翻訳する営みだからだ。日常言語同士の翻訳ですら完全にはなり得ないことを踏まえれば、その困難さが想像していただけるだろう。それゆえ以降の説明には多くの「語弊」が含まれることをお断りしておく。より正確な理解を希望されるかたは、ぜひ専門書に当たっていただきたい(8)

ゆらぎは止められない

大前提として、こと心理学が扱うテーマにおいては、実験的統制には限界があることを認める必要がある。どれだけ丁寧かつ慎重に吊り橋と頑丈橋で橋以外の要因をそろえようとしても、完全に同じにすることはできない。練習を重ねたインタビュアーであっても、実験のたびに言葉の抑揚やキレに微妙な違いが生じるのは、人間なら当然である。対象男性の身長はさまざまだろうから、彼らの目に映るインタビュアーの姿は人ごとに違わざるを得ない。たまたま吊り橋で実験をした日のほうが天気が良くて、明るい日差しが女性の魅力を引き立ててしまったかもしれないし、頑丈橋で実験をした日に暗いニュース報道があって、対象男性の気持ちが塞ぎぎみで、女性の魅力に気を払う余裕がなかったのかもしれない。さまざまな要因が吊り橋のごとくゆれ動く。

もちろん、すべての要因が吊り橋に有利に、頑丈橋に不利に働いたとは限らない。吊り橋ではたまたま熱愛中の恋人がいる男性ばかりが対象に選ばれてしまい、インタビュアー女性への関心を低めていた可能性もある。ここでのポイントは、どれだけ実験的統制をがんばっても、それぞれの橋で女性の魅力を高めたり低めたりする撹乱要因が無数に残っていたかもしれず、しかも、それらが全体として吊り橋条件に有利に働いて1.06点差を生み出していた可能性を否定できないということである。

もはやほとんど難癖のような気もしてくるが、影響が有ったか無かったか分からないのならば、有った可能性を考慮に入れるのが科学的厳密さ(scientific rigor)というものだろう。そしてまさに、この厳密さを伴って吊り橋効果の有無を検討するための手続き(の一種)が統計的検定なのである。

撹乱要因を計算したい

当該の吊り橋実験では、「t検定」という心理学統計で最初に習うことが多い手法が使われているので、これに沿ってその理屈を説明してみよう。実は統計的検定にはいくつも種類があり、それぞれ微妙といえば微妙、重大といえば重大な違いがあるのだが、大筋の論理構造は同じなので、ここでその詳細に立ち入ることはしない。

t検定はいくつかの前提をおくことで議論を組み立てていく。最初の前提は撹乱要因の“分布”にかかわるものである。先ほど、撹乱要因が全体としてプラス(魅力度を高める方向)に働いていた可能性が否定できないと述べた。しかし考えてみれば、撹乱要因が全体としてマイナスに働いていた可能性も、同じように否定できないことに気づく。

そこでこのように考えてみる。女性インタビュアーが橋の上で男性に声をかけるという行為――これを“試行”と呼ぶことにしよう――を、何度も行うことを想像してみる。各試行ごとで撹乱要因は、プラスになったりマイナスになったりするだろう。そうした“撹乱要因の大きさ”は、試行ごとにどう異なるだろうか。全ての試行で全く同じ大きさになるだろうか。それとも、極端にプラスに振れる場合と、極端にマイナスに振れる場合に二分されるだろうか。こうした変化のあり方を「分布」と呼ぶ。統計的検定では、こうした撹乱要因の分布が、数学的なある決まった形(確率分布)になっているとの前提をおく。毎回の試行で撹乱要因の大きさはさまざまに揺れるが、その背後には常に同じ確率分布が存在すると考えるのである。この数学的な前提をおくことで、撹乱要因の生じ方について、確率的な計算ができるようになる(9)。これが後で効いてくるのだ。

吊り橋の効果がなかったら?

さらに、二つ目の前提を置く。この前提が心理統計でもっとも重視されるものである。それは「吊り橋と頑丈橋で男性がインタビュアー女性に感じる魅力に差はない」という前提である。言い方を変えれば、吊り橋効果はないという前提である。とても重要なので特別に帰無仮説(null hypothesis)という名前が与えられている。「統計的検定の結果が有意である」とは、この帰無仮説には無理があると判断し、それを棄却することを意味する。「吊り橋効果はない」が否定されるのだから、「吊り橋効果はある」と宣言できる、という理屈である(10)

どのようにして帰無仮説に無理があるという主張に根拠を与えるのだろうか。ここで撹乱要因の分布について、厳密な数学的前提をおいたことが生きてくる。そのお陰で、帰無仮説が正しいときに、撹乱要因によって平均値に差が生じる確率を計算できるようになるのだ。吊り橋実験について言えば、吊り橋で平均2.47点、頑丈橋で平均1.41点という魅力度得点が報告されていた。つまり1.06点差が生じていた。これにたいして、撹乱要因だけで1.06点もしくはそれ以上の差が生じた確率を求めることができるようになるのである(11)

ここで質問。もし撹乱要因だけで1.06点もしくはそれ以上の差が生じる確率を計算してみたら一万分の一だと言われたら、どのように思うだろうか。「え、一万回に一回しか生じないようなことが、今回起きていたってこと? そんな珍しいことが都合よく起きたって言い張るのは、さすがに無理があるのでは?」という気にはならないだろうか。いささか直感に頼った説明だが、これが帰無仮説検定のロジックである。

「撹乱要因だけで説明するのは無理がある」ということは、つまり他の要因も考慮に入れたほうが良い、ということである。ところが他に考えうる要因として手元に残っているのは吊り橋効果だけ(のはず)である。そこで、撹乱要因だけで差が生じたと考えるには確率が小さすぎて無理があるので、帰無仮説(「吊り橋効果はない」)のほうを否定(棄却)して、吊り橋効果はあったと結論づけようというのである。

基準がほしい

なるほど、確かに一万分の一と言われたら、その理屈で納得できる。しかしそれが二分の一だったら納得はできない、という読者もいるだろう。それでは十分の一ならどうかと問われれば、微妙としか答えようがない。何か「これより確率が小さかったら帰無仮説を棄却しても良い」という、心理学界公認の基準があったりはしないのか。

実のところ学界公認の基準はない。しかし事実上のスタンダードは存在し、それは5%である。ここまで述べてきた「1.06点もしくはそれ以上の差が生じる確率」のことを心理統計では一般的に p value (p値、ピーチ)と呼ぶのだが、そのp値が5%未満であったら帰無仮説を棄却しましょう(吊り橋効果は存在すると判断しましょう)というのが、心理統計の入門講義で学生が最初に習う、業界のデファクトスタンダードである。

なぜ5%なのかと問われると、5%でなければならないという強い理論的根拠は、実は存在しない。逆に5%ではダメだという決定的な根拠もない。事実、2018年にこの基準を0.5%(0.005)にするべきだという意見論文が発表され大きな論争を生んだが(12)、論争によって(事実上の)基準が変わったということは特になく、2020年代においても大半の心理学論文は5%という基準を採用している。どちらかというと歴史的経緯(文化的慣性)で定まっている基準と言えるだろう。

「有意」とはなにか

このp値が「十分に小さい」と判断する基準のことを有意水準と呼ぶ。ギリシア文字でα(アルファ)と記述することも多い。p値がアルファを下回ると、帰無仮説検定の結果が有意であったと判断される。p値が5%を下回って有意(p < 0.05)となることは、その研究が研究者コミュニティ(学会)で認められる上で重要な意味を持つ。

それでは「有意である」とは、いったい何を意味するのだろうか。実はここまで統計的検定を行う際の大事な約束事をいくつか飛ばして説明してきた。その一つが「有意水準(アルファ)は検定を行う前に決めておく」というものである。p値を見てから有意水準を決めることが許されたら、テストの点数を見てから合格点を決めるのと同じことになってしまうから、これは当然といえば当然の約束である。

そしてこれが大事なのだが、「あらかじめ有意水準を5%に決める」ことは、帰無仮説が正しいのに間違ってそれを棄却してしまうことを、最初から5%までは認めておくことを意味する。実験結果が帰無仮説から外れるほど、p値は小さくなる。帰無仮説が正しいなら、それから外れた結果ほど出にくいはずだからだ(13)。しかしどれだけp値が小さくとも、その偏りをもたらしたのが何であったのか、本当のことは知りようがない。どんなに確率は小さくとも、その稀な出来事がまさに今回生じて、全ての事象が吊り橋の女性を魅力的に見せるよう働いた結果なのかもしれないのだ。それゆえ「帰無仮説を棄却する(吊り橋効果があると宣言する)」という判断が間違っている可能性から逃れることは、絶対にできない。分析者にできることは、間違いの可能性をどこまで許容するのかを、有意水準という形で設定することまでである。統計検定の結果が有意であることは、100%正しい何かを発見したことを意味しない。

ここまでの話を整理しておこう。心理学実験では、撹乱要因によるゆらぎをできるだけ実験的に抑え、それでも残るゆらぎが結論に与える影響を統計的検定によって決められた範囲内(5%)に抑えるという手続きを踏む。そこまでやって初めて、ターゲットである要因(吊り橋や肉の購入先)の効果について積極的な主張をしてもよいと認めるのだ。それは絶対の真実を発見し主張する手続きではない。間違えの可能性をできるだけ削り、その上で、それでも間違えている可能性がどれだけあるかも明らかにして、何かを主張する手続きなのである。この慎重な手続きを踏まえていることが、心理学研究が科学的であるとされる根拠の大きな部分を占めている。

味の決め手は

実験的統制もがんばって、統計的検定も行っても、科学的な心理学研究から「絶対に正しい何か」は得られないことに、残念な気持ちを抱いた読者もいるかもしれない。しかし「絶対の真実」には到達できずとも、正しさの精度を上げていく方法はある。その一つが(実験的)統制を徹底的に行うことである。いささか余談めいた話だが、最後に料理の話に立ち返って、説明してみよう。

「お菓子作りでは分量を正確に計ることが大事」と聞いたことはないだろうか。お菓子全般というと乱暴な感じもするが、比較的シンプルなクッキーなどを考えると、それなりに当たっているかもしれない。というのも主たる材料――小麦粉、砂糖、バター――が食品工場で生産される、品質がかなり安定したものだからである。手順にしても、材料を混ぜ合わせた上でオーブンで焼くというシンプルなものである。混ぜ合わせに技量の差が出る余地はあるかもしれないが、現代的なオーブンを使う限り、加熱時間や温度は機械任せで正確に統制できる。つまり材料と手順がかなり統制されており、あとは計量くらいしか撹乱要因の入る余地がない。そこを厳密にすれば十分に味をコントロールできるというのが「お菓子作りでは分量を正確に計ることが大事」ということだろう(14)

そのように実験的統制を徹底できるのなら、個々の要因の効果を洗い出すことも容易になる。グラニュー糖を使ったときと三温糖を使ったときの違いも、かなり正確に知ることができるだろう。そうして明らかになった味にかかわる要因を大規模かつ広範に統制すれば、安定した味を大量に再現できるようになる。それがファミレスやコンビニスイーツというものではないだろうか。ここまでくれば「美味しさの正解」をかなり精確に把握したと言って良さそうである。

しかしそれでも「美味しさの真実」を掴んだとまでは言えない。筆者は大学一年生の秋の夜、肌寒くなってきたキャンパスで学園祭の準備をしつつ友人と食べたカップヌードルが“本当に”美味しかったことを、今でも覚えている。その後、数え切れない回数、カップヌードルを食べたが、あの感動が再現されたことはない。「美味しさ」には、食べる側のその瞬間の状況までが影響する。だからこそ味にこだわる料理人は、自分の店を持つことで、食事の場面までをも可能な限り統制したいと願うのかも知れない。

分析結果のゆらぎはどこから

翻って心理学である。実は心理学実験でも撹乱要因の影響を削っていくことは不可能ではない。しかしそれを進めれば進めるほど、実験場面は人々の日々の生活から乖離していく。たとえばモノの見え方を研究する知覚心理学では、実験参加者を暗室に隔離し、ディスプレイと顔面の距離をあご台で固定することで、参加者の網膜に投影される光を統制することが一般的である。社会心理学でも、参加者を個別ブースに座らせ、名も知らぬ相手と顔も合わせずに人工的なゲームをプレイさせることで、“余計な”情報を抜きに人間関係の心理を研究しようとすることがある。いずれも日常生活とかけ離れた状況であることは言うまでもない。

そうした統制が人間心理の理解においてどのような意味を持つのかは、もちろん検討の余地がある。しかしその問題に立ち入る前に検討しておきたいことがある。それは統計分析の結果がしばしば不安定に揺れるという問題である。

前回の記事で、同じデータの統計的検定の結果が、有意になったり有意にならなかったりすることがあると紹介した。有意であることは絶対の正しさを意味しないとは言ったが、それは、どうしようもなく揺らぐ人間にまつわる現象について、科学的に厳密に語ろうとするがゆえのことであった。統計的検定が「間違っている可能性」を含むことは、科学的厳密さの現れである。それに対し、同じデータを使っていても分析者ごとに分析結果が異なる、つまりデータから導かれる結論が異なってしまうというのは、少し違う話ではないだろうか。厳密に組み立てられているはずの統計的検定を用いた科学的な研究が、かくも不安定な結論を導いてしまうその理由について、次回は考えてみよう。

  1. もちろん「肉だけの話から、あらゆる食材に一般化してよいのか」という問題もある。

  2. 森直久(2010)で紹介された架空の書籍タイトルから拝借した。書籍は実在しないが、吊り橋実験の知見がこのようなものとして2020年代の日本で流布していることは間違いないと思われる。 森直久. (2010). 心理学の法則ってどのぐらい確かなものですか?. 心理学ワールド, 51, 43. https://psych.or.jp/interest/ff-39/

  3. 当該論文の掲載は1974年、掲載誌はアメリカ心理学会発行の雑誌(Journal of Personality and Social Psychology)であり、著者二人の所属はカナダのブリティッシュコロンビア大学である。Dutton, D. G., & Aron, A. P. (1974). Some evidence for heightened sexual attraction under conditions of high anxiety. Journal of Personality and Social Psychology, 30(4), 510–517. https://doi.org/10.1037/h0037031

  4. もはや普段の家庭料理とは呼べない。

  5. 社会心理学系の研究室では、実験にあたってこうしたシナリオ作成と練習をするのが通常である。

  6. 魅力度得点の算出方法とその妥当性についての議論は連載第1回をご参照いただきたい。

  7. なお、統計的検定の他にも、心理学研究ではさまざまな統計分析手法を用いる。今回は中でも代表的なものとして検定を取り上げた。

  8. 筆者がこれまでに目を通してきた限りにおいては、「心理学統計法」(清水裕士 編著, 2021, 放送大学教育振興会)が、数学的背景の解説含め、もっとも入門者に開かれたものと思われる。

  9. 例えばある市の住民をランダムに選んで、次々と年齢を尋ねることを考える。市民一人ごと(各試行ごと)に、回答される年齢は異なるだろう。その背後には「その市の全住民の年齢の分布」があると考えられる。20代が多い分布なら、20代という回答を得る試行も多くなるはずである。分布がわかると、どのようなデータがどれくらいの確率で得られるか推定が可能となることが、直感的に理解できるだろう。そこで、橋の上で声をかける試行ごとの撹乱要因が、ある分布(t検定では一般的に正規分布)から生じていると前提をおくことで、確率的な推定を可能にしているのである。ただし、市民については“本当の年齢分布”が分かるが、吊り橋実験の統計的検定でおく分布は、(相応の根拠はあるにしても)仮においた前提に過ぎないことに注意が必要である。

  10. 帰無仮説(「吊り橋効果はない」)と対立仮説(「吊り橋効果はある」)を立て、前者を棄却することで後者を採択するというのは、一つのものの見方、考え方(Neyman-Pearson流の帰無仮説検定)に過ぎない。このことはいずれ連載で触れる予定である。

  11. 撹乱要因によって「ちょうど1.06点差」が生じた確率を計算したいと思うかも知れないが、その値はゼロになってしまう。その理由は確率密度関数を用いた計算だから、ということになる。イメージで言うと「時速100キロで走っている自動車は、今この瞬間に何メートル移動するだろうか」と問われると0メートルになってしまうのと同じである。

  12. Benjamin, D. J., Berger, J. O., Johannesson, M., Nosek, B. A., Wagenmakers, E.-J., Berk, R., Bollen, K. A., Brembs, B., Brown, L., Camerer, C., Cesarini, D., Chambers, C. D., Clyde, M., Cook, T. D., De Boeck, P., Dienes, Z., Dreber, A., Easwaran, K., Efferson, C., … Johnson, V. E. (2018). Redefine statistical significance. Nature Human Behaviour, 2(1), 6–10. https://doi.org/10.1038/s41562-017-0189-z

  13. p値は結果の偏り以外の理由でも小さくなる。例えば、サンプルサイズ(吊り橋実験の例で言えば、参加男性の人数)が大きくなるほど、p値は小さくなる。この問題は、今後ふれる予定である。

  14. 統計的検定との関係では、撹乱要因によるゆらぎが小さくなるほどに、検定が正しく有意になる確率(効果が存在する時に、検定結果が有意になる確率=検定力)も大きくなる。