今年こそ西軍
いつだったか、大河ドラマを見ていて「おや、これはちょっと、ひょっとしたらひょっとしそうな雰囲気では?」と思っていたところ、某SNS(旧Twitter)に「#今年こそ西軍勝利」というハッシュタグが流れてきて、我が意を得たりと嬉しくなった。言うまでもないが、その年の関ヶ原の合戦も結局は東軍の勝利に終わり、徳川の世が訪れることとなった。NHKのドラマでは大河にせよ朝ドラにせよ、大きなところでは史実に忠実にストーリーを作ることが暗黙のルールとなっているようなので、これはまぁ仕方ない。しかし歴史に「もし」を求めることには抗いがたい魅力があるようである。「もしも小早川秀秋が裏切らなかったら」といった昔ながらの架空戦記は言うに及ばず、「あの時、シャアが偵察に出ていたら」と、そもそもが架空のガンダム世界の歴史にさらに「もし」を重ねる遊びが公式に行われるまでに至っては、人間の想像力と、想像力への寛容さに感心するしかない(1)。
「NHKのドラマでは」「ガンダムでは」と書いたが、この二つのアプローチは、フィクションのドラマ作成におけるアプローチの違いとしてだけでなく、事実(ノンフィクション)について考える学問上のアプローチの違いにも当てはまるように思われる。つまり「実際に生じたことは何だったのか」を「知りたいこと」の中心に据えるアプローチ(大河ドラマ)と、「もしも“もう一度”が許されるなら、何が生じるのか」を中心に据えるアプローチ(架空戦記)が、研究の世界、とりわけ人間を巡る「事実」について考える人文学や社会科学の世界にもあるのではないか。史料を読み解くことで「実際には何があったと、どこまで言えるのか」を探る歴史学の多くは、前者に該当するだろう。他方、本連載でここまで紹介してきた、調査や実験から得られたデータを統計的に分析することから何かを言おうとする心理学の多くは、後者に入るものと言える(2)。
このように書くと、心理学が事実よりも想像に立脚した学問であるとでも言うつもりかとお叱りを受けそうである。はたして心理学が「もしも“もう一度”」の学問であるとは、どういうことなのか。前回の記事を振り返りつつ、その意味するところを考えてみたい。これが今回の狙いである。
曖昧な中で判断する
統計分析を用いる心理学研究が「もしも、もう一度」というアプローチの学問であることは、前回の記事で紹介した帰無仮説検定の手続きに関係する。仮説検定の理屈はなかなかにややこしいので、まずは振り返りをしておこう。
多くの心理学実験では「Yが生じたのは、Xのためではないか」という問題設定を立て、それを検証するために、Xがある条件(実験条件)と、Xがない条件(統制条件)を設けて、前者でYが生じるか確認するという手続きをとる。「生姜焼きが美味しく作れたのは、肉屋で豚肉を買ったからではないか」という問題設定に対し、肉屋で買ってくる実験条件と、スーパーで買ってくる統制条件で、出来上がった生姜焼きの味が異なるかを比較するという話を、前回した。あれである。
しかし困ったことに心理学の扱う現象では「Xがあれば、必ずYが生じる」と言えるほど強固な関係がXとYの間にあるとは言い難いことがほとんどである。肉屋の豚肉で作った生姜焼きがイマイチだったとしても、「肉屋の肉なら美味しい」という仮説が間違いだったのか、仮説は正しいのだが他の撹乱要因(料理人の腕前、その日の天候、食べた人の体調など)のせいで本来の美味しさが隠されてしまっていただけなのか、簡単には判断がつかない。
そこで数と統計(数学)の力を頼りに判断をつけようというのである。例えば実験条件(肉屋)で100回、統制条件(スーパー)で100回、試作と試食を繰り返してみる。前者での美味しさ評点が平均6.7点で、後者のそれが5.1点だったとして「肉屋でもスーパーでも味に差はないのが真実だったとしても(帰無仮説)、試食を100回ずつ繰り返した時に、撹乱要因だけで平均に1.6点以上の差が生じる確率(p値)はどれくらいになるのか」を計算するのだ。このp値がある基準よりも小さかったら「撹乱要因だけでこれだけの差が生じたと考えるのは無理がある」と判断し、肉屋とスーパーに差があったと判断するのである。この時に、p値が十分に小さいと判断するための基準を有意水準と呼び、心理学では通常それを5%に設定するのであった。
それは一回の実験にすぎない
もう少し具体的に考えてみよう。実験条件(肉屋)で100回、統制条件(スーパー)で100回の試食を繰り返し、p値を計算して帰無仮説検定を行うところまでを1つのパッケージとして「1回の実験」と呼ぶことにする。自分でこの実験を行うことを想像すると、1パッケージ回すだけでも、実はけっこうな手間がかかることに気がつく。
生姜焼きは二口のコンロで並行して作ることとして、1枚のフライパンで一度に作れるのは多めに見積もっても4人前だろう。片方で肉屋の肉、もう片方でスーパーの肉を調理するとして、1回の調理で提供できる生姜焼きは8人前にしかならない(3)。さすがに朝から豚生姜焼きを提供するのは気が引ける。実験は昼食と夕食に限定して、それぞれ2ラウンド回すことにしよう。つまり1日に実施できる試行(試食)は、昼食で16、夕食で16の、合計32食になる。目標はそれぞれ100食なので最短でも7日かかる計算になる(4)。これは実験参加者が順調に集まった場合の話で、そもそも8人も参加者が集まらないセッションもあるだろう。少なくとも10日くらいは確保しておきたい。
その間、昼と夜に参加者を迎え、研究の目的を説明して参加の同意を得て、8食ずつ生姜焼きを作り、皆に変わらぬ笑顔で提供し、味を評価してもらい、お礼を言って送り出す。毎日の食材の買い出しもあるし、参加者200人をどう募集するのかも考えねばならない。参加謝金と交通費の支払い手続きもある。公費を使うならその事務手続きもあるし、逆に私費でやるならそれなりの出費になる。
ここまでしてデータを集めて実験を行い、その結果が統計的に有意であったとしよう。「肉屋のほうが美味しいという仮説が証明された!」と叫んでしまいそうになるが、それは言い過ぎである。有意水準を5%にするということは、間違った判断をしている可能性を5%まで受け入れていることを意味するからである。こうした実験を千回、一万回と行ったときに、肉屋で買おうがスーパーで買おうが全く差がないのが真実なのに(帰無仮説が正しいのに)、間違って「肉屋のほうが統計的に有意に美味しい」と判断してしまう可能性が、常に5%(千回だったら50回、一万回だったら500回)あるのである。今回の結果がその5%の間違いであったのか、正しい判断だったのか、神ならぬ人間に見分けはつかない。
「もしも」の試行と「もしも」の推定
こうした手続きのどこに「もしも」というアプローチが紛れ込んでいただろうか。少々ややこしいので気づきにくいが、2つのレイヤーで「もしも」が含まれている(5)。
第一の「もしも」は「試食」のところで生じている。仮にこれを試行のレイヤーと呼んでみよう。「地元の肉屋で買ってきた豚肉で生姜焼きを作ってみたら美味しかった」という体験について、「もしももう一度肉屋で買ったら、再び美味しい生姜焼きが完成するのだろうか」というのが、ここでの問題である。このレイヤーでは「一回一回の試行は(ある程度まで)再現できる」という大事な前提がある。その前提のもと、実際に決まった回数「もしも」を繰り返してみて、結果がどうなるかを観察するのがこのレイヤーの「もしも」である。
第二の「もしも」は帰無仮説検定を行うところで生じている。仮に仮説検定のレイヤーと呼んでおこう。実験を1パッケージ(合計200試行)行ってみたところ美味しさ評定に1.6点差があったという経験データについて、「もしも同じ実験パッケージを何度も繰り返したら、今回と同じか、それ以上の差が生じる実験パッケージはどれくらいあるのだろうか(p値)」というのが、ここでの問題である。仮説検定のレイヤーにおける「もしも」は、実際に試されることはない。その代わりに、幾つかの前提と手元のデータを使って数学的にp値を計算する。自分が目にしているデータは、数多の生じ得た「もしも」のうちの一例に過ぎないことを認めた上で、無限回の「もしも」の中で、この一回がどこに位置するのか(珍しいパターンであったのか否か)を推定するのが、このレイヤーの「もしも」である。
架空戦記とタイムリープの「もしも」
このように整理してみると、心理学研究における「もしも」と、フィクションにおける「もしも」の違いが見えてくる。
例えば架空戦記ものでは「もしも小早川秀秋が寝返らなかったら」といった「もしも」を設定し、その後の歴史が描き出される。この「もしも」は先述のレイヤーで言うと、試行のレイヤーの「もしも」である。ただしそれはたった一回の試行である。ある架空の歴史で小早川の寝返りを食い止めることに成功し、その後で西軍が勝利したとしても、それは肉屋条件の1回の試食で「うまい!」という評価が得られたのと同じである。心理学実験の理屈からすれば、それだけで仮説(「小早川の寝返りを防ぐことができれば、西軍が勝つ」)についてとやかく言うにはエビデンスが全く足りない。
架空戦記的な試行を繰り返すジャンルがタイムリープものである。同じ時間に戻る能力を持つ主人公が、何度も歴史を繰り返して、もとの歴史で生じた悲劇的な出来事を防ごうと奮闘するのが一つの定番だろうか。このように書くと、一回一回のタイムリープが一回一回の試行(生姜焼きの試食)に該当するように思われるが、少し違う。タイムリープものの主人公は、望ましい結果を得ようとさまざまな工夫(家を早く出てみたり、道順を変えてみたり)を行うが、一度試してうまくいかないとあっさりと諦めてしまう(6)。心理学実験は異なる。肉屋の生姜焼きの評判が一回くらい悪かったからといって、その時点で仮説を諦めたりはしない。何度も繰り返した上での全体的な傾向(平均処置効果)を見るために、決めておいた回数(100回)に至るまで、生姜焼きを作り続ける。
この違いは、タイムリープものの主人公と、実験を行う心理学者の関心の違いに由来するだろう。主人公は、望ましい結果を一度手に入れてしまえば、その先の未来に進むことができる。その意味で「実際に起きたこと」こそが大事である。しかし心理学者は「もしも、もう一度行うとして、安定して生じることは何なのか」ということ、つまり法則性に興味がある。それゆえ一回一回の成功や失敗には、ほとんど興味がない。一度きりの成功に満足することなく、決めておいた回数まで、同じ日時に戻って繰り返すのだ。これは、「もう最悪の事態は防げたからいいんだよ! 8月は、夏休みは、ちゃんと終わったんだよ!」と叫ぶ主人公に、「一回上手くいったくらいでは、ほんとうに効いたのが何だったのか、結論は出せない。決められた回数、ちゃんと試してみるんだ」と諭してくるようなもので、融通が利かないというかなんというか、ちょっと面倒な人である(7)。しかしこの生真面目さこそが、心理学実験における科学的厳密さなのである。
データを深掘りする
それでは心理学者は常にそのように杓子定規に研究に向き合っているのかというと、必ずしもそうとは限らない。データ分析の現場で起きがちな架空の事例を紹介したい。
あなたが無事に生姜焼き実験を1パッケージ、最後まで走りきったとしよう。10日をかけ肉屋の肉で100回、スーパーの肉で100回の調理と試食を終え、集めたデータを入力し、統計ソフトに読み込ませ、t検定を実施した。結果、肉屋の美味しさ評定は平均7.3点、スーパーのそれは6.9点だった。p値は0.12であり、事前に決めた有意水準(0.05)を下回ることはなかった。肉屋のほうが平均で0.4点高いのだから、仮説と一致する方向の差ではあった。しかし統計的に有意ではない。心理学論文の定型文を使えば「仮説を支持する結果は得られなかった」。
「ということは、肉屋で買おうが、スーパーで買おうが、差はないって結論ですか?」と思うかもしれないが、そうではない。肉屋が優れていると判断するだけの根拠は得られなかったというのが結論であり、肉屋とスーパーが同じとまでは言っていない。つまりほとんど何も言っていないのと等しい。
あれだけの手間と時間をかけて「ほとんど何も分かりませんでした」では残念すぎるというのが、正直な感想ではないだろうか。その次に始まることは何か。「データの深掘り」である。ひょっとしたら夕食だけ見たら肉屋が勝っているかもしれない。参加者の年齢が何らかの形で関係していた可能性もある。最終日に近づくにつれ明らかに料理の腕が上がっていたが、その影響はなかっただろうか。もろもろの可能性を考えてデータを分析するのである。幸か不幸か、現代の統計ソフトを用いれば、こうした分析は“簡単に”行うことができる。
「起きたこと」に囚われる
こうしたデータの深掘りは、実験データという複雑な形をしたモノを、四方八方違う向きから見てみたり、“適当に”切り取ってみたりして、その形状を捉えようとすることに似ている。カクカクシカジカの作業(実験)をしたら丸いモノ(肉屋>スーパー)が得られると思ったのだが、なんだかモヤモヤしたものが出来てしまった。しかしこのモヤモヤもある角度から見ると丸く見える部分があるのではないか、という話である。
そうしてさまざまに分析を加えた結果、参加者のジェンダーと年齢を統制した上で、実験日(前半5日か後半5日か)との交互作用を見たところ、前半実験においてのみ「肉屋>スーパー」という差が p < 0.05 で有意だった(8)。当初に予測した方向の差が、統計的に意味のあるものとして現れてきたのだ。
次に始まるのは、この分析結果の解釈である。詳しく見ると、若い男性は常に味の評価が満点に近かった。そして、この何を与えても「うまい!」と言う若年男性たちがスーパーの条件に多く参加していたため、スーパーの生姜焼きの評価が高くなり、肉屋との差が見えにくくなっていた。こうした予想外の撹乱要因を統計分析によって取り除くことを「統計的に統制する」と言う。実験的に統制できていなかった撹乱要因を統計的に統制してあげたことで、本来の「肉屋>スーパー」という差が、きちんと有意になったと考えられる。
同様に、後半の実験ではどちらの肉でも美味しさ評価が高かった。思い返してみると、実験が進むにつれ料理の腕が上がることで、参加者とのやり取りにも余裕が生まれていたような気がする。それが試食の場の雰囲気を良いものとし、生姜焼きの美味しさを大きく押し上げることになったのではないか。実際、後半はどの肉でも評価が満点に近くなっていた。つまり天井効果が生じて肉屋とスーパーの差が見えにくくなったと考えられる。
逆に言えば、客にある程度の味への感性があり、料理人の腕がそこそこならば、肉屋で買うかスーパーで買うかで生姜焼きの味には差が出ると言える。弘法は筆を選ばないが、庶民は筆を選ぶのである。ゆえに仮説は一部、支持されたのである。
一瞬、納得してしまいそうである。実際、このような議論をしている心理学の論文を見ることは少なくない。たしかにp値はちゃんと有意水準(5%)を下回るという基準を満たしているし、手元には苦心して集めた都合200回の試食データというエビデンスが存在する。受け入れるしかない。そう思ってしまうかもしれない。しかしここに大きな罠がある。それは目前のデータの説得力に圧倒され、自分たちの研究が「もしも」の理屈で成り立っていることを忘れていることに起因する。
まちがいは5%まで
ここで改めて有意水準5%の意味を(くどいが)振り返っておこう。肉屋とスーパーを比較する実験を1パッケージ行ってみたところ、肉屋の生姜焼きのほうが美味しさ評価の平均点が高かった。この時に「肉屋で買ったから美味しかったのだ」と言ってしまってよいのか、というのが問題である。残念ながら私たちが入手できる(心理学的な)データには常に曖昧さがつきまとうので「絶対にそうだ」と言い切ることは出来ない。そんな曖昧な世界ではあるけれど、間違って「肉屋が優れる」と言ってしまっている確率は5%しかないとは言える。だから私は肉屋が優れると判断しました。有意水準5%で統計的に有意であったとは、そのような意味である。
それではデータを深掘りした結果、「客にある程度の味への感性があり、料理人の腕がそこそこならば、肉屋で買うかスーパーで買うかで生姜焼きの味には差が出る」と結論づけた研究者の主張も、同じものと言えるのだろうか。実は、そうはならない。
データを深掘りする過程で研究者はなんども仮説検定を繰り返す。先述したように、現代の統計ソフトを使えば、そうした分析は簡単に何度もさまざまなパターンで繰り返すことができる。そうした簡単さの陰に隠れて気づきにくいのだが、実は検定を一度行うたびに研究者は、5%の確率で間違っている。そのため、検定を何度も何度も繰り返すと、全体としてどこかで間違っている確率が5%よりも高くなっていくのである。「間違っている確率は5%しかないから、肉屋が優れると判断しました」という主張は、やや強い言葉を使えば、嘘を言っていることになる。
福引券1枚で何回まで回して良い?
急に抽象的な表現になったので頭を抱えている読者もいるかもしれない。直感的な説明を試みてみよう(9)。ここに当たり確率が5%の福引があるとする。そこに必ず当たりを出せる福引の天才を名乗る人物が現れた。そんなに言うなら一発で当たりを出してみたまえと挑発したら、見事に一発で当たりを出した。なるほど彼女の主張は根拠があると言えそうだ。これが有意水準5%で判断するということである。一発勝負とは言え、たまたま当たりが出る確率は5%あった。しかし5%しかないのだから、彼女の主張を信じましょう。そういうことである。
ところが次にやってきた自称天才では、ことはそう簡単には進まなかった。1回目は外れ、2回目も外れた。3回目、4回目と、色々と奇妙な儀式めいた動作をしつつ福引を回し続けたところ、5回目にみごと当たりが出た。彼は言う。「そうそう、この動作をすると、手首の関節が十分に温まってね、ちょうど良い速度で福引を回すことができるんですよ。これが大事なのでした」。
果たして彼の主張を信じることができるだろうか。帰無仮説検定というツールを用いて科学的に推論していると自負するならば、彼の主張を信じることはできない。なぜなら福引を5回も回すことが許されるのならば、その何処かで「当たり」が出る確率は5%よりもずっと大きい(約23%)からである(10)。23%しか出ないはずの当たりを引いたのだから信用してもよいじゃないかと読者諸氏が考えるのであれば、それは各自の自由である。ただし、当初に決めておいた基準(5%)をあとから恣意的に変更するのは、「合格点に1点足りなかったが、ほとんど合格だから、合格と同じようなものであり、すなわち合格である」と主張するようなものである。科学的厳密さには欠ける。
まちがいはどこから
生姜焼き実験データを深掘りした研究者の事例に、福引の例えを当てはめてみれば、「仮説を支持する統計的に有意な結果が得られた」という主張が誇張であることが分かるだろう。しかしこのような間違いは専門誌に掲載された心理学論文にもしばしば見られる。なぜこのような間違いが生じてしまうのだろうか。これは個人的な意見だが、自らの実験データへの“愛”が強すぎることが、研究者の目を曇らせてしまっているように思われる。
心理学実験を1パッケージ実施することには、(生姜焼きを作ることはないにしても)それなりの苦労が伴う。苦心して集めたデータへの愛が強ければ強いほど、そこで実際に生じていたことは何なのか知りたくなるのが人情というものだろう。データを深掘りするという作業は、まさにこの「実際に生じたことは何だったのか」を明らかにしようとする営みである。つまりそれは「歴史的に一度きり生じた事実」について、その詳細を知ろうとする作業である。
そうした作業自体に問題はない。しかし、仮説検定の結果を根拠に何らかの主張をするということは、一度きりの事実についての主張を超えて、「もしも、もう一度同じことを行ったら、このようなことが生じやすい」という一般的な法則を主張することにつながる。それをやってしまったら言い過ぎになるのは、先に説明した通りである。「もしも、もう一度」のアプローチからスタートした研究が、データをより深く知りたいという欲求から「何が生じたのか」というアプローチの研究にすり替わり、しかしそのことに無自覚なまま「もしも」のツール(仮説検定)を使い続けることで、「もしも、もう一度」という一般的な主張をしてしまっているのである。
その間違いに気づくには、どれだけ苦労して集めた実験データであっても、それはたまたま観察された一事例(実験1パッケージ)に過ぎないことを、意識の底まで明確に自覚しておかねばならない。実際のところ、これはかなり困難な要求である。熱意をもって実験に取り組めば取り組むほど、その困難さはいや増しに増すように思われる(11)。
全てまちがいなのか
それではデータを深掘りする作業は、ことごとく過ちなのかと言えば、そのようなことはない。手元のデータを精査して「実際に起きたことは何なのか」を知るという作業は、未だ知らない一般的な法則を見つけ出すための手がかりとなるからである。問題なのは、今回のデータから一般的な法則の存在が実証されたと主張するところにある。見事に西軍の勝利を導いた石田三成推しのタイムリーパーに「関ヶ原の合戦をもう一回やれたとして、鍵は何だったのでしょうか?」と尋ねたとしよう。彼が「色々な条件を考えると、今回については、毛利のとこの輝元さんに出陣してもらえたのが鍵だったのかなと、私は思います。やはり大将の出陣は大きかったかな、と」と言うならば、そこには問題はない。しかし「合戦において大将が出陣しないと負けますね。今回の経験から、それは明らかです」と言ったのならば、仮説検定という科学的ツールの約束ごととしては、言い過ぎということである。
ここに注意すべき点が一つあることに気づいた読者もいるだろう。先に仮説検定を何度も繰り返すと、間違って有意になってしまう確率が高くなると説明した。これは一般に偽陽性と言われるものである。肉屋の肉のほうが美味しいなどという“真実”が存在しなくても、手を変え品を変え分析を繰り返せば、どこかで「肉屋が優れる」という統計的に有意な結果(p < 0.05)が得られるということである。
他方、さきほどの段落では、そうした手を変え品を変えた分析、すなわちデータの深掘りが、一般的な法則を見つけ出す手がかりになると書いている。これは、深掘りによって見つかった“統計的に有意”な結果の中に、偽陽性ではない、真の関係が含まれている可能性があるということを言っている。ここで問題なのは、どれが偽陽性で、どれが真の関係であるかが、手元のデータだけからは判別がつかないことにある。ある統計的に有意な結果(「前半の実験では調理人の腕がいまいちだったので、肉屋とスーパーの差が分かりやすかった」)がどれだけ説得力があるように思われたとしても、それは説得力のある新しい一つの仮説であり、偽陽性かもしれないのである。
「深掘り」にまつわるこの曖昧さが分かるのが、連載第3回で紹介したメニーアナリスツ研究である。一つの仮説について、同じデータを使って、多数の研究者が同時に分析をしてみたところ、真逆の結果がそれぞれ統計的に有意になってしまったというのが、その話であった。残念ながら、仮説検定の理屈からは、真逆の結果のどちらが正しいのか決着がつかない。このことから逆説的に、深掘りから得られた「有意な結果」は、あくまで、これからの検証をまつ新しい仮説にすぎないことが分かるだろう。
多様性にアプローチする
ところで、メニーアナリスツにおいて真逆の結果が有意となった時に、その一方だけが正しく、他方が誤り(偽陽性)であるとも限らない。ここに心理学が扱う問題の難しさがある。データの深掘りをすることは、モヤモヤしたものを様々な方向から切ってみたり、眺めてみることで、その形を把握するようなことだと書いた。そうして眺めた時に、はっきりと円が見えたり、まごうかたなき正方形が見える場合があるかもしれない。その時に「このモヤモヤは円である」という主張と、「これは正方形である」という主張が、それぞれに何かの正しい真の形を同時に反映している可能性はゼロではない。これは人間に関わる事象が極めて複雑な個別性を持つことに起因する。
この話を突き詰めると、心理学はもっと個別性と多様性に丁寧にアプローチするべきではないか、という議論につながる。その方向に進む準備として、まずは一人ひとりの心の違い、すなわち心の個人差を扱ってきた分野――例えばパーソナリティ心理学など――について検討することにしたい。そこでは仮説検定とはまた異なったロジックに依拠した統計手法(因子分析)が多く用いられる。その理屈がどのようなものか、次回は確認してみよう。
注
- 機動戦士Gundam GQuuuuuuX https://www.gundam.info/feature/gquuuuuux/
- 心理学、歴史学それぞれに、もちろん例外もあるだろう。
- 1回の調理ごとに左右のコンロのどちらを肉屋、どちらをスーパーにするかをコインフリップで決めることで、左右のコンロの火力の差などによる影響も統制したいところである。
- ここでは一人で実験を回すことを想定している。複数人で役割分担をして実験を実施すれば、もっと効率的かつ短期的に実施することは可能である。ただしその場合は、協力してくれる実験者を募集し、日程その他を調整するという手間が必要になってくる。
- 「もしも」の二つのレイヤーという表現は心理学研究において一般的なものではない。ここを読んだ読者の皆さんが、心理学者に向けて「皆さんの統計には2つのレイヤーの“もしも”が入っているそうですね」と話しかけても、怪訝な顔をされることは間違いない。あらかじめお断りしておく。
- もっともタイムリープものの主人公たちも、読者や視聴者に見えないところでは、同じ試行を何度も繰り返して「平均処置効果」を求めているのかもしれない。それらが我々に示されないのは、単なる尺の都合である可能性も、否定はできない。
- エンドレスエイト(『涼宮ハルヒの憂鬱』)をさらに繰り返せと言われたら、うんざりする視聴者は少なくないだろう。
- p値は調整されていないものとする。
- 前回も書いたが、このような統計(数学)から日常言語への翻訳には、翻訳につきものの間違いやズレがつきものである。正確な理解は専門書をあたられたい。
- 5回全てで当たりが出ない確率(0.95の5乗)を1から引いた値となる(1-(0.95^5)≒0.23)。しかしこれは二人目の“天才”が最初から5回まわすつもりだった場合の計算である。なお、1回ごとに玉を戻す(当たり確率は5%で変化しない)ものとする。
- それゆえ、研究者個人の自覚を促すだけでなく、研究制度の中にそうした間違いを予防する仕組みを埋め込んでおくことが求められる。そのようなものの一つとして研究計画の事前登録制度を挙げることができる。
Nosek, B. A., Ebersole, C. R., DeHaven, A. C., & Mellor, D. T. (2018). The preregistration revolution. PNAS, 115(11), 2600–2606. https://doi.org/10.1073/pnas.1708274114