大久保街亜
帰無仮説検定と再現可能性
Null hypothesis significance testing and reproducibility
【論文PDF】
Although null hypothesis significance testing has been strongly criticized for decades, it has been the dominant statistical method in the field of psychology. Irreproducibility of findings in psychology can be attributed, at least partially, to an arbitrary threshold (i.e., .05) in null hypothesis significance testing and overrepresentation of p values. The present study surveyed papers from Japanese Journal of Social Psychology and examined whether or not the overrepresentation existed as well in psychology research in Japan. Effect size measures and p values did not correspond well when p values were at around .05. Moreover, frequency of p values at just below .05 was larger than expected. These results imply that the overrepresentation of p values can produce unreliable and irreproducible results. Two types of remedies were discussed to alleviate the problems of the overrepresentation of p values.
Key words: null hypothesis significance testing, p value, effect size, Bayesian statistics
帰無仮説検定は長らく厳しい批判にさらされてきた。それにも関わらず,現在でも心理学において支配的な統計手法である。帰無仮説検定における恣意的な有意水準とp値への過度な依存は心理学における再現可能性の低さに関わる可能性がある。本研究では,日本社会心理学会が発行する論文誌である社会心理学研究を対象に調査を行い,そのような過度な依存が,日本の心理学にも存在するか検討した。その結果,効果量とp値の解釈には,特にp値が有意水準周辺のとき齟齬があった。さらに有意水準のすぐ下のp値の報告はスパイク状に増加した。これらの結果はp値への過度な依存が信頼できず再現もできない結果につながることを示唆している。これらの結果を受けて,本研究では過度の依存を解決するための2つのアプローチについて議論した。