Professional Documents
Culture Documents
Wisnu Wiradhany1, Krisna Adiasto2, Jony Eko Yulianto3,4, & Indra Y. Kiling5
1 Departemen Psikologi, Fakultas Ilmu Perilaku dan Ilmu Sosial, University of Groningen,
2Behavioural Science Institute, Radboud University, 3Fakultas Psikologi, Universitas
Abstract. The lack of knowledge on how to determine sample sizes in experiments is arguably
one of the main reasons underlying the replication crisis in psychological science. We
distributed a survey to Indonesian students and researchers concerning 1) familiarity and
understanding of statistical concepts related to sample size determination, 2) current sample
size determination practices in experiments, and 3) ideal sample sizes for experiments.
Subsequently, we simulated expected statistical power given the sample sizes reported in the
survey. The results demonstrated that 1) while a majority of participants were somewhat
familiar with statistical concepts related to sample size determination, they did not always
endorse the correct and/or complete definition of each concept. Furthermore, 2) our participants
relied on practical considerations in determining sample sizes. Consequently, 3) the reported
sample sizes did not have sufficient power to detect small to medium effect sizes, which are
commonly present in psychological science.
Keywords: effect size; replication crisis; sample size; statistical power
Abstrak. Salah satu kendala utama yang melatarbelakangi krisis replikasi dalam psikologi
adalah kurangnya pemahaman peneliti psikologi mengenai besaran sampel ideal dalam
penelitian. Survei disebarkan kepada 354 mahasiswa dan peneliti psikologi untuk menanyakan
1) familiaritas dan pemahaman mengenai konsep-konsep statistika terkait penentuan besaran
sampel, 2) kebiasaan menentukan besaran sampel penelitian, dan 3) pendapat mengenai
besaran sampel ideal. Selanjutnya, menggunakan besaran sampel yang dilaporkan untuk
mensimulasikan capaian kekuatan uji statistik (power). Hasil penelitian menunjukkan bahwa 1)
sebagian besar mahasiswa dan peneliti psikologi familiar dengan konsep-konsep statistika yang
erat kaitannya dengan penentuan besaran sampel, namun memiliki pemahaman yang keliru
dan/atau tidak utuh mengenai konsep-konsep tersebut, dan 2) mereka mengandalkan
pertimbangan pragmatis dalam menentukan besaran sampel. Akibatnya, 3) besaran sampel
yang dianggap ideal tidak memiliki kekuatan uji statistik yang cukup untuk mendeteksi
besaran efek kecil dan sedang, yang umum ditemukan dalam penelitian-penelitian psikologi.
Kata kunci: besaran efek; besaran sampel; kekuatan uji statistik; krisis replikasi
Hasil penelitian kolaboratif Open Science kemungkinan lebih besar untuk dipubli-
Collaboration yang diterbitkan di jurnal kasikan di jurnal-jurnal ilmiah (Ioannidis,
ilmiah Science melaporkan bahwa pene- 2005; Ioannidis, Munafò, Fusar-Poli, Nosek,
litian Psikologi dalam jurnal ilmiah & David, 2014); cherry picking, yakni dengan
berindeks tinggi yang hasilnya dapat sengaja hanya melaporkan hasil
direplikasi hanya mencapai 36%. Artinya, eksperimen yang signifikan secara statistik;
hampir dua per tiga dari temuan ilmiah dan p-hacking, yakni melakukan analisis
yang dilaporkan tidak dapat direproduksi inferensial berulang-ulang setiap
secara independen (Open Science pengumpulan data hingga menemukan
Collaboration, 2015). Artikel tersebut hasil yang signifikan secara statistik
membuktikan bahwa Psikologi sebagai (Rouder, 2014; Simmons, Nelson, &
bidang ilmu juga mengalami krisis Simonsohn, 2011). Praktik-praktik di atas
replikasi dalam sains (Button et al., 2013; menimbulkan “bias positif” terhadap
Ioannidis, 2005; Lindsay, 2015, untuk temuan-temuan yang dilaporkan dalam
pembahasan krisis replikasi dalam sains), artikel ilmiah. Artinya, artikel-artikel
dan menambah panjang daftar bidang ilmiah yang dipublikasikan cenderung
keilmuan yang hasil penelitiannya tidak melaporkan temuan positif (signifikan
dapat direplikasi (Button et al., 2013, untuk secara statistik) secara berlebihan dan/atau
replikasi penelitian dalam neurosains, dan tidak proporsional secara matematis
Ioannidis, Ntzani, Trikalinos, & (Ioannidis, 2005). Perlu diketahui bahwa
Contopoulos-Ioannidis (2001) untuk repli- rasio temuan positif dan temuan negatif
kasi penelitian dalam biologi molekuler). yang dilaporkan terus meningkat dalam
Temuan ilmiah yang tidak dapat direpli- setengah abad terakhir (Ioannidis et al.,
kasi memiliki dampak yang fatal. Bukan 2014).
saja sumber daya finansial yang besaran- Jenis masalah kedua bersifat lebih
nya tidak sedikit terbuang sia-sia, hasil teknis, yakni menyangkut minimnya
penelitian yang tidak dapat direplikasi juga pengetahuan peneliti mengenai analisis
berpotensi menimbulkan masalah ketika statistik inferensial (Badenes-Ribera, Frias-
digunakan sebagai acuan pembuatan Navarro, Iotti, Bonilla-Campos, &
kebijakan. Sebagai contoh, dalam bidang Longobardi, 2016; Badenes-Ribera, Frías-
kedokteran dan farmasi, hasil penelitian Navarro, Monterde-I-Bort, & Pascual-Soler,
yang tidak dapat direplikasi berpotensi 2015; Gigerenzer, 2004; Hoekstra, Morey,
menghasilkan obat-obatan yang memiliki Rouder, & Wagenmakers, 2014) dan
dampak negatif (Simonsohn, Nelson, & eksploitasi statistik inferensial untuk
Simmons, 2014). mendapatkan temuan positif (Simonsohn et
Secara umum, krisis replikasi dalam al., 2014). Secara spesifik, kurangnya
sains dan, secara spesifik, dalam psikologi pemahaman peneliti mengenai uji statistik
dilatarbelakangi dua jenis masalah. Jenis inferensial menyebabkan sebagian besar
masalah pertama meliputi praktik-praktik temuan ilmiah memiliki kekuatan uji
yang melanggar kaidah etika penelitian statistik (statistical power) yang rendah,
(Questionable Research Practices; QRP). sebagai konsekuensi penentuan besaran
Praktik-praktik tersebut mencakup bias sampel penelitian yang tidak ideal (Bakker,
publikasi (publication bias), yakni anggapan Hartgerink, Wicherts, & van der Maas,
bahwa penelitian yang melaporkan perbe- 2016; Button et al., 2013). Padahal, kekuatan
daan signifikan secara statistik memiliki uji statistik, yakni probabilitas jangka
signifikansi, besaran efek, dan kekuatan uji statistik inferensial tradisional merupakan
statistik. kontrol terhadap kesalahan Tipe II atau
disebut juga sebagai false negatives (Cohen,
Kriteria signifikansi 1988, 1992a, 1992b) (1- β), sebagaimana nilai
p merupakan kontrol terhadap kesalahan
Dalam NHST, kesalahan Tipe I dilam-
Tipe I. Sebagian besar penelitian Psikologi
bangkan dengan simbol α (alfa), dan
dan humaniora memberikan toleransi 20%
merupakan probabilitas jangka panjang
terjadinya kesalahan Tipe II, sehingga
sebuah penelitian menolak hipotesis nihil,
penelitian-penelitian tersebut memiliki
ketika hipotesis nihil benar. Sebagian besar
kekuatan uji statistik sebesar 80% (Cohen,
penelitian Psikologi dan humaniora mem-
1990). Artinya, dalam observasi (baca:
berikan toleransi 5% (α = 0.05) terhadap
pengambilan data) yang dilakukan berkali-
terjadinya kesalahan Tipe I atau atau biasa
kali dengan batas tidak terhingga, terdapat
disebut false positives (Cohen, 1988, 1992a,
kemungkinan 80% atau lebih untuk
1992b). Artinya, dalam observasi (baca:
menyimpulkan bahwa suatu efek tidak
pengambilan data) yang dilakukan berkali-
ada, ketika efek tersebut memang tidak
kali dengan batas tidak terhingga, terdapat
ada.
kemungkinan 5% atau kurang bahwa efek
yang ditemukan dalam observasi Sebagai ilustrasi, dalam skenario intan
sebenarnya tidak ada. Dalam praktiknya, dan kerikil, Anda mengambil intan, dan
toleransi terhadap kesalahan Tipe I menebaknya sebagai kerikil. Dalam
dilambangkan dengan p (baca: nilai p), skenario terapi psikologis, Anda baru saja
sehingga nilai p di bawah 0,05 (di bawah menyimpulkan bahwa terapi Anda tidak
batas toleransi) dianggap sebagai temuan memiliki efek positif, padahal terapi
yang signifikan dan sebaliknya. tersebut memiliki efek positif.
Sebagai ilustrasi, bayangkan sebuah
Besaran efek
skenario di mana Anda diminta mengambil
sebutir intan dari sebuah kaleng yang berisi Besaran efek (effect size) menunjukkan
intan dan kerikil tanpa melihat isi kaleng. perbedaan terstandar antara nilai observasi
Tergantung kemampuan Anda dari kelompok kontrol dan eksperimen
membedakan tekstur antara intan dan (Durlak, 2009; Lakens, 2013). Dalam
kerikil, Anda melakukan kesalahan Tipe I penelitian, peneliti tidak hanya tertarik
ketika mengambil kerikil dan menebaknya apakah perbedaan antara kelompok
sebagai intan. Dalam skenario terapi yang kontrol dan eksperimen lebih besar dari nol
dijelaskan sebelumnya, Anda menyimpul- (kontrol terhadap kesalahan Tipe I), namun
kan bahwa terapi Anda memiliki efek juga seberapa besar perbedaan antara
positif, padahal terapi tersebut tidak kelompok kontrol dan kelompok
memiliki efek positif. eksperimen. Tergantung dari pertanyaan
penelitian, perbedaan terstandar antara
Kekuatan uji statistik/statistical power kelompok kontrol dan eksperimen dapat
diukur menggunakan parameter yang
Dalam NHST, kesalahan Tipe II dilam-
berbeda. Dalam skenario intan dan kerikil
bangkan dengan simbol β (beta), dan
misalnya, besaran efek dapat diukur
merupakan probabilitas jangka panjang
berdasarkan perbedaan rasio frekuensi
sebuah penelitian gagal menolak hipotesis
antara kelompok kontrol dan kelompok
nihil, ketika hipotesis nihil tidak benar.
eksperimen. Dalam skenario terapi
Kekuatan uji statistik (power) dalam
psikologis, perbedaan dapat diukur dari yang lebih besar, dengan perbedaan antara
rerata skor kesejahteraan hidup antara kelompok kontrol dan eksperimen sebesar
kelompok eksperimen (diberi terapi) dan 0,82 standar deviasi dibandingkan
kelompok kontrol (tidak diberi terapi). penelitian kedua, d = 0,27 atau 0,27 standar
Besaran efek merupakan satuan deviasi. Kesimpulan tersebut terlepas dari
standar. Artinya, besaran efek dapat ada tidaknya kontrol terhadap kesalahan
dibandingkan antar beberapa skala yang Tipe I dan II yang digunakan dalam
berbeda dan dapat dibandingkan antar penelitian-penelitian tersebut.
beberapa penelitian dengan besaran
sampel yang berbeda-beda. Sebagai Besaran sampel
ilustrasi, bayangkan dua penelitian yang Besaran sampel dalam NHST dapat
bertujuan mengukur efek terapi psikologis dihitung dengan memanfaatkan dinamika
terhadap kesejahteraan hidup. Penelitian relasi antara parameter-parameter yang
pertama menggunakan pengukuran telah dijabarkan di paragraf-paragraf
kesejahteraan hidup dengan skala 1-5 sebelumnya. Penghitungan besaran sampel
sedangkan penelitian kedua menggunakan untuk uji t dua kelompok independen
pengukuran kesejahteraan hidup dengan adalah sebagai berikut.
skala 1-100. Penelitian pertama melaporkan
𝑍1−𝛼⁄2 +𝑍1−𝛽 2
rerata kelompok kontrol = 3 (SD = 0,07) dan 𝑛𝑖 = 2 ( ) (3)
𝑑
rerata kelompok eksperimen = 3.5
(SD=0,05). Penelitian kedua melaporkan di mana ni merupakan besaran sampel tiap-
rerata kelompok kontrol = 62 (SD = 19) dan tiap kelompok, z merupakan skor z dari
rerata kelompok eksperimen = 68 (SD = 25). distribusi normal di bawah probabilitas 1-
Besaran efek diperoleh melalui α/2 dan 1-β, dan d merupakan besaran efek.
penghitungan berikut: Sebagai ilustrasi, jika kita menentukan
𝑋´1 −𝑋´2 parameter kriteria signifikansi, α = 0,05,
𝑑= 𝑆𝑤𝑖𝑡ℎ𝑖𝑛
(1)
two-tailed dan power, 1-β = 0,80 dan
mengharapkan besaran efek sebesar 0,5
Pada penghitungan (1), d merupakan
standar deviasi maka dapat dihitung Z1-α/2 =
perbedaan rerata standar antar dua
1,960 dan Z1-β = 0,842 (menggunakan tabel
kelompok dengan satuan standar deviasi,
distribusi normal) sehingga diperoleh
sedangkan 𝑋´1 dan 𝑋´2 merupakan rerata
besaran sampel 2*((1,960+0,842)/0,5)^2 = ~
skor dari kelompok eksperimen dan
63 partisipan per kelompok. Formula yang
kelompok kontrol. Penyebut Swithin meru-
sama dapat digunakan untuk menghitung
pakan simpangan baku dalam kelompok,
kekuatan uji statistik, besaran efek, atau
yang dihitung sebagai berikut:
kriteria signifikansi jika tiga parameter
(𝑛1 −1)𝑆12 +(𝑛2 −1)𝑆22 lainnya diketahui. Sebagai ilustrasi, sebuah
𝑆𝑤𝑖𝑡ℎ𝑖𝑛 = √ 𝑛2 +𝑛2 −2
(2)
penelitian dengan jumlah sampel 30 per
kelompok dengan besaran efek sebesar 0,5
Pada penghitungan (2), S1 dan S2 dan kriteria signifikansi 0,05 memiliki
merupakan standar kesalahan di penelitian power sebesar 0,478. Artinya, penelitian
pertama dan kedua, sedangkan n1 dan n2 dengan sampel 30 partisipan memiliki taraf
merupakan besaran sampel di penelitian kesalahan Tipe II sebesar 52,2%. Dengan
pertama dan kedua. Berdasarkan hasil kata lain, terdapat 52,2% kemungkinan
penghitungan, dapat disimpulkan bahwa dalam penelitian ini untuk menolak
penelitian pertama menemukan efek terapi
hipotesis nihil, padahal hipotesis nihil bintang (besaran efek yang kecil),
tersebut benar! Taraf kesalahan sebesar dibutuhkan alat bantu lihat yang lebih
52,2% ini melebihi toleransi kesalahan Tipe sensitif (besaran sampel yang besar).
II sebesar 20% dalam sebagian besar Kedua, besaran efek memiliki relasi
penelitian Psikologi dan humaniora. eksponensial dengan besaran sampel.
Menggunakan penghitungan (3), Ketika besaran efek yang diharapkan kecil,
dengan asumsi kriteria signifikansi α dan maka besaran sampel yang dibutuhkan
kekuatan uji statistik 1-β konstan, dapat untuk mendeteksi suatu efek bertambah
dibuat grafik relasi antara besaran efek dan secara eksponensial menjadi sangat besar
besaran sampel dalam analisis t-test dua dan sebaliknya.
kelompok independen sebagai berikut Dalam banyak penelitian psikologi
(Gambar 1). dan humaniora, peneliti mengontrol taraf
Terdapat beberapa hal yang perlu kesalahan Tipe I, namun tidak mengontrol
diperhatikan dari Gambar 1. Pertama, taraf kesalahan Tipe II dan tidak
ketika kesalahan Tipe I dan II dikontrol, mempertimbangkan besaran efek dalam
besaran efek memiliki relasi negatif dengan pengambilan keputusan (Bakker, van Dijk,
besaran sampel. Untuk mendeteksi besaran & Wicherts, 2012; Gigerenzer, 2004). Ketika
efek yang kecil, dibutuhkan sampel yang taraf kesalahan Tipe II tidak dikontrol,
lebih banyak dan sebaliknya. Sebagai besaran efek yang terhitung biasanya
analogi yang sederhana, penggunaan mata merupakan overestimasi, dan ketika
telanjang cukup untuk melihat benda- besaran efek ini digunakan untuk
benda langit yang dekat seperti bulan menghitung kekuatan uji statistik dalam
(besaran efek yang besar), namun untuk penelitian replikasi, hasil penelitian
benda-benda langit yang jauh seperti sebagian besar tidak mereplikasi temuan
sebelumnya (Button et al., 2013; Ioannidis,
Gambar 1. Relasi antara besaran efek dan besaran sampel dengan α = .05 dan 1-β = 20
Tabel 1.
Latar Belakang Partisipan
Mahasiswa Dosen Dosen (Bukan Dosen Dosen (Bukan Peneliti Peneliti (Bukan
(Stat) Stat) (MetPen) MetPen) (Psi) Psi)
Jumlah 114 4 13 11 11 21 19
% 75.49 2.65 8.61 7.29 7.29 13.91 12.58
Tabel 2
Pendidikan Partisipan
Tabel 3
Pengalaman Responden dalam Aplikasi Ilmu-ilmu Statistika
Tabel 4.
Familiaritas dengan Istilah-istilah Statistika
Gambar 4. Sebaran dukungan partisipan terhadap pernyataan mengenai kekuatan uji statistik.
Keterangan: Warna balok berkorespondensi dengan kebenaran pernyataan
dengan hijau = benar dan merah = salah.
Gambar 7. Simulasi kekuatan uji statistik menggunakan besaran sampel menurut partisipan pada
kriteria signifikansi alfa = 0,05.
Keterangan: Garis titik-titik horizontal menunjukkan power = 0,80 dan garis abu-abu menunjukkan
rerata besaran efek dalam penelitian Psikologi yang dilaporkan oleh
Open Science Collaboration, d = 0,403.
yang kecil yang layak dipublikasikan (bias merupakan indikasi bahwa partisipan
positif) atau dengan dalih bahwa peneliti memiliki pemahaman yang tepat (Dufresne,
lain dari universitas ternama pun Leonard, & Gerace, 2002), karena partisipan
menginterpretasi nilai p secara berlebihan dapat menggunakan petunjuk-petunjuk
(Badenes-Ribera et al., 2015). seperti letak pernyataan dan jumlah kata
Dari 151 partisipan, hanya empat dalam pernyataan untuk membantu
partisipan yang menunjukkan pemahaman menentukan jawaban yang benar. Attali
yang utuh mengenai batasan interpretasi dan Bar-Hillel, (2003) dalam penelitiannya
nilai p seperti yang dibahas di atas. Artinya, menunjukkan bahwa pembuat soal
sebagian besar partisipan, baik mahasiswa memiliki kecenderungan menempatkan
maupun peneliti dan dosen, memiliki jawaban yang salah di pernyataan yang
pemahaman yang keliru atau tidak utuh letaknya di tengah. Hal ini dapat digunakan
mengenai nilai p. Menariknya, tidak untuk membantu menebak jawaban yang
terdapat perbedaan yang signifikan antara benar. Lebih lanjut, seperti respon terhadap
respon mengenai pemahaman nilai p antara pemahaman mengenai nilai p, jumlah
mahasiswa S1 dengan dosen dan peneliti. partisipan yang mendukung pernyataan
Lagi-lagi, ini bukan temuan yang baru yang tepat namun tidak pernyataan yang
(Badenes-Ribera et al., 2016, 2015; lain relatif sedikit, yakni 34 partisipan untuk
Gigerenzer, 2004). Temuan ini dapat pertanyaan mengenai besaran efek dan 15
diinterpretasikan sebagai mahasiswa partisipan untuk pernyataan mengenai
mempelajari pemahaman nilai p yang kekuatan uji statistik. Seperti respon
keliru dari dosennya (lih. Gigerenzer, 2004). terhadap pemahaman mengenai nilai p,
Lebih lanjut, peneliti dan dosen temuan ini menunjukkan bahwa partisipan
kemungkinan besar mempelajari tidak memiliki pemahaman yang utuh
pemahaman yang keliru ini di bangku mengenai besaran efek dan kekuatan uji
kuliah (Wasserstein & Lazar, 2016), statistik.
menciptakan siklus kekeliruan yang terus Penelitian ini menyiratkan bahwa
berkelanjutan. Memperparah kondisi ini, kekuatan uji statistik merupakan isu yang
buku teks statistika yang digunakan di telah lama diabaikan dalam penelitian
psikologi seringkali mendeskripsikan psikologi. Banyak buku teks statistika
interpretasi nilai p yang cenderung dalam psikologi berfokus pada pentingnya
menyesatkan, seperti “probabilitas bahwa kontrol terhadap eror Tipe I (α), namun
perbedaan yang diobservasi adalah nyata” sedikit atau tidak sama sekali membahas
atau “dalam 95 atau lebih dari 100 kontrol terhadap eror Tipe II atau kekuatan
pengambilan data, dapat diobservasi per- uji statistik dalam uji hipotesis (Gigerenzer,
bedaan tersebut” (lih. Gigerenzer, 2004). 2004). Tidak seperti pemahaman yang
Paradoks kedua, sebagian besar parti- keliru mengenai nilai p yang diakibatkan
sipan mengaku tidak familiar terhadap sulitnya menginterpretasikan nilai p secara
besaran efek dan power, namun secara tepat, kekeliruan pemahaman terhadap
mengejutkan, mereka mendukung pernya- kekuatan uji statistik dan besaran efek bisa
taan yang tepat mengenai makna dari saja diakibatkan oleh ketidaktahuan dan
besaran efek dan power. Perlu diingat bahwa bukan pemahaman yang salah.
dalam soal pilihan ganda seperti yang Terakhir, besaran sampel yang
peneliti gunakan dalam penelitian ini, dilaporkan partisipan (rata-rata antara 26-
menjawab pertanyaan dengan tepat hanya 33 responden per kelompok) tidak cukup
bias dan/atau kekuatan uji statistik yang Psychological Science, 7(6), 543–554. doi:
tidak optimal, penting bagi dosen dan 10.1177/1745691612459060
peneliti untuk mempelajari kembali Button, K. S., Ioannidis, J. P. A., Mokrysz, C.,
konsep-konsep mengenai besaran efek, Nosek, B. A., Flint, J., Robinson, E. S. J.,
besaran sampel, dan kekuatan uji statistik, & Munafò, M. R. (2013). Power failure:
serta memperkenalkannya dalam kelas- Why small sample size undermines the
kelas statistika. Selain itu, temuan reliability of neuroscience. Nature
penelitian ini juga menunjukkan perlunya Reviews. Neuroscience, 14(5), 365–76. doi:
merancang mekanisme aktivitas berbagi 10.1038/nrn3475
pengetahuan melalui forum-forum akade- Champely, S. (2009). Package “pwr.”
mik bidang psikometri dan statistika October, 1–21.
sebagai wadah meningkatkan kualitas
Cohen, J. (1988). Statistical power analysis for
penelitian dalam bidang psikologi.
the behavioral sciences. United State of
America: Lawrence Erlbaum
Kepustakaan Associates. Retrieved from
http://www.utstat.toronto.edu/~brunne
Attali, Y., & Bar-Hillel, M. (2003). Guess r/oldclass/378f16/readings/CohenPowe
where: The position of correct answers r.pdf
in multiple-choice test items as a
Cohen, J. (1990). Things I have learned (so
psychometric variable. Journal of
far). American Psychologist, 45(12), 1304-
Educational Measurement, 40(2), 109–128.
1312. doi: 10.1037/0003-066X.45.12.1304
doi: 10.1111/j.1745-3984.2003.tb01099.x
Cohen, J. (1992a). A power primer.
Badenes-Ribera, L., Frias-Navarro, D., Iotti,
Psychological Bulletin, 112(1), 155–159.
B., Bonilla-Campos, A., & Longobardi,
doi: 10.1037/0033-2909.112.1.155
C. (2016). Misconceptions of the p-value
Cohen, J. (1992b). Statistical power analysis.
among Chilean and Italian academic
Psychological Science. doi: 10.1111/1467-
psychologists. Frontiers in Psychology,
8721.ep10768783
7(August), 1247. doi:
10.3389/fpsyg.2016.01247 Dufresne, R. J., Leonard, W. J., & Gerace, W.
J. (2002). Making sense of students ’
Badenes-Ribera, L., Frías-Navarro, D.,
answers to multiple-choice questions.
Monterde-I-Bort, H., & Pascual-Soler,
The Physics Teacher, 40(March), 174–180.
M. (2015). Interpretation of the p value:
A national survey study in academic Durlak, J. A. (2009). How to select, calculate,
psychologists from spain. Psicothema, and interpret effect sizes. Journal of
27(3), 290–295. doi: Pediatric Psychology, 34(9), 917–928. doi:
10.7334/psicothema2014.283 10.1093/jpepsy/jsp004
Bakker, M., Hartgerink, C. H. J., Wicherts, J. Gigerenzer, G. (2004). Mindless statistics.
M., & van der Maas, H. L. J. (2016). Journal of Socio-Economics, 33(5), 587–
Researchers intuitions about power in 606. doi: 10.1016/j.socec.2004.09.033
psychological research. Psychological Hoekstra, R., Morey, R. D., Rouder, J. N., &
Science. doi: 10.1177/0956797616647519 Wagenmakers, E.-J. (2014). Robust
Bakker, M., van Dijk, A., & Wicherts, J. M. misinterpretation of confidence
(2012). The rules of the game called intervals. Psychonomic Bulletin & Review,
psychological science. Perspectives on 21(5), 1157–1164. doi: 10.3758/s13423-
013-0572-3