You are on page 1of 18

Jurnal Psikologi ISSN 0215-8884 (print)

Volume 46, Nomor 2, 2019: 163 – 180 ISSN 2460-867X (Online)


DOI: 10.22146/jpsi.24260 https://jurnal.ugm.ac.id/jpsi

Pemahaman Peneliti dan Mahasiswa Psikologi mengenai


Besaran Sampel: Data dan Simulasi
On How Indonesian Psychological Researchers and Students
Understand Sample Size Calculation: Data and Simulation

Wisnu Wiradhany1, Krisna Adiasto2, Jony Eko Yulianto3,4, & Indra Y. Kiling5
1 Departemen Psikologi, Fakultas Ilmu Perilaku dan Ilmu Sosial, University of Groningen,
2Behavioural Science Institute, Radboud University, 3Fakultas Psikologi, Universitas

Ciputra, 4School of Psychology, Massey University, 5Prodi Psikologi, Fakultas Kesehatan


Masyarakat, Universitas Nusa Cendana

Abstract. The lack of knowledge on how to determine sample sizes in experiments is arguably
one of the main reasons underlying the replication crisis in psychological science. We
distributed a survey to Indonesian students and researchers concerning 1) familiarity and
understanding of statistical concepts related to sample size determination, 2) current sample
size determination practices in experiments, and 3) ideal sample sizes for experiments.
Subsequently, we simulated expected statistical power given the sample sizes reported in the
survey. The results demonstrated that 1) while a majority of participants were somewhat
familiar with statistical concepts related to sample size determination, they did not always
endorse the correct and/or complete definition of each concept. Furthermore, 2) our participants
relied on practical considerations in determining sample sizes. Consequently, 3) the reported
sample sizes did not have sufficient power to detect small to medium effect sizes, which are
commonly present in psychological science.
Keywords: effect size; replication crisis; sample size; statistical power

Abstrak. Salah satu kendala utama yang melatarbelakangi krisis replikasi dalam psikologi
adalah kurangnya pemahaman peneliti psikologi mengenai besaran sampel ideal dalam
penelitian. Survei disebarkan kepada 354 mahasiswa dan peneliti psikologi untuk menanyakan
1) familiaritas dan pemahaman mengenai konsep-konsep statistika terkait penentuan besaran
sampel, 2) kebiasaan menentukan besaran sampel penelitian, dan 3) pendapat mengenai
besaran sampel ideal. Selanjutnya, menggunakan besaran sampel yang dilaporkan untuk
mensimulasikan capaian kekuatan uji statistik (power). Hasil penelitian menunjukkan bahwa 1)
sebagian besar mahasiswa dan peneliti psikologi familiar dengan konsep-konsep statistika yang
erat kaitannya dengan penentuan besaran sampel, namun memiliki pemahaman yang keliru
dan/atau tidak utuh mengenai konsep-konsep tersebut, dan 2) mereka mengandalkan
pertimbangan pragmatis dalam menentukan besaran sampel. Akibatnya, 3) besaran sampel
yang dianggap ideal tidak memiliki kekuatan uji statistik yang cukup untuk mendeteksi
besaran efek kecil dan sedang, yang umum ditemukan dalam penelitian-penelitian psikologi.
Kata kunci: besaran efek; besaran sampel; kekuatan uji statistik; krisis replikasi

1 Korespondensi mengenai artikel ini dapat melalui: w.wiradhany@rug.nl

JURNAL PSIKOLOGI 163


WIRADHANY, DKK.

Hasil penelitian kolaboratif Open Science kemungkinan lebih besar untuk dipubli-
Collaboration yang diterbitkan di jurnal kasikan di jurnal-jurnal ilmiah (Ioannidis,
ilmiah Science melaporkan bahwa pene- 2005; Ioannidis, Munafò, Fusar-Poli, Nosek,
litian Psikologi dalam jurnal ilmiah & David, 2014); cherry picking, yakni dengan
berindeks tinggi yang hasilnya dapat sengaja hanya melaporkan hasil
direplikasi hanya mencapai 36%. Artinya, eksperimen yang signifikan secara statistik;
hampir dua per tiga dari temuan ilmiah dan p-hacking, yakni melakukan analisis
yang dilaporkan tidak dapat direproduksi inferensial berulang-ulang setiap
secara independen (Open Science pengumpulan data hingga menemukan
Collaboration, 2015). Artikel tersebut hasil yang signifikan secara statistik
membuktikan bahwa Psikologi sebagai (Rouder, 2014; Simmons, Nelson, &
bidang ilmu juga mengalami krisis Simonsohn, 2011). Praktik-praktik di atas
replikasi dalam sains (Button et al., 2013; menimbulkan “bias positif” terhadap
Ioannidis, 2005; Lindsay, 2015, untuk temuan-temuan yang dilaporkan dalam
pembahasan krisis replikasi dalam sains), artikel ilmiah. Artinya, artikel-artikel
dan menambah panjang daftar bidang ilmiah yang dipublikasikan cenderung
keilmuan yang hasil penelitiannya tidak melaporkan temuan positif (signifikan
dapat direplikasi (Button et al., 2013, untuk secara statistik) secara berlebihan dan/atau
replikasi penelitian dalam neurosains, dan tidak proporsional secara matematis
Ioannidis, Ntzani, Trikalinos, & (Ioannidis, 2005). Perlu diketahui bahwa
Contopoulos-Ioannidis (2001) untuk repli- rasio temuan positif dan temuan negatif
kasi penelitian dalam biologi molekuler). yang dilaporkan terus meningkat dalam
Temuan ilmiah yang tidak dapat direpli- setengah abad terakhir (Ioannidis et al.,
kasi memiliki dampak yang fatal. Bukan 2014).
saja sumber daya finansial yang besaran- Jenis masalah kedua bersifat lebih
nya tidak sedikit terbuang sia-sia, hasil teknis, yakni menyangkut minimnya
penelitian yang tidak dapat direplikasi juga pengetahuan peneliti mengenai analisis
berpotensi menimbulkan masalah ketika statistik inferensial (Badenes-Ribera, Frias-
digunakan sebagai acuan pembuatan Navarro, Iotti, Bonilla-Campos, &
kebijakan. Sebagai contoh, dalam bidang Longobardi, 2016; Badenes-Ribera, Frías-
kedokteran dan farmasi, hasil penelitian Navarro, Monterde-I-Bort, & Pascual-Soler,
yang tidak dapat direplikasi berpotensi 2015; Gigerenzer, 2004; Hoekstra, Morey,
menghasilkan obat-obatan yang memiliki Rouder, & Wagenmakers, 2014) dan
dampak negatif (Simonsohn, Nelson, & eksploitasi statistik inferensial untuk
Simmons, 2014). mendapatkan temuan positif (Simonsohn et
Secara umum, krisis replikasi dalam al., 2014). Secara spesifik, kurangnya
sains dan, secara spesifik, dalam psikologi pemahaman peneliti mengenai uji statistik
dilatarbelakangi dua jenis masalah. Jenis inferensial menyebabkan sebagian besar
masalah pertama meliputi praktik-praktik temuan ilmiah memiliki kekuatan uji
yang melanggar kaidah etika penelitian statistik (statistical power) yang rendah,
(Questionable Research Practices; QRP). sebagai konsekuensi penentuan besaran
Praktik-praktik tersebut mencakup bias sampel penelitian yang tidak ideal (Bakker,
publikasi (publication bias), yakni anggapan Hartgerink, Wicherts, & van der Maas,
bahwa penelitian yang melaporkan perbe- 2016; Button et al., 2013). Padahal, kekuatan
daan signifikan secara statistik memiliki uji statistik, yakni probabilitas jangka

164 JURNAL PSIKOLOGI


PEMAHAMAN PENELITI PSIKOLOGI MENGENAI BESARAN SAMPEL

panjang untuk menyimpulkan bahwa klien. Secara operasional, peneliti tersebut


suatu efek tidak ada ketika efek tersebut hendak menguji apakah skor well-being
benar tidak ada untuk besaran efek (effect kelompok eksperimen (yang diberi terapi)
size) dan jumlah sampel tertentu (Cohen, lebih tinggi dari skor well-being kelompok
1992a), berkaitan erat dengan probabilitas kontrol.
jangka panjang mereplikasi temuan ilmiah Kerangka statistik inferensial tradisio-
(Button et al., 2013). Kekuatan uji statistik nal tidak memungkinkan pengujian seperti
memiliki relasi yang erat dengan besaran di atas (baca bagian "The Fisherian Legacy",
sampel dan besaran efek. Deteksi besaran Cohen, 1990). Sebaliknya, statistik
efek kecil membutuhkan sampel besar inferensial tradisional memungkinkan uji
untuk mencapai kekuatan uji yang tinggi, statistik yang disebut Null Hypothesis
dan demikian pula sebaliknya (lihat Significance Testing (NHST). Dalam NHST,
Gambar 1). peneliti membangun hipotesis nihil, yang
Artikel ini bertujuan mengevaluasi umumnya merupakan negasi dari hipotesis
permasalahan kedua, yakni tingkat pema- yang hendak diuji peneliti. Menggunakan
haman mahasiswa dan peneliti psikologi di contoh terapi well-being di atas, formulasi
Indonesia mengenai statistik inferensial. hipotesis nihil dapat berupa: skor
Secara lebih spesifik, peneliti hendak kesejahteraan hidup dari kelompok
mengevaluasi sejauh mana pemahaman eksperimen sama atau lebih rendah dari
mahasiswa dan peneliti psikologi kelompok kontrol (H0: WBe ≤ WBk). Peneliti
mengenai konsep-konsep statistika yang kemudian melakukan pengambilan data
erat kaitannya dengan penentuan besaran (msl. mengukur skor well-being pasca
sampel, yakni besaran efek, kekuatan uji terapi), dan menghitung probabilitas
statistik, dan kriteria signifikansi. Selain jangka panjang data tersebut muncul di
itu, terlepas dari pemahaman mereka bawah hipotesis nihil, misalnya menggu-
terhadap konsep-konsep tersebut, Peneliti nakan uji t dua kelompok independen
hendak mengevaluasi kebiasaan mereka (independent samples t-test). Jika probabilitas
dalam menentukan besaran sampel dalam jangka panjang data yang diobservasi
penelitian. Melalui penelitian ini, Peneliti muncul di bawah hipotesis nihil sangat
berharap mampu memberikan gambaran rendah (misal di bawah 5%), peneliti
keadaan pemahaman statistika peneliti menyimpulkan bahwa hipotesis nihil
Psikologi, serta mengajukan saran yang sangat kecil kemungkinannya untuk benar.
bisa membantu untuk menghindari potensi Dengan kata lain, sangat kecil
krisis replikasi Psikologi di Indonesia. kemungkinan bahwa tidak ada perbedaan
antara kelompok kontrol dan kelompok
Kriteria signifikansi, kekuatan uji statistik, dan eksperimen. Karena sangat kecil kemung-
besaran efek kinan bahwa hipotesis nihil benar, maka
peneliti menolak hipotesis nihil, dan
Dalam sebagian besar penelitian psikologi,
menyimpulkan bahwa terapinya memberi-
peneliti tertarik menguji apakah terdapat
kan efek positif terhadap kesejahteraan
perbedaan antara dua atau lebih kelompok.
hidup.
Misalnya, sebuah penelitian hendak
menguji efek sebuah terapi psikologis NHST memiliki beberapa parameter
terhadap well-being klien. Peneliti memiliki untuk mencegah terjadinya pengambilan
hipotesis bahwa terapi psikologis tersebut keputusan yang keliru, yakni kriteria
memiliki efek positif terhadap well-being

JURNAL PSIKOLOGI 165


WIRADHANY, DKK.

signifikansi, besaran efek, dan kekuatan uji statistik inferensial tradisional merupakan
statistik. kontrol terhadap kesalahan Tipe II atau
disebut juga sebagai false negatives (Cohen,
Kriteria signifikansi 1988, 1992a, 1992b) (1- β), sebagaimana nilai
p merupakan kontrol terhadap kesalahan
Dalam NHST, kesalahan Tipe I dilam-
Tipe I. Sebagian besar penelitian Psikologi
bangkan dengan simbol α (alfa), dan
dan humaniora memberikan toleransi 20%
merupakan probabilitas jangka panjang
terjadinya kesalahan Tipe II, sehingga
sebuah penelitian menolak hipotesis nihil,
penelitian-penelitian tersebut memiliki
ketika hipotesis nihil benar. Sebagian besar
kekuatan uji statistik sebesar 80% (Cohen,
penelitian Psikologi dan humaniora mem-
1990). Artinya, dalam observasi (baca:
berikan toleransi 5% (α = 0.05) terhadap
pengambilan data) yang dilakukan berkali-
terjadinya kesalahan Tipe I atau atau biasa
kali dengan batas tidak terhingga, terdapat
disebut false positives (Cohen, 1988, 1992a,
kemungkinan 80% atau lebih untuk
1992b). Artinya, dalam observasi (baca:
menyimpulkan bahwa suatu efek tidak
pengambilan data) yang dilakukan berkali-
ada, ketika efek tersebut memang tidak
kali dengan batas tidak terhingga, terdapat
ada.
kemungkinan 5% atau kurang bahwa efek
yang ditemukan dalam observasi Sebagai ilustrasi, dalam skenario intan
sebenarnya tidak ada. Dalam praktiknya, dan kerikil, Anda mengambil intan, dan
toleransi terhadap kesalahan Tipe I menebaknya sebagai kerikil. Dalam
dilambangkan dengan p (baca: nilai p), skenario terapi psikologis, Anda baru saja
sehingga nilai p di bawah 0,05 (di bawah menyimpulkan bahwa terapi Anda tidak
batas toleransi) dianggap sebagai temuan memiliki efek positif, padahal terapi
yang signifikan dan sebaliknya. tersebut memiliki efek positif.
Sebagai ilustrasi, bayangkan sebuah
Besaran efek
skenario di mana Anda diminta mengambil
sebutir intan dari sebuah kaleng yang berisi Besaran efek (effect size) menunjukkan
intan dan kerikil tanpa melihat isi kaleng. perbedaan terstandar antara nilai observasi
Tergantung kemampuan Anda dari kelompok kontrol dan eksperimen
membedakan tekstur antara intan dan (Durlak, 2009; Lakens, 2013). Dalam
kerikil, Anda melakukan kesalahan Tipe I penelitian, peneliti tidak hanya tertarik
ketika mengambil kerikil dan menebaknya apakah perbedaan antara kelompok
sebagai intan. Dalam skenario terapi yang kontrol dan eksperimen lebih besar dari nol
dijelaskan sebelumnya, Anda menyimpul- (kontrol terhadap kesalahan Tipe I), namun
kan bahwa terapi Anda memiliki efek juga seberapa besar perbedaan antara
positif, padahal terapi tersebut tidak kelompok kontrol dan kelompok
memiliki efek positif. eksperimen. Tergantung dari pertanyaan
penelitian, perbedaan terstandar antara
Kekuatan uji statistik/statistical power kelompok kontrol dan eksperimen dapat
diukur menggunakan parameter yang
Dalam NHST, kesalahan Tipe II dilam-
berbeda. Dalam skenario intan dan kerikil
bangkan dengan simbol β (beta), dan
misalnya, besaran efek dapat diukur
merupakan probabilitas jangka panjang
berdasarkan perbedaan rasio frekuensi
sebuah penelitian gagal menolak hipotesis
antara kelompok kontrol dan kelompok
nihil, ketika hipotesis nihil tidak benar.
eksperimen. Dalam skenario terapi
Kekuatan uji statistik (power) dalam

166 JURNAL PSIKOLOGI


PEMAHAMAN PENELITI PSIKOLOGI MENGENAI BESARAN SAMPEL

psikologis, perbedaan dapat diukur dari yang lebih besar, dengan perbedaan antara
rerata skor kesejahteraan hidup antara kelompok kontrol dan eksperimen sebesar
kelompok eksperimen (diberi terapi) dan 0,82 standar deviasi dibandingkan
kelompok kontrol (tidak diberi terapi). penelitian kedua, d = 0,27 atau 0,27 standar
Besaran efek merupakan satuan deviasi. Kesimpulan tersebut terlepas dari
standar. Artinya, besaran efek dapat ada tidaknya kontrol terhadap kesalahan
dibandingkan antar beberapa skala yang Tipe I dan II yang digunakan dalam
berbeda dan dapat dibandingkan antar penelitian-penelitian tersebut.
beberapa penelitian dengan besaran
sampel yang berbeda-beda. Sebagai Besaran sampel
ilustrasi, bayangkan dua penelitian yang Besaran sampel dalam NHST dapat
bertujuan mengukur efek terapi psikologis dihitung dengan memanfaatkan dinamika
terhadap kesejahteraan hidup. Penelitian relasi antara parameter-parameter yang
pertama menggunakan pengukuran telah dijabarkan di paragraf-paragraf
kesejahteraan hidup dengan skala 1-5 sebelumnya. Penghitungan besaran sampel
sedangkan penelitian kedua menggunakan untuk uji t dua kelompok independen
pengukuran kesejahteraan hidup dengan adalah sebagai berikut.
skala 1-100. Penelitian pertama melaporkan
𝑍1−𝛼⁄2 +𝑍1−𝛽 2
rerata kelompok kontrol = 3 (SD = 0,07) dan 𝑛𝑖 = 2 ( ) (3)
𝑑
rerata kelompok eksperimen = 3.5
(SD=0,05). Penelitian kedua melaporkan di mana ni merupakan besaran sampel tiap-
rerata kelompok kontrol = 62 (SD = 19) dan tiap kelompok, z merupakan skor z dari
rerata kelompok eksperimen = 68 (SD = 25). distribusi normal di bawah probabilitas 1-
Besaran efek diperoleh melalui α/2 dan 1-β, dan d merupakan besaran efek.
penghitungan berikut: Sebagai ilustrasi, jika kita menentukan
𝑋´1 −𝑋´2 parameter kriteria signifikansi, α = 0,05,
𝑑= 𝑆𝑤𝑖𝑡ℎ𝑖𝑛
(1)
two-tailed dan power, 1-β = 0,80 dan
mengharapkan besaran efek sebesar 0,5
Pada penghitungan (1), d merupakan
standar deviasi maka dapat dihitung Z1-α/2 =
perbedaan rerata standar antar dua
1,960 dan Z1-β = 0,842 (menggunakan tabel
kelompok dengan satuan standar deviasi,
distribusi normal) sehingga diperoleh
sedangkan 𝑋´1 dan 𝑋´2 merupakan rerata
besaran sampel 2*((1,960+0,842)/0,5)^2 = ~
skor dari kelompok eksperimen dan
63 partisipan per kelompok. Formula yang
kelompok kontrol. Penyebut Swithin meru-
sama dapat digunakan untuk menghitung
pakan simpangan baku dalam kelompok,
kekuatan uji statistik, besaran efek, atau
yang dihitung sebagai berikut:
kriteria signifikansi jika tiga parameter
(𝑛1 −1)𝑆12 +(𝑛2 −1)𝑆22 lainnya diketahui. Sebagai ilustrasi, sebuah
𝑆𝑤𝑖𝑡ℎ𝑖𝑛 = √ 𝑛2 +𝑛2 −2
(2)
penelitian dengan jumlah sampel 30 per
kelompok dengan besaran efek sebesar 0,5
Pada penghitungan (2), S1 dan S2 dan kriteria signifikansi 0,05 memiliki
merupakan standar kesalahan di penelitian power sebesar 0,478. Artinya, penelitian
pertama dan kedua, sedangkan n1 dan n2 dengan sampel 30 partisipan memiliki taraf
merupakan besaran sampel di penelitian kesalahan Tipe II sebesar 52,2%. Dengan
pertama dan kedua. Berdasarkan hasil kata lain, terdapat 52,2% kemungkinan
penghitungan, dapat disimpulkan bahwa dalam penelitian ini untuk menolak
penelitian pertama menemukan efek terapi

JURNAL PSIKOLOGI 167


WIRADHANY, DKK.

hipotesis nihil, padahal hipotesis nihil bintang (besaran efek yang kecil),
tersebut benar! Taraf kesalahan sebesar dibutuhkan alat bantu lihat yang lebih
52,2% ini melebihi toleransi kesalahan Tipe sensitif (besaran sampel yang besar).
II sebesar 20% dalam sebagian besar Kedua, besaran efek memiliki relasi
penelitian Psikologi dan humaniora. eksponensial dengan besaran sampel.
Menggunakan penghitungan (3), Ketika besaran efek yang diharapkan kecil,
dengan asumsi kriteria signifikansi α dan maka besaran sampel yang dibutuhkan
kekuatan uji statistik 1-β konstan, dapat untuk mendeteksi suatu efek bertambah
dibuat grafik relasi antara besaran efek dan secara eksponensial menjadi sangat besar
besaran sampel dalam analisis t-test dua dan sebaliknya.
kelompok independen sebagai berikut Dalam banyak penelitian psikologi
(Gambar 1). dan humaniora, peneliti mengontrol taraf
Terdapat beberapa hal yang perlu kesalahan Tipe I, namun tidak mengontrol
diperhatikan dari Gambar 1. Pertama, taraf kesalahan Tipe II dan tidak
ketika kesalahan Tipe I dan II dikontrol, mempertimbangkan besaran efek dalam
besaran efek memiliki relasi negatif dengan pengambilan keputusan (Bakker, van Dijk,
besaran sampel. Untuk mendeteksi besaran & Wicherts, 2012; Gigerenzer, 2004). Ketika
efek yang kecil, dibutuhkan sampel yang taraf kesalahan Tipe II tidak dikontrol,
lebih banyak dan sebaliknya. Sebagai besaran efek yang terhitung biasanya
analogi yang sederhana, penggunaan mata merupakan overestimasi, dan ketika
telanjang cukup untuk melihat benda- besaran efek ini digunakan untuk
benda langit yang dekat seperti bulan menghitung kekuatan uji statistik dalam
(besaran efek yang besar), namun untuk penelitian replikasi, hasil penelitian
benda-benda langit yang jauh seperti sebagian besar tidak mereplikasi temuan
sebelumnya (Button et al., 2013; Ioannidis,

Gambar 1. Relasi antara besaran efek dan besaran sampel dengan α = .05 dan 1-β = 20

168 JURNAL PSIKOLOGI


PEMAHAMAN PENELITI PSIKOLOGI MENGENAI BESARAN SAMPEL

2008; Open Science Collaboration, 2015). partisipan menerima undangan peneliti


Lebih lanjut, penelitian juga menunjukkan mengisi kuesioner. Dari jumlah tersebut,
bahwa kebiasaan tidak mengontrol taraf sebanyak N = 151 partisipan mengisi
kesalahan Tipe II dan besaran efek kuesioner secara lengkap.
berkaitan erat dengan kekurangpahaman
terhadap kekuatan uji statistik dan Survei
pengukuran besaran efek (Button et al.,
Survei yang digunakan dalam penelitian
2013). Sebagian besar buku teks statistika
ini memiliki tiga bagian. Bagian pertama
yang digunakan dalam psikologi hanya
berisi pertanyaan mengenai identitas
sedikit atau sama sekali tidak menying-
partisipan; bagian kedua berisi pertanyaan
gung kedua topik tersebut (Gigerenzer,
mengenai familiaritas dengan istilah-istilah
2004). Kondisi tersebut semakin serius
statistika terkait perhitungan besaran
seiring dengan menguatnya anggapan
sampel; bagian ketiga berisi pertanyaan
bahwa peneliti dan editor jurnal psikologi
mengenai kebiasaan partisipan
lebih mengutamakan hasil penelitian yang
menentukan besaran sampel. Pada bagian
berbeda secara signifikan (baca: p-value
kedua, khususnya pada pertanyaan
kecil) untuk dipublikasikan (Gigerenzer,
mengenai makna istilah-istilah statistik,
2004). Hal ini semakin menjadi pendorong
peneliti meminta partisipan menilai
bagi peneliti untuk memprioritaskan hasil
kebenaran dari 4-5 pernyataan (Gigerenzer,
penelitian yang menunjukkan signifikansi
2004., Hoekstra et al., 2014). Dari 4-5
untuk dilaporkan dalam artikel. Dengan
pernyataan tersebut, hanya terdapat satu
pertimbangan bahwa mendapatkan hasil
pernyataan yang benar, namun partisipan
penelitian yang positif (nilai p < 0,05)
memiliki kesempatan menilai seluruh
penting dalam publikasi ilmiah, buku teks
pernyataan sebagai benar atau salah.
dan kelas-kelas statistik mempertahankan
praktik NHST sebagai model uji statistik
Analisis data dan simulasi
yang tepat dalam penelitian Psikologi
(Wasserstein & Lazar, 2016). Padahal, Data dianalisis dalam dua bagian. Pada
simulasi menunjukkan bahwa temuan- bagian pertama, peneliti menjabarkan
temuan dalam publikasi ilmiah Psikologi temuan deskriptif menggunakan tabel
melaporkan perbedaan yang signifikan kontingensi (contingency table) berisi
dengan frekuensi yang jauh lebih tinggi frekuensi respon partisipan, rerata, dan
dari ideal (Bakker et al., 2012). simpangan baku untuk tiap pertanyaan
yang peneliti ajukan. Selanjutnya, peneliti
menguji secara inferensial apakah parti-
Metode
sipan dengan tingkat pendidikan yang
berbeda memiliki perbedaan preferensi
Partisipan penelitian
dalam mendukung pernyataan yang tepat.
Partisipan penelitian merupakan mahasis- Pengujian tersebut menggunakan chi-
wa, peneliti, dan dosen Psikologi di square k kelompok independen. Pada
Indonesia yang diundang mengisi survei bagian kedua, peneliti melakukan simulasi
melalui media sosial dan/atau melalui perolehan kekuatan uji statistik untuk
kontak pribadi. Pengisian kuesioner besaran efek, berdasarkan respon partisi-
dilakukan secara daring menggunakan jasa pan mengenai besaran sampel ideal. Untuk
yang dikelola Qualtrics menyederhanakan, simulasi tersebut
(www.qualtrics.com). Sebanyak N = 354 hanya dilakukan untuk uji t dua kelompok.

JURNAL PSIKOLOGI 169


WIRADHANY, DKK.

Seluruh perhitungan dilakukan melalui R S1 Psikologi, dan sudah lulus beberapa


(R Core team, 2015). Simulasi dibuat mata kuliah statistika (Tabel 2).
menggunakan paket pwr (Champely, Sebagian besar partisipan jarang (31-
2009). Grafik dilukis menggunakan paket 50% dari penelitian) menerapkan
ggplot2 (Wickham, 2010). pengetahuan mengenai statistika dalam
penelitian (misal: dalam menulis/
Hasil membimbing skripsi, blog pribadi, dan
artikel ilmiah; Tabel 3).
Demografi partisipan Pemahaman statistika
Seperti terlihat di Tabel 1, lebih dari tiga per Familiaritas terhadap istilah-istilah dalam
empat (75,49%) partisipan mengiden- statistika. Sebagian besar partisipan lebih
tifikasikan diri sebagai mahasiswa familiar dengan nilai p dibandingkan
Psikologi. Selanjutnya, sebagian besar dengan besaran efek (effect size) dan
(40,40%) partisipan melaporkan bahwa saat kekuatan uji (power) dalam statistika. Istilah
ini mereka tengah menempuh pendidikan besaran efek juga lebih familiar
dibandingkan kekuatan uji (Tabel 4).

Tabel 1.
Latar Belakang Partisipan

Mahasiswa Dosen Dosen (Bukan Dosen Dosen (Bukan Peneliti Peneliti (Bukan
(Stat) Stat) (MetPen) MetPen) (Psi) Psi)
Jumlah 114 4 13 11 11 21 19
% 75.49 2.65 8.61 7.29 7.29 13.91 12.58

Tabel 2
Pendidikan Partisipan

Menem- Menem- S1 menem- menem- Psi- Psi- Magister Menem- Doktor


puh S1 puh S1 puh puh Sains kolog kolog + Sains puh
(lulus Stat) Profesi Magister Doktor
Jumlah 15 61 18 8 13 4 5 18 7 2
% 9.93 40.40 11.92 5.30 8.61 2.65 3.31 11.92 4.64 1.32

Tabel 3
Pengalaman Responden dalam Aplikasi Ilmu-ilmu Statistika

< 15% 15-30% 31-50% 51-70% 71-85% > 85%


Jumlah 28 36 38 26 8 15
% 18.54 23.84 25.17 17.22 5.30 9.93

170 JURNAL PSIKOLOGI


PEMAHAMAN PENELITI PSIKOLOGI MENGENAI BESARAN SAMPEL

Tabel 4.
Familiaritas dengan Istilah-istilah Statistika

Sangat tidak Tidak Familiar Sangat Rerata Simpangan


familiar familiar familiar Baku
Nilai p 6 18 70 57 3.18 0.79
Besaran efek 17 55 62 17 2.52 0.84
Kekuatan uji statistik 19 74 44 14 2.35 0.82

Pemahaman mengenai nilai p. Meski Pernyataan selain pernyataan (4)


mengaku familiar dengan nilai p, hampir merupakan pernyataan yang salah.
setengah partisipan tidak mendukung Pernyataan (1) tidak secara spesifik
pernyataan yang tepat mengenai nilai p, menjelaskan apa yang dimaksud dengan
yakni pernyataan (4): “Jika hipotesis nihil signifikansi, sedangkan pernyataan (3)
benar dan jika penelitian tersebut diulang mengindikasikan probabilitas H1
berkali-kali, terdapat 2% probabilitas untuk berdasarkan data, p(H1|data). Pernyataan
mengobservasi perbedaan sebesar t(50) = (5) merujuk pada probabilitas untuk
2.1.” Pernyataan ini benar karena selain menolak H0 berdasarkan data, p(H0|data),
merujuk pada probabilitas mengobservasi dan pernyataan (2), meskipun secara
data mengingat H0, p(data|H0), secara spesifik mengindikasikan pengambilan
spesifik dijelaskan juga bahwa probabilitas data berulang, tetap merujuk pada
tersebut diperoleh dalam pengambilan probabilitas menolak H0 berdasarkan data
data yang diulang berkali-kali. Pernyataan p(H0|data).
tersebut merupakan pernyataan yang Pernyataan “Taraf signifikansi yang
paling sedikit didukung dari lima diperoleh dari penelitian tersebut sebesar
pernyataan yang diberikan sebagai pilihan 2%” merupakan pernyataan yang paling
(Gambar 2). Lebih lanjut, hanya empat banyak didukung sebagai pernyataan yang
partisipan (2,65%) yang mendukung benar. Lebih lanjut, partisipan dengan level
pernyataan ini dan tidak mendukung pendidikan yang berbeda tidak
pernyataan-pernyataan yang lain. Hanya menunjukkan perbedaan preferensi dalam
empat partisipan yang memiliki mendukung pernyataan yang tepat, χ2(9) =
pemahaman yang utuh mengenai nilai p. 8,52, p = 0,482.

Gambar 2. Sebaran dukungan partisipan terhadap pernyataan mengenai nilai p.


Keterangan: Warna balok berkorespondensi dengan kebenaran pernyataan
dengan hijau = benar dan merah = salah.

JURNAL PSIKOLOGI 171


WIRADHANY, DKK.

Pemahaman mengenai besaran efek. Tidak terdapat perbedaan preferensi dalam


Pernyataan (2) “Perbedaan rerata antara mendukung pernyataan-pernyataan
kelompok terapi dan kelompok kontrol mengenai besaran efek antara partisipan
sebesar .65 simpangan baku.” merupakan dengan level pendidikan yang berbeda,
pernyataan yang tepat dan pernyataan χ2(9) = 5,31, p = 0,802.
yang paling banyak didukung sebagai Pemahaman mengenai kekuatan uji statis-
pernyataan yang benar (Gambar 3). tik. Pernyataan (2): “Probabilitas menemu-
Pernyataan (2) menggunakan parameter kan besaran efek sebesar d = 0,65 dengan
yang benar (rerata) dan secara spesifik taraf signifikansi alfa sebesar p < 0,05 dan
merujuk pada skor standar yang total sampel N = 52 sebesar 63%.” merupa-
merupakan ciri khas dari besaran efek. kan pernyataan yang tepat dan pernyataan
Namun, hanya 34 partisipan (22,52%) yang yang paling banyak didukung sebagai
mendukung pernyataan ini dan tidak pernyataan yang benar (Gambar 4).
mendukung pernyataan-pernyataan yang Pernyataan ini merupakan pernyataan
lain. Hanya 34 partisipan yang memiliki yang tepat karena merujuk pada proba-
pemahaman yang utuh mengenai besaran bilitas untuk gagal menolak hipotesis nihil
efek. yang salah berdasarkan parameter besaran
Pernyataan selain pernyataan (2) efek, kriteria signifikansi alfa, dan besaran
merupakan pernyataan yang salah. sampel p(data|H0). Namun, hanya 15
Pernyataan (1) merujuk pada proporsi skor, partisipan (9,93%) yang mendukung
bukan rerata skor sebagaimana umumnya pernyataan ini dan tidak mendukung
digunakan sebagai dalam uji statistik pernyataan-pernyataan yang lain. Hanya
parametrik, begitu juga dengan pernyataan sembilan partisipan yang memiliki pema-
(4) yang merujuk pada total skor. haman yang utuh mengenai kekuatan uji
Pernyataan (3) tidak secara spesifik statistik.
menjelaskan standarisasi yang merupakan
ciri khas besaran efek.

Gambar 3. Sebaran dukungan partisipan terhadap pernyataan mengenai besaran efek.


Keterangan: Warna balok berkorespondensi dengan kebenaran pernyataan
dengan hijau = benar dan merah = salah.

172 JURNAL PSIKOLOGI


PEMAHAMAN PENELITI PSIKOLOGI MENGENAI BESARAN SAMPEL

Gambar 4. Sebaran dukungan partisipan terhadap pernyataan mengenai kekuatan uji statistik.
Keterangan: Warna balok berkorespondensi dengan kebenaran pernyataan
dengan hijau = benar dan merah = salah.

Pernyataan selain pernyataan (2) dengan level pendidikan yang berbeda,


merupakan pernyataan yang salah. χ2(9) = 5,79, p = 0,761.
Pernyataan (4) tidak secara spesifik
menjelaskan apa yang dimaksud sebagai Besaran sampel penelitian
efek yang “nyata.” Pernyataan (1) merujuk
Lebih dari setengah (52,98%) partisipan
pada probabilitas H1 berdasarkan besaran
mengacu pada pertimbangan praktis
efek p(H1|data) dan pernyataan (4)
dalam menentukan besaran sampel.
merujuk pada probabilitas H0 berdasarkan
Praktik menghitung besaran sampel
besaran efek p(H0|data).
berdasarkan besaran efek dan power
Tidak terdapat perbedaan preferensi dalam sebagai metode ideal menempati urutan
mendukung pernyataan-pernyataan kedua dari bawah (34,4%) setelah
mengenai besaran efek antara partisipan mengikuti aturan tidak baku (25,83%;
Gambar 5).

Gambar 5. Sebaran dukungan partisipan terhadap pernyataan mengenai praktik menentukan


besaran sampel.

JURNAL PSIKOLOGI 173


WIRADHANY, DKK.

Gambar 5 menunjukkan sebaran Simulasi besaran sampel


respon partisipan mengenai jumlah sampel
Menggunakan informasi di atas dan
(1) yang ideal menurut partisipan, (2)
penghitungan (3), dapat dibuat simulasi
dalam sebagian besar penelitian, dan (3)
kekuatan uji statistik yang diperoleh
secara ideal sejauh pengetahuan partisipan.
menggunakan besaran sampel yang
Rata-rata jumlah sampel penelitian yang
diajukan responden untuk besaran efek
ideal menurut partisipan adalah 26
yang berbeda-beda. Hasil simulasi dapat
partisipan per kelompok (M = 25,91, SD =
dilihat di Gambar 7.
15,54). Dalam sebagian besar penelitian
yang dibaca partisipan, jumlah sampel Pada skenario di mana partisipan
yang dicantumkan adalah 33 partisipan per menentukan besaran sampel berdasarkan
kelompok (M = 33,1; SD = 21,80). pendapat pribadinya (“menurut saya”),
Sedangkan secara ideal, sejauh hasil uji t dua kelompok independen baru
pengetahuan partisipan, jumlah sampel mencapai kekuatan uji statistik 80% ketika
dalam penelitian adalah 28 partisipan per fenomena yang diuji memiliki besaran efek
kelompok (M = 28,15; SD = 17,54). d = 0,79 atau lebih tinggi. Mengingat rerata
besaran efek dalam penelitian Psikologi
Gambar 6 menunjukkan sebaran
yang dilaporkan Open Science Collaboration
respon partisipan. Untuk skenario
adalah d = 0,403, besaran sampel ini
“menurut saya,” besaran sampel berkisar
(“menurut saya”) hanya memiliki kekuatan
antara 1-53 responden per kelompok,
uji statistik sebesar 29,67%. Artinya,
untuk skenario “dalam penelitian,”
terdapat kemungkinan 70,33% peneliti
besaran sampel berkisar antara 1-74
gagal menolak hipotesis nihil yang salah,
responden per kelompok, dan untuk
atau menyimpulkan bahwa tidak ada efek
skenario “secara ideal,” besaran sampel
ketika efek tersebut sebenarnya ada.
berkisar antara 1-59 responden per
kelompok.

Gambar 6. Plot biola mengenai besaran sampel yang ideal.


Keterangan: Simbol segitiga menunjukkan rerata jawaban per pernyataan;
titik-titik hitam menunjukkan sebaran respon partisipan.

174 JURNAL PSIKOLOGI


PEMAHAMAN PENELITI PSIKOLOGI MENGENAI BESARAN SAMPEL

Gambar 7. Simulasi kekuatan uji statistik menggunakan besaran sampel menurut partisipan pada
kriteria signifikansi alfa = 0,05.
Keterangan: Garis titik-titik horizontal menunjukkan power = 0,80 dan garis abu-abu menunjukkan
rerata besaran efek dalam penelitian Psikologi yang dilaporkan oleh
Open Science Collaboration, d = 0,403.

Selanjutnya, pada skenario di mana Akibatnya, untuk mendeteksi besaran efek


partisipan menentukan besaran sampel dalam sebagian besar penelitian Psikologi
berdasarkan penelitian yang mereka tahu yang dilaporkan Open Science Collaboration,
(“berdasarkan penelitian”), hasil uji t dua besaran sampel ini (“secara ideal”) hanya
kelompok independen mencapai kekuatan memiliki kekuatan uji statistik sebesar
uji statistik 80% ketika mendeteksi besaran 31,63%. Artinya, terdapat kemungkinan
efek d = 0,70 atau lebih tinggi. Akibatnya, 68,37% peneliti gagal menolak hipotesis
ketika digunakan untuk mendeteksi nihil yang salah, atau menyimpulkan
besaran efek dalam sebagian besar bahwa tidak ada efek ketika efek tersebut
penelitian Psikologi yang dilaporkan Open sebenarnya ada.
Science Collaboration, besaran sampel ini Mempertimbangkan ketiga skenario di
(“berdasarkan penelitian”) hanya memiliki atas menghasilkan proyeksi kekuatan uji
kekuatan uji statistik sebesar 36,43%. statistik yang relatif rendah, peneliti
Artinya, terdapat kemungkinan 63,57% membuat satu simulasi lagi menggunakan
peneliti gagal menolak hipotesis nihil yang besaran sampel maksimal yang dilaporkan
salah, atau menyimpulkan bahwa tidak ada partisipan dalam skenario “dalam
efek ketika efek tersebut sebenarnya ada. penelitian,” n = 74. Menggunakan besaran
Terakhir, pada skenario di mana sampel ini, diperoleh kekuatan uji statistik
partisipan menentukan besaran sampel 80% untuk mendeteksi besaran efek d = 0,46
berdasarkan pendapat mereka mengenai atau lebih tinggi, dan kekuatan uji statistik
besaran sampel ideal (”secara ideal”), hasil 68,28% untuk mendeteksi besaran efek
uji t dua kelompok independen mencapai dalam sebagian besar penelitian psikologi.
kekuatan uji statistik 80% ketika mendeteksi
besaran efek d = 0,76 atau lebih tinggi.

JURNAL PSIKOLOGI 175


WIRADHANY, DKK.

Diskusi banyaknya penyalahgunaan dan


penyalahartian nilai p dalam publikasi
Dalam penelitian ini, partisipan diminta ilmiah (Wasserstein & Lazar, 2016).
melaporkan familiaritasnya terhadap
Salah satu alasan mengapa nilai p sulit
berbagai istilah statistika, menjawab
diinterpretasikan adalah karena interpretasi
pertanyaan mengenai konsep-konsep
nilai p membutuhkan kemampuan berpikir
statistika, dan melaporkan besaran sampel
logis yang kuat. Seperti dibahas
yang menurut mereka ideal dalam
sebelumnya, dalam banyak penelitian,
penelitian. Secara umum, hasil penelitian
peneliti berharap mengevaluasi hipotesis
menunjukkan bahwa mayoritas partisipan
berdasarkan data p(H1|data), sedangkan
cukup familiar terhadap istilah-istilah
nilai p menginformasikan probabilitas
statistika, namun memiliki pemahaman
mengobservasi data dengan asumsi bahwa
yang keliru mengenai istilah-istilah
negasi dari hipotesis yang diajukan peneliti
tersebut. Lebih lanjut, besaran sampel yang
benar, p(data|H0). Untuk memahami
dilaporkan partisipan hanya memiliki
pernyataan terakhir, peneliti pertama harus
kekuatan uji statistik sebesar 29,67-36,43%
paham bahwa p(H1|data) tidak sama
untuk menolak hipotesis nihil yang salah.
dengan p(data|H1). Dengan kata lain, nilai p
Artinya, jika pemahaman partisipan
yang kecil tidak menunjukkan bahwa
mengenai besaran sampel yang dilaporkan
hipotesis alternatif merupakan hipotesis
mencerminkan besaran sampel yang
yang kemungkinan besar tepat. Kemudian,
mereka gunakan dalam penelitian, pada
peneliti harus paham bahwa p(data|H0)
banyak kasus partisipan akan gagal
merupakan negasi dari p(data|H1). Dengan
mendeteksi fenomena psikologis yang
kata lain, nilai p yang besar tidak
memiliki besaran efek kecil (Cohen’s d < .8).
menunjukkan bahwa hipotesis nihil,
Respon partisipan mengenai istilah- sebagai negasi dari hipotesis alternatif,
istilah statistika menunjukkan dua para- merupakan hipotesis yang tepat. Untuk
doks yang menarik. Pertama, sebagian memahami kedua hal di atas, dibutuhkan
besar partisipan mengaku familiar terhadap pemahaman mengenai batasan interpretasi
nilai p, namun sebagian besar memiliki nilai p. Secara keseluruhan, nilai p hanya
pemahaman yang keliru mengenai nilai p. menunjukkan probabilitas dalam
Ini bukan temuan yang baru. Berbagai pengambilan data yang tidak terhingga,
penelitian sebelumnya juga telah untuk mengobservasi data jika hipotesis
menunjukkan bahwa mahasiswa dan nihil benar (Gigerenzer, 2004;
peneliti Psikologi dari berbagai universitas, Wagenmakers, 2007). Ketika nilai p sangat
baik universitas yang memiliki reputasi kecil, dapat disimpulkan bahwa kecil
yang baik hingga universitas yang tidak kemungkinan hipotesis nihil merupakan
terlalu dikenal memiliki kesulitan yang hipotesis yang benar. Menggunakan
sama dalam menginterpretasikan nilai p falsifikasi, dapat kemudian disimpulkan
(Badenes-Ribera et al., 2016, 2015; Bakker et bahwa negasi dari hipotesis nihil (i.e.
al., 2012; Gigerenzer, 2004). Asosiasi hipotesis alternatif) merupakan hipotesis
Statistika Amerika Serikat (ASA) baru-baru yang benar. Sayangnya, terdapat kecende-
ini bahkan mempublikasikan panduan rungan bagi peneliti psikologi untuk
mengenai apa itu nilai p dan bagaimana menginterpretasi nilai p secara berlebihan,
menginterpretasikan nilai p dengan baik entah karena tuntutan dari jurnal yang
untuk meningkatkan pemahaman mensyaratkan hanya temuan dengan nilai p
mahasiswa dan peneliti Psikologi karena

176 JURNAL PSIKOLOGI


PEMAHAMAN PENELITI PSIKOLOGI MENGENAI BESARAN SAMPEL

yang kecil yang layak dipublikasikan (bias merupakan indikasi bahwa partisipan
positif) atau dengan dalih bahwa peneliti memiliki pemahaman yang tepat (Dufresne,
lain dari universitas ternama pun Leonard, & Gerace, 2002), karena partisipan
menginterpretasi nilai p secara berlebihan dapat menggunakan petunjuk-petunjuk
(Badenes-Ribera et al., 2015). seperti letak pernyataan dan jumlah kata
Dari 151 partisipan, hanya empat dalam pernyataan untuk membantu
partisipan yang menunjukkan pemahaman menentukan jawaban yang benar. Attali
yang utuh mengenai batasan interpretasi dan Bar-Hillel, (2003) dalam penelitiannya
nilai p seperti yang dibahas di atas. Artinya, menunjukkan bahwa pembuat soal
sebagian besar partisipan, baik mahasiswa memiliki kecenderungan menempatkan
maupun peneliti dan dosen, memiliki jawaban yang salah di pernyataan yang
pemahaman yang keliru atau tidak utuh letaknya di tengah. Hal ini dapat digunakan
mengenai nilai p. Menariknya, tidak untuk membantu menebak jawaban yang
terdapat perbedaan yang signifikan antara benar. Lebih lanjut, seperti respon terhadap
respon mengenai pemahaman nilai p antara pemahaman mengenai nilai p, jumlah
mahasiswa S1 dengan dosen dan peneliti. partisipan yang mendukung pernyataan
Lagi-lagi, ini bukan temuan yang baru yang tepat namun tidak pernyataan yang
(Badenes-Ribera et al., 2016, 2015; lain relatif sedikit, yakni 34 partisipan untuk
Gigerenzer, 2004). Temuan ini dapat pertanyaan mengenai besaran efek dan 15
diinterpretasikan sebagai mahasiswa partisipan untuk pernyataan mengenai
mempelajari pemahaman nilai p yang kekuatan uji statistik. Seperti respon
keliru dari dosennya (lih. Gigerenzer, 2004). terhadap pemahaman mengenai nilai p,
Lebih lanjut, peneliti dan dosen temuan ini menunjukkan bahwa partisipan
kemungkinan besar mempelajari tidak memiliki pemahaman yang utuh
pemahaman yang keliru ini di bangku mengenai besaran efek dan kekuatan uji
kuliah (Wasserstein & Lazar, 2016), statistik.
menciptakan siklus kekeliruan yang terus Penelitian ini menyiratkan bahwa
berkelanjutan. Memperparah kondisi ini, kekuatan uji statistik merupakan isu yang
buku teks statistika yang digunakan di telah lama diabaikan dalam penelitian
psikologi seringkali mendeskripsikan psikologi. Banyak buku teks statistika
interpretasi nilai p yang cenderung dalam psikologi berfokus pada pentingnya
menyesatkan, seperti “probabilitas bahwa kontrol terhadap eror Tipe I (α), namun
perbedaan yang diobservasi adalah nyata” sedikit atau tidak sama sekali membahas
atau “dalam 95 atau lebih dari 100 kontrol terhadap eror Tipe II atau kekuatan
pengambilan data, dapat diobservasi per- uji statistik dalam uji hipotesis (Gigerenzer,
bedaan tersebut” (lih. Gigerenzer, 2004). 2004). Tidak seperti pemahaman yang
Paradoks kedua, sebagian besar parti- keliru mengenai nilai p yang diakibatkan
sipan mengaku tidak familiar terhadap sulitnya menginterpretasikan nilai p secara
besaran efek dan power, namun secara tepat, kekeliruan pemahaman terhadap
mengejutkan, mereka mendukung pernya- kekuatan uji statistik dan besaran efek bisa
taan yang tepat mengenai makna dari saja diakibatkan oleh ketidaktahuan dan
besaran efek dan power. Perlu diingat bahwa bukan pemahaman yang salah.
dalam soal pilihan ganda seperti yang Terakhir, besaran sampel yang
peneliti gunakan dalam penelitian ini, dilaporkan partisipan (rata-rata antara 26-
menjawab pertanyaan dengan tepat hanya 33 responden per kelompok) tidak cukup

JURNAL PSIKOLOGI 177


WIRADHANY, DKK.

untuk mendeteksi besaran efek dalam Penelitian ini telah memberikan


penelitian-penelitian psikologi, sebagai- gambaran bahwa pemahaman konsep
mana yang dilaporkan dalam artikel Open statistika yang keliru dan kecenderungan
Science Collaboration (2015). Dalam skenario menentukan besaran sampel yang kurang
terbaik, di mana peneliti menggunakan n = tepat di Indonesia berpotensi menimbulkan
74 per kelompok, kekuatan uji statistik krisis replikasi, sama seperti fenomena
mencapai 80% hanya ketika mendeteksi global pada umumnya. Dengan memahami
besaran efek d = 0,46 atau lebih tinggi. situasi tersebut, dibutuhkan tindak lanjut
Padahal, untuk mendeteksi besaran efek yang tangkas dari pemangku kepentingan
dalam sebagian besar penelitian Psikologi terkait, mengingat keadaan ini bisa juga
sebagaimana dilaporkan dalam artikel oleh terjadi bukan hanya pada peneliti di bidang
Open Science Collaboration, yaitu d = 0,403, psikologi, melainkan bidang ilmu lainnya
besaran sampel tersebut tidak cukup untuk juga. Meskipun penelitian ini memiliki
mencapai kekuatan uji statistik sebesar 80%. tingkat penyelesaian (completion rates)
Distribusi respon partisipan mengenai kuesioner yang terbilang rendah (42,65%)
besaran sampel yang mereka gunakan dari angka ideal yakni 80% (Pluye & Hong,
seperti dilihat dalam plot biola (Gambar 6) 2014), penelitian ini terbilang berhasil untuk
menunjukkan hal yang menarik, bahwa memberi gambaran awal mengenai
sebagian besar partisipan beranggapan kesenjangan dalam penelitian psikologi di
bahwa besaran sampel dengan kisaran 30- Indonesia yang menggunakan statistika
40 responden per kelompok merupakan inferensial.
besaran yang ideal. Temuan ini
mengkonfirmasi anekdot Cohen (1990) Kesimpulan
yang menyatakan bahwa sebagian besar
buku teks psikologi mengasumsikan bahwa Mahasiswa dan peneliti psikologi di
besaran sampel sebesar n = 30 per kelompok Indonesia sudah cukup familiar terhadap
merupakan besaran yang ideal. Cohen istilah-istilah statistika, namun memiliki
(1990) membuktikan bahwa besaran sampel pemahaman yang keliru atau tidak utuh
ini hanya memiliki kekuatan uji statistik mengenai istilah-istilah tersebut. Akibat-
sebesar 47% untuk mendeteksi besaran efek nya, mereka memproyeksikan besaran
d = .5. Terlebih lagi, sebaran respon n ≈ 30 ini sampel yang kurang dari ideal dalam
lebih mengelompok dalam skenario penelitian. Secara spesifik, besaran sampel
“menurut saya” dibandingkan dua skenario yang dilaporkan memiliki kekuatan uji
“dalam penelitian” dan “secara ideal” yang statistik yang rendah, sehingga kemung-
memiliki distribusi yang lebih seragam kinan hasil penelitian mereka dapat
(uniform) dengan varians yang lebih tinggi. direplikasi rendah.
Mengingat bahwa mengacu pada buku teks
merupakan salah satu pertimbangan utama Saran
dalam menentukan besaran sampel Mengingat ajakan dari Kementerian Pendi-
(Gambar 5), temuan ini dapat diinter- dikan Tinggi dan Kementerian Keuangan
pretasikan sebagai partisipan memiliki bagi dosen dan peneliti Indonesia untuk
disonansi kognitif antara apa yang mereka mempublikasikan lebih banyak artikel, dan
pelajari dalam buku teks dengan apa yang mempertimbangkan bahwa artikel-artikel
mereka baca dalam penelitian ilmiah. yang dipublikasikan dalam jurnal ilmiah
secara umum tidak dapat direplikasi karena

178 JURNAL PSIKOLOGI


PEMAHAMAN PENELITI PSIKOLOGI MENGENAI BESARAN SAMPEL

bias dan/atau kekuatan uji statistik yang Psychological Science, 7(6), 543–554. doi:
tidak optimal, penting bagi dosen dan 10.1177/1745691612459060
peneliti untuk mempelajari kembali Button, K. S., Ioannidis, J. P. A., Mokrysz, C.,
konsep-konsep mengenai besaran efek, Nosek, B. A., Flint, J., Robinson, E. S. J.,
besaran sampel, dan kekuatan uji statistik, & Munafò, M. R. (2013). Power failure:
serta memperkenalkannya dalam kelas- Why small sample size undermines the
kelas statistika. Selain itu, temuan reliability of neuroscience. Nature
penelitian ini juga menunjukkan perlunya Reviews. Neuroscience, 14(5), 365–76. doi:
merancang mekanisme aktivitas berbagi 10.1038/nrn3475
pengetahuan melalui forum-forum akade- Champely, S. (2009). Package “pwr.”
mik bidang psikometri dan statistika October, 1–21.
sebagai wadah meningkatkan kualitas
Cohen, J. (1988). Statistical power analysis for
penelitian dalam bidang psikologi.
the behavioral sciences. United State of
America: Lawrence Erlbaum
Kepustakaan Associates. Retrieved from
http://www.utstat.toronto.edu/~brunne
Attali, Y., & Bar-Hillel, M. (2003). Guess r/oldclass/378f16/readings/CohenPowe
where: The position of correct answers r.pdf
in multiple-choice test items as a
Cohen, J. (1990). Things I have learned (so
psychometric variable. Journal of
far). American Psychologist, 45(12), 1304-
Educational Measurement, 40(2), 109–128.
1312. doi: 10.1037/0003-066X.45.12.1304
doi: 10.1111/j.1745-3984.2003.tb01099.x
Cohen, J. (1992a). A power primer.
Badenes-Ribera, L., Frias-Navarro, D., Iotti,
Psychological Bulletin, 112(1), 155–159.
B., Bonilla-Campos, A., & Longobardi,
doi: 10.1037/0033-2909.112.1.155
C. (2016). Misconceptions of the p-value
Cohen, J. (1992b). Statistical power analysis.
among Chilean and Italian academic
Psychological Science. doi: 10.1111/1467-
psychologists. Frontiers in Psychology,
8721.ep10768783
7(August), 1247. doi:
10.3389/fpsyg.2016.01247 Dufresne, R. J., Leonard, W. J., & Gerace, W.
J. (2002). Making sense of students ’
Badenes-Ribera, L., Frías-Navarro, D.,
answers to multiple-choice questions.
Monterde-I-Bort, H., & Pascual-Soler,
The Physics Teacher, 40(March), 174–180.
M. (2015). Interpretation of the p value:
A national survey study in academic Durlak, J. A. (2009). How to select, calculate,
psychologists from spain. Psicothema, and interpret effect sizes. Journal of
27(3), 290–295. doi: Pediatric Psychology, 34(9), 917–928. doi:
10.7334/psicothema2014.283 10.1093/jpepsy/jsp004
Bakker, M., Hartgerink, C. H. J., Wicherts, J. Gigerenzer, G. (2004). Mindless statistics.
M., & van der Maas, H. L. J. (2016). Journal of Socio-Economics, 33(5), 587–
Researchers intuitions about power in 606. doi: 10.1016/j.socec.2004.09.033
psychological research. Psychological Hoekstra, R., Morey, R. D., Rouder, J. N., &
Science. doi: 10.1177/0956797616647519 Wagenmakers, E.-J. (2014). Robust
Bakker, M., van Dijk, A., & Wicherts, J. M. misinterpretation of confidence
(2012). The rules of the game called intervals. Psychonomic Bulletin & Review,
psychological science. Perspectives on 21(5), 1157–1164. doi: 10.3758/s13423-
013-0572-3

JURNAL PSIKOLOGI 179


WIRADHANY, DKK.

Ioannidis, J. P. A. (2005). Why most R Core team. (2015). A language and


published research findings are false. environment for statistical computing. R
PLoS Medicine, 2(8), e124. doi: Foundation for Statistical Computing ,
10.1371/journal.pmed.0020124 Vienna, Austria. ISBN 3-900051-07-0,
Ioannidis, J. P. A. (2008). Why most URL http://www.R-Project.org/.
discovered true associations are Retrieved from
inflated. Epidemiology, 19(5), 640–648. http://www.mendeley.com/research/r-
doi: 10.1097/EDE.0b013e31818131e7 language-environment-statistical-
Ioannidis, J. P. A., Munafò, M. R., Fusar- computing-96/%5Cnpapers2://
Poli, P., Nosek, B. A., & David, S. P. publication/uuid/A1207DAB-22D3-
(2014). Publication and other reporting 4A04-82FB-D4DD5AD57C28
biases in cognitive sciences: Detection, Rouder, J. N. (2014). Optional stopping: No
prevalence, and prevention. Trends in problem for Bayesians. Psychonomic
Cognitive Sciences, 18(5), 235–241. doi: Bulletin & Review, 21(2), 301–8. doi:
10.1016/j.tics.2014.02.010 10.3758/s13423-014-0595-4
Ioannidis, J. P. A., Ntzani, E. E., Trikalinos, Simmons, J. P., Nelson, L. D., & Simonsohn,
T. A., & Contopoulos-Ioannidis, D. G. U. (2011). False-positive psychology:
(2001). Replication validity of genetic Undisclosed flexibility in data collection
association studies. Nature Genetics, 29, and analysis allows presenting
306–309. doi: 10.1038/ng749 anything as significant. Psychological
Lakens, D. (2013). Calculating and reporting Science, 22(11), 1359–1366. doi:
effect sizes to facilitate cumulative 10.1177/0956797611417632
science: A practical primer for t-tests Simonsohn, U., Nelson, L. D., & Simmons, J.
and ANOVAs. Frontiers in Psychology, P. (2014). P-curve: A key to the file-
4(NOV), 1–12. doi: drawer. Journal of Experimental
10.3389/fpsyg.2013.00863 Psychology: General, 143(2), 534–547. doi:
Lindsay, S. (2015). Replication in 10.1037/a0033242
Psychological Science. Psychological Wagenmakers, E.-J. (2007). A practical
Science, 26(12), 1827–1832. doi: solution to the pervasive problems of p
10.1177/0956797615616374 values. Psychonomic Bulletin & Review,
Open Science Collaboration. (2015). 14(5), 779–804. doi: 10.3758/BF03194105
Estimating the reproducibility of Wasserstein, R. L., & Lazar, N. A. (2016).
psychological science. Science, The ASA’s statement on p -values:
349(6251), aac4716-aac4716. doi: Context, process, and purpose. The
10.1126/science.aac4716 American Statistician, 70(2), 129–133. doi:
Pluye, P., & Hong, Q. N. (2014). Combining 10.1080/00031305.2016.1154108
the power of stories and the power of Wickham, H. (2010). A layered grammar of
numbers: Mixed methods research and graphics. Journal of Computational and
mixed studies reviews. Annual Review of Graphical Statistics, 19(1), 3–28. doi:
Public Health, 35(1), 29–45. doi: 10.1198/jcgs.2009.07098
10.1146/annurev-publhealth-032013-
182440

180 JURNAL PSIKOLOGI

You might also like