Kritik Terhadap Model Skor Tulen Dalam Analisis Tes Bahasa

Kritik terhadap Model Skor Tulen dalam Analisis Tes Bahasa
Oleh
Widiatmoko
moko.geong@gmail.com
http://widiatmoko.blog.com
Departemen Pendidikan Nasional, Jakarta
Pengantar
Model skor tulen (MST) atau disebut juga sebagai teori tes klasik dalam sejarahnya dapat ditelusuri melalui
konsep Spearman (1904). Dalam konsepnya, persamaan MST itu diungkapkan sebagai: Χ j = τ j + Ε j ; di mana
Χj adalah skor amatan, τj skor tulen, dan Εj kekeliruan acak. Idealnya, skor tulen itu mencerminkan nilai
abilitas dari peserta tes yang sesungguhnya. Ditambahkannya, teori itu mengasumsikan bahwa abilitas bersifat
konstan dan variasi pada skor amatan itu terjadi karena adanya kekeliruan acak. Kekeliruan acak tersebut
disebabkan oleh sejumlah faktor, seperti tebakan peserta tes terhadap butir tes, kelelahan, dan sebagainya.
Kekeliruan acak dari berkali-kali pengukuran itu dimaksudkan untuk menghindari keberpihakan pada salah
satu peluang (yakni, peserta tes beruntung karena skor amatannya lebih tinggi daripada skor tulennya atau
peserta tes tidak beruntung karena skor amatannya lebih rendah). Lebih jauh, rata-rata harapan kekeliruan acak
pengukuran seharusnya bernilai nol. Manakala kekeliruan itu nol, skor amatan merupakan skor tulennya.
Dengan demikian, apabila suatu hasil ukur dari instrumen tersebut reliabel, skor amatan seharusnya konsisten
dan stabil dari berkali-kali pengukuran.
MST setakat ini tidak memberikan informasi lebih mendalam tentang bagaimana peserta tes dengan
tingkat abilitas yang berbeda merespon suatu butir tes. Teori responsi butir atau disebut juga teori ciri laten (TCL)
dikembangkan untuk mengatasi kelemahan itu. Di dalam TCL, suatu tes dianggap tidak bias manakala semua
peserta tes dengan abilitas sama memiliki probabilitas yang sama untuk merespon butir tes dengan betul tanpa
menghiraukan dari mana kelompok tersebut.
Kalibrasi Butir dan Estimasi Abilitas

Tidak seperti MST yang mana skor peserta tes yang sama akan bervariasi dari tes satu ke tes lainnya dan
ia bergantung pada taraf kesukarannya, di dalam TCL, kalibrasi parameter butir bersifat independen dari
sampelnya (peserta tes) dan estimasi abilitas peserta tes bersifat independen dari butir tesnya. Maknanya,
manakala abilitas peserta tes yang memengaruhi performansi tes itu bersifat konstan, respon peserta tes terhadap
butirnya secara statistik bersifat independen (Hambleton, et al., 1991). Di dalam kalibrasi butir dan estimasi
abilitas peserta tes, data dikonseptualisasikan sebagai matriks dua dimensi. Contoh berikut ini diambilkan dari
sampel teks dan butir tes bahasa Inggris (English for Specific Purposes).
Teks 3
Forecasting is an important part of any firm’s financial plan. A short term forecast predicts revenues, costs, and
expenses for a period of one year or less. This forecast is the foundation for most other financial plan, so its accuracy
is critical. Part of the short term forecast may be in the form of a cash flow forecast, which predicts the cash inflows
and outflows in the future periods, usually months or quarters. Naturally, the inflows and outflows of cash recorded
in the cash flow forecast are based on expected sales revenues and on various cost and expenses incurred and they will
come due. The company’s sales forecast estimates the company’s projected sales for a particular period. A firm often
uses its past financial statements as a basis for projecting expected sales and various cost and expenses.
Questions:
1. The best summary taken from the text explains that ___________.
a. Forecasting consists of short term and cash flow forecast
b. Short term forecast in financial forecasting is important part of any firm
c. A cash flow forecast as part of short term forecast is important
d. Financial statements as a basis for projecting sales
1
2. The last sentence explains that ________.
a. sales forecast is based on the future
b. making sales forecast is based on the future purchase
c. sales forecast is also based on the sales in the past
d. sales forecast is estimated from the cash flow
3. According to the text, a short term forecast predicts things below for a period of one year or less, except
_________.
a. cost
b. income
c. profits
d. asset
4. Which part of the short term forecast may predict the cash inflows and outflows in the future periods?
a. an expected sales revenue
b. a past financial statement
c. a company’s sales forecast
d. a cash flow forecast
5. Things below belong to outflows money, except ________.
a. expenses
b. earnings
c. expenditures
d. costs
Matriks dua dimensi butir-peserta tes disajikan berikut ini.
Matriks Dua Dimensi Butir-Peserta Tes
Butir 1 Butir 2 Butir 3 Butir 4 Butir 5 Abilitas
Peserta Tes 1 1 1 1 1 1 1,0

Peserta Tes 2 0 1 1 1 1 0,8
Peserta Tes 3 0 0 1 1 1 0,6
Peserta Tes 4 0 0 0 1 1 0,4
Peserta Tes 5 0 0 0 0 1 0,2
Taraf
0,8 0,6 0,4 0,2 0,0
Kesukaran
Keterangan:
• Butir yang direspon dengan betul disimbolkan dengan 1, dan yang direspon dengan salah dengan 0
• Skor peserta tes merupakan jumlah butir yang direspon dengan betul
• Taraf kesukaran butir memiliki rentang 0-1, manakala nilai mendekati 1 dikatakan sukar dan nilai mendekati
0 dikatakan mudah
Dari tabel tersebut, peserta tes 1 yang merespon semua butir dengan betul dianggap secara tentatif
memiliki abilitas 1,0, peserta tes 2 sebesar 0,8, peserta tes 3 sebesar 0,6, dan seterusnya. Skor-skor tes dengan
menggunakan persentase itu dianggap tentatif karena, pertama, di dalam TCL ada seperangkat istilah dan
penskalaan lain untuk abilitas, dan kedua, abilitas peserta tes tidak dapat diputuskan hanya berdasarkan atas
jumlah butir yang direspon dengan betul. Namun, atribut butir harus juga dipertimbangkan. Pada contoh
sederhana itu, tidak ada peserta tes yang memiliki skor mentah yang sama. Tetapi, apa yang akan terjadi
manakala ada seorang peserta tes, katakan saja peserta tes 6, yang memiliki skor mentah sama dengan yang
dimiliki oleh peserta tes 4. Perhatikan tabel butir-peserta tes berikut ini.
Tabel Butir-Peserta Tes
Peserta Tes 4 0 0 0 1 1 0,4
Peserta Tes 5 0 0 0 0 1 0,2
Peserta Tes 6 1 1 0 0 0 0,4
Dari tabel tersebut, tidak dapat disimpulkan bahwa peserta tes 4 memiliki abilitas yang sama dengan
peserta tes 6 meskipun keduanya memiliki skor tes yang sama (0,4). Ini disebabkan oleh peserta tes 4 yang
merespon dua butir mudah dengan betul, dan peserta tes 6 merespon dua butir sukar dengan betul.
Peserta tes 1 sampai dengan peserta tes 5 merupakan contoh yang ideal yang mana peserta tes yang
pandai merespon semua butir dengan betul, yang kurang pandai merespon dengan betul butir yang lebih mudah
dan dengan salah butir yang sukar, dan yang tidak pandai itu gagal merespon semua butir dengan betul. Kasus
2
ideal itu disebut sebagai pola Guttman dan biasanya jarang terjadi di dalam realitas. Manakala ia terjadi, hasilnya
dianggap overfit. Perhatikan tabel pertama lagi yang dituliskan kembali berikut ini.
Peserta Tes 1 1 1 1 1 1 1,0
Peserta Tes 2 0 1 1 1 1 0,8
Peserta Tes 3 0 0 1 1 1 0,6
Peserta Tes 4 0 0 0 1 1 0,4
Peserta Tes 5 0 0 0 0 1 0,2
Taraf
0,8 0,6 0,4 0,2 0,0
Kesukaran
Dari tabel itu, dapat dibuatkan penilaian tentatif atas atribut butir tesnya. Butir tes 1 tampak paling
sukar karena hanya satu peserta tes yang mampu meresponnya dengan betul. Secara tentatif, dikatakan bahwa
taraf kesukaran berkenaan dengan tingkat kegagalan terhadap butir 1 sebesar 0,8. Maknanya, 80% dari seluruh
peserta tes itu tidak mampu merespon butir dengan betul. Dengan perkataan lain, butir itu sukar sehingga ia
merugikan 80% peserta tes. Taraf kesukaran butir 2 sebesar 0,6, butir 3 sebesar 0,4, dan seterusnya. Perlu
diperhatikan bahwa abilitas peserta tes didasarkan atas jumlah butir yang diresponnya dengan betul, tetapi taraf
kesukaran butir tes didasarkan atas jumlah butir yang direspon dengan salah. Analisis menjadi lebih rumit
manakala butir-butir tes memiliki taraf kesukaran sama meskipun direspon oleh peserta tes yang berabilitas
berbeda. Perhatikan tabel berikut ini.
Butir 1 Butir 2 Butir 3 Butir 4 Butir 5 Butir 6 Abilitas
Peserta Tes 1 1 1 1 1 1 0 0,83
Peserta Tes 2 0 1 1 1 1 0 0,67
Peserta Tes 3 0 0 1 1 1 0 0,50
Peserta Tes 4 0 0 0 1 1 0 0,33
Peserta Tes 5 0 0 0 0 1 1 0,33
Taraf
0,8 0,6 0,4 0,2 0 0,8
Kesukaran
Dari tabel tersebut, diketahui bahwa butir 1 dan butir 6 memiliki taraf kesukaran yang sama (0,8).
Namun demikian, butir 1 direspon dengan betul oleh peserta tes yang memiliki abilitas tinggi (0,83), sedangkan
butir 6 direspon dengan betul oleh peserta tes yang memiliki abilitas rendah (0,33). Dimungkinkan, butir 6 itu
membingungkan peserta tes berabilitas tinggi. Oleh karena itu, atribut pada butir 6 tidaklah jelas.
Pendeknya, atribut butir dan abilitas peserta tes harus dipertimbangkan dengan baik agar dapat
dijadikan pedoman untuk kalibrasi butir dan estimasi abilitas. Ini adalah proses yang iteratif. Maknanya, abilitas
dan taraf kesukaran yang bersifat tentatif dan berasal dari data empirik itu dapat digunakan untuk mencocokkan
model. Model itu selanjutnya digunakan untuk memprediksi data empirik. Dengan perkataan lain, akan ada
diskrepensi antara model dan data pada langkah awal. Tentu, ia memerlukan siklus berulang-ulang untuk
mencapai konvergensi.
Dengan menggunakan informasi tentatif sebelumnya, dapat diprediksi probabilitas untuk merespon
butir tertentu dengan betul dengan taraf abilitas peserta tes dengan persamaan berikut:
1
Pi (θ ) = ; di mana Pi (θ ) adalah probabilitas peserta tes merespon butir dengan betul, θ adalah
1 + e −(θ −bi )
ciri laten peserta tes (abilitas), bi adalah taraf kesukaran butir tes, dan e adalah bilangan eksponensial yang
besarnya 2,718. Model ini merupakan model logistik satu parameter (L1P) (Baker, 2001).
Dengan menerapkan persamaan tersebut, dapat ditampilkan estimasi probabilistik tentang
kebolehjadian peserta tes tertentu yang merespon butir tertentu dengan betul. Perhatikan tabel berikut ini.
Abilitas
Butir 1 Butir 2 Butir 3 Butir 4 Butir 5
Tentatif
Peserta Tes 1 0,55 0,60 0,65 0,69 0,73 1,0
Peserta Tes 2 0,50 0,55 0,60 0,65 0,69 0,8
Peserta Tes 3 0,45 0,50 0,55 0,60 0,65 0,6
Peserta Tes 4 0,40 0,45 0,50 0,55 0,60 0,4
Peserta Tes 5 0,35 0,40 0,45 0,50 0,55 0,2
3
Taraf
Kesukaran 0,8 0,6 0,4 0,2 0,0
Tentatif
Dari contoh tabel tersebut, dijelaskan bahwa probabilitas peserta tes 1 untuk merespon butir 5 dengan
betul sebesar 0,73. Ini tidaklah mengherankan karena peserta tes 1 memiliki abilitas tentatif sebesar 1,0 dan taraf
kesukaran tentatif butir 5 sebesar 0,0. Dengan perkataan lain, peserta tes 1 secara definitif lebih baik daripada
butir 5 ditilik dari sisi proporsinya.
Kini, perhatikan tabel itu sekali lagi. Ditemukan bahwa probabilitas peserta tes 2 merespon butir 1
dengan betul sebesar 0,50. Taraf kesukaran tentatif butir 1 sebesar 0,8 dan abilitas tentatif peserta tes 2 juga
sebesar 0,8. Dengan perkataan lain, abilitas peserta tes 2 itu sesuai dengan taraf kesukaran butir 1. Manakala
peserta tes memiliki kesempatan 0,5 untuk merespon butir dengan betul, peserta tes itu tidak memiliki
keberpihakan terhadap butir itu, dan demikian pula sebaliknya. Apabila tabel tersebut diperhatikan lagi, akan
ditemukan kesesuaian antara peserta tes dan butirnya berkali-kali sebesar 0,5. Namun, manakala dua tabel
sebelumnya digabungkan menjadi satu, akan diperoleh informasi baru, sebagai berikut.
Tabel Butir-Peserta Tes (A)
Abilitas
Butir 1 Butir 2 Butir 3 Butir 4 Butir 5
Tentatif
Peserta Tes 1 0,55 0,60 0,65 0,69 0,73 1,0
Peserta Tes 2 0,50 0,55 0,60 0,65 0,69 0,8
Peserta Tes 3 0,45 0,50 0,55 0,60 0,65 0,6
Peserta Tes 4 0,40 0,45 0,50 0,55 0,60 0,4
Peserta Tes 5 0,35 0,40 0,45 0,50 0,55 0,2
Taraf
Kesukaran 0,8 0,6 0,4 0,2 0,0
Tentatif
Tabel Butir-Peserta Tes (B)
Peserta Tes 1 1 1 1 1 1 1,0
Peserta Tes 2 0 1 1 1 1 0,8
Peserta Tes 3 0 0 1 1 1 0,6
Peserta Tes 4 0 0 0 1 1 0,4
Peserta Tes 5 0 0 0 0 1 0,2
Taraf
0,8 0,6 0,4 0,2 0,0
Kesukaran
Dari kedua tabel tersebut, dikatakan bahwa probabilitas peserta tes 5 yang merespon butir 1 hingga 4
dengan betul berentang dari 0,35 hingga 0,50, meskipun sesungguhnya peserta tes itu telah gagal untuk
merespon semua butir dengan betul (yang diindikasikan dengan nilai 0 pada butir 1 hingga butir 4). Dengan
demikian, sebagaimana disebutkan sebelumnya, data empirik itu tidak cocok dengan model yang dikehendaki.
Model yang dikehendaki tersebut merupakan kurva responsi butir dengan mempertimbangkan abilitas, taraf
kesukaran, dan probabilitas untuk merespon butir dengan betul. Untuk mengalibrasi butir dan mengestimasi
abilitas sedemikian hingga data dan model menjadi konvergen, diperlukan bantuan program komputer.
Contohnya, pada model logistik dua parameter (L2P), sejumlah peserta tes mengerjakan sebelas butir dengan
karakteristik sebagai berikut.
Tabel Ciri Butir
Nomor Butir
Ciri Butir
1 2 3 4 5 6 7 8 9 10 11
Daya Pembeda 2,5 2 2,4 1,9 2,2 2,1 1,9 1,7 1,8 1,9 2,2
Taraf Kesukaran -0,5 0,5 1,8 1,2 1,6 -0,1 -1 -0,8 1,5 1 0,7
Perlu diketahui bahwa secara praktik di dalam TCL, daya pembeda berentang dari -2,80 hingga +2,80; dan taraf
kesukaran dari -3,00 hingga +3,00 (Baker, 2001). Dengan mengetahui ciri butir dari model L2P itu, dapat
diestimasi ciri laten, yakni abilitas peserta tes. Dan, probabilitas untuk merespon butir dengan betul dapat
digambarkan dalam bentuk kurva responsi butir sebagai berikut.
4
Kurva Responsi Butir
1.0
Probabilitas
0.5
0.0
-3 -2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 3
Abilitas (Theta)
Tampak dari kurva responsi butir yang digambarkan itu, didapatkan berbagai lengkungan yang
menyerupai huruf S. Lengkungan-lengkungan itu adalah model yang dikehendaki, yakni model ojaif normal.
Dengan demikian, manakala sejumlah peserta tes memberikan respon terhadap sejumlah butir, diperoleh kurva
responsi butir sesuai dengan model yang dikehendaki. Yang membedakan antarlengkungan itu adalah
kecuramannya. Suatu lengkungan yang makin curam menunjukkan suatu butir tes yang memiliki karakteristik
daya pembeda yang lebih tinggi daripada suatu butir dengan lengkungan yang kurang atau tidak curam. Di
samping itu, lengkungan-lengkungan itu juga berada pada lokasi yang berbeda. Maknanya, manakala suatu
lengkungan terletak di lokasi yang makin ke kiri, ia mengandung karakteristik taraf kesukaran butir yang relatif
mudah dibandingkan dengan suatu lengkungan yang terletak di sebelah kanannya, demikian seterusnya. Dan,
makin ke kanan letak lengkungan menunjukkan suatu butir yang makin sukar. Taraf kesukaran yang
dicerminkan melalui letak lengkungan itu juga berada pada letak abilitas peserta tesnya. Maknanya,
bagaimanapun juga taraf kesukaran suatu butir sangat bergantung pada taraf abilitas peserta tesnya. Di dalam
kondisi di mana seorang peserta tes menjumpai suatu butir yang paling mudah, peserta tes itu tidak akan
maksimal menggunakan abilitasnya untuk merespon butir itu. Demikian pula, di dalam kondisi di mana peserta
tes menjumpai suatu butir yang paling sukar, peserta tes dengan taraf abilitasnya tetap tidak maksimal untuk
merespon butir itu. Oleh karena itu, manakala peserta tes menjumpai suatu butir yang memiliki taraf kesukaran
0,5, yang bermakna 50% proporsi butir diresponnya oleh peserta tes, peserta tes itu akan sangat maksimal
menggunakan abilitasnya untuk merespon butir itu. Pada taraf kesukaran butir 0,5, seorang peserta tes akan
memiliki probabilitas yang sama, yakni 0,5, untuk merespon butir secara maksimal. Dengan demikian, taraf
kesukaran butir akan selalu berada pada garis kontinum yang sama dengan abilitas peserta tes.
Penutup
Meskipun MST telah menjadi teori yang dominan untuk mengestimasi koefisien reliabilitas hasil ukur tes dan
TCL juga telah populer, ada berbagai tantangan dari kedua model itu. Dikatakan bahwa skor tulen hanyalah
merupakan abstraksi matematis. Pada model itu, kekeliruan acak pengukuran ditunjukkan dengan adanya
diskrepensi antarestimat, bukan antara estimat dan skor tulen hipotetis. Manakala skor tulen tidak ada di dalam
realita dan tidak dapat diukur secara langsung, skor itu seharusnya tidak boleh dianggap sebagai skor tulen.
Pernyataan itu berkenaan dengan eksistensi realita matematis.
Pada model TCL, kecocokan antara model dan data empirik menjadi pertimbangan utama. Maknanya,
manakala kalibrasi butir dan estimasi abilitas dilakukan, diperlukan model responsi butir yang dikehendaki.
Kalibrasi dan estimasi tersebut bergantung pada beberapa syarat TCL. Dan, apabila persyaratan dan model yang
dikehendaki itu telah dipenuhi, pertimbangan lain yang juga penting adalah kecukupan jumlah responden
(peserta ujian) yang secara tetap memberikan respon terhadap butir-butir tes yang diujikan. Dengan demikian,
TCL merupakan salah satu solusi atas kelemahan-kelemahan yang dimiliki oleh MST.
Pustaka Rujukan
Baker, F.B. (2001). The basics of item response theory. University of Wisconsin: ERIC Clearinghouse on Assessment
and Evaluation.
Hambleton, R. K., Swaminathan, H., & Rogers, H. J. (1991). Fundamentals of item response theory. Newbury Park,
CA.: Sage Publications.
***

Kritik Terhadap Model Skor Tulen Dalam Analisis Tes Bahasa

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Kritik Terhadap Model Skor Tulen Dalam Analisis Tes Bahasa

Uploaded by

Copyright:

Available Formats

Kritik terhadap Model Skor Tulen dalam Analisis Tes Bahasa

Kalibrasi Butir dan Estimasi Abilitas

Butir 1 Butir 2 Butir 3 Butir 4 Butir 5 Abilitas

Peserta Tes 1 1 1 1 1 1 1,0

You might also like