You are on page 1of 40

VALIDITAS

PENGUKURAN

TIM PENGAMPU PENGUKURAN 2021


• “One of the major deities in the pantheon of the
psychometrician...”
(Ebel, 1961, p. 640)

• “The most fundamental consideration in developing


and evaluating tests”
(AERA, APA, NCME, 1999, P. 9)
VALIDITAS

SEJARAH: 4 GENERASI
PEMAHAMAN
PRA – 1930

• Scores from a single test might be interpreted in different ways when


used for different purposes

• Metode utama: korelasi


1930 - 1952
• Watson and forlano (1935): “prima facie validity” (prima facie refers to cases where pre-trial
evidence is reviewed by a judge and determined to be sufficient to warrant a trial. – First sight)

• Woody and others (1935): “curricular validity” (usually measured by a panel of curriculum
experts. It's not measured statistically, but rather by a rating of “valid” or “not valid

• Richardson (1936): “differential validity” (differences in validity coefficients across groups. For


example, the correlation between test scores and job performance may differ for males and
females)

• Rulon (1946) and mosier (1947): “face validity”

• Greene, jorgensen, and gerberich (1943): “curricular validity”, “statistical validity”,


“psychological validity”, dan “logical validity”

• Guilford (1946): “factorial validity dan “practical validity”

• Cronbach (1949): “empirical validity”, “logical validity”, “factorial validity”, dan “curricular
validity”
1954 - 1984
Jenis validitas sesuai tujuan tes:
1. To determine how an individual would perform Content validity
at present in a given universe of situations
2. To predict an individual’s future performance
Predictive validity
on an external variable
3. To estimate an individual’s present status on
an external variable Concurrent validity

4. To infer the degree to which an individual


Construct validity
possesses a trait
1985 – 1999
PERIODE TRANSISI
• Menolak penggunaan modifier
• Validitas bukan properti dari tes

3 c:
1. Content-related evidence of validity
2. Criterion-related evidence of validity
3. Construct-related evidence of validity
1999 -
“Modern theory of validity”

• Validitas adalah suatu unitary concepts


• Semua upaya validasi adalah upaya memvalidasikan pengukuran suatu
construct (“construct validity”)

• Tidak mengenal jenis-jenis validitas yang berbeda antara satu dengan yang
lainnya

• Validitas tidak berupa satu hitungan


• Lebih merupakan degree dan bukan all or nothing
VALIDITAS

TEORI TERBARU
(1999/2014)
DEFINISI VALIDITAS

• “… THE DEGREE TO WHICH EVIDENCE AND THEORY


SUPPORT THE INTERPRETATIONS OF TEST SCORES
ENTAILED BY PROPOSED USES OF THE TESTS.”
(AERA, APA, & NCME, 1999, P. 9)
DEFINISI VALIDITAS (CONTINUED)

• … Is an integrated evaluative judgment of the degree


to which empirical evidence and theoretical
rationales support the adequacy and
appropriateness of inferences and actions based on
test scores or other modes of assessment.”
(MESSICK, 1989, P. 13)
Interpretasi/
Construct Alat Ukur Hasil/Skor
Penggunaan
Observasi

Interview

Tes & Pengukuran

Interpretasi/
Construct Asesmen
Alat Ukur Hasil/Skor
Penggunaan

Validitas

Dukungan Teori dan


Bukti-bukti ilmiah
BEBERAPA KUTIPAN

• … Involves an evaluation of the overall plausibility of a proposed


interpretation or use of test scores (kane, 2003)

• It is the interpretation of test scores required by proposed uses that


are evaluated, not the test itself” (standard, 1999)

• “ … Is a matter of degree rather than all or none” (linn, 2008)


• “ … Requires multiple lines of evidence” (sireci, 2008)
VALIDASI

• “Validation can be viewed as developing a


scientifically sound validity argument to support
the intended interpretation of test scores and their
relevance to the proposed use” (sireci, 2008)
SOURCES OF VALIDITY EVIDENCES
Evidence
based on
Test
Content

Evidence Evidence
based on the based on
Consequenc Response
es of Testing Processes

Validitas

Evidence
based on Evidence
Relations Based on
Internal
to Other Structure
Variables (Test Standards, 1999)
Evidence
Content validity based on Test
Content

Evidence Evidence

Predictive validity based on the


Consequences
of Testing
based on
Response
Processes

Validitas

Concurrent validity
Evidence
based on Evidence
Based on

Construct validity
Relations to
Other Internal
Variables Structure
PERUBAHAN 2014

Evidence based
on Test Content

Evidence based Evidence based


on relationship on Cognitive
with criteria Processes

Validitas

Evidence based
on Relationship
Evidence based
with
on Response
conceptually
Processes
related
construct

Evidence Based
on Internal
Structure

(Test Standards, 2014)


EVIDENCE BASED ON TEST CONTENT

• Penelaahan mengenai sejauh mana isi/content dari tes


merepresentasikan construct yang diukur

• Prosedur:
Logical analysis, dan expert review terhadap
• Representativeness isi tes (test spec/blue print)
• Kesesuaian isi tes dengan definsi construct
• Relevansi, tingkat kepentingan. Clarity, dan bias dari item
EVIDENCE BASED ON COGNITIVE
PROCESSES

• Penelaahan spesifikasi tes/kisi-kisi sebagai indikasi


mengenai sejauh mana setiap butir soal menjaring cpaian
pembelajaran yang diharapkan
EVIDENCE BASED ON RESPONSE PROCESS

• Penelaahan mengenai sejauh mana proses untuk menjawab item-item


dalam tes sesuai dengan definisi construct yang hendak diukur

• Prosedur:
• Interview
• Observasi
• Thinking aloud protocol
EVIDENCE BASED ON INTERNAL
STRUCTURE

• Penelaahan mengenai sejauh mana komponen-komponen internal


dalam tes sesuai dengan definisi construct yang hendak diukur

• Prosedur:
• Analisis faktor: confirmatory
• Analisis cluster
• Analisis hubungan antar item
• DIF study
EVIDENCE BASED ON RELATIONSHIP WITH
CONCEPTUALLY RELATED CONSTRUCT
• PENELAHAAN SEJAUH MANA HASIL YANG DIPEROLEH
BERHUBUNGAN DENGAN HASIL LAIN YANG MERUPAKAN
NOMOLOGICAL NETWORK DARI CONSTRUCT YANG DIUKUR.

• PROSEDUR:
• KORELASI DENGAN KRITERIA EKSTERNAL (CONCURRENT MAUPUN
PREDICTIVE)
• ANALISIS PERBEDAAN KELOMPOK
• CONVERGENT AND DISCRIMINANT VALIDITY STUDIES
• MTMM
• STUDI-STUDI EKSPERIMENTAL MAUPUN KORELASIONAL BERDASARKAN
NOMOLOGICAL NETWORK CONSTRUCT YANG DIUKUR
EVIDENCE BASED ON RELATIONSHIP WITH
CRITERIA
• Penelahaan sejauh mana skor yang diperoleh berhubungan atau
tidak berhubungan dengan skor lain yang dipergunakan sebagai
kriteria.

• Prosedur:
• Korelasi dengan kriteria eksternal (concurrent maupun
predictive)
• Analisis perbedaan kelompok
• Convergent and discriminant validity studies
• MTMM (Multitrait Multimethod)
• Studi-studi eksperimental maupun korelasional berdasarkan
nomological network construct yang diukur
FAKTOR-FAKTOR YANG MEMPENGARUHI
VALIDITAS

• Construct underrepresentation
• Construct irrelevance
UNIFIED APPROACH

• “These sources of evidence may illuminate different aspects of


validity, but they do not represent distinct types of validity”.

• Validity is a unitary concept. It is the degree to which all of the


accumulated evidence supports the intended interpretation of test
scores for the intended purposes”
(standard, 1999, p.11)
BUKAN VALIDITAS

• Korelasi antara skor item dengan skor total


• Korelasi antara skor sub-test dengan skor total
• Loading factor yang signifikan

• Anastasi: tanpa kriteria eksternal, sedikit sekali yang kita ketahui


mengenai apa yang diukur oleh suatu tes
VALIDITAS TIDAK BERUPA SATU HITUNGAN !
LEBIH MERUPAKAN STUDI YANG BERKELANJUTAN DAN BERLANGSUNG SECARA
BERKESINAMBUNGAN
RELIABILITAS
(KEAKURATAN/KEMANTAPAN)
☺Apakah yang dimaksud dengan reliabilitas?
 Apakah alat ukur yang dipakai tersebut tepat
untuk mengukur konsep yang hendak diukur?
 Menunjuk pada sejauh mana suatu hasil
pengukuran relatif konsisten apabila
pengukuran dilakukan berulangkali.


BAGAIMANA HUBUNGAN ANTARA VALIDITAS DAN RELIABILITAS?

• Validitas
 mempermasalahkan kesesuaian
antara konsep dan kenyataan empiris
• Reliabilitas
 kesesuaian hasil-hasil pengukuran di
tingkat kenyataan empiris
• Karena itu  valid pasti reliable, tapi tidak sebaliknya
Reliabilitas pada teori tes klasik

• Reliabilitas mengacu pada konsistensi skor yang diperoleh


dari orang yang sama ketika ia dites kembali dengan tes
yang sama pada situasi yang berbeda atau dites dengan tes
yang berbeda namun item-item tes tersebut bersifat
ekuivalen atau setara (anastasi & urbina, 1997). Berkaitan
dengan asumsi di atas, dirumuskan pula mengenai
konsep tes paralel.
• Menurut teori ini, dua bentuk tes diseut paralel apabila skor murni
dari setiap subjek adalah sama pada kedua tes (T1=T2), dan
bagi setiap populasi yang dikenai tes tersebut varians erornya
adalah sama besar σe2 = σe2. Batasan tersebut mengandung arti
bahwa mean dan varians skor tampak yang setara serta
keduanya memiliki korelasi skor tampak dengan yang setara
pula. Batasan lain yang dirumuskan adalah mengenai
konsep essentially tau-equivalent. Kedua tes memiliki sifat tau-
equivalent apabila besarnya perbedaan skor murni setiap
individu pada kedua tes selalu sama. Itu artinya T1 = T2 + C,
dimana C suatu bilangan konstan. Tes yang paralel sudah pasti
tau-equivalent.
PENDEKATAN RELIABILITAS

Secara umum, perhitungan terhadap reliabilitas dapat dilakukan dengan


tiga pendekatan, yakni :
• tes-ulang (test-retest),
• pendekatan estimasi reliabiltas bentuk paralel (parallel-form),
• dan pendekatan penyajian tunggai (single trial administration), atau
yang lebih dikenal dengan istilah konsistensi internal
TEST-RETEST
• Reliabilitas test-retest digunakan  pada saat ingin diketahui seberapa konsisten respon
dari seorang peserta tes di waktu yang berbeda. Koefisien reliabilitas yang diperoleh
dengan metode pengujian test-retest ini disebut sebagai koefisien stabilitas (crocker &
algina, 1986).

• Metode pengujian ini dilakukan dengan menggunakan satu form tes dengan 2 kali sesi
pengujian. Hasil pengujian dari kedua tes tersebut nantinya akan menghasilkan 2
distribusi skor tes yaitu skor tes dari sesi pengujian yang pertama dan skor tes dari tes
yang sama namun dari sesi pengujian yang kedua. Koefisien reliabilitas diperoleh
dengan cara melakukan perhitungan korelasi antar kedua distribusi skor tersebut,

• Kendala yang dihadapi adalah bagaimana menentukan interval waktu yang pas antara
tes pertama dan kedua, sehingga tidak terjadi carry over effect (efek bawaan) yang
mempengaruhi besaran koefisien yang dihasilkan. 
PARALLEL-FORM

• Koefisien reliabilitas dalam metode parallel-form mengukur dua hal yaitu


kestabilitasan hasil pengukuran antar waktu dan konsistensi respon peserta tes
terhadap item-item tes yang berbeda atau dua form tes yang berbeda (anastasi
& urbina, 1997).

• Kendala utama bentuk  parallel-form adalah sulitnya menciptakan dua tes yang


benar-benar paralel.
KONSISTENSI INTERNAL

• Komputasi koefisien konsistensi internal diawali dengan


pembelahan tes menjadi beberapa bagian. Dalam pembelahan,
apabila memungkinkan sebisa mungkin bentuk belahannya
paralel, sehingga estimasi reliabilitas yang dihasilkan lebih akurat.

• = metode belah dua


Beberapa koefisien reliabilitas
dalam teori tes klasik
1. koefisien alpha cronbach (α ),
2. Spearman-brown
3. Rulon
4. Kuder richradson 20 (KR-20)
5. koefisien armor theta (θ ),
6. koefisien omega (Ω ) dari heise dan bohrnstedt,
7. koefisien omega (ω ) dari mcdonald, dan
8. koefisien beta ( β ) dari revelle
-- Koefisien reliabilitas dalam teori skor murni klasik yang dikembangkan oleh para ahli
pengukuran memiliki ketepatan estimasi yang bervariasi.
RELIABILITAS AITEM DALAM
TEORI KLASIK

• Dalam referensi klasik reliabilitas butir sudah mulai diperkenalkan, akan


tetapi sebagai indeks.

• Di buku referensi dasar psikometri seperti allen & yen (1979) dan crocker &
algina (1986) ditulis mengenai reliabilitas butir (item reliability).

• Reliabilitas aitem didapatkan dari perkalian antara deviasi standar aitem dan
Korelasi biserial aitem dengan total. Semakin banyak aitem yang memiliki
indeks Reliabilitas aitem yang tinggi, semakin tinggi nilai reliabilitas
keseluruhan aitem. Yang dihasilkan (misalnya ditunjukkan melalui koefisien
alpha).
• Jika alpha > 0,90 maka reliabilitas sempurna
• Jika alpha antara 0,70 – 0,90 maka reliabilitas tinggi
• Jika alpha antara 0,50 – 0,70 maka reliabilitas moderat
• Jika alpha < 0,50 maka reliabilitas rendah

NB: Cronbach's alpha tergantung pada asumsi bahwa masing-masing variabel indikator
memberikan kontribusi yang sama terhadap faktor, yaitu, semua pemuatan (yang tidak
standar) harus sama (tau-ekivalen). Jika asumsi ini dilanggar, keandalan yang sebenarnya
akan diremehkan. Cronbach's alpha tidak melibatkan asumsi seperti unidimensionality.
Asumsi kedua untuk alpha adalah bahwa varian kesalahan indikator harus tidak
berkorelasi. Dengan kata lain, satu faktor harus menjelaskan semua varian umum dari
indikator. Jika ini tidak terjadi, alpha akan melebih-lebihkan keandalan.

You might also like