Validitas Pengukuran: Empat Generasi Pemahaman

VALIDITAS
PENGUKURAN
TIM PENGAMPU PENGUKURAN 2021

• “One of the major deities in the pantheon of the
psychometrician...”
(Ebel, 1961, p. 640)
• “The most fundamental consideration in developing

and evaluating tests”
(AERA, APA, NCME, 1999, P. 9)
VALIDITAS
SEJARAH: 4 GENERASI
PEMAHAMAN
PRA – 1930
• Scores from a single test might be interpreted in different ways when

used for different purposes
• Metode utama: korelasi

1930 - 1952
• Watson and forlano (1935): “prima facie validity” (prima facie refers to cases where pre-trial
evidence is reviewed by a judge and determined to be sufficient to warrant a trial. – First sight)
• Woody and others (1935): “curricular validity” (usually measured by a panel of curriculum
experts. It's not measured statistically, but rather by a rating of “valid” or “not valid
• Richardson (1936): “differential validity” (differences in validity coefficients across groups. For

example, the correlation between test scores and job performance may differ for males and
females)
• Rulon (1946) and mosier (1947): “face validity”
• Greene, jorgensen, and gerberich (1943): “curricular validity”, “statistical validity”,

“psychological validity”, dan “logical validity”
• Guilford (1946): “factorial validity dan “practical validity”
• Cronbach (1949): “empirical validity”, “logical validity”, “factorial validity”, dan “curricular
validity”
1954 - 1984
Jenis validitas sesuai tujuan tes:
1. To determine how an individual would perform Content validity
at present in a given universe of situations
2. To predict an individual’s future performance
Predictive validity
on an external variable
3. To estimate an individual’s present status on
an external variable Concurrent validity
4. To infer the degree to which an individual

Construct validity
possesses a trait
1985 – 1999
PERIODE TRANSISI
• Menolak penggunaan modifier
• Validitas bukan properti dari tes
3 c:
1. Content-related evidence of validity
2. Criterion-related evidence of validity
3. Construct-related evidence of validity
1999 -
“Modern theory of validity”
• Validitas adalah suatu unitary concepts

• Semua upaya validasi adalah upaya memvalidasikan pengukuran suatu
construct (“construct validity”)
• Tidak mengenal jenis-jenis validitas yang berbeda antara satu dengan yang
lainnya
• Validitas tidak berupa satu hitungan

• Lebih merupakan degree dan bukan all or nothing
VALIDITAS
TEORI TERBARU
(1999/2014)
DEFINISI VALIDITAS
• “… THE DEGREE TO WHICH EVIDENCE AND THEORY

SUPPORT THE INTERPRETATIONS OF TEST SCORES
ENTAILED BY PROPOSED USES OF THE TESTS.”
(AERA, APA, & NCME, 1999, P. 9)
DEFINISI VALIDITAS (CONTINUED)
• … Is an integrated evaluative judgment of the degree

to which empirical evidence and theoretical
rationales support the adequacy and
appropriateness of inferences and actions based on
test scores or other modes of assessment.”
(MESSICK, 1989, P. 13)
Interpretasi/
Construct Alat Ukur Hasil/Skor
Penggunaan
Observasi
Interview
Tes & Pengukuran
Interpretasi/
Construct Asesmen
Alat Ukur Hasil/Skor
Penggunaan
Validitas
Dukungan Teori dan

Bukti-bukti ilmiah
BEBERAPA KUTIPAN
• … Involves an evaluation of the overall plausibility of a proposed

interpretation or use of test scores (kane, 2003)
• It is the interpretation of test scores required by proposed uses that

are evaluated, not the test itself” (standard, 1999)
• “ … Is a matter of degree rather than all or none” (linn, 2008)

• “ … Requires multiple lines of evidence” (sireci, 2008)
VALIDASI
• “Validation can be viewed as developing a

scientifically sound validity argument to support
the intended interpretation of test scores and their
relevance to the proposed use” (sireci, 2008)
SOURCES OF VALIDITY EVIDENCES
Evidence
based on
Test
Content
Evidence Evidence
based on the based on
Consequenc Response
es of Testing Processes
Validitas
Evidence
based on Evidence
Relations Based on
Internal
to Other Structure
Variables (Test Standards, 1999)
Evidence
Content validity based on Test
Content
Evidence Evidence
Predictive validity based on the

Consequences
of Testing
based on
Response
Processes
Validitas
Concurrent validity
Evidence
based on Evidence
Based on
Construct validity
Relations to
Other Internal
Variables Structure
PERUBAHAN 2014
Evidence based
on Test Content
Evidence based Evidence based

on relationship on Cognitive
with criteria Processes
Validitas
Evidence based
on Relationship
Evidence based
with
on Response
conceptually
Processes
related
construct
Evidence Based
on Internal
Structure
(Test Standards, 2014)

EVIDENCE BASED ON TEST CONTENT
• Penelaahan mengenai sejauh mana isi/content dari tes

merepresentasikan construct yang diukur
• Prosedur:
Logical analysis, dan expert review terhadap
• Representativeness isi tes (test spec/blue print)
• Kesesuaian isi tes dengan definsi construct
• Relevansi, tingkat kepentingan. Clarity, dan bias dari item
EVIDENCE BASED ON COGNITIVE
PROCESSES
• Penelaahan spesifikasi tes/kisi-kisi sebagai indikasi

mengenai sejauh mana setiap butir soal menjaring cpaian
pembelajaran yang diharapkan
EVIDENCE BASED ON RESPONSE PROCESS
• Penelaahan mengenai sejauh mana proses untuk menjawab item-item

dalam tes sesuai dengan definisi construct yang hendak diukur
• Prosedur:
• Interview
• Observasi
• Thinking aloud protocol
EVIDENCE BASED ON INTERNAL
STRUCTURE
• Penelaahan mengenai sejauh mana komponen-komponen internal

dalam tes sesuai dengan definisi construct yang hendak diukur
• Prosedur:
• Analisis faktor: confirmatory
• Analisis cluster
• Analisis hubungan antar item
• DIF study
EVIDENCE BASED ON RELATIONSHIP WITH
CONCEPTUALLY RELATED CONSTRUCT
• PENELAHAAN SEJAUH MANA HASIL YANG DIPEROLEH
BERHUBUNGAN DENGAN HASIL LAIN YANG MERUPAKAN
NOMOLOGICAL NETWORK DARI CONSTRUCT YANG DIUKUR.
• PROSEDUR:
• KORELASI DENGAN KRITERIA EKSTERNAL (CONCURRENT MAUPUN
PREDICTIVE)
• ANALISIS PERBEDAAN KELOMPOK
• CONVERGENT AND DISCRIMINANT VALIDITY STUDIES
• MTMM
• STUDI-STUDI EKSPERIMENTAL MAUPUN KORELASIONAL BERDASARKAN
NOMOLOGICAL NETWORK CONSTRUCT YANG DIUKUR
EVIDENCE BASED ON RELATIONSHIP WITH
CRITERIA
• Penelahaan sejauh mana skor yang diperoleh berhubungan atau
tidak berhubungan dengan skor lain yang dipergunakan sebagai
kriteria.
• Prosedur:
• Korelasi dengan kriteria eksternal (concurrent maupun
predictive)
• Analisis perbedaan kelompok
• Convergent and discriminant validity studies
• MTMM (Multitrait Multimethod)
• Studi-studi eksperimental maupun korelasional berdasarkan
nomological network construct yang diukur
FAKTOR-FAKTOR YANG MEMPENGARUHI
VALIDITAS
• Construct underrepresentation
• Construct irrelevance
UNIFIED APPROACH
• “These sources of evidence may illuminate different aspects of

validity, but they do not represent distinct types of validity”.
• Validity is a unitary concept. It is the degree to which all of the

accumulated evidence supports the intended interpretation of test
scores for the intended purposes”
(standard, 1999, p.11)
BUKAN VALIDITAS
• Korelasi antara skor item dengan skor total

• Korelasi antara skor sub-test dengan skor total
• Loading factor yang signifikan
• Anastasi: tanpa kriteria eksternal, sedikit sekali yang kita ketahui

mengenai apa yang diukur oleh suatu tes
VALIDITAS TIDAK BERUPA SATU HITUNGAN !
LEBIH MERUPAKAN STUDI YANG BERKELANJUTAN DAN BERLANGSUNG SECARA
BERKESINAMBUNGAN
RELIABILITAS
(KEAKURATAN/KEMANTAPAN)
☺Apakah yang dimaksud dengan reliabilitas?
 Apakah alat ukur yang dipakai tersebut tepat
untuk mengukur konsep yang hendak diukur?
 Menunjuk pada sejauh mana suatu hasil
pengukuran relatif konsisten apabila
pengukuran dilakukan berulangkali.
☼
BAGAIMANA HUBUNGAN ANTARA VALIDITAS DAN RELIABILITAS?
• Validitas
 mempermasalahkan kesesuaian
antara konsep dan kenyataan empiris
• Reliabilitas
 kesesuaian hasil-hasil pengukuran di
tingkat kenyataan empiris
• Karena itu  valid pasti reliable, tapi tidak sebaliknya
Reliabilitas pada teori tes klasik
• Reliabilitas mengacu pada konsistensi skor yang diperoleh

dari orang yang sama ketika ia dites kembali dengan tes
yang sama pada situasi yang berbeda atau dites dengan tes
yang berbeda namun item-item tes tersebut bersifat
ekuivalen atau setara (anastasi & urbina, 1997). Berkaitan
dengan asumsi di atas, dirumuskan pula mengenai
konsep tes paralel.
• Menurut teori ini, dua bentuk tes diseut paralel apabila skor murni
dari setiap subjek adalah sama pada kedua tes (T1=T2), dan
bagi setiap populasi yang dikenai tes tersebut varians erornya
adalah sama besar σe2 = σe2. Batasan tersebut mengandung arti
bahwa mean dan varians skor tampak yang setara serta
keduanya memiliki korelasi skor tampak dengan yang setara
pula. Batasan lain yang dirumuskan adalah mengenai
konsep essentially tau-equivalent. Kedua tes memiliki sifat tau-
equivalent apabila besarnya perbedaan skor murni setiap
individu pada kedua tes selalu sama. Itu artinya T1 = T2 + C,
dimana C suatu bilangan konstan. Tes yang paralel sudah pasti
tau-equivalent.
PENDEKATAN RELIABILITAS
Secara umum, perhitungan terhadap reliabilitas dapat dilakukan dengan

tiga pendekatan, yakni :
• tes-ulang (test-retest),
• pendekatan estimasi reliabiltas bentuk paralel (parallel-form),
• dan pendekatan penyajian tunggai (single trial administration), atau
yang lebih dikenal dengan istilah konsistensi internal
TEST-RETEST
• Reliabilitas test-retest digunakan pada saat ingin diketahui seberapa konsisten respon
dari seorang peserta tes di waktu yang berbeda. Koefisien reliabilitas yang diperoleh
dengan metode pengujian test-retest ini disebut sebagai koefisien stabilitas (crocker &
algina, 1986).
• Metode pengujian ini dilakukan dengan menggunakan satu form tes dengan 2 kali sesi
pengujian. Hasil pengujian dari kedua tes tersebut nantinya akan menghasilkan 2
distribusi skor tes yaitu skor tes dari sesi pengujian yang pertama dan skor tes dari tes
yang sama namun dari sesi pengujian yang kedua. Koefisien reliabilitas diperoleh
dengan cara melakukan perhitungan korelasi antar kedua distribusi skor tersebut,
• Kendala yang dihadapi adalah bagaimana menentukan interval waktu yang pas antara
tes pertama dan kedua, sehingga tidak terjadi carry over effect (efek bawaan) yang
mempengaruhi besaran koefisien yang dihasilkan.
PARALLEL-FORM
• Koefisien reliabilitas dalam metode parallel-form mengukur dua hal yaitu

kestabilitasan hasil pengukuran antar waktu dan konsistensi respon peserta tes
terhadap item-item tes yang berbeda atau dua form tes yang berbeda (anastasi
& urbina, 1997).
• Kendala utama bentuk parallel-form adalah sulitnya menciptakan dua tes yang

benar-benar paralel.
KONSISTENSI INTERNAL
• Komputasi koefisien konsistensi internal diawali dengan

pembelahan tes menjadi beberapa bagian. Dalam pembelahan,
apabila memungkinkan sebisa mungkin bentuk belahannya
paralel, sehingga estimasi reliabilitas yang dihasilkan lebih akurat.
• = metode belah dua

Beberapa koefisien reliabilitas
dalam teori tes klasik
1. koefisien alpha cronbach (α ),
2. Spearman-brown
3. Rulon
4. Kuder richradson 20 (KR-20)
5. koefisien armor theta (θ ),
6. koefisien omega (Ω ) dari heise dan bohrnstedt,
7. koefisien omega (ω ) dari mcdonald, dan
8. koefisien beta ( β ) dari revelle
-- Koefisien reliabilitas dalam teori skor murni klasik yang dikembangkan oleh para ahli
pengukuran memiliki ketepatan estimasi yang bervariasi.
RELIABILITAS AITEM DALAM
TEORI KLASIK
• Dalam referensi klasik reliabilitas butir sudah mulai diperkenalkan, akan

tetapi sebagai indeks.
• Di buku referensi dasar psikometri seperti allen & yen (1979) dan crocker &
algina (1986) ditulis mengenai reliabilitas butir (item reliability).
• Reliabilitas aitem didapatkan dari perkalian antara deviasi standar aitem dan
Korelasi biserial aitem dengan total. Semakin banyak aitem yang memiliki
indeks Reliabilitas aitem yang tinggi, semakin tinggi nilai reliabilitas
keseluruhan aitem. Yang dihasilkan (misalnya ditunjukkan melalui koefisien
alpha).
• Jika alpha > 0,90 maka reliabilitas sempurna
• Jika alpha antara 0,70 – 0,90 maka reliabilitas tinggi
• Jika alpha antara 0,50 – 0,70 maka reliabilitas moderat
• Jika alpha < 0,50 maka reliabilitas rendah
NB: Cronbach's alpha tergantung pada asumsi bahwa masing-masing variabel indikator
memberikan kontribusi yang sama terhadap faktor, yaitu, semua pemuatan (yang tidak
standar) harus sama (tau-ekivalen). Jika asumsi ini dilanggar, keandalan yang sebenarnya
akan diremehkan. Cronbach's alpha tidak melibatkan asumsi seperti unidimensionality.
Asumsi kedua untuk alpha adalah bahwa varian kesalahan indikator harus tidak
berkorelasi. Dengan kata lain, satu faktor harus menjelaskan semua varian umum dari
indikator. Jika ini tidak terjadi, alpha akan melebih-lebihkan keandalan.

Validitas Pengukuran: Empat Generasi Pemahaman

Uploaded by

Document Information

Original Description:

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Validitas Pengukuran: Empat Generasi Pemahaman

Uploaded by

Copyright:

Available Formats

VALIDITAS

TIM PENGAMPU PENGUKURAN 2021

• “The most fundamental consideration in developing

• Scores from a single test might be interpreted in different ways when

• Metode utama: korelasi

• Richardson (1936): “differential validity” (differences in validity coefficients across groups. For

• Rulon (1946) and mosier (1947): “face validity”

• Greene, jorgensen, and gerberich (1943): “curricular validity”, “statistical validity”,

• Guilford (1946): “factorial validity dan “practical validity”

4. To infer the degree to which an individual

• Validitas adalah suatu unitary concepts

• Validitas tidak berupa satu hitungan

• “… THE DEGREE TO WHICH EVIDENCE AND THEORY

• … Is an integrated evaluative judgment of the degree

Tes & Pengukuran

Dukungan Teori dan

• … Involves an evaluation of the overall plausibility of a proposed

• It is the interpretation of test scores required by proposed uses that

• “ … Is a matter of degree rather than all or none” (linn, 2008)

• “Validation can be viewed as developing a

Predictive validity based on the

Evidence based Evidence based

(Test Standards, 2014)

• Penelaahan mengenai sejauh mana isi/content dari tes

• Penelaahan spesifikasi tes/kisi-kisi sebagai indikasi

• Penelaahan mengenai sejauh mana proses untuk menjawab item-item

• Penelaahan mengenai sejauh mana komponen-komponen internal

• “These sources of evidence may illuminate different aspects of

• Validity is a unitary concept. It is the degree to which all of the

• Korelasi antara skor item dengan skor total

• Anastasi: tanpa kriteria eksternal, sedikit sekali yang kita ketahui

• Reliabilitas mengacu pada konsistensi skor yang diperoleh

Secara umum, perhitungan terhadap reliabilitas dapat dilakukan dengan

• Koefisien reliabilitas dalam metode parallel-form mengukur dua hal yaitu

• Kendala utama bentuk parallel-form adalah sulitnya menciptakan dua tes yang

• Komputasi koefisien konsistensi internal diawali dengan

• = metode belah dua

• Dalam referensi klasik reliabilitas butir sudah mulai diperkenalkan, akan

You might also like