Professional Documents
Culture Documents
Correspondence to kubaiedwin@yahoo.com
Edwin Kubai
2019
Introduction
This paper primarily focuses explicitly on two terms namely; reliability and validity as used in
the field of educational research. When conducting any educational study it is worth noting that
designing and measuring the research instruments is very essential especially to novice
researchers. The data collection tools (research instruments) should be designed in such way that
they would be able to accurately measure the intended construct under investigation and ensure
the meaningfulness of the study findings. This would greatly enhance believability and trust
worthiness of the research findings especially if the study is repeated by different investigators
under the same conditions or with different research instruments measuring the same construct. It
is absolutely true to note that reliability and validity are two terms used in any investigation of
which novice researchers find them difficult to differentiate them. They find difficult on how
accurately to explain to the audience if their research instruments meet the minimum threshold
for reliability and validity conditions. It has been noted with concern that most novice
researchers fail to clarify how reliability and validity was achieved in their respective studies due
to lack of sufficient knowledge about the concept or some fail completely to mention about it in
their research methodology. This paper attempts to clarify issues related to reliability and validity
section defines validity and reliability concepts as used in designing research instruments
repeatable when different people perform the measurement on different occasion, under different
condition, supposedly with alternative instruments which measure the construct or skill”. It can
also be defined as the degree to which the measure of a construct is consistent or dependable. For
instance when several people guess your own weight, the value of the weigth might not be
necessarily correct since it will be inconsistence with the accurate value hence the measurement
is said to be unreliable. If a weighing scale is used by different people to give the value of your
weight then there is likelihood of getting the same value every time a measurement is done hence
this measurement would be said to be reliable. “The extent to which a measure adequately
represents the underlying construct that it is supposed to measure” (Drost, 2011) is called
validity. The term construct refers to the skill, knowledge, attribute or attitude that the researcher
is investigating. For instance if a researcher wanted to measure compassion ,it is vital to know if
the measure would accurately measure compassion or empathy because the two terms are closely
related. Some of the constructs under investigation might be imaginary (they don’t exist in
reality) it is important to develop a scale that would consistently and precisely measure the
measurement scales that are very important in estimating adequacy and accuracy procedures of a
scientific research as mentioned by Bajpai and Bajpai (2014). The next section discusses types of
reliability and how to use them in designing instrument for educational research.
From the previous section, reliability has been defined as stability of measurement over a
variety of conditions in which the results should be obtained (Nunnally, 1978). It is basically the
some conditions and then the same study is done again for the second time and yields the same
results then the data is said to be reliable. According to Drost (2011), reliability of data from
research instruments is affected by two errors; namely random error and systematic error.
Random error is attributed to a set of unknown and uncontrollable external factors that randomly
influence some observations but not others. For example respondents who might have nicer
moods might respond positively to constructs like self-esteem, happiness and satisfaction as
compared to respondents with bad mood. Random error is seen as noise in measurement hence it
is usually ignored. Systematic error is an error that is introduced by factors that systematically
affect all observations of a construct across the entire sample. Systematic error is considered as a
bias in measurement and should be corrected to yield better results of the sample. The best way
to estimate reliability is to measure the associations between tests, items and raters by calculating
reliability coefficient (Rosnow and Rosenthal, 1991). The following are the type’s reliability;
Test-retest reliability
same sample at two different points in time (Drost, 2011). If the correlation between the two sets
of test is significant then observations have not changed substantially hence the aspect of time is
Heale & Twycross, (2015) defined Split-half reliability as a measure of consistency between two
halves of a construct measure. For example, if a researcher uses a ten-item measure to measure a
construct, the items are divided into half or two sets of even and odd if the total number of items
is an odd one. It is assumed that the number of items for measuring a construct is available and
is measured within the same time period hence minimize the random error. The correlation
between the two halves must be obtained to determine the coefficient of reliability. A practical
advantage of this method is that it is cheaper and obtained easily as compared test retest
reliability where the researcher has to design new set of items to administer later.
Inter-rater reliability
specific measure but by different judges. The rating is basically independent but happens at the
same time. Reliability is obtained by correlation of scores from the two or more raters on the
same construct or sometimes it is the decision of agreement of the judgments of the same raters.
This is basically used when judges are rating or scoring a piece of an artistic work or music
performance on stage. There scores are correlated to give the Cohen` s Kappa coefficient of
It is a measure of consistency between different items of the same construct. It measures the
consistency within the instrument and questions on how well a set of items measures a particular
characteristic of the test. Single items within a test are correlated to estimate the coefficient of
reliability. Cronbach`s alpha coefficient is used to determine internal consistency between items
(Cronbach, 1951).
items might have a higher correlation. For instance, 5-item test might have a correlation of 0.40
while a 12-item test might have a correlation of 0.80. According to Cortina, (1993) coefficient
alpha is used to estimate reliability for item-specific variance in a one-dimensional test. If the
coefficient alpha is low, it means that the test is too short or the items have little in common.
Validity
As defined earlier validity is the extent to which an instrument measures what it purports
to measure. Validity is the trying to explain the truth of research findings as explained by
Zohrabi, (2013). For example does IQ test measure intelligence? Validity is measured using
both theoretical and empirical evidences. Theoretical assessment is where an idea of a construct
is translated or represented into an operational measure. This is done by panel of experts who are
judges or university lectures that rate suitability of each item and evaluates its fitness in the
analysis involving statistical techniques. The following are type’s validity in educational
research;
Construct validity
This refers to how a concept, idea or behavior that is a construct is translated or transformed into
functioning and operating reality (Trochim, 2006). This happens especially if the relationship has
its cause and effect hence the construct validity justifies the existence of relationship. Construct
validity is critically substantiated under the following validity; face validity, content validity,
It is where an indicator seems to be a reasonable measure of its underlying construct “on its
face”. It actually ascertains that the measure is appears to be assessing the intended construct
under investigation. For example the aspect of an individual going to church every Sunday can
make someone conclude that the person is religious which might not be really true. The face
validity is often used by university lectures when assessing research instruments designed by
their students.
Content validity
This is an assessment on how well a set of scale of items matches with the relevant content
domain of the construct that it is trying to measure. According to Bollen (1989), as cited in Drost
(2011) content validity is a qualitative type of validity where the domain of the concept is made
clear and the analyst judges whether the measures fully represent the domain (p.185). The
researcher should design a research instrument that adequately addresses the construct or area
implementation of a new curriculum then the research instrument or test items designed by the
researcher must adequately address the domain to yield valid research findings. A group of
judges or experts that have content in the area under investigation can be used to assess this type
of validity.
They are assessed together or jointly for a set of measure. Convergent validity refers to closeness
of which the measure relates to the construct that it purported to measure or simply it converges
with the construct. Discriminant validity refers to the degree to which a measure does not
Discriminant validity is obtained by demonstrating that indicators of one construct are dissimilar.
A statistical procedure called bivariate correlation is used to analyze items using exploratory
Criterion-related validity
It is the degree of correspondence between a test measure and one or more external referents
(criteria) by correlation (Mohajan, 2017). For instance suppose students sat for an examination
and scored some scores and then we ask them about their scores. A correlation can be done
between their observed scores and true scores from the teachers’ record. Criterion –related
validity is closely related concurrent or predictive types of validity. Concurrent validity is where
one measure relates to other concrete criterion that is presumed to occur simultaneously. It
happens when a criterion exist at the same as the measure. An example could be the Students’
performance scores obtained from calculus and linear algebra since all of them are mathematics
test. Predictive validity is where a measure successfully predicts a future outcome that it is
theoretically expected to predict. A good example of predictive validity is the use of Students
Continuous Assessment Test (CAT) to predict their performance in final Examination. The
scores for the CAT can be correlated with the scores obtained from the Final Examination.
Conclusion
This paper has critically examined the definition of the terms reliability and validity as used in
educational research. It is important for novice researchers to have sufficient knowledge on the
include; Test-retest reliability, split-half reliability, inter-rater reliability and internal consistency
The following types of validity have been discussed; Face validity, content validity, convergent,
discriminant and criterion-related validity. Validity requires that the research instrument is
reliable but an instrument might be reliable without being valid. The interpretation of the results
of a test depends entirely on the underlying construct and validity of the research findings.
Reference
Bajpai, S. R., & Bajpai, R. C. (2014). Goodness of Measurement: Reliability and Validity.
Bollen, K. A. (1989). Structural Equations with Latent Variables (pp. 179-225). John Wiley &
Sons.
Campbell, D.T. and Fiske, D.W. (1959). Convergent and discriminant validation by the
Cronbach, L. J. (1951). Coefficient alpha and the internal structure of tests. Psychometrika,
16(3), 297-334.
Drost, E., A. (2011). Validity and reliability in social science research. Education Research and
Strategies. In Brinberg, D. and Kidder, L. H., (Eds), Forms of Validity in Research, pp.
77-93.
Heale, R., & Twycross, A. (2015). Validity and Reliability in Quantitative Studies. Evidence
Mohajan, H. (2017). Two criteria for good measurements in research: validity and
Nunnally, J. C. (1978). Psychometric Theory. McGraw-Hill Book Company, pp. 86-113, 190-
255.
Rosenthal, R. and Rosnow, R. L. (1991). Essentials of Behavioral Research: Methods and Data
Zohrabi, M. (2013). Mixed Method Research: Instruments, Validity, Reliability and Reporting
Edwin Kubai
Perkenalan
Makalah ini terutama berfokus secara eksplisit pada dua istilah yaitu; keandalan dan validitas
seperti yang digunakan dalam bidang penelitian pendidikan. Ketika melakukan studi pendidikan
perlu dicatat bahwa merancang dan mengukur instrumen penelitian sangat penting terutama bagi
para peneliti pemula. Alat pengumpulan data (instrumen penelitian) harus dirancang sedemikian
rupa sehingga mereka dapat secara akurat mengukur konstruksi yang dimaksudkan yang sedang
diselidiki dan memastikan kebermaknaan temuan penelitian. Ini akan sangat meningkatkan
kepercayaan dan kelayakan kepercayaan dari temuan penelitian terutama jika penelitian diulang
oleh peneliti yang berbeda dalam kondisi yang sama atau dengan instrumen penelitian yang
berbeda yang mengukur konstruksi yang sama. Memang benar untuk dicatat bahwa keandalan
dan validitas adalah dua istilah yang digunakan dalam penyelidikan di mana peneliti pemula
merasa sulit untuk membedakannya. Mereka merasa sulit tentang seberapa akurat untuk
menjelaskan kepada audiens jika instrumen penelitian mereka memenuhi ambang minimum
untuk keandalan dan kondisi validitas. Telah dicatat dengan prihatin bahwa sebagian besar
peneliti pemula gagal untuk mengklarifikasi bagaimana keandalan dan validitas dicapai dalam
studi masing-masing karena kurangnya pengetahuan yang cukup tentang konsep atau beberapa
gagal sepenuhnya untuk menyebutkan tentang hal itu dalam metodologi penelitian mereka.
Makalah ini mencoba untuk mengklarifikasi isu-isu yang berkaitan dengan keandalan dan
penelitian. Bagian selanjutnya mendefinisikan konsep validitas dan keandalan seperti yang
Menurut Drost (2011), keandalan adalah "sejauh mana pengukuran dapat diulang ketika
orang yang berbeda melakukan pengukuran pada kesempatan yang berbeda, dalam kondisi yang
berbeda, seharusnya dengan instrumen alternatif yang mengukur konstruksi atau keterampilan".
Hal ini juga dapat didefinisikan sebagai sejauh mana ukuran konstruksi konsisten atau dapat
diandalkan. Misalnya ketika beberapa orang menebak berat badan Anda sendiri, nilai weigth
mungkin belum tentu benar karena akan konsisten dengan nilai yang akurat sehingga pengukuran
dikatakan tidak dapat diandalkan. Jika skala penimbangan digunakan oleh orang yang berbeda
untuk memberikan nilai berat badan Anda maka ada kemungkinan mendapatkan nilai yang sama
setiap kali pengukuran dilakukan maka pengukuran ini akan dikatakan dapat diandalkan. "Sejauh
mana ukuran cukup mewakili konstruksi yang mendasari yang seharusnya diukur" (Drost, 2011)
disebut validitas. Istilah konstruksi mengacu pada keterampilan, pengetahuan, atribut atau sikap
yang sedang diselidiki oleh peneliti. Misalnya jika seorang peneliti ingin mengukur kasih sayang,
sangat penting untuk mengetahui apakah tindakan tersebut akan secara akurat mengukur kasih
sayang atau empati karena kedua istilah tersebut terkait erat. Beberapa konstruksi yang sedang
diselidiki mungkin imajiner (mereka tidak ada dalam kenyataan) penting untuk mengembangkan
skala yang secara konsisten dan tepat mengukur konstruksi yang tidak dapat diamati. Keandalan
dan validitas membentuk sifat psikometrik skala pengukuran yang sangat penting dalam
memperkirakan prosedur kecukupan dan akurasi suatu penelitian ilmiah seperti yang disebutkan
oleh Bajpai dan Bajpai (2014). Bagian selanjutnya membahas jenis keandalan dan bagaimana
Keandalan
Dari bagian sebelumnya, keandalan telah didefinisikan sebagai stabilitas pengukuran atas
berbagai kondisi di mana hasilnya harus diperoleh (Nunnally, 1978). Ini pada dasarnya adalah
pengulangan atau replikasi temuan penelitian. Ketika sebuah penelitian dilakukan oleh seorang
peneliti dalam beberapa kondisi dan kemudian studi yang sama dilakukan lagi untuk kedua
kalinya dan menghasilkan hasil yang sama maka data dikatakan dapat diandalkan. Menurut
Drost (2011), keandalan data dari instrumen penelitian dipengaruhi oleh dua kesalahan; yaitu
kesalahan acak dan kesalahan sistematis. Kesalahan acak dikaitkan dengan serangkaian faktor
eksternal yang tidak diketahui dan tidak terkendali yang secara acak mempengaruhi beberapa
pengamatan tetapi tidak yang lain. Misalnya responden yang mungkin memiliki suasana hati
yang lebih baik mungkin merespons secara positif terhadap konstruksi seperti harga diri,
kebahagiaan, dan kepuasan dibandingkan dengan responden dengan suasana hati yang buruk.
Kesalahan acak dipandang sebagai kebisingan dalam pengukuran sehingga biasanya diabaikan.
Kesalahan sistematis adalah kesalahan yang diperkenalkan oleh faktor-faktor yang secara
dianggap sebagai bias dalam pengukuran dan harus diperbaiki untuk menghasilkan hasil sampel
yang lebih baik. Cara terbaik untuk memperkirakan keandalan adalah dengan mengukur
hubungan antara tes, item dan penilai dengan menghitung koefisien keandalan (Rosnow dan
yang sama pada dua titik waktu yang berbeda (Drost, 2011). Jika korelasi antara dua set tes
signifikan maka pengamatan tidak berubah secara substansial maka aspek waktu sangat penting
antara dua bagian dari ukuran konstruksi. Misalnya, jika seorang peneliti menggunakan ukuran
sepuluh item untuk mengukur konstruksi, item dibagi menjadi setengah atau dua set genap dan
ganjil jika jumlah total item adalah yang ganjil. Diasumsikan bahwa jumlah item untuk
mengukur konstruksi tersedia dan diukur dalam periode waktu yang sama sehingga
meminimalkan kesalahan acak. Korelasi antara kedua bagian harus diperoleh untuk menentukan
koefisien keandalan. Keuntungan praktis dari metode ini adalah lebih murah dan diperoleh
dengan mudah sebagai pengujian ulang uji coba yang dibandingkan di mana peneliti harus
Keandalan antar-penilai
Ini juga disebut peringkat antar-pengamat atau kesepakatan. Ini melibatkan peringkat
pengamatan menggunakan ukuran tertentu tetapi oleh hakim yang berbeda. Peringkat pada
dasarnya independen tetapi terjadi pada saat yang sama. Keandalan diperoleh dengan korelasi
skor dari dua penilai atau lebih pada konstruksi yang sama atau kadang-kadang itu adalah
keputusan kesepakatan penilaian penilai yang sama. Ini pada dasarnya digunakan ketika hakim
menilai atau mencetak karya seni atau pertunjukan musik di atas panggung. Ada skor yang
variabelnya kategoris.
Ini adalah ukuran konsistensi antara item yang berbeda dari konstruksi yang sama. Ini mengukur
konsistensi dalam instrumen dan pertanyaan tentang seberapa baik satu set item mengukur
karakteristik tertentu dari tes. Item tunggal dalam pengujian berkorelasi untuk memperkirakan
koefisien keandalan. Koefisien alfa Cronbach digunakan untuk menentukan konsistensi internal
Item individu dari tes mungkin memiliki korelasi kecil dengan skor sebenarnya yang dibuktikan
dengan item yang lebih tinggi mungkin memiliki korelasi yang lebih tinggi. Misalnya, tes 5 item
mungkin memiliki korelasi 0,40 sementara tes 12 item mungkin memiliki korelasi 0,80. Menurut
Cortina, (1993) koefisien alpha digunakan untuk memperkirakan keandalan untuk varians khusus
item dalam tes satu dimensi. Jika koefisien alpha rendah, itu berarti bahwa tes terlalu pendek
Validitas
Seperti yang didefinisikan validitas sebelumnya adalah sejauh mana instrumen mengukur
apa yang dimaksudkan untuk diukur. Validitas adalah mencoba menjelaskan kebenaran temuan
penelitian seperti yang dijelaskan oleh Zohrabi, (2013). Misalnya apakah tes IQ mengukur
kecerdasan? Validitas diukur dengan menggunakan bukti teoritis dan empiris. Penilaian teoritis
adalah di mana ide konstruksi diterjemahkan atau diwakili ke dalam ukuran operasional. Hal ini
dilakukan oleh panel ahli yang merupakan hakim atau kuliah universitas yang menilai kesesuaian
setiap item dan mengevaluasi kebugarannya dalam definisi konstruksi. Penilaian empiris adalah
Membangun validitas
Ini mengacu pada bagaimana konsep, ide atau perilaku yang merupakan konstruksi
diterjemahkan atau diubah menjadi realitas fungsi dan operasi (Trochim, 2006). Hal ini terjadi
terutama jika hubungan memiliki sebab dan akibat maka validitas konstruk membenarkan
adanya hubungan. Validitas konstruk secara kritis dibuktikan berdasarkan validitas berikut;
validitas wajah, validitas konten, validitas bersamaan dan prediktif, dan validitas konvergen dan
diskriminan.
Validitas wajah
Di sinilah indikator tampaknya menjadi ukuran yang masuk akal dari konstruksi yang
mendasarinya "di wajahnya". Ini benar-benar memastikan bahwa tindakan tersebut tampaknya
menilai konstruksi yang dimaksudkan yang sedang diselidiki. Misalnya aspek seseorang pergi ke
gereja setiap hari Minggu dapat membuat seseorang menyimpulkan bahwa orang itu religius
yang mungkin tidak benar. Validitas wajah sering digunakan oleh kuliah universitas ketika
Validitas konten
Ini adalah penilaian tentang seberapa baik satu set skala item cocok dengan domain konten yang
relevan dari konstruksi yang coba diukur. Menurut Bollen (1989), seperti yang dikutip dalam
Drost (2011) validitas konten adalah jenis validitas kualitatif di mana domain konsep dibuat jelas
dan analis menilai apakah langkah-langkah sepenuhnya mewakili domain (hal.185). Peneliti
harus merancang instrumen penelitian yang cukup membahas konstruksi atau area yang sedang
kurikulum baru maka instrumen penelitian atau item pengujian yang dirancang oleh peneliti
harus cukup mengatasi domain untuk menghasilkan temuan penelitian yang valid. Sekelompok
hakim atau ahli yang memiliki konten di bidang yang sedang diselidiki dapat digunakan untuk
Mereka dinilai bersama atau bersama-sama untuk satu set ukuran. Validitas konvergen mengacu
pada kedekatan yang ukuran berkaitan dengan konstruksi yang konon untuk mengukur atau
hanya menyatu dengan konstruksi. Validitas diskriminan mengacu pada sejauh mana suatu
ukuran tidak mengukur atau mendiskriminasi konstruksi yang tidak seharusnya diukur. Untuk
secara efektif mendapatkan perbandingan validitas konvergen dari nilai yang diamati dari satu
indikator satu konstruksi dengan indikator lain dari konstruksi yang sama dilakukan.
Validitas diskriminan diperoleh dengan menunjukkan bahwa indikator satu konstruksi berbeda.
Prosedur statistik yang disebut korelasi bivariat digunakan untuk menganalisis item
Ini adalah tingkat korespondensi antara ukuran tes dan satu atau lebih rujukan eksternal (kriteria)
dengan korelasi (Mohajan, 2017). Misalnya misalkan siswa duduk untuk ujian dan mencetak
beberapa skor dan kemudian kami bertanya kepada mereka tentang skor mereka. Korelasi dapat
dilakukan antara skor yang diamati dan skor sebenarnya dari catatan guru. Kriteria – validitas
terkait terkait terkait erat dengan jenis validitas bersamaan atau prediktif. Validitas bersamaan
adalah di mana satu ukuran berkaitan dengan kriteria konkret lainnya yang diduga terjadi secara
bersamaan. Itu terjadi ketika kriteria ada pada saat yang sama dengan ukuran. Contohnya bisa
jadi skor kinerja Siswa yang diperoleh dari kalkulus dan aljabar linier karena semuanya adalah
tes matematika. Validitas prediktif adalah di mana ukuran berhasil memprediksi hasil masa
adalah penggunaan Students Continuous Assessment Test (CAT) untuk memprediksi kinerja
mereka dalam Ujian akhir. Skor untuk CAT dapat dikorelasikan dengan skor yang diperoleh dari
Ujian Akhir.
Kesimpulan
Makalah ini telah secara kritis memeriksa definisi istilah keandalan dan validitas seperti yang
digunakan dalam penelitian pendidikan. Penting bagi peneliti pemula untuk memiliki
pengetahuan yang cukup tentang konsep keandalan dan validitas saat merancang instrumen
penelitian untuk meningkatkan kepercayaan dan generalisasi temuan penelitian. Jenis keandalan
yang diidentifikasi meliputi; Uji keandalan pengujian ulang, keandalan setengah terpisah,
keandalan antar-penilai, dan keandalan konsistensi internal. Fungsi keandalan dalam penelitian
adalah untuk memastikan bahwa skor yang diamati hampir mirip dengan skor sebenarnya yang
Jenis validitas berikut telah dibahas; Validitas wajah, validitas konten, konvergen, diskriminan,
dan validitas terkait kriteria. Validitas mensyaratkan bahwa instrumen penelitian dapat
diandalkan tetapi instrumen mungkin dapat diandalkan tanpa valid. Interpretasi hasil tes
sepenuhnya tergantung pada konstruksi dan validitas yang mendasari temuan penelitian.
Referensi
Bajpai, S. R., &Bajpai, R.C. (2014). Kebaikan Pengukuran: Keandalan dan Validitas.
Jurnal Internasional Ilmu Kedokteran dan Kesehatan Masyarakat, 3 (2), 112-115.
Bollen, K. A. (1989). Persamaan Struktural dengan Variabel Laten (hlm. 179-225). John Wiley
dan
Anak.
Cortina, J.M. (1993). Apa itu Koefisien Alpha? Pemeriksaan Teori dan Aplikasi.
16(3), 297-334.
Air liur, E., A. (2011). Validitas dan keandalan dalam penelitian ilmu sosial. Penelitian
Pendidikan dan
Fiske, Donald W. (1982). Konvergen - Validasi Diskriminan dalam Pengukuran dan Penelitian
Strategi. Dalam Brinberg, D. dan Kidder, L. H., (Eds), Bentuk Validitas dalam
Heale, R., &Twycross, A. (2015). Validitas dan Keandalan dalam Studi Kuantitatif. Bukti
Mohajan, H. (2017). Dua kriteria untuk pengukuran yang baik dalam penelitian: validitas dan
Nunnally, J.C. (1978). Teori psikometri. Perusahaan Buku McGraw-Hill, hlm. 86-113, 190-
255.
Rosenthal, R. dan Rosnow, R. L. (1991). Pentingnya Penelitian Perilaku: Metode dan Data
Trochim, W.M. K. (2006). Pengantar validitas. Metode Penelitian Sosial, diambil dari
Pelaporan