Reliability and Validity of Research Instruments: Correspondence To

Reliability and Validity of Research Instruments
Correspondence to kubaiedwin@yahoo.com
Critical Analysis of policies on Special Education in Kenya
Edwin Kubai
2019
UNICAF University - Zambia
Introduction
This paper primarily focuses explicitly on two terms namely; reliability and validity as used in
the field of educational research. When conducting any educational study it is worth noting that
designing and measuring the research instruments is very essential especially to novice
researchers. The data collection tools (research instruments) should be designed in such way that
they would be able to accurately measure the intended construct under investigation and ensure
the meaningfulness of the study findings. This would greatly enhance believability and trust
worthiness of the research findings especially if the study is repeated by different investigators
under the same conditions or with different research instruments measuring the same construct. It
is absolutely true to note that reliability and validity are two terms used in any investigation of
which novice researchers find them difficult to differentiate them. They find difficult on how
accurately to explain to the audience if their research instruments meet the minimum threshold
for reliability and validity conditions. It has been noted with concern that most novice
researchers fail to clarify how reliability and validity was achieved in their respective studies due
to lack of sufficient knowledge about the concept or some fail completely to mention about it in
their research methodology. This paper attempts to clarify issues related to reliability and validity
1 © September 15, 2019

of research instruments to ensure tranquility and transferability of research findings. The next
section defines validity and reliability concepts as used in designing research instruments
Definition of Reliability and Validity
According to Drost (2011), reliability is “the extent to which measurements are
repeatable when different people perform the measurement on different occasion, under different
condition, supposedly with alternative instruments which measure the construct or skill”. It can
also be defined as the degree to which the measure of a construct is consistent or dependable. For
instance when several people guess your own weight, the value of the weigth might not be
necessarily correct since it will be inconsistence with the accurate value hence the measurement
is said to be unreliable. If a weighing scale is used by different people to give the value of your
weight then there is likelihood of getting the same value every time a measurement is done hence
this measurement would be said to be reliable. “The extent to which a measure adequately
represents the underlying construct that it is supposed to measure” (Drost, 2011) is called
validity. The term construct refers to the skill, knowledge, attribute or attitude that the researcher
is investigating. For instance if a researcher wanted to measure compassion ,it is vital to know if
the measure would accurately measure compassion or empathy because the two terms are closely
related. Some of the constructs under investigation might be imaginary (they don’t exist in
reality) it is important to develop a scale that would consistently and precisely measure the
intended unobservable construct. Reliability and validity form psychometric properties of
measurement scales that are very important in estimating adequacy and accuracy procedures of a
scientific research as mentioned by Bajpai and Bajpai (2014). The next section discusses types of
reliability and how to use them in designing instrument for educational research.

Reliability
From the previous section, reliability has been defined as stability of measurement over a
variety of conditions in which the results should be obtained (Nunnally, 1978). It is basically the
repeatability or replication of research findings. When a study is conducted by a researcher under
some conditions and then the same study is done again for the second time and yields the same
results then the data is said to be reliable. According to Drost (2011), reliability of data from
research instruments is affected by two errors; namely random error and systematic error.
Random error is attributed to a set of unknown and uncontrollable external factors that randomly
influence some observations but not others. For example respondents who might have nicer
moods might respond positively to constructs like self-esteem, happiness and satisfaction as
compared to respondents with bad mood. Random error is seen as noise in measurement hence it
is usually ignored. Systematic error is an error that is introduced by factors that systematically
affect all observations of a construct across the entire sample. Systematic error is considered as a
bias in measurement and should be corrected to yield better results of the sample. The best way
to estimate reliability is to measure the associations between tests, items and raters by calculating
reliability coefficient (Rosnow and Rosenthal, 1991). The following are the type’s reliability;
Test-retest reliability
It is a measure of consistency between measurements of the same construct administered to the
same sample at two different points in time (Drost, 2011). If the correlation between the two sets
of test is significant then observations have not changed substantially hence the aspect of time is
very critical for this type of reliability.

Split-half reliability
Heale & Twycross, (2015) defined Split-half reliability as a measure of consistency between two
halves of a construct measure. For example, if a researcher uses a ten-item measure to measure a
construct, the items are divided into half or two sets of even and odd if the total number of items
is an odd one. It is assumed that the number of items for measuring a construct is available and
is measured within the same time period hence minimize the random error. The correlation
between the two halves must be obtained to determine the coefficient of reliability. A practical
advantage of this method is that it is cheaper and obtained easily as compared test retest
reliability where the researcher has to design new set of items to administer later.
Inter-rater reliability
It is also called inter-observer rating or an agreement. It involves rating of observations using a
specific measure but by different judges. The rating is basically independent but happens at the
same time. Reliability is obtained by correlation of scores from the two or more raters on the
same construct or sometimes it is the decision of agreement of the judgments of the same raters.
This is basically used when judges are rating or scoring a piece of an artistic work or music
performance on stage. There scores are correlated to give the Cohen` s Kappa coefficient of
inter-rater reliability especially if the variables are categorical.
Internal consistency reliability
It is a measure of consistency between different items of the same construct. It measures the
consistency within the instrument and questions on how well a set of items measures a particular
characteristic of the test. Single items within a test are correlated to estimate the coefficient of
reliability. Cronbach`s alpha coefficient is used to determine internal consistency between items
(Cronbach, 1951).

An individual item of a test might have a small correlation with true scores attest with higher
items might have a higher correlation. For instance, 5-item test might have a correlation of 0.40
while a 12-item test might have a correlation of 0.80. According to Cortina, (1993) coefficient
alpha is used to estimate reliability for item-specific variance in a one-dimensional test. If the
coefficient alpha is low, it means that the test is too short or the items have little in common.
Validity
As defined earlier validity is the extent to which an instrument measures what it purports
to measure. Validity is the trying to explain the truth of research findings as explained by
Zohrabi, (2013). For example does IQ test measure intelligence? Validity is measured using
both theoretical and empirical evidences. Theoretical assessment is where an idea of a construct
is translated or represented into an operational measure. This is done by panel of experts who are
judges or university lectures that rate suitability of each item and evaluates its fitness in the
definition of the construct. Empirical assessment is where validity is based on quantitative
analysis involving statistical techniques. The following are type’s validity in educational
research;
Construct validity
This refers to how a concept, idea or behavior that is a construct is translated or transformed into
functioning and operating reality (Trochim, 2006). This happens especially if the relationship has
its cause and effect hence the construct validity justifies the existence of relationship. Construct
validity is critically substantiated under the following validity; face validity, content validity,
concurrent and predictive validity, and convergent and discriminant validity.

Face validity
It is where an indicator seems to be a reasonable measure of its underlying construct “on its
face”. It actually ascertains that the measure is appears to be assessing the intended construct
under investigation. For example the aspect of an individual going to church every Sunday can
make someone conclude that the person is religious which might not be really true. The face
validity is often used by university lectures when assessing research instruments designed by
their students.
Content validity
This is an assessment on how well a set of scale of items matches with the relevant content
domain of the construct that it is trying to measure. According to Bollen (1989), as cited in Drost
(2011) content validity is a qualitative type of validity where the domain of the concept is made
clear and the analyst judges whether the measures fully represent the domain (p.185). The
researcher should design a research instrument that adequately addresses the construct or area
under investigation. For instance if a researcher wants to cover an investigation on
implementation of a new curriculum then the research instrument or test items designed by the
researcher must adequately address the domain to yield valid research findings. A group of
judges or experts that have content in the area under investigation can be used to assess this type
of validity.
Convergent and Discriminant validity
They are assessed together or jointly for a set of measure. Convergent validity refers to closeness
of which the measure relates to the construct that it purported to measure or simply it converges
with the construct. Discriminant validity refers to the degree to which a measure does not
measure or discriminates the construct it is not supposed to measure. To effectively obtain

convergent validity comparison of observed values of one indicator of one construct with others
indicators of the same construct is done.
Discriminant validity is obtained by demonstrating that indicators of one construct are dissimilar.
A statistical procedure called bivariate correlation is used to analyze items using exploratory
factor analysis for convergent and discriminant validity.
Criterion-related validity
It is the degree of correspondence between a test measure and one or more external referents
(criteria) by correlation (Mohajan, 2017). For instance suppose students sat for an examination
and scored some scores and then we ask them about their scores. A correlation can be done
between their observed scores and true scores from the teachers’ record. Criterion –related
validity is closely related concurrent or predictive types of validity. Concurrent validity is where
one measure relates to other concrete criterion that is presumed to occur simultaneously. It
happens when a criterion exist at the same as the measure. An example could be the Students’
performance scores obtained from calculus and linear algebra since all of them are mathematics
test. Predictive validity is where a measure successfully predicts a future outcome that it is
theoretically expected to predict. A good example of predictive validity is the use of Students
Continuous Assessment Test (CAT) to predict their performance in final Examination. The
scores for the CAT can be correlated with the scores obtained from the Final Examination.
Conclusion
This paper has critically examined the definition of the terms reliability and validity as used in
educational research. It is important for novice researchers to have sufficient knowledge on the
concepts of reliability and validity when designing research instrument to enhance
trustworthiness and generalizability of research findings. The types of reliability identified
include; Test-retest reliability, split-half reliability, inter-rater reliability and internal consistency

reliability. The function of reliability in research is to ensure that the observed score is almost
similar to true score obtained by minimizing the errors in measurement.
The following types of validity have been discussed; Face validity, content validity, convergent,
discriminant and criterion-related validity. Validity requires that the research instrument is
reliable but an instrument might be reliable without being valid. The interpretation of the results
of a test depends entirely on the underlying construct and validity of the research findings.
Reference
Bajpai, S. R., & Bajpai, R. C. (2014). Goodness of Measurement: Reliability and Validity.
International Journal of Medical Science and Public Health, 3(2), 112-115.
Bollen, K. A. (1989). Structural Equations with Latent Variables (pp. 179-225). John Wiley &
Sons.
Campbell, D.T. and Fiske, D.W. (1959). Convergent and discriminant validation by the
multitrait-multimethod matrix. Psychological Bulletin, 56, 81-105.
Cortina, J. M. (1993). What is Coefficient Alpha? An Examination of Theory and Applications.
Journal of Applied Psychology, 78 (1), 98-104.
Cronbach, L. J. (1951). Coefficient alpha and the internal structure of tests. Psychometrika,
16(3), 297-334.
Drost, E., A. (2011). Validity and reliability in social science research. Education Research and
Perspectives, 38 (1), 105-124.
Fiske, Donald W. (1982). Convergent -Discriminant Validation in Measurements and Research
Strategies. In Brinberg, D. and Kidder, L. H., (Eds), Forms of Validity in Research, pp.
77-93.
Heale, R., & Twycross, A. (2015). Validity and Reliability in Quantitative Studies. Evidence

Based Nurs, 18(4), 66-67.
Mohajan, H. (2017). Two criteria for good measurements in research: validity and
reliability. Annals of Spiru Haret University. Economic Series, 17(4), 59-82.
Nunnally, J. C. (1978). Psychometric Theory. McGraw-Hill Book Company, pp. 86-113, 190-
255.
Rosenthal, R. and Rosnow, R. L. (1991). Essentials of Behavioral Research: Methods and Data
Analysis. Second Edition. McGraw-Hill Publishing Company, pp. 46-65.
Trochim, W. M. K. (2006). Introduction to Validity. Social Research Methods, retrieved from
www.socialresearchmethods.net/kb/introval.php, September 9, 2010.
Zohrabi, M. (2013). Mixed Method Research: Instruments, Validity, Reliability and Reporting
Findings. Theory and Practice in Language Studies, 3(2), 254-262.

Keandalan dan Validitas Instrumen Penelitian
Korespondensi dengan kubaiedwin@yahoo.com
Edwin Kubai
Universitas UNICAF - Zambia
Perkenalan
Makalah ini terutama berfokus secara eksplisit pada dua istilah yaitu; keandalan dan validitas
seperti yang digunakan dalam bidang penelitian pendidikan. Ketika melakukan studi pendidikan
perlu dicatat bahwa merancang dan mengukur instrumen penelitian sangat penting terutama bagi
para peneliti pemula. Alat pengumpulan data (instrumen penelitian) harus dirancang sedemikian
rupa sehingga mereka dapat secara akurat mengukur konstruksi yang dimaksudkan yang sedang
diselidiki dan memastikan kebermaknaan temuan penelitian. Ini akan sangat meningkatkan
kepercayaan dan kelayakan kepercayaan dari temuan penelitian terutama jika penelitian diulang
oleh peneliti yang berbeda dalam kondisi yang sama atau dengan instrumen penelitian yang
berbeda yang mengukur konstruksi yang sama. Memang benar untuk dicatat bahwa keandalan
dan validitas adalah dua istilah yang digunakan dalam penyelidikan di mana peneliti pemula
merasa sulit untuk membedakannya. Mereka merasa sulit tentang seberapa akurat untuk
menjelaskan kepada audiens jika instrumen penelitian mereka memenuhi ambang minimum
untuk keandalan dan kondisi validitas. Telah dicatat dengan prihatin bahwa sebagian besar
peneliti pemula gagal untuk mengklarifikasi bagaimana keandalan dan validitas dicapai dalam
studi masing-masing karena kurangnya pengetahuan yang cukup tentang konsep atau beberapa
gagal sepenuhnya untuk menyebutkan tentang hal itu dalam metodologi penelitian mereka.
Makalah ini mencoba untuk mengklarifikasi isu-isu yang berkaitan dengan keandalan dan
10 © September 15, 2019

validitas instrumen penelitian untuk memastikan ketenangan dan transferabilitas temuan
penelitian. Bagian selanjutnya mendefinisikan konsep validitas dan keandalan seperti yang
digunakan dalam merancang instrumen penelitian.
Definisi Keandalan dan Validitas
Menurut Drost (2011), keandalan adalah "sejauh mana pengukuran dapat diulang ketika
orang yang berbeda melakukan pengukuran pada kesempatan yang berbeda, dalam kondisi yang
berbeda, seharusnya dengan instrumen alternatif yang mengukur konstruksi atau keterampilan".
Hal ini juga dapat didefinisikan sebagai sejauh mana ukuran konstruksi konsisten atau dapat
diandalkan. Misalnya ketika beberapa orang menebak berat badan Anda sendiri, nilai weigth
mungkin belum tentu benar karena akan konsisten dengan nilai yang akurat sehingga pengukuran
dikatakan tidak dapat diandalkan. Jika skala penimbangan digunakan oleh orang yang berbeda
untuk memberikan nilai berat badan Anda maka ada kemungkinan mendapatkan nilai yang sama
setiap kali pengukuran dilakukan maka pengukuran ini akan dikatakan dapat diandalkan. "Sejauh
mana ukuran cukup mewakili konstruksi yang mendasari yang seharusnya diukur" (Drost, 2011)
disebut validitas. Istilah konstruksi mengacu pada keterampilan, pengetahuan, atribut atau sikap
yang sedang diselidiki oleh peneliti. Misalnya jika seorang peneliti ingin mengukur kasih sayang,
sangat penting untuk mengetahui apakah tindakan tersebut akan secara akurat mengukur kasih
sayang atau empati karena kedua istilah tersebut terkait erat. Beberapa konstruksi yang sedang
diselidiki mungkin imajiner (mereka tidak ada dalam kenyataan) penting untuk mengembangkan
skala yang secara konsisten dan tepat mengukur konstruksi yang tidak dapat diamati. Keandalan
dan validitas membentuk sifat psikometrik skala pengukuran yang sangat penting dalam
memperkirakan prosedur kecukupan dan akurasi suatu penelitian ilmiah seperti yang disebutkan
oleh Bajpai dan Bajpai (2014). Bagian selanjutnya membahas jenis keandalan dan bagaimana
menggunakannya dalam merancang instrumen untuk penelitian pendidikan.
11 © September 15, 2019

Keandalan
Dari bagian sebelumnya, keandalan telah didefinisikan sebagai stabilitas pengukuran atas
berbagai kondisi di mana hasilnya harus diperoleh (Nunnally, 1978). Ini pada dasarnya adalah
pengulangan atau replikasi temuan penelitian. Ketika sebuah penelitian dilakukan oleh seorang
peneliti dalam beberapa kondisi dan kemudian studi yang sama dilakukan lagi untuk kedua
kalinya dan menghasilkan hasil yang sama maka data dikatakan dapat diandalkan. Menurut
Drost (2011), keandalan data dari instrumen penelitian dipengaruhi oleh dua kesalahan; yaitu
kesalahan acak dan kesalahan sistematis. Kesalahan acak dikaitkan dengan serangkaian faktor
eksternal yang tidak diketahui dan tidak terkendali yang secara acak mempengaruhi beberapa
pengamatan tetapi tidak yang lain. Misalnya responden yang mungkin memiliki suasana hati
yang lebih baik mungkin merespons secara positif terhadap konstruksi seperti harga diri,
kebahagiaan, dan kepuasan dibandingkan dengan responden dengan suasana hati yang buruk.
Kesalahan acak dipandang sebagai kebisingan dalam pengukuran sehingga biasanya diabaikan.
Kesalahan sistematis adalah kesalahan yang diperkenalkan oleh faktor-faktor yang secara
sistematis mempengaruhi semua pengamatan konstruksi di seluruh sampel. Kesalahan sistematis
dianggap sebagai bias dalam pengukuran dan harus diperbaiki untuk menghasilkan hasil sampel
yang lebih baik. Cara terbaik untuk memperkirakan keandalan adalah dengan mengukur
hubungan antara tes, item dan penilai dengan menghitung koefisien keandalan (Rosnow dan
Rosenthal, 1991). Berikut ini adalah keandalan tipe;
Keandalan pengujian ulang
12 © September 15, 2019

Ini adalah ukuran konsistensi antara pengukuran konstruksi yang sama yang diberikan ke sampel
yang sama pada dua titik waktu yang berbeda (Drost, 2011). Jika korelasi antara dua set tes
signifikan maka pengamatan tidak berubah secara substansial maka aspek waktu sangat penting
untuk jenis keandalan ini.
Keandalan setengah terpisah
Heale &Twycross , (2015) mendefinisikan keandalan Split-half sebagai ukuran konsistensi
antara dua bagian dari ukuran konstruksi. Misalnya, jika seorang peneliti menggunakan ukuran
sepuluh item untuk mengukur konstruksi, item dibagi menjadi setengah atau dua set genap dan
ganjil jika jumlah total item adalah yang ganjil. Diasumsikan bahwa jumlah item untuk
mengukur konstruksi tersedia dan diukur dalam periode waktu yang sama sehingga
meminimalkan kesalahan acak. Korelasi antara kedua bagian harus diperoleh untuk menentukan
koefisien keandalan. Keuntungan praktis dari metode ini adalah lebih murah dan diperoleh
dengan mudah sebagai pengujian ulang uji coba yang dibandingkan di mana peneliti harus
merancang serangkaian item baru untuk dikelola nanti.
Keandalan antar-penilai
Ini juga disebut peringkat antar-pengamat atau kesepakatan. Ini melibatkan peringkat
pengamatan menggunakan ukuran tertentu tetapi oleh hakim yang berbeda. Peringkat pada
dasarnya independen tetapi terjadi pada saat yang sama. Keandalan diperoleh dengan korelasi
skor dari dua penilai atau lebih pada konstruksi yang sama atau kadang-kadang itu adalah
keputusan kesepakatan penilaian penilai yang sama. Ini pada dasarnya digunakan ketika hakim
menilai atau mencetak karya seni atau pertunjukan musik di atas panggung. Ada skor yang
13 © September 15, 2019

berkorelasi untuk memberikan koefisien Kappa Cohen dari keandalan antar-penilai terutama jika
variabelnya kategoris.
Keandalan konsistensi internal
Ini adalah ukuran konsistensi antara item yang berbeda dari konstruksi yang sama. Ini mengukur
konsistensi dalam instrumen dan pertanyaan tentang seberapa baik satu set item mengukur
karakteristik tertentu dari tes. Item tunggal dalam pengujian berkorelasi untuk memperkirakan
koefisien keandalan. Koefisien alfa Cronbach digunakan untuk menentukan konsistensi internal
antara item (Cronbach, 1951).
Item individu dari tes mungkin memiliki korelasi kecil dengan skor sebenarnya yang dibuktikan
dengan item yang lebih tinggi mungkin memiliki korelasi yang lebih tinggi. Misalnya, tes 5 item
mungkin memiliki korelasi 0,40 sementara tes 12 item mungkin memiliki korelasi 0,80. Menurut
Cortina, (1993) koefisien alpha digunakan untuk memperkirakan keandalan untuk varians khusus
item dalam tes satu dimensi. Jika koefisien alpha rendah, itu berarti bahwa tes terlalu pendek
atau item memiliki sedikit kesamaan.
Validitas
Seperti yang didefinisikan validitas sebelumnya adalah sejauh mana instrumen mengukur
apa yang dimaksudkan untuk diukur. Validitas adalah mencoba menjelaskan kebenaran temuan
penelitian seperti yang dijelaskan oleh Zohrabi, (2013). Misalnya apakah tes IQ mengukur
kecerdasan? Validitas diukur dengan menggunakan bukti teoritis dan empiris. Penilaian teoritis
adalah di mana ide konstruksi diterjemahkan atau diwakili ke dalam ukuran operasional. Hal ini
dilakukan oleh panel ahli yang merupakan hakim atau kuliah universitas yang menilai kesesuaian
setiap item dan mengevaluasi kebugarannya dalam definisi konstruksi. Penilaian empiris adalah
14 © September 15, 2019

di mana validitas didasarkan pada analisis kuantitatif yang melibatkan teknik statistik. Berikut ini
adalah validitas jenis dalam penelitian pendidikan;
Membangun validitas
Ini mengacu pada bagaimana konsep, ide atau perilaku yang merupakan konstruksi
diterjemahkan atau diubah menjadi realitas fungsi dan operasi (Trochim, 2006). Hal ini terjadi
terutama jika hubungan memiliki sebab dan akibat maka validitas konstruk membenarkan
adanya hubungan. Validitas konstruk secara kritis dibuktikan berdasarkan validitas berikut;
validitas wajah, validitas konten, validitas bersamaan dan prediktif, dan validitas konvergen dan
diskriminan.
Validitas wajah
Di sinilah indikator tampaknya menjadi ukuran yang masuk akal dari konstruksi yang
mendasarinya "di wajahnya". Ini benar-benar memastikan bahwa tindakan tersebut tampaknya
menilai konstruksi yang dimaksudkan yang sedang diselidiki. Misalnya aspek seseorang pergi ke
gereja setiap hari Minggu dapat membuat seseorang menyimpulkan bahwa orang itu religius
yang mungkin tidak benar. Validitas wajah sering digunakan oleh kuliah universitas ketika
menilai instrumen penelitian yang dirancang oleh siswa mereka.
Validitas konten
Ini adalah penilaian tentang seberapa baik satu set skala item cocok dengan domain konten yang
relevan dari konstruksi yang coba diukur. Menurut Bollen (1989), seperti yang dikutip dalam
Drost (2011) validitas konten adalah jenis validitas kualitatif di mana domain konsep dibuat jelas
dan analis menilai apakah langkah-langkah sepenuhnya mewakili domain (hal.185). Peneliti
harus merancang instrumen penelitian yang cukup membahas konstruksi atau area yang sedang
15 © September 15, 2019

diselidiki. Misalnya jika seorang peneliti ingin meliput penyelidikan tentang implementasi
kurikulum baru maka instrumen penelitian atau item pengujian yang dirancang oleh peneliti
harus cukup mengatasi domain untuk menghasilkan temuan penelitian yang valid. Sekelompok
hakim atau ahli yang memiliki konten di bidang yang sedang diselidiki dapat digunakan untuk
menilai jenis validitas ini.
Validitas konvergen dan Diskriminan
Mereka dinilai bersama atau bersama-sama untuk satu set ukuran. Validitas konvergen mengacu
pada kedekatan yang ukuran berkaitan dengan konstruksi yang konon untuk mengukur atau
hanya menyatu dengan konstruksi. Validitas diskriminan mengacu pada sejauh mana suatu
ukuran tidak mengukur atau mendiskriminasi konstruksi yang tidak seharusnya diukur. Untuk
secara efektif mendapatkan perbandingan validitas konvergen dari nilai yang diamati dari satu
indikator satu konstruksi dengan indikator lain dari konstruksi yang sama dilakukan.
Validitas diskriminan diperoleh dengan menunjukkan bahwa indikator satu konstruksi berbeda.
Prosedur statistik yang disebut korelasi bivariat digunakan untuk menganalisis item
menggunakan analisis faktor eksplorasi untuk validitas konvergen dan diskriminan.
Validitas terkait kriteria
Ini adalah tingkat korespondensi antara ukuran tes dan satu atau lebih rujukan eksternal (kriteria)
dengan korelasi (Mohajan, 2017). Misalnya misalkan siswa duduk untuk ujian dan mencetak
beberapa skor dan kemudian kami bertanya kepada mereka tentang skor mereka. Korelasi dapat
dilakukan antara skor yang diamati dan skor sebenarnya dari catatan guru. Kriteria – validitas
terkait terkait terkait erat dengan jenis validitas bersamaan atau prediktif. Validitas bersamaan
adalah di mana satu ukuran berkaitan dengan kriteria konkret lainnya yang diduga terjadi secara
bersamaan. Itu terjadi ketika kriteria ada pada saat yang sama dengan ukuran. Contohnya bisa
jadi skor kinerja Siswa yang diperoleh dari kalkulus dan aljabar linier karena semuanya adalah
tes matematika. Validitas prediktif adalah di mana ukuran berhasil memprediksi hasil masa
16 © September 15, 2019

depan yang secara teoritis diharapkan untuk memprediksi. Contoh validitas prediktif yang baik
adalah penggunaan Students Continuous Assessment Test (CAT) untuk memprediksi kinerja
mereka dalam Ujian akhir. Skor untuk CAT dapat dikorelasikan dengan skor yang diperoleh dari
Ujian Akhir.
Kesimpulan
Makalah ini telah secara kritis memeriksa definisi istilah keandalan dan validitas seperti yang
digunakan dalam penelitian pendidikan. Penting bagi peneliti pemula untuk memiliki
pengetahuan yang cukup tentang konsep keandalan dan validitas saat merancang instrumen
penelitian untuk meningkatkan kepercayaan dan generalisasi temuan penelitian. Jenis keandalan
yang diidentifikasi meliputi; Uji keandalan pengujian ulang, keandalan setengah terpisah,
keandalan antar-penilai, dan keandalan konsistensi internal. Fungsi keandalan dalam penelitian
adalah untuk memastikan bahwa skor yang diamati hampir mirip dengan skor sebenarnya yang
diperoleh dengan meminimalkan kesalahan dalam pengukuran.
Jenis validitas berikut telah dibahas; Validitas wajah, validitas konten, konvergen, diskriminan,
dan validitas terkait kriteria. Validitas mensyaratkan bahwa instrumen penelitian dapat
diandalkan tetapi instrumen mungkin dapat diandalkan tanpa valid. Interpretasi hasil tes
sepenuhnya tergantung pada konstruksi dan validitas yang mendasari temuan penelitian.
Referensi
Bajpai, S. R., &Bajpai, R.C. (2014). Kebaikan Pengukuran: Keandalan dan Validitas.
Jurnal Internasional Ilmu Kedokteran dan Kesehatan Masyarakat, 3 (2), 112-115.
Bollen, K. A. (1989). Persamaan Struktural dengan Variabel Laten (hlm. 179-225). John Wiley
dan
Anak.
17 © September 15, 2019

Campbell, D.T. dan Fiske, D.W. (1959). Validasi konvergen dan diskriminan oleh
matriks multitrait-multimethod. Buletin Psikologis, 56, 81-105.
Cortina, J.M. (1993). Apa itu Koefisien Alpha? Pemeriksaan Teori dan Aplikasi.
Jurnal Psikologi Terapan, 78 (1), 98-104.
Cronbach, L. J. (1951). Koefisien alfa dan struktur internal tes. Psikometrika,
16(3), 297-334.
Air liur, E., A. (2011). Validitas dan keandalan dalam penelitian ilmu sosial. Penelitian
Pendidikan dan
Perspektif, 38 (1), 105-124.
Fiske, Donald W. (1982). Konvergen - Validasi Diskriminan dalam Pengukuran dan Penelitian
Strategi. Dalam Brinberg, D. dan Kidder, L. H., (Eds), Bentuk Validitas dalam
Penelitian, hlm. 77-93.
Heale, R., &Twycross, A. (2015). Validitas dan Keandalan dalam Studi Kuantitatif. Bukti
Berdasarkan Nurs, 18(4), 66-67.
Mohajan, H. (2017). Dua kriteria untuk pengukuran yang baik dalam penelitian: validitas dan
Keandalan. Sejarah Universitas Spiru Haret. Seri Ekonomi, 17 (4), 59-82.
Nunnally, J.C. (1978). Teori psikometri. Perusahaan Buku McGraw-Hill, hlm. 86-113, 190-
255.
Rosenthal, R. dan Rosnow, R. L. (1991). Pentingnya Penelitian Perilaku: Metode dan Data
Analisis. Edisi Kedua. Perusahaan Penerbitan McGraw-Hill, hlm. 46-65.
Trochim, W.M. K. (2006). Pengantar validitas. Metode Penelitian Sosial, diambil dari
www.socialresearchmethods.net/kb/introval.php, 9 September 2010.
18 © September 15, 2019

Zohrabi, M. (2013). Penelitian Metode Campuran: Instrumen, Validitas, Keandalan, dan
Pelaporan
Temuan. Teori dan Praktek dalam Studi Bahasa, 3 (2), 254-262.
19 © September 15, 2019

Reliability and Validity of Research Instruments: Correspondence To

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Reliability and Validity of Research Instruments: Correspondence To

Uploaded by

Copyright:

Available Formats

Reliability and Validity of Research Instruments

Critical Analysis of policies on Special Education in Kenya

UNICAF University - Zambia

1 © September 15, 2019

Definition of Reliability and Validity

According to Drost (2011), reliability is “the extent to which measurements are

intended unobservable construct. Reliability and validity form psychometric properties of

2 © September 15, 2019

repeatability or replication of research findings. When a study is conducted by a researcher under

It is a measure of consistency between measurements of the same construct administered to the

very critical for this type of reliability.

3 © September 15, 2019

It is also called inter-observer rating or an agreement. It involves rating of observations using a

inter-rater reliability especially if the variables are categorical.

Internal consistency reliability

4 © September 15, 2019

definition of the construct. Empirical assessment is where validity is based on quantitative

concurrent and predictive validity, and convergent and discriminant validity.

5 © September 15, 2019

under investigation. For instance if a researcher wants to cover an investigation on

Convergent and Discriminant validity

measure or discriminates the construct it is not supposed to measure. To effectively obtain

6 © September 15, 2019

indicators of the same construct is done.

factor analysis for convergent and discriminant validity.

concepts of reliability and validity when designing research instrument to enhance

trustworthiness and generalizability of research findings. The types of reliability identified

7 © September 15, 2019

similar to true score obtained by minimizing the errors in measurement.

International Journal of Medical Science and Public Health, 3(2), 112-115.

multitrait-multimethod matrix. Psychological Bulletin, 56, 81-105.

Cortina, J. M. (1993). What is Coefficient Alpha? An Examination of Theory and Applications.

Journal of Applied Psychology, 78 (1), 98-104.

Perspectives, 38 (1), 105-124.

Fiske, Donald W. (1982). Convergent -Discriminant Validation in Measurements and Research

8 © September 15, 2019

reliability. Annals of Spiru Haret University. Economic Series, 17(4), 59-82.

Analysis. Second Edition. McGraw-Hill Publishing Company, pp. 46-65.

Trochim, W. M. K. (2006). Introduction to Validity. Social Research Methods, retrieved from

www.socialresearchmethods.net/kb/introval.php, September 9, 2010.

Findings. Theory and Practice in Language Studies, 3(2), 254-262.

9 © September 15, 2019

Keandalan dan Validitas Instrumen Penelitian

Korespondensi dengan kubaiedwin@yahoo.com

Universitas UNICAF - Zambia

10 © September 15, 2019

digunakan dalam merancang instrumen penelitian.

Definisi Keandalan dan Validitas

menggunakannya dalam merancang instrumen untuk penelitian pendidikan.

11 © September 15, 2019

sistematis mempengaruhi semua pengamatan konstruksi di seluruh sampel. Kesalahan sistematis

Rosenthal, 1991). Berikut ini adalah keandalan tipe;

Keandalan pengujian ulang

12 © September 15, 2019

untuk jenis keandalan ini.

Keandalan setengah terpisah

Heale &Twycross , (2015) mendefinisikan keandalan Split-half sebagai ukuran konsistensi

merancang serangkaian item baru untuk dikelola nanti.

13 © September 15, 2019

Keandalan konsistensi internal

antara item (Cronbach, 1951).

atau item memiliki sedikit kesamaan.

14 © September 15, 2019