Soal yang Bermutu
Soal yang Bermutu
Bahan ujian atau soal yang bermutu dapat
membantu pendidik meningkatkan pembelajaran
dan memberikan informasi dengan tepat tentang peserta didik mana yang belum
atau sudah mencapai kompetensi. Salah satu ciri soal yang bermutu adalah bahwa
soal itu dapat membedakan setiap kemampuan peserta didik. Semakin tinggi
kemampuan peserta didik dalam memahami materi pembelajaran, semakin tinggi pula
peluang menjawab benar soal atau mencapai kompetensi yang ditetapkan. Makin
rendah kemampuan peserta didik dalam memahami materi pembelajaran, makin kecil
pula peluang menjawab benar soal untuk mengukur pencapaian kompetensi yang ditetapkan.
Syarat soal yang bermutu adalah bahwa soal harus
sahih (valid), dan handal. Sahih maksudnya bahwa setiap alat ukur hanya
mengukur satu dimensi/aspek saja. Mistar hanya mengukur panjang, timbangan
hanya mengukur berat, bahan ujian atau soal PKn hanya mengukur materi
pembelajaran PKn bukan mengukur keterampilan/kemampuan materi yang lain. Handal
maksudnya bahwa setiap alat ukur harus dapat memberikan hasil pengukuran yang
tepat, cermat, dan ajeg. Untuk dapat menghasilkan soal yang sahih dan handal,
penulis soal harus merumuskan kisi-kisi dan menulis soal berdasarkan kaidah
penulisan soal yang baik (kaidah penulisan soal bentuk objektif/pilihan ganda,
uraian, atau praktik).
Linn dan Gronlund (1995: 47) menyatakan bahwa
tes yang baik harus memenuhi tiga karakteristik, yaitu: validitas, reliabilitas,
dan usabilitas. Validitas artinya ketepatan interpretasi hasil prosedur
pengukuran, reliabilitas artinya konsistensi hasil pengukuran, dan usabilitas
artinya praktis prosedurnya. Di samping itu, Cohen dkk. (1992: 28) juga menyatakan
bahwa tes yang baik adalah tes yang valid artinya mengukur apa yang hendak diukur.
Nitko (1996 : 36) menyatakan bahwa validitas berhubungan dengan interpretasi
atau makna dan penggunaan hasil pengukuran peserta didik. Messick (1993: 13)
menjelaskan bahwa validitas tes merupakan suatu integrasi pertimbangan
evaluatif derajat keterangan empiris yang mendasarkan pemikiran teoritis yang
mendukung ketepatan dan kesimpulan berdasarkan pada skor tes. Adapun validitas
dalam model Rasch adalah sesuai atau fit dengan model (Hambleton dan Swaminathan,
1985: 73).
Messick (1993: 16) menyatakan bahwa validitas
secara tradisional terdiri dari: (1) validitas isi, yaitu ketepatan materi yang
diukur dalam tes; (2) validitas criterion-related, yaitu membandingkan tes
dengan satu atau lebih variabel atau kriteria, (3) valitidas prediktif, yaitu
ketepatan hasil pengukuran dengan alat lain yang dilakukan kemudian; (4)
validitas serentak (concurrent), yaitu ketepatan hasil pengukuran dengan
dua alat ukur lainnya yang dilakukan secara serentak; (5) validitas konstruk,
yaitu ketepatan konstruksi teoretis yang mendasari disusunnya tes. Linn dan
Gronlund (1995 : 50) menyatakan hahwa valilitas terdiri dari: (1) konten. (2) test-criterion relationship, (3)
konstruk, dan (4) consequences, yaitu
ketepatan penggunaan hasil pengukuran.
Sedangkan menurut Oosterhof (190 : 23) yang mengutip berdasarkan "Standards for Educational and Psychological
Testing, 1985" yang didukung oleh Ebel dan Frisbie (1991 : 102-109),
serta Popham (1995 : 43) bahwa tipe validitas adalah validitas: (1) content, (2) criterion, dan (3) construction.
Di samping validitas, informasi tentang
reliabilitas tes sangat diperlukan. Nitko (1999 : 62) dan Popham (1995 : 21) menyatakan
bahwa reliabilitas berhubungan dengan konsistensi hasil pengukuran. Pernyataan ini didukung oleh Cohen dkk, yaitu
bahwa reliabilitas merupakan persamaan dependabilitas atau konsistensi (Cohen dkk : 192 : 132) karena tes yang
memiliki konsistensi/reliabilitas tinggi, maka tesnya adalah akurat, reproducible; dan gereralizable terhadap kesempatan testing dan instrumen tes yang
sama. (Ebel dan Frisbie (1991 : 76). Faktor yang mempengaruhi reliabilitas yang
berhubungan dengan tes adalah: (1) banyak butir, (2) homogenitas materi tes, (3)
homogenitas karakteristik butir, dan (4) variabilitas skor. Reliabilitas yang
berhubungan dengan peserta didik dipengaruhi oleh faktor: (1) heterogenitas
kelompok, (2) pengalaman peserta didik mengikuti tes, dan (3) motivasi peserta
didik. Sedangkan faktor yang mempengaruhi reliabilitas yang berhubungan dengan
administrasi adalah batas waktu dan kesempatan menyontek (Ebel dan Frisbie,
1991: 88-93).
Linn dan Gronlund menyatakan bahwa metode
estimasi dapat dilakukan dengan mempergunakan: (1) metode test-retest, yaitu diberikan tes yang sama dua kali pada kelompok
yang sama dengan interval waktu; tujuannya adalah pengukuran stabilitas; (2)
metode equivalent form, yaitu
diberikan dua tes paralel pada kelompok yang sama dan waktu yang sama;
tujuannya adalah pengukuran menjadi ekuivalen; (3) metode test-retest dengan equivalen
form, yaitu diberikan dua tes paralel pada kelompok yang sama dengan
interval waktu; tujuannya adalah pengukuran stabilitas dan ekuivalensi; (4)
metode split-half, yaitu diberikan
tes sekali, kemudian skor pada butir yang ganjil dan genap dkorelasikan dengan
menggunakan rumus Spearman-Brown;
tujuannya adalah pengukuran konsistensi internal; (5) metode Kuder-Richardson dan koefisien Alfa, yaitu diberikan tes
sekali kemudian skor total tes dihitung dengan rumus Kuder-Richardson,
tujuannya adalah pengukuran konsistensi internal; (6) metode inter-rater, yaitu diberikan satu set
jawaban peserta didik untuk diskor/judgement oleh 2 atau lebih rater; tujuannya
adalah pengukuran konsistensi rating. Menurut Popham (1995: 22), reliabilitas
terdiri dari 3 jenis yaitu: (1) stabilitas, yaitu konsistensi hasil di antara
kesempatan testing yang berbeda, (2) format bergantian (alternate form), yaitu konsistensi hasil di antara dua atau lebih
tes yang berbeda, (3) internal konsistensi, yaitu konsistensi melalui suatu
pengukuran fungsi butir instrumen.
Reliabilitas skor tes dalam teori respon
butir adalah penggunaan fungsi informasi tes. Menurut Hambleton dan Swaminathan
(1985: 236), pengukuran fungsi informasi tes lebih akurat bila dibandingkan
dengan penggunaan reliabilitas karena: (1) bentuknya tergantung hanya pada
butir-butir dalam tes, (2) mempunyai estimasi kesalahan pengukuran pada setiap
level abilitas. Pernyataan ini didukung oleh Gustafson (1981 : 41), yaitu bahwa
konsep reliabilitas dalam model Rasch memerankan bagian subordinate sebab model
pengukuran ini diorientasikan pada estimasi kemampuan individu.
Untuk meningkatkan validitas dan reliabilitas
tes perlu dilakukan analisis butir soal. Kegunaan analisis butir soal di
antaranya adalah: (1) dapat membantu para pengguna tes dalam evaluasi atas tes
yang diterbitkan, (2) sangat relevan bagi penyusunan tes informal dan lokal
seperti kuis, ulangan yang disiapkan guru untuk peserta didik di kelas, (3)
mendukung penulisan butir soal yang efektif, (4) secara materi dapat
memperbaiki tes di kelas, (5) meningkatkan validitas soal dan reliabilitas
(Anastasi dan Urbina, 1997: 172).
Sumber :
Panduan Penulisan Butir Soal
Direktorat Jenderal Manajemen Pendidikan Dasar dan Menengah - Depdiknas
Tahun 2008
Untuk download file Panduan Penulisan Butir Soal, silakan klik link di bawah ini !
Klik di sini untuk cover
Klik di sini untuk daftar isi
Klik di sini untuk file panduan
Silakan layangkan saran dan pendapat anda melalui surel :
syamsulhendry@gmail.com
Direktorat Jenderal Manajemen Pendidikan Dasar dan Menengah - Depdiknas
Tahun 2008
Untuk download file Panduan Penulisan Butir Soal, silakan klik link di bawah ini !
Klik di sini untuk cover
Klik di sini untuk daftar isi
Klik di sini untuk file panduan
Silakan layangkan saran dan pendapat anda melalui surel :
syamsulhendry@gmail.com
Komentar
Posting Komentar