Analisis Butir Soal secara Kuantitatif
ANALISIS BUTIR SOAL SECARA KUANTITATIF
A.
Pengertian
Penelaahan
soal secara kuantitatif maksudnya adalah penelaahan butir soal didasarkan pada
data empirik dari butir soal yang bersangkutan. Data empirik ini diperoleh dari
soal yang telah diujikan.
B.
Analisis
Butir Soal
Ada
dua pendekatan dalam analisis secara kuantitatif, yaitu pendekatan secara
klasik dan modern.
1. Klasik
Analisis butir soal secara klasik adalah proses
penelaahan butir soal melalui informasi dari jawaban peserta didik guna
meningkatkan mutu butir soal yang bersangkutan dengan menggunakan teori tes
klasik.
Kelebihan analisis butir soal secara klasik adalah
murah, dapat dilaksanakan sehari-hari dengan cepat menggunakan komputer, murah,
sederhana, familier dan dapat menggunakan data dari beberapa peserta didik atau
sampel kecil (Millman dan Greene, 1993: 358).
Adapun proses analisisnya sudah banyak dilaksanakan
para guru di sekolah seperti beberapa contoh di bawah ini.
a. Langkah pertama yang dilakukan adalah menabulasi
jawaban yang telah dibuat pada setiap butir soal yang meliputi berapa peserta
didik yang: (1) menjawab benar pada setiap soal, (2) menjawab salah (option
pengecoh), (3) tidak menjawab soal. Berdasarkan tabulasi ini, dapat diketahui
tingkat kesukaran setiap butir soal, daya pembeda soal, alternatif jawaban yang
dipilih peserta didik.
b. Misalnya analisis untuk 32 siswa, maka langkah (1)
urutkan skor siswa dari yang tertinggi sampai yang terendah. (2) Pilih 10
lembar jawaban pada kelompok atas dan 10 lembar jawaban pada kelompok bawah.
(3) Ambil kelompok tengah (12 lembar jawaban) dan tidak disertakan dalam
analisis. (4) Untuk masing-masing soal, susun jumlah siswa kelompok atas dan bawah
pada setiap pilihan jawaban. (5) Hitung tingkat kesukaran pada setiap butir
soal. (6) Hitung daya pembeda soal. (7) Analisis efektivitas pengecoh pada
setiap soal (Linn dan Gronlund, 1995: 318-319).
Aspek yang perlu diperhatikan dalam analisis butir soal
secara klasik adalah setiap butir soal ditelaah dari segi: tingkat kesukaran
butir, daya pembeda butir, dan penyebaran pilihan jawaban (untuk soal bentuk
obyektif) atau frekuensi jawaban pada setiap pilihan jawaban.
a. Tingkat Kesukaran (TK)
Tingkat kesukaran soal adalah peluang untuk menjawab
benar suatu soal pada tingkat kemampuan tertentu yang biasanya dinyatakan dalam
bentuk indeks. Indeks tingkat kesukaran ini pada umumnya dinyatakan dalam
bentuk proporsi yang besarnya berkisar 0,00 - 1,00 (Aiken (1994: 66). Semakin
besar indeks tingkat kesukaran yang diperoleh dari hasil hitungan, berarti
semakin mudah soal itu. Suatu soal memiliki TK= 0,00 artinya bahwa tidak ada
siswa yang menjawab benar dan bila memiliki TK= 1,00 artinya bahwa siswa
menjawab benar. Perhitungan indeks tingkat kesukaran ini dilakukan untuk setiap
nomor soal. Pada prinsipnya, skor rata-rata yang diperoleh peserta didik pada
butir soal yang bersangkutan dinamakan tingkat kesukaran butir soal itu. Rumus
ini dipergunakan untuk soal obyektif. Rumusnya adalah seperti berikut ini
(Nitko, 1996: 310).
Fungsi tingkat kesukaran butir soal biasanya
dikaitkan dengan tujuan tes. Misalnya untuk keperluan ujian semester digunakan
butir soal yang memiliki tingkat kesukaran sedang, untuk keperluan seleksi
digunakan butir soal yang memiliki tingkat kesukaran tinggi/sukar, dan untuk keperluan diagnostik biasanya
digunakan butir soal yang memiliki tingkat kesukaran rendah/mudah.
Untuk mengetahui tingkat kesukaran soal bentuk uraian
digunakan rumus berikut ini :
Hasil perhitungan dengan menggunakan rumus di atas menggambarkan tingkat kesukaran soal itu. Klasifikasi tingkat kesukaran soal dapat dicontohkan seperti berikut ini :
Hasil perhitungan dengan menggunakan rumus di atas
dapat menggambarkan tingkat kemampuan soal dalam membedakan antar peserta didik
yang sudah memahami materi yang diujikan dengan peserta didik yang belum/tidak
memahami materi yang diujikan. Adapun klasifikasinya adalah seperti berikut ini
(Crocker dan Algina, 1986: 315).
Sumber : Hasil perhitungan dengan menggunakan rumus di atas menggambarkan tingkat kesukaran soal itu. Klasifikasi tingkat kesukaran soal dapat dicontohkan seperti berikut ini :
Tingkat kesukaran butir soal dapat mempengaruhi bentuk
distribusi total skor tes. Untuk tes yang sangat sukar (TK= < 0,25)
distribusinya berbentuk positif skewed, sedangkan tes yang mudah dengan TK=
>0,80) distribusinya berbentuk negatif skewed.
Tingkat kesukaran butir soal memiliki 2 kegunaan,
yaitu kegunaan bagi guru dan kegunaan bagi pengujian dan pengajaran (Nitko,
1996: 310-313). Kegunaannya bagi guru adalah: (1) sebagai pengenalan konsep
terhadap pembelajaran ulang dan memberi masukan kepada siswa tentang hasil
belajar mereka, (2) memperoleh informasi tentang penekanan kurikulum atau
mencurigai terhadap butir soal yang bias. Adapun kegunaannya bagi pengujian dan
pengajaran adalah: (a) pengenalan konsep yang diperlukan untuk diajarkan ulang,
(b) tanda-tanda terhadap kelebihan dan kelemahan pada kurikulum sekolah, (c)
memberi masukan kepada siswa, (d) tanda-tanda kemungkinan adanya butir soal
yang bias, (e) merakit tes yang memiliki ketepatan data soal.
Di samping kedua kegunaan di atas, dalam konstruksi
tes, tingkat kesukaran butir soal sangat penting karena tingkat kesukaran butir
dapat: (1) mempengaruhi karakteristik distribusi skor (mempengaruhi bentuk dan
penyebaran skor tes atau jumlah soal dan korelasi antarsoal), (2) berhubungan
dengan reliabilitas. Menurut koefisien alfa clan KR-20, semakin tinggi korelasi
antarsoal, semakin tinggi reliabilitas (Nunnally, 1981: 270-271).
Tingkat kesukaran butir soal juga dapat digunakan
untuk mempredikst alat ukur itu sendiri (soal) dan kemampuan peserta didik
dalam memahami materi yang diajarkan guru. Misalnya satu butir soal termasuk
kategori mudah, maka prediksi terhadap informasi ini adalah seperti berikut :
1) Pengecoh butir
soal itu tidak berfungsi.
2) Sebagian besar
siswa menjawab benar butir soal itu; artinya bahwa sebagian besar siswa telah
memahami materi yang ditanyakan.
Bila suatu butir soal termasuk kategori sukar, maka
prediksi terhadap informasi ini adalah seperti berikut :
1) Butir soal itu
"mungkin" salah kunci jawaban.
2) Butir soal itu
mempunyai 2 atau lebih jawaban yang benar.
3) Materi yang
ditanyakan belum diajarkan atau belum tuntas pembelajarannya, sehingga
kompetensi minimum yang harus dikuasai siswa belum tercapai.
4) Materi yang
diukur tidak cocok ditanyakan dengan menggunakan bentuk soal yang diberikan
(misalnya meringkas cerita atau mengarang ditanyakan dalam bentuk pilihan
ganda).
5) Pernyataan
atau kalimat soal terlalu kompleks dan panjang.
Namun, analisis secara klasik ini memang memiliki
keterbatasan, yaitu bahwa tingkat kesukaran sangat sulit untuk mengestimasi
secara tepat karena estimasi tingkat kesukaran dibiaskan oleh sampel (Haladyna,
1994: 145). Jika sampel berkemampuan tinggi, maka soal akan sangat mudah (TK=
>0,90). Jika sampel berkemampuan rendah, maka soal akan sangat sulit (TK =
< 0,40). Oleh karena itu memang merupakan kelebihan analisis secara IRT,
karena 1RT dapat mengestimasi tingkat kesukaran soal tanpa menentukan siapa
peserta tesnya (invariance). Dalam IRT, komposisi sampel dapat mengestimasi
parameter dan tingkat kesukaran soal tanpa bias.
b. Daya Pembeda (DP)
Daya pembeda soal adalah kemampuan suatu butir soal
dapat membedakan antara warga belajar/siswa yang telah menguasai materi yang
ditanyakan dan warga belajar/siswa yang tidak/kurang/belum menguasai materi
yang ditanyakan. Manfaat daya pembeda butir soal adalah seperti berikut ini :
1) Untuk meningkatkan mutu setiap butir soal melalui data
empiriknya. Berdasarkan indeks daya pembeda, setiap butir soal dapat diketahui
apakah butir soal itu baik, direvisi, atau ditolak.
2) Untuk mengetahui seberapa jauh setiap butir soal dapat
mendeteksi/membedakan kemampuan siswa, yaitu siswa yang telah memahami atau
belum memahami materi yang diajarkan guru.
Apabila suatu butir soal tidak dapat membedakan kedua
kemampuan siswa itu, maka butir soal itu dapat dicurigai
"kemungkinannya" seperti berikut ini :
·
Kunci jawaban
butir soal itu tidak tepat.
·
Butir soal itu
memiliki 2 atau lebih kunci jawaban yang benar
·
Kompetensi yang
diukur tidak jelas
·
Pengecoh tidak
berfungsi
·
Materi yang
ditanyakan terlalu sulit, schingga banyak siswa yang menebak
·
Sebagian besar
siswa yang memahami materi yang ditanyakan berpikir ada yang salah informasi
dalam butir soalnya
Indeks daya pembeda setiap butir soal biasanya juga
dinyatakan dalam bentuk proporsi. Semakin tinggi indeks daya pembeda soal
berarti semakin mampu soal yang bersangkutan membedakan warga belajar/siswa
yang telah memahami materi dengan warga belajar/peserta didik yang belum
memahami materi. Indeks daya pembeda berkisar antara -1,00 sampai dengan +1,00.
Semakin tinggi daya pembeda suatu soal, maka semakin kuat/baik soal itu. Jika
daya pembeda negatif (<0) berarti lebih banyak kelompok bawah (warga
belajar/peserta didik yang tidak memahami materi) menjawab benar soal dibanding
dengan kelompok atas (warga belajar/peserta didik yang memahami materi yang
diajarkan guru).
Untuk mengetahui daya pembeda soal bentuk pilihan
ganda adalah dengan menggunakan rumus berikut ini :
DP = daya pembeda soal,
BA = jumlah jawaban benar pada kelompok atas,
BB = jumlah jawaban benar pada kelompok bawah,
N = jumlah siswa yang mengerjakan tes.
Untuk
mengetahui daya pembeda soal bentuk uraian adalah dengan menggunakan rumus
berikut ini :
c. Penyebaran (distribusi) jawaban
Penyebaran pilihan jawaban dijadikan dasar dalam
penelaahan soal. Hal ini dimaksudkan untuk mengetahui berfungsi tidaknya
jawaban yang tersedia. Suatu pilihan jawaban (pengecoh) dapat dikatakan
berfungsi apabila pengecoh:
1) paling tidak dipilih oleh 5 % peserta tes/siswa,
2) lebih banyak dipilih oleh kelompok siswa yang belum
paham materi.
d.
Reliabilitas
Skor Tes
Tujuan utama menghitung reliabilitas skor tes adalah
untuk mengetahui tingkat ketepatan (precision) dan keajegan (consistency) skor
tes. Indeks reliabilitas berkisar antara 0 - 1. Semakin tinggi koefisien
reliabilitas suatu tes (mendekati 1), makin tinggi pula keajegan/ketepatannya.
Tes yang memiliki konsistensi reliabilitas tinggi
adalah akurat, reproducibel, dan generalized terhadap kesempatan testing dan
instrumen tes lainnya. Secara rinci faktor yang mempengaruhi reliabilitas skor
tes di antaranya:
1) Semakin
banyak jumlah butir soal, semakin ajek suatu tes.
2) Semakin lama
waktu tes, semakin ajek.
3) Semakin
sempit range kesukaran butir soal, semakin besar keajegan.
4) Soal-soal
yang saling berhubungan akan mengurangi keajegan.
5) Semakin
objektif pemberian skor, semakin besar keajegan.
6) Ketidaktepatan
pemberian skor.
7) Menjawab
besar soal dengan cara menebak.
8) Semakin
homogen materi semakin besar keajegan.
9) Pengalaman
peserta ujlan.
10) Salah
penafsiran terhadap butir soal.
11) Menjawab soal
dengan buru-buru/cepat.
12) Kesiapan
mental peserta ujian.
13) Adanya
gangguan dalam pelaksanaan tes.
14) Jarak antara tes pertama dengan tes kedua.
15) Mencontek
dalam mengerjakan tes.
16) Posisi
individu dalam belajar.
17) Kondisi fisik
peserta ujian.
Ada 3 cara yang dapat dilakukan untuk menentukan
reliabilitas skor tes, yaitu :
1) Keajegan
pengukuran ulang: kesesuaian antara hasil pengukuran pertama dan kedua dari
sesuatu alat ukur terhadap kelompok yang sama.
2) Keajegan
pengukuran setara: kesesuaian hasil pengukuran dan 2 atau lebih alat ukur
berdasarkan kompetensi kisi-kisi yang lama.
3) Keajegan
belah dua: kesesuaian antara hasil pengukuran belahan pertama dan belahan kedua
dari alat ukur yang sama.
2. Modern
Analisis butir soal secara modern yaitu penelaahan
butir soal dengan menggunakan Item Response Theory (IRT) atau
teori jawaban butir soal. Teori ini merupakan suatu teori yang menggunakan
fungsi matematika untuk menghubungkan antara peluang menjawab benar suatu scal
dengan kemampuan siswa. Nama lain IRT adalah latent trait theory (LTT),
atau characteristics
curve theory (CCT).
Asal mula IRT adalah kombinasi suatu versi hukum
phi-gamma dengan suatu analisis faktor butir soal (item factor analisis)
kemudian bernama Teori Trait Latent (Latent Trait Theory), kemudian sekarang
secara umum dikenal menjadi teori jawaban butir soal (Item Response Theory)
(McDonald, 1999: 8).
Secara ringkas, berikut diuraikan kelebihan analisis
secara IRT dan kalibrasi butir soal dan pengukuran kemampuan orang.
1. Kelebihan Analisis IRT
Untuk
mengetahui kelebihan analisis IRT, maka para guru perlu mengetahui keterbatasan
analisis secara klasik. Keterbatasan model pengukuran secara klasik bila
dibandingkan dengan teori jawaban butir soal adalah seperti berikut (Hambleton,
Swaminathan, dan Rogers, 1991: 2-5). (1) Tingkat kemampuan dalam teori klasik
adalah "true score". Jika tes sulit artinya tingkat kemampuan peserta
didik mudah. Jika tes mudah artinya tingkat kemampuan peserta didik tinggi. (2)
Tingkat kesukaran soal didefinisikan sebagai proporsi peserta didik dalam grup
yang menjawab benar soal. Mudah/sulitnya butir soal tergantung pada kemampuan
peserta didik yang dites dan kemampuan tes yang diberikan. (3) Daya pembeda,
reliabilitas, dan validitas soal/tes didefinisikan berdasarkan grup peserta
didik. Adapun kelebihan IRT adalah bahwa: (1) IRT tidak berdasarkan grup
dependent, (2) skor siswa dideskripsikan bukan test dependent, (3) model ini
menekankan pada tingkat butir soal bukan tes, (4) IRT tidak memerlukan paralel
tes untuk menentukan relilabilitas tes, (5) IRT suatu model yang memerlukan
suatu pengukuran ketepatan untuk setiap skor tingkat kemampuan.
2.
Kalibrasi
Butir Soal dan Pengukuran Kemampuan Orang.
Kalibrasi butir soal dan pengukuran kemampuan orang
merupakan proses estimasi parameter pada model respon butir. Model persamaan
dasar Rasch adalah model probabilistik yang mencakup hasil dari suatu interaksi
butir soal-orang. Proses mengestimasi kemampuan orang dinamakan pengukuran,
sedangkan proses mengestimasi parameter tingkat kesukaran butir soal dinamakan
kalibrasi. Jadi kalibrasi soal merupakan proses penyamaan skala soal yang
didasarkan pada tingkat kesukaran butir soal dan tingkat kemampuan siswa.
Adapun ciri suatu skala adalah mempunyai titik awal, biasanya 0, dan mempunyai
satuan ukuran atau unit pengukuran. Prosedur estimasi dapat dilakukan dengan
tangan atau komputer.
Ada beberapa langkah yang dapat dilakukan dalam
mengkalibrasi butir dan mengukir kemampuan orang dengan tangan (Wright and
Linacre, 1992: 32-45) seperti berikut ini :
a. Menyusun jawaban peserta didik untuk setiap butir
soal ke dalam tabel.
b. Mengedit data
c. Menghitung distribusi skor soal
d. Menghitung distribusi skor peserta didik.
e. Menghitung faktor ekspansi kemampuan peserta didik
(x) dan kesukaran butir soal (Y).
f.
Menghitung tingkat kesukaran dan kesalahan standar butir soal
g. Menghitung tingkat kemampuan dan kesalahan standar
siswa
h. Menghitung probabilitas atau peluang menjawab benar
setiap butir soal [P(0)}.
Departemen Pendidikan Nasional
Direktorat Jenderal Manajemen Pendidikan Dasar dan Menengah
Tahun 2008
Komentar
Posting Komentar