Tugas Kelompok nim 14.01.53.0013, 14,01,53,0014, 13,01,53,0045 Pengertian METODE STEEMMING
METODE STEEMMING
Teknik stemming adalah
suatu teknik pencarian bentuk dasar dari suatu term. Yang dimaksud
dengan term itu sendiri adalah tiap kata yang berada pada
suatu dokumen teks. Stemming dilakukan pada saat pembuatan
indeks dari suatu dokumen. Pembuatan indeks dilakukan karena suatu dokumen
tidak dapat dikenali langsung oleh suatu sistem temu kembali informasi
atau information retrieval (IR)system. Oleh karena itu, dokumen
tersebut terlebih dahulu perlu dipetakan ke dalam suatu representasi dengan
menggunakan teks yang berada di dalamnya. Teknik stemming diperlukan
selain untuk memperkecil jumlah indeks yang berbeda dari suatu dokumen, juga
untuk melakukan pengelompokan kata-kata lain yang memiliki kata dasar dan arti
yang serupa namun memiliki bentuk atau form yang berbeda
karena mendapatkan imbuhan yang berbeda.
Teknik stemming terdiri
dari berbagai macam metode. Metode pertama yakni stemming dengan
acuan tabel pemenggalan imbuhan. Proses stemming suatu term dengan
metode ini dilakukan dengan cara menghilangkan imbuhan dari term tersebut
sesuai dengan table acuan pemenggalan imbuhan yang digunakan. Metode kedua
merupakan pengembangan dari metode pertama. Metode kedua ini selain menggunakan
tabel acuan pemenggalan imbuhan, juga menggunakan suatu kamus kata dasar. Kamus
kata dasar ini digunakan sebagai acuan hasil stemming saat
proses pemenggalan imbuhan selesai dilakukan. Hasil dari proses stemming dengan
metode ini harus ada pada kamus kata dasar, jika tidak maka term yang
diinputkan dianggap sebagai bentuk dasar. Metode ketiga dinamakan metode stemmingberbasis corpus (koleksi
dokumen) karena hasil stemming menggunakan metode ini
dipengaruhi oleh koleksi dokumen yang digunakan dalam proses uji coba. Kelas
stem yang terbentuk dipengaruhi oleh nilai statistik co-occurence dari
tiap term pada kelas stem tersebut. Metode ini dikembangkan
dari hipotesis awal bahwa dua buah term dengan bentuk dasar
yang sama akan sering muncul pada koleksi dokumen yang digunakan pada ujicoba.
Nilai keseringan muncul secara bersamaan inilah yang dihitung menggunakan
statistik co-occurence.
Metode ketiga
dilatarbelakangi dari masalah overstemming dan understemming.
Inti dari masalah tersebut yakni kemungkinan hasil stemming yang
dapat berjumlah lebih dari satu. Kemungkinan hasilstemming yang
lebih dari satu ini diakibatkan oleh algoritma stemming yang
digunakan. Teknik hard stemming, stemming dilakukan
hingga seluruh imbuhan berhasil dihilangkan, tentunya akan memiliki hasilstemming yang
berbeda denganteknik soft stemming, proses penghilangan imbuhan
langsung dihentikan saat kata dasar dari term tersebut
ditemukan. Selain itu, ambiguitas pada suatu bahasa juga dapat menyebakan
hasil stemming memiliki kemungkinan berjumlah lebih dari satu.
Algoritma stemming kata
pada Bahasa Indonesia dengan performa yang paling baik (memiliki jenis
kesalahan stemming yang paling sedikit) adalah algoritma Enhanced
Confix Stripping (ECS) Stemmer. Algoritma ECS Stemmer ini
merupakan algoritma perbaikan dari algoritma Confix Stripping (CS)
Stemmer. Perbaikan yang dilakukan oleh ECS Stemmer adalah
perbaikan beberapa aturan pada table acuan pemenggalan imbuhan. Selain itu,
algoritma ECS Stemmer juga menambahkan langkah pengembalian
akhiran jika terjadi penghilangan akhiran yang seharusnya tidak dilakukan.
Meskipun terdapat
peningkatan performa (peningkatan keberhasilan melakukan stemming kata),
masih terdapat kesalahan stemming kata yang dilakukan
oleh ECS Stemmer. Selain itu, algoritma ECS Stemmer juga
tidak mengajukan perbaikan terhadap permasalahan overstemming dan understemming.
Oleh sebab-sebab itulah dalam tugas akhir ini, dilakukan diajukan perbaikan
terhadap algoritma ECS Stemmer. Selain perbaikan terhadap aturan
pada tabel acuan pemenggalan imbuhan, juga dilakukan implementasi metode stemming berbasis corpus untuk
melakukan penyelesaian terhadap problemoverstemming dan undertstemming.
Evaluasi hasil stemming dilakukan
secara manual dengan melakukanpengamatan secara langsung terhadap hasil stemming.
Untuk menilai apakah hasil stemming yang dilakukan benar atau
salah, digunakan Kamus Besar Bahasa Indonesia (KBBI). KBBI berbeda dengan kamus
kata dasar yang digunakan sebagai acuan proses stemming. Pada KBBI,
setiap kata yang terdapat di dalamnya tidak hanya berupa kata dasar. Selain
kata dasar, pada KBBI juga disertakan berbagai variasi bentuk kata dasar
tersebut dengan berbagai macam imbuhan.
Selain melakukan
evaluasi terhadap hasil stemming, juga dilakukan evaluasi terhadap
sistem IR. Sistem IR yang digunakan di dalam uji
coba adalah suatu sistem pencarian dokumen berdasarkan inputquery dari
user. Evaluasi dilakukan terhadap nilai efektifitas system IR yang
menggunakan algoritma ECS Stemmer sebelum dan sesudah
perbaikan. Untuk melakukan proses evaluasi sistem IR dibutuhkan
beberapa buah set. Dokumen set yang berisi dokumen-dokumen
yang akan digunakan dalam uji coba.Query set yang berisi daftar
query yang akan digunakan dalam proses pencarian dokumen. Serta yang terakhir
yakni relevan set dokumen terhadap query yang berisi daftar
dokumen-dokumen yang dinilai relevan untuk tiap query pada query set. Pembuatan
relevan set membutuhkan penilaian secara manual oleh manusia untuk menilai
apakah suatu dokumen mengandung informasi yang dibutuhkan sesuai input
query yang dimasukkan. Hal inilah yang membedakan query informasi
dengan query database. Padaquery informasi,
selain term pada query terdapat pada dokumen,
dokumen tersebut dinilai relevan jika informasi yang dikehendaki untuk diketahui
dari query terdapat pada dokumen tersebut. Sedangkan,
proses query database hanyalah mencari dokumen-dokumen yang
mengandung term-term pada queryyang di-input-kan.
Penilaian relevansi menimbulkan beberapa masalah. Masalah pertama yakni
terkadang muncul perbedaan penilaian relevan atau tidaknya suatu dokumen
terhadap query jika penilaian dilakukan oleh ebih dari satu
orang. Masalah kedua adalah banyaknya waktu yang dibutuhkan jika koleksi
dokumen yang digunakan dalam uji coba jumlahnya sangat banyak. Permasalahan
pembuatan relevansi set secara manual mendorong
dikembangkannya proses pembuatan relevansi setsecara otomatis.
Pembuatan relevansi
set secara otomatis dilakukan menggunakan teknik data
fusion dan metode condorcet. Teknik data
fusion bekerja dengan menggabungkan menjadi satu top-N dokumen
hasil pencarian oleh beberapa buah sistem terhadap suatu query.
Setelah dilakukan penggabungan, dilakukan pemberian rangking terhadap tiap
dokumen pada hasil penggabungan menggunakan metode condorcet.
Setelah rangking diberikan, dokumen-dokumen yang memiliki rank pada
sekian % dari total penggabungan dokumen ditetapkan sebagai relevan
set dokumen terhadap query atau dapat disebut
sebagai pseudo relevant documents (pseudorels).
Komentar
Posting Komentar