Tugas Kelompok nim 14.01.53.0013, 14,01,53,0014, 13,01,53,0045 Pengertian METODE STEEMMING

METODE STEEMMING
Teknik stemming adalah suatu teknik pencarian bentuk dasar dari suatu term. Yang dimaksud dengan term itu sendiri adalah tiap kata yang berada pada suatu dokumen teks. Stemming dilakukan pada saat pembuatan indeks dari suatu dokumen. Pembuatan indeks dilakukan karena suatu dokumen tidak dapat dikenali langsung oleh suatu sistem temu kembali informasi atau information retrieval (IR)system. Oleh karena itu, dokumen tersebut terlebih dahulu perlu dipetakan ke dalam suatu representasi dengan menggunakan teks yang berada di dalamnya. Teknik stemming diperlukan selain untuk memperkecil jumlah indeks yang berbeda dari suatu dokumen, juga untuk melakukan pengelompokan kata-kata lain yang memiliki kata dasar dan arti yang serupa namun memiliki bentuk atau form yang berbeda karena mendapatkan imbuhan yang berbeda.
Teknik stemming terdiri dari berbagai macam metode. Metode pertama yakni stemming dengan acuan tabel pemenggalan imbuhan. Proses stemming suatu term dengan metode ini dilakukan dengan cara menghilangkan imbuhan dari term tersebut sesuai dengan table acuan pemenggalan imbuhan yang digunakan. Metode kedua merupakan pengembangan dari metode pertama. Metode kedua ini selain menggunakan tabel acuan pemenggalan imbuhan, juga menggunakan suatu kamus kata dasar. Kamus kata dasar ini digunakan sebagai acuan hasil stemming saat proses pemenggalan imbuhan selesai dilakukan. Hasil dari proses stemming dengan metode ini harus ada pada kamus kata dasar, jika tidak maka term yang diinputkan dianggap sebagai bentuk dasar. Metode ketiga dinamakan metode stemmingberbasis corpus (koleksi dokumen) karena hasil stemming menggunakan metode ini dipengaruhi oleh koleksi dokumen yang digunakan dalam proses uji coba. Kelas stem yang terbentuk dipengaruhi oleh nilai statistik co-occurence dari tiap term pada kelas stem tersebut. Metode ini dikembangkan dari hipotesis awal bahwa dua buah term dengan bentuk dasar yang sama akan sering muncul pada koleksi dokumen yang digunakan pada ujicoba. Nilai keseringan muncul secara bersamaan inilah yang dihitung menggunakan statistik co-occurence.
Metode ketiga dilatarbelakangi dari masalah overstemming dan understemming. Inti dari masalah tersebut yakni kemungkinan hasil stemming yang dapat berjumlah lebih dari satu. Kemungkinan hasilstemming yang lebih dari satu ini diakibatkan oleh algoritma stemming yang digunakan. Teknik hard stemmingstemming dilakukan hingga seluruh imbuhan berhasil dihilangkan, tentunya akan memiliki hasilstemming yang berbeda denganteknik soft stemming, proses penghilangan imbuhan langsung dihentikan saat kata dasar dari term tersebut ditemukan. Selain itu, ambiguitas pada suatu bahasa juga dapat menyebakan hasil stemming memiliki kemungkinan berjumlah lebih dari satu.
Algoritma stemming kata pada Bahasa Indonesia dengan performa yang paling baik (memiliki jenis kesalahan stemming yang paling sedikit) adalah algoritma Enhanced Confix Stripping (ECS) Stemmer. Algoritma ECS Stemmer ini merupakan algoritma perbaikan dari algoritma Confix Stripping (CS) Stemmer. Perbaikan yang dilakukan oleh ECS Stemmer adalah perbaikan beberapa aturan pada table acuan pemenggalan imbuhan. Selain itu, algoritma ECS Stemmer juga menambahkan langkah pengembalian akhiran jika terjadi penghilangan akhiran yang seharusnya tidak dilakukan.
Meskipun terdapat peningkatan performa (peningkatan keberhasilan melakukan stemming kata), masih terdapat kesalahan stemming kata yang dilakukan oleh ECS Stemmer. Selain itu, algoritma ECS Stemmer juga tidak mengajukan perbaikan terhadap permasalahan overstemming dan understemming. Oleh sebab-sebab itulah dalam tugas akhir ini, dilakukan diajukan perbaikan terhadap algoritma ECS Stemmer. Selain perbaikan terhadap aturan pada tabel acuan pemenggalan imbuhan, juga dilakukan implementasi metode stemming berbasis corpus untuk melakukan penyelesaian terhadap problemoverstemming dan undertstemming.
Evaluasi hasil stemming dilakukan secara manual dengan melakukanpengamatan secara langsung terhadap hasil stemming. Untuk menilai apakah hasil stemming yang dilakukan benar atau salah, digunakan Kamus Besar Bahasa Indonesia (KBBI). KBBI berbeda dengan kamus kata dasar yang digunakan sebagai acuan proses stemming. Pada KBBI, setiap kata yang terdapat di dalamnya tidak hanya berupa kata dasar. Selain kata dasar, pada KBBI juga disertakan berbagai variasi bentuk kata dasar tersebut dengan berbagai macam imbuhan.
Selain melakukan evaluasi terhadap hasil stemming, juga dilakukan evaluasi terhadap sistem IR. Sistem IR yang digunakan di dalam uji coba adalah suatu sistem pencarian dokumen berdasarkan inputquery dari user. Evaluasi dilakukan terhadap nilai efektifitas system IR yang menggunakan algoritma ECS Stemmer sebelum dan sesudah perbaikan. Untuk melakukan proses evaluasi sistem IR dibutuhkan beberapa buah set. Dokumen set yang berisi dokumen-dokumen yang akan digunakan dalam uji coba.Query set yang berisi daftar query yang akan digunakan dalam proses pencarian dokumen. Serta yang terakhir yakni relevan set dokumen terhadap query yang berisi daftar dokumen-dokumen yang dinilai relevan untuk tiap query pada query set. Pembuatan relevan set membutuhkan penilaian secara manual oleh manusia untuk menilai apakah suatu dokumen mengandung informasi yang dibutuhkan sesuai input query yang dimasukkan. Hal inilah yang membedakan query informasi dengan query database. Padaquery informasi, selain term pada query terdapat pada dokumen, dokumen tersebut dinilai relevan jika informasi yang dikehendaki untuk diketahui dari query terdapat pada dokumen tersebut. Sedangkan, proses query database hanyalah mencari dokumen-dokumen yang mengandung term-term pada queryyang di-input-kan. Penilaian relevansi menimbulkan beberapa masalah. Masalah pertama yakni terkadang muncul perbedaan penilaian relevan atau tidaknya suatu dokumen terhadap query jika penilaian dilakukan oleh ebih dari satu orang. Masalah kedua adalah banyaknya waktu yang dibutuhkan jika koleksi dokumen yang digunakan dalam uji coba jumlahnya sangat banyak. Permasalahan pembuatan relevansi set secara manual mendorong dikembangkannya proses pembuatan relevansi setsecara otomatis.
Pembuatan relevansi set secara otomatis dilakukan menggunakan teknik data fusion dan metode condorcet. Teknik data fusion bekerja dengan menggabungkan menjadi satu top-N dokumen hasil pencarian oleh beberapa buah sistem terhadap suatu query. Setelah dilakukan penggabungan, dilakukan pemberian rangking terhadap tiap dokumen pada hasil penggabungan menggunakan metode condorcet. Setelah rangking diberikan, dokumen-dokumen yang memiliki rank pada sekian % dari total penggabungan dokumen ditetapkan sebagai relevan set dokumen terhadap query atau dapat disebut sebagai pseudo relevant documents (pseudorels).


Komentar

Postingan populer dari blog ini

Akses Token (14.01.53.0013 . 14.01.53.0014 . 14.01.53.0045)

wisata di bantul