ts-sastrawi
v1.0.1
Published
ts-sastrawi is a ts package for doing stemming in Indonesian language. It is based from Sastrawi for PHP by Andy Librian.
Downloads
5
Readme
ts-sastrawi
ts-sastrawi is a typescript package for doing stemming in Indonesian language. It is based from Sastrawi for PHP by Andy Librian.
ts-sastrawi adalah package javascript untuk melakukan stemming pada bahasa Indonesiaxs. Dikembangkan dari Sastrawi untuk PHP yang dibuat oleh Andy Librian.
Stemming
Dari Wikipedia, stemming adalah proses untuk mengubah kata berimbuhan menjadi kata dasar. Contohnya :
- menahan => tahan
- pewarna => warna
Contoh Penggunaan
Penggunaan yang paling sederhana adalah dengan menggunakan kamus kata dasar default yang telah disediakan :
import {defaultDictionary, Stemmer} from "ts-sastrawi";
const dictionary = defaultDictionary();
const stemmer = new Stemmer(dictionary);
console.log(stemmer.stem("menyukai")); // suka
Selain menggunakan kamus kata dasar default, user juga dapat membuat kamus kata dasar sendiri :
import {Dictionary, Stemmer, tokenize} from "ts-sastrawi";
const dictionaryCustom = new Dictionary(["aku", "ingin", "tahu"]);
dictionaryCustom.add("gaul");
console.log(dictionaryCustom.count()); // 4
const stemmer = new Stemmer(dictionaryCustom);
const sentence = "aku ingin mengetahui";
const tokenizeWord = tokenize(sentence);
tokenizeWord.forEach((word) => {
console.log(`${word} => ${stemmer.stem(word)}`); // aku ingin tahu
});
Pustaka
Algoritma
- Algoritma Nazief dan Adriani
- Asian J. 2007. Effective Techniques for Indonesian Text Retrieval. PhD thesis School of Computer Science and Information Technology RMIT University Australia. (PDF dan Amazon)
- Arifin, A.Z., I.P.A.K. Mahendra dan H.T. Ciptaningtyas. 2009. Enhanced Confix Stripping Stemmer and Ants Algorithm for Classifying News Document in Indonesian Language, Proceeding of International Conference on Information & Communication Technology and Systems (ICTS). (PDF)
- A. D. Tahitoe, D. Purwitasari. 2010. Implementasi Modifikasi Enhanced Confix Stripping Stemmer Untuk Bahasa Indonesia dengan Metode Corpus Based Stemming, Institut Teknologi Sepuluh Nopember (ITS) – Surabaya, 60111, Indonesia. (PDF)
- Tambahan aturan stemming dari kontributor Sastrawi.
Kamus Kata Dasar
Proses stemming oleh Sastrawi sangat bergantung pada kamus kata dasar. Sastrawi menggunakan kamus kata dasar dari kateglo.com dengan sedikit perubahan.
Lisensi
Sebagaimana Sastrawi untuk PHP, js-astrawi juga disebarkan dengan lisensi MIT. Untuk lisensi kamus kata dasar dari Kateglo adalah CC-BY-NC-SA 3.0.
Di Bahasa Pemrograman Lain
- Sastrawi - PHP
- JSastrawi - Java
- cSastrawi - C
- PySastrawi - Python
- Sastrawi-Ruby - Ruby
- Go-Sastrawi - Go