Silahkan dicoba prototype search engine bahasa Indonesia

Made Wiryana

unread,

Nov 7, 2007, 6:04:49 AM11/7/07

to tekno...@googlegroups.com

Meneruskan pesan mahasiswa bimbingan saya (Putu Wuri Handayani), saat ini
kami sedang mengembangkan search engine yang mencoba paham bahasa
Indonesia, sehingga bisa membedakan "beruang" dan "beruang" dan bisa
membantu pencarian misal bila dilakukan pencarian "Presiden" maka
diberikan bantuan untuk mempermudah pencarian sesuai konteks bahasa
Indonesia.

Tentu saja karena ini baru langkah awal jadi masih banyak kekurangan.
Search engine ini memanfaatkan metoda menghasilkan tag yang terkait
secara otomatis (bukan seperti di blog yg diketikkan tag dari artikel
tersebut).

Untuk prototype bisa dicoba (dan tentu saja ditunggu komentar), di

http://cmsdev.jardiknas.org/TagGenerator/

Untuk pengembangan ini kami ucapkan terima kasih kepada Dr. Putu Laxman
Pendit (UI - RMIT), Dr. Wayan Arka (ANU), Prof. Sulistyo Basuki (UI), atas
saran-sarannya, serta kepada Dr. Andi Mallarangeng yang telah mengizinkan
penggunaan teks di situs Presiden. Juga kepada Dr. Gatot HP, dan Dr. Abe
Susanto yang telah mengizinkan penggunaan server jardiknas.org

Thanks

IMW

muhammad panji

unread,

Nov 7, 2007, 6:09:28 AM11/7/07

to tekno...@googlegroups.com

belum kelihatan perbedaannya dimana, mungkin bisa pakai teks yang
lebih banyak pak. berita mungkin. ada google versi indonesia nih dalam
waktu dekat. search engine lokal berprospek tidak ya di indonesia?
rgds,

--
Panji
http://sumodirjo.blogspot.com

Ismail Fahmi

unread,

Nov 7, 2007, 6:26:28 AM11/7/07

to tekno...@googlegroups.com

Thanks infonya. Menarik.
Saya selalu senang melihat upaya pengembangan NLP buat bahasa Indonesia. Semoga prototipe ini nantinya berkembang terus.

Mau tanya dikit, untuk mendapatkan semantic type (misal binatang) dari keyword (misal beruang) itu menggunakan (thesaurus/ontology) apa? Kalau bahasa Inggris kan ada WordNet, dan di eropa ada EuroWordNet. Apakah ada semacam IndoWordNet?

Tadinya saya kira menggunakan co-occurrence atau similarity measure. Tapi ketika saya ketik "binatang beruang" tidak ada hitnya. Jadi pikir semantic tag/type 'binatang' ini muncul dari sebuah ontology/thesaurus.

Nuhun sebelumnyak..

ismail

University of Groningen, The Netherlands
Phone:
  Dept: +31 50 363 5942
  Library: +31 50 363 2661
  HP: 0649326202
  http://urd.let.rug.nl/fahmi (research)
  http://ismailfahmi.org (blog)
  http://lyrics.mylnm.com (toys)

Made Wiryana

unread,

Nov 7, 2007, 6:44:22 AM11/7/07

to tekno...@googlegroups.com

On 11/7/07, Ismail Fahmi <ismail...@gmail.com> wrote:

> Mau tanya dikit, untuk mendapatkan semantic type (misal binatang) dari
> keyword (misal beruang) itu menggunakan (thesaurus/ontology) apa? Kalau
> bahasa Inggris kan ada WordNet, dan di eropa ada EuroWordNet. Apakah ada
> semacam IndoWordNet?
>
> Tadinya saya kira menggunakan co-occurrence atau similarity measure. Tapi
> ketika saya ketik "binatang beruang" tidak ada hitnya. Jadi pikir semantic
> tag/type 'binatang' ini muncul dari sebuah ontology/thesaurus.

Prinsipnya kita manfaatin dictionarry dan semacam topic map. Kalau
kebetulan ada kata yang belum ketemu karena memang dictionary yang
kita bangun (dan topic map) nya terbatas. Maklum hanya 1 orang
mahasiswi yang coding, entri dictionary dsb.

Binatang beruang tidak muncul karena memang dari teks yang ada tidak
ada yg mengandung kata tersebut :-)

Karena keterbatasan tenaga dan sumber daya, saya pakai teks yang ada
di situs Presiden SBY. Juga faktor domain dan konteks bahasa Indonesia
yang luas, jadi ndak berani terlalu lebar.

IMW

Made Wiryana

unread,

Nov 7, 2007, 7:02:06 AM11/7/07

to tekno...@googlegroups.com

On 11/7/07, muhammad panji <sumo...@gmail.com> wrote:
>
> lebih banyak pak. berita mungkin. ada google versi indonesia nih dalam
> waktu dekat. search engine lokal berprospek tidak ya di indonesia?
> rgds,
>

Search engine ini akan mencoba melalkukan content analysis dari teks
tersebut. Silahkan dicoba dengan kata kunci yang disajikan di halaman
utama.

Sebetulnya 2 hal yang ingin dcobakan pada prototype ini

- Penggunaan content analysis
- Penggunaan tag utk memudahkan pencarian

IMW

Ismail Fahmi

unread,

Nov 7, 2007, 7:22:27 AM11/7/07

to tekno...@googlegroups.com

Sebetulnya 2 hal yang ingin dcobakan pada prototype ini

- Penggunaan content analysis
- Penggunaan tag utk memudahkan pencarian

Apakah yd dimaksud dg feature ini adalah semacam faceted search?

Jika benar, itu bagus sekali. Dan memang teknik penyajian hasil pencarian dengan facet kini jadi trend. Beberapa contoh bisa dilihat di sini:

http://clusty.com (komersial) --> sebuah software perpustakaan digital di eropa akan menerapkan teknologi ini

http://simile.mit.edu/exhibit/ (free)

http://evans.ub.rug.nl/swhi/ (proyek semantic web kecil-kecilan saya)

IMW

--
Ismail Fahmi
Information Science & University Library

Made Wiryana

unread,

Nov 7, 2007, 7:50:11 AM11/7/07

to tekno...@googlegroups.com

On 11/7/07, Ismail Fahmi <ismail...@gmail.com> wrote:
>

> > Sebetulnya 2 hal yang ingin dcobakan pada prototype ini
> >
> > - Penggunaan content analysis
> > - Penggunaan tag utk memudahkan pencarian
>
> Apakah yd dimaksud dg feature ini adalah semacam faceted search?
>
> Jika benar, itu bagus sekali. Dan memang teknik penyajian hasil pencarian
> dengan facet kini jadi trend. Beberapa contoh bisa dilihat di sini:

Ya mirip mirip seperti itu, tetapi kita menekankan utk dokumen
berbahasa Indoneisa (dg grammar dan context bhs Indonesia).

> http://clusty.com (komersial) --> sebuah software perpustakaan digital di
> eropa akan menerapkan teknologi ini

Ini hampir mirip "Vivisimo", hanya di search engine yg dikembangkan
memanfaatkan topic yang memang berkaitan. Di thesis dari mahasiswi
tersebut ditulis problem yg ada dari cluty atau vivisimo ketika
menghadapi bhs Indonesia.

> http://simile.mit.edu/exhibit/ (free)
>
> http://evans.ub.rug.nl/swhi/ (proyek semantic web kecil-kecilan saya)
>

Saya kurang tahu kalo di swhi ini "dokumennya" sudah diannotate ala
semantic atau biasa. Kalau yg kita pakai asumsi adalah unstructure
information (tujuannya bukan hanya dokumen seperti webpage dsb, tapi
misal utk correlasi text chatting dsb...)

Pencarian pakai teks dari web itu cuma karena ada datanya itu dulu hehehehe

IMW

Ismail Fahmi

unread,

Nov 7, 2007, 8:08:40 AM11/7/07

to tekno...@googlegroups.com

On 07/11/2007, Made Wiryana <mwir...@gmail.com> wrote:

Ini hampir mirip "Vivisimo", hanya di search engine yg dikembangkan
memanfaatkan topic yang memang berkaitan. Di thesis dari mahasiswi
tersebut ditulis problem yg ada dari cluty atau vivisimo ketika
menghadapi bhs Indonesia.

Menarik.. semoga kelak prototipe ini jadi clustynya Indonesia :-)

Amiiin..

> http://simile.mit.edu/exhibit/ (free)
>
> http://evans.ub.rug.nl/swhi/ (proyek semantic web kecil-kecilan saya)
>

Saya kurang tahu kalo di swhi ini "dokumennya" sudah diannotate ala
semantic atau biasa. Kalau yg kita pakai asumsi adalah unstructure
information (tujuannya bukan hanya dokumen seperti webpage dsb, tapi
misal utk correlasi text chatting dsb...)

Di SWHi ada 2 tahap:

* structured data diolah jadi ontology (format RDF), sehingga antar konsep ada relasinya. Dengan tools spt Sesame ( openrdf.org), kita bisa bikin semantic query.

Versi yang sudah running itu menggunakan beberapa query yg sudah dibakukan, misal dalam mode pencarian "person", algoritma akan:

"mencari orang yang paling terkenal (dalam hal jumlah artikel, jumlah orang yagn dia kenal, dan jumlah orang yang mengenal dia) untuk keyword yg dimasukkan."

* tahap kedua, unstructured data diextract informasi yg ada didalamnya (spt nama orang, lokasi, organisasi, tahun, dan terminologi/konsep), lalu dimasukkan ke ontology di atas. Ontology bisa diquery dg cara spt di atas. Tahap ini baru tahun depan dikerjain (kl dah kelar tesisnya :-))

Struktur knowledgenya (ontology) saya menggunakan PROTON (http://proton.semanticweb.org/) yg dimodiikasi untuk domain history.

Pencarian pakai teks dari web itu cuma karena ada datanya itu dulu hehehehe

Saya punya corpus dari Republika Online hingga tahun 2005. Total tar.gz nya cuma 17MB. DIsitu ada domain ekonomi, politik, dll. Dulu juga sempat download Kompas. Semua masih diarsipin, belum sempat dioprek.

Cuma mamang kalau mau dipublish perlu ijin ybs :-(

Kalau butuh dictionary bhasa Indonesia yg sudah ada part-of-speech tags nya, saya juga punya. Dulu sempat ngedownlod KEBI (kamus elektronik bikinan BPPT). Sudah dapat ijin kalau mau pake.

Jika berminat sila kontak saya.

Sukses..

IMW

Made Wiryana

unread,

Nov 7, 2007, 8:21:06 AM11/7/07

to tekno...@googlegroups.com

On 11/7/07, Ismail Fahmi <ismail...@gmail.com> wrote:
>
>

> Menarik.. semoga kelak prototipe ini jadi clustynya Indonesia :-)
> Amiiin..

Waduh ndak berani ngimpi yg tinggi-tinggi :-), sebab PR.nya masih banyak sekali

> Di SWHi ada 2 tahap:
>

> Struktur knowledgenya (ontology) saya menggunakan PROTON
> (http://proton.semanticweb.org/) yg dimodiikasi untuk domain history.

Thanks infonya. Tapi ada beberapa hal yang membuat agak sulit
diterapkan dengan menganotasikan model ontology tersebut.

> Saya punya corpus dari Republika Online hingga tahun 2005. Total tar.gz nya
> cuma 17MB. DIsitu ada domain ekonomi, politik, dll. Dulu juga sempat
> download Kompas. Semua masih diarsipin, belum sempat dioprek.

Permasalahan dg corpus seperti "Republikas Online" dsb konteksnya
terlalu besar. Jadi takut kompleksitas malah tidak terkejar.

Saya fokus ke "bahasa resmi" misal release pemerintah, peraturan, UU
dsb. Mungkin kalau dikawinkan dg model ontology dari dokumen
peraturan, bisa memudahkan pencarian aturan terkait dsb. (he he masih
jauh lah utk ini)

>
> Kalau butuh dictionary bhasa Indonesia yg sudah ada part-of-speech tags nya,
> saya juga punya. Dulu sempat ngedownlod KEBI (kamus elektronik bikinan
> BPPT). Sudah dapat ijin kalau mau pake.

Saya pernah kontak BPPT tapi koq beliau lupa ngirim, padahal udah iya.
Kalau memang ada bisa juga saya copy dulu, nanti saya tanya ke BPPT
lagi.

IMW

Ismail Fahmi

unread,

Nov 7, 2007, 8:44:20 AM11/7/07

to tekno...@googlegroups.com

Thanks infonya. Tapi ada beberapa hal yang membuat agak sulit
diterapkan dengan menganotasikan model ontology tersebut.

Benar. Tergantung sama tujuannya.

Seperti Vivisimo, tanpa ontology juga sudah bisa, jika goalnya untuk memudahkan pencarian.

Kalau ingin mendapatkan relasi yg lebih dalam lagi antar konsep, ontology adalah jawabannya.

> Saya punya corpus dari Republika Online hingga tahun 2005. Total tar.gz nya
> cuma 17MB. DIsitu ada domain ekonomi, politik, dll. Dulu juga sempat
> download Kompas. Semua masih diarsipin, belum sempat dioprek.

Permasalahan dg corpus seperti "Republikas Online" dsb konteksnya
terlalu besar. Jadi takut kompleksitas malah tidak terkejar.

Saya fokus ke "bahasa resmi" misal release pemerintah, peraturan, UU
dsb. Mungkin kalau dikawinkan dg model ontology dari dokumen
peraturan, bisa memudahkan pencarian aturan terkait dsb. (he he masih
jauh lah utk ini)

Saya kira tadi kompleksitasnya dalam hal domain knowledge (spt ekonomi, politik, dll). Tapi yg dimaksud adalah struktur grammarnya ya?

Btw, apakah teksnya diparsing atau ditagging dulu? Apa POS tagger yg saat ini paling yahud untuk bhasa Indonesia? Terus untuk syntactic parser (untuk dapetin subjek, object, head..) apakah sudah ada untuk bhs Indonesia.

Saya baru rencana aja untuk ngoprek bhs Indonesia. Baru ngumpulin bahannya dulu.

So, saya sangat menghargai info2 lebih lanjut ttg teknologi yg sudah ada.

>
> Kalau butuh dictionary bhasa Indonesia yg sudah ada part-of-speech tags nya,
> saya juga punya. Dulu sempat ngedownlod KEBI (kamus elektronik bikinan
> BPPT). Sudah dapat ijin kalau mau pake.

Saya pernah kontak BPPT tapi koq beliau lupa ngirim, padahal udah iya.
Kalau memang ada bisa juga saya copy dulu, nanti saya tanya ke BPPT
lagi.

Yg saya punya masih mentahnya. Download langsugn versi HTML dari web KEBI:

http://urd.let.rug.nl/fahmi/kebi.html.tar.gz

Harta karun ini belum sempat saya olah. REncananya tinggal diparsing pake perl untuk dapetin datanya.

IF

IMW

Made Wiryana

unread,

Nov 7, 2007, 9:20:45 AM11/7/07

to tekno...@googlegroups.com

On 11/7/07, Ismail Fahmi <ismail...@gmail.com> wrote:
>

> > Saya fokus ke "bahasa resmi" misal release pemerintah, peraturan, UU
> > dsb. Mungkin kalau dikawinkan dg model ontology dari dokumen
> > peraturan, bisa memudahkan pencarian aturan terkait dsb. (he he masih
> > jauh lah utk ini)
>
>
> Saya kira tadi kompleksitasnya dalam hal domain knowledge (spt ekonomi,
> politik, dll). Tapi yg dimaksud adalah struktur grammarnya ya?

Struktur grammar yang digunakan, context, (orang bahasa bilang diksi).
Coba saja perhatikan bagaimana variatifnya bahasa yang ada di koran
(detik.com misalnya hehehe).

Kalau mau agak luas masih rada-rada ngeri :-) takut semangat besar
tenaga kurang.

> Btw, apakah teksnya diparsing atau ditagging dulu? Apa POS tagger yg saat
> ini paling yahud untuk bhasa Indonesia? Terus untuk syntactic parser (untuk
> dapetin subjek, object, head..) apakah sudah ada untuk bhs Indonesia.

Kira-kira seperti itulah yg kita bangun. Kita ngeparsing dan
sesuaikan dg grammar bahasa Indonesia. Utk ditailnya nanti saya
kirimin tulisan mahasiswi tersebut setelah selesai disbumit, maklum
sekarnag dia masih stress coding dan pengujiannya.

Utk stemming dsb masih belum kita terapkan jadi kita bangun dalam
model plug-in aja nanti kalau mau dimanfaatkan.

> Saya baru rencana aja untuk ngoprek bhs Indonesia. Baru ngumpulin bahannya
> dulu.
>
> So, saya sangat menghargai info2 lebih lanjut ttg teknologi yg sudah ada.
>

Kebetulan saya koleksi materi ttg bahasa Indonesia (bli Wayan Arka di
Australia sangat membantu dalam hal ini). Kita bisa sharing hehehe
koleksi thesis, journal, dll ttg komputer linguistik utk bahasa
Indonesia.

Sebetulnya sekarang saya juga tertarik membangun corpus parallel dari
modal pekerjaan penerjemahan GUI, karena relatif domainnya terbatas,
jadi masih "do-able" (he he he saya ndak berani yg terlalu tinggi,
takut ndak bisa dikerjakan). Tapi tunggu dulu ah, lha ini kerjaan
sampingan

Thanks KEBI-nya akan saya manfaatin.

Oh ya utk pembuatan prototype ini kami pakai UIMA, Lucence, Mysql, tomcat dsb..

IMW

Ismail Fahmi

unread,

Nov 7, 2007, 9:37:42 AM11/7/07

to tekno...@googlegroups.com

Kebetulan saya koleksi materi ttg bahasa Indonesia (bli Wayan Arka di
Australia sangat membantu dalam hal ini). Kita bisa sharing hehehe
koleksi thesis, journal, dll ttg komputer linguistik utk bahasa
Indonesia.

Sepertinya saya pernah ketemu beliau, sekitar tahun 2003, waktu naik Garuda (dulu masih bangga naik GA dari Schippol ke Jkt). Sempat ngobrol juga ttg preservasi bahasa, mengingat banyaknya bahasa kita yg sudah punah. Waktu itu saya masih di digital library. Pertanyaan waktu itu: apakah bisa DL mengelola spesies yang paling terancam ini.

Dan.. nafsu besar, tenaga kurang.. saya ndak sempat melanjutkan.

Sip, insyaAllah tahun depan saya mulai ngerjain bhasa Indonesia. Keep contact aja ya..

Sebetulnya sekarang saya juga tertarik membangun corpus parallel dari
modal pekerjaan penerjemahan GUI, karena relatif domainnya terbatas,
jadi masih "do-able" (he he he saya ndak berani yg terlalu tinggi,
takut ndak bisa dikerjakan). Tapi tunggu dulu ah, lha ini kerjaan
sampingan

Moga terlaksana..

Thanks KEBI-nya akan saya manfaatin.

Sama-sama..

Oh ya utk pembuatan prototype ini kami pakai UIMA, Lucence, Mysql, tomcat dsb..

Thanks infonya. Khususnya UIMA. Saya baru tahu ini. Selama ini saya menggunakan GATE (http://gate.ac.uk/) yg banyak dipakai di lingkungan computational linguistics. Nafsu besarnya, ntar pingin memasukkan plugin untuk bahasa Indonesia ke situ.

Untuk SWHi, dulu saya pake Lucene, dan sekarang pindah ke anak keturunannya: si SOLR. Yg saya suka, kita bisa query tags/facets dengan mudah di SOLR, karena salah satunya emang didesain untuk faceted search.

IF

Made Wiryana

unread,

Nov 7, 2007, 10:48:56 AM11/7/07

to tekno...@googlegroups.com

On 11/7/07, Ismail Fahmi <ismail...@gmail.com> wrote:
>

> Sepertinya saya pernah ketemu beliau, sekitar tahun 2003, waktu naik Garuda
> (dulu masih bangga naik GA dari Schippol ke Jkt). Sempat ngobrol juga ttg
> preservasi bahasa, mengingat banyaknya bahasa kita yg sudah punah. Waktu itu
> saya masih di digital library. Pertanyaan waktu itu: apakah bisa DL
> mengelola spesies yang paling terancam ini.
>

Bli Arka masih di Canberra (ANU) dan ingin memulai semacam kerja sama
utk bidang ini, antar peneliti. Utk bahasa terancam, yang menarik utk
Indonesia, walau termasuk bahasa local yg banyak, tapi nilai
"kepunahannya" rendah (saya lupa ada riset ttg ini, dan ada info
onlinenya).

Bahasa Indonesia memang masih jarang di"sentuh" oleh riset hehe he
Mungkin kurang gaya jadi sedikit yg tertarik.,

> Sip, insyaAllah tahun depan saya mulai ngerjain bhasa Indonesia. Keep
> contact aja ya..

Siplah kita kontak kontkan, kebetulan kakak saya (Dr. I Wayan SW)
menggeluti bidang Semantic (dg P2P) dan kita memulai semacam working
group di Gunadarma.

> Thanks infonya. Khususnya UIMA. Saya baru tahu ini. Selama ini saya
> menggunakan GATE (http://gate.ac.uk/) yg banyak dipakai di lingkungan
> computational linguistics. Nafsu besarnya, ntar pingin memasukkan plugin
> untuk bahasa Indonesia ke situ.

Saya pakai UIMA ini karena relatif simple pemrogramannya dan
dokumentasinya lumayan lengkap. Dan tentu saja free :-)

>
> Untuk SWHi, dulu saya pake Lucene, dan sekarang pindah ke anak keturunannya:
> si SOLR. Yg saya suka, kita bisa query tags/facets dengan mudah di SOLR,
> karena salah satunya emang didesain untuk faceted search.
>