Tentu saja karena ini baru langkah awal jadi masih banyak kekurangan.
Search engine ini memanfaatkan metoda menghasilkan tag yang terkait
secara otomatis (bukan seperti di blog yg diketikkan tag dari artikel
tersebut).
Untuk prototype bisa dicoba (dan tentu saja ditunggu komentar), di
http://cmsdev.jardiknas.org/TagGenerator/
Untuk pengembangan ini kami ucapkan terima kasih kepada Dr. Putu Laxman
Pendit (UI - RMIT), Dr. Wayan Arka (ANU), Prof. Sulistyo Basuki (UI), atas
saran-sarannya, serta kepada Dr. Andi Mallarangeng yang telah mengizinkan
penggunaan teks di situs Presiden. Juga kepada Dr. Gatot HP, dan Dr. Abe
Susanto yang telah mengizinkan penggunaan server jardiknas.org
Thanks
IMW
--
Panji
http://sumodirjo.blogspot.com
University of Groningen, The Netherlands
Phone:
Dept: +31 50 363 5942
Library: +31 50 363 2661
HP: 0649326202
http://urd.let.rug.nl/fahmi (research)
http://ismailfahmi.org (blog)
http://lyrics.mylnm.com (toys)
> Mau tanya dikit, untuk mendapatkan semantic type (misal binatang) dari
> keyword (misal beruang) itu menggunakan (thesaurus/ontology) apa? Kalau
> bahasa Inggris kan ada WordNet, dan di eropa ada EuroWordNet. Apakah ada
> semacam IndoWordNet?
>
> Tadinya saya kira menggunakan co-occurrence atau similarity measure. Tapi
> ketika saya ketik "binatang beruang" tidak ada hitnya. Jadi pikir semantic
> tag/type 'binatang' ini muncul dari sebuah ontology/thesaurus.
Prinsipnya kita manfaatin dictionarry dan semacam topic map. Kalau
kebetulan ada kata yang belum ketemu karena memang dictionary yang
kita bangun (dan topic map) nya terbatas. Maklum hanya 1 orang
mahasiswi yang coding, entri dictionary dsb.
Binatang beruang tidak muncul karena memang dari teks yang ada tidak
ada yg mengandung kata tersebut :-)
Karena keterbatasan tenaga dan sumber daya, saya pakai teks yang ada
di situs Presiden SBY. Juga faktor domain dan konteks bahasa Indonesia
yang luas, jadi ndak berani terlalu lebar.
IMW
Search engine ini akan mencoba melalkukan content analysis dari teks
tersebut. Silahkan dicoba dengan kata kunci yang disajikan di halaman
utama.
Sebetulnya 2 hal yang ingin dcobakan pada prototype ini
- Penggunaan content analysis
- Penggunaan tag utk memudahkan pencarian
IMW
Sebetulnya 2 hal yang ingin dcobakan pada prototype ini
- Penggunaan content analysis
- Penggunaan tag utk memudahkan pencarian
IMW
Ya mirip mirip seperti itu, tetapi kita menekankan utk dokumen
berbahasa Indoneisa (dg grammar dan context bhs Indonesia).
> http://clusty.com (komersial) --> sebuah software perpustakaan digital di
> eropa akan menerapkan teknologi ini
Ini hampir mirip "Vivisimo", hanya di search engine yg dikembangkan
memanfaatkan topic yang memang berkaitan. Di thesis dari mahasiswi
tersebut ditulis problem yg ada dari cluty atau vivisimo ketika
menghadapi bhs Indonesia.
> http://simile.mit.edu/exhibit/ (free)
>
> http://evans.ub.rug.nl/swhi/ (proyek semantic web kecil-kecilan saya)
>
Saya kurang tahu kalo di swhi ini "dokumennya" sudah diannotate ala
semantic atau biasa. Kalau yg kita pakai asumsi adalah unstructure
information (tujuannya bukan hanya dokumen seperti webpage dsb, tapi
misal utk correlasi text chatting dsb...)
Pencarian pakai teks dari web itu cuma karena ada datanya itu dulu hehehehe
IMW
Ini hampir mirip "Vivisimo", hanya di search engine yg dikembangkan
memanfaatkan topic yang memang berkaitan. Di thesis dari mahasiswi
tersebut ditulis problem yg ada dari cluty atau vivisimo ketika
menghadapi bhs Indonesia.
> http://simile.mit.edu/exhibit/ (free)
>
> http://evans.ub.rug.nl/swhi/ (proyek semantic web kecil-kecilan saya)
>
Saya kurang tahu kalo di swhi ini "dokumennya" sudah diannotate ala
semantic atau biasa. Kalau yg kita pakai asumsi adalah unstructure
information (tujuannya bukan hanya dokumen seperti webpage dsb, tapi
misal utk correlasi text chatting dsb...)
Pencarian pakai teks dari web itu cuma karena ada datanya itu dulu hehehehe
IMW
Waduh ndak berani ngimpi yg tinggi-tinggi :-), sebab PR.nya masih banyak sekali
> Di SWHi ada 2 tahap:
>
> Struktur knowledgenya (ontology) saya menggunakan PROTON
> (http://proton.semanticweb.org/) yg dimodiikasi untuk domain history.
Thanks infonya. Tapi ada beberapa hal yang membuat agak sulit
diterapkan dengan menganotasikan model ontology tersebut.
> Saya punya corpus dari Republika Online hingga tahun 2005. Total tar.gz nya
> cuma 17MB. DIsitu ada domain ekonomi, politik, dll. Dulu juga sempat
> download Kompas. Semua masih diarsipin, belum sempat dioprek.
Permasalahan dg corpus seperti "Republikas Online" dsb konteksnya
terlalu besar. Jadi takut kompleksitas malah tidak terkejar.
Saya fokus ke "bahasa resmi" misal release pemerintah, peraturan, UU
dsb. Mungkin kalau dikawinkan dg model ontology dari dokumen
peraturan, bisa memudahkan pencarian aturan terkait dsb. (he he masih
jauh lah utk ini)
>
> Kalau butuh dictionary bhasa Indonesia yg sudah ada part-of-speech tags nya,
> saya juga punya. Dulu sempat ngedownlod KEBI (kamus elektronik bikinan
> BPPT). Sudah dapat ijin kalau mau pake.
Saya pernah kontak BPPT tapi koq beliau lupa ngirim, padahal udah iya.
Kalau memang ada bisa juga saya copy dulu, nanti saya tanya ke BPPT
lagi.
IMW
Thanks infonya. Tapi ada beberapa hal yang membuat agak sulit
diterapkan dengan menganotasikan model ontology tersebut.
> Saya punya corpus dari Republika Online hingga tahun 2005. Total tar.gz nya
> cuma 17MB. DIsitu ada domain ekonomi, politik, dll. Dulu juga sempat
> download Kompas. Semua masih diarsipin, belum sempat dioprek.
Permasalahan dg corpus seperti "Republikas Online" dsb konteksnya
terlalu besar. Jadi takut kompleksitas malah tidak terkejar.
Saya fokus ke "bahasa resmi" misal release pemerintah, peraturan, UU
dsb. Mungkin kalau dikawinkan dg model ontology dari dokumen
peraturan, bisa memudahkan pencarian aturan terkait dsb. (he he masih
jauh lah utk ini)
>
> Kalau butuh dictionary bhasa Indonesia yg sudah ada part-of-speech tags nya,
> saya juga punya. Dulu sempat ngedownlod KEBI (kamus elektronik bikinan
> BPPT). Sudah dapat ijin kalau mau pake.
Saya pernah kontak BPPT tapi koq beliau lupa ngirim, padahal udah iya.
Kalau memang ada bisa juga saya copy dulu, nanti saya tanya ke BPPT
lagi.
IMW
Struktur grammar yang digunakan, context, (orang bahasa bilang diksi).
Coba saja perhatikan bagaimana variatifnya bahasa yang ada di koran
(detik.com misalnya hehehe).
Kalau mau agak luas masih rada-rada ngeri :-) takut semangat besar
tenaga kurang.
> Btw, apakah teksnya diparsing atau ditagging dulu? Apa POS tagger yg saat
> ini paling yahud untuk bhasa Indonesia? Terus untuk syntactic parser (untuk
> dapetin subjek, object, head..) apakah sudah ada untuk bhs Indonesia.
Kira-kira seperti itulah yg kita bangun. Kita ngeparsing dan
sesuaikan dg grammar bahasa Indonesia. Utk ditailnya nanti saya
kirimin tulisan mahasiswi tersebut setelah selesai disbumit, maklum
sekarnag dia masih stress coding dan pengujiannya.
Utk stemming dsb masih belum kita terapkan jadi kita bangun dalam
model plug-in aja nanti kalau mau dimanfaatkan.
> Saya baru rencana aja untuk ngoprek bhs Indonesia. Baru ngumpulin bahannya
> dulu.
>
> So, saya sangat menghargai info2 lebih lanjut ttg teknologi yg sudah ada.
>
Kebetulan saya koleksi materi ttg bahasa Indonesia (bli Wayan Arka di
Australia sangat membantu dalam hal ini). Kita bisa sharing hehehe
koleksi thesis, journal, dll ttg komputer linguistik utk bahasa
Indonesia.
Sebetulnya sekarang saya juga tertarik membangun corpus parallel dari
modal pekerjaan penerjemahan GUI, karena relatif domainnya terbatas,
jadi masih "do-able" (he he he saya ndak berani yg terlalu tinggi,
takut ndak bisa dikerjakan). Tapi tunggu dulu ah, lha ini kerjaan
sampingan
Thanks KEBI-nya akan saya manfaatin.
Oh ya utk pembuatan prototype ini kami pakai UIMA, Lucence, Mysql, tomcat dsb..
IMW
Kebetulan saya koleksi materi ttg bahasa Indonesia (bli Wayan Arka di
Australia sangat membantu dalam hal ini). Kita bisa sharing hehehe
koleksi thesis, journal, dll ttg komputer linguistik utk bahasa
Indonesia.
Sebetulnya sekarang saya juga tertarik membangun corpus parallel dari
modal pekerjaan penerjemahan GUI, karena relatif domainnya terbatas,
jadi masih "do-able" (he he he saya ndak berani yg terlalu tinggi,
takut ndak bisa dikerjakan). Tapi tunggu dulu ah, lha ini kerjaan
sampingan
Thanks KEBI-nya akan saya manfaatin.
Oh ya utk pembuatan prototype ini kami pakai UIMA, Lucence, Mysql, tomcat dsb..
Bli Arka masih di Canberra (ANU) dan ingin memulai semacam kerja sama
utk bidang ini, antar peneliti. Utk bahasa terancam, yang menarik utk
Indonesia, walau termasuk bahasa local yg banyak, tapi nilai
"kepunahannya" rendah (saya lupa ada riset ttg ini, dan ada info
onlinenya).
Bahasa Indonesia memang masih jarang di"sentuh" oleh riset hehe he
Mungkin kurang gaya jadi sedikit yg tertarik.,
> Sip, insyaAllah tahun depan saya mulai ngerjain bhasa Indonesia. Keep
> contact aja ya..
Siplah kita kontak kontkan, kebetulan kakak saya (Dr. I Wayan SW)
menggeluti bidang Semantic (dg P2P) dan kita memulai semacam working
group di Gunadarma.
> Thanks infonya. Khususnya UIMA. Saya baru tahu ini. Selama ini saya
> menggunakan GATE (http://gate.ac.uk/) yg banyak dipakai di lingkungan
> computational linguistics. Nafsu besarnya, ntar pingin memasukkan plugin
> untuk bahasa Indonesia ke situ.
Saya pakai UIMA ini karena relatif simple pemrogramannya dan
dokumentasinya lumayan lengkap. Dan tentu saja free :-)
>
> Untuk SWHi, dulu saya pake Lucene, dan sekarang pindah ke anak keturunannya:
> si SOLR. Yg saya suka, kita bisa query tags/facets dengan mudah di SOLR,
> karena salah satunya emang didesain untuk faceted search.
>
Saya coba juga lah siapa tahu bisa dimanfaatkan
IMW