Fwd: Implementasi Distributed Computing : search.detik.com

12 views
Skip to first unread message

Mohamad Adriyanto

unread,
May 28, 2009, 4:56:53 AM5/28/09
to smkti
Info bagus nih...
Bisa kita implementasi dan dicoba.

Salam,
adriyanto


---------- Forwarded message ----------
From: andreas <andri....@gmail.com>
Date: 2009/5/27
Subject: [teknologia] Implementasi Distributed Computing : search.detik.com
To: teknologia <tekno...@googlegroups.com>



Sekedar sharing,
search.detik.com (bukan detiksearch.com) adalah search engine yang
digunakan untuk mesin pencarian news/artikel di detik.com.
Search.detik.com ini dibuat dengan menggunakan framework teknologi
distributed computing dan 100% Java Code yang 100% open source
http://wiki.apache.org/jakarta-lucene/PoweredBy). Fitur Search terdiri
dari :
1. Basic News/Article Search berdasarkan waktu terkini
2. Pencarian berdasarkan relevansi antar dokumen (mirip pageRank)
3. Pencarian berdasarkan kombinasi logika waktu dan relevansi
4. Pencarian berdasarkan range tanggal (dari tanggal... sampai dengan
tanggal...)
5. Pencarian berdasarkan lokasi berita
6. Pencarian berdasarkan waktu (hari ini, minggu ini, tahun ini,
pencarian dalam arsip)
7. Pencarian dalam hasil pencarian
Search engine yang menggunakan Lucene (http://lucene.apache.org/) dan
Nutch (http://lucene.apache.org/nutch/) sebagai engine utamanya
ditambah menggunakan hadoop (http://hadoop.apache.org/core/) sebagai
running engine (hadoop adalah implementasi teknologi distributed
computing yang dapat memproses data yang sangat besar secara paralel
dan terdistribusi).

Fitur lainnya yang bisa dilihat di halaman utama search.detik.com yang
juga menggunakan teknologi yang berbasis java n framework distributed
computing :
1. Berita Terpopuler adalah list berita yang paling banyak dibaca oleh
pembaca detik, dibuat dengan menggunakan hadoop dan pig script (http://
hadoop.apache.org/pig/ - script ini banyak digunakan di yahoo dan
menjadi platform bahasa untuk high level language and analysis program
dari very large data yang digunakan yahoo, seperti untuk yahoosearch
dan yahoomail)
2. 10 Topik paling dicari adalah list kata-kata yang paling banyak
dicari di search.detik.com, dibuat dengan menggunakan hadoop dan pig
script.
3. 10 Topik paling populer adalah list kata-kata yang paling banyak
terdapat di dalam artikel berita detik, dibuat dengan menggunakan
hadoop dan hbase (http://hadoop.apache.org/hbase/ - hadoop distributed
database yang dibuat seperti Google BigTable ->
http://labs.google.com/papers/bigtable.html).

Search.detik.com ini berjalan pada 2 cluster dengan menggunakan 9
komputer (beberapa komputer yang digunakan mempunyai spesifikasi
sekelas nyaris hanya seperti PC biasa).
Masih banyak yang akan dikembangkan didalam search engine ini, yang
tentunya tetap menggunakan teknologi yang berbasiskan distributed
computing dan pastinya tetap berbasis opensource.
Thanks.

-andreas

Reply all
Reply to author
Forward
0 new messages