algoritma trending topics twitter

54 views
Skip to first unread message

Syarif Hidayatullah

unread,
May 11, 2011, 12:04:31 AM5/11/11
to bengkel...@googlegroups.com
Salam,
ane mau tanya negh, langsung aja ya...
agan2 ada yang tau ndak yah... algoritma trending topics di twitter??

mohon pencerahan atau link refferensi. 

tnx b4

--
Regards,
Syarif Hidayatullah

ipank7

unread,
May 12, 2011, 12:14:43 PM5/12/11
to bengkel...@googlegroups.com
algoritma gzip ada yg tau jg?

Aryo Sanjaya

unread,
May 12, 2011, 5:11:56 AM5/12/11
to bengkel...@googlegroups.com


2011/5/11 Syarif Hidayatullah <syarif.hi...@gmail.com>

Salam,
ane mau tanya negh, langsung aja ya...
agan2 ada yang tau ndak yah... algoritma trending topics di twitter??

mohon pencerahan atau link refferensi. 

Kalo referensi saya tidak ada, tapi seandainya mau membuat yang seperti itu, kira-kira yang dibutuhkan adalah:

1. Mencatat setiap hashtag yang digunakan
2. Menghitung (harian atau tiap beberapa jam) hashtag dan diurutkan descending berdasarkan yang paling banyak dipergunakan.
3. 5 hashtag yang paling sering dipergunakan adalah trending topic.

Itu salah satu cara, dan mungkin masih ada cara lain.


--
Aryo Sanjaya
http://hi.im/aryo


Syarif Hidayatullah

unread,
May 15, 2011, 1:51:21 AM5/15/11
to bengkel...@googlegroups.com
hmmm..., kalo yang hashtag iyah...
kalo yang tanpa hash tag gmn yah?, kadang2 twitter suka munculin jg tuh...
misal... banyak yang ketik "arsenal menang" atau "hidup arsenal", atau "arsenal juara" (tanpa kutip) nah itu yang
jadi tt "arsenal"...

kalo misal dalam SATU WAKTU (kita asumsikan) mereka mensplit dengan karakter space,
kemudian mamasukkan masing2 kedalam tabel..., misal twit user:
user_1: horeee arsenal menang lagi di tempat lawan
user_2hidup arsenal!!!, di siarkan di rcti
user_3: di RCTI ada arsenal juara lagi di kandang lawan

maka... di table misal

words | total
di (5)
arsenal (3)
lawan (2)
rcti(2)
hidup (1)
dst... dst...


disini kita lihat bahwa yg mungkin jadi TT adalah kata "ARSENAL", 
dan kata "DI" walaupun jumlahnya  lebih dari "ARSENAL" tidak bisa dijadikan TT, 
karena merupakan kata yg umum (seperti 'yang', 'di', 'lagi', dst..dst...)
apa mungkin punya list database "KATA PENGHUBUNG" yah? kemudian di tabrakin
... ckckck... berapa bahasa negara itu...









2011/5/12 Aryo Sanjaya <ar...@aryosanjaya.net>


--
URL group: http://groups.google.com/group/bengkelprogram?hl=id
Untuk keluar dari grup ini, kirim email kosong ke bengkelprogra...@googlegroups.com
Website: http://www.bengkelprogram.com



--
Regards,
Syarif Hidayatullah

Aryo Sanjaya

unread,
May 15, 2011, 2:08:16 AM5/15/11
to bengkel...@googlegroups.com
Itu sengaja mengambil contoh yang hashtag, biar mudah :D  Kalo yang ngambil dari teks (istilahnya extraction), lebih kompleks prosesnya.

Yahoo menyediakan layanan untuk extraction ini yang bisa dimanfaatkan:
http://developer.yahoo.com/search/content/V1/termExtraction.html



2011/5/15 Syarif Hidayatullah <syarif.hi...@gmail.com>



--
Aryo Sanjaya
http://hi.im/aryo


Syarif Hidayatullah

unread,
May 15, 2011, 10:31:58 AM5/15/11
to bengkel...@googlegroups.com
yup, klo masalah extract dan nyemplungin ke dbase ane sudah bikin pake
'preg' sekaligus untuk filtering text char.

Dan masalahnya disini adalah pemilihan 'kata2/kalimat unik'..., sperti
apa algoritmanya, karna kalo ngandelin desc pada satu range waktu
(SELECT * FROM tbwords WHERE tgl=15 ORDER BY total DESC LIMIT 0,5)
bakal byk ke gaet 'kata2 penghubung', karena mmang bakal lbih banyak
dari kata2 unik.

bs gag yah tanpa tabel_kata_penghubung ?, soale bakal byk bgt ni...

On 5/15/11, Aryo Sanjaya <ar...@aryosanjaya.net> wrote:
> Itu sengaja mengambil contoh yang hashtag, biar mudah :D Kalo yang ngambil
> dari teks (istilahnya extraction), lebih kompleks prosesnya.
>
> Yahoo menyediakan layanan untuk extraction ini yang bisa dimanfaatkan:
> http://developer.yahoo.com/search/content/V1/termExtraction.html
>
>
>
> 2011/5/15 Syarif Hidayatullah <syarif.hi...@gmail.com>
>
>> hmmm..., kalo yang hashtag iyah...
>> kalo yang tanpa hash tag gmn yah?, kadang2 twitter suka munculin jg tuh...
>> misal... banyak yang ketik "arsenal menang" atau "hidup arsenal", atau
>> "arsenal juara" (tanpa kutip) nah itu yang
>> jadi tt "arsenal"...
>>
>> kalo misal dalam SATU WAKTU (kita asumsikan) mereka mensplit dengan
>> karakter space,
>> kemudian mamasukkan masing2 kedalam tabel..., misal twit user:

>> *user_1*: horeee *arsenal *menang lagi *di *tempat *lawan*
>> *user_2*: *hidup arsenal*!!!, *di *siarkan *di rcti*
>> *user_3*: *di RCTI* ada arsenal juara lagi *di *kandang *lawan*
>>
>> maka... di table misal
>>
>> *words | total*

Misael Jin Akira

unread,
Feb 1, 2015, 12:29:02 PM2/1/15
to bengkel...@googlegroups.com
klo bisa mysql dan php, coba pake source code ini.

http://pastebin.com/nsMwmfBD
Reply all
Reply to author
Forward
0 new messages