Menghilangkan Duplikasi Data dengan Spoon

Noer barrihadianto

unread,

Oct 20, 2010, 12:53:26 PM10/20/10

to penta...@googlegroups.com

Dear Pak Feris

Saya baru menggunakan pentaho, dan ingin tanya2 hal yg mendasarkan mengenai spoon, ada 1 table yg ingin di dilakukan transformation output ke table lain namun duplikasi data otomatis langsung bisa cleansing, properti apa di spoon yang digunakan untuk masalah ini.

Mohon dibantu
Terima kasih byk sebelumnya

--
Barry
http://pondokjagung1.com
http://grb.pondokjagung1.com
http://noerbarry.wordpress.com
http://barry.pondokjagung1.com
http://noerbarry.blogspot.com

Feris Thia

unread,

Oct 20, 2010, 6:44:06 PM10/20/10

to penta...@googlegroups.com

Dear Pak Barry,

2010/10/20 Noer barrihadianto <noer...@gmail.com>

Dear Pak Feris

Apa kabarnya ? Semoga baik dan sehat selalu ya.

Saya baru menggunakan pentaho, dan ingin tanya2 hal yg mendasarkan mengenai spoon, ada 1 table yg ingin di dilakukan transformation output ke table lain namun duplikasi data otomatis langsung bisa cleansing, properti apa di spoon yang digunakan untuk masalah ini.

Senang mendengar Pak Barry sudah mulai mengaplikasikan Pentaho. Untuk cleansing kasus seperti ini sebenarnya banyak caranya Pak, apalagi di Kettle versi 4.0 ke atas.

Duplikasi data ini maksudnya persis sama nilai nya satu sama lain atau mirip Pak ? Kalau persis nilainya maka bisa menggunakan Insert / Update step saja Pak. Atau cara lainnya untuk kasus yang persis mirip adalah melakukan step sort and match / lookup.

Yang agak susah adalah kalau mirip ! Artinya ada perbedaan 1, 2 atau beberapa karakter dan posisinya juga berbeda.

Untuk yang hal ini .... ada satu yang tidak terhindari Pak yaitu melakukan cross join table itu terhadap tablenya sendiri. Misalkan field yang dicek adalah nama spare part dan jumlah record adalah n. Maka kita akan mendapatkan n x n record untuk diperiksa. Kelihatan sangat tidak efisien tapi hasilnya sangat baik Pak, sudah banyak dilakukan oleh salah satu client kami.

Algoritma Levenstein Distance adalah salah satu cara untuk cleansing tersebut, bisa coba lihat artikel saya disini : http://pentaho.phi-integration.com/kettle/levenshtein-distance.

Untuk solusi lainnya adalah menggunakan Fuzzy Match (versi 4). Berikut saya sertakan contoh ktr dan screenshotnya. Untuk hasil nilai yang kemiripannya kurang, misalkan kita tetapkan kemiripan 70% (0.7) maka hasil yang terlihat tinggal difilter saja.

Mohon dibantu
Terima kasih byk sebelumnya

Sama-sama Pak. Semoga bisa banyak membantu.. :)

--
Barry

--
Thanks & Best Regards,

Feris Thia
Business Intelligence Consultant
PT. Putera Handal Indotama
Phone : +6221-30119353
Fax : +6221-5513483
Mobile : +628176-474-525
http://www.phi-integration.com
http://pentaho.phi-integration.com
http://sqlserver-tips.phi-integration.com

Data Grid Step.png

Data Grid Step 2.png

Fuzzy Match.png

Fuzzy Match Result.png

Fuzzy Match 2.png

fuzzy_check.ktr

Noer barrihadianto

unread,

Oct 20, 2010, 10:15:21 PM10/20/10

to penta...@googlegroups.com

Alhamdulillah Baik Pak, Amin, Pak Feris pencerahan yg di jelaskan membuat saya makin tertarik menggunakan spoon, artinya metode perbandingan data, double entry untuk karakter yg mirip, filtering perbedaan 1 atau 2 karakter bisa terselesaikan dengan rapih dan berkualitas dengan Algoritma Levenstein Distance maupun Fuzzy Match. next kalau ada masalah lagi mohon dibantu ya pak karena saya bener2 baru untuk penggunaan spoon.

Sukses Buat Pak Feris

Terima kasih Banyak

Barry

2010/10/21 Feris Thia <fe...@phi-integration.com>

--
Anda menerima pesan ini karena Anda telah terdaftar di Google
Groups "Pentaho User Group - Indonesia".
Untuk mengirim pesan ke grup ini, kirimkan email ke penta...@googlegroups.com
Untuk berhenti mendapatkan email dari grup ini,silahkan kirim email ke
pentaho-id+...@googlegroups.com
Untuk opsi lainnya, silahkan kunjungi http://groups.google.com/group/pentaho-id?hl=id.
Untuk artikel teknis Pentaho dari PHI-Integration.com, silahkan kunjungi http://pentaho.phi-integration.com.
Milis terkait : http://groups.google.com/group/indo-bi

--
Thanks,

Feris Thia

unread,

Oct 21, 2010, 7:31:41 PM10/21/10

to penta...@googlegroups.com

Hi Pak Barry,

2010/10/21 Noer barrihadianto <noer...@gmail.com>

Alhamdulillah Baik Pak, Amin, Pak Feris pencerahan yg di jelaskan membuat saya makin tertarik menggunakan spoon, artinya metode perbandingan data, double entry untuk karakter yg mirip, filtering perbedaan 1 atau 2 karakter bisa terselesaikan dengan rapih dan berkualitas dengan Algoritma Levenstein Distance maupun Fuzzy Match.

Senang mendengarnya Pak. Semoga penerapannya benar-benar menolong dalam meningkatkan kualitas data.

Kalau ada waktu akan saya coba menambahkan artikel untuk kasus cleansing yang paling banyak terjadi ini :)

next kalau ada masalah lagi mohon dibantu ya pak karena saya bener2 baru untuk penggunaan spoon.

Silahkan Pak, rekan-rekan komunitas PUG ini menurut saya salah satu yang tidak pelit walaupun sudah jago... tetap bersedia saling sharing :)

Sukses Buat Pak Feris

Terima kasih banyak Pak ! Sukses juga buat Pak Barry dan rekan-rekan disini !

Terima kasih Banyak

Sama-sama Pak Barry !

Barry

Susila Andika

unread,

Mar 21, 2012, 11:45:39 AM3/21/12

to penta...@googlegroups.com

saya boleh mnta fuzzy_check.ktr sama step2nya ga?? sama punya masalah yg sama tpi saya ga bisa download step2 sama fuzzy_check.ktr nya,, :D

Pada Kamis, 21 Oktober 2010 5.44.06 UTC+7, Feris Thia menulis:

Dear Pak Barry,

Reply all

Reply to author

Forward