Data cleansing seperti kasus redundansi data ini memang banyak
tantangannya Pak. Jarang sekali yang melibatkan satu proses.
Kedua algoritma yang Bapak sebutkan tadi lebih cocok ke arah data
entri yang salah ketik beberapa karakter.
Tetapi untuk kasus "singkatan", itu sudah jauh lebih sulit. Ini
seperti kasus Pak Mifta... Tidak ada yang salah ketik. Tapi satu entri
lebih lengkap dibanding entri lainnya.
Kalau untuk kasus Bapak, saya sarankan seperti ini :
- Pecah row menjadi beberapa berdasarkan delimiter , atau spasi ( tokenize ).
- Lookup ke table yang telah di-tokenize tadi, jika ada token yang
mirip tapi I'd tidak sama maka "suspect".
- Suspect table diperiksa untuk finalisasi.
Untuk subset sisanya lakukan diagonal join dan scan dengan kedua
algoritma tadi untuk membantu mencari salah entri karakter.
Mudah2an cukup bisa "menjebak" banyak data kotor Pak.
Dan saya sangat setuju dengan Pak Philips, database "typo" lebih
berguna dibandingkan algoritma similarity dalam praktek cleansing
data.
Semoga bermanfaat...
Regards,
Feris
> --
> Anda menerima pesan ini karena Anda telah terdaftar di Google
> Groups "Pentaho User Group - Indonesia".
> Untuk mengirim pesan ke grup ini, kirimkan email ke
> penta...@googlegroups.com
> Untuk berhenti mendapatkan email dari grup ini,silahkan kirim email ke
> pentaho-id+...@googlegroups.com
> Untuk opsi lainnya, silahkan kunjungi
> http://groups.google.com/group/pentaho-id?hl=id.
> Untuk artikel teknis Pentaho dari PHI-Integration.com, silahkan kunjungi
> http://pentaho.phi-integration.com.
> Milis terkait : http://groups.google.com/group/indo-bi
>
--
Sent from my mobile device
Thanks & Best Regards,
Feris Thia
Business Intelligence Consultant
PT. Putera Handal Indotama
Phone : +6221-30119353
Fax : +6221-5513483
Mobile : +628176-474-525
http://www.phi-integration.com
http://pentaho.phi-integration.com
http://sqlserver-tips.phi-integration.com