Senang mendengar Pak Barry sudah mulai mengaplikasikan Pentaho. Untuk cleansing kasus seperti ini sebenarnya banyak caranya Pak, apalagi di Kettle versi 4.0 ke atas.
Duplikasi data ini maksudnya persis sama nilai nya satu sama lain atau mirip Pak ? Kalau persis nilainya maka bisa menggunakan Insert / Update step saja Pak. Atau cara lainnya untuk kasus yang persis mirip adalah melakukan step sort and match / lookup.
Yang agak susah adalah kalau mirip ! Artinya ada perbedaan 1, 2 atau beberapa karakter dan posisinya juga berbeda.
Untuk yang hal ini .... ada satu yang tidak terhindari Pak yaitu melakukan cross join table itu terhadap tablenya sendiri. Misalkan field yang dicek adalah nama spare part dan jumlah record adalah n. Maka kita akan mendapatkan n x n record untuk diperiksa. Kelihatan sangat tidak efisien tapi hasilnya sangat baik Pak, sudah banyak dilakukan oleh salah satu client kami.
Untuk solusi lainnya adalah menggunakan Fuzzy Match (versi 4). Berikut saya sertakan contoh ktr dan screenshotnya. Untuk hasil nilai yang kemiripannya kurang, misalkan kita tetapkan kemiripan 70% (0.7) maka hasil yang terlihat tinggal difilter saja.