שימוש ב-R כתחליף מסד נתונים

31 views
Skip to first unread message

ישי שניידר

unread,
Sep 25, 2016, 8:17:59 AM9/25/16
to Israel R User Group
שלום,

יש לי שתי טבלאות מסד נתונים שבכל אחת מהן רשימה של חומרים. אני רוצה לאחד את הטבלאות כאשר החומרים בעמודה אחת דומים (מבחינה טקסטואלית) לחומרים שבעמודה השניה.

הבעיות (והסיבה שאני לא עושה את זה במסד נתונים רגיל): 1. אין מפתח ראשי לאף אחת מרשימות החומרים. 2. באחת הטבלאות כל משתמש הכניס שמות חומרים בצורה שונה- לא היה טופס מוכן מראש, כך שהכל הוא "בערך".

חשבתי לנצל את הכח של R ולהשתמש בו כמסד נתונים. 

מה דעתכם ואיך לגשת לזה?

תודה!

Jonathan Rosenblatt

unread,
Sep 25, 2016, 8:21:33 AM9/25/16
to israel-r-user-group
seems that you have a record linkage problem on your hands. 
I guess that the RecordLinkage package is a good place to start, but I am sure that there are solutions to this problem implemented in any language. 
I would start by looking in the documentation of your DB. 

--
You received this message because you are subscribed to the Google Groups "Israel R User Group" group.
To unsubscribe from this group and stop receiving emails from it, send an email to israel-r-user-group+unsub...@googlegroups.com.
For more options, visit https://groups.google.com/d/optout.



--
--
Jonathan Rosenblatt
Dept. of Industrial Engineering and Management
Ben Gurion University of the Negev

Jonathan Rosenblatt

unread,
Sep 25, 2016, 8:23:49 AM9/25/16
to israel-r-user-group
Also try looking in Chapter 3 of MMDS.

2016-09-25 15:21 GMT+03:00 Jonathan Rosenblatt <joh...@bgu.ac.il>:
seems that you have a record linkage problem on your hands. 
I guess that the RecordLinkage package is a good place to start, but I am sure that there are solutions to this problem implemented in any language. 
I would start by looking in the documentation of your DB. 
2016-09-25 15:17 GMT+03:00 ישי שניידר <yishais...@gmail.com>:
שלום,

יש לי שתי טבלאות מסד נתונים שבכל אחת מהן רשימה של חומרים. אני רוצה לאחד את הטבלאות כאשר החומרים בעמודה אחת דומים (מבחינה טקסטואלית) לחומרים שבעמודה השניה.

הבעיות (והסיבה שאני לא עושה את זה במסד נתונים רגיל): 1. אין מפתח ראשי לאף אחת מרשימות החומרים. 2. באחת הטבלאות כל משתמש הכניס שמות חומרים בצורה שונה- לא היה טופס מוכן מראש, כך שהכל הוא "בערך".

חשבתי לנצל את הכח של R ולהשתמש בו כמסד נתונים. 

מה דעתכם ואיך לגשת לזה?

תודה!

--
You received this message because you are subscribed to the Google Groups "Israel R User Group" group.
To unsubscribe from this group and stop receiving emails from it, send an email to israel-r-user-group+unsubscribe...@googlegroups.com.

For more options, visit https://groups.google.com/d/optout.
--
--
Jonathan Rosenblatt
Dept. of Industrial Engineering and Management
Ben Gurion University of the Negev

ישי שניידר

unread,
Sep 25, 2016, 8:28:48 AM9/25/16
to Israel R User Group
Thannks, Jonathan. 
My problen is that there in no DB! I combine forms data from here and there and try fo create a coherent DB. Well, the main problem is that the data isn't encoded...

:)

Yishai

בתאריך יום ראשון, 25 בספטמבר 2016 בשעה 15:21:33 UTC+3, מאת Jonathan Rosenblatt:

Yoni Sidi

unread,
Oct 2, 2016, 4:45:18 PM10/2/16
to Israel R User Group
Can you attach small slices of your data from each table so we can see the problem?

יוני יצחק

unread,
Oct 25, 2016, 2:55:41 PM10/25/16
to Israel R User Group
הי

נסה להשתמש בכלים של ה Package stringdist . זה כלי מצויין לביצוע איחוד בין בסיסי נתונים על בסיס פונטי או טקסטואלי חלקי.

יוני יצחק


בתאריך יום ראשון, 25 בספטמבר 2016 בשעה 15:17:59 UTC+3, מאת ישי שניידר:
Reply all
Reply to author
Forward
0 new messages