Re-identification

10 views
Skip to first unread message

Avner Kantor

unread,
Jan 26, 2017, 12:39:05 PM1/26/17
to israel-r-user-group
אהלן,
 
כיצד אתם ממליצים לבצע התממה של תעודות זהות?

בתודה,

אבנר

Tal Galili

unread,
Jan 26, 2017, 12:41:12 PM1/26/17
to israel-r-...@googlegroups.com
סליחה על התמימות אבל מה זה התממה? (לבדוק שהת.ז תקף לפי מספר הביקורת?)



----------------Contact Details:-------------------------------------------------------
Contact me: Tal.G...@gmail.com
Read me: www.talgalili.com (Hebrew) | www.biostatistics.co.il (Hebrew) | www.r-statistics.com (English)
----------------------------------------------------------------------------------------------


--
You received this message because you are subscribed to the Google Groups "Israel R User Group" group.
To unsubscribe from this group and stop receiving emails from it, send an email to israel-r-user-group+unsub...@googlegroups.com.
For more options, visit https://groups.google.com/d/optout.

Avner Kantor

unread,
Jan 26, 2017, 12:46:03 PM1/26/17
to israel-r-user-group
התממה היא הפיכת מידע לבלתי ניתן לזיהוי/קישור לאנשים אבל כן ניתן לשימוש.
במקרה הזה מדובר בהצפנה חד כיוונית של תעודות הזהות באופן שיתן לכל אחד מהם מזהה אך שלא יהיה ניתן לדעת את תעודת הזהות האמיתית. המטרה כמובן לשמור על פרטיות ברמה הגבוהה ביותר.


To unsubscribe from this group and stop receiving emails from it, send an email to israel-r-user-group+unsubscribe...@googlegroups.com.

For more options, visit https://groups.google.com/d/optout.

amit gal

unread,
Jan 26, 2017, 1:28:14 PM1/26/17
to israel-r-...@googlegroups.com
השאלה היא מה אתה רוצה בדיוק לעשות. רוצה סתם להחליף באופן חד פעמי את מספרי הזיהוי במספרים אחרים יחודיים? זה עסק פשוט:

#create 1-1 mapping of true_id and anonimized_id
tmp = data.frame(true_id = sample(my_data$id),anonimized_id = 1:nrow(my_data)) 
# replace true id with anonimized id
my_data$id = tmp$anonimized_id[match(my_data$id,tmp$true_id)]
# now remove the mapping. the reverse mapping cannot be traced back now:
rm(tmp)

זה יפתור את בעיית האנונימיזציה הנאיבית.

אם רוצים יותר מזה (נניח להיות מסוגלים להיות מסוגלים לאחד בעתיד מקורות מידע חדשים על סמך אותו מספר זהות אמיתי) צריך להגדיר יותר טוב מה הצרכים, האם מותר לשמור את המפתח ואיפה, אולי אפשר להשתמש בהאשינג פשוט, אולי לא.

אם רוצים אפילו יותר מזה, ולעשות אנונימיזציה מלאה (למשל לוודא שאין שום משתנה אחר שדרכו אפשר לאחזר את תעודת הזהות) - זו כבר תאוריה בפני עצמה ויש חבילה בR שמספקת פתרון סביר בהחלט.

השאלה היא, כאמור, בראש ובראשונה, מה הצרכים.



Avner Kantor

unread,
Jan 26, 2017, 1:37:58 PM1/26/17
to israel-r-user-group
תודה. אני אכן מחפש פתרון פחות נאיבי. אני לא מעוניין לשמור את המפתח. האשינג פשוט נראה כמו הדרך. מאחר וזה נושא שחדש לי
אשמח לקישור לחבילה המדוברת ואם יש לך לינק להסבר תיאורטי כיצד לעשות זאת זה בכלל יהיה נפלא.

amit gal

unread,
Jan 26, 2017, 1:40:39 PM1/26/17
to israel-r-...@googlegroups.com
האשינג עלול להיות פתרון מסוכן כי הוא לא 1-1 :)
צריך להגדיר צרכים.

To unsubscribe from this group and stop receiving emails from it, send an email to israel-r-user-group+unsub...@googlegroups.com.

amit gal

unread,
Jan 26, 2017, 1:49:44 PM1/26/17
to israel-r-...@googlegroups.com
בכל מקרה, חבילת האנונימיזציה עליה דיברתי נקראת sdcMicro והיא נועדה בעיקר לוודא שאין צירופי משתנים שמאפיינים במדוייק מספר קטן של רשומות באופן שיאפשר reverse engineering  של זהות הרשומות.

יש תמיכה בכמה וכמה פונקציות סטנדרטיות להאשינג דוגמת md5 וכו'. אפשר להסתכל על חבילת digest. כאמור, להשתמש בהאשינג בזהירות בהתאם להגדרה ברורה של צרכים, אחרת עלולות להגיע צרות צרורות אחר כך.


Avner Kantor

unread,
Jan 26, 2017, 1:53:33 PM1/26/17
to israel-r-user-group
מעולה. digest זה מה שמצאתי ו-sdcMicro יעזור לי לבדוק את עצמי.

לצערי הצרכים - מעבר לאנונימיזציה - לא ברורים כרגע ולכן ניסיתי להבין איזה אפשרויות עומדות בפניי.

To unsubscribe from this group and stop receiving emails from it, send an email to israel-r-user-group+unsub...@googlegroups.com.
Reply all
Reply to author
Forward
0 new messages