האם המדגם שלי גדול מספיק?

130 views
Skip to first unread message

amit gal

unread,
Jan 6, 2014, 9:51:01 AM1/6/14
to israel-r-...@googlegroups.com
אוקיי - שאלת סטטיסטיקה בסיסית יחסית (לא בהכרח R), מקווה שלא תכעסו.

יש לי מדגם. לא בהכרח אקראי כמו שאנחנו אוהבים. לאוכלוסיית המדגם מדדתי מספר פרמטרים. אני רוצה לדעת האם המדגם שלי "מספיק טוב" כדי להסיק ממנו על האוכלוסיה. זה כמובן תלוי בשאלה מה אני רוצה לבדוק, באיך הגודל שרוצים לבדוק מתפלג באוכלוסיה שממנה נלקח המדגם. ובעיקר בשאלה כמה המדגם שלי "מייצג". כיוון שלא יודעים מראש מה ההתפלגות באוכלוסיה אפשר, למיטב הבנתי לנקוט בלפחות שתי דרכים:
1. להניח הנחות, בד"כ פרמטריות, על ההתפלגות בכלל האוכלוסיה. זה מאפשר חישובי רווח סמך, מובהקות וכו', על סמך גודל המדגם (בהנחה שהוא אקראי), וגם מאפשר  באמצעות מבחני חי בריבוע או מבחנים ספציפיים לכל התפלגות לבדוק האם המדגם מייצג מספיק את ההתפלגות שאנחנו מניחים (כלומר אם סביר שהמדידות שערכנו היו מתקבלות במדגם אקראי מתוך אוכלוסיה שמקיימת את ההנחות שלנו). בקיצור, תחת הנחות פרמטריות אפשר גם לקבל הערכה לכמ הדגימה טובה, ומה גודל המדגם הדרוש כדי לסיק מסקנות טובות
2. לא להניח הנחות פרמטריות, אבל להשתמש בבוטסטרפ, כדי לעשות פחות או יותר את מה שנעש בסעיף 1 באופן לא פרמטרי.

האם יש שיטות נוספות שמטפלות בשאלה של "כמה המדגם שלי טוב?"

שאלת הרקע לדיון הנ"ל היא כזו: יש אוכלוסייה גדולה אבל סופית (כמה מיליונים טובים). מסיבות טכניות אי אפשר למדוד את כולה אלא רק חלק קטן ממנה. ובגלל עוד בעיות טכניות, המדגם לא תמיד יוצא מייצג/אקראי (תחשבו על זה שכשדגים 100 דגים בים זה לא מדגם אקראי של דגים, אלא רק של דגים שהיו בסביבת מקום המדידה, ואין אפשרות מעשית למדוד בכל מקום, למרות שסביר להניח שיש דגים כמעט בכל מקום בים). באופן מצחיק הסטטיסטיקה מדברת ומתייחסת בד"כ לגודל האבסולוטי של המדגם. אבל במקרה הספציפי שלי השאלה היא גודל יחסי של המדגם, כלומר כמה אחוזים מהאוכלוסיה צריך לדגום כדי לקבל תשובות טובות. אני לא מכיר התייחסויות סטטיסטיות לגודל היחסי של המדגם (בעיקר בגלל שבסטטיסטיקה ה"אוכלוסיה" שמנסים להסיק בנוגע אליה היא חסרת גודל מוגדר. למשל כשעושים מחקר על בני אדם לא עוסקים באוכלוסיית אנשים שחיים כרגע, אלא מנסים להכליל לכל האנשים שהיו, ישנם ויהיו בעתיד - שזה כמובן אוכלוסיה ללא גודל מוגדר).

תובנות? הפניות? מחשבות?

תודה מראש,
עמית

iris vaisman

unread,
Jan 6, 2014, 9:53:54 AM1/6/14
to israel-r-...@googlegroups.com
הי עמית,
השאלה הזו נשמעת כאילו היא לקוחה מאחד הפרקים בתזה שלי:)



2014/1/6 amit gal <amit...@gmail.com>

--
You received this message because you are subscribed to the Google Groups "Israel R User Group" group.
To unsubscribe from this group and stop receiving emails from it, send an email to israel-r-user-g...@googlegroups.com.
For more options, visit https://groups.google.com/groups/opt_out.



--
Iris Vaisman 

Tal Galili

unread,
Jan 6, 2014, 9:59:33 AM1/6/14
to israel-r-...@googlegroups.com
שלום עמית,

ממה שכתבת אני מזהה שלוש שאלות פוטנציאליות:
1) "האם המדגם שיש לנו מייצג את האוכלוסיה?", על זה אני לא רואה ממש דרך לענות. אני לא מכיר שיטה שיודעת לומר האם מדגם נתון שיש לנו הגיע באופן אקראי מהאוכלוסיה הכללית או לא.
2) "האם ההנחות שיש לנו לגבי האוכלוסיה הן סבירות, בהינתן המדגם שיש לנו?" - זו שאלה שיש הרבה דרכים לענות עליה, וזה תלוי באיזה הנחות אתה מניח על האוכלוסיה ועל המדגם. לדוגמא, אם אתה מניח שהמשתנה שלך מתפלג נורמאלי באוכלוסיה, ושהמדגם שלך הוא דגימה אקראית, אפשר כמובן לבדוק האם המדגם שלנו נראה כמו מדגם שהגיע מהתפלגות (לדוגמא, מבחן שאפירו)
3) "האם שיטת המידול שלנו מסוגלת להסתדר עם הנתונים שלנ?". לדוגמא, האם אנחנו מסוגלים לבנות מודל שנותן תחזית טובה לתצפית עתידית. פה, ותחת שלל הנחות, אפשר להשתמש בשיטות כמו cross validation או bootstrap, כדי לנסות לענות על השאלות הללו.

האם בתיאור שלי פיספסתי שאלה אחרת שבעצם שאלת?
ואם לא - אילו מבין השאלות הכי מתארת את מה שאתה שואל לגביו?

בברכה,
טל





----------------Contact Details:-------------------------------------------------------
Contact me: Tal.G...@gmail.com
Read me: www.talgalili.com (Hebrew) | www.biostatistics.co.il (Hebrew) | www.r-statistics.com (English)
----------------------------------------------------------------------------------------------



2014/1/6 amit gal <amit...@gmail.com>

amit gal

unread,
Jan 6, 2014, 1:09:28 PM1/6/14
to israel-r-...@googlegroups.com
אז אני מניח שיש לך תובנות בעניין? אני אשמח לשמוע ולקרוא.


2014/1/6 iris vaisman <irish....@gmail.com>

amit gal

unread,
Jan 6, 2014, 1:27:59 PM1/6/14
to israel-r-...@googlegroups.com
טל - בגדול אני מתעניין בשאלה 1 שלך. שאלה 2 היא שאלה פשוטה בדרך, ברגע שכבר הנחת את ההנחות. בד"כ כדי לענות על שאלות מהסוג של 1, עושים הנחות כלשהן. כלומר שאלה 2 היא פתרון אפשרי לשאלה 1. את שאלה 3 שלך לא הבנתי עד הסוף, אבל על פניו היא נראית לי לא רלוונטית למה שאני מחפש.

אגב, יש שיטות סטטיסטיות שעוסקות בשאלות שמדגדגות את שאלה 1. נניח אתה מעונין לספור את מספר מיני הדגים בים. ולקחת מדגם של 1000 דגים ומצאת שביניהם יש 23 מינים שונים - אז יש דרכים להעריך את מספר המינים הכולל, למרות שבוודאות גדולה לא דגמת דגים מכל המינים.
יותר קרוב למה שמעניין אותי, אני יכול לנסות לחשוב על כמה גישות. למשל, אם המדגם שלי מספיק גדול (אבסולוטית), אפשר לחלק אותו לשניים באופן אקראי ולראות האם ההתפלגות של החלק ראשון דומה להתפלגות של החלק השני. במדגם אקראי מתוך אוכלוסיה - סביר שזה יקרה. במדגם לא אקראי - לא בטוח (אלא אם כן, הדגימה הלא אקראית דוגמת באופן אקראי תת-אוכלוסיה הומוגנית של האוכלוסיה כולה). אפשר ורצוי כמובן לחזור על זה כמה פעמים עם חלוקות שונות. זה בדיוק מה שהתכוונתי אליו בשיטות מבוססות בוטסטרפ.

בקיצור, אני יכול לחשוב על גישות אינטיליגנטיות לשאלה שמעניינת אותי, אבל לפני שאני מפעיל את האינטיליגנציה שלי, אני מעדיף לדעת אם סטטיסטיקאים רציניים וחכמים ממני חשבו על כך כבר, ואם יש דרכים סטנדרטיות להתמודד עם השאלה הזו. אני לא אוהב להמציא גלגלים שכבר הומצאו, ולפחות בנושאי סטטיסטיקה, כיוון שהכשרתי בתחום איננה סיסטמתית, אני עלול לפספס דברים שהם בבחינת קומון פרקטיס שכולם יודעים (חוץ ממני).
 


2014/1/6 Tal Galili <tal.g...@gmail.com>

Jonathan Rosenblatt

unread,
Jan 6, 2014, 3:12:53 PM1/6/14
to israel-r-user-group
אני חושב שזו שאלה קשה. אנסה לשרבט את דעתי בעניין.
א- אני לא חושב שהנתונים יוכלו אי פעם להעיד האם הם מייצגים. הרי אותם נתונים יכולים להיות מייצגים עבור אוכלוסייה אחת ולא מייצגים עבור אוכלוסייה אחרת (תחת כל פרשנות של המושג ״מייצגים״). 
ב- התיאוריה הסטטיסטית לא נעצרת במדגם מקרי פשוט. אם אתה מסוגל לנסח את התפלגות הדגימה, הרי שתוכל להפעיל שיטות נראות וכנראה שגם יהיו להן תכונות טובות (עקיבות, נורמליות, חוסר הטייה אסיפטוטי, ואולי אף יותר מזה). 
ג- אם יש לך הרבה תצפיות עבור מספר לא גדול של פרמטרים(*), הרי שחוקי המספרים הגדולים ייכנסו לפעולה ותוכל להתייחס לאומד שלך כאל נטול שונות תחת כמעט תהליך אמידה עם תלויות דואכות (ארגודי).
ד- בשביל לקבל אינטואיציה על ההבדל בין דגימה באוכלוסיה סופית או אינסופית, אתה יכול לחשוב על האומד להסתברות להצלחה בדגימה עם החזרה (בינומית) או בלי החזרה (היפרגאומטרית). השוואת השונות של האומדים יכול לתת לך מושג על כמה הנחת אי-התלות היא שמרנית ביחס לשונות האמיתית.

אני אשים את זה כאן.

יונתן


(*) זו האינטואיציה באופן גס. אכן צריך לוודא שלמרות שפע התצפיות, אין פרמטרים שנאמדים אפקטיבית על ידי מספר קטן שלהן.




2014/1/6 amit gal <amit...@gmail.com>



--
Jonathan Rosenblatt
www.john-ros.com

Reply all
Reply to author
Forward
0 new messages