אוקיי - שאלת סטטיסטיקה בסיסית יחסית (לא בהכרח R), מקווה שלא תכעסו.
יש לי מדגם. לא בהכרח אקראי כמו שאנחנו אוהבים. לאוכלוסיית המדגם מדדתי מספר פרמטרים. אני רוצה לדעת האם המדגם שלי "מספיק טוב" כדי להסיק ממנו על האוכלוסיה. זה כמובן תלוי בשאלה מה אני רוצה לבדוק, באיך הגודל שרוצים לבדוק מתפלג באוכלוסיה שממנה נלקח המדגם. ובעיקר בשאלה כמה המדגם שלי "מייצג". כיוון שלא יודעים מראש מה ההתפלגות באוכלוסיה אפשר, למיטב הבנתי לנקוט בלפחות שתי דרכים:
1. להניח הנחות, בד"כ פרמטריות, על ההתפלגות בכלל האוכלוסיה. זה מאפשר חישובי רווח סמך, מובהקות וכו', על סמך גודל המדגם (בהנחה שהוא אקראי), וגם מאפשר באמצעות מבחני חי בריבוע או מבחנים ספציפיים לכל התפלגות לבדוק האם המדגם מייצג מספיק את ההתפלגות שאנחנו מניחים (כלומר אם סביר שהמדידות שערכנו היו מתקבלות במדגם אקראי מתוך אוכלוסיה שמקיימת את ההנחות שלנו). בקיצור, תחת הנחות פרמטריות אפשר גם לקבל הערכה לכמ הדגימה טובה, ומה גודל המדגם הדרוש כדי לסיק מסקנות טובות
2. לא להניח הנחות פרמטריות, אבל להשתמש בבוטסטרפ, כדי לעשות פחות או יותר את מה שנעש בסעיף 1 באופן לא פרמטרי.
האם יש שיטות נוספות שמטפלות בשאלה של "כמה המדגם שלי טוב?"
שאלת הרקע לדיון הנ"ל היא כזו: יש אוכלוסייה גדולה אבל סופית (כמה מיליונים טובים). מסיבות טכניות אי אפשר למדוד את כולה אלא רק חלק קטן ממנה. ובגלל עוד בעיות טכניות, המדגם לא תמיד יוצא מייצג/אקראי (תחשבו על זה שכשדגים 100 דגים בים זה לא מדגם אקראי של דגים, אלא רק של דגים שהיו בסביבת מקום המדידה, ואין אפשרות מעשית למדוד בכל מקום, למרות שסביר להניח שיש דגים כמעט בכל מקום בים). באופן מצחיק הסטטיסטיקה מדברת ומתייחסת בד"כ לגודל האבסולוטי של המדגם. אבל במקרה הספציפי שלי השאלה היא גודל יחסי של המדגם, כלומר כמה אחוזים מהאוכלוסיה צריך לדגום כדי לקבל תשובות טובות. אני לא מכיר התייחסויות סטטיסטיות לגודל היחסי של המדגם (בעיקר בגלל שבסטטיסטיקה ה"אוכלוסיה" שמנסים להסיק בנוגע אליה היא חסרת גודל מוגדר. למשל כשעושים מחקר על בני אדם לא עוסקים באוכלוסיית אנשים שחיים כרגע, אלא מנסים להכליל לכל האנשים שהיו, ישנם ויהיו בעתיד - שזה כמובן אוכלוסיה ללא גודל מוגדר).
תובנות? הפניות? מחשבות?
תודה מראש,
עמית