הבדל בין שונות מדגם & שונות אוכלוסייה

הסבר

בסטטיסטיקה המונח דגימה מתייחס לבחירה של חלק מנתונים סטטיסטיים מצטברים לצורך השגת מידע רלוונטי על הכלל. המידע המצטבר או המידע הסטטיסטי כולו על אופי מסוים של כל החברים המכוסים בחקירה נקרא 'אוכלוסייה' או 'היקום'. (Das, N. G., 2010). החלק הנבחר של האוכלוסייה אשר משמש כדי להשיג את המאפיינים של האוכלוסייה או היקום מוגדר "מדגם". האוכלוסייה נלקחת ליחידות או לחברים בודדים, וחלק מהיחידות נכללות במדגם. המספר הכולל של יחידות האוכלוסייה נקרא גודל האוכלוסייה, וזה של המדגם נקרא גודל המדגם. אוכלוסייה מדגם יכול להיות סופי או אינסופי, באופן דומה הם יכולים להיות קיימים או היפותטי.

- <->

שונות: שונות היא ערך מספרי המראה עד כמה הדמויות הפרטניות בקבוצת נתונים מפיצות את עצמן על הממוצע. זה כמה רחוק כל מספר הוא מן הממוצע, וכך אחד מהשני. שונות של ערך אפס פירושה שכל הנתונים זהים. יותר את השונות, יותר הם ערכים להתפשט על ממוצע, ומכאן אחד מהשני. פחות השונות, פחות הם ערכים להתפשט על הממוצע, ומכאן אחד מהשני, ואת השונות לא יכול להיות שלילי.

-> ->

הבדלים בין שונות אוכלוסיות לבין שונות מדגם

ההבדל העיקרי בין שונות האוכלוסייה לבין שונות המדגם מתייחס לחישוב השונות. השונות מחושבת בחמישה שלבים. האומדן הראשון מחושב, אזי אנו מחשבים את הסטיות מהממוצע, ושלישית החריגות הן ריבועיות, רביעית מסתיימות החריגות הריבועיות ובסופו של דבר הסכום מחולק במספר הפריטים שעבורם מחושבת השונות. לכן variance = Σ (xi-x -) / n. איפה xi = iith. מספר, x- = מתכוון ו- n = מספר פריטים ...

כעת, כאשר השונות צריכה להיות מחושבת מנתוני האוכלוסייה, n שווה למספר הפריטים. לפיכך, אם יש לחשב את השונות בלחץ הדם של כל 1000 בני האדם מנתונים על לחצי הדם של כל 1000 בני האדם, אז n = 1000. עם זאת, כאשר מחושבת השונות מדגמים 1 יש לנכות מ n לפני חלוקת סכום החריגות. כך בדוגמה לעיל אם הנתונים לדוגמה יש 100 פריטים, המכנה יהיה 100 - 1 = 99.

בשל כך, ערך השונות המחושב מנתוני המדגם גבוה מהערך שניתן היה לגלות באמצעות נתוני אוכלוסייה. ההיגיון בכך הוא לפצות את חוסר המידע שלנו על נתוני האוכלוסייה. אי אפשר למצוא שונות של גבהים בבני אדם, על חוסר המידע המוחלט שלנו לגבי גבהים של כל בני האדם החיים, לא לדבר על העתיד.גם אם ניקח דוגמה מתונה אחת, כמו נתוני אוכלוסין על גבהים של כל האנשים החיים בארה"ב, זה אפשרי מבחינה פיזית, אבל העלות והזמן הכרוכים בכך יביסו את מטרת החישוב. זו הסיבה שבגלל הנתונים הסטטיסטיים נלקחים מרבית המטרות הסטטיסטיות, וזה מלווה בחוסר מידע על רוב הנתונים. כדי לפצות על כך, ערך השונות וסטיית התקן, שהוא שורש הריבוע של השונות, גבוה יותר במקרה של נתוני המדגם מאשר שונות מנתוני האוכלוסייה.

זה פועל כמגן אוטומטי עבור האנליסטים ומקבלי ההחלטות. ההיגיון חל על החלטות על תקצוב הון, מימון אישי ועסקי, בניה, ניהול תנועה ותחומים רלוונטיים רבים. זה עוזר בעל עניין להיות בצד הבטוח בעת קבלת החלטה או מסקנות אחרות.

סיכום: שונות האוכלוסייה מתייחסת לערך השונות המשתנה מנתוני האוכלוסייה, ושונות המדגם היא השונות המחושבת מנתוני המדגם. בשל ערך זה של המכנה בנוסחה לשונות במקרה של נתוני המדגם הוא 'n-1', וזה 'n' לנתוני האוכלוסייה. כתוצאה מכך, הן השונות והן סטיית התקן הנגזרת מנתוני המדגם הן יותר מאלו שנמצאו בנתוני האוכלוסייה.

-> -