گستردگی (Spread)، انحراف مطلق (Absolute Deviation)، واریانس (Variance) و انحراف استانداد (Standard Deviation)

گستردگی، انحراف مطلق، واریانس و انحراف استانداد

گستردگی (Spread)

معرفی

اندازه گیری گستردگی (Spread)، که گاهی به آن معیار پراکندگی نیز گفته می شود، برای توصیف تنوع (variability) در یک نمونه یا جمعیت استفاده می شود. معمولاً همراه با معیاری از گرایش به مرکز، مانند میانگین (mean) یا میانه (median)، برای ارائه یک توصیف کلی از مجموعه ای از داده ها استفاده می شود.

چرا اندازه گیری گستردگی داده ها مهم است؟

دلایل زیادی وجود دارد که چرا اندازه گیری پراکندگی مقادیر داده مهم است، اما یکی از دلایل اصلی، ارتباط آن با معیارهای گرایش مرکزی است. مثلاً اندازه گیری گستردگی به ما نشان می دهد که میانگین به چه اندازه داده ها را توصیف می کند. اگر گستردگی مقادیر در مجموعه داده زیاد باشد، میانگین آنقدر معرف داده ها نخواد بود. زیرا گستردگی بالا نشان می دهد که تفاوت های زیادی بین مقدار داده ها وجود دارد. علاوه بر این، اغلب در تحقیقات، اگر پراکندگی و تفاوت کمی در هر گروه داده وجود داشته باشد، مثبت تلقی می شود زیرا نشان می دهد که داده ها تقریبا مشابه هستند.

دامنه (Range)

محدوده و یا دامنه (Range)، تفاوت بین بالاترین و کمترین مقدار در یک مجموعه داده است و ساده ترین روش برای اندازه گیری گستردگی است. بنابراین ما دامنه را به صورت زیر محاسبه می کنیم:

کمترین مقدار – بیشترین مقدار = دامنه

به عنوان مثال، مجموعه داده های زیر را در نظر بگیرید:

23، 56، 45، 65، 59، 55، 62، 54، 85، 25

حداکثر مقدار 85 و حداقل مقدار 23 است. 85 منهای 23 منجر به یک دامنه 62 می شود. استفاده از دامنه به عنوان معیار گستردگی محدود است، با این حال مرزهای مقادیر را تعیین می کند. اگر متغیری را اندازه گیری می کنید که دارای آستانه بحرانی پایین یا بالا (یا هر دو) است، تعیین دامنه می تواند مفید باشد چون مقدار داده ها نباید از این مرزها عبور کند. علاوه بر این، دامنه می تواند برای تشخیص هر گونه خطا در هنگام وارد کردن داده استفاده شود. به عنوان مثال، اگر سن دانش آموزان مدرسه ای را در مطالعه خود ثبت کرده اید و دامنه سنی شما بین 7 تا 123 سال است، می توانید بفهمید که اشتباه کرده اید!

چارک (Quartiles) و دامنه بین چارکی (Interquartile Range)

چارک با تقسیم کردن مجموعه داده به 4 بدست می آید. درواقع میانه نصف می شود. به عنوان مثال، نمرات 100 دانش آموز زیر را در نظر بگیرید که از پایین ترین تا بالاترین مقدار مرتب شده اند و چارک ها برجسته شده اند.

7 7.4 7.4 7.6 7.8 7.8 7.8 7.8 7.8 8
8 8 8 8 8 8.2 8.2 8.4 8.4 8.4
8.4 8.4 8.8 8.8 9 9 9 9 9.4 9.6
9.8 9.8 9.8 9.8 10.2 10.2 10.2 10.2 10.4 10.4
10.6 10.6 10.8 11 11 11.2 11.4 11.4 11.6 11.6
11.8 12 12.2 12.4 12.4 12.4 12.6 12.6 12.8 12.8
12.8 12.8 13 13.2 13.4 13.4 13.4 13.4 13.6 13.8
13.8 13.8 14 14 14.2 14.2 14.2 14.4 14.8 14.8
14.8 14.8 14.8 15 15 15.2 15.4 15.4 15.8 16
16.2 16.2 16.2 16.2 16.2 16.2 16.6 16.8 16.8 17

چارک اول (Q1) بین نمرات دانش آموز 25 ام و 26 ام (9 و 9)، چارک دوم (Q2) بین نمرات دانش آموز 50 ام و 51 ام (11.6 و 11.8) و چارک سوم (Q3) بین نمرات دانش آموز 75 ام و 76 ام (14.2 و 14.2) قرار دارد. از این رو:

چارک اول (Q1) = (9 + 9) ÷ 2 = 9

چارک دوم (Q2) = (11.6 + 11.8) ÷ 2 = 11.7

چارک سوم (Q3) = (14.2 + 14.2) ÷ 2 = 14.2

در مثال بالا، تعداد کل نمرات زوج می باشد (100 دانش آموز). این بدان معنی است که وقتی چارکی را محاسبه می کنیم، مجموع دو مقدار اطراف هر چارک را پیدا کرده و سپس آن را نصف می کنیم. با این حال، اگر تعداد نمرات فرد باشد (مثلاً 99 دانش آموز)، فقط باید یک مقدار برای هر چارک بگیریم (یعنی نیاز به محاسبه میانگین دو عدد نیست). باید بدانید که چارک دوم نیز میانه است.

چارک ها معیار مفیدی برای پراکندگی هستند، زیرا نسبت به معیارهای میانگین و انحراف استاندارد، بسیار کمتر تحت تأثیر مقادیر پرت (outliers) قرار می گیرند. به همین دلیل، چارک ها اغلب همراه با میانه به عنوان بهترین معیار برای گستردگی و گرایش به مرکزی می باشد. یک روش رایج برای بیان چارک ها به صورت دامنه بین چارکی (interquartile range) است. دامنه بین چارکی تفاوت بین چارک سوم (Q3) و چارک اول (Q1) را توصیف می کند. بنابراین، برای مثال 100 دانش آموز بالا:

Q3 – Q1 = دامنه بین چارکی

14.2 – 9 = دامنه بین چارکی

5.2 = دامنه بین چارکی

با این حال، باید توجه داشت که در مجلات و سایر نشریات معمولاً به جای محاسبه دامنه (کمترین مقدار – بیشترین مقدار)، دامنه بین چارکی (Q3 – Q1) را گزارش می کنند.

یک تغییر جزئی در این مورد، “دامنه نیمه بین چارکی” (semi-interquartile range) است که نصف دامنه بین چارکی است ((Q3 – Q1) ½). بنابراین، برای مثال 100 دانش آموز، دامنه نیمه بین چارکی برابر با 2.6 = 2 ÷ 5.2 خواهد بود.

انحراف مطلق (Absolute Deviation) و واریانس (Variance)

تغییرات (Variation)

چارک ها مفید هستند، اما تا حدودی محدود هستند، زیرا هر مقداری را در گروه داده های ما در نظر نمی گیرند. بهتر است برای به دست آوردن گستردگی، مقدار هر داده در یک مجموعه در نظر گرفته شود. انحراف مطلق (Absolute Deviation)، واریانس (Variance) و انحراف استانداد (Standard Deviation) چنین معیارهایی هستند.

انحراف مطلق و میانگین انحراف مطلق میزان انحراف (تغییر) را نشان می دهد که حول مقدار میانگین رخ می دهد. به سادگی برای یافتن تنوع کل در گروه داده ها، انحراف مقدار هر داده را از میانگین با یکدیگرجمع کنید. سپس میانگین انحراف را می توان با تقسیم این مجموع بر تعداد داده محاسبه کنید. نحوه محاسبه انحراف (انحراف مطلق، واریانس یا انحراف استاندارد) یک مقدار از میانگین بستگی به انتخاب آمار ما دارد.

انحراف مطلق (Absolute Deviation) و میانگین انحراف مطلق (Mean Absolute Deviation)

شاید ساده ترین راه برای محاسبه انحراف یک مقدار از میانگین، یافتن تفاوت هر مقدار با مقدار میانگین می باشد. برای مثال 100 دانش آموزی که قبلا استفاده کردیم، میانگین کل 11.75 می باشد. بنابراین، اگر دانش آموزی را که از 20 نمره 12 کسب کرده است، انحراف مقدار از میانگین 0.25 = 11.75 – 12 است. باید توجه داشته باشید که نمرات بالاتر از میانگین دارای انحرافات مثبت هستند (همانطور که در بالا نشان داده شد)، در حالی که نمرات کمتر از میانگین دارای انحرافات منفی هستند.

برای یافتن تنوع کل در مجموعه داده‌ها، این محاسبه را برای تمام نمرات 100 دانش‌آموز انجام می‌دهیم. با این حال، مشکل این است که چون ما هم دو علامت مثبت داریم و هم منفی. وقتی همه این انحراف ها را جمع می کنیم، یکدیگر را خنثی می کنند و انحراف کل صفر را به ما می دهند. از آنجایی که ما فقط به انحراف نمرات علاقه داریم و نه اینکه آنها بالاتر یا پایین تر از میانگین هستند، می توانیم علامت منفی را نادیده بگیریم و فقط قدر مطلق را بگیریم و انحراف مطلق را به ما بدهد. جمع کردن همه این انحرافات مطلق و تقسیم آنها بر تعداد کل مقادیر میانگین انحراف مطلق را به ما می دهد. بنابراین، برای 100 دانش آموز ما، میانگین انحراف مطلق 2.562 است، همانطور که در زیر نشان داده شده است:

 

 

در اینجا μ = میانگین، X = مقدار هر داده، Σ مجموع، N = تعداد داده ها، || = قدر مطلق می باشد.

 

واریانس (Variance)

واریانس (Variance) روش دیگر برای محاسبه انحراف مقادیر از میانگینمی باشد. بر خلاف انحراف مطلق، که از قدر مطلق انحراف استفاده می کند تا خود را از شر مقادیر منفی خلاص کند، واریانس با مجذور کردن هر یک از انحرافات به جای آن به مقادیر مثبت دست می یابد. جمع کردن این انحرافات مجذور مجموع مجذورها را به ما می‌دهد که سپس می‌توانیم آن‌ها را بر تعداد کل داده ها تقسیم کنیم تا واریانس را پیدا کنیم. بنابراین، برای 100 دانش آموز، واریانس 8.48 است، همانطور که در زیر نشان داده شده است:

 

 

واریانس به عنوان معیاری برای تغییرپذیری، مفید است. اگر مقادیر گروه داده های ما خیلی پراکندگی داشته باشند، واریانس عدد زیادی خواهد بود. برعکس، اگر مقادیر نزدیک به میانگین پخش شوند، واریانس عدد کوچکتری خواهد بود. با این حال، دو مشکل بالقوه با واریانس وجود دارد. اولاً، چون انحراف مقادیر از میانگین «مجذور» شده است، این به مقادیر وزن بیشتری می‌دهد. اگر داده‌های ما حاوی مقادیر پرت باشد. به عبارت دیگر، یک یا تعداد کمی از مقادیر که به‌ویژه از میانگین فاصله زیادی دارند و احتمالاً کل داده‌های ما را به خوبی نشان نمی‌دهند. ثانیا، واریانس در واحدهای یکسانی با مقادیر ی مجموعه داده ما نیست: واریانس در واحدهای مجذور اندازه گیری می شود. این بدان معنی است که ما نمی توانیم آن را در توزیع فرکانس خود قرار دهیم و نمی توانیم مستقیماً مقدار آن را به مقادیر موجود در مجموعه داده هایمان مرتبط کنیم. محاسبه انحراف استاندارد به جای واریانس این مشکل را برطرف می کند. با این وجود، تجزیه و تحلیل واریانس در برخی از تحلیل های آماری، بسیار مهم است.

 

انحراف استاندارد (Standard Deviation)

معرفی

انحراف استاندارد (Standard Deviation) معیاری برای اندازه گیری پراکندگی مقادیر در مجموعه ای از داده ها است. ما به انحراف استاندارد یک جمعیت علاقه مندیم. با این حال، اغلب فقط داده‌های یک نمونه به ما ارائه می‌شود، که می‌توانیم انحراف استاندارد جمعیت را از یک انحراف استاندارد نمونه تخمین بزنیم. این دو انحراف استاندارد (انحراف استاندارد نمونه و جمعیت) به طور متفاوت محاسبه می شوند. در آمار، ما معمولاً با محاسبه انحراف استاندارد نمونه مواجه هستیم، و بنابراین این همان چیزی است که این مقاله روی آن تمرکز خواهد کرد، اگرچه فرمول انحراف استاندارد جمعیت نیز نشان داده خواهد شد.

زمان استفاده از نمونه یا انحراف استاندارد جمعیت

ما معمولاً علاقه مند به دانستن انحراف استاندارد جمعیت هستیم. زیرا جامعه ما شامل تمام مقادیر مورد علاقه ما است. بنابراین، شما معمولاً در دو حالت (اگر: (1) کل جامعه را داشته باشید یا (2) یک نمونه از یک جمعیت بزرگتر داشته باشید) انحراف استاندارد جمعیت را محاسبه می کنید. اما شما فقط به این نمونه علاقه مند هستید و نمی خواهید یافته های خود را به جامعه تعمیم دهید. با این حال، در آمار، معمولاً نمونه‌ای به ما ارائه می‌شود که می‌خواهیم از آن یک جمعیت را تخمین بزنیم (تعمیم کنیم)، و انحراف استاندارد نیز از این امر مستثنی نیست. بنابراین، اگر تنها چیزی که در اختیار دارید یک نمونه است، اما می خواهید در مورد انحراف استاندارد جمعیتی که نمونه از آن گرفته شده است، اظهار نظر کنید، باید از انحراف استاندارد نمونه استفاده کنید. اغلب ممکن است سردرگمی در مورد اینکه از کدام انحراف استاندارد استفاده شود به دلیل اینکه نام “نمونه” انحراف استاندارد به اشتباه به معنای انحراف استاندارد خود نمونه تفسیر شده است و نه برآورد انحراف استاندارد جامعه بر اساس نمونه، ایجاد می شود.

هنگام محاسبه انحراف استاندارد باید از چه نوع داده ای استفاده کنید؟

انحراف استاندارد همراه با میانگین برای خلاصه کردن داده های پیوسته (continuous) به جای داده های طبقه ای یا دسته ای (categorical) استفاده می شود. علاوه بر این، انحراف استاندارد، مانند میانگین، معمولاً زمانی مناسب است که داده های پیوسته به طور قابل توجهی منحرف نشده باشند یا دارای نقاط پرت نباشند.

نمونه هایی از زمان استفاده از نمونه یا انحراف استاندارد جمعیت

سوال: معلمی برای دانش آموزان خود امتحانی تعیین می کند. می خواهد نتایجی را که دانش آموزان به دست آورده اند به عنوان میانگین و انحراف استاندارد خلاصه کند. کدام انحراف استاندارد باید استفاده شود؟

جواب: انحراف استاندارد جمعیت. چرا؟ چون معلم فقط به این کلاس از نمرات دانش آموزان علاقه مند است و به نمرات کلاس دیگر هیچ علاقه ای ندارد.

سوال: یک محقق، مردان 45 تا 65 ساله را برای مطالعه تمرینی ورزشی به منظور بررسی خطر بیماری قلبی (مثلاً افزایش میزان کلسترول) انتخاب کرده است. کدام انحراف استاندارد به احتمال زیاد مورد استفاده قرار می گیرد؟

جواب: انحراف استاندارد نمونه. اگر چه به صراحت بیان نشده است، محققی که به بررسی مسائل مرتبط با سلامت می پردازد، صرفاً به شرکت کنندگان مطالعه خود مربوط نمی شود. آنها می خواهند نشان دهند که چگونه می توان نتایج نمونه آنها را به کل جمعیت (در این مورد، مردان 45 تا 65 ساله) تعمیم داد.

فرمول های انحراف استاندارد چیست؟

 

فرمول انحراف استاندارد نمونه به صورت زیر است:

 

انحراف استاندارد نمونه

 

جایی که،s انحراف استاندارد نمونه، Sum of  مجموع، میانگین نمونه، n تعداد کل می باشد.

 

فرمول انحراف استاندارد جمعیت به صورت زیر است:

 

انحراف استاندارد جمعیت

 

جایی که، انحراف استاندارد جمعیت، Sum of  مجموع، میانگین جمعیت، n تعداد کل می باشد.

 

 

مطالب زیر را هم از دست ندهید:

رگرسیون چندگانه در Stata

رگرسیون پواسون با استفاده از SPSS

رگرسیون چندگانه با استفاده از SPSS

رگرسیون خطی با استفاده از SPSS

رگرسیون لجستیک ترتیبی با استفاده از SPSS

رگرسیون لجستیک چند جمله ای در SPSS

رگرسیون لجستیک دو جمله ای با استفاده از SPSS

Afshin Safaee (@afshinsafaee.official)

 

اشتراک گذاری در facebook
اشتراک گذاری در twitter
اشتراک گذاری در linkedin
اشتراک گذاری در telegram
اشتراک گذاری در whatsapp
نوشته های مرتبط

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *