Minitab - نسخه‌ی قابل چاپ

Minitab - نسخه‌ی قابل چاپ

+- تالار گفتگوی کیش تک/ kishtech forum (http://forum.kishtech.ir)
+-- انجمن: پردیس فناوری کیش (http://forum.kishtech.ir/forumdisplay.php?fid=1)
+--- انجمن: دانشگاه جامع علمی و کاربردی (http://forum.kishtech.ir/forumdisplay.php?fid=7)
+---- انجمن: **مرکز علمی و کاربردی کوشا** (http://forum.kishtech.ir/forumdisplay.php?fid=42)
+----- انجمن: برنامه نویسی کامپیوتر- ترم دوم 97-98 - جمعه ساعت 8 صبح (http://forum.kishtech.ir/forumdisplay.php?fid=139)
+----- موضوع: Minitab (/showthread.php?tid=31102)

Minitab - سه نيك - 18-05-2019

تحلیل واریانس ها به روش ANOVA را شرح دهید.یکی از کاربردهای آنرا ذکر کنید.

RE: Minitab - Babak khaki59 - 19-05-2019

(18-05-2019, 07:37 AM)سه نيك نوشته است: تحلیل واریانس ها به روش ANOVA را شرح دهید.یکی از کاربردهای آنرا ذکر کنید.

برای آگاهی از مفاهیم اولیه آزمون‌های فرض آماری به مطلب تحلیل‌ها و آزمون‌های آماری — مفاهیم و اصطلاحات و برای آشنایی با روش‌های آزمون فرض میانگین به آزمون فرض میانگین جامعه در آمار — به زبان ساده مراجعه کنید. همچنین اطلاع از شیوه محاسبات مربوط به رگرسیون خطی که در مطلب رگرسیون خطی — مفهوم و محاسبات به زبان ساده قابل مطالعه است، خالی از لطف نیست.

تحلیل واریانس (Anova)

تحلیل واریانس و روش‌های تجزیه واریانس، یکی دسته از مدل‌های آماری هستند که قادرند اختلاف بین گروه‌ها یا دسته‌ها را بررسی کنند. این روش توسط «رونالد فیشر» (R. A. Fisher) بیولوژیست و آمارشناس مشهور، ابداع شده است. او در کتاب معروف خود به نام «روش‌های آماری برای محققین» ( Statistical Methods for Research Workers) به بررسی و شیوه تفکیک واریانس پرداخت و به کمک آن بسیاری از آزمون‌های فرض آماری را تشکیل داد. اساس همه این روش‌ها، تفکیک واریانس یا پراکندگی داده‌ها به چند جزء بود. امروزه کاربرد تحلیل واریانس که با این ایده انجام شده، بسیار زیاد است. در ساده‌ترین شکل، تحلیل واریانس می‌تواند به عنوان یک روش برای آزمون فرض مقایسه میانگین در بین چند جامعه مستقل به کار رود. این کار به عنوان یک جایگزین برای آزمون فرض با استفاده از آماره آزمون T است.

تحلیل واریانس در حالت کلاسیک راه حلی است که سه عمل زیر را همزمان انجام می‌دهد:

[list=1]

[*]تجزیه مجموع مربعات کل به مجموع مربعات اجزا حاصل از مدل خطی

[*]مقایسه میانگین مربعات، به کمک آماره و آزمون F

[*]آزمون پارامترهای مدل به منظور دستیابی به مدل آماری مناسب
[/list]

شرط‌هایی که باید در هنگام استفاد از تحلیل واریانس در نظر گرفت در لیست زیر قرار گرفته‌اند:

[list]

[*]مقدارهای هر گروه یا جامعه باید دارای توزیع نرمال باشند.

[*]واریانس در هر گروه ثابت باشد. این امر نشان می‌دهد که نباید داده‌ها شامل «نقاط دورافتاده» (Outlier) باشند.

[*]واریانس گروه‌ها با یکدیگر برابر باشند.

[*]میانگین در بین گروه‌ها متفاوت باشد. در حقیقت این همان عبارتی است که به عنوان فرض مقابل در تحلیل واریانس به دنبالش هستیم.
[/list]

تحلیل واریانس و رگرسیون خطی

در اینجا بهتر است یکی از کاربردهای تحلیل واریانس در رگرسیون را یادآور شویم. اساس کار در تحلیل واریانس، تجزیه واریانس متغیر وابسته به دو بخش است، بخشی از تغییرات یا پراکندگی که توسط مدل رگرسیونی قابل نمایش است و بخشی که توسط جمله خطا تعیین می‌شود. فرض کنید مدل رگرسیونی به صورت زیر داریم:

[font=MJXc-TeX-math-I, MJXc-TeX-math-Ix, MJXc-TeX-math-Iw]y=β0+β1X1+β2X2+…+βpXp+ey=β0+β1X1+β2X2+…+βpXp+e[/font]

که

βiβi

[size=undefined] پارامترهای مدل و e نیز جمله خطا است. پس در این حالت اگر مجموع مربعات کل را SST، مجموع مربعات خطا را SSE و مجموع مربعات تفاضل مقدارهای برآورد شده از واقعی (پراکندگی داده‌ها مدل) را SSR بنامیم، می‌توان رابطه زیر را نوشت:[/size]

SST= SSR+SSE

در صورتی که مدل رگرسیون مناسب باشد،‌ انتظار داریم سهم SSR از SST زیاد باشد، بطوری که بیشتر تغییرات متغیر وابسته توسط مدل رگرسیون توصیف شود. برای محاسبه واریانس از روی هر یک از مجموع مربعات کافی است، حاصل را بر تعداد جملاتشان تقسیم کنیم. به این ترتیب مقدارهای جدیدی به نام‌های «میانگین مربعات خطا» (MSE)،‌ «میانگین مربعات رگرسیون» (MSR) بوجود می‌آیند.

بر همین مبنا و بر اساس این مقدارها، سطرها و ستون‌های جدولی که به جدول تحلیل واریانس (ANOVA) معروف است، ساخته می‌شوند:

منشاء تغییرات
درجه آزادی
مجموع مربعات
میانگین مربعات
آماره F
رگرسیون
p
SSR
[font=MJXc-TeX-math-I, MJXc-TeX-math-Ix, MJXc-TeX-math-Iw]MSR=[/font]

SSR

[size=undefined][size=undefined]MSR=SSRp[/size]
F=[/size]

MSR

MSE

[size=undefined][size=undefined]F=MSRMSE[/size]
خطا
n-p-1
SSE
MSE=[/size]

SSE

n−p−1

[size=undefined][size=undefined]MSE=SSEn−p−1[/size]
کل
n-1
SST
[/size]

در سطر اول که مربوط به مدل رگرسیونی است، «درجه آزادی» (Degree of Freedom) همان تعداد پارامترهای رگرسیون خطی (p) ثبت شده و در سطر مربوط به خطا نیز درجه آزادی n-p-1 در نظر گرفته می‌شود. پس به نظر می‌رسد همان رابطه‌ای که بین مجموع مربعات دیده شد بین درجه آزادی‌های جدول تحلیل واریانس نیز وجود دارد. یعنی:

[font=MJXc-TeX-math-I, MJXc-TeX-math-Ix, MJXc-TeX-math-Iw]n−1=n−p−1+pn−1=n−p−1+p[/font]

از آنجایی که نسبت میانگین مربعات دارای توزیع آماری F است با مراجعه به جدول این توزیع و محاسبه صدک مربوطه، چنانچه متوجه شدیم که مقدار محاسبه شده برای F بزرگتر از مقدار جدول توزیع F با

[size=undefined]‌ و [/size]

n−p−1n−p−1

[size=undefined] درجه آزادی در صدک [/size]

1−α1−α

[size=undefined]ام است، پس مدل رگرسیون توانسته بیشتر تغییرات متغیر وابسته را در خود جای دهد در نتیجه مدل مناسبی توسط روش رگرسیونی ارائه شده. در اینجا [/size]

αα

[size=undefined]احتمال خطای نوع اول در نظر گرفته شده است.[/size]

تحلیل واریانس و آزمون مقایسه میانگین چند جامعه

فرض کنید قرار است در مورد یکسان بودن دو یا چند جامعه تحقیق کنید. یکی از شاخص‌های قابل استفاده برای بیان ویژگی‌های جامعه‌ها، می‌تواند میانگین باشد. با مقایسه میانگین و تشخیص برابری یا نابرابر بودن آن‌ها در بین جامعه‌ها، می‌توان رای به یکسان یا متفاوت بودن آن‌ها داد. بنابراین اگر یکی از میانگین‌ها با بقیه تفاوت داشته باشد، متوجه می‌شویم که جوامع مانند یکدیگر نیستند.

با توجه به این موضوع، می‌توان فرضیه‌های آزمون برای مقایسه میانگین k جامعه را به صورت زیر نوشت:

[font=MJXc-TeX-size3-R, MJXc-TeX-size3-Rw]{H0:μ1=μ2=…=μkH1:therearesomeμ′snotequalwithothers{H0:μ1=μ2=…=μkH1:therearesomeμ′snotequalwithothers[/font]

در اینجا فرض مقابل یا

H1H1

[size=undefined] بیان می‌کند که حداقل یکی از میانگین‌ها با بقیه تفاوت دارد. می‌دانیم که احتمال خطای نوع اول برای مسئله اصلی آزمون به صورت زیر نوشته می‌شود:[/size]

RE: Minitab - Sasan tork - 20-05-2019

از ابزارهای پرکاربرد در آزمون فرض و تحقیقات آماری، «تحلیل واریانس» (Analysis of Variance) است. در این روش سعی بر این است که اختلاف بین چند جامعه آماری، ارزیابی شود. با توجه به پراکندگی کل داده‌ها، تجزیه واریانس بین گروه‌های مختلف در این روش امکان‌پذیر است. به این ترتیب می‌توان برابر بودن میانگین را بین گروه‌های مختلف آزمود. همچنین در مدل‌های رگرسیونی با تجزیه واریانس کل به واریانس مدل و واریانس خطا تشخیص مناسب بودن مدل قابل ارزیابی است.
برای آگاهی از مفاهیم اولیه آزمون‌های فرض آماری به مطلب تحلیل‌ها و آزمون‌های آماری — مفاهیم و اصطلاحات و برای آشنایی با روش‌های آزمون فرض میانگین به آزمون فرض میانگین جامعه در آمار — به زبان ساده مراجعه کنید. همچنین اطلاع از شیوه محاسبات مربوط به رگرسیون خطی که در مطلب رگرسیون خطی — مفهوم و محاسبات به زبان ساده قابل مطالعه است، خالی از لطف نیست.
تحلیل واریانس (Anova)

تحلیل واریانس و روش‌های تجزیه واریانس، یکی دسته از مدل‌های آماری هستند که قادرند اختلاف بین گروه‌ها یا دسته‌ها را بررسی کنند. این روش توسط «رونالد فیشر» (R. A. Fisher) بیولوژیست و آمارشناس مشهور، ابداع شده است. او در کتاب معروف خود به نام «روش‌های آماری برای محققین» ( Statistical Methods for Research Workers) به بررسی و شیوه تفکیک واریانس پرداخت و به کمک آن بسیاری از آزمون‌های فرض آماری را تشکیل داد. اساس همه این روش‌ها، تفکیک واریانس یا پراکندگی داده‌ها به چند جزء بود. امروزه کاربرد تحلیل واریانس که با این ایده انجام شده، بسیار زیاد است. در ساده‌ترین شکل، تحلیل واریانس می‌تواند به عنوان یک روش برای آزمون فرض مقایسه میانگین در بین چند جامعه مستقل به کار رود. این کار به عنوان یک جایگزین برای آزمون فرض با استفاده از آماره آزمون T است.
تحلیل واریانس در حالت کلاسیک راه حلی است که سه عمل زیر را همزمان انجام می‌دهد:
[list=1]

[*]تجزیه مجموع مربعات کل به مجموع مربعات اجزا حاصل از مدل خطی

[*]مقایسه میانگین مربعات، به کمک آماره و آزمون F

[*]آزمون پارامترهای مدل به منظور دستیابی به مدل آماری مناسب
[/list]
شرط‌هایی که باید در هنگام استفاد از تحلیل واریانس در نظر گرفت در لیست زیر قرار گرفته‌اند:
[list]

[*]مقدارهای هر گروه یا جامعه باید دارای توزیع نرمال باشند.

[*]واریانس در هر گروه ثابت باشد. این امر نشان می‌دهد که نباید داده‌ها شامل «نقاط دورافتاده» (Outlier) باشند.

[*]واریانس گروه‌ها با یکدیگر برابر باشند.

[*]میانگین در بین گروه‌ها متفاوت باشد. در حقیقت این همان عبارتی است که به عنوان فرض مقابل در تحلیل واریانس به دنبالش هستیم.
[/list]
تحلیل واریانس و رگرسیون خطی
در اینجا بهتر است یکی از کاربردهای تحلیل واریانس در رگرسیون را یادآور شویم. اساس کار در تحلیل واریانس، تجزیه واریانس متغیر وابسته به دو بخش است، بخشی از تغییرات یا پراکندگی که توسط مدل رگرسیونی قابل نمایش است و بخشی که توسط جمله خطا تعیین می‌شود. فرض کنید مدل رگرسیونی به صورت زیر داریم:
y=β0+β1X1+β2X2+…+βpXp+ey=β0+β1X1+β2X2+…+βpXp+e
که
βiβi
[size=undefined] پارامترهای مدل و e نیز جمله خطا است. پس در این حالت اگر مجموع مربعات کل را SST، مجموع مربعات خطا را SSE و مجموع مربعات تفاضل مقدارهای برآورد شده از واقعی (پراکندگی داده‌ها مدل) را SSR بنامیم، می‌توان رابطه زیر را نوشت:[/size]
SST= SSR+SSE
در صورتی که مدل رگرسیون مناسب باشد،‌ انتظار داریم سهم SSR از SST زیاد باشد، بطوری که بیشتر تغییرات متغیر وابسته توسط مدل رگرسیون توصیف شود. برای محاسبه واریانس از روی هر یک از مجموع مربعات کافی است، حاصل را بر تعداد جملاتشان تقسیم کنیم. به این ترتیب مقدارهای جدیدی به نام‌های «میانگین مربعات خطا» (MSE)،‌ «میانگین مربعات رگرسیون» (MSR) بوجود می‌آیند.
بر همین مبنا و بر اساس این مقدارها، سطرها و ستون‌های جدولی که به جدول تحلیل واریانس (ANOVA) معروف است، ساخته می‌شوند:
منشاء تغییرات
درجه آزادی
مجموع مربعات
میانگین مربعات
آماره F
رگرسیون
p
SSR
MSR=
SSR
p
[size=undefined][size=undefined]MSR=SSRp[/size]
F=[/size]
MSR
MSE
[size=undefined][size=undefined]F=MSRMSE[/size]
خطا
n-p-1
SSE
MSE=[/size]
SSE
n−p−1
[size=undefined][size=undefined]MSE=SSEn−p−1[/size]
کل
n-1
SST
[/size]
در سطر اول که مربوط به مدل رگرسیونی است، «درجه آزادی» (Degree of Freedom) همان تعداد پارامترهای رگرسیون خطی (p) ثبت شده و در سطر مربوط به خطا نیز درجه آزادی n-p-1 در نظر گرفته می‌شود. پس به نظر می‌رسد همان رابطه‌ای که بین مجموع مربعات دیده شد بین درجه آزادی‌های جدول تحلیل واریانس نیز وجود دارد. یعنی:
n−1=n−p−1+pn−1=n−p−1+p
از آنجایی که نسبت میانگین مربعات دارای توزیع آماری F است با مراجعه به جدول این توزیع و محاسبه صدک مربوطه، چنانچه متوجه شدیم که مقدار محاسبه شده برای F بزرگتر از مقدار جدول توزیع F با
pp
[size=undefined]‌ و [/size]
n−p−1n−p−1
[size=undefined] درجه آزادی در صدک [/size]
1−α1−α
[size=undefined]ام است، پس مدل رگرسیون توانسته بیشتر تغییرات متغیر وابسته را در خود جای دهد در نتیجه مدل مناسبی توسط روش رگرسیونی ارائه شده. در اینجا [/size]
αα
[size=undefined]احتمال خطای نوع اول در نظر گرفته شده است.[/size]
تحلیل واریانس و آزمون مقایسه میانگین چند جامعه
فرض کنید قرار است در مورد یکسان بودن دو یا چند جامعه تحقیق کنید. یکی از شاخص‌های قابل استفاده برای بیان ویژگی‌های جامعه‌ها، می‌تواند میانگین باشد. با مقایسه میانگین و تشخیص برابری یا نابرابر بودن آن‌ها در بین جامعه‌ها، می‌توان رای به یکسان یا متفاوت بودن آن‌ها داد. بنابراین اگر یکی از میانگین‌ها با بقیه تفاوت داشته باشد، متوجه می‌شویم که جوامع مانند یکدیگر نیستند.
با توجه به این موضوع، می‌توان فرضیه‌های آزمون برای مقایسه میانگین k جامعه را به صورت زیر نوشت:
{H0:μ1=μ2=…=μkH1:therearesomeμ′snotequalwithothers{H0:μ1=μ2=…=μkH1:therearesomeμ′snotequalwithothers
در اینجا فرض مقابل یا
H1H1
[size=undefined] بیان می‌کند که حداقل یکی از میانگین‌ها با بقیه تفاوت دارد. می‌دانیم که احتمال خطای نوع اول برای مسئله اصلی آزمون به صورت زیر نوشته می‌شود:[/size]

از ابزارهای پرکاربرد در آزمون فرض و تحقیقات آماری، «تحلیل واریانس» (Analysis of Variance) است. در این روش سعی بر این است که اختلاف بین چند جامعه آماری، ارزیابی شود. با توجه به پراکندگی کل داده‌ها، تجزیه واریانس بین گروه‌های مختلف در این روش امکان‌پذیر است. به این ترتیب می‌توان برابر بودن میانگین را بین گروه‌های مختلف آزمود. همچنین در مدل‌های رگرسیونی با تجزیه واریانس کل به واریانس مدل و واریانس خطا تشخیص مناسب بودن مدل قابل ارزیابی است.
برای آگاهی از مفاهیم اولیه آزمون‌های فرض آماری به مطلب تحلیل‌ها و آزمون‌های آماری — مفاهیم و اصطلاحات و برای آشنایی با روش‌های آزمون فرض میانگین به آزمون فرض میانگین جامعه در آمار — به زبان ساده مراجعه کنید. همچنین اطلاع از شیوه محاسبات مربوط به رگرسیون خطی که در مطلب رگرسیون خطی — مفهوم و محاسبات به زبان ساده قابل مطالعه است، خالی از لطف نیست.
تحلیل واریانس (Anova)

تحلیل واریانس و روش‌های تجزیه واریانس، یکی دسته از مدل‌های آماری هستند که قادرند اختلاف بین گروه‌ها یا دسته‌ها را بررسی کنند. این روش توسط «رونالد فیشر» (R. A. Fisher) بیولوژیست و آمارشناس مشهور، ابداع شده است. او در کتاب معروف خود به نام «روش‌های آماری برای محققین» ( Statistical Methods for Research Workers) به بررسی و شیوه تفکیک واریانس پرداخت و به کمک آن بسیاری از آزمون‌های فرض آماری را تشکیل داد. اساس همه این روش‌ها، تفکیک واریانس یا پراکندگی داده‌ها به چند جزء بود. امروزه کاربرد تحلیل واریانس که با این ایده انجام شده، بسیار زیاد است. در ساده‌ترین شکل، تحلیل واریانس می‌تواند به عنوان یک روش برای آزمون فرض مقایسه میانگین در بین چند جامعه مستقل به کار رود. این کار به عنوان یک جایگزین برای آزمون فرض با استفاده از آماره آزمون T است.
تحلیل واریانس در حالت کلاسیک راه حلی است که سه عمل زیر را همزمان انجام می‌دهد:
[list=1]

[*]تجزیه مجموع مربعات کل به مجموع مربعات اجزا حاصل از مدل خطی

[*]مقایسه میانگین مربعات، به کمک آماره و آزمون F

[*]آزمون پارامترهای مدل به منظور دستیابی به مدل آماری مناسب
[/list]
شرط‌هایی که باید در هنگام استفاد از تحلیل واریانس در نظر گرفت در لیست زیر قرار گرفته‌اند:
[list]

[*]مقدارهای هر گروه یا جامعه باید دارای توزیع نرمال باشند.

[*]واریانس در هر گروه ثابت باشد. این امر نشان می‌دهد که نباید داده‌ها شامل «نقاط دورافتاده» (Outlier) باشند.

[*]واریانس گروه‌ها با یکدیگر برابر باشند.

[*]میانگین در بین گروه‌ها متفاوت باشد. در حقیقت این همان عبارتی است که به عنوان فرض مقابل در تحلیل واریانس به دنبالش هستیم.
[/list]
تحلیل واریانس و رگرسیون خطی
در اینجا بهتر است یکی از کاربردهای تحلیل واریانس در رگرسیون را یادآور شویم. اساس کار در تحلیل واریانس، تجزیه واریانس متغیر وابسته به دو بخش است، بخشی از تغییرات یا پراکندگی که توسط مدل رگرسیونی قابل نمایش است و بخشی که توسط جمله خطا تعیین می‌شود. فرض کنید مدل رگرسیونی به صورت زیر داریم:
y=β0+β1X1+β2X2+…+βpXp+ey=β0+β1X1+β2X2+…+βpXp+e
که
βiβi
[size=undefined] پارامترهای مدل و e نیز جمله خطا است. پس در این حالت اگر مجموع مربعات کل را SST، مجموع مربعات خطا را SSE و مجموع مربعات تفاضل مقدارهای برآورد شده از واقعی (پراکندگی داده‌ها مدل) را SSR بنامیم، می‌توان رابطه زیر را نوشت:[/size]
SST= SSR+SSE
در صورتی که مدل رگرسیون مناسب باشد،‌ انتظار داریم سهم SSR از SST زیاد باشد، بطوری که بیشتر تغییرات متغیر وابسته توسط مدل رگرسیون توصیف شود. برای محاسبه واریانس از روی هر یک از مجموع مربعات کافی است، حاصل را بر تعداد جملاتشان تقسیم کنیم. به این ترتیب مقدارهای جدیدی به نام‌های «میانگین مربعات خطا» (MSE)،‌ «میانگین مربعات رگرسیون» (MSR) بوجود می‌آیند.
بر همین مبنا و بر اساس این مقدارها، سطرها و ستون‌های جدولی که به جدول تحلیل واریانس (ANOVA) معروف است، ساخته می‌شوند:
منشاء تغییرات
درجه آزادی
مجموع مربعات
میانگین مربعات
آماره F
رگرسیون
p
SSR
MSR=
SSR
p
[size=undefined][size=undefined]MSR=SSRp[/size]
F=[/size]
MSR
MSE
[size=undefined][size=undefined]F=MSRMSE[/size]
خطا
n-p-1
SSE
MSE=[/size]
SSE
n−p−1
[size=undefined][size=undefined]MSE=SSEn−p−1[/size]
کل
n-1
SST
[/size]
در سطر اول که مربوط به مدل رگرسیونی است، «درجه آزادی» (Degree of Freedom) همان تعداد پارامترهای رگرسیون خطی (p) ثبت شده و در سطر مربوط به خطا نیز درجه آزادی n-p-1 در نظر گرفته می‌شود. پس به نظر می‌رسد همان رابطه‌ای که بین مجموع مربعات دیده شد بین درجه آزادی‌های جدول تحلیل واریانس نیز وجود دارد. یعنی:
n−1=n−p−1+pn−1=n−p−1+p
از آنجایی که نسبت میانگین مربعات دارای توزیع آماری F است با مراجعه به جدول این توزیع و محاسبه صدک مربوطه، چنانچه متوجه شدیم که مقدار محاسبه شده برای F بزرگتر از مقدار جدول توزیع F با
pp
[size=undefined]‌ و [/size]
n−p−1n−p−1
[size=undefined] درجه آزادی در صدک [/size]
1−α1−α
[size=undefined]ام است، پس مدل رگرسیون توانسته بیشتر تغییرات متغیر وابسته را در خود جای دهد در نتیجه مدل مناسبی توسط روش رگرسیونی ارائه شده.
[size=undefined]احتمال خطای نوع اول در نظر گرفته شده است.[/size]
تحلیل واریانس و آزمون مقایسه میانگین چند جامعه
فرض کنید قرار است در مورد یکسان بودن دو یا چند جامعه تحقیق کنید. یکی از شاخص‌های قابل استفاده برای بیان ویژگی‌های جامعه‌ها، می‌تواند میانگین باشد. با مقایسه میانگین و تشخیص برابری یا نابرابر بودن آن‌ها در بین جامعه‌ها، می‌توان رای به یکسان یا متفاوت بودن آن‌ها داد. بنابراین اگر یکی از میانگین‌ها با بقیه تفاوت داشته باشد، متوجه می‌شویم که جوامع مانند یکدیگر نیستند.

RE: Minitab - MahdiJandaghi - 20-05-2019

از ابزارهای پرکاربرد در آزمون فرض و تحقیقات آماری، «تحلیل واریانس» (Analysis of Variance) است. در این روش سعی بر این است که اختلاف بین چند جامعه آماری، ارزیابی شود. با توجه به پراکندگی کل داده‌ها، تجزیه واریانس بین گروه‌های مختلف در این روش امکان‌پذیر است. به این ترتیب می‌توان برابر بودن میانگین را بین گروه‌های مختلف آزمود. همچنین در مدل‌های رگرسیونی با تجزیه واریانس کل به واریانس مدل و واریانس خطا تشخیص مناسب بودن مدل قابل ارزیابی است.
برای آگاهی از مفاهیم اولیه آزمون‌های فرض آماری به مطلب تحلیل‌ها و آزمون‌های آماری — مفاهیم و اصطلاحات و برای آشنایی با روش‌های آزمون فرض میانگین به آزمون فرض میانگین جامعه در آمار — به زبان ساده مراجعه کنید. همچنین اطلاع از شیوه محاسبات مربوط به رگرسیون خطی که در مطلب رگرسیون خطی — مفهوم و محاسبات به زبان ساده قابل مطالعه است، خالی از لطف نیست.
تحلیل واریانس (Anova)

تحلیل واریانس و روش‌های تجزیه واریانس، یکی دسته از مدل‌های آماری هستند که قادرند اختلاف بین گروه‌ها یا دسته‌ها را بررسی کنند. این روش توسط «رونالد فیشر» (R. A. Fisher) بیولوژیست و آمارشناس مشهور، ابداع شده است. او در کتاب معروف خود به نام «روش‌های آماری برای محققین» ( Statistical Methods for Research Workers) به بررسی و شیوه تفکیک واریانس پرداخت و به کمک آن بسیاری از آزمون‌های فرض آماری را تشکیل داد. اساس همه این روش‌ها، تفکیک واریانس یا پراکندگی داده‌ها به چند جزء بود. امروزه کاربرد تحلیل واریانس که با این ایده انجام شده، بسیار زیاد است. در ساده‌ترین شکل، تحلیل واریانس می‌تواند به عنوان یک روش برای آزمون فرض مقایسه میانگین در بین چند جامعه مستقل به کار رود. این کار به عنوان یک جایگزین برای آزمون فرض با استفاده از آماره آزمون T است.
تحلیل واریانس در حالت کلاسیک راه حلی است که سه عمل زیر را همزمان انجام می‌دهد:
[list=1]

[*]تجزیه مجموع مربعات کل به مجموع مربعات اجزا حاصل از مدل خطی

[*]مقایسه میانگین مربعات، به کمک آماره و آزمون F

[*]آزمون پارامترهای مدل به منظور دستیابی به مدل آماری مناسب
[/list]
شرط‌هایی که باید در هنگام استفاد از تحلیل واریانس در نظر گرفت در لیست زیر قرار گرفته‌اند:
[list]

[*]مقدارهای هر گروه یا جامعه باید دارای توزیع نرمال باشند.

[*]واریانس در هر گروه ثابت باشد. این امر نشان می‌دهد که نباید داده‌ها شامل «نقاط دورافتاده» (Outlier) باشند.

[*]واریانس گروه‌ها با یکدیگر برابر باشند.

[*]میانگین در بین گروه‌ها متفاوت باشد. در حقیقت این همان عبارتی است که به عنوان فرض مقابل در تحلیل واریانس به دنبالش هستیم.
[/list]
تحلیل واریانس و رگرسیون خطی
در اینجا بهتر است یکی از کاربردهای تحلیل واریانس در رگرسیون را یادآور شویم. اساس کار در تحلیل واریانس، تجزیه واریانس متغیر وابسته به دو بخش است، بخشی از تغییرات یا پراکندگی که توسط مدل رگرسیونی قابل نمایش است و بخشی که توسط جمله خطا تعیین می‌شود. فرض کنید مدل رگرسیونی به صورت زیر داریم:
y=β0+β1X1+β2X2+…+βpXp+ey=β0+β1X1+β2X2+…+βpXp+e
که
βiβi
[size=undefined] پارامترهای مدل و e نیز جمله خطا است. پس در این حالت اگر مجموع مربعات کل را SST، مجموع مربعات خطا را SSE و مجموع مربعات تفاضل مقدارهای برآورد شده از واقعی (پراکندگی داده‌ها مدل) را SSR بنامیم، می‌توان رابطه زیر را نوشت:[/size]
SST= SSR+SSE
در صورتی که مدل رگرسیون مناسب باشد،‌ انتظار داریم سهم SSR از SST زیاد باشد، بطوری که بیشتر تغییرات متغیر وابسته توسط مدل رگرسیون توصیف شود. برای محاسبه واریانس از روی هر یک از مجموع مربعات کافی است، حاصل را بر تعداد جملاتشان تقسیم کنیم. به این ترتیب مقدارهای جدیدی به نام‌های «میانگین مربعات خطا» (MSE)،‌ «میانگین مربعات رگرسیون» (MSR) بوجود می‌آیند.
بر همین مبنا و بر اساس این مقدارها، سطرها و ستون‌های جدولی که به جدول تحلیل واریانس (ANOVA) معروف است، ساخته می‌شوند:
منشاء تغییرات
درجه آزادی
مجموع مربعات
میانگین مربعات
آماره F
رگرسیون
p
SSR
MSR=
SSR
p
[size=undefined][size=undefined]MSR=SSRp[/size]
F=[/size]
MSR
MSE
[size=undefined][size=undefined]F=MSRMSE[/size]
خطا
n-p-1
SSE
MSE=[/size]
SSE
n−p−1
[size=undefined][size=undefined]MSE=SSEn−p−1[/size]
کل
n-1
SST
[/size]
در سطر اول که مربوط به مدل رگرسیونی است، «درجه آزادی» (Degree of Freedom) همان تعداد پارامترهای رگرسیون خطی (p) ثبت شده و در سطر مربوط به خطا نیز درجه آزادی n-p-1 در نظر گرفته می‌شود. پس به نظر می‌رسد همان رابطه‌ای که بین مجموع مربعات دیده شد بین درجه آزادی‌های جدول تحلیل واریانس نیز وجود دارد. یعنی:
n−1=n−p−1+pn−1=n−p−1+p
از آنجایی که نسبت میانگین مربعات دارای توزیع آماری F است با مراجعه به جدول این توزیع و محاسبه صدک مربوطه، چنانچه متوجه شدیم که مقدار محاسبه شده برای F بزرگتر از مقدار جدول توزیع F با
pp
[size=undefined]‌ و [/size]
n−p−1n−p−1
[size=undefined] درجه آزادی در صدک [/size]
1−α1−α
[size=undefined]ام است، پس مدل رگرسیون توانسته بیشتر تغییرات متغیر وابسته را در خود جای دهد در نتیجه مدل مناسبی توسط روش رگرسیونی ارائه شده. در اینجا [/size]
αα
[size=undefined]احتمال خطای نوع اول در نظر گرفته شده است.[/size]
تحلیل واریانس و آزمون مقایسه میانگین چند جامعه
فرض کنید قرار است در مورد یکسان بودن دو یا چند جامعه تحقیق کنید. یکی از شاخص‌های قابل استفاده برای بیان ویژگی‌های جامعه‌ها، می‌تواند میانگین باشد. با مقایسه میانگین و تشخیص برابری یا نابرابر بودن آن‌ها در بین جامعه‌ها، می‌توان رای به یکسان یا متفاوت بودن آن‌ها داد. بنابراین اگر یکی از میانگین‌ها با بقیه تفاوت داشته باشد، متوجه می‌شویم که جوامع مانند یکدیگر نیستند.
با توجه به این موضوع، می‌توان فرضیه‌های آزمون برای مقایسه میانگین k جامعه را به صورت زیر نوشت:
{H0:μ1=μ2=…=μkH1:therearesomeμ′snotequalwithothers{H0:μ1=μ2=…=μkH1:therearesomeμ′snotequalwithothers
در اینجا فرض مقابل یا
H1H1
[size=undefined] بیان می‌کند که حداقل یکی از میانگین‌ها با بقیه تفاوت دارد. می‌دانیم که احتمال خطای نوع اول برای مسئله اصلی آزمون به صورت زیر نوشته می‌شود:[/size]
از ابزارهای پرکاربرد در آزمون فرض و تحقیقات آماری، «تحلیل واریانس» (Analysis of Variance) است. در این روش سعی بر این است که اختلاف بین چند جامعه آماری، ارزیابی شود. با توجه به پراکندگی کل داده‌ها، تجزیه واریانس بین گروه‌های مختلف در این روش امکان‌پذیر است. به این ترتیب می‌توان برابر بودن میانگین را بین گروه‌های مختلف آزمود. همچنین در مدل‌های رگرسیونی با تجزیه واریانس کل به واریانس مدل و واریانس خطا تشخیص مناسب بودن مدل قابل ارزیابی است.
برای آگاهی از مفاهیم اولیه آزمون‌های فرض آماری به مطلب تحلیل‌ها و آزمون‌های آماری — مفاهیم و اصطلاحات و برای آشنایی با روش‌های آزمون فرض میانگین به آزمون فرض میانگین جامعه در آمار — به زبان ساده مراجعه کنید. همچنین اطلاع از شیوه محاسبات مربوط به رگرسیون خطی که در مطلب رگرسیون خطی — مفهوم و محاسبات به زبان ساده قابل مطالعه است، خالی از لطف نیست.
تحلیل واریانس (Anova)

تحلیل واریانس و روش‌های تجزیه واریانس، یکی دسته از مدل‌های آماری هستند که قادرند اختلاف بین گروه‌ها یا دسته‌ها را بررسی کنند. این روش توسط «رونالد فیشر» (R. A. Fisher) بیولوژیست و آمارشناس مشهور، ابداع شده است. او در کتاب معروف خود به نام «روش‌های آماری برای محققین» ( Statistical Methods for Research Workers) به بررسی و شیوه تفکیک واریانس پرداخت و به کمک آن بسیاری از آزمون‌های فرض آماری را تشکیل داد. اساس همه این روش‌ها، تفکیک واریانس یا پراکندگی داده‌ها به چند جزء بود. امروزه کاربرد تحلیل واریانس که با این ایده انجام شده، بسیار زیاد است. در ساده‌ترین شکل، تحلیل واریانس می‌تواند به عنوان یک روش برای آزمون فرض مقایسه میانگین در بین چند جامعه مستقل به کار رود. این کار به عنوان یک جایگزین برای آزمون فرض با استفاده از آماره آزمون T است.
تحلیل واریانس در حالت کلاسیک راه حلی است که سه عمل زیر را همزمان انجام می‌دهد:
[list=1]

[*]تجزیه مجموع مربعات کل به مجموع مربعات اجزا حاصل از مدل خطی

[*]مقایسه میانگین مربعات، به کمک آماره و آزمون F

[*]آزمون پارامترهای مدل به منظور دستیابی به مدل آماری مناسب
[/list]
شرط‌هایی که باید در هنگام استفاد از تحلیل واریانس در نظر گرفت در لیست زیر قرار گرفته‌اند:
[list]

[*]مقدارهای هر گروه یا جامعه باید دارای توزیع نرمال باشند.

[*]واریانس در هر گروه ثابت باشد. این امر نشان می‌دهد که نباید داده‌ها شامل «نقاط دورافتاده» (Outlier) باشند.

[*]واریانس گروه‌ها با یکدیگر برابر باشند.

[*]میانگین در بین گروه‌ها متفاوت باشد. در حقیقت این همان عبارتی است که به عنوان فرض مقابل در تحلیل واریانس به دنبالش هستیم.
[/list]
تحلیل واریانس و رگرسیون خطی
در اینجا بهتر است یکی از کاربردهای تحلیل واریانس در رگرسیون را یادآور شویم. اساس کار در تحلیل واریانس، تجزیه واریانس متغیر وابسته به دو بخش است، بخشی از تغییرات یا پراکندگی که توسط مدل رگرسیونی قابل نمایش است و بخشی که توسط جمله خطا تعیین می‌شود. فرض کنید مدل رگرسیونی به صورت زیر داریم:
y=β0+β1X1+β2X2+…+βpXp+ey=β0+β1X1+β2X2+…+βpXp+e
که
βiβi
[size=undefined] پارامترهای مدل و e نیز جمله خطا است. پس در این حالت اگر مجموع مربعات کل را SST، مجموع مربعات خطا را SSE و مجموع مربعات تفاضل مقدارهای برآورد شده از واقعی (پراکندگی داده‌ها مدل) را SSR بنامیم، می‌توان رابطه زیر را نوشت:[/size]
SST= SSR+SSE
در صورتی که مدل رگرسیون مناسب باشد،‌ انتظار داریم سهم SSR از SST زیاد باشد، بطوری که بیشتر تغییرات متغیر وابسته توسط مدل رگرسیون توصیف شود. برای محاسبه واریانس از روی هر یک از مجموع مربعات کافی است، حاصل را بر تعداد جملاتشان تقسیم کنیم. به این ترتیب مقدارهای جدیدی به نام‌های «میانگین مربعات خطا» (MSE)،‌ «میانگین مربعات رگرسیون» (MSR) بوجود می‌آیند.
بر همین مبنا و بر اساس این مقدارها، سطرها و ستون‌های جدولی که به جدول تحلیل واریانس (ANOVA) معروف است، ساخته می‌شوند:
منشاء تغییرات
درجه آزادی
مجموع مربعات
میانگین مربعات
آماره F
رگرسیون
p
SSR
MSR=
SSR
p
[size=undefined][size=undefined]MSR=SSRp[/size]
F=[/size]
MSR
MSE
[size=undefined][size=undefined]F=MSRMSE[/size]
خطا
n-p-1
SSE
MSE=[/size]
SSE
n−p−1
[size=undefined][size=undefined]MSE=SSEn−p−1[/size]
کل
n-1
SST
[/size]
در سطر اول که مربوط به مدل رگرسیونی است، «درجه آزادی» (Degree of Freedom) همان تعداد پارامترهای رگرسیون خطی (p) ثبت شده و در سطر مربوط به خطا نیز درجه آزادی n-p-1 در نظر گرفته می‌شود. پس به نظر می‌رسد همان رابطه‌ای که بین مجموع مربعات دیده شد بین درجه آزادی‌های جدول تحلیل واریانس نیز وجود دارد. یعنی:
n−1=n−p−1+pn−1=n−p−1+p
از آنجایی که نسبت میانگین مربعات دارای توزیع آماری F است با مراجعه به جدول این توزیع و محاسبه صدک مربوطه، چنانچه متوجه شدیم که مقدار محاسبه شده برای F بزرگتر از مقدار جدول توزیع F با
pp
[size=undefined]‌ و [/size]
n−p−1n−p−1
[size=undefined] درجه آزادی در صدک [/size]
1−α1−α
[size=undefined]ام است، پس مدل رگرسیون توانسته بیشتر تغییرات متغیر وابسته را در خود جای دهد در نتیجه مدل مناسبی توسط روش رگرسیونی ارائه شده.
[size=undefined]احتمال خطای نوع اول در نظر گرفته شده است.[/size]
تحلیل واریانس و آزمون مقایسه میانگین چند جامعه
فرض کنید قرار است در مورد یکسان بودن دو یا چند جامعه تحقیق کنید. یکی از شاخص‌های قابل استفاده برای بیان ویژگی‌های جامعه‌ها، می‌تواند میانگین باشد. با مقایسه میانگین و تشخیص برابری یا نابرابر بودن آن‌ها در بین جامعه‌ها، می‌توان رای به یکسان یا متفاوت بودن آن‌ها داد. بنابراین اگر یکی از میانگین‌ها با بقیه تفاوت داشته باشد، متوجه می‌شویم که جوامع مانند یکدیگر نیستند.