20-05-2019, 12:05 PM
از ابزارهای پرکاربرد در آزمون فرض و تحقیقات آماری، «تحلیل واریانس» (Analysis of Variance) است. در این روش سعی بر این است که اختلاف بین چند جامعه آماری، ارزیابی شود. با توجه به پراکندگی کل دادهها، تجزیه واریانس بین گروههای مختلف در این روش امکانپذیر است. به این ترتیب میتوان برابر بودن میانگین را بین گروههای مختلف آزمود. همچنین در مدلهای رگرسیونی با تجزیه واریانس کل به واریانس مدل و واریانس خطا تشخیص مناسب بودن مدل قابل ارزیابی است.
برای آگاهی از مفاهیم اولیه آزمونهای فرض آماری به مطلب تحلیلها و آزمونهای آماری — مفاهیم و اصطلاحات و برای آشنایی با روشهای آزمون فرض میانگین به آزمون فرض میانگین جامعه در آمار — به زبان ساده مراجعه کنید. همچنین اطلاع از شیوه محاسبات مربوط به رگرسیون خطی که در مطلب رگرسیون خطی — مفهوم و محاسبات به زبان ساده قابل مطالعه است، خالی از لطف نیست.
تحلیل واریانس (Anova)
تحلیل واریانس و روشهای تجزیه واریانس، یکی دسته از مدلهای آماری هستند که قادرند اختلاف بین گروهها یا دستهها را بررسی کنند. این روش توسط «رونالد فیشر» (R. A. Fisher) بیولوژیست و آمارشناس مشهور، ابداع شده است. او در کتاب معروف خود به نام «روشهای آماری برای محققین» ( Statistical Methods for Research Workers) به بررسی و شیوه تفکیک واریانس پرداخت و به کمک آن بسیاری از آزمونهای فرض آماری را تشکیل داد. اساس همه این روشها، تفکیک واریانس یا پراکندگی دادهها به چند جزء بود. امروزه کاربرد تحلیل واریانس که با این ایده انجام شده، بسیار زیاد است. در سادهترین شکل، تحلیل واریانس میتواند به عنوان یک روش برای آزمون فرض مقایسه میانگین در بین چند جامعه مستقل به کار رود. این کار به عنوان یک جایگزین برای آزمون فرض با استفاده از آماره آزمون T است.
تحلیل واریانس در حالت کلاسیک راه حلی است که سه عمل زیر را همزمان انجام میدهد:
[list=1]
[*]تجزیه مجموع مربعات کل به مجموع مربعات اجزا حاصل از مدل خطی
[*]مقایسه میانگین مربعات، به کمک آماره و آزمون F
[*]آزمون پارامترهای مدل به منظور دستیابی به مدل آماری مناسب
[/list]
شرطهایی که باید در هنگام استفاد از تحلیل واریانس در نظر گرفت در لیست زیر قرار گرفتهاند:
[list]
[*]مقدارهای هر گروه یا جامعه باید دارای توزیع نرمال باشند.
[*]واریانس در هر گروه ثابت باشد. این امر نشان میدهد که نباید دادهها شامل «نقاط دورافتاده» (Outlier) باشند.
[*]واریانس گروهها با یکدیگر برابر باشند.
[*]میانگین در بین گروهها متفاوت باشد. در حقیقت این همان عبارتی است که به عنوان فرض مقابل در تحلیل واریانس به دنبالش هستیم.
[/list]
تحلیل واریانس و رگرسیون خطی
در اینجا بهتر است یکی از کاربردهای تحلیل واریانس در رگرسیون را یادآور شویم. اساس کار در تحلیل واریانس، تجزیه واریانس متغیر وابسته به دو بخش است، بخشی از تغییرات یا پراکندگی که توسط مدل رگرسیونی قابل نمایش است و بخشی که توسط جمله خطا تعیین میشود. فرض کنید مدل رگرسیونی به صورت زیر داریم:
y=β0+β1X1+β2X2+…+βpXp+ey=β0+β1X1+β2X2+…+βpXp+e
که
βiβi
[size=undefined] پارامترهای مدل و e نیز جمله خطا است. پس در این حالت اگر مجموع مربعات کل را SST، مجموع مربعات خطا را SSE و مجموع مربعات تفاضل مقدارهای برآورد شده از واقعی (پراکندگی دادهها مدل) را SSR بنامیم، میتوان رابطه زیر را نوشت:[/size]
SST= SSR+SSE
در صورتی که مدل رگرسیون مناسب باشد، انتظار داریم سهم SSR از SST زیاد باشد، بطوری که بیشتر تغییرات متغیر وابسته توسط مدل رگرسیون توصیف شود. برای محاسبه واریانس از روی هر یک از مجموع مربعات کافی است، حاصل را بر تعداد جملاتشان تقسیم کنیم. به این ترتیب مقدارهای جدیدی به نامهای «میانگین مربعات خطا» (MSE)، «میانگین مربعات رگرسیون» (MSR) بوجود میآیند.
بر همین مبنا و بر اساس این مقدارها، سطرها و ستونهای جدولی که به جدول تحلیل واریانس (ANOVA) معروف است، ساخته میشوند:
منشاء تغییرات
درجه آزادی
مجموع مربعات
میانگین مربعات
آماره F
رگرسیون
p
SSR
MSR=
SSR
p
[size=undefined][size=undefined]MSR=SSRp[/size]
F=[/size]
MSR
MSE
[size=undefined][size=undefined]F=MSRMSE[/size]
خطا
n-p-1
SSE
MSE=[/size]
SSE
n−p−1
[size=undefined][size=undefined]MSE=SSEn−p−1[/size]
کل
n-1
SST
[/size]
در سطر اول که مربوط به مدل رگرسیونی است، «درجه آزادی» (Degree of Freedom) همان تعداد پارامترهای رگرسیون خطی (p) ثبت شده و در سطر مربوط به خطا نیز درجه آزادی n-p-1 در نظر گرفته میشود. پس به نظر میرسد همان رابطهای که بین مجموع مربعات دیده شد بین درجه آزادیهای جدول تحلیل واریانس نیز وجود دارد. یعنی:
n−1=n−p−1+pn−1=n−p−1+p
از آنجایی که نسبت میانگین مربعات دارای توزیع آماری F است با مراجعه به جدول این توزیع و محاسبه صدک مربوطه، چنانچه متوجه شدیم که مقدار محاسبه شده برای F بزرگتر از مقدار جدول توزیع F با
pp
[size=undefined] و [/size]
n−p−1n−p−1
[size=undefined] درجه آزادی در صدک [/size]
1−α1−α
[size=undefined]ام است، پس مدل رگرسیون توانسته بیشتر تغییرات متغیر وابسته را در خود جای دهد در نتیجه مدل مناسبی توسط روش رگرسیونی ارائه شده. در اینجا [/size]
αα
[size=undefined]احتمال خطای نوع اول در نظر گرفته شده است.[/size]
تحلیل واریانس و آزمون مقایسه میانگین چند جامعه
فرض کنید قرار است در مورد یکسان بودن دو یا چند جامعه تحقیق کنید. یکی از شاخصهای قابل استفاده برای بیان ویژگیهای جامعهها، میتواند میانگین باشد. با مقایسه میانگین و تشخیص برابری یا نابرابر بودن آنها در بین جامعهها، میتوان رای به یکسان یا متفاوت بودن آنها داد. بنابراین اگر یکی از میانگینها با بقیه تفاوت داشته باشد، متوجه میشویم که جوامع مانند یکدیگر نیستند.
با توجه به این موضوع، میتوان فرضیههای آزمون برای مقایسه میانگین k جامعه را به صورت زیر نوشت:
{H0:μ1=μ2=…=μkH1:therearesomeμ′snotequalwithothers{H0:μ1=μ2=…=μkH1:therearesomeμ′snotequalwithothers
در اینجا فرض مقابل یا
H1H1
[size=undefined] بیان میکند که حداقل یکی از میانگینها با بقیه تفاوت دارد. میدانیم که احتمال خطای نوع اول برای مسئله اصلی آزمون به صورت زیر نوشته میشود:[/size]
از ابزارهای پرکاربرد در آزمون فرض و تحقیقات آماری، «تحلیل واریانس» (Analysis of Variance) است. در این روش سعی بر این است که اختلاف بین چند جامعه آماری، ارزیابی شود. با توجه به پراکندگی کل دادهها، تجزیه واریانس بین گروههای مختلف در این روش امکانپذیر است. به این ترتیب میتوان برابر بودن میانگین را بین گروههای مختلف آزمود. همچنین در مدلهای رگرسیونی با تجزیه واریانس کل به واریانس مدل و واریانس خطا تشخیص مناسب بودن مدل قابل ارزیابی است.
برای آگاهی از مفاهیم اولیه آزمونهای فرض آماری به مطلب تحلیلها و آزمونهای آماری — مفاهیم و اصطلاحات و برای آشنایی با روشهای آزمون فرض میانگین به آزمون فرض میانگین جامعه در آمار — به زبان ساده مراجعه کنید. همچنین اطلاع از شیوه محاسبات مربوط به رگرسیون خطی که در مطلب رگرسیون خطی — مفهوم و محاسبات به زبان ساده قابل مطالعه است، خالی از لطف نیست.
تحلیل واریانس (Anova)
تحلیل واریانس و روشهای تجزیه واریانس، یکی دسته از مدلهای آماری هستند که قادرند اختلاف بین گروهها یا دستهها را بررسی کنند. این روش توسط «رونالد فیشر» (R. A. Fisher) بیولوژیست و آمارشناس مشهور، ابداع شده است. او در کتاب معروف خود به نام «روشهای آماری برای محققین» ( Statistical Methods for Research Workers) به بررسی و شیوه تفکیک واریانس پرداخت و به کمک آن بسیاری از آزمونهای فرض آماری را تشکیل داد. اساس همه این روشها، تفکیک واریانس یا پراکندگی دادهها به چند جزء بود. امروزه کاربرد تحلیل واریانس که با این ایده انجام شده، بسیار زیاد است. در سادهترین شکل، تحلیل واریانس میتواند به عنوان یک روش برای آزمون فرض مقایسه میانگین در بین چند جامعه مستقل به کار رود. این کار به عنوان یک جایگزین برای آزمون فرض با استفاده از آماره آزمون T است.
تحلیل واریانس در حالت کلاسیک راه حلی است که سه عمل زیر را همزمان انجام میدهد:
[list=1]
[*]تجزیه مجموع مربعات کل به مجموع مربعات اجزا حاصل از مدل خطی
[*]مقایسه میانگین مربعات، به کمک آماره و آزمون F
[*]آزمون پارامترهای مدل به منظور دستیابی به مدل آماری مناسب
[/list]
شرطهایی که باید در هنگام استفاد از تحلیل واریانس در نظر گرفت در لیست زیر قرار گرفتهاند:
[list]
[*]مقدارهای هر گروه یا جامعه باید دارای توزیع نرمال باشند.
[*]واریانس در هر گروه ثابت باشد. این امر نشان میدهد که نباید دادهها شامل «نقاط دورافتاده» (Outlier) باشند.
[*]واریانس گروهها با یکدیگر برابر باشند.
[*]میانگین در بین گروهها متفاوت باشد. در حقیقت این همان عبارتی است که به عنوان فرض مقابل در تحلیل واریانس به دنبالش هستیم.
[/list]
تحلیل واریانس و رگرسیون خطی
در اینجا بهتر است یکی از کاربردهای تحلیل واریانس در رگرسیون را یادآور شویم. اساس کار در تحلیل واریانس، تجزیه واریانس متغیر وابسته به دو بخش است، بخشی از تغییرات یا پراکندگی که توسط مدل رگرسیونی قابل نمایش است و بخشی که توسط جمله خطا تعیین میشود. فرض کنید مدل رگرسیونی به صورت زیر داریم:
y=β0+β1X1+β2X2+…+βpXp+ey=β0+β1X1+β2X2+…+βpXp+e
که
βiβi
[size=undefined] پارامترهای مدل و e نیز جمله خطا است. پس در این حالت اگر مجموع مربعات کل را SST، مجموع مربعات خطا را SSE و مجموع مربعات تفاضل مقدارهای برآورد شده از واقعی (پراکندگی دادهها مدل) را SSR بنامیم، میتوان رابطه زیر را نوشت:[/size]
SST= SSR+SSE
در صورتی که مدل رگرسیون مناسب باشد، انتظار داریم سهم SSR از SST زیاد باشد، بطوری که بیشتر تغییرات متغیر وابسته توسط مدل رگرسیون توصیف شود. برای محاسبه واریانس از روی هر یک از مجموع مربعات کافی است، حاصل را بر تعداد جملاتشان تقسیم کنیم. به این ترتیب مقدارهای جدیدی به نامهای «میانگین مربعات خطا» (MSE)، «میانگین مربعات رگرسیون» (MSR) بوجود میآیند.
بر همین مبنا و بر اساس این مقدارها، سطرها و ستونهای جدولی که به جدول تحلیل واریانس (ANOVA) معروف است، ساخته میشوند:
منشاء تغییرات
درجه آزادی
مجموع مربعات
میانگین مربعات
آماره F
رگرسیون
p
SSR
MSR=
SSR
p
[size=undefined][size=undefined]MSR=SSRp[/size]
F=[/size]
MSR
MSE
[size=undefined][size=undefined]F=MSRMSE[/size]
خطا
n-p-1
SSE
MSE=[/size]
SSE
n−p−1
[size=undefined][size=undefined]MSE=SSEn−p−1[/size]
کل
n-1
SST
[/size]
در سطر اول که مربوط به مدل رگرسیونی است، «درجه آزادی» (Degree of Freedom) همان تعداد پارامترهای رگرسیون خطی (p) ثبت شده و در سطر مربوط به خطا نیز درجه آزادی n-p-1 در نظر گرفته میشود. پس به نظر میرسد همان رابطهای که بین مجموع مربعات دیده شد بین درجه آزادیهای جدول تحلیل واریانس نیز وجود دارد. یعنی:
n−1=n−p−1+pn−1=n−p−1+p
از آنجایی که نسبت میانگین مربعات دارای توزیع آماری F است با مراجعه به جدول این توزیع و محاسبه صدک مربوطه، چنانچه متوجه شدیم که مقدار محاسبه شده برای F بزرگتر از مقدار جدول توزیع F با
pp
[size=undefined] و [/size]
n−p−1n−p−1
[size=undefined] درجه آزادی در صدک [/size]
1−α1−α
[size=undefined]ام است، پس مدل رگرسیون توانسته بیشتر تغییرات متغیر وابسته را در خود جای دهد در نتیجه مدل مناسبی توسط روش رگرسیونی ارائه شده.
[size=undefined]احتمال خطای نوع اول در نظر گرفته شده است.[/size]
تحلیل واریانس و آزمون مقایسه میانگین چند جامعه
فرض کنید قرار است در مورد یکسان بودن دو یا چند جامعه تحقیق کنید. یکی از شاخصهای قابل استفاده برای بیان ویژگیهای جامعهها، میتواند میانگین باشد. با مقایسه میانگین و تشخیص برابری یا نابرابر بودن آنها در بین جامعهها، میتوان رای به یکسان یا متفاوت بودن آنها داد. بنابراین اگر یکی از میانگینها با بقیه تفاوت داشته باشد، متوجه میشویم که جوامع مانند یکدیگر نیستند.
برای آگاهی از مفاهیم اولیه آزمونهای فرض آماری به مطلب تحلیلها و آزمونهای آماری — مفاهیم و اصطلاحات و برای آشنایی با روشهای آزمون فرض میانگین به آزمون فرض میانگین جامعه در آمار — به زبان ساده مراجعه کنید. همچنین اطلاع از شیوه محاسبات مربوط به رگرسیون خطی که در مطلب رگرسیون خطی — مفهوم و محاسبات به زبان ساده قابل مطالعه است، خالی از لطف نیست.
تحلیل واریانس (Anova)
تحلیل واریانس و روشهای تجزیه واریانس، یکی دسته از مدلهای آماری هستند که قادرند اختلاف بین گروهها یا دستهها را بررسی کنند. این روش توسط «رونالد فیشر» (R. A. Fisher) بیولوژیست و آمارشناس مشهور، ابداع شده است. او در کتاب معروف خود به نام «روشهای آماری برای محققین» ( Statistical Methods for Research Workers) به بررسی و شیوه تفکیک واریانس پرداخت و به کمک آن بسیاری از آزمونهای فرض آماری را تشکیل داد. اساس همه این روشها، تفکیک واریانس یا پراکندگی دادهها به چند جزء بود. امروزه کاربرد تحلیل واریانس که با این ایده انجام شده، بسیار زیاد است. در سادهترین شکل، تحلیل واریانس میتواند به عنوان یک روش برای آزمون فرض مقایسه میانگین در بین چند جامعه مستقل به کار رود. این کار به عنوان یک جایگزین برای آزمون فرض با استفاده از آماره آزمون T است.
تحلیل واریانس در حالت کلاسیک راه حلی است که سه عمل زیر را همزمان انجام میدهد:
[list=1]
[*]تجزیه مجموع مربعات کل به مجموع مربعات اجزا حاصل از مدل خطی
[*]مقایسه میانگین مربعات، به کمک آماره و آزمون F
[*]آزمون پارامترهای مدل به منظور دستیابی به مدل آماری مناسب
[/list]
شرطهایی که باید در هنگام استفاد از تحلیل واریانس در نظر گرفت در لیست زیر قرار گرفتهاند:
[list]
[*]مقدارهای هر گروه یا جامعه باید دارای توزیع نرمال باشند.
[*]واریانس در هر گروه ثابت باشد. این امر نشان میدهد که نباید دادهها شامل «نقاط دورافتاده» (Outlier) باشند.
[*]واریانس گروهها با یکدیگر برابر باشند.
[*]میانگین در بین گروهها متفاوت باشد. در حقیقت این همان عبارتی است که به عنوان فرض مقابل در تحلیل واریانس به دنبالش هستیم.
[/list]
تحلیل واریانس و رگرسیون خطی
در اینجا بهتر است یکی از کاربردهای تحلیل واریانس در رگرسیون را یادآور شویم. اساس کار در تحلیل واریانس، تجزیه واریانس متغیر وابسته به دو بخش است، بخشی از تغییرات یا پراکندگی که توسط مدل رگرسیونی قابل نمایش است و بخشی که توسط جمله خطا تعیین میشود. فرض کنید مدل رگرسیونی به صورت زیر داریم:
y=β0+β1X1+β2X2+…+βpXp+ey=β0+β1X1+β2X2+…+βpXp+e
که
βiβi
[size=undefined] پارامترهای مدل و e نیز جمله خطا است. پس در این حالت اگر مجموع مربعات کل را SST، مجموع مربعات خطا را SSE و مجموع مربعات تفاضل مقدارهای برآورد شده از واقعی (پراکندگی دادهها مدل) را SSR بنامیم، میتوان رابطه زیر را نوشت:[/size]
SST= SSR+SSE
در صورتی که مدل رگرسیون مناسب باشد، انتظار داریم سهم SSR از SST زیاد باشد، بطوری که بیشتر تغییرات متغیر وابسته توسط مدل رگرسیون توصیف شود. برای محاسبه واریانس از روی هر یک از مجموع مربعات کافی است، حاصل را بر تعداد جملاتشان تقسیم کنیم. به این ترتیب مقدارهای جدیدی به نامهای «میانگین مربعات خطا» (MSE)، «میانگین مربعات رگرسیون» (MSR) بوجود میآیند.
بر همین مبنا و بر اساس این مقدارها، سطرها و ستونهای جدولی که به جدول تحلیل واریانس (ANOVA) معروف است، ساخته میشوند:
منشاء تغییرات
درجه آزادی
مجموع مربعات
میانگین مربعات
آماره F
رگرسیون
p
SSR
MSR=
SSR
p
[size=undefined][size=undefined]MSR=SSRp[/size]
F=[/size]
MSR
MSE
[size=undefined][size=undefined]F=MSRMSE[/size]
خطا
n-p-1
SSE
MSE=[/size]
SSE
n−p−1
[size=undefined][size=undefined]MSE=SSEn−p−1[/size]
کل
n-1
SST
[/size]
در سطر اول که مربوط به مدل رگرسیونی است، «درجه آزادی» (Degree of Freedom) همان تعداد پارامترهای رگرسیون خطی (p) ثبت شده و در سطر مربوط به خطا نیز درجه آزادی n-p-1 در نظر گرفته میشود. پس به نظر میرسد همان رابطهای که بین مجموع مربعات دیده شد بین درجه آزادیهای جدول تحلیل واریانس نیز وجود دارد. یعنی:
n−1=n−p−1+pn−1=n−p−1+p
از آنجایی که نسبت میانگین مربعات دارای توزیع آماری F است با مراجعه به جدول این توزیع و محاسبه صدک مربوطه، چنانچه متوجه شدیم که مقدار محاسبه شده برای F بزرگتر از مقدار جدول توزیع F با
pp
[size=undefined] و [/size]
n−p−1n−p−1
[size=undefined] درجه آزادی در صدک [/size]
1−α1−α
[size=undefined]ام است، پس مدل رگرسیون توانسته بیشتر تغییرات متغیر وابسته را در خود جای دهد در نتیجه مدل مناسبی توسط روش رگرسیونی ارائه شده. در اینجا [/size]
αα
[size=undefined]احتمال خطای نوع اول در نظر گرفته شده است.[/size]
تحلیل واریانس و آزمون مقایسه میانگین چند جامعه
فرض کنید قرار است در مورد یکسان بودن دو یا چند جامعه تحقیق کنید. یکی از شاخصهای قابل استفاده برای بیان ویژگیهای جامعهها، میتواند میانگین باشد. با مقایسه میانگین و تشخیص برابری یا نابرابر بودن آنها در بین جامعهها، میتوان رای به یکسان یا متفاوت بودن آنها داد. بنابراین اگر یکی از میانگینها با بقیه تفاوت داشته باشد، متوجه میشویم که جوامع مانند یکدیگر نیستند.
با توجه به این موضوع، میتوان فرضیههای آزمون برای مقایسه میانگین k جامعه را به صورت زیر نوشت:
{H0:μ1=μ2=…=μkH1:therearesomeμ′snotequalwithothers{H0:μ1=μ2=…=μkH1:therearesomeμ′snotequalwithothers
در اینجا فرض مقابل یا
H1H1
[size=undefined] بیان میکند که حداقل یکی از میانگینها با بقیه تفاوت دارد. میدانیم که احتمال خطای نوع اول برای مسئله اصلی آزمون به صورت زیر نوشته میشود:[/size]
از ابزارهای پرکاربرد در آزمون فرض و تحقیقات آماری، «تحلیل واریانس» (Analysis of Variance) است. در این روش سعی بر این است که اختلاف بین چند جامعه آماری، ارزیابی شود. با توجه به پراکندگی کل دادهها، تجزیه واریانس بین گروههای مختلف در این روش امکانپذیر است. به این ترتیب میتوان برابر بودن میانگین را بین گروههای مختلف آزمود. همچنین در مدلهای رگرسیونی با تجزیه واریانس کل به واریانس مدل و واریانس خطا تشخیص مناسب بودن مدل قابل ارزیابی است.
برای آگاهی از مفاهیم اولیه آزمونهای فرض آماری به مطلب تحلیلها و آزمونهای آماری — مفاهیم و اصطلاحات و برای آشنایی با روشهای آزمون فرض میانگین به آزمون فرض میانگین جامعه در آمار — به زبان ساده مراجعه کنید. همچنین اطلاع از شیوه محاسبات مربوط به رگرسیون خطی که در مطلب رگرسیون خطی — مفهوم و محاسبات به زبان ساده قابل مطالعه است، خالی از لطف نیست.
تحلیل واریانس (Anova)
تحلیل واریانس و روشهای تجزیه واریانس، یکی دسته از مدلهای آماری هستند که قادرند اختلاف بین گروهها یا دستهها را بررسی کنند. این روش توسط «رونالد فیشر» (R. A. Fisher) بیولوژیست و آمارشناس مشهور، ابداع شده است. او در کتاب معروف خود به نام «روشهای آماری برای محققین» ( Statistical Methods for Research Workers) به بررسی و شیوه تفکیک واریانس پرداخت و به کمک آن بسیاری از آزمونهای فرض آماری را تشکیل داد. اساس همه این روشها، تفکیک واریانس یا پراکندگی دادهها به چند جزء بود. امروزه کاربرد تحلیل واریانس که با این ایده انجام شده، بسیار زیاد است. در سادهترین شکل، تحلیل واریانس میتواند به عنوان یک روش برای آزمون فرض مقایسه میانگین در بین چند جامعه مستقل به کار رود. این کار به عنوان یک جایگزین برای آزمون فرض با استفاده از آماره آزمون T است.
تحلیل واریانس در حالت کلاسیک راه حلی است که سه عمل زیر را همزمان انجام میدهد:
[list=1]
[*]تجزیه مجموع مربعات کل به مجموع مربعات اجزا حاصل از مدل خطی
[*]مقایسه میانگین مربعات، به کمک آماره و آزمون F
[*]آزمون پارامترهای مدل به منظور دستیابی به مدل آماری مناسب
[/list]
شرطهایی که باید در هنگام استفاد از تحلیل واریانس در نظر گرفت در لیست زیر قرار گرفتهاند:
[list]
[*]مقدارهای هر گروه یا جامعه باید دارای توزیع نرمال باشند.
[*]واریانس در هر گروه ثابت باشد. این امر نشان میدهد که نباید دادهها شامل «نقاط دورافتاده» (Outlier) باشند.
[*]واریانس گروهها با یکدیگر برابر باشند.
[*]میانگین در بین گروهها متفاوت باشد. در حقیقت این همان عبارتی است که به عنوان فرض مقابل در تحلیل واریانس به دنبالش هستیم.
[/list]
تحلیل واریانس و رگرسیون خطی
در اینجا بهتر است یکی از کاربردهای تحلیل واریانس در رگرسیون را یادآور شویم. اساس کار در تحلیل واریانس، تجزیه واریانس متغیر وابسته به دو بخش است، بخشی از تغییرات یا پراکندگی که توسط مدل رگرسیونی قابل نمایش است و بخشی که توسط جمله خطا تعیین میشود. فرض کنید مدل رگرسیونی به صورت زیر داریم:
y=β0+β1X1+β2X2+…+βpXp+ey=β0+β1X1+β2X2+…+βpXp+e
که
βiβi
[size=undefined] پارامترهای مدل و e نیز جمله خطا است. پس در این حالت اگر مجموع مربعات کل را SST، مجموع مربعات خطا را SSE و مجموع مربعات تفاضل مقدارهای برآورد شده از واقعی (پراکندگی دادهها مدل) را SSR بنامیم، میتوان رابطه زیر را نوشت:[/size]
SST= SSR+SSE
در صورتی که مدل رگرسیون مناسب باشد، انتظار داریم سهم SSR از SST زیاد باشد، بطوری که بیشتر تغییرات متغیر وابسته توسط مدل رگرسیون توصیف شود. برای محاسبه واریانس از روی هر یک از مجموع مربعات کافی است، حاصل را بر تعداد جملاتشان تقسیم کنیم. به این ترتیب مقدارهای جدیدی به نامهای «میانگین مربعات خطا» (MSE)، «میانگین مربعات رگرسیون» (MSR) بوجود میآیند.
بر همین مبنا و بر اساس این مقدارها، سطرها و ستونهای جدولی که به جدول تحلیل واریانس (ANOVA) معروف است، ساخته میشوند:
منشاء تغییرات
درجه آزادی
مجموع مربعات
میانگین مربعات
آماره F
رگرسیون
p
SSR
MSR=
SSR
p
[size=undefined][size=undefined]MSR=SSRp[/size]
F=[/size]
MSR
MSE
[size=undefined][size=undefined]F=MSRMSE[/size]
خطا
n-p-1
SSE
MSE=[/size]
SSE
n−p−1
[size=undefined][size=undefined]MSE=SSEn−p−1[/size]
کل
n-1
SST
[/size]
در سطر اول که مربوط به مدل رگرسیونی است، «درجه آزادی» (Degree of Freedom) همان تعداد پارامترهای رگرسیون خطی (p) ثبت شده و در سطر مربوط به خطا نیز درجه آزادی n-p-1 در نظر گرفته میشود. پس به نظر میرسد همان رابطهای که بین مجموع مربعات دیده شد بین درجه آزادیهای جدول تحلیل واریانس نیز وجود دارد. یعنی:
n−1=n−p−1+pn−1=n−p−1+p
از آنجایی که نسبت میانگین مربعات دارای توزیع آماری F است با مراجعه به جدول این توزیع و محاسبه صدک مربوطه، چنانچه متوجه شدیم که مقدار محاسبه شده برای F بزرگتر از مقدار جدول توزیع F با
pp
[size=undefined] و [/size]
n−p−1n−p−1
[size=undefined] درجه آزادی در صدک [/size]
1−α1−α
[size=undefined]ام است، پس مدل رگرسیون توانسته بیشتر تغییرات متغیر وابسته را در خود جای دهد در نتیجه مدل مناسبی توسط روش رگرسیونی ارائه شده.
[size=undefined]احتمال خطای نوع اول در نظر گرفته شده است.[/size]
تحلیل واریانس و آزمون مقایسه میانگین چند جامعه
فرض کنید قرار است در مورد یکسان بودن دو یا چند جامعه تحقیق کنید. یکی از شاخصهای قابل استفاده برای بیان ویژگیهای جامعهها، میتواند میانگین باشد. با مقایسه میانگین و تشخیص برابری یا نابرابر بودن آنها در بین جامعهها، میتوان رای به یکسان یا متفاوت بودن آنها داد. بنابراین اگر یکی از میانگینها با بقیه تفاوت داشته باشد، متوجه میشویم که جوامع مانند یکدیگر نیستند.