رگرسيون چيست؟
رگرسيون = ربط دادن دو يا چند متغير به يكديگر
به عنوان مثال: براي جواب به سوال اينكه ميزان محصول گندم چگونه به انواع كود مصرف شده وابستگي دارد از اناليز واريانس استفاده مي كنيم ولي به سوال زير چگونه پاسخ دهيم؟
– ميزان محصول چگونه به مقادير متفاوت كود بستگي دارد؟
راه حل زير را امتحان مي كنيم:
ميزان مصرف كود را بر روي يك مقياس عددي مشخص مي كنيم چنانچه نمودار ميزان محصول (Y) را كه از مصرف مقادير مختلف كود(X) حاصل مي شود رسم مي كنيم تا يك نمودار پراكنش حاصل شود. حال چگونگي اين تاثير را به وسيله ي معادله اي كه Y و X را به يكديگر ربط دهد توصيف كرده براورد كردن يك معدله از لحاظ هندسي معادل است با برازاندن يك خط به اين پراكنش كه اين خط رگرسيون نام دارد.
سوال بعدي كه پيش مي آيد اين است كه چگونه يك خط مستقيم را مي توان به بهترين شكل برازاند.
رگرسيون ساده يا چندگانه؟(رگرسيون برآمده)
مي خواهيم رابطه ي ميزان بارندگي با ميزان محصول را بررسي كنيم با توجه به داده هاي حاصل شده معادله ي رگرسيون ساده را مي نويسيم ولي گاهي اوقات ضريب منفي ممكن است نتيجه ي اشتباه را باعث شود مثلا باعث اين نتيجه گيري شود كه بارندگي ميزان محصول را كاهش مي دهد. دليل اين نتيجه گيري آن است كه بارندگي درجه ي حرارت را پايين مي آورد و پايين بودن درجه حرارت كاهش ميزان محصول را نتيجه مي دهد.
پس ما بايد در پي راه حلي براي از بين بردن اين اثر غيرمستقيم باشيم ” هوئل و گنارد” براي حل اين مشكل رگرسيون چندگانه را پيشنهاد مي كند. امتياز بزرگ رگرسيون چندگانه از ميان برداشتن اريبي است.
رگرسيون غير خطي:
” همه رياضيات اشاره بر اين دارد كه خط راست ثابت بهترين است ، اما انحراف به چپ و راست با تاريخ همساز است- دابليو. اچ. اودن”
رابطه زير با رابطه اي متفاوت دو متغير را به هم ربط مي دهد:
Y = a + b X 2 در اينجا غير خطي بودن فقط مربوط به متغير است پس به راحتي مي توان تحليل رگرسيوني استاندارد را مستقيما به كار برد اما به مثال زير توجه كنيد:
Y = X b در اينجا مساله مشكلتر مي شود. وقتي غير خطي بودن به پارامتر مربوط شود چه بايد كرد؟ آمار به اين سوال اينگونه پاسخ مي دهد: تبديلي را انجام مي دهيم تا معادله را بر حسب پارامتر خطي كند و بعد بقيه عمليات را انجام مي دهيم.
رگرسيون لوجستيك:
در برخي مطالعات لازم است كه داده ها را به صورت گسسته و با نماد صفر و يك نشان دهيم مثلا در يك مطالعه ي پزشكي وضعيت سن افراد و اينكه آيا افراد داراي بيماري قلبي هستند يا نه را بررسي مي كنيم متغير ها را اينگونه تعريف مي كنيم:
0 = فرد داراي بيماري قلبي است
1 = فرد داراي بيماري قلبي نيست
داده هاي ما به صورت زوج مرتبي به دست مي آيند كه مولفه اول سن و مولفه دوم صفر يا يك است. مشكل اصلي در اينجا پيش مي آيد درست وقتي كه نمودار را رسم مي كنيم:
نمودار شامل n نقطه است كه برخي روي خط y = 0 و برخي ديگر روي خط y = 1 قرار مي گيرند چگونه مي تونيم خطي بر اين نقاط برازانيم؟
آماردانان رگرسيون لوجستيك را پيشنهاد مي دهند.