پایان نامه ارشد رایگان درمورد رگرسیون، بهینه سازی، شبکه عصبی

داده‌کاوی تا کنون ارائه شده و می‌توان از آنها برای بهینه سازی خرید استفاده کرد. به همین دلیل باید روشهای مختلف رگرسیون را اعمال کرد تا بتوان مقایسه ای بین روشها و انتخاب بهترین روش داشته باشیم. از روشهای مختلف خطی که توسط روش کمترین مربعات خطا بهینه میشوند را میتوان برای مقایسه بهکار برد. الگوریتم هایی که ما در این پایان نامه برای پیادهسازی درنظر گرفته ایم به این صورت است: MLP،SVR ،AdaBoost.R ، (BAGTREE)، (LR)، (LSSVR) . در این رساله، به شرح بعضی از آنها برای آشنایی بیشتر میپردازیم.
روش NN
یکی از روشهای مورد بررسی در این مطالعه برای پیشبینی تقاضای دارو ، شبکه عصبی است. از شبکههای عصبی مصنوعی که در واقع بر مبنای رگرسیون غیرخطی کار میکند به طور وسیعی در مسائل پیشبینی استفاده شده است که نتایج حاصل از بررسیها حکایت از دقت بالای این روش دارد. شبکه عصبی که در این مطالعه استفاده شده است، از دو لایه پنهان تشکیل شده است که در هر لایه، پنج نرون وجود دارد. تعداد تکرار (epoch) شبکه، 100 در نظر گرفته شده است. این مقادیر با سعی و خطا ایجاد شده اند. هر بار شبکه به ازای تمام دادهها منهای داده تست آموزش میبیند و شبکه آموزش داده شده برای داده تست مورد استفاده قرار میگیرد.
روش SVR
به طور کلی در مسئله رگرسیون، با داشتن داده های آموزش ، هدف یافتن تابعی مانند( رابطه 1)، می‌باشد که حداکثر به میزان، از هدف واقعی فاصله داشته باشد و همچنین به اندازه کافی هموار باشد.
(4-2)
شکل 4-2 پارامترهای مورد استفاده در SVM
که در آن، پارامتر ضریب بایاس، به عنوان یک بردار وزن و تابعی غیر‌خطی است که داده‌های بعدی را به صورت مجازی به بعد بالاتر می‌برد، در حقیقت بعد به صورت ضمنی تعریف می‌شود و حتی ممکن است که بی‌نهایت باشد.
همانطور که گفته شد، هدف مسئله این است که برای همه‌ی نمونه های آموزشی، حداکثر به میزان ، از مقادیر هدف واقعی انحراف داشته باشد، به عبارت دیگر، از خطاهای کمتر از چشم پوشی می‌شود. بنابراین از یک حد آستانه ϵبه منظور افزایش حاشیه و کاهش خطای کلی استفاده می‌شود (شکل 4-2). این روش برای تعیین خطا از تابع زیر() استفاده می کند.
(4-3)
و مسئله بهینه سازی رگرسیون بردار پشتیبان به صورت زیر خواهد بود:
(4-4)
پارامترهای و متغیر‌های شل، هستند که قیود بالا و پایین خروجی مدل را تعیین می‌کنند، پارامتر ، پهنای حاشیه و ضریب ثابت می‌باشد. با تغییر پارامتر، مدل تعیین می‌کند که پهنای حاشیه بیشتر مدنظر است یا خطای حاصله. اگر ضریب کوچک باشد نشان دهنده اهمیت بیشتر همواری مسئله نسبت به خطای حاصله است. در بهینه سازی باید شروط زیر برقرار باشد:
(4 -5)
برای حل مسئله از روش ضرایب Lagrange استفاده می شود و فرم زیر را خواهیم داشت:
(4-7)
که در آن ضرایب Lagrange می باشند. برای پیدا کردن نقطه زینی، از تابع مذکور، نسبت به متغیر‌های مشتق گرفته و برابر با صفر قرار داده می‌شود و در نهایت خواهیم داشت [69].
( 4-8)
بنابر تئوری مرسر، ضرب داخلی می تواند به صورت یک کرنل تعریف شود، بنابراین می‌توان معادله بالا را به صورت زیر بازنویسی نمود.
(4-9)
به طور کلی، کرنل‌های زیادی وجود دارند که از معروفترین آن‌ها می‌توان کرنل‌های خطی، چندجمله ای و تابع پایه شعاعی را نام برد.
( 4-10)
( 4- 11)
) 4-12)
در این پایان نامه از Radial Basis Function(RBF) به عنوان kernel استفاده شده است.
روش LSSVR
در این روش به جای حل یک مسئله برنامه‌نویسی دو گانه، یک سری مسائل خطی را حل می‌کند و در نتیجه پیچیدگی مسئله را کاهش می‌دهد. برای تخمین تابع در روش LSSVR از فرمول زیر استفاده می شود:
(4-13)
با محدودیت‌های ، که در آن ، متغیرهای خطا و ثابتی برای تنظیم می باشد.
فرم Lagrange این مسئله به صورت فرمول زیر خواهد بود که در آن، ضرایب لاگرانژ می‌باشد.
(4-14)
برای پیدا کردن نقطه زینی، از این تابع نسبت به متغیر های مشتق گرفته و برابر با صفر قرار داده می‌شود و در نهایت به معادلات خطی زیر می‌رسیم.
(4-15)
با حذف و ، معادلات خطی زیر را خواهیم داشت:
(4-16)
که در آن ،و می‌باشد. بنابر تئوری Mercer، ضرب داخلی می تواند به صورت یک kernel تعریف شود و داریم :
(4-17)
بعد از حل معادلات خطی و تعیین ، در نهایت معادله زیر را برای رگرسیون استفاده می‌شود:
(4-18)
به عنوان مقایسهی روش LSSVRبا روش SVR می‌توان گفت که در این روش برای محدودیت از تساوی استفاده شده در صورتی که در SVR، از نامساوی استفاده می‌شود. مزیت اصلی این روش، محاسبات ساده آن نسبت به روش SVR می‌باشد به این صورت که این روش از یک تابع حداقل مربعات به جای تابع خطای استفاده می‌کند. بنابراین با حل یک سیستم خطی KKT محاسبات کمتری نسبت به روش رگرسیون بردار پشتیبان که از محاسبات پیچیده Quadratic Programming انجام می‌شود و پیچیدگی را کاهش و در نتیجه سرعت را افزایش می‌دهد.
AdaBoost.R
برای مسائل رگرسیونی که توسط الگوریتم boosting محاسبه میشوند، میتوان از AdaBoost Regression استفاده کرد. برای یک مسئله با n نمونه S=((x1,y1), (x2,y2),… (xn,yn)، الگوریتم یادگیری A ، یک عدد صحیح T و یک عدد حقیقی Δ میتوان شبه کد الگوریتم AdaBoost Regression را به صورت زیر خلاصه کرد[70] :
Initialize the weight vector for i=1,…,N
Do for t=1,2,…,T
Set
Choose randomly with distribution P(t) the sample S(t) from S; Call the learning Algorithm A and get the hypothesis ht=AS(t)
Calculate the error if 1/2 then T=t-1 and abort loop.
Calculate
Set the new weight vector to be
Output: the hypothesis where
یک باند بالا برای خطای به صورت زیر داده میشود.
(4-19)
روش رگرسیونی AdaBoost یک روش بسیار قوی در مسائل مختلف بخصوص در ار زمینه پیش بینی انواع مدلها استفاده میشود. نتایج مطلوب آن در مسائل مختلف ما را بر آن داشت که در این پایاننامه برای پیشبینی تقاضا از آن استفاده کنیم.
مجموعه داده
در این پایاننامه، برای جمع آوری داده از داده‌های واقعی بیمارستان مرکزی شهر تاریخی بم که در پایگاه داده SQL SERVER سیستم اطلاعات بیمارستان با حجمی در حدود 220 GB و در مدت 5 سال ذخیره شدهاند، جهت استفاده در مدل‌ها و تکینیک های داده‌کاوی استفاده شد . برای استخراج داده ها از پایگاه داده سیستم از نرم افزار Crystal Reports استفاده شده است.
شکل 4-3 گزارش تهیه شده با کریستال ریپورت
این دادهها، کد داروها و جمع مصرفی آنها را مشخص میکنند. قسمتی از این مجموعه داده در شکل 4-4 آمده است.
شکل 4-4 خروجی گزارش کریستال ریپورت
جهت برازش مدلها چندین مجموعه داده در نظر گرفته شده است. ابتدا داده ها را به دو صورت ماه به ماه و فصل به فصل جدا میکنیم. مجموعه داده انتخاب شده به این صورت است که هر نوع دارو دارای یک مقدار تقاضای ماهیانه و همچنین فصلی در هر سال میباشد که درواقع جمع مصرفی آن داده یا مجموع تقاضای آنرا در طول یک ماه و یا فصل مشخص میکند.
پاکسازی داده
در این مرحله برای ارزیابی کارایی روشهای پیاده سازی شده، زیر مجموعه ای از داده حجیم انتخاب شده و به عنوان مجموعه داده نهایی مورد استفاده قرار میگیرد.این مجموعه داده نهایی میتواند نماینده تمام داده باشد به این دلیل که در آن دادههایی وجود دارند که بر اساس بیشترین واریانس تقاضا به دست آمده اند. از بین این مجموعه داده، سی داده که تقاضای آنها بیشترین واریانس را داشته اند به عنوان مجموعه داده پایه مورد استفاده قرار گرفته اند. در پایگاه داده، داروهایی موجود هستند که ممکن است میزان تقاضای آنها در بعضی از سالها بسیار پایین باشد و یا اینکه در تمام سالها تقاضای تقریبا یکسانی داشته باشند. این دادهها نمیتوانند در روند اجرای مسئله پیشبینی تاثیر بسزایی داشته باشند به این دلیل که واریانس این دادهها پایین است و میزان تغییرات آنها در ماهها، فصلها و سالهای مختلف بسیار پایین است. دادههایی که میزان تقاضای آنها طی ماههای متفاوت واریانس بالایی دارد، در روند پیشبینی تاثیر بیشتری دارند. سی دارو میتوانند نماینده تمام داروهای موجود در پایگاه داده باشند به این شرط که میزان تغییرات تقاضای آنها بالا باشد.
معیارهای ارزیابی
برای ارزیابی انواع روشها نیاز به استفاده از معیارهای مختلف ارزیابی است. به همین دلیل، در تمامی روشهای پیاده سازی شده، خطای پیش بینی روشهای فوق محاسبه میگردد و سپس با استفاده از تحلیل نتایج، سعی در ساختن یک مدل ترکیبی یا بهبود یکی از مدلهای ذکر شده برروی داده ها خواهیم پرداخت تا صحت پیش بینی افزایش یابد و مدل ارائه شده بتواند توسط تکنیک های داده کاوی باعث بهبود خرید دارو شود. برای میزان صحت پیش بینی تقاضا از معیارهای 17MSE18, RMSE19,MAE، 20MAPE و21 R2 استفاده شده است. هر کدام از این معیارها تحلیل متفاوتی دارند و از طریق فرمولهای زیر بهدست میآیند.
MAE و RMSE با استفاده از روابط (5-20) و (5-21) به دست می‌آیند.
(4-20)
(4-21) ‎
همچنین میانگین مربعات خطا MSE و ضریب تبیین R2 با استفاده از رابطه شماره (6-3) و(6-4) به ترتیب زیر تعیین می‌شود.
(4-22) ‎
(4-23)
هرچه R2 به یک نزدیکتر باشد نتیجه مطلوبتری را نشان میدهد. در بهترین حالت R2 برابر با یک می‌باشد.MAPE نیز از رابطه زیر محاسبه میشود.
(4-24)
در روابط فوق ، مقادیر مشاهداتی،، مقادیر برآوردشده و K تعداد داده‌ها می‌باشند.
جمع بندی:
در این فصل ابتدا چارچوب کلی روش مورد بررسی ذکر شد و در آخر نیز الگوریتمهای پیش بینی براي بهینه کردن سیستمهای پیشبینی تقاضای دارو ارائه شد. هدف از انجام این پایان نامه، پیاده سازی روشهای مختلف پیش بینی و انتخاب بهترین روش به عنوان ابزاری که بتوان از آن برای پیش بینی تقاضای انواع دارو در داروخانه شهرستان بم و بالطبع در بقیه مراکز بیمارستانی استفاده کرد. در واقع امکان ارائه یک مدل مبتنی بر تکنیک‌های داده‌کاوی تا کنون ارائه شده و می‌توان از آنها برای بهینه سازی خرید استفاده کرد. به همین دلیل باید روشهای مختلف رگرسیون را اعمال کرد تا بتوان مقایسه ای بین روشها و انتخاب بهترین روش داشته باشیم.
فصل پنجم
نتایج تجربی و بحث
بحث و نتیجه‌گیری
در این فصل، مدلهای مختلف جهت پیشبینی تقاضای دارو و ارزیابی این مدلها بررسی خواهد شد. مدلهای شبکه عصبی و انواع مدلهای رگرسیون بر روی مجموعه دادههای
آمادهسازی شده اعمال و دقت پیشبینی هر مدل بررسی و با مدلهای دیگر مقایسه خواهد شد.
مقایسه روشهای مورد بررسی
در این پایان

تکه های دیگری از این پایان نامه را می توانید

در شماره بندی فوق بخوانید

متن کامل پایان نامه ها در سایت homatez.com موجود است

You may also like...

Add a Comment