پایان نامه با کلید واژه های رگرسیون، بهینه سازی، بیمارستان

میتوانند نماینده تمام داده باشند به عنوان مجموعه داده انتخاب میشود. به همین دلیل 30 نمونه از داده هایی که بیشترین واریانس را دارند به عنوان مجموعه داده نهایی استفاده میکنیم.
ساخت ماتریس داده
در این بخش ابتدا روشهای یکپارچه کردن و یا به عبارتی پیشپردازش مجموعه داده بررسی میشود. در این پایام نامه از چندین روش برای تولید مجموعه داده استفاده شده است که هرکدام بررسی خواهند شد. هر کدام از این مجموعههای داده را با الگوریتمهای معرفی شده استفاده کرده و نتایج را مقایسه میکنیم.
4-3-1-1-روش ماههای متوالی
برای ساختن ماتریس دادههای ماهیانه از پنجره 6 ماهه استفاده میکنیم به اینصورت که به ازای هر دارو، 6 ماه را به عنوان ورودی و ماه هفتم را به عنوان خروجی درنظر میگیریم. به عنوان مثال برای داده X، میزان تقاضا یا مصرف 6 ماه متوالی را به عنوان ورودی و ماه هفتم را به عنوان خروجی میدهیم. ماتریس داده در جدول 5-2 نمایش داده شده است.
جدول 4-1. نمایش ماتریس داده به صورت ماههای متوالی
مهر 87
شهریور87
مرداد87
تیر87
خرداد87
اردیبهشت87
فروردین87
آبان87
مهر 87
شهریور87
مرداد87
تیر87
خرداد87
اردیبهشت87
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
اسفند92
بهمن92
دی92
آذر92
آبان92
مهر92
شهریور92
ستونی که با رنگ قرمز مشخص شده است خروجی مجموعه داده را در بر میگیرد. این، یک ماتریس66*7 خواهد بود. این ماتریس فقط به ازای یک نمونه دارو است برای تمام داروها این کار انجام میشود. در مورد فصل ها هم میتوانیم به همین صورت عمل کنیم یعنی فصل ها را هم به صورت یک پنجره 4 تایی در نظر بگیریم.
4-3-1-2-روش ماههای یکسان
در این روش نیز مانند روش قبل از یک window استفاده میکنیم با این تفاوت که در این حالت، این window شامل ماههای یکسان از سالهای متوالی است. به عنوان مثال میتوان ماه مهر پنج سال متوالی را به عنوان ورودی و ماه مهر سال ششم را به عنوان خروجی در نظر گرفت. مجموعه داده مورد نظر به صورت زیر است.
جدول 4-2. نمایش ماتریس داده به صورت ماههای یکسان
مهر 92
مهر 91
مهر 90
مهر 89
مهر 88
مهر87
آبان 92
آبان 91
آبان 90
آبان 89
آبان 88
آبان 87
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
اسفند92
اسفند91
اسفند90
اسفند89
اسفند 88
اسفند 87
میتوان این window شش ماهه را کمتر نیز در نظر گرفت و نتایج window size های متفاوت را بررسی کرد.
4-3-1-3-روش فصول متوالی
روش فصلهای متوالی ، همانند روشماههای متوالی عمل میکند با این تفاوت که در این روش تقاضای دارو در فصل های بهار، تابستان، پاییز و زمستان در مجموعه داده نگه داری میشود و پنجره ای با سایز چهار از فصول متوالی در آن نگه داری شده است. این مجموعه داده دارای 22 رکورد است. جدول6-8. نمونه ای از این مجموعه داده را نشان میدهد.
جدول4-3 نمونه ای مجموعه داده روش فصول متوالی
بهار88
زمستان87
پاییز87
تابستان87
بهار87
تابستان88
بهار88
زمستان87
پاییز87
تابستان87
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
زمستان92
پاییز92
تابستان92
بهار92
زمستان91
بعد از ساختن ماتریس، داده های ورودی را به صورت زیر نرمالایز می کنیم.

که در آن، مقدار ویژگی i ام، ، کمترین مقدار ویژگی و ، بیشترین مقدار ویژگی موردنظر می‌باشد. نرمال کردن داده ها نتیجه بهتری از پیاده سازی مدلهای مختلف را در بردارد.
الگوریتمهای Prediction
پیش بینی، همانند طبقه بندی است با این تفاوت که در الگوریتمهای پیش بینی، وقوع نتایج در آینده صورت میگیرد. بعضی از تکنیک های مشهور Prediction عبارتند از Nonlinear Regression, Linear Regression ، Decision Treeو Neural Networks. در این پایاننامه از تعدادی از این روشها به عنوان روش مقایسه استفاده شده است.
روشهای مورد بررسی
هدف از انجام این رساله این است که با استفاده از تکنیک‌های داده‌کاوی بتوان مدلی برای پیش‌بینی مصرف دارو ارائه داد. در واقع امکان ارائه یک مدل مبتنی بر تکنیک‌های داده‌کاوی تا کنون ارائه شده و می‌توان از آنها برای بهینه سازی خرید استفاده کرد. به همین دلیل باید روشهای مختلف رگرسیون را اعمال کرد تا بتوان مقایسه ای بین روشها و انتخاب بهترین روش داشته باشیم. از روشهای مختلف خطی که توسط روش کمترین مربعات خطا بهینه میشوند را میتوان برای مقایسه بهکار برد. الگوریتم هایی که ما در این پایان نامه برای پیادهسازی درنظر گرفته ایم به این صورت است: MLP،SVR ،AdaBoost.R ، (BAGTREE)، (LR)، (LSSVR) . در این رساله، به شرح بعضی از آنها برای آشنایی بیشتر میپردازیم.
روش NN
یکی از روشهای مورد بررسی در این مطالعه برای پیشبینی تقاضای دارو ، شبکه عصبی است. از شبکههای عصبی مصنوعی که در واقع بر مبنای رگرسیون غیرخطی کار میکند به طور وسیعی در مسائل پیشبینی استفاده شده است که نتایج حاصل از بررسیها حکایت از دقت بالای این روش دارد. شبکه عصبی که در این مطالعه استفاده شده است، از دو لایه پنهان تشکیل شده است که در هر لایه، پنج نرون وجود دارد. تعداد تکرار (epoch) شبکه، 100 در نظر گرفته شده است. این مقادیر با سعی و خطا ایجاد شده اند. هر بار شبکه به ازای تمام دادهها منهای داده تست آموزش میبیند و شبکه آموزش داده شده برای داده تست مورد استفاده قرار میگیرد.
روش SVR
به طور کلی در مسئله رگرسیون، با داشتن داده های آموزش ، هدف یافتن تابعی مانند( رابطه 1)، می‌باشد که حداکثر به میزان، از هدف واقعی فاصله داشته باشد و همچنین به اندازه کافی هموار باشد.
(4-2)
شکل 4-2 پارامترهای مورد استفاده در SVM
که در آن، پارامتر ضریب بایاس، به عنوان یک بردار وزن و تابعی غیر‌خطی است که داده‌های بعدی را به صورت مجازی به بعد بالاتر می‌برد، در حقیقت بعد به صورت ضمنی تعریف می‌شود و حتی ممکن است که بی‌نهایت باشد.
همانطور که گفته شد، هدف مسئله این است که برای همه‌ی نمونه های آموزشی، حداکثر به میزان ، از مقادیر هدف واقعی انحراف داشته باشد، به عبارت دیگر، از خطاهای کمتر از چشم پوشی می‌شود. بنابراین از یک حد آستانه ϵبه منظور افزایش حاشیه و کاهش خطای کلی استفاده می‌شود (شکل 4-2). این روش برای تعیین خطا از تابع زیر() استفاده می کند.
(4-3)
و مسئله بهینه سازی رگرسیون بردار پشتیبان به صورت زیر خواهد بود:
(4-4)
پارامترهای و متغیر‌های شل، هستند که قیود بالا و پایین خروجی مدل را تعیین می‌کنند، پارامتر ، پهنای حاشیه و ضریب ثابت می‌باشد. با تغییر پارامتر، مدل تعیین می‌کند که پهنای حاشیه بیشتر مدنظر است یا خطای حاصله. اگر ضریب کوچک باشد نشان دهنده اهمیت بیشتر همواری مسئله نسبت به خطای حاصله است. در بهینه سازی باید شروط زیر برقرار باشد:
(4 -5)
برای حل مسئله از روش ضرایب Lagrange استفاده می شود و فرم زیر را خواهیم داشت:
(4-7)
که در آن ضرایب Lagrange می باشند. برای پیدا کردن نقطه زینی، از تابع مذکور، نسبت به متغیر‌های مشتق گرفته و برابر با صفر قرار داده می‌شود و در نهایت خواهیم داشت [69].
( 4-8)
بنابر تئوری مرسر، ضرب داخلی می تواند به صورت یک کرنل تعریف شود، بنابراین می‌توان معادله بالا را به صورت زیر بازنویسی نمود.
(4-9)
به طور کلی، کرنل‌های زیادی وجود دارند که از معروفترین آن‌ها می‌توان کرنل‌های خطی، چندجمله ای و تابع پایه شعاعی را نام برد.
( 4-10)
( 4- 11)
) 4-12)
در این پایان نامه از Radial Basis Function(RBF) به عنوان kernel استفاده شده است.
روش LSSVR
در این روش به جای حل یک مسئله برنامه‌نویسی دو گانه، یک سری مسائل خطی را حل می‌کند و در نتیجه پیچیدگی مسئله را کاهش می‌دهد. برای تخمین تابع در روش LSSVR از فرمول زیر استفاده می شود:
(4-13)
با محدودیت‌های ، که در آن ، متغیرهای خطا و ثابتی برای تنظیم می باشد.
فرم Lagrange این مسئله به صورت فرمول زیر خواهد بود که در آن، ضرایب لاگرانژ می‌باشد.
(4-14)
برای پیدا کردن نقطه زینی، از این تابع نسبت به متغیر های مشتق گرفته و برابر با صفر قرار داده می‌شود و در نهایت به معادلات خطی زیر می‌رسیم.
(4-15)
با حذف و ، معادلات خطی زیر را خواهیم داشت:
(4-16)
که در آن ،و می‌باشد. بنابر تئوری Mercer، ضرب داخلی می تواند به صورت یک kernel تعریف شود و داریم :
(4-17)
بعد از حل معادلات خطی و تعیین ، در نهایت معادله زیر را برای رگرسیون استفاده می‌شود:
(4-18)
به عنوان مقایسهی روش LSSVRبا روش SVR می‌توان گفت که در این روش برای محدودیت از تساوی استفاده شده در صورتی که در SVR، از نامساوی استفاده می‌شود. مزیت اصلی این روش، محاسبات ساده آن نسبت به روش SVR می‌باشد به این صورت که این روش از یک تابع حداقل مربعات به جای تابع خطای استفاده می‌کند. بنابراین با حل یک سیستم خطی KKT محاسبات کمتری نسبت به روش رگرسیون بردار پشتیبان که از محاسبات پیچیده Quadratic Programming انجام می‌شود و پیچیدگی را کاهش و در نتیجه سرعت را افزایش می‌دهد.
AdaBoost.R
برای مسائل رگرسیونی که توسط الگوریتم boosting محاسبه میشوند، میتوان از AdaBoost Regression استفاده کرد. برای یک مسئله با n نمونه S=((x1,y1), (x2,y2),… (xn,yn)، الگوریتم یادگیری A ، یک عدد صحیح T و یک عدد حقیقی Δ میتوان شبه کد الگوریتم AdaBoost Regression را به صورت زیر خلاصه کرد[70] :
Initialize the weight vector for i=1,…,N
Do for t=1,2,…,T
Set
Choose randomly with distribution P(t) the sample S(t) from S; Call the learning Algorithm A and get the hypothesis ht=AS(t)
Calculate the error if 1/2 then T=t-1 and abort loop.
Calculate
Set the new weight vector to be
Output: the hypothesis where
یک باند بالا برای خطای به صورت زیر داده میشود.
(4-19)
روش رگرسیونی AdaBoost یک روش بسیار قوی در مسائل مختلف بخصوص در ار زمینه پیش بینی انواع مدلها استفاده میشود. نتایج مطلوب آن در مسائل مختلف ما را بر آن داشت که در این پایاننامه برای پیشبینی تقاضا از آن استفاده کنیم.
مجموعه داده
در این پایاننامه، برای جمع آوری داده از داده‌های واقعی بیمارستان مرکزی شهر تاریخی بم که در پایگاه داده SQL SERVER سیستم اطلاعات بیمارستان با حجمی در حدود 220 GB و در مدت 5 سال ذخیره شدهاند، جهت استفاده در مدل‌ها و تکینیک های داده‌کاوی استفاده شد . برای استخراج داده ها از پایگاه داده سیستم از نرم افزار Crystal Reports استفاده شده است.
شکل 4-3 گزارش تهیه شده با کریستال ریپورت
این دادهها، کد داروها و جمع مصرفی آنها را مشخص میکنند. قسمتی از این مجموعه داده در شکل 4-4 آمده است.
شکل 4-4 خروجی گزارش کریستال ریپورت
جهت برازش مدلها چندین مجموعه داده در نظر گرفته شده است. ابتدا داده ها را به دو صورت ماه به ماه و فصل

تکه های دیگری از این پایان نامه را می توانید

در شماره بندی فوق بخوانید

متن کامل پایان نامه ها در سایت homatez.com موجود است

You may also like...

Add a Comment