پایان نامه با کلید واژه های رگرسیون، بیمارستان، داده کاوی

ت نادرست الگوريتمهاي Boosting صدا زده ميشوند.
Adaptive Boosting(Adaboost)
Adaboost، مختصر شده از بوستينگ انطباقي، يک الگوريتم يادگیری ماشين است و مي تواند در ترکيب با تعداد زيادي الگوريتمهاي يادگيري براي بهبود کاراييشان استفاده شود. آدابوست تا حدي وقف پذير است که ساخت ردهبنديکنندههاي بعدي براي آن نمونههايي که توسط ردهبنديکنندههاي قبلي نادرست ردهبندي شدند تنظيم شود. آدابوست به دادههاي نويزدار و بخش مجزا حساس ميباشد. در غير اينصورت، آن در مسائل اورفيتينگ حساسيت کمتري نسبت به الگوريتمهاي يادگيري ديگر دارد [55].
Adaboost مکررا در سريهاي گرد کردن t = 1, … , T يک ردهبنديکننده ضعيف ناميده ميشود. براي هر فراخواني يک توزيع وزنهاي Dt بروز رساني ميشود که اهميت مثالها را براي ردهبندي در مجموعه داده مشخص ميکند. در هر گرد کردن، وزنهاي هر مثالي که به نادرستي رده بندي شده افزايش مييابد (يا به طور جايگزين، وزنهاي هر مثالي که به درستي ردهبندي شده کاهش مييابد)، بهطوريکه ردهبنديکننده جديد بيشتر بر روي اين مثالها ردهبندي ميکند [56].
رگرسیون بردار پشتیبان
ماشین بردار پشتیبان10  نوع خاصی از شبکه های عصبی هستند که بر خلاف سایر انواع شبکه عصبی مانند MLP و RBF به جای کمینه کردن خطا، اقدام به کمینه کردن ریسک عملیاتی طبقه بندی یا مدل سازی می کند. این ابزار، بسیار قدرتمند است و در زمینه های مختلفی چون طبقه بندی، خوشه بندی و مدل سازی (رگرسیون) می تواند مورد استفاده قرار بگیرد یکی از الگوریتم های مهم از میان ماشین های بردار پشتیبان، رگرسیون بردار پشتیبان11 می باشد. در آمار كلاسيك روشهاي طبقه بندي و رگرسيون بر پایه فرضيات محدود كننده اي بنا شده که در آن مدلهاي توزيع احتمال و يا توابع چگالي احتمال، معلوم هستند. متأسفانه بسياري اوقات، در عمل اطلاعات كافي درباره توزيع احتمال متغيرهاي مورد مطالعه در دسترس نيست. در چنين مواقعي به روش هايي نياز داريم كه بدون دانستن توزيع احتمال، به خوبي عمل كنند. همچنين در بيشتر مطالعات با اطلاعاتي در فضاهايي با ابعاد بالا مواجه هستيم. براي استفاده از روشهاي كلاسيك آماري در چنين شرايطي، نيازمند نمونه هايي با حجم بالا مي باشيم كه ممكن است در عمل فراهم كردن آن ميسر نباشد. يكي از روشهايي كه براي حل چنين مشكلاتي مورد استفاده قرار مي گيرد، استفاده از الگوريتمهاي يادگيري ماشين است. ماشین بردار پشتیبان یک تکنیک جدید از روشهاي يادگيري ماشین است و مي توان محبوبيت كنوني آن را با محبوبيت شبكههاي عصبي در دهههاي گذشته مقايسه كرد [57].
ماشين بردار پشتيبان در پيش بيني ها نسبت به شبکههاي عصبی از دقت بالاتری برخوردار است [58]. از طرفي تعيين وضعیت شبكه و قابليت تعميم شبكه عصبي براي وظايف مدلسازي/يادگيري هنوز به خوبي حل نشده است، درحالي كه مدل ماشين بردار پشتيبان به خوبي تعميم پذيراست [59]. ويژگي مهم ماشين بردار پشتيبان اين است كه برخلاف الگوريتمهاي کلاسيك و رگرسيونهاي خطي كه به وسيله مينيمم كردن قدر مطلق خطا يا توان دوم خطا عمل ميكنند، آنها ريسك عملياتي را مينيمم ميكنند. ماشین بردار پشتیبان بر خلاف شبکههای عصبی با مشکل گیر افتادن در مینیمم های محلی تابع خطا مواجه نمیباشد .[60-61] همچنين با استفاده از هستههاي غير خطي قادر به تصميم گيري غير خطي نيز ميباشد. انتخاب هستههاي مناسب براي ماشين بردار پشتيبان، منجر به برتري آن نسبت به ساير رويكردهاي مبتني بر تصميم گيري خطي شده است. مدلهاي ماشينها بردار پشتيبان به دو گروه عمده الف- مدل طبقه بندي ماشين بردار پشتيبان و ب- مدل رگرسیون ماشين بردار پشتيبان تقسيم بندي مي شوند.
از مدل طبقه بندي ماشين بردار پشتيبان جهت حل مسائل طبقه بندي داده هايي كه در كلاس هاي مختلف قرار مي گيرند استفاده مي گردد و مدل رگرسيون ماشين بردار پشتيبان در حل مسائل پيش بيني كاربرد دارد [62-63].
رگرسیون خطی
در روش های طبقه بندی اغلب بر چسب کلاس از نوع دادهی گسسته (غیر عددی) است. اگر چه در برخی از آنها با کمی تغییر می توان روش را برای پیش بینی کلاس هاس پیوسته (عددی) توسعه داد، اما روش های رگرسیون یکی از معروفترین تکنیک های آماری به حساب می آیند که برای این کار بسیار مناسب هستند.تا جایی که در متون داده کاوی دو کلمهی رگرسیون و تخمین کلماتی مترداف یکدیگر در نظر گرفته و استفاده می شوند. هدف تحلیل رگرسیون تعیین بهترین مدلی است که چگونگی ارتباط یک متغیر را با یک یا چند متغیر دیگر تعیین می کند. در بسیاری از کاربردهای عملی نیاز به پیش بینی مقدار یک متغیر (وابسته) از روی مقادیر چند متغیر (مستقل) بسیار رایج است.
معادله زیر به معادله رگرسیون موسوم است
(3-3)
در آن xi ها مقادیر صفات خاصه در مجموعه داده ها هستند، y برچسب کلاس و wi ها که به ضریب رگرسیون شناخته می شوند، پارامترهای نامعلومی هستند که بایستی برآورده شوند. منظور از رگرسیون خطی این است که میانگین y به طور خطی با x در ارتباط است [64].
ساده ترین شکل رگرسیون برای معادله رگرسیون هنگامی است که مجموعه دادههای آموزشی دارای یک صفت خاصه و یک برچسب کلاس باشند. این رگرسیون که به نام رگرسیون ساده خطی شناخته می شود ، y را همانند یک تابع خطی از x مدل می کند.
(3-4) y=w0+w1x
چناجه واریانس y ثابت فرض شود، می توانیم ضرایب خط رگرسیون فوق را (w0 ,w1) با روش حداقل مربعات بدست آوریم، به طوری که خطای میان مجموعه داده ها و خط رگرسیون تخمین زده شده به حداقل خود برسد. در روش حداقل مربعات، مجموع مربعاتباقیمانده را معمولاً مجموع مربعات خطاها حول خط رگرسیون گویند و با SSE نمایش می دهند.
(3-5)
که در آن ei مقدار خطای مشاهده شده وyi ́ و yi به ترتیب جواب حاصل از مدل و مقدار واقعی خروجی هستند. به دنبال مقادیری از ضرایب رگرسیون (w0 ,w1) هستیم که SSE را به حداقل برساند. بنابراین با مشتق گیری از SSE نسبت به w0 و w1 صفر قرار دادن این مشتقات جزیی ، معادلاتی به دست می آید که پس از حل آنها ضرایب به ترتیب زیر محاسبه می شوند:
(3-6)
که در آن x ̅ وy ̅ به ترتیب میانگین مقادیر x وy هستند. با روشی مشابه می توان برای رگرسیون خطی چندگانه نیز ضرایب را تعیین نمود. رگرسیون خط چند گانه مواقعی است که به جای یک متغییر مستقل چندین متغییر مستقل (چندین صفت خاصه) داشته باشیم [65].
الگوریتم هایی که ما در این پایان نامه برای پیادهسازی درنظر گرفته ایم به این صورت است:12(MLP) ، 13(SVR)، AdaBoost.R، 14(BAGTREE)، 15 (LR)، (LLSVR) 16
نرم افزارهای داده کاوی
یک پروژه داده کاوی جهت انجام تحلیل ها به یک نرم افزار مناسب نیاز دارد. امروز نرم افزار
مختلفی در زمینه داده کاوی وجود دارد که در زیر به برخی از آنها اشاره شده است [66] :
AdvancedMiner Professional, , Angoss Knowledge Studio, BayesiaLab,IBM SPSS Modeler (Clementine), , Microsoft SQLServer Data Tools, Oracle Data Mining (ODM), SAS Enterprise Miner, SPAD,StarProbe, Statistica Data Miner, XLMiner, RapidMiner, Weka, MALAB.
بیشتر سیستم های نرم افزاری فقط جهت انجام روش های خاصی مناسب هستند و قابلیت انجام روش های دیگر را ندارند. یک نرم افزار داده کاوی مناسب باید اجازه استفاده و مقایسه روش های مختلف را بدهد ضمن آنکه بایستی پایگاه داده های نرم افزارهای مختلف را یکپارچه کند. گروه بزرگی از تحقیقات داه کاوی بر اساس برنامه های ریاضی اسکریپت گرا مانند متلب (تجاری) و R (منبع باز ) صورت می گیرند.در اصل تمرکز این برنامه ها بر داده کاوی نیست ولی حاوی توابع ریاضی و شبیه سازهایی می باشند که از اجرای الگوریتم های داده کاوی حمایت می کنند [67].
در این پایان نامه از نرمافزار MATLABجهت انجام مراحل داده کاوی به خصوص مدلسازیهای مورد نیاز استفاده می شود.
فرایند خرید دارو
بیمارستان پاستور بم تنها بیمارستان دولتی در شهرستان بم و با جمعیت تحت پوشش 520.000 نفری یک از فعالترین بیمارستان های کشور است .این بیمارستان شامل بخش هایی همچون اورژانس، جراحی، داخلی ،اطفال ، نوزادان ،icu ، ccu، رادیولوژی ،آزمایشگاه ، دیالیز ، اندوسکوپی ، فیزیوتراپی ، سنگ شکن و با ظرفیت 220 تخت خواب و ضریب اشغال تخت 85% در حال خدمات دهی می باشد [68].
سیستم اطلاعات این بیمارستان در سال 1386 از شرکت تیراژه رایانه تهران خریداری شده که در حال حاضر بیش از 155 بیمارستان از 32 دانشگاه علوم پزشکی کشور تحت پوشش نرم افزارها و خدمات شرکت تیراژه قرار دارند که این تعداد معادل 5/12 درصد از کل تختهای بستری کل کشور میباشد [69].
زیر سیستم داروخانه در سیستم اطلاعات بیمارستان پاستور شامل :مشخصات دارو ،مشخصات بیمار ،لیست موجودی، درخواست های بخش ها می باشد
شکل 3-4 واسط کاربری سیستم اطلاعات بیمارستان پاستور بم
فرایند خرید در داروخانه این بیمارستان و سایر بیمارستان های کشور بدین صورت است که
با توجه به مصرف دارو در بخش های مختلف و فروش دارو بصورت تجربی و بدون استفاده از فرایند سیستماتیک در خواست خرید دارو توسط مسئول داروخانه به معاونت غذا و دارو دانشکاه علوم پزشکی ارسال می شود و از طریق این معاونت اقدام به خرید دارو می گردد.
با توجه به اینکه این فرایند بصورت تجربی صورت می گیرد می توان با استفاده از داده کاوی این فرایند را بهبود بخشید.
جمع بندی
در این فصل ضمن معرفی سیستم های اطلاعات بیمارستانی و توضیح درباره مزایا و معایب آنها به معرفی الگوریتم ها و روش های مختلف داده کاوی پرداخته شد. همچنین نرم افزارهای مختلف برای داده کاوی نام برده شدند و نهایتاٌ فرایند خرید دارو توضیح داده شد.
فصل چهارم
روش انجام پژوهش
روش انجام پژوهش
در این فصل ابتدا چارچوب کلی پایان نامه و مراحل پیاده سازی را شرح داده، سپس توضیح مختصری راجع به مجموعه دادههای ایجاد شده داده میشود و در نهایت، به شرح الگوریتمهایی که براي ارزیابی مورد مقایسه قرار گرفته اند خواهیم پرداخت.
مقدمه
در فصل پیشینه پژوهش نمونهاي از تحقیقات انجام شده براي پیشبینی تقاضا را برشمردیم و مزایا و معایب آنها را ذکر کردیم. در این مطالعه، هدف، ارائه مدلی برای پیش بینی مصرف دارو با استفاده از الگوریتم های پیش بینی می باشند. از دیگر اهداف تحقیق بکارگیری مدل ارائه شده بر روی داده های یک بیمارستان و ارزیابی نتایج حاصل از آن می باشد. مدل ارائه شده در این پایان نامه می تواند در سایر بیمارستان های کشور نیز مورد استفاده قرار بگیرد.
الگوریتم پیشنهادی
چارچوب تحقیقات انجام شده در این پایان نامه را میتوان در یک دیاگرام به صورت زیر خلاصه کرد.
شکل 4- 1 نمایش دیاگرام چارچوب تحقیقات
برای پیاده سازی الگوریتم پیشنهادی، باید مجموعه داده انتخابی را ویرایش و پاکسازی کرد. درواقع نوعی پیش پردازش بر روی مجموعه داده انجام میشود.
پیش پردازش دادهها
برای دستیابی به نتیجه دقیق و منسجم، ابتدا داده ها را به دو صورت ماهیانه و فصلی جدا میکنیم. مجموعه داده انتخاب شده به این صورت است که هر نوع دارو دارای یک مقدار تقاضای ماهیانه و همچنین فصلی در هر سال میباشد که در واقع جمع مصرفی آن داده یا مجموع تقاضای آن را در طول یک ماه و یا فصل مشخص میکند. مجموعه داده انتخاب شده در طول پنج سال از 1387 تا 1392 را پوشش میدهد. ما میتوانیم فضای کوچکتری از این داده را به عنوان مجموعه داده نهایی استفاده کنیم. زیرمجموعه ای از دادهها که

تکه های دیگری از این پایان نامه را می توانید

در شماره بندی فوق بخوانید

متن کامل پایان نامه ها در سایت homatez.com موجود است

You may also like...

Add a Comment