پایان نامه با کلید واژه های دسته بندی، خوشه بندی، داده کاوی

رکورد مربوطه حذف یا به جای آن یک مقدار ثابت، میانگین مقادیر صفت مورد نظر، میانگین نمونههای مشابه یا محتمل ترین مقدار جایگزین گردد. این جایگذاری ممکن است با استفاده از رگرسیون یا سایر روش های مدلسازی انجام شود.
ب- داده های مزاحم: انحرافی تصادفی یا غیرتصادفی در یک متغیر اندازه گیری شده هستند، که به عنوان مثال می توانند نتیجه خطای اندازه گیری یا یک اثر پنهان باشند و باید علت وجود یک داده مزاحم به خوبی بررسی و در مورد آن تصمیم گیری شود. خوشه بندی و برازش یک تابع رگرسیونی به داده ها از جمله راه های هموارسازی داده ها هستند.
ج- داده های ناپايدار: این گونه داده ها شامل تغییراتی بی قاعده هستند که تحلیل آنها را دچار مشکل می سازد. برخی از انواع این داده ها را می توان با تبدیل مناسب اصلاح کرد.
یکپارچه سازی داده ها
با توجه به اینکه دادهها از منابع مختلف جمع آوری می شوند، ممکن است دارای ناسازگاری هایی مانند تفاوت در مقیاس باشند یا خصیصههای مختلف به گونه ای با یکدیگر مرتبط باشند که برخی از آنها بر حسب تعدادی دیگر قابل حصول باشند. در این گونه موارد لازم است داده ها به گونه ای یکپارچه شوند که حتی الامکان دارای کمترین تفاوت باشند و از ورود خصائص مشابه یا تکراری در تحلیل داده ها پرهیز شود. برخی از خصائص زائد را می توان از طریق تحلیل همبستگی کشف کرد. همبستگی بین دو متغیر به این معنی است که می توان اطلاعات یکی را از دیگری به دست آورد و بنابراین حضور هر دوی این خصیصه ها لزومی ندارد.
تبدیل دادهها
گاهی برای خلاصه سازی یا بکارگیری روش های تحلیل داده ها، لازم است به یکی از روش های زیر، داده ها به شکلی مناسب تبدیل شوند:
الف- هموارسازی : برای حذف افت و خیز شدید در داده ها از تکنیک های هموارسازی مانند خوشه بندی و رگرسیون استفاده می شود.
ب-انبوهش: نوعی خالصه سازی است که با عملیات جبری بر روی برخی مقادیر و به دست آوردن مقادیر کلی تر اجرا می شوند. به عنوان مثال مقادیر فروش روزانه می توانند به صورت مقادیر ماهانه یا سالانه انباشته شوند.
ج- تعمیم داده ها :با استفاده از سلسله مراتب مفاهیم، داده های ابتدایی یا سطح پایین مانند سن بوسیله مفاهیم سطح بالاتر مانند جوان، میانسال و کهنسال جایگزین می شوند.
د- نرمال سازی داده ها :داده ها به یک نحوی مقیاس بندی می شوند که در داخل یک محدوده مشخص و کوچک قرار گیرند.
تلخیص داده ها
برای کاهش دادهها از تکنیک هایی مانند کاهش بعد، فشرده سازی و مجزاسازی داده استفاده می شود .
وظایف داده کاوی
داده کاوی با همه عظمت و بزرگی خود که امروزه در تمامی موضوعات جهان ورود پیدا کرده است شامل شش عمل و وظیفه مهم است که میتوان بسیاری از مسائل محیط اطراف خود را در قالب یکی از این شش عمل و وظیفه زیر گنجاند [5] :
دسته بندی
تخمین
پیش بینی
گروه بندی شباهت
خوشه بندی
توصیف و نمایه سازی
دسته بندی، تخمین و پیش بینی همگی داده کاوی هدایت شده هستند که هدف آنها یافتن ارزش یک متغیر هدف خاص است. گروه بندی شباهت و خوشه بندی جزو داده کاوی غیرهدایت شده هستند که در آن هدف، یافتن ساختار پنهان درون داده ها بدون توجه به یک متغیر هدف خاص است. نمایه سازی، عملی توصیفی است که میتواند هم هدایت شده و هم غیرهدایت شده باشد.
دسته بندی
دسته بندی که یکی از معمولترین کارکردهای داده کاوی است، یکی از واجبات بشر است. ما برای و درجه بندی شناخت و برقراری رابطه درباره دنیا، به طور مداوم دسته بندی، طبقه بندی می کنیم. دسته بندی شامل بررسی ویژگیهای یک شیء جدید و تخصیص آن به یکی از مجموعه های از قبل تعیین شده میباشد. عمل دسته بندی با تعریف درستی از دسته ها و مجموعهای از ویژگیها که حاوی موارد از پیش دسته بندی شده هستند، مشخص می گردد. این عمل شامل ساختن مدلی است که بتوان از آن برای دسته بندی کردن داده های دسته بندی نشده، استفاده نمود. اشیایی که باید دسته بندی شوند، معمولاً به وسیله اطلاعاتی در جدول پایگاه داده یا یک فایل ارائه می شوند و عمل دسته بندی شامل افزودن ستون جدیدی با کد دسته بندی خاصی است. از جمله تکنیک تکنیکهای درخت تصمیم و نزدیکترین همسایهای دسته بندی می باشند. شبکه های عصبی و تحلیل پیوند نیز در شرایط خاصی عمل دسته بندی را انجام می دهند.
تخمین
تخمین، با نتایج مجزایی که با ارقام پیوسته نشان داده شدهاند، سروکار دارد. در تخمین، دادههای ورودی در قالب متغیرهای ورودی مختلف به سیستم داده میشود و متغیرهای خروجی آن رقمی مثل درآمد یا تراز کارت اعتباری میباشد. در عمل تخمین اغلب برای انجام دسته بندی استفاده میشود. روش تخمین فواید زیادی دارد که مهمترین آنها، این است که در آن اطلاعات را می توان مطابق تخمین به دست آمده مرتب نمود. مدلهای رگرسیون و شبکه های عصبی از جمله تکنیکهای مناسب داده کاوی برای تخمین میباشند.
پیش بینی
پیشبینی مانند دسته بندی یا تخمین است با این تفاوت که اطلاعات، مطابق برخی از رفتارهای پیش بینی شده آینده یا ارقام تخمین زده آینده، دسته بندی میشوند. در عمل پیش بینی، تنها روش برای بررسی صحت دسته بندی، انتظار دیدن آینده است.هر یک از تکنیکهای استفاده شده در دسته بندی و تخمین را میتوان برای استفاده در پیش بینی تطبیق داد، جایی که متغیری باید پیش بینی شود از قبل معلوم است و دادههای پیشین برای آن وجود دارد. از دادههای پیشین برای تهیه یک مدل که بیانگر رفتار مشاهده شده کنونی است استفاده میشود؛ وقتی این مدل برای ورودیهای کنونی به کار رفت، نتیجه کار، پیش بینی رفتار آینده خواهد بود. بسیاری از تکنیک های داده کاوی در صورت وجود دادههای مناسب، برای استفاده در پیش بینی مناسب هستند. انتخاب تکنیک به ماهیت داده های ورودی و نوع متغیری که باید پیش بینی شود بستگی دارد.
گروه بندی شباهت یا قوانین وابستگی
گروه بندی شباهت یا قوانین وابستگی برای تعیین ویژگی های همزمانی هستند که در وقوع یک پدیده رخ می دهند. به عبارت دیگر عمل گروه بندی شباهت احتمال وقوع و یا عدم وقوع همزمان ویژگیها را تعیین می نماید. به عبارت ساده تر عمل گروه بندی شباهت تعیین می کند که چه چیزهایی با هم جورند؛ مثال معمول این موضوع تعیین کالاهایی است که با هم در یک سبد خرید قرار می گیرند، چیزی که آن را تحلیل سبد بازار نام دارد. فروشگاه های زنجیرهای خرده فروشی می توانند از گروه بندی شباهت برای تعیین چیدمان کالاها در قفسه های فروشگاه، در یک کاتالوگ و یا صفحه وب فروش اینترنتی استفاده کنند تا اقلامی که اغلب با هم خریده می شوند در کنار هم قرار گیرند. از گروه بندی شباهت می توان برای تعیین شرایط فروشهای متقابل و همزمان و همچنین برای طراحی بسته بندیهای جذاب و یا دسته بندی محصولات و خدمات استفاده کرد .
خوشه بندی
خوشه بندی به عمل تقسیم جمعیت ناهمگن به تعدادی زیرمجموعه ها یا خوشه های همگن گفته میشود. وجه تمایز خوشه بندی از دسته بندی این است که خوشه بندی به دستههای از پیش تعیین شده تکیه ندارد. در دسته بندی بر اساس یک مدل هر کدام از دادهها به دستههای از پیش تعیین شده اختصاص مییابد؛ این دسته ها یا از ابتدا در طبیعت وجود داشتهاند مثل جنسیت، رنگ پوست و … یا از طریق یافتههای پژوهشهای پیشین تعیین گردیدهاند. در خوشه بندی هیچ دسته از پیش تعیین شده وجود ندارد و دادهها صرفاً براساس تشابه گروهبندی میشوند و عناوین هر گروه نیز توسط کاربر تعیین میگردد. خوشه بندی معمولاً به عنوان پیش درآمدی برای به کارگیری سایر تحلیلهای داده کاوی یا مدلسازی به کار میروند.
نمایه سازی
گاهی اوقات هدف داده کاوی، تنها توصیف آن چیزی است که در یک پایگاه دادهای پیچیده در جریان است. نتایج نمایه سازی درک ما را از مردم، محصولات یا فرآیندهایی که دادهها را در
مرحله اول تولید کردهاند افزایش می دهد. توصیف خوب رفتار، اغلب توضیح خوبی هم به همراه دارد؛ یک توصیف خوب حداقل نشان میدهد چه زمانی میتوان انتظار یک توضیح مناسب را داشت. درختهای تصمیم ابزار مفیدی برای نمایه سازی میباشند؛ قوانین وابستگی و خوشه بندی را نیز می توان برای نمایه سازی ها استفاده نمود.
كاربرد هاي داده كاوي
داده كاوي به سرعت در حال محبوبيت است به خاطر كمك هاي اساسي آن، سازمان هاي زيادي در حال استفاده از داده كاوي براي كمك به مديريت تمام فازهاي ارتباط با مشتري شامل به دست آوردن مشتريان جديد، افزايش سود از طريق مشتريان موجود و حفظ كردن مشتريان خوب هستند. با تعيين مشخصات يك مشتري خوب يك شركت مي تواند با همان مشخصات اهداف آينده خويش را پيش بيني كند. با پرونده سازي براي مشتري كه يك محصول خاص را خرید مي نمايد اين شركت مي تواند توجه خود را به مشتريان مشابهي كه از اين محصول خريد نكرده اند معطوف دارد با پرونده سازي براي مشترياني كه اين سازمان را ترك كرده اند يك شركت مي تواند مشترياني را كه خطر رفتن آنها نيز وجود دارد را نگه دارد چرا كه نگهداري يك مشتري موجود بسيار كم هزينه تر از بدست آوردن يك مشتري جديد هزينه مي برد. داده كاوي ارزشهايي را از طريق بررسي يك طيف وسيعي از كارخانه ها پيشنهاد مي كند.شركتهاي ارتباطات از راه دور و كارت هاي اعتباري دو شاخه بزرگ در استفاده از داده كاوي براي تشخيص استفاده كلاه بردارانه از خدمات آنها مي باشند. شركتهاي بيمه و درآمد هم علاقمند به استفاده از اين تكنولوژي براي كاهش كلاهبرداري مي باشند. كاربردهاي دارويي نواحي مفيد ديگري هستند كه داده كاوي در آنها دست دارد داده كاوي مي تواند براي تشخيص تاثير اعمال جراحي، آزمايش هاي دارويي ودرمان استفاده گردد. شركتهايي كه در خريد و فروشهاي مالي فعاليت ميكنند از دادهكاوي براي تعيين شاخصه هاي بازار و صنعت براي تشخيص كارايي درآمد استفاده مي كنند. خرده فروشها از داده كاوي براي تصميم درمورد اينكه كدام محصول در فروشگاه ها در آمد زاست به منظور دسترسي به ارتقاي كيفيت كار خود استفاده بيشتري مي نمايند. شركتهاي دارويي درحال كاوش پايگاههاي داده بزرگي از تركيبات شيميايي و مواد ژنتيكي براي كشف مواد كه مي توانند گزينه خوبي براي ساخت به عنوان دارو باشند [41].
رویکردهاي مسائل داده کاوي در پزشکی
صنعت سلامت به طور مستمر در حال تولید میزان زیادي از دادهها می باشد و افرادي که با این نوع دادهها مواجه هستند، دریافته اند که بین جمع آوري تا تفسیر آنها شکاف وسیعی وجود دارد. حوزهي به نسبت جوان و در حال رشد داده کاوي در سلامت از جمله شیوه هایی است که میتواند این صنعت را از تحلیل عمیق این داده ها بهرمند سازد. و به توسعهي تحقیقات پزشکی و تصمیم گیريهاي علمی در زمینهي تشخیص و درمان منتج شود [42].
داده کاوي در پزشکی و بیولوژي بخش مهمی از انفورماتیک زیست – پزشکی است و یکی از کاربردي ترین علوم کامپیوتر در این علم بوده که در بیمارستانها، کلینیکها، آزمایشگاهها و مراکز تحقیقاتی به کار گرفته شده است [43].
الگوریتم ژنتیک تکنیک بهینهاي براي ارتقاي سایر الگوریتم هاي داده کاوي میباشد، به گونهاي که از بهترین مدل بر روي مجموعه هایي از داده ها استفاده میکند و میتواند براي یک بیماري خاص بهترین برنامهي درمانی را تعیین کند [44].
1-4- نمونه هایی از کاربردهاي داده کاوي در سلامت
داده کاوي در تشخیصهاي غیر تهاجمی: برخی از اقدامات تشخیصی و آزمایشگاهی براي بیماران، تهاجمی و هزینه بر و در عین حال رنج آور هستند، به عنوان مثال بافت برداري از گردن رحم به منظور تشخیص سرطان گردن رحم از جمله این موارد است. تنگاول و همکاران از طریق الگوریتمهاي خوشهبندي به تحلیل بیماران مبتلا به سرطان گردن رحم پرداختند و نتایج پیشگیري کننده تري را نسبت

تکه های دیگری از این پایان نامه را می توانید

در شماره بندی فوق بخوانید

متن کامل پایان نامه ها در سایت homatez.com موجود است

You may also like...

Add a Comment