پيش بينی بهره کشی و خوشه بندی آسيب پذيری ها بوسیله متن کاوی

یکی از رشته های زیر مجموعه فنی مهندسی که علاقمندان بسیاری در کشور ما دارد رشته کامپیوتر و فناوری اطلاعات هستش که اتفاقا سایت دیجی لود در حال تکمیل سری جدیدی از پایان نامه های ارشد این رشته تحصیلی برای کاربران گرانقدر خود میباشد. دیجی لود در ادامه پایان نامه ” پيش بينی بهره کشی و خوشه بندی آسيب پذيری ها بوسیله متن کاوی ” با فرمت Word (قابل ویرایش) در 112 صفحه را معرفی مینماید.

چکیده پایان نامه پيش بينی بهره کشی و خوشه بندی آسيب پذيری ها بوسیله متن کاوی :

آسيب پذيریهای نرم افزار میتواند منجر به تلفات مالی و اطلاعاتی شود. به علت محدود بودن منابع مالی و انسانی، اولويت دهی به آسيبها بسيار مورد توجه میباشد. پيش از اين پژوهش، تعداد زيادی از محققان آسيب پذيری ها را براساس دانشهای تجربی و آماری، رده بندی کردهاند. اماگاهی طبيعت متغيير آسيب پذيریها، فراهم کردن يک معيار رده بندی برای آنها را غير ممکن میکند.

گزارشهای آسيب پذيری، به طور پيوسته در پايگاه داده های مختلف ثبت میشوند. اطلاعات متنی آسيب پذيریها، به طور کامل توسط ابزارهای اتوماتيک موجود، مورد استفاده قرار نمیگيرد. اين پژوهش نشان داد که از اطلاعات موجود در متنها برای ساخت مدلهای پيشگو میتوان استفاده کرد. متن کاوی ابزاری مناسب برای به دست آوردن اطلاعاتی است که در اخذ تصميمات مهم مديريتی موثر میباشند.

در زمينه پيش بينی بهره کشی با استفاده از متن کاوی، تاکنون فقط يک تحقيق انجام شده است. اين تحقيق در KDD2010، با عنوان “فراتر از اکتشافی: آموزش برای، کلاس بندی آسيب پذيری و پيش بينی بهره کشی” ارائه شده است. اين تحقيق به سوالات زير، با استفاده از متن کاوی پاسخ داده است: آيا از آسيب پذيری بهره کشی خواهد شد؟ چه زمانی از آسيب پذيری موجود بهره کشی خواهد شد؟ اين مقاله در مقايسه با CVSS(که يکی از متريکهای معروف آسيب پذيری است) به نتايج خوبی رسيده است. در اين پژوهش به سوالات فوق و به سوالات جديد زير دقت بالايي پاسخ داده شده است:

اگر سيستمی مورد بهره کشی قرار گرفته، چه زمانی اين بهره کشی آغاز شده است؟ (دقت پاسخها بين 94.5-84%)

اگر سيستمی آسيب پذير است، چه زمانی بسته اصلاح شده آن از سوی سازندگان ارائه خواهد شد؟ (دقت پاسخها بين 91-68%)

در زمينه خوشه بندی آسيب پذيریها، تاکنون تحقيقات زيادی انجام شده است. پايگاه داده OSVDBدارای دسته بندیهای مختلفی برای آسيب پذيریها میباشد، اما هيچ يک از اين دسته ها بر اساس توصيف آسيب پذيریها نيست. در اين تحقيق آسيب پذيری ها با استفاده از توصيف هايشان خوشه بندی شده اند، که دسته های حاصل عبارتند از: سرريز بافر، رد سرويس، دستکاری داده، کنترل از راه دور، پيکربندی نامناسب، شکاف در رمز عبور، دسترسی غير مجاز به اطلاعات، و دسترسی غير مجاز به سرويس. برای انتساب آسيب پذيریها به دسته های مناسب به صورت دستی به تجربه نيروی انسانی نياز است و انجام اين کار بسيار ملال آور میباشد. دسته بندی ارائه شده در اين پژوهش، امکان ساخت نرم افزاری که بتواند آسيب پذيریها را به طور خودکار به دسته های مناسب نسبت دهد، را فراهم میکند.

در اين پژوهش از دو پايگاه داده معروف آسيب پذيریها (OSVDBو CVE)، و اطلاعات تاريخ آسيب پذيریها که استفان فری در اختيارمان قرار داد، استفاده شده است. برای پيش بينی بهره کشی از کلاس بندی کننده های ماشين بردار پشتيبانی و جنگل تصادفی، و برای انجام خوشه بندی از روش نگاشت خود سازمانده نوخاسته استفاده شده است

فهرست مطالب پایان نامه پيش بينی بهره کشی و خوشه بندی آسيب پذيری ها بوسیله متن کاوی :
عنوان	صفحه
فصل اول: مقدمه	1
1-1-آسیب‏‏ پذیری	2
1-1-1-تعریف آسیب‏ پذیری	2
1-1-2- کلاس بندی آسيب‏ پذيریها	3
1-1-3- علتهای ايجاد آسيب‏ پذيریها	4
1-1-4- شناسايي و حذف آسيب‏ پذيری‏ها	5
1-2- مفاهيم اوليه‏ی مورد نياز	5
1-2-1- متن کاوی	5
1-2-2- کلاس ‏بندی و پيش بينی	8
1-2-3- خوشه ‏بندی	12
1-2-4- انتخاب ويژگی	14
1-3- هدف تحقيق	16
فصل دوم: مروری بر تحقیقات پیشین	18
2-1- نقش افراد و فرآيندهای مختلف بر آسيب‏ پذيری‏ها	19
2-2- روش‏های ارزيابی و رده بندی آسيب‏ پذيری‏ها	24
2-2-1- سيستم نمره دهی آسيب‏ پذيری متعارف	25
2-3- دسته بندی آسيب پذيری‏ها	30
2-4- پيش بينی‏ های امنيتی با استفاده از گزارش‏های آسيب پذيری‏ها	36
2-5- تشخيص آسيب پذيری‏ ها با استفاده از سورس کد نرم افزارها	36
فصل سوم: داده ‏هاوروش استخراج ويژگی‏ها	39
3-1- داده‏های تحقيق	40
3-2- روش استخراج ويژگی‏ها برای کلاس‏بندی و پيش‏بينی	44
3-3- روش استخراج ويژگی‏ها برای خوشه‏بندی	47
فصل چهارم: روش انجام و نتايج آزمايشات	50
4-1- روش و نتايج آزمايشات کلاس‏بندی و پيش‏بينی	51
4-1-1- پيش‏بينی بهره کشی برون خط	51
4-1-2- پيش‏بينی بهره کشی برخط	54
4-1-3- پيش‏بينی زمان	56
4-2- مقايسه OSVDB و CVE	62
4-3- ارزيابی ويژگی‏ها	64
4-4- خوشه بندی آسيب پذيری‏ها	66
4-4-1- تحليل دسته ‏های موجود در پايگاه داده OSVDB	68
4-4-2- ارائه دسته بندی آسيب پذيری‏ها	78
4-4-3- ارزيابی دسته‏بندی ارائه شده	84
فصل پنجم: بحث و نتيجه‏گيري	87
5-1- پيش بينی بهره کشی از آسيب پذيری‏ها	88
5-2- خوشه بندی آسيب پذيری‏ها	89
نتيجه گيری	89
پيشنهادات برای پژوهش‏های آينده	90
منابع و ماخذ	91

فهرست جدول‏ها
عنوان	صفحه
جدول 3- 1: ويژگی‏های استخراج شده از هر صفت	47
جدول 4- 1: دسته بندی بهره کشی آسيب پذيری‏ها و نحوه برچسب زنی	52
جدول 4- 2: نتايج پيش بينی بهره کشی برون خط برای تعداد کلاس بندی کننده‏های مختلف	53
جدول 4- 3: دقت پيش بينی در آزمايش برون خط برای 9 کلاس بندی کننده	54
جدول 4- 4: پيش بينی اينکه آيا از آسيب پذيری در T روز آينده بهره کشی خواهد شد يا نه	58
جدول 4- 5: پيش بينی اينکه آيا از آسيب پذيری در T روز آينده بهره کشی خواهد شد يا نه با روش 10 اعتبار متقاطع 10 قسمتی	58
جدول 4- 6: پيش بينی اينکه آيا از آسيب پذيری در T روز گذشته بهره کشی شده است يا نه	59
جدول 4- 7: پيش بينی اينکه آيا از آسيب پذيری در T روز گذشته بهره کشی شده است يا نه، با روش 10 اعتبار متقاطع 10 قسمتی	59
جدول 4- 8: پيش بينی اينکه آيا بسته اصلاح شده در T روز آينده ارائه خواهد شد يا نه	60
جدول 4- 9: پيش بينی اينکه آيا بسته اصلاح شده در T روز آينده ارائه خواهد شد يا نه، با روش 10 اعتبار متقاطع 10 قسمتی	60
جدول 4- 10: نتايج متوازن سازی، نامتوازن‏ترين گروه‏های پيش بينی زمانی	61
جدول 4- 11: مقايسه OSVDB و CVE در پيش بينی بهره کشی برون خط	63
جدول 4- 12: مقايسه OSVDB و CVE برای پيش بينی زمان بهره کشی برای آسيب پذيری‏های روز –مثبت	64
جدول 4- 13: مقايسه OSVDB و CVE برای پيش بينی زمان بهره کشی برای آسيب پذيری‏های روز –منفی	64
جدول 4- 14: مقايسه OSVDB و CVE برای پيش بينی زمان ارائه بسته اصلاح شده	64
جدول 4- 15: گزارش مختصری از ويژگی‏های انتخاب شده	65
جدول 4- 16: انواع دسته بندی آسيب پذيری موجود در OSVDB	67
جدول 4- 17: درصد کل نمونه‏ هادرهردسته	80
جدول 4- 18: نمونه ‏ای از آسيب پذيری‏های هر دسته	81
جدول 4- 19: نمونه ‏ای از آسيب پذيری‏های دارای همپوشانی در دسته ‏ها	83
جدول 4- 20: فاصله منهتن برای دسته‏ هابهروشESOM	85
جدول 4- 21: فاصله منهتن برای دسته هابهروشK- ميانگين	85

فهرست تصاویر
عنوان	صفحه
تصوير 1- 1: مراحل متعارف متن کاوی	7
تصوير 2- 1: چرخه آسيب پذيری تعريف شده بوسيله رويدادهای مشخص. توالی دقيق رويدادها بين آسيب پذيری‏ها متفاوت است (برگرفته از 16)	20
تصوير 2- 2: فرآيندهای اصلی اکوسيستم امنيتی و رابطه رويدادهای چرخه آسيب پذيری (برگرفته از 16)	21
تصوير 2- 3: متريک‏هایCVSS (برگرفته از 24)	25
تصوير 2- 4: وابستگی متريک‏هایCVSS (برگرفته از 24)	25
تصوير 2- 5: فرمول معيار پايه در CVSS	26
تصوير 2- 6: فرمول معيار زمانی در CVSS	27
تصوير 2- 7: فرمول معيار محيطی در CVSS	28
تصوير 2- 8: مدل ساده شده‏ای از چرخه آسيب پذيری‏ها (برگرفته از 29)	29
تصوير 2- 9: احتمالات محاسبه شده؛ P0، P1، P2 و P3 برای تصوير 2-8 (محور افق زمان t را نشان می‏دهد) (برگرفته از 29)	30
تصوير 3- 1: شمای پايگاه داده OSVDB (برگرفته از 44)	41
تصوير 3- 2: مراحل پيش پردازش داده‏ هابرای پيش بينی بهره کشي	43
تصوير 3- 3: مراحل پيش پردازش داده‏ هابرای خوشه بندی آسيب پذيری‏ها	44
تصوير 3- 4: مراحل استخراج ويژگی‏ها برای کلاس بندی و پيش بينی	46
تصوير 3- 5: مراحل استخراج ويژگی‏ها برای خوشه بندی	49
تصوير 4- 1: پارامترهای ورودیESOM	70
تصوير 4- 2: اجرای خوشه بندیESOM با 1359 ويژگی، الگوريتم آموزش k دسته، تعداد ستون‏ها 82 وتعدادسطرها 50،تعدادگام‏های آموزش 20، روش وزن دهی اوليه گوسی	71
تصوير 4- 3: اجرای خوشه بندیESOM با 1359 ويژگی، الگوريتم آموزش برخط، تعداد ستون‏ها 82 وتعدادسطرها 50،تعدادگام‏های آموزش 20، روش وزن دهی اوليه گوسی	72
تصوير 4- 4: اجرای خوشه بندیESOM با 586 ويژگی، الگوريتم آموزش برخط، تعداد ستون‏ها 82 وتعدادسطرها 50،تعدادگام‏های آموزش 20، روش وزن دهی اوليه گوسی	73
تصوير 4- 5: اجرای خوشه بندیESOM با 586 ويژگی، الگوريتم آموزش برخط، تعداد ستون‏ها 90 وتعدادسطرها 90،تعدادگام‏های آموزش 30، روش وزن دهی اوليه گوسی	74
تصوير 4- 6: اجرای خوشه بندیESOM با 586 ويژگی، الگوريتم آموزش k دسته، تعداد ستون‏ها 100 وتعدادسطرها 120،تعدادگام‏های آموزش 40، روش وزن دهی اوليه گوسی	75
تصوير 4- 7: اجرای خوشه بندیESOM با 586 ويژگی، الگوريتم آموزش برخط، تعداد ستون‏ها 90 وتعدادسطرها 60،تعدادگام‏های آموزش 30، روش وزن دهی اوليه انتخاب اعداد تصادفی از فاصله ميانگين منهای 2 برابر انحراف معيار تا ميانگين بعلاوه 2 برابر انحراف معيار	76
تصوير 4- 8: اجرای خوشه بندیESOM با 586 ويژگی، الگوريتم آموزش k دسته، تعداد ستون‏ها 90 وتعدادسطرها 60،تعدادگام‏های آموزش 30، روش وزن دهی اوليه انتخاب اعداد تصادفی از فاصله ميانگين منهای 2 برابر انحراف معيار تا ميانگين بعلاوه 2 برابر انحراف معيار	77
تصوير 4- 9: نمونه‏ هايي ازنقشه‏ های بررسی شده	78
تصوير 4- 10: خوشه‏ های انتخاب شده بروی نقشه مشخص شده است.	79
تصوير 4- 11: نقشه‏ های از اجرا با پارامترهاییکسان	82

فهرست نمودار‏ها
عنوان	صفحه
نمودار 4- 1: درصد خطای تجمعی کل، خطای منفی غلط و خطای مثبت غلط در آزمايش برخط	55
نمودار 4- 2: تاثير تعداد نمونه‏هابردقتپيشبينی روش‏هایSVM و جنگل تصادفی (برگرفته از (53))	62