پایان نامه ، تحقیق و مقاله | دیجی لود

ادامه مطلب

DOC
تشخیص هرزنامه وب به کمک تکنیک های داده کاوی
doc
تعداد صفحات: 100
پایان نامه کارشناسی ارشد
مهندسی کامپیوتر - نرم افزار
همراه با جداول ، اشکال و نمودار
79000 تومان


یکی از رشته های زیر مجموعه فنی مهندسی که علاقمندان بسیاری در کشور ما  دارد رشته کامپیوتر و فناوری اطلاعات هستش که اتفاقا سایت دیجی لود در حال تکمیل سری جدیدی از پایان نامه های ارشد این رشته تحصیلی برای کاربران گرانقدر خود میباشد. دیجی لود در ادامه پایان نامه ” تشخیص هرزنامه وب به کمک تکنیک های داده کاوی ”   با فرمت Word (قابل ویرایش) در 100 صفحه را معرفی مینماید.

 

چکیده پایان نامه تشخیص هرزنامه وب به کمک تکنیک های داده کاوی :

امروزه هرزنامه ها یکی از مشکلات اصلی موتورهای جستجو هستند، به این دلیل که کیفیت نتایج جستجو را نامطلوب می سازند. در طول سالهای  اخیر پیشرفتهای بسیاری در تشخیص صفحات جعلی وجود داشته است اما در پاسخ تکنیک های هرزنامه جدید نیز پدیدار شده اند. لازم است برای پیشی گرفتن به این حملات، تکنیکهای ضد هرزنامه بهبود یابد.

یک مساله عادی که ما با آن در این زمینه مواجه می شویم این است که خیلی از اسناد رتبه بالایی را توسط موتور جستجو بدست آورده اند در حالی که سزاوار آن نبوده اند. با توجه به گسترش روزافزون وب و همچنین ظهور تکنیک های جدید هرزنامه توسط هرزنامه نویسان، هدف از این پایان نامه بررسی روش های مبتنی بر داده کاوی جهت شناسایی هرچه بهتر صفحات هرزنامه از غیرهرزنامه است.

الگوریتم ها و نرم افزارهای داده کاوی از جمله ابزارهای مورد استفاده در این پژوهش هستند. از مجموعه داده استاندارد UK2007 و نرم افزار وکا جهت ارائه مدلهایی بهینه استفاده شده است و سعی  بر ارائه مدلهایی است که ضمن کاهش ویژگی های مورد استفاده جهت شناسایی صفحات هرزنامه از غیرهرزنامه کارایی مطلوبی را نیز ارائه دهد.

 

اهمیت و ضرورت انجام تحقیق:

هرزنامه ها به عنوان ابزاری برای انتشار محتوای مربوط به بزرگسالان و بدافزار ها و حملات مطرح می شوند. به عنوان مثال، رتبه بندی 100 میلیون صفحه براساس الگوریتم های رتبه بندی صفحه نشان داد که 11 نتیجه از 20 نتیجه، سایت های پرونوگرافی بوده اند که با دستکاری محتوا و پیوند ها به این نتیجه رسیده اند ]5,4.[ در گذشته این امر باعث می شد مقدار قابل توجهی منابع محاسباتی و ذخیره سازی از شرکتهای موتورهای جستجو، به هدر رود. در سال 2005 ضرر و زیان ناشی از هرزنامه ها 50 میلیارد دلار تخمین زده شد. در سال 2009 نیز 130 میلیارد دلارتخمین زده شد ]6[. از جمله چالش های جدید، رشد سریع وب و ناهمگونی آن و ساده سازی ابزارهای ایجاد محتوا (به عنوان مثال ویکی وب سایت، سکوهای بلاگ نویسی و …) و کاهش هزینه نگهداری وب سایت (نظیر ثبت دامنه، میزبانی وب و…) می باشد که باعث تحول هرزنامه ها و ظهور سویه های جدید هرزنامه وب که نمی تواند با روش های موفق قبلی شناسایی شود، شده است.

کسری از ارجاعات به صفحات وب که از موتورهای جستجو می آیند قابل توجه هستند و کاربران تمایل به بررسی نتایج با رتبه بالا  دارند . برای 85 درصد از پرسش ها تنها نخستین صفحه نتیجه مورد توجه واقع شده است و تنها سه پیوند کلیک شده است ]7[. بنابراین تلاش برای گنجانده شدن در نخستین صفحه نتیجه موتور جستجو با توجه به افزایش ترافیک وب سایت ها انگیزه روشن اقتصادی خواهد داشت. به منظور نائل شدن به این هدف، صاحبان وب سایت ها، برای دستکاری نتایج رتبه بندی موتورهای جستجو تلاش می کنند. مطابق با مطالعات انجام شده مقدار هرزنامه ها از 6 تا 22 درصد متغییر است و این امر نشان دهنده حوزه و دامنه مشکل است

 

فهرست مطالب:

چکیده——————————————————————————–1

فصل اول:مقدمه———————————————————————-2

1-1 پیش گفتار ———————————————————————-3

1-2 بیان مسئله ———————————————————————-3

1-3 اهمیت و ضرورت انجام تحقیق —————————————————4

ساختار پایان نامه ——————————————————————–5

فصل دوم:وب و هرزنامه های وب—————————————————-6

2-1 وب جهان گستر —————————————————————-7

2-1-1 وب به عنوان گراف——————————————————–8

2-1-2 گراف وب در صفحه و سطح میزبان—————————————8

2-1-3 اتصال——————————————————————–9

2-2 موتورهای جستجو————————————————————10

2-2-1 معماری موتورهای جستجوی وب—————————————-11

2-2-2 سرویس دهنده پرس و جوی موتور جستجو——————————-13

2-3 رتبه بندی——————————————————————-13

2-3-1 رتبه بندی مبتنی بر محتوا———————————————-13

2-3-2 الگوریتم های مبتنی بر لینک——————————————-15

2-4 هرزنامه وب—————————————————————19

2-4-1 هرزنامه محتوا——————————————————20

2-4-2 هرزنامه لینک —————————————————–22

2-4-3 تکنیک های مخفی ————————————————-27

2-5 یادگیری ماشین ————————————————————29

2-5-1 NaΪVe Bayes     ——————————————————–30

2-5-2 درخت تصمیم ————————————————————31

2-5-3 ماشین بردار پشتیبان——————————————————-33

2-6 ترکیب طبقه بندی کننده ها———————————————————35

2-6-1 Bagging  —————————————————————-35

2-6-2 Boosting  —————————————————————36

2-7 روش های ارزیابی  ————————————————————–37

2-7-1 ارزیابی متقاطع ———————————————————–38

2-7-2  دقت و فراخوانی———————————————————-38

2-7-3 منحنی ROC   ————————————————————39

2-8 جمع بندی————————————————————————-40

فصل سوم: پیشینه تحقیق  ————————————————————-41

3-1 مجموعه داده های مورد استفاده توسط محققین ————————————–42

3-1-1 UK2006  —————————————————————42

3-1-2 UK2007  —————————————————————43

3-1-3 مجموعه داده جمع آوری شده با استفاده از جستجوی MSN  —————–44

3-1-4 DC2010  —————————————————————44

3-2 مطالعات مبتنی بر محتوا———————————————————-47

3-3 روش های مبتنی بر لینک———————————————————51

3-3-1 الگوریتم های مبتنی بر انتشار برچسب ها ——————————–51

3-3-2 رتبه بندی تابعی ——————————————————–55

3-3-3 الگوریتم های هرس لینک و وزن دهی دوباره—————————–56

3-3-4 الگوریتم های مبتنی بر پالایش برچسب ها ——————————–57

3-4 روش های مبتی بر لینک و محتوا ——————————————————–58

3-4-1 مطالعات مبتنی بر کاهش ویژگی ————————————————-57

3-4-2 مطالعات مبتنی بر ترکیب طبقه بندی کننده ها————————————–59

3-4-3 مطالعات مبتنی بر تست اهمیت ویژگی های متفاوت در تشخیص هرزنامه ———-63

3-4-4 مطالعات مبتنی بر پیکربندی وب ————————————————71

3-4-5 تشخیص هرزنامه از طریق آنالیز مدلهای زبانی———————————–76

3-4-6 تاثیر زبان صفحه بر ویژگی های تشخیص هرزنامه وب—————————79

3-4-7 رویکرد ترکیب ویژگی های مبتنی بر محتوا و لینک برای صفحات عربی ———-82

3-5 جمع بندی———————————————————————————83

فصل چهارم: پیاده سازی ایده پیشنهادی ——————————————————-85

4-1 مقدمه————————————————————————————-86

4-2 ویژگی های مجموعه داده انتخابی ———————————————————-87

4-3 پیش پردازش —————————————————————————–92

4-3-1 پیش پردازش مجموعه داده UK2007 ————————————————–93

4-3-2 کاهش ویژگی ها با اعمال الگوریتم های داده کاوی————————————–93

4-4 داده کاوی و ارزیابی مدل ها————————————————————–96

4-4-1 نتایج الگوریتم ها با اعمال روش های کاهش ویژگی  ——————————–102

4-4-2 مقایسه مقدار  F_measure بدست آمده از الگوریتم ها با اعمال بر روی ویژگی های بدست آمده   از الگوریتم های کاهش ویژگی——————————————————109

4-5 تفسیر نتایج—————————————————————————-110

4-6 جمع بندی——————————————————————————114

فصل پنجم: نتیجه گیری و کارهای آتی ———————————————————115

5-1  نتیجه گیری ————————————————————————116

5-2 کارهای آتی- ————————————————————————-117

منابع——————————————————————————————118

پیوست1 ————————————————————————————125

پیوست 2 ————————————————————————————126

پیوست 3————————————————————————————-126

پیوست4 ————————————————————————————-127

پیوست 5————————————————————————————-127

پیوست 6————————————————————————————-128

پیوست 7————————————————————————————-129

پیوست 8————————————————————————————-129

پیوست 9————————————————————————————-129

پیوست 10 ———————————————————————————-130

پیوست 11 ———————————————————————————–130

پیوست  12———————————————————————————–131

پیوست 13———————————————————————————–132

پیوست 14———————————————————————————–133

چکیده انگلیسی——————————————————————————–134

 

فهرست جداول:

3-1: توزیع تعداد صفحات مرورشده توسط هر ارزیاب ————————————–42

3-2:کسری از هرزنامه ها در Web-spam –UK2006 و DC2010—————————–45

3-3: توزیع برچسب ها در مجموعه داده DC2010——————————————–47

3-4: نتایج بدست آمده با 10 ویژگی با اعمال الگوریتم های کاهش—————————–59

3-5: نتایج بدست آمده با 10 ویژگی با استفاده از boosting————————————60

3-6: نتایج حاصل از ارزیابی درخت j48 بر روی داده های تست——————————-70

4-1: نتایج 34 طبقه بندی کننده با 140 ویژگی————————————————–96

4-2: نتایج اجرای الگوریتم های بهینه با روش کاهش ویژگی chisquare و روش جستجوی Ranker search method —————————————————————————102

4-3: نتایج اجرای الگوریتم های بهینه با روش کاهش ویژگی cfssubseteval و روش جستجوی best first—————————————————————————————103

4-4: نتایج اجرای الگوریتم های بهینه با روش کاهش ویژگی cfssubseteval و روش جستجوی genetic search —————————————————————————103

4-5: نتایج اجرای الگوریتم های بهینه با روش کاهش ویژگی cfssubseteval و روش جستجوی greedystepwise—————————————————————————104

4-6: نتایج اجرای الگوریتم های بهینه با روش کاهش ویژگی cfssubseteval و روش جستجوی Linear Forward Selection —————————————————————-104

4-7:  نتایج اجرای الگوریتم های بهینه با روش کاهش ویژگی cfssubseteval و روش جستجوی Rank search ——

4-8 : نتایج اجرای الگوریتم های بهینه با روش کاهش ویژگی cfssubseteval و روش جستجوی  Scatter Search————–

4-9: نتایج اجرای الگوریتم های بهینه با روش کاهش ویژگی cfssubsetevalو روش جستجوی subsetsizeforward selection ————————————————————-106

4-10: نتایج اجرای الگوریتم های بهینه با روش کاهش ویژگی ConsistencySubSetEval و روش bestfirst———————————————————————————-106

4-11: نتایج اجرای الگوریتم های بهینه با روش کاهش ویژگی Consistencysubeval و روش جستجوی genetic search —————————————————————————107

4-12: نتایج اجرای الگوریتم های بهینه با روش کاهش ویژگی GainRatioAttributeEval و روش جستجوی Ranker————————————————————————-107

4-13: نتایج اجرای الگوریتم های بهینه با روش کاهش ویژگی InfoGainAttributeEval و روش جستجوی Ranker —————————————————————————108

4-14: نتایج اجرای الگوریتم های بهینه با روش کاهش ویژگی Principalcomponent و روش جستجوی Ranker———————————————————————————–108

4-15: نتایج اجرای الگوریتم های بهینه با روش کاهش ویژگی Symetricaluncertattributeeval و روش جستجوی Ranker—————————————————————————-109

4-16: مقایسه F_measure بدست آمده از الگوریتم ها با اعمال الگوریتم های کاهش ویژگی——-109

4-17: مقایسه درصد درستی بدست آمده از الگوریتم ها با اعمال الگوریتم های کاهش ویژگی—–113

 

فهرست اشکال:

2-1 ساختار بوی-تای وب———————————————————————–9

2-2 معماری کلی موتور جستجو—————————————————————11

2-3 صفحه مزرعه لینک———————————————————————-25

2-4 honeypot ——————————————————————————-25

2-5 یک مجموعه تفکیک شده خطی———————————————————–34

2-6 الگوریتم Adaboost ———————————————————————37

2-7 منحنی ROC—————————————————————————-40

3-1 درخت j48  تولید شده توسط وکا———————————————————-70

3-2 طرح گراف میزبان———————————————————————-72

3-4 طرح کلی متدلوژی ———————————————————————83

4-1 مراحل داده کاوی———————————————————————–86

4-2 تجزیه داده های مورد استفاده در ساخت درخت ها—————————————–98

 

 

 

 

راهنمای خرید و دانلود فایل

برای پرداخت، میتوانید از کلیه کارتهای عضو شتاب  استفاده نمائید.

بعد از پرداخت آنلاین لینک دانلود فعال و نمایش داده میشود ، همچنین یک نسخه از فایل همان لحظه به ایمیل شما ارسال میگردد.

در صورت بروز  هر مشکلی،میتوانید از طریق تماس با ما  پیغام بگذارید و یا در تلگرام با ما در تماس باشید، تا شکایت شما مورد بررسی قرار گیرد.

برای دانلود فایل روی دکمه خرید و دانلود  کلیک نمایید.



ads

مطالب مرتبط


ديدگاه ها


دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

18 − نه =