پایان نامه ، تحقیق و مقاله | دیجی لود

ادامه مطلب

DOC
بهينه سازی روش تشخيص اهميت پيوند در پايگاه پيوند و کاربست آن در معماری موتورهای جستجو
doc
تعداد صفحات : 125
پایان نامه کارشناسی ارشد
مهندسی کامپیوتر - نرم افزار
همراه با جداول ، اشکال و نمودار
79000 تومان


یکی از رشته های زیر مجموعه فنی مهندسی که علاقمندان بسیاری در کشور ما  دارد رشته کامپیوتر و فناوری اطلاعات هستش که اتفاقا سایت دیجی لود در حال تکمیل سری جدیدی از پایان نامه های ارشد این رشته تحصیلی برای کاربران گرانقدر خود میباشد. دیجی لود در ادامه پایان نامه ” بهينه سازی روش تشخيص اهميت پيوند در پايگاه پيوند و کاربست آن در معماری موتورهای جستجو ”   با فرمت Word (قابل ویرایش) در 125 صفحه را معرفی مینماید.

 

چکیده پایان نامه بهينه سازی روش تشخيص اهميت پيوند در پايگاه پيوند و کاربست آن در معماری موتورهای جستجو :

در عصر اطلاعات، وب امروزه به یکی از قدرتمند ترین و سریع ترین ابزارهای ارتباطات و تعـامل میان انسان ها بدل شده است. موتورهای جستجو  به عنوان برنامه های کاربردی وب به طور خودکار پهنه وب را پیمایش نموده و مجموعـه ای از اسناد و مـدارک بروز موجـود را دریافـت می کننـد. فرآینـد دریافت، ذخیره سازی، رده بندی و شاخص دهی بر اساس الگوریتم های نيمه هوشمند به صورت خودکار انجـام می شود. اگر چه بسیاری از حقایق در مورد ساختار این برنامه های کاربردی به عنـوان اسـرار تجاری پنهان باقی مانـده است، ادبيات تحقيق در شاخه ی موتورهای جستجو و ابزارهای بازيابی اطلاعات تلاش در يافتن بهترین راهکارها برای عملکرد بهينه ی هر ماژول در ساختار موتورهای جستجو دارد. با توجه به زمان محدود کاربران وب امروزی، ارائه مرتبط ترين و تازه ترين اسناد به آنها اغلب مهمترين چالشی برای موتورهای جستجو می باشد. برای انجام اين مهم، هر ماژول در معماری موتور جستجو باید به گونه ای هوشمند طراحی شود که نه تنها اسناد مرتبط را ارائه دهد بلـکه به پاسخگویی در سريع ترين زمان ممکن بپردازد. در میـان این ماژول ها بخش حساس و حیاتی به نام خزنده وجود دارد. یکی از مسائل قابل بحث در بهینه سازی عملکرد موتورهای جستجو این است که، سیاست خزیدن پیکربندی مجـدد گردد به طریقی که لینک های خارجی مرتبطی که به محتوای مرتبط با صفحات منبع پيوند می خورند دنبال گردد. ماژول خزنده مسئول واکشی صفحات برای ماژول رتبه بندی است. اگر صفحات با کیفیت بالاتر با انحراف موضوع کمتر توسط خزنده نمایه سازی شوند، رتبه بندی سریع تر انجام خواهد شد.

با در نظر گرفتن ساختار وب به صورت گراف، نحوه ی پیمایش وب به صورت روش های جستجوی گرافی می باشد. در این پژوهش، با بکار بردن تجربی روشهای مختلف جستجوی گراف و ترکیبات مختلف آنها و با صدور پرس و جوهایی به موتور جستجوی گوگل جهت اندازه گیری کیفیت صفحات دریافتی و با ثابت در نظر گرفتن فاکتور عمق پيمايش به شناسایی بهترین روش با پیچیدگی زمانی و فضایی معقول به منظور بکار گيری در بخش خزنده در معماری موتور جستجو پرداخته خواهد شد.

کلمات کلیدی: خزنده وب ، پيمايش گراف، موتورهای جستجو ، انحراف موضوع.

 

اهمیت و ضرورت انجام تحقیق

شبكه اينترنت در سايه وب جهان گستر، به يكي از قدرتمندترين و سريع‌ترين ابزارهای ارتباط و تعامل ميان انسانها تبديل گشته است. اینترنت به عنوان شاخص ترین نماد عصر اطلاعات با سرعتی حیرت انگیز در طی دهه اخیر رشد کرده است. یکی از امکانات وسیع اینترنت که سریع ترین رشد را نسبت به سایر امکانات اینترنت داشته است، وب است که بی تردید یکی از اصلی ترین عوامل رشد این شبـکه به شمار می آید.

با توجه به اينکه بهترين موتورهای جستجو دارای پايگاه داده ای حدوداً 50 درصد صفحات موجود در وب هستند از اين رو مستقر شدن پيوندهای با اهميت بيشتر و الگوشناسايي و کشف آنها در کارايي موتورهای جستجو و تامين رضايت کاربران بسيار حياتی است[15].

یکی از راه هایی که موتورهای جستجو، برای کاهش زمان جستجو به کار می برند، پیش پرداش محتوای وب سایت هاست. به این ترتیب که وقتی کاربر درخواست یک پرس و جو را می دهد. به جای این که این پرس وجو به میلیون ها وب سایت فرسـتاده شـود، با داده از پیـش پردازش شـده در یـک سـایت مقایسـه می شـود و مطابقت صـورت می پذیـرد. پیش پـردازش به کمـک برنامه نرم افزاری به نام خـزنده انجام می گیرد. خزنده موظف است صفحات وب را برای تحلیل و ایجاد شاخص در یک روال منظم، سریع و جامع استخراج کرده و تحویل انباره صفحات بدهد[10].

با توجه به مطالب ذکر شده، بررسي و بهينه نمودن موتورهای جستجو و به خصوص چگونگي دانلود صفحات و نوسازي آنها و هم چنين کم کردن بار به وجود آمده بر روي وب سايت ها و غيره، همگي مواردي هستند که ضرورت بحث را به طور واضح نشان مي دهند.

 

فهرست مطالب پایان نامه بهينه سازی روش تشخيص اهميت پيوند در پايگاه پيوند و کاربست آن در معماری موتورهای جستجو :

چکیده 1

فصل اول: کلیات… 2

1-1 مقدمه. 3

1-2 بیان مسأله. 4

1-3 اهمیت و ضرورت انجام تحقیق.. 5

1-4 ساختار پایان نامه. 6

فصل دوم: مبانی و مفاهیم پایه 7

2-1 مقدمه. 8

2-2 انواع موتورهای جستجو. 13

2-2-1 موتورهای کلید واژه ای.. 13

2-2-2 موتورهای جستجو بر اساس فهرست راهنمای موضوعی.. 13

2-2-3 موتورهای جستجوی مبتنی بر خزنده 15

2-2-3-1 تفاوت موتورهای دایرکتوری با موتورهای مبتنی بر خزنده 16

2-2-4  موتورهای جستجوی ترکیبی.. 16

2-2-5 موتورهای جستجوی متا 17

2-2-5-1 فهرستي از موتورهاي جستجو. 17

2-2-5-2 جستجوي متوالي.. 17

2-2-5-3 جستجوي هم زمان. 17

2-2-6 موتورهاي جستجوي هوشمند. 18

2-2-7 موتورهای جستجوگر مبتنی بر هزینه. 18

2-3 معماری موتورهای جستجو. 20

2-4 اجزای معماری موتورهای جستجو. 22

2-5 استراتژی های روزآمد سازی مخزن. 27

2-5-1 روش دسته ای يا خزنده دائمی.. 27

2-5-2 جستجوهای نسبی یا کامل.. 32

2-6 دو نمايه اصلي واحد نمايه ساز. 28

2-7 یک مثال از نحوه عملکرد موتور جستجو. 31

2-8 مراحل كار موتورهای جستجو  .. ………. 31

2-8-1 پیش پردازش دادها 31

2-8-2 الویت بندی نتایج.. 32

2-9 برچسب ها 33

2-9-1 برچسب های توصیفی متن.. 33

2-9-2- بر چسب alt tag. 33

2-10 فایل robots.txt 34

2-11 موقعیت و مسافت… 34

2-12 مشکلات خزنده 35

2-13 روشهای بهینه سازی موتورهای جستجو.   35

2-13-1 شاخص گذاری.. 35

2-13-2 جلوگیری از خزش و استاندارد خروج روبات ها 35

2-13-3 افزایش اهمیت… 36

2-14 الگوريتم هاي رتبه بندي.. 37

2-14-1 پارامتر های رتبه دهی.. 37

2-14-2 وزن دهی به کلمات… 37

2-14-3  ارزیابی کلمات کلیدی.. 37

2-14-4 پارامتر های وزن دهی.. 38

2-14-5 بازیابی تحمل پذیر. 38

2-14-6 الگوریتم کلی غلط یابی املایی در موتور های جستجو. 38

2-14-7 غلط یابی املایی.. 39

2-14-8 الگوریتم فاصله ویرایشی.. 39

2-14-9 الگوریتم مجاورت کی-گرم. 40

2-14-10 غلط یابی حساس به متن.. 40

2-14-11 مفهوم ربط.. 41

2-14-11-1 ربط از نظر کاربر. 42

2-14-11-2 ربط از نظر سیستم بازیابی.. 42

2-14-12 نظر خواهی از کاربر در رتبه بندی.. 43

2-14-13 موتورهاي جستجوي اصلي.. 43

2-14-13-1 Google. 43

2-14-13-2   Excite. 44

2-14-13-3  Altavista. 44

2-14-13-4 Yahoo. 44

2-14-13-5  Fast 44

2-14-13-6   Lycos 44

2-14-14 موتورهاي جستجوي خبري.. 45

2-14-15 متا كراولر. 46

2-14-16 موتورهای جستجو منفعتي.. 48

2-14-17 موتورهای جستجو ليست پرداخت… 49

2-14-18 موتورهای جستجو  اختصاصي.. 49

2-14-19 جستجوي پاسخ.. 50

2-14-20 موتورهاي جستجوي كودكان. 51

2-14-21 موتورهاي جستجوي منطقه اي.. 51

2-15 نتیجه گیری.. 52

فصل سوم: معماری خزنده وب و استراتژی های خزش… 53

3-1 مقدمه. 54

3-2 معماري خزنده هاي وب… 54

3-3 انتخاب صفحه. 56

3-4 اهمیت صفحه. 57

3-5 چالش های اجرای یک خزنده 57

 

3-5-1 انتخاب صفحات برای دانلود. 57

3-5-1 انتخاب صفحات برای دانلود. 57

 

3-6 پيچيدگي هاي فرآيند خزیدن. 58

3-6-1 استرات‍ژي هاي سنجش انتخاب صفحات… 58

 

3-6-1-1 معیار مبتنی بر گرایشات کاربران. 58

3-6-1-2 معیار مبتنی بر شهرت صفحات… 58

 

3-6-1-3 معیار مبتنی بر محل قرار گرفتن صفحات… 58

3-7 چگونگی آغاز و ختم فرآیند استخراج و ذخیره سازی صفحات وب… 59

3-7-1 خزش و توقف………………………………. 59

3-7-2 خزش و توقف مبتنی بر مقدار آستانه……………………….. 59

3-8 استراتژی های روزآمدسازی صفحات… 60

3-8-1 سیاست روزآمد سازی یکپارچه. 60

3-8-2 سیاست روزآمد سازی نسبی.. 60

3-9 به حداقل رساندن بار روی وب سایت های بازدید شده 60

3-10 موازی سازی روند خزنده 60

3-11 ساختار وب… 61

3-12 استراتژی های خزش… 62

3-12-1 جستجوی ناآگاهانه. 62

3-12-1-1 حركت اول عمق.. 62

3-12-1-2 حركت اول سطح.. 63

3-12-1-3 جستجو با هزینه یکنواخت… 65

3-12-2 جستجوی آگاهانه یا اکتشافی.. 66

3-12-2-1 حركت بهترين-شروع. 67

3-12-2-2 جستجوی * A.. 69

3-12-3 جستجوی محلی.. 69

3-12-3-1 جستجوی تپه نوردی.. 70

3-12-3-2 جستجوی پرتو محلی.. 70

3-12-3-3 جستجوی شبیه سازی حرارت… 71

3-12-3-4 الگوریتم آستانه پذیرش… 72

3-12-3-2 جستجوی پرتو محلی.. 70

3-13 نتیجه گیری.. 73

فصل چهارم: تجزیه و تحلیل نتایج حاصل از تحقیق.. 74

4-1 مقدمه. 75

4-2 مرحله اول: بررسی روش اول سطح.. 75

4-3 مرحله دوم: بررسی روش اول عمق.. 80

4-4 مرحله سوم: بررسی روش ترکیبی.. 86

4-4-1 ترکیب اول: پیمایش اولین سطح به صورت BFS. 86

4-4-2 ترکیب دوم: پیمایش اولین و دومین سطح به صورت BFS. 86

4-4-3 ترکیب سوم: پیمایش اولین و دومین و سومین سطح به صورت BFS. 86

4-5 مرحله چهارم: بررسی روش بهترین-شروع. 86

4-6 مرحله پنجم: بررسی روش تپه نوردی.. 87

4-7 نتایج تجربی بدست آمده 88

4-8 تعداد صفحات دانلود شده برای هر پرس و جو. 90

4-9 نتیجه گیری.. 91

فصل پنجم: نتیجه گیری و ارائه پیشنهادات… 97

5-1 نتیجه گیری و جمع بندی نهایی.. 93

5-2 پیشنهادات و کارهای آینده 100

منابع. 101

 

 

فهرست جداول

جدول 4-1 میزان مرتبط بودن صفحات با استفاده از روش های اول سطح، اول عمق، بهتـرین- شروع و تپه نوردی  88

جدول 4-2 میزان مرتبط بودن صفحات با استفاده از روش های ترکیبی اول، دوم و سوم. 89

جدول 4-3 تعداد صفحات خزش شده برای هر پرس و جو در الگوریتم های مختلف… 90

 

 

فهرست اشکال

شکل 2-1 درصد تغییرات صفحه. 8

شکل 2-2 متوسط تغییرات صفحه در هر 10 روز. 8

شکل 2-3 موتور جستجوی یاهو. 16

شكل 2-4 معماري موتورهاي جستجو. 20

شكل2-5 كدهای HTML سازنده یك صفحه وب 23

شكل2-6 خزش در وب… 24

شكل2-7 ماتريس اطلاعات كليدواژه ها 25

شكل 2-8 نحوه استخراج و شاخص دهي.. 32

شکل 3-1 معماری خزنده وب… 55

شکل 3-2 الگوریتم پایه خزنده وب… 56

شکل3-3 نمایی کلی از ساختار وب… 61

شکل3-4 ساختار گراف وب… 61

شکل3-5 حركت خزنده در بين صفحات با استفاده از الگوريتم اول عمق.. 62

شکل3-6حركت خزنده در بين صفحات با استفاده از الگوريتم اول سطح.. 63

شکل3-7 يك خزنده با استراتژي اول سطح.. 63

شکل 3-8 الگوریتم خزنده با استراتژی اول سطح.. 64

شکل 3-9 محاسبه پيچيدگی زمانی يک درخت جستجوی دودويی با استفاده از جستجوی اول سطح.. 33

شکل 3-10 مراحل رسیدن به هدف با استفاده از روش UCS. 66

شکل 3-11 يك خزنده با استراتژي بهترين-شروع. 68

شکل 3-12 الگوریتم خزنده با استراتژی بهترین-شروع. 69

شکل 3-13 شبه کد جستجوی تپه نوردی.. 70

شکل 3-14 شبه الگوریتم پرتومحلی.. 71

شکل 3-15 شبه الگوریتم شبیه سازی حرارت… 72

شکل 4-1 لینک های استخراج شده سطح اول با استفاده از تکنیک BFS 75

شکل 4-2 لینک های استخراج شده سطح دوم با استفاده از تکنیک BFS. 76

شکل 4-3 لینک های استخراج شده سطح سوم با استفاده از تکنیک BFS 77

شکل 4-4 مسیر طی شده در اولین هسته از پرس و جوی Computer networks در روش اول سطح.. 77

شکل4-5 مسیر طی شده در دومین هسته از پرس و جوی Computer networks در روش اول سطح.. 78

شکل4-6 مسیر طی شده در سومین هسته از پرس و جوی Computer networks در روش اول سطح.. 80

شکل 4-7 محتوای S1 81

شکل 4-8 محتوای a1 S1 81

شکل 4-9 b1 S1 a1 81

شکل 4-10 c1 b1 S1 a1 82

شکل 4-11 d1 c1 b1 S1 a1 82

شکل 4-12 مسیر طی شده در اولین مرحله از روش اول عمق.. 82

شکل 4-13 مسیر طی شده در nامین مرحله از روش اول عمق در هسته اول 84

شکل 4-14 مسیر طی شده در اولین مرحله از روش اول عمق.. 84

شکل 4-15 مسیر طی شده در nامین مرحله از روش اول عمق.. 90

شکل5-1 نمودار ستونی درصد مرتبط بودن صفحات در پرس و جوی”Computer networks“ 94

شکل 5-2 نمودار ستونی درصد مرتبط بودن صفحات در پرس و جوی”Artificial Intelligence“ 94

شکل 5-3 نمودار ستونی درصد مرتبط بودن صفحات در پرس و جوی“Web crawler“ 95

شکل 5-4 نمودار ستونی درصد مرتبط بودن صفحات در  پرس و جوی”Search engine“ 95

شکل 5-5 نمودار ستونی درصد مرتبط بودن صفحات در پرس و جوی ”Cloud Computing“ 96

شکل 5-6 نمودار ستونی درصد مرتبط بودن صفحات در پرس و جوی ”Software engineering“ 96

شکل 5-7 نمودار ستونی درصد مرتبط بودن صفحات در پرس و جوی”Data mining“ 97

شکل5-8 نمودار ستونی درصد مرتبط بودن صفحات در پرس و جوی ”Computer architecture“ 97

شکل 5-9 نمودار ستونی درصد مرتبط بودن صفحات در پرس و جوی”Operatin system “ 98

شکل5-10 نمودار ستونی درصد مرتبط بودن صفحات در پرس و جوی”Wi-Fi“ 98

 

 

 

راهنمای خرید و دانلود فایل

برای پرداخت، میتوانید از کلیه کارتهای عضو شتاب  استفاده نمائید.

بعد از پرداخت آنلاین لینک دانلود فعال و نمایش داده میشود ، همچنین یک نسخه از فایل همان لحظه به ایمیل شما ارسال میگردد.

در صورت بروز  هر مشکلی،میتوانید از طریق تماس با ما  پیغام بگذارید و یا در تلگرام با ما در تماس باشید، تا شکایت شما مورد بررسی قرار گیرد.

برای دانلود فایل روی دکمه خرید و دانلود  کلیک نمایید.



ads

مطالب مرتبط


ديدگاه ها


دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

13 − دوازده =