مرجع فايلهاي امورزشي | دانلود فايل word تشخيص هرزنامه وب به كمك تكنيك هاي داده كاوي
براي توضيحات بيشتر و دانلود كليك كنيد
- مرجع فايلهاي امورزشي | دانلود فايل word تشخيص هرزنامه وب به كمك تكنيك هاي داده كاوي
دانلود فايل word تشخيص هرزنامه وب به كمك تكنيك هاي داده كاوي
نوع فايل word (قابل ويرايش)
تعداد صفحات 100 صفحه
چكيده
امروزه هرزنامه ها يكي از مشكلات اصلي موتورهاي جستجو هستند، به اين دليل كه كيفيت نتايج جستجو را نامطلوب مي سازند در طول سالهاي اخير پيشرفتهاي بسياري در تشخيص صفحات جعلي وجود داشته است اما در پاسخ تكنيك هاي هرزنامه جديد نيز پديدار شده انددسته: كامپيوتر
بازديد: 4 بار
فرمت فايل: doc
حجم فايل: 3158 كيلوبايت
تعداد صفحات فايل: 100نوع فايل: word (قابل ويرايش)
تعداد صفحات : 100 صفحه
چكيده:امروزه هرزنامه ها يكي از مشكلات اصلي موتورهاي جستجو هستند، به اين دليل كه كيفيت نتايج جستجو را نامطلوب مي سازند. در طول سالهاي اخير پيشرفتهاي بسياري در تشخيص صفحات جعلي وجود داشته است اما در پاسخ تكنيك هاي هرزنامه جديد نيز پديدار شده اند. لازم است براي پيشي گرفتن به اين حملات، تكنيكهاي ضد هرزنامه بهبود يابد.
يك مساله عادي كه ما با آن در اين زمينه مواجه مي شويم اين است كه خيلي از اسناد رتبه بالايي را توسط موتور جستجو بدست آورده اند در حالي كه سزاوار آن نبوده اند. با توجه به گسترش روزافزون وب و همچنين ظهور تكنيك هاي جديد هرزنامه توسط هرزنامه نويسان، هدف بررسي روش هاي مبتني بر داده كاوي جهت شناسايي هرچه بهتر صفحات هرزنامه از غيرهرزنامه است.
الگوريتم ها و نرم افزارهاي داده كاوي از جمله ابزارهاي مورد استفاده در اين پژوهش هستند. از مجموعه داده استاندارد UK2007 و نرم افزار وكا جهت ارائه مدلهايي بهينه استفاده شده است و سعي بر ارائه مدلهايي است كه ضمن كاهش ويژگي هاي مورد استفاده جهت شناسايي صفحات هرزنامه از غيرهرزنامه كارايي مطلوبي را نيز ارائه دهد.كليد واژه:هرزنامه-تكنيك هاي داده كاوي
فهرست مطالب:
چكيده ۱
فصل اول:مقدمه۲
۱-۱ پيش گفتار ۳
1-2 بيان مسئله ۳
۱-۳ اهميت و ضرورت انجام تحقيق ۴
ساختار كلي ۵
فصل دوم:وب و هرزنامه هاي وب۶
۲-۱ وب جهان گستر 7
۲-۱-۱ وب به عنوان گراف۸
۲-۱-۲ گراف وب در صفحه و سطح ميزبان۸
۲-۱-۳ اتصال۹
۲-۲ موتورهاي جستجو۱۰
۲-۲-۱ معماري موتورهاي جستجوي وب۱۱
۲-۲-۲ سرويس دهنده پرس و جوي موتور جستجو۱۳
۲-۳ رتبه بندي ۱۳
۲-۳-۱ رتبه بندي مبتني بر محتوا۱۳
۲-۳-۲ الگوريتم هاي مبتني بر لينك۱۵
۲-۴ هرزنامه وب۱۹
۲-۴-۱ هرزنامه محتوا۲۰
۲-۴-۲ هرزنامه لينك ۲۲
۲-۴-۳ تكنيك هاي مخفي ۲۷
۲-۵ يادگيري ماشين ۲۹
۲-۵-۱ NaΪVe Bayes 30
۲-۵-۲ درخت تصميم 31
۲-۵-۳ ماشين بردار پشتيبان۳۳
۲-۶ تركيب طبقه بندي كننده ها۳۵
۲-۶-۱ Bagging 35
۲-۶-۲ Boosting 36
۲-۷ روش هاي ارزيابي 37
۲-۷-۱ ارزيابي متقاطع ۳۸
۲-۷-۲ دقت و فراخواني۳۸
۲-۷-۳ منحني ROC 39
۲-۸ جمع بندي۴۰
فصل سوم: پيشينه تحقيق 41
۳-۱ مجموعه داده هاي مورد استفاده توسط محققين ۴۲
۳-۱-۱ UK2006 42
۳-۱-۲ UK2007 43
۳-۱-۳ مجموعه داده جمع آوري شده با استفاده از جستجوي MSN 44
۳-۱-۴ DC2010 44
۳-۲ مطالعات مبتني بر محتوا۴۷
۳-۳ روش هاي مبتني بر لينك۵۱
۳-۳-۱ الگوريتم هاي مبتني بر انتشار برچسب ها ۵۱
۳-۳-۲ رتبه بندي تابعي 55
۳-۳-۳ الگوريتم هاي هرس لينك و وزن دهي دوباره۵۶
۳-۳-۴ الگوريتم هاي مبتني بر پالايش برچسب ها ۵۷
۳-۴ روش هاي مبتي بر لينك و محتوا ۵۸
۳-۴-۱ مطالعات مبتني بر كاهش ويژگي ۵۷
۳-۴-۲ مطالعات مبتني بر تركيب طبقه بندي كننده ها۵۹
۳-۴-۳ مطالعات مبتني بر تست اهميت ويژگي هاي متفاوت در تشخيص هرزنامه 63
۳-۴-۴ مطالعات مبتني بر پيكربندي وب ۷۱
۳-۴-۵ تشخيص هرزنامه از طريق آناليز مدلهاي زباني۷۶
۳-۴-۶ تاثير زبان صفحه بر ويژگي هاي تشخيص هرزنامه وب۷۹
۳-۴-۷ رويكرد تركيب ويژگي هاي مبتني بر محتوا و لينك براي صفحات عربي ۸۲
۳-۵ جمع بندي ۸۳
فصل چهارم: پياده سازي ايده پيشنهادي ۸۵
۴-۱ مقدمه۸۶
۴-۲ ويژگي هاي مجموعه داده انتخابي ۸۷
۴-۳ پيش پردازش ۹۲
۴-۳-۱ پيش پردازش مجموعه داده UK2007 93
۴-۳-۲ كاهش ويژگي ها با اعمال الگوريتم هاي داده كاوي۹۳
۴-۴ داده كاوي و ارزيابي مدل ها ۹۶
4-4-1 نتايج الگوريتم ها با اعمال روش هاي كاهش ويژگي 102
۴-۴-۲ مقايسه مقدار F_measure بدست آمده از الگوريتم ها با اعمال بر روي ويژگي هاي بدست آمده از الگوريتم هاي كاهش ويژگي۱۰۹
۴-۵ تفسير نتايج۱۱۰
۴-۶ جمع بندي ۱۱۴
فصل پنجم: نتيجه گيري و كارهاي آتي ۱۱۵
۵-۱ نتيجه گيري ۱۱۶
۵-۲ كارهاي آتي- ۱۱۷
منابع۱۱۸