سمینار مهندسی کامپیوتر استفاده از یادگیری عمیق جهت فیلتر کردن هرزنامه

دانلود مطالب دانشگاهی

چکیده

اسپم، به معنای پیام یا نامه الکترونیکی است که بدون درخواست گیرنده و برای افراد بی‌شمار فرستاده می‌شود. یکی از مشهورترین انواع اسپم هرزنامه است. در این نوشته قصد داریم روشهای مختلف برای مقابله با اسپم ها را بررسی کنیم و توانایی جدیدترین کارهای انجام شده در این حوزه که از یادگیری عمیق استفاده می کنند را نشان دهیم. در این نوشته پس از بررسی انواع اسپم به معرفی راهکارهای مقابله با آن پرداخته می‌شود و با تمرکز به روشهای مقابله مبتنی بر یادگیری و ارائه کامل آنها به ارائه جدیدترین روشهای مقابله که از یادگیری عمیق در رابطه با مقابله با اسپم استفاده می کنند پرداخته می‌شود.

با استفاده از مجموعه داده های استاندارد در این حوزه روشهای مختلف را از لحاظ دقت و دیگر معیارهای مربوط مقایسه می‌شود. تحقیقات و آزمایشات نشان داده است که روشهای یادگیری عمیق از دقت بالاتری نسبت به سایر روشهای یادگیری و ایستا بهره مند هستند.

واژه‌های كلیدی: اسپم، یادگیری عمیق، استخراج ویژگی، هرزنامه

 

1-1- شرح مسأله

اسپم یا جفنگ[1]، به معنای پیام یا نامه الکترونیکی است که بدون درخواست گیرنده و برای افراد بی‌شمار فرستاده می‌شود[1]. یکی از مشهورترین انواع اسپم هرزنامه است[2] اما اسپم می‌تواند شامل اسپم در پیام‌رسان‌ها[3]، اسپم در گروه‌های خبری یوزنت[4]، اسپم در بخش نظرات وبلاگ‌ها[5], [6] و صفحات ویکی[7] و فروم‌های خبری و غیره هم بشود.

اولین اسپم در سال ۱۹۷۸ توسط گری فورک ارسال شد[8] او به قصد تبلیغ شرکتش ششصد نامه به کاربران فرستاد از نظر فنی، ارسال اسپم تقریباً بدون هزینه است و این مساله باعث شده شرکت‌های بازاریابی، به سمت آن حرکت کنند. از آن‌جایی که ارسال اسپم مشکل فنی چندانی ندارد، بیشتر و بیشتر شاهد افرادی هستیم که به سراغ فرستادن اسپم می‌روند و به همین دلیل کشورها در حال تصویب قوانینی برای مبارزه با این امر هستند.

اسپم‌ها که معمولا تبلیغاتی هستند، ویژگی‌های مشابهی دارند. مثلا آنهایی که محصولی را تبلیغ می‌کنند از قیمت آن حرف می‌زنند و یا می‌گویند که فرصت‌تان چقدر استثنایی است. حتی رنگارنگ بودن بخش‌های نوشته می‌تواند نشان از بی‌ارزش بودن آن باشد. از آنجایی که این نشانه‌های قطعی نیستند و ما هم در ایمیل‌هایی که برای هم می‌فرستیم ممکن است مثلا از قیمت حرف بزنیم، نمی‌توانیم با چند قانون ساده هرزنامه‌ها را جدا کنیم. این‌جور مواقع سعی می‌کنیم از روی مجموعه هرزنامه‌های موجود یاد بگیریم که هرزنامه‌ها چه ویژگی‌هایی دارند.

به سوءاستفاده از ابزارهای الکترونیکی مانند ایمیل، مسنجر، گروههای خبری ایمیلی، فکس، پیام کوتاه و... برای ارسال پیام به تعداد زیاد و به صورت ناخواسته اسپم می‌گویند. با توجه به هزینه اندک این روش نسبت به پست سنتی که در گذشته برای ارسال پلاک به پلاک تبلیغات مورد استفاده قرار می‌گرفت و همچنین ناقص بودن قوانین بین‌المللی برای محدود کردن هرزنامه، این قبیل ایمیل‌ها در سطح وسیعی ارسال می‌شوند. «اسپم» در واقع عنوان علامت تجاری تولیدات گوشت بسته‌بندی محصولات غذایی معروف «هرمل» است و یکی از محصولات گوشتی کمی بود که در دوران جنگ جهانی دوم از جیره دهی مستثنی شده بود و از این رو به طور گسترده‌ای در دسترس بود. بعد از مدتی از این واژه در یک برنامه طنز تلویزیونی انگلیسی (به نام میدان پرواز پی‌تون) استفاده کردند که در آن اسپم به شیوه‌ای غیرمعمول و طنز گونه در فهرست غذاهای رستوران تکرار شده بود. کامپیوتر آلوده ممکن است فقط به عنوان یک نقطه‌ی پایان باشد. بدافزارها می‌توانند سرورهایی با پروکسی باز نصب کنند، که برای تقویت اسپم‌ها به کار می‌روند و یا اینکه می‌توانند ماشینهای آلوده را به زامبی مبدل کنند که می‌توانند برای اهداف گوناگونی مانند هدایت‌کردن حملات DDoS به کار روند. در کلیه این موارد، سازنده‌ی بدافزار، کامپیوتر آلوده‌شده را که تقریباً هیچ احتمالی برای دستگیری یا شناسایی‌شدن آن ندارد، بعداً مجدد استفاده خواهد کرد. به طور کلی اسپم به معنای فرستادن پیام‌های متعدد و مشابه‌است و اسپمینگ تکرار این عمل نامیده می‌شود.

رای مقابله با نامه‌های الکترونیکی ناخواسته تاکنون روش‌های متعددی ایجاد و این روند با توجه به ابعاد گسترده آن، همچنان ادامه دارد. بهترین تکنولوژی که در حال حاضر برای توقف اسپم وجود دارد، استفاده از نرم‌افزارهای فیلترینگ است. این نوع برنامه‌ها، وجود کلید واژه‌های خاصی را در خط موضوع پیام، بررسی و در صورت شناسائی آنان، نامه الکترونیکی مورد نظر را حذف می‌نماید. برنامه‌های فیلترینگ، کلید واژه‌های مورد نظر را از نظر املایی شناسایی می‌نماید. برای املای یک کلید واژه، روش‌های متعددی وجود داشته و در برخی موارد ممکن است فرایند هجی کردن نتایج مطلوبی را به دنبال نداشته و باعث حذف نادرست نامه‌هایی گردد که تمایل به دریافت آنان را داشته باشیم.

برخی از برنامه‌های فیلترینگ پیشرفته، نظیر هِریستیک و یا بِیشِن، با استفاده از روش‌های متعدد آماری (مانند فیلترینگ اسپم بیزی) اقدام به شناسائی اسپم بر اساس الگوهایی خاص می‌نمایند. سازمان‌های متعددی اقدام به انتشار لیست آدرس‌های آی‌پی استفاده شده توسط ارسال‌کنندگان نامه‌های الکترونیکی ناخواسته، می‌نمایند. هر اسپمر بزرگ، قطعاً دارای مجموعه‌ای از ماشین‌های سرویس‌دهنده‌است که اقدام به ارسال پیام‌های اسپم نموده و هر ماشین نیز دارای آدرس آی‌پی اختصاصی مربوط به خود است. پس از تشخیص اسپم از طریق آدرس آی‌پی آن، آدرس فوق به لیست سیاه اضافه می‌گردد. هاروستر یکی از مراکزی است که چنین لیست‌هایی را ایجاد و بطور دائم آنان را به روز می‌نماید. شرکت‌هایی که صورت حساب پست الکترونیکی را هاست می‌نمایند، می‌توانند با بررسی آدرس آی‌پی فرستنده و مقایسه آن با لیست سیاه ارائه شده، آن را فیلتر و بلاک نمایند. ارسال‌کنندگان نامه‌های الکترونیکی نیز در این زمینه ساکت ننشسته و در این رابطه از رویکردهای متعددی استفاده می‌نمایند.

تغییر متناوب آدرس‌های آی‌پی با توجه به وجود این‌گونه آدرس‌های آی‌پی در لیست سیاه، در صورتی که آدرس‌های فوق در اختیار سازمان‌ها و یا موسساتی دیگر قرار گیرد، عملاً برای استفاده‌کنندگان غیرقابل استفاده بوده و آنان نمی‌توانند از چنین آدرس‌هایی برای ارسال نامه‌های الکترونیکی واقعی، استفاده نمایند. استفاده از توان سایر کامپیوترهایی که به آنان شکی وجود ندارد: ارسال‌کنندگان اسپم، با استفاده از تکنیک‌های خاصی از بین کامپیوترهای مطمئن موجود در شبکه که به آنان سو ظنی وجود ندارد، اصطلاحاً یارگیری نموده و از آنان برای ارسال نامه‌های الکترونیکی ناخواسته، استفاده می‌نمایند. در چنین مواردی عملاً ماشین مورد نظر در اختیار ارسال‌کنندگان اسپم، قرار خواهد گرفت. از طرفی چون آدرس‌های آی‌پی این نوع از ماشین‌ها جدید بوده و در لیست سیاه آدرس‌های آی‌پی قرار ندارند، امکان ارسال میلیون‌ها پیام الکترونیکی با استفاده از آنان فراهم می‌گردد (قبل از این که شناسایی و در لیست سیاه قرار گیرند). از دیگر راهکارهای مقابله با اسپم، می‌توان به تدوین مجموعه قوانین مناسب برای برخورد با افراد و یا موسسات ارسال کننده این نوع نامه‌های الکترونیکی، تهیه یک لیست اختیاری برای افرادی که تمایل به دریافت اسپم را دارند و استفاده از گزینه‌هایی نظیر فرم‌های آنلاین در مقابل ایمیل، اشاره نمود. با توجه به حجم نامه‌های ارسالی ناخواسته و غیر قابل کنترل بودن آن، می‌بایست تغییرات عمده‌ای در سرویس‌دهندگان پست الکترونیکی سنتی ایجاد و آنان خود را مجهز به تکنولوژی‌های پیشرفته‌ای به منظور ایمن سازی سرویس دهنده، نمایند. هم اینک موضوع مقابله با اسپم در دستور کار شرکت‌های عظیم تولیدکننده نرم‌افزار (سرویس‌دهندگان پست الکترونیکی)، سخت‌افزار و امنیت اطلاعات قرار گرفته و تمامی آنان در تلاش برای ایجاد روش‌ها و تکنیک‌هایی خاص برای مقابله با اسپم می‌باشند.

[1] Spam

1-1- معرفی حوزه سمینار

تمرکز اصلی این سمینار بر حوزه یادگیری ماشین و به خصوص بر یادگیری عمیق است. پس در این سمینار به بیان روشهای تشخیص اسپم بر اساس یادگیری ماشین و به خصوص یادگیری عمیق تمرکز می‌شود.

به طور کلی روش های موجود برای فیلتر کردن اسپم می توانند دارای قابلیت یادگیری و یا بدون این قابلیت باشند. فیلترهایی که بدون قابلیت یادگیری هستند ، عموما بر اساس تطبیق قوانین ثابت عمل می‌کنند .که این قوانین اکثراً به صورت دستی و توسط کاربر تعیین می شوند .ولی روش های مبتنی بر قابلیت یادگیری، با یادگیری ویژگی‌های اسپم ها، سعی در فیلتر کردن آنها می کنند .از جمله شیوه های محبوب در سالهای اخیر ، شناسایی بر اساس محتوای[1] اسپم است ، که می توان آن را نوعی دسته بندی متن[2] به حساب آورد.

در نتیجه روش های موجود برای فیلتر کردن هرزنامه ها را می‌توان به سه دسته زیر تقسیم کرد که در هر دسته ، این امکان وجود دارد تا بتوان فیلتری با قابلیت یادگیری و یا بدون این قابلیت طراحی نمود.

  • فیلتر درسطح شبکه:

اغلب این روش ها با استفاده از از ویژگی های موجود در سرپیام نامه های الکترونیکی ، هرزنامه ها را شناسایی و فیلتر می‌کنند . این روش ها بدون نیاز به نرم افزار فیلتر کردن ، توسط بسیاری از سرویس دهندگان پست الکترونیکی ، استفاده می شوند . در این سطح فیلتر های بسیاری طراحی شده اند که مهمترین آن ها فهرست سیاه و سفید است .

  • فیلتر در سطح سرور:

این گونه فیلتر ها با شناسایی هرزنامه ها و فیلتر کردن آن ها ، باعث صرفه جویی در اتلاف پهنای باند می شوند . همچنین چون هرزنامه ها به تعداد زیادی از کاربران فرستاده می شوند ، مسدود کردن آن ها می تواند کاهش زیادی در حجم هرزنامه نامه هایی که باید ذخیره و تحویل شوند ، داشته باشد . در این سطح هم فیلترهای بیشماری طراحی شده اند، مانند فیلتر های گروهی[3].

  • فیلتر در سطح کاربر نهایی[4] :

فیلترهای موجود در این سطح برخلاف روش های قبلی مبتنی بر دانش هستند و باید در یک مرحله تحت عنوان فراگیری ، قوانین لازم برای فیلتر کردن نامه ها را استخراج کنند . از مهمترین روش های موجود در این بخش ، فیلتر های مبتنی بر محتوا است . فیلتر های مبتنی بر محتوا سعی می کنند که با استفاده از محتوای متنی نامه تشخیص دهند که آیا یک نامه هرزنامه هست یا نه . فیلتر های مبتنی بر محتوا به دو گروه فیلتر های مبتنی بر قانون و فیلترهای مبتنی بر یادگیری ماشین تقسیم می شوند.

1-2- ساختار گزارش

در این فصل به بیان مقدمه ای بر تشخیص و فیلتر کردن هرزنامه پرداخته شد. در فصل بعد با یادگیری ماشین و یادگیری عمیق آشنا خواهیم شد تا بتوان روشهای فیلتر کردن هرزنامه بر اساس روشهای یادگیری ماشین که در فصل سوم معرفی خواهند شد را بهتر درک کرد.  در فصل آخر به بیان نتیجه گیری از کارهای مرتبط در رابطه با رفع هرزنامه ها و همچنین کمی ها و کاستی های این مقوله بحث خواهد شد. همچنین در فصل آخر کارهای آتی قابل انجام ارائه خواهد شد.

 

 

[1] content based

[2] Text classification

[3] Collaborative filtering

[4] end user

 

برای دانلود سمینار با عنوان ذکر شده لطفا از طریق لینک زیر ثبت سفارش کنید:

سفارش انلاین سمینار

 

پروپوزال  مهندسی کامپیوتر تلفیق الگوریتم ژنتیک و منطق فازی برای خوشه بندی نابرابر در شبکه های حسگر بیسیم

آموزش تخصصی انجام پایان نامه مهندسی کامپیوتر، شبکه حسگر بیسیم

پروپوزال مهندسی کامپیوتر ردیابی هدف متحرک در شبکه حسگر بی‌سیم با استفاده از الگوریتم بهینه‌سازی کوکو

پروپوزال مهندسی کامپیوتر ارائه چارچوب و مدلی برای امنیت داده های حجیم

پروپوزال مهندسی کامپیوتر ارائه‌ی یک روش تخصیص منابع جهت انتخاب طیف در شبكه­‌هاي  بي‌سيم راديوشناختی در محیطهای پویاچ

پروپوزال مهندسی کامپیوتر استفاده از روشهای داده کاوی جهت بهره برداری در بازاریابی بانک جهت افتتاح حسابهای سپرده های سرمایه گذاری

 مهندسی کامپیوتر

اگر برای هریک از موارد فوق نیاز به مشاوره رایگان دارید، همین الان با ما تماس بگیرید.