سمینار مهندسی کامپیوتر استفاده از یادگیری عمیق جهت فیلتر کردن هرزنامه
چکیده
اسپم، به معنای پیام یا نامه الکترونیکی است که بدون درخواست گیرنده و برای افراد بیشمار فرستاده میشود. یکی از مشهورترین انواع اسپم هرزنامه است. در این نوشته قصد داریم روشهای مختلف برای مقابله با اسپم ها را بررسی کنیم و توانایی جدیدترین کارهای انجام شده در این حوزه که از یادگیری عمیق استفاده می کنند را نشان دهیم. در این نوشته پس از بررسی انواع اسپم به معرفی راهکارهای مقابله با آن پرداخته میشود و با تمرکز به روشهای مقابله مبتنی بر یادگیری و ارائه کامل آنها به ارائه جدیدترین روشهای مقابله که از یادگیری عمیق در رابطه با مقابله با اسپم استفاده می کنند پرداخته میشود.
با استفاده از مجموعه داده های استاندارد در این حوزه روشهای مختلف را از لحاظ دقت و دیگر معیارهای مربوط مقایسه میشود. تحقیقات و آزمایشات نشان داده است که روشهای یادگیری عمیق از دقت بالاتری نسبت به سایر روشهای یادگیری و ایستا بهره مند هستند.
واژههای كلیدی: اسپم، یادگیری عمیق، استخراج ویژگی، هرزنامه
اسپم یا جفنگ[1]، به معنای پیام یا نامه الکترونیکی است که بدون درخواست گیرنده و برای افراد بیشمار فرستاده میشود[1]. یکی از مشهورترین انواع اسپم هرزنامه است[2] اما اسپم میتواند شامل اسپم در پیامرسانها[3]، اسپم در گروههای خبری یوزنت[4]، اسپم در بخش نظرات وبلاگها[5], [6] و صفحات ویکی[7] و فرومهای خبری و غیره هم بشود.
اولین اسپم در سال ۱۹۷۸ توسط گری فورک ارسال شد[8] او به قصد تبلیغ شرکتش ششصد نامه به کاربران فرستاد از نظر فنی، ارسال اسپم تقریباً بدون هزینه است و این مساله باعث شده شرکتهای بازاریابی، به سمت آن حرکت کنند. از آنجایی که ارسال اسپم مشکل فنی چندانی ندارد، بیشتر و بیشتر شاهد افرادی هستیم که به سراغ فرستادن اسپم میروند و به همین دلیل کشورها در حال تصویب قوانینی برای مبارزه با این امر هستند.
اسپمها که معمولا تبلیغاتی هستند، ویژگیهای مشابهی دارند. مثلا آنهایی که محصولی را تبلیغ میکنند از قیمت آن حرف میزنند و یا میگویند که فرصتتان چقدر استثنایی است. حتی رنگارنگ بودن بخشهای نوشته میتواند نشان از بیارزش بودن آن باشد. از آنجایی که این نشانههای قطعی نیستند و ما هم در ایمیلهایی که برای هم میفرستیم ممکن است مثلا از قیمت حرف بزنیم، نمیتوانیم با چند قانون ساده هرزنامهها را جدا کنیم. اینجور مواقع سعی میکنیم از روی مجموعه هرزنامههای موجود یاد بگیریم که هرزنامهها چه ویژگیهایی دارند.
به سوءاستفاده از ابزارهای الکترونیکی مانند ایمیل، مسنجر، گروههای خبری ایمیلی، فکس، پیام کوتاه و... برای ارسال پیام به تعداد زیاد و به صورت ناخواسته اسپم میگویند. با توجه به هزینه اندک این روش نسبت به پست سنتی که در گذشته برای ارسال پلاک به پلاک تبلیغات مورد استفاده قرار میگرفت و همچنین ناقص بودن قوانین بینالمللی برای محدود کردن هرزنامه، این قبیل ایمیلها در سطح وسیعی ارسال میشوند. «اسپم» در واقع عنوان علامت تجاری تولیدات گوشت بستهبندی محصولات غذایی معروف «هرمل» است و یکی از محصولات گوشتی کمی بود که در دوران جنگ جهانی دوم از جیره دهی مستثنی شده بود و از این رو به طور گستردهای در دسترس بود. بعد از مدتی از این واژه در یک برنامه طنز تلویزیونی انگلیسی (به نام میدان پرواز پیتون) استفاده کردند که در آن اسپم به شیوهای غیرمعمول و طنز گونه در فهرست غذاهای رستوران تکرار شده بود. کامپیوتر آلوده ممکن است فقط به عنوان یک نقطهی پایان باشد. بدافزارها میتوانند سرورهایی با پروکسی باز نصب کنند، که برای تقویت اسپمها به کار میروند و یا اینکه میتوانند ماشینهای آلوده را به زامبی مبدل کنند که میتوانند برای اهداف گوناگونی مانند هدایتکردن حملات DDoS به کار روند. در کلیه این موارد، سازندهی بدافزار، کامپیوتر آلودهشده را که تقریباً هیچ احتمالی برای دستگیری یا شناساییشدن آن ندارد، بعداً مجدد استفاده خواهد کرد. به طور کلی اسپم به معنای فرستادن پیامهای متعدد و مشابهاست و اسپمینگ تکرار این عمل نامیده میشود.
رای مقابله با نامههای الکترونیکی ناخواسته تاکنون روشهای متعددی ایجاد و این روند با توجه به ابعاد گسترده آن، همچنان ادامه دارد. بهترین تکنولوژی که در حال حاضر برای توقف اسپم وجود دارد، استفاده از نرمافزارهای فیلترینگ است. این نوع برنامهها، وجود کلید واژههای خاصی را در خط موضوع پیام، بررسی و در صورت شناسائی آنان، نامه الکترونیکی مورد نظر را حذف مینماید. برنامههای فیلترینگ، کلید واژههای مورد نظر را از نظر املایی شناسایی مینماید. برای املای یک کلید واژه، روشهای متعددی وجود داشته و در برخی موارد ممکن است فرایند هجی کردن نتایج مطلوبی را به دنبال نداشته و باعث حذف نادرست نامههایی گردد که تمایل به دریافت آنان را داشته باشیم.
برخی از برنامههای فیلترینگ پیشرفته، نظیر هِریستیک و یا بِیشِن، با استفاده از روشهای متعدد آماری (مانند فیلترینگ اسپم بیزی) اقدام به شناسائی اسپم بر اساس الگوهایی خاص مینمایند. سازمانهای متعددی اقدام به انتشار لیست آدرسهای آیپی استفاده شده توسط ارسالکنندگان نامههای الکترونیکی ناخواسته، مینمایند. هر اسپمر بزرگ، قطعاً دارای مجموعهای از ماشینهای سرویسدهندهاست که اقدام به ارسال پیامهای اسپم نموده و هر ماشین نیز دارای آدرس آیپی اختصاصی مربوط به خود است. پس از تشخیص اسپم از طریق آدرس آیپی آن، آدرس فوق به لیست سیاه اضافه میگردد. هاروستر یکی از مراکزی است که چنین لیستهایی را ایجاد و بطور دائم آنان را به روز مینماید. شرکتهایی که صورت حساب پست الکترونیکی را هاست مینمایند، میتوانند با بررسی آدرس آیپی فرستنده و مقایسه آن با لیست سیاه ارائه شده، آن را فیلتر و بلاک نمایند. ارسالکنندگان نامههای الکترونیکی نیز در این زمینه ساکت ننشسته و در این رابطه از رویکردهای متعددی استفاده مینمایند.
تغییر متناوب آدرسهای آیپی با توجه به وجود اینگونه آدرسهای آیپی در لیست سیاه، در صورتی که آدرسهای فوق در اختیار سازمانها و یا موسساتی دیگر قرار گیرد، عملاً برای استفادهکنندگان غیرقابل استفاده بوده و آنان نمیتوانند از چنین آدرسهایی برای ارسال نامههای الکترونیکی واقعی، استفاده نمایند. استفاده از توان سایر کامپیوترهایی که به آنان شکی وجود ندارد: ارسالکنندگان اسپم، با استفاده از تکنیکهای خاصی از بین کامپیوترهای مطمئن موجود در شبکه که به آنان سو ظنی وجود ندارد، اصطلاحاً یارگیری نموده و از آنان برای ارسال نامههای الکترونیکی ناخواسته، استفاده مینمایند. در چنین مواردی عملاً ماشین مورد نظر در اختیار ارسالکنندگان اسپم، قرار خواهد گرفت. از طرفی چون آدرسهای آیپی این نوع از ماشینها جدید بوده و در لیست سیاه آدرسهای آیپی قرار ندارند، امکان ارسال میلیونها پیام الکترونیکی با استفاده از آنان فراهم میگردد (قبل از این که شناسایی و در لیست سیاه قرار گیرند). از دیگر راهکارهای مقابله با اسپم، میتوان به تدوین مجموعه قوانین مناسب برای برخورد با افراد و یا موسسات ارسال کننده این نوع نامههای الکترونیکی، تهیه یک لیست اختیاری برای افرادی که تمایل به دریافت اسپم را دارند و استفاده از گزینههایی نظیر فرمهای آنلاین در مقابل ایمیل، اشاره نمود. با توجه به حجم نامههای ارسالی ناخواسته و غیر قابل کنترل بودن آن، میبایست تغییرات عمدهای در سرویسدهندگان پست الکترونیکی سنتی ایجاد و آنان خود را مجهز به تکنولوژیهای پیشرفتهای به منظور ایمن سازی سرویس دهنده، نمایند. هم اینک موضوع مقابله با اسپم در دستور کار شرکتهای عظیم تولیدکننده نرمافزار (سرویسدهندگان پست الکترونیکی)، سختافزار و امنیت اطلاعات قرار گرفته و تمامی آنان در تلاش برای ایجاد روشها و تکنیکهایی خاص برای مقابله با اسپم میباشند.
[1] Spam
تمرکز اصلی این سمینار بر حوزه یادگیری ماشین و به خصوص بر یادگیری عمیق است. پس در این سمینار به بیان روشهای تشخیص اسپم بر اساس یادگیری ماشین و به خصوص یادگیری عمیق تمرکز میشود.
به طور کلی روش های موجود برای فیلتر کردن اسپم می توانند دارای قابلیت یادگیری و یا بدون این قابلیت باشند. فیلترهایی که بدون قابلیت یادگیری هستند ، عموما بر اساس تطبیق قوانین ثابت عمل میکنند .که این قوانین اکثراً به صورت دستی و توسط کاربر تعیین می شوند .ولی روش های مبتنی بر قابلیت یادگیری، با یادگیری ویژگیهای اسپم ها، سعی در فیلتر کردن آنها می کنند .از جمله شیوه های محبوب در سالهای اخیر ، شناسایی بر اساس محتوای[1] اسپم است ، که می توان آن را نوعی دسته بندی متن[2] به حساب آورد.
در نتیجه روش های موجود برای فیلتر کردن هرزنامه ها را میتوان به سه دسته زیر تقسیم کرد که در هر دسته ، این امکان وجود دارد تا بتوان فیلتری با قابلیت یادگیری و یا بدون این قابلیت طراحی نمود.
- فیلتر درسطح شبکه:
اغلب این روش ها با استفاده از از ویژگی های موجود در سرپیام نامه های الکترونیکی ، هرزنامه ها را شناسایی و فیلتر میکنند . این روش ها بدون نیاز به نرم افزار فیلتر کردن ، توسط بسیاری از سرویس دهندگان پست الکترونیکی ، استفاده می شوند . در این سطح فیلتر های بسیاری طراحی شده اند که مهمترین آن ها فهرست سیاه و سفید است .
- فیلتر در سطح سرور:
این گونه فیلتر ها با شناسایی هرزنامه ها و فیلتر کردن آن ها ، باعث صرفه جویی در اتلاف پهنای باند می شوند . همچنین چون هرزنامه ها به تعداد زیادی از کاربران فرستاده می شوند ، مسدود کردن آن ها می تواند کاهش زیادی در حجم هرزنامه نامه هایی که باید ذخیره و تحویل شوند ، داشته باشد . در این سطح هم فیلترهای بیشماری طراحی شده اند، مانند فیلتر های گروهی[3].
- فیلتر در سطح کاربر نهایی[4] :
فیلترهای موجود در این سطح برخلاف روش های قبلی مبتنی بر دانش هستند و باید در یک مرحله تحت عنوان فراگیری ، قوانین لازم برای فیلتر کردن نامه ها را استخراج کنند . از مهمترین روش های موجود در این بخش ، فیلتر های مبتنی بر محتوا است . فیلتر های مبتنی بر محتوا سعی می کنند که با استفاده از محتوای متنی نامه تشخیص دهند که آیا یک نامه هرزنامه هست یا نه . فیلتر های مبتنی بر محتوا به دو گروه فیلتر های مبتنی بر قانون و فیلترهای مبتنی بر یادگیری ماشین تقسیم می شوند.
در این فصل به بیان مقدمه ای بر تشخیص و فیلتر کردن هرزنامه پرداخته شد. در فصل بعد با یادگیری ماشین و یادگیری عمیق آشنا خواهیم شد تا بتوان روشهای فیلتر کردن هرزنامه بر اساس روشهای یادگیری ماشین که در فصل سوم معرفی خواهند شد را بهتر درک کرد. در فصل آخر به بیان نتیجه گیری از کارهای مرتبط در رابطه با رفع هرزنامه ها و همچنین کمی ها و کاستی های این مقوله بحث خواهد شد. همچنین در فصل آخر کارهای آتی قابل انجام ارائه خواهد شد.
[1] content based
[2] Text classification
[3] Collaborative filtering
[4] end user
برای دانلود سمینار با عنوان ذکر شده لطفا از طریق لینک زیر ثبت سفارش کنید:
سفارش انلاین سمینار