فیشینگ در هوش مصنوعی

فیشینگ در هوش مصنوعیاین یک نسخه PDF از یک نسخه خطی است که برای انتشار پذیرفته شده‌است. به عنوان یک سرویسبرای مشتریان ما این نسخه اولیه از دست‌نوشته را ارائه می‌کنیم. دست‌نوشته تحت فشار قرار خواهد گرفتcopyediting، حروف‌چینی و مرور مدارک به‌دست‌آمده قبل از آن که به شکل Þnal منتشر شود. خواهش می‌کنمتوجه داشته باشید که در طول فرآیند تولید، ممکن است کشف شود که می‌تواند بر محتوا تاثیر بگذارد، وهمه disclaimers قانونی که به دفتر روزنامه اعمال می‌شوند مربوط می‌شود.کاره‌ای مهم:استفاده از ۷ الگوریتم طبقه‌بندی متفاوت و مشخصه‌های مبتنی بر مشخصه.مجموعه داده اینترنتی بزرگ تولید شده و به اشتراک گذاشته شده‌است (۳۶،۴۰۰ قانونی و ۳۷،۱۷۵ فیشینگ).الگوریتم های طبقه‌بندی مستقل – زمان و زبان.طبقه‌بندی کننده‌های ویژگی غنی ویژگی با ویژگی Vectors، NLP – based و Hybrid.رویکرد پیشنهادی به ۹۷.۹۸ % دقت می‌رسد.یادگیری Phishing های مبتنی بر یادگیری ماشین از نشانی‌های اینترنتیOzgur koray Sahingoza،، Buberb، Onder Demirb، Banu Diricدانشگاه aIstanbul Kultur، دانشکده مهندسی کامپیوتر، ۳۴۱۵۸، استانبول، ترکیهدانشکده فن‌آوری، دانشکده فن‌آوری، دانشکده مهندسی کامپیوتر، استانبول، ترکیهدانشگاه cYildiz Techical، دانشکده مهندسی کامپیوتر، استانبول، ترکیهچکیدهبه دلیل رشد سریع اینترنت، کاربران ترجیح خود را نسبت به سنتی تغییر می‌دهندبرای تجارت الکترونیکی خرید کنید. به جای سرقت بانک / مغازه، این روزها مجرمینسعی کنید قربانیان خود را در فضای مجازی با برخی از فنون خاص پیدا کنید. با استفاده از theدر ساختار ناشناس اینترنت، مهاجمان تکنیک‌های جدیدی مانند فیشینگ (فیشینگ)را آغاز کردند.با استفاده از وب سایت‌های جعلی قربانیان را فریب دهند تا اطلاعات حساس خود را جمع‌آوری کنند.تشخیص اینکه آیا یک صفحه وب قانونی است یا خیر.یا فیشینگ یک مشکل بسیار چالش برانگیز است، به دلیل ساختار حمله مبتنی بر معانی آن،که عمدتا از آسیب‌پذیری‌های کاربران رایانه استفاده می‌کند. اگرچه شرکت‌های نرم‌افزاریراه‌اندازی محصولات جدید فیشینگ (phishing)که از blacklists، شیوه‌های اکتشافی، بصری و ماشین استفاده می‌کنندروش‌های مبتنی بر یادگیری، این محصولات نمی‌توانند از حملات فیشینگ جلوگیری کنند. داخلاین مقاله، یک سیستم مقابله با فیشینگ (anti)است که از هفت طبقه‌بندی مختلف استفاده می‌کند.الگوریتم ژنتیک و پردازش زبان طبیعی (NLP)ارائه شده‌است. سیستمویژگی‌های متمایز زیر را از مطالعات دیگر در ادبیات دارد:استقلال، استفاده از حجم عظیم فیشینگ و داده‌های مشروع، اعدام در زمان واقعی،تشخیص وب سایت‌های جدید، استقلال از خدمات شخص ثالث و استفاده از ویژگی – غنیclassifiers. برای اندازه‌گیری عملکرد سیستم، یک مجموعه داده جدید ساخته شده‌است، ونتایج تجربی بر روی آن تست شده‌است. با توجه به نتایج تجربی و تطبیقینتایج حاصل از الگوریتم‌های طبقه‌بندی اجرا شده، الگوریتم جنگل تصادفی باتنها ویژگی مبتنی بر NLP بهترین عملکرد را با میزان دقت ۹۷.۹۸ % به دست می‌دهد.شناسایی نشانی‌های اینترنتی فیشینگ (فیشینگ):کلمات کلیدی: امنیت سایبری، حمله Phishing، یادگیری ماشین، الگوریتم دسته‌بندیتشخیص حمله سایبری.عوارض جانبینشانی پست الکترونیکی: [email protected] (Ozgur koray Sahingoz)، [email protected] (Ebubekir Buber)،[email protected] (Onder Demir)، [email protected] (Banu Diri)۱. مقدمهبه خاطر توسعه سریع فن‌آوری‌های شبکه و ارتباطات جهانی،فعالیت‌های روزمره زندگی روزمره مانند شبکه‌های اجتماعی، بانکداری الکترونیک، تجارت الکترونیک و غیره.به فضای مجازی منتقل شود. زیرساخت باز، بی‌نام و بدون کنترل ازاینترنت یک سکوی عالی برایcyberattacks فراهم می‌کند که امنیت جدی را ارائه می‌دهد.نقاط ضعف نه تنها برای شبکه‌ها بلکه برای کاربران استاندارد رایانه نیز برای شبکهآن‌هایی که تجربه کرده‌اند. با اینکه مراقبت و تجربه کاربر اهمیت بسیاری دارد، اما نه* امکان دارد که به طور کامل از افتادن کاربران به the فیشینگ (گرین، ۲۰۱۸)جلوگیری شود.از آنجا که برای افزایش موفقیت حملات فیشینگ، مهاجمان نیز در نظر گرفته می‌شونددر مورد ویژگی‌های شخصیتی کاربر نهایی به خصوص برای فریب دادن نسبیکاربران باتجربه (کورتیس). End – user – targeted – targeted باعث از دست دادن گسترده تلفات می‌شود.اطلاعات حساس / شخصی و حتی پول برای افرادی که مقدار کل آن‌ها می‌تواند بهمیلیاردها دلار در سال(Shaikh، ۲۰۱۶).این نوع حملات از “ماهیگیری” برای قربانیان گرفته شده‌است.در سال‌های اخیر توجه بسیاری از پژوهشگران را به خود جلب کرده‌است. این هم یک وعده خوب و امیدوارکننده است.یک تکنیک جذاب برای حمله کنندگان (همچنین به نام phishers)که برخی تقلب را باز می‌کنندوب سایت‌هایی که دقیقا طراحی مشابهی از سایت‌های معروف و قانونی در اینترنت دارند.اگرچه این صفحات رابط کاربری گرافیکی مشابهی دارند، اما باید یک‌سان باشند.locators منابع (URL)از صفحه اصلی. به طور عمده، یک کاربر دقیق و با تجربه می‌تواندبه راحتی این صفحات وبی را با نگاه کردن به URL ها شناسایی کنید. با این حال، با توجه به سرعتزندگی، اکثر مواقع، کاربران نهایی تمام آدرس صفحه وب فعال خود را بررسی نمی‌کنند،که به طور کلی توسط سایر صفحات وب، ابزارهای شبکه‌های اجتماعی و یا به سادگی ارسال می‌شود.پیغام‌های پست الکترونیکی که در شکل ۱ نشان‌داده شده‌است. با استفاده از این نوع نشانی‌های اینترنتی متقلب، a سعی می‌کندبه دست آوردن اطلاعات حساس و شخصی قربانی مانند داده‌های مالی، شخصیاطلاعات، نام کاربری، رمز عبور و غیره (گوپتا، ۲۰۱۸). در صورت ورود به این نوع ازوب سایت تقلب که گفته می‌شود وب سایت اصلی است، کاربران رایانه به راحتی می‌تواننداطلاعات حساس آن‌ها بدون شک. از آنجا که صفحه وب وارد شده دقیقا به نظر می‌رسدبا صفحه وب اصلی📷شکل ۱: نمونه یک پست الکترونیکی و یک صفحه وبدر یک مطالعه مرتبط در مورد تجارب کاربر حملات فیشینگ(Volkamer، ۲۰۱۷)کاربران رایانه به دلیل پنج دلیل اصلی برای فیشینگ می‌افتند:کاربران اطلاعات دقیقی درباره URL ندارند،کاربران نمی‌دانند، که صفحات وب می‌توانند قابل‌اعتماد باشند،کاربران تمام آدرس صفحه وب را، به خاطر تغییر مسیر یا مخفی شدن نمی‌بینند.نشانی‌های اینترنتیکاربران زمان زیادی برای مشورت با نشانی اینترنتی ندارند، یا به طور تصادفی وارد وب سایت می‌شوند.صفحات،* کاربران قادر به تشخیص صفحات اینترنتی فیشینگ از صفحات قانونی نیستند.گروه کاری ضد – گزارشی در مورد موقعیت حملات فیشینگ منتشر کرد.در ربع آخر سال ۲۰۱۶ (APWG، ۲۰۱۷). آن‌ها تاکید کردند که فیشینگ (فیشینگ):هدف قرار دادن کاربران نهایی در کشورهای در حال توسعه، که در ابتدا به کشور چین داده می‌شود.۴۷ % (کامپیوترهای آلوده)و سپس به دنبال آن ترکیه و تایوان با این نرخ به دنبال آن هستند.۴۲ / ۴۲% و ۳۸.۹۸ %. به علاوه، به دلیل افزایش استفاده از گوشی‌های هوشمند،کاربران نهایی به هنگام بررسی شبکه‌های اجتماعی خود چندان مراقب نیستند. بنابراین،مهاجمان کاربران ابزار سیار را هدف قرار می‌دهند تا کارایی حملات خود را افزایش دهند (Goel، ۲۰۱۸).در ادبیات، برخی مطالعات وجود دارند که بر شناسایی حملات فیشینگ متمرکز هستند. داخلدر بررسی‌های اخیر، نویسندگان درباره ویژگی‌های عمومی فیشینگ موجود بحث و گفتگو می‌کنند.روش‌های طبقه‌بندی روش‌های تکنیکی مورد استفاده در این نوع حملات و برخی روش‌هاروش‌های عملی و موثر مبارزه با یکدیگر مشخص شده‌اند (chiew، ۲۰۱۸)، (Qabajeh، ۲۰۱۸).هدف از این حملات، سواستفاده از آسیب‌پذیری‌های کاربران انسان است.سیستم‌های پشتیبانی برای حفاظت از سیستم‌ها / کاربران مورد نیاز است. حفاظتبا افزایش آگاهی کاربران و با استفاده از برخی از برنامه‌های اضافی که در شکل ۲ نشان‌داده شده‌است، مکانیسم‌های اصلی به دو گروه عمده تقسیم می‌شوند. به دلیل آسیب‌پذیری در پایانیک مهاجم می‌تواند با استفاده از تکنیک‌های جدید و قبل از آن برخی کاربران باتجربه را هدف قرار دهد.با دادن اطلاعات حساس، او معتقد است که این صفحه قانونی است. بنابراین، softwarebased؟ سیستم‌های تشخیص فیشینگ به عنوان سیستم‌های پشتیبانی تصمیم‌گیری برای کاربر ترجیح داده می‌شوند.بیشتر تکنیک‌های ترجیحی (Black، ۲۰۰۸)، پردازش تصویر (فو، ۲۰۰۶)،(Toolan، ۲۰۰۹)صفحه وب، پردازش زبان طبیعی (Stone، ۲۰۰۷)، قوانین (کوک،۲۰۰۸)، یادگیری ماشینی(Abu، ۲۰۰۷)، و غیره📷شکل ۲: مدل‌های شناسایی Phishingدر یکی از تحقیقات اخیر (گوپتا، ۲۰۱۸)درباره فیشینگ، نویسندگان تاکید کردند کهبرای غلبه بر حملات فیشینگ، راهکارهایی برای غلبه بر یورش‌های مختلف فیشینگ پیشنهاد شده‌است.آسیب‌پذیری‌های راه‌حل و انواع حمله جدید را نشان می‌دهد. بنابراین، بسیار مهم است کهاستفاده از مدل‌های ترکیبی به جای یک رویکرد واحد توسط مدیر امنیتشبکه‌ها.در این مقاله، ما بر تشخیص زمان واقعی صفحات اینترنتی فیشینگ متمرکز می‌شویم.بررسی نشانی اینترنتی صفحه وب با الگوریتم‌های یادگیری ماشین مختلف (۷ مورد ازآن‌ها پیاده‌سازی و مقایسه آن‌ها در این مقاله)و مجموعه‌های ویژگی مختلف را انجام دادند. در اعدامالگوریتم یادگیری نه تن‌ها مجموعه داده‌ها بلکه استخراج ویژگی‌ها از این مجموعه داده‌ها را نیز شامل می‌شود.حیاتی هستند. بنابراین، ابتدا ما تعداد زیادی از URL های اینترنتی و جعلی را جمع‌آوری می‌کنیم ومجموعه داده خودمان را بسازیم. بعد از آن، ما سه نوع مختلف از ویژگی‌ها را به عنوان کلمه تعریف کردیمویژگی‌های Hybrid، NLP و Hybridبرای اندازه‌گیری کارایی سیستم پیشنهادی.بقیه مقاله به شرح زیر سازماندهی شده‌است: در بخش اول، کاره‌ای مرتبطدر مورد تشخیص فیشینگ (phishing)مورد بررسی قرار می‌گیرد. بخش. ۳ بر روی عواملی تمرکز می‌کند که تشخیص را می‌سازند.فیشینگ از اینترنتی که دشوار به نظر می‌رسد. جزییات سیستم پیشنهادی و کسب اطلاعاتاین مجموعه داده‌ها در ۴ مورد مفصل می‌باشند. برخی آزمایش‌ها تطبیقی انجام می‌شوند و نتایج در بخش به تصویر کشیده می‌شوند. ۵. مزایای سیستم پیشنهادی در بخش ۵ مورد بحث قرار گرفته‌اند. ۶. در نهایت،نتیجه‌گیری و کاره‌ای آینده در مورد این موضوع ارایه می‌شوند.۲. کاره‌ای مرتبطسیستم‌های تشخیص فیشینگ عموما به دو گروه تقسیم می‌شوند: تشخیص مبتنی بر فهرستسیستم‌های کشف مبتنی بر یادگیری ماشین و ماشین.۲.۱ سیستم‌های تشخیص مبتنی بر فهرستسیستم‌های تشخیص phishing مبتنی بر لیست از دو لیست، whitelists و blacklistsبرای طبقه‌بندی استفاده می‌کنند.صفحات اینترنتی قانونی و فیشینگ تلفنی. سیستم‌های تشخیص فیشینگ (whitelist – based)وب سایت‌های امن و قانونی برای ارائه اطلاعات لازم. هر وب سایتی کهدر the به عنوان مشکوک در نظر گرفته می‌شود. کایو و همکاران (۲۰۰۸)سیستمی را توسعه دادند کهثبت آدرس IP هر سایت، که رابط کاربری ورود به سیستم را دارد که کاربر را به سیستم وارد می‌کند.بازدید کرده‌است. زمانی که کاربر از یک وب سایت بازدید می‌کند، سیستم هشدار می‌دهد که اگر یک ناسازگاری وجود دارددر اطلاعات ثبت‌شده وب سایت. با این حال، این روش در سیستم مورد نظر در نظر گرفته می‌شود.سایت‌های قانونی که برای اولین بار توسط کاربر مورد بازدید قرار گرفتند. Jain & گوپتا (۲۰۱۶)روشی را توسعه داد.که به کاربران در وب سایت با لیستی از وب سایت‌های قانونی که به روز می‌شوند، هشدار می‌دهدبه طور خودکار. این روش متشکل از دو فاز است: ماژول ارتباطی آدرس IP دامنه – IPو استخراج ویژگی‌های پیوند در کد منبع. براساس نتایج تجربینتایج حاکی از آن است که ۸۶.۰۲ درصد مثبت واقعی و ۱.۴۸ درصد منفی کاذب در این کار به دست آمده‌است.blacklistsتوسط سوابق URL ایجاد می‌شوند، که به عنوان وب سایت‌های فیشینگ شناخته می‌شوند. این فهرستورودی‌های بدست‌آمده از تعدادی از منابع، مانند سیستم‌های تشخیص اسپم، کاربرnotifications، سازمان‌های شخص ثالث و غیره. استفاده از blacklists امکان پذیر ساختن آن را غیر ممکن می‌سازد.مهاجمان مجددا از طریق نشانی اینترنتی یا نشانی IP که قبلا برای حمله به کار برده می‌شوند، دوباره حمله می‌کنند. the The of the The ofمکانیزم امنیتی به روز رسانی blacklists یا از طریق شناسایی نشانی‌های اینترنتی بدخواه / IP ها یا کاربران را به روز رسانی می‌کند.این فهرست‌ها را بلافاصله از سرور دانلود کنید و از سیستم‌های خود در برابر حملات محافظت کنید.در این فهرست آورده شده‌است. سیستم‌های لیست سیاه، با این حال، توانایی تشخیص یک سیستم را ندارند.حمله واقعی یا حمله به زمان (حمله صفر). این مکانیسم‌های تشخیص حملهنسبت به سیستم‌های مبتنی بر یادگیری ماشین میزان مثبت کاذب تری وجود دارد. موفقیت ofدستگاه تشخیص حمله فیشینگ در حدود ۲۰ درصد (Khonji، ۲۰۱۳)است (شنگ، ۲۰۱۰). بنابراین،به نظر می‌رسد که سیستم‌های مبتنی بر فهرست سیاه به عنوان یک مکانیزم تشخیص حمله قابل‌اعتماد کارآمد نیستند.برخی از شرکت‌ها در فهرست سیاه حملات فیشینگ از جمله سیستم‌های تشخیص حمله فیشینگ از قبیل Google Safe گوگل (گوگل، ۲۰۱۲)، PhishNet (پراکاش، ۲۰۱۰)استفاده می‌کنند. این سیستم از یک تخمین تقریبی استفاده می‌کندالگوریتم تطبیق برای بررسی اینکه آیا نشانی اینترنتی مشکوک در لیست سیاه وجود دارد یا نه. the The of the The ofروش‌های مبتنی بر فهرست سیاه نیازمند به روزرسانی های مکرر هستند. به علاوه رشد سریع theلیست سیاه مستلزم منابع سیستم بیش از حد است (شریفی، ۲۰۰۸)، (شنگ، ۲۰۰۹).به غیر از تکنیک‌های استاتیک، تکنیک‌های پویا، که می‌تواند از قبل یاد بگیردداده‌ها (به خصوص داده‌های بزرگ)می‌توانند راه‌حل بهتری با کمک یادگیری ماشین تولید کنند.نزدیک می‌شود.۲.۲. سیستم‌های تشخیص مبتنی بر یادگیری ماشینیکی از روش‌های محبوب تشخیص وب سایت‌های مخرب استفاده از یادگیری ماشین است.روش‌ها. به طور عمده، تشخیص حملات فیشینگ یک مشکل طبقه‌بندی ساده است. برای اینکهتوسعه یک سیستم تشخیص مبتنی بر یادگیری، اطلاعات آموزشی باید حاوی ویژگی‌های بسیار زیادی باشد.در ارتباط با فیشینگ و website اینترنتی است. با استفاده از یک الگوریتم یادگیری، می‌تواندشناسایی نشانی‌های اینترنتی طبقه‌بندی‌شده یا غیر طبقه‌بندی‌شده با یک مکانیزم پویا آسان باشد.یک روش تشخیص فیشینگ توسط ژانگ توسط ژانگ و به نام cantinaابداع شد.که کلمات کلیدی را با استفاده از الگوریتم فرکانس تکرار فرکانس – معکوس استخراج می‌کند.(ژانگ، ۲۰۰۷). سپس کلمات کلیدی توسط موتور جستجوی گوگل جستجو شدند. اگر این وب سایتنتایج تحقیق حاکی از آن است که در نتایج جستجو به عنوان قانونی طبقه‌بندی شده‌است. با این حال، موفقیت این مطالعه این است کهمحدود است زیرا تنها به زبان انگلیسی حساس است. مدل پیشرفته به صورت زیر نامگذاری شده‌است:cantina +، و شامل ۱۵ ویژگی HTML است (ژیانگ یو، ۲۰۱۱). سیستم به نتیجه رسیدنرخ دقت ۹۲ %، اما می‌تواند تعداد زیادی از تشخیص‌های مثبت کاذب ایجاد کند. تان و همکاران (۲۰۱۶)ساخت یک سیستم مقابله با فیشینگ به نام “PhishWHO” که دارای سه مرحله برای شناسایی یک دستگاه استوب سایت قانونی است یا خیر. در مرحله اول کلمات کلیدی از نوع مشکوک شناسایی می‌شوند.وب سایت. در مرحله دوم این کلمات کلیدی برای تشخیص هدف احتمالی مورد استفاده قرار می‌گیرند.دامنه یک موتور جستجو را بررسی کنید. دامنه هدف با استفاده از ویژگی‌هایی که از آن‌ها استخراج شده‌است، شناسایی شده‌است.این وب سایت‌ها هستند. در نهایت، این سیستم تصمیم می‌گیرد که آیا وب سایت در مرحله سوم پرسیدقانونی یا غیر قانونی.لو و همکاران (۲۰۱۱)وب سایت‌های فیشینگ را با طبقه‌بندی کردن آن‌ها با ویژگی‌های نشانی اینترنتی از قبیل:طول، تعداد نویسه‌های خاص، دایرکتوری، نام دامنه و نام فایل. سیستموب سایت‌هایی را که از ماشین‌های بردار پشتیبان استفاده می‌کنند دسته‌بندی می‌کند. ویژگی‌های انطباقی اوزان،اعتماد به نفس، و Perceptron آنلاین برای طبقه‌بندی آنلاین مورد استفاده قرار می‌گیرند. با توجه به نتایج آزمایش‌ها، استفاده از Regularizationتطبیقی الگوریتم اوزان افزایش می‌یابد.میزان دقت در حین کاهش نیاز به منابع سیستم.عنوان پیام و رتبه‌بندی اولویت پیام دریافتی به صورت زیر محاسبه شد:اسلام و تحصیل Abawajy (اسلام، ۲۰۰۹). آن‌ها یک طبقه‌بندی چند لایه‌ای برای فیلترپیام. نتایج تجربی نشان داد که این سیستم تعداد اشتباه را کاهش می‌دهدنکات مثبت. Jeeva & Rajsingh (۲۰۱۶)ویژگی‌های استخراج‌شده مربوط به امنیت لایه انتقال را استخراج کرده‌است.کنار هم قرار دادن ویژگی‌های نشانی اینترنتی مانند طول، تعداد slashes، تعداد و موقعیتdots در نشانی اینترنتی و names subdomain. از قانون استخراج برای تعیین قوانین شناسایی با استفاده از the استفاده شده‌است.الگوریتم apriori بر روی مشخصه‌های استخراج‌شده. نتایج تجربی نشان داد که ۹۳ % فیشینگنشانی‌های اینترنتی ردیابی شده بودند.در مطالعه اخیر، Babagoli و همکاران (۲۰۱۸)از یک استراتژی رگرسیون غیرخطی برای تشخیص استفاده می‌کنند.آیا سایت اینترنتی فیشینگ یا نادرست است یا نه. آن‌ها استفاده از جستجوی هارمونی و پشتیبانی را ترجیح می‌دهندالگوریتم‌های metaheuristic ماشین بردار برای آموزش سیستم. با توجه به آن‌ها، هماهنگیدر این تحقیق میزان دقت بالاتری از ۹۴.۱۳ % و ۹۲.۸۰ % برای فرآیندهای آموزش و آزمایش تولید شده‌است.به ترتیب با استفاده از حدود ۱۱،۰۰۰ صفحه وبدر (Buber، ۲۰۱۷ a)، که نسخه قبلی این مطالعه است، ما یک فیشینگ (phishing)را پیشنهاد کردیم:سیستم تشخیص با ۲۰۹ ویژگی برداری واژه و ۱۷ ویژگی مبتنی بر ویژگی. در ارتباطدر این پژوهش به بررسی اثر ویژگی‌های NLPپرداخته شده‌است. با این حال، نیاز به افزایشتعداد of مبتنی بر NLP و بردارهای حرفه‌ای. بنابراین، در مطالعه در حال پیشرفت، ما تمرکز کردیماین مساله به نتایج بهتری با افزایش میزان دقت ۷ % دست یافت. در (Buber)(b)تعداد بردارهای NLP در سیستم پیشنهادی سه متفاوت است.الگوریتم‌های یادگیری ماشین با توجه به مقادیر دقت آن‌ها مقایسه شده‌اند.محمد و همکاران (۲۰۱۴)یک سیستم تشخیص فیشینگ را اجرا کردند که از adaptiveاستفاده می‌کندساخت شبکه عصبی برای طبقه‌بندی. آن از ۱۷ ویژگی و برخی از آن‌ها استفاده می‌کندبستگی به استفاده از خدمات شخص ثالث دارد. بنابراین، در اجرای زمان حقیقی، آن نیاز داردبا این حال، زمان بسیار بیشتری می‌تواند به نرخ دقت بهتری برسد. که از یک مجموعه داده محدود استفاده می‌کند۱۴۰۰ کالا اما مقبولیت بالایی برای داده‌های نویزی نشان می‌دهد.Jain & (۲۰۱۸)یک روش anti – فیشینگ (-)را ارائه می‌دهد که از یادگیری ماشین با استفاده از ماشین استفاده می‌کند.استخراج ۱۹ ویژگی در طرف مشتری برای تمایز وب سایت‌های فیشینگ از onesقانونی.آن‌ها از صفحات ۲،۱۴۱ فیشینگ از PhishTank (PhishTank، ۲۰۱۸)و Openphishاستفاده کردند.(Openfish، ۲۰۱۸)، و ۱،۹۱۸ صفحات وب قانونی از الکسا وب سایت محبوب، برخی دروازه‌های پرداخت آنلاین، و برخی وب سایت‌های بانکداری برتر. با استفاده از یادگیری ماشین، آن‌هاروش پیشنهادی به ۹۹.۳۹ درصد صحیح مثبت رسید.فنگ و همکاران (۲۰۱۸)یک روش طبقه‌بندی مبتنی بر شبکه عصبی را برای تشخیص پیشنهاد کردند.فیشینگ با استفاده از الگوریتم مونت کارلو و اصل به حداقل رساندن خطر. آن‌هااز ۳۰ ویژگی که در چهار حوزه اصلی طبقه‌بندی می‌شوند به عنوان ویژگی بار مبتنی بر نوار استفاده شده‌است.ویژگی‌های غیر عادی، HTML و جاوا اسکریپت بر پایه و ویژگی‌های دامنه. the The of the The ofسیستم تشخیص به میزان ۹۷.۷۱ درصد و ۱.۷ درصد مثبت کاذب در سیستم تشخیص داده می‌شود.مطالعات تجربی.اگر چه بیشتر محققان بر تشخیص فیشینگ از طریق URL ها تمرکز می‌کنند،محققان سعی کردند با چک کردن اطلاعات ذخیره‌شده در بسته‌های پست الکترونیکی، نامه‌های فیشینگ را شناسایی کنند. گیرندهتشخیص حملات فیشینگ، Smadi و همکاران (۲۰۱۸)روش شبکه عصبی را با هم ترکیب کردند.یادگیری تقویتی برای طبقه‌بندی. سیستم پیشنهادی دارای ۵۰ ویژگی است که عبارتند از:دسته‌بندی شده در چهار دسته مختلف به عنوان headersپست، نشانی‌های اینترنتی در محتوای HTML، محتوای HTMLمتن اصلی. اگر چه تمرکز این سیستم بر روی ایمیل‌ها است، به دلیل ویژگی استخراج‌شده از نشانی اینترنتی،این مدل شباهت با مدل پیشنهادی ما دارد. از ۹،۱۱۸ ایمیل به عنوان مجموعه داده‌ها استفاده می‌کند.۵۰ % آن‌ها قانونی هستند و بقیه ایمیل‌های phishingهستند. در آزمایش‌ها، به این نتیجه رسید که۹۸. ۶ % نرخ دقت و ۱.۸ درصد مثبت کاذب هستند.در برخی تحقیقات مانند (رائو، ۲۰۱۸)، نویسندگان از یک روش ترکیبی با استفاده از نه تنها استفاده می‌کنند.روش‌های یادگیری ماشین اما کنترل تصویر نیز وجود دارد. ضعف مهم …؟ تشخیص فیشینگ تصویری / تصویری (phishing)در مورد نیاز به یک پایگاه‌داده تصویر اولیه یا قبل از آن است.با این حال، دانش (تاریخچه وب)در مورد صفحه وب، با این حال، رویکرد پیشنهادی عاری ازاین وابستگی‌های متقابل. آن‌ها از سه دسته ویژگی استفاده کردند: ویژگی‌های مبتنی بر هایپر hyperlink، thirdpartyویژگی‌های مبتنی بر ویژگی و ویژگی مبهم سازی نشانی. اگرچه استفاده از خدمات شخص ثالثهمچنین میزان دقت سیستم تا ۹۹.۵۵ % افزایش می‌یابد.استفاده از پردازش زبان طبیعی (NLP)در مقالات زیادی با آن مواجه نشده است.در یک مطالعه اخیر، پنگ و همکاران (۲۰۱۸)، NLPبرای ردیابی ایمیل‌های فیشینگ اعمال می‌شوند. این کار را انجام می‌دهدتجزیه و تحلیل معنایی محتوای ایمیل (به عنوان متن ساده)برای تشخیص قصد مخرب. با …استفاده از NLP، پرسش و جملات دستوری سعی در گرفتن آن‌ها دارد. فهرست سیاه خاصی از جفت کلمات وجود دارد:برای تشخیص حملات فیشینگ از آن‌ها استفاده می‌شود. آن‌ها از ایمیل phishing فیشینگ و ۵۰۰۰ emails قانونی استفاده کردندایمیل برای آموزش و آزمایش این سیستم. میزان دقت آن‌ها به ۹۵ درصد رسید.کاره‌ای تجربی.مقایسه دقیق سیستم‌های تشخیص Phishing مبتنی بر یادگیری ماشین این است کهنشان‌داده‌شده در جدول ۱.جدول ۱. مقایسه سیستم‌های تشخیص Phishingمبتنی بر یادگیری ماشینویژگی‌های توصیف پروژه معایب پروژهژیانگ و سایرین(۲۰۱۱).ابزار را به اجرا در می‌آوردسیستم مبتنی بر محتوابرای شناسایی فیشینگصفحه وب با استفاده ازماشین پول‌دارروش یادگیری.پیوسته در حال تحول باشیدحملات فیشینگ* تعداد ویژگی‌ها را افزایش دهیداز کار قبلی خود (ژانگ،۲۰۰۷)* مجموعه داده محدود (۸،۱۱۸ فیشینگ):صفحات وب قانونی (۴،۸۸۳)استفاده از خدمات شخص ثالثاستفاده از داده‌های مکانی خاص (۱۰۰ برتر)سایت‌های انگلیسی۱۵ ویژگی (۶ نشانی اینترنتی براساس / ۴ HTMLویژگی‌های صفحه وبلی و همکاران(۲۰۱۱)شناسایی فیشینگمصاحبه با وب سایت‌هاآن‌ها را دسته‌بندی کنیدویژگی‌های نشانی اینترنتیمناسب برای طرف مشتریاستقراربراساس طبقه‌بندی آنلاینمقاومت در برابر داده‌های نویزی (آموزش)استفاده از خدمات شخص ثالث* اینترنتی با مسئولیت محدود (۶،۰۸۳ نشانی‌های اینترنتی maliciousو نشانی‌های اینترنتی قانونی (رسمی)Jeeva &Rajsingh(۲۰۱۶)نشانی اینترنتی را تعریف کنیدویژگی‌ها، و باآن‌ها را تولید می‌کنندبرخی از قوانینapriori و پیشگویانهقانون aprioriنسلالگوریتم.تشخیص سریع از قوانین(به خصوص با قوانین apriori)* از قوانین طبقه‌بندی استفاده کنید.بستگی به کیفیت قوانین دارد.تصدی نشانی‌های اینترنتی Dataset (۱۲۰۰ فیشینگ)و ۲۰۰ نشانی‌های اینترنتی قانونی۱۴ ویژگی Heuristic۹ قانون پیش گویانه و ۹ قانون پیش‌بینی پیشگویانهBabagoli et al.آل. (۲۰۱۸)متا – heuristicbasedغیرخطیالگوریتم رگرسیونبا استفاده از دوانتخاب ویژگیروش‌ها: تصمیمtree و wrapperمجموعه داده UCI اصلی کاهش‌یافته است.از ۳۰ تا ۲۰، و این ویژگینتیجه بهتری به دست خواهد آورد.درخت تصمیم‌گیری.* مجموعه داده محدود (۱۱،۰۵۵ فیشینگ):صفحات اینترنتی قانونیاستفاده از خدمات شخص ثالث۲۰ ویژگیمحمدو همکاران (۲۰۱۴)براساس مصنوعیشبکه عصبیبه خصوص selfstructuringعصبیشبکه‌ها.* آن از یک وفقی استفاده می‌کنداستراتژی طراحی شبکهاستقلال زبانخدمات شخص ثالث مورد استفاده قرار می‌گیرد (مانند:سن دامنه)داده محدود (۱،۴۰۰ داده)۱۷ ویژگیBuber و همکاران(۲۰۱۷ b)برای ایجاد creating از NLPاستفاده می‌کندبعضی از ویژگی‌هابا استفاده از اینویژگی‌های دسته‌بندی شدهنشانی‌های اینترنتی با استفاده از سهماشین متفاوتروش یادگیری.ویژگی‌های مبتنی بر NLPاستفاده از سه الگوریتم های ML* استفاده از ویژگی‌های ترکیبی% ۷ % افزایش عملکرد(Buber، ۲۰۱۷ a)ویژگی‌های ۲۷۸و ۴۰ ویژگی NLPمجموعه داده محدود (۳،۷۱۷ نشانی‌های اینترنتی maliciousو نشانی‌های اینترنتی ۳،۶۴۰& Jainگوپتا(۲۰۱۸)تشخیص طرف مشتریصفحات اینترنتی فیشینگبا استفاده از MLتکنیک‌هاوابسته به سوم نیستاحزابتشخیص بلادرنگدقت تشخیص بالانیاز به دانلود کل صفحهدسترسی به کد منبع* مجموعه داده‌ها محدود۱۹ ویژگی (کد اینترنتی / متن)فنگ و همکاران(۲۰۱۸)شبکه عصبیطبقه‌بندی با aساده و پایدارمونته کارلوالگوریتموابسته به سوم نیستاحزابتشخیص بلادرنگ* بهبود دقت و دقتپایداری تشخیص،* می‌تواند فیشینگ جدید را شناسایی کندوب سایت (حمله روز صفر)نیاز به دانلود کل صفحهاستفاده از خدمات شخص ثالثمجموعه داده محدود (۱۱،۰۵۵ داده، ۵۵.۶۹ %(فیشینگ):* ۳۰ ویژگی (نوار آدرس بر پایهمبتنی بر غیر عادی / HTML و / / / / / / / / / / / / / / / / / / / /ویژگی‌های دامنه – مبتنی بر دامنه)Smadi و همکاران(۲۰۱۸)ایمیل phishingسیستم تشخیص،* تشخیص ایمیل‌های phishingقبل از اینکه کاربر نهایی را ببیند.* مجموعه داده محدود (داده‌های ۹،۱۱۸)که ترکیبی ازشبکه عصبینزدیک شدن بهreinforcementیادگیریطبقه‌بندیوابسته به سوم نیستاحزابتشخیص بلادرنگاستفاده از فهرست سیاه از PhishTank* ۵۰ ویژگی (۱۲ تای آن‌ها نشانی اینترنتی هستندویژگی‌هارائو & Pais(۲۰۱۸)useآنالیز مولفه‌هایجنگل تصادفیطبقه‌بندی کننده. با استفاده ازویژگی‌های اکتشافی جدیدو آنالیز تصویر.استقلال زباندقت تشخیص بالا* چک کنید که آیا صفحه وب وجود داردجای خود را با یک تصویر عوض کرد.مجموعه داده محدود (۱،۴۰۷ قانونی و legitimate)فیشینگ (۲،۱۱۹):مجموعه داده مشروع تنها ساخته می‌شوداز طریق وب سایت‌های برتر الکسویژگی‌های مبتنی بر خدمات شخص ثالث۱۶ ویژگی (هایپر hyperlink – based /)ویژگی‌های obfuscation اینترنتی / URLپنگ و همکاران(۲۰۱۸)شناسایی فیشینگایمیل‌ها با استفاده از NLP ایمیلتکنیک‌ها ویادگیری ماشین(با فرمول Naive بیز):طبقه‌بندی کننده).استفاده از زبان طبیعیپردازش برای تشخیص هویتتناسب هر جمله:* به تجزیه و تحلیل متن ایمیل تکیه دارد.ML برای ساخت لیست سیاه مورد استفاده قرار می‌گیردزوج‌های maliciousمجموعه داده محدود (۵،۰۰۹ phishing)و ۵،۰۰۰ ایمیل قانونی)۳. نشانی‌های اینترنتی و مهاجمانمهاجمان از انواع مختلفی از تکنیک‌ها استفاده می‌کنند که نباید توسط نیروهای امنیتی تشخیص داده شوند.mechanisms یا مدیران سیستم. در این بخش، برخی از این تکنیک‌ها به طور مفصل توضیح داده خواهند شد. گیرندهشناخت روش حمله کنندگان، ابتدا، اجزای تصدی نشانی‌های اینترنتی باید مشخص شوند. the The of the The ofساختار پایه یک نشانی اینترنتی در شکل ۳ به تصویر کشیده شده‌است.۳. نشانی‌های اینترنتی و مهاجمانمهاجمان از انواع مختلفی از تکنیک‌ها استفاده می‌کنند که نباید توسط نیروهای امنیتی تشخیص داده شوند.mechanisms یا مدیران سیستم. در این بخش، برخی از این تکنیک‌ها به طور مفصل توضیح داده خواهند شد. گیرندهشناخت روش حمله کنندگان، ابتدا، اجزای تصدی نشانی‌های اینترنتی باید مشخص شوند. the The of the The ofساختار پایه یک نشانی اینترنتی در شکل ۳ به تصویر کشیده شده‌است.📷شکل ۳: مولفه‌های نشانی اینترنتیدر شکل استاندارد، یک URL با نام پروتکلی اش آغاز می‌شود که برای دستیابی به صفحه وب استفاده می‌شود. بعد ازکه، دامنه sub – VT و دامنه سطح دوم (SLD)، که معمولا به آن اشاره داردنام سازمان در میزبان سرور، واقع شده‌است و در نهایت دامنه سطح بالا (TLD)نام، که دامنه‌های ناحیه ریشه DNS از اینترنت را نشان می‌دهد. قبلیقسمت‌هایی از نام دامنه (نام میزبان)صفحه وب را تشکیل می‌دهند.که با مسیر صفحه در سرور و با نام صفحه در HTML نمایش داده می‌شودشکل.اگرچه این نام به طور کلی نوع فعالیت یا نام شرکت را نشان می‌دهد، یک مهاجم می‌تواندبرای فیشینگ (phishing) به راحتی آن را پیدا یا خریداری کنید. نام of تنها می‌تواند زمانی تنظیم شود که یک عدد نامحدودی از URL ها را می توان توسط یک مهاجم با گسترش شبکه ایجاد کرد.به این دلیل که طراحی داخلی آدرس به طور مستقیم به مهاجمین وابسته است.بخش منحصر به فرد (و انتقادی)یک URL، ترکیبSLD و TLD است، که نامیده می‌شودبه نام دامنه. بنابراین، شرکت‌های cybersecurity تلاش زیادی برای تشخیص هویت می‌کنند.نام دامنه تقلبی که برای حملات فیشینگ از آن‌ها استفاده می‌شود. اگر یک نام دامنه وجود داردفیشینگ: آدرس IP می‌تواند به راحتی مسدود شود تا از دسترسی به وب جلوگیری شود.در صفحات واقع در it.To عملکرد حمله را افزایش داده و اطلاعات حساس‌تر، یک مهاجم را می‌دزدند.به طور عمده از روش‌های مهم برای افزایش آسیب‌پذیری قربانیان از جمله استفاده از آن‌ها استفاده می‌شود.کاراکتر تصادفی، ترکیب کلمه، cybersquatting، typosquatting و غیره.مکانیزم‌های تشخیص باید در نظر گرفتن این روش‌های حمله مورد توجه قرار گیرد.۴. سیستم پیشنهادی و پردازش داده‌هامجموعه داده‌ها و پردازش آن بخش‌های بسیار مهمی از یادگیری ماشین هستند.سیستم‌ها. کارایی و کارایی سیستم مستقیما با آن‌ها مرتبط است. بنابراین،در این بخش، این موضوعات مفصل هستند.۴.۱. Datasetبرای مقایسه سیستم پیشنهادی، ما سعی کردیم یک سری مجموعه داده‌ها را در سطح جهانی پیدا کنیم؛ با این حال،ما نمی‌توانیم. بنابراین، ابتدا نیاز مبرم به ساختن یک مجموعه داده خوب و بزرگ وجود داشت. گیرندهبرای ایجاد یک مجموعه داده قابل‌قبول و متعادل، دو کلاس از نشانی‌های اینترنتی مورد نیاز است: قانونی وفیشینگ در این مطالعه، URL هایی که بیشتر توسط PhishTank (PhishTank)ارایه شد،۲۰۱۸). با این حال، PhishTank یک مجموعه داده رایگان در صفحه وب خود ارایه نمی‌دهد. از این رو،نوشتن یک اسکریپت، آدرس بسیاری از وب سایت‌های بدخواهانه را می توان به راحتی دانلود کرد. دردر عین حال، نیاز به جمع‌آوری وب سایت‌های قانونی وجود داشت. برای جمع‌آوری این صفحات، ما کمک دریافت کردیماز API جستجوی گوگل (YandexXML، ۲۰۱۳). در درجه اول، فهرست کلمه پرس و جوی خاص ساخته شد،و سپس این کلمات به API جستجوی “Yandex Yandex” فرستاده می‌شوند تا بالاترین صفحات وب را به دست آورند.که احتمال بسیار کمی در صفحات اینترنتی فیشینگ وجود داشت. از این حقیقت ناشی می‌شود که جستجواین موتورها به خاطر طول عمر کوتاه آن‌ها، رتبه بالایی را به نشانی‌های اینترنتی malicious نمی‌دهند.در نتیجه این تلاش‌ها، ما مجموعه داده‌ها بسیار خوبی را جمع‌آوری کردیم و این اطلاعات را در وب سایت به اشتراک گذاشتیم.(Ebbu۲۰۱۷، ۲۰۱۷)برای استفاده از محققان دیگر. ما آزمایش خود را بر روی این مجموعه داده‌ها انجام دادیم که حاوی نشانی‌های اینترنتی ۷۳،۵۷۵ می‌باشد. این مجموعه داده‌ها کاملا حاوی نشانی‌های اینترنتی قانونی ۳۶،۴۰۰ می‌باشد.نشانی‌های اینترنتی ۳۷،۱۷۵ phishing.۴.۲. پردازش داده‌های قبل از پردازشیک نشانی اینترنتی شامل برخی کلمات معنی‌دار یا بی‌معنی و برخی نویسه‌های خاص است،که اجزای مهم آن را از هم جدا می‌کند. به عنوان مثال، یک نقطه نقطه (“)”که برای جداسازی the و TLD استفاده می‌شود. به طور مشابه نام‌های دامنه و نام دامنه subdomainهم چنین با همان ویژگی از هم جدا می‌شوند. با این حال، در دفترچه نشانی مسیر از هم جدا هستندبا علامت “/” علاوه بر این، هر بخش نشانی اینترنتی نیز ممکن است شامل برخی جداسازی باشدنشانه‌هایی مانند ” “،”، “و غیره” را می توان در مثال زیر در “xyz _ company.com” مشاهده کرد. مشابههمچنین می توان از حروف “=”، “؟” ، “،” & “، شخصیت‌های منطقه مسیر فایل. بنابراین، در …در ابتدا هر کلمه از نشانی اینترنتی استخراج‌شده و سپس اضافه شده‌است.برای تحلیل “فهرست کلمه” که باید در اجرای مداوم مورد بررسی قرار گیرد. به علاوه، شباهت یا اینهاکلمات با the وب سایت‌ها و کلمات ایجاد شده تصادفی نیز در این زمینه شناسایی می‌شوند.پیمانه. نمودار اجرایی پیش‌پردازش اطلاعات در شکل ۴ به تصویر کشیده شده‌است.اهداف اصلی بخش قبل از پردازش به شرح زیر هستند:۱. تشخیص کلمات، که مشابه نام برند معروف هستند،۲. شناسایی کلمات کلیدی در نشانی اینترنتی،۳. تشخیص کلمات، که با نویسه‌های تصادفی ایجاد شده‌اند.پیدا کردن این کلمات برای طبقه‌بندی نشانی اینترنتی ضروری است. بنابراین، یک دادهمرحله پیش‌پردازش در سیستم پیشنهادی بسیار مهم است. در درجه اول، کلمات مقایسه می‌شوندبا نام‌های تجاری و لیست‌های کلمات کلیدی با شباهت قابل‌قبول. سپس تصادفیماژول تشخیص کلمه اجرا می‌شود. این ماژول ابتدا چک می‌کند که آیا یک کلمه حاوی مقداری استشخصیت‌های تصادفی یا نه. پس از آن، کلمات تصادفی شناسایی‌شده به سیستم اضافه می‌شوند:فهرست کلمات تصادفی، و از فهرست کلمه حذف می‌شوند.هنگامی که کلمات مورد استفاده در صفحات وب سایت‌های فیشینگ جمع‌آوری و آنالیز شدند،واضح است که کلمات مرکب بسیاری وجود دارند که ترکیبی ازبیش از دو واژه که دارای معانی واحد هستند (و یا بدون معنی در آدرس).بنابراین، یک مقدار آستانه مبتنی بر هیوریستیک تعیین می‌شود تا کلمات مجاور را تشخیص دهد، گویی آن‌هاcompound هستند. کلمات، که شامل بیش از هفت شخصیت است، در کلمه بازرسی می‌شوند.پیمانه متصل‌شونده (WDM)برای جدا کردن the که حاوی آنهاست. اگر این کلمه یک کلمه نیستپس (WDM تنها کلمه اصلی را بر می‌گرداند. کلماتی که از WDM و کلماتی با کم‌تر از هفت شخصیت به دست آمد در آنالیز maliciousness آنالیز شدند.پیمانه. در نهایت، برخی ویژگی‌های دیگر، که با این کلمات مرتبط هستند،استخراج‌شده.📷شکل ۴: اجرای مدول Preprocessing داده۴.۳ پیمانه متصل‌شونده کلمه decomposerپیمانه متصل‌شونده کلمه (WDM)نشانی اینترنتی ورودی را تجزیه و تحلیل می‌کند و آن را به درون آن تقسیم می‌کندکلمات / اشیا جداگانه در صورتی که بیش از یک کلمه وجود داشته باشد. در درجه اول، آن رقم را در جدول حذف می‌کندکلمات اصلی. از آنجا که یک حمله‌کننده می‌تواند برخی مقادیر عددی را برای درست کردن آدرس اضافه کندپیچیده است. بعد از آن رشته باقی مانده چک می‌شود که آیا در فرهنگ لغت وجود دارد یا نه. اگریک واژه فرهنگ لغت است، پس این کلمه به لیست کلمات اضافه می‌شود، در غیر این صورت کلمه به آن تقسیم می‌شود.سعی کنید به کلمات مجاور برسید. بعد از آن این کلمات به لیست کلمه اضافه می‌شوند.جریان اجرا کلمه decomposer در شکل ۵ نشان‌داده شده‌است.قبل از شروع فرآیند استخراج یک کلمه، ابتدا باید بررسی شود که آیا وجود دارددر فرهنگ لغت یا نه.📷شکل ۵: جریان اجرای ماژول decomposer ورداگر در فرهنگ لغت وجود داشته باشد، نیازی به تجزیه آن نیست. این کلمه به طور مستقیم به آن اضافه شده‌است:کلمه “فهرست”. مدول decomposer برای درک تفاوت بین آن‌ها پیاده‌سازی شده‌است.واژگان فرهنگ لغت که به فرم پیوسته نوشته می‌شوند. برای بررسی این موضوع، ما از یک اعلان عمومی استفاده می‌کنیمبسته موجود: enchant (Pyenchant، ۲۰۱۷). با استفاده از این روش، تمام substrings ممکن عبارتند از:با تقسیم آن به substrings طبق گفته متوالی از کلمه اصلی استخراج شدشخصیت‌هایی که طول آن‌ها بیش از ۲ است. نمونه‌ای از فرآیند استخراج این است کهشکل ۶ نشان‌داده شده‌است.پس از استخراج to، آن‌ها با توجه به lengths مرتب می‌شوند. اول از همهبا طولانی‌ترین مدت از فرهنگ لغت چک می‌شود. اگر آن‌ها در فرهنگ لغت وجود داشته باشند،آن‌ها به لیست کلمه اضافه می‌شوند. اگر نه، the کوچک‌تر هم چک می‌شوند.نظم. با این حال، ما باید در این فرآیند محتاط باشیم چون برخی کلمات مثبت کاذب می‌تواننددر حالی که فهرست واژگان ساخته می‌شود، برخورد می‌شود. به عنوان مثال، “ایمن” یکی از the کلمات در این نوع حملات است. در مورد استخراج این فرآیند، ما می‌توانیم به یک رشته فرعی از آن”درمان”، که لغت معتبری در فرهنگ لغت انگلیسی است. بنابراین، در موارد مشابه، ما نیاز داریم کهبرخی کلمات را از بین ببرید. ما کلمات طولانی‌تر را ترجیح می‌دهیم اگر وجود داشته باشد، the فرعی کوچک‌تر کهکلمات مثبت کاذب را حذف کنید.📷شکل ۶: استخراج یک کلمه به substringsدر این فرآیند / ماژول، نام‌های تجاری و کلمات کلیدی که بیش از هفت عدد دارندکاراکترها در یک تجزیه‌گر پردازش نمی‌شوند چون پردازش می‌شوند و کنترل می‌شوند.مرحله قبلی. از طرف دیگر، کلمات فرهنگ لغت، که طول آن بیش از هفت است،در WDM کنترل نشده است. بنابراین، این نوع کلمات مثل یک کلمه رفتار کرده‌اند، وآن‌ها برای تجزیه و تحلیل تلاش نمی‌کنند.پیمانه تشخیص کلمه تصادفی ۴.۴. تصادفیدر نشانی‌های اینترنتی فیشینگ، دیده می‌شود که برخی کلمات از نویسه‌های تصادفی تشکیل شده‌اند.بنابراین، راهی موثر برای تشخیص تعداد کلمات تصادفی (یا تصادفی ممکن)است.(کلمات)با طول آن‌ها. برای تشخیص این کلمات، ما کلمه تصادفی را اجرا کردیمپیمانه تشخیص (RWDM)با دریافت کمک از یک پروژه متن‌باز در GitHub (gibberish)۲۰۱۵). در مطالعه مرجع، مدل زنجیره مارکوف برای تشخیص تصادفی مورد استفاده قرار گرفت.کلمات. در درجه اول، سیستم با متون نوشته شده در زبان کنترل آموزش داده می‌شود. بعد از آن،احتمال دو کاراکتر متوالی متوالی در مرحله آموزش محاسبه می‌شود. the The of the The ofمقدار محاسبه‌شده در سیستم پیشنهادی به عنوان یک ویژگی جدید مورد استفاده قرار خواهد گرفت. در این مطالعه،شخصیت‌های متوالی می‌توانند به حروف الفبایی یا کاراکتر خالی مثلفضا. بنابراین نیازی به محاسبه احتمال شخصیت‌های دیگر نیست.برای درک اینکه آیا کلمه معین شده تصادفی است یا نه، نامه‌های متوالی در رابطهکلمه باید در مرحله آزمایش مورد بررسی قرار گیرد. در این فرآیند، ابتدا احتمالات نامهجفت در مرحله آموزش محاسبه می‌شوند. در مرحله آزمایش، این احتمالات چند برابر می‌شوند.به مقدار تناسب برسد. با نگاه به این ارزش، هدف این است که بفهمیم آیا کلمه تصادفی است یا خیر. اگر ارزش تناسب یک مقدار بالا باشد آن گاه به عنوان یک واژه واقعی طبقه‌بندی می‌شود؛ در غیر این صورت، آن به عنوان یک واژه تصادفی طبقه‌بندی می‌شود. برای تصمیم‌گیری در این مورد، یک مقدار آستانه باید تعیین شودپیمانه تحلیل ۴.۵. maliciousnessبرای شناسایی این که آیا کلمات در نشانی‌های اینترنتی داده‌شده / آزمایش‌شده برای اهداف جعلی استفاده می‌شوند یا نهنه، ما یک ماژول تجزیه و تحلیل maliciousness (mam)را اجرا کرده‌ایم که عمدتا بر روی آن تمرکز دارد.شناسایی Typosquatting. Typosquatting نیز به عنوان دزدی نشانی اینترنتی شناخته می‌شود که هدف آن را هدف قرار می‌دهد.کاربران رایانه که به اشتباه نشانی وب سایت یا لینک را از یک پست الکترونیکی یا وب به صورت یک وب سایت ارسال می‌کنند.مرورگر وب مانند ” Goggle.com” به جای ” google.com”. این ماژول یک کلمه به عنوان ورودی می‌گیردو سپس طبق نمودار جریان نشان‌داده‌شده در شکل ۷، آن را تجزیه و تحلیل می‌کند.📷شکل ۷: اجرای پیمانه تحلیل maliciousnessدر مراحل قبلی برخی از کلمات را در WDMجمع کرده و ممکن است برخی از آن‌ها را شامل شودنام‌های تجاری و یا برخی کلمات کلیدی. بنابراین، در این ماژول، ما این کلمات را تکرار می‌کنیم کهآن‌ها در فهرست برند و لیست‌های کلمات کلیدی هستند. در عین حال، شباهت هر کلمههمچنین با استفاده از فاصله Levenshteinمحاسبه شد که به عنوان ویرایش فاصله شناخته می‌شود.الگوریتم. این الگوریتم شباهت بین دو رشته را با در نظر گرفتن در نظر می‌گیرد.حذف، حذف و یا جانشینی در این رشته‌ها. این الگوریتم به طور عمدهتعداد حرکات را محاسبه می‌کند که برای تبدیل یک کلمه منبع به هدف مورد نیاز است.مقدار محاسبه‌شده فاصله بین منبع و کلمات هدف را می‌دهد، و این مقداربه عنوان ارزش تشابه استفاده می‌شود.۵. نتایج آزمایشیاین بخش جزییات تجربی الگوریتم‌های طبقه‌بندی مدل پیشنهادی را ارایه می‌دهد.و از انواع روش‌های استخراج ویژگی (NLP مبتنی بر NLP، Word Word و Hybrid)استفاده شده‌است.جزئیات. سپس نتایج آزمون مقایسه‌ای بین این الگوریتم ها با ویژگی‌های مربوطهبه تصویر کشیده شد.۵.۱ الگوریتم‌های طبقه‌بندی مورد استفادهدر این مقاله ما از هفت الگوریتم طبقه‌بندی مختلف (Naive بیز)، تصادفی استفاده کرده‌ایم:جنگل، knn (n = ۳)، adaboost، K – ستاره، SMO و درخت تصمیم‌گیری)به عنوان مکانیزم یادگیری ماشینسیستم پیشنهادی و سپس با عملکرد آن‌ها مقایسه می‌شود.طبقه‌بندی بیز یک روش یادگیری ماشین احتمالاتی است که نه تنهاصریح، اما قدرتمند. به خاطر سادگی، کارایی و عملکرد خوب آن،در بسیاری از زمینه‌های کاربردی مانند طبقه‌بندی متون، تشخیص ofترجیح داده می‌شود.emails / مداخلات و غیره مبتنی بر قضیه بیز است، که رابطه را توصیف می‌کند:احتمالات شرطی مقادیر آماری. بر مبنای این فرض است کهاستقلال بین ارزش‌های ویژگی. برای محاسبه احتمال شرطی،معادله ۱ مورد استفاده قرار می‌گیرد.📷که در آن P (H)احتمال مقدم است، که احتمال دارد H درست باشد. P (E)نامیده می‌شودبه عنوان احتمال این مدرک. P (E | H)احتمال شواهدی است که نشان می‌دهد H درست است.P (H | E)یک احتمال خلفی است، که احتمال دارد که H طبق آن درست باشد.مدرک داده شد.جنگل‌های تصادفی یا جنگل‌های تصمیم تصادفی روش‌های یادگیری ماشین گروهی هستند، کهبرای رگرسیون و / یا طبقه‌بندی استفاده شود. این نوع از طبقه‌بندی کننده‌ها ابتدا یک ساختار را می‌سازد.تعداد درخت‌های تصمیم‌گیری به صورت تصادفی انتخاب شده‌است. بعد از آن، آن‌هاتصمیمات این درختان را جمع کرده و میانگین آن‌ها را نه تنها برای بهبود بخشیدن بهدقت پیش‌بینی اما برای کنترل بیش از حد مناسب. علاوه بر این، با ساختار جنگل آن،عدم پایداری

Author: admin

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *