You are on page 1of 14

‫مترجم من اإلنجليزية إلى العربية ‪www.onlinedoctranslator.

com -‬‬

‫جامعة أورميا‬
‫رسالة الماجستير‬

‫أسلوب جديد للكشف عن التصيد االحتيالي باستخدام شبكة ‪ GRU‬المحسنة باستخدام خوارزمية تحسين‬
‫البطريق اإلمبراطور‬

‫مشرف‪:‬‬ ‫طالب‪:‬‬
‫جمشيد باقرزاده‬ ‫مرتضى حبيبآل‪-‬أجواد‬
‫عروض‬
‫مقدمة‬ ‫مجموع الناتج‬
‫المقترحة‬ ‫الطريقة‬ ‫نتائج التقييم‬ ‫المقترحة‬ ‫الطريقة‬
‫خاتمة‬ ‫مقدمة‬
‫اقتراحات‬

‫مقدمة‬

‫التصيد االحتيالي هو هجوم عبر اإلنترنت حيث يخدع المهاجمون الضحايا ليكشفوا عن معلومات حساسة‪ .‬تحاكي مواقع التصيد االحتيالي المواقع‬
‫الشرعية لسرقة البيانات الشخصية‪ .‬تشمل " تقنيات الكشف" أساليب مختلفة مثل األنظمة القائمة على القواعد‪ ،‬والتعلم اآللي‪ ،‬والتعلم العميق‪ .‬تعمل‬
‫هذه األساليب على تحليل بنية عنوان ‪ URL‬وسمعة النطاق والمحتوى وسلوك المستخدم للتمييز بين المواقع الحقيقية والمزيفة‪ .‬مع تطور التصيد‬
‫االحتيالي‪ ،‬يعد البحث عن أنظمة الكشف المبتكرة أمًر ا بالغ األهمية‪ .‬تجمع هذه الدراسة بين الشبكة العصبية ‪ GRU‬وخوارزمية التحسين‬
‫‪ Emperor Penguin‬لمكافحة تعقيد مواقع التصيد االحتيالي‪.‬‬
‫عروض‬
‫مقدمة‬ ‫مجموع الناتج‬
‫المقترحة‬ ‫الطريقة‬ ‫نتائج التقييم‬ ‫المقترحة‬ ‫الطريقة‬
‫خاتمة‬ ‫مقدمة‬
‫اقتراحات‬

‫‪Start‬‬

‫الطريقة المقترحة‬ ‫‪Preprocessing:‬‬

‫‪Data cleaning‬‬

‫‪Normalization‬‬

‫‪Management of outliers‬‬

‫‪Handle duplicates‬‬

‫تستخدم هذه األطروحة الشبكة العصبية ‪ GRU‬لتعزيز دقة تحديد موقع التصيد‬
‫‪Management of inconsistencies‬‬

‫االحتيالي‪ ،‬واالستفادة من كفاءتها في التعرف على األنماط الزمنية والمعلومات‬


‫‪Data partitioning into‬‬
‫‪training and test sets‬‬

‫السياقية في محتوى الويب‪ .‬باإلضافة إلى ذلك‪ ،‬فهو يتضمن خوارزمية تحسين‬ ‫‪Utilizing GRU‬‬

‫البطريق اإلمبراطور (‪ )EPO‬لتحسين أداء شبكة ‪ GRU‬بشكل أكبر‪ .‬يقوم ‪EPO‬‬ ‫‪Network raining phase‬‬
‫‪Random determination‬‬
‫‪of number of hidden‬‬
‫‪layers of LSTM neural‬‬

‫بضبط المعلمات بشكل دقيق‪ ،‬مما يحسن قدرة الشبكة على التمييز بين المواقع‬ ‫‪network‬‬

‫‪Optimization of size of‬‬


‫الشرعية ومواقع التصيد‪ .‬يتناول هذا البحث الحاجة الملحة للكشف الدقيق وفي‬ ‫‪hidden layers of LSTM‬‬
‫‪neural network‬‬

‫الوقت المناسب عن مواقع التصيد االحتيالي‪ ،‬مما يؤدي في نهاية المطاف إلى‬ ‫‪Updating number of‬‬
‫‪LSTM optimized‬‬ ‫‪No‬‬ ‫‪Is stop‬‬
‫‪condition‬‬

‫تعزيز األمن عبر اإلنترنت وحماية المستخدمين من األنشطة االحتيالية من خالل‬


‫‪network using penguin‬‬ ‫‪placed?30‬‬
‫‪optimization algorithm‬‬ ‫‪iteration‬‬

‫‪Yes‬‬

‫الجمع بين نقاط قوة الشبكة العصبية ‪ GRU‬وإمكانيات التحسين لخوارزمية‬ ‫‪Network evaluation phase‬‬
‫‪Data classification using‬‬
‫‪optimized LSTM‬‬

‫‪.Emperor Penguin Optimization‬‬


‫عروض‬
‫مقدمة‬ ‫مجموع الناتج‬
‫المقترحة‬ ‫الطريقة‬ ‫نتائج التقييم‬ ‫المقترحة‬ ‫الطريقة‬
‫خاتمة‬ ‫مقدمة‬
‫اقتراحات‬

‫المعالجة المسبقة‬
‫تعد المعالجة المسبقة ضرورية لتحسين البيانات لمهام مثل التحليل أو النمذجة أو التعلم اآللي‪.‬بياناتتطبيع‬
‫أتقنية إحصائية‪ ،‬تعمل على توحيد البيانات الرقمية لتعزيز االتساق والمالءمة للنمذجة والتحليل والتصور‪.‬‬
‫تحجيم الحد األدنى والحد األقصىهي طريقة لقياس الميزات ضمن نطاق‪ ،‬عادة ما يكون بين ‪ 0‬و‪.1‬‬

‫تنظيف البيانات‬ ‫‪‬‬


‫ُت عرف عملية تحديد وإصالح العيوب والتناقضات وعدم الدقة في مجموعة البيانات باسم تنظيف البيانات‪ ،‬والتي ُتعرف أحياًن ا باسم تنظيف البيانات‪،‬‬
‫وهي مرحلة مهمة في مسار المعالجة المسبقة للبيانات‪ .‬يهدف تنظيف البيانات إلى تحسين جودة البيانات واعتماديتها بحيث يمكن استخدامها في النمذجة‬
‫وإعداد التقارير والتحليل‪.‬‬
‫عروض‬
‫مقدمة‬ ‫مجموع الناتج‬
‫المقترحة‬ ‫الطريقة‬ ‫نتائج التقييم‬ ‫المقترحة‬ ‫الطريقة‬
‫خاتمة‬ ‫مقدمة‬
‫اقتراحات‬

‫المعالجة المسبقة‬

‫خلط البيانات‬ ‫‪‬‬

‫خلط البيانات هو عملية إعادة ترتيب العينات أو المثيالت بشكل عشوائي داخل مجموعة البيانات‪ُ .‬ت ستخدم هذه الطريقة بشكل متكرر في تحليل‬
‫البيانات والتعلم اآللي إلضافة العشوائية وإزالة أي تحيزات ترتيب محتملة قد تكون موجودة في البيانات‪.‬‬
‫تقسيم التسمية‬
‫تتضمن تقنية المعالجة المسبقة المعروفة باسم "تقسيم الملصقات" فصل تسميات مجموعة البيانات (المعروفة أيًض ا باسم المتغيرات المستهدفة) عن‬
‫البيانات األخرى‪ .‬بمعنى آخر‪ ،‬فإنه يستلزم فصل الميزات (متغيرات اإلدخال) التي ستستخدمها إلنشاء التنبؤات من األعمدة (األعمدة) التي تحتوي‬
‫على القيم المستهدفة التي تحاول التنبؤ بها‪.‬‬
‫تقسيم البيانات إلى اختبار وتدريب‬
‫يتطلب تحليل البيانات والتعلم اآللي تقسيم البيانات إلى مجموعات تدريب واختبار وتحقق من الصحة من أجل إنشاء النماذج واختبارها وضبطها‬
‫بشكل صحيح‪ .‬يساعد هذا القسم في تقييم أداء النموذج بشكل موضوعي وواقعي‪.‬‬
‫عروض‬
‫مقدمة‬ ‫مجموع الناتج‬
‫المقترحة‬ ‫الطريقة‬ ‫نتائج التقييم‬ ‫المقترحة‬ ‫الطريقة‬
‫خاتمة‬ ‫مقدمة‬
‫اقتراحات‬

‫تم استخدام بنية ‪GRU-EPO‬‬

‫تتناول األطروحة المشكلة الملحة المتمثلة في تحديد وإحباط نمو مواقع الويب االحتيالية والخطيرة المرتبطة بالتصيد‪ .‬تقدم األطروحة اقتراًحا جديًد ا في هذا‬
‫الصدد من خالل االستفادة من الشبكة العصبية ذات الوحدة المتكررة (‪ .)GRU‬الوحدة المتكررة المسورة (‪ )GRU‬هي نوع من بنية الشبكة العصبية‬
‫المتكررة (‪ )RNN‬التي تم إنشاؤها للتغلب على بعض أوجه القصور في شبكات ‪ RNN‬التقليدية‪.‬يتم أيًض ا تنفيذ المعالجة التسلسلية للبيانات باستخدام شبكات‬
‫الذاكرة طويلة المدى (‪ ،)LSTM‬والتي ُت عرف بشكل أكثر شيوًعا باسم ‪.GRUs‬‬
‫بوابة التحديث (ض)‬
‫بوابة إعادة الضبط (ص)‬
‫الدولة المخفية للمرشح (ح)‬
‫الحالة المخفية النهائية (ح)‬
‫عروض‬
‫مقدمة‬ ‫مجموع الناتج‬
‫المقترحة‬ ‫الطريقة‬ ‫نتائج التقييم‬ ‫المقترحة‬ ‫الطريقة‬
‫خاتمة‬ ‫مقدمة‬
‫اقتراحات‬

‫تم استخدام بنية ‪GRU-EPO‬‬


‫التكاملخوارزمية تحسين البطريق اإلمبراطوريعمل على تحسين أداء ‪ GRU‬بشكل أكبر‪ ،‬مما يمّك نها من التمييز بشكل أكثر فعالية بين مواقع الويب‬
‫الشرعية ومواقع التصيد االحتيالي بناًء على األنماط المستفادة والمعلومات السياقية‪ .‬تلعب المعلمات الفائقة دوًر ا حاسًما في تدريب الشبكات العصبية‬
‫للوحدة المتكررة (‪ .) GRU‬يمكن أن يؤثر كل خيار من خيارات المعلمات الفائقة بشكل كبير على عملية التدريب وسرعة التقارب واألداء العام للنموذج‪.‬‬
‫في سياق وحدات ‪ ، GRU‬هناك معلمتان فائقتان مهمتان هما وظائف التنشيط وعدد الوحدات المخفية‪.‬‬
‫الوحدات المخفية‬
‫وظيفة تفعيل البوابات‬
‫وظيفة تفعيل حالة الخلية‬
‫عروض‬
‫مقدمة‬ ‫مجموع الناتج‬
‫المقترحة‬ ‫الطريقة‬ ‫نتائج التقييم‬ ‫المقترحة‬ ‫الطريقة‬
‫خاتمة‬ ‫مقدمة‬
‫اقتراحات‬

‫خوارزمية تحسين البطريق اإلمبراطور (‪)EPO‬‬

‫بمساعدة ‪ ،EPO‬نريد البحث بذكاء في مساحة المعلمات الفائقة لنموذج ‪ GRU‬عن​​مجموعة المعلمات الفائقة التي ستنتج أفضل أو أفضل النتائج تقريًبا‬
‫لتحديد مواقع التصيد االحتيالي‪ .‬يتم تحقيق التوازن بين االستكشاف واالستغالل في ‪ ، EPO‬مما يمكن أن يساعد في اجتياز المشهد المعقد للمعلمات الفائقة‬
‫بنجاح‪.‬‬
‫• تقييم األداء‪ :‬باستخدام مجموعة بيانات كافية من مواقع التصيد االحتيالي‪ ،‬قم بتدريب وتقييم نموذج ‪ GRU‬مع كل مجموعة من المعلمات الفائقة باستخدام‬
‫المقاييس ذات الصلة بما في ذلك الدقة والدقة واالستدعاء ودرجة ‪.F1‬‬

‫وظيفة اللياقة البدنية=‪-1‬الدقة‬


‫عروض‬
‫مقدمة‬ ‫الطريقة المقترحة‬ ‫التقييم‬ ‫نتائج‬
‫نتائج التقييم‬ ‫المقترحة‬
‫خاتمة‬‫الطريقة‬ ‫مقدمة‬
‫اقتراحات‬

‫مقاييس التقييم‬

‫دقة دقةهو مقياس أساسي يقيس الصحة العامة للتنبؤات التي يقدمها نظام كشف التسلل‪ .‬يتم حسابه على أنه نسبة المثيالت المصنفة بشكل صحيح (كل من‬
‫اإليجابيات والسلبيات الحقيقية) إلى إجمالي عدد المثيالت في مجموعة البيانات‪.‬‬

‫دقة‪: :‬الدقة‪ ،‬والمعروفة أيًض ا بالقيمة التنبؤية اإليجابية‪ ،‬تركز على دقة التنبؤات اإليجابية للنظام‪ .‬على وجه التحديد‪ ،‬فهو يقيس نسبة التنبؤات اإليجابية‬
‫الحقيقية (الهجمات المحددة بشكل صحيح) بين جميع الحاالت المتوقعة على أنها إيجابية (كل من اإليجابيات الحقيقية واإليجابيات الخاطئة)‪.‬‬
‫عروض‬
‫مقدمة‬ ‫مجموع الناتج‬
‫المقترحة‬ ‫الطريقة‬ ‫نتائج التقييم‬ ‫المقترحة‬ ‫الطريقة‬
‫خاتمة‬ ‫مقدمة‬
‫اقتراحات‬

‫مجموعة البيانات‬

‫ال‪ PhishTank‬مجموعة البيانات هي مورد حاسم فياألمن اإللكترونيوالكشف عن التهديدات‪ .‬وهو بمثابة مستودع شامل لهجمات التصيد االحتيالي‬
‫الفعلية‪ ،‬مما يوفر بيانات قيمة للباحثين والمحللين وخبراء األمن‪ .‬التصيد االحتيالي هو أسلوب خبيث ينتحل فيه المحتالون شخصيات شركات حسنة‬
‫السمعة الستخراج معلومات حساسة‪ ،‬ويشكل خطًرا كبيًر ا على األفراد والشركات واألنظمة الرقمية‪ .‬ال‪PhishTank‬مجموعة البيانات هي جهد تعاوني‬
‫داخالألمن اإللكترونيالمجتمع‪ ،‬حيث يقوم األفراد والمنظمات باإلبالغ عن عناوين ‪ URL‬المشتبه بها للتصيد االحتيالي‪ .‬ويتم بعد ذلك التحقق من هذه‬
‫التقارير من قبل متطوعين وخبراء للتأكد من صحتها‪ .‬يتم تصنيف عناوين ‪ URL‬المشروعة وتصنيفها وإضافتها إلى مجموعة البيانات‪ ،‬مما يضمن‬
‫التدفق المستمر لعينات التصيد االحتيالي الجديدة‪ .‬يضمن نهج التعهيد الجماعي أن تظل مجموعة البيانات ديناميكية وقابلة للتطبيق في معالجة التهديد‬
‫المستمر لهجمات التصيد االحتيالي‪.‬‬
‫عروض‬
‫مقدمة‬ ‫مجموع الناتج‬
‫المقترحة‬ ‫الطريقة‬ ‫نتائج التقييم‬ ‫المقترحة‬ ‫الطريقة‬
‫خاتمة‬ ‫مقدمة‬
‫اقتراحات‬

‫نتائج المحاكاة‬

‫منحنى التقارب لخوارزمية تحسين البطريق في إيجاد المعلمات الفائقة لـ ‪GRU‬‬


‫العملية التدريبية لـ ‪GRU‬‬
‫عروض‬
‫مقدمة‬ ‫مجموع الناتج‬
‫المقترحة‬ ‫الطريقة‬ ‫نتائج التقييم‬ ‫المقترحة‬ ‫الطريقة‬
‫خاتمة‬ ‫مقدمة‬
‫اقتراحات‬

‫مقارنة‬

‫مقارنة الطريقة المقترحة والدراسات السابقة األخرى‬


‫مرجع‬ ‫طريقة‬ ‫مجموعة البيانات‬ ‫دقة‬

‫تم جمع مجموعة البيانات‪ ،‬التي‬


‫[ ‪]1‬‬ ‫متعدد الطبقات المستقبالت‬ ‫تتضمن بيانات من ‪10000‬‬ ‫‪93%‬‬
‫موقع‪ ،‬من خالل ‪Kaggle‬‬

‫يتم استخدام عناوين ‪URL‬‬


‫المجمعة من مصادر مختلفة‬
‫كمجموعة بيانات (‪،Alexa‬‬
‫الشبكة العصبية التالفيفية على‬ ‫و‪،openphish‬‬ ‫‪95.02%‬‬
‫[ ‪]2‬‬
‫مستوى األحرف (‪)CNN‬‬ ‫و‪،spamhaus.org‬‬
‫و‪،techhelplist.com‬‬
‫و‪،isc.sans.edu‬‬
‫و‪.)phishtank‬‬

‫شبكة الوحدة المتكررة المسورة‬


‫الطريقة المقترحة‬ ‫المحسنة باستخدام خوارزمية‬ ‫‪phishtank‬‬ ‫‪96.2%‬‬
‫تحسين البطريق‬
‫عروض‬
‫مقدمة‬ ‫مجموع الناتج‬
‫المقترحة‬ ‫الطريقة‬ ‫نتائج التقييم‬ ‫المقترحة‬ ‫الطريقة‬
‫خاتمة‬ ‫مقدمة‬
‫اقتراحات‬

‫خاتمة‬

‫تتناول هذه األطروحة القضية الحاسمة المتمثلة في اكتشاف التصيد االحتيالي باستخدام نهج جديد‪ :‬شبكة ‪ GRU‬محسنة باستخدام‬
‫خوارزمية ‪ . EPO‬التصيد‪ ،‬وهو أمر مهماألمن اإللكترونيالتهديد‪ ،‬يتضمن رسائل البريد اإللكتروني والمواقع االحتيالية التي تسعى‬
‫للحصول على معلومات حساسة‪ .‬تتضمن طريقتنا معالجة مسبقة شاملة للبيانات‪ ،‬بما في ذلك التطبيع والتنظيف والخلط والتجزئة‪ .‬تتفوق‬
‫شبكة ‪ GRU‬في تصنيف الحوادث الحقيقية وحوادث التصيد االحتيالي نظًر ا لقدرتها على التقاط األنماط التسلسلية‪.‬المعلمة‬
‫المفرطةالتحسين مع ‪ EPO‬أدى إلى تحسين األداء‪ .‬االختبار علىفيشتانكأسفرت مجموعة البيانات عن نتائج مبهرة‪ ،‬حيث بلغت دقة‬
‫التدريب ‪ %97.94‬ودقة االختبار ‪ .% 96.20‬تؤكد هذه النتائج على قدرة الطريقة على اكتشاف سمات التصيد االحتيالي الدقيقة‪ ،‬مما‬
‫يجعلها أداة قيمة في العالم الحقيقياألمن اإللكتروني‪.‬‬
‫عروض‬
‫مقدمة‬ ‫مجموع الناتج‬
‫المقترحة‬ ‫الطريقة‬ ‫نتائج التقييم‬ ‫المقترحة‬ ‫الطريقة‬
‫خاتمة‬ ‫مقدمة‬
‫اقتراحات‬

‫اقتراحات‬

‫‪ . 1‬هندسة الميزات المحسنة‪ :‬قم بتوسيع مساحة الميزات من خالل األساليب المتقدمة للكشف عن األنماط المعقدة في عمليات التصيد االحتيالي‪ ،‬بما‬
‫في ذلك السمات السلوكية الخاصة بالمجال في رسائل البريد اإللكتروني وصفحات الويب‪ ،‬الكتشاف أكثر شموًال‪.‬‬

‫‪ . 2‬االكتشاف في الوقت الفعلي‪ :‬قم بتكييف النهج الكتشاف التصيد االحتيالي في الوقت الفعلي من خالل تحسين بنية النموذج الستدالل أسرع‪،‬‬

‫والحفاظ على الدقة‪ ،‬وإحباط التهديدات الجديدة بسرعة‪.‬‬

‫‪ . 3‬األساليب الهجينة‪ :‬اجمع بين الطريقة المقترحة وأحدث التقنيات مثل أساليب المجموعة أو بنيات التعلم العميق أو النماذج القائمة على الرسم‬
‫البياني إلنشاء حل مختلط للكشف المعزز والموثوق عن التصيد االحتيالي‪ ،‬مع االستفادة من نقاط القوة في المنهجيات المتعددة‪.‬‬

You might also like