Professional Documents
Culture Documents
المستند
المستند
نبدأ ببعض المعلومات األساسية ،مقارنة بالنماذج األخرى ،ثم نتعمق مباشرة في بنية .ResNet50
في عام 2012في مسابقة تصنيف ، LSVRC2012فازت AlexNetبالسعر األول ،وبعد ذلك كان ResNetهو
الشيء األكثر إثارة لالهتمام الذي حدث لرؤية الكمبيوتر وعالم التعلم العميق.
نظرً ا لإلطار الذي قدمته ، ResNetsفقد أصبح من الممكن تدريب الشبكات العصبية فائقة العمق وبهذا أعني أنه يمكن
للشبكة أن تحتوي على مئات أو آالف الطبقات وال تزال تحقق أدا ًء رائعًا.
تم تطبيق ResNetsفي البداية على مهمة Kالتعرف على الصور ولكن كما يمكن أي ً
ضا استخدام إطار العمل لمهام الرؤية
غير الحاسوبية أيضً ا لتحقيق دقة أفضل.
وقد يجادل الكثير أن مجرد تكديس المزيد من الطبقات يمنحنا أي ً
ضا دقة أفضل في سبب الحاجة إلى التعلم المتبقي لتدريب
الشبكات Kالعصبية فائقة العمق.
مشاكل
كما نعلم أن الشبكات Kالعصبية التالفيفية العميقة رائعة ح ًقا في تحديد الميزات ذات المستوى المنخفض والمتوسط والعالي
من الصور وتكديس المزيد من الطبقات بشكل عام يمنحنا دقة أفضل ،لذا فإن السؤال الذي يطرح نفسه هو الحصول على
أداء أفضل للنموذج بنفس سهولة تكديس المزيد من الطبقات؟
مع هذه األسئلة ،تنشأ مشكلة تالشي /انفجار التدرجات التي تم التعامل معها Kإلى حد كبير بعدة طرق وتمكين الشبكاتK
التي تحتوي على عشرات الطبقات من التقارب ولكن عندما تبدأ الشبكات العصبية العميقة في التقارب ،نرى مشكلة
أخرى تتمثل في تشبع الدقة ثم تدهورها بسرعة و لم يكن هذا بسبب فرط التجهيز كما قد يخمن المرء وإضافة المزيد من
الطبقات إلى نموذج عميق مناسب أدى فقط إلى زيادة خطأ التدريب.
تم تصحيح هذه المشكلة بشكل أكبر من خالل أخذ نموذج ضحل ونموذج عميق تم إنشاؤه باستخدام طبقات من النموذج
الضحل وإضافة طبقات هوية إليه ،وبالتالي ال ينبغي أن ينتج النموذج األعمق أي خطأ تدريب أعلى من نظيره .كانت
الطبقات المضافة مجرد طبقات هوية.
شكل 1
في الشكل ، 1يمكننا أن نرى على اليسار واليمين أن النموذج األعمق ينتج دائمًا المزيد من األخطاء ،حيث في الواقع ال
ينبغي أن يفعل ذلك.
عالج المؤلفون هذه المشكلة من خالل تقديم إطار عمل التعلم المتبقي العميق ،لذلك قاموا بتقديم اتصاالت مختصرة تؤدي
ببساطة تعيينات الهوية
الشكل 2
ً
صراحة بتالئم رسم الخرائط المتبقية وقللوا من ذلك مثل ) H (xوتركوا الطبقات غير الخطية تناسب لقد سمحوا للطبقات
تعيين آخر F (x): = H (x) −xبحيث يصبح التعيين األصلي H (x): = F (x) + xكما يتضح من الشكل .2
والفائدة من تعيين هوية االختصار هذه هي عدم وجود معلمات إضافية مضافة إلى النموذج وأي ً
ضا تم التحكم في الوقت
الحسابي.
الشكل 3
لتوضيح مدى جودة شبكة ResNetالتي قاموا بتجميعها مع نموذج من 34طبقة ونموذج 18طبقة مع كل من التعيينات
العادية والمتبقية ولم تكن النتائج مذهلة للغاية حيث تفوقت الشبكة العادية المكونة من 18طبقة على الشبكة العادية المكونة
من 34طبقة وفي حالة تفوقت ResNetعلى 34طبقة من ResNetعلى 18طبقة ResNetكما يمكن رؤيته في
الشكل .3
الجدول 1
سنناقش اآلن حول Resnet 50وأيضً ا الهندسة المعمارية للطبقة المذكورة أعاله 18و 34طبقة ُ ResNetتعطى أيضًا
خرائط متبقية وال تظهر من أجل البساطة.
كان هناك تغيير صغير تم إجراؤه على ResNet 50وما فوق ذلك قبل ذلك ،تخطت اتصاالت االختصار طبقتين
ولكنهم اآلن يتخطون ثالث طبقات وأيضً ا تمت إضافة طبقات التفاف 1 * 1والتي سنراها بالتفصيل مع شبكة ResNet
50هندسة معمارية.
كما نرى في الجدول ، 1تحتوي بنية resnet 50على العنصر التالي:
نتوء بحجم نواة 7 * 7و 64نواة مختلفة كلها بخطوة بحجم 2تعطينا طبقة واحدة.
في االلتفاف التالي ،هناك نواة 1،64 * 1تتبع هذا نواة 3،64 * 3وأخيراً 1،256 * 1نواة ،تتكرر هذه الطبقات
الثالث في إجمالي 3مرات ،مما يمنحنا 9طبقات في هذه الخطوة.
بعد ذلك نرى نواة 1،128 * 1بعد ذلك نواة 3،128 * 3وأخيراً نواة 1،512 * 1تكررت هذه الخطوة 4مرات ،
مما أعطانا 12طبقة في هذه الخطوة.
بعد ذلك يوجد نواة 1256 * 1ونواة أخرى مع 3،256 * 3و 1،1024 * 1ويتكرر هذا 6مرات مما يعطينا إجمالي
18طبقة.
ثم مرة أخرى نواة 1،512 * 1مع اثنين آخرين من 3،512 * 3و 1،2048 * 1وتكرر هذا 3مرات مما يعطينا
إجمالي 9طبقات.
بعد ذلك نقوم بعمل تجمع متوسط وننهيها بطبقة متصلة بالكامل تحتوي على 1000عقدة وفي النهاية وظيفة
، softmaxوهذا يعطينا طبقة واحدة.
جدا في مجموعة التحقق من ، ImageNetوحقق نموذج ResNet 50معدل خطأ أعلى 1بنسبة كانت النتيجة جيدة ً
20.47بالمائة وحقق معدل خطأ أعلى 5بنسبة 5.25بالمائة ،تم اإلبالغ عن هذا للنموذج الفردي الذي يتكون من 50
طبقة ال مجموعة منه .يوجد أدناه الجدول الموضح إذا كنت تريد مقارنته بشبكات ResNetsاألخرى أو بنماذج أخرى.
يمكن استخدام هذه البنية في مهام رؤية الكمبيوتر مثل تصنيف الصور وتوطين الكائنات واكتشاف الكائنات.
ويمكن أيضً ا تطبيق هذا اإلطار على مهام الرؤية غير الحاسوبية لمنحها فائدة العمق وتقليل النفقات الحسابية أيضًا.
ResNet50
ResNet-50عبارة عن شبكة عصبية تالفيفية بعمق 50طبقة ، ResNet .اختصار لـ ، Residual Networks
عبارة عن شبكة عصبية كالسيكية تستخدم كعمود فقري للعديد من مهام رؤية الكمبيوتر .كان االختراق األساسي مع
ResNetهو أنه سمح لنا بتدريب الشبكات العصبية العميقة للغاية مع أكثر من 150طبقة .إنها شبكة عصبية مبتكرة تم
تقديمها ألول مرة بواسطة Kaiming Heو Xiangyu Zhangو Shaoqing Renو Jian Sunفي ورقة بحثية حول
رؤية الكمبيوتر لعام 2015بعنوان "التعلم العميق المتبقي للتعرف على الصور".
الشبكات العصبية التالفيفية لها عيب رئيسي " -تالشي مشكلة التدرج" .أثناء التكاثر العكسي ،تنخفض قيمة التدرج
اللوني بشكل كبير ،وبالتالي ال يكاد أي تغيير يأتي في األوزان .للتغلب على هذا ،يتم استخدام .ResNetإنها تستفيد
من "."SKIP CONNECTION
اآلن سنتحدث عن بنية .ResNet50تتكون بنية ResNet50من 4مراحل كما هو موضح في الرسم البياني أدناه.
يمكن للشبكة أن تأخذ صورة اإلدخال ذات االرتفاع والعرض كمضاعفات 32 Kو 3كعرض القناة .من أجل التفسير ،
سوف نعتبر حجم المدخالت هو .3 × 224 × 224كل هندسة ResNetتؤدي االلتفاف األولي والتجميع األقصى
باستخدام أحجام نواة 7 × 7و 3 × 3على التوالي .بعد ذلك ،تبدأ المرحلة األولى من الشبكة وتحتوي على 3كتل
متبقية تحتوي كل منها على 3طبقات .حجم النواة المستخدمة Kإلجراء عملية االلتفاف في جميع الطبقات الثالث لكتلة
المرحلة 1هي 64و 64و 128على التوالي .تشير األسهم المنحنية إلى اتصال الهوية .يمثل السهم المتقطع المتصل
أن عملية االلتواء في الكتلة المتبقية تتم بخطوة ، 2وبالتالي ،سيتم تقليل حجم اإلدخال إلى النصف من حيث االرتفاع
والعرض ولكن سيتم مضاعفة عرض القناة .مع تقدمنا من مرحلة إلى أخرى ،يتضاعف عرض القناة ويقل حجم اإلدخال
إلى النصف.
بالنسبة للشبكات األعمق مثل ResNet50و ResNet152وما إلى ذلك ،يتم استخدام تصميم عنق الزجاجة .لكل
وظيفة متبقية ، Fيتم تكديس 3طبقات واحدة فوق األخرى .الطبقات الثالث هي 1 × 1 ، 3 × 3 ، 1 × 1تالفيف.
طبقات االلتفاف 1 × 1مسؤولة عن تقليل األبعاد ثم استعادتهاُ .تترك طبقة 3 × 3بمثابة عنق زجاجة بأبعاد إدخال /
إخراج أصغر.
أخيرً ا ،تحتوي الشبكة على طبقة متوسط التجميع متبوعة بطبقة متصلة بالكامل بها 1000خلية عصبية (إخراج فئة
.)ImageNet