Professional Documents
Culture Documents
RNN en Ar
RNN en Ar
com -
-
-
-حس ًنا ،مرحبًا بكم جميعً ا ومرحبًا بكم مرة أخرى ،اسمي أوليفر وقبل أن نغوص في المحاضرة لتحقيق النجاح ،واحد
تسعة واحد والذي سيكون في نمذجة التسلسل العميق ،سأالحظ فقط أنه كما الحظت على األرجح تأخرت قليالً لذلك
سننتقل إلى المحاضرة التي تعرفها كاملة وغير مكتملة وفي ذلك الوقت ثم ننتقل إلى جزء مختبر البرنامج من الدورة
-فور انتهاء هذه المحاضرة مباشرة بعد انتهاء هذه المحاضرة وسأكون على دراية بالهيكل وكيف سندير مختبرات
البرامج في نهاية محاضرة
حس ًن ا ،لقد تعلمنا في محاضرة ألكسندر األولى عن أساسيات الشبكات العصبية وتغذية النماذج المتقدمة وكيفية بنائها ،لذا
سنوجه انتباهنا اآلن إلى تطبيق الشبكات العصبية على المهام Fالتي تتضمن نمذجة تسلسل البيانات واإلرادة .انظر لماذا
تتطلب هذه األنواع من المهام بشكل أساسي
-نو ًعا مختل ًف ا من بنية الشبكة عما رأيناه حتى اآلن ،وللبناء حتى هذه النقطة ،سننتقل خطوة بخطوة لبناء حدس حول
سبب اختالف تسلسل النمذجة وأهميتها والبدء من جديد بأساسياتنا تغذية الشبكات Fإلى األمام لبناء النماذج ستعرض في هذه
المحاضرة
-حس ًنا ،دعنا نتعمق في األمر ،دعونا أوالً نحفز الحاجة إلى نمذجة التسلسل وما نعنيه من حيث البيانات المتسلسلة مع
مثال بديهي وبسيط للغاية لنفترض أن لدينا هذه الصورة للكرة و /أو المهمة Fهي التنبؤ إلى أين تتجه هذه الكرة للسفر إلى
التالي اآلن إذا لم أقدم لك أي معلومات Fمسبقة عن
-تاريخ الكرات ،أي تخمين حول موقعها التالي سيكون مجرد تخمين عشوائي ولكن اآلن وقلت إذا كان باإلضافة إلى
الموقع الحالي للكرة ،فقد أعطيتك أيضً ا بعض المعلومات حول مواقعها Fالسابقة
-اآلن أو تصبح المشكلة أسهل بكثير وأعتقد أنه يمكننا أن نتفق جمي ًعا على أن لدينا إحسا ًسا Fبالمكان الذي سيتجه إليه
الصغير بعد ذلك
ً
وبعيد ا عن المثال البسيط ،فإن هذا األمر هو أن ديفيد المتسلسل موجود في كل مكان حولنا ،على سبيل المثال ،يمكن -
تقسيم الصوت مثل شكل صوتي الذي يتحدث إليك إلى تسلسل من بعض الطرق
-باإلضافة إلى هذين المثالين ،هناك العديد من الحاالت التي قد تكون فيها المعالجة القنوية مفيدة من اإلشارات الطبية
مثل الجيز إلى أسعار األسهم إلى تسلسل الحمض النووي وما بعده
-واآلن بعد أن فهمنا شكل البيانات المتسلسلة ،فلننظر في تطبيقات النمذجة المتسلسلة في العالم الحقيقي
-في محاضرة ألكسندر األولى ،تعلمنا عن فكرة نماذج التغذية األمامية التي تعمل نوعً ا ما على هذا اإلعداد من واحد إلى
ً
بسيطا ً
جد ا لمهمة التصنيف الثنائي التي تتنبأ بما إذا كنت إذا واحد بشكل صحيح لمدخل واحد لمخرج واحد وقدم مثااًل
كانت ستمر أو تفشل مع التكاليف بالطبع نحن جميعًا
-آمل أن تمر ولكن في هذا المثال ال توجد مكونات حقيقية للوقت أو التسلسل الصحيح
-على النقيض من نمذجة التسلسل ،يمكننا اآلن التعامل مع مجموعة كبيرة ومتنوعة من األنواع المختلفة من المشاكل ،
على سبيل المثال ،لدينا تسلسل من المدخالت الزمنية ومن المحتمل أن يكون هناك تسلسلي مفتوح ،لذلك دعونا نفكر في
مثال واحد حيث لدينا مهمة معالجة Fلغة طبيعية حيث لدينا تغريدة ونحن
-ترغب في تصنيف المشاعر أو المشاعر المرتبطة بتلك التغريدة تعيين سلسلة من الكلمات لتسمية إيجابية أو سلبية
-يمكننا أي ً
ضا أن نحصل على حالة
-بُعد زمني ،على سبيل المثال ،لدينا هذه الصورة لالعب بيسبول يرمي كرة حيث يكون الناتج الذي نريد إنتاجه بدالً من
ذلك مكو ًنا مؤق ًتا أو متسلساًل حيث نريد اآلن تسمية تلك الصورة ببعض النصوص المرتبطة وأخيرً ا يمكننا لدينا حالة
أخيرة حيث لدينا
-المدخالت المتسلسلة ونريد تعيينها لمخرج تسلسلي على سبيل المثال في حالة ترجمة نص من لغة إلى أخرى
-ولذا في بعض األحيان قد يكون من الصعب ح ًق ا امتصاص نوع من االلتفاف حول رأسك والحصول على فكرة حول
كيفية إضافة بُعد زمني جديد إلى نماذجنا
-لتحقيق هذا الفهم ،ما أريد القيام به هو البدء ح ًق ا من األساسيات وإعادة النظر في مفهوم المبادئ التي قدمها الكسندر
واالنتقال خطوة بخطوة من هذا األساس لتطوير فهم التغييرات التي نحتاج إلى إجرائها لنكون قادرين للتعامل مع البيانات
المتسلسلة
-لذا دعنا نتذكر البنية والمخطط للمبادئ التي درسناها في القسم األول نحدد مجموعة من المدخالت ولدينا هذه األوزان
المرتبطة بربط تلك المدخالت بعقدة داخلية ويمكننا تطبيق ذلك تطبق األوزان اتفا ًقا غير خطي وافتح هذا
-ويمكننا اآلن توسيع هذا إلى طبقة من الخاليا العصبية الفردية ،حيث تعمل طبقة من المبدأ على فتح متعدد األبعاد وفي
هذا المثال لدينا طبقة واحدة من ضوابط المبدأ الموضحة باللون األخضر مع ثالثة مدخالت موضحة باللون األزرق للتنبؤ
بالمخرجات واألرجواني لكن هذا هذا
-لنبسط هذا الرسم التخطيطي الذي كان من الممكن أن يفعله هنا هو مجرد انهيار تلك الطبقة من تلك الخاصة بالمبدأ الذي
يمتد إلى هذا المربع األخضر الفردي
-وقد قمت بهدم عقد المدخالت Fوالمخرجات Fفي هذه الدوائر المفردة التي يتم تمثيلها كمتجهات
-إذن أفعال المدخالت Fالخاصة بنا هي بعض المتجهات Fبطول amوهي المخرجات عبارة عن متجهات Fلها طول آخر
وما زلنا نفكر في إدخال في وقت محدد يُشار إليه بـ tال شيء مختلف عما رأيناه في المحاضرة األولى وكانوا يمرون
عبر نموذج رسوم آجل للحصول عليها
-بعض اإلخراج
-ما يمكننا القيام به هو أنه كان بإمكاننا تغذية هذا النموذج في تسلسل لماذا ببساطة تطبيق نفس النموذج نفس سلسلة
العمليات مرارً ا وتكرارً ا
-وهذه هي الطريقة التي يمكننا بها التعامل مع هذه المدخالت Fالفردية التي تحدث في خطوات زمنية فردية ،لذا أوالً كان
علينا فقط تدوير نفس الرسم التخطيطي ألخذها من العرض األفقي إلى العرض الرأسي ،كان لدينا مدير اإلدخال هذا في
بعض األحيان قمنا بإدخاله في شبكتنا للحصول على غالبًا ونظرً ا ألننا مهتمون بإدراج البيانات المتسلسلة
ً
واحد ا فقط ،فلدينا اآلن عدة خطوات زمنية فردية تبدأ من صفر تكيال أو أول مرة -لنفترض أننا ال نملك طابعً ا زمنيًا
منفصلة أو متتالية وتمتد إلى األمام لليمين
-مرة أخرى ،نحن نتعامل مع الخطوات الزمنية الفردية على أنها جنس زمني منعزل ،ليس لدينا حتى اآلن فكرة عن
العالقة بين األوقات التي يكون فيها صفر ويظهر المرء وما إلى ذلك وهلم جرا.
-وما نعرفه من المحاضرة األولى أنه من وضع متجه لخطوة زمنية معينة ستكون مجرد دالة لإلدخال في ذلك الوقت
-حس ًن ا ،لدينا هذا التحول ،نعم ،لكن هذه بيانات متسلسلة بطبيعتها وربما تكون في التسلسل لسبب مهم وليس لدينا حتى
اآلن أي نوع من الترابط أو فكرة الترابط عبر الخطوات الزمنية هنا
-النقطة األساسية هي أن هذا الناتج مرتبط بالمدخالت في الوقت السابق ،كيف يمكننا التقاط هذا الترابط
-ما نحتاجه هو طريقة لربط حسابات الشبكات Fبخطوة زمنية معينة بتاريخها السابق وهي ذاكرة للحسابات Fمن هذا الوقت
المحرق خطوات تمرير المعلومات إلى األمام للتكاثر عبر الزمن وما نفكر في القيام به هو في الواقع ربط المعلومات و
شركات
-التماس أن الشبكة في أوقات مختلفة تأمل بعضها البعض من خالل ما نسميه عالقة التكرار
-وعلى وجه التحديد الطريقة التي نفعل بها هذا في النكس العصبي
-النماذج المتكررة هي السبب في امتالك ما نسميه ذاكرة داخلية أو حالة كانت ستعرف باسم hمن الشاي وهذه القيمة يتم
الحفاظ على مفهوم كل من الشاي هو الوقت المنقسم ويمكن تمريرنا لألمام عبر الزمن والفكرة أنا ' م الحدس هنا نريد
الدولة
-وماذا يعني هذا بالنسبة لحساب الشبكات أن اإلخراج موجود اآلن أو يعتمد اإلخراج ليس فقط على اإلدخال في وقت
معين سبتمبر
-ولكن أي ً
ض ا فكرة حالة الذاكرة التي سيتم تمريرها لألمام من الخطوة الزمنية السابقة
-صحيح ولذا فإن هذا اإلخراج فقط لجعل هذا الناتج واضحً ا ً
جدا في وقت معين sept tيعتمد على كال المدخالت
-وستقوم تلك الذاكرة السابقة بالتقاط التاريخ السابق لما حدث ساب ًقا في التسلسل
-وألن هذا المرجع الذي يجعل الشاي هو وظيفة لكل من ذاكرة المرور الحالية والذاكرة
-مع هذا يعني أنه يمكننا تحديد ووصف هذه األنواع من الخاليا العصبية من حيث عالقة التكرار وما إلى ذلك إلى
اليمين ،يمكنك أن ترى كيف نتخيل هذه الخطوات الزمنية الفردية نوعً ا من كونها غير متحكم فيها ممتدة عبر الوقت حيث
يمكننا أيضً ا اختيار نفس العالقة عبر الحلقة التي أظهرتها على اليسار
-أو نأمل أن يبني هذا بعض الحدس حول فكرة التكرار هذه ولماذا يمكن أن يساعدنا في مهام النمذجة المتسلسلة وهذا
الحدس الذي أنشأناه من البدء بنموذج التغذية األمامي هو ح ًق ا مفتاح التكرار والعصبي .شبكة أو تنتهي وسنواصل ذلك
-نبني من هذا األساس ونبني فهمنا لكيفية تحديد عالقة التكرار هذه لسلوك أوريغون
-لذا ،دعونا نضفى الطابع الرسمي على هذا األمر بشكل أكثر صوابًا ،الفكرة الرئيسية التي أذكرها وأنا جيد لمواصلة
القيادة إلى المنزل هي أن هذه الحالة الداخلية لألسنان وتحافظ عليها والتي سيتم تحديثها في كل مرة على النحو المذكور
تتم معالجة التسلسالت ونقوم بذلك من خالل تطبيق عالقة التكرار هذه في كل خطوة نقولها نحن
-ثمانية
-ومع ذلك ،نقول إن كل نوع من أنواع الشاي هو اآلن دالة على المدخالت Fالحالية
x-لـ tوكذلك الحالة السابقة hلـ tناقص واحد واألهم من ذلك أن هذه الوظيفة هي ارتفاع المعلمة بمجموعة من األوزان
w
-من خالل شبكتنا على مدار التدريب حيث يتم تعلم النموذج وبما أنه يتم تحديث هذه األوزان بشكل صحيح والنقطة
األساسية هنا هي أن هذه المجموعة من األوزان wهي نفسها عبر جميع الخطوات الزمنية التي يتم أخذها في االعتبار في
التسلسل و الخلل الذي يحسب هذه الحالة المخفية هو نفسه أيضًا
-يمكننا أيضً ا أن نتخطى هذا الحدس وراء خوارزمية موجودة في نوع من الشفرة الزائفة للحصول على فهم أفضل لكيفية
عمل هذه الشبكات حتى نتمكن من البدء بالتهيئة و /أو ما يلزم لتهيئتها جي ًدا أوالً .علينا تهيئة البعض أوالً
-قل ما كان سيفعله مع متجه من األصفار وسنفكر في جملة ستكون بمثابة أو تسلسل إدخال للنموذج
-ومهمتنا هنا هي محاولة توقع الكلمة التالية التي ستأتي في نهاية الجملة
-وعالقة التكرار يتم التقاطها بواسطة هذه الحلقة حيث سنقوم بإدخال aمن خالل الكلمات الموجودة في الجملة
-النظر إلى الحالة المخفية السابقة في نموذجنا وداخلنا وهذا هو الوقت الذي تفتح فيه توق ًعا لما هو الحد األقصى المحتمل
للكلمة وأيضً ا تحديث حسابها الداخلي للحالة المخفية وأخيرً ا توقعنا األخير أو توقعنا المميز الذي كان المهتمة في النهاية
هو إخراج المرسوم بعد
-تم أخذ جميع الكلمات في االعتبار في جميع النقاط الزمنية في التسلسل وهذا يولد توقعاتنا للكلمة التالية المحتملة
-ومن المأمول أن يوفر هذا مزي ًد ا من الحدس حول كيفية عمل هذا أو في خوارزمية ما ،وإذا الحظت الحساب Fالداخلي لـ
، inفسيشمل كل من ناتج الحالة الداخلية هذا باإلضافة إلى محاولة في النهاية وضع التنبؤ بأن كانوا مهتمين أو غير
مهتمين
-ضع سببًا أفضل للشاي ،حتى يتسنى لنا التعرف على كيفية قيامنا بذلك فعليًا ،سأضع متجهًا ،دعنا نخطو خالل هذا ما
نفعله هو إعطاءهم مدخالت أو تحسين المتجه
-لقد مررنا بها لحساب الحسابات Fالداخلية الهائلة للحالة وكسر الخلل الوظيفي ما يفعله هو مجرد معيار في روما مثل هذه
العملية تمامًا كما رأينا في المحاضرة األولى بشكل صحيح
-وفي هذه الحالة سنقوم بضرب كل من الحالة المخفية السابقة من خالل مصفوفة االنتظار wوكذلك أعمال اإلدخال
الحالية لمصفوفة انتظار أخرى ثم سنقوم بجمعها م ًعا وتطبيق غير خطي
-وستالحظ كما ذكرت للتو بشكل صحيح ألن لدينا هذين المُدخلين في معادلة الوالية الشمالية لدينا مصفوفتا االنتظار
المستقلتان
-والخطوة األخيرة هي إنشاء opo Fفعليًا لخطوة زمنية معينة والتي نقوم بها عن طريق أخذ تلك الحالة الداخلية وتعديلها
ببساطة بعد الضرب بواسطة مصفوفة موجة أخرى ثم استخدام هذا الناتج كما تم إنشاؤه
-وهذه هي الطريقة التي يكون بها األمر داخل وخارج الحالة المخفية وينتج أي ً
ضا ساعة في وقت معين
-حتى اآلن ،رأينا أن الزخارف التي تم تصويرها إلى حد كبير هي وجود هذه المجموعات التي تتفاعل مع نفسها ،وكما
كنا كما نشأنا ،يمكننا أي ً
ض ا تمثيل هذه الحلقة على أنها متدحرجة عبر الزمن بدأت بشكل فعال من المرة األولى قبل أن
يكون لدينا هذه الشبكة غير المتحكم فيها
-أنه يمكننا االستمرار في التمرير عبر الزمن من البنطلونات التي تحتوي على صفر اثنين وتكون األنابيب فارغة وفي
هذا الرسم التخطيطي ،دعنا اآلن أقوم بأشياء رسمية أكثر قليالً ،يمكننا أي ً
ضا إنشاء مصفوفات Fالوزن التي يتم تطبيقها
على الكمبيوتر .المدخالت صريحة جدا
-ويمكننا أي ً
ضا أن نتعامل معهم برسم تخطيطي عند المصفوفات Fالتي تربط القول المخفي السابق بالحالة المخفية الحالية
-حسنا
-كما ذكرت بشكل صحيح ،فإن النقطة األساسية هي أنه يتم إعادة استخدام مصفوفات االنتظار هذه عبر جميع خطوات
الوقت الفردية
-تعرف على ما يلي الذي قد تفكر فيه على ما يرام ،هذا كل شيء رائع ،لقد اكتشفنا كيفية تحديث الحالة المخفية التي
توصلنا إليها لمعرفة كيفية إنشاء المخرجات ،وكيف قمنا بالفعل بتدريب هذا الشيء بشكل جيد وسنحتاج إلى خسارة و
ألن الكسندر ذكر الطريقة التي ندرب بها الشبكات العصبية من خالل هذا التحسين هذا التحسين التكراري
-وكما قد تتنبأ بشكل صحيح ،يمكننا توليد خسارة فردية لكل خطوة من هذه الخطوات الزمنية الفردية وف ًقا لما هو الناتج
في ذلك الوقت سبتمبر
-ويمكننا توليد بعض الضياع من خالل اتخاذ هذه الخطوات الزمنية وشيء ما معًا
ضا بعض -وعندما نجعل تمريرً ا لألمام عبر شبكتنا ،فهذا هو بالضبط ما نفعله بشكل صحيح ،فإننا نولد تنبؤاتنا ونفقد بع ً
الوظائف عبر خطوات زمنية فردية للحصول على الخسارة الكلية
-اآلن دعنا نتصفح ،دعنا نتعرف على مثال لكيفية تنفيذ اللون البرتقالي ،ومن البداية ،أظهرت أنك نو ًعا من مثال رمز
زائف بديهي ،وهنا اآلن سندخل في األمور قليالً مزيد من التفاصيل قليال وبناء arnhemمن الصفر
-أو بعد ذلك سيتم تعريفها على أنها طبقة شبكة عصبية ويمكننا بناءها عن طريق التوريث من طبقة الشبكة العصبية
لتكاليف المركز الذي تم تقديمه في المحاضرة األولى وكما كان من قبل سنبدأ من خالل تهيئة الجليد أو االنتظار
المصفوفات وكذلك التهيئة في القول المخفي إلى الصفر
-المنفصل التالي الذي يمثل ح ًق ا تلك الخطوة المهمة هو تحديد الوظيفة التي يتم استدعاؤها والتي تحدد في الواقع المرور
األمامي من خالل نموذجنا ونموذجنا
-وضمن وظيفة االستدعاء هذه ،تكون العمليات الرئيسية على النحو التالي ،لدينا أوالً تحديث للحالة المخفية وف ًقا لنفس
المعادلة التي رأيناها ساب ًقا تتضمن القول المخفي السابق الذي يتضمن المدخالت Fعلى شيء ما ثم تمريرها وغير خطية
بالفعل
-يمكننا بعد ذلك حساب Fاإلخراج لتحويل الحالة المخفية وأخيراً في كل مرة نعيد كل من المخرجات الحالية والحالة المخفية
-هذه هي الطريقة التي يمكنك بها الترميز وال يتم ذلك وسطرً ا بسطر وتحديد التمرير األمامي ولكن لحسن الحظ ،لخص
تدفق الموتر هذا األمر بشكل مالئم للغاية وقام بتنفيذ هذه األنواع من أو في بيعها لنا في ما يلتفون به البسيط أو الداخلي
والطبقة وستحصل على بعض الممارسة Fالعملية
-حس ًن ا ،لتلخيص المعدل ،لقد رأينا كيف يبدو أننا للوظيفة وحسابها هائلين ،أول خطوة لي من حساب Fواحد للتغذية
التقليدية إلى األمام ،أو أنها شبكات Fالفانيليا العصبية تخدعني وترى كيف ينهار ذلك عندما
-وكما ذكرت ح ًق ا ،يمكننا تطبيق فكرة نمذجة التسلسل هذه ونمذجة ونهايتها للعديد من أنواع المهام Fالمختلفة ،على سبيل
المثال أخذ مدخالت متسلسلة وتعيينها لمخرج واحد
-أخذ إدخال ثابت ال ينتج بمرور الوقت وإنشاء سلسلة من المخرجات على سبيل المثال نص مرتبط بصورة
-أو ترجمة سلسلة من المدخالت إلى سلسلة من المخرجات التي يمكن إجراؤها في معالجة Fاللغة الطبيعية للترجمة اآللية
وأيضً ا في التوليد ،فعلى سبيل المثال في تأليف الدرجات الموسيقية الجديدة بالكامل تستخدم نماذج الشبكة العصبية
المتكررة وهذا ما ستفعله للحصول على
ً
وبعيدا عن هذا الحق ،فأنت تعلم أن جمي ًعا ينتمون إلى مجموعة متنوعة من الخلفيات واالهتمامات FوالمجاالتF -
التخصصية المختلفة ،لذلك أنا متأكد من أنه يمكنك التفكير في مجموعة متنوعة من التطبيقات األخرى حيث قد يكون هذا
النوع من الهندسة المعمارية ً
مفيدا للغاية
-حس ًن ا ،إلنهاء القسم بشكل صحيح ،فإن المثال البسيط أو في نهاياته يحفز نو ًعا من مجموعة من معايير التصميم
الملموسة التي ال أود أن تضعها في اعتبارك عند التفكير في مشاكل نمذجة التسلسل على وجه التحديد أي نموذج عندما
يحتاج التصميم إلى قادرة على التعامل مع متواليات جدا
-لتتبع التبعيات طويلة المدى والبيانات لتكون قادرً ا على تعيين شيء يظهر مبكرً ا ج ًدا في التسلسل إلى شيء مرتبط الح ًقا
والتسلسل
-القدرة على الحفاظ على المعلومات المتعلقة بالطلب وتفسيرها واالحتفاظ بها
-ولذا فإن معظم محاضرة اليوم ستركز على الشبكات العصبية المتكررة باعتبارها بنية شبكة عصبية العمود الفقري
ضا في نوع جديد وناشئ من الهندسة المعماريةلتصميم معايير النمذجة المتسلسلة على المشكالت ، Fولكنها ستدخل أي ً
يسمى المحوالت الح ًقا في المحاضرة أو مع
-قبل أن ندخل في ذلك ،أود أن أقضي بعض الوقت في التفكير في هذه األمور بشأن معايير التصميم التي عدتها ولماذا
هي مهمة ً
جدا في سياق نمذجة التسلسل واستخدام ذلك للمضي قدمًا في بعض التطبيقات الملموسة لـ أوريغون ونماذج
التسلسل بشكل عام
-لنفترض أن لدينا الجملة الصحيحة هذا الصباح ،لقد أخذت قطتي في نزهة على األقدام ومهمتنا هنا هي استخدام بعض
المعلومات السابقة في الجملة للتنبؤ بالكلمة التالية في التسلسل الصحيح هذا الصباح أخذت قطتي للتنبؤ بالعمل التالي مشي
-لقد قدمت الحدس والمخططات وكل شيء عن نماذج الشبكة العصبية المتكررة ولكننا لم نبدأ بالفعل في التفكير في حس ًنا
كيف يمكننا حتى تمثيل اللغة على شبكة عصبية كيف يمكننا ترميز تلك المعلومات بحيث يمكنها فعالً يتم تمريرها
وتشغيلها رياضيًا ،لذلك هذا هو أول اعتبار لنا
-حقا
-نحن نفتح كلمة ونريد استخدام الشبكة العصبية للتنبؤ بكلمة الشبكة
-ما هي االعتبارات هنا بشكل صحيح ،تذكر أن الشبكة العصبية هي مجرد عامل وظيفي ينفذون بعض العمليات
الرياضية الوظيفية عليه وال يمكن أن يأخذوا المدخالت Fفقط كسلسلة أو كلغة كسلسلة من تمر أحرف اللغة و
-بدالً من ذلك ،نحتاج إلى طريقة لتمثيل هذه العناصر عدديًا إلطعامها لشبكتنا العصبية كمتجه أو مصفوفة أو مصفوفة
من األرقام بحيث يمكننا العمل عليها رياضيًا والحصول على متجه أو مصفوفة من األرقام من هذا سيعمل من أجلنا
-فكيف يمكننا في الواقع تحويلها في لغة الشفرة إلى تمثيل طيفي ،الحل هو هذا المفهوم لما نسميه ودمجنا والفكرة هي
أننا سنقوم بتحويل مجموعة من المؤشرات التي يتم تحديدها بشكل فعال فقط ككائنات إلى بعض المتجهات
-لذا دعونا نفكر في كيفية عمل عملية التضمين هذه مع بيانات اللغة على سبيل المثال لهذا التسلسل الذي كنا نفكر فيه
بشكل صحيح
-نريد أن نكون قادرين على تعيين أي كلمة يمكن أن تظهر في هيكل لغتنا أو مجموعة في عامل بحجم ثابت
-ولذا فإن أول من يفعل هذا هو التفكير في كسر المفردات بشكل عام
-من هذه المفردات يمكننا بعد ذلك الفهرسة عن طريق تعيين الكلمات الفردية لمؤشرات رقمية فريدة ومن ثم يمكن تعيين
هذه المؤشرات وتضمينها وهو مجرد مخرج بطول ثابت
-وبعد ذلك يمكننا تحديد الكلمة التي تتوافق بشكل أفضل من خالل جعل هذا عامالً رياضيًا
-هذا مجرد ثنائي ،لذا فهو مجرد أصفار وآحاد وفي الفهرس الذي يتوافق مع تلك الكلمة ،سنشير إلى هوية الكلمة التي
تم الحصول عليها مع واحد صحيح
-وهكذا في هذا المثال أو الكلمة هي قطة وسنقوم بفهرستها في الفهرس الثاني وما يشار إليه هو تضمين واحد ساخن وهو
شائع ً
جد ا في هذا االختيار للتضمين والذي ستواجهه عبر العديد مجاالت مختلفة
-خيار آخر لإلنشاء والتضمين هو استخدام نوع من نماذج التعلم اآللي ،يمكن أن تكون شبكة عصبية لتعلمها وتضمينها ،
وبالتالي فإن الفكرة هنا هي من أخذ مدخالت Fمن الكلمات التي سيتم فهرستها عدديًا يمكننا تعلمها وتضمين هذه الكلمات في
مساحة ذات أبعاد أقل
-الفضاء والدافع هنا هو أنه من خالل تقديم نوع من عمليات التعلم اآللي ،يمكننا تعيين معنى الكلمات إلى والترميز ولكن
كمعلومات أكثر تمثيال أكثر ،مثل أن الكلمات Fالمتشابهة من الناحية اللغوية في المعنى ستكون متشابهة في المحامل
-وهذا سيحصل أي ً
ضا على طول ثابت ومتجه الترميز
-وفكرة التضمين المكتسب Fهي مفهوم فائق القوة منتشر ج ًد ا في التعلم العميق الحديث اليوم ،كما أنه يحفز فئة كاملة من
المشكالت Fتسمى التعلم التمثيلي والتي تركز على كيفية أخذ بعض المدخالت والعمل باستخدام العصبية شبكات Fلتعلم ذات
مغزى
-حس ًن ا ،بالعودة إلى معايير التصميم الخاصة بنا ،سنكون قادرين أوالً على محاولة التعامل مع أطوال تسلسل متغير
يمكننا التفكير مرة أخرى في هذه المشكلة لمحاولة التنبؤ بالكلمة التالية التي يمكن أن يكون لدينا تسلسل قصير يمكن أن
يكون لدينا تسلسل أطول أو تسلسل أطول صحيح ولكن بيت القصيد هو ما نحتاجه
-لتكون قادرً ا على التعامل مع هذه المدخالت المتغيرة الطول وشبكات التغذية األمامية ،فهي ببساطة غير قادرة على
القيام بذلك ألن لديها مدخالت Fذات أبعاد ثابتة
-ولكن ألنه مع أو في نهايات حيث كان التمرير عبر الزمن قادرً ا على التعامل مع هذه المتغيرات المتسلسلة
-أو المعايير التالية أو التالية هي أننا نحتاج إلى أن نكون قادرين على التقاط ونمذجة التبعيات طويلة المدى والبيانات
حتى تتمكن من تخيل مثال مثل هذا حيث تكون المعلومات من بداية الجملة ضرورية لعمل تنبؤ دقيق الح ًقا في الجملة
-ولذا نحتاج إلى أن نكون قادرين على التقاط هذه المعلومات طويلة المدى في نموذجنا
-وأخيرً ا نحتاج إلى أن نكون قادرين على االحتفاظ ببعض اإلحساس بالترتيب الصحيح الذي يمكن أن يؤدي إلى اختالفات
في االتصال العام أو معنى الجملة ،لذلك في هذا المثال ،تحتوي هاتان الجملتان على نفس الكلمات بالضبط نفس عدد
المرات مع المعنى الداللي كامل
-ونأمل أن يوضح هذا المثال أنا ملموسًا ج ًدا ومثااًل شائ ًع ا للبيانات المتسلسلة باللغة الصحيحة ويحفز كيف ألعب هذه
االعتبارات التصميمية المختلفة في هذه المشكلة العامة لنمذجة التسلسل
-خطوتنا التالية أثناء سيرنا في هذه المحاضرة حول نمذجة التسلسل هي في الواقع نمر بإيجاز شديد على الخوارزمية
المستخدمة في الواقع لتدريب نماذج الشبكة العصبية المتكررة وتلك الخوارزمية تسمى االنتشار الخلفي عبر الزمن وهي
مرتبطة ج ًدا بكونها خوارزمية االنتشار العكسي في أغسطس
-أدخل المقدمة في المحاضرة األولى ،لذا إذا كنت تتذكر الطريقة التي دربنا بها على نماذج التغذية األمامية ،فهي
االنتقال من اإلدخال وإجراء تمريرة لألمام عبر الشبكة من اإلدخال واإلخراج ثم التكاثر الخلفي أو التدرجات السوداء
ألسفل عبر الشبكة
-ومن ثم نقل وضبط معامالت Fهذه األوزان لمحاولة تقليل الخسارة خالل فترة التدريب
-وكما رأينا ساب ًقا ،فهي هائلة ،ولديها سيناريو مختلف قليالً هنا ألن المرور إلى األمام عبر الشبكة يتكون من المضي
قد ًم ا عبر الزمن لحساب قيم الخسارة الفردية هذه في األنابيب الفردية ثم جمعها Fمعًا
-لالنتشار الخلفي بدالً من إعادة نشر األخطاء إلى شبكة تغذية واحدة لألمام اآلن ما يتعين علينا فعله هو إعادة نشر الخطأ
بشكل فردي عبر كل خطوة زمنية ثم عبر جميع الخطوات الزمنية على طول الطريق من حيث نحن حاليًا في التسلسل
إلى البداية من التسلسل
-وهذا هو سبب تسمية هذه الخوارزمية باالنتشار العكسي عبر الزمن ألنه كما ترون األخطاء تتدفق إلى الوراء في الوقت
المناسب Fإلى بداية تسلسل البيانات لدينا
-وبالتالي ،فإن إلقاء نظرة فاحصة على كيفية تدفق هذه التدرجات اللونية عبر هذا وسلسلة حيث يمكنك أن ترى أنه بين
كل خطوة زمنية نحتاج إلى تنفيذ عملية ضرب المصفوفة الفردية هذه بشكل صحيح مما يعني أن حساب التدرج اللوني
الذي يأخذ الخسارة مع االحترام إلى
-اثنان أنا آمن داخلي وأوزان تلك الحالة الداخلية تتطلب العديد من عمليات ضرب المصفوفة التي تتضمن مصفوفة
الوزن هذه باإلضافة إلى تكرار الحساب غير الكفء الكبير
-حس ًن ا ،إذا كان لدينا العديد من هذه القيم أو قيم التدرج التي تكون أكبر بكثير من قيمة واحدة ،فقد نواجه مشكلة حيث
تنفجر التدرجات بشكل فعال أثناء التدريب أو التدرجات
-والفكرة الكامنة وراء ذلك هي أن اللون األخضر أصبح كبيرً ا للغاية بسبب عملية الضرب المتكررة هذه وال يمكننا فعالً
القيام بالتحسين ،لذا فإن الحل البسيط لذلك يسمى تجهيز المرق فقط بتقليص قيم التدرج لتقليص التدرجات األكبر إلى قيمة
أصغر
-يمكننا أيضً ا أن نواجه مشكلة معاكسة Fحيث تكون القيم اآلن أو عندما تكون صغيرة ج ًدا وهذا يؤدي إلى ما يسمى بمشكلة
التدرج المتالشي وهي أيضً ا مشكلة كبيرة لتدريب النماذج العصبية المتكررة
-وسوف نتطرق بإيجاز إلى ثالث طرق يمكننا من خاللها التخفيف من مشكلة المكونات المتالشية في النماذج الحالية
المتكررة
-أوالً ،اختيار اختيارنا لوظيفة التنشيط في البداية في األوزان في نموذجنا بذكاء وكذلك تصميم بنية شبكتنا لمحاولة
التخفيف من هذه المشكلة Fتمامًا
-السبب الذي يجعلنا قبل أن نفعل ذلك نتراجع إلى الوراء بشكل صحيح ،والسبب في أن اختفاء المكونات يمكن أن يكون
مشكلة كبيرة هو أنها يمكن أن تخرب هذا الهدف تما ًم ا وهو محاولة نمذجة التبعيات طويلة المدى ألننا نضاعف العديد من
األرقام الصغيرة معً ا .هذا التأثير
-انحياز دودلي للنموذج الذي يجب القيام به هو محاولة التركيز بشكل تفضيلي على التبعيات قصيرة المدى وتجاهل
التبعيات طويلة المدى التي قد تكون موجودة
-وعلى الرغم من أن هذا قد يكون جي ًد ا بالنسبة للجمل البسيطة مثل السحاب تكون فارغة ،إال أن التقسيمات في الجمل
الطويلة أو التسلسالت Fاألطول كانت
-اعرف أين المعلومات السابقة في التتمة مهمة ج ًدا لعمل التنبؤ الح ًقا
-استراتيجيتنا األولى هي خدعة بسيطة للغاية يمكننا استخدامها عند تصميم شبكاتنا يمكننا اختيار وظيفة التنشيط لدينا
-منع التدرج اللوني من االنكماش إلى حد كبير وتعتبر وظيفة تنشيط المجال خيارً ا جي ًدا للقيام بذلك ألنه في الحاالت التي
يكون فيها محور اإلدخال أو أكبر من الصفر يعزز تلقائيًا قيمة وظيفة التنشيط إلى واحد بينما وظائف التنشيط األخرى ال
تفعل ذلك إفعل ذلك
-حقا
-ما يمكننا القيام به هو تهيئة األوزان التي قمنا بتعيينها لمصفوفة الهوية مما يمنعها من االنكماش إلى الصفر إلى السرعة
أثناء االنتشار العكسي
ً
تعقيدا يمكنها تتبع التبعيات طويلة المدى في البيانات بشكل -والحل النهائي واألكثر قوة هو استخدام وحدة متكررة أكثر
فعال ،والفكرة هنا هي أننا سنقدم هذه البنية التحتية الحسابية التي تسمى البوابة التي تعمل بشكل انتقائي أو كانوا
-أشتري لك معرفة العمليات القياسية التي نراها في الشبكات العصبية على سبيل المثال وظائف التنشيط السيني ضرب
المصفوفة الحكيمة والفكرة وراء هذه البوابات هي أنها يمكن أن تتحكم بشكل فعال في المعلومات البيضاء التي تمر عبر
التردد المتكرر ،لذا سنلمس اليوم كثيرً ا مختصر
-في وقت مبكر على نوع واحد من البوابات يسمى ls himعلى طول شبكة الذاكرة قصيرة المدى وهم جيدون إلى حد
ما في استخدام آلية التزحلق للتحكم بشكل انتقائي في المعلومات عبر عدة خطوات
ً
محدودا ولكن -ولذا لن أخوض في التفاصيل بشكل صحيح ألن لدينا أشياء أكثر إثارة لالهتمام أتطرق إليها في وقتنا ليس
ً
تعقيدا الفكرة الرئيسية وراء طرده ،لديهم نفس السلسلة مثل الهيكل مثل قياسي أو في ولكن اآلن الحساب Fالداخلي أكثر
قليالً أو لدينا هذه التواريخ المختلفة
-التي تتفاعل بشكل فعال مع بعضها البعض لمحاولة التحكم في تدفق المعلومات
-وأثناء هذا الرسم البياني ،مررت للتو عبر هذا الهيكل المسور ،يمكننا قضاء بعض الوقت في الحديث عن الرياضيات
حول ما أريدك ح ًقا أن تأخذه من هذه المحاضرة هو المفاهيم األساسية Fوراء ما يقوم به اعتقاله داخليًا
-لذلك لتحطيم هذا األمر كمعيار أو في والحفاظ فقط على فكرة الحالة الذاتية هذه ،لماذا لديه هذه البوابات اإلضافية التي
تتحكم في تدفق المعلومات التي تعمل بشكل فعال إلزالة المعلومات غير ذات الصلة من الماضي مع االحتفاظ بما هو ذي
صلة .حفظ ما هو مهم
-عند اإلدخال الحالي باستخدام تلك المعلومات المهمة Fلتحديث الحالة الداخلية ،وبعد ذلك سأضع مرشحً ا إلصدار من ذلك
الوضع على أنه اإلخراج المتوقع
-والمفتاح هو ذلك ألننا ندمج هذا الهيكل المسور العظيم
-في الممارسة Fالعملية أو االنتشار العكسي عبر خوارزمية الوقت يصبح في الواقع أكثر استقرارً ا ويمكننا التخفيف من
مشكلة التدرج المتالشي من خالل تقليل عدد المصفوفات Fالمتكررة التي تسمح بالتدفق السلس للتدرجات عبر نموذجنا
-حسنا
-لقد مررنا اآلن بأساسيات Fأهدافنا من حيث الهندسة المعمارية والتدريب ،وأحب بعد ذلك التفكير في بعض األمثلة
الملموسة لكيفية استخدام نماذج يحتذى بها بشكل متكرر
-األول هو لنتخيل أننا نحاول استخدام نموذج متكرر للتنبؤ بالمالحظة الموسيقية التالية في تسلسل واستخدام هذا إلنشاء
تسلسالت موسيقية جديدة تما ًم ا يمكننا القيام به هل يمكننا التعامل مع هذا على أنه المدخل التالي التالي توقع آسف و في
المرة القادمة مشكلة التنبؤ بالخطوة
-حيث تقوم بإدخال سلسلة من المالحظات والمخرجات في كل مرة يكون النسغ هو األكثر احتمالية معرفة بعد ذلك في
التسلسل وهكذا على سبيل المثال
-اتضح أن هذا الملحن الكالسيكي المشهور للغاية المسمى فرانز شوبرت كان قد أطلق عليه اسم سيمفونية مشهورة ج ًدا
غير مكتملة وتم تركها كما يوحي االسم جزئيًا على البندقية ولم تتح له فرصة إنهاء السيمفونية فعليًا قبل وفاته
-يوجد هذا في حركات المحرقة لتلك السمفونية لمحاولة إنشاء موسيقى جديدة بالفعل تشبه موسيقى شوبرت إلنهاء
السيمفونية بشكل فعال والتأليف لحركات جديدة حتى نتمكن بالفعل من االستماع إلى ما تبدو عليه هذه النتائج
-
-
-
-آمل أن تكون قادرً ا على سماع ذلك وتقدير النقطة التي مفادها أنه ربما يكون هناك بعض هواة الموسيقى الكالسيكية
الذين يمكنهم التعرف عليها على أنها متشابهة من الناحية األسلوب مع موسيقى شوبرت وأنت تمارس هذه المهمة Fبالضبط
في معمل اليوم حيث سوف تقوم بتدريب نموذج على جو
ضا إجراء تصنيف سابق حيث نأخذ -كمثال رائع آخر وهو نوع من الدوافع المطلوبة في بداية المحاضرة ،يمكننا أي ً
تسلسل إدخال ونحاول التنبؤ بمخرج واحد مرتبط بهذا التسلسل على سبيل المثال أخذ سلسلة من الكلمات و تعيين في
الحركة
-أو هناك شعور مرتبط بهذا التسلسل وأحد حاالت االستخدام لهذا النوع من المهام في تصنيف المشاعر بالتغريدات ،لذا
قم بتدريب نموذج على مجموعة من التغريدات من Twitterواستخدامه للتنبؤ بمشاعر مرتبطة بتغريدات معينة
-على سبيل المثال يمكننا أن نأخذه أو يمكننا تدريب نموذج مثل هذا بمجموعة من التغريدات ،ونأمل أن نتمكن من
التدريب و /أو ننتهي للتنبؤ بأن هذه التغريدة األولى حول الدورة التدريبية لدينا لها مشاعر إيجابية ولكن هذا آخر للتغريد
عن فصل الشتاء الطقس هو في الواقع مجرد شعور سلبي
-حس ًنا ،في هذه المرحلة ،أنت تعلم أننا نركز حصريًا على النماذج المتكررة ،ومن الالفت للنظر ح ًقا أنه مع هذا النوع
من الهندسة المعمارية يمكننا القيام بأشياء تبدو معقدة للغاية مثل إنتاج موسيقى كالسيكية جديدة تمامًا ،لكن دعنا نواجه
انتكاسة صحيحة مع أي تقنية هم إعادة القوة لي وهم ذاهبون
-لي قيود
-ما هي المشكالت المحتملة الستخدام النماذج المتكررة ألداء مشاكل نمذجة التسلسل
-يتمثل القيد األساسي األول في أن هياكل الشبكات هذه تحتوي بشكل أساسي على ما يحب أن يفكر فيه األسبوع على أنه
صا طوياًل ج ًدا من النص العديد من الكلمات
عنق زجاجة للتشفير نحتاج إلى أخذ الكثير من المحتوى الذي قد يكون ن ً
المختلفة ومكثف في تمثيل يمكن أن يكون يمكن توقعها على والمعلومات التي يمكن أن تكون
-أحد القيود الكبيرة األخرى هو أن الخاليا العصبية المتكررة والنماذج المتكررة ليست فعالة ،فهي تتطلب معالجة
المعلومات بشكل تسلسلي يستغرق رشفات بشكل فردي
-وهذه الطبيعة المتسلسلة تجعلها غير فعالة للغاية على أجهزة GPالحديثة التي نستخدمها لتدريب هذه األنواع من
النماذج
-وأخيرً ا وربما األهم من ذلك ،بينما كنا نؤكد على هذه النقطة حول الذاكرة طويلة المدى ،فإن الحقيقة هي أن النماذج
المتكررة ال تمتلك بالفعل سعة ذاكرة الخلية لتبدأ بينما يمكنها التعامل مع تسلسالت الطول بترتيب العشرات أو حتى
المئات مع عشرات أليس ال يرون ح ًقا
-يتسع بشكل جيد للتسلسالت التي يبلغ طولها آالف أو عشرات اآلالف من المرات ،وهذا هو كيف يمكننا أن نفعل ما هو
أفضل وكيف يمكننا التغلب على هذا
-لفهم كيفية القيام بذلك بشكل صحيح ،دعنا نعود إلى ما هو paschالعام لدينا مع نمذجة التسلسل ،حيث تم إعطاء
تسلسل من المدخالت كان يحاول حساب نوع من الميزات المرتبطة بهذه المدخالت واستخدام ذلك إلنشاء بعض اإلنتاج
ومع كانت الحلي كما رأينا تستخدم هذا
-ولكن كما ذكرت ،فإن هذه الزخارف لها هذه االختناقات الثالثة الرئيسية
-ما هو عكس هذه القيود الثالثة إذا كانت لدينا أي قدرة نرغب في ما يمكن أن نتخيله
-القدرات التي نرغب ح ًق ا في تحقيقها باستخدام النماذج المتسلسلة هي الحصول على دفق مستمر من المعلومات التي
تتغلب على عنق الزجاجة في التشفير الذي نرغب في أن يكون نموذجنا سري ًعا ح ًقا ليكون ثورً ا مشلواًل بدالً من أن يكون
بطيًئ ا ويعتمد على كل من الخطوات الزمنية الفردية وأخيرً ا نريد
-القيد الرئيسي أو النهايات عندما يتعلق األمر بهذه القدرات هو أن عملية خطوات الصنوبر الفردية هذه بشكل فردي
بسبب عالقة التكرار
وماذا لو تمكنا من القضاء على عالقة التكرار كليًا والتخلص منها تمامًا
-إحدى الطرق التي يمكننا بها القيام بذلك هي ببساطة عن طريق أخذ أو تسلسل وسحق كل شيء م ًعا وسلسلة تلك
الخطوات الزمنية الفردية بحيث يكون لدينا متجه واحد من المدخالت Fمع البيانات من جميع النقاط الزمنية ،يمكننا
مالءمتها Fفي نموذج ،وحساب بعض متجه الميزات ثم إنشائها واإلخراج الذي ربما نأمل أن يصنعه
-حس الحق
-إذا كان لدينا أول نهج للقيام بذلك ،فربما نأخذ هذا اإلدخال المتسلسل المسحوق بتمريره إلى شبكة متصلة بالكامل
-ونع ًم ا تهانينا ،لقد ألغينا الحاجة إلى التكرار ولكن ما هي المشكالت Fهنا بشكل صحيح
-هذا ليس مقيا ًسا تمامًا ،ولكن صحيح أن الشبكة الكثيفة متصلة بكثافة ج ًد ا ،حيث تتمتع بالكثير من االتصاالت والهدف
الكامل من القيام بذلك لمحاولة التوسع إلى تسلسالت طويلة ج ًدا ،عالوة على ذلك ،فقد قضينا تمامًا على أي فكرة عن
النظام .فكرة التسلسل وبسبب هاتين المسألتين
-ذاكرتنا الطويلة التي نريدها على المدى الطويل أصبحت أيضً ا مستحيلة ،وبالتالي فإن هذا النهج لن ينجح بشكل مميت ،
ليس لدينا فكرة عن النقاط المهمة في تسلسلنا
-وهذه هي ح ًق ا الفكرة األساسية وراء المفهوم التالي الذي سنقوم بتقديمه في الوقت المتبقي ،وهذا مفهوم االهتمام
الصحيح الذي يستحق بديهيًا أن نفكر في القدرة على تحديد محاولة ألجزاء من المدخالت التي ستكون مهمة
-وفكرة االنتباه هذه هي آلية قوية للغاية وسريعة الظهور للشبكات العصبية الحديثة وهي اآللية التأسيسية األساسية لهذه
جد ا التي تسمى المحوالت التي ربما تكون قد سمعت عن المحوالت كانت شائعة اآلن البنية القوية ً
-وسائل اإلعالم اإلخبارية أين لديك والفكرة عندما تريد محاولة إلقاء نظرة على الرياضيات وتشغيل المحوالت قد تبدو
شاقة Fللغاية ،فقد كانت بالتأكيد شاقة بالنسبة لي
-ما هي آلية االنتباه هذه في جوهرها والتي تعتبر الفكرة األساسية في المحوالت هي في الواقع فكرة أنيقة للغاية وبديهية
سنقوم بتقسيمها خطوة بخطوة حتى تتمكن من معرفة كيف يتم حسابها وما يجعلها قوية ج ًدا
-للقيام بذلك على وجه التحديد سوف نتحدث عن فكرة االهتمام الذاتي هذه وما يعنيه ذلك هو القدرة على أخذ مدخالتF
واالنتباه إلى أهم أجزاء تلك المدخالت
-أعتقد أنه من األسهل بناء هذا الحدس من خالل التفكير في صورة ،لذلك دعونا نلقي نظرة على هذه الصورة لبطلنا
الرجل الحديدي
-كيف يمكننا معرفة ما هو مهم ،ويمكنني أن أجعل طريقة المسح الضوئي عبر هذه الصورة بكسل بكسل من خالل كوننا
بشرً ا ال نفعل ذلك ،فإن أدمغتنا غير قادرة على تحديد سبب األهمية في هذه الصورة على الفور بمجرد النظر في ذلك
يخرج لنا هذا الرجل الحديدي
-وإذا فكرت في األمر بشكل صحيح ،فإن هذا يرجع إلى القدرة على تحديد األجزاء المهمة Fللحضور والقدرة على
استخراج الميزات من تلك المناطق التي تحظى باهتمام كبير
-وهذا الجزء األول من هذه المشكلة مشابه Fج ًد ا من الناحية المفاهيمية للبحث وبناء وفهم آلية االنتباه هذه ،سنبدأ بحثهم
األول
-كيف تبحث عن عمل ،لذا ربما تجلس هناك تستمع إلى محاضرتي التي تفكر فيها.
-شيء واحد يمكنك القيام به هو الذهاب إلى صديقنا عبر اإلنترنت إلجراء بحث والحصول على جميع مقاطع الفيديو على
اإلنترنت في متناولك وتريد العثور على شيء يتوافق مع هدفك المنشود
-لذا دعنا نفكر في كتابتك إلى youtubeوهي قاعدة بيانات عمالقة للعديد من مقاطع الفيديو وعبر قاعدة بيانات مجموعة
متنوعة من الموضوعات المختلفة
-كيف يمكننا أن نجد وعشرة مقاطع فيديو ذات صلة بما نبحث عنه بشكل صحيح
-وما يمكن القيام به بشكل فعال بعد ذلك هو أنه بالنسبة لكل مقطع فيديو في قاعدة البيانات هذه ،سنقوم باستخراج بعض
ً
مرتبط ا بهذا الفيديو ويمكن أن يحدث البحث هو التداخل بين المعلومات األساسية التي نسميها المفتاح ،وقد يكون العنوان
استفسارك والمفاتيح في ذلك
-سيتم حساب Fقاعدة البيانات ،وأثناء قيامنا بذلك في كل فحص نجريه ،سوف نسأل عن مدى تشابه عنوان الفيديو مع
استعالمنا عن التعلم العميق أو المثال األول الصحيح هذا الفيديو لسلحفاة ،إنه ليس مشابهًا
-المحاضرة الثانية من دورتنا مماثلة ومثالنا الثالث كوبي براينت ليس مشابهًا
-وهكذا فإن فكرة الحوسبة هذه ح ًق ا ستظهر كما لو كان قناع االنتباه يقيس مدى تشابهه بين هذه المفاتيح وعناوين الفيديو
هذه مع استعالمنا
-خطوتنا التالية واألخيرة هي استخراج المعلومات التي نهتم بها بنا ًء على هذا الحساب Fللفيديو نفسه وسنطلق على هذا
القيمة
-وألن بحثنا تم تنفيذه مع فكرة جيدة عن التوتر ،فقد حددنا بامتنان أفضل دورة تعليمية عميقة يمكنك مشاهدتها وأنا متأكد
من أنك تجلس بعي ًدا ونأمل أن تتصل بهذا التقييم وتتفق معه
-كيف سيعمل االنتباه الذاتي على التسلسل أوالً ،دعنا نتذكر ما نحاول القيام به هو محاولة تحديد محاولة ألهم الميزات
في هذا اإلدخال دون الحاجة إلى معالجة المعلومات Fخطوة بخطوة خطوة بخطوة سنقوم بإزالتها تكرار وماذا
-وهذا يعني أننا بحاجة إلى طريقة للحفاظ على معلومات Fالنظام دون تكرار دون معالجة Fالكلمات في الجملة بشكل فردي
-من خالل استخدام وتضمين أنه سوف يدمج فكرة عن الموقف وسأقوم بالتطرق إلى هذا باختصار شديد من أجل الوقت
مع الفكرة األساسية هي أنه يمكنك محض كلمة والمراهنة على أخذ بعض المقاييس يلتقط معلومات الموقع ضمن هذا
التسلسل ،وتجمعها م ًعا وتحصل على جنين
-يمكنك التحدث عن فم هذا أكثر إذا أردت ولكن هذا هو الحدس األساسي الذي أريدك أن تأتي به
-أو الخطوة التالية اآلن بعد أن أصبح لدينا فكرة عن الموقف من مدخالتنا هي في الواقع معرفة السبب في المدخالت التي
يجب الحضور إليها والتي تتعلق بعملية البحث في تصفح اإلنترنت التي تحفزني باستخدام مثال youtubeالذي سنذهب
إليه في محاولة الستخراج االستعالم المفتاح وقيمة الميزات واالستدعاء
-نحاول أن نتعلم آلية لالهتمام الذاتي مما يعني أننا سنعمل على المدخالت نفسها وفقط على اإلنترنت نفسه
-ما سنفعله هو أننا سننشئ ثالثة تحويالت جديدة وفريدة من نوعها لهذا التضمين وستتوافق هذه التحوالت مع استعالمنا
وهي مفتاح وقيمة
ً
واحدا ،سأضع -ما نفعله هو أننا نأخذ طبقة متعارضة وبيتي ونأخذ طبقة خطية ونقوم بضرب المصفوفة الذي يولد
استعالمًا
-بعد ذلك يمكننا عمل نسخة من نفس الموضع على الرهان اآلن يمكننا أن نأخذ طبقة خطية منفصلة منفصلة ونقوم
بضرب المصفوفة ونحصل على تحويل آخر للمخرجات
-هذا هو مفتاحنا ونفعل هذا أيضً ا للقيمة ،وبالتالي لدينا هذه التحوالت الثالثة المميزة لها نفس التضمين الموضعي أو
االستعالم األساسي وهي قيمة أو الخطوة التالية الصحيحة هي أخذ هذه الميزات الثالثة بشكل صحيح
-تحديد مقدار االهتمام الذي يجب االنتباه إليه وما تم التفكير فيه بشكل فعال على أنه انتظار االنتباه وإذا كنت تتذكر من
مثال youtubeالخاص بنا ،فقد ركزنا على التشابه بين أو االستعالم وكان المفتاح وفي الشبكات العصبية سوف نفعل
بالضبط نفس الدماغ لذلك إذا كنت تتذكر هذه
-وإنشاء مفتاح أو ميزات هي مجرد مصفوفات Fأو متجهات أمريكية ،كيف يمكننا حساب التشابه في تداخلهما ،لذا
لنفترض أن لدينا متجهين
Q-وكيت
-وبالنسبة للمتجهات Fكما قد تتذكر من الجبر الخطي أو حساب التفاضل والتكامل ،يمكننا حساب Fالتشابه بين هذه العوامل
باستخدام منتج دمية ثم تقليص حجم المنتج النقطي ،وهذا سيحدد أو يشابه أو يستفسر عن متجهات مصفوفة رئيسية هذا
المقياس هو المعروف أيضا باسم الساحل أجيب
-أنا الري ويمكننا تطبيق نفس العملية بالضبط على المصفوفات حيث أصبح لدينا اآلن مصفوفة تشابه ،حيث يلتقط
المصيد التشابه بين مصفوفة االستعالم وأصبح مصفوفة
-حسنا
-لنخيل الشكل الذي يمكن أن تبدو عليه نتيجة هذه العملية فعليًا ونعني تذكر أننا نحاول حساب االهتمام الذاتي الذي نحسبه
في هذا المنتج النقطي الستعالمنا ،وتعد المصفوفات الرئيسية التي نطبقها هي القياس وخطوتنا األخيرة هي تطبيق دالة
يسمى soft maxالذي يقوم فقط بسحق كل قيمة بحيث إذا
-خطأ بين صفر وواحد وما نتج عن ذلك هو مصفوفة كانت اإلدخاالت اآلن تعكس العالقة بين مكونات مدخالتنا لبعضنا
البعض وهكذا في أبسط مثال قام برمي كرة التنس ليخدم حيث يمكنك أن تراه بهذه الحرارة تصور الخريطة هو أن
الكلمات التي نحن
-في وقت الحق لكل منهما اآلخر ،يكون التنس بالكرة السابقة أعلى في انتظار مزيد من االهتمام ،وبالتالي فإن هذه
المصفوفة هي ما نسميه انتظار المعاش التقاعدي
-خطوتنا األخيرة هي استخدام مصفوفة االنتظار هذه ،حيث يتم استخراج الميزات فعليًا باهتمام كبير ونقوم بذلك بكل
بساطة ،إنه أمر رائع للغاية من خالل أخذ هذا االهتمام في انتظار ضربه في أو مصفوفة القيمة ثم الحصول على نسخة
محولة لما كان لدينا في مصفوفة القيمة وهذا غالبا
-حس ًنا ،هذا صحيح ،أعلم أنه يمكن أن يكون سريعً ا ،لذا دعنا نلخصها كنوع من آخر شيء كانوا سيتطرقون إليه أو
تحديد الهدف وهم يميلون إلى أهم الميزات والمدخالت
-كيف يبدو هذا في الهندسة المعمارية أو أن الخطوة األولى كانت اتخاذ هذا الموقف أو ترميز النسخة ثالث مرات بشكل
صحيح
-تنطبق على التوسع وتطبيق soft maxللحصول على مصفوفة انتظار االنتباه هذه ،وكانت خطوتنا األخيرة هي لفت
االنتباه إلى مصفوفة االنتظار وتطبيقها على مصفوفة القيم الخاصة بنا والحصول على هذا االستخراج للمستقبل في
مدخالتنا التي تحظى باهتمام كبير
-وبالتالي فإن هذه العمليات األساسية هي التي تشكل هذه البنية الموضحة على اليمين والتي تسمى رأس االنتباه الذاتي
جدا ً
جدا ويمكننا فقط توصيل هذا بشبكة أكبر وهي آلية قوية ً
-حس ًن ا ،هذا ما أعلم أن األمر يتطلب الكثير من العمل بسرعة كبيرة ولكن آمل أن تقدر حدس آلية االنتباه هذه وكيف
تعمل
-مالحظة أخيرة سأقوم بها هي أنه يمكننا القيام بذلك عدة مرات بشكل صحيح ،يمكننا أن نحظى برؤوس انتباه فردية
متعددة ،لذا في هذا المثال كنا ننتبه إلى الرجل الحديدي الذي ضرب نفسه
-ولكن يمكننا أن نحظى برؤوس انتباه مستقلة ،ثم اآلن ننتبه إلى أشياء مختلفة في مدخالتنا ،على سبيل المثال ،بناء
الخلفية الخلفية أو هذه المنطقة الصغيرة الموضحة في أقصى اليمين والتي هي في الواقع مركبة فضائية غريبة تخرج من
الخلف.
-وهو تطبيق كما ذكرت أن بداية القسم كانت األكثر شهرة وأبرزها في هذه البنى التي تسمى المحوالت وهي معمارياتF
قوية ج ًدا ً
جد ا وهي تحتوي على مجموعة متنوعة من التطبيقات األكثر شهرة ربما كما هو الحال في معالجة اللغة لذلك
أنت ربما تكون قد شاهدت هذه األمثلة حيث العالجات حقاً
-محوالت لغة كبيرة يمكنها القيام بأشياء مثل إنشاء صور بنا ًء على جمل على سبيل المثال كرسي بذراعين على شكل
أفوكادو
-والعديد من المهام األخرى التي تتراوح من الترجمة اآللية إلى إكمال الحوار وما إلى ذلك
-وما أظهرته هذه غالبًا هو أن هذا يحقق ح ًق ا طفرة في جودة ودقة إنتاج بنية البروتين والمثال األخير هو أن هذه اآللية ال
ضا توسيعها لتشمل رؤية الكمبيوتر باستخدام العمارة المعروفة تنطبق فقط على بيانات التسلسل التقليدية التي يمكننا أي ً
بالرؤية
-فكرة المحوالت متشابهة ج ًد ا ،نحتاج فقط إلى طريقة لتشفير المعلومات الموضعية ومن ثم يمكننا تطبيق آلية االنتباه
الستخراج الميزات من هذه الصور بطريقة قوية ج ًدا وعالية اإلنتاجية
-حس ًن ا ،آمل أن تكون قد فهمت خالل هذه المحاضرة حول مهام نمذجة التسلسل ولماذا تكون هائلة ألن الهندسة
المعمارية الفنية التمهيدية قوية ً
جدا لمعالجة البيانات المتسلسلة
-في هذا السياق ،ناقشنا كيف يمكننا نمذجة التسلسالت باستخدام عالقة التكرار ،كيف يمكننا التدرب أو الهائلة باستخدام
االنتشار العكسي عبر الزمن ،كيف يمكننا تطبيق أو تحسين أنواع مختلفة من المهام ،وأخيرً ا في هذا المكون الجديد
لمحاضرة نمذجة التسلسل التي ناقشناها كيف يمكننا تجاوز التكرار والتسجيل
-أعصابهم شبكات لبناء آليات االنتباه الذاتي التي يمكن أن تشكل بشكل فعال التسلسالت دون الحاجة إلى التكرار
-حس ًنا ،حتى تختتم محاضرات اليوم ومرة أخرى ،فأنا أعلم أين نفد وقت متأخر قليالً عن الجريمة وأعتذر عن طريق
األمل في أنك استمتعت بكلتا محاضرات اليوم
-في الفترة المتبقية التي خصصناها ،ستركز على جلسات معمل البرمجيات التي تتضمن بضع مالحظات مهمة عن حياة
البرامج التي سنديرها في هذه المختبرات بتنسيق مختلط
-يمكنك العثور على معلومات حول تنزيل السجالت على موقع الدورة التدريبية على حد سواء مقدمة إلى موقع دورة
التعلم العميق وكذلك موقع ويب دورة Canvas
-أوه سوف تحتاج إلى تشغيل البرامج الحية هو كمبيوتر إنترنت وحساب google
-وستتجول في المعامل بشكل أساسي وتبدأ في تنفيذ الكتل الباردة وتعبئتها للقيام بأشياء ستسمح لك بإكمال المعامل وتنفيذ
الكود وسنعقد ساعات Fعمل على حد سواء تقريبًا في مدينة التجمع
-الرابط الخاص بذلك موجود على صفحة قماش Fالدورة التدريبية وكذلك شخصيًا في غرفة الشاي الخاصة بي من عشرة
إلى خمسين لمن هم في الحرم الجامعي ويرغبون في الحضور لساعات عمل شخصية ألكسندر وأنا سأكون هناك حس ًنا ،
سأختتم به وأشكرك مرة أخرى على اهتمامك
-شكرا لك