99

‫که ‪⟨ g ⟩ C ∈ R I ×I × …× I‬به تنسور هسته تجزیه شده از الیه ‪ g‬ام مدل معلم اشاره دارد‪ .
‬همچ نین ) ‪ V (i‬ب ه م اتریس عام ل در‬ ‫‪1‬‬ ‫‪2‬‬ ‫‪N‬‬
‫مرتبه‪ i‬ام مدل معلم اشاره دارد‪ .‬هر مورد از معادله (‪ )12‬به صورت معادله نمایش داده می شود‪.)13( .‬‬
‫‪I1‬‬ ‫‪I2‬‬ ‫‪IN‬‬
‫⟩‪⟨g‬‬
‫∑ ≅ ‪J k ,… ,k‬‬
‫‪1‬‬ ‫‪N‬‬
‫∑… ∑‬ ‫⟩ ‪⟨g‬‬
‫‪C k , …, k‬‬
‫‪1‬‬ ‫‪N‬‬ ‫)‪( ⟨ g ⟩ V (( 1k ) , j ) , ⟨g ⟩ V ((2k ) , j ) … ⟨ g ⟩ V ((Nk ) , j ) )(1 3‬‬
‫‪1‬‬ ‫‪1‬‬ ‫‪2‬‬ ‫‪2‬‬ ‫‪N‬‬ ‫‪N‬‬
‫‪j =1 j 2=1‬‬ ‫‪j N =1‬‬
‫مدل عمیق دانشآموز از تعداد ‪ Z‬الیه تشکیل شده است که خروجی هر الیه ب ه الی ه بع دی انتق ال پی دا میکن د‪ .‬اگ ر خ روجی‬
‫هرالیه دانشآموز تابعی از )‪ H=F (WK + b‬باشد‪ ،‬آنگاه معادله ‪ 14‬به مدل عمیق تجزیه شده دانش آموز اشاره دارد‪:‬‬
‫¿ ‪H ⟨ Z ⟩ =⟨ Z ⟩ F‬‬
‫¿ ‪×⟨ Z−1⟩ F‬‬
‫¿ ‪×(…( 1 F ( ⟦ ⟨1 ⟩ L , ⟨ 1⟩ A (1) , ⟨ 1⟩ A (2) , … , ⟨1 ⟩ A( N) ⟧ K + ⟨1 ⟩ b))…)+ ⟨Z −1 ⟩ b ¿+ ⟨ Z ⟩ b‬‬

‫فرمت تاکر حاصل شده برای تنسور هر الیه از مدل دانشآموز به فرم معادله ‪ 15‬است‪:‬‬
‫⟩‪⟨g‬‬
‫)‪K ≅ ⟨ g⟩ D×1 ⟨ g ⟩ S( 1) ×2 ⟨ g⟩ S (2 ) ×1 …×1 ⟨ g⟩ S ( N )=⟦ ⟨ g⟩ D , ⟨ g ⟩ S (1) , ⟨ g⟩ S (2 ) , … , ⟨ g ⟩ S (N ) ⟧ (15‬‬
‫که ‪ ⟨ g ⟩ K‬تنسور نگاشت ویژگی الیه ‪ g‬ام حاصل شده از هر تابع ‪⟨ g ⟩ F‬در مدل دانشآموز است‪ .‬همچنین ‪ ⟨ g ⟩ D‬و )‪ S( j‬به ترتیب‬
‫به تنسور هسته حاصل از تجزیه نگاشت ویژگی و ماتریس عامل در مرتبه ‪ j‬ام اشاره دارند‪ .‬هر نمونه از این معادله ب ه ف رم‬
‫زیر قابل بازنویسی است‪:‬‬
‫‪I1‬‬ ‫‪I2‬‬ ‫‪IN‬‬
‫⟩‪⟨g‬‬
‫∑ ≅ ‪K k ,… ,k‬‬ ‫∑… ∑‬ ‫⟩ ‪⟨g‬‬
‫‪Dk ,… ,k ( ⟨ g ⟩ S ((1k ) ,r ) , ⟨ g⟩ S ((2k ) ,r ) … ⟨g ⟩ S(k‬‬
‫)‪( N‬‬
‫‪1‬‬ ‫‪N‬‬ ‫‪1‬‬ ‫‪N‬‬ ‫‪1‬‬ ‫‪1‬‬ ‫‪2‬‬ ‫‪2‬‬ ‫‪N‬‬
‫) ‪,r N‬‬ ‫)‪)(1 6‬‬
‫‪r =1 r 2=1‬‬ ‫‪rN =1‬‬
‫پس از استخراج تنسورهای هسته تجزیه شده نقش ه ه ای وی ژگی از الیه‌ه ای می انی م دله ای دانشآم وز و معلم ق دم آخ ر در‬
‫چکانش دانش مبتنی بر ویژگی انتقال دانش از معلم به دانش آموز در قالب ماژول چکانش است‪ .‬به همین دلی ل ت ابع ‪Loss IF‬‬
‫مبتنی بر نرم اقلیدوسی ‪ L2‬تعریف شده است که با استفاده از ضریب ‪ α‬بر عملکرد م دل دانشآم وز نظ ارت دارد‪ .‬ب ه ط ور‬
‫کلی‪ ،‬خطای این روش را می توان به صورت زیر فرموله کرد‪:‬‬
‫‪G‬‬
‫‪1‬‬
‫)‪Loss IF = ∑ L2 ( ⟨ g ⟩ C , ⟨g ⟩ D ) (17‬‬
‫‪G g =1‬‬
‫‪.2‬مدل دوم (چند معلم یک دانش آموز با نگاشتهای ویژگی هم اندازه)‬

‫شبکه های عصبی عمیق‪ ،‬متدهای غیر خطی مبتنی بر یادگیری آماری هستند‪ .‬یکی از نقاط ض عف الگ وریتم ه ای ی ادگیری‬
‫آماری حساسیت زیاد به یک قسمت از داده های ورودی و ایجاد وزنهای متفاوت در هر بار آموزش است ک ه این ام ر س بب‬
‫ایجاد پیش بینی های متفاوت میشود‪ .‬به طور کلی به این نوع شبکه ها‪ ،‬مدلهای با واریانس باال گفته میش ود‪ .‬یکی از راهه ای‬
‫کاهش واریانس‪ ،‬آموزش چندین شبکه عصبی عمی ق بج ای آم وزش تنه ا ی ک ش بکه و ت رکیب تجربی ات آنهاس ت‪ .‬ب ه همین‬
‫منظور در مدل دوم پیشنهادی یک شبکه دانش آموز توسط چندین معلم آم وزش داده میش ود‪ .‬ش بکه دانش آم وزی ک ه توس ط‬
‫چندین معلم آموزش داده شود اطالعاتی از هر یک از آنها دریافت میکند که توانایی داش تن بینش های متف اوتی نس بت ب ه داده‬
‫های به این شبکه اضافه میشود‪ .‬شکل ‪ 7‬معماری مدل دوم را برای این منظ ور مع رفی میکن د‪ .‬در این م دل تع داد ‪ G‬معلم و‬
‫نیز ماژول چکانش دانش وجود دارد که هر ماژول چک انش ‪ )G≤ g ≤1( ، g‬مس ئول انتق ال دانش معلم ‪ g‬ام ب ه ی ک الی ه‬
‫خاص از دانش آموز است‪ .‬در مدل پیشنهادی‪ ،‬از اطالعات آخرین مولفه تجزیه الیه معلم یعنی الیه ‪Z‬ام به عنوان منبع انتق ال‬
‫دانش استفاده شده است‪ .‬در ماژول چکانش دانش ‪ ، g‬فاصله بین این دو تنسور هسته ‪⟨ g , z ⟩ C‬مولف ه تجزی ه ش ده ‪⟨ g , z ⟩ S‬در الی ه‬
‫آخر معلم ‪ g‬ام و تنسور هسته ‪ ⟨ j ⟩ C‬متعلق به مولفه تجزیه شده ‪ ⟨ j ⟩ G‬در الیه زام دانش آموز محاسبه می شود‪ .‬مجموع فاص له‬
‫ها برای محاسبه خطای ‪ LIF‬به شکل زیر محاسبه میشود‪.‬‬
‫که در این معادله ) ‪ f ( .‬تابع تعیین کننده اندیس معلم و الیه دانش آموز برای انتقال دانش از اطالعات آخرین الیه معلم به الی ه‬
‫میانی دانش آموز ا در مدل پیشنهادی سه استراتژی متفاوت برای انتخاب جفت معلم و الیه دانش آموز استفاده شده است‪:‬‬
‫ابتدا مرتب سازی نزولی ‪ G‬شبکه معلم بر اساس عملکرد آنها و س پس انتق ال دانش ب ه ت رتیب از به ترین معلم ت ا‬ ‫‪.1‬‬
‫بدترین معلم به اولین الیه منتخب تا ‪ G‬امین الیه منتخب در شبکه دانش آموز‬
‫ابتدا مرتب سازی نزولی ‪ G‬شبکه معلم بر اساس عملکرد آنها و سپس عکس حالت اول انتق ال دانش ب ه ت رتیب از‬ ‫‪.2‬‬
‫بهترین معلم تا بدترین معلم به ‪ G‬امین الیه منتخب تا اولین الیه منتخب در دانش آموز‬
‫انتخاب تصادفی اندیس شبکه معلم و الیه منتخب در شبکه دانش آموز و انتقال دانش بین آنها‬ ‫‪.3‬‬

99

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

99

Uploaded by

Copyright:

Available Formats

‫که ‪⟨ g ⟩ C ∈ R I ×I × …× I‬به تنسور هسته تجزیه شده از الیه ‪ g‬ام مدل معلم اشاره دارد‪ .

‬همچ نین ) ‪ V (i‬ب ه م اتریس عام ل در‬ ‫‪1‬‬ ‫‪2‬‬ ‫‪N‬‬

‫¿ ‪×(…( 1 F ( ⟦ ⟨1 ⟩ L , ⟨ 1⟩ A (1) , ⟨ 1⟩ A (2) , … , ⟨1 ⟩ A( N) ⟧ K + ⟨1 ⟩ b))…)+ ⟨Z −1 ⟩ b ¿+ ⟨ Z ⟩ b‬‬

‫‪.2‬مدل دوم (چند معلم یک دانش آموز با نگاشتهای ویژگی هم اندازه)‬

You might also like