2015 TL KnowledgeDistillation

Chắt
Machine Translated by Google lọc kiến thức trong mạng lưới thần kinh
Geoffrey Hinton † Oriol Vinyals† Jeff Dean
Google Inc. Google Inc. Google Inc.

Mountain View Mountain View Cảnh núi non
geoffhinton@google.com vinyals@google.com jeff@google.com
trừu tượng
Một cách rất đơn giản để cải thiện hiệu suất của hầu hết mọi thuật toán học máy là đào tạo
nhiều mô hình khác nhau trên cùng một dữ liệu và sau đó lấy trung bình các dự đoán của chúng
[3]. Thật không may, việc đưa ra các dự đoán bằng cách sử dụng toàn bộ các mô hình là cồng
kềnh và có thể quá tốn kém về mặt tính toán để cho phép triển khai cho một số lượng lớn
người dùng, đặc biệt nếu các mô hình riêng lẻ là mạng lưới thần kinh lớn. Caruana và các
cộng tác viên của anh ấy [1] đã chỉ ra rằng có thể nén kiến thức trong một tập hợp thành một
mô hình duy nhất dễ triển khai hơn nhiều và chúng tôi phát triển phương pháp này hơn nữa
bằng cách sử dụng một kỹ thuật nén khác. Chúng tôi đạt được một số kết quả đáng ngạc nhiên
trên MNIST và chúng tôi cho thấy rằng chúng tôi có thể cải thiện đáng kể mô hình âm thanh của
một hệ thống thương mại được sử dụng nhiều bằng cách chắt lọc kiến thức trong một tập hợp
các mô hình thành một mô hình duy nhất. Chúng tôi cũng giới thiệu một loại quần thể mới bao
gồm một hoặc nhiều mô hình đầy đủ và nhiều mô hình chuyên biệt học cách phân biệt các lớp chi
tiết mà các mô hình đầy đủ gây nhầm lẫn. Không giống như hỗn hợp các chuyên gia, các mô
hình chuyên gia này có thể được đào tạo nhanh chóng và song song.
arXiv:1503.02531v1
[stat.ML]
tháng
2015
năm
3
9
1. Giới thiệu
Nhiều loài côn trùng có dạng ấu trùng được tối ưu hóa để lấy năng lượng và chất dinh dưỡng từ môi trường và
dạng trưởng thành hoàn toàn khác được tối ưu hóa cho các yêu cầu di chuyển và sinh sản rất khác nhau. Trong học
máy quy mô lớn, chúng tôi thường sử dụng các mô hình rất giống nhau cho giai đoạn đào tạo và giai đoạn triển khai
mặc dù các yêu cầu rất khác nhau của chúng: Đối với các tác vụ như nhận dạng giọng nói và đối tượng, quá trình
đào tạo phải trích xuất cấu trúc từ các bộ dữ liệu rất lớn, có tính dự phòng cao nhưng không cần hoạt động trong
thời gian thực và nó có thể sử dụng một lượng tính toán khổng lồ.
Tuy nhiên, việc triển khai cho một số lượng lớn người dùng có các yêu cầu nghiêm ngặt hơn nhiều về độ trễ và
tài nguyên tính toán. Sự tương tự với côn trùng cho thấy rằng chúng ta nên sẵn sàng đào tạo các mô hình rất cồng
kềnh nếu điều đó giúp trích xuất cấu trúc từ dữ liệu dễ dàng hơn. Mô hình cồng kềnh có thể là một tập hợp các mô
hình được đào tạo riêng biệt hoặc một mô hình rất lớn duy nhất được đào tạo với bộ điều chỉnh rất mạnh chẳng hạn
như bỏ học [9]. Khi mô hình cồng kềnh đã được đào tạo, chúng ta có thể sử dụng một loại đào tạo khác, mà chúng
tôi gọi là "chưng cất" để chuyển kiến thức từ mô hình cồng kềnh sang một mô hình nhỏ phù hợp hơn để triển khai.
Một phiên bản của chiến lược này đã được Rich Caruana và cộng sự của ông tiên phong [1]. Trong bài báo quan
trọng của mình, họ chứng minh một cách thuyết phục rằng kiến thức thu được từ một tập hợp lớn các mô hình có thể
được chuyển sang một mô hình nhỏ duy nhất.
Một trở ngại khái niệm có thể ngăn cản việc nghiên cứu thêm về cách tiếp cận rất hứa hẹn này là chúng ta có xu
hướng xác định kiến thức trong một mô hình được đào tạo với các giá trị tham số đã học và điều này khiến chúng
ta khó nhận ra cách chúng ta có thể thay đổi hình thức của mô hình nhưng vẫn giữ nguyên kiến thức giống nhau. Một
cách nhìn trừu tượng hơn về kiến thức, giải phóng nó khỏi bất kỳ sự khởi tạo cụ thể nào, đó là một kiến thức đã học.
Cũng liên kết với Đại học Toronto và Viện Nghiên cứu Cao cấp Canada.
†Đóng góp bình đẳng.
1
Machine Translated by Google
ánh xạ từ vectơ đầu vào sang vectơ đầu ra. Đối với các mô hình cồng kềnh học cách phân biệt giữa một số
lượng lớn các lớp, mục tiêu đào tạo bình thường là tối đa hóa xác suất nhật ký trung bình của câu trả lời
đúng, nhưng tác dụng phụ của việc học là mô hình được đào tạo gán xác suất cho tất cả các câu trả lời sai.
câu trả lời và ngay cả khi những xác suất này rất nhỏ, một số trong số chúng lớn hơn nhiều so với những xác
suất khác. Xác suất tương đối của các câu trả lời sai cho chúng ta biết nhiều điều về xu hướng khái quát
hóa của mô hình cồng kềnh. Ví dụ, một hình ảnh chiếc BMW có thể chỉ có một xác suất rất nhỏ bị nhầm với một
chiếc xe chở rác, nhưng khả năng nhầm lẫn đó với một củ cà rốt còn cao hơn gấp nhiều lần.
Người ta thường chấp nhận rằng hàm mục tiêu được sử dụng để đào tạo phải phản ánh mục tiêu thực sự của
người dùng càng sát càng tốt. Mặc dù vậy, các mô hình thường được đào tạo để tối ưu hóa hiệu suất trên dữ
liệu đào tạo khi mục tiêu thực sự là khái quát hóa tốt dữ liệu mới. Rõ ràng sẽ tốt hơn nếu đào tạo các mô
hình để khái quát hóa tốt, nhưng điều này đòi hỏi thông tin về cách chính xác để khái quát hóa và thông tin
này thường không có sẵn. Tuy nhiên, khi chúng ta chắt lọc kiến thức từ một mô hình lớn thành một mô hình
nhỏ, chúng ta có thể huấn luyện mô hình nhỏ để khái quát hóa giống như mô hình lớn. Nếu mô hình cồng kềnh
khái quát hóa tốt bởi vì, ví dụ, nó là trung bình của một tập hợp lớn các mô hình khác nhau, thì một mô hình
nhỏ được đào tạo để khái quát hóa theo cùng một cách thường sẽ hoạt động tốt hơn trên dữ liệu thử nghiệm
so với mô hình nhỏ được đào tạo trong cách bình thường trên cùng một tập huấn luyện như đã được sử dụng
để huấn luyện toàn bộ.
Một cách rõ ràng để chuyển khả năng khái quát hóa của mô hình cồng kềnh sang mô hình nhỏ là sử dụng xác suất
lớp do mô hình cồng kềnh tạo ra làm “mục tiêu mềm” để huấn luyện mô hình nhỏ. Đối với giai đoạn chuyển giao
này, chúng ta có thể sử dụng cùng một tập huấn luyện hoặc một tập “chuyển giao” riêng biệt.
Khi mô hình cồng kềnh là một tập hợp lớn các mô hình đơn giản hơn, chúng ta có thể sử dụng trung bình số
học hoặc hình học của các phân phối dự đoán riêng lẻ của chúng làm mục tiêu mềm. Khi các mục tiêu mềm có
entropy cao, chúng cung cấp nhiều thông tin hơn cho mỗi trường hợp đào tạo so với các mục tiêu cứng và ít
chênh lệch về độ dốc giữa các trường hợp đào tạo hơn, do đó, mô hình nhỏ thường có thể được đào tạo trên
ít dữ liệu hơn nhiều so với mô hình cồng kềnh ban đầu và sử dụng một tỷ lệ học tập cao hơn nhiều.
Đối với các nhiệm vụ như MNIST, trong đó mô hình cồng kềnh hầu như luôn tạo ra câu trả lời đúng với độ tin
cậy rất cao, phần lớn thông tin về chức năng đã học nằm trong tỷ lệ xác suất rất nhỏ trong các mục tiêu mềm.
Ví dụ: một phiên bản của số 2 có thể có xác suất 10 6 là số 3 và 10 9 là số 7 trong khi đối với phiên bản
khác thì có thể ngược lại. Đây là thông tin có giá trị xác định cấu trúc tương tự phong phú trên dữ liệu
(nghĩa là nó cho biết số 2 nào giống số 3 và số nào giống số 7) nhưng nó có rất ít ảnh hưởng đến hàm chi
phí entropy chéo trong giai đoạn chuyển đổi vì xác suất là như vậy gần bằng không.
Caruana và các cộng tác viên của anh ấy giải quyết vấn đề này bằng cách sử dụng nhật ký (đầu vào cho softmax
cuối cùng) thay vì xác suất do softmax tạo ra làm mục tiêu để học mô hình nhỏ và họ giảm thiểu sự khác biệt
bình phương giữa nhật ký do mô hình cồng kềnh tạo ra và nhật ký do mô hình nhỏ tạo ra. Giải pháp tổng quát
hơn của chúng tôi, được gọi là "chưng cất", là tăng nhiệt độ của softmax cuối cùng cho đến khi mô hình
cồng kềnh tạo ra một tập hợp mục tiêu mềm phù hợp. Sau đó, chúng tôi sử dụng nhiệt độ cao tương tự khi đào
tạo mô hình nhỏ để phù hợp với các mục tiêu mềm này. Sau đó, chúng tôi sẽ chỉ ra rằng việc khớp các bản ghi
của mô hình cồng kềnh thực sự là một trường hợp chưng cất đặc biệt.
Tập chuyển giao được sử dụng để huấn luyện mô hình nhỏ có thể bao gồm toàn bộ dữ liệu chưa được gắn nhãn
[1] hoặc chúng ta có thể sử dụng tập huấn luyện ban đầu. Chúng tôi nhận thấy rằng việc sử dụng tập huấn
luyện ban đầu hoạt động tốt, đặc biệt nếu chúng tôi thêm một số hạng nhỏ vào hàm mục tiêu để khuyến khích
mô hình nhỏ dự đoán các mục tiêu thực cũng như khớp với các mục tiêu mềm do mô hình cồng kềnh cung cấp.
Thông thường, mô hình nhỏ không thể khớp chính xác các mục tiêu mềm và việc đi sai hướng để có câu trả lời
đúng hóa ra lại hữu ích.
2 Chưng cất
Mạng nơ-ron thường tạo ra xác suất lớp bằng cách sử dụng lớp đầu ra “softmax” để chuyển đổi logit, zi ,
được tính cho mỗi lớp thành xác suất, qi , bằng cách so sánh zi với các logit khác.
exp(zi/T )
khí = (1)
j exp(zj/T )
2
trong đó T là nhiệt độ thường được đặt thành 1. Sử dụng giá trị T cao hơn sẽ tạo ra phân
bố xác suất mềm hơn trên các lớp.
Ở dạng chưng cất đơn giản nhất, kiến thức được chuyển sang mô hình chưng cất bằng cách đào tạo nó
trên bộ truyền và sử dụng phân phối mục tiêu mềm cho từng trường hợp trong bộ truyền được tạo ra
bằng cách sử dụng mô hình cồng kềnh có nhiệt độ cao trong softmax của nó. Nhiệt độ cao tương tự
được sử dụng khi đào tạo mô hình chưng cất, nhưng sau khi được đào tạo, nó sử dụng nhiệt độ là 1.
Khi các nhãn chính xác được biết cho tất cả hoặc một số bộ truyền, phương pháp này có thể được cải
thiện đáng kể bằng cách đào tạo mô hình chưng cất để tạo ra các nhãn chính xác. Một cách để làm điều
này là sử dụng các nhãn chính xác để sửa đổi các mục tiêu mềm, nhưng chúng tôi thấy rằng cách tốt
hơn là chỉ cần sử dụng trung bình có trọng số của hai hàm mục tiêu khác nhau. Hàm mục tiêu đầu tiên
là entropy chéo với các mục tiêu mềm và entropy chéo này được tính bằng cách sử dụng cùng một nhiệt
độ cao trong softmax của mô hình chưng cất như được sử dụng để tạo các mục tiêu mềm từ mô hình cồng
kềnh. Hàm mục tiêu thứ hai là entropy chéo với các nhãn chính xác. Điều này được tính toán bằng cách
sử dụng chính xác các logit giống nhau trong softmax của mô hình chưng cất nhưng ở nhiệt độ 1. Chúng
tôi nhận thấy rằng kết quả tốt nhất thường thu được bằng cách sử dụng trọng số thấp hơn đáng kể cho
2
hàm mục tiêu thứ hai. Vì độ lớn của độ dốc được tạo ra bởi thang đo mục tiêu mềm là 1/T , điều quan
2
trọng là phải nhân chúng với T khi sử dụng cả mục tiêu cứng và mục tiêu mềm. Điều này đảm bảo rằng
sự đóng góp tương đối của các mục tiêu cứng và mềm hầu như không thay đổi nếu nhiệt độ được sử
dụng để chưng cất bị thay đổi trong khi thử nghiệm với các tham số meta.
2.1 Nhật ký phù hợp là một trường hợp đặc biệt của chưng cất
Mỗi trường hợp trong bộ chuyển đổi đóng góp một gradient entropy chéo, dC/dzi , đối với từng
logit, zi của mô hình chắt lọc. Nếu mô hình cồng kềnh có logits vi tạo ra xác suất mục tiêu mềm
pi và quá trình huấn luyện chuyển giao được thực hiện ở nhiệt độ T ,độ dốc này được đưa ra bởi:
C 1 1 e zi/T e vi/T
= -
(2)
(qi pi) =
zi t t e j
zj/T e vj /T
j
Nếu nhiệt độ cao so với độ lớn của nhật ký, chúng ta có thể tính gần đúng:
C 1 1 + zi/ 1 + vi/
≈ -
(3)
zi t N + j T zj/T N + j T vj/T
Nếu bây giờ chúng ta giả sử rằng các bản ghi có nghĩa là 0 riêng biệt cho từng trường hợp chuyển nhượng sao cho j
j zj = vj = 0 Eq. 3 đơn giản hóa thành:
C 1
≈ (zi vi) (4)
zi NT2 _
2
Vì vậy, trong giới hạn nhiệt độ cao, quá trình chưng cất tương đương với việc , cung cấp
giảm thiểu 1/2(zi - vi) các bản ghi bằng 0 có nghĩa là riêng biệt cho từng trường hợp chuyển giao.
Ở nhiệt độ thấp hơn, quá trình chưng cất ít chú ý hơn đến các bản ghi phù hợp âm hơn nhiều so
với mức trung bình. Điều này có thể có lợi vì các bản ghi này gần như hoàn toàn không bị ràng buộc
bởi hàm chi phí được sử dụng để đào tạo mô hình cồng kềnh nên chúng có thể rất ồn ào. Mặt khác,
các bản ghi rất tiêu cực có thể truyền tải thông tin hữu ích về kiến thức thu được từ mô hình cồng
kềnh. Những hiệu ứng nào trong số này chiếm ưu thế là một câu hỏi thực nghiệm. Chúng tôi chỉ ra
rằng khi mô hình chắt lọc quá nhỏ để nắm bắt tất cả kiến thức trong mô hình cồng kềnh, thì nhiệt
độ trung gian hoạt động tốt nhất, điều này cho thấy rõ ràng rằng việc bỏ qua các bản ghi âm lớn có
thể hữu ích.
3 Thí nghiệm sơ bộ trên MNIST
Để xem quá trình chưng cất hoạt động tốt như thế nào, chúng tôi đã đào tạo một mạng lưới thần kinh lớn duy nhất với
hai lớp ẩn gồm 1200 đơn vị ẩn tuyến tính được chỉnh lưu trên tất cả 60.000 trường hợp đào tạo. Mạng đã được chuẩn
hóa mạnh mẽ bằng cách sử dụng các ràng buộc về trọng lượng và bỏ học như được mô tả trong [5]. Bỏ học có thể được
xem như một cách đào tạo một nhóm mô hình lớn theo cấp số nhân có chung trọng số. Ngoài ra, các hình ảnh đầu vào được
3
bị rung lên tới hai pixel theo bất kỳ hướng nào. Mạng này mắc 67 lỗi kiểm tra trong khi một mạng nhỏ hơn với
hai lớp ẩn gồm 800 đơn vị ẩn tuyến tính được chỉnh sửa và không có quy tắc nào mắc 146 lỗi. Nhưng nếu lưới
nhỏ hơn chỉ được chuẩn hóa bằng cách thêm nhiệm vụ bổ sung là khớp các mục tiêu mềm do lưới lớn tạo ra ở nhiệt
độ 20, thì nó đã đạt được 74 lỗi kiểm tra. Điều này cho thấy các mục tiêu mềm có thể chuyển một lượng lớn kiến
thức sang mô hình chắt lọc, bao gồm cả kiến thức về cách khái quát hóa được học từ dữ liệu huấn luyện đã dịch
mặc dù tập chuyển không chứa bất kỳ bản dịch nào.
Khi mạng chưng cất có 300 đơn vị trở lên trong mỗi hai lớp ẩn của nó, tất cả các nhiệt độ trên 8 đều cho kết
quả khá giống nhau. Nhưng khi điều này được giảm triệt để xuống 30 đơn vị mỗi lớp, nhiệt độ trong khoảng 2,5
đến 4 hoạt động tốt hơn đáng kể so với nhiệt độ cao hơn hoặc thấp hơn.
Sau đó, chúng tôi đã thử bỏ qua tất cả các ví dụ về chữ số 3 khỏi bộ chuyển đổi. Vì vậy, từ quan điểm của mô
hình chưng cất, 3 là một chữ số huyền thoại mà nó chưa từng thấy. Mặc dù vậy, mô hình chưng cất chỉ mắc 206
lỗi kiểm tra, trong đó có 133 lỗi trên 1010 lỗi trong bộ kiểm tra. Hầu hết các lỗi là do thiên kiến đã học đối
với lớp 3 quá thấp. Nếu độ lệch này tăng lên 3,5 (tối ưu hóa hiệu suất tổng thể trên bộ thử nghiệm), thì mô hình
được chắt lọc sẽ mắc 109 lỗi, trong đó có 14 lỗi trong 3 giây. Vì vậy, với độ lệch đúng, mô hình được chắt lọc
nhận được 98,6% số 3 của bài kiểm tra đúng mặc dù chưa bao giờ nhìn thấy số 3 trong quá trình đào tạo. Nếu bộ
truyền chỉ chứa các số 7 và 8 từ tập huấn luyện, mô hình chắt lọc tạo ra 47,3% lỗi kiểm tra, nhưng khi độ lệch
cho 7 và 8 được giảm 7,6 để tối ưu hóa hiệu suất kiểm tra, thì lỗi kiểm tra này giảm xuống còn 13,2%.
4 Thí nghiệm về nhận dạng giọng nói
Trong phần này, chúng tôi điều tra các tác động của việc kết hợp các mô hình âm thanh Mạng thần kinh sâu (DNN)
được sử dụng trong Nhận dạng giọng nói tự động (ASR). Chúng tôi chỉ ra rằng chiến lược chắt lọc mà chúng tôi đề
xuất trong bài viết này đạt được hiệu quả mong muốn trong việc chắt lọc một tập hợp các mô hình thành một mô
hình duy nhất hoạt động tốt hơn đáng kể so với một mô hình có cùng kích thước được học trực tiếp từ cùng một
dữ liệu huấn luyện.
Các hệ thống ASR tiên tiến hiện đang sử dụng DNN để ánh xạ bối cảnh thời gian (ngắn) của các tính năng bắt nguồn
từ dạng sóng sang phân phối xác suất trên các trạng thái rời rạc của Mô hình Markov ẩn (HMM) [4]. Cụ thể hơn,
DNN tạo ra phân phối xác suất trên các cụm trạng thái ba điện thoại tại mỗi thời điểm và bộ giải mã sau đó sẽ
tìm đường dẫn qua các trạng thái HMM, đó là sự thỏa hiệp tốt nhất giữa việc sử dụng các trạng thái xác suất cao
và tạo ra bản phiên âm có thể xảy ra theo ngôn ngữ người mẫu.
Mặc dù có thể (và mong muốn) huấn luyện DNN theo cách sao cho bộ giải mã (và do đó, mô hình ngôn ngữ) được tính
đến bằng cách loại bỏ tất cả các đường dẫn có thể, thông thường huấn luyện DNN thực hiện chuyển đổi khung phân
loại theo khung bằng cách (cục bộ) giảm thiểu entropy chéo giữa các dự đoán do mạng tạo ra và các nhãn được cung
cấp bởi sự liên kết bắt buộc với chuỗi trạng thái thực cơ bản cho mỗi quan sát:
θ = arg max P(ht|st; θ ′)

′
θ
trong đó θ là các tham số của mô hình âm thanh P của chúng tôi , mô hình này ánh xạ các quan sát âm thanh tại
′) ,st; θ của trạng thái HMM “đúng” ht, được xác định bằng cách căn chỉnh bắt
thời điểm t, st, thành xác suất, P(ht|
buộc với đúng chuỗi các từ.Mô hình được đào tạo với cách tiếp cận giảm dần độ dốc ngẫu nhiên phân tán.
Chúng tôi sử dụng một kiến trúc có 8 lớp ẩn, mỗi lớp chứa 2560 đơn vị tuyến tính được chỉnh sửa và một lớp
softmax cuối cùng với 14.000 nhãn (các mục tiêu HMM ht). Đầu vào là 26 khung hình gồm 40 hệ số ngân hàng bộ lọc
theo tỷ lệ Mel với tốc độ trước 10ms trên mỗi khung hình và chúng tôi dự đoán trạng thái HMM của khung hình thứ
21 . Tổng số tham số là khoảng 85M. Đây là phiên bản hơi lỗi thời của mô hình âm thanh được sử dụng bởi tính
năng tìm kiếm bằng giọng nói của Android và nên được coi là cơ sở rất mạnh. Để đào tạo mô hình âm thanh DNN,
chúng tôi sử dụng khoảng 2000 giờ dữ liệu nói tiếng Anh, mang lại khoảng 700 triệu ví dụ đào tạo. Hệ thống này
đạt được độ chính xác của khung hình là 58,9% và Tỷ lệ lỗi từ (WER) là 10,9% trên bộ phát triển của chúng tôi.
4
Hệ thống Độ chính xác của khung kiểm tra

Đường cơ WER 58,9% 10,9% 61,1%
sở 10xEnsemble 10,7% 60,8% 10,7%
Mô hình đơn chưng cất
Bảng 1: Độ chính xác phân loại khung và WER cho thấy rằng mô hình đơn lẻ được chắt lọc thực hiện gần như các dự
đoán trung bình của 10 mô hình được sử dụng để tạo các mục tiêu mềm.
4.1 Kết quả
Chúng tôi đã đào tạo 10 mô hình riêng biệt để dự đoán P(ht|st; θ), sử dụng chính xác cùng một kiến trúc và quy
trình đào tạo như đường cơ sở. Các mô hình được khởi tạo ngẫu nhiên với các giá trị tham số ban đầu khác nhau
và chúng tôi thấy rằng điều này tạo ra sự đa dạng đủ trong các mô hình được đào tạo để cho phép các dự đoán trung
bình của tập hợp vượt trội hơn đáng kể so với các mô hình riêng lẻ. Chúng tôi đã khám phá việc thêm tính đa dạng
cho các mô hình bằng cách thay đổi tập hợp dữ liệu mà mỗi mô hình nhìn thấy, nhưng chúng tôi nhận thấy điều này
không làm thay đổi đáng kể kết quả của mình, vì vậy chúng tôi đã chọn cách tiếp cận đơn giản hơn. Đối với quá
trình chưng cất, chúng tôi đã thử nhiệt độ [1, 2, 5, 10] và sử dụng trọng số tương đối 0,5 trên entropy chéo cho
.
các mục tiêu cứng, trong đó phông chữ in đậm biểu thị giá trị tốt nhất được sử dụng cho bảng 1
Bảng 1 cho thấy rằng, trên thực tế, phương pháp chắt lọc của chúng tôi có thể trích xuất nhiều thông tin hữu ích
hơn từ tập huấn luyện hơn là chỉ sử dụng các nhãn cứng để huấn luyện một mô hình. Hơn 80% sự cải thiện về độ
chính xác phân loại khung đạt được bằng cách sử dụng tập hợp 10 mô hình được chuyển sang mô hình chắt lọc,
tương tự như sự cải thiện mà chúng tôi đã quan sát được trong các thử nghiệm sơ bộ của mình trên MNIST. Tập hợp
mang lại một cải tiến nhỏ hơn về mục tiêu cuối cùng của WER (trên tập kiểm tra 23 nghìn từ) do sự không khớp trong
hàm mục tiêu, nhưng một lần nữa, sự cải thiện trong WER mà tập hợp đạt được được chuyển sang mô hình chắt lọc.
Gần đây, chúng tôi đã biết về công việc liên quan đến việc học một mô hình âm thanh nhỏ bằng cách khớp các xác suất
lớp của một mô hình lớn hơn đã được đào tạo [8]. Tuy nhiên, họ thực hiện quá trình chưng cất ở nhiệt độ 1 bằng
cách sử dụng tập dữ liệu lớn chưa được gắn nhãn và mô hình chưng cất tốt nhất của họ chỉ giảm tỷ lệ lỗi của mô
hình nhỏ xuống 28% khoảng cách giữa tỷ lệ lỗi của mô hình lớn và mô hình nhỏ khi cả hai đều như vậy. được đào tạo
với nhãn cứng.
5 Tập hợp đào tạo các chuyên gia về bộ dữ liệu rất lớn
Đào tạo một tập hợp các mô hình là một cách rất đơn giản để tận dụng lợi thế của tính toán song song và phản đối
thông thường rằng một tập hợp yêu cầu quá nhiều tính toán tại thời điểm thử nghiệm có thể được giải quyết bằng
cách sử dụng phương pháp chưng cất. Tuy nhiên, có một phản đối quan trọng khác đối với tập hợp: Nếu các mô hình
riêng lẻ là mạng thần kinh lớn và tập dữ liệu rất lớn, thì lượng tính toán cần thiết tại thời điểm đào tạo là quá
nhiều, mặc dù có thể dễ dàng song song hóa.
Trong phần này, chúng tôi đưa ra một ví dụ về tập dữ liệu như vậy và chúng tôi chỉ ra cách các mô hình chuyên gia
học tập mà mỗi mô hình tập trung vào một tập hợp con khó hiểu khác nhau của các lớp có thể giảm tổng lượng tính
toán cần thiết để học một tập hợp. Vấn đề chính với các chuyên gia tập trung vào việc tạo ra sự khác biệt chi tiết
là chúng rất dễ khớp quá mức và chúng tôi mô tả cách ngăn chặn sự quá khớp này bằng cách sử dụng các mục tiêu mềm.
5.1 Bộ dữ liệu JFT
JFT là bộ dữ liệu nội bộ của Google có 100 triệu hình ảnh được gắn nhãn với 15.000 nhãn. Khi chúng tôi thực hiện
công việc này, mô hình cơ sở của Google cho JFT là một mạng thần kinh tích chập sâu [7] đã được đào tạo trong
khoảng sáu tháng bằng cách sử dụng hệ số giảm dần độ dốc ngẫu nhiên không đồng bộ trên một số lượng lớn lõi. Khóa
đào tạo này đã sử dụng hai loại song song [2]. Đầu tiên, có nhiều bản sao của mạng nơ-ron chạy trên các bộ lõi
khác nhau và xử lý các lô nhỏ khác nhau từ tập huấn luyện. Mỗi bản sao tính toán độ dốc trung bình trên lô nhỏ hiện
tại của nó và gửi độ dốc này đến một máy chủ tham số được phân đoạn để gửi lại các giá trị mới cho các tham số.
Các giá trị mới này phản ánh tất cả các độ dốc mà máy chủ tham số nhận được kể từ lần cuối nó gửi tham số đến bản
sao. Thứ hai, mỗi bản sao được trải rộng trên nhiều lõi bằng cách đặt các tập hợp con nơ-ron khác nhau trên mỗi
lõi. Đào tạo đồng bộ là một loại song song thứ ba có thể được bao bọc
5
JFT 1: Tiệc trà; Lễ Phục sinh; Tắm cô dâu; Tắm bé; Thỏ Phục Sinh; ...
JFT 2: Cầu; Cầu dây văng; Cầu treo; cầu cạn; Ống khói; ...
JFT 3: Toyota Corolla E100; Đăng ký Opel; Opel Astra; gia đình Mazda; ...
Bảng 2: Các lớp ví dụ từ các cụm được tính toán bằng thuật toán phân cụm ma trận hiệp phương sai của chúng tôi
xung quanh hai loại còn lại, nhưng chỉ khi có nhiều lõi hơn. Chờ đợi vài năm để đào tạo một nhóm các mô hình
không phải là một lựa chọn, vì vậy chúng tôi cần một cách nhanh hơn nhiều để cải thiện mô hình cơ bản.
5.2 Mô hình Chuyên gia
Khi số lượng các lớp rất lớn, sẽ hợp lý khi mô hình cồng kềnh trở thành một tập hợp chứa một mô hình tổng
quát được đào tạo trên tất cả dữ liệu và nhiều mô hình “chuyên gia”, mỗi mô hình được đào tạo trên dữ liệu
rất phong phú trong các ví dụ từ một tập hợp con rất khó hiểu của các lớp (như các loại nấm khác nhau). Softmax
của loại chuyên gia này có thể được làm nhỏ hơn nhiều bằng cách kết hợp tất cả các lớp mà nó không quan tâm
vào một lớp thùng rác duy nhất.
Để giảm việc trang bị quá mức và chia sẻ công việc học các trình phát hiện tính năng cấp thấp hơn, mỗi mô hình
chuyên gia được khởi tạo với các trọng số của mô hình tổng quát. Các trọng số này sau đó được sửa đổi một
chút bằng cách huấn luyện chuyên gia với một nửa ví dụ của nó đến từ tập con đặc biệt của nó và một nửa được
lấy mẫu ngẫu nhiên từ phần còn lại của tập huấn luyện. Sau khi huấn luyện, chúng ta có thể sửa tập huấn luyện
sai lệch bằng cách tăng logit của lớp thùng rác bằng log của tỷ lệ mà lớp chuyên gia được lấy mẫu quá mức.
5.3 Phân lớp cho chuyên gia
Để tạo ra các nhóm danh mục đối tượng cho các chuyên gia, chúng tôi quyết định tập trung vào các danh mục mà
toàn bộ mạng của chúng tôi thường nhầm lẫn. Mặc dù chúng tôi có thể đã tính toán ma trận nhầm lẫn và sử dụng
nó như một cách để tìm các cụm như vậy, nhưng chúng tôi đã chọn cách tiếp cận đơn giản hơn không yêu cầu
nhãn thực để xây dựng các cụm.
Cụ thể, chúng tôi áp dụng thuật toán phân cụm cho ma trận hiệp phương sai của các dự đoán trong mô hình tổng
quát của chúng tôi, sao cho một tập hợp các lớp S m thường được dự đoán cùng nhau sẽ được sử dụng làm mục
tiêu cho một trong các mô hình chuyên gia của chúng tôi, m. Chúng tôi đã áp dụng phiên bản trực tuyến của thuật
toán K-means cho các cột của ma trận hiệp phương sai và thu được các cụm hợp lý (được hiển thị trong Bảng
2). Chúng tôi đã thử một số thuật toán phân cụm tạo ra kết quả tương tự.
5.4 Thực hiện suy luận với nhóm chuyên gia
Trước khi điều tra điều gì sẽ xảy ra khi các mô hình chuyên gia được chắt lọc, chúng tôi muốn xem các nhóm có
chứa các chuyên gia hoạt động tốt như thế nào. Ngoài các mô hình chuyên gia, chúng tôi luôn có một mô hình
tổng quát để chúng tôi có thể xử lý các lớp mà chúng tôi không có chuyên gia và để chúng tôi có thể quyết định
sử dụng chuyên gia nào. Đưa ra một hình ảnh đầu vào x, chúng tôi thực hiện phân loại hàng đầu theo hai bước:
Bước 1: Đối với mỗi trường hợp thử nghiệm, chúng tôi tìm thấy n lớp có khả năng xảy ra nhất theo mô hình tổng quát.
Gọi tập hợp các lớp này là k. Trong các thí nghiệm của chúng tôi, chúng tôi đã sử dụng n = 1.
Bước 2: Sau đó, chúng tôi lấy tất cả các mô hình chuyên gia, m, có tập con đặc biệt của các lớp khó hiểu, S
m, có giao điểm không trống với k và gọi đây là tập các chuyên gia đang hoạt động Ak (lưu ý rằng tập này có
thể rỗng). Sau đó, chúng tôi tìm phân phối xác suất đầy đủ q trên tất cả các lớp tối thiểu hóa:
KL(p g , q) + KL(p m, q) (5)
m Ak
tôi
trong đó KL biểu thị phân kỳ KL và p g biểu thị phân Pbố xác suất của mô hình chuyên gia hoặc mô hình đầy đủ
tổng quát. Phân phối p m là phân phối trên tất cả các lớp chuyên gia của m cộng với một lớp thùng rác duy nhất,
vì vậy khi tính toán phân kỳ KL của nó từ phân phối q đầy đủ, chúng tôi tính tổng tất cả các xác suất mà phân
phối q đầy đủ gán cho tất cả các lớp trong thùng rác của m .
6
Hệ thống Kiểm tra có điều kiện Kiểm tra độ chính xác Kiểm tra
đường cơ sở chính xác 43,1% 25,0% 45,9% 26,1%
+ 61 Mẫu chuyên dụng
Bảng 3: Độ chính xác phân loại (top 1) trên bộ phát triển JFT.
# chuyên gia bao gồm # ví dụ kiểm tra delta trong top1 đúng thay đổi độ chính xác tương đối 0 0,0% 1 +3,4% 2 +7,4% 3
3500376 +11,3% 7 +12,8% 8 +13,6% 9 +16,6% 10 trở lên +14,1%
+8,8% 4 +10,5% 5 +11,1%
141993 0 +1421
67161 +1572
38801 +1124
26298 +835
16474 +561
10682 +362
7376 +232
4703 +182
4706 +208
9082 +324
Bảng 4: Cải thiện độ chính xác hàng đầu theo # mô hình chuyên gia bao gồm đúng loại trên bộ thử nghiệm JFT.
phương trình 5 không có nghiệm dạng đóng chung, mặc dù khi tất cả các mô hình tạo ra một xác suất duy nhất cho
mỗi lớp thì nghiệm là trung bình cộng hoặc trung bình hình học, tùy thuộc vào việc chúng ta sử dụng KL(p, q)
hay KL ( q , p ) ). Chúng tôi tham số hóa q = sof tmax(z) (với T = 1) và chúng tôi sử dụng độ dốc gốc để tối
ưu hóa logits z wrt eq. 5. Lưu ý rằng việc tối ưu hóa này phải được thực hiện cho từng hình ảnh.
5.5 Kết quả
Bắt đầu từ mạng đầy đủ cơ sở được đào tạo, các chuyên gia đào tạo cực kỳ nhanh (vài ngày thay vì nhiều tuần
đối với JFT). Ngoài ra, tất cả các chuyên gia được đào tạo hoàn toàn độc lập. Bảng 3 cho thấy độ chính xác kiểm
tra tuyệt đối đối với hệ thống đường cơ sở và hệ thống đường cơ sở kết hợp với các mô hình chuyên gia. Với
61 kiểu máy chuyên dụng, nhìn chung độ chính xác của phép thử được cải thiện tương đối 4,4%. Chúng tôi cũng
báo cáo độ chính xác của thử nghiệm có điều kiện, đó là độ chính xác bằng cách chỉ xem xét các ví dụ thuộc về
các lớp chuyên gia và giới hạn các dự đoán của chúng tôi đối với tập hợp con của các lớp đó.
Đối với các thử nghiệm chuyên gia JFT của chúng tôi, chúng tôi đã đào tạo 61 mô hình chuyên gia, mỗi mô hình có
300 lớp (cộng với lớp thùng rác). Bởi vì tập hợp các lớp dành cho các chuyên gia không rời rạc, nên chúng tôi
thường có nhiều chuyên gia phụ trách một lớp hình ảnh cụ thể. Bảng 4 cho thấy số lượng ví dụ về tập kiểm tra,
sự thay đổi về số lượng ví dụ đúng ở vị trí 1 khi sử dụng (các) chuyên gia và mức cải thiện phần trăm tương
đối về độ chính xác top1 đối với tập dữ liệu JFT được chia nhỏ theo số lượng chuyên gia bao gồm lớp. Chúng tôi
được khuyến khích bởi xu hướng chung rằng các cải tiến về độ chính xác sẽ lớn hơn khi chúng tôi có nhiều
chuyên gia hơn bao gồm một lớp cụ thể, vì việc đào tạo các mô hình chuyên gia độc lập rất dễ song song hóa.
6 mục tiêu mềm với tư cách là người điều chỉnh
Một trong những tuyên bố chính của chúng tôi về việc sử dụng các mục tiêu mềm thay vì các mục tiêu cứng là rất
nhiều thông tin hữu ích có thể được mang trong các mục tiêu mềm mà không thể được mã hóa bằng một mục tiêu
cứng duy nhất. Trong phần này, chúng tôi chứng minh rằng đây là một hiệu ứng rất lớn bằng cách sử dụng ít dữ
liệu hơn nhiều để phù hợp với tốc độ 85M pa của mô hình giọng nói cơ sở được mô tả trước đó. Bảng 5 cho thấy
rằng chỉ với 3% dữ liệu (khoảng 20 triệu ví dụ), việc huấn luyện mô hình cơ sở với các mục tiêu khó dẫn đến
tình trạng quá khớp nghiêm trọng (chúng tôi đã dừng sớm vì độ chính xác giảm mạnh sau khi đạt 44,5%), trong khi
mô hình tương tự được huấn luyện với các mục tiêu mềm có thể khôi phục gần như tất cả thông tin trong tập
huấn luyện đầy đủ (khoảng 2% nhút nhát). Điều đáng chú ý hơn nữa là chúng tôi không phải dừng sớm: hệ thống
với các mục tiêu mềm chỉ đơn giản là “hội tụ” thành 57%. Điều này cho thấy rằng các mục tiêu mềm là một cách
rất hiệu quả để truyền đạt các quy tắc được phát hiện bởi một mô hình được đào tạo trên tất cả dữ liệu sang một mô hình khác.
7
Hệ thống & tập huấn luyện Khung xe lửa Độ chính xác Kiểm tra khung Độ chính xác
Đường cơ sở (100% tập huấn luyện) 63,4% 58,9% 67,3% 44,5% 65,4% 57,0%
Đường cơ sở (3% tập huấn luyện)

Mục tiêu mềm (3% tập huấn luyện)
Bảng 5: Các mục tiêu mềm cho phép một mô hình mới khái quát hóa tốt chỉ từ 3% tập huấn luyện. Các mục tiêu mềm có được
bằng cách huấn luyện trên tập huấn luyện đầy đủ.
6.1 Sử dụng các mục tiêu mềm để ngăn các chuyên gia trang bị quá mức
Các chuyên gia mà chúng tôi đã sử dụng trong các thử nghiệm của mình trên bộ dữ liệu JFT đã thu gọn tất cả các lớp không
chuyên của họ thành một lớp thùng rác duy nhất. Nếu chúng tôi cho phép các chuyên gia có softmax đầy đủ trên tất cả các
lớp, có thể có một cách tốt hơn nhiều để ngăn chặn việc họ khớp quá mức so với sử dụng dừng sớm. Một chuyên gia được
đào tạo về dữ liệu được làm giàu cao trong các lớp đặc biệt của nó. Điều này có nghĩa là kích thước hiệu quả của tập
huấn luyện của nó nhỏ hơn nhiều và nó có xu hướng overfit mạnh mẽ trên các lớp đặc biệt của nó. Vấn đề này không thể
được giải quyết bằng cách làm cho lớp chuyên gia nhỏ hơn rất nhiều vì khi đó chúng ta sẽ mất đi các hiệu ứng chuyển
giao rất hữu ích mà chúng ta có được từ việc lập mô hình cho tất cả các lớp không chuyên gia.
Thử nghiệm của chúng tôi sử dụng 3% dữ liệu giọng nói gợi ý mạnh mẽ rằng nếu một chuyên gia được khởi tạo với trọng số
của người nói chung, chúng ta có thể khiến nó giữ lại gần như tất cả kiến thức về các lớp không đặc biệt bằng cách huấn
luyện nó với các mục tiêu mềm cho lớp không đặc biệt. các lớp học đặc biệt ngoài việc đào tạo nó với các mục tiêu khó
khăn. Các mục tiêu mềm có thể được cung cấp bởi nhà tổng quát. Chúng tôi hiện đang khám phá phương pháp này.
7 Mối quan hệ với các nhóm chuyên gia
Việc sử dụng các chuyên gia được đào tạo trên các tập hợp con của dữ liệu có một số điểm giống với hỗn hợp các chuyên
gia [6] sử dụng mạng lưới để tính toán xác suất gán từng ví dụ cho từng chuyên gia. Đồng thời với việc các chuyên gia
đang học cách xử lý các ví dụ được chỉ định cho họ, mạng lưới đang học cách chọn chuyên gia nào để chỉ định từng ví dụ
dựa trên hiệu suất phân biệt đối xử tương đối của các chuyên gia đối với ví dụ đó. Sử dụng hiệu suất phân biệt của các
chuyên gia để xác định các nhiệm vụ đã học tốt hơn nhiều so với việc chỉ phân cụm các vectơ đầu vào và chỉ định một
chuyên gia cho từng cụm, nhưng nó làm cho việc đào tạo khó song song hóa: Đầu tiên, tập huấn luyện có trọng số cho mỗi
chuyên gia liên tục thay đổi trong một cách phụ thuộc vào tất cả các chuyên gia khác và thứ hai, mạng lưới phân bổ cần
so sánh hiệu suất của các chuyên gia khác nhau trên cùng một ví dụ để biết cách sửa đổi xác suất phân công của nó. Những
khó khăn này có nghĩa là sự kết hợp của các chuyên gia hiếm khi được sử dụng trong chế độ mà họ có thể có lợi nhất: các
nhiệm vụ với bộ dữ liệu khổng lồ chứa các tập hợp con khác nhau rõ ràng.
Việc song song đào tạo nhiều chuyên gia sẽ dễ dàng hơn nhiều. Trước tiên, chúng tôi đào tạo một mô hình tổng quát và
sau đó sử dụng ma trận nhầm lẫn để xác định các tập hợp con mà các chuyên gia được đào tạo. Khi các tập hợp con này đã
được xác định, các chuyên gia có thể được đào tạo hoàn toàn độc lập. Tại thời điểm thử nghiệm, chúng tôi có thể sử
dụng các dự đoán từ mô hình chung để quyết định chuyên gia nào có liên quan và chỉ những chuyên gia này mới cần được
chạy.
8 Thảo luận
Chúng tôi đã chỉ ra rằng quá trình chắt lọc hoạt động rất tốt để chuyển kiến thức từ một tập hợp hoặc từ một mô hình lớn
được chuẩn hóa cao sang một mô hình nhỏ hơn, được chắt lọc. Trên MNIST, quá trình chưng cất hoạt động rất tốt ngay cả
khi bộ truyền được sử dụng để huấn luyện mô hình chưng cất thiếu bất kỳ ví dụ nào về một hoặc nhiều lớp. Đối với mô
hình âm thanh sâu là phiên bản của mô hình được sử dụng bởi tính năng tìm kiếm bằng giọng nói của Android, chúng tôi đã
chỉ ra rằng gần như tất cả các cải tiến đạt được bằng cách đào tạo một tập hợp các mạng thần kinh sâu có thể được chắt
lọc thành một mạng thần kinh duy nhất có cùng kích thước. là dễ dàng hơn nhiều để triển khai.
Đối với các mạng thần kinh thực sự lớn, thậm chí có thể không khả thi để đào tạo một nhóm đầy đủ, nhưng chúng tôi đã
chỉ ra rằng hiệu suất của một mạng thực sự lớn duy nhất đã được đào tạo trong một thời gian rất dài có thể được cải
thiện đáng kể bằng cách học một số lượng lớn mạng chuyên gia, mỗi mạng học cách phân biệt giữa các lớp trong một cụm
rất dễ nhầm lẫn. Chúng tôi vẫn chưa chỉ ra rằng chúng tôi có thể chắt lọc kiến thức từ các chuyên gia trở lại một mạng
lưới lớn duy nhất.
số 8
Sự nhìn nhận
Chúng tôi cảm ơn Yangqing Jia đã hỗ trợ đào tạo các mô hình trên ImageNet và Ilya Sutskever và Yoram Singer
vì những cuộc thảo luận hữu ích.
Người giới thiệu
[1] C. Buciluˇa, R. Caruana, và A. Niculescu-Mizil. nén mô hình. Trong Kỷ yếu của Hội nghị Quốc tế ACM
SIGKDD lần thứ 12 về Khám phá Tri thức và Khai thác Dữ liệu, KDD '06, trang 535–
541, New York, NY, USA,
2006. ACM.
[2] J. Dean, GS Corrado, R. Monga, K. Chen, M. Devin, QV Le, MZ Mao, M. Ranzato, A. Senior, P. Tucker, K.
Yang, và AY Ng. Mạng sâu phân tán quy mô lớn. Trong NIPS, 2012.
[3] TG Dietrich. Các phương pháp tập hợp trong học máy. Trong Nhiều hệ thống phân loại, trang 1–
15. Mùa
xuân, 2000.
[4] GE Hinton, L. Deng, D. Yu, GE Dahl, A. Mohamed, N. Jaitly, A. Senior, V. Vanhoucke, P. Nguyen, T. N.
Sainath, và B. Kingsbury. Mạng lưới thần kinh sâu cho mô hình âm thanh trong nhận dạng giọng nói: Quan
điểm chung của bốn nhóm nghiên cứu. Tạp chí xử lý tín hiệu, IEEE, 29(6):82–97, 2012.
[5] GE Hinton, N. Srivastava, A. Krizhevsky, I. Sutskever, và R. R. Salakhutdinov. Tôi đang chứng minh các
mạng thần kinh bằng cách ngăn chặn sự đồng thích ứng của các trình phát hiện tính năng. bản in trước
arXiv arXiv:1207.0580, 2012.
[6] RA Jacobs, MI Jordan, SJ Nowlan, và GE Hinton. Hỗn hợp thích ứng của các chuyên gia địa phương.
Tính toán thần kinh, 3(1):79–
87, 1991.
[7] A. Krizhevsky, I. Sutskever, và GE Hinton. Phân loại Imagenet với các mạng thần kinh tích chập sâu.
Trong Những tiến bộ trong Hệ thống Xử lý Thông tin Thần kinh, trang 1097–
1105, 2012.
[8] J. Li, R. Zhao, J. Huang và Y. Gong. Học dnn quy mô nhỏ dựa trên phân phối đầu ra
tiêu chuẩn. Trong Kỷ yếu Interspeech 2014, trang 1910–1914, 2014.
[9] N. Srivastava, GE Hinton, A. Krizhevsky, I. Sutskever, và R. R. Salakhutdinov. Bỏ học: Một cách đơn
giản để ngăn mạng nơ-ron khớp quá mức. Tạp chí Nghiên cứu Máy học, 15(1):1929–1958, 2014.

2015 TL KnowledgeDistillation

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

2015 TL KnowledgeDistillation

Uploaded by

Copyright:

Available Formats

Chắt

Geoffrey Hinton † Oriol Vinyals† Jeff Dean

Google Inc. Google Inc. Google Inc.

geoffhinton@google.com vinyals@google.com jeff@google.com

j zj = vj = 0 Eq. 3 đơn giản hóa thành:

3 Thí nghiệm sơ bộ trên MNIST

4 Thí nghiệm về nhận dạng giọng nói

θ = arg max P(ht|st; θ ′)

Hệ thống Độ chính xác của khung kiểm tra

Mô hình đơn chưng cất

4.1 Kết quả

5.1 Bộ dữ liệu JFT

5.2 Mô hình Chuyên gia

5.3 Phân lớp cho chuyên gia

5.4 Thực hiện suy luận với nhóm chuyên gia

KL(p g , q) + KL(p m, q) (5)

+ 61 Mẫu chuyên dụng

5.5 Kết quả

6 mục tiêu mềm với tư cách là người điều chỉnh

Đường cơ sở (3% tập huấn luyện)

7 Mối quan hệ với các nhóm chuyên gia

Người giới thiệu

You might also like