FAIR2020 - paper - 30 - KẾT HỢP ĐẶC TRƯNG SÂU TRONG HỖ TRỢ CHẨN ĐOÁN UNG THƯ VÚ TRÊN NHŨ ẢNH X-QUANG

Kỷ yếu Hội nghị Quốc gia lần thứ … về Nghiên cứu cơ bản và ứng dụng Công Nghệ thông
tin (FAIR); …, ngày …/…/…
KẾT HỢP ĐẶC TRƯNG SÂU TRONG HỖ TRỢ CHẨN ĐOÁN UNG THƯ VÚ
TRÊN NHŨ ẢNH X-QUANG
Nguyễn Chí Thanh1, Võ Thị Huyền Trang1, Lê Minh Hưng1, Hoàng Lê Uyên Thục2
1 Khoa Khoa học Máy tính, Trường ĐH Công nghệ Thông tin, ĐHQG TP.HCM
2 Đại học Bách khoa – Đại học Đà Nẵng
1 16521118@gm.uit.edu.vn, 16521283@gm.uit.edu.vn, hunglm@uit.edu.vn, hluthuc@dut.udn.vn
TÓM TẮT— Bệnh Ung thư vú là loại ung thư nguy hiểm nhất đối với phụ nữ, các phương pháp sàng lọc bệnh phổ biến là
chẩn đoán dựa trên nhũ ảnh, kết quả chẩn đoán bệnh lệ thuộc vào chất lượng ảnh và chuyên môn của bác sỹ. Điều này dẫn đến tốn
chi phí, thời gian, công sức mà hiệu quả đạt được không cao. Hiện nay, có nhiều hệ thống hỗ trợ các bác sỹ hình ảnh nâng cao khả
năng chẩn đoán bệnh qua nhũ ảnh như phần mềm phát hiện và chẩn đoán bằng máy tính (Computer Aided Diagnosis - CAD) đã
được phát triển và ứng dụng lâm sàng từ những năm 1990, có nhiều phương pháp mới sử dụng deep learning, mạng neuron tích
chập để tự động học và trích xuất các đặc trưng giúp mang lại độ chính xác cao hơn các phương pháp truyền thống. Tuy nhiên, các
phương pháp hiện nay chỉ mới tập trung vào phân loại mà không chỉ ra cụ thể vùng bệnh (tổn thương) nên gây rất nhiều khó khăn
cho việc chẩn đoán và điều trị bệnh. Trong bài báo này, chúng tôi đề xuất một giải pháp có thể hỗ trợ bác sỹ hình ảnh phát hiện
chính xác bệnh ung thư vú và phân loại ung thư khi chụp X-quang tuyến vú bằng cách sử dụng phương pháp huấn luyện end-to-end
kết hợp với mô hình CNN state-of-the-art EfficientNetB3. Chúng tôi, tiến hành thực nghiệm trên các ảnh chụp X-quang tuyến vú đã
được số hóa từ tập dữ liệu Curated Breast Imaging Subset of Digital Database for Screening Mammography (CBIS-DDSM), mô
hình tốt nhất đạt AUC là 0,91 (độ nhạy: 81% , độ đặc hiệu: 83%).
Từ khóa— Mammograms, Breast cancer, Deep Convolutional Neural Networks (DCNNs), EfficientNet
I. GIỚI THIỆU
Sự phát triển nhanh chóng của khoa học máy tính, cụ thể sự bùng nổ của máy học, đặc biệt là học sâu tiếp tục
thúc đẩy các nhà khoa học máy tính chuyên nghiên cứu y khoa quan tâm đến việc áp dụng các kỹ thuật mới này để hỗ
trợ cho bác sỹ cải thiện độ chính xác của việc chẩn đoán ung thư. Ung thư vú là một trong những nguyên nhân chính
gây tử vong do ung thư ở phụ nữ Mỹ [1] và chụp nhũ ảnh để sàn lọc bệnh đã được chứng minh giúp giảm tỷ lệ tử vong
[2]. Mặc dù, nhũ ảnh được sử dụng rộng rãi trong chẩn đoán ung thư, nhưng việc giải thích những hình ảnh này vẫn còn
nhiều thách thức. Xác định dương tính giả (có bệnh) có thể gây ra những lo lắng không đáng có cho bệnh nhân và kéo
theo các thủ tục chẩn đoán xâm lấn không cần thiết, tốn kém hay ung thư bị bỏ sót trong sàng lọc (âm tính giả) có thể
không được xác định cho đến khi chúng phát triển hơn. Computer-aided detection (CAD) được phát triển để giúp bác sĩ
X-quang thuận tiện trong việc đọc nhũ ảnh. Ban đầu, một số nghiên cứu đã đưa ra các kết luận về tương lai đầy hứa
hẹn của CAD [3] [4] [5] [6]. Tuy nhiên, trong hơn thập kỷ qua, nhiều nghiên cứu kết luận rằng CAD hiện đang được sử
dụng không cải thiện hiệu suất của bác sĩ X-quang trong công việc hàng ngày ở Mỹ [7] [8] [9]. Với sự thành công vượt bậc
của học sâu trong nhận dạng và phát hiện đối tượng [10], ngày càng xuất hiện nhiều nghiên cứu phát triển các công cụ
học sâu để hỗ trợ các bác sĩ X-quang nhằm cải thiện độ chính xác của chẩn đoán trên nhũ ảnh [11] [12] [13] [14] [15]. Các
nghiên cứu cũng chỉ ra rằng một hệ thống CAD dựa trên học sâu hoạt động tốt tương đương với hiệu suất của bác sĩ X-
quang độc lập [16] [17].
Nhũ ảnh là ảnh có kích thước lớn, việc phát hiện vùng ung thư (vùng tổn thương) trên nhũ ảnh là vùng bất
thường có kích thước rất nhỏ so với kích thước của ảnh rất khó khăn và là thách thức lớn. Ví dụ, nhũ ảnh thuộc bộ dữ
liệu CBIS-DDSM thường là 3000 × 5000 pixel trong khi vùng quan tâm có khả năng gây ung thư (ROI) có thể nhỏ tới
100 × 100 pixel. Ngoài ra, vùng tổn thương có thể xuất hiện ở những vị trị khó phát hiện như ở cơ ngực và các vùng
dày đặc trong ảnh nên rất khó để nhận ra. Vì vậy, nhiều nghiên cứu đã giới hạn lại, chỉ tập trung vào việc phân loại các
chú thích tổn thương [18] [19] [20] [21] [22]. Mặc khác, sự hạn chế của các bộ dữ liệu nhũ ảnh và rất ít bộ dữ liệu nhũ ảnh đã
công khai được chú thích đầy đủ [23] cộng với việc hiếm khi có sẵn chú thích tổn thương mà chỉ chú thích tình trạng như
ung thư hay không ung thư, đây cũng là một thách thức lớn.
Pre-training là một phương pháp huấn luyện đầy hứa hẹn để giải quyết vấn đề huấn luyện một bộ phân loại khi
không có sẵn bộ dữ liệu huấn luyện đủ lớn. Cụ thể, Hinton và cộng sự đã sử dụng phương pháp pre-training để khởi tạo
các tham số trọng số cho mạng Deep Belief Networks (DBN) với ba lớp ẩn và sau đó tinh chỉnh nó để phân loại kết
quả đã cải thiện tốc độ huấn luyện cũng như độ chính xác của bộ nhận dạng chữ viết tay [24]. Một phương pháp huấn
luyện phổ biến khác là trước tiên huấn luyện một mô hình học sâu trên cơ sở dữ liệu lớn như ImageNet [25] và sau đó
tinh chỉnh mô hình cho một tác vụ khác, mặc dù tác vụ cụ thể có thể không liên quan đến tập dữ liệu huấn luyện ban
đầu, các tham số trọng số của mô hình, thứ đã được khởi tạo từ trước để nhận dạng các đặc trưng cơ bản, như cạnh, góc
và kết cấu, có thể dễ dàng sử dụng cho một tác vụ sau, điều này tiết kiệm thời gian huấn luyện và cải thiện hiệu suất
mô hình [26]. Trong bài báo này, chúng tôi dựa trên phương pháp được đề xuất của nhóm tác giả trường Y khoa Icahn
tại Mount Sinai, New York, Mỹ được đăng tại IPS 2017 workshop có tên : “Deep Learning to Improve Breast Cancer
Detection on Screening Mammography” [27] để đề xuất một giải pháp có thể hỗ trợ bác sỹ hình ảnh phát hiện chính xác
bệnh ung thư vú, xác định vùng tổn thương và phân loại ung thư bằng cách sử dụng phương pháp huấn luyện end-to-
end kết hợp với mô hình CNN state-of-the-art EfficientNetB3. Phương pháp được chia làm hai giai đoạn. Giai đoạn 1,
huấn luyện bộ phân loại trên vùng ảnh cục bộ (gọi là patch model) bằng cách sử dụng tập dữ liệu được chú thích đầy
2 KẾT HỢP ĐẶC TRƯNG SÂU TRONG HỖ TRỢ CHẨN ĐOÁN UNG THƯ VÚ TRÊN NHŨ ẢNH X -QUANG
đủ với thông tin ROI. Giai đoạn 2, từ các tham số trọng số của patch model, ta sử dụng chúng để khởi tạo các tham số
trọng số của mô hình phân loại toàn hình ảnh (gọi là whole image model). Chúng tôi đã đánh giá các kiến trúc mạng
khác nhau để xây dựng patch model và whole image model sao cho đạt được hiệu suất tốt nhất.
Những đóng góp chính của bài báo này, bao gồm:
- Đề xuất xây dựng hệ thống hỗ trợ chuẩn đoán bệnh ung thư vú sử dụng mô hình mạng CNN: VGG16,
ResNet50 và EfficientNetB3 kết hợp với phương pháp huấn luyện end-to-end.
- Theo cách tiếp cận này, chú thích vùng bệnh (tổn thương) trên ảnh chỉ được yêu cầu trong giai đoạn huấn
luyện ban đầu và các giai đoạn tiếp theo chỉ yêu cầu gán nhãn hình ảnh, loại bỏ phụ thuộc vào các chú thích
vùng bệnh (tổn thương) hiếm khi có sẵn trên các loại ảnh y khoa.
- Tiến hành nhiều thực nghiệm trên bộ dữ liệu Curated Breast Imaging Subset of Digital Database for
Screening Mammography (CBIS-DDSM) đánh giá và so sánh kết quả đạt được.
Bài báo cáo này chúng tôi trình bày gồm phần 1 giới thiệu và các công việc liên quan, các phương pháp được sử
dụng trong nghiên cứu này được thể hiện trong phần 2. Thực nghiệm và đánh giá được trình bày trong phần 3, phần 4
là phần kết luận và hướng phát triển.
II. PHƯƠNG PHÁP
Thách thức lớn nhất của bài toán này là vùng bất thường (có bệnh) có kích thước rất nhỏ so với kích thước của
ảnh nhũ, do đó việc phân loại nhũ ảnh trên cấp độ toàn hình ảnh sẽ gặp nhiễu dẫn đến chẩn đoán sai. Một cách tiếp cận
phổ biến là sử dụng mô hình phân loại vùng ảnh hoạt động như một cửa sổ trượt (sliding window) để tạo ra một lưới
xác suất (gọi là heatmap). Theo sau đó là một tiến trình khác với mục đích tổng hợp đầu ra của mô hình phân loại vùng
ảnh, cho kết quả phân loại cuối cùng (cấp độ toàn bộ hình ảnh- whole image). Tuy nhiên, cách tiếp cận này yêu cầu hai
bước mà mỗi bước cần phải tối ưu riêng biệt. Đồng thời, đã giả thuyết rằng heatmap có thể gây mất mát thông tin trong
mô hình phân loại nhũ ảnh. Giả thuyết này đã được chứng minh là đúng [28]. Điều này chỉ ra rằng việc loại bỏ heatmap
có lợi cho mô hình phân loại nhũ ảnh.
2.1. Bộ dữ liệu
DDSM [29] là một bộ dữ liệu ảnh nhũ được định dạng lossless-JPEG. Trong phạm vi bài báo này, chúng tôi sử
dụng bộ dữ liệu CBIS-DDSM [30] là một phiên bản mới của bộ dữ liệu DDSM. CBIS-DDSM chứa tập các ảnh được
giải nén và chuyển đổi sang định dạng DICOM tiêu chuẩn. Bộ dữ liệu có tất cả 2821 nhũ ảnh từ 1249 phụ nữ, được tải
về từ trang chủ CBIS-DDSM. Bộ dữ liệu gồm hai nhóm ảnh ung thư là ảnh khối và ảnh vôi hoá. Bên trong mỗi ảnh
DICOM có chứa nhiều thông tin khác nhau: thông tin bệnh nhân, trạng thái bệnh lý, vùng chứa tổn thương trong
ảnh,… Mỗi ảnh được gán một trong hai nhãn là benign và malignant tương ứng với hai mức độ khác nhau trong chẩn
đoán ung thư vú là lành tính và ác tính. Ngoài ra, mỗi một ảnh cũng được chú thích về vị trí của vùng tổn thương ung
thư gồm cả khối u lành tính, khối u ác tính và vôi hoá lành tính, vôi hóa ác tính xuất hiện trong ảnh.Trong phạm vi bài
báo này chúng tôi chỉ thực hiện phân loại trên nhóm ảnh khối (còn được gọi là ảnh mass).
Đầu tiên, chuyển toàn bộ dữ liệu từ định dạng DICOM sang JPEG với kích thước là 1152×896 để phù hợp với
cấu hình phần cứng. Sau đó, chia ngẫu nhiên bộ dữ liệu thành hai phần training set và testing set theo tỉ lệ 85:15. Từ
training set, tiếp tục chia ngẫu nhiên theo tỉ lệ 90:10 để tạo validation set độc lập. Việc chia này vẫn đảm bảo tỉ lệ các
trường hợp ung thư là giống nhau trên ba bộ training set, testing set và validation set. Bộ dữ liệu có 2 nhãn là lành tính
(benign) và ác tính (malignant). Trong bài báo này, chúng tôi qui ước trường hợp dương tính (positive – POS ) tương
ứng với ác tính và trường hợp âm tính (negative – NEG ) tương ứng với lành tính.
Nhìn chung, bộ dữ liệu có số lượng ảnh ít so với yêu cầu bài toán là phân loại hình ảnh, do đó cần áp dụng các
kỹ thuật xử lý của bài toán phân loại khi gặp dữ liệu có số lượng ít. Tỉ lệ hai lớp NEG và POS trong cả ba tập dữ liệu
train, test, validation không chênh lệch nhau nhiều nên có thể xem là các lớp cân bằng với nhau. Sự khác nhau giữa hai
nhãn NEG và POS là rất khó phân biệt đối với người không có chuyên môn, do đó thách thức của bài toán này là rất
lớn.
2.2. Các giai đoạn huấn luyện
2.3. Giai đoạn 1: Bộ phân loại trên vùng ảnh (patch model)
Để mô hình có thể phân biệt được vùng bình thường (Background) và hai loại vùng bất thường (POS và NEG) với
nhau, trước tiên chúng tôi huấn luyện một mô hình trên vùng ảnh – gọi là patch model.
a. Bộ dữ liệu vùng ảnh (patch set)
Bộ patch set có 3 nhãn là Background, POS và NEG. Bộ dữ liệu cung cấp các ảnh nhũ và ảnh khoanh vùng
bệnh (MASK). Mỗi ảnh patch trong bộ patch set được tạo bằng cách lấy phần tương ứng giữa ảnh MASK và ảnh nhũ.
Để tăng số lượng ảnh patch dùng cho việc huấn luyện mô hình, mỗi vùng khả nghi được tăng số lượng bằng cách lấy
ngẫu nhiên thêm 9 vùng được cắt từ cùng ảnh nhũ sao cho tỉ lệ trùng lấp (overlap) lớn hơn 90%. Đối với ảnh mang
nhãn Background, chúng tôi cũng cắt từ cùng ảnh nhũ sao cho tỉ lệ trùng lấp (overlap) bằng 0%. Số lượng ảnh
Nguyễn Chí Thanh, Võ Thị Huyền Trang, Lê Minh Hưng, Hoàng Lê Uyên Thục 3
background được cắt từ ảnh nhũ là 5 để cân bằng số lượng ảnh của 3 lớp. Sau đó, tất cả ảnh patch được resize về kích
thước 224×224 để đưa vào patch model.
Hình 1. Quy trình tạo patch set. (a) Ảnh nhũ gốc, (b) Ground truth ROI (MASK), (c) Ảnh patch được cắt chưa được tiền xử lý, (d)
Ảnh patch sau khi được tăng độ tương phản.
Một vấn đề xảy ra trong quá trình cắt là độ tương phản. Sau khi cắt ảnh patch từ ảnh nhũ, bức ảnh có độ tương
phản thấp. Tại đây, chúng tôi tăng độ tương phản của ảnh patch lên bằng gói ứng dụng tích hợp trong hệ điều hành
linux, có tên là Imagemagick.
b. Kiến trúc patch model
Vì huấn luyện trên dữ liệu nhỏ, chúng tôi sử dụng hai phương pháp là học chuyển tiếp (transfer learning) và tinh
chỉnh mạng (fine tuning). Chúng tôi lần lượt thử nghiệm trên 3 mô hình mạng đã được huấn luyện trên bộ dữ liệu
ImageNet [31] là: VGG16, ResNet50 và EfficientNetB3. Chúng tôi thay thế lớp FC phân loại 1000 nhãn bằng một lớp
global average pooling và theo sau đó là một đầu ra phân loại 3 nhãn bởi một lớp FC khác. Đầu tiên, với mỗi ảnh nhũ
(mamogram) và ảnh MASK tương ứng của nó, ta thu được 10 ảnh patch và 5 ảnh background. Mỗi ảnh sẽ được tiền xử
lý bằng Imagemagick để tăng độ tương phản và resize về 224 x 224. Từ đây ta có được bộ patch set với 3 lớp là
Background, NEG và POS. Các mô hình được tiền huấn luyện trên bộ dữ liệu ImageNet, gọi tắt là NNet. Chúng tôi
thay thế các lớp FC cuối bằng lớp global average pooling theo sau là một lớp FC để phân loại 3 nhãn. Áp dụng phương
pháp học chuyển tiếp lên NNet, ta chỉ huấn luyện những lớp vừa thêm, đóng băng các lớp còn lại trong NNet. Tiếp
theo, ta áp dụng phương pháp tinh chỉnh mạng bằng cách mở băng những lớp trong NNet và huấn luyện nó cùng với
những lớp vừa thêm. Kết thúc quy trình ta được một mô hình có thể phân loại 3 nhãn trên bộ dữ liệu patch vừa tạo ở
trên.
2.4. Giai đoạn 2: Bộ phân loại trên toàn nhũ ảnh (whole image model)
a. VGG block
Một mô hình mạng nơ ron tích chập hiện đại thông thường được xây dựng bởi việc xếp chồng các lớp Conv lên
trên đầu vào, tiếp theo đó là một hoặc nhiều lớp FC để tạo đầu ra phân loại các nhãn. Lớp Max pooling thường được sử
dụng giữa các lớp Conv để cải thiện tính bất biến cũng như giảm kích thước feature map. Các lớp liên tiếp với nhau có
thể được gom lại thành một “block” để kích thước feature map được giảm (thường theo hệ số là 2) ở đầu hoặc cuối mỗi
block nhưng vẫn giữ nguyên ở những nơi khác trong block. Một VGG block có cấu trúc là một stack gồm nhiều lớp
3×3 Conv có cùng độ sâu theo sau là một lớp 2×2 Max pooling, làm giảm kích thước feature map theo hệ số là 2. Mặc
dù những kích thước bộ lọc khác cũng có thể được sử dụng nhưng 3×3 Conv và 2×2 Max pooling vẫn được sử dụng
rộng rãi hơn. Từ kiến trúc trên, một block VGG có thể được biểu diễn bằng mẫu [N x K] với N đại diện cho độ sâu của
mỗi lớp Conv và K đại diện cho số lượng lớp Conv.
Batch normalization (BN) là một phương pháp hiệu quả khi huấn luyện một mô hình mạng nơ ron. Mục tiêu của
phương pháp này là chuẩn hóa đầu ra của mỗi lớp sau khi đi qua hàm activation về trạng thái zero-mean với độ lệch
chuẩn. Để cải tiến kiến trúc VGG block nguyên bản, tác giả VGG đã sử dụng lớp Batch normalization xen giữa lớp
Conv và lớp Max pooling. Việc can thiệp này với mục đích giúp cho mô hình hội tụ nhanh hơn cũng như có hiệu ứng
regularization khiến cho mô hình có thể tránh được “overfiting”.
Trong bài báo này, chúng tôi sử dụng VGG block có Batch normalization trong kiến trúc mô hình mạng phân
loại nhũ ảnh. Kiến trúc mô hình sẽ trình bày chi tiết ở phần tiếp theo.
b. Chuyển mô hình phân loại ảnh patch (patch model) sang phân loại ảnh nhũ (whole image model)
Hình 2. Chuyển đổi patch model thành whole image model có thể được huấn luyện từ đầu đến cuối (end-to-end) bằng cách sử dụng
kiến trúc all convolutional. Trọng số từ các patch được gán trực tiếp vào mô hình whole image classification và được tinh chỉnh lại
để tổng hợp các kết quả chẩn đoán trên các patch thành kết quả cuối cùng của toàn ảnh.
Sau khi huấn luyện patch model, chúng tôi xây dựng mô hình phân loại nhũ ảnh bằng phương pháp bài báo [27]
đề xuất: Bằng cách thay thế đầu vào X ∈ 𝐼𝑅 𝑝×𝑞 của patch model với p là chiều rộng, q là chiều dài của patch bằng M
∈ 𝐼𝑅 𝑟×𝑠 với r là chiều rộng, s là chiều dài của ảnh nhũ. Sau đó, thêm vào top layer của patch model lớp Conv. Điều
này làm cho patch model hoạt động giống một bộ lọc, trượt trên toàn bộ ảnh nhũ và tính xác suất các vùng đó theo mỗi
nhãn đã được huấn luyện từ trước. Kết quả đầu ra mỗi vùng được dùng để tổng hợp kết quả phân loại cuối cùng bằng
cách thêm các lớp global average pooling và lớp FC vào cuối mô hình mạng. Việc áp dụng patch model lên ảnh nhũ
mà không cần thay đổi tham số của mô hình là nhờ vào tính chất của mạng tích chập sâu là chia sẻ trọng số (weight
sharing) và các đặc tính cục bộ (locality properties).
Bản chất phương pháp này là dựa trên nguyên lí cốt lõi trong bài toán xác định vật thể (object detection). Muốn
xác định có vật thể hay không trong một tấm ảnh, ta sẽ dùng một của sổ trượt (sliding window). Lần lượt trượt từ đầu
đến cuối của tấm hình, kết quả sau mỗi lần trượt sẽ có các giá trị như xác suất vùng ảnh là vật thể hay background dựa
trên các đặc trưng của vật thể mà mô hình đã học trước đó. Nếu là vật thể sẽ theo sau đó là tọa độ của nó trên ảnh. Từ
các giá trị sau mỗi lần trượt trên, mô hình sẽ xác định liệu tấm hình có chứa vật thể và vị trí vật thể ở đâu nếu có. Vì
mỗi lần trượt mô hình phải tính toán lại nên dẫn đến thời gian xử lí chậm, đây cũng là nhược điểm của phương pháp
này. Khi thay đầu vào của patch model từ patch sang whole image, mô hình sẽ cho đầu ra là một heatmap thể hiện xác
suất vùng ảnh là khả nghi hay không. Các vùng ảnh như được tính toán song song cùng một lúc nên sẽ cải thiện đáng
kể thời gian xử lí, tối ưu hơn phương pháp sliding window ở trên. Ban đầu sử dụng heatmap làm đầu ra của patch
model, rồi tiếp tục huấn luyện mô hình whole image để tổng hợp kết quả phân loại. Tuy nhiên, vì sử dụng heatmap để
huấn luyện nên kết quả phân loại không đạt yêu cầu, vì thế tác giả đã loại bỏ heatmap, dùng đặc trưng trước khi tổng
hợp heatmap để huấn luyện mô hình phân loại nhũ ảnh. Mô hình sau đó đã cải thiện độ chính xác đáng kể. Điều này
được chứng minh ở bảng 1 [27].
Bảng 1. AUC của whole image model sử dụng VGG16 làm patch model trên bộ kiểm tra độc lập. #Epochs cho biết tại epoch
nào thì đạt được AUC cao nhất trên valisation set. Các mô hình hoạt động tốt nhất được hiển thị bằng chữ in đậm.
Block 1 Block 2 AUC [95% CI] A-AUC [95% CI] #Epochs
512x3 512x3 0.81 [0.77, 0.84] 0.82 [0.78, 0.85] 91

256×1 128×1 0.85 [0.81, 0.88] 0.86 [0.83, 0.89] 61
128×1 64×1 0.84 [0.80, 0.87] 0.86 [0.82, 0.89] 142
Thêm heatmap và lớp FC vào top layer của patch model
Pool size FC1 FC2
5×5 64 32 0.71 [0.66, 0.75] NA 26
2x2 512 256 0.68 [0.63, 0.73] NA 27
1x1 2048 1024 0.70 [0.65, 0.74] NA 50
Nhận xét:
Bằng việc sử dụng tính chất của mạng nơ ron tích chập sâu, sử dụng patch model như một bộ lọc phân loại đồng
thời từng vùng ảnh khiến cho quá trình phân loại nhanh hơn nhiều lần với cách tiếp cận phổ biến. Cách tiếp cận này
khiến cho mô hình trở thành mô hình end-to-end, do đó chỉ cần tối ưu mô hình thành một bước thay vì hai bước riêng
biệt. Không những vậy, cách tiếp cận trên cho phép chúng ta giảm một cách đáng kể yêu cầu sẵn có đối với các chú
thích tổn thương trong bộ dữ liệu, mang lại nhiều ứng dụng trong xử lý ảnh y khoa cũng như bài toán phát hiện
(detection) ung thư vú trên nhũ ảnh.
III. THỰC NGHIỆM VÀ ĐÁNH GIÁ
3.1. Môi trường và ngôn ngữ cài đặt
Chúng tôi tiến hành cài đặt mô hình bằng ngôn ngữ Python3, với các thư viện: tensorflow, opencv, scikit -learn,
pydicom, pandas.
Chương trình chạy trên máy ảo do Google Colab cung cấp với cấu hình: 25 GB RAM, GPU Tesla P100-PCIE.
3.2. Huấn luyện các mô hình
Huấn luyện mô hình phân loại nhũ ảnh trải qua hai bước. Bước đầu tiên, huấn luyện patch model, so sánh các
mô hình có trọng số được huấn luyện trước trên sở dữ liệu ImageNet với các mô hình có trọng số được khởi tạo ngẫu
nhiên [27]. Trong một mô hình đã được huấn luyện trước, các lớp dưới cùng đại diện cho các đặc trưng cơ bản có xu
hướng được bảo toàn trên các tác vụ khác nhau, trong khi các lớp trên cùng đại diện cho các đặc trưng bậc cao liên
quan đến các tác vụ cụ thể và yêu cầu cần huấn luyện tạo thêm. Trong quá trình huấn luyện, sử dụng cùng một learning
rate cho tất cả các lớp có thể phá hủy các đặc trưng đã được học ở các lớp dưới cùng. Để ngăn chặn điều này, một
chiến lược huấn luyện gồm 3 giai đoạn được sử dụng. Đóng băng tất cả các lớp trừ lớp cuối cùng và dần dần mở băng
các lớp từ trên xuống dưới, đồng thời giảm learning rate. SGD (stochastic gradient descent) được sử dụng làm hàm tối
ưu và batch size là 32. Cụ thể như sau:
• Huấn luyện last layer trên 3 epochs với learning rate bằng 1e-3.
• Huấn luyện last layer và top layer với learning rate bằng 1e-4 trên 10 epochs với số top layer bằng 15 đối với
VGG16, 162 đối với ResNet50 và 352 đối với EfficientNetB3.
• Huấn luyện toàn mạng với learning rate bằng 1e-5 trên 30 epochs.
Bước thứ hai là huấn luyện mô hình phân loại toàn ảnh nhũ được chuyển đổi từ patch model. Chiến lược đào tạo
gồm 2 giai đoạn (hình 2), đầu tiên huấn luyện các lớp trên cùng mới được thêm vào (tức là hàm g) và sau đó huấn
luyện tất cả các lớp (tức là hàm h) với learning rate giảm dần (với hệ số là 0.5) sau mỗi 3 epochs. Sử dụng SGD làm
hàm tối ưu, cụ thể như sau:
• Huấn luyện top layer trên 3 epochs với learning rate bằng 1e-2, weight decay bằng 1e-3
• Huấn luyện toàn mạng trên 50 epochs với learning rate bằng 1e-3, weight decay bằng 1e-3
Để cải thiện tính tổng quát của các mô hình cuối cùng, việc tăng dữ liệu được thực hiện bằng cách sử dụng các
phép biến đổi ngẫu nhiên sau: horizontal flip, vertical flip, rotation [−25, 25], zoom [0.8, 1.2].
Sau khi chạy các thực nghiệm của các patch model: VGG16, ResNet50, EfficientNetB3 kết quả đạt được như
bảng dưới đây:
Bảng 2. Kết quả phân loại của các patch model VGG16, ResNet50 và EfficientNetB3 trên bộ kiểm tra độc lập
Mô hình Pre-trained Accuracy AUC

VGG16 ImageNet 0.741 0.895
ResNet50 ImageNet 0.673 0.833
EfficientNetB3 ImageNet 0.718 0.875
Hình 3. Confusion Matrix phân loại ảnh patch 3 lớp cho Resnet50 (a) VGG16 (b) và EfficientNetB3 (c) trên bộ kiểm tra độc lập.
3.3. Thực nghiệm trên mô hình mạng phân loại ảnh nhũ (whole image model)
Bảng 3. AUC của các whole image model sử dụng VGG16, ResNet50 và EfficientNetB3 làm patch model trên bộ thử
nghiệm độc lập. Mô hình hoạt động tốt nhất được hiển thị in đậm.
Block 1 Block 2 AUC AUC AUC

VGG16 ResNet50 EfficientNetB3
512x1 512x1 0.822 0.856 0.870
512x1 256x1 0.855 0.817 0.872
256x1 128x1 0.814 0.814 0.892
128x1 64x1 0.842 0.887 0.899
64x1 32x1 0.833 0.860 0.891
3.4. Đánh giá mô hình

a. Đánh giá thực nghiệm patch model
Dựa vào các confusion matrix của 3 patch model, nhìn chung các mô hình phân loại vùng ảnh có độ chính xác
chưa cao. Nhãn background dễ phân loại nhất trong khi POS thì khó nhất.
b. Đánh giá thực nghiệm whole image model
Chúng tôi đã tiến hiện các thực nghiệm whole image model sử dụng VGG16, ResNet50 và EfficientNetB3 làm
patch model và VGG block làm top layer. Từ kết quả bảng 3, cho thấy việc thay đổi cấu hình VGG block khi thêm vào
top layer của whole image model ảnh hưởng nhiều đến độ tin cậy của mô hình. Đối với 2 mô hình ResNet50 và
EfficientNetB3, 2 mô hình này đạt AUC cao nhất khi dùng 2 VGG block [128 × 1] và [64 × 1] làm top layer. Trong khi
đó, mô hình VGG16 thì phù hợp với 2 VGG block [512 × 1] và [256 × 1]. Điều này chứng tỏ, mỗi mô hình phân loại
sẽ phù hợp với mỗi cấu hình block khác nhau.
Bên cạnh đó, trong các thực nghiệm của 2 mô hình ResNet50 và EfficientNetB3, AUC có xu hướng tăng khi
được giảm độ sâu và số lớp Conv của VGG block. Tuy nhiên, khi giảm từ cặp 128 – 64 sang cặp 64 – 32, AUC bắt đầu
giảm, kết quả này chứng tỏ độ sâu của VGG block không liên quan đến hiệu suất của mô hình. Từ đó, cho thấy để một
whole image model đạt được hiệu suất cao, cần phải kiểm soát cấu hình của các block. Việc kiểm soát cấu hình này
giúp cho mô hình đủ khả năng học được những đặc trưng không gian cần thiết mà không bị hiện tượng “overfitting”
cũng như “underfitting”.
Mô hình EfficientNetB3 có sự chênh lệch AUC giữa thực nghiệm đạt hiệu quả cao nhất và thấp nhất là 2.9% so
với 4.1% của VGG16 và 7.3% của Resnet50. Điều này cho thấy sự hiệu quả của mô hình EfficientNetB3 khi đã tối ưu
độ sâu bên trong nhờ đó mà sự thay đổi độ sâu ở mô hình bên ngoài ít ảnh hưởng đến kết quả hơn.
Với việc whole image model đạt kết quả cao hơn nhiều so với patch model cho thấy dữ liệu huấn luyện patch
set bị thiếu sót nhiều thông tin để phân loại 2 nhãn NEG và POS. Một nguyên nhân có thể nghĩ đến là do bộ dữ liệu
CBIS-DDSM cung cấp các ảnh MASK để cắt vùng ROI chưa đầy đủ hết thông tin vùng bệnh, dẫn đến các thông tin
thiết yếu để phân biệt các loại bệnh lý bị thiếu sót, làm các mô hình bị nhầm lẫn khi phân loại 2 nhãn NEG và POS
cũng như bị nhầm lẫn giữa Background và NEG. Đối với whole image model, khi được huấn luyện trên kích thước
toàn bộ ảnh, mô hình sẽ thấy đầy đủ thông tin xung quanh vùng khả nghi. Việc mở đó băng và huấn luyện tất cả các
lớp trong giai đoạn 2 của quá trình huấn luyện sẽ giúp cho mô hình học được những thông tin xung quanh vùng khả
nghi, từ đó giúp cho mô hình có đầy đủ thông tin để phân loại bệnh lý chính xác hơn.
Hình 4. Hình bên trái là ảnh patch được cắt dựa trên ảnh MASK bộ dữ liệu cung cấp, hình bên phải là ảnh patch được chúng tôi cắt
với gấp đôi kích thước MASK
Chúng tôi dùng phương pháp ensemble model dựa trên trung bình của 2 mô hình có AUC tốt nhất là ResNet50
và EfficientNetB3. Kết quả mô hình ensemble đạt được như sau:
Bảng 4. Ensemble whole image model classification report
precision recall F1-score

NEG 0.86 0.83 0.85
POS 0.77 0.81 0.79
Macro avg 0.82 0.82 0.82
Weighted avg 0.82 0.82 0.82
Accuracy 0.82
Hình 5. Confusion matrix của mô hình mạng ensemble
Mô hình sau khi ensemble đạt được AUC = 0.912, kết quả tăng lên đáng kể so với các mô hình độc lập. Độ đặc
hiệu (specificity) trung bình và độ nhạy (sensitivity) trung bình của công nghệ chụp ảnh nhủ ở Mỹ lần lượt là: 88.9%
và 86.9% [32]. So sánh với mô hình đạt kết quả tốt nhất của chúng tôi với các giá trị trên cho thấy mô hình tuy đã đạt
được được độ chính xác cao, nhưng vẫn chưa đáng tin cậy so với chẩn đoán thực tế (Specificity: 83% so với 88.9% và
Sensificity: 81% so với 86.9%).
0.95
0.9
0.899 0.9123
0.887
0.85 0.87
0.855
0.8
AUC
0.75
0.73
0.7
0.65
0.6
Resnet50 VGG16 Resnet50 EfficientNetB3 Best Essemble Essemble
Fine-tuning Best Model Best Model Model Resnet-Efficient-Vgg Resnet-Efficient
Mô hình
Hình 6. Biểu đồ AUC của các mô hình tốt nhất
Với AUC của các mô hình đạt kết quả tốt nhất ở biểu đồ hình 5 cho thấy được sự cải tiến hiệu năng đáng kể khi
dùng phương pháp đã đề xuất so với việc dùng phương pháp tiếp cận fine-tuning thông thường. Ensemble các mô hình
đạt AUC cao nhất đã giúp cải thiện AUC so với cái mô hình độc lập.
IV. KẾT LUẬN
Trong bài báo này, chúng tôi đã xây dựng hệ hỗ trợ chẩn đoán ung thư trên nhũ ảnh phân loại bệnh bằng các kĩ
thuật học sâu với kết quả đạt được khả quan. Nghiên cứu này cho thấy có thể đạt được kết quả phân loại chính xác các
ảnh chụp X-quang tuyến vú với một mô hình học sâu được đào tạo theo phương pháp end-to-end chỉ dựa vào các chú
thích ROI lâm sàng trong giai đoạn đầu. Kết quả đạt được AUC của mô hình tốt nhất là 0.89 (độ nhạy: 81% , độ đặc
hiệu: 83%). Đồng thời với mô hình mạng EfficientNet không chỉ tập trung vào việc cải thiện độ chính xác, mà còn
nâng cao hiệu quả đạt AUC của mô hình ensemble là 0.91. Tuy nhiên, mô hình vẫn còn nhiều hạn chế với mô hình đạt
AUC cao nhất vẫn còn phân loại sai ở các nhũ ảnh có mật độ dày, mô hình đạt độ nhạy (sensitivity) và độ đặc hiệu
(specificity) thấp hơn khoảng 6% ở cả 2 độ đo so với thực tế (các hệ thống chụp nhũ ảnh ở Mỹ).
Hướng nghiên cứu tiếp theo của chúng tôi để giải quyết bài toán này là tăng diện tích vùng ROI được cắt từ ảnh
Mask mà bộ dữ liệu CBIS-DDSM cung cấp để tạo bộ Patch Set có đầy đủ thông tin vùng bệnh, thử nghiệm tăng cường
các ảnh có mật độ dày để mô hình tổng quát được các trường hợp, kết hợp 2 hướng chụp ảnh là MLO và CC để thu
được nhiều đặc trưng hơn giúp mô hình phân loại tốt hơn. từ đó, có thể giúp cho kết quả chẩn đoán bệnh của hệ thống
với độ chính xác cao hơn.
V. TÀI LIỆU THAM KHẢO
[1] “American Cancer Society. How Common Is Breast Cancer?,” [Trực tuyến]. Available:
https://www.cancer.org/cancer/breast-cancer/about/howcommon-is-breast-cancer.html.
[2] C. D. e. a. Lehman, “National Performance Benchmarks for Modern Screening Digital Mammography: Update
from the Breast Cancer Surveillance Consortium,” Radiol, số 283, p. 49–58, 2016.
[3] R. L. I. D. M. O. K. F. &. S. E. A. Birdwell, “Mammographic characteristics of 115 missed cancers later detected
with screening mammography and the potential utility of computer-aided detection 1,” Radiology , số 219, p. 192–
202, 2001.
[4] R. F. e. a. Brem, “Improvement in sensitivity of screening mammography with computer-aided detection: a
multiinstitutional trial,” American Journal of Roentgenology, số 181, p. 687–693, 2003.
[5] S. e. a. Ciatto, “Comparison of standard reading and computer aided detection (cad) on a national proficiency test
of screening mammography,” European journal of radiology, số 45, p. 135–138, 2003.
[6] T. W. &. U. M. J. Freer, “Screening mammography with computer-aided detection: prospective study of 12,860
patients in a community breast center,” Radiology , số 220, p. 781–786, 2001.
[7] C. D. e. a. Lehman, “Diagnostic accuracy of digital screening mammography with and without computer-aided
detection,” JAMA internal medicine , số 175, p. 1828–1837, 2015.
[8] J. J. e. a. Fenton, “Influence of computer-aided detection on performance of screening mammography,” New
England Journal of Medicine, số 356, p. 1399–1409, 2007.
[9] J. J. e. a. Fenton, “Effectiveness of computer-aided detection in community mammography practice,” Journal of
the National Cancer institute, số 103, p. 1152–1161, 2011.
[10] Y. B. Y. &. H. G. LeCun, “Deep learning,” Nat, số 521, p. 436–444, 2015.

[11] S. S. e. a. Aboutalib, “Deep Learning to Distinguish Recalled but Benign Mammography Images in Breast Cancer
Screening,” Clin. Cancer Res, 2018.
[12] E.-K. e. a. Kim, “Applying Data-driven Imaging Biomarker in Mammography for Breast Cancer Screening:
Preliminary Study,” Sci. Reports , số 8, p. 2762 , 2018.
[13] A. D. E. R. A. H. K. &. Z. R. Hamidinekoo, “Deep learning in mammography and breast histology, an overview
and future trends,” Med. Image Analysis, số 47, p. 45–67, 2018.
[14] J. R. e. a. Burt, “Deep learning beyond cats and dogs: Recent advances in diagnosing breast cancer with deep
neural networks,” The Br. J. Radiol, 2018.
[15] R. D. O. L. X. Y. M. H. &. M. R. Agarwal, “Automatic mass detection in mammograms using deep convolutional
neural networks,” J. Med. Imaging, số 6, 2019.
[16] A. e. a. Rodriguez-Ruiz, “Stand-Alone Artificial Intelligence for Breast Cancer Detection in Mammography:
Comparison With 101 Radiologists,” JNCI: J. Natl. Cancer Inst, 2019.
[17] A. e. a. Rodríguez-Ruiz, “Detection of Breast Cancer with Mammography: Effect of an Artificial Intelligence
Support System,” Radiol, số 290, p. 305–314, 2018.
[18] T. e. a. Kooi, “Large scale deep learning for computer aided detection of mammographic lesions ,” Med. Image
Analysis, số 35, p. 303–312, 2017.
[19] A. R. D. K. &. G. M. L. Jamieson, “Breast image feature learning with adaptive deconvolutional networks,” Proc.
SPIE , pp. 6-13, 2012.
[20] J. G. F. A. R.-P. R. O. J. L. &. L. M. A. G. Arevalo, “Convolutional neural networks for mammography mass
lesion classification,” In 2015 37th Annual International Conference of the IEEE Engineering in Medicine and
Biology Society (EMBC), p. 797–800, 2015.
[21] J. G. F. A. R.-P. R. O. J. L. &. G. L. M. A. Arevalo, “Representation learning for mammography mass lesion
classification with convolutional neural networks,” Comput. Methods Programs Biomed, số 127, p. 248–257,
2016.
[22] D. &. J. A. Lévy, “Breast Mass Classification from Mammograms using Deep Convolutional Neural Networks,”
arXiv preprint arXiv:1612.00542, 2016.
[23] I. C. e. a. Moreira, “INbreast: Toward a Full-field Digital Mammographic Database,” Acad. Radiol, số 19, p. 236–
248, 2012.
[24] G. E. O. S. &. T. Y.-W. Hinton, “A fast learning algorithm for deep belief nets,” Neural Comput, số 18, p. 1527–
1554, 2006.
[25] O. e. a. Russakovsky, “ImageNet Large Scale Visual Recognition Challenge,” Int. J. Comput. Vis., số 115, p. 211–
252, 2015.
[26] M. B. L. L. I. &. S. J. Oquab, “Learning and Transferring Mid-Level Image Representations using Convolutional
Neural Networks,” In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, p.
1717–1724, 2014.
[27] L. R. M. J. H. R. E. F. R. M. W. S. Li Shen, “Deep Learning to Improve Breast Cancer Detection on Screening
Mammography,” Nat., 2019.
[28] L. R. M. J. H. R. E. F. R. M. W. S. Li Shen, “Deep Learning to Improve Breast Cancer Detection on Screening
Mammography,” Nat., p. 7, 2019.
[29] M. B. K. K. D. M. R. &. K. W. Heath, “The Digital Database for Screening Mammography,” In Yaffe, M. (ed.)
Proceedings of the Fifth International Workshop on Digital Mammography, p. 212–218, Medical Physics
Publishing, 2001.
[30] R. S. G. F. H. A. &. R. D. Lee, “Curated Breast Imaging Subset of DDSM,” The Cancer Imaging Arch, 2016.
[31] O. e. a. Russakovsky, “ImageNet Large Scale Visual Recognition Challenge,” Int. J. Comput. Vis. , số 115, p.
211–252, 2015.
[32] C. D. e. a. Lehman, “National Performance Benchmarks for Modern Screening Digital Mammography: Update
from the Breast Cancer Surveillance Consortium,” Radiol, số 283, p. 49–58, 2016.
FEATURES DEEP IN DIAGNOSE BREAST CANCER ON X-RAY

Nguyen Chi Thanh, Vo Thi Huyen Trang, Le Minh Hung, Tran Van Lang
ABSTRACT— Breast cancer is the most dangerous type of cancer for women, common screening methods are mammography-
based diagnostics, the diagnosis of the disease depends on the quality of the image and the expertise of the doctor. This leads to
cost, time and effort, but the effect is not high. Currently, there are many systems that support radiologists to improve their ability to
diagnose a disease through mammograms such as computer detection (Computer Aided Diagnosis - CAD) and diagnostic software
that has been developed and used in clinical applications since the 1990s. Many new methods use deep learning and convolutional
neural networks to automatically learn and extract the features to bring about higher accuracy than traditional methods. However,
the current methods only focus on classification but do not specify the specific area of the disease (lesions), thus causing a lot of
difficulties for diagnosis and treatment of the disease. In this paper, we propose a solution that could assist doctors to accurately
detect breast cancer and classify it with mammograms using the end-to-end training approach with state-of-the-art CNN model
EfficientNetB3. We experimented with digitized mammograms from Curated Breast Imaging Subset of Digital Database for
Screening Mammography (CBIS-DDSM), the best model achieved AUC of 0.91. (sensitivity: 81%, specificity: 83%).

FAIR2020 - paper - 30 - KẾT HỢP ĐẶC TRƯNG SÂU TRONG HỖ TRỢ CHẨN ĐOÁN UNG THƯ VÚ TRÊN NHŨ ẢNH X-QUANG

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

FAIR2020 - paper - 30 - KẾT HỢP ĐẶC TRƯNG SÂU TRONG HỖ TRỢ CHẨN ĐOÁN UNG THƯ VÚ TRÊN NHŨ ẢNH X-QUANG

Uploaded by

Copyright:

Available Formats

Kỷ yếu Hội nghị Quốc gia lần thứ … về Nghiên cứu cơ bản và ứng dụng Công Nghệ thông

tin (FAIR); …, ngày …/…/…

Block 1 Block 2 AUC [95% CI] A-AUC [95% CI] #Epochs

512x3 512x3 0.81 [0.77, 0.84] 0.82 [0.78, 0.85] 91

Mô hình Pre-trained Accuracy AUC

Block 1 Block 2 AUC AUC AUC

3.4. Đánh giá mô hình

Bảng 4. Ensemble whole image model classification report

precision recall F1-score

Hình 5. Confusion matrix của mô hình mạng ensemble

Hình 6. Biểu đồ AUC của các mô hình tốt nhất

[10] Y. B. Y. &. H. G. LeCun, “Deep learning,” Nat, số 521, p. 436–444, 2015.

FEATURES DEEP IN DIAGNOSE BREAST CANCER ON X-RAY

You might also like