You are on page 1of 50

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP. HỒ CHÍ MINH


KHOA ĐIỆN - ĐIỆN TỬ
BỘ MÔN ĐIỆN TỬ CÔNG NGHIỆP - Y SINH

ĐỒ ÁN VI XỬ LÝ
ĐỀ TÀI:
THIẾT KẾ VÀ THI CÔNG MÔ HÌNH MÁY NHẬN DIỆN
GIỌNG NÓI VÀ CHUYỂN ĐỔI THÀNH VĂN BẢN
HIỂN THỊ TRÊN MÀN HÌNH OLED

GVHD: ThS. Ngô Bá Việt

SVTH: Lê Thị Anh Thư 20129020

Nguyễn Kim Thiên Hòa 20129023

Tp.Hồ Chí Minh, tháng 06 năm 2023


TRƯỜNG ĐH SPKT TP. HỒ CHÍ MINH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
KHOA ĐIỆN-ĐIỆN TỬ ĐỘC LẬP - TỰ DO - HẠNH PHÚC
BỘ MÔN ĐIỆN TỬ CÔNG NGHIỆP – Y SINH ----o0o----

Tp. Hồ Chí Minh, ngày 08 tháng 06 năm 2023

NHIỆM VỤ ĐỒ ÁN VI XỬ LÝ
Họ tên sinh viên: Nguyễn Kim Thiên Hòa MSSV: 20129023
Lê Thị Anh Thư MSSV: 20129020

Chuyên ngành: Kỹ thuật Y Sinh Mã ngành: 129

Hệ đào tạo: Đại học chính quy Mã hệ: 1

Khóa: 2020 Lớp: 20129C


I. TÊN ĐỀ TÀI: THIẾT KẾ VÀ THI CÔNG MÔ HÌNH MÁY NHẬN DIỆN
GIỌNG NÓI VÀ CHUYỂN ĐỔI THÀNH VĂN BẢN, HIỂN THỊ TRÊN
MÀN HÌNH OLED
II. NGÀY GIAO NHIỆM VỤ: 08/02/2023
III. NGÀY HOÀN THÀNH NHIỆM VỤ: 08/06/2023
IV. HỌ VÀ TÊN CÁN BỘ HƯỚNG DẪN: ThS. Ngô Bá Việt

CÁN BỘ HƯỚNG DẪN BM. ĐIỆN TỬ CÔNG NGHIỆP – Y SINH

i
TRƯỜNG ĐH SPKT TP. HỒ CHÍ MINH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
KHOA ĐIỆN-ĐIỆN TỬ ĐỘC LẬP - TỰ DO - HẠNH PHÚC
BỘ MÔN ĐIỆN TỬ CÔNG NGHIỆP – Y SINH ----o0o----
Tp. Hồ Chí Minh, ngày 08 tháng 02 năm 2023

LỊCH TRÌNH THỰC HIỆN ĐỒ ÁN VI XỬ LÝ


Họ tên sinh viên: Lê Thị Anh Thư MSSV: 20129020
Họ tên sinh viên: Nguyễn Kim Thiên Hòa MSSV: 20129023
Lớp: 20129C ĐAMH: Đồ án Vi xử lý
Tên đề tài: THIẾT KẾ VÀ THI CÔNG MÔ HÌNH MÁY NHẬN DIỆN GIỌNG
NÓI VÀ CHUYỂN ĐỔI THÀNH VĂN BẢN, HIỂN THỊ TRÊN
MÀN HÌNH OLED

Tuần/ngày Nội dung Xác nhận


GVHD

Tuần 1 Gặp GVHD để nghe phổ biến yêu cầu làm đồ án, tiến
(8/2 - 14/2) hành chọn đồ án.

Tuần 2 GVHD tiến hành xét duyệt đề tài


(15/2 - 22/2)

Tuần 3 Viết yêu cầu đề tài đã chọn: đề tài làm cái gì, nội dung
(23/2 - 1/3) đề tài, các giới hạn của đề tài.

Tuần 4 Tiến hành vẽ sơ đồ khối của đề tài để GVHD nhận xét


(2/3 - 8/3) và trao đổi.

Tuần 5 - Lên kế hoạch thực hiện đề tài theo tuần.


(9/3 - 15/3) - Tìm hiểu và nghiên cứu tư liệu

Tuần 6 - Tính toán, thiết kế mô hình.


(16/3 - 22/3) - Lựa chọn linh kiện theo các thông số đã tính toán.

Tuần 7 - Cài đặt hệ điều hành cho Raspberry Pi 4.


(23/3 - 29/3) - Cài đặt các thư viện cho Raspberry Pi 4.

ii
Tuần 8 - Viết code nhận dạng giọng nói và hiển thị lên màn
(30/3 - 5/4) hình.

Tuần 9
- Tiến hành chạy thử.
(6/4 - 12/4)
- Khắc phục các lỗi phát sinh trong quá trình chạy thử.
Tuần 10
- Viết báo cáo từng phần.
(13/4 - 19/4)

Tuần 11 - Chỉnh sửa giao diện hiển thị trên màn hình.
(20/4 - 26/4) - Viết báo cáo.

Tuần 12 - Thiết kế phần khung của mô hình.


(27/4 - 3/5) - Tiến hành in 3D phần khung mô hình.

Tuần 13 - Tiến hành lắp ráp các linh kiện vào khung.
(4/5 - 10/5) - Chạy thử thiết bị.

Tuần 14 Kiểm tra và đánh giá kết quả toàn bộ hệ thống.


(11/5 - 17/5)

Tuần 15 Hoàn thiện báo cáo và gởi cho GVHD để xem xét góp ý
(18/5 - 24/5) lần cuối trước khi in và báo cáo.

Tuần 16 Làm slide báo cáo.


(25/5 - 31/5)

Tuần 17 Báo cáo với GVHD.


(1/6 - 8/6)

GV HƯỚNG DẪN
(Ký và ghi rõ họ và tên)

iii
LỜI CAM ĐOAN
Nhóm cam đoan rằng những nội dung trong báo cáo này được làm từ kiến thức

tổng quát và chuyên ngành nhóm chúng tôi tiếp thu được. Bên cạnh đó, nhóm tìm hiểu

từ nhiều nguồn tài liệu để hoàn thành đề tài. Các kết quả nghiên cứu và kết luận trong

báo cáo là trung thực, không sao chép từ bất kỳ một nguồn nào.

Người thực hiện đề tài

Lê Thị Anh Thư

Nguyễn Kim Thiên Hòa

iv
LỜI CẢM ƠN
Nhóm xin gởi lời cảm ơn sâu sắc đến Thầy Ngô Bá Việt- Giảng viên bộ môn Điện
tử Công Nghiệp- Y sinh đã dành thời gian để trực tiếp hướng dẫn, tận tình giúp đỡ và
tạo điều kiện để nhóm hoàn thành tốt đề tài.
Nhóm xin gởi lời chân thành cảm ơn các thầy cô trong bộ môn cũng như trong
Khoa Điện- Điện Tử đã chia sẻ, góp ý, truyền đạt những kiến thức quan trọng và hỗ
trợ những trang thiết bị để tạo những điều kiện tốt nhất cho nhóm em hoàn thành đề
tài.
Sau cùng, nhóm xin gửi lời cảm ơn đến gia đình và bạn bè đã luôn quan tâm,
giúp đỡ, hỗ trợ trong quá trình học tập cũng như quá trình thực hiện đồ án môn học
này.
Xin chân thành cảm ơn!
Người thực hiện đề tài

Lê Thị Anh Thư

Nguyễn Kim Thiên Hòa

v
MỤC LỤC
NHIỆM VỤ ĐỒ ÁN VI XỬ LÝ ................................................................................... i
LỊCH TRÌNH THỰC HIỆN ĐỒ ÁN VI XỬ LÝ ...................................................... ii
LỜI CAM ĐOAN ........................................................................................................ iv
LỜI CẢM ƠN ................................................................................................................v
MỤC LỤC.................................................................................................................... vi
PHỤ LỤC HÌNH ẢNH, BẢNG................................................................................ viii
TÓM TẮT ......................................................................................................................x
CHƯƠNG 1: TỔNG QUAN ........................................................................................1
1.1. ĐẶT VẤN ĐỀ ......................................................................................................1
1.2. MỤC TIÊU ...........................................................................................................2
1.3. NỘI DUNG NGHIÊN CỨU ................................................................................2
1.4. GIỚI HẠN ............................................................................................................3
1.5. BỐ CỤC ...............................................................................................................3
CHƯƠNG 2: CƠ SỞ LÝ THUYẾT ............................................................................4
2.1. TỔNG QUAN VỀ NGƯỜI MẤT THÍNH LỰC .................................................4
2.1.1. Khái niệm về người Mất thính lực ................................................................4
2.1.2. Đặc điểm giao tiếp ở người Mất thính lực ....................................................5
2.1.3. Phương pháp giao tiếp của người Mất thính lực ...........................................5
2.1.4. Một số loại công nghệ hỗ trợ cho người Mất thính lực .................................6
2.2. TỔNG QUAN VỀ CÔNG NGHỆ NHẬN DẠNG GIỌNG NÓI ........................9
2.2.1. Giới thiệu về công nghệ Nhận dạng giọng nói ..............................................9
2.2.2. Google Cloud Speech-to-Text API ................................................................9
2.3. GIỚI THIỆU PHẦN CỨNG ..............................................................................10
2.3.1. Raspberry Pi 4 Model B ..............................................................................10
2.3.2. Microphone M-306 ......................................................................................12
2.3.3. Module OLED 1.3 inch I2C ........................................................................13
2.3.4. Module một nút nhấn 12x12 .......................................................................14
2.4. CÁC THƯ VIỆN ĐƯỢC SỬ DỤNG ................................................................14
2.4.1. PyAudio .......................................................................................................14
vi
2.4.2. luma.oled .....................................................................................................15
2.4.3. Speech_recognition .....................................................................................15
CHƯƠNG 3: TÍNH TOÁN VÀ THIẾT KẾ .............................................................17
3.1. GIỚI THIỆU.......................................................................................................17
3.2. TÍNH TOÁN VÀ THIẾT KẾ HỆ THỐNG........................................................17
3.2.1. Thiết kế sơ đồ khối hệ thống .......................................................................17
3.2.2. Nguyên lý hoạt động ...................................................................................18
3.2.3. Thiết kế CAD 3D cho mô hình....................................................................18
3.2.4. Chọn nguồn cung cấp cho mô hình .............................................................23
CHƯƠNG 4: THI CÔNG HỆ THỐNG ....................................................................24
4.1. GIỚI THIỆU.......................................................................................................24
4.2. THI CÔNG KHUNG MÔ HÌNH .......................................................................24
4.3. LẬP TRÌNH HỆ THỐNG ..................................................................................25
4.3.1. Lưu đồ giải thuật toàn hệ thống ...................................................................25
4.3.2. Thuật toán “Speak-to-Text” .........................................................................26
4.3.3. Lưu đồ hiển thị văn bản từ giọng nói ..........................................................28
4.4. THI CÔNG PHẦN CỨNG ................................................................................29
4.4.1. Sơ đồ kết nối phần cứng ..............................................................................29
4.4.2. Sơ đồ lắp Testboard .....................................................................................29
4.4.3. Mô hình hoàn chỉnh .....................................................................................30
4.5. TÀI LIỆU HƯỚNG DẪN SỬ DỤNG, THAO TÁC .........................................30
CHƯƠNG 5: KẾT QUẢ, NHẬN XÉT VÀ ĐÁNH GIÁ..........................................33
5.1. KẾT QUẢ ĐẠT ĐƯỢC .....................................................................................33
5.2. NHẬN XÉT, ĐÁNH GIÁ TOÀN HỆ THỐNG .................................................33
CHƯƠNG 6: KẾT LUẬN VÀ HƯỚNG PHÁP TRIỂN ..........................................35
6.1. KẾT LUẬN ........................................................................................................35
6.2. HƯỚNG PHÁT TRIỂN .....................................................................................35
TÀI LIỆU THAM KHẢO ..........................................................................................36

vii
PHỤ LỤC HÌNH ẢNH, BẢNG
Hình 2.1. Hình minh họa người Mất thính lực ................................................................4
Hình 2.2. Bảng chữ cái và số theo ngôn ngữ ký hiệu ......................................................6
Hình 2.3. Cấu tạo máy trợ thính ......................................................................................7
Hình 2.4. Ốc tai điện tử ...................................................................................................7
Hình 2.5. Găng tay chuyển ngữ .......................................................................................8
Hình 2.6. Raspberry Pi 3 Model B ..................................................................................8
Hình 2.7. Google Cloud Speech API ...............................................................................9
Hình 2.8. Raspberry Pi 4 Model B ................................................................................10
Hình 2.9. Sơ đồ chân Raspberry Pi 4 ............................................................................ 11
Hình 2.10. Microphone M-306 ......................................................................................12
Hình 2.11. Module OLED 1.3 inch I2C ........................................................................13
Hình 2.12. Module một nút nhấn 12x12........................................................................14
Hình 3.1. Sơ đồ khối hệ thống .......................................................................................17
Hình 3.2. Vỏ case thiết kế Raspberry Pi có sẵn trên thị trường ....................................18
Hình 3.3. Phần đáy khung mô hình. ..............................................................................19
Hình 3.4. Phần mặt sau khung mô hình.........................................................................19
Hình 3.5. Nắp lưng mô hình. .........................................................................................20
Hình 3.6. Phần mặt bên trái của khung mô hình. ..........................................................20
Hình 3.7. Phần mặt bên trên của khung mô hình. .........................................................21
Hình 3.8. Nắp màn hình nút nhấn và OLED. ................................................................21
Hình 3.9. Khung máy sau khi thiết kế CAD 3D hoàn chỉnh .........................................22
Hình 3.10. Hình ảnh 3D của mô hình hoàn chỉnh .........................................................22
Bảng 3.1. Nguồn cung cấp cho mô hình .......................................................................23
Hình 4.1. In 3D bằng phương pháp FDM .....................................................................24
Hình 4.2. Tỷ lệ Infill ......................................................................................................24
Hình 4.3. Bu lông và đai ốc ...........................................................................................25
Hình 4.4. Lưu đồ chương trình chính toàn mô hình ......................................................25
Hình 4.5. Hệ thống phân tích giọng nói của Google .....................................................26
Hình 4.6. Sơ đồ khối thuật toán Speak-to-Text .............................................................26
Hình 4.7. Lưu đồ giải thuật chức năng Speech-to-Text.................................................27
viii
Hình 4.8. Lưu đồ giải thuật chương trình kết nối với Google Cloud ............................28
Hình 4.9. Lưu đồ giải thuật hiển thị màn hình ..............................................................28
Hình 4.10. Sơ đồ kết nối phần cứng ..............................................................................29
Hình 4.11. Sơ đồ lắp testboard ......................................................................................29
Hình 4.12. Mô hình hoàn chỉnh .....................................................................................30
Hình 4.13. Cấp nguồn cho mô hình ...............................................................................30
Hình 4.14. Kết nối microphone .....................................................................................31
Hình 4.15. Giao diện trên máy tính ...............................................................................31
Hình 4.16. Chạy chương trình .......................................................................................32
Hình 4.17. Tiến hành thu âm .........................................................................................32
Hình 5.1. Kết quả mô hình nhận diện giọng nói và chuyển đổi thành văn bản hiển thị
trên OLED .....................................................................................................................33

ix
TÓM TẮT
Hiện nay số lượng người gặp các vấn đề về thính giác chiếm hơn 20% dân số thế
giới. Người khiếm thính thường gặp nhiều khó khăn trong sinh hoạt, giao tiếp hằng ngày.
Cùng với sự phát triển của khoa học kỹ thuật, ngày càng có nhiều công cụ, máy móc
được ra đời để hỗ trợ người khiếm thính, tạo điều kiện để họ tiếp thu các tri thức xã hội.
Đề tài sử dụng kết hợp Raspberry Pi 4 , microphone và màn hình OLED để nhận
dạng giọng nói và chuyển đổi thành văn bản, sau đó hiển thị lên màn hình OLED, giúp
người khiếm thính dễ dàng nắm bắt được nội dung cuộc trò chuyện khi giao tiếp.
Mô hình đã đạt được kết quả:
• Nhận dạng được giọng nói ở cả hai ngôn ngữ tiếng Việt và tiếng Anh.
• Chuyển đổi âm thanh thu được thành văn bản và hiển thị trên OLED.

x
CHƯƠNG 1: TỔNG QUAN
1.1. ĐẶT VẤN ĐỀ
Theo Báo cáo toàn cầu đầu tiên về Thính lực của Tổ chức Y tế Thế giới (WHO)
được công bố vào 2/3/2021, khoảng 20% dân số thế giới hiện có vấn đề về thính giác.
WHO ước tính số người bị ảnh hưởng về thính lực có thể tăng lên tới 2.5 tỷ người vào
năm 2050, nghĩa là cứ 4 người thì có 1 người gặp vấn đề về thính lực, trong đó ít nhất
700 triệu người sẽ bị ảnh hưởng nghiêm trọng và cần có các liệu pháp điều trị chuyên
sâu [1] [2].
Theo thống kê của Tổng cục Thống kê đầu năm 2019 qua kết quả cuộc điều tra
quốc gia về người khuyết tật tính đến hết năm 2016, ở Việt Nam có khoảng 6,2 triệu
người khuyết tật, trong đó khuyết tật nghe nói chiếm 9,32% [3].
Có nhiều nguyên nhân dẫn đến tình trạng suy giảm thính lực như nhiễm trùng,
bệnh tật, tai nạn, dị tật bẩm sinh, phơi nhiễm tiếng ồn và lối sống. Những người bị suy
giảm thính lực thường gặp khó khăn trong giao tiếp, ảnh hưởng không nhỏ đến quá trình
nhận thức cuộc sống. Họ rất ngại tiếp xúc và thường tách bản thân ra khỏi các hoạt động
cộng đồng do gặp trở ngại trong việc nắm bắt những điều đang diễn ra. Do đó, người
khiếm thính thường bị đặt ngoài cuộc trò chuyện và không thể hòa cùng cảm xúc của
mọi người xung quanh [4]. Đặc biệt là những bệnh nhân mắc các vấn đề về thính lực do
tai nạn, chấn thương thường khó thích nghi với di chứng và dễ gặp vấn đề trong việc tái
hòa nhập cộng đồng.
Tùy thuộc vào nguyên nhân và mức độ nghiêm trọng, có nhiều phương pháp điều
trị và hỗ trợ các bệnh nhân mắc các vấn đề về suy giảm thính lực đã được đưa ra như
điều trị y tế, sử dụng thiết bị hỗ trợ nghe như máy trợ thính, cấy ghép ốc tai, sử dụng
ngôn ngữ ký hiệu,... [5]. Tuy nhiên, việc điều trị y tế hay sử dụng máy trợ thính thường
khá tốn kém, không phù hợp với các bệnh nhân có điều kiện kinh tế kém. Mặt khác, việc
sử dụng ngôn ngữ ký hiệu cũng còn nhiều hạn chế như người tương tác phải biết thủ
ngữ, mất nhiều thời gian khi giao tiếp, dễ nhầm lẫn và ở Việt Nam hiện nay, rất hiếm có
trung tâm dạy thủ ngữ, ngành thông dịch viên thủ ngữ cũng ít được đào tạo bài bản [6].
Một số đề tài của sinh viên về hỗ trợ người khiếm thính cũng được thực hiện như
“Thiết bị giao tiếp dành cho người khiếm thính- Speak Your Mind (SYM)” của nhóm

1
sinh viên Trường Đại học Bách khoa thuộc Đại học Quốc gia Thành phố Hồ Chí Minh.
Thiết bị SYM chuyển đổi ngôn ngữ ký hiệu của người khiếm thính sang văn bản và
giọng nói trên các thiết bị di động [6].
Trên thế giới cũng có nhiều nghiên cứu được thực hiện nhằm tìm ra các giải pháp
công nghệ mới để hỗ trợ cho người khiếm thính như XRAI Glass. XRAI Glass là một
giải pháp phần mềm mới cho phép người kết nối kính thông minh Nreal Air trực tiếp
với điện thoại của họ, sau đó người khiếm thính có thể dễ dàng theo dõi các cuộc trò
chuyện xung quanh dưới dạng phụ đề trực tiếp theo thời gian thực. Đây được xem là
một sự thay đổi lớn về chất lượng cuộc sống đối với những người khiếm thính. Tuy
nhiên, ở thời điểm hiện tại, không phải người khiếm thính nào cũng có thể sở hữu sản
phẩm công nghệ tuyệt vời này vì số lượng kính được sản xuất còn hạn chế, cũng như
giá thành sản phẩm khá cao, khoảng £400 ( khoảng 10,000,000 VND) [7] [8].
Nắm bắt được vấn đề và vận dụng những kiến thức đã được học, nhóm chúng em
đã chọn đề tài “Thiết kế và thi công mô hình máy nhận diện giọng nói và chuyển đổi
thành văn bản, hiển thị trên màn hình OLED” để tìm hiểu và thực hiện với mong
muốn có thể hỗ trợ những người khiếm thính có một công cụ để dễ dàng hòa nhập với
cộng đồng.
1.2. MỤC TIÊU
Thiết kế và thi công mô hình máy nhận diện giọng nói và chuyển đổi thành văn bản,
hiển thị trên màn hình OLED hỗ trợ người bị khiếm thính.
1.3. NỘI DUNG NGHIÊN CỨU
Với đề tài “Thiết kế và thi công mô hình máy nhận diện giọng nói và chuyển đổi
thành văn bản, hiển thị trên màn hình OLED”, nhóm tập trung giải quyết những nội
dung sau:
• Nội dung 1: Tìm hiểu về Raspberry và các linh kiện liên quan.
• Nội dung 2: Thu và xử lý tín hiệu giọng nói.
• Nội dung 3: Lập trình chuyển đổi giọng nói thành văn bản.
• Nội dung 4: Thi công và kiểm tra khả năng hoạt động của mô hình.
• Nội dung 5: Viết báo cáo thực hiện.

2
1.4. GIỚI HẠN
• Văn bản hiển thị bị giới hạn về độ dài.
• Hạn chế về số lượng ngôn ngữ nhận diện được.
1.5. BỐ CỤC
Đề tài “Thiết kế và thi công mô hình máy nhận diện giọng nói và chuyển đổi
thành văn bản, hiển thị trên màn hình OLED” được trình bày với bố cục như sau:
• Chương 1: Tổng quan
Chương này trình bày đặt vấn đề dẫn đến lý do chọn đề tài, mục tiêu, nội dung
nghiên cứu, các giới hạn và bố cục của đồ án.
• Chương 2: Cơ sở lý thuyết
Chương này trình bày cơ bản về người khiếm thính và phương pháp giao tiếp
của người khiếm thính, tìm hiểu về Raspberry, microphone, OLED và các thư
viện được sử dụng.
• Chương 3: Tính toán và thiết kế
Trong chương này, nhóm thực hiện đề tài sẽ đưa ra các yêu cầu khi thiết kế,
các thiết kế về phần cứng và phần mềm.
• Chương 4: Thi công hệ thống
Chương này trình bày về quá trình thi công mô hình, thiết kế lưu đồ, viết
chương trình và hoàn thiện sản phẩm.
• Chương 5: Kết quả, nhận xét và đánh giá
Trong chương này, nhóm sẽ trình bày kết quả mô hình, nhận xét tính hiệu quả
và đánh giá các kết quả thu được.
• Chương 6: Kết luận và hướng phát triển
Chương này nêu lên kết luận chung về những gì đã thực hiện được so với mục
tiêu đề ra, đồng thời cũng đưa ra hướng phát triển cho đề tài.

3
CHƯƠNG 2: CƠ SỞ LÝ THUYẾT
2.1. TỔNG QUAN VỀ NGƯỜI MẤT THÍNH LỰC
2.1.1. Khái niệm về người Mất thính lực
Khiếm thính là tình trạng một người hay một động vật có thính giác kém
hơn so với đồng loại. Bệnh do nhiều yếu tố khác nhau cấu tạo thành bao ôt ở gồm tuổi
tác, bệnh tật, tiếng ồn, hóa chất và cả các chấn thương vật lý [9].
Một người không có khả năng nghe tốt ở ngưỡng nghe từ 20dB trở lên ở
cả hai tai được cho là bị mất thính lực. Mất thính lực có thể nhẹ, trung bình, nặng, nghiêm
trọng. Nó có thể ảnh hưởng một hoặc cả hai tai và dẫn đến khó khăn trong việc nghe lời
nói hoặc âm thanh lớn [10].

Hình 2.1. Hình minh họa người Mất thính lực


(Nguồn: Báo điện tử Sức khỏe và Đời sống)
Người nghe kém (Hard of hearing) chỉ những người bị mất thính lực ở
mức độ nhẹ đến nặng. Họ gặp khó khăn trong việc nghe nhưng vẫn có thể nói chuyện
được. Đa số người nghe kém phát hiện bệnh sau một thời gian có thể nghe nói được
bình thường [10] [11].
Người điếc là những người bị mất thính lực nghiêm trọng, nghĩa là họ
nghe được rất ít hoặc không nghe được và không thể nói chuyện được. Thuật ngữ tiếng
Anh thì phân biệt rõ từ Deaf (danh từ chung)- viết hoa- dùng chỉ người điếc. Ngược lại,
từ deaf (tính từ)- viết thường- dùng để nói về việc mất thính lực [12]. Những người điếc
thường sử dụng ngôn ngữ ký hiệu để giao tiếp [10].

4
2.1.2. Đặc điểm giao tiếp ở người Mất thính lực
Người bình thường học nói chủ yếu dựa trên cảm giác nghe và vận động, còn tri
giác thị giác đóng vai trò thứ yếu. Điều này hoàn toàn ngược lại với người khiếm thính.
Ở người khiếm thính và người điếc, do thiếu cảm giác nghe hoặc cảm giác nghe bị phá
hủy, cảm giác thị giác và cảm giác vận động có vai trò đặc biệt quan trọng [12].
Cùng với cảm giác vận động, thị giác của người khiếm thính đóng vai trò chủ
đạo và chủ yếu trong việc nhận thức thế giới xung quanh và tiếp nhận ngôn ngữ. Các
kiểu giao tiếp bằng thị giác phổ biến bao gồm ngôn ngữ kí hiệu (Sign Language), ngôn
ngữ hình thể (Body Language), đọc khẩu hình miệng (Lip Reading) [13].
Một số người khiếm thính vẫn có cảm giác thính giác, dù rất ít. Trong trường hợp
này, người khiếm thính có thể sử dụng các công nghệ hỗ trợ (Assistive Technology) như
máy trợ thính hoặc ốc tai điện tử để nâng cao khả năng diễn giải âm thanh của tai [13].
2.1.3. Phương pháp giao tiếp của người Mất thính lực
Tuy không thể giao tiếp được như người bình thường nhưng người Mất thính lực
vẫn có nhiều phương pháp để giao tiếp. Hai phương pháp giao tiếp được sử dụng phổ
biến trong cộng đồng người khiếm thính là sử dụng ngôn ngữ ký hiệu (Sign Language)
và sử dụng công nghệ hỗ trợ (Assistive Technology).
Ngôn ngữ ký hiệu hay ngôn ngữ dấu hiệu, thủ ngữ là ngôn ngữ giao tiếp chính
của người điếc và người khiếm thính. Trong ngôn ngữ ký hiệu, người ta sử dụng bàn
tay, ngón tay để diễn đạt các con số, chữ cái, từ và các câu [14]. Ngôn ngữ ký hiệu là
công cụ giúp cộng đồng người khiếm thính tiếp thu và phát triển nhận thức, tri thức của
xã hội.
Tuy nhiên, ngôn ngữ ký hiệu là ngôn ngữ rất phức tạp, ngôn ngữ ký hiệu có thể
khác nhau giữa các vùng, các quốc gia khác nhau. Ngôn ngữ ký hiệu chỉ phổ biến trong
cộng đồng người khiếm thính, để giao tiếp thì yêu cầu người tương tác phải biết thủ ngữ.
Việc giao tiếp bằng thủ ngữ cũng mất nhiều thời gian và dễ bị nhầm lẫn. Bên cạnh đó,
ở Việt Nam hiện nay, rất hiếm có trung tâm dạy thủ ngữ, số lượng phiên dịch viên ngôn
ngữ ký hiệu cũng rất ít. Tính trong cả nước, chỉ có khoảng 10 người là đạt đến trình độ
có thể dịch các lĩnh vực cho người điếc, một con số quá nhỏ bé so với số lượng người
câm điếc [15].

5
Hình 2.2. Bảng chữ cái và số theo ngôn ngữ ký hiệu
(Nguồn: Trang Thông tin điện tử tổng hợp Vietnammoi)
Công nghệ hỗ trợ là thiết bị, đồ dùng, hoặc sản phẩm được sử dụng để nâng cao,
duy trì hoặc cải thiện khả năng học tập, làm việc và sinh hoạt của người khuyết tật. Đối
với người điếc và người khiếm thính, công nghệ hỗ trợ nhằm giúp họ giảm bớt khó khăn
trong giao tiếp và nâng cao tính độc lập thay vì phụ thuộc vào gia đình, bạn bè, thầy cô
của người khiếm thính. Công nghệ hỗ trợ có thể là phần cứng và phần mềm. Phần cứng
là những thiết bị vật lý như máy trợ thính, điện thoại thông minh, máy tính,.... Phần mềm
là các chương trình cài đặt trên các thiết bị điện tử như phần mềm soạn thảo, mạng xã
hội Facebook, Zalo,... [12].
2.1.4. Một số loại công nghệ hỗ trợ cho người Mất thính lực
Máy trợ thính là thiết bị đeo sát vào tai người khiếm thính, làm tăng độ lớn và độ
rõ ràng của âm thanh một cách chọn lọc, giúp người đeo máy trợ thính nghe hiểu được
dễ dàng hơn với những âm thanh dễ chịu và thoải mái nhất trong cả môi trường ồn ào

6
và yên tĩnh. Dựa vào kết quả của thính lực đồ, các bác sĩ sẽ tư vấn loại máy trợ thính
phù hợp với người khiếm thính. Việc sử dụng sai loại máy trợ thính hoặc sử dụng không
đúng cách có thể gây các vấn đề như ù tai, đau nhức quanh tai, kích ứng da, nhức đầu,....
Bên cạnh đó, máy trợ thính có thể bị ảnh hưởng bởi mồ hôi và không phù hợp với việc
vận động mạnh [12] [16].

Hình 2.3. Cấu tạo máy trợ thính


(Nguồn: https://trothinhankhang.com/)
Điện cực ốc tai (ốc tai điện tử) cũng là công cụ trợ thính, thay thế các tế bào lông
bị tổn thương của tai. Đây là biện pháp có hiệu quả cao trong điều trị các trường hợp
người bị điếc nặng, khi các biện pháp trợ thính khác không hiệu quả. Để thực hiện việc
cấy ghép ốc tai cần đảm bảo ốc tai còn nguyên và dây thần kinh thính giác phải còn.
Nhược điểm của công nghệ hỗ trợ này là chi phí cao, có nguy cơ biến chứng như nhiễm
trùng, chảy máu [12].

Hình 2.4. Ốc tai điện tử


(Nguồn: https://trothinhankhang.com/)
7
Găng tay chuyển ngữ là thiết bị có khả năng chuyển đổi ngôn ngữ ký hiệu sang
lời nói và phát qua loa. Thiết bị này đã được nghiên cứu và phát triển nhiều năm nay,
các sản phẩm nổi bật như Enable Talk (2012), Sign Language Translator (2014) và
SignAloud (2016). Tuy nhiên, các sản phẩm này có giá thành tương đối cao và không
hỗ trợ ngôn ngữ tiếng Việt [12].

Hình 2.5. Găng tay chuyển ngữ


(Nguồn: https://www.udn.vn/)
Rasberry Pi là một loại máy tính được phát triển bởi Quỹ Rasberry Pi, có khả
năng ghi nhận giọng nói và chuyển thành văn bản, gửi đến điện thoại cho người khiếm
thính. Thiết bị Rasberry Pi cho người khiếm thính và người điếc được phát triển vởi các
tác giả Piyush Patil và Jayesh Prajapat ở Ấn Độ [17].

Hình 2.6. Raspberry Pi 3 Model B


(Nguồn: https://vi.wikipedia.org/)

8
2.2. TỔNG QUAN VỀ CÔNG NGHỆ NHẬN DẠNG GIỌNG NÓI
2.2.1. Giới thiệu về công nghệ Nhận dạng giọng nói
Nhận dạng giọng nói là một quá trình nhận dạng mẫu, với mục đích là
phân lớp thông tin đầu vào là tín hiệu tiếng nói thành một dãy tuần tự các mẫu đã được
học trước đó và lưu trữ trong bộ nhớ. Các mẫu là các đơn vị nhận dạng, chúng có thể là
các từ, các âm vị. Nếu các mẫu này là bất biến và không thay đổi thì việc nhận dạng
tiếng nói trở nên đơn giản bằng cách so sánh dữ liệu tiếng nói cần nhận dạng với các
mẫu đã được học và lưu trữ trong bộ nhớ. Khó khăn cơ bản của nhận dạng giọng nói là
tiếng nói luôn biến thiên theo thời gian và có sự khác biệt giữa tiếng nói của những
người khác nhau, tốc độ nói, ngữ cảnh và môi trường âm học khác nhau [18].
Các nghiên cứu về nhận dạng tiếng nói dựa trên ba nguyên tắc cơ bản:
• Tín hiệu tiếng nói được biểu diễn chính xác bởi các giá trị phổ trong một khung
thời gian ngắn (short-term amplitude spectrum). Nhờ vậy ta có thể trích ra các
đặc điểm tiếng nói từ những khoảng thời gian ngắn và dùng các đặc điểm này
làm dữ liệu để nhận dạng tiếng nói.
• Nội dung của tiếng nói được biểu diễn dưới dạng chữ viết, là một dãy các ký hiệu
ngữ âm. Do đó ý nghĩa của một phát âm được bảo toàn khi chúng ta phiên âm
phát âm thành dãy các ký hiệu ngữ âm.
• Nhận dạng tiếng nói là một quá trình nhận thức. Thông tin về ngữ nghĩa
(semantics) và suy đoán (pragmatics) có giá trị trong quá trình nhận dạng tiếng
nói, nhất là khi thông tin về âm học là không rõ ràng [18].
2.2.2. Google Cloud Speech-to-Text API

Hình 2.7. Google Cloud Speech API


(Nguồn: Google)

9
Google Cloud Speech-to-Text API là một dịch vụ được cung cấp bởi Google
Cloud Platform, cho phép các nhà phát triển chuyển đổi âm thanh thành văn bản ở 125
ngôn ngữ và biến thể, bằng cách áp dụng các mô hình mạng thần kinh học sâu để nhận
dạng giọng nói tự động (ASR).
Các tính năng của Google Cloud Speech-to-Text API:
• Thích ứng lời nói: tùy chỉnh tính năng nhận dạng giọng nói để phiên âm các thuật
ngữ dành riêng cho các miền và các từ hiếm bằng cách cung cấp các gợi ý và
tăng độ chính xác trong phiên âm của các từ hoặc cụm từ cụ thể. Tự động chuyển
đổi các số được nói thành địa chỉ, năm, tiền tệ,... bằng cách sử dụng các lớp.
• Truyền nhận dạng giọng nói: nhận kết quả nhận dạng giọng nói theo thời gian
thực khi API xử lý đầu vào âm thanh được phát từ micro của ứng dụng hoặc được
gửi từ tệp âm thanh được ghi sẵn.
• Nhận dạng đa kênh: Speech-to-Text có thể nhận dạng các kênh riêng biệt trong
các tình huống đa kênh (ví dụ: hội nghị truyền hình) và chú thích bản ghi để duy
trì thứ tự.
• Xử lý nhiễu: Speech-to-Text có thể xử lý nhiễu từ nhiều môi trường mà không
yêu cầu bộ khử nhiễu bổ sung.
• Chọn lọc nội dung: Bộ lọc giúp bạn phát hiện những nội dung không phù hợp
trong dữ liệu âm thanh và lọc ra những từ thô tục trong kết quả văn bản [19].
2.3. GIỚI THIỆU PHẦN CỨNG
2.3.1. Raspberry Pi 4 Model B

Hình 2.8. Raspberry Pi 4 Model B


(Nguồn: https://raspberrypi.vn/)

10
Raspberry Pi 4 model B là phiên bản mới nhất trong dòng sản phẩm Raspberry
Pi của Raspberry Pi Foundation. Đây là một máy tính nhỏ gọn nhưng mạnh mẽ, được
thiết kế với mục đích đơn giản hóa việc tiếp cận và sử dụng công nghệ.Raspberry Pi 4B
có nhiều cải tiến vượt trội so với các phiên bản trước đó, mang lại khả năng xử lý cao
và tính linh hoạt cho người dùng. Raspberry Pi 4 model B có những đặc điểm phù hợp
với đề tài như sau:
• Bộ xử lý: Raspberry Pi 4B sử dụng bộ xử lý Broadcom BCM2711 64-bit ARM
với tốc độ xung nhịp lên đến 1.5GHz. Đây là một bước nâng cấp lớn so với các
phiên bản trước, mang lại hiệu năng xử lý mạnh mẽ hơn và khả năng đáp ứng tốt
cho các tác vụ nặng.
• Hệ điều hành: Raspberry Pi 4B chạy hệ điều hành Raspbian dựa trên Linux, đi
kèm một số phần mềm tiện ích và công cụ được tối ưu hóa cho Raspberry Pi. Ví
dụ như thư viện GPIO, phần mềm VNC viewer hỗ trợ thao tác bằng máy tính qua
wifi, công cụ quản lý gói và nhiều ứng dụng khác giúp tận dụng tối đa khả năng
của Raspberry Pi.
• Bộ nhớ: Raspberry Pi 4B 2GB RAM LPDDR4-3200, cho phép xử lý đa nhiệm
mượt mà và hỗ trợ ứng dụng đòi hỏi nhiều tài nguyên.
• Kết nối: Raspberry Pi 4B được trang bị các cổng kết nối đa dạng như USB 3.0,
USB 2.0, I2C, Wi-Fi 802.11ac, Bluetooth 5.0, các chân digital IO. Điều này giúp
kết nối và tương tác với các thiết bị ngoại vi và mạng trở nên dễ dàng [20].

Hình 2.9. Sơ đồ chân Raspberry Pi 4


(Nguồn: https://dientuviet.com/ )

11
2.3.2. Microphone M-306
Microphone M-306 là một module microphone đơn giản và tiện dụng, được sử
dụng phổ biến dành cho các module Raspberry Pi. Dưới đây là một số thông tin cơ bản
về Micro thu âm M-306:
• Thiết kế nhỏ gọn: Micro M-306 có kích thước nhỏ gọn, dễ dàng lắp đặt và kết
nối với Raspberry Pi.
• Đầu ra âm thanh chất lượng cao: Micro M-306 được thiết kế để cung cấp chất
lượng âm thanh tốt với độ nhạy cao. Điều này cho phép bạn thu âm và ghi lại âm
thanh chất lượng trên Raspberry Pi.
• Độ nhạy cao: Micro M-306 có độ nhạy cao -47 dBV/Pascal ± 4dB.
• Kết nối dễ dàng: Micro M-306 được kết nối với Raspberry Pi thông qua cổng
USB-A. Chỉ cần cắm micro vào cổng âm thanh của Raspberry Pi để sử dụng.
• Điệp áp: 4.5V
• Tần số đáp ứng: 100~16kHz
• Tương thích với Raspberry Pi: Micro M-306 được thiết kế đặc biệt để tương thích
với Raspberry Pi, đảm bảo tính tương thích và khả năng hoạt động ổn định trên
nền tảng này.
• Ứng dụng đa dạng: Micro M-306 có thể được sử dụng cho nhiều ứng dụng trên
Raspberry Pi như thu âm giọng nói, ghi âm, điều khiển bằng giọng nói, ứng dụng
Internet of Things (IoT) và nhiều ứng dụng khác liên quan đến âm thanh [21].

Hình 2.10. Microphone M-306


(Nguồn: Google)

12
2.3.3. Module OLED 1.3 inch I2C

Hình 2.11. Module OLED 1.3 inch I2C


(Nguồn: Google)
Module OLED 1.3 inch I2C sử dụng công nghệ Organic Light Emitting Diode
(OLED), giúp hiển thị văn bản sau khi chuyển đổi từ giọng nói. Dưới đây là một số đặc
điểm về module OLED 1.3 inch I2C:
• Kích thước: Module OLED 1.3 inch I2C có kích thước đường chéo màn hình 1.3
inch, đủ để hiển thị một đoạn văn bản ngắn. Module OLED 1.3 inch là một lựa
chọn phổ biến cho các ứng dụng không có nhu cầu hiển thị không gian lớn.
• Công nghệ OLED: Màn hình OLED sử dụng công nghệ Organic Light Emitting
Diode, trong đó mỗi điểm ảnh được tạo ra bằng cách kích hoạt các hạt phát sáng
hữu cơ. Điều này tạo ra màu sắc và độ tương phản tốt hơn so với các công nghệ
màn hình khác như LCD.
• Độ phân giải: Màn hình OLED 1.3 inch có độ phân giải 128x64 pixel. Mặc dù
độ phân giải không cao, nhưng vẫn cung cấp đủ độ chi tiết và sắc nét cho việc
hiển thị văn bản.
• Kết nối: Màn hình OLED 1.3 inch I2C thường được điều khiển thông qua giao
tiếp I2C, sử dụng driver SH1106, tương thích với nhiều dòng vi điều khiển
Raspberry Pi và các bo mạch phát triển khác.
• Tiết kiệm năng lượng: Màn hình OLED tiêu thụ năng lượng thấp hơn so với các
loại màn hình khác như LCD, đặc biệt khi chỉ hiển thị các phần tử đen trên nền
đen.
13
• Sơ đồ chân của module OLED 1.3 inch sử dụng 4 chân kết nối I2C như sau:
o VCC: 2.2V đến 5.5V
o GND: GND
o SCL: Xung clock
o SDA: Truyền dữ liệu [22].
2.3.4. Module một nút nhấn 12x12
Module 1 nút nhấn 12x12 là sản phẩm có thiết kế nhỏ gọn, dễ kết nối và sử dụng,
phù hợp cho các ứng dụng điều khiển bằng phím bấm.
Khi nhấn, chân tín hiệu Out nối VCC, khi không nhấn chân tín hiệu Out nối GND.

Hình 2.12. Module một nút nhấn 12x12


(Nguồn: https://icdayroi.com/)

Thông số kỹ thuật module nút nhấn:


• Kích thước: 11mm x 22mm.
• Điện áp: 3.5V, 5V.
• Đầu ra: Digital (nhấn mức thấp, nhả mức cao).
• Giao tiếp: 3 chân (S V G) [23].
2.4. CÁC THƯ VIỆN ĐƯỢC SỬ DỤNG
2.4.1. PyAudio
PyAudio cung cấp các liên kết Python cho PortAudio v19, thư viện I/O âm thanh
đa nền tảng. Với PyAudio, có thể dễ dàng sử dụng Python để phát và ghi âm trên nhiều
nền tảng khác nhau, chẳng hạn như GNU/Linux, Microsoft Windows và Apple macOS
[24].

14
Đối với Raspberry cài đặt hệ điều hành Raspbian, PyAudio được cài đặt trong
Terminal bằng câu lệnh:
sudo apt install python3-pyaudio
2.4.2. luma.oled
Màn hình OLED có thể được điều khiển bằng python bằng cách sử dụng các triển
khai khác nhau trong gói luma.oled.device của thư viện luma.oled. Thư viện hỗ trợ các
module OLED có driver SSD1306, SSD1322, SSD1325, SSD1331 or SH1106. Thư viện
cung cấp canvas vẽ tương thích với PIL và các chức năng khác để hỗ trợ:
• Khả năng cuộn/xoay,
• In terminal-style,
• Màu/thang độ xám (nếu được hỗ trợ),
• Chuyển màu thành đơn sắc
Để cài đặt thư viện luma.oled cho Raspberry Pi hệ điều hành Raspbian, thực hiện
gõ các dòng lệnh sau trong cửa sổ Terminal: [25]
sudo apt-get install python-dev python-pip
libfreetype6-dev libjpeg8-dev libsdl1.2-dev
sudo pip install –upgrade luma.oled
Khi cài đặt luma.oled thì thư viện luma.core sẽ được tự động cài đặt. luma.core
là một thư viện thành phần cung cấp canvas vẽ tương thích với Pillow (Pillow-
compatible) cho Python 3 và các chức năng khác để hỗ trợ vẽ nguyên thủy và khả năng
kết xuất văn bản cho màn hình nhỏ trên Raspberry Pi.
2.4.3. Speech_recognition
Thư viện Python được sử dụng để hỗ trợ nhận diện giọng nói là
Speech_recognition được phát triển chủ yếu bởi nhóm phát triển của Google. Công cụ
nhận diện giọng nói/API (giao diện lập trình ứng dụng) hỗ trợ bao gồm: [26]
• CMU Sphinx (hoạt động offline)
• Google Speech Recognition
• Google Cloud Speech API
• Wit.ai
• Microsoft Azure Speech

15
• Microsoft Bing Voice Recognition (Deprecated)
• Houndify API
• IBM Speech to Text
• Snowboy Hotword Detection (works offline)
• Tensorflow
• Vosk API (hoạt động offline)
• OpenAI whisper (hoạt động offline)
• Whisper API
Trong đó, Google Speech Recognition là một công cụ miễn phí được nhóm sử
dụng trong đề tài. Công cụ nhận diện giọng nói này hỗ trợ nhiều ngôn ngữ, độ chính xác
cao, có khả năng phân biệt âm thanh không phải giọng nói. Đồng thời cũng xử lý nhận
diện được giọng nói theo thời gian thực.
Để cài đặt thư viện speech_recognition cho Raspberry Pi hệ điều hành Raspbian,
thực hiện gõ các dòng lệnh sau:
pip install SpeechRecognition

16
CHƯƠNG 3: TÍNH TOÁN VÀ THIẾT KẾ
3.1. GIỚI THIỆU
• Thiết kế, tính toán dòng, áp cung cấp cho các cảm biến để thu thập thông tin, dữ
liệu.
• Thiết kế, tính toán dòng, áp cung cấp cho các linh kiện điện, thiết bị của mô hình
hoạt động đúng yêu cầu.
3.2. TÍNH TOÁN VÀ THIẾT KẾ HỆ THỐNG
3.2.1. Thiết kế sơ đồ khối hệ thống
. a) Sơ đồ khối
INPUT OUTPUT

Giọng nói

Khối ghi âm

Khối xử lý trung
Module nút nhấn
tâm
I2C Khối hiển thị

Raspberry Pi 4 Oled 1,3 inch

Khối thu âm USB


thanh

Microphone

Khối nguồn

Hình 3.1. Sơ đồ khối hệ thống

17
b) Chức năng từng khối
o Khối nguồn: Cấp nguồn 5V-3A cho bo mạch Raspberry và các linh kiện còn lại.
o Khối ghi âm: Cho phép người dùng bắt đầu ghi âm.
o Khối thu âm thanh: Chuyển đổi tín hiệu âm thanh thành tín hiệu điện (digital).
o Khối xử lý: Tiếp nhận và xử lý tín hiệu từ microphone, chuyển thành văn bản rồi
xuất tín hiệu gửi đến module OLED.
o Khối hiển thị: Module OLED hiển thị văn bản sau khi xử lý tín hiệu giọng nói.
3.2.2. Nguyên lý hoạt động
Khi người dùng nhấn nút, Raspberry Pi 4 sẽ bắt đầu quá trình ghi âm từ
microphone kết nối ở cổng USB của Raspberry Pi 4 và xử lý tín hiệu âm thanh. Sau đó,
thông qua quá trình nhận diện giọng nói, Raspberry Pi 4 sẽ phân tích và xác định nội
dung của giọng nói. Kết quả của quá trình nhận diện sẽ được hiển thị lên màn hình
OLED thông qua giao tiếp giữa Raspberry Pi 4 và màn hình. Tất cả các bước này được
điều khiển bởi một ứng dụng lập trình chạy trên Raspberry Pi 4, cho phép người dùng
tương tác và nhận biết kết quả của việc nhận diện giọng nói thông qua giao diện trực
quan trên màn hình OLED.
3.2.3. Thiết kế CAD 3D cho mô hình
Đầu tiên nhóm sẽ đặt Raspberry Pi 4B vào vỏ case được thiết kế có bán
sẵn trên thị trường như hình bên dưới để cố định:

Hình 3.2. Vỏ case thiết kế Raspberry Pi có sẵn trên thị trường


(Nguồn: https://raspberrypi.vn/)
Sau đó, đo đạc kích thước vỏ case để có kích thước dựng lên khung cho
mô hình. Với kích thước vỏ hộp là 93mm (chiều dài) x 62mm (chiều rộng) x 30mm

18
(chiều cao), nhóm sẽ thiết kế khung máy với các kích thước: 105mm (chiều dài) x 75mm
(chiều rộng) x 65mm (chiều cao) như Hình 3.3 dưới đây.
Kích thước chiều dài và chiều rộng của khung mô hình sẽ lớn hơn kích
thước của vỏ case là 12-13mm để trừ hao độ sai số có thể xảy ra và tạo thành dày 5mm.

Hình 3.3. Phần đáy khung mô hình.


Ở mặt sau của mô hình, nhóm khoét một hình chữ nhật với kích thước
42.4 mm (chiều dài) x 65mm ( chiều rộng). Với kích thước này thì có thể đưa vỏ case
có Raspberry Pi vào trong khung mô hình.

Hình 3.4. Phần mặt sau khung mô hình.

19
Theo Hình 3.4, hình chữ nhật được khoét sẽ cách với phần đáy mô hình một
khoảng 12.6 mm, đủ để hiện các cổng kết nối USB và cổng WAN. Ngoài ra có thêm hai
lỗ tròn 4 mm để lắp vít gắn nắp lưng mica trong, dày 2 mm cho khung mô hình như
Hình 3.5 để tránh linh kiện bên trong bị rơi ra ngoài.

Hình 3.5. Nắp lưng mô hình.

Hình 3.6. Phần mặt bên trái của khung mô hình.


Ở Hình 3.6, nhóm sẽ cắt một hình chữ nhật nhỏ ở góc bên trái để cắm nguồn.
Phần nút nhấn nằm dưới màn hình, phần đáy tới chân chống nắp module nút nhấn là
43.19 mm và chân chống nắp cũng dày 2mm. Nhóm sử dụng tất cả nắp bằng mica trong
để có thể phát hiện lỗi xảy ra cũng như điều chỉnh màn hình và module.

20
Hình 3.7. Phần mặt bên trên của khung mô hình.

Hình 3.8. Nắp màn hình nút nhấn và OLED.

21
Hình 3.9. Khung máy sau khi thiết kế CAD 3D hoàn chỉnh

Hình 3.10. Hình ảnh 3D của mô hình hoàn chỉnh


22
3.2.4. Chọn nguồn cung cấp cho mô hình
Nhóm mong muốn thiết kế sản phẩm có thể đạt độ chính xác cao, ổn định và có
thiết kế phù hợp, đảm bảo việc sửa đổi dễ dàng và không ảnh hưởng đến hệ thống về
thiết kế như hàn tháo linh kiện nếu có lỗi phần cứng xảy ra. Vậy nên nhóm dùng những
thiết kế có sẵn (Rapberry Pi 4B và các module, cảm biến). Từ đó tính toán chọn nguồn
cung cấp như bảng sau:
Bảng 3.1. Nguồn cung cấp cho mô hình

THIẾT BỊ NGUỒN HOẠT ĐỘNG

Rapberry Pi 4B 5V - 800mA

OLED 1.3 inch SH 1106 2.2-5.5 V - 18 mA-72 mA

Microphone M-306 4.5V-5V – 2000mA

Module nút nhấn 12x12mm 3,5 V- 5V- 50mA

Nguồn tổng 5V- 2922mA

Dựa trên bảng thông số nguồn nhóm lựa chọn nguồn 5V – 3A cho mô hình.

23
CHƯƠNG 4: THI CÔNG HỆ THỐNG
4.1. GIỚI THIỆU
Sau khi hoàn tất việc tính toán các thông số quy đổi cũng như sử dụng nguồn
phù hợp, chúng ta tiến hành lắp ráp mô hình, kết nối dây, bắt ốc, đặt linh kiện vào vị
trí hợp lý và chạy thực tế.
4.2. THI CÔNG KHUNG MÔ HÌNH
Khung mô hình được in 3D với phương pháp FDM, chất liệu nhựa PLA sẽ tạo
được độ bền, độ nhẹ và tiết kiệm chi phi và độ infill là 60% như Hình 4.2, làm cho mô
hình có độ thẩm mỹ tương đối cao và tiết kiệm chi phí. Hình 4.1 là máy in 3D FDM với
chất liệu in là nhựa giao tiếp với máy tính.

Hình 4.1. In 3D bằng phương pháp FDM


(Nguồn: https://in3dvietnam.com/)

Hình 4.2. Tỷ lệ Infill


(Nguồn: https://in3dvietnam.com/)
24
Các chi tiết của mô hình được kết nối với nhau bằng bu lông M4 kết hợp với đai
ốc M4 và M3 như Hình 4.3. Đối với module nút nhấn và màn hình OLED kết nối với
phần nắp như Hình 3.7

Hình 4.3. Bu lông và đai ốc


(Nguồn: Google)
Ngoài ra mô hình sử dụng linh kiện và các module của nhà sản xuất có sẵn trên
thị trường nên sẽ không có sơ đồ mạch in.

4.3. LẬP TRÌNH HỆ THỐNG


4.3.1. Lưu đồ giải thuật toàn hệ thống

Hình 4.4. Lưu đồ chương trình chính toàn mô hình

25
Hoạt động của mô hình được thể hiện qua lưu đồ trong Hình 4.4. Mô tả cụ thể
như sau:
• Kiểm tra đã kết nối với Google Cloud Speech To Text API chưa? Nếu chưa thì
hiển thị thông báo chưa kết nối và thử kết nối lại sau đó mới cho thực hiện những
công việc tiếp theo.
• Kiểm tra nút nhấn, nếu nút nhấn đã được nhấn thì sẽ hiển thị “xin chào” rồi “Let’s
talk” rồi người nói bắt đầu ghi âm.
• Bộ nhận dạng sẽ hoạt động để nhận dạng giọng nói được ghi sau đó hiển thị lên
màn hình, nếu không thể nhận dạng được thì yêu cầu người nói nói lại.
• Nếu nói “Tạm biệt” thì in “Tạm biệt!” rồi kết thúc chương trình.
4.3.2. Thuật toán “Speak-to-Text”

Hình 4.5. Hệ thống phân tích giọng nói của Google


(Nguồn: Google)

Hình 4.6. Sơ đồ khối thuật toán Speak-to-Text


(Nguồn: Google)

26
Khi người dùng bắt đầu nói, phần mềm sẽ gắn giá trị nói được là a dưới dạng âm
thanh (Hình 4.7), phần mềm sẽ luôn kiểm tra liên tục để biết được lúc nào người dùng
nói. Khi lời nói dừng lại, phần mềm sẽ hoàn thành việc gán giá trị a và gửi nội dung đến
Server dưới dạng Audio (Hình 4.6 và Hình 4.8).
Server này chính là Google API, nơi sẽ xử lí toàn bộ nội dung âm thanh được gửi
đến và trả về giá trị ở dạng văn bản (Hình 4.6). Tất cả những bước này được thực hiện
ở chương trình con (Hình 4.8) và được gọi ở Hình 4.6. Kết thúc bước này, ta có được
kết quả là đoạn văn bản thô từ lời nói đầu vào.

Sai

Đúng

Gán a= lời thoại thu được

Sai
Kết thúc lời thoại

Đúng

Gửi server

Hình 4.7. Lưu đồ giải thuật chức năng Speech-to-Text

27
Gửi server

Gán b = giá trị nhận được

Hình 4.8. Lưu đồ giải thuật chương trình kết nối với Google Cloud
4.3.3. Lưu đồ hiển thị văn bản từ giọng nói
Lưu đồ hiển thị văn bản từ giọng nói của hệ thống được biểu diễn như Hình 4.9
bên dưới:

Hình 4.9. Lưu đồ giải thuật hiển thị màn hình


28
4.4. THI CÔNG PHẦN CỨNG
4.4.1. Sơ đồ kết nối phần cứng
Tất cả các linh kiện bao gồm Raspberry Pi 4, Adapter, module OLED,
microphone và nút nhấn được kết nối thực tế như Hình 4.10 bên dưới.

Hình 4.10. Sơ đồ kết nối phần cứng


4.4.2. Sơ đồ lắp Testboard
Sau khi thực hiện viết chương trình dựa trên các lưu đồ giải thuật ở phần 4.3 và
với sơ đồ kết nối như Hình 4.10, nhóm tiến hành lắp testboard để kiểm tra hoạt động
của mô hình như Hình 4.11.

Hình 4.11. Sơ đồ lắp testboard

29
4.4.3. Mô hình hoàn chỉnh
Tiến hành gắn các linh kiện vào phần khung máy đã thiết kế như Hình 4.12.

Hình 4.12. Mô hình hoàn chỉnh

4.5. TÀI LIỆU HƯỚNG DẪN SỬ DỤNG, THAO TÁC


Bước 1: Cấp nguồn cho hệ thống. Hệ thống sử dụng nguồn 5V/3A. Khi cấp nguồn thì
đèn báo hiệu màu đỏ của Raspberry nhấp nháy, khi kết nối Wifi thành công thì đèn màu
vàng tắt như Hình 4.13.

Hình 4.13. Cấp nguồn cho mô hình


30
Bước 2: Kết nối microphone vào cổng USB như Hình 4.14.

Hình 4.14. Kết nối microphone


Bước 3: Khởi động mô hình:
• Nhấn chọn file DAVXL.py trên màn hình Hình 4.15.

Hình 4.15. Giao diện trên máy tính

31
• Chọn Run → Run module để chạy chương trình. Giao diện chương trình sẽ hiển
thị như Hình 4.16.

Hình 4.16. Chạy chương trình


Bước 4: Nhấn nút nhấn để bắt đầu ghi âm và tiến hành thu âm vào microphone như
Hình 4.17.

Hình 4.17. Tiến hành thu âm

32
CHƯƠNG 5: KẾT QUẢ, NHẬN XÉT VÀ ĐÁNH GIÁ
5.1. KẾT QUẢ ĐẠT ĐƯỢC
Sau khi cho hoạt động thử nghiệm nhận diện và chuyển đổi văn bản thành
giọng nói, hệ thống nhận diện được giọng nói và chuyển đổi thành công thành văn
bản xuất ra OLED. Minh họa ở Hình 5.1 bên dưới:

Hình 5.1. Kết quả mô hình nhận diện giọng nói và chuyển đổi thành văn bản hiển thị
trên OLED
5.2. NHẬN XÉT, ĐÁNH GIÁ TOÀN HỆ THỐNG
o Về phần cứng:
• Mô hình có nguồn cung cấp ổn định.
• OLED 1.3 inch hiển thị chất lượng chữ, độ sáng, độ tương phản và màu
sắc theo mong muốn thiết kế.
• Việc giao tiếp giữa các thiết bị Raspberry Pi 4B với microphone và module
oled, nhận và truyền dữ liệu được đáp ứng đầy đủ.
• Bên cạnh đó, vẫn còn hạn chế là chưa gom gọn được các dây kết nối, ảnh
hưởng đến thẩm mỹ.
o Về phần nhận diện:
33
• Mô hình có thể diện được giọng nói ở 2 ngôn ngữ Tiếng Việt và Tiếng
Anh và có thể hiển thị chữ số và độ chính xác cao.
• Thời gian nhận diện giọng nói lâu và bị ảnh hưởng nếu môi trường xung
quanh có nhiều tiếng ồn, chưa đáp ứng được việc chuyển đổi theo thời
gian thực.
o Về truyền dữ liệu trong hệ thống
• Việc truyền dữ liệu trong hệ thống cơ bản hoàn thành mục tiêu đặt ra.
• Tuy nhiên, vẫn còn hạn chế là việc truyền dữ liệu vẫn còn có sự trì hoãn
và khi mất kết nối thì không tự bắt kết nối lại mà phải chạy lại chương
trình.
Trong quá trình thực hiện đề tài, nhóm đã nghiên cứu, học hỏi thêm được các kiến
thức sau:
- Tìm hiểu các đề tài liên quan, các kiến thức về truyền dữ liệu web server giữa
Raspberry Pi và máy tính.
- Nghiên cứu được cách cài đặt hệ điều hành cho Raspberry Pi 4B, thiết lập các thông
số phù hợp với yêu cầu đề tài; cách kết nối, giao tiếp giữa Raspberry với OLED 1.3 inch
theo I2C.
- Nghiên cứu được cách cài đặt, tạo dự án, lập trình trên phần mềm lập trình Python.

34
CHƯƠNG 6: KẾT LUẬN VÀ HƯỚNG PHÁP TRIỂN
6.1. KẾT LUẬN
Nhóm đã thành công trong việc đạt được mục tiêu chính của đề tài, đó là nhận
dạng giọng nói và chuyển đổi nó thành văn bản. Tuy nhiên, dù đã có thành tựu đáng
kể như là nhận dạng được cả tiếng Việt và tiếng Anh với độ chính xác cao, vẫn tồn
tại một số hạn chế cần được cải thiện. Trong môi trường thời gian thực, hệ thống hiện
tại gặp độ trễ và độ nhạy không đáp ứng đầy đủ yêu cầu. Ngoài ra, trong môi trường
có nhiều tiếng ồn, mô hình nhận dạng gặp khó khăn do sự nhiễu âm thanh. Mặt khác,
tính thẩm mỹ của hệ thống chưa được cao, vì việc kết nối phần cứng bằng dây chưa
gói gọn được.
6.2. HƯỚNG PHÁT TRIỂN
Trong quá trình nghiên cứu và thực hiện, đề tài phát hiện được một số giải pháp
khác, là hướng phát triển cho đề tài đó là:
• Cho phép lưu trữ và xem lại văn bản đã chuyển đổi.
• Thêm bộ lọc tiếng ồn.
• Cải thiện tốc độ nhận diện giọng nói theo thời gian thực.
• Tăng độ chính xác của mô hình.
• Tích hợp thêm chức năng chuyển ngôn ngữ thành ngôn ngữ kí hiệu, giúp mọi
người có thể nói chuyện với người mất khả năng về thính lực từ bẩm sinh.

35
TÀI LIỆU THAM KHẢO
[1] "WHO: 1 in 4 people projected to have hearing problems by 2050," WHO, 2
March 2021. [Online]. Available: https://www.who.int/news/item/02-03-2021-
who-1-in-4-people-projected-to-have-hearing-problems-by-2050.
[Accessed 20 May 2023]
[2] Q. Chi, "25% dân số thế giới có nguy cơ mắc các bệnh về thính giác vào năm
2050," Đài truyền hình Việt Nam, 20 March 2021. [Online]. Available:
https://vtv.vn/the-gioi/25-dan-so-the-gioi-co-nguy-co-mac-cac-benh-ve-thinh-
giac-vao-nam-2050-2021030217301742.html. [Accessed 20 May 2023].
[3] T. Lâm, "Tổng quan, khái quát về người khuyết tật Việt Nam," Tạp chí điện tử
Đồng hành Việt, 18 April 2021. [Online]. Available:
http://donghanhviet.vn/news/3681/377/Tong-quan-khai-quat-ve-nguoi-khuyet-
tat-Viet-
#:~:text=V%C3%A0%20t%E1%BB%B7%20l%E1%BB%87%20c%C3%A1c
%20d%E1%BA%A1ng,th%C3%A0nh%20ph%E1%BB%91%3B%20tr%C3%
AAn%2060%25%20NKT. [Accessed 20 May 2023].
[4] D. Trương, "Báo điện tử VNExpress," 2013. [Online]. Available:
https://vnexpress.net/giai-phap-moi-cho-nguoi-khiem-thinh-2898274.html.
[Accessed 22 May 2023].
[5] U. Health, "Hearing Loss Treatment," [Online]. Available:
https://www.ucsfhealth.org/conditions/hearing-loss/treatment.
[Accessed 22 May 2023].
[6] Đ. Nghĩa, "THIẾT BỊ GIAO TIẾP DÀNH CHO NGƯỜI KHIẾM THÍNH-
SPEAK YOUR MIND (SYM)," 2021. [Online]. Available:
https://oisp.hcmut.edu.vn/cuoc-song-sinh-vien/thiet-bi-giao-tiep-cho-nguoi-
khiem-thinh-sym.html. [Accessed 23 May 2023].
[7] "XRAI GLass," [Online]. Available: https://xrai.glass/en/ar-glasses.
[Accessed 23 May 2023].

36
[8] K. Văn, "Giải pháp hỗ trợ người khiếm thính theo thời gian thực," Báo Thanh
niên, 2022. [Online]. Available: https://thanhnien.vn/giai-phap-ho-tro-nguoi-
khiem-thinh-theo-thoi-gian-thuc-1851513896.html. [Accessed 23 May 2023].
[9] D. T. Uyên, "Bệnh khiếm thính là gì?," Báo VietNamNet., 2017. [Online].
Available: https://vietnamnet.vn/benh-khiem-thinh-la-gi-385974.html.
[Accessed 23 May 2023].
[10] WHO.int, "Deafness and hearing loss," 2023. [Online]. Available:
https://www.who.int/news-room/fact-sheets/detail/deafness-and-hearing-loss.
[Accessed 25 May 2023].
[11] "Hệ thống phiên dịch lời nói tiếng Việt thành ngôn ngữ kí hiệu cho người mất khả
năng thính lực," Trường Đại học Công nghiệp TP.HCM, 2020. [Online].
Available:
https://smia.iuh.edu.vn/upload/files/2021/Eureka/2021SMIA/Bai%20m%E1%B
A%ABu%20da%20d%E1%BA%A1t%20gi%E1%BA%A3i.pdf.
[Accessed 3 June 2023].
[12] T. N. Hương, "CÔNG NGHỆ HỖ TRỢ CHO NGƯỜI ĐIẾC VÀ NGƯỜI KHIẾM
THÍNH," Tạp chí Giáo dục, Số đặc biệt, p. 160, 2017.
[13] NationalDeafCenter.org, "Communicating with Deaf Individuals," [Online].
Available: https://www.usf.edu/student-affairs/student-
accessibility/documents/com-deaf-individuals.pdf. [Accessed 26 May 2023].
[14] QIPEDC, "GIỚI THIỆU VỀ NGÔN NGỮ KÝ HIỆU," [Online]. Available:
https://qipedc.moet.gov.vn/slang1. [Accessed 26 May 2023].
[15] "Thiếu phiên dịch viên, bệnh nhân đặc biệt thiệt thòi về cơ hội chăm sóc y tế,"
Kênh VOV Giao thông- Đài Tiếng nói Việt Nam, 2020. [Online]. Available:
https://vovgiaothong.vn/thieu-phien-dich-vien-benh-nhan-dac-biet-thiet-thoi-ve-
co-hoi-cham-soc-y-te-
d14368.html#:~:text=l%C3%A0%20kh%C3%B4ng%20th%E1%BB%83%E2%
80%9D.-
,%E1%BB%9E%20n%C6%B0%E1%BB%9Bc%20ta%20hi%E1%BB%87n%2
0c%C3%B3%20kho%E1%BA%A3ng%201%20%C4%91.

37
[Accessed 27 May 2023].
[16] "Hearing Aids Side Effects," Nu-Life Hearing Centre, 2020. [Online]. Available:
https://nulifehearing.com/hearing-aids-side-effects/. [Accessed 28 May 2023].
[17] J. P. Piyush Patil, "IOT Based Real Time Communication for Deaf People,"
IJIRSET, 2017. [Online]. Available:
http://www.ijirset.com/upload/2017/february/9_IOT.pdf.
[Accessed 1 June 2023].
[18] "Nhận dạng tiếng nói," wikipedia.org, [Online]. Available:
https://vi.wikipedia.org/wiki/Nh%E1%BA%ADn_d%E1%BA%A1ng_ti%E1%
BA%BFng_n%C3%B3i. [Accessed 1 June 2023].
[19] "Speech-to-Text," Google Cloud, [Online]. Available:
https://cloud.google.com/speech-to-
text/?utm_source=google&utm_medium=cpc&utm_campaign=japac-VN-all-
en-dr-BKWS-all-all-trial-EXA-dr-1605216&utm_content=text-ad-none-none-
DEV_c-CRE_658171086156-ADGP_Hybrid%20%7C%20BKWS%20-
%20BRO%20%7C%20Txt%20~%20AI%20%26%. [Accessed 2 June 2023].
[20] "Raspberry Pi 4 model B 2019," Raspberry Pi Việt Nam, [Online]. Available:
https://raspberrypi.vn/san-pham/raspberry-pi-4-model-b-2019.
[Accessed 16 May 2023].
[21] "Micro thu âm M-306 cho Raspberry Pi," Raspberry Pi Việt Nam, [Online].
Available: https://raspberrypi.vn/san-pham/micro-thu-am-m-306-cho-raspberry-
pi. [Accessed 16 May 2023].
[22] "Giới thiệu màn hình OLED 0.96 inch I2C," Arduino Việt Nam, [Online].
Available: http://arduino.vn/bai-viet/1503-gioi-thieu-man-hinh-oled-096-inch-
i2c. [Accessed 16 May 2023].
[23] "Module 1 nút nhấn 12x12," Linh kiện Điện tử IC Đây rồi, [Online]. Available:
https://icdayroi.com/module-1-nut-nhan-12x12. [Accessed 2 June 2023].
[24] "PyAudio 0.2.13," PyPI, [Online]. Available: https://pypi.org/project/PyAudio/.
[Accessed 16 May 2023].

38
[25] R. Hull, "Luma.OLED Documentation," [Online]. Available:
https://buildmedia.readthedocs.org/media/pdf/luma-oled/rtd-update/luma-
oled.pdf. [Accessed 16 May 2023].
[26] "SpeechRecognition 3.10.0," PyPI, [Online]. Available:
https://pypi.org/project/SpeechRecognition/. [Accessed 16 May 2023].

39

You might also like