You are on page 1of 29

Welcome to DaiViet

1954 Team

Tuân Trường Linh


FE BE BE

Sang
Nhựt Thành Mentor
AI + Product BA
Vấn Đề
- Tình trạng học sinh có cảm giác “lạnh nhạt”, thiếu hụt các kiến thức cơ bản về môn lịch sử.
Khảo Sát
Em ghét nhất khi học môn Sử là ...

• Phải nhớ quá nhiều sự kiện, con số, ngày tháng 53 39%

• Các sự kiện quá khô cứng, đơn điệu 9 7%

• Phải học thuộc quá dài 24 18%

• Không đúng với những gì em đọc trên mạng 22 16%

• Không có gì hay 3 2%

• Khác 24
18%
Vấn đề
=> Cần có 1 cách tiếp cận mới, cách học lịch sử mới phù hợp với xu thế của thời đại, gần gũi hơn với các bạn trẻ
“Dân ta phải biết sử ta cho tường gốc tích nước nhà Việt Nam”
~ Hồ Chí Minh ~
Large Language Model(LLM)
Data : Tổng hợp từ các sách lịch sử
Viêt Nam nổi tiếng
- các bài báo, các đề thi lịch sử

Model : HuggingFace, Vinallama

Kết quả : Model trả lời được nhiều


câu hỏi mang tính chiều sâu của lịch
sử Việt Nam mà những model ngôn
ngữ lớn khác chưa trả lời đúng
DaiVietGPT
DEMO
Giải pháp và chức năng chính

Tạo ra một hệ thống chatbot AI cho phép người dùng tái hiện
lại các nhân vật anh hùng, vĩ nhân trong lịch sử, ...
Công nghệ
• Speech Recognition

• LLM Model

• Text2Speech

• Talking Head Generation Model


Main Pipeline
Input:
Question from TalkingHeadGenerator
Text2Text(LLM) Text2Speech
user (Text, Model
Voice)

Voice2Text
Speech Recognition

Input: Model description: Model wav2vec2 (facebook) gồm : 95M tham số


Question from được pretrain trên 13k giờ audio youtube tiếng Việt, tiếp tục được fine-
user (Text,
Voice)
tune trên tập data VLSP ASR dataset và data của nhóm tự tạo gồm 250
giờ audio

WER: 0.177

Voice2Text
LLM Model
Model Vinallama chat 7B được fine tune bằng parameter
Text2Text(LLM) efficient fine tuning (PEFT/Lora) giữ nguyên model và tạo
ra 1 số đường nối và fine tune trên các đường nối ấy

Data: Lấy câu hỏi từ sách giáo khoa, có format


{
“Question”: ...
“Answer”:...
}
Full bộ data với hơn 10k context mỗi context có tối thiểu 4
câu hỏi và 4 câu trả lời
So sánh
So sánh
Data for testing :
Đề thi lịch sử THPTQG từ 2019 - 2023 gồm :
+ 4 đề thi
+ 160 câu hỏi (130 NB, 30 VD-VDC)
Text2Speech Model VITS(
Conditional Variational Autoencoder with Adversarial Lear
ning for End-to-End Text-to-Speech
Text2Speech )

Data: Được collect bằng cách chạy google dịch giọng nam
qua bộ corpus tiếng Việt. Vietnamese CC-100
Talking Head Generation Model
Sau khi thử nhiều phương pháp: wave2lip, LipGAN,... Quyết định chọn pretrain model SadTalker vì cân
bằng được thời gian chạy và độ chính xác
Đối tượng khách hàng

Học sinh Khách du lịch Người thích lịch sử


...nhưng chưa có nền tảng toàn diện

Nội dung được tự do đăng tải, nhưng cũng


Có bản quyền, có tổ chức rõ ràng nhưng vẫn chính vì vậy dẫn đến sự tổ chức không rõ
còn hạn chế về nội dung ràng, nội dung chưa được đảm bảo và kiểm
duyệt
Định hướng phát triển

Partnership Growth
Users Growth
Product Growth
Hợp tác với các doanh
Áp dụng các phương pháp
Tập trung phát triển nghiệp giáo dục lớn, kinh
truyền thông, marketing để
AI, Web, App, Sever,... doanh bằng cách cung cấp
thu hút người dùng cho
dịch vụ API
sản phẩm phần mềm
Kinh doanh

Assistant robot Tái hiện người đã khuất bằng AI


Kinh doanh
Spend : 1000$

Product Growth

Tập trung phát triển


AI, Web, App, Sever,...
Kinh doanh
Ads on Social Media(Tiktok, Facebook, Youtube, ...)

Users Growth

Áp dụng các phương pháp


truyền thông, marketing để
thu hút người dùng cho
sản phẩm phần mềm
Kinh doanh
Bán/cho thuê nhân vật
Kinh doanh
Cung cấp API
Kinh doanh
DaiVietGuidance
Học lịch sử, tới Đại Việt
Thanks for your atttention

You might also like