Khoa học dữ liệu nhóm 4 1

Thành viên nhóm 4 : Trương Tấn Phát (31211023816), Nguyễn Lê Minh Phước (31211026076), Bùi Tố Tuấn
Phong (31211022143), Hồ Tấn Phước (31211026075), Nguyễn Trần Minh Duy (31211022092)
VẤN ĐỀ
Tính minh bạch, rõ ràng và khách quan trong quá trình hoạt động kinh doanh của các doanh
nghiệp
MÔ TẢ DỰ ĐỊNH
Sử dụng nhiều yếu tố rủi ro được kiểm tra từ nhiều lĩnh vực khác nhau như hồ sơ trước đây của văn phòng kiểm
toán, kiểm toán, báo cáo điều kiện môi trường, tóm tắt danh tiếng của công ty, báo cáo các vấn đề đang thực hiện, hồ
sơ giá trị lợi nhuận, hồ sơ giá trị lỗ, báo cáo tiếp theo, v.v. để giúp kiểm toán viên xây dựng một mô hình phân loại
có thể dự đoán doanh nghiệp gian lận trên cơ sở các yếu tố rủi ro hiện tại và lịch sử
NGUỒN DỮ LIỆU
Bộ dữ liệu được tổng hợp từ các tập dữ liệu được xây dựng cho việc phân loại các doanh nghiệp
có nghi vấn - được trích xuất tại https://archive.ics.uci.edu/ml/datasets/Audit+Data bộ dữ liệu
này được thu thập từ năm 2015 đến 2016 bởi một công ty kiểm toán của Ấn Độ
MÔ TẢ THUỘC TÍNH
Thuộc tính Ý nghĩa Mô tả
Sector-score Giá trị điểm rủi ro trong quá khứ số thập phân
của đơn vị mục tiêu sử dụng quy
trình phân tích
Location_ID Số tự nhiên
ID của thành phố/tỉnh
Para_A Sự chênh lệch được tìm thấy trong số thập phân
chi tiêu kế hoạch của cuộc thanh tra
và báo cáo tóm tắt A tính bằng Rs
(theo crore)
Score_A Số tự nhiên
Para_B Sự chênh lệch được tìm thấy trong Số thập phân
chi tiêu kế hoạch của cuộc thanh tra
và báo cáo tóm tắt B tính bằng Rs
(theo crore)
Score_B số tự nhiên
Total tổng chênh lệch được tìm Số thập phân
thấy trong các báo cáo khác
Rs (theo crore)
Numbers chỉ số chênh lệch trong quá số thập phân
khứ
Marks Số tự nhiên
Money_Value Số tiền liên quan đến các sai sót Số thập phân
trong các cuộc kiểm toán trước đây.
Money_Marks số tự nhiên
District Doanh thu số tự nhiên
Loss Lượng tiền thất thoát doanh số tự nhiên
nghiệp phải gánh chịu trong
năm trước
Loss_score số tự nhiên
History Lượng tiền thất thoát trung số tự nhiên
bình doanh nghiệp phải gánh
chịu trong vòng 10 năm qua
History_score số tự nhiên
Score số thập phân
Risk Phân loại rủi ro được chỉ định cho số tự nhiên
một trường hợp đánh giá. (Tính
năng mục tiêu)
MÔ HÌNH KIỂM TOÁN

1. Tìm hiểu doanh nghiệp : những tài khoản kế toán quan trọng, giao
dịch và những giá trị kỳ vọng
2. Đánh giá rủi ro : rủi ro có sai phạm trọng yếu trong báo cáo tài
chính
3. Thiết kế kế hoạch kiểm toán hợp nhất : xác định lĩnh vực kiểm
toán, chương trình kiểm toán và lịch trình kiểm toán
4. Thực hiện kế hoạch : kiểm tra hệ thống kiểm soát, giao dịch, tài
khoản kế toán
5. Báo cáo kết quả : kết luận kiểm toán, ý kiến kiểm toán (chấp nhận
hay không chấp nhận), kết luận hệ thống kiểm soát nội bộ
6. Theo dõi (tiếp tục trong vòng 2 năm tiếp theo): đánh giá quy trình
đã thực hiện
MÔ HÌNH DỰ BÁO GIAN LẬN
TIỀN XỬ LÝ
B1: Xác định biến độc lập và biến phụ thuộc, Edit domain, Preprocess
Nhóm đã gom các bước Edit domain, Preprocess, vào B1 cho việc thuận tiện để đi vào
phân tích. Trước hết bằng những kiến thức và sự suy đoán dựa trên những thuộc tính có
được thì nhóm em đã xác định được biến độc lập và đâu là biến phụ thuộc trong bài
toán ‘’ Dự báo gian lận’’. Trong trường hợp này thì “ RISK “ sẽ là biến phụ thuộc “chính”
còn 17 thuộc tính còn lại sẽ là biến độc lập
B2: Xác định những thuộc tính tác động trực tiếp đến mô hình “Dự báo gian lận kiểm
toán”
- Sau khi đã xác định được “biến độc lập” và “biến phụ thuộc”, nhóm em đã tiến
hành phân ra giữa “Risk có giá trị 1” ( doanh nghiệp gian lận ) và “ Risk có giá trị
0” ( Doanh nghiệp không gian lận) bằng Select Row, để thuận tiện cho việc phân
tích và tìm ra những yếu tố tác động chính.
(Dữ liệu của những doanh nghiệp gian lận)
(Dữ liệu của những doanh nghiệp không gian lận)

B3: Tìm ra một số điểm khác biệt trong các thuộc tính giữa doanh nghiệp gian lận và
không gian lận
 Para: Sự chênh lệch được tìm thấy trong báo cáo cuộc điều tra và báo cáo tóm tắt
Nhìn vào biểu đồ ta có thể thấy được chỉ số của “Risk 0” tập trung hoàn toàn ở mức từ
0-1. Còn đối với ‘’Risk1” thì chỉ số này phân bổ từ 1-90. Chỉ số bên “Risk1” lớn hơn rất
nhiều so với “Risk0” Sự khác biệt này xảy ra tương tự đối với Para B
 Number: Chỉ số chênh lệch trong quá khứ
Biểu đồ trên cho thấy hầu như “Risk0” sẽ có chỉ số chênh lệch trong quá khứ dao động ở
mức 4.8-5, còn đối với “Risk1” thì chỉ số này ở mức cao hơn rất nhiều và phân bố đều ở
các mức lớn hơn 5. Điều này có thể dễ dàng hiểu được bởi thuộc tính quan trọng và tiên
quyết nhất để đánh giá liệu rằng doanh nghiệp đó có gian lận hay không chính là những
chênh lệch được tìm thấy giữa hiện tại và quá khứ. Để khẳng định rõ hơn cho lập luận
luận này, nhóm em sẽ đưa ra sự khác biệt tỷ lệ thuận với sự chênh lệch này chính là
điểm biểu diễn tổn thất liên quan đến sự khác biệt đó
Do “Risk0” chỉ số chênh lệch ở mức ổn định đối với các doanh nghiệp do đó tổn thất của
sự chênh lệch này không đáng kể ở mức từ 1-2. Ngược lại đối với “Risk1” do sự chênh
lệch giữa quá khứ so với hiện tại là rất lớn như đã nêu ra ở bảng trên nên đi cùng với đó
điểm tổn thất từ sự chênh lệch này cũng rất lớn và như chúng ta đều thấy rằng nó phân
bổ từ 2-7.
 Money_Value: Chỉ số đánh giá tiền liên quan đến sai sót
Tương tự như các thuộc tính trên thì chỉ số tiền liên quan đến sai sót ở “Risk0” tập trung
ổn định ở mức nhỏ hơn 20.689. Đối với “Risk1” thì chỉ số này phân bố đều ở các mức
lớn hơn 20.689
B4: Đưa ra kết luận và định hướng mô hình giải quyết bài toán
Với những sự khác biệt đã đưa ra ở B3, và nhóm đã tìm hiểu và phân tích để tìm ra sự
khác biệt đó. Từ những kiến thức đã thu thập được nhóm em đã đi đến kết luận như
sau:
Rủi ro kiểm toán(AR) bị tác động và chi phối bởi các rủi ro khác nhau và được xác định
bằng công thức:
AR=IR.CR.DR
Trong đó : IR(Inhenrent Risk): Rủi ro cố hữu
CR(Control Risk): Rủi ro kiểm soát
DR(Detection Risk): Rủi ro phát hiện
Hay
Alpha và beta lần lượt là số lượng các yếu tố rủi ro gây ra rủi ro cố hữu và rủi ro kiểm
soát. Đối với nghiên cứu điển hình này, phương trình đầy đủ cho các yếu tố rủi ro có thể
được biểu hiện bằng
Với PX: là xác suất của sự khác biệt
LX: là tổn thất liên quan đến sự khác biệt
X là là vấn đề có mang yếu tố rủi ro ảnh hưởng đến AR
Công thức trên đã khẳng định được rằng tất cả thuộc tính mà nhóm có được đều ảnh
hưởng trực tiếp đến “Main target”
Sau khi đã tìm ra công thức cốt lõi của vấn đề và thao khảo các tài liệu có liên quan thì
nhóm đã xác định được mô hình giải quyết bài toán
Mô hình này hoạt động theo nguyên tắc sau:

Đưa nhân tố rủi ro kiểm toán vào => Mô hình dự đoán hay gọi là thuật toán đánh giá rủi
ro=> Dựa vào Risk Score để đánh giá=> Nếu Rủi ro cao thì xác định doanh nghiệp là gian
lận=> Nếu không thì rủi ro thấp=> Nếu đúng thì doanh nghiệp không gian lận=> Nếu
không đúng thì phân tích lại doanh nghiệp đó và quay lại bược 1
Bài toán phân lớp

Bài toán nhóm xác định cho đồ án là bài toán phân lớp nhị phân. Trong bài toán này
nhóm sẽ gán nhãn các dữ liệu cho các doanh nghiệp vào 1 trong 2 lớp khác nhau là gian
lận hoặc không gian lận dựa vào các doanh nghiệp đó có hay không những đặc trưng hay
số liệu của bộ phân lớp ( gian lận/không gian lận ). Từ các kết quả bài toán này, các công
ty kiểm toán và các kiểm toán viên sẽ có thể xác định được các doanh nghiệp có nguy cơ
gian lận một cách hiệu quả và chính xác hơn từ đó giảm thiểu các chi phí đi lại, sinh hoạt,
… và tiết kiệm thời gian trong quá trình kiểm toán.
Nhóm đã xác định được trong bài toán này Biến phụ thuộc là thuộc tính ‘RISK’ và 17
thuộc tính còn lại là Biến độc lập
 Theo test and score:

 Theo test and score:
o Sai lầm loại 2 là: Dự báo là không gian lận nhưng thật ra lại là có gian lận từ
đó dẫn đến sai sót trong quá trình kiểm tra, ảnh hưởng tới uy tín và doanh thu
của công ty kiểm toán
o Theo kết quả thì mô hình SVM có kết quả sai lầm loại 2 bằng 0 thấp nhất so
với các mô hình LR (=4), NN (=1), NB (=9)
Từ kết quả trên, nhóm đề xuất công ty kiểm toán xử dụng mô hình SVM trong quá trình
dự báo nguy cơ gian lận của các doanh nghiệp

Khoa học dữ liệu nhóm 4 1

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Khoa học dữ liệu nhóm 4 1

Uploaded by

Copyright:

Available Formats

Thành viên nhóm 4 : Trương Tấn Phát (31211023816), Nguyễn Lê Minh Phước (31211026076), Bùi Tố Tuấn

MÔ HÌNH KIỂM TOÁN

MÔ HÌNH DỰ BÁO GIAN LẬN

(Dữ liệu của những doanh nghiệp không gian lận)

Mô hình này hoạt động theo nguyên tắc sau:

Bài toán phân lớp

 Theo test and score:

You might also like