Professional Documents
Culture Documents
Khoa học dữ liệu nhóm 4 1
Khoa học dữ liệu nhóm 4 1
Phong (31211022143), Hồ Tấn Phước (31211026075), Nguyễn Trần Minh Duy (31211022092)
VẤN ĐỀ
Tính minh bạch, rõ ràng và khách quan trong quá trình hoạt động kinh doanh của các doanh
nghiệp
MÔ TẢ DỰ ĐỊNH
Sử dụng nhiều yếu tố rủi ro được kiểm tra từ nhiều lĩnh vực khác nhau như hồ sơ trước đây của văn phòng kiểm
toán, kiểm toán, báo cáo điều kiện môi trường, tóm tắt danh tiếng của công ty, báo cáo các vấn đề đang thực hiện, hồ
sơ giá trị lợi nhuận, hồ sơ giá trị lỗ, báo cáo tiếp theo, v.v. để giúp kiểm toán viên xây dựng một mô hình phân loại
có thể dự đoán doanh nghiệp gian lận trên cơ sở các yếu tố rủi ro hiện tại và lịch sử
NGUỒN DỮ LIỆU
Bộ dữ liệu được tổng hợp từ các tập dữ liệu được xây dựng cho việc phân loại các doanh nghiệp
có nghi vấn - được trích xuất tại https://archive.ics.uci.edu/ml/datasets/Audit+Data bộ dữ liệu
này được thu thập từ năm 2015 đến 2016 bởi một công ty kiểm toán của Ấn Độ
MÔ TẢ THUỘC TÍNH
Thuộc tính Ý nghĩa Mô tả
Sector-score Giá trị điểm rủi ro trong quá khứ số thập phân
của đơn vị mục tiêu sử dụng quy
trình phân tích
Location_ID Số tự nhiên
ID của thành phố/tỉnh
Para_A Sự chênh lệch được tìm thấy trong số thập phân
chi tiêu kế hoạch của cuộc thanh tra
và báo cáo tóm tắt A tính bằng Rs
(theo crore)
Score_A Số tự nhiên
Para_B Sự chênh lệch được tìm thấy trong Số thập phân
chi tiêu kế hoạch của cuộc thanh tra
và báo cáo tóm tắt B tính bằng Rs
(theo crore)
Score_B số tự nhiên
Total tổng chênh lệch được tìm Số thập phân
thấy trong các báo cáo khác
Rs (theo crore)
Numbers chỉ số chênh lệch trong quá số thập phân
khứ
Marks Số tự nhiên
Money_Value Số tiền liên quan đến các sai sót Số thập phân
trong các cuộc kiểm toán trước đây.
Money_Marks số tự nhiên
District Doanh thu số tự nhiên
Loss Lượng tiền thất thoát doanh số tự nhiên
nghiệp phải gánh chịu trong
năm trước
Loss_score số tự nhiên
History Lượng tiền thất thoát trung số tự nhiên
bình doanh nghiệp phải gánh
chịu trong vòng 10 năm qua
History_score số tự nhiên
Score số thập phân
Risk Phân loại rủi ro được chỉ định cho số tự nhiên
một trường hợp đánh giá. (Tính
năng mục tiêu)
TIỀN XỬ LÝ
B1: Xác định biến độc lập và biến phụ thuộc, Edit domain, Preprocess
Nhóm đã gom các bước Edit domain, Preprocess, vào B1 cho việc thuận tiện để đi vào
phân tích. Trước hết bằng những kiến thức và sự suy đoán dựa trên những thuộc tính có
được thì nhóm em đã xác định được biến độc lập và đâu là biến phụ thuộc trong bài
toán ‘’ Dự báo gian lận’’. Trong trường hợp này thì “ RISK “ sẽ là biến phụ thuộc “chính”
còn 17 thuộc tính còn lại sẽ là biến độc lập
B2: Xác định những thuộc tính tác động trực tiếp đến mô hình “Dự báo gian lận kiểm
toán”
- Sau khi đã xác định được “biến độc lập” và “biến phụ thuộc”, nhóm em đã tiến
hành phân ra giữa “Risk có giá trị 1” ( doanh nghiệp gian lận ) và “ Risk có giá trị
0” ( Doanh nghiệp không gian lận) bằng Select Row, để thuận tiện cho việc phân
tích và tìm ra những yếu tố tác động chính.
(Dữ liệu của những doanh nghiệp gian lận)
Biểu đồ trên cho thấy hầu như “Risk0” sẽ có chỉ số chênh lệch trong quá khứ dao động ở
mức 4.8-5, còn đối với “Risk1” thì chỉ số này ở mức cao hơn rất nhiều và phân bố đều ở
các mức lớn hơn 5. Điều này có thể dễ dàng hiểu được bởi thuộc tính quan trọng và tiên
quyết nhất để đánh giá liệu rằng doanh nghiệp đó có gian lận hay không chính là những
chênh lệch được tìm thấy giữa hiện tại và quá khứ. Để khẳng định rõ hơn cho lập luận
luận này, nhóm em sẽ đưa ra sự khác biệt tỷ lệ thuận với sự chênh lệch này chính là
điểm biểu diễn tổn thất liên quan đến sự khác biệt đó
Do “Risk0” chỉ số chênh lệch ở mức ổn định đối với các doanh nghiệp do đó tổn thất của
sự chênh lệch này không đáng kể ở mức từ 1-2. Ngược lại đối với “Risk1” do sự chênh
lệch giữa quá khứ so với hiện tại là rất lớn như đã nêu ra ở bảng trên nên đi cùng với đó
điểm tổn thất từ sự chênh lệch này cũng rất lớn và như chúng ta đều thấy rằng nó phân
bổ từ 2-7.
Money_Value: Chỉ số đánh giá tiền liên quan đến sai sót
Tương tự như các thuộc tính trên thì chỉ số tiền liên quan đến sai sót ở “Risk0” tập trung
ổn định ở mức nhỏ hơn 20.689. Đối với “Risk1” thì chỉ số này phân bố đều ở các mức
lớn hơn 20.689
B4: Đưa ra kết luận và định hướng mô hình giải quyết bài toán
Với những sự khác biệt đã đưa ra ở B3, và nhóm đã tìm hiểu và phân tích để tìm ra sự
khác biệt đó. Từ những kiến thức đã thu thập được nhóm em đã đi đến kết luận như
sau:
Rủi ro kiểm toán(AR) bị tác động và chi phối bởi các rủi ro khác nhau và được xác định
bằng công thức:
AR=IR.CR.DR
Trong đó : IR(Inhenrent Risk): Rủi ro cố hữu
CR(Control Risk): Rủi ro kiểm soát
DR(Detection Risk): Rủi ro phát hiện
Hay
Alpha và beta lần lượt là số lượng các yếu tố rủi ro gây ra rủi ro cố hữu và rủi ro kiểm
soát. Đối với nghiên cứu điển hình này, phương trình đầy đủ cho các yếu tố rủi ro có thể
được biểu hiện bằng
Với PX: là xác suất của sự khác biệt
LX: là tổn thất liên quan đến sự khác biệt
X là là vấn đề có mang yếu tố rủi ro ảnh hưởng đến AR
Công thức trên đã khẳng định được rằng tất cả thuộc tính mà nhóm có được đều ảnh
hưởng trực tiếp đến “Main target”
Sau khi đã tìm ra công thức cốt lõi của vấn đề và thao khảo các tài liệu có liên quan thì
nhóm đã xác định được mô hình giải quyết bài toán
Nhóm đã xác định được trong bài toán này Biến phụ thuộc là thuộc tính ‘RISK’ và 17
thuộc tính còn lại là Biến độc lập
Từ kết quả trên, nhóm đề xuất công ty kiểm toán xử dụng mô hình SVM trong quá trình
dự báo nguy cơ gian lận của các doanh nghiệp