You are on page 1of 9

BÁO CÁO NHÓM 7 - BUỔI 3

Yêu cầu
1) Sử dụng các công cụ sau của Orange để thực hiện tiền xử lý và hiển thị kết
quả cho dữ liệu:
+ Select Columns, Select Rows, Preprocess, Edit Domain.
+ Các biểu đồ trong Visualize
2) Từ các kết quả hiển thị ở trên, có những kết luận gì từ dữ liệu liên quan đến
bài toán cần giải quyết.
Bài làm
1)

2)
 Tổng số công ty được thu thập dữ liệu: 777.
 Để giải quyết bài toán: Dự đoán các công ty đáng ngờ trước khi kiểm tra
thực địa để điều tra gian lận một cách tối đa hóa. Nhóm tiến hành phân tích dữ
liệu nguồn, sử dụng một số đồ thị và đưa ra một số kết luận như sau.
 Biểu đồ phân phối dữ liệu nguồn (Distributions)
+ Đầu tiên, nhóm phân tích thuộc tính liên quan đến sự khác biệt trong kế
hoạch chi tiêu được tìm thấy trong cuộc thanh tra và báo cáo tóm tắt A.
Biểu đồ cho thấy các công ty không gian lận thì sự khác biệt thường <
2.0000 Rs (chiếm 37,37% trên tổng).

+ Tiếp theo nhóm phân tích thuộc tính liên quan đến sự khác biệt trong kế
hoạch chi tiêu được tìm thấy trong cuộc thanh tra và báo cáo tóm tắt B.
Biểu đồ cho thấy các công ty không gian lận thì sự khác biệt thường <
50.0000 Rs (chiếm 37,37% trên tổng).
+ Tiếp theo, nhóm phân tích thuộc tính liên quan đến tổng rủi ro khi sử
dụng thủ thủ tục phân tích. Biểu đồ cho thấy các công ty không gian lận thì
sự khác biệt < 2.2 (chiếm 37,37% trên tổng).

+ Cuối cùng là thuộc tính phân loại rủi ro đối với 1 tình huống kiểm toán.
Số công ty gian lận là 486 (chiếm 62,63% trên tổng).

 Biểu đồ phân tán dữ liệu nguồn (Scatter Plot)


+ Ưu điểm:
 Dễ vẽ.
 Minh họa rõ mối tương quan giữa các biến số và xu hướng dữ liệu.
 Biểu diễn toàn bộ dữ liệu từ nhỏ nhất đến lớn nhất và cả các giá trị
ngoại lai.
 Thích hợp với nhiều kiểu dữ liệu trong nhiều ngành nghề.
+ Nhược điểm:
 Khó đưa ra kết quả chính xác cho hệ số tương quan giữa các biến
số.
 Phán đoán dựa trên biểu đồ mang tính chủ quan.
 Các biến số phải là biến liên tục.
 Giới hạn 2 biến số trên một biểu đồ.
+ Biểu đồ dưới đây thể hiện sự tương quan giữa 2 thuộc tính Total và Score.
Biểu đồ cho thấy các chủ thể gian lận thường có thuộc tính Total (Tổng số
lượng chênh lệch được tìm thấy trong các báo cáo khác (Đơn vị: 10
triệu)) > 0 và có thuộc tính Score (Tổng rủi ro khi sử dụng thủ tục phân
tích) >2.1.

+ Điều đó cho thấy: Khi có chênh lệch của các báo cáo thì chủ thể có khả
năng gian lận, đồng thời Tổng rủi ro khi phân tích dữ liệu thu thập có giá
trị >2.1 thì chủ thể cũng có khả năng gian lận.
 Biểu đồ phân phối dữ liệu hoàn chỉnh
+ KHÁC BIỆT CHI TIÊU A: Theo như dữ liệu đã được xử lý, các công ty
càng gian lận sẽ có Para A (Sự khác biệt trong kế hoạch chi tiêu được tìm
thấy trong cuộc thanh tra và báo cáo tóm tắt A tính bằng Rs) càng lớn. Cụ
thể là các công ty có tần suất Para A cao nhất là trong khoảng dưới 50 triệu
Rb (chiếm 79.2%, 385 công ty trong tổng số 486 công ty gian lận). Những
công ty không gian lận sẽ có sẽ có sự khác biệt nhỏ hơn, sự khác biệt sẽ rơi
vào khoảng nhỏ hơn 10 triệu Rb và thậm chí nhiều công ty không có sự
khác biệt nào trong cuộc thanh tra và báo cáo tóm tắt A.

+ KHÁC BIỆT CHI TIÊU B: Tương tự như thuộc tính Para A, các công ty
càng gian lận sẽ có Para B (Sự khác biệt trong kế hoạch chi tiêu được tìm
thấy trong cuộc thanh tra và báo cáo tóm tắt B tính bằng Rs) càng lớn, tuy
nhiên, mức chênh lệch của Para B khá lớn, ở khoảng từ 0 đến gần 1600
triệu Rb (Việc khác biệt chênh lệch trong số liệu của Para A và Para B sẽ
được nói kĩ hơn vào phần sau của mục kết luận này). Cụ thể là các công ty
có tần suất Para B cao nhất là trong khoảng dưới 500 triệu (chiếm 89.09%,
433 công ty trong tổng số 486 công ty gian lận). Tuy nhiên, sự khác biệt
trong các công ty không gian lận ở Para B lại được trải khá rộng so với
Para A (trong khoảng từ 0 đến gần 50 triệu Rb), mặc dù, số công ty không
gian lận có Para B trên 10 triệu không lớn (có khoảng 13 công ty không
gian lận trong tổng số 213 có Para B trên 10 triệu, trong đó có 1 công ty có
Para B trên 47 triệu) nhưng đây vẫn là điểm đáng ngờ so với Para A.

+ TỔNG CHÊNH LỆCH: Các công ty gian lận đa phần có Total (Tổng số
lượng chênh lệch được tìm thấy trong các báo cáo khác) khá cao (có
86.01% các công ty gian lận có 10 < Total < 500 triệu Rb, ngoài ra, còn có
1 công ty có Total gần 13 tỷ Rb). Sự chênh. Trong khi đó, các công ty
không gian lận thường hầu như có nhiều chênh lệch được tìm thấy (các
công ty không gian lận có Total < 1 triệu Rb chiếm 82.76% trong tổng số
các công ty gian lận). Vì vậy, chúng ta có thể nói rằng các công ty có tổng
chênh lệch càng lớn sẽ đồng nghĩa với việc các công ty đó càng đáng ngờ
trong các bản báo cáo.
+ TỔNG RỦI RO KHI PHÂN TÍCH: Thông qua chức năng Distributions,
dữ liệu về Tổng rủi ro khi phân tích điều tra gian lận của kiểm toán được
trình bày như biểu đồ trên. Các công ty này có tổng rủi ro khi phân tích
nằm trong khoảng từ 2.2 và có xu hướng giảm dần, cao nhất là 5.2. Trong
tổng số các công ty gian lận, có tới 176 công ty có tổng rủi ro khi phân tích
từ 2.2 đến 2.4, đây là mức giá trị thấp nhất về tổng rủi ro của một công ty
có khả năng gian lận kiểm toán và có sự tách biệt với mức 2.0 của các công
ty được đánh giá là không gian lận. Do đó, mức giá trị này có thể coi là
mức độ đánh giá khách quan và mang tính tổng quát nhất về điều tra gian
lận của một công ty.

 Biểu đồ phân tán dữ liệu hoàn chỉnh


+ Phân chia dữ liệu: Nhóm tiến hành Lọc dữ liệu của những công ty có
nguy cơ gian lận kiểm toán để kiểm tra rõ hơn mức độ ảnh hưởng của các
yếu tố liên quan.
+ Để giải quyết bài toán Dự đoán các công ty đáng ngờ trước khi kiểm tra
thực địa để điều tra gian lận một cách tối đa hóa, nhóm sử dụng 2 thuộc
tính liên quan đến Sự khác biệt trong kế hoạch chi tiêu được tìm thấy trong
cuộc thanh tra và 2 loại báo cáo tóm tắt A và B của các công ty tham gia
nghiên cứu này. Sau khi xử lí dữ liệu và sử dụng chức năng Scatter Plot
của Orange, kết luận có thể đưa ra như sau: đối với các công ty đáng ngờ
trong việc kiểm toán, đối với báo cáo tóm tắt loại A, sự chênh lệch được
tìm thấy trong báo cáo tóm tắt này và kết quả của thanh tra là yếu tố ảnh
hưởng lớn đối với một công ty gian lận kiểm toán (các công ty được nhận
định là có gian lận kiểm toán thường có mức chênh lệch ở khoảng từ 0 đến
200 triệu Rb). Như vậy, báo cáo tóm tắt loại A sẽ là yếu tố dự đoán là cần
các kiểm toán viên phải chú ý khi tiến hành kiểm toán đối với một công ty.
Ngược lại, đối với báo cáo tóm tắt loại B, kết quả từ việc điều tra cho thấy
sự khác biệt trong kế hoạch chi tiêu giữa thanh tra và công ty đa số là lớn
tại các công ty gian lận. Với những công ty này, sự khác biệt trải rộng trong
khoảng từ 0 đến gần 1600 triệu Rb – một khoảng tương đối lớn để nhận ra
sự gian lận kiểm toán. Do đó, yếu tố này được xem là không quan trọng
trong dự đoán các công ty đáng ngờ. Tuy nhiên, việc khác biệt quá lớn
được tìm thấy trong báo cáo tóm tắt loại B có thể coi là một lỗ hổng trong
việc kiểm soát kế hoạch chi tiêu của các doanh nghiệp và cần được nghiên
cứu để có hướng giảm thiểu sự khác biệt này.
+ Để tìm hiểu thêm về sự chênh lệch trong kết quả của thanh tra và báo cáo
điều tra tóm tắt của công ty, nhóm tiếp tục phân tích sự ảnh hưởng của 2
loại báo cáo này đến tổng chênh lệch thông qua Scatter Plot. Trong biểu đồ
phân tích sự phụ thuộc của Total (tổng chênh lệch) vào biến Para_B (Khác
biệt chi tiêu trong kết quả thanh tra và báo cáo tóm tắt loại B), ta dễ dàng
nhận thấy r=0,99 »1, do đó có thể đưa ra nhận xét rằng Total phụ thuộc rất
lớn vào biến Para_B theo chiều hướng tỷ lệ thuận. Từ đó, ta cũng có thể
đưa ra kết luận rằng sự chênh lệch của loại báo cáo còn lại (Para_A) sẽ
không có mức tác động lớn tới kết quả của Total trong khi điều tra gian lận
các công ty (với r=0,23)

You might also like