Professional Documents
Culture Documents
… … … … … …
Tên các
phần tử Stock Annual Earn/
Company Exchange Sales($M) Share($)
Tập dữ liệu
Thang đo:
Quyết định lượng thông tin chứa trong các dữ
liệu.
Cách tóm tắt dữ liệu.
Phân tích thống kê phù hợp.
Tuyø theo tính chaát cuûa döõ lieäu coù
caùc loaïi thang ño: Danh nghĩa, thứ bậc,
khoảng hay tỷ lệ.
Thang đo danh nghĩa: Được sử dụng khi dữ
liệu của biến là nhãn hiệu hay tên để phân biệt
một thuộc tính của phần tử.
Ví dụ từ bảng 1.1, thang đo biến thị
trường là danh nghĩa vì N hay NQ là nhãn được
sử dụng để nhận biết nơi cổ phiếu được giao
dịch. Ta có thể mã hóa bằng cách cho:
1 biểu thị cho thị trường CK NY
2 biểu thị cho thị trường Nasdaq
Thang đo danh nghĩa
Ví
Ví ddụụ::
Sinh
Sinh viên
viên đ đạạii hhọọcc đ ượcc phân
đượ phân lo loạạii theo
theo
tr ường,
trườ ng, trong
trong đóđó chúng
chúng ta ta ssửử d
dụụng
ng nhãn
nhãn ký ký
tự
tự nh
nhưư Kinh
Kinh doanh,
doanh, NhânNhân văn,văn, SSưư ph
phạạm…
m…
Ho
Hoặặcc mãmã ssốố đ ượcc dùng
đượ dùng chocho bibiếếnn tr ường
trườ ng
(ví
(ví ddụụ 11 là
là Kinh
Kinh doanh,
doanh, 22 là là Nhân
Nhân Văn,Văn, 33 làlà
SSựự ph
phạạm…)
m…)
Thang ño thöù baäc – Ordinary ñöôïc söû
duïng khi maø caùc bieåu hieän cuûa döõ lieäu của biến
coù söï hôn keùm, khaùc bieät veà thöù baäc. Ví dụ:
□ Trình ñoä học vấn: Primary – Secondary –
Tertiary
□ Các loại huy chương Olympic: Vàng – Bạc –
Đồng;
□ Thứ hạng của các công ty theo xếp hạng của tạp
chí Business Week (dựa theo sức mạnh của công ty)
□ Kích cở quần áo: S – M – L – XL
□ Product satisfaction: Very Unsatisfied – Fairly
Unsatisfied – Neutral – Fairly Satisfied - Very
Satisfied; v.v..
Thứ bậc
Ví
Ví ddụụ::
Sinh
Sinh viên
viên ccủủaa m
mộộtt tr ường
trườ ng đđạạii hhọọcc đđượ
ượcc phân
phân lo loạạii theo
theo niên
niên
khóa
khóa và và chúng
chúng ta ng nhãn
ta ssửử ddụụng nhãn ký ký tự tự nh
nhưư NămNăm nh nhấất,t, năm
năm
2,
2, năm
năm 3, 3, năm
năm 44
Ngoài
Ngoài ra ra mã
mã số số cócó ththểể đđượ
ượcc dùng
dùng cho cho bi biếếnn niên
niên khóakhóa hhọọcc
(ví
(ví ddụụ 11 là
là năm
năm nhnhấất,t, 22 là
là năm
năm 2, 2, ttươ
ươngng ttựự).).
D
Dữữ liliệệuu kho
khoảảng
ng luôn
luôn là
là ddữữ liliệệuu ssốố..
Thang ño khoảng khoâng coù ñieåm 0 treân
thöïc teá, neáu coù thì ñoù chæ laø quy öôùc, ví
duï, trò soá 00C chæ laø quy öôùc; vaät ôû 300C
(860F) khoâng phaûi noùng gaáp ñoâi vaät ôû 15 0C
(590F).
Neáu duøng cho bieán ñònh tính, ví duï, ño
löôøng sôû thích cuûa khaùch haøng veà 1 loaïi
saûn phaåm naøo ñoù, coù theå duøng thang ño
khoaûng:
Raát khoâng thích 1 2 3 4 5 raát thích
Thang đo tỷ lệ:
lệ Được sữ dụng đối với một
biến nếu dữ liệu có tất cả các đặc tính của dữ liệu
khoảng và tỷ lệ của hai giá trị là có ý nghĩa.
Thang ño tyû leä laø thang ño ñònh löôïng
maïnh meõ nhaát trong hệ thoáng thang ño. Vôùi
thang ño naøy ta coù theå thöïc hieän taát caû caùc
coâng cuï toaùn thoáng keâ ñeå tính toaùn vaø
phaân tích soá lieäu.
Ví dụ: Các biến như chiều cao (in centimetres);
Cân nặng (in kilograms), Tiền lương (in American
dollars or Japanese yen), khoảng cách, thời gian,….
đều sử dụng thang đo tỷ lệ.
Dữ liệu phân loại và Dữ liệu định lượng
Nh
Nhữững ng phépphép tính
tính ssốố hhọọcc thông
thông th ường
thườ ng phù
phù hhợợpp
vvớớii d
dữữ liliệệuu đ
địịnh
nh llượ
ượng.
ng.
Thang đo
Dữ liệu
Số Không phải số Số
Danh
Danh Thứ bậc Danh Thứ bậc Khoảng Tỷ lệ
nghĩa
nghĩa nghĩa
Phân loại biến
Ví
Ví dụ
dụ:: DDữữ liliệệuu chi
chi titiếếtt ssốố llượ
ượng
ng gi
giấấyy phép
phép
xây
xây ddựựng
ng đđượượcc ban
ban hành
hành ởở qu quậậnn Lucas,
Lucas, Ohio
Ohio
trong
trong 3636 tháng
tháng qua. qua.
Dữ liệu chuỗi thời gian
Cục Thống kê lao động Mỹ Chi tiêu dùng, tỷ lệ thất nghiệp, thu
www.bls.gov nhập theo giờ, an toàn lao động
Ở Việt Nam
□ Döõ lieäu töø caùc aán phaåm nhaø nöôùc
(nieân giaùm thoáng keâ cuûa toång cuïc thoáng
keâ hoaëc cuïc thoáng keâ caùc tænh, thaønh phoá);
• Công ty thường phải trả phí cho thông tin ngay cả khi
nó không phải là hoạt động kinh doanh chính của họ.
Lỗi trong thu thập dữ liệu
• Sử dụng dữ liệu sai còn tồi tệ hơn không sử
dụng bất kỳ dữ liệu nào.
• Xảy ra khi giá trị dữ liệu thu thập được
không bằng giá trị thực sự
Xảy ra trong một số trường hợp:
• Người phỏng vấn có thể mắc lỗi nghe
• Người trả lời phỏng vấn hiểu sai câu hỏi và
cung cấp một trả lời không đúng
Khắc phục: Kiểm tra tính nhất quán nội bộ
của dữ liệu
1.4 Thống kê mô tả
Hầu hết các thông tin thống kê trên báo, tạp
chí, báo cáo công ty và các ấn phẩm khác chứa dữ
liệu tổng hợp và trình bày cho người đọc dễ hiểu.
Những tóm tắt dữ liệu có thể là bảng, đồ thị, hoặc
bằng số, được gọi là thống kê mô tả.
Bên cạnh bảng và đồ thị, thống kê mô tả bằng
số cũng được sử dụng để tóm tắt dữ liệu.
Thống kê mô tả số phổ biến nhất là mức trung
bình nó cho thấy một thước đo xu hướng trung tâm,
hoặc vị trí trung tâm của dữ liệu của biến đó.
Ví dụ: Hudson Auto Repair
91 78 93 57 75 52 99 80 97 62
71 69 72 89 66 75 79 75 72 76
104 74 62 68 97 105 77 65 80 109
85 97 88 68 83 68 71 69 67 74
62 82 98 101 79 105 79 69 62 73
Bảng tóm tắt: Tần số và Tần suất
18
Chi phí điều chỉnh động cơ
16
14
12
Tần số
10
8
6
4
2
Chi phí
5059 6069 7079 8089 9099 100-110 (đô la)
1.5 Thống kê suy diễn
Nhiều tình huống đòi hỏi thông tin về nhóm
lớn phần tử (cá nhân, công ty, cử tri, hộ gia đình,
sản phẩm, khách hàng,…). Nhưng do thời gian,
chi phí, và điều kiện khác có hạn, chỉ có thể thu
thập dữ liệu được từ một phần nhỏ của nhóm này.
Các tổ chức thu được dữ liệu lớn hàng ngày bằng các
đầu đọc thẻ từ, máy quét mã vạch, các điểm kết nối bán
hàng và màn hình cảm ứng.
Wall-Mart thu thập dữ liệu được trên 20-30 triệu
giao dịch mỗi ngày
Visa xử lý 6.800 giao dịch thanh toán mỗi giây.
Thu thập, lưu trữ và duy trì dữ liệu, gọi là kho dữ
liệu, một công việc có ý nghĩa.
Khai thác dữ liệu
Phân tích các dữ liệu trong kho dữ liệu có thể giúp
cho việc ra quyết định cho chiến lược mới và mang lại
lợi nhuận cao hơn cho tổ chức.
Sử dụng kết hợp các thủ tục thống kê, toán học, và
khoa học máy tính, phân tích “mỏ dữ liệu ” để chuyển
đổi nó thành thông tin hữu ích.
Các ứng dụng chính của khai thác dữ liệu đã được thực
ở nhiều công ty chủ yếu là ở mảng khách hàng như bán lẻ,
tài chính, và truyền thông.
Một cuộc khảo sát 131 nhà quản lý đầu tư trung bình chọn
Barron Big Money cho thấy:
•43% nhà quản lý tự phân loại mình là lạc quan hay rất lạc
quan về thị trường chứng khoán
•Lợi nhuận vốn trung bình dự kiến trong 12 tháng tới là 11,2%
•21% lựa chọn chăm sóc sức khỏe như lĩnh vực có nhiều khả
năng dẫn dắt thị trường trong 12 tháng kế tiếp
•Khi được hỏi ước tính bao lâu nữa thị cổ phiếu công nghệ và
viễn thông trở lại tăng trưởng bền vững , trả lời trung bình của
các nhà quản lý là 2,5 năm.
•a/ Hãy trích dẫn 2 thống kê mô tả
•b/ hãy suy diễn về lợi nhuận trên vốn trung bình dự kiến
trong 12 tháng tiếp theo của tổng thể các nhà quản lý đầu
tư.