You are on page 1of 63

Chöông 1: DỮ LIỆU VÀ THỐNG KÊ

Trong môi trường kinh doanh và


kinh tế toàn cầu hiện nay, ai cũng có thể
truy cập một lượng lớn thông tin thống
kê.

1.1 Ứng dụng


Các công ty kiểm toán sử dụng các thủ tục lấy
mẫu thống kê khi tiến hành kiểm toán cho khách
hàng,…. Ví dụ, nhân viên kiểm toán lấy mẫu các
Kế tài khoản phải thu từ bảng cân đối của khách hàng,
toán sau khi xem xét tính chính xác của các tài khoản
này và rút ra kết luận các tài khoản phải thu thể
hiện trên bảng cân đối của khách hàng có chấp
nhận được hay không.
Các chuyên viên tài chính sử dụng các thông tin
thống kê để hướng dẫn khuyến nghị đầu tư. Ví
Tài dụ, thông tin thông kê về tỷ suất cổ tức cho thấy
chính cổ tức của tập đoàn kinh tế nào cao hơn tập đoàn
nào, sẽ giúp các nhà phân tích đưa ra khuyến
nghị mua, bán hoặc giữ cổ phiếu
Máy quét điện tử tại quầy tính tiền tại
điểm bán lẻ thu thập dữ liệu cho hàng loạt
các ứng dụng nghiên cứu thị trường. Nhiều
Marketing
công ty mua dữ liệu từ máy quét tại điểm
bán của cửa hàng thực phẩm, xử lý dữ liệu
và sau đó bán thống kê tóm tắt của dữ liệu này
cho các nhà sản xuất,….

Ngày nay người ta đặc biệt chú trọng vào chất


lượng đã làm cho kiểm soát chất lượng trở
thành một ứng dụng quan trọng của thống kê
Sản trong sản xuất. Có nhiều biểu đồ kiểm soát chất
xuất lượng thống kê được sử dụng để giám sát đầu
ra của một quá trình sản xuất (xem QTSX).
Kinh tế học

Để dự báo về tương lai của nền kinh tế hoặc một


khía cạnh nào đó của nền kinh tế, các nhà kinh tế
học đã và đang sử dụng một loạt các thông tin
thống kê.
Ví dụ, trong dự báo lạm phát, họ đã sử dụng
thông tin thống kê về các chỉ số như chỉ số giá sản
xuất, tỷ lệ thất nghiệp, và sử dụng năng lực sản xuất.
1.2 Dữ liệu
Dữ liệu là những sự kiện và con số được
thu thập, phân tích và tổng hợp để trình bày
và giải thích.
Tất cả các dữ liệu thu thập trong một
nghiên cứu cụ thể gọi là tập dữ liệu nghiên cứu.
Ví dụ, bảng 1.1 dưới đây cho thấy một
tập dữ liệu chứa thông tin của 5 công ty được
chọn bởi Standard & Poor’s.
Ví dụ 1.1: Danh sách 1 số cty được chọn bởi Standard
& Poor’s.
Tên cty Thị Mã Xếp hạng Giá cổ Lợi
trường cổ phiếu của Business phiếu, nhuận/cổ
CK week usd phiếu
Abbott N ABT 90 46 2,02

Apollo NQ APOL 174 74 0,90


Group
Bank of N BK 305 30 1,85
New York
IBM N IBM 216 93 4,94

eBay NQ EBAY 19 43 0,57

… … … … … …

N –TTCK New York; NQ – TTCK Nasdaq National


Phần tử là các thực thể mà từ đó dữ liệu được
thu thập.
Từ bảng 1.1, cổ phiếu của mỗi công ty là một phần tử,
với 5 loại cổ phiếu tập dữ liệu chứa 5 phần tử.
Biến là một đặc tính (tính chất) quan tâm của
phần tử

Từ bảng 1.1, có 5 biến:


• Exchange (TTCK): Nơi cổ phiếu được giao dịch
• Ticker Symbol (Mã cổ phiếu): tên tắt để phân biệt các
cổ phiếu được niêm yết.
• Business Week Rank (xếp hạng của BW)
• Share Price: Giá vào thời điểm đóng cửa
• Earnings per Share (usd): Lợi nhuận trên cổ phần
Quan sát: Tập hợp các số đo thu được của
một phần tử được gọi là một quan sát.
Từ bảng 1.1, tập hợp các số đo của phần tử
đầu tiên (Abbott Laboratories) là N, ABT, 90, 46
và 2,02 là một quan sát.
Một tập dữ liệu với n phần tử có n quan
sát.
 Tổng số giá trị của dữ liệu trong một tập
dữ liệu hoàn chỉnh là số phần tử nhân với số
biến.
Dữ liệu, Tập dữ liệu,
Phần tử, Biến, và Quan sát
Quan sát Biến

Tên các
phần tử Stock Annual Earn/
Company Exchange Sales($M) Share($)

Dataram NQ 73.10 0.86


EnergySouth N 74.00 1.67
Keystone N 365.70 0.86
LandCare NQ 111.40 0.33
Psychemedics N 17.60 0.13

Tập dữ liệu
Thang đo:
Quyết định lượng thông tin chứa trong các dữ
liệu.
Cách tóm tắt dữ liệu.
Phân tích thống kê phù hợp.
Tuyø theo tính chaát cuûa döõ lieäu coù
caùc loaïi thang ño: Danh nghĩa, thứ bậc,
khoảng hay tỷ lệ.
Thang đo danh nghĩa: Được sử dụng khi dữ
liệu của biến là nhãn hiệu hay tên để phân biệt
một thuộc tính của phần tử.
Ví dụ từ bảng 1.1, thang đo biến thị
trường là danh nghĩa vì N hay NQ là nhãn được
sử dụng để nhận biết nơi cổ phiếu được giao
dịch. Ta có thể mã hóa bằng cách cho:
1 biểu thị cho thị trường CK NY
2 biểu thị cho thị trường Nasdaq
 Thang đo danh nghĩa


Ví ddụụ::
Sinh
Sinh viên
viên đ đạạii hhọọcc đ ượcc phân
đượ phân lo loạạii theo
theo
tr ường,
trườ ng, trong
trong đóđó chúng
chúng ta ta ssửử d
dụụng
ng nhãn
nhãn ký ký
tự
tự nh
nhưư Kinh
Kinh doanh,
doanh, NhânNhân văn,văn, SSưư ph
phạạm…
m…
Ho
Hoặặcc mãmã ssốố đ ượcc dùng
đượ dùng chocho bibiếếnn tr ường
trườ ng
(ví
(ví ddụụ 11 là
là Kinh
Kinh doanh,
doanh, 22 là là Nhân
Nhân Văn,Văn, 33 làlà
SSựự ph
phạạm…)
m…)
Thang ño thöù baäc – Ordinary ñöôïc söû
duïng khi maø caùc bieåu hieän cuûa döõ lieäu của biến
coù söï hôn keùm, khaùc bieät veà thöù baäc. Ví dụ:
□ Trình ñoä học vấn: Primary – Secondary –
Tertiary
□ Các loại huy chương Olympic: Vàng – Bạc –
Đồng;
□ Thứ hạng của các công ty theo xếp hạng của tạp
chí Business Week (dựa theo sức mạnh của công ty)
□ Kích cở quần áo: S – M – L – XL
□ Product satisfaction: Very Unsatisfied – Fairly
Unsatisfied – Neutral – Fairly Satisfied - Very
Satisfied; v.v..
Thứ bậc

Ví ddụụ::
Sinh
Sinh viên
viên ccủủaa m
mộộtt tr ường
trườ ng đđạạii hhọọcc đđượ
ượcc phân
phân lo loạạii theo
theo niên
niên
khóa
khóa và và chúng
chúng ta ng nhãn
ta ssửử ddụụng nhãn ký ký tự tự nh
nhưư NămNăm nh nhấất,t, năm
năm
2,
2, năm
năm 3, 3, năm
năm 44
Ngoài
Ngoài ra ra mã
mã số số cócó ththểể đđượ
ượcc dùng
dùng cho cho bi biếếnn niên
niên khóakhóa hhọọcc
(ví
(ví ddụụ 11 là
là năm
năm nhnhấất,t, 22 là
là năm
năm 2, 2, ttươ
ươngng ttựự).).

Thu nhập của anh/chị hàng tháng:


1. Dưới 6 2. từ 6 –dưới10 tr.đồng 3. từ 10 – dưới 15
trđồng 4. từ 15-20 trđồng.
Thang ño thứ bậc coù öu ñieåm laø cho
thaáy söï khaùc bieät, söï hôn keùm giöõa caùc
bieåu hieän của dữ liệu của biến nhöng söï hôn
keùm ñoù khoâng nhaát thieát phaûi baèng
nhau vaø khoâng bieát cuï theå laø bao nhieâu,
neân khoâng thöïc hieän ñöôïc caùc pheùp tính
thoángDữ
keâ ñoái
liệu thứvôùi
bậcchuùng.
có thể là số hay không phải
là số
Thang đo khoảng: Được sử dụng đối với một
biến nếu dữ liệu của nó có tất cả các thuộc tính của
dữ liệu thứ bậc và khoảng cách giữa các giá trị
được thể hiện dưới dạng đơn vị đo lường cố định.
Ví dụ: Điểm số SAT (scholastic Aptitude Test) là một ví
dụ về dữ liệu của thang đo khoảng. 3 sinh viên có điểm
SAT là 620, 550 và 470 có thể được xếp hạng từ thành
tích tốt nhất đến thành tích kém nhất.
Chênh lệch giữa các điểm số có ý nghĩa.

D
Dữữ liliệệuu kho
khoảảng
ng luôn
luôn là
là ddữữ liliệệuu ssốố..
Thang ño khoảng khoâng coù ñieåm 0 treân
thöïc teá, neáu coù thì ñoù chæ laø quy öôùc, ví
duï, trò soá 00C chæ laø quy öôùc; vaät ôû 300C
(860F) khoâng phaûi noùng gaáp ñoâi vaät ôû 15 0C
(590F).
Neáu duøng cho bieán ñònh tính, ví duï, ño
löôøng sôû thích cuûa khaùch haøng veà 1 loaïi
saûn phaåm naøo ñoù, coù theå duøng thang ño
khoaûng:
Raát khoâng thích 1 2 3 4 5 raát thích
Thang đo tỷ lệ:
lệ Được sữ dụng đối với một
biến nếu dữ liệu có tất cả các đặc tính của dữ liệu
khoảng và tỷ lệ của hai giá trị là có ý nghĩa.
Thang ño tyû leä laø thang ño ñònh löôïng
maïnh meõ nhaát trong hệ thoáng thang ño. Vôùi
thang ño naøy ta coù theå thöïc hieän taát caû caùc
coâng cuï toaùn thoáng keâ ñeå tính toaùn vaø
phaân tích soá lieäu.
Ví dụ: Các biến như chiều cao (in centimetres);
Cân nặng (in kilograms), Tiền lương (in American
dollars or Japanese yen), khoảng cách, thời gian,….
đều sử dụng thang đo tỷ lệ.
Dữ liệu phân loại và Dữ liệu định lượng

Dữ liệu phân loại bao gồm nhãn hay tên


dùng để phân biệt các phần tử. Dữ liệu phân
loại còn được gọi là dữ liệu định tính.
Để thu thập dữ liệu định tính dùng một
trong hai loại thang đo danh nghĩa hoặc thứ bậc.
Döõ lieäu ñònh löôïng: phaûn aùnh möùc ñộ. Nó
đòi hỏi giá trị bằng số chỉ ra how much or how
many
Dữ liệu định lượng thu thập được bằng
thang đo khoảng hoặc thang đo tỷ lệ.
D
Dữữ li
liệệu
uđđịịnh
nh llượ
ượng
ng luôn
luôn là
là số
số..

Nh
Nhữững ng phépphép tính
tính ssốố hhọọcc thông
thông th ường
thườ ng phù
phù hhợợpp
vvớớii d
dữữ liliệệuu đ
địịnh
nh llượ
ượng.
ng.
Thang đo

Dữ liệu

Phân loại Định lượng

Số Không phải số Số

Danh
Danh Thứ bậc Danh Thứ bậc Khoảng Tỷ lệ
nghĩa
nghĩa nghĩa
Phân loại biến

Biến định tính (Qualitative or Categorical


variables) - là biến không thể nhận giá trị bằng số
nhưng có thể phân thành hai hay nhiều nhóm không
bằng số nói lên ñaëc ñieåm hay loaïi hình cuûa
phần tử hay ñôn vò toång theå.
Ngắn gọn, biến định tính là biến với dữ liệu
định tính.
Ví duï: Màu tóc, giôùi tính, quoác tòch, toân
giaùo, nhãn hiệu của PC, ….
Phân loại biến

Bieán ñònh löôïng (Quantitative variables) laø


bieán coù bieåu hieän tröïc tieáp baèng con soá.
Ñoù laø keát quaû cuûa quaù trình caân, ñong, ño,
ñeám,
Ví duï: Soá nhaân khaåu trong moät gia ñình,
tuoåi thoï cuûa saûn phaåm, thu nhập bình quân
đầu người v.v…
Ngắn gọn, biến định lượng là biến với dữ
liệu định lượng.
Töø caùc giá trò cuï theå cuûa bieán ñònh
löôïng maø phaân bieät thaønh hai loaïi:
Biến định lượng rời rạc (Discrete variables):
Caùc giaù trò coù theå coù cuûa noù laø höõu haïn hay
voâ haïn vaø coù theå ñeám ñöôïc,
Ví duï: Soá cuộc gọi trong mỗi 15 phút, soá loãi
trong moät trang saùch in, số con của một cặp vợ chồng,
v.v..
Biến định lượng liên tục (Continuous
Variables): Caùc giaù trò coù theå coù cuûa noù coù
theå laáp kín caû moät khoaûng treân truïc soá
Ví duï: Troïng löôïng, chieàu cao cuûa sinh
vieân, naêng suaát cuûa moät loaïi caây troàng, thuế thu
nhập của từng cá nhân v.v….
Phân tích thống kê phù hợp phụ thuộc vào
biến định tính hay biến định lượng.
Nếu là biến định tính phân tích thống kê bị
hạn chế. Tóm tắt dữ liệu định tính chủ yếu bằng
cách đếm số quan sát trong mỗi phân loại hay
bằng cách tính tỷ lệ các quan sát trong mỗi phân
loại (phép tính cộng, trừ, nhân, chia không cho ra
kết quả có ý nghĩa)
Dữ liệu thời điểm và dữ liệu chuỗi thời gian

Dữ liệu thời điểm là dữ liệu được thu thập ở


cùng hoặc xấp xỉ vào cùng một thời điểm. Ví dụ
1.1 là thời điểm vì nó mô tả 5 biến của 5 công ty tại
cùng một thời điểm.

Ví ddụụ:: D
Dữữ liliệệuu chi
chi ti
tiếếtt ssốố llượ
ượng
ng gi
giấấyy phép
phép xây
xây d dựựng
ng
đã
đã ban
ban hành
hành vào vào tháng
tháng hai hai năm
năm 2010
2010 ccủủaa m
mỗỗii qu
quậậnn ởở
Ohio.
Ohio.
Dữ liệu chuỗi thời gian là dữ liệu thu thập được
qua nhiều giai đoạn thời gian


Ví dụ
dụ:: DDữữ liliệệuu chi
chi titiếếtt ssốố llượ
ượng
ng gi
giấấyy phép
phép
xây
xây ddựựng
ng đđượượcc ban
ban hành
hành ởở qu quậậnn Lucas,
Lucas, Ohio
Ohio
trong
trong 3636 tháng
tháng qua. qua.
Dữ liệu chuỗi thời gian

U.S. Average Price Per Gallon


For Conventional Regular Gasoline

Source: Energy Information Administration, U.S. Department of Energy, May 2009.


1.3 Nguồn dữ liệu
• Nguồn có sẳn
• Từ các cuộc khảo sát
Nguồn có sẳn:
Các công ty duy trì nhiều cơ sở dữ
liệu về nhân viên,
viên khách hàng (tuổi, giới
tính, mức thu nhập, quy mô hộ, sở thích)
và các hoạt động kinh doanh (doanh số
bán hàng, chi phí quảng cáo, chi phí phân
phối, lượng tồn kho và số lượng sản xuất).
 Dử liệu sẵn có từ Hồ sơ nội bộ công ty

H ồ sơ Một số dữ liệu sẵn có

Hồ sơ nhân viên Tên, địa chỉ, số an sinh xã hội


Hồ sơ sản xuất Số bộ phận, số lượng sản xuất, chi phí nhân
công trực tiếp, chi phí nguyên liệu
Hồ sơ tồn kho Số bộ phận, số lượng tồn kho, mức đặt hàng
lại, số lượng đơn hàng
Hồ sơ bán hàng Số sản phẩm, lượng hàng bán,
lượng hàng bán theo vùng.
Hồ sơ tín dụng Tên khách hàng, hạn mức tín
dụng, khoản phải thu
Hồ sơ khách hàng Tuổi, giới tính, thu nhập, số người trong hộ
 Dữ liệu có sẵn từ các cơ quan chính phủ

Cơ quan chính phủ Một số dữ liệu có sẵn


Cục Điều tra Dân số Mỹ Số liệu dân số, số hộ gia đình, thu
www.census.gov nhập hộ
Cục Dự trữ Liên Bang Mỹ Dữ liệu về cung tiền, tỷ giá hối đoái,
www.federalreserve.gov lãi suất chiết khấu.
Cục QL hành chánh và NS
Dữ liệu về thu, chi, nợ chính phủ
www.whitehouse.gov/omb
Bô Thương mại Mỹ Dữ liệu hoạt động kinh doanh, doanh số,
www.doc.gov lợi nhuận ngành công nghiệp.

Cục Thống kê lao động Mỹ Chi tiêu dùng, tỷ lệ thất nghiệp, thu
www.bls.gov nhập theo giờ, an toàn lao động
Ở Việt Nam
□ Döõ lieäu töø caùc aán phaåm nhaø nöôùc
(nieân giaùm thoáng keâ cuûa toång cuïc thoáng
keâ hoaëc cuïc thoáng keâ caùc tænh, thaønh phoá);

□ Döõ lieäu töø caùc cô quan tröïc thuoäc


chính phuû (boä, cô quan ngang boä, uûy ban
nhaân daân tænh, thaønh phoá);
□ Baùo, taïp chí;
□ Döõ lieäu töø caùc toå chöùc, hieäp hoäi,
coâng ty nghieân cöùu thò tröôøng;
□ Maïng internet (Các doanh nghiệp thường
đưa lên mạng internet và nhà nghiên cứu có thể tìm
Bảng 1.2 Ví dụ về dữ liệu có sẳn từ một số cơ quan chính phủ Mỹ

Cơ quan Chính phủ Một số dữ liệu có sẳn


Cục Điều tra dân số Mỹ Dữ liệu dân số, số lượng hộ, thu
www.census.gov nhập hộ,..
Cục dự trữ Liên Bang Mỹ Dữ liệu về cung tiền, tín dụng trả
www.federalreserve.gov góp, tỷ giá, tỷ suất chiết khấu
Cục Quản lý hành chính và Ngân Dữ liệu về thu, chi và nợ của
sách Mỹ www.whitehouse.gov chính phủ liên bang
Bộ thương mại Mỹ Dữ liệu về hoạt động kinh doanh,
www.doc.gov doanh số theo ngành công
nghiệp, mức lợi nhuận theo
ngành CN,…
Cục thống kê Lao động Mỹ Chi tiêu dùng, tiền lương giờ, tỷ
www.bls.gov lệ thất nghiệp, hồ sơ an toàn và
Thống kê quốc tế
Bảng 1.2 Ví dụ về dữ liệu có sẳn từ một số cơ quan chính phủ VN
Chính phủ http://www.chinhphu.vn
Bộ Công thương http://www.moi.gov.vn
Bộ giáo dục và Đào tạo http://www.moet.gov.vn
Bộ LĐ – TB -XH http://www.molisa.gov.vn
Bộ xây dựng http://www.moc.gov.vn
Tổng cục thống kê http://www.gso.gov.vn
Tổng cục thuế http://www.gdt.gov.vn
Ngân hàng Nhà nước http://www.sbv.gov.vn
Tp.Hà nội http://www.hanoi.gov.vn
Tp. Đà nẳng http://www.danang.gov.vn
Tỉnh Đồng Nai http://www.dongnai.gov.vn
Tỉnh Bình Dương http://www.binhduong.gov.vn
V.v…
TP.Hồ Chí Minh http://www.hochiminhcity.gov.vn

Cục Thống kê TP.HCM http://www.pso.hochiminhcity.gov.vn

Cục Thuế TP.HCM http://www.hcmtax.gov.vn

Sở kế hoạch đầu tư tp.HCM http://www.dpi.hochiminhcity.gov.vn

Sở Công thương tp.HCM http://www.cong thuong.hochiminhcity.gov.vn

Cục Hải quan tp.HCM http://www.haiquan.hochiminhcity.gov.vn


Sở giao dịch chứng khoán tp.HCM http://www.vse.org.vn
Hiệp hội Bất động sản tp.HCM http://www.horea.org.vn
UB Kinh tế - XH Châu Á – Thái Bình http://www.unescap.org/stat/
Dương (LHQ)
Trang web UB Thống kê Liên Hiệp Quốc http://www.unstats.un.org/unsd/default.htm

Trang web của IMF http://www.imf.org/external/index.htm


Trang web của Word Bank http://www.wordbank.org/
Trang web của Ngân hàng phát triển Châu http://www.adb.org/
Á
Nghiên cứu thống kê
Đôi khi dữ liệu cần thiết cho một
nghiên cứu thống kê ứng dụng không có sẳn
tại các nguồn hiện có. Do vậy, dữ liệu có thể
thu thập bằng cách tiến hành một nghiên cứu
thống kê (có thể được phân loại là nghiên cứu
thực nghiệm hay nghiên cứu quan sát).
Trong nghiên cứu thực nghiệm,
nghiệm biến quan tâm
được xác định đầu tiên,
tiên sau đó một hay nhiều biến khác
được xác định và kiểm soát sao cho dữ liệu thu thập
được phản ánh cách chúng ảnh hưởng đến biến quan
tâm.
Ví dụ, công ty dược phẩm thực hiện một thử
nghiệm về loại thuốc mới ảnh hưởng đến huyết áp như
thế nào. Huyết áp là biến quan tâm. Mức độ (liều
lượng) thuốc mới là biến được hy vọng là có ảnh
hưởng nhân quả lên huyết áp).
Nghiên cứu quan sát là nghiên cứu thống
kê không cần kiểm soát đến biến quan tâm.
Loại nghiên cứu quan sát phổ biến nhất là
khảo sát.
Ví dụ, trong một cuộc khảo sát phỏng vấn
cá nhân, trước hết xác định các câu hỏi, sau đó
thiết kế bảng câu hỏi và phát hoặc phỏng vấn
từng cá nhân. Một số nhà hàng sử dụng nghiên
cứu quan sát để có dữ liệu về ý kiến khách
hàng về chất lượng thực phẩm, chất lượng dịch
vụ, không gian,…
We are happy you stopped by Lobster Pot Restaurant (LPR) and want to
make sure you will come back. So, if you have a little time, we will
really appreciate it if you will fill out this card. Your comments and
suggestions are extremely important to us. Thank you!

Server’s Name _______________________________________


Excellent Good Satisfactory Unsatisfactory
Food Quality □ □ □ □
Friendly Service □ □ □ □
Prompt Service □ □ □ □
Cleanliness □ □ □ □
Management □ □ □ □
Comment ____________________________________________
What promted your visit to us ____________________________

Prompt = mau lẹ, nhanh nhẹn


Lưu ý khi thu thập dữ liệu

Thời gian yêu cầu


• Tìm kiếm thông tin phải tính đến thời gian.
• Thông tin có thể không mang tính thời sự vì nó có sẵn.
Chi phí thu thập

• Công ty thường phải trả phí cho thông tin ngay cả khi
nó không phải là hoạt động kinh doanh chính của họ.
Lỗi trong thu thập dữ liệu
• Sử dụng dữ liệu sai còn tồi tệ hơn không sử
dụng bất kỳ dữ liệu nào.
• Xảy ra khi giá trị dữ liệu thu thập được
không bằng giá trị thực sự
Xảy ra trong một số trường hợp:
• Người phỏng vấn có thể mắc lỗi nghe
• Người trả lời phỏng vấn hiểu sai câu hỏi và
cung cấp một trả lời không đúng
Khắc phục: Kiểm tra tính nhất quán nội bộ
của dữ liệu
1.4 Thống kê mô tả
Hầu hết các thông tin thống kê trên báo, tạp
chí, báo cáo công ty và các ấn phẩm khác chứa dữ
liệu tổng hợp và trình bày cho người đọc dễ hiểu.
Những tóm tắt dữ liệu có thể là bảng, đồ thị, hoặc
bằng số, được gọi là thống kê mô tả.
Bên cạnh bảng và đồ thị, thống kê mô tả bằng
số cũng được sử dụng để tóm tắt dữ liệu.
Thống kê mô tả số phổ biến nhất là mức trung
bình nó cho thấy một thước đo xu hướng trung tâm,
hoặc vị trí trung tâm của dữ liệu của biến đó.
Ví dụ: Hudson Auto Repair

Quản lý của Hudson Auto muốn biết về chi phí


của các bộ phân liên quan đến điều chỉnh động
cơ được thực hiện trong cửa hàng của cô ấy.

Cô ấy kiểm tra 50 hóa đơn của khách hàng có


nhu cầu điều chỉnh động cơ. Chi phí của các bộ
phận được làm tròn đến đồng đô la và được
trình bày ở slide kết tiếp.
Ví dụ: Hudson Auto Repair

 Ví dụ chi phí các bộ phận (đô la) của 50 khách hàng


điều chỉnh động cơ

91 78 93 57 75 52 99 80 97 62
71 69 72 89 66 75 79 75 72 76
104 74 62 68 97 105 77 65 80 109
85 97 88 68 83 68 71 69 67 74
62 82 98 101 79 105 79 69 62 73
Bảng tóm tắt: Tần số và Tần suất

 Ví dụ: Hudson Auto

Chi phí Tần số Tần suất


(đô la)
50-59 2 4
60-69 13 26
(2/50)100
(2/50)100
70-79 16 32
80-89 7 14
90-99 7 14
100-109 5 10
50 100
Đồ thị tóm tắt: Histogram

18
Chi phí điều chỉnh động cơ
16
14
12
Tần số

10
8
6
4
2
Chi phí
5059 6069 7079 8089 9099 100-110 (đô la)
1.5 Thống kê suy diễn
Nhiều tình huống đòi hỏi thông tin về nhóm
lớn phần tử (cá nhân, công ty, cử tri, hộ gia đình,
sản phẩm, khách hàng,…). Nhưng do thời gian,
chi phí, và điều kiện khác có hạn, chỉ có thể thu
thập dữ liệu được từ một phần nhỏ của nhóm này.

Tập hợp tất cả phần tử được quan tâm


trong một nghiên cứu cụ thể được gọi là tổng thể
(population), và nhóm nhỏ hơn này gọi là mẫu
(sample)
Ví dụ, tất cả sinh viên K45 UEH (Tổng thể quan
tâm), chọn ngẫu nhiên 200 sinh viên K45 UEH để
phỏng vấn về sự hài lòng của các bạn theo phương
pháp đào tạo trực tuyến (online) từ 1 rất không hài
lòng đến 5 rất hài lòng (Mẫu).
A Population is the set of all elements of interest
in a particular study (tập hợp tất cả phần tử được
quan tâm trong một nghiên cứu cụ thể).

A Sample is a subset of the pupolation (là một


tập hợp con của tổng thể)

Quá trình tiến hành khảo sát để thu thập


dữ liệu trên toàn bộ tổng thể gọi là điều tra
tổng thể.
thể
Quá trình tiến hành khảo sát để thu thập
dữ liệu trên một mẫu gọi là điều tra mẫu.
Đóng góp lớn của thống kê là sử dụng dữ liệu từ
một mẫu đại diện ước lượng và kiểm định giả
thuyết về các đặc tính của một tổng thể thông qua
một quá trình gọi là suy diễn thống kê.

Chính phủ Mỹ tiến hành điều tra tổng thể


10 năm một lần. Các công ty nghiên cứu thị
trường thực hiện điều tra chọn mẫu mỗi ngày.
Khi sử dụng một mẫu để ước lượng một
đặc tính tổng thể, các nhà thống kê thường đưa ra
một tuyên bố về chất lượng hoặc độ chính xác
liên quan đến việc ước lượng.
Ví dụ, công ty Norris Electronics – nơi sản
xuất bóng đèn cường độ cao. Vừa qua công ty
phát triển một sợi đốt bóng mới. Để đánh giá ưu
điểm của sợi đốt mới, 200 bóng với sợi đốt
bóng được sản xuất và kiểm tra thấy tổng số giờ
hoạt động cho đến khi cháy của 200 bóng là
15.200 giờ. Như vậy tuổi thọ trung bình của
tổng thể bóng đèn là 76 giờ với sai số biên là 4
giờ. Như vậy khoảng ước lượng tuổi thọ trung
bình của tất cả bóng với sợi đốt mới là từ 72 giờ
đến 80 giờ.
1. Tổng thể bao
gồm tất cả bóng đèn 2. Mẫu 200 bóng được
được SX với sợi đốt sản xuất với sợi đốt
mới. Tuổi thọ trung mới
bình chưa biết

4. Trung bình mẫu được 3. Dữ liệu mẫu cung cấp


dùng để ước lượng trung tuổi thọ trung bình mẫu là
bình tổng thể 76 giờ/bóng
1.6 Máy tính và Phân tích thống kê
Phân tích thống kê thường liên quan
đến lượng lớn dữ liệu vì vậy các nhà phân
tích thường sử dụng phần mềm máy tính.
Trong tài liệu Anderson, Sweeney and
Williams đã giới thiệu sử dụng các thủ tục
thống kê với Minitab và Excel. Ngoài ra các
bạn sinh viên có thể dùng phần mềm SPSS
để xử lý dữ liệu.
Kho dữ liệu

 Các tổ chức thu được dữ liệu lớn hàng ngày bằng các
đầu đọc thẻ từ, máy quét mã vạch, các điểm kết nối bán
hàng và màn hình cảm ứng.
 Wall-Mart thu thập dữ liệu được trên 20-30 triệu
giao dịch mỗi ngày
 Visa xử lý 6.800 giao dịch thanh toán mỗi giây.
 Thu thập, lưu trữ và duy trì dữ liệu, gọi là kho dữ
liệu, một công việc có ý nghĩa.
Khai thác dữ liệu
 Phân tích các dữ liệu trong kho dữ liệu có thể giúp
cho việc ra quyết định cho chiến lược mới và mang lại
lợi nhuận cao hơn cho tổ chức.
 Sử dụng kết hợp các thủ tục thống kê, toán học, và
khoa học máy tính, phân tích “mỏ dữ liệu ” để chuyển
đổi nó thành thông tin hữu ích.

 Các hệ thống khai thác dữ liệu hiệu quả nhất sử dụng


các thủ tục tự động để khám phá các mối quan hệ trong dữ
liệu và dự đoán kết quả tương lai,…thông qua những yêu
cầu có vẻ là chung chung, thậm chí là mơ hồ bởi người
dùng.
Các ứng dụng khai thác dữ liệu

 Các ứng dụng chính của khai thác dữ liệu đã được thực
ở nhiều công ty chủ yếu là ở mảng khách hàng như bán lẻ,
tài chính, và truyền thông.

 Khai thác dữ liệu được sử dụng đề tìm hiểu các sản


phẩm liên quan có khả năng mua cùng khi khách hàng
mua một sản phẩm cụ thể (và sau đó cửa sổ pop-ups
được dùng để thu hút sự chú ý cho những sản phẩm liên
quan) giúp bán được nhiều hàng hơn.
 Một ví dụ khác, khai thác dữ liệu được sử dụng để
xác định khách hàng nào sẽ nhận được những ưu đãi
đặc biệt dựa trên lịch sử mua hàng trong quá khứ.
Những yêu cầu khai thác dữ liệu

 Phương pháp thống kê như hồi quy, hồi quy logistic,


tương quan thường được dùng nhiều.
 Cũng cần đến khoa học máy tính liên quan đến trí
tuệ nhân tạo và học máy.
 Một sự đầu tư đáng kể về thời gian và tiền bạc là
xứng đáng.
Mô hình khai thác dự liệu đáng tin cậy

 Tìm được một mô hình thống kê hiệu quả cho một


mẫu dữ liệu cụ thể không nhất thiết nó sẽ phù hợp,
đáng tin cậy khi áp dụng cho bộ dữ liệu khác.

 Với lượng dữ liệu lớn có sẵn, có thể chia dữ liệu thành


hai tập con, một tập dữ liệu thực hiện ( để xây dựng mô
hình) và một tập dữ liệu kiểm tra (để kiểm tra lại mô
hình)
 Tuy nhiên thật nguy hiểm khi dùng mô hình bám
thật sát các điểm dữ liệu có thể dẫn đến gợi ý sai mối
liên hệ
 Giải thích cẩn thận kết quả và thử nghiệm rộng rãi là
rất quan trọng.
Nguyên tắc đạo đức trong thực hành thống kê

 Trong nghiên cứu thống kê, hành vi vi phạm đạo


đức bao gồm:
• Lấy mẫu không đúng
• Các phân tích không phù hợp với dữ liệu
• Xây dựng đồ thị gây hiểu lầm
• Sử dụng số liệu tóm tắt thống kê không phù hợp.
• Giải thích sai lệch kết quả thống kê
 Bạn phải luôn cố gắng công bằng, toàn diện, khách quan
và trung lập khi thu thập, phân tích và trình bày dữ liệu.
 Là một người dùng số liệu bạn nên lưu ý những hành
vi vi phạm đạo đức của những người khác.
Nguyên tắc đạo đức trong thực hànhthống kê

 Hiệp hội thống kê Mỹ phát hành báo cáo “Nguyên


tắc đạo đức trong thực hành thống kê”.

 Báo cáo gồm 67 nguyên tắc chia thành 8 lĩnh vực:


•Tính chuyên nghiệp

•Trách nhiệm trong các ấn phẩm và các bằng chứng


•Trách nhiệm của đối tượng nghiện cứu
•Trách nhiệm của các nhóm nghiên cứu.
•Trách nhiệm của các nhà thống kê/học viên
•Trách nhiệm tố giác các hành vi sai trái
•Trách nhiệm của nhà tuyền dụng bao gồm: Tổ chức, cá nhân, luật sư, khách
hàng
BÀI TẬP TÌNH HUỐNG – ÔN TẬP

Cục du khách thu thập dữ liệu về khách đến Hawaii.


Các câu hỏi sau đây trích ra từ 16 câu trong một
bảng câu hỏi phát cho hành khách trong các chuyến
bay đến trong tháng 6/2009
1/ Chuyến bay của tôi đến Hawaii là lần thứ:1,2,3,,,
2/ Lý do chính của chuyến đi này là: (10 loại bao
gồm kỳ nghỉ, hội nghị, tuần trăng mật,..
3/ Kế hoạch nghỉ ở đâu: (11 loại bao gồm: khách
sạn, căn hộ, người thân,…
4/ Tổng số ngày ở Hawaii.
A.Tổng thể nghiên cứu là gì?
B.Việc sử dụng bảng câu hỏi có phải là cách tốt
đề tiếp cận với tổng thể hành khách bay đến.
BÀI TẬP TÌNH HUỐNG – ÔN TẬP

Một cuộc khảo sát 131 nhà quản lý đầu tư trung bình chọn
Barron Big Money cho thấy:
•43% nhà quản lý tự phân loại mình là lạc quan hay rất lạc
quan về thị trường chứng khoán
•Lợi nhuận vốn trung bình dự kiến trong 12 tháng tới là 11,2%
•21% lựa chọn chăm sóc sức khỏe như lĩnh vực có nhiều khả
năng dẫn dắt thị trường trong 12 tháng kế tiếp
•Khi được hỏi ước tính bao lâu nữa thị cổ phiếu công nghệ và
viễn thông trở lại tăng trưởng bền vững , trả lời trung bình của
các nhà quản lý là 2,5 năm.
•a/ Hãy trích dẫn 2 thống kê mô tả
•b/ hãy suy diễn về lợi nhuận trên vốn trung bình dự kiến
trong 12 tháng tiếp theo của tổng thể các nhà quản lý đầu
tư.

You might also like