You are on page 1of 20

Thu thập dữ liệu là gì: Phương pháp, loại,

công cụ
Bởi Simplilearn
Cập nhật lần cuối vào ngày 1 tháng 9 năm 2023760761

Mục lục
Thu thập dữ liệu là gì?
Tại sao chúng ta cần thu thập dữ liệu?
Các phương pháp thu thập dữ liệu khác nhau là gì?
Công cụ thu thập dữ liệu
Tầm quan trọng của việc đảm bảo thu thập dữ liệu chính xác và phù hợp
Xem thêm
Quá trình thu thập và phân tích dữ liệu chính xác từ nhiều nguồn khác nhau để tìm ra câu
trả lời cho các vấn đề nghiên cứu, xu hướng và xác suất, v.v., để đánh giá các kết quả có
thể xảy ra được gọi là Thu thập dữ liệu. Kiến thức là sức mạnh, thông tin là kiến thức và
dữ liệu là thông tin ở dạng số hóa, ít nhất là như được định nghĩa trong CNTT. Do đó, dữ
liệu là sức mạnh. Nhưng trước khi bạn có thể tận dụng dữ liệu đó thành một chiến lược
thành công cho tổ chức hoặc doanh nghiệp của mình, bạn cần phải thu thập dữ liệu đó. Đó
là bước đầu tiên của bạn.

Vì vậy, để giúp bạn bắt đầu quá trình, chúng tôi tập trung vào việc thu thập dữ liệu. Chính
xác thì nó là gì? Dù bạn có tin hay không, nó không chỉ đơn thuần là thực hiện tìm kiếm
trên Google! Hơn nữa, các loại thu thập dữ liệu khác nhau là gì? Và những loại công cụ thu
thập dữ liệu và kỹ thuật thu thập dữ liệu nào tồn tại?

Nếu bạn muốn tìm hiểu nhanh về quy trình thu thập dữ liệu là gì thì bạn đã đến đúng nơi.
Biến dữ liệu thô thành hình ảnh hấp dẫn với các Khóa học trực quan hóa dữ liệu thực hành
của Simplilearn và thu hút khán giả của bạn. Ngoài ra, hãy nắm vững nghệ thuật quản lý
dữ liệu với các khóa học quản lý dữ liệu toàn diện của Simplilearn - mở ra những cơ hội
nghề nghiệp mới ngay hôm nay!

Thu thập dữ liệu là gì?

Thu thập dữ liệu là quá trình thu thập và đánh giá thông tin hoặc dữ liệu từ nhiều nguồn để
tìm câu trả lời cho các vấn đề nghiên cứu, trả lời câu hỏi, đánh giá kết quả, dự báo xu
hướng và xác suất. Đây là một giai đoạn thiết yếu trong tất cả các loại nghiên cứu, phân
tích và ra quyết định, bao gồm cả những nghiên cứu được thực hiện trong khoa học xã hội,
kinh doanh và chăm sóc sức khỏe.

Việc thu thập dữ liệu chính xác là cần thiết để đưa ra quyết định kinh doanh sáng suốt, đảm
bảo chất lượng và duy trì tính toàn vẹn của nghiên cứu.

Trong quá trình thu thập dữ liệu, các nhà nghiên cứu phải xác định loại dữ liệu, nguồn dữ
liệu và phương pháp nào đang được sử dụng. Chúng ta sẽ sớm thấy rằng có nhiều phương
pháp thu thập dữ liệu khác nhau . Có sự phụ thuộc nhiều vào việc thu thập dữ liệu trong
các lĩnh vực nghiên cứu, thương mại và chính phủ.

Trước khi nhà phân tích bắt đầu thu thập dữ liệu, trước tiên họ phải trả lời ba câu hỏi:

 Mục tiêu hoặc mục đích của nghiên cứu này là gì?

 Họ dự định thu thập những loại dữ liệu nào?

 Những phương pháp và thủ tục nào sẽ được sử dụng để thu thập, lưu trữ và xử
lý thông tin?

Ngoài ra, chúng ta có thể chia dữ liệu thành các loại định tính và định lượng. Dữ liệu định
tính bao gồm các mô tả như màu sắc, kích thước, chất lượng và hình thức. Dữ liệu định
lượng, không có gì đáng ngạc nhiên, liên quan đến các con số, chẳng hạn như số liệu thống
kê, số phiếu thăm dò, tỷ lệ phần trăm, v.v.
Tại sao chúng ta cần thu thập dữ liệu?

Trước khi thẩm phán đưa ra phán quyết trong một vụ án hoặc một vị tướng lập kế hoạch
tấn công, họ phải có càng nhiều sự kiện liên quan càng tốt. Những hành động tốt nhất đến
từ những quyết định sáng suốt, thông tin và dữ liệu đồng nghĩa với nhau.

Khái niệm thu thập dữ liệu không phải là khái niệm mới, như chúng ta sẽ thấy sau, nhưng
thế giới đã thay đổi. Ngày nay có nhiều dữ liệu hơn và nó tồn tại ở những dạng chưa từng
có cách đây một thế kỷ. Quá trình thu thập dữ liệu đã phải thay đổi và phát triển theo thời
đại, bắt kịp với công nghệ.

Cho dù bạn đang ở trong giới học thuật, đang cố gắng tiến hành nghiên cứu hay đang làm
việc trong lĩnh vực thương mại, đang nghĩ cách quảng cáo một sản phẩm mới, bạn cần thu
thập dữ liệu để giúp bạn đưa ra những lựa chọn tốt hơn.

Bây giờ bạn đã biết thu thập dữ liệu là gì và tại sao chúng ta cần nó, hãy xem các phương
pháp thu thập dữ liệu khác nhau. Mặc dù cụm từ “thu thập dữ liệu” nghe có vẻ hoàn toàn là
công nghệ cao và kỹ thuật số nhưng nó không nhất thiết đòi hỏi những thứ như máy
tính, dữ liệu lớn và internet. Thu thập dữ liệu có thể là một cuộc khảo sát qua điện thoại,
một thẻ nhận xét gửi qua thư hoặc thậm chí là một người nào đó cầm bảng ghi nhớ hỏi
người qua đường một số câu hỏi. Nhưng hãy xem liệu chúng ta có thể sắp xếp các phương
pháp thu thập dữ liệu khác nhau thành các danh mục có tổ chức hay không.

Các phương pháp thu thập dữ liệu khác nhau là gì?

Phương pháp thu thập dữ liệu sơ cấp và thứ cấp là hai phương pháp được sử dụng để thu
thập thông tin cho mục đích nghiên cứu hoặc phân tích. Hãy cùng khám phá chi tiết từng
phương pháp thu thập dữ liệu:

1. Thu thập dữ liệu sơ cấp:

Thu thập dữ liệu sơ cấp bao gồm việc thu thập dữ liệu gốc trực tiếp từ nguồn hoặc thông
qua tương tác trực tiếp với người trả lời. Phương pháp này cho phép các nhà nghiên cứu có
được thông tin trực tiếp được thiết kế riêng cho mục tiêu nghiên cứu của họ. Có nhiều kỹ
thuật khác nhau để thu thập dữ liệu sơ cấp, bao gồm:

Một. Khảo sát và bảng câu hỏi: Các nhà nghiên cứu thiết kế bảng câu hỏi hoặc khảo sát có
cấu trúc để thu thập dữ liệu từ các cá nhân hoặc nhóm. Những điều này có thể được thực
hiện thông qua các cuộc phỏng vấn trực tiếp, các cuộc gọi điện thoại, thư hoặc các nền
tảng trực tuyến.

b. Phỏng vấn: Phỏng vấn liên quan đến sự tương tác trực tiếp giữa nhà nghiên cứu và
người trả lời. Chúng có thể được tiến hành trực tiếp, qua điện thoại hoặc thông qua hội
nghị truyền hình. Các cuộc phỏng vấn có thể được cấu trúc (với các câu hỏi được xác định
trước), bán cấu trúc (cho phép linh hoạt) hoặc không cấu trúc (mang tính trò chuyện hơn).

c. Quan sát: Các nhà nghiên cứu quan sát và ghi lại các hành vi, hành động hoặc sự kiện
trong bối cảnh tự nhiên của chúng. Phương pháp này hữu ích để thu thập dữ liệu về hành
vi, tương tác hoặc hiện tượng của con người mà không cần can thiệp trực tiếp.

d. Thí nghiệm: Nghiên cứu thực nghiệm liên quan đến việc vận dụng các biến số để quan
sát tác động của chúng đến kết quả. Các nhà nghiên cứu kiểm soát các điều kiện và thu
thập dữ liệu để đưa ra kết luận về mối quan hệ nhân quả.

đ. Nhóm tập trung: Nhóm tập trung tập hợp một nhóm nhỏ các cá nhân thảo luận về các
chủ đề cụ thể trong một môi trường được kiểm duyệt. Phương pháp này giúp hiểu được ý
kiến, nhận thức và kinh nghiệm được chia sẻ bởi những người tham gia.

2. Thu thập dữ liệu thứ cấp:

Thu thập dữ liệu thứ cấp liên quan đến việc sử dụng dữ liệu hiện có do người khác thu thập
cho mục đích khác với mục đích ban đầu. Các nhà nghiên cứu phân tích và giải thích dữ
liệu này để trích xuất thông tin liên quan. Dữ liệu thứ cấp có thể được lấy từ nhiều nguồn
khác nhau, bao gồm:

Một. Nguồn đã xuất bản: Các nhà nghiên cứu tham khảo sách, tạp chí học thuật, tạp chí,
báo, báo cáo của chính phủ và các tài liệu đã xuất bản khác có chứa dữ liệu liên quan.
b. Cơ sở dữ liệu trực tuyến: Nhiều cơ sở dữ liệu trực tuyến cung cấp quyền truy cập vào
nhiều loại dữ liệu thứ cấp, chẳng hạn như các bài báo nghiên cứu, thông tin thống kê, dữ
liệu kinh tế và khảo sát xã hội.

c. Hồ sơ chính phủ và tổ chức: Các cơ quan chính phủ, tổ chức nghiên cứu và tổ chức
thường duy trì cơ sở dữ liệu hoặc hồ sơ có thể được sử dụng cho mục đích nghiên cứu.

d. Dữ liệu có sẵn công khai: Dữ liệu được chia sẻ bởi các cá nhân, tổ chức hoặc cộng đồng
trên các nền tảng, trang web hoặc phương tiện truyền thông xã hội công cộng có thể được
truy cập và sử dụng cho nghiên cứu.

đ. Các nghiên cứu trước đây: Các nghiên cứu trước đây và những phát hiện của chúng có
thể đóng vai trò là nguồn dữ liệu thứ cấp có giá trị. Các nhà nghiên cứu có thể xem xét và
phân tích dữ liệu để hiểu rõ hơn hoặc xây dựng dựa trên kiến thức hiện có.

Công cụ thu thập dữ liệu

Bây giờ chúng ta đã giải thích các kỹ thuật khác nhau, hãy thu hẹp trọng tâm hơn nữa bằng
cách xem xét một số công cụ cụ thể. Ví dụ: chúng tôi đã đề cập đến các cuộc phỏng vấn
như một kỹ thuật, nhưng chúng tôi có thể chia nhỏ nó thành các loại phỏng vấn khác nhau
(hoặc “công cụ”).

 Hiệp hội từ

Nhà nghiên cứu đưa cho người trả lời một nhóm từ và hỏi họ nghĩ gì khi nghe từng từ.

 Hoàn thành câu

Các nhà nghiên cứu sử dụng cách hoàn thành câu để hiểu ý tưởng của người trả lời. Công
cụ này liên quan đến việc đưa ra một câu chưa hoàn chỉnh và xem người được phỏng vấn
kết thúc câu đó như thế nào.

 nhập vai
Người trả lời được đưa ra một tình huống tưởng tượng và được hỏi họ sẽ hành động hoặc
phản ứng như thế nào nếu tình huống đó là thật.

 Khảo sát trực tiếp

Nhà nghiên cứu đặt câu hỏi trực tiếp.

 Khảo sát trực tuyến/web

Những cuộc khảo sát này rất dễ thực hiện nhưng một số người dùng có thể không muốn trả
lời trung thực, nếu có.

 Khảo sát di động

Những cuộc khảo sát này tận dụng sự phổ biến ngày càng tăng của công nghệ di
động. Khảo sát thu thập trên thiết bị di động dựa vào các thiết bị di động như máy tính
bảng hoặc điện thoại thông minh để tiến hành khảo sát qua SMS hoặc ứng dụng di động.

 Khảo sát qua điện thoại

Không nhà nghiên cứu nào có thể gọi cho hàng nghìn người cùng một lúc nên họ cần bên
thứ ba để xử lý công việc này. Tuy nhiên, nhiều người đã sàng lọc cuộc gọi và không trả
lời.

 Quan sát

Đôi khi, phương pháp đơn giản nhất lại là tốt nhất. Các nhà nghiên cứu thực hiện quan sát
trực tiếp sẽ thu thập dữ liệu nhanh chóng và dễ dàng, ít bị xâm phạm hoặc thiên vị từ bên
thứ ba. Đương nhiên, nó chỉ hiệu quả trong những tình huống quy mô nhỏ.

Tầm quan trọng của việc đảm bảo thu thập dữ liệu chính xác
và phù hợp
Việc thu thập dữ liệu chính xác là rất quan trọng để duy trì tính toàn vẹn của nghiên cứu,
bất kể chủ đề nghiên cứu hay phương pháp ưa thích để xác định dữ liệu (định lượng, định
tính). Lỗi ít có khả năng xảy ra khi sử dụng các công cụ thu thập dữ liệu phù hợp (cho dù
chúng là công cụ hoàn toàn mới, phiên bản cập nhật hoặc đã có sẵn).

Trong số các tác động của việc thu thập dữ liệu được thực hiện không chính xác, bao gồm
những điều sau đây -

 Những kết luận sai lầm gây lãng phí nguồn lực

 Các quyết định làm tổn hại đến chính sách công

 Không có khả năng trả lời chính xác các câu hỏi nghiên cứu

 Gây tổn hại cho người tham gia là con người hoặc động vật

 Lừa dối các nhà nghiên cứu khác theo đuổi con đường nghiên cứu vô ích

 Nghiên cứu không có khả năng được nhân rộng và xác nhận

Khi những kết quả nghiên cứu này được sử dụng để hỗ trợ các khuyến nghị về chính sách
công, có khả năng gây ra tác hại không tương xứng, ngay cả khi mức độ ảnh hưởng từ việc
thu thập dữ liệu sai sót có thể khác nhau tùy theo nguyên tắc và loại hình điều tra.

Bây giờ chúng ta hãy xem xét các vấn đề khác nhau mà chúng ta có thể gặp phải trong khi
duy trì tính toàn vẹn của việc thu thập dữ liệu.

Các vấn đề liên quan đến việc duy trì tính toàn vẹn của việc
thu thập dữ liệu

Để hỗ trợ quá trình phát hiện lỗi trong quá trình thu thập dữ liệu, cho dù chúng được thực
hiện có chủ đích (cố tình làm sai lệch) hay không, việc duy trì tính toàn vẹn của dữ liệu là
lý do chính (lỗi hệ thống hoặc ngẫu nhiên).

Đảm bảo chất lượng và kiểm soát chất lượng là hai chiến lược giúp bảo vệ tính toàn vẹn dữ
liệu và đảm bảo giá trị khoa học của kết quả nghiên cứu.
Mỗi chiến lược được sử dụng ở các giai đoạn khác nhau của dòng thời gian nghiên cứu:

 Kiểm soát chất lượng - các nhiệm vụ được thực hiện cả sau và trong khi thu thập
dữ liệu

 Đảm bảo chất lượng - các sự kiện xảy ra trước khi bắt đầu thu thập dữ liệu

Bây giờ chúng ta hãy khám phá từng cái một cách chi tiết hơn.

Đảm bảo chất lượng

Vì việc thu thập dữ liệu đi trước việc đảm bảo chất lượng nên mục tiêu chính của nó là
"phòng ngừa" (tức là ngăn chặn các vấn đề xảy ra trong quá trình thu thập dữ liệu). Cách
tốt nhất để bảo vệ tính chính xác của việc thu thập dữ liệu là thông qua việc ngăn
chặn. Tính đồng nhất của giao thức được tạo trong sổ tay quy trình kỹ lưỡng và đầy đủ để
thu thập dữ liệu là ví dụ điển hình nhất cho bước chủ động này.

Khả năng không phát hiện sớm các vấn đề và sai sót trong nỗ lực nghiên cứu sẽ tăng lên
khi các hướng dẫn được viết kém. Có một số cách để chỉ ra những thiếu sót này:

 Không xác định chính xác đối tượng và phương pháp đào tạo lại hoặc đào tạo
nhân viên thu thập dữ liệu

 Danh mục hàng hóa cần thu gom một phần

 Không có hệ thống nào để theo dõi các sửa đổi đối với các quy trình có thể xảy
ra khi cuộc điều tra tiếp tục.

 Thay vì hướng dẫn chi tiết từng bước về cách thực hiện các bài kiểm tra, lại có
một mô tả mơ hồ về các công cụ thu thập dữ liệu sẽ được sử dụng.

 Sự không chắc chắn về ngày, thủ tục và danh tính của người hoặc những người
chịu trách nhiệm kiểm tra dữ liệu

 Hướng dẫn khó hiểu về cách sử dụng, điều chỉnh và hiệu chỉnh thiết bị thu thập
dữ liệu.

Bây giờ, chúng ta hãy xem cách đảm bảo Kiểm soát Chất lượng.
Trở thành nhà khoa học dữ liệu với kinh nghiệm
thực tế
Chương trình thạc sĩ khoa học dữ liệuKHÁM PHÁ CHƯƠNG TRÌNH

Kiểm soát chất lượng

Mặc dù thực tế là các hoạt động kiểm soát chất lượng (phát hiện/giám sát và can thiệp)
diễn ra cả sau và trong khi thu thập dữ liệu, nhưng các chi tiết cụ thể cần được trình bày chi
tiết một cách tỉ mỉ trong sổ tay quy trình. Việc thiết lập hệ thống giám sát đòi hỏi một cơ
cấu truyền thông cụ thể, đây là điều kiện tiên quyết. Sau khi phát hiện ra các vấn đề về thu
thập dữ liệu, sẽ không còn sự mơ hồ về luồng thông tin giữa điều tra viên chính và nhân
viên. Một hệ thống liên lạc được thiết kế kém sẽ thúc đẩy việc giám sát lỏng lẻo và giảm
cơ hội phát hiện lỗi.

Các cuộc gọi hội nghị quan sát trực tiếp của nhân viên, trong các chuyến thăm hiện trường
hoặc đánh giá thường xuyên hoặc định kỳ các báo cáo dữ liệu để phát hiện sự khác biệt, số
lượng quá mức hoặc mã không hợp lệ đều có thể được sử dụng làm hình thức phát hiện
hoặc giám sát. Các chuyến thăm hiện trường có thể không phù hợp với tất cả các ngành
học. Tuy nhiên, nếu không kiểm tra hồ sơ thường xuyên, dù là định tính hay định lượng,
các nhà điều tra sẽ gặp khó khăn trong việc xác nhận rằng việc thu thập dữ liệu đang diễn
ra theo các phương pháp đã xác định trong sổ tay. Ngoài ra, kiểm soát chất lượng xác định
các giải pháp hoặc "hành động" thích hợp để khắc phục các quy trình thu thập dữ liệu thiếu
sót và giảm thiểu sự tái diễn.

Ví dụ: các vấn đề về thu thập dữ liệu đòi hỏi phải hành động ngay lập tức bao gồm:

 Gian lận hoặc hành vi sai trái

 Sai sót mang tính hệ thống, vi phạm quy trình

 Các mục dữ liệu riêng lẻ có lỗi

 Các vấn đề với một số nhân viên hoặc hiệu suất của trang web

Các nhà nghiên cứu được đào tạo để áp dụng một hoặc nhiều biện pháp thứ cấp có thể
được sử dụng để xác minh chất lượng thông tin thu được từ chủ thể con người trong khoa
học xã hội và hành vi, nơi việc thu thập dữ liệu sơ cấp đòi hỏi phải sử dụng chủ thể con
người.

Ví dụ, một nhà nghiên cứu thực hiện một cuộc khảo sát sẽ quan tâm đến việc tìm hiểu
thêm về mức độ phổ biến của các hành vi nguy hiểm ở thanh niên cũng như các yếu tố xã
hội ảnh hưởng đến xu hướng và tần suất của những hành vi nguy hiểm này. Bây giờ chúng
ta hãy khám phá những thách thức chung liên quan đến việc thu thập dữ liệu.

Những thách thức phổ biến trong việc thu thập dữ liệu là gì?

Có một số thách thức phổ biến phải đối mặt khi thu thập dữ liệu, chúng ta hãy khám phá
một số thách thức trong số đó để hiểu rõ hơn và tránh chúng.

Vấn đề về chất lượng dữ liệu

Mối đe dọa chính đối với việc ứng dụng rộng rãi và thành công của học máy là chất lượng
dữ liệu kém. Chất lượng dữ liệu phải là ưu tiên hàng đầu của bạn nếu bạn muốn sử dụng
các công nghệ như máy học để phục vụ mình. Hãy nói về một số vấn đề phổ biến nhất về
chất lượng dữ liệu trong bài viết blog này và cách khắc phục chúng.

Dữ liệu không nhất quán

Khi làm việc với nhiều nguồn dữ liệu khác nhau, có thể hình dung rằng cùng một thông tin
sẽ có sự khác biệt giữa các nguồn. Sự khác biệt có thể ở định dạng, đơn vị hoặc đôi khi là
cách viết. Việc đưa ra dữ liệu không nhất quán cũng có thể xảy ra trong quá trình sáp nhập
hoặc tái định cư công ty. Sự không nhất quán trong dữ liệu có xu hướng tích tụ và làm
giảm giá trị của dữ liệu nếu chúng không được giải quyết liên tục. Các tổ chức tập trung
nhiều vào tính nhất quán của dữ liệu làm như vậy vì họ chỉ muốn có dữ liệu đáng tin cậy
để hỗ trợ hoạt động phân tích của mình.

Thời gian ngừng hoạt động của dữ liệu


Dữ liệu là động lực thúc đẩy các quyết định và hoạt động của các doanh nghiệp dựa trên
dữ liệu. Tuy nhiên, có thể có những khoảng thời gian ngắn khi dữ liệu của họ không đáng
tin cậy hoặc không được chuẩn bị. Khiếu nại của khách hàng và kết quả phân tích dưới tiêu
chuẩn chỉ là hai cách mà việc không có sẵn dữ liệu này có thể tác động đáng kể đến doanh
nghiệp. Một kỹ sư dữ liệu dành khoảng 80% thời gian của họ để cập nhật, duy trì và đảm
bảo tính toàn vẹn của đường dẫn dữ liệu. Để đặt câu hỏi kinh doanh tiếp theo, chi phí cận
biên cao do thời gian thực hiện hoạt động kéo dài từ khi thu thập dữ liệu đến hiểu biết sâu
sắc.

Sửa đổi lược đồ và các vấn đề di chuyển chỉ là hai ví dụ về nguyên nhân gây ra thời gian
ngừng hoạt động của dữ liệu. Đường ống dữ liệu có thể gặp khó khăn do kích thước và độ
phức tạp của chúng. Thời gian ngừng hoạt động của dữ liệu phải được theo dõi liên tục và
phải được giảm thiểu thông qua tự động hóa.

Dữ liệu mơ hồ

Ngay cả khi được giám sát kỹ lưỡng, một số lỗi vẫn có thể xảy ra trong cơ sở dữ liệu hoặc
hồ dữ liệu khổng lồ. Để truyền dữ liệu với tốc độ nhanh, vấn đề trở nên phức tạp hơn. Lỗi
chính tả có thể không được chú ý, có thể xảy ra khó khăn về định dạng và đầu cột có thể
gây nhầm lẫn. Dữ liệu không rõ ràng này có thể gây ra một số vấn đề cho việc báo cáo và
phân tích.

Trở thành chuyên gia khoa học dữ liệu và có được


công việc mơ ước của bạn
Chương trình sau đại học của Caltech về khoa học dữ liệuKHÁM PHÁ CHƯƠNG TRÌNH

Dữ liệu trùng lặp

Truyền dữ liệu, cơ sở dữ liệu cục bộ và hồ dữ liệu đám mây chỉ là một số nguồn dữ liệu mà
các doanh nghiệp hiện đại phải đối mặt. Họ cũng có thể có các silo ứng dụng và hệ
thống. Các nguồn này có khả năng trùng lặp và chồng chéo lên nhau khá nhiều. Ví dụ:
thông tin liên hệ trùng lặp có tác động đáng kể đến trải nghiệm của khách hàng. Nếu một
số khách hàng tiềm năng nhất định bị bỏ qua trong khi những khách hàng khác được tham
gia liên tục thì các chiến dịch tiếp thị sẽ bị ảnh hưởng. Khả năng xảy ra kết quả phân tích
sai lệch sẽ tăng lên khi có dữ liệu trùng lặp. Nó cũng có thể tạo ra các mô hình ML với dữ
liệu đào tạo sai lệch.

Quá nhiều dữ liệu

Mặc dù chúng tôi nhấn mạnh đến phân tích dựa trên dữ liệu và các ưu điểm của nó, nhưng
vẫn tồn tại vấn đề về chất lượng dữ liệu do có quá nhiều dữ liệu. Có nguy cơ bị lạc trong
lượng dữ liệu dồi dào khi tìm kiếm thông tin phù hợp với nỗ lực phân tích của bạn. Các
nhà khoa học dữ liệu, nhà phân tích dữ liệu và người dùng doanh nghiệp dành 80% công
việc của họ để tìm kiếm và sắp xếp dữ liệu phù hợp. Với sự gia tăng về khối lượng dữ liệu,
các vấn đề khác về chất lượng dữ liệu trở nên nghiêm trọng hơn, đặc biệt khi xử lý dữ liệu
truyền trực tuyến và các tệp hoặc cơ sở dữ liệu lớn.

Dữ liệu không chính xác

Đối với các doanh nghiệp được quản lý chặt chẽ như chăm sóc sức khỏe, độ chính xác của
dữ liệu là rất quan trọng. Với kinh nghiệm hiện tại, điều quan trọng hơn bao giờ hết là nâng
cao chất lượng dữ liệu về các đại dịch COVID-19 và các đại dịch sau này. Thông tin không
chính xác không cung cấp cho bạn bức tranh chân thực về tình huống và không thể được
sử dụng để lập kế hoạch hành động tốt nhất. Trải nghiệm khách hàng được cá nhân hóa và
chiến lược tiếp thị sẽ hoạt động kém hiệu quả nếu dữ liệu khách hàng của bạn không chính
xác.

Dữ liệu không chính xác có thể do một số nguyên nhân, bao gồm suy giảm dữ liệu, lỗi của
con người và trôi dạt dữ liệu. Sự suy giảm dữ liệu trên toàn thế giới xảy ra với tốc độ
khoảng 3% mỗi tháng, điều này khá đáng lo ngại. Tính toàn vẹn của dữ liệu có thể bị tổn
hại khi truyền giữa các hệ thống khác nhau và chất lượng dữ liệu có thể giảm sút theo thời
gian.

Dữ liệu ẩn

Phần lớn các doanh nghiệp chỉ sử dụng một phần dữ liệu của họ, phần còn lại đôi khi bị
mất trong kho dữ liệu hoặc bị loại bỏ trong nghĩa địa dữ liệu. Ví dụ: nhóm dịch vụ khách
hàng có thể không nhận được dữ liệu khách hàng từ hoạt động bán hàng, bỏ lỡ cơ hội xây
dựng hồ sơ khách hàng chính xác và toàn diện hơn. Dữ liệu ẩn gây ra việc bỏ lỡ cơ hội
phát triển các sản phẩm mới, nâng cao dịch vụ và hợp lý hóa các thủ tục.

Tìm dữ liệu liên quan

Việc tìm kiếm dữ liệu liên quan không hề dễ dàng. Có một số yếu tố chúng ta cần xem xét
khi cố gắng tìm dữ liệu liên quan, bao gồm -

 Tên miền liên quan

 Nhân khẩu học có liên quan

 Khoảng thời gian liên quan và rất nhiều yếu tố khác mà chúng ta cần xem xét
khi cố gắng tìm dữ liệu liên quan.

Dữ liệu không liên quan đến nghiên cứu của chúng tôi về bất kỳ yếu tố nào khiến dữ liệu
đó trở nên lỗi thời và chúng tôi không thể tiến hành phân tích dữ liệu đó một cách hiệu
quả. Điều này có thể dẫn đến nghiên cứu hoặc phân tích không đầy đủ, thu thập lại dữ liệu
nhiều lần hoặc ngừng nghiên cứu.

Quyết định dữ liệu cần thu thập

Xác định dữ liệu nào cần thu thập là một trong những yếu tố quan trọng nhất khi thu thập
dữ liệu và phải là một trong những yếu tố đầu tiên khi thu thập dữ liệu. Chúng ta phải chọn
các chủ đề mà dữ liệu sẽ đề cập đến, các nguồn mà chúng ta sẽ sử dụng để thu thập dữ liệu
đó và lượng thông tin mà chúng ta sẽ yêu cầu. Phản hồi của chúng tôi đối với những truy
vấn này sẽ phụ thuộc vào mục tiêu của chúng tôi hoặc những gì chúng tôi mong đợi đạt
được khi sử dụng dữ liệu của bạn. Để minh họa, chúng tôi có thể chọn thu thập thông tin
về các danh mục bài viết mà khách truy cập trang web trong độ tuổi từ 20 đến 50 thường
truy cập nhất. Chúng tôi cũng có thể quyết định tổng hợp dữ liệu về độ tuổi điển hình của
tất cả khách hàng đã mua hàng từ doanh nghiệp của bạn trong tháng trước.

Không giải quyết vấn đề này có thể dẫn đến việc phải làm việc gấp đôi và thu thập dữ liệu
không liên quan hoặc làm hỏng toàn bộ nghiên cứu của bạn.

Xử lý dữ liệu lớn
Dữ liệu lớn đề cập đến các tập dữ liệu cực lớn với cấu trúc phức tạp và đa dạng
hơn. Những đặc điểm này thường dẫn đến những thách thức gia tăng trong khi lưu trữ,
phân tích và sử dụng các phương pháp trích xuất kết quả bổ sung. Dữ liệu lớn đặc biệt đề
cập đến các tập dữ liệu khá lớn hoặc phức tạp mà các công cụ xử lý dữ liệu thông thường
không đủ. Lượng dữ liệu quá lớn, cả phi cấu trúc và có cấu trúc, mà doanh nghiệp phải đối
mặt hàng ngày.

Lượng dữ liệu được tạo ra bởi các ứng dụng chăm sóc sức khỏe, internet, các trang mạng
xã hội, mạng cảm biến và nhiều hoạt động kinh doanh khác đang tăng lên nhanh chóng
nhờ những tiến bộ công nghệ gần đây. Dữ liệu lớn đề cập đến khối lượng dữ liệu khổng lồ
được tạo từ nhiều nguồn ở nhiều định dạng khác nhau với tốc độ cực nhanh. Xử lý loại dữ
liệu này là một trong nhiều thách thức của việc Thu thập dữ liệu và là một bước quan trọng
để thu thập dữ liệu hiệu quả.

Phản hồi thấp và các vấn đề nghiên cứu khác

Thiết kế kém và tỷ lệ phản hồi thấp được cho là hai vấn đề khi thu thập dữ liệu, đặc biệt là
trong các cuộc khảo sát sức khỏe sử dụng bảng câu hỏi. Điều này có thể dẫn tới việc cung
cấp dữ liệu cho nghiên cứu không đầy đủ hoặc không đầy đủ. Việc tạo một chương trình
thu thập dữ liệu được khuyến khích có thể có ích trong trường hợp này để nhận được nhiều
phản hồi hơn.

Bây giờ, chúng ta hãy xem xét các bước chính trong quy trình thu thập dữ liệu.

Trở thành chuyên gia khoa học dữ liệu và có được


công việc mơ ước của bạn
Chương trình sau đại học của Caltech về khoa học dữ liệuKHÁM PHÁ CHƯƠNG TRÌNH

Các bước chính trong quy trình thu thập dữ liệu là gì?

Trong Quy trình thu thập dữ liệu, có 5 bước chính. Chúng được giải thích ngắn gọn dưới
đây -
1. Quyết định dữ liệu nào bạn muốn thu thập

Điều đầu tiên chúng ta cần làm là quyết định những thông tin chúng ta muốn thu
thập. Chúng ta phải chọn chủ đề mà dữ liệu sẽ đề cập, nguồn mà chúng ta sẽ sử dụng để
thu thập dữ liệu và lượng thông tin mà chúng ta sẽ yêu cầu. Ví dụ: chúng tôi có thể chọn
thu thập thông tin về các danh mục sản phẩm mà khách truy cập trang web thương mại
điện tử trung bình trong độ tuổi từ 30 đến 45 thường tìm kiếm nhiều nhất.

2. Thiết lập thời hạn thu thập dữ liệu

Quá trình tạo chiến lược thu thập dữ liệu bây giờ có thể bắt đầu. Chúng ta nên đặt ra thời
hạn cho việc thu thập dữ liệu ngay từ đầu giai đoạn lập kế hoạch. Một số dạng dữ liệu
chúng tôi có thể muốn liên tục thu thập. Ví dụ: chúng tôi có thể muốn xây dựng một kỹ
thuật để theo dõi dữ liệu giao dịch và số liệu thống kê về khách truy cập trang web trong
thời gian dài. Tuy nhiên, chúng tôi sẽ theo dõi dữ liệu trong một khung thời gian nhất định
nếu chúng tôi theo dõi dữ liệu đó cho một chiến dịch cụ thể. Trong những tình huống này,
chúng tôi sẽ có lịch trình về thời điểm bắt đầu và kết thúc việc thu thập dữ liệu.

3. Chọn phương pháp thu thập dữ liệu

Chúng tôi sẽ chọn kỹ thuật thu thập dữ liệu làm nền tảng cho kế hoạch thu thập dữ liệu của
chúng tôi ở giai đoạn này. Chúng ta phải tính đến loại thông tin mà chúng ta muốn thu
thập, khoảng thời gian chúng ta sẽ nhận được thông tin đó và các yếu tố khác mà chúng ta
quyết định chọn chiến lược thu thập tốt nhất.

4. Thu thập thông tin

Sau khi kế hoạch của chúng tôi hoàn tất, chúng tôi có thể thực hiện kế hoạch thu thập dữ
liệu của mình và bắt đầu thu thập dữ liệu. Trong DMP, chúng tôi có thể lưu trữ và sắp xếp
dữ liệu của mình. Chúng ta cần cẩn thận làm theo kế hoạch của mình và theo dõi xem nó
đang diễn ra như thế nào. Đặc biệt nếu chúng tôi thu thập dữ liệu thường xuyên, việc thiết
lập thời gian biểu về thời điểm chúng tôi sẽ kiểm tra xem quá trình thu thập dữ liệu của
chúng tôi diễn ra như thế nào có thể hữu ích. Khi hoàn cảnh thay đổi và chúng tôi biết
được những chi tiết mới, chúng tôi có thể cần phải sửa đổi kế hoạch của mình.
5. Kiểm tra thông tin và áp dụng kết quả của bạn

Đã đến lúc kiểm tra dữ liệu của chúng tôi và sắp xếp các phát hiện sau khi chúng tôi đã thu
thập tất cả thông tin của mình. Giai đoạn phân tích rất cần thiết vì nó biến dữ liệu chưa
được xử lý thành kiến thức sâu sắc có thể áp dụng để cải thiện các kế hoạch tiếp thị, hàng
hóa và đánh giá kinh doanh của chúng ta. Các công cụ phân tích có trong DMP của chúng
tôi có thể được sử dụng để hỗ trợ giai đoạn này. Chúng tôi có thể sử dụng những khám phá
này để nâng cao hoạt động kinh doanh của mình sau khi chúng tôi đã khám phá ra các mô
hình và thông tin chi tiết trong dữ liệu của mình.

Bây giờ chúng ta hãy xem xét một số cân nhắc về thu thập dữ liệu và các phương pháp hay
nhất mà người ta có thể làm theo.

Những cân nhắc về việc thu thập dữ liệu và các phương


pháp hay nhất

Chúng ta phải lập kế hoạch cẩn thận trước khi dành thời gian và tiền bạc để đi hiện trường
để thu thập dữ liệu. Đồng thời tiết kiệm thời gian và nguồn lực, các chiến lược thu thập dữ
liệu hiệu quả có thể giúp chúng tôi thu thập dữ liệu phong phú hơn, chính xác hơn và
phong phú hơn.

Dưới đây, chúng ta sẽ thảo luận về một số phương pháp hay nhất mà chúng ta có thể làm
theo để có kết quả tốt nhất -

1. Tính đến giá của mỗi điểm dữ liệu bổ sung

Khi chúng tôi đã quyết định về dữ liệu chúng tôi muốn thu thập, chúng tôi cần đảm bảo
tính đến chi phí khi thực hiện việc đó. Những người khảo sát và người trả lời của chúng tôi
sẽ phải chịu thêm chi phí cho mỗi điểm dữ liệu hoặc câu hỏi khảo sát bổ sung.

2. Lập kế hoạch thu thập từng phần dữ liệu


Có rất ít dữ liệu có thể truy cập miễn phí. Đôi khi dữ liệu có ở đó nhưng chúng ta có thể
không có quyền truy cập vào nó. Ví dụ: trừ khi chúng tôi có lý do thuyết phục, chúng tôi
không thể xem thông tin y tế của người khác một cách công khai. Việc đo lường một số
loại thông tin có thể là một thách thức.

Hãy xem xét việc thu thập từng thông tin sẽ tốn thời gian và khó khăn như thế nào trong
khi quyết định dữ liệu nào cần thu thập.

3. Hãy suy nghĩ về các lựa chọn của bạn để thu thập dữ liệu bằng thiết bị di động

Việc thu thập dữ liệu dựa trên thiết bị di động có thể được chia thành ba loại -

 IVRS (công nghệ phản hồi bằng giọng nói tương tác) - Sẽ gọi cho người trả lời
và hỏi họ những câu hỏi đã được ghi âm sẵn.

 Thu thập dữ liệu SMS - Sẽ gửi tin nhắn văn bản đến người trả lời, sau đó họ có
thể trả lời các câu hỏi bằng văn bản trên điện thoại của họ.

 Người khảo sát hiện trường - Có thể nhập dữ liệu trực tiếp vào bảng câu hỏi
tương tác trong khi nói chuyện với từng người trả lời nhờ ứng dụng điện thoại
thông minh.

Chúng ta cần đảm bảo chọn công cụ thích hợp cho cuộc khảo sát và người trả lời của mình
vì mỗi công cụ đều có những nhược điểm và ưu điểm riêng.

4. Xem xét cẩn thận dữ liệu bạn cần thu thập

Thật quá dễ dàng để có được thông tin về bất cứ thứ gì và mọi thứ, nhưng điều quan trọng
là chỉ thu thập thông tin mà chúng ta yêu cầu.

Sẽ rất hữu ích khi xem xét 3 câu hỏi sau:

 Những chi tiết nào sẽ hữu ích?

 Những chi tiết nào có sẵn?

 Bạn yêu cầu những chi tiết cụ thể nào?


5. Hãy nhớ xem xét các định danh

Thông tin nhận dạng hoặc chi tiết mô tả bối cảnh và nguồn của phản hồi khảo sát cũng
quan trọng như thông tin về chủ đề hoặc chương trình mà chúng ta đang thực sự nghiên
cứu.

Nói chung, việc thêm nhiều số nhận dạng hơn sẽ cho phép chúng tôi xác định chính xác
những thành công và thất bại của chương trình với độ chính xác cao hơn nhưng điều quan
trọng là sự kiểm duyệt.

6. Thu thập dữ liệu qua thiết bị di động là cách tốt nhất

Mặc dù việc thu thập dữ liệu trên giấy vẫn còn phổ biến nhưng công nghệ hiện đại phụ
thuộc rất nhiều vào thiết bị di động. Chúng cho phép chúng tôi thu thập nhiều loại dữ liệu
khác nhau với mức giá tương đối thấp hơn và chính xác cũng như nhanh chóng. Không có
nhiều lý do để không chọn thu thập dữ liệu dựa trên thiết bị di động với sự bùng nổ của các
thiết bị Android giá rẻ hiện nay.

Tấm vé cuối cùng để đảm nhận các vai trò công


việc về khoa học dữ liệu hàng đầu
Chương trình sau đại học về khoa học dữ liệuKHÁM PHÁ NGAY

Câu hỏi thường gặp

1. Ví dụ về thu thập dữ liệu là gì?

Thu thập dữ liệu là quá trình thu thập và phân tích thông tin về các biến liên quan theo một
cách có phương pháp, được xác định trước để người ta có thể trả lời các câu hỏi nghiên
cứu cụ thể, kiểm tra các giả thuyết và đánh giá kết quả. Việc thu thập dữ liệu có thể là định
tính hoặc định lượng. Ví dụ: Một công ty thu thập phản hồi của khách hàng thông qua khảo
sát trực tuyến và giám sát phương tiện truyền thông xã hội để cải thiện sản phẩm và dịch
vụ của họ.
2. Phương pháp thu thập dữ liệu sơ cấp là gì?

Như đã biết, việc thu thập dữ liệu sơ cấp rất tốn kém và tốn nhiều thời gian. Các kỹ thuật
chính để thu thập dữ liệu là quan sát, phỏng vấn, bảng câu hỏi, lịch trình và khảo sát.

3. Công cụ thu thập dữ liệu là gì?

Thuật ngữ "công cụ thu thập dữ liệu" dùng để chỉ các công cụ/thiết bị được sử dụng để thu
thập dữ liệu, chẳng hạn như bảng câu hỏi trên giấy hoặc hệ thống phỏng vấn có sự hỗ trợ
của máy tính. Các công cụ được sử dụng để thu thập dữ liệu bao gồm nghiên cứu trường
hợp, danh sách kiểm tra, phỏng vấn, quan sát đôi khi, khảo sát và bảng câu hỏi.

4. Sự khác biệt giữa phương pháp định lượng và định tính là gì?

Trong khi nghiên cứu định tính tập trung vào từ ngữ và ý nghĩa thì nghiên cứu định lượng
lại tập trung vào các số liệu và số liệu thống kê. Bạn có thể đo lường các biến số và kiểm
tra các giả thuyết một cách có hệ thống bằng các phương pháp định lượng. Bạn có thể
nghiên cứu sâu hơn về các ý tưởng và kinh nghiệm bằng cách sử dụng các phương pháp
định tính.

5. Phương pháp thu thập dữ liệu định lượng là gì?

Mặc dù có nhiều cách khác để có được thông tin định lượng, nhưng các phương pháp nêu
trên—lấy mẫu xác suất, phỏng vấn, quan sát bảng câu hỏi và xem xét tài liệu—là những
phương pháp điển hình nhất và thường xuyên được sử dụng, cho dù thu thập thông tin
ngoại tuyến hay trực tuyến.

6. Nghiên cứu theo các phương pháp hỗn hợp là gì?

Nghiên cứu người dùng bao gồm cả kỹ thuật định tính và định lượng được gọi là nghiên
cứu theo phương pháp hỗn hợp. Để có thông tin chi tiết hơn về người dùng, nghiên cứu
theo phương pháp hỗn hợp kết hợp dữ liệu người dùng sâu sắc với số liệu thống kê hữu
ích.

7. Lợi ích của việc thu thập dữ liệu là gì?


Việc thu thập dữ liệu mang lại một số lợi ích, bao gồm:

 Kiến thức và cái nhìn sâu sắc

 Ra quyết định dựa trên bằng chứng

 Xác định vấn đề và giải pháp

 Xác nhận và đánh giá

 Xác định xu hướng và dự đoán

 Hỗ trợ nghiên cứu và phát triển

 Chính sách phát triển

 Cải thiện chất lượng

 Cá nhân hóa và nhắm mục tiêu

 Chia sẻ kiến thức và hợp tác

8. Sự khác biệt giữa độ tin cậy và giá trị là gì?

Độ tin cậy là về tính nhất quán và ổn định, trong khi tính hợp lệ là về tính chính xác và phù
hợp. Độ tin cậy tập trung vào tính nhất quán của kết quả, trong khi độ chính xác tập trung
vào việc liệu kết quả có thực sự đo lường được những gì chúng dự định đo lường hay
không. Cả độ tin cậy và độ chính xác đều là những cân nhắc quan trọng trong nghiên cứu
nhằm đảm bảo độ tin cậy và ý nghĩa của dữ liệu và phép đo được thu thập.

You might also like