You are on page 1of 2

[Kinh Nghiệm] #Advice

Bài biết là một chia sẻ khá hay về con đường trở thành 1 data scientist từ 1
data analyst. Lưu ý: bài viết đề cập đến vấn đề technical
1/ Bắt đầu từ việc bạn quá chán nản vì thời gian xử lý quá lâu data từ Excel,
NÊN bạn học thử SQL để xử lý data hiệu quả hơn.
2/ SQL rất tốt cho truy vấn NHƯNG nó không đáp ứng được các nhu cầu
report và visualization, NÊN bạn học Python hoặc R vì nghe nói nó khá tốt
cho việc Data Explanatory Analysis, từ đây bạn tạo ra được các Notebooks
có thể làm report trong team Data nói chung
3/ Python/R đáp ứng nhu cầu report, xử lý data tốt là thế NHƯNG nó lại
kém trong việc xử lý dữ liệu cực lớn, đầu vào liên tục (streaming data), thử
xử lý một dataframe hơn chục GB trong Pandas trên local machine thử sẽ
biết khốn khổ tới chừng nào, NÊN bạn bắt đầu quan tâm đến việc xử lý data
song song trên các cụm máy chủ (cluster) qua các framework như Hadoop,
Spark... Tới đây bạn sẽ học cách sử dụng các API của Spark hỗ trợ cho
Python và R (thư viện Spark MLlib), tuy nhiên, có thể bạn không muốn
dừng tại đó mà sẽ tìm hiểu về Scala - 1 ngôn ngữ tuyệt vời để xử lý Big
Data.
4/ Spark đáp ứng khá tốt cho Big Data đấy NHƯNG rồi làm sao triển khai
(deploy) nó lên cluster hoặc cloud của công ty bạn 1 cách hiệu quả (tốn ít
thời gian mà mọi người lại có thể tương tác source code với nhau)? NÊN
bạn lại học thêm Docker để đóng gói (packaging) Spark jobs của bạn rồi
chạy nó thành các containers, quá tiện lợi đúng không nào? không cần cài
đặt libraries rối rắm cho mỗi lần update application, chỉ cần quăng Docker
image lên rồi chạy thôi
5/Docker đáp ứng việc deploy apps nhanh và quá tốt NHƯNG bạn có tính
đến việc làm sao để quản lý hàng nghìn - chục nghìn Docker containers
(Spark jobs của bạn ý) không? NÊN, à mà nếu bạn đã đến bước này là bạn
cũng đã hao mòn tuổi xuân rồi, như mình là già còn hơn trái cà, tóc bạc
trắng xóa. Nhưng còn vì phải ăn cơm và dành tiền cưới vợ nên bạn phải
cắn răng miễn cưỡng học thêm Kubernetes/Mesosphere ... là các platform
hỗ trợ quản lý các containers. Ngoài ra thằng sếp thấy bạn có vẻ chịu cày
cuốc nên giao cho bạn luôn mấy task về CI/CD của DevOps luôn, thế là bất
đắt dĩ phải biết luôn GitOps, Jenkins, Puppet các kiểu ...
6/ À không có bước 6 đâu, mình đang kẹt ở bước 5 và chẳng biết chừng
nào mới thoát khỏi =)))
Như các bạn thấy, suốt quá trình làm nghề là giải quyết một loạt các vấn đề
"NHƯNG" bằng các hành động "NÊN". Bạn đang ở bước mấy? Hãy chia sẻ
câu chuyện của bạn cho mọi người nhé.
Và đây tạm gọi là quá trình làm việc của mình từ 1 Data Analyst thành 1 AI
Engineer (đôi lúc là Data Engineer). WTF*** ! Bạn sẽ tự hỏi:"Mình đang đọc
cái quái gì vậy, tưởng chia sẻ kinh nghiệm thành Data Scientist chứ?". Đáp:
Trap đấy, thằng ad nó muốn viết gì thì nó viết, tại post của nó mà .
Anyway, link chia sẻ mình có khá hay, các bạn tham khảo nhé!

You might also like