You are on page 1of 4

Ngôn ngư lập trình

Python học trước

R bổ trợ cho python

SAU KHI HỌC 2 CÁI TRÊN XONG THÌ HỌC SAS cái này chuyên dành cho data của các công ty lớn

Sas ( statical analystical system)

1. Python

Do tính linh hoạt của Python, các nhà khoa học dữ liệu có thể sử dụng Python cho hầu hết mọi vấn
đề liên quan đến các quy trình khoa học dữ liệu. Vậy nên, Python là một ngôn ngữ lập trình tối quan
trọng trong Khoa học dữ liệu.

Ưu điểm của Python?


Bản chất hướng đối tượng (object-oriented) của Python tạo điều kiện cho các nhà khoa học dữ liệu
thực hiện các tác vụ với tính ổn định, mô đun hóa (modularity) và khả năng đọc mã (code
readability) tốt hơn. Mặc dù Khoa học dữ liệu chỉ là một phần nhỏ trong hệ sinh thái Python đa dạng,
Python có nhiều thư viện chuyên sâu của Deep Learning và Machine Learning, bên cạnh đó cũng
có các công cụ phổ biến như Scikit-learn, Keras và TensorFlow. Không còn nghi ngờ gì nữa, Python
cho phép các nhà khoa học dữ liệu phát triển những mô hình dữ liệu phức tạp mà có thể được kết
nối trực tiếp vào hệ thống sản xuất.
Theo kết quả khảo sát của các lập trình viên Python (Python developers), 84% số người được hỏi
đã sử dụng Python làm ngôn ngữ chính của họ, trong khi 16% còn lại sử dụng Python như ngôn
ngữ thứ chính.

Dữ liệu trong Python


Để thu thập dữ liệu (data collection), Python hỗ trợ tuyệt vời các bảng (table) CSV, JSON, SQL và
khai thác dữ liệu web (web scraping).
Thư viện phân tích dữ liệu (data analysis) cho Python - Pandas - dĩ nhiên là thứ tốt nhất cho việc
khám phá dữ liệu (data exploration). Được tổ chức thành các khung dữ liệu (data frames), Pandas
có thể lọc, sắp xếp và hiển thị dữ liệu một cách dễ dàng.
Đối với mô hình hóa dữ liệu (data modeling):
1. NumPy - phân tích mô hình số (numerical modeling analysis)
2. SciPy - tính toán và tính toán khoa học (scientific computing)
3. scikit-learn - truy cập nhiều thuật toán machine learning mạnh mẽ. Nó cũng cung cấp một giao
diện trực quan (intuitive interface) cho phép các nhà khoa học dữ liệu khai thác tất cả sức mạnh của
machine learning mà không gặp nhiều khó khăn.
Để trực quan hóa dữ liệu (data visualization), matplotlib, plot.ly, nbconvert được dùng để chuyển đổi
các tệp Python thành các tài liệu HTML nhằm làm rõ các biểu đồ và bảng điều khiển (dashboards),
như thế vừa làm nổi bật tầm ảnh hưởng của các kết quả nghiên cứu vừa đảm bảo tính thẩm mỹ
trong trình bày.

2. R

R là một công cụ nguồn mở cho phép các nhà khoa học dữ liệu làm việc đa nền tảng cùng nhiều hệ
điều hành. Thống kê là thế mạnh cốt lõi của công nghệ này. R không chỉ đơn thuần là một ngôn ngữ
mà còn là toàn bộ hệ sinh thái để thực hiện các tính toán thống kê (statistical calculations). Nó giúp
thực hiện các hoạt động về xử lý dữ liệu, mô hình toán học, trực quan hóa dữ liệu với các chức
năng tích hợp.

Dữ liệu trong R
R hỗ trợ Excel, CSV, tệp văn bản, Minitab hoặc định dạng tệp SPSS, khai thác dữ liệu web với
Rvest và những định dạng tệp tương tự để thu thập Dữ liệu.
R được xây dựng nhằm thực hiện phân tích về thống kê và số cho các tập dữ liệu lớn, do đó, có rất
nhiều hoạt động có thể được thực hiện cho việc khám phá dữ liệu (data exploration) như là lọc data
(sort data), bảng hoán vị (transpose), tạo sơ đồ (plot), tạo bảng tần số (frequency tables), mẫu hóa
dữ liệu (sampling data), phân phối xác suất (probability distribution), hợp nhất dữ liệu (merge data),
chuyển đổi biến (variable conversion)… Hãy tìm hiểu dplyr, tidyr để thấy rõ hơn các chức năng này.
R là một môi trường mạnh mẽ, phù hợp với trực quan hóa khoa học (scientific visualization) cùng
nhiều gói (packages) chuyên để biểu thị đồ họa (graphical display) các kết quả về trực quan hóa dữ
liệu (data visualization). Thêm vào đó là có đồ họa cơ sở (base graphics), biểu đồ và sơ đồ với mô-
đun đồ họa (graphics module). Trực quan hóa cũng có thể được lưu ở các định dạng hình ảnh như
jpg., các tệp PDF riêng biệt. Gói ggplot2 là một cái tên tiêu biểu trong các công cụ trực quan hóa dữ
liệu của R, nó có thể cho ra các sơ đồ tiên tiến như sơ đồ phân tán (scatter plots) phức tạp với các
đường hồi quy (regression lines).

R vs Python
Sẽ luôn là một cuộc tranh luận không hồi kết về sự đối đầu giữa R và Python trong Khoa học dữ
liệu, nhưng chúng ta cần hiểu rằng cả hai đều có những ưu điểm và những nhược điểm riêng.
Hầu hết các lập trình viên đều nhận ra ngôn ngữ này là cứu cánh của ngôn ngữ kia. Người dùng R
thì đôi khi khao khát các tính năng hướng đối tượng được tích hợp vào Python. Tương tự, một số
người dùng Python mơ ước có một loạt các bản phân phối thống kê có sẵn trong R. Điều này ngụ ý
rằng hoàn toàn có thể kết hợp hai công nghệ hàng đầu này trong một dự án để có được một bộ
chức năng bổ sung độc nhất.

4. SAS - Hệ thống phân tích thống kê (Statistical


Analytical System)

Giống như R, SAS là một công cụ được phát triển để phân tích dữ liệu cấp cao và các hoạt động
thống kê phức tạp. Nó là một công cụ nguồn đóng (closed-source) độc quyền, cung cấp nhiều khả
năng thống kê để thực hiện sự mô hình hóa phức tạp. SAS chủ yếu được sử dụng bởi các tổ chức
quy mô lớn và chuyên gia nhờ độ tin cậy cao.

Ưu điểm của SAS?


Xin lưu ý, SAS không phải là một công cụ phù hợp nhất cho người mới bắt đầu và những người say
mê khoa học dữ liệu độc lập, bởi vì SAS được thiết kế riêng để đáp ứng nhu cầu kinh doanh cao
cấp. Tuy nhiên, nếu bạn đang hướng sự nghiệp của mình về khoa học dữ liệu, thì đó là cách tốt để
có kiến thức vận hành về SAS nhằm trang bị cho mình một hồ sơ xán lạn.
Sử dụng SAS là rất tốt trong việc thực hiện mô hình thống kê (statistical modeling) thông qua SAS
Base - ngôn ngữ lập trình chính chạy môi trường SAS.

Nhược điểm của SAS?


Mặc dù có một sự thật là SAS đang dẫn đầu thị trường trong lĩnh vực phân tích doanh nghiệp,
nhưng khi so sánh khả năng của nó với Python hoặc R, thì SAS có vẻ khó mô hình hóa và trực
quan hóa dữ liệu. Đường cong học tập rắc rối và chủ yếu được sử dụng bởi các tập đoàn lớn với
ngân sách khổng lồ.

https://topdev.vn/blog/hoc-ngon-ngu-gi-cho-data-science/
https://intech.vietnamworks.com/article/09-ngon-ngu-lap-trinh-danh-cho-data-science

Nguồn học python chính

https://codelearn.io/learning/python-co-ban

https://www.w3schools.com/python/exercise.asp?filename=exercise_syntax1

https://www.programiz.com/python-programming?source=laptrinhkhongkho

You might also like