Professional Documents
Culture Documents
SAU KHI HỌC 2 CÁI TRÊN XONG THÌ HỌC SAS cái này chuyên dành cho data của các công ty lớn
1. Python
Do tính linh hoạt của Python, các nhà khoa học dữ liệu có thể sử dụng Python cho hầu hết mọi vấn
đề liên quan đến các quy trình khoa học dữ liệu. Vậy nên, Python là một ngôn ngữ lập trình tối quan
trọng trong Khoa học dữ liệu.
2. R
R là một công cụ nguồn mở cho phép các nhà khoa học dữ liệu làm việc đa nền tảng cùng nhiều hệ
điều hành. Thống kê là thế mạnh cốt lõi của công nghệ này. R không chỉ đơn thuần là một ngôn ngữ
mà còn là toàn bộ hệ sinh thái để thực hiện các tính toán thống kê (statistical calculations). Nó giúp
thực hiện các hoạt động về xử lý dữ liệu, mô hình toán học, trực quan hóa dữ liệu với các chức
năng tích hợp.
Dữ liệu trong R
R hỗ trợ Excel, CSV, tệp văn bản, Minitab hoặc định dạng tệp SPSS, khai thác dữ liệu web với
Rvest và những định dạng tệp tương tự để thu thập Dữ liệu.
R được xây dựng nhằm thực hiện phân tích về thống kê và số cho các tập dữ liệu lớn, do đó, có rất
nhiều hoạt động có thể được thực hiện cho việc khám phá dữ liệu (data exploration) như là lọc data
(sort data), bảng hoán vị (transpose), tạo sơ đồ (plot), tạo bảng tần số (frequency tables), mẫu hóa
dữ liệu (sampling data), phân phối xác suất (probability distribution), hợp nhất dữ liệu (merge data),
chuyển đổi biến (variable conversion)… Hãy tìm hiểu dplyr, tidyr để thấy rõ hơn các chức năng này.
R là một môi trường mạnh mẽ, phù hợp với trực quan hóa khoa học (scientific visualization) cùng
nhiều gói (packages) chuyên để biểu thị đồ họa (graphical display) các kết quả về trực quan hóa dữ
liệu (data visualization). Thêm vào đó là có đồ họa cơ sở (base graphics), biểu đồ và sơ đồ với mô-
đun đồ họa (graphics module). Trực quan hóa cũng có thể được lưu ở các định dạng hình ảnh như
jpg., các tệp PDF riêng biệt. Gói ggplot2 là một cái tên tiêu biểu trong các công cụ trực quan hóa dữ
liệu của R, nó có thể cho ra các sơ đồ tiên tiến như sơ đồ phân tán (scatter plots) phức tạp với các
đường hồi quy (regression lines).
R vs Python
Sẽ luôn là một cuộc tranh luận không hồi kết về sự đối đầu giữa R và Python trong Khoa học dữ
liệu, nhưng chúng ta cần hiểu rằng cả hai đều có những ưu điểm và những nhược điểm riêng.
Hầu hết các lập trình viên đều nhận ra ngôn ngữ này là cứu cánh của ngôn ngữ kia. Người dùng R
thì đôi khi khao khát các tính năng hướng đối tượng được tích hợp vào Python. Tương tự, một số
người dùng Python mơ ước có một loạt các bản phân phối thống kê có sẵn trong R. Điều này ngụ ý
rằng hoàn toàn có thể kết hợp hai công nghệ hàng đầu này trong một dự án để có được một bộ
chức năng bổ sung độc nhất.
Giống như R, SAS là một công cụ được phát triển để phân tích dữ liệu cấp cao và các hoạt động
thống kê phức tạp. Nó là một công cụ nguồn đóng (closed-source) độc quyền, cung cấp nhiều khả
năng thống kê để thực hiện sự mô hình hóa phức tạp. SAS chủ yếu được sử dụng bởi các tổ chức
quy mô lớn và chuyên gia nhờ độ tin cậy cao.
https://topdev.vn/blog/hoc-ngon-ngu-gi-cho-data-science/
https://intech.vietnamworks.com/article/09-ngon-ngu-lap-trinh-danh-cho-data-science
https://codelearn.io/learning/python-co-ban
https://www.w3schools.com/python/exercise.asp?filename=exercise_syntax1
https://www.programiz.com/python-programming?source=laptrinhkhongkho