Data Science

I.
AI
1. Khái niệm
Trí tuệ nhân tạo ( Artificial Intelligence – viết tắt là AI) là một ngành
thuộc lĩnh vực khoa học máy tính (Computer science). Là trí tuệ do
con người lập trình tạo nên với mục tiêu giúp máy tính có thể tự động
hoá các hành vi thông minh như con người. Cụ thể, trí tuệ nhân tạo
giúp máy tính có được những trí tuệ của con người như: khả năng
suy nghĩ, hiểu ngôn ngữ, học tập,…
2. Phân loại
Các nhà khoa học đã nghiên cứu công nghệ này thành 4 loại, dựa
trên loại và độ phức tạp của các tác vụ mà một hệ thống có thể thực
hiện.
a. Công nghệ AI – Phản ứng
Đây là trí tuệ nhân tạo AI có khả năng phân tích nhiều động thái
khả thi của mình và đối thủ một cách tối ưu. Ví dụ như chương
trình chơi cờ vua Deep Blue được ứng dụng công nghệ AI
phản ứng bởi IBM (tìm hiểu thêm). Nhờ đó, chương trình này
có thể dự đoán những bước đi tiếp theo của đối thủ và tự đưa
ra nhưng bước đi phù hợp một cách chính xác.
Nó chỉ có khả năng sử dụng trí thông minh của nó để nhận
thức và phản ứng với thế giới trước mặt nó. Máy phản ứng
không thể lưu trữ bộ nhớ và do đó, không thể dựa vào những
kinh nghiệm trong quá khứ để đưa ra quyết định trong thời gian
thực.
b. Công nghệ AI – Bộ nhớ hạn chế

Bộ nhớ hạn chế công nghệ AI mang tới hiệu quả sử dụng vượt
trội, nhờ vào tính lưu trữ những kinh nghiệm trong quá khứ để
đưa ra quyết định chính xác trong tương lai. Công nghệ AI
thường kết hợp với nhiều cảm biến môi trường nhằm dự đoán
những trường hợp có thể xảy ra và đưa ra quyết định tốt nhất
khi vận hành.
c. Công nghệ AI – Lý thuyết trí tuệ nhân tạo
Công nghệ AI học hỏi, tự suy nghĩ sau đó vận dụng những gì
đã được học để đưa ra quyết định. Khái niệm này dựa trên tiền
đề tâm lý của việc hiểu rằng các sinh vật sống khác có suy nghĩ
và cảm xúc ảnh hưởng đến hành vi của bản thân. Về máy AI,
điều này có nghĩa là AI có thể hiểu cách con người, động vật và
các máy móc khác cảm thấy và đưa ra quyết định thông qua sự
tự phản ánh và quyết tâm, sau đó sẽ sử dụng thông tin đó để
đưa ra quyết định của riêng nó. Về cơ bản, máy móc sẽ phải có
khả năng nắm bắt và xử lý khái niệm “tâm trí”, những dao động
của cảm xúc trong quá trình ra quyết định và một loạt các khái
niệm tâm lý khác trong thời gian thực, tạo ra mối quan hệ hai
chiều giữa con người và AI.
d. Công nghệ AI - Tự nhận thức
Một khi lý thuyết về tâm trí có thể được thiết lập, bước cuối
cùng sẽ là để AI trở nên tự nhận thức. Loại AI này sở hữu ý
thức cấp độ con người và hiểu được sự tồn tại của chính nó
trên thế giới, cũng như sự hiện diện và trạng thái cảm xúc của
người khác. Nó sẽ có thể hiểu những gì người khác có thể cần
dựa trên không chỉ những gì họ truyền đạt cho họ mà còn bằng
cách họ truyền đạt nó.
Tự nhận thức trong AI dựa vào cả việc các nhà nghiên cứu con
người hiểu được tiền đề của ý thức và sau đó học cách tái tạo
để có thể xây dựng nó thành máy móc.
Cách phân loại khác dựa trên khả năng của chúng:
- Weak AI: hay Narrow AI, loại AI này hoạt động một cách hạn chế
và là mô phỏng trí thông minh của con người. Weak AI thường tập
trung vào việc thực hiện một tác vụ cực kỳ tốt và trong khi những
cỗ máy này có vẻ thông minh, chúng đang hoạt động dưới nhiều
ràng buộc và hạn chế hơn nhiều so với trí thông minh cơ bản nhất
của con người.
- Trí tuệ nhân tạo tổng hợp (AGI): hay còn gọi là “Strong AI”. AGI là
một cỗ máy có trí thông minh tổng quát và ngang bằng với một
con người, nó có thể áp dụng trí thông minh đó để giải quyết mọi
vấn đề.
- Trí tuệ siêu việt (ASI) : AI siêu thông minh sẽ không chỉ có thể tái
tạo cảm xúc và trí thông minh phức tạp của con người mà còn
vượt qua nó trên mọi phương diện. Điều này có nghĩa là tự mình
đưa ra các phán đoán và quyết định, hoặc thậm chí hình thành hệ
tư tưởng của riêng mình.
AI được tích hợp vào nhiều công nghệ khác nhau:
- Xử lý ngôn ngữ
- Thị giác máy
- Machine learning
- Tự động hoá
- Xe tự lái
- Robotics
3. Công việc
- Nghiên cứu và phát triển các nguyên mẫu khoa học dữ liệu.
- Thực hiện các thuật toán học máy và các công cụ AI.
- Xây dựng mô hình AI
- Chọn bộ dữ liệu thích hợp và phương pháp biểu diễn dữ liệu.
- Đào tạo hệ thống máy tính và phát triển khi cần thiết
- Xây dựng cơ sở hạ tầng chuyển đổi dữ liệu và tự động hoá cơ sở
hạ tầng mà nhóm dữ liệu sử dụng thường xuyên.
- Chuyển đổi các mô hình học máy thành giao diện chương trình
ứng dụng để các ứng dụng có thể triển khai API.
4. Yêu cầu
- Lập trình thành thạo nhiều ngôn ngữ lập trình trong đó Python và
R là 2 ngôn ngữ quan trọng. Ngoài ra cũng cần phải hiểu biết về
cấu trúc dữ liệu và giải các thuật toán cơ bản bên cạnh kiến thức
về lập trình.
- Kỹ năng toán học: tính toán các thuật toán và xác suất thống kê..
- Khả năng quản lý dữ liệu
- Kiến thức về thuật toán
- Kỹ năng tư duy
II. Data Science

1. Khái niệm
Khoa học dữ liệu là quá trình sử dụng các công cụ và kỹ thuật để
rút ra thông tin hữu ích từ khối lượng dữ liệu lớn.
2. Quy trình
- Thu thập dữ liệu có cấu trúc và phi cấu trúc từ nhiều nguồn khác
nhau: dữ liệu trung tâm, dữ liệu công cộng,…
- Xử lý và chuyển đổi nó thành định dạng phù hợp để phân tích.
Việc này bao gồm làm sạch và xác nhận dữ liệu để đảm bảo tính
đồng nhất, đầy đủ và chính xác. Một số ví dụ về làm sạch dữ liệu:
+ Thay đổi toàn bộ giá trị ngày thành một định dạng tiêu chuẩn
phổ biến
+ Sửa lỗi chính tả
+ Sửa lỗi tính toán không chính xác
- Khám khá dữ liệu: phân tích sơ bộ dữ liệu được sử dụng để lập
kế hoạch kỹ hơn cho các chiến lược mô hình hoá dữ liệu.
- Mô hình hoá dữ liệu, nó được đưa vào hệ thống phân tích thuật
toán ML (machine learning) hoặc mô hình thống kê để thu thập
thông tin chuyên sâu hơn, dữ đoán kết quả và kết xuất hướng
hành động tốt nhất. Các kỹ thuật học máy như liên kết, phân loại
và phân nhóm được áp dụng cho tập dữ liệu đào tạo. Mô hình có
thể được thử nghiệm so với dữ liệu thử nghiệm định trước để
đánh giá độ chính xác của kết quả. Mô hình dữ liệu có thể được
tinh chỉnh nhiều lần để cải thiện kết quả thu được.
- Khi dữ liệu hiển thị hoàn toàn, chuyển đổi thông tin chi tiết về dữ
liệu thành hành động, tạo ra sơ đồ, đồ thị và biểu đồ thể hiện
những xu hướng và dự đoán.
3. Một số khái niệm kỹ thuật
- Machine learning
Học máy như là xương sống của khoa học dữ liệu. Để nghiên cứu
khoa học dữ liệu ngoài kiến thức cơ bản về thống kê cần nắm
chắc ML.
- Modeling
Mô hình toán học cho phép thực hiện các tính toán và dự đoán
nhanh dựa trên những gì đã biết về sự liệu. Mô hình hoá cũng là
một phần của học máy và liên quan đến việc xác định thuật toán
nào là phù hợp nhất để giải quyết một vấn đề nhất định và cách
đạo tạo các mô hình này.
- Statistics
Thống kê là cốt lõi của khoa học dữ liệu. Hiểu rõ về số liệu thống
kê giúp trích xuất nhiều dữ liệu thông minh và ý nghĩa hơn.
- Programming
Các ngôn ngữ lập trình phổ biến nhất là Python và R. Python đặc
biệt phổ biến vì nó dễ học và hỗ trợ nhiều thư viện cho khoa học
dữ liệu và ML.
- Databases
Cần hiểu được cách thức hoạt động của cơ sở dữ liệu, cách quản
lý và trích xuất dữ liệu từ nó.
4. Yêu cầu
- Kiến ghức toán học: Machine learning là sự kết hợp của các mô
hình toán học chạy bên dưới. Khi xử lý dữ liệu cần kiến thức về
xác suất thống kê.
- Một số thứ cần thiết:
+ Đại số tuyến tính, xác suất thống kê
+ Đạo hàm tích phân
+ Machine learning
+ Data mining
+ Database: SQL, no SQL
+ Ngôn ngữ lập trình: C/C++ và Java, sau đó tập trung vào Python
(có thể cả R)
+ Làm quen với JavaScript, để viết được web đơn giản, vẽ được
đồ thị, biểu đồ.
+ Tìm hiểu thêm về System cụ thể: Linux, Bash, OS.
5. Những công nghệ khoa học dữ liệu
- Trí tuệ nhân tạo: Các mô hình máy học và phần mềm liên quan
được sử dụng để phân tích dự đoán và phân tích đề xuất.
- Điện toán đám mây: Công nghệ đám mây đã trao cho các nhà
khoa học dữ liệu sự linh hoạt và sức mạnh xử lý cần thiết để phân
tích dữ liệu nâng cao.
- Internet vạn vật: IoT đề cập đến hàng loạt các thiết bị có thể tự
động kết nối với Internet. Những thiết bị này thu thập dữ liệu cho
các sáng kiến khoa học dữ liệu. Chúng tạo ra khối lượng dữ liệu
đồ sộ có thể được sử dụng để khai thác dữ liệu và trích xuất dữ
liệu.
- Máy tính lượng tử: Máy tính lượng tử có thể thực hiện các phép
tính phức tạp ở tốc độ cao. Các nhà khoa học dữ liệu trình độ cao
sử dụng chúng để xây dựng các thuật toán định lượng phức tạp.
6. Công cụ
Các ngôn ngữ lập trình giúp tiến hành phân tích dữ liệu thăm dò và
hồi quy thống kê. Các công cụ nguồn mở hỗ trợ mô hình thống kê
được xây dựng sẵn, ML và đồ hoạ. Ví dụ:
- R Studio: một mã nguồn mở và là môi trừng để phát triển điện
toán và đồ hoạ.
- Python: Một ngôn ngữ lập trình linh hoạt gồm rất nhiều thư viện
như: NumPy, Pandas, Matplotlib giúp phân tích dữ liệu nhanh
chóng.
- Để chia sẻ mã và thông tin, các công cụ thường dùng là GitHub và
Jupyter.
Một số công cụ để phân tích thống kê:
- SAS: Một công cụ toàn diện, bao gồm trực quan hoá và bảng điều
khiển tương tác, để phân tích, báo có, khai thác dữ liệu và mô
hình dự đoán.
- IBM SPSS: Cung cấp phân tích thống kê nâng cao, một thư viện
lớn các thuật học máy, phân tích văn bản, mở rộng nguồn mở,
tích hợp với dữ liệu lớn.
Các nền tảng xử lý dữ liệu lớn: Apache Spark, Apache Hadoop,
NoQuery
7. Nơi học
Datasciencemasters.org : cac bước và khoá học data science từ
cơ bản đến nâng cao
Khóa học về machine learning của Andrew Ng, Stanford .
Kaggle.com
III. Machine learning và Deep learning

1. Machine Learning
Machine Learning, viết tắt là ML. Thuật toán học máy là các
chương trình máy tính có khả năng học hỏi và hoàn thành nhiệm
vụ, đồng thời là cách để cải thiện hiệu suất theo thời gian hiệu
quả.
Học máy là công nghệ được phát triển từ trí tuệ nhân tạo.
Thuật toán học máy có 2 loại chính: học có giám sát và không
giám sát.
- Học có giám sát (Supervised Learning)
Phương pháp sử dụng những dữ liệu được gán nhãn sắn để suy
luận ra quan hệ giữa input và output. Sau khi tìm hiểu sách tốt
nhất để mô hình hoá các mối quan hệ cho dữ liệu được gán nhãn,
thuật toán huấn luyện sẽ được sử dụng cho các bộ dữ liệu mới.
Ứng dụng của học có giám sát là giúp xác định tín hiệu tốt nhất để
dự báo xu hướng, lợi nhuận trong tương lai.
- Học không giám sát (Unsupervised Learning)
Sử dụng những dữ liệu chưa được gán nhãn sẵn để suy luận và
tìm cách để mô tả dữ liệu cùng cấu trúc của nó. Ứng dụng của
học không giám sát là hỗ trợ phân loại thành các nhóm có đặc
điểm tương đồng.
2. Deep learning
Học sâu là một lĩnh vực con của học máy liên quan đến các
thuật toán lấy cảm hứng từ cấu trúc và chức năng của não
được gọi là mạng thần kinh nhân tạo (artificial neutral network)
Học sâu hiện đại tập trung đào tạo các mô hình mạng thần kinh
bằng cách sử dụng thuật toán lan truyền ngược. Các công
nghệ phổ biến như:
o Mạng Perceptron nhiều lớp
o Mạng Nơ-ron
o Mạng thần kinh tái tạo bộ nhớ ngắn hạn và dài hạn.
 Cách Deep learning hoạt động:
Mỗi thuật toán trong hệ thống phân cấp áp dụng một phép biến
đổi phi tuyến tính cho đầu vào của nó và sử dụng những gì nó học
được để tạo ra một mô hình thống kê làm đầu ra. Lặp lại tiếp tục
cho đến khi kết quả đạt được mức độ chính xác.
 Hạn chế:
o Deep learning đòi hỏi một lượng lớn dữ liệu.
o Sau khi được đào tạo, các mô hình deep learning sẽ trở nên
không linh hoạt và không thể xử lý đa nhiệm.
Deep learning và machine learning khác nhau ở thuật toán. Deep learning
tự động hoá phần lớn phần trích xuất tính năng của quy trình, loại bỏ một
số can thiệp thủ công của con người cần thiết và cho phép sử dụng các
tập dữ liệu lớn hơn. Có thể coi deep learning như là “scalable machine
learning”. Machine learning phụ thuộc nhiều hơn vào sự can thiệp của con
người.
Do đó, các thuật toán học sâu mất nhiều thời gian để đào tạo hơn so với
các thuật toán học máy. Tuy nhiên, điều ngược lại là nó đúng trong quá
trình thử nghiệm. Các thuật toán học sâu mất ít thời gian hơn để chạy các
bài kiểm tra so với các thuật toán học máy, có thời gian kiểm tra tăng lên
cùng với kích thước của dữ liệu. Hơn nữa, học máy không yêu cầu những
máy GPU hiệu suất cao như học sâu.
IV. Data mining

 Khai phá dữ liệu là quá trình phân loại, sắp xếp các tập hợp dữ liệu
lớn để xác định các mẫu và thiết lập các mối liên hệ nhằm giải quyết
các vấn đề nhờ phân tích dữ liệu.
 Các bước khi data mining:
- Làm sạch dữ liệu
- Tích hợp dữ liệu
- Lựa chọn dữ liệu
- Chuyển đổi dữ liệu
- Khai phá dữ liệu: trích xuất dữ liệu hữu ích từ nhóm dữ liệu hiện
có
- Đánh giá mẫu
- Trình bày thông tin
 Một số công cụ khai phá dữ liệu: RapidMiner, Weke, Knime, Apache
Mahout, Oracle DataMining, TeraData, …
 Một số khái niệm
- Data Models (mô hình dữ liệu)
- ETL
- Data Visualization(trực quan hoá dữ liệu)
IV. Natural language processing (NLP)

 NLP là một nhánh của ngôn ngữ học, khoa học máy tính, trí tuệ nhân
tạo liên quan đến sự tương tác giữa máy tính và ngôn ngữ tự nhiên
của con người.
 NLP được chia thành 2 lĩnh vực: Ngôn ngữ học và Khoa học máy
tính
- Ngôn ngữ học tập trung vào viẹc hiểu được cấu trúc của ngôn
ngữ
- Khoa học máy tính chuyển đổi các kiến thức về ngôn ngữ học
thành chương trình máy tính cùng với AI.
 NLP có thể được chia thành: Mô hình hệ thống dựa trên quy tắc
(rule-based), mô hình máy học cổ điển và deep learning.
- Mô hình hệ thống dựa trên quy tắc: định ra một số quy tắc dựa
trên sự hiểu biết nhất định. (Do sự phát triển của ngôn ngữ, hệ
thống này còn cứng nhắc)
- Mô hình máy học cổ điẻn giải nhiều bài toán thách thức hơn (VD:
phát hiện spam,..)
- Mô hình deep learning: có tính khái quát hoá( khả năng tương
thích với các dữ liệu mới) tốt hơn máy học cổ điển. Khả năng học
hỏi lớn, giải quyết được các bài toán NLP phức tạp một cách triệt
để.
Nguồn:
https://www.jaist.ac.jp/~bao/Writings/AI25years.pdf
 https://trituenhantao.io/
 https://vinbigdata.com/xu-ly-ngon-ngu-tu-nhien-bai-toan-cong-cu-ban-
nen-biet/
 http://viet.jnlp.org/home
 https://inda.vn/dwh/27-thuat-ngu-quan-trong-ve-kho-du-lieu-nen-biet/
 https://builtin.com/artificial-intelligence
 https://www.ibm.com/cloud/learn/what-is-artificial-intelligence

Data Science

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Data Science

Uploaded by

Copyright:

Available Formats

I.

b. Công nghệ AI – Bộ nhớ hạn chế

II. Data Science

III. Machine learning và Deep learning

IV. Data mining

IV. Natural language processing (NLP)

You might also like