You are on page 1of 10

1.

Quá trình lấy Data ở trang Web có API

Website

Get link API

Database Tạo file .CSV Machine Learning

Quy trình thu thập dữ liệu


Bước 1: Truy cập trang web, sàn thương mại điện tử
Để Crawl dữ liệu của một trang Web trước tiên phải truy cập vào trang web mà mình
muốn thực hiện. Ở đây, nhóm sẽ thực hiện thu data về ngành điện tử ở trang Tiki,
Shopee và Thế giới di dộng. Bởi đây là 3 trong những trang web mà có lượng mua
hàng mỗi ngày là rất lớn.
Ví dụ: Nhóm sẽ tiến hành crawl data ở trang Shopee
- Đầu tiên sẽ truy cập vào trang web
- Ở mục danh mục sản phẩm, nhóm sẽ chọn 3 danh mục để thực hiện: điện thoại
và phụ kiện; thiết bị điện tử,máy ảnh và lap top; máy ảnh và máy quay phim

Bước 2: Thực hiện API trang web


Để API trang web cần phải lấy được link API mà mình muốn thực hiện
- Nhóm sẽ chọn danh mục điện thoại và phụ kiện và sẽ có được giao diện như
sau

- Tiếp đến ở trang này sẽ thực hiện lấy link API với mục đích là lấy được ID của
từng sản phẩm và ID của từng shop có chứa sản phẩm đó bằng cách nhấn chuột
phải và chọn “Kiểm tra”

+ Tiếp theo chọn “Network” ⇒ Chọn “Ftech/XHR” ⇒ Nhấn tổ hợp “Crtl


+R” ⇒ rê con chuột và chọn mục có link :
https://shopee.vn/api/v4/search/search_items?
by=relevancy&limit=60&match_id=11036030&newest=0&order=desc&page_
type=search&scenario=PAGE_OTHERS&version=2.

Như vậy ta chỉ cần copy và dán link đó vào là sẽ có được đầy đủ các id của các sản
phẩm và id của các shop có sản phẩm đó và các thông tin liên quan. Tuy nhiên, người
dùng sẽ không thể đọc và lấy được thông tin nếu đọc ngay tại trang web chính vì vậy
phải copy nội dung đó và lưu dưới dạng file .json và định dạng lại format thì có thể
xem và đọc một cách dễ dàng.
- Sau khi có link API có ID thì tiếp tục lấy link API chứa star và comment của
các sản phẩm đó. Bằng cách truy cập vào một trong những cửa hàng để tiến
hàng lấy API, chẳng hạn ở đây sẽ vào cửa hàng Apple.

Tương tự như việc lấy ID thì việc thực hiện lấy link API chứa star và comment
nó cũng được thực hiện như vậy.
+ Nhấn chuột phải và chọn “Kiểm tra”
+ Tiếp theo chọn “Network” ⇒ Chọn “Ftech/XHR” ⇒ Nhấn tổ hợp “Crtl
+R” ⇒ rê con chuột và chọn mục có link:
https://shopee.vn/api/v2/item/get_ratings?
filter=0&flag=1&itemid=8353766833&limit=6&offset=0&shopid=8820167
9&type=0

+ Copy link và dán vào phần research, vào lưu file dưới dạng .json để sau này
thực hiện việc lấy star cũng như comment.
Bước 3: Sử dụng python để xử lý dữ liệu
- Lấy ID sản phẩm và ID của shop dựa trên ngôn ngữ lập trình Python
Nhóm sẽ sử dụng Visual Studio Code để thực hiện việc viết code, dưới đây là code mà
nhóm đã viết để lấy ID của sản phẩm và cả ID của shop cũng như tên của sản phẩm
đó. Và lưu chúng dưới dạng file .txt để thuận tiện cho việc lấy star cũng như là
comment
- Lấy comment và star dựa trên ngôn ngữ lập trình python và lưu dưới dạng
file .csv
Bước 4: Tạo file .CSV chứa star và comment chính thức
File .csv sẽ gồm star và comment, nhưng vì do nhiều comment có nội dung mang
không mang tính nhận xét mà chỉ sử dụng các icon cũng như comment mang tính cho
có vì vậy cần phải loại bỏ những comment như vậy. Do đó, mà nhóm đã thực hiện
việc clear data bằng ngôn ngữ lập trình python và cho ra một file data.csv cuối cùng
để thực hiện việc train cho nó.
Bước 5: Sử dụng Colab để train data và đưa ra kết quả dự đoán so với thực tế

You might also like