Professional Documents
Culture Documents
REQUESTS
NHÓM 5
NHÓM 5
Giảng viên hướng dẫn:
Nguyễn Kim Tuấn Tìm hiểu nội dung, làm demo, word
01 02 03 04
01 02 03 04 05
• HTTP là một giao thức chung, không trạng thái, cho phép yêu cầu về kiểu
dữ liệu và biểu diễn, để cho phép các hệ thống được xây dựng độc lập với
dữ liệu được truyền.
BROWSER
Bất cứ khi nào bạn cấp một URL từ trình duyệt của mình để lấy tài
nguyên web bằng HTTP, trình duyệt biến URL thành một yêu cầu và
gửi nó đến máy chủ HTTP. Máy chủ HTTP diễn giải request message
và trả về một response message thích hợp, là tài nguyên bạn yêu cầu
hoặc một thông báo lỗi.
UNIFORM RESOURSE
•
LOCATOR
URL được sử dụng để xác định duy nhất một tài nguyên trên web.
URL có cú pháp như sau: Protocol://hostname:port / path-and-file-
name
• Có 4 phần trong một URL: giao thức, tên máy chủ, cổng, tên
đường dẫn và tệp tin.
HTTP Protocol
- Bất cứ khi nào nhập URL và hộp địa chỉ của trình duyệt, trình duyệt sẽ dịch URL thành một
request message theo giao thức được chỉ định và gửi đến máy chủ.
- Khi request message đến máy chủ có thể thực hiện một trong các hành động sau:
1. Máy chủ diễn giải yêu cầu nhận được, ánh xạ yêu cầu thành một tệp trong thư mục tài liệu
của máy chủ và trả lại tệp được yêu cầu cho máy khách.
2. Máy chủ thông dịch yêu cầu đã nhận, ánh xạ yêu cầu thành một chương trình được lưu trong
máy chủ, thực thi chương trình và trả kết quả đầu ra của chương trình cho khách hàng.
3. Yêu cầu không được đáp ứng, máy chủ trả về thông báo lỗi.
HTTP qua TCP/IP
• HTTP là một giao thức tầng ứng dụng client-
server. Nó thường chạy qua kết nối TCP/IP.
HTTP Response
Message
HTTP Request Message
01
Request Line
45K
02
Request Headers
Request Line
request-method-name request-URI
HTTP-version
Request Headers
request-header-name: request-header-value1, request-
header-value2, ...
Ví dụ minh họa cho HTTP Request Message
HTTP Response Message
01
Status Line
02
45K
Response Headers
Status Line
HTTP-version status-code reason-phrase
Response Headers
response-header-name: response-header-value1,
response-header-value2, ...
Ví dụ minh họa cho HTTP Response Message
03
Phương thức
HTTP Request
Phương thức HTTP Request
• Giao thức HTTP xác định một tập hợp các phương thức request. Máy
khách có thể sử dụng mộ trong các phương thức này để gửi request
message đến máy chủ HTTP.
• Các phương thức là: GET, HEAD, POST, PUT, DELETE, TRACE,
CONNECT.
04
Mã trạng thái
phản hồi
Mã trạng thái phản hồi
Dòng đầu tiên của Response Message chứa mã trạng thái phản hồi, được tạo
bởi máy chủ để cho biết kết quả của yêu cầu. Mã trạng thái là một bộ có 3 chữ
số:
Kết luận
HTTP là một giao thức sử dụng siêu văn bản được truyền qua web.
Do tính đơn giản của nó, HTTP là giao được sử dụng rộng rãi nhất để
truyền dữ liệu qua web, nhưng những dữ liệu được trao đổi bằng HTTP
không an toàn như mong muốn. Trên thực tế, siêu văn bản được trao đổi
bằng cách sử dụng HTTP là bản rõ.
HTTP
REQUESTS
01 02 03
TỔNG
QUAN WEB DEMO
VỀ SCRAPIN THỰC
HTTP G VỚI NGHIỆ
GIAO PYTHON M
THỨC
HTTP
REQUESTS
01 02 03
TỔNG
QUAN WEB DEMO
VỀ SCRAPIN THỰC
HTTP G VỚI NGHIỆ
GIAO PYTHON M
THỨC
WEB SCRAPING VỚI PYTHON
01 02 03
• Được thực hiện bằng cách viết 1 chương trình tự động truy vấn máy chủ
web, yêu cầu dữ liệu, sau đó phân tích cú pháp dữ liệu đó để trích xuất
thông tin cần thiết.
• Web Scraping bao gồm nhiều kỹ thuật và công nghệ lập trình.
02
Sử dụng API
Khái niệm API
• Điều duy nhất làm cho API trở thành một API là cú pháp được quản lý chặt chẽ
mà nó sử dụng và thực tế là các API trình bày dữ liệu của chúng dưới dạng
JSON hoặc XML, thay vì HTML.
Các quy ước chung
• GET sử dụng khi truy cập một trang web thông qua
thanh địa chỉ trong trình duyệt.
• POST sử dụng khi điền vào biểu mẫu hoặc gửi thông
tin.
• Đối với người dùng truy nhập web nói chung, khi thực hiện tốt
quá trình thu thập dữ liệu từ website sẽ giúp người dùng dễ
Kết luận dàng tìm được những bài viết, trang web có nội dung phù hợp
với keyword của mình.
• Đối với các doanh nghiệp, thông qua các phương pháp thu
thập dữ liệu có thể nắm bắt được thông tin từ các đối thủ cạnh
tranh; tối ưu SEO từ việc tìm kiếm được các nội dung hay, hấp
dẫn; tiết kiệ được thời gian công sức và chi phí trong các chiến
dịch tiếp thị; điều chỉnh kế hoạch marketing, xa hơn là chiến
lược kinh doanh cho phù hợp,…
HTTP
REQUESTS
01 02 03
TỔNG
QUAN WEB DEMO
VỀ SCRAPIN THỰC
HTTP G VỚI NGHIỆ
GIAO PYTHON M
THỨC
HTTP
REQUESTS
01 02 03
TỔNG
QUAN WEB DEMO
VỀ SCRAPIN THỰC
HTTP G VỚI NGHIỆ
GIAO PYTHON M
THỨC
01
Kịch bản 3: Tạo PUT request chỉnh sửa thông tin một cá thể trên server
Kịch bản 4: Tạo DELETE request xóa thông tin một cá thể trên server
Kịch bản 6: Sử dụng thư viện BeautifulSoup kết hợp với Request để lấy thông tin các
công ty tuyển dụng từ trang web https://timesjobs.com/ theo đầu vào của cá nhân người
dùng
Yêu cầu: Thư viện BeautifulSoup, request, lxml
Truy cập trang web https://timesjobs.com/ để kiểm tra HTML
Chi tiết cấu hình và cài đặt
Thư viện BeautifulSoup không phải là thư viện mặc định nên nó phải được cài đặt.
Có thể tìm thấy hướng dẫn đầy đủ để cài đặt BeautifulSoup4 tại
https://www.crummy.com/software/BeautifulSoup/bs4/doc/
+ Kịch bản 4: Tạo Delete request xóa thông tin 1 cá thể trên server
Triển khai và đánh giá
+ Kịch bản 5: Tải các hình ảnh từ trang web https://unsplash.com/ về máy tính cá nhân.
-Bước 1: Import 3 thư viện BeautifulSoup, urllib, request
-Bước 2: Tìm thẻ cha chứa các hình ảnh trong trang web
Triển khai và đánh giá
-Bước 3: Tạo mảng chứa các link hình ảnh từ trang web
-Bước 4: Tải các hình ảnh trong trang web về máy của mình. Kết thúc
Triển khai và đánh giá
+ Kịch bản 6: Sử dụng thư viện BeautifulSoup kết hợp với Request lấy thông tin các công ty
tuyển dụng, từ trang web https://timesjobs.com/ theo đầu vào của cá nhân mình.
-Bước 3: Tạo hàm tìm kiếm công việc (Hàm này sẽ lấy tất cả các công ty có
trong trang web rồi lọc các công ty theo điều kiện ở trên. Nếu công ty nào phù
hợp nó sẽ được hiện thị tại console. Kết thúc
Triển khai và đánh giá
Cảm ơn thầy, cô và
mọi người đã lắng
nghe!