You are on page 1of 14

爬虫零基础入门 - 全网美女图片的爬取

授课:杨淑娟

http://mashibing.com
本章主讲内容
• 1. 什么是爬虫
• 2. 浏览器的工作原理
• 3. 爬虫的工作原理
• 4. 爬虫的工作步骤
• 5. 爬取百度图库中的美女图片
• 6. 二进制数据的存储

http://mashibing.com
什么是爬虫
• 爬虫
• 从本质上来说,就是利用程序在网上拿到对我们有价值的数据
• 实际上爬虫就是使用编程语言所编写的程序,作用是从网络上获取有价
值的数据,重要的就是速度比手动获取数据快

http://mashibing.com
浏览器的工作原理

http://mashibing.com
爬虫的工作原理

http://mashibing.com
爬虫的工作步骤
• 爬虫的工作步骤
• (1) 获取数据:爬虫程序会根据我们提供的网址,向服务器发起请求,然
后返回数据 -url

• (2) 解析数据:爬虫程序会把服务器返回的数据解析成我们能读懂的格式。
 response 响应结果

• (3) 提取数据:爬虫程序再从中提取出我们需要的数据。

• (4) 储存数据:爬虫程序把这些有用的数据保存起来,便于你日后的使用
和分析 - 文件存储

http://mashibing.com
请求与响应
• 请求 request
• 请求方式 get 和 post
• get 请求:地址栏上显示表单数据
http://127.0.0.1:8020/siper/get.html ? uname=admin&pwd=8888

• post 请求:表单数据在 form data 中

http://mashibing.com
请求与响应
• 响应 response

• 响应回来的数据: html+css+js+data ,由浏览器进行解析执行

http://mashibing.com
小试牛刀 - 百度图片
• 请求网址 url: http://www.baidu.com
• 请求方式 :get
• 爬虫方式发送请求得到响应

• 分析网址:
http://image.baidu.com/search/acjson?tn=resultjson_com&ipn=rj&
ct=201326592&is=&fp=result&queryWord=%E7%BE%8E%E5%A5%B3&cl=2&l
m=-1&ie=utf-8&oe=utf-8&adpicid=&st=-1&z=&ic=0&hd=&latest=&copy
right=&word=%E7%BE%8E%E5%A5%B3&s=&se=&tab=&width=&height=&face
http://mashibing.com
小试牛刀 - 百度图片
• 数据存储
• 文件的分类 :
• 文本文件
• 二进制文件 ( 视频属于二进制文件 )
• 文件的打开模式

http://mashibing.com
小试牛刀 - 百度图片
• 文件读写之后需要释放资料
• (1) 使用 close() 释放资源缺点,容易忘写
• (2) 使用上下文管理器 with  执行完毕自动释放资源

http://mashibing.com
爬虫操作步骤总结
• 分析请求网址发送请求
• 分析数据
• 数据提取
• 数据的存储

http://mashibing.com
本章主讲内容
• 1. 什么是爬虫
• 2. 浏览器的工作原理
• 3. 爬虫的工作原理
• 4. 爬虫的工作步骤
• 5. 爬取百度图库中的美女图片
• 6. 二进制数据的存储

http://mashibing.com
风里雨里,娟子姐在马士兵教育等你 !!!

http://mashibing.com

You might also like