Professional Documents
Culture Documents
授课:杨淑娟
http://mashibing.com
本章主讲内容
• 1. 什么是爬虫
• 2. 浏览器的工作原理
• 3. 爬虫的工作原理
• 4. 爬虫的工作步骤
• 5. 爬取百度图库中的美女图片
• 6. 二进制数据的存储
http://mashibing.com
什么是爬虫
• 爬虫
• 从本质上来说,就是利用程序在网上拿到对我们有价值的数据
• 实际上爬虫就是使用编程语言所编写的程序,作用是从网络上获取有价
值的数据,重要的就是速度比手动获取数据快
http://mashibing.com
浏览器的工作原理
http://mashibing.com
爬虫的工作原理
http://mashibing.com
爬虫的工作步骤
• 爬虫的工作步骤
• (1) 获取数据:爬虫程序会根据我们提供的网址,向服务器发起请求,然
后返回数据 -url
• (2) 解析数据:爬虫程序会把服务器返回的数据解析成我们能读懂的格式。
response 响应结果
• (3) 提取数据:爬虫程序再从中提取出我们需要的数据。
• (4) 储存数据:爬虫程序把这些有用的数据保存起来,便于你日后的使用
和分析 - 文件存储
http://mashibing.com
请求与响应
• 请求 request
• 请求方式 get 和 post
• get 请求:地址栏上显示表单数据
http://127.0.0.1:8020/siper/get.html ? uname=admin&pwd=8888
http://mashibing.com
请求与响应
• 响应 response
http://mashibing.com
小试牛刀 - 百度图片
• 请求网址 url: http://www.baidu.com
• 请求方式 :get
• 爬虫方式发送请求得到响应
• 分析网址:
http://image.baidu.com/search/acjson?tn=resultjson_com&ipn=rj&
ct=201326592&is=&fp=result&queryWord=%E7%BE%8E%E5%A5%B3&cl=2&l
m=-1&ie=utf-8&oe=utf-8&adpicid=&st=-1&z=&ic=0&hd=&latest=©
right=&word=%E7%BE%8E%E5%A5%B3&s=&se=&tab=&width=&height=&face
http://mashibing.com
小试牛刀 - 百度图片
• 数据存储
• 文件的分类 :
• 文本文件
• 二进制文件 ( 视频属于二进制文件 )
• 文件的打开模式
http://mashibing.com
小试牛刀 - 百度图片
• 文件读写之后需要释放资料
• (1) 使用 close() 释放资源缺点,容易忘写
• (2) 使用上下文管理器 with 执行完毕自动释放资源
http://mashibing.com
爬虫操作步骤总结
• 分析请求网址发送请求
• 分析数据
• 数据提取
• 数据的存储
http://mashibing.com
本章主讲内容
• 1. 什么是爬虫
• 2. 浏览器的工作原理
• 3. 爬虫的工作原理
• 4. 爬虫的工作步骤
• 5. 爬取百度图库中的美女图片
• 6. 二进制数据的存储
http://mashibing.com
风里雨里,娟子姐在马士兵教育等你 !!!
http://mashibing.com