Welcome to Scribd!

Skip carousel

(3 7 1) - 爬虫小项目

Uploaded by

Pandeng Li

0% found this document useful (0 votes)

4 views5 pages

Original Title

(3.7.1)--爬虫小项目

Copyright

Available Formats

PDF, TXT or read online from Scribd

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Report this Document

Copyright:

Available Formats

Download as PDF, TXT or read online from Scribd

Flag for inappropriate content

0% found this document useful (0 votes)

4 views5 pages

(3 7 1) - 爬虫小项目

Uploaded by

Pandeng Li

Copyright:

Available Formats

Download as PDF, TXT or read online from Scribd

Flag for inappropriate content

Jump to Page

You are on page 1of 5

Search inside document

《用 Python 玩转数据》爬虫小项目（3 项）

Dazhuang@NJU

1. “迷你爬虫编程小练习”进阶：抽取某本书的前 50 条短评内容并计算评分(star)的平

均值。提示：有的评论中并不包含评分。

2. 在“http://money.cnn.com/data/dow30/”上抓取道指成分股数据并将 30 家公司

的代码、公司名称和最近一次成交价放到一个列表中输出。

3. 请爬取网页（http://www.volleyball.world/en/vnl/2018/women/results-and-

ranking/round1）上的数据（包括 TEAMS and TOTAL, WON, LOST of MATCHES）

提示：在处理时可以用已学的方法将每一项需要的内容（如 USA 和 15）单独解析

出来，但这种做法将有联系的数据打散了，较好的做法是将每个 TEAM 的相关数据按
组解析出来。但是由于包含这 4 项信息的源代码（请自行观察）分在多行并且行首有
多个空格，因此在处理时在构造正则表达式时要把换行时的空白字符表示出来（用\s+
可表示多个空白字符，包括换行符和空格）。

【参考程序见下一页】
【参考代码：将 url 中的 bookid 换成自己想查看的书的 id，例如 1084336】

# -- coding: utf-8 --

"""

Comments parsing

@author: Dazhuang

"""

import requests, re, time

from bs4 import BeautifulSoup

count = 0

i=0

s, count_s, count_del = 0, 0, 0

lst_stars = []

while count < 50:

try:

r = requests.get('https://book.douban.com/subject/bookid/comments/hot?p=' +
str(i+1))

except Exception as err:

print(err)

break

soup = BeautifulSoup(r.text, 'lxml')

comments = soup.find_all('span', 'short')

pattern = re.compile('<span class="user-stars allstar(.*?) rating"')

# Other way: we can use a whole regular expression to pattern comments and rangking
stars
p = re.findall(pattern, r.text)

for item in comments:

count += 1

if count > 50:

# count the number of comments more than 50 of the page

count_del += 1

else:

print(count, item.string)

for star in p:

lst_stars.append(int(star))

time.sleep(5) # delay request from douban's robots.txt

i += 1

for star in lst_stars[:-count_del]: # calculate the rating star of 50 comments

s += int(star)

if count >= 50:

print(s // (len(lst_stars)-count_del))

【参考代码】

# -- coding: utf-8 --

"""

Get dji stock data

@author: Dazhuang

"""
import requests

import re

def retrieve_dji_list():

r = requests.get('http://money.cnn.com/data/dow30/')

# put the re expression on one line and pay attention to the '\n'

search_pattern =
re.compile('class="wsod_symbol">(.*?)<\/a>.*?<span.*?">(.*?)<\/span>.*?

\n.*?class="wsod_stream">(.*?)<\/span>')

dji_list_in_text = re.findall(search_pattern, r.text)

return dji_list_in_text

dji_list = retrieve_dji_list()

print(dji_list)

【参考代码】

# -- coding: utf-8 --

"""

Crawler

@author: Dazhuang

"""

import re

import requests

def crawler(url):

try:
r = requests.get(url)

except requests.exceptions.RequestException as err:

return err

r.encoding = r.apparent_encoding

# put the re expression on one line

pattern =
re.compile('href="/en/vnl/2018/women/teams/.*?">(.*?)</a></figcaption>\s+</figure>\
s+</td>\s+<td>(.*?)</td>\s+<td class="table-td-bold">(.*?)</td>\s+<td class="table-td-
rightborder">(.*?)</td>')

p = re.findall(pattern, r.text)

return p

if __name__ == "__main__":

url = 'http://www.volleyball.world/en/vnl/2018/women/results-and-
ranking/round1'

result = crawler(url)

print(result)

Content
Document12 pages
Content
Prashanth Shetty
No ratings yet
Java Software Solutions 9th Edition Lewis Test Bank
Document12 pages
Java Software Solutions 9th Edition Lewis Test Bank
DeborahMartincsfrb
100% (16)
Witold Gombrowicz Bacacay 1
Document62 pages
Witold Gombrowicz Bacacay 1
Starastenko
No ratings yet
Primary Ict Third Term Exam
Document17 pages
Primary Ict Third Term Exam
angus ogwuche
No ratings yet
Atharv Bhambare
Document73 pages
Atharv Bhambare
nileshlawande09
No ratings yet
Python Crash Course by Ehmatthes 17
Document1 page
Python Crash Course by Ehmatthes 17
alfonsofdez
No ratings yet
Pradip
Document73 pages
Pradip
nileshlawande09
No ratings yet
Python Module 4
Document12 pages
Python Module 4
surajmishraa24
No ratings yet
Python - Module Test - Jupyter Notebook
Document6 pages
Python - Module Test - Jupyter Notebook
Pawan Gosavi
No ratings yet
Nplusone Queries Basics
Document38 pages
Nplusone Queries Basics
edivan de castro soares
No ratings yet
CSCI468: Compilers Portfolio Spring 2016: Drew Antonich & Anthony Schwartz
Document36 pages
CSCI468: Compilers Portfolio Spring 2016: Drew Antonich & Anthony Schwartz
Avi W
No ratings yet
Session5 Notes-1
Document7 pages
Session5 Notes-1
86e5f
No ratings yet
Practice Questions For Practical
Document11 pages
Practice Questions For Practical
Ishaan Seth
No ratings yet
Web Scraping Project
Document1 page
Web Scraping Project
prerak sheth
No ratings yet
Lecture - Notes - II Pseudocode
Document30 pages
Lecture - Notes - II Pseudocode
mphullatwambilire
No ratings yet
RSQLML Final Slide 15 June 2019 PDF
Document196 pages
RSQLML Final Slide 15 June 2019 PDF
Thanthirat Thanwornwong
No ratings yet
AL Notes
Document61 pages
AL Notes
Shikha Jayaswal
No ratings yet
Python Lab File Example
Document20 pages
Python Lab File Example
50 Mohit Sharma
No ratings yet
K L University Department of Computer Science & Engineering II/IV B.Tech Semester II Database Management Systems (13CS204) TEST-2 Key
Document8 pages
K L University Department of Computer Science & Engineering II/IV B.Tech Semester II Database Management Systems (13CS204) TEST-2 Key
Rami Reddy
No ratings yet
K L University Department of Computer Science & Engineering II/IV B.Tech Semester II Database Management Systems (13CS204) TEST-2 Key
Document8 pages
K L University Department of Computer Science & Engineering II/IV B.Tech Semester II Database Management Systems (13CS204) TEST-2 Key
Rami Reddy
No ratings yet
Create Site
Document21 pages
Create Site
MENANI Zineddine
No ratings yet
Sorting HOW TO: Guido Van Rossum Fred L. Drake, JR., Editor
Document6 pages
Sorting HOW TO: Guido Van Rossum Fred L. Drake, JR., Editor
dalequenosvamos
100% (1)
Big Data Analytics in Apache Spark
Document79 pages
Big Data Analytics in Apache Spark
ArXlan Xahir
No ratings yet
HUAWEI - 03 Python Advanced
Document22 pages
HUAWEI - 03 Python Advanced
Pierpaolo Vergati
No ratings yet
Python and Web Programming Assignment
Document23 pages
Python and Web Programming Assignment
Minyahil Workineh
No ratings yet
TA1004 練習
Document13 pages
TA1004 練習
YI-LIN CHANG
No ratings yet
AB0403 Revision Set I
Document4 pages
AB0403 Revision Set I
fabianngxinlong
No ratings yet
Dbms
Document72 pages
Dbms
Yatham David Reddy
No ratings yet
SLK Software Python Interview Questions
Document4 pages
SLK Software Python Interview Questions
Srinimf
No ratings yet
Basic PHP Syntax: Arrays Strings and Regular Expressions
Document21 pages
Basic PHP Syntax: Arrays Strings and Regular Expressions
Jeon Aura
No ratings yet
Salazar Francisco C3 - W1 - Lab - 3 - Sarcasm
Document11 pages
Salazar Francisco C3 - W1 - Lab - 3 - Sarcasm
Frank SD
No ratings yet
Sorting HOW TO: Guido Van Rossum Fred L. Drake, JR., Editor
Document5 pages
Sorting HOW TO: Guido Van Rossum Fred L. Drake, JR., Editor
Juan Pez
No ratings yet
Pierian Data - Python For Finance & Algorithmic Trading Course Notes
Document11 pages
Pierian Data - Python For Finance & Algorithmic Trading Course Notes
Ishan Sane
No ratings yet
Finals Questions CS 4
Document5 pages
Finals Questions CS 4
Michael Walters
No ratings yet
Python Functions and Oop
Document7 pages
Python Functions and Oop
Edison Rivadeneira
No ratings yet
Report File in Computer Science For Session 2021-2022 CLASS:12 East Delhi Public SC
Document33 pages
Report File in Computer Science For Session 2021-2022 CLASS:12 East Delhi Public SC
Deepak Singh
No ratings yet
CSE-101 3 Assignment 2010 Foundation of Computting Submitted To
Document3 pages
CSE-101 3 Assignment 2010 Foundation of Computting Submitted To
Vardhan Mahendru
No ratings yet
Term - II - XII - Practicals File 2021-2022
Document27 pages
Term - II - XII - Practicals File 2021-2022
Blog
No ratings yet
Unit Ii
Document14 pages
Unit Ii
sawantsankya4197
No ratings yet
Real Estate
Document10 pages
Real Estate
Muskaan
No ratings yet
VQR2
Document6 pages
VQR2
sofimukhtar
No ratings yet
Twittermining: 1 Twitter Text Mining - Required Libraries
Document4 pages
Twittermining: 1 Twitter Text Mining - Required Libraries
Samuel Peoples
No ratings yet
Practical Outcomes (Pros) :: Practical No 05: Strings in PHP
Document6 pages
Practical Outcomes (Pros) :: Practical No 05: Strings in PHP
Rutuja Bhagat
No ratings yet
Python Unit 2
Document8 pages
Python Unit 2
Prajwal Tilekar
No ratings yet
Xii CSC Practicals-Ii
Document11 pages
Xii CSC Practicals-Ii
Samran
No ratings yet
Python Note 3
Document11 pages
Python Note 3
Coding Knowledge
No ratings yet
Pandas
Document49 pages
Pandas
subodhaade2
No ratings yet
What Is Python
Document10 pages
What Is Python
skylarzhang66
No ratings yet
Pep20 by Example PDF
Document24 pages
Pep20 by Example PDF
Nishant Panda
No ratings yet
Practical File Python
Document25 pages
Practical File Python
kaizenpro01
No ratings yet
Final Practical File 2022-23
Document87 pages
Final Practical File 2022-23
Kuldeep Singh
No ratings yet
Vivek C++
Document71 pages
Vivek C++
Jaymin Sheladia
No ratings yet
10-Visualization of Streaming Data and Class R Code-10!03!2023
Document19 pages
10-Visualization of Streaming Data and Class R Code-10!03!2023
G Krishna Vamsi
No ratings yet
Computer Practical File
Document30 pages
Computer Practical File
XI C 07 Aryan Varma
No ratings yet
Python Unit 5 and 4
Document20 pages
Python Unit 5 and 4
Shubham Mishra
No ratings yet
Python Examples
Document5 pages
Python Examples
Gandhimathi
No ratings yet
R Lab Programs-1
Document26 pages
R Lab Programs-1
rns it
No ratings yet
Advance Python - Lejy
Document84 pages
Advance Python - Lejy
Lejy Philip
No ratings yet
C-Sharp: Presented By: Karen Medhat
Document48 pages
C-Sharp: Presented By: Karen Medhat
Karen Medhat
No ratings yet
Basic PHP Syntax: Arrays Strings and Regular Expressions
Document21 pages
Basic PHP Syntax: Arrays Strings and Regular Expressions
shyam
No ratings yet
Dict
Document6 pages
Dict
dakshparashar973
No ratings yet
Introduction to PHP, Part 2, Second Edition
From Everand
Introduction to PHP, Part 2, Second Edition
Adam Majczak
No ratings yet
Profound Python Data Science
From Everand
Profound Python Data Science
Onder Teker
No ratings yet
(4 1 1) - 第四周强大的数据结构和Python扩展库课件
Document60 pages
(4 1 1) - 第四周强大的数据结构和Python扩展库课件
Pandeng Li
No ratings yet
(7 9 1) - 财经数据GUI项目
Document6 pages
(7 9 1) - 财经数据GUI项目
Pandeng Li
No ratings yet
(4 7 1) - 创建DataFrame小例
Document2 pages
(4 7 1) - 创建DataFrame小例
Pandeng Li
No ratings yet
Lunheng 1
Document627 pages
Lunheng 1
Pandeng Li
No ratings yet
Linguistic Research: Some Tools of The Trade
Document1 page
Linguistic Research: Some Tools of The Trade
Pandeng Li
No ratings yet
(2 9 1) - 异常课件
Document14 pages
(2 9 1) - 异常课件
Pandeng Li
No ratings yet
Exploring and Comparing Tools: Borrow With Antconc: February 2014
Document4 pages
Exploring and Comparing Tools: Borrow With Antconc: February 2014
Pandeng Li
No ratings yet
Corpus Presentation 3
Document9 pages
Corpus Presentation 3
Pandeng Li
No ratings yet
CorpusCoursePresentation2 2014
Document22 pages
CorpusCoursePresentation2 2014
Pandeng Li
No ratings yet
Using The Corpus in Linguistic Research
Document22 pages
Using The Corpus in Linguistic Research
Pandeng Li
No ratings yet
Corpus Linguistics: Week 1: Introduction
Document18 pages
Corpus Linguistics: Week 1: Introduction
Pandeng Li
No ratings yet
Corpus Presentation 4
Document18 pages
Corpus Presentation 4
Pandeng Li
No ratings yet
Unitplan Make A Comic Book PDF
Document9 pages
Unitplan Make A Comic Book PDF
api-584031926
No ratings yet
Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books
Document9 pages
Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books
Marcio Santos
No ratings yet
Chapman, A. - Is Sid Meier's Civilization History
Document23 pages
Chapman, A. - Is Sid Meier's Civilization History
dserranolozano
No ratings yet
RPP BIG X KD 3.8 Dan 4.8
Document2 pages
RPP BIG X KD 3.8 Dan 4.8
PPK KECAMATAN WATES
No ratings yet
Zaki Nassifpresentation
Document13 pages
Zaki Nassifpresentation
farah abdallah
No ratings yet
ENGL115 Grammar 5-3 - Some, Any, & No
Document12 pages
ENGL115 Grammar 5-3 - Some, Any, & No
Alberto C.
No ratings yet
Verri Puku Scribd
Document584 pages
Verri Puku Scribd
ajax248590
No ratings yet
Resume of Awal Shopnil
Document2 pages
Resume of Awal Shopnil
Mustafa Hussain
No ratings yet
Licensed To Arun Kumar Das: ,."bu'OII'
Document5 pages
Licensed To Arun Kumar Das: ,."bu'OII'
OMEGA CONSULTANT SERVICES
No ratings yet
I7 Catalogue
Document14 pages
I7 Catalogue
Anonim Anonim
No ratings yet
Kristiani Mita Natalia 044657974 Tugas Tutorial 1 Mkwi4201
Document4 pages
Kristiani Mita Natalia 044657974 Tugas Tutorial 1 Mkwi4201
Kristiani Mita Natalia
No ratings yet
Possibility Living - Billy Joe Daugherty
Document16 pages
Possibility Living - Billy Joe Daugherty
Sibil Samuel
No ratings yet
Gerasmio, Angelie P. (Ed202 Assessment)
Document3 pages
Gerasmio, Angelie P. (Ed202 Assessment)
Ryan Gerasmio
No ratings yet
Jones Classical Aerodynamic Theory
Document320 pages
Jones Classical Aerodynamic Theory
John Clistenes
No ratings yet
Tech Mahindra Antonyms and Questions
Document27 pages
Tech Mahindra Antonyms and Questions
Neha
No ratings yet
Ingles para Principiantes - PRE U - TIGRE PDF
Document128 pages
Ingles para Principiantes - PRE U - TIGRE PDF
Preu Unprg
No ratings yet
CompTIA A+ Essentials
Document1,827 pages
CompTIA A+ Essentials
Pedro Pinheiro
No ratings yet
How To Use Reference Field On DFF
Document13 pages
How To Use Reference Field On DFF
satish
No ratings yet
Curriculum Document
Document7 pages
Curriculum Document
api-624478936
No ratings yet
Prepositions of Place
Document2 pages
Prepositions of Place
Marta Curto
No ratings yet
GDPR 2 Logs
Document5,212 pages
GDPR 2 Logs
Saloni Malhotra
No ratings yet
Atm Simualtion System: Srs Project Report
Document14 pages
Atm Simualtion System: Srs Project Report
Divya Jaya
No ratings yet
ZFDatagrid 0.7 - Manual
Document72 pages
ZFDatagrid 0.7 - Manual
gabrielbief
No ratings yet
Prayer To ST Michael - Long Version
Document2 pages
Prayer To ST Michael - Long Version
RoxanneMargaret
No ratings yet
Revelation
Document36 pages
Revelation
Aliyah Cruz
No ratings yet
7 React Redux React Router Es6 m7 Slides
Document19 pages
7 React Redux React Router Es6 m7 Slides
aishas11
No ratings yet
Lesson 24 The Good Shepherd
Document15 pages
Lesson 24 The Good Shepherd
Jennifer Umampang
No ratings yet