You are on page 1of 14

数据分析报告

目录
概述:........................................................................................................................................1

1.1 问题背景:.......................................................................................................................1

1.2 数据分析报告思路:......................................................................................................1

数据获取....................................................................................................................................2

2.1 图表分析的数据获取.......................................................................................................2

2.2 词云图数据的获取...........................................................................................................4

数据分析内容............................................................................................................................5

3.1:不同地区的销售情况如何?.......................................................................................5

3.2:各种商品类别的销售情况如何?...............................................................................7

3.3:双十一消费者的年龄占比是怎样的?.......................................................................7

3.4:顾客的性别占比如何?性别不同是否存在消费偏好的不一样?..............................8

3.5:双十一的关键词有哪些?.........................................................................................10

数据分析总结:......................................................................................................................11
概述:

1.1 问题背景:

随着电商行业的迅速发展,了解销售数据并进行数据分析成为电商公司制定更有效市
场策略的关键。该数据集揭示了 2023 年双 11 期间销售数据情况,包括销售数、销售额、
利润等,反映了市场趋势和消费者偏好,对电商平台优化策略具有重要意义。通过对销售
数据的深入分析,我们可以洞察销售趋势、热门产品以及顾客行为,从而为业务决策提供
支持。

1.2 数据分析报告思路:

数据分析报告解决的问题主要分为两部分:第一部分通过程序的编写生成图表,然后
对数据进行分析;第二部分则通过 Python 爬虫来爬取双十一期间的话题数据,随后用词云
图生成双十一热点词,帮助我们更好地分析双十一期间的销售状况。在数据分析报告的最
后我们将作出对 2023 年双 11 的销售状况的总结,并结合数据对电商方面给出合理建议。
流程如图所示:
数据获取

2.1 图表分析的数据获取

对于图表分析的数据获取,我们选择第三方数据集网站“和鲸社区”作为数据集
的获取网站(网址: https://www.heywhale.com/home/project)
如图所示:

然后,我们可以通过 EXCEL 的“另存为”的功能将文件导出为.csv 文件形式(原为.


xlsx),以便于进行之后的数据分析
转换为.csv 文件后,我们在 jupyter 中打开此.csv 文件,如图所示:

2.2 词云图数据的获取

对于词云图数据的来源获取,我们将选择知名评论平台豆瓣网站的某双十一购物组
作为一个样本集。网址为:
https://www.douban.com/group/search?start=0&cat=1013&sort=relevance&q=%E5%8F
%8C%E5%8D%81%E4%B8%80
如图所示:

然后我们使用浏览器的“检查”功能,查看每个标题的 html 标签,如图所示:


在找到规律之后,我们即可开始接下来的爬虫:
import requests
from bs4 import BeautifulSoup
import jieba
from wordcloud import WordCloud
import matplotlib.pyplot as plt

StatText=[]
nombre=0
headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64)
AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36"}
while nombre<=2000:
URI='https://www.douban.com/group/search?start='+str(nombre)
+'&cat=1013&sort=relevance&q=%E5%8F%8C%E5%8D%81%E4%B8%80'
nombre+=50
response = requests.get(URI,headers=headers)
content=response.text
analysis=BeautifulSoup(content,"html.parser")
Stat=analysis.find_all("a",attrs={"class":{""}})
for i in Stat:
StatText.append(i.string)
至此,所有爬虫的数据已经存入到了 StatText 这个列表类型变量中,如图:
数据分析内容

3.1:不同地区的销售情况如何?

通过分析地区字段,我们将探讨不同地区的销售情况,包括销售数量、销售额、利润
等指标。这有助于我们识别销售热点和潜在增长机会。
首先我们引入必要的库,并为程序运行提供其他必要的环境,然后对 2023 年双 11 的
文件数据进行读取:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
# 设置中文字体,解决中文字体显示问题
plt.rcParams['font.family'] = 'kaiti'
# 读取 CSV 文件
df = pd.read_csv('双十一销售数据.csv', encoding='utf-8-sig')

在读取文件后,我们开始拆分并分析双十一消费者来源地区的数据:
# 提取区域的第一部分
df['地区提取'] = df['区域'].str.split('-').str[0]
# 统计各个地区出现的频率值
region_counts = df['地区提取'].value_counts()
# 绘制地区顾客数量的水平条形图
plt.barh(region_counts.index, region_counts.values) #region_counts.index 相当于
各个地区的字符串
plt.title('双十一消费者来源地区统计')
plt.xlabel('人数')
plt.ylabel('地区')
plt.show()
然后我们运行程序,输出双十一消费者来源地区统计的竖向条形图:

我们可以看到,华南地区的消费者是双十一消费的主要力量,其次为华北地区和华东地
区,西南地区的消费者占比最少。

3.2:各种商品类别的销售情况如何?

通过了解各种商品类别的销售情况,我们可以更加了解哪种商品在双十一期间更加受
消费者欢迎,从而制定出相应策略
首先我们进行程序的编写:
# 统计商品品类,我们只需要知道各个商品品类出现的次数
category_counts = df['商品品类'].value_counts() #统计各个商品出现的频率值
plt.bar(category_counts.index, category_counts.values)
plt.title('商品品类统计图')
plt.xlabel('商品品类')
plt.ylabel('数量')
plt.xticks(rotation=40) #旋转标签以便于观看
plt.show()
在编写程序之后,我们进行图形的生成:

我们可以看到,床品件套是消费最多的商品品类,其次是汽车配件和浴室用品。消费
最少的商品品类是办公家具。

3.3:双十一消费者的年龄占比是怎样的?

通过年龄分布的分析,我们可以得知主要购物人群分布在某个年龄段,这为电商平台
在商品推荐和营销活动中提供了定向策略。
首先,我们进行程序的编写:
# 统计顾客年龄段
ages_frequency=[]
for i in df['客户年龄']:
#将 i 整数化以比较大小 18 岁到 35 岁为青年;35 岁到 60 岁为中年;60 岁以上为老年
if 18<=int(i)<=35:
ages_frequency.append('青年')
elif 35<int(i)<=60:
ages_frequency.append('中年')
elif 60<int(i):
ages_frequency.append('老年')
plt.hist(ages_frequency, bins=3, edgecolor='black')
plt.title('顾客年龄段画像')
plt.xlabel('年龄段')
plt.ylabel('人次')
#显示图形
plt.show()
在编写程序之后,我们进行图形的生成:

我们可以看到,从顾客年龄段的角度上来看,35 岁到 60 岁的中年人是消费的主力军,
其次为青年,老年人在双十一期间消费较少。

3.4:顾客的性别占比如何?性别不同是否存在消费偏好的

不一样?

通过顾客的性别占比和消费偏好,可以获得有关市场和客户群体的重要见解,从而
制定更有效的营销策略和服务。
首先,我们进行程序的编写:
# 统计男女顾客人数 我们只需要知道“客户性别”一列中“男”“女”各出现的次数
gender_distribution = df['客户性别'].value_counts()
plt.pie(gender_distribution, explode=(0, 0.1),
labels=gender_distribution.index, autopct='%.2f%%')
plt.title('男女顾客占比情况')
plt.show()

# 统计男性和女性购买各商品类型的数量
male_categories_counts = df[df['客户性别'] == '男']['商品品类'].value_counts()
female_categories_counts = df[df[' 客 户 性 别 '] == ' 女 '][' 商 品 品
类'].value_counts()

# 绘制性别购买商品类型占比饼图
plt.figure(figsize=(12, 6)) #设置图表大小
plt.subplot(1, 2, 1) #设置图表位置
plt.pie(male_categories_counts, labels=male_categories_counts.index,
autopct='%1.1f%%', startangle=90)
plt.title('男性购买商品类型占比')

plt.subplot(1, 2, 2) #设置图表位置
plt.pie(female_categories_counts, labels=female_categories_counts.index,
autopct='%1.1f%%', startangle=90)
plt.title('女性购买商品类型占比')
plt.show()
在编写程序之后,我们进行图形的生成:
我们从图表可以看出,在双十一期间,女性顾客占比比男性顾客大,从商品消费
的偏好来看,我们可以看出男性顾客更加钟爱汽车配件和电脑硬件,分别比女性顾客高出
约 7%和 4%;而女性顾客则更偏向于家装饰品,比男性顾客高出大概 12%。

3.5:双十一的关键词有哪些?

爬虫得到的数据比第三方数据平台更加个性化,且具有易于个人调试的特点。我
们这里选取了知名评论平台豆瓣网站的某双十一购物组作为了一个样本集。
import requests
from bs4 import BeautifulSoup
import jieba
from wordcloud import WordCloud
import matplotlib.pyplot as plt

StatText=[]
nombre=0
headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64)
AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36"}
while nombre<=2000:
URI='https://www.douban.com/group/search?start='+str(nombre)
+'&cat=1013&sort=relevance&q=%E5%8F%8C%E5%8D%81%E4%B8%80'
nombre+=50
response = requests.get(URI,headers=headers)
content=response.text
analysis=BeautifulSoup(content,"html.parser")
Stat=analysis.find_all("a",attrs={"class":{""}})
for i in Stat:
StatText.append(i.string)

# 确保列表中的所有元素都是字符串
StatText = [str(item) for item in StatText if item is not None]
# 使用 jieba 进行中文分词
RealText = ','.join(StatText)
RealText = ' '.join(jieba.cut(RealText))

# 创建词云对象,确保指定了一个支持中文的字体路径
wordcloud = WordCloud(font_path='simhei.ttf',width=800,
height=400,background_color='white').generate(RealText)

# 显示词云
plt.figure(figsize=(10, 5))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis('off') # 不显示坐标轴
plt.show()

# 保存图片
wordcloud.to_file('wordcloud.png')
在编写程序之后,我们进行图形的生成:
数据分析总结:

1.华南地区是双 11 消费的主要地区,其次是华北和华东地区。这为电商平台提供了在
这些地区加强市场推广和服务的机会,以满足不同地区的消费需求。
2.床品件套是最受欢迎的商品品类,其次是汽车配件和浴室用品。了解商品类别的销
售情况有助于电商平台更有针对性地推出促销活动,并优化相关服务。
3.中年人群(35 岁到 60 岁)是消费的主力军,青年群体次之,而老年人在双 11 期间
消费较少。这为电商平台提供了在推荐和定向营销方面的策略,以更好地吸引不同年龄段
的消费者。
4.女性顾客在双 11 期间的消费占比较大,男性顾客占比相对较少。男性顾客更倾向于
购买汽车配件和电脑硬件。相比之下,女性顾客更喜欢购买家装饰品。了解性别差异有助
于电商平台更好地定制广告和促销活动,以满足不同性别的购物偏好。
5.双十一的词云图揭示了消费者在这一购物狂欢节中的多样化需求和行为模式。从
“读书”到“喝咖啡”,从“买手机”到“羽绒服”,消费者不仅关注日常生活用品的优
惠购买,还追求生活质量的提升。这种消费趋势反映了人们对知识和休闲的重视,以及对
科技和时尚的追求。词云中的“好价”和“便宜”突显了价格因素在双十一购物决策中的
重要性,消费者渴望在保证质量的前提下,以更优惠的价格获得商品。而“拼租”和“拼
完”则体现了团购和分享经济的流行,说明消费者在追求个性化的同时,也愿意通过社交
互动来实现成本效益的最大化。整体上,双十一的消费行为不仅仅是对物质商品的追求,
更是一种生活方式的体现,它反映了消费者对于品质、效率、社交和经济实惠的综合考量
电商平台需继续深化对消费者心理的理解,通过技术创新和服务优化来满足这些多元化的
需求,以促进自身的可持续发展。

基于以上数据分析,电商未来可以进一步定制服务,以满足不同地区消费者的需求;
鉴于床品件套等商品品类的受欢迎程度,电商平台可以加强这些热门品类的推广,根据消
费者的反馈不断优化产品;鉴于中年人群是主要的消费力量,电商平台可以加强与这一群
体的互动,提供更符合他们需求的产品和服务,同时也要对青年和老年人群体也可以推出
相应的促销和服务,以扩大用户群体;基于性别在购物偏好上的差异,电商平台可以更加
精细化,个性化。比如根据大数据推送不同需求的广告。

总体而言,电商未来的发展应该是多元化、个性化和用户体验为核心。不同地区、年
龄和性别的差异性需求需要被充分考虑,以提供更精准、贴近用户需求的服务。科技创新
和社交化互动将是电商未来成功的关键因素。

You might also like