100字范文 > 一位同学的Python大作业【分析当当网书籍价格出版社电子书版本占比数据】

一位同学的Python大作业【分析当当网书籍价格出版社电子书版本占比数据】

时间：2019-03-03 18:49:18

前言本次案例实现目标最基本思路流程: <通用>一. 数据来源分析二. 代码实现步骤过程: 代码实现基本四大步骤代码实现获取书籍详情信息发送请求解析数据保存数据运行代码得到结果可视化图表书籍总体价格区间各个出版社书籍数量柱状图电子书版本占比书籍评论数据词云

前言

本次案例实现目标

书籍基本数据实现可视化图表书籍评论数据评论可以实现词云图

最基本思路流程: <通用>

一. 数据来源分析

只有当你知道你想要数据内容, 是来自于哪里的时候, 才能通过代码请求得到数据打开 F12 开发者工具进行抓包分析通过关键字进行搜索查询数据包是请求那个url地址

二. 代码实现步骤过程: 代码实现基本四大步骤

发送请求, 模拟浏览器对于url地址<刚刚分析得到的url地址>发送请求获取数据, 获取服务器返回响应数据 —> 开发者工具里面 response解析数据, 提取我们想要的数据内容 —> 书籍基本信息保存数据, 把数据内容保存到表格里面

代码实现

获取书籍详情信息

发送请求

url = f'/books/bestsellers/01.00.00.00.00.00-recent7-0-0-1-1'# 代码模拟浏览器发送请求 ---> headers请求头 <可以复制粘贴>headers = {# User-Agent 用户代理表示浏览器基本身份标识'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36'}# 发送请求response = requests.get(url=url, headers=headers)

解析数据

# 转换数据类型 ---> 可解析对象selector = parsel.Selector(response.text)# 第一次提取, 获取所有li标签lis = selector.css('.bang_list_mode li') # 返回列表# for循环遍历, 把列表里面的元素一个一个提取出来for li in lis:title = li.css('.name a::attr(title)').get() # 标题/书名recommend = li.css('.tuijian::text').get().replace('推荐', '') # 推荐star = li.css('.star a::text').get().replace('条评论', '') # 评价author = li.css('div:nth-child(5) a:nth-child(1)::attr(title)').get() # 作者date = li.css('div:nth-child(6) span::text').get() # 出版日期press = li.css('div:nth-child(6) a::text').get() # 出版社price_r = li.css('.price .price_r::text').get() # 原价price_n = li.css('.price .price_n::text').get() # 售价price_e = li.css('.price_e span::text').get() # 电子书价格href = li.css('.name a::attr(href)').get() # 详情页dit = {'标题': title,'推荐': recommend,'评价': star,'作者': author,'出版日期': date,'出版社': press,'原价': price_r,'售价': price_n,'电子书价格': price_e,'详情页': href,}csv_writer.writerow(dit)print(dit)

保存数据

f = open('书籍.csv', mode='a', encoding='utf-8', newline='')csv_writer = csv.DictWriter(f, fieldnames=['标题','推荐','评价','作者','出版日期','出版社','原价','售价','电子书价格','详情页',])# 写入表头csv_writer.writeheader()

运行代码得到结果

可视化图表

书籍总体价格区间

pie1 = (Pie(init_opts=opts.InitOpts(theme='dark',width='1000px',height='600px')).add('', datas_pair_1, radius=['35%', '60%']).set_series_opts(label_opts=opts.LabelOpts(formatter="{b}:{d}%")).set_global_opts(title_opts=opts.TitleOpts(title="当当网书籍\n\n原价价格区间", pos_left='center', pos_top='center',title_textstyle_opts=opts.TextStyleOpts(color='#F0F8FF', font_size=20, font_weight='bold'),)).set_colors(['#EF9050', '#3B7BA9', '#6FB27C', '#FFAF34', '#D8BFD8', '#00BFFF', '#7FFFAA']))pie1.render_notebook()

pie1 = (Pie(init_opts=opts.InitOpts(theme='dark',width='1000px',height='600px')).add('', datas_pair_2, radius=['35%', '60%']).set_series_opts(label_opts=opts.LabelOpts(formatter="{b}:{d}%")).set_global_opts(title_opts=opts.TitleOpts(title="当当网书籍\n\n售价价格区间", pos_left='center', pos_top='center',title_textstyle_opts=opts.TextStyleOpts(color='#F0F8FF', font_size=20, font_weight='bold'),)).set_colors(['#EF9050', '#3B7BA9', '#6FB27C', '#FFAF34', '#D8BFD8', '#00BFFF', '#7FFFAA']))pie1.render_notebook()

各个出版社书籍数量柱状图

bar=(Bar(init_opts=opts.InitOpts(height='500px',width='1000px',theme='dark')).add_xaxis(counts.index.tolist()).add_yaxis('出版社书籍数量',counts.values.tolist(),label_opts=opts.LabelOpts(is_show=True,position='top'),itemstyle_opts=opts.ItemStyleOpts(color=JsCode("""new echarts.graphic.LinearGradient(0, 0, 0, 1,[{offset: 0,color: 'rgb(255,99,71)'}, {offset: 1,color: 'rgb(32,178,170)'}])"""))).set_global_opts(title_opts=opts.TitleOpts(title='各个出版社书籍数量柱状图'),xaxis_opts=opts.AxisOpts(name='书籍名称',type_='category', axislabel_opts=opts.LabelOpts(rotate=90),),yaxis_opts=opts.AxisOpts(name='数量',min_=0,max_=29.0,splitline_opts=opts.SplitLineOpts(is_show=True,linestyle_opts=opts.LineStyleOpts(type_='dash'))),tooltip_opts=opts.TooltipOpts(trigger='axis',axis_pointer_type='cross')).set_series_opts(markline_opts=opts.MarkLineOpts(data=[opts.MarkLineItem(type_='average',name='均值'),opts.MarkLineItem(type_='max',name='最大值'),opts.MarkLineItem(type_='min',name='最小值'),])))bar.render_notebook()

电子书版本占比

c = (Liquid().add("lq", [1-per], is_outline_show=False).set_global_opts(title_opts=opts.TitleOpts(title="电子书版本占比")))c.render_notebook()

书籍评论数据

for page in range(1, 11):time.sleep(1)# 确定请求url地址url = '/index.php'# 请求参数data = {'r': 'comment/list','productId': '29129370','categoryPath': '01.43.79.01.00.00','mainProductId': '29129370','mediumId': '0','pageIndex': page,'sortType': '1','filterType': '1','isSystem': '1','tagId': '0','tagFilterCount': '0','template': 'publish','long_or_short': 'short',}# headers 请求头headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36'}# 发送请求response = requests.get(url=url, params=data, headers=headers)# response.json() 获取响应json字典数据键值对取值 ---> 根据冒号左边的内容, 提取冒号右边的内容html_data = response.json()['data']['list']['html']content_list = re.findall("<span><a href=.*?' target='_blank'>(.*?)</a></span>", html_data)with open('评论.txt', mode='a', encoding='utf-8') as f:f.write('\n'.join(content_list))f.write('\n')print(content_list)

词云

import jieba # 分词模块 pip install jiebaimport wordcloudimport imageioimg = imageio.imread('123.png')# wordcloud# 1. 打开文件获取弹幕数据# mode='r' 一定要写吗不一定默认以 r# encoding='' 要写吗? 肯定要的f = open('评论.txt', mode='r', encoding='utf-8')txt = f.read()# print(txt)# 2. jieba分词分割词汇txt_list = jieba.lcut(txt)# print(txt_list)# 列表转字符串怎么转string = ' '.join(txt_list)# print(string)# 3. 词云图设置wc = wordcloud.WordCloud(width=800, # 宽度height=500, # 高度background_color='white', # 背景颜色mask=img, # 设置图片样式font_path='msyh.ttc',scale=15,stopwords={'了', '的'},contour_width=5,contour_color='red')# 4. 输入文字内容 (字符串的形式)wc.generate(string)# 5. 输出图片wc.to_file('output2.png')

👇问题解答 · 源码获取 · 技术交流 · 抱团学习请联系👇

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。