【芝麻IP代理】三、数据分析与可视化
1、获取cookies
城市信息筛选中文字
匹配pyecharts支持的城市列表
2、基于snownlp的情感分析
关于snownlp的作用,主要可以进行中文分词、词性标注、情感分析、文本分类、转换拼音、繁体转简体、提取文本关键词、提取摘要、分割句子、文本相似。官网链接:/project/snownlp/
由于snownlp全部是unicode编码,所以要注意数据是否为unicode编码。因为是unicode编码,所以不需要去除中文文本里面含有的英文,因为都会被转码成统一的编码上面只是调用snownlp原生语料库对文本进行分析,snownlp重点针对购物评价领域,所以为了提高情感分析的准确度可以采取训练语料库的方法。
3、评论来源城市分析
调用pyecharts的page函数,可以在一个图像对象中创建多个chart,只需要对应的add即可。
4、影片情感分析
0.5以下为负面情绪,0.5以上为正面情绪。可以看到好评还是很不错的,至于豆瓣上一些看衰评论只是少数。
5、电影评分走势分析读取csv文件,以dataframe(df)形式保存
遍历df行,保存到list
统计相同日期相同评分的个数
转换为df格式,设置列名
按日期排序
遍历新的df,每个日期的评分分为5种,因此需要插入补充缺失数值。
由于允许爬取的量少和时间问题,部分数据不是很明显。但依然可以得出一些发现。在影片上映开始的一周内,为评论高峰,尤其是上映3天内,这符合常识,但是也可能有偏差,因为爬虫获取的数据是经过豆瓣电影排序的,倘若数据量足够大得出的趋势可能更接近真实情况。
另外发现,影片在上映前也有部分评论,分析可能是影院公映前的小规模试映,且这些提前批的用户的评分均值,差不多接近影评上映后的大规模评论的最终评分 ,从这些细节中,我们或许可以猜测,这些能提前观看影片的,可能是资深影迷或者影视从业人员,他们的评论有着十分不错的参考价值。
6、影评词云图
词云图制作时,先读取CSV文件然后dataframe形式保存,去除评论中非中文文本,选了胡歌照片作为背景,并设置了停用词表。
可以看到高频词“可以”表现出对该片的认可,“特效”体现出特效镜头对科幻片的重要性,“科幻电影”体现出影迷对科幻类电影的浓厚兴趣。
以上就是本次爬取豆瓣网《流浪地球》短评的过程与数据分析。
芝麻动态换IP软件可以实现一键IP自动切换,千万IP库存,自动去重,支持电脑、手机多端使用,智能加速技术多IP池自动分配,数据优化智能模拟百万IP访问,芝麻代理作为动态IP行业的领导者,旨在为各行业提供最优质的网络服务,我们可以为您提供安全高效的IP服务,为您量身打造行业资讯推荐、软件使用技巧,更有专业人士为您定制IP服务,是您建站维护的首要选择。官网可领取免费试用时长,更多问题请点击官网咨询客服。————芝麻动态ip代理运营管理团队
芝麻IP代理软件支持电脑客户端,安卓手机、ios手机,模拟器,虚拟机,云手机一键更换全国IP地址,欢迎访问: 。
python电影评论的情感分析流浪地球_爬虫实例 | Python爬取《流浪地球》豆瓣影评与数据分析(下)...