100字范文,内容丰富有趣,生活中的好帮手!
100字范文 > python开发跟淘宝有联系没_Python爬取淘宝店铺和评论

python开发跟淘宝有联系没_Python爬取淘宝店铺和评论

时间:2020-05-12 18:49:06

相关推荐

python开发跟淘宝有联系没_Python爬取淘宝店铺和评论

1.安装开发需要的一些库

(1) 安装mysql 的驱动:在Windows上按win+r输入cmd打开命令行,输入命令pip install pymysql,回车即可。

(2) 安装自动化测试的驱动selenium:在命令行中输入pip install selenium回车。

(3) 安装标签解析库pyquery: 在命令行中输入pip install pyquery回车。

(4) Anaconda指的是一个开源的Python发行版本,其包含了conda、Python等180多个科学包及其依赖项,下载anaconda,安装后配置环境变量,在path中添加E:\Anaconda3\anaconda\Library\bin,重启电脑使环境变量生效,安装jieba库,在命令行中输入pip install jieba回车。

index.html,并将chromedriver.exe放在Python安装目录的Scripts文件夹下。

2.实现

2.1 搜索模块

搜索功能即一个数据框和一个搜索按钮组成,点击搜索之后会跳转到显示框的界面,之后点击爬取数据可以在淘宝网站中对该商品进行搜索,并且爬取相关店铺的信息,并储存到数据库中。

界面显示用到Tkinter库,Tkinter 是 Python 的标准 GUI 库。Python 使用 Tkinter 可以快速的创建 GUI 应用程序。

搜索主要用到selenium,也就是自动化测试工具,测试中根据pyquery中的提供的方法,在得到网页源码的情况下,根据HTML中的标签找到输入框,搜索按钮和翻页的按钮,模拟人工输入和点击,实现自动化控制,最后根据标签提取出相应的信息插入数据库中。

因为每个网站因网速的的问题都有响应时间,用WebDriverWait(driver,50)设置响应时间为50s,也就是响应超过50s便出现异常。提取数据时我用的是find_element_by_css_selector()方法,也就是标签选择器,可以定位到相应的区域。

Python连接数据库用到pymysql,PyMySQL 是在 Python3.x 版本中用于连接 MySQL 服务器的一个库。当得到标题,店铺名称,地点,购买人数,店铺链接时,以“|”分割拼接成字符串,作为参数传递给insert_data()方法,插入到数据库中。因为可能会有异常,所以放到try块中。

爬取数据的实现主要是用到了Pyquery、selenium库,以下代码主要实现了对淘宝的检索、翻页和对数据的提取。

2.2 显示模块

当点击搜索之后,考虑到可能搜索的商品会有本地储存,所以没有对其直接搜索,而是在显示框中增加了一个爬取数据的按钮,该按钮即对商品进行搜索,而本地数据就是对数据库的data表进行查询,并将数据显示到界面上来。排序是对本地数据按购买人数进行排序,并显示在文本框中,在显示行数后面输入数字后,可以控制文本框的显示条数,默认显示10条。一键删除即把data表中的数据清空。

本地数据:对数据库中的data表进行查询,并将信息显示到文本框中,其中每条数据中间以“——”分开,每个字段之间以“|”分隔,因为考虑到店铺名称或是标题太长而不整齐,所以每个字段显示10个字符。

排序:当点击排序之后,会查询出数据库中每条数据的购买人数和店铺名称,并且以“,”分割拼接成字符串,设置一个元组(即数组性质),并根据用户输入的显示行数,控制元组的长度,具体实现:根据从数据库中得到的数据,每条每条的读取,当读取条数达到用户输入的显示行数的值,对元组中的数据用sort(reverse=True)对其进行从大到小排序:原理是:因购买人数一个月不超过一百万,所以得到的购买人数的最大长度为6位,这样,当每次读取的购买人数的长度不够6位时,在其前面补0,这样,购买人数的长度都为6,对其拼接的格式为“购买人数,店铺名称”,因为拼接后为字符串类型,所以用shot排序时会根据前面的购买人数进行字典序进行排序,进而前n条数据就排好序了,接着,每读取一条数据就对元组中最后一个数据进行比较,若是大于其数值,就插入到元组中,最后返回元组,这样,就实现了显示n条购买人数最多的数据。清除数据:对文本框中的数据进行清空,同时,删除data表中的数据。

以下代码是一个排序的算法,其主要作用是在界面上显示多少行数据,主要思路为:根据用户输入的数字创建一个数组,读取数据库中得到数据,分离出来购买人数并转换成int类型,将数据每次添加一个到数组中,当数组的长度等于用户想要显示最大行数时,对其数组中的数据从大到小进行排序,接下来,每当读取一个数据之后,就对数组中最小的那个进行比较,如果比起小,就跳过,否则,对该数据进行插入操作,并删除之前最小的那个数据,最后数组中保存的就是购买人数最多的前n条数据。

主要代码如下:

2.3 评论模块

点击查看链接之后会出现一个搜索框,即根据店铺名称搜索出相关的连接,点击查看评论之后可以对其店铺进行爬取,最后显示在评论框中。分析就是对评论进行关键词提取,并按权重显示出前n个词。点击查看评论进行自动化测试。

搜索店铺链接:根据用户输入的信息对数据库进行模糊查询,返回所有的匹配信息。并显示在文本框中。

爬取评论:首先清空comment表中的数据,根据curselection()方法得到用户选中的链接,接着对该链接进行爬取,在进入该店铺时,会提示需要登录,这样会对我们的自动化测试造成一定的阻碍,这里,我根据pyquery中提供的标签选择器,找到关闭按钮,模拟点击进行关闭,当进入店铺后,依旧是先得到该网页的源代码,根据标签选择器进行相应的操作,爬取到的评论时间,评论和购买物品以“|”拼接成字符串,显示到文本框的同时插入到数据库中。

评论分析:jieba是Python的中文分词组件。当查询到comment表中所有数据时,将每一条数据拼接成一个字符串,接着用jieba.posseg中的cut()方法,将评论分割成单个词并标注词性,用startswith('a')、startswith('v')得到形容词和动词。最后用jieba.analyse.extract_t

ags(v,topK=10)方法得到动词、形容词中权重较大的前10个词。

以下代码是对评论进行关键词的提取,用到了jieba库中的一些方法。

主要代码如下:

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。