100字范文,内容丰富有趣,生活中的好帮手!
100字范文 > 爬虫中使用selenium实现对斗鱼直播的各个房间标题 主播id 直播内容类型和热度信息的爬取

爬虫中使用selenium实现对斗鱼直播的各个房间标题 主播id 直播内容类型和热度信息的爬取

时间:2020-03-12 01:23:32

相关推荐

爬虫中使用selenium实现对斗鱼直播的各个房间标题 主播id 直播内容类型和热度信息的爬取

每日分享:

千万不要因为别人的否定就开始自我否定,人生本来就是一个主观的过程,别人是否喜欢你,其实是对方世界的事,所以面对别人的不喜欢,不要自卑不要刻意讨好,你要专注的做自己

思路分析:

url(网页的url)创建driver对象发送get请求parse data(分析处理数据)save data(保存数据)翻页

在一个循环中反复执行4、5、6操作,如果到最后一页则跳出循环。

再说一些我写代码遇到的一些问题:

用xpath可以找到你想找的元素,但如果要对其进行点击操作,需要先下滑页面至页面内有该元素之后才可以点击关于斗鱼中每个房间的封面图片的爬取,花了很多时间尝试,感觉应该设置有反爬,直接爬取,爬到了三张图片,后来设置了休眠时间,爬到图片多了几张,20s爬一张也只爬了不到十张。(因为自己也是初学者,还没有学习反爬、反反爬,所以就放弃了)下滑操作前的time.sleep(1)是一定要写的(休眠时间自己设定),当时我是在这卡了很长的时间,因为发现网页并不下滑,所以也导致“下一页“这个元素点击失败。如果不设置休眠一秒,仔细看会发现,并不是页面不下滑,是页面下滑了之后又回到了顶部,可能这是一种反爬吧。建议下一页的xpath自己用一个靠谱的方法写,比如用内容查找;当时直接复制的标签的xpath,翻页到第四页就出错了,原因可能是xpath未找到源码注释比较详细如果全部爬取(我当时是200多页),爬取时间会挺长的

源码如下:

from selenium import webdriverimport timeclass Dou_yu(object):def __init__(self):self.url = '/directory/all'self.driver = webdriver.Chrome()def parse_data(self):# 建议加上这个休眠,不然可能会因为网速问题,导致页面未加载完毕,爬取失败time.sleep(3)# 每一页的所有房间存入列表room_list = self.driver.find_elements('xpath', '//*[@id="listAll"]/section[2]/div[2]/ul/li/div')# 120个,证明没出错# print(len(room_list))# 创建列表,暂时存放爬取的信息data_list = []for room in room_list:# 将爬取的各个信息放入字典tmp = {}tmp['title'] = room.find_element('xpath', './a/div[2]/div[1]/h3').get_attribute('textContent')tmp['type'] = room.find_element('xpath', './a/div[2]/div[1]/span').get_attribute('textContent')tmp['owner'] = room.find_element('xpath', './a/div[2]/div[2]/h2/div').get_attribute('textContent')tmp['popularity'] = room.find_element('xpath', './a/div[2]/div[2]/span').get_attribute('textContent')data_list.append(tmp)# tmp['picture'] = room.find_element('xpath', './a/div[1]/div[1]/picture/img').get_attribute('src')# print(tmp)return data_listdef save_data(self, data_list):# 先转换为str,方便写入文件data_list = str(data_list)with open('斗鱼.txt', 'a', encoding='utf-8')as f:f.write(data_list+'\n')def run(self):self.driver.get(self.url)# url# 创建driver# 发送get# parse-datawhile True:data_list = self.parse_data()# save-dataself.save_data(data_list)# 翻页# 这个time.sleep(1)是一定要写的(休眠时间自己设定),当时我是在这卡了很长的时间,因为发现网页并不下滑,所以也导致“下一页“这个元素点击失败。如果不设置休眠一秒,仔细看会发现,并不是页面不下滑,是页面下滑了之后又回到了顶部,可能这是一种反爬吧。time.sleep(1)# 直接设置一个比较大的值,下滑到底部js = 'scrollTo(0,10000)'# 执行js代码self.driver.execute_script(js)# 仔细观察斗鱼直播的第一页和最后一页,他们所属的li标签内的aria-disabled值不一样,不是尾页为faule,尾页为true,到尾页后跳出循环if self.driver.find_element('xpath', '//li[@title="下一页"]').get_attribute('aria-disabled') == 'true':break# 找到下一页按钮并点击self.driver.find_element('xpath', '//span[contains(text(),"下一页")]').click()if __name__ == '__main__':dou_yu = Dou_yu()dou_yu.run()

部分结果如下:

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。