100字范文 > selenium抓取淘宝的商品信息

selenium抓取淘宝的商品信息

时间：2024-06-08 20:57:12

相关推荐

selenium抓取淘宝的商品信息

web前端|js教程

selenium,信息,抓取

web前端-js教程

淘宝的页面大量使用了js加载数据，所以采用selenium来进行爬取更为简单，selenum作为一个测试工具，主要配合无窗口浏览器phantomjs来使用。本文主要为大家分享一篇使用selenium抓取淘宝的商品信息实例，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧，希望能帮助到大家。

php 招投标系统源码,vscode向下复制一行,发布时间ubuntu,tomcat怎么下载源码,每天爬虫抓取,php raise,建阳区专业seo服务费lzw

关机源码,ubuntu和debain,默认tomcat连接池,python图书爬虫,php手机验证码接口,山东短视频seo收益怎么样lzw

import refrom selenium import webdriverfrom mon.exceptions import TimeoutExceptionfrom mon.by import Byfrom selenium.webdriver.support.ui import WebDriverWaitfrom selenium.webdriver.support import expected_conditions as ECfrom pyquery import PyQuery as pq\wait.until()语句是selenum里面的显示等待，wait是一个WebDriverWait对象，它设置了等待时间，如果页面在等待时间内没有在 DOM中找到元素，将继续等待，超出设定时间后则抛出找不到元素的异常,也可以说程序每隔xx秒看一眼，如果条件成立了，则执行下一步，否则继续等待，直到超过设置的最长时间，然后抛出TimeoutException1.presence_of_element_located 元素加载出，传入定位元组，如(By.ID, p)2.element_to_be_clickable 元素可点击3.text_to_be_present_in_element 某个元素文本包含某文字\# 定义一个无界面的浏览器browser = webdriver.PhantomJS( service_args=[ --load-images=false, --disk-cache=true])# 10s无响应就down掉wait = WebDriverWait(browser, 10)#虽然无界面但是必须要定义窗口browser.set_window_size(1400, 900)def search(): \ 此函数的作用为完成首页点击搜索的功能，替换标签可用于其他网页使用 :return: \ print(正在搜索) try: #访问页面 browser.get(\) # 选择到淘宝首页的输入框 input = wait.until( EC.presence_of_element_located((By.CSS_SELECTOR, #q)) ) #搜索的那个按钮 submit = wait.until(EC.element_to_be_clickable( (By.CSS_SELECTOR, #J_TSearchForm > p.search-button > button))) #send_key作为写到input的内容 input.send_keys(面条) #执行点击搜索的操作 submit.click() #查看到当前的页码一共是多少页 total = wait.until(EC.presence_of_element_located( (By.CSS_SELECTOR, #mainsrp-pager > p > p > p > p.total))) #获取所有的商品 get_products() #返回总页数 return total.text except TimeoutException: return search()def next_page(page_number): \ 翻页函数， :param page_number: :return: \ print(正在翻页, page_number) try: #这个是我们跳转页的输入框 input = wait.until(EC.presence_of_element_located( (By.CSS_SELECTOR, #mainsrp-pager > p > p > p > p.form > input))) #跳转时的确定按钮 submit = wait.until( EC.element_to_be_clickable( (By.CSS_SELECTOR,#mainsrp-pager > p > p > p > p.form > span.J_Submit))) #清除里面的数字 input.clear() #重新输入数字 input.send_keys(page_number) #选择并点击 submit.click() #判断当前页是不是我们要现实的页 wait.until( EC.text_to_be_present_in_element( (By.CSS_SELECTOR,#mainsrp-pager > p > p > p > ul > li.item.active > span), str(page_number))) #调用函数获取商品信息 get_products() #捕捉超时，重新进入翻页的函数 except TimeoutException: next_page(page_number)def get_products(): \ 搜到页面信息在此函数在爬取我们需要的信息 :return: \ #每一个商品标签，这里是加载出来以后才会拿网页源代码 wait.until(EC.presence_of_element_located( (By.CSS_SELECTOR, #mainsrp-itemlist .items .item))) #这里拿到的是整个网页源代码 html = browser.page_source #pq解析网页源代码 doc = pq(html) items = doc(#mainsrp-itemlist .items .item).items() for item in items: # print(item) product = { image: item.find(.pic .img).attr(src), price: item.find(.price).text(), deal: item.find(.deal-cnt).text()[:-3], itle: item.find(.title).text(), shop: item.find(.shop).text(), location: item.find(.location).text() } print(product)def main(): try: #第一步搜索 total = search() #int类型刚才找到的总页数标签，作为跳出循环的条件 total = int(pile((\d+)).search(total).group(1)) #只要后面还有就继续爬，继续翻页 for i in range(2, total + 1): next_page(i) except Exception: print(出错啦) finally: #关闭浏览器 browser.close()if __name__ == \__main__: main()

.net 网上源码,vscode修改括号的颜色,ubuntu麒麟卡,tomcat上运行项目,中文爬虫编程,php中文字符比较,济南论坛营销seo推广公司推荐,3d网站源码爱情3d,joomla模板修改工具lzw

使用selenium 截屏生成图片的方法

selenium之实现自动登录的实例代码

详解在selenium中设置代理ip方法

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。