100字范文 > python获取完整网页内容（即包括js动态加载的）：selenium+phantomjs

python获取完整网页内容（即包括js动态加载的）：selenium+phantomjs

时间：2024-06-08 19:27:06

在上一篇文章（/Trisyp/article/details/78732630）中我们利用模拟打开浏览器的方法模拟点击网页中的加载更多来实现动态加载网页并获取网页内容。但是很不幸，有些网站的这部分内容是使用js动态加载的，我们用普通方法获取的时候，发现有些地方是空白的，所以没法获取Xpath，所以上篇文章方法也就失效了。

可能有些童鞋开始会认为是不是代码出错了，然后打印全部网页内容，发现想要的那部分内容确实没有，再用浏览器去访问网页，右键查看网页源代码发现这部分代码确实没有。我就是那个傻童鞋！！！

所以本篇文章就是希望能够解决这种问题，去抓取js动态加载的网页。首先想到的肯定是使用selenium来调用浏览器进行抓取，但是第一句就说明了，Xpath没法获取，所以就没法通过点击页面元素来实现了。这个时候看到了这篇文章（/yxwb1253587469/article/details/52233562），使用selenium+phantomjs来进行无界面抓取。

具体步骤如下：

1. 下载Phantomjs，下载地址：/

2. 下完之后直接解压就OK了，然后selenium的安装用pip就行了

3. 写代码执行就完成了

完整代码如下：

import requestsfrom bs4 import BeautifulSoupimport refrom selenium import webdriverimport timedef getHTMLText(url):driver = webdriver.PhantomJS(executable_path='D:\\phantomjs-2.1.1-windows\\bin\\phantomjs') # phantomjs的绝对路径time.sleep(2)driver.get(url) # 获取网页time.sleep(2)return driver.page_sourcedef fillUnivlist(html):soup = BeautifulSoup(html, 'html.parser') # 用HTML解析网址tag = soup.find_all('div', attrs={'class': 'listInfo'})print(str(tag[0]))return 0def main():url = '/articleList/rolls/' #要访问的网址html = getHTMLText(url) #获取HTMLfillUnivlist(html)if __name__ == '__main__':main()

然后对于js动态加载，可以用Python模拟请求（一般是get请求，把request headers都加上）。

具体方法是先按F12，打开网页审查元素界面，点击Network，如下图：

排除掉图片、gif、css等，要想找到你想要的网页，你只要尝试打开新的浏览器访问上面的url，然后就可以看到页面信息了，如果是你想要的信息就用request的get方法，把headers补充完整就就行了

请求的url一般很长，如上述图片的url地址是：

http://49.65.0.116/njzwfwrx/njbmfw/resources/oumanage/normal/cnsknowledgenormalread?rowguid=7c0c7a9c-81e5-4e6d-b2f5-fbf4d0492601&knowref=true&_dialogId_=2D9E2CA1-5A80-4ADB-A365-CE5F7B8A9849&_winid=w6228&_t=347563

其实只需保留rowguid就行了，即只需访问：

http://49.65.0.116/njzwfwrx/njbmfw/resources/oumanage/normal/cnsknowledgenormalread?rowguid=7c0c7a9c-81e5-4e6d-b2f5-fbf4d0492601

然后rowguid只需要通过query parameters就能拿到

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。