100字范文,内容丰富有趣,生活中的好帮手!
100字范文 > 使用python 编写 抓取内涵段子动态图的简单爬虫

使用python 编写 抓取内涵段子动态图的简单爬虫

时间:2021-01-31 23:17:35

相关推荐

使用python 编写 抓取内涵段子动态图的简单爬虫

前段时间在浏览知乎的时候发现了一个关于python编写爬虫的帖子,下面是帖子的链接 /question/20899988

所以就想到了使用python也来试试爬取一些东西,本打算是根据关键词爬取百度图片的图片并下载,但是过程中遇到了阻碍,暂时停止了。然后去内涵段子的页面结构发现比较简

单一点,然后就实现了一个下图爬虫。

我编写这个程序时是参考的知乎里面帖子中的这个博主的相关博客 /pleasecallmewhy/article/details/8929576

编写这个程序主要分为下面的几个步骤:

1.分析内涵社区的页面结构

2.使用正则表达式找出待下载的url

3.下载这些图片

首先是第一步,这也是比较关键的一步,如果页面分析的不正确,那么后面的步骤也就无法下手了。

1.打开内涵段子的囧图页面 /pic/

我们会看到下面的页面

在这个页面下就有我们想要的一些搞笑图片,但是我们首先需要的就是获得这个这个页面的html文件,这里我用到了python的urllib这个库,代码如下

def get_html(url):print "---------------now get html from url :" + url + "----------"send_headers = {Host:\,User-Agent:Mozilla/5.0 (Windows NT 6.1; WOW64; rv:37.0) Gecko/0101 Firefox/37.0,Cookie:"pksrqup=1; csrftoken=237f4451075fe45cef3a4f5449f70658; tt_webid=3379513254; uuid=\"w:33266c46f0cc4fa6944c073b1b1bccea\"",Connection:keep-alive}req = urllib2.Request(url ,headers=send_headers) try: response = urllib2.urlopen(req ,timeout = 100) html = response.read()return htmlexcept urllib2.HTTPError, e: print The server couldn\ fulfill the request. print Error code: , e.code except urllib2.URLError, e: print We failed to reach a server. print Reason: , e.reason else: print No exception was raised.

需要使用urllib 模拟发送的信息使用火狐的Firebug插件就可以看到,然后复制头信息出来,填到上面的header里面去就可以了。这里面的Cooiker需要添加,不添加会获取不到html文件,具体的urlib的使用介绍参见上面那位博主的博客,讲的很清楚。

现在html文件是获取到了,我们来观察一下这个文件,这个html文件结构还是比较清晰的。

每一个帖子都是由一个div组成,然后对于标题,图片和评论又各是一个div

在class = content-wrapper的div里面我们找到了这句话

这个data-text 就是囧图的配字,data-pic就是囧图的地址,那么我们的工作来了,就是获取这里面所有的data-pic和data-text(之后可以作为图片的名称)

解析这个html中的所有这两个字段,需要用到python的正则表达式,我们这里用到的非常简单,我是模仿得到的,具体的re教程去上面的博主那也可以获得

下面是我的re解析代码

这样就可以根据我刚才获得html文件解析出来所有的图片的地址了,然后下面就可以下载了,下载使用到了urllib相关的函数

-----------------截止上面你就可以下载几十张图片了

为什么只是几十张图片呢?

原因是我们刚才获取的只是首页面的html文件,那么更多的html文件怎么获得呢?

我们注意到在页面的下端有一个加载更多的按钮吧,点击它之后就可以获得图片了。

同样我们使用firebug 来抓一下包。

打开这个Get请求和结果</

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。