100字范文 > 使用python 编写抓取内涵段子动态图的简单爬虫

使用python 编写抓取内涵段子动态图的简单爬虫

时间：2021-01-31 23:17:35

前段时间在浏览知乎的时候发现了一个关于python编写爬虫的帖子，下面是帖子的链接 /question/20899988

所以就想到了使用python也来试试爬取一些东西，本打算是根据关键词爬取百度图片的图片并下载，但是过程中遇到了阻碍，暂时停止了。然后去内涵段子的页面结构发现比较简

单一点，然后就实现了一个下图爬虫。

我编写这个程序时是参考的知乎里面帖子中的这个博主的相关博客 /pleasecallmewhy/article/details/8929576

编写这个程序主要分为下面的几个步骤：

1.分析内涵社区的页面结构

2.使用正则表达式找出待下载的url

3.下载这些图片

首先是第一步，这也是比较关键的一步，如果页面分析的不正确，那么后面的步骤也就无法下手了。

1.打开内涵段子的囧图页面 /pic/

我们会看到下面的页面

在这个页面下就有我们想要的一些搞笑图片，但是我们首先需要的就是获得这个这个页面的html文件，这里我用到了python的urllib这个库，代码如下

def get_html(url):print "---------------now get html from url :" + url + "----------"send_headers = {Host:\,User-Agent:Mozilla/5.0 (Windows NT 6.1; WOW64; rv:37.0) Gecko/0101 Firefox/37.0,Cookie:"pksrqup=1; csrftoken=237f4451075fe45cef3a4f5449f70658; tt_webid=3379513254; uuid=\"w:33266c46f0cc4fa6944c073b1b1bccea\"",Connection:keep-alive}req = urllib2.Request(url ,headers=send_headers) try: response = urllib2.urlopen(req ,timeout = 100) html = response.read()return htmlexcept urllib2.HTTPError, e: print The server couldn\ fulfill the request. print Error code: , e.code except urllib2.URLError, e: print We failed to reach a server. print Reason: , e.reason else: print No exception was raised.

需要使用urllib 模拟发送的信息使用火狐的Firebug插件就可以看到，然后复制头信息出来，填到上面的header里面去就可以了。这里面的Cooiker需要添加，不添加会获取不到html文件，具体的urlib的使用介绍参见上面那位博主的博客，讲的很清楚。

现在html文件是获取到了，我们来观察一下这个文件，这个html文件结构还是比较清晰的。

每一个帖子都是由一个div组成，然后对于标题，图片和评论又各是一个div

在class = content-wrapper的div里面我们找到了这句话

这个data-text 就是囧图的配字，data-pic就是囧图的地址，那么我们的工作来了，就是获取这里面所有的data-pic和data-text(之后可以作为图片的名称)

解析这个html中的所有这两个字段，需要用到python的正则表达式，我们这里用到的非常简单，我是模仿得到的，具体的re教程去上面的博主那也可以获得

下面是我的re解析代码

这样就可以根据我刚才获得html文件解析出来所有的图片的地址了，然后下面就可以下载了，下载使用到了urllib相关的函数

-----------------截止上面你就可以下载几十张图片了

为什么只是几十张图片呢？

原因是我们刚才获取的只是首页面的html文件，那么更多的html文件怎么获得呢？

我们注意到在页面的下端有一个加载更多的按钮吧，点击它之后就可以获得图片了。