100字范文 > 珍爱网html模板 python爬虫基础实战:爬取珍爱网征婚女士信息爬取Discuz论坛发帖和

珍爱网html模板 python爬虫基础实战:爬取珍爱网征婚女士信息爬取Discuz论坛发帖和

时间：2019-03-15 23:06:22

环境准备

搭建Python环境

略

安装requests:

进入Python安装目录下的Scripts目录(确保pip.exe文件存在,正常情况下存在)

进入cmd终端并进入该目录,输入命令"pip install requests"

安装re(可以省略)

输入pip install re

爬取珍爱网信息代码

import requests

import re

class Zhenghun(object):

url = "/zhenghun/"

# 爬取类型为指定城市的女性

def __init__(self,city):

self.newurl = Zhenghun.url + city + "/nv"

# 获取html内容

def getHtml(self):

return requests.get(self.newurl).content.decode("utf-8")

# 通过正则表达式过滤html中的内容并返回数组

def parse(self):

html = self.getHtml()

rex = ']*[^'

list = re.findall(rex,html)

return list

def main():

# 设定城市

citylist = ["dongcheng","chaoyang1","changping"]

# 按城市遍历

for city in citylist:

zhenghun = Zhenghun(city)

list = zhenghun.parse()

# 按解析遍历

for l in list:

# 切片

u = l.split('"')

#print(u[1])

n = l[l.rfind('"')+2:l.rfind("

爬取结果(已遮挡网址,侵删)

爬取Discuz论坛发帖和回帖代码

代码尚未优化

import requests

import re

# 爬取Discuz发帖和回帖内容

class Discuz(object):

# 用于存取主题链接的集合

list2 = set()

# 初始页面

url = "/forum-plugin-1.html"

def __init__(self):

self.firstUrl = Discuz.url

# 获取初始页面html内容

def getFirstHtml(self):

return requests.get(self.firstUrl).content.decode("gbk")

# 获取跳转路径

def getPath(self):

html = self.getFirstHtml()

# 正则匹配

secondUrl = '', '', content, 0).replace("", "").replace("\n", "")

# 切片

sp1 = sp.split('99">')

# 将切片结果输出

word = sp1[1]

print(word)

def main():

discuz = Discuz()

getUrl = discuz.getSecondHtml()

# for i in getUrl:

# print(i)

discuz.getThirdHtml(getUrl)

# print(discuz.list2)

if __name__ == "__main__":

main()

爬取结果

由于该网站对于匹配发帖和回帖内容的标签有多种,导致爬取结果不全,可以使用多种正则匹配方法匹配信息

珍爱网html模板 python爬虫基础实战:爬取珍爱网征婚女士信息爬取Discuz论坛发帖和回帖代码案例...

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。

珍爱网html模板 python爬虫基础实战:爬取珍爱网征婚女士信息 爬取Discuz论坛发帖和

珍爱网html模板 python爬虫基础实战:爬取珍爱网征婚女士信息爬取Discuz论坛发帖和