100字范文,内容丰富有趣,生活中的好帮手!
100字范文 > 爬虫cookie过期_【Python】Scrapy爬虫框架之Request和Response

爬虫cookie过期_【Python】Scrapy爬虫框架之Request和Response

时间:2022-03-16 17:57:26

相关推荐

爬虫cookie过期_【Python】Scrapy爬虫框架之Request和Response

说明

Scrapy的Request和Response对象用于爬取网站。

HTTP是无状态的面向连接的协议, 为了保持连接状态, 引入了Cookie机制 Cookie是http消息头中的一种属性,包括:

Cookie名字(Name)

Cookie的值(Value)

Cookie的过期时间(Expires/Max-Age)

Cookie作用路径(Path)

Cookie所在域名(Domain)

使用Cookie进行安全连接(Secure)

前两个参数是Cookie应用的必要条件,另外,还包括Cookie大小(Size,不同浏览器对Cookie个数及大小限制是有差异的)。

Request

源码参考;

# 部分代码

classRequest(object_ref):

def__init__(self, url, callback=None, method='GET', headers=None, body=None,

cookies=None, meta=None, encoding='utf-8', priority=0,

dont_filter=False, errback=None):

self._encoding = encoding # this one has to be set first

self.method = str(method).upper()

self._set_url(url)

self._set_body(body)

assert isinstance(priority, int), "Request priority not an integer: %r"% priority

self.priority = priority

assert callback ornoterrback, "Cannot use errback without a callback"

self.callback = callback

self.errback = errback

self.cookies = cookies or{}

self.headers = Headers(headers or{}, encoding=encoding)

self.dont_filter = dont_filter

self._meta = dict(meta) ifmeta elseNone

@property

defmeta(self):

ifself._meta is None:

self._meta = {}

returnself._meta

Request 对象表示一个HTTP请求,它通常是在爬虫生成,并由下载执行,从而生成Response 有请求才有响应 Request 对象在我们写爬虫,爬取一页的数据需要重新发送一个请求的时候调用。这个类需要传递一些参数,其中比较常用的参数有:

url: 就是需要请求,并进行下一步处理的url

callback: 指定该请求返回的Response,由那个函数来处理。

method: 请求一般不需要指定,默认GET方法,可设置为"GET", "POST", "PUT"等,且保证字符串大写

headers: 请求时,包含的头文件。一般不需要。内容一般如下:

Host:

User-Agent: Mozilla/5.0 (Windows NT 6.2; WOW64; rv:33.0) Gecko/0101 Firefox/33.0

Accept: text/css,*/*;q=0.1

Accept-Language: zh-cn,zh;q=0.8,en-us;q=0.5,en;q=0.3

Accept-Encoding: gzip, deflate

Referer: http://scrapy-/zh_CN/0.24/

Cookie: _ga=GA1.2.1612165614.1415584110;

Connection: keep-alive

If-Modified-Since: Mon, 25 Aug 21:59:35 GMT

Cache-Control: max-age=0

meta: 比较常用,在不同的请求之间传递数据使用的。字典dict型:

request_with_cookies = Request(

url="",

cookies={'currency': 'USD', 'country': 'UY'},

meta={'dont_merge_cookies': True}

)

encoding: 使用默认的 'utf-8' 就行。

dont_filter: 表明该请求不由调度器过滤。这是当你想使用多次执行相同的请求,忽略重复的过滤器。默认为False。

errback: 指定错误处理函数

Response

源码参考:

# 部分代码

classResponse(object_ref):

def__init__(self, url, status=200, headers=None, body='', flags=None, request=None):

self.headers = Headers(headers or{})

self.status = int(status)

self._set_body(body)

self._set_url(url)

self.request = request

self.flags = [] ifflags is None elselist(flags)

@property

defmeta(self):

try:

returnself.request.meta

except AttributeError:

raise AttributeError("Response.meta not available, this response "\

"is not tied to any request")

大部分参数和上面的差不多:

status: 响应码

_set_body(body):响应体

_set_url(url):响应url

self.request = request

发送POST请求

可以使用yield scrapy.FormRequest(url, formdata, callback)方法发送POST请求。

如果希望程序执行一开始就发送POST请求,可以重写Spider类的start_requests(self) 方法,并且不再调用start_urls里的url。

classmySpider(scrapy.Spider):

# start_urls = ["/"]

defstart_requests(self):

url = '/login'

# FormRequest 是Scrapy发送POST请求的方法

yieldscrapy.FormRequest(

url = url,

formdata = {"email": "loaderman@", "password": "loaderman"},

callback = self.parse_page

)

defparse_page(self, response):

# do something

示例-模拟登陆:

使用FormRequest.from_response()方法模拟用户登录 通常网站通过 实现对某些表单字段(如数据或是登录界面中的认证令牌等)的预填充。

使用Scrapy抓取网页时,如果想要预填充或重写像用户名、用户密码这些表单字段, 可以使用 FormRequest.from_response() 方法实现。

下面是使用这种方法的爬虫例子:

import scrapy

classLoginSpider(scrapy.Spider):

name = ''

start_urls = ['/users/login.php']

defparse(self, response):

returnscrapy.FormRequest.from_response(

response,

formdata={'username': 'loaderman', 'password': '123456'},

callback=self.after_login

)

defafter_login(self, response):

# check login succeed before going on

if"authentication failed"inresponse.body:

self.log("Login failed", level=log.ERROR)

return

# continue scraping with authenticated session...

知乎爬虫案例参考

MouhuSpider.py爬虫代码

# -*- coding:utf-8 -*-

classMouhuSipder(CrawlSpider) :

name = "mouhu"

allowed_domains = [""]

start_urls = [

""

]

rules = (

Rule(LinkExtractor(allow = ('/question/\d+#.*?', )), callback = 'parse_page', follow = True),

Rule(LinkExtractor(allow = ('/question/\d+', )), callback = 'parse_page', follow = True),

)

headers = {

"Accept": "*/*",

"Accept-Encoding": "gzip,deflate",

"Accept-Language": "en-US,en;q=0.8,zh-TW;q=0.6,zh;q=0.4",

"Connection": "keep-alive",

"Content-Type":" application/x-www-form-urlencoded; charset=UTF-8",

"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10.15; rv:81.0) Gecko/0101 Firefox/81.0",

"Referer": "/"

}

#重写了爬虫类的方法, 实现了自定义请求, 运行成功后会调用callback回调函数

defstart_requests(self):

return[Request("/login", meta = {'cookiejar': 1}, callback = self.post_login)]

defpost_login(self, response):

print 'Preparing login'

#下面这句话用于抓取请求网页后返回网页中的_hzex字段的文字, 用于成功提交表单

hzex = Selector(response).xpath('//input[@name="_hzex"]/@value').extract()[0]

print hzex

#FormRequeset.from_response是Scrapy提供的一个函数, 用于post表单

#登陆成功后, 会调用after_login回调函数

return[FormRequest.from_response(response, #"/login",

meta = {'cookiejar': response.meta['cookiejar']},

headers = self.headers, #注意此处的headers

formdata = {

'_hzex': hzex,

'email': '123456@',

'password': '123456'

},

callback = self.after_login,

dont_filter = True

)]

defafter_login(self, response):

forurl inself.start_urls :

yieldself.make_requests_from_url(url)

defparse_page(self, response):

problem = Selector(response)

item = ZhihuItem()

item['url'] = response.url

item['name'] = problem.xpath('//span[@]/text()').extract()

print item['name']

item['title'] = problem.xpath('//h2[@]/text()').extract()

item['description'] = problem.xpath('//div[@]/text()').extract()

item['answer']= problem.xpath('//div[@]/text()').extract()

returnitem

Item类设置

fromscrapy.itemimportItem, Field

classMouhuItem(Item):

# define the fields for your item here like:

# name = scrapy.Field()

url = Field()#保存抓取问题的url

title = Field()#抓取问题的标题

description = Field()#抓取问题的描述

answer = Field()#抓取问题的答案

name = Field()#个人用户的名称

setting.py 设置抓取间隔

BOT_NAME='mouhu'

SPIDER_MODULES= ['mouhu.spiders']

NEWSPIDER_MODULE='mouhu.spiders'

DOWNLOAD_DELAY=0.25#设置下载间隔为250ms

码上加油站

一起来加油

长按扫码关注

记得点个在看哦!

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。