100字范文,内容丰富有趣,生活中的好帮手!
100字范文 > python爬虫登录微博_Python爬虫学习——使用Cookie登录新浪微博

python爬虫登录微博_Python爬虫学习——使用Cookie登录新浪微博

时间:2022-08-21 20:39:54

相关推荐

python爬虫登录微博_Python爬虫学习——使用Cookie登录新浪微博

1.首先在浏览器中进入WAP版微博的网址,因为手机版微博的内容较为简洁,方便后续使用正则表达式或者beautifulSoup等工具对所需要内容进行过滤

/login/

2.人工输入账号、密码、验证字符,最后最重要的是勾选(记住登录状态)

3.使用Wireshark工具或者火狐的HttpFox插件对GET请求进行分析,需要是取得GET请求中的Cookie信息

在未登录新浪微博的情况下,是可以通过网址查看一个用户的首页的,但是不能进一步查看该用户的关注和粉丝等信息,如果点击关注和粉丝,就会重定向回到登录页面

比如使用下面函数对某个用户 /XXXXXX/fans 的粉丝信息进行访问,会重定向回登录页面

#获取网页函数

def getHtml(url,user_agent="wswp",num_retries=2): #下载网页,如果下载失败重新下载两次

print '开始下载网页:',url

#headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; rv:24.0) Gecko/0101 Firefox/24.0'}

headers = {"User-agent":user_agent}

request = urllib2.Request(url,headers=headers)#request请求包

try:

html = urllib2.urlopen(request).read() #GET请求

except urllib2.URLError as e:

print "下载失败:",e.reason

html = None

if num_retries > 0:

if hasattr(e,'code') and 500 <= e.code < 600:

return getHtml(url,num_retries-1)

return html

所以需要在请求的包中的headers中加入Cookie信息,

在勾选了记住登录状态之后,点击关注或者粉丝按钮,发出GET请求,并使用wireshark对这个GET请求进行抓包

可以抓到这个GET请求

右键Follow TCP Stream,图片中打码的部分就Cookie信息

4.加入Cookie信息,重新获取网页

有了Cookie信息,就可以对Header信息就行修改

#获取网页函数

def getHtml(url,user_agent="wswp",num_retries=2): #下载网页,如果下载失败重新下载两次

print '开始下载网页:',url

#headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; rv:24.0) Gecko/0101 Firefox/24.0'}

headers = {"User-agent":user_agent,"Cookie":"_T_WM=XXXXXXXX; SUB=XXXXXXXX; gsid_CTandWM=XXXXXXXXX"}

request = urllib2.Request(url,headers=headers)#request请求包

try:

html = urllib2.urlopen(request).read() #GET请求

except urllib2.URLError as e:

print "下载失败:",e.reason

html = None

if num_retries > 0:

if hasattr(e,'code') and 500 <= e.code < 600:

return getHtml(url,num_retries-1)

return html

import urllib2

if __name__ == '__main__':

URL = '/XXXXXX/fans'#URL替代

html = getHtml(URL)

print html

成功访问到某个用户的粉丝信息

试一试访问一下最近一年很火的papi酱的微博,她的个人信息页面

import urllib2

if __name__ == '__main__':

URL = '/2714280233/info'#URL替代

html = getHtml(URL)

print html

Python爬虫学习:三、爬虫的基本操作流程

本文是博主原创随笔,转载时请注明出处Maple2cat|Python爬虫学习:三.爬虫的基本操作与流程 一般我们使用Python爬虫都是希望实现一套完整的功能,如下: 1.爬虫目标数据.信息: 2.将 ...

Python爬虫学习:四、headers和data的获取

之前在学习爬虫时,偶尔会遇到一些问题是有些网站需要登录后才能爬取内容,有的网站会识别是否是由浏览器发出的请求. 一.headers的获取 就以博客园的首页为例:blogs.c ...

《Python爬虫学习系列教程》学习笔记

/1052.html 大家好哈,我呢最近在学习Python爬虫,感觉非常有意思,真的让生活可以方便很多.学习过程中我把一些学习的笔记总结下来,还记录了一些自己 ...

python爬虫scrapy框架——人工识别登录知乎倒立文字验证码和数字英文验证码&lpar;2&rpar;

操作环境:python3 在上一文中python爬虫scrapy框架--人工识别知乎登录知乎倒立文字验证码和数字英文验证码(1)我们已经介绍了用Requests库来登录知乎,本文如果看不懂可以先看之前 ...

&lbrack;转&rsqb;《Python爬虫学习系列教程》

学习笔记 /1052.html 大家好哈,我呢最近在学习Python爬虫,感觉非常有意思,真的让生活可以方便很多. ...

python爬虫学习&lpar;1&rpar; —— 从urllib说起

0. 前言 如果你从来没有接触过爬虫,刚开始的时候可能会有些许吃力 因为我不会从头到尾把所有知识点都说一遍,很多文章主要是记录我自己写的一些爬虫 所以建议先学习一下cuiqingcai大神的 Pyth ...

python爬虫学习 —— 总目录

开篇 作为一个C党,接触python之后学习了爬虫. 和AC算法题的快感类似,从网络上爬取各种数据也很有意思. 准备写一系列文章,整理一下学习历程,也给后来者提供一点便利. 我是目录 听说你叫爬虫 - ...

Python爬虫学习:二、爬虫的初步尝试

我使用的编辑器是IDLE,版本为Python2.7.11,Windows平台. 本文是博主原创随笔,转载时请注明出处Maple2cat|Python爬虫学习:二.爬虫的初步尝试 1.尝试抓取指定网页 ...

python爬虫学习视频资料免费送,用起来非常666

当我们浏览网页的时候,经常会看到像下面这些好看的图片,你是否想把这些图片保存下载下来. 我们最常规的做法就是通过鼠标右键,选择另存为.但有些图片点击鼠标右键的时候并没有另存为选项,或者你可以通过截图工 ...

随机推荐

Vue&period;js学习笔记(1)

数据的双向绑定(ES6写法) 效果: 没有改变 input 框里面的值时

lua 基础 1

--1.1 Chunks--[[Chunk 是一系列语句,Lua 执行的每一块语句,比如一个文件或者交互模式下的每一行都是一个 Chunk.]] -- 1.2 全局变量--[[ 全局变量不需要声明,给 ...

【ASP&period;NET Web API教程】6&period;3 内容协商

本文是Web API系列教程的第6.3小节 6.3 Content Negotiation 6.3 内容协商 摘自:/web-api/overview/format ...

JDBC 是什么

JDBC is a Java database connectivity technology (Java Standard Edition platform) from Oracle Corpora ...

PHP文件下载原理

1.php下载原理图 2.文件下载源码: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 <?php $ ...

LIBRARY&lowbar;PATH和LD&lowbar;LIBRARY&lowbar;PATH环境变量的区别

LIBRARY_PATH和LD_LIBRARY_PATH是Linux下的两个环境变量,二者的含义和作用分别如下: LIBRARY_PATH环境变量用于在程序编译期间查找动态链接库时指定查找共享库的路径 ...

122A

Copy #include int main() { int dig; int flag=0; scanf("%d", &dig); if( ...

bzoj3675

题解:首先要明确一件事,就是当分割的方案固定时,无论先分割的哪一段,结果都是不变的,然后能列出dp方程:\(dp[i][j]=max(dp[k][j-1]+(a[i]-a[k])*(a[n]-a[i] ...

关于Java的接口

其实刚开始听到接口的时候不解其意,为什么要有接口这个东西,加之老师上课我可能没仔细听(或者时间长了忘了?),这次看到了“用接口设计并实现圆,三角形,矩形的面积与周长计算”这个题目的代码,它将接口定义在 ...

微信小程序开发环境

微信小程序开发环境 不忘初心,方得始终.初心易得,始终难守 小程序开发环境 开发工具下载地址:https://developers./miniprogram/dev/devt ...

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。