100字范文,内容丰富有趣,生活中的好帮手!
100字范文 > Python:6小时爬完上交所和深交所的年报问询函

Python:6小时爬完上交所和深交所的年报问询函

时间:2022-05-05 15:38:48

相关推荐

Python:6小时爬完上交所和深交所的年报问询函

原文链接:/news/0e57c635cd225.html

目录

一、任务描述二、解决思路三、网页分析 1. 数据包位置2. 翻页3. 下载PDF4. 深交所网页和上交所网页的区别四、PDF转TXT五、核心代码 1. 获取上交所问询函列表2. 爬取PDF并直接转为TXT3. 遍历文件夹中所有TXT和DOC文件并生成列表六、最终爬取结果主要参考链接

昨天开组会的时候导师说想搞年报问询函的研究,但是买数据库太贵了。我说放着我来 ( ′)ψ。

一、任务描述

分别从上交所和深交所的官网上爬取年报问询函的记录

二、解决思路

解析网页获取全部的年报问询函列表及相应的文件链接打开第一步获取的文件链接,读取 PDF 数据,并直接转成 TXT 格式的文字

主要参考链接

温馨提示:文中链接在微信中无法生效。请点击底部「阅读原文」

Python文件处理:递归批处理文件夹子目录内所有 txt 数据Python 爬虫怎么处理 json 内容Python3 在线读取 PDF 原文链接:/news/0e57c635cd225.html

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。