原文链接:/news/0e57c635cd225.html
目录
一、任务描述二、解决思路三、网页分析 1. 数据包位置2. 翻页3. 下载PDF4. 深交所网页和上交所网页的区别四、PDF转TXT五、核心代码 1. 获取上交所问询函列表2. 爬取PDF并直接转为TXT3. 遍历文件夹中所有TXT和DOC文件并生成列表六、最终爬取结果主要参考链接
昨天开组会的时候导师说想搞年报问询函的研究,但是买数据库太贵了。我说放着我来 ( ′)ψ。
一、任务描述
分别从上交所和深交所的官网上爬取年报问询函的记录二、解决思路
解析网页获取全部的年报问询函列表及相应的文件链接打开第一步获取的文件链接,读取 PDF 数据,并直接转成 TXT 格式的文字主要参考链接
温馨提示:文中链接在微信中无法生效。请点击底部「阅读原文」
Python文件处理:递归批处理文件夹子目录内所有 txt 数据Python 爬虫怎么处理 json 内容Python3 在线读取 PDF 原文链接:/news/0e57c635cd225.html