历经两个多星期的实验作业终于完成了,在此记录一下自己的学习过程以及学习心得。
说实话,对于python初学者来说,入门其实挺简单的,当然前期也会遇到很多的问题,比如‘idle中调用anaconda中的库’、自定义模块创建、以及相关的库的学习等等。当然,时间证明一切,坚持就是胜利,克服枯燥终究会挺过去的,哈哈哈哈!
首先,此次网络爬虫选取的网站是哔哩哔哩官网(在此之前的一次爬虫实例:网络游戏排名爬虫),主要爬取内容是全站的视频信息,将其整合到图形用户界面(GUI),并且以雷达图的形式直观的展示其各方面的数据信息。
主要模块:
自定义框架爬虫
雷达图可视化分析
GUI简单呈现
开发环境:python3.7
开发工具:IDLE 或 pycharm
构建框架:(以下为此次程序的整体框架),代码不多,作为学习则以面向对象的思路构建此框架。
文件目录:
目录介绍:
爬虫模块:SpiderManager.py、JsonParse.py、UrlFactory.py、WebDownloader.py
GUI模块:BiliTkinter.py
数据可视化模块:AnalyseA.py
文件:href.json、image
href.json文件内容:
以{
“av号”:[
“标题”,
“分类”
}
的形式作为实时爬取的API(搜索API)
雷达图:
GUI界面:
never give up!