100字范文 > 金投网煤炭数据爬取-精进版

金投网煤炭数据爬取-精进版

时间：2021-03-21 14:29:51

相关推荐

金投网煤炭数据爬取-精进版

金投网数据爬取-加强版

注：博主经过一个暑假的游手好闲，学习到了xpath及一些其他的有意思的小东西。对于之前爬取金投网的课题有了一些新的思路，特此卷土重来，让我们开始吧！

目录标题

金投网数据爬取-加强版访问金投网，熟悉网站结构思路整理代码详解代码运行结果问题总结最后小结来进行分析煤炭价格变化。要求获取从至的全国煤炭数据，将数据进行存储，整理，分析，并且绘制了不同种类、不同地区的煤炭价格走势、煤炭价格比较的图表*

金投网链接: 金投网首页.

访问金投网，熟悉网站结构

对我们需要的信息做出一些整理，了解它们所在的位置，这次我们直接一些，点击下面的全部显示

我们会发现十年内的网址都在这里

Fn+F12（不同设备方法可能不同）再点击“查找器”（下图中红色圈圈处）找到我们需要的信息所在的标签

点击其中一个网址进入查看，发现还要点击一次才能到达有煤炭价格数据的网站

这时我们再次按Fn+F12对网页进行检查，找到网址原来藏在一个a标签的href中

点击该网址后终于来到了有煤炭价格数据的网址了！

继续查看我们需要的信息所在位置的标签，原来套在一个tr标签下面

思路整理

不要急着去看代码，写代码。在写代码之前要先想好逻辑，这才是最重要的，正所谓磨刀不误砍柴工，我认为这句话在编程中是最能体现的。大部分人写不出代码不是因为不会语法，而是因为连逻辑都没想好，不同的部分不能协调，最后把自己都绕晕了。

1.我们直接从有十年网址的网站（链接）下手，从中获取出所有的网址，并保存在一个列表中；

2.我们再遍历列表中的每一个元素，从这些链接中取出有煤炭价格数据的网站的链接，同样保存在一个列表中，也可以保存在csv文件中；

3.遍历列表中的每一个元素，提取出网页中的煤炭价格数据，并保存在一个列表中，后续只需要对这个列表做一些处理即可。

代码详解

首先对金投网首页的网址进行爬取，获取其中我们需要去往的网址，再在我们需要去往的这些网址中获取我们需要的煤炭信息。

import sysimport requestsimport numpy as npimport csvimport pandas as pdfrom lxml import etree# 使用文档解析类库from bs4 import BeautifulSoup# 使用网络请求类库import urllib.request# 输入网址html_doc = "/meitan/"all_url = '/meitan/list_112_all.html'if len(sys.argv)>1:website=sys.argv[1]if(website is not None):html_doc= sys.argv[1]#伪装headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.157 Safari/537.36"}# 获取请求req = urllib.request.Request(html_doc)# 打开页面webpage = urllib.request.urlopen(req)# 读取页面内容html = webpage.read()# 解析成文档对象soup = BeautifulSoup(html, 'html.parser') #文档对象#getallhtml函数的作用是爬取all_url链接中的十年内的煤炭价格网址，并储存在列表a中a = []def getallhtml(all_url):all_html = requests.get(all_url,headers = headers).content.decode('utf-8')lx_all_html = etree.HTML(all_html)#运用xpath，注：获得的urls是一个列表urls = lx_all_html.xpath('//div[@class="history_news_content"]/ul/li/a/@href')for i in urls:#print(i)，用于最初遍历列表元素，查看是否有误one_html = requests.get(i).content.decode('utf-8')#print(one_html)lx_one_html = etree.HTML(one_html)#再次使用xpath获得我们最终需要访问网站网址last_url = lx_one_html.xpath('//div[@class="border_top"]/ul/li/a/@href')#因为运行时发现，网站结构在十年中有所改变，具体是从/3/19开始，旧的网站数据结构需要用下面的xpath来获取if last_url == []:last_url = lx_one_html.xpath('//div[@class="left_info"]/ul/li/a/@href')[0]a.append(last_url)getallhtml(all_url)allUniv = []#函数getHTMLText用于获取url中的网页源码，并以文本形式返回def getHTMLText(url):try:r = requests.get(url,timeout=30,)r.raise_for_status()r.encoding = 'utf-8'return r.textexcept :pass#函数fillUnivList用于从网页源码的文本形式中提取煤炭价格信息，并保存在allUniv列表中def fillUnivList(soup):date = soup.find_all('table')for ul in date:singleUniv = []lspan = ul.find_all('tbody')for span in lspan:la = span.find_all('tr')for a in la:lb = a.find_all('td')for b in lb:singleUniv.append(b.string)allUniv.append(singleUniv)break#asize函数用于将列表分割成特定长度的列表def asize(arr,size):s = []c = []for i in range(0,int(len(arr)),size):c = arr[i:i+size]s.append(c)return s#main方法将getHTMLText函数和fillUnivList函数结合在一起，便于后续直接调用def main(url):html = getHTMLText(url)soup = BeautifulSoup(html.replace(' ', ' '),"lxml")fillUnivList(soup)#以下是最终爬取#下面代码中文件写入时的'w'是覆盖写入f = open(r'E://python//dizhi.csv','w',newline ='',encoding='utf-8') #文件路径、操作模式、编码 # r''for i in a:url = (''.join(i))f.write(url +"\n")f.close()#count用于计算获取到的网址的数量count = 0#将获取到的URL存入指定的CSV文件with open('E://python//dizhi.csv' ) as f:r = csv.reader(f)arr = list(r)temp = np.array(arr)t = temp.shape[0]for i in range(0,t):count += 1 print(count)#我们需要的网址在a列表中，遍历a列表for i in a:url = (''.join(i)) #将数组中的字符串释放，即将'https://...'变为https://...allUniv = [] #建立一个列表，用于存储爬取的数据main(url)#调用main函数last = []#由于allUniv是一个双重列表，下面使用双重for循环将双重列表进行分割，将最底层的元素6个一组进行重新编排for i in allUniv:for j in i:last.append(j)last = asize(last,6)#下面将获取的数据存入指定的文件夹中#下面代码中的'a+'代表追加写入with open('E://python//shuju.csv', 'a+', newline='') as csvfile:writer = csv.writer(csvfile)for row in last:writer.writerow(row)print("导入已经完成") #提示最后程序是否完成运行

注：因为这次的代码和上个版本的不一样，爬取的数据增加了好几倍！代码运行的时候需要好几分钟才能运行结束，所以小伙伴们测试代码的时候要有耐心哦，可千万别以为程序卡了就终止运行！！！