100字范文 > python爬虫——抓取煎蛋网ooxx妹子图的一个小工具

python爬虫——抓取煎蛋网ooxx妹子图的一个小工具

时间：2024-01-18 15:46:04

一点学习成果，仅限学习交流！

一、部分源码：

def get_page(html):# 获取下一页链接start1 = str(html).find("Older Comments")stop1 = str(html).find("class", start1)url = "http:" + html[start1 + 22:stop1 - 2]return urldef get_img(html):# 获取所有图片地址（原图）imgs = []img_sta = 0img_end = 0while 1:img_end = str(html).find("view_img_link", img_end + 10)if img_end == -1:breakimg_sta = str(html).find("righttext", img_sta + 10)url = "http:" + html[img_sta + 62:img_end - 25]imgs.append(url)return imgsdef save_img(urls, img_dir):if os.path.isdir(img_dir):del_dir(img_dir)os.mkdir(img_dir)os.chdir(img_dir)a = 1for i in urls:print("*" * 60)print("打开链接：", i)wjm_sta = i.find("large")wjm = i[wjm_sta + 6:] # 获取文件名img = open_url(i)with open(wjm, "wb") as f:f.write(img)print("保存成功：", a)a += 1print("关闭链接，挂起程序2s")time.sleep(2)os.chdir("../") # 保存完毕切回xxoo目录def open_url(url):agent = "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36"req = urllib.request.Request(url)req.add_header("User-agent", agent)# 代理ipipports = ["183.146.213.157:80", "14.155.112.17:9000", "60.211.218.78:53281"]ipport = random.choice(ipports)print("使用的代理ip:", ipport)proxy_support = urllib.request.ProxyHandler({"http": ipport})opener = urllib.request.build_opener(proxy_support)try:urllib.request.install_opener(opener)response = urllib.request.urlopen(req)html = response.read()response.close()return htmlexcept:print("出错")return open_url(url)def del_dir(ddir):os.chdir(ddir)lists = os.listdir()for i in lists:if os.path.isfile(i):os.remove(i)else:del_dir(i)os.chdir("../")os.removedirs(ddir)def xxoo(page_num=1):if os.path.isdir("xxoo"):del_dir("xxoo")os.mkdir("xxoo")os.chdir("xxoo")page_url = "/ooxx"img_dir = 1while page_num:html = open_url(page_url).decode("utf-8")print("打开网页。。。")imgs_url = get_img(html)print("所有图片地址获取成功！", imgs_url)print("保存当前页的图片。。。。")save_img(imgs_url, str(img_dir))print("保存完毕！。。。")page_num -= 1if page_num:print("获取下一页的链接")page_url = get_page(html)print("下一页的地址：", page_url)img_dir += 1if __name__ == "__main__":page_num = input("请输入要爬取的页数（默认1页！）：")if page_num == "" or page_num.isspace():page_num = 1else:page_num = int(page_num)xxoo(page_num)

二、效果

咳咳，，只是学习，爬什么不重要

这些百度的免费代{过}{滤}理ip非常容易出错，

不知道各位朋友们有没有好的免费优质代理IP呀

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。