Life is short The world is big。。。
没钱请无视上面这句话,我们还是老老实实看别人的攻略脑部脑补吧。。
-----
项目为抓取英国旅游的所有攻略,并且转成pdf保存到本地
------
需要安装wkhtmltopdf 这里提供64位版的地址 记得添加环境变量
有些问题我就不处理了你们自己看着办吧
import os
import re
import time
import logging
import pdfkit
import requests
from bs4 import BeautifulSoup
from PyPDF2 import PdfFileMerger
headers = { "Accept":"text/html,application/xhtml+xml,application/xml;",
"Accept-Encoding":"gzip",
"Accept-Language":"zh-CN,zh;q=0.8",
"Referer":"http://www.example.com/",
"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.90 Safari/537.36",
'Accept': 'application/json, text/javascript'}
def search_html(href):
return href and href.lower().startswith("/i/")
wo=0
pUrl="http://www.mafengwo.cn"
#一共有300页吧
for x in range(300):
add="http://www.mafengwo.cn/yj/10122/1-0-"+str(x)+".html"
r=requests.get(add,headers=headers)
print(r)
#获取每页list里的地址
bs=BeautifulSoup(r.text,"html.parser")
#找到以/i/开始
list=bs.find_all(href =search_html)
#输出正确的url
for i in list:
curURL = pUrl + i["href"]
wo=wo+1
pdf = pdfkit.from_url(curURL, "f:/uk/"+str(wo)+".pdf")