爬取马蜂窝英国旅行攻略

Life is short The world is big。。。

没钱请无视上面这句话,我们还是老老实实看别人的攻略脑部脑补吧。。


-----

项目为抓取英国旅游的所有攻略,并且转成pdf保存到本地

------

需要安装wkhtmltopdf 这里提供64位版的地址 记得添加环境变量

有些问题我就不处理了你们自己看着办吧

import os
import re
import time
import logging
import pdfkit
import requests
from bs4 import BeautifulSoup
from PyPDF2 import PdfFileMerger
headers = { "Accept":"text/html,application/xhtml+xml,application/xml;",
            "Accept-Encoding":"gzip",
            "Accept-Language":"zh-CN,zh;q=0.8",
            "Referer":"http://www.example.com/",
            "User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.90 Safari/537.36",
            'Accept': 'application/json, text/javascript'}



def search_html(href):
    return href and href.lower().startswith("/i/")

wo=0

pUrl="http://www.mafengwo.cn"

#一共有300页吧
for x in range(300):
    add="http://www.mafengwo.cn/yj/10122/1-0-"+str(x)+".html"
    r=requests.get(add,headers=headers)
    print(r)
    #获取每页list里的地址
    bs=BeautifulSoup(r.text,"html.parser")
    #找到以/i/开始
    list=bs.find_all(href =search_html)
    #输出正确的url
    for i in list:
        curURL = pUrl + i["href"]
        wo=wo+1
        pdf = pdfkit.from_url(curURL, "f:/uk/"+str(wo)+".pdf")

你可能感兴趣的:(python)