获取网页内容:
def getHTMLText(url):
try:
with requests.get(url, timeout=30, stream=False) as r: #打开网页后必须要手动关闭,或者像这样用with语句打开网页
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
return " "
然后就使用正则匹配(在原网页摁F12)找到匹配内容
每次爬完一页内容以后记得要
time.sleep(30) #限速,防止ip被封
以及在存入内容的时候
tttt=f[:-2]
with open("/your_path/{}.txt".format(ttttt), "w", encoding="utf-8") as f:
f.write(text)
#with open的语法里面,不可以用切片,比如ttttt就不可以是f[:-2]的形式存在,不然就会报错