关于乘风破浪的姐姐标题提取

import requests
import re

def parse_page(url):
    headers = {
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 Edge/16.16299'
    }
    response = requests.get(url,headers=headers)
    text = response.text
    #有正则的话不需要encoding-utf解析
    titles = re.findall(r'.*?

(.*?)

',text,re.DOTALL) #titles = re.findall(r'.*?(.*?)',text,re.DOTALL) print(titles) def main(): url = 'https://baijiahao.baidu.com/s?id=1670349558061619807&wfr=spider&for=pc' parse_page(url) if __name__ == '__main__': main()
['《乘风破浪的姐姐》:我们能摆脱爽感叙事的套路吗?']

 

基本框架 url不要漏掉都不会很难

正则用的最多的就是(.*?)

HTML之间要用的很熟就好了

然后文本也是一个道理。

 

你可能感兴趣的:(关于乘风破浪的姐姐标题提取)