用Python 爬取心灵毒鸡汤、你好污啊 网站数据并存入本地txt文件

1. 心灵毒鸡汤
  1. 网站如下:https://www.nihaowua.com/home.html
    用Python 爬取心灵毒鸡汤、你好污啊 网站数据并存入本地txt文件_第1张图片

  2. 代码如下:

    import requests
    import random
    from lxml import etree
    from fake_useragent import UserAgent
    
    
    def get_random_ua(): #随机UA
        ua = UserAgent()
        return ua.random
    
    headers = {
        'User-Agent': get_random_ua()
    }
    
    url = 'https://www.nihaowua.com/home.html'
    
    
    def main():  #写入txt文本程序
        count = 0
        while True:
            try:
                with open("soup.txt", "a", encoding='utf-8') as f:
                    res = requests.get(url=url, headers=headers, timeout=10)
                    selector = etree.HTML(res.text)
                    content = selector.xpath('//section/div/*/text()')[0]
                    text = str(count) + str(content)
                    f.write(text + '\n')
                    count += 1
                    print('*****正在爬取中,这是第{}次爬取,内容为:{}'.format(count, content))
            except Exception as e:
                print('exception:', e)
                continue
    
    
    if __name__ == '__main__':
        main()
    
    
  3. 执行结果如下:
    用Python 爬取心灵毒鸡汤、你好污啊 网站数据并存入本地txt文件_第2张图片

  4. 存入文本中的数据如下:
    用Python 爬取心灵毒鸡汤、你好污啊 网站数据并存入本地txt文件_第3张图片

2. 你好污啊
  1. 网站如下:https://www.nihaowua.com/
    用Python 爬取心灵毒鸡汤、你好污啊 网站数据并存入本地txt文件_第4张图片

  2. 代码如下:

    import requests
    import random
    from lxml import etree
    from fake_useragent import UserAgent
    
    def get_random_ua(): #随机UA
        ua = UserAgent()
        return ua.random
    
    headers = {
        'User-Agent': get_random_ua()
    }
    
    url = 'https://www.nihaowua.com/'
    
    
    def main():  # 写入txt文本程序
        count = 0
        while True:
            res = requests.get(url=url, headers=headers, timeout=10)
            selector = etree.HTML(res.text)
            content = selector.xpath('//section/div/*/text()')[0]
            with open("NiHaoWu.txt", "a") as f:
                text = str(count) + ' ' + content
                f.write(text + '\n')
                count += 1
                print('这是第{}次爬取,内容为:{}'.format(count, content))
    
    
    if __name__ == '__main__':
        main()
    
    
  3. 执行结果如下图:
    用Python 爬取心灵毒鸡汤、你好污啊 网站数据并存入本地txt文件_第5张图片

  4. 存入文本数据如下:
    用Python 爬取心灵毒鸡汤、你好污啊 网站数据并存入本地txt文件_第6张图片

你可能感兴趣的:(爬虫总结和详解)