爬虫和词云

目录

爬虫

词云

1.1. 引入库

1.2.设置文件路径

2. 文本处理

2.1 读取文本

2.2 分词和过滤

2.3 统计词频:

3.1 默认颜色


爬虫

对于爬虫顾名思义就是爬的虫子,而对于网络上的爬虫的作用是爬取网页上的信息并且把它保存在用户的电脑中

我的爬虫是由python来实现的对于python来说原始的库并不能满足对于爬虫的实现

还需要添加一些额外的包比如

BeautifulSoup包以及re正则包urllib包

下边是添加的包

from bs4 import BeautifulSoup
import re
import urllib.request,urllib.error

想要爬取网站必须要先对于网页的源代码进行分析下边的程序就是对网页的链接和获取代码并且进行解析

ef askurl(url):
    head = {#伪装
        "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/106.0.0.0 Safari/537.36 Edg/106.0.1370.47"
    }
    request = urllib.request.Request(url,headers=head)
    html = ""
    try:
        reponse = urllib.request.urlopen(request)
        html = reponse.read().decode("gbk")
        #print(html)
    except urllib.error.URLError as e:
   

你可能感兴趣的:(爬虫,python,numpy)