python 爬虫 搜狗词库

完整版代码github地址:https://github.com/Monster2848/sougou_dic_spider

目标网站
python 爬虫 搜狗词库_第1张图片

下面有分类
python 爬虫 搜狗词库_第2张图片
点进 社会科学–金融保险分类
python 爬虫 搜狗词库_第3张图片
我们需要获取的数据是 词库标题 和 词库文件地址
python 爬虫 搜狗词库_第4张图片
通过查看请求发现这个网页并没有被加密
python 爬虫 搜狗词库_第5张图片
直接get请求就可以获得完整网页
python 爬虫 搜狗词库_第6张图片
然后要做的就是找到 标题元素 和 立即下载元素 提取 内容 和 url
在这里插入图片描述
写一下xpath 匹配规则
python 爬虫 搜狗词库_第7张图片
将爬到的内容保存到文件
python 爬虫 搜狗词库_第8张图片

以上是从官网爬取的方法
但是如果想要获取完整词库的话推荐去这个网站:http://wubi.sogou.com/dict/list.php?
这个网站更新的蛮快,并且没有设置分类限制,更容易获取数据

你可能感兴趣的:(python 爬虫 搜狗词库)