这次打算做一个AI婚姻法律师自动回答机器人,训练素材得从某某婚姻法网站爬取,好吧,又复习一遍爬虫
一、准备阶段
使用的是python2.7, 3.5部分细节改变
1.估算网站大小
使用Google 搜索 site:+网址
可以看到页面数量
2.识别网站所用技术
pip install builtwith
builtwith.parse("网址")
会返回网站技术
3.网站所有者
pip install python-whois
import whois
print whois.whois("网址")