Python爬虫基础技能

这次打算做一个AI婚姻法律师自动回答机器人,训练素材得从某某婚姻法网站爬取,好吧,又复习一遍爬虫

一、准备阶段

使用的是python2.7,  3.5部分细节改变

1.估算网站大小

使用Google 搜索 site:+网址
可以看到页面数量

2.识别网站所用技术

pip install builtwith

builtwith.parse("网址")

会返回网站技术

3.网站所有者

pip install  python-whois

import whois
print whois.whois("网址")

你可能感兴趣的:(python,python,爬虫)