【爬虫】十分钟写一个简单爬虫

本文主要介绍selenium(一个测试工具)来模拟登陆并爬取数据
if name == 'main':
driver = crate_rlw()
url = 'http://*****.com/knowledge/article/detailcontent.html?articleId={0}'
for i in range(1,5077):
vi_rlw(url.format(i),driver)
time.sleep(6)
driver.close()

上述代码为调度程序:
url 则为分析出来的,主要方法就是熟悉一下目标网站的url的格式,然后去遍历全部的url(下面的代码)
第二行代码怎是登陆代码如下:
def crate_rlw():
url ='http://*****.com/web/login'
driver = webdriver.Chrome('./chromedriver')
print url
driver.get(url)
driver.maximize_window()
driver.implicitly_wait(30)
driver.find_element_by_name('username').send_keys('*******')
driver.find_element_by_name('password').send_keys('*******')
driver.find_element_by_id('loginBtn').click()
return driver

上面的代码是登陆目标网站,并返回dirver,这里会有登陆相关的信息
这里是用selenium来处理的 不懂可以查看selenium相关教程。

def vi_rlw(url,driver):
driver.get(url)
driver.implicitly_wait(30)

这里还需要好多处理,我只做了简单的访问,只是展示的一个过程。
数据处理部分是需要后期来做的。

还有要说的就是:一些网站会限制你爬取数据,但是大多数网站都是友好的,但是这并不表示你可以肆无忌惮的毫无限制的去爬取。爬取的时间最好设置成晚上或者。。。。
还有就是不要对目标网站造成不必要的‘伤害’。

爬虫并不难,且行且珍惜!

2016.11.14中午

你可能感兴趣的:(【爬虫】十分钟写一个简单爬虫)