本人自习Python四个月,准本研究NLP,目前大三。我在学习爬虫时,发现大部分都是爬豆瓣的数据,可能是这种简单的例子适合初学者,但是我更喜欢爬取一些能切实体现问题的数据,QQ空间就是我能切身体会的数据源。
模拟登陆:
driver.get('https://qzone.qq.com/')
driver.switch_to.frame('login_frame')
driver.find_element_by_id('switcher_plogin').click()
driver.find_element_by_id('u').clear()
driver.find_element_by_id('u').send_keys('XXXXXX') #这里填写你的QQ号
driver.find_element_by_id('p').clear()
driver.find_element_by_id('p').send_keys('XXXXXX') #这里填写你的QQ密码
driver.find_element_by_id('login_button').click()
获取登陆后页面源码:
response = driver.page_source
获取页面内所有说说动态(仅文字):
abtract_pattern = re.compile('(.*?)',re.S)
abtract = re.findall(abtract_pattern,str(response))
elements = driver.find_elements_by_class_name('f-info')
打印结果:
i=0
for a in abtract:
print(a[2]+" : "+elements[i].text)
i=i+1
注:如有不足,请斧正。