python爬虫一

1.  安装pip 

官网下载最新pip.zip ,解压 并在当前目录进入cmd,执行 setup.py 安装文件

命令: python setup.py install 

tip:可以下载可执行文件双击执行安装 ,但都需配置环境变量

把 pip命令加入到Path环境变量中,提示: 安装好的pip命令 位置在python 目录下的Scripts文件夹中

配置好后 重新进入cmd 用 pip  /  pip --version 试验是否配置成功

 

2. 利用pip安装写爬虫所需要的第三方库

2.1  pip install requests      

requests 模块用于发起http请求

2.2  pip install bs4

bs4 模块的 BeautifulSoup  用于解析HTML响应

2.3  pip install pymongo

用到再补

2.4  pip install selenium

Selenium是一个用于Web应用的功能自动化测试工具,Selenium 直接运行在浏览器中,就像真正的用户在操作一样。

由于这个性质,Selenium也是一个强大的网络数据采集工具,其可以让浏览器自动加载页面,获取需要的数据,甚至页面截图,或者是判断网站上某些动作是否发生。

2.5  pip install Pillow

用到再补

2.6  pip install pytesseract

用到再补

 

3.  环境准备

腾讯新闻网址URL :   http://news.qq.com/

选中一条新闻标题 审查元素,可以发现新闻标题结构是这样的:

4. 编写爬取代码

#config utf-8
import requests
from bs4 import BeautifulSoup

url = "http://news.qq.com/"
wbdata = requests.get(url).text
soup = BeautifulSoup(wbdata,"html.parser")
news_title = soup.select("div.text > em.f14 > a.linkto")

f = open("crawler.txt",'a',encoding='utf-8')
#对返回的列表进行遍历
for n in news_title:
    title = n.string
    link = n.get('href')
    print("标题:"+title +";链接:"+link+".\n")
    f.write("标题:"+title +";链接:"+link+".\n")

 

你可能感兴趣的:(python)