python-爬虫教程

引用:https://germey.gitbooks.io/python3webspider/content/2.2-Web%E7%BD%91%E9%A1%B5%E5%9F%BA%E7%A1%80.html 

reference:https://germey.gitbooks.io/python3webspider/content/1.2.3-ChromeDriver%E7%9A%84%E5%AE%89%E8%A3%85.html

建立文件夹:mkdir python3

建立文件 vim python3.txt

            vim:只读方式打开([O]), 直接编辑((E)), 恢复((R)), 退出((Q)), 中止((A)):


流程:抓取页面、分析页面、存储数据

(1)请求库的安装:

1.爬取页面:使用python3的第三方库来请求http网页内容,库为:Requests、Selenium、Aiotttp 等;

    安装过程:pip3 install requests  和 wheel  python3验证:import requests  不报错;

2.Selenium 是一个自动化测试工具,利用它我们可以驱动浏览器执行特定的动作,如点击、下拉等等操作,对于一些 JavaScript 渲染的页

  面来说,此种抓取方式非常有效;

    安装过程:pip install selenium      pthon3  import selenium  不报错就可以了;

    selenium与Chrome关联:1.查找chrome号:如:版本 70.0.3538.77(正式版本) (64 位);进入网站下载对应版本的chromedriver;

  https://sites.google.com/a/chromium.org/chromedriver/downloads  (网站要翻墙的);在 Windows 下,建议直接将   

chromedriver.exe 文件拖到 Python 的 Scripts 目录下:chromedriver  就可以了 没报错。

    随后再在python程序中测试,执行如下 Python 代码:出现空白chrome网页

      from selenium import webdriver

        browser = webdriver.Chrome()

3.Aiohttp的安装:合理安排时间做其他的事情

  安装:pip install aiohttp

  另外官方还推荐安装如下两个库,一个是字符编码检测库 cchardet,另一个是加速 DNS 解析库 aiodns,安装命令如下:比如维护一个 

代理池,利用异步方式检测大量代理的运行状况,极大提高效率。

(2)解析库的安装

    抓取下网页代码之后,下一步就是从网页中提取信息,LXML、BeautifulSoup、PyQuery 等库-使用的是LXML、BeautifulSoup、PyQuery

解析方法

安装 pip3 install lxml  测试:>>> import lxml

pip3 install beautifulsoup4  测试:from bs4 import BeautifulSoup soup = BeautifulSoup('

Hello

', 'lxml') print

(soup.p.string)  结果为:hello

  安装:pip3 install pyquery  验证:>>> import pyquery

  Tesserocr的安装:识别二维码:http://digi.bib.uni-mannheim.de/tesseract/  之后安装pip3Tesserocr : install tesserocr   

pillow



写到这里真的就不想学了,感觉没有时间了。想学的可以看着引用的用就是了,还是蛮详细的。

我还是学生物的,忘记了老本行了都。感觉学的都不是很精确,但是总觉得还是懂一点点的。就这样吧。。。

你可能感兴趣的:(python-爬虫教程)