Python网络爬虫进阶扩展

学习爬虫不是一天就能学会的,得循序渐进的慢慢学透了,才能更好的做爬虫相关的工作。下面的爬虫有关的有些知识点肯定要学会。

Python网络爬虫进阶扩展_第1张图片

1、如何使scrapy爬取信息不打印在命令窗口中

通常,我们使用这条命令运行自己的scrapy爬虫:

scrapy crawl spider_name

但是,由这条命令启动的爬虫,会将所有爬虫运行中的debug信息及抓取到的信息打印在运行窗口中。

很乱,也不方便查询。所以,可使用该命令代替:

scrpay crawl spider_name  -s LOG_FILE=all.log

2、Scrapy中的日志处理

Scrapy提供了log功能,可以通过 logging 模块使用

可以修改配置文件settings.py,任意位置添加下面两行

LOG_FILE = "mySpider.log"
LOG_LEVEL = "INFO"

Scrapy提供5层logging级别:

CRITICAL - 严重错误(critical)
ERROR - 一般错误(regular errors)
WARNING - 警告信息(warning messages)
INFO - 一般信息(informational messages)
DEBUG - 调试信息(debugging messages)

logging设置

通过在setting.py中进行以下设置可以被用来配置logging:

LOG_ENABLED 默认: True,启用logging
LOG_ENCODING 默认: 'utf-8',logging使用的编码
LOG_FILE 默认: None,在当前目录里创建logging输出文件的文件名
LOG_LEVEL 默认: 'DEBUG',log的最低级别
LOG_STDOUT 默认: False 如果为 True,进程所有的标准输出(及错误)将会被重定向到log中。例如,执行 print "hello" ,其将会在Scrapy log中显示

记录信息

下面给出如何使用WARING级别来记录信息

from scrapy import log
log.msg("This is a warning", level=log.WARNING)

适合 Python 入门的 8 款强大工具

Python是一种开源的编程语言,可用于Web编程、数据科学、人工智能以及许多科学应用。学习Python可以让程序员专注于解决问题,而不是语法。由于Python相对较小,且拥有各式各样的工具,因此比Java和C++等语言更具优势,同时丰富的库赋予了Python完成各种伟大任务所需的能力。

下面是程序员和学生最常使用的一些Python工具:

IDLE

在安装Python时,默认也会安装IDLE。这是最优秀的Python工具之一。它可以降低Python入门的门槛。它的主要功能包括Python Shell窗口(交互式解释器)、自动补齐、高亮显示语法以及基本的集成调试器。IDLE轻巧易用,方便学习。但是,它不适用于大型项目。许多程序员都将其作为最佳的Python工具。

Scikit-learn

Scikit-learn是数据科学最常使用的Python工具之一。这是一款为机器学习和数据科学而设计的Python工具。该工具主要用于处理分类、回归、聚类、模型选择以及预处理等任务。scikit-Learn最出色的功能是在测试数据集上执行基准测试时,表现出的惊人速度。因此,对于程序员和学生来说,Scikit-learn是最优秀的Python工具之一。

Theano

Theano是一款数据科学的Python工具,对于程序员和学生而言,这是一款非常可靠的工具。它是深度学习方面最好的Python工具,因此非常适合深度学习。Theano的设计主旨是用户友好、模块化、易于扩展,而且可以与Python配合使用。它能够以最佳方式表达神经网络。Theano可以在TensorFlow和CNTK等流行的神经网络之上运行。

Selenium

Selenium是最佳的Python自动化工具之一。它适用于Python测试的自动化,常常用作Web应用程序的自动化框架。我们可以利用Selenium,通过许多编程语言(包括Java、C#、Python、ruby以及其他许多程序员和学生使用的语言)来编写测试脚本。你还可以在Selenium中集成Junit和TestNG等工具,来管理测试用例并生成报告。

Test complete

Testcomplete是另一款非常出色的Python自动化工具。支持Web、移动和桌面自动化测试。更高级的应用需要获得商业许可,而且它还可以帮助学生提高学业成绩。Test complete还可以像机器人框架一样执行关键字驱动的测试。它拥有最出色的录制以及回放功能,非常实用。

Beautiful soup

Beautifulsoup是网络抓取的Python工具。这个Python库能够从HTML和XML文件中提取数据,是导航、搜索和修改分析树的Python工具。此外,Beautiful soup还可以自动将传入文档转换为Unicode,并将传出文档转换为UTF-8。它是最优秀的Web抓取工具,可以节省大量时间。

Pandas

Pandas是数据分析方面最常用的Python工具之一。Pandas是BSD许可的开源库,为Python编程语言提供了高性能且易于使用的数据结构以及数据分析工具。长期以来,Python一直非常适合数据准备工作。Pandas填补了这一空白,你无需切换到其他域即可在Python中执行整个数据分析工作流,而且Pandas还是数据分析方面最出色的Python工具。

PuLP

PuLP是线性规划的Python工具之一。它是一种优化类型,能够在一些给定的约束条件下最大化目标函数。PuLP用Python编写的线性规划建模器。

PuLP可以生成LP文件,并调用高度优化的求解器GLPK、COIN CLP/CBC、CPLEX以及GUROBI来解决这些线性问题。学生可以利用这款工具来进行定期的研究,而程序员也可以在工作中利用这款工具。

总结

在本文中,我们讨论了各种最常用的Python工具。我们讨论了这些工具的使用以及如何利用这些工具来提升自我。希望对您有所帮助。

你可能感兴趣的:(python,爬虫,开发语言,网络爬虫,编程语言)