Python-从Web解析到网络空间

目录

Python库之网络爬虫

Python库之Web信息提取

Python库之Web网站开发

Python库之网络应用开发


Python库之网络爬虫

Requests

  • 最友好的网络爬虫功能库
  • 提供了简单易用的类HTTP协议网络爬虫功能
  • 支持连接池、SSL、Cookies、HTTP(S)代理等
  • Python最主要的页面级网络爬虫功能库
import requests

r = requests.get("http://www.baidu.com");
r.status_code;
r.headers["content-type"];
r.encoding;
r.text;
r.encoding="utf-8";
r.text;

Scrapy

  • 优秀的网络爬虫框架
  • Python数据分析高层次应用库
  • 提供了构建网络爬虫系统的框架功能,功能半成品
  • 支持批量和定时网页爬取、提供数据处理流程等
  • Python最主要且专业的网络爬虫框架

Python-从Web解析到网络空间_第1张图片

pyspider

  • 强大的Web页面爬取系统
  • 提供了完成的网页爬取系统构建功能
  • 支持数据库后端、消息队列、优先级、分布式架构等
  • Python重要的网络爬虫类第三方库

Python-从Web解析到网络空间_第2张图片

Python库之Web信息提取

Beautiful Soup

  • HTML和XML的解析库
  • 提供了解析HTML和XML等Web信息的功能
  • 又名beautifulsoup4或bs4,可以加载多种解析引擎
  • 常与网络爬虫库搭配使用,如Scrapy、requests等

Python-从Web解析到网络空间_第3张图片

Re

正则表达式解析和处理功能库

  •  re.search()
  • re.match()
  • re.findall()
  • re.split()
  • re.finditer()
  • re.sub()

Python-Goose

  • 提供文章类型Web页面的功能库
  • 提供了对Web页面中文章信息/视频等元数据的提取功能
  • 针对特定类型Web页面,应用覆盖面广
  • Python最主要的Web信息提取库

Python库之Web网站开发

Django

  • 最流行的Web应用框架
  • 提供了构建Web系统的基本应用框架
  • MTV模式:模型(model)、模板(Template)、视图(Views)
  • Python最重要的Web应用框架,略微复杂的应用框架

Python-从Web解析到网络空间_第4张图片

Pyramid

  • 规模适中的Web应用框架
  • 提供了简单方便构建Web系统的应用框架
  • 不大不小,规模适中,适合快速构建并适度扩展类应用
  • Python产品级Web应用框架,起步简单可扩展性好

Python-从Web解析到网络空间_第5张图片

#10行左右的Hello World程序
from wsgiref.simple_server import make_server
from pyramid.config import Configurator
from pyramid.response import Response

def hello_world(request):
    return Response('Hello World!')

if __name__ == '__main__':
    with Configurator() as config:
        config.add_route('hello', '/')
        config.add_view(hello_world, route_name='hello')
        app = config.make_wsgi_app()
    server = make_server('0.0.0.0', 6543, app)
    server.serve_forever()

Flask

  • Web应用开发微框架
  • 提供了最简单构建Web系统的应用框架
  • 特点是:简单、规模小、快速
  • Django>Pyramind>Flask

Python库之网络应用开发

WeRoBot

  • 微信公众号开发框架
  • 提供了解析微信服务器消息及反馈消息的功能
  • 建立微信机器人的重要技术手段
#对微信每个消息返回一个Hello World
import werobot

robot = werobot.WeRoBot(token='tokenhere')

@robot.text
def hello_world():
    return 'Hello World!'

robot.run()

aip

  • 百度AI开放平台接口
  • 提供了访问百度AI服务的Python功能接口
  • 语音、人脸、OCR、NLP、知识图谱、图像搜索等领域
  • Python百度AI应用最主要方式

MyQR

  • 二维码生成第三方库
  • 提供了二维码的系列功能
  • 基本二维码、艺术二维码和动态二维码

Python-从Web解析到网络空间_第6张图片

本文仅为学习Python记录,资料来源于中国大学MOOC《Python语言设计》—嵩天

你可能感兴趣的:(Python)