wsgi简介,flask和scrapy的简单使用

WSGI接口定义非常简单,它只要求Web开发者实现一个函数,就可以响应HTTP请求。


def application(environ, start_response):
    start_response('200 OK', [('Content-Type', 'text/html')])
    return [b'

Hello, web!

']

environ:HTTP请求信息

start_response:start_response是外部传入的,调用时候两个参数,一个返回状态码,一个头部信息

返回:一个http的body信息


flask简单使用:


这个form action='',method='',决定提交的时候的post

from flask import Flask
from flask import request

app = Flask(__name__)

@app.route('/', methods=['GET', 'POST'])
def home():
    return '

Home

' @app.route('/signin', methods=['GET']) def signin_form(): return '''

''' @app.route('/signin', methods=['POST']) def signin(): # 需要从request对象读取表单内容: if request.form['username']=='admin' and request.form['password']=='password': return '

Hello, admin!

' return '

Bad username or password.

' if __name__ == '__main__': app.run()

scrapy用法简介:

scrapy startproject scrapyspider

scrapy.cfg: 项目的配置文件。

scrapyspider/items.py: 项目中的item结构,供下面parse解析返回,和piplines使用。

scrapyspider/middlewares: 爬取,解析和保存的中间件。

scrapyspider/pipelines.py: 实现process_item(self,item, spider),保存爬取结果。

scrapyspider/settings.py: 项目的设置文件。

scrapyspider/spiders/: 放置spider代码的目录。

spider代码的目录,实现name, start_urls(or 函数 start_requests),parse(self,response)。

start_requests和parse都用yield 生成器式返回一个个结果。


from scrapy.spiders import Spider
class BlogSpider(Spider):
    name = 'woodenrobot'
    start_urls = ['http://woodenrobot.me']

    def parse(self, response):
        titles = response.xpath('//a[@class="post-title-link"]/text()').extract()
        for title in titles:
            print title.strip()

切换到scrapyspider目录,运行这个name的爬虫。

scrapy crawl woodenrobot

你可能感兴趣的:(小练手)