6月9日实训汇报

6月9日实训汇报

概述

1.完成golang的环境配置,goland的安装;redis安装配置失败
2.学习scrapy爬虫
3.学习go的基本语法

配置

1.git上获取golang的包,安装,配置环境变量
2.redis启动服务 提示1067错误 杀进程也无用 折腾一小时无解
3.安装Goland

Scrapy学习

Scrapy是什么

是一个爬虫框架,由Scrapy引擎,调度器,下载器,Spiders,下载与spider中间件构成。
6月9日实训汇报_第1张图片
Scrapy引擎负责控制数据流在系统中所有组件中流动;调度器接受request并放入队中;下载器返回页面给引擎;spider是用户编写的爬虫文件。其他部分爬取网页,spider对网页内容进行解析响应。

Scrapy项目部署

1.安装scrapy库

2.命令行

scrapy startproject hellospider   

部署了一个Scrapy项目
6月9日实训汇报_第2张图片
scrapy.cfg: 项目的配置文件
items.py:需要提取的数据结构定义文件。
middlewares.py: 是和Scrapy的请求/响应处理相关联的框架。
pipelines.py: 用来对items里面提取的数据做进一步处理,如保存等。
settings.py: 项目的配置文件。
spiders/: 放置spider代码的目录。

编写第一个spider爬虫文件csdn

# -*- coding: utf-8 -*-
import scrapy


class ScrapydemoItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    title = scrapy.Field()
    time = scrapy.Field()
    read_count = scrapy.Field()

class CsdnSpider(scrapy.Spider):
    name = "csdn"
    allowed_domains = ["blog.csdn.net"]
    start_urls = ['https://blog.csdn.net/hampton_chen/article/details/52229327/']

    def parse(self, response):
        item = ScrapydemoItem()

        item['title'] = response.xpath('//h1[@class="title-article"]/text()').extract()[0]
        item['time'] = response.xpath('//span[@class="time"]/text()').extract()[0]
        item['read_count'] = response.xpath('//span[@class="read-count"]/text()').extract()[0]
        yield item

爬取成功
在这里插入图片描述
start_urls:爬取的链接
parse:对网页内容的响应函数
可以看到,用xpath爬取了网页的指定元素,以对象的方式整体返回给引擎。

你可能感兴趣的:(6月9日实训汇报)