张峰π_π

scrapy框架入门

文章目录

scrapy框架

架构图解

Scrapy项目结构
Scrapy 入门

准备工作
创建项目
创建Spider
创建Item
解析Response
Scrapy shell
使用Item
后续Request
运行
保存文件

scrapy框架

Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架，用途非常广泛。
框架的力量，用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容以及各种图片，非常之方便。
Scrapy 使用了 Twisted’twɪstɪd异步网络框架来处理网络通讯，可以加快我们的下载速度，不用自己去实现异步框架，并且包含了各种中间件接口，可以灵活的完成各种需求。
简单来说就是一个爬虫的应用框架，更方便爬取。爬取效率高，可配置和可拓展程度非常高，几乎可以应用所有的反爬网站。

架构图解

每当我们谈到scrapy框架的时候，都会用这个图来进行讲解：

它可以分为如下的几个部分。Engine。引擎，处理整个系统的数据流处理、触发事务，是整个框架的核心。
Item。项目，它定义了爬取结果的数据结构，爬取的数据会被赋值成该Item对象。Scheduler。调度器，接受引擎发过来的请求并将其加入队列中，在引擎再次请求的时候将请求提供给引擎。
Downloader。下载器，下载网页内容，并将网页内容返回给蜘蛛。Spiders。蜘蛛，其内定义了爬取的逻辑和网页的解析规则，它主要负责解析响应并生成提取结果和新的请求。
Item Pipeline。项目管道，负责处理由蜘蛛从网页中抽取的项目，它的主要任务是清洗、验证和存储数据。
Downloader Middlewares。下载器中间件，位于引擎和下载器之间的钩子框架，主要处理引擎与下载器之间的请求及响应。
Spider Middlewares。蜘蛛中间件，位于引擎和蜘蛛之间的钩子框架，主要处理蜘蛛输入的响应和输出的结果及新的请求。
这些组件相互协作，不同不同组件完成工作的不同、组件对异步处理的支持，Scrapy最大限度地利用了网络带宽，大大提高了数据爬取和处理的效率。

Scrapy项目结构

scrapy是通过命令行来创建的，创建之后文件结构如下图所示：
下面这个以我自己创建的第一个scrapy项目来进行分级图解的：大致也是这种结构

其中， mySpider 为项目名称，可以看到将会创建一个 mySpider 文件夹，目录结构大致如下：

下面来简单介绍一下各个主要文件的作用：

scrapy.cfg ：项目的配置文件，定义了项目的配置文件路径。部署相关信息的内容

items.py ：项目的目标文件，所有的Item Pipeline的定义都可以放在这里面。

pipelines.py ：项目的管道文件，定义了Item Pipeline的实现都可以放在这里。

settings.py ：项目的设置文件，定义了项目的全局配置

spiders/ ：存储爬虫代码目录，其中包含了一个个Spider的实现，每个Spider都有一个文件。
上面这些都是理论基础，下面我们就开始动手实践，慢慢去理解怎么用Scrapy爬取，以及怎么搭建Scrapy框架。

Scrapy 入门

我将简单介绍一下项目的构建，完成一遍Scrapy抓取流程，通过这个流程，我们可以对Scrapy的基本用法和原理有大体的了解。这次我们要采集的是光明网的新标题，时间，网址信息。

准备工作

首先我们需要安装Scrapy框架
安装还是类似其他第三方库的方法是一样的

pip install scrapy

创建项目

创建一个scrapy项目，项目文件可以直接用scrapy命令生成，命令如下所示：

scrapy startproject news

这个命令可以在任何文件夹运行，如果提示权限问题，可以加一个sudo运行该命令。这个命令会创建一个news的文件夹,文件夹结构就是我上面那个图。

创建Spider

Spider是我们自己定义的一个类，Scrapy用它来从网页抓取内容，并解析抓取的结果，不过这个类继承Scrapy提供的Spider类scrapy，还要定义Spider的名称和起始请求，以及怎样处理爬取后的结果。
我们也可以通过命令来创建一个Spider,比如要生成news_1这个Spider,可以执行如下命令：

cd C:\Users\lixue\Desktop\news\news
scrapy genspider news_1 news.gmw.cn

我们在进入刚才创建的news文件夹下面，然后执行genspider命令。第一个参数是Spider的名称，第二个参数是网站域名。执行完毕后，spider文件夹就多了一个news_1.py，我们可以看看刚刚创建的Spider:

import scrapy
class News1Spider(scrapy.Spider):
    name = 'news_1'
    allowed_domains = ['news.gmw.cn']
    start_urls = ['http://news.gmw.cn']
    def parse(self, response):
    	pass

这里面有三个属性-name、allowed_domains、还有一个方法parse.
name ：这个爬虫的识别名称，必须是唯一的，在不同的爬虫必须定义不同的名字。

allow_domains 是搜索的域名范围，也就是爬虫的约束区域，规定爬虫只爬取这个域名下的网页，不存在的URL会被忽略。

start_urls 爬取的URL元祖/列表。爬虫从这里开始抓取数据，所以，第一次下载的数据将会从这些urls开始。其他子URL将会从这些起始URL中继承性生成。

parse(self, response) ：解析的方法，每个初始URL完成下载后将被调用，调用的时候传入从每一个URL传回的Response对象来作为唯一参数，主要作用如下：
负责解析返回的网页数据(response.body)，提取结构化数据(生成item)
生成需要下一页的URL请求。将start_urls的值修改为需要爬取的第一个url.
我们采集的是光明网上的几大新闻版块的新闻，所以我设置的start_urls包含多个url的列表。（前提是这些新闻版块的网页结构相同）

start_urls = ['http://news.gmw.cn/node_23548.htm','http://news.gmw.cn/node_23707.htm','http://news.gmw.cn/node_23547.htm','http://news.gmw.cn/node_23545.htm','http://news.gmw.cn/node_23708.htm','http://news.gmw.cn/node_23709.htm']

创建Item

Item是保存爬取数据的容器，它的使用方法和字典类似，不过相比字典，Item多了保护机制，防止拼写错误或者自定义字段错误。
创建Item需要继承scrapy.Item类，并且定义类型为scrapy.Field字段，我们采集信息有title,url ，time
定义Item，此时将items.py修改如下：

import scrapy

class NewsItem(scrapy.Item):
    title =scrapy.Field()
    url =scrapy.Field()
    time =scrapy.Field()

这里定义了三个字段，我们爬取会使用这个Item.

解析Response

上文中我们看到，parse()方法的参数resposne的英文start_urls里面的链接爬取后的查询查询结果。在所以parse方法中，可以我们直接对response变量所有游戏的内容进行解析，比如浏览请求结果的网页源代码，或者进一步分析源代码内容，或者找出结果中的链接而得到下一个请求。我们可以看到网页中既有我们想要的结果，又有下一页的链接，这两部分内容我们都要进行处理。首先看看网页结构，如下图所示。

我们观察网页结构发现新闻版块是多条结合的，它们的结构相似，每条新闻区块包含上面的三个字段，我们接下来用xpath解析器来进行选择，parse方法的改写如下所示：

def parse(self, response):
    selecter = Selector(text = response.body.decode('utf-8'))
    url =selecter.xpath('//div[(@class = "channelLeftPart")]/div/ul/li/span[1]/a[1]/@href').extract()
    title =selecter.xpath('//div[(@class = "channelLeftPart")]/div/ul/li/span[1]/a/text()').extract()
    news_time =selecter.xpath('//div[(@class = "channelLeftPart")]/div/ul/li/span[2]/text()').extract()

scrapy中包含了一个Selector这个独立的模块。我们可以直接用Selector这个类来构建一个选择器对象，然后调用它的相关方法如xpath(),css()来提取数据，这些和之前的xpath,css一样的用法。
由于scrapy是一个框架型的，我们在提取数据的时候少不了测试，但我们单独测试又太麻烦，所以scrapy提供一个shell命令，来进行测试。

Scrapy shell

Scrapy终端是一个交互终端，供您在未启动spider的情况下尝试及调试您的爬取代码。其本意是用来测试提取数据的代码，不过您可以将其作为正常的Python终端，在上面测试任何的Python代码。

该终端是用来测试XPath或CSS表达式，查看他们的工作方式及从爬取的网页中提取的数据。在编写您的spider时，该终端提供了交互性测试您的表达式代码的功能，免去了每次修改后运行spider的麻烦。
启动方式：

scrapy shell <url>

这里我们测试采用一个新闻网址就可以：

scrapy shell http://news.gmw.cn/node_23548.htm

这样运行之后，便能看到那个shell 命令窗口。

然后我们需要运行调用的第三库

然后再来测试我们的解析提取部分：

最后我们可以看看提取的东西：

最后我们发现我们都是正确提取到的标签的。

使用Item

上面定义了Item,接下来就要使用它了。Item可以理解为一个字典，不过在声明的时候需要实例化，然后依次用刚才解析的结果赋值给Item的每一个字段，最后将Item返回即可。
我们改写那个Spider如下：

import scrapy
from scrapy import Request,Selector
from news.items import NewsItem
class News1Spider(scrapy.Spider):
    name = 'news_1'
    # allowed_domains = ['http://news.gmw.cn']
    start_urls = ['http://news.gmw.cn/node_23548.htm','http://news.gmw.cn/node_23707.htm','http://news.gmw.cn/node_23547.htm','http://news.gmw.cn/node_23545.htm','http://news.gmw.cn/node_23708.htm','http://news.gmw.cn/node_23709.htm']
    def parse(self, response):
        selecter = Selector(text = response.body.decode('utf-8'))
        url =selecter.xpath('//div[(@class = "channelLeftPart")]/div/ul/li/span[1]/a[1]/@href').extract()
        title =selecter.xpath('//div[(@class = "channelLeftPart")]/div/ul/li/span[1]/a/text()').extract()
        news_time =selecter.xpath('//div[(@class = "channelLeftPart")]/div/ul/li/span[2]/text()').extract()
        for i in range(len(url)):
            item =NewsItem()
            item['url'] =url[i]
            item['title'] =title[i]
            item['time'] = news_time[i]
            yield item

后续Request

上面这些操作从初始页面抓取内容，但是下一页改怎么抓取，这样我们需要从当前页面找到信息生成下一页的请求的链接，从而来构造下一个请求，这样循环迭代，从而实现整站的爬取。
将刚才的新闻页面拉到最低部，我们可以看到下一页的链接：

发现链接是node_23548_2.htm，全链接是http://news.gmw.cn/node_23548_2.htm
构造请求时需要用到scrapy.Request，这里我们需要传入两个参数----url和callback.
url：它是请求链接。
callback：它是回调函数当指定了该回调函数的请求完成之后，获取到响应，引擎会将该响应作为参数传递给这个回调函数回调函数进行解析或生成下一个请求，函数回调文如上的parse()所示。
下面我们来编写一下翻页请求的代码：

next =selecter.xpath('//div[(@class = "channelLeftPart")]/div/div/center/a[last()-1]/@href').extract()
if next:
    print(111111111111)
    url_nextpage ='http://news.gmw.cn/'+next[0]
    yield scrapy.Request(url= url_nextpage,callback=self.parse)

这个判断条件是起到停止翻页的作用，一旦没有找到下一页的链接，就停止下面，下面我们可以看看完整的代码：

import scrapy
from scrapy import Request,Selector
from news.items import NewsItem
class News1Spider(scrapy.Spider):
    name = 'news_1'
    # allowed_domains = ['http://news.gmw.cn']
    start_urls = ['http://news.gmw.cn/node_23548.htm','http://news.gmw.cn/node_23707.htm','http://news.gmw.cn/node_23547.htm','http://news.gmw.cn/node_23545.htm','http://news.gmw.cn/node_23708.htm','http://news.gmw.cn/node_23709.htm']
    def parse(self, response):
        selecter = Selector(text = response.body.decode('utf-8'))
        url =selecter.xpath('//div[(@class = "channelLeftPart")]/div/ul/li/span[1]/a[1]/@href').extract()
        title =selecter.xpath('//div[(@class = "channelLeftPart")]/div/ul/li/span[1]/a/text()').extract()
        news_time =selecter.xpath('//div[(@class = "channelLeftPart")]/div/ul/li/span[2]/text()').extract()
        for i in range(len(url)):
            item =NewsItem()
            item['url'] =url[i]
            item['title'] =title[i]
            item['time'] = news_time[i]
            yield item
        next =selecter.xpath('//div[(@class = "channelLeftPart")]/div/div/center/a[last()-1]/@href').extract()
        if next:
            print(111111111111)
            url_nextpage ='http://news.gmw.cn/'+next[0]
            yield scrapy.Request(url= url_nextpage,callback=self.parse)

当我们进行完上述代码修改，我们的scrapy也就写好了，接下来就是运行。

运行

这里我们首先要进入scrapy项目的文件夹
接下来进入目录，运行如下命令：

cd C:\Users\lixue\Desktop\news\news

scrapy crawl news_1

运行完这个，我们就可以看到Scrapy的运行结果了。

保存文件

当我们就按上面运行完scrapy后，我们只在控制台看到输出结果。如果想保存结果该怎么办呢？
其实要完成这个命令我们不需要额外的命令，我们只需要看需要保存文件的要求，然后选择对应的方法进行保存，比如我们想要将其保存为JSON 格式的文件，我们应该这样做：

scrapy crawl news_1 -o news_1.json

运行完这个，在我们刚才cd的路径下面就有一个news_1.json 文件了json格式，默认为Unicode编码。我们打开那个文件编码需要进行转换。
如果我们想要一个Item 输出一一行JSON，后缀名为jl,为jsonline的缩写，命令如下：

scrapy crawl news_1 -o news_1.jsonlines

或者：

scrapy crawl news_1 -o teachers.jl

scrapy还支持保存输出保存为csv,xml文件，命令分别是：
保存为csv文件：

scrapy crawl news_1 -o news_1.csv

保存为xml文件：

scrapy crawl news_1 -o news_1.xml

我们可以分别看看运行的结果：

最后我们采集的数据大概有4800条，我们大概不用一分钟就采集到4800条新闻，是不是很快，大家可以一起来使用一下，我这次也大致介绍这些，其实这个爬虫还存在一些问题，你们可以去查看一下数据，下篇博客我会深入讲解scrapy，然后完善这个爬虫。有不懂的地方可以查阅官方文档。

Alipay SDK for Python 常见问题解决方案丁璟耀Optimistic
AlipaySDKforPython常见问题解决方案alipay-sdk-python-all支付宝开放平台AlipaySDKforPython项目地址:https://gitcode.com/gh_mirrors/al/alipay-sdk-python-all1.项目基础介绍和主要编程语言AlipaySDKforPython是支付宝官方提供的Python语言版本的SDK，用于帮助开发者快速接入
支付宝Python SDK官方教程滕妙奇
支付宝PythonSDK官方教程alipay-sdk-python-all支付宝开放平台AlipaySDKforPython项目地址:https://gitcode.com/gh_mirrors/al/alipay-sdk-python-all1.项目介绍alipay-sdk-python-all是支付宝提供的Python版本SDK，用于帮助开发者方便地集成到自己的应用程序中，实现与支付宝开放平台
鸿蒙应用开发（HarmonyOS）自定义装饰器场景你我皆是牛马星人鸿蒙开发 OpenHarmony HarmonyOS harmonyos 华为鸿蒙 android ui 前端鸿蒙系统
鸿蒙NEXT开发实战往期必看文章：一分钟了解”纯血版！鸿蒙HarmonyOSNext应用开发！“非常详细的”鸿蒙HarmonyOSNext应用开发学习路线！（从零基础入门到精通）HarmonyOSNEXT应用开发案例实践总结合（持续更新......）HarmonyOSNEXT应用开发性能优化实践总结（持续更新......）介绍本示例介绍通过自定义装饰器在自定义组件中自动添加inspector(布局
如何使用Jsoup提取商品信息：实战指南数据小爬虫@ python 爬虫 java
在使用Java进行Web爬虫开发时，Jsoup是一个非常强大的HTML解析库，可以帮助你轻松地提取网页中的数据。本文将详细介绍如何使用Jsoup提取商品信息，包括商品标题、价格、描述和图片链接等。一、环境准备（一）Java开发环境确保你的系统中已安装Java开发环境，推荐使用JDK11或更高版本。（二）安装所需库使用Maven管理项目依赖，主要包括以下库：Jsoup：用于解析HTML内容。在pom
利用Java爬虫根据关键词获取商品列表：实战指南数据小爬虫@ java 爬虫开发语言
在电商领域，通过关键词搜索商品并获取商品列表是常见的需求。本文将详细介绍如何使用Java编写爬虫程序，根据关键词获取商品列表，并确保爬虫行为符合平台规范。为了确保代码的准确性和实用性，我们将提供详细的代码示例和解释。一、环境准备（一）Java开发环境确保你的系统中已安装Java开发环境，推荐使用JDK11或更高版本。（二）安装所需库使用Maven管理项目依赖，主要包括以下库：Jsoup：用于解析H
一览无遗 python 自定义装饰器使用及原理详解 1_bit python flask python flask 开发语言装饰器
注意：先行知识python，本篇文章所有代码均为实际运行，为原理和逻辑讲解一、装饰器装饰器是python中的一种语法糖，虽然我不想用语法糖这个词来表达，但这句话写在了开头，我也不到用别的更准确的词来形容他了。如果你刚接触编程不久，不理解语法糖，也没关系；在这里我说语法糖并不会影响到你接下来的理解，我只是用它在赘述，作为了一种形容词。首先我们要搞懂装饰器是什么东西，其次搞懂装饰器的基础知识点，最后逐
IDEA中的部分快捷键(后续会学习补充) 铅钇大王 intellij-idea 学习 java
Alt+Ctrl+L:格式化代码,将代码变成良好格式;Alt+Enter:快速修复;代码出错时可以生成一些正确答案参考psvm:快速生成主方法;publicstaticvoidmain(String[]args){}sout:生成输出语句;System.out.println("");数组名.+for+i:快速生成数组的遍历for语句;例如:for(inti=0;i<数组.length;i++){
从0到1掌握Flutter（三）Dart语法微声G 从0到1掌握Flutter flutter
引言本文接上篇：从0到1掌握Flutter（二）环境搭建与认识工程Dart语言基础是Flutter开发必须掌握的核心知识。本文将讲解变量与常量的声明、Dart内置类型体系及其用法、运算符的应用场景三大模块。对于具备Java/Kotlin背景的学习者，可以通过对比学习法快速定位知识缺口，理解语法的共性。一、变量与常量1.1变量万物皆对象在Dart的类型系统中，变量本质上是指对象的引用，这一设计符合面
新手村：线性回归-实战-波士顿房价预测嘉羽很烦机器学习线性回归算法回归
新手村：线性回归-实战-波士顿房价预测前置条件阅读：新手村：线性回归了解相关概念实验目的1.熟悉机器学习的一般流程2.掌握基础的数据处理方法3.理解常用的回归算法教学例子：预测房价（以波士顿房价数据集为例）本次实验，你将使用真实的波士顿房价数据集建立起一个房价预测模型，并且了解到机器学习中的若干重要概念和评价方法，请通过机器学习建立回归模型，即:Y=θ0+θ1×X1+θ2×X2+θ3×X3+⋯+θ
新手村：混淆矩阵嘉羽很烦机器学习机器学习
新手村：混淆矩阵一、前置条件知识点要求学习资源分类模型基础理解分类任务（如二分类、多分类）和常见分类算法（如逻辑回归、决策树）。《Hands-OnMachineLearningwithScikit-Learn》Python基础熟悉变量、循环、函数、列表、字典等基本语法。《PythonCrashCourse》或在线教程（如Codecademy）scikit-learn基础掌握模型训练、预测、评估的基
UE4-UE5虚幻引擎，前置学习一--Console日志输出经常崩溃，有什么好的解决办法 avi9111 每天一点u3d ue4 ue5 虚幻日志
有些差异这么牛逼的引擎，居然有这种入门级别的问题，一触发清理，大概率(80%)会崩溃无论虚幻5还是UE4都有这个问题，挺烦人的实在忍不了了，这次，今天就想问问有什么好的处理方法么？？另外下载第三方日志插件？？？\=================================这不是一个简单的文档分析这需要你知道Engine.dll和Project.dll的区别这需要你知道一点点游戏开发的框架好像
计算机视觉入门 109702008 人工智能 #深度学习计算机视觉人工智能
计算机视觉（ComputerVision）是一门涉及使机器能够从图像或者多维数据中提取信息，解释、理解并对物体或场景进行处理的学科。以下是一个基本的计算机视觉入门学习路线，旨在为刚刚接触这一领域的学习者提供指导。1.基础知识储备数学基础：线性代数、概率论和数理统计、微积分、优化理论。编程语言：掌握至少一门编程语言，Python是目前在计算机视觉领域最流行的语言，其次是C++。2.计算机视觉基础数字
Android手机中各类安全相关知识总结数据知道 2025年爬虫和逆向教程 android 智能手机安全
更多内容请见：爬虫和逆向教程-专栏介绍和目录文章目录1.Android安全威胁2.Android安全防护措施3.Android安全建议和最佳实践4.Android安全工具推荐5.Android安全常见问题5.1如何检测设备是否感染恶意软件？5.2如何防止应用滥用权限？5.3如何保护设备免受网络攻击？5.4设备丢失后如何保护数据？6.学习资源7.总结Android手机作为全球使用最广泛的移动操作系统
Python 3.12 新特性解析及对开发效率的提升叶间清风1998 python 开发语言
目录一、性能优化（一）FasterCPython（二）新的内存管理机制二、新语法和语言特性（一）Self-typeannotations（二）PatternMatchingEnhancements三、标准库更新（一）NewModulesandFunctions（二）ImprovementstoExistingModulesPython作为一种广泛应用于数据科学、人工智能、Web开发等众多领域的编程
计算机视觉（Computer Vision, CV）的入门到实践的详细学习路线云梦优选计算机数据库大数据计算机视觉学习人工智能
一、基础准备1.数学基础线性代数深入矩阵运算，理解矩阵乘法、转置、逆等基本概念。掌握特征值与特征向量的几何意义，理解其在图像压缩、特征提取中的应用。学习奇异值分解（SVD）及其在降维和数据压缩中的具体应用。概率与统计熟悉贝叶斯定理及其在分类任务中的应用，如朴素贝叶斯分类器。理解常见概率分布（如正态分布、二项分布）及其性质。学习统计推断方法，如假设检验、置信区间估计，以评估模型性能。微积分掌握梯度、
Python Lambda 表达式简介咱家阿星 python python 开发语言
PythonLambda表达式Python的lambda表达式目录什么是Lambda表达式？Lambda的语法规则常见示范例子高阶函数中的Lambda应用Lambda与其他Python特性的结合使用Lambda的优势与限制1.什么是Lambda表达式？Lambda表达式是一种匿名函数，即没有函数名的函数。它通常用于临时场景，不需要像普通函数那样定义多行代码。常规函数与Lambda函数的对比#常规函
代码质量的基石：Python 单元测试实战 (unittest vs pytest) 清水白石008 python Python题库 python 单元测试 pytest
代码质量的基石：Python单元测试实战(unittestvspytest)引言在软件开发的浩瀚征程中，代码质量是决定项目成败的关键因素。如同建筑物的地基，稳固的代码质量能够支撑起复杂而庞大的系统，反之则可能导致系统崩溃、维护困难，甚至安全漏洞。单元测试，作为保障代码质量的第一道防线，扮演着至关重要的角色。Python，作为一门以简洁优雅著称的编程语言，拥有丰富的测试框架，其中unittest和p
嵌入式学习——3——域套接字UNIX koka_jerry 学习 unix 服务器
1、域套接字UNIX1、域套接字是最原始的套接字通信方式，是完成同一主机之间多个进程间通信2、由于不需要跨主机进行通信了，那么就无需使用ip地址和端口号了3、通信本质：依然使用的是内核空间4、域套接字的通信介质为套接字文件bcd-lsp5、域套接字也分为流式域套接字和报式域套接字6、跟网络通信中相关函数的区别#include#includeintsocket(intdomain,inttype,i
【解锁机器学习：探寻数学基石】游戏乐趣机器学习人工智能
机器学习中的数学基础探秘在当今数字化时代，机器学习无疑是最具影响力和发展潜力的技术领域之一。从图像识别到自然语言处理，从智能推荐系统到自动驾驶，机器学习的应用无处不在，深刻地改变着我们的生活和工作方式。然而，在这看似神奇的机器学习背后，数学作为其坚实的理论基础，起着不可或缺的关键作用。毫不夸张地说，数学是打开机器学习大门的钥匙，是理解和掌握机器学习算法与模型的核心所在。想象一下，机器学习就像是一座
1.1 网络爬虫简介 lwen.steven 从头开始学Java数据采集
随着互联网的迅速发展，网络数据资源呈爆发式增长，信息需求者如何从网络中提取信息变得更加重要。如今，有效地获取网络数据资源的方式，便是网络爬虫。网络爬虫又称为网络蜘蛛或者Web信息采集器，是一种按照指定规则，自动抓取或下载网络资源的计算机程序或自动化脚本。网络爬虫狭义上的理解:利用标准网络协议(如HTTP、HTTPS等)，根据网络超链接和信息检索方法(如深度优先)遍历网络数据的软件程序。网络爬虫功能
Python 文件操作基础咱家阿星 python python
Python文件操作基础在这篇将详细介绍如何打开文件、读写文件，以及如何处理文件操作中的异常。1.打开文件：open()open()函数用于打开文件，并返回一个文件对象，你可以通过这个对象操作文件内容。打开文件时，需要指定文件路径和操作模式。语法：file_object=open(file_path,mode)常见操作模式：模式描述'r'读取文件（默认模式），文件必须存在。'w'写入文件，如果文件
机器学习——正则化、欠拟合、过拟合、学习曲线代码的建筑师学习记录机器学习机器学习学习曲线过拟合欠拟合正则化
过拟合（overfitting）:模型只能拟合训练数据的状态。即过度训练。避免过拟合的几种方法：①增加全部训练数据的数量（最为有效的方式）②使用简单的模型（简单的模型学不够，复杂的模型学的太多），这里的简单指的是不要过于复杂③正则化（对目标函数后加上正则化项）：使得这个“目标函数+正则化项”的值最小，即为正则化，用防止参数变得过大（参数值变小，意味着对目标函数的影响变小），λ是正则化参数，代表正则
《Operating System Concepts》阅读笔记：p286-p308 操作系统
《OperatingSystemConcepts》学习第28天，p286-p308总结，总计23页。一、技术总结1.reentrantlock(可重入锁)(1)为什么称为reentrantlock？AthreadacquiresaReentrantLocklockbyinvokingitslock()method.Ifthelockisavailable—orifthethreadinvoking
ubuntu部署ssl证书 QC七哥建站技能 ubuntu ssl linux https
证书安装在进行证书安装前，需要将域名的DNS指定到你的ubuntu服务器节点上，ubuntu安装Let’sEncrypt证书步骤如下安装certbot工具aptupdateaptinstallcertbotpython3-certbot-nginx运行certbot命令进行证书安装对于nginxcertbot--nginx-dmydomain.com-dwww.mydomain.com对于apac
使用 PEP 420 命名空间包构建统一目录风格及可选功能支持
背景在Python项目开发中，随着代码包数量和复杂度的增加，为了更好地管理多个代码包的命名空间及其依赖，推荐使用PEP420提供的命名空间包功能。通过这种方式，可以构建属于同一发行商（vendor）下的多个独立代码包，且这些包可以分别位于不同的代码仓库中。在此基础上，某些代码包可能需要进一步支持可选功能模块（例如optional1和optional2），用户可以根据需要选择安装这些功能模块。本文将
UDS学习计划正当少年 UDS 学习
以下是一份详细的UDS（UnifiedDiagnosticServices，统一诊断服务）学习计划，涵盖从基础到实战的系统化学习路径，适合初学者和有一定基础的开发者。计划周期为6-8周，每周投入10-15小时。第一阶段：基础认知（1周）学习目标理解UDS的基本概念和应用场景掌握UDS协议的核心组成部分熟悉相关工具的使用学习内容UDS概述UDS的定义与作用（ISO14229标准）应用场景：ECU诊断
数据结构Python版---生成螺旋矩阵(Day5) 圆嘟嘟2019 数据结构Python版 python 算法开发语言 leetcode 数据结构
文章目录1.1⭐算法原理：1.2连续数组长度1.1⭐算法原理：生成螺旋矩阵原理：通过模拟矩阵填充来解决，像蜗牛的螺旋一样，从外往里旋。1.2连续数组长度给定一个正整数n，生成一个包含1到n^2所有元素，且元素按顺时针顺序螺旋排列的正方形矩阵。示例1：输入:3输出:[[1,2,3],[8,9,4],[7,6,5]]通过模拟矩阵填充的过程来解决，使用四个变量top、bottom、left、right来
Java开发第一坑：记一次MySQL ON DUPLICATE KEY UPDATE影响行数异常排查：从现象到解决的全过程猿享天开 java mysql 开发语言
记一次MySQLONDUPLICATEKEYUPDATE影响行数异常排查：从现象到解决的全过程一、问题现象：神秘的计数器异常由于学习JAVA开发时间不长，也没有进行系统性学习，由于项目需要就草草的开始了程序开发，在开发医疗影像归档系统时，归档患者影像时需要自动根据数据库操作后的返回值判断是新增插入数据，还是更新数据，但由于返回的影响行数不准确，比如插入1条新数据、更新一条数据或未变化，返回的影响行
知识图谱与知识表示：人工智能的基石醉心编码 c/c++人工智能知识图谱
知识图谱与知识表示：人工智能的基石一、知识图谱：连接数据的桥梁1.1知识图谱的构成1.2知识图谱的应用二、知识表示：AI的推理基础2.1知识表示的定义2.2知识表示的形式三、从符号表示到向量表示3.1符号表示与向量表示3.2向量表示的优势四、智能的精华：推理与学习4.1推理的重要性4.2学习的局限性五、结论在人工智能领域，知识图谱和知识表示是两个核心概念，它们构成了AI理解、推理和学习的基础。本文
Ubuntu 24 常用命令&方法 achi010 Linux ubuntu Ubuntu 24 常用命令 Ubuntu 24 Ubuntu Ubuntu vi 异常处理 linux 服务器
文章目录环境说明1、账号管理1.1、启用root2、包管理工具apt&dpkg2.1、apt简介&阿里源配置2.2、dpkg简介2.3、apt和dpkg两者之间的关系2.4、常用命令3、启用ssh服务4、防火墙5、开启远程登录6、关闭交换分区7、build-essential（编译和开发软件的工具和库）7.1、异常处理8、网络8.1、静态IP9、Python10、vi10.1、异常处理：方向键出现
java工厂模式 3213213333332132 java 抽象工厂
工厂模式有 1、工厂方法 2、抽象工厂方法。下面我的实现是抽象工厂方法, 给所有具体的产品类定一个通用的接口。 package 工厂模式; /** * 航天飞行接口 * * @Description * @author FuJianyong * 2015-7-14下午02:42:05 */ public interface SpaceF
nginx频率限制+python测试 ronin47 nginx 频率 python
部分内容参考：http://www.abc3210.com/2013/web_04/82.shtml 首先说一下遇到这个问题是因为网站被攻击，阿里云报警，想到要限制一下访问频率，而不是限制ip（限制ip的方案稍后给出）。nginx连接资源被吃空返回状态码是502，添加本方案限制后返回599，与正常状态码区别开。步骤如下：
java线程和线程池的使用 dyy_gusi ThreadPool thread Runnable timer
java线程和线程池一、创建多线程的方式 java多线程很常见，如何使用多线程，如何创建线程，java中有两种方式，第一种是让自己的类实现Runnable接口，第二种是让自己的类继承Thread类。其实Thread类自己也是实现了Runnable接口。具体使用实例如下： 1、通过实现Runnable接口方式 1 2
Linux 171815164 linux
ubuntu kernel http://kernel.ubuntu.com/~kernel-ppa/mainline/v4.1.2-unstable/ 安卓sdk代理 mirrors.neusoft.edu.cn 80 输入法和jdk sudo apt-get install fcitx su
Tomcat JDBC Connection Pool g21121 Connection
Tomcat7 抛弃了以往的DBCP 采用了新的Tomcat Jdbc Pool 作为数据库连接组件，事实上DBCP已经被Hibernate 所抛弃，因为他存在很多问题，诸如：更新缓慢，bug较多，编译问题，代码复杂等等。 Tomcat Jdbc P
敲代码的一点想法永夜-极光 java 随笔感想
入门学习java编程已经半年了,一路敲代码下来,现在也才1w+行代码量,也就菜鸟水准吧,但是在整个学习过程中,我一直在想,为什么很多培训老师,网上的文章都是要我们背一些代码?比如学习Arraylist的时候,教师就让我们先参考源代码写一遍,然
jvm指令集程序员是怎么炼成的 jvm 指令集
转自：http://blog.csdn.net/hudashi/article/details/7062675#comments 将值推送至栈顶时 const ldc push load指令 const系列该系列命令主要负责把简单的数值类型送到栈顶。(从常量池或者局部变量push到栈顶时均使用) 0x02 &nbs
Oracle字符集的查看查询和Oracle字符集的设置修改 aijuans oracle
本文主要讨论以下几个部分：如何查看查询oracle字符集、修改设置字符集以及常见的oracle utf8字符集和oracle exp 字符集问题。一、什么是Oracle字符集 Oracle字符集是一个字节数据的解释的符号集合,有大小之分,有相互的包容关系。ORACLE 支持国家语言的体系结构允许你使用本地化语言来存储，处理，检索数据。它使数据库工具，错误消息，排序次序，日期，时间，货
png在Ie6下透明度处理方法 antonyup_2006 css 浏览器 Firebug IE
由于之前到深圳现场支撑上线，当时为了解决个控件下载，我机器上的IE8老报个错，不得以把ie8卸载掉，换个Ie6,问题解决了，今天出差回来，用ie6登入另一个正在开发的系统，遇到了Png图片的问题，当然升级到ie8(ie8自带的开发人员工具调试前端页面JS之类的还是比较方便的，和FireBug一样，呵呵)，这个问题就解决了，但稍微做了下这个问题的处理。我们知道PNG是图像文件存储格式，查询资
表查询常用命令高级查询方法(二) 百合不是茶 oracle 分页查询分组查询联合查询
----------------------------------------------------分组查询 group by having --平均工资和最高工资 select avg(sal)平均工资,max(sal) from emp ; --每个部门的平均工资和最高工资
uploadify3.1版本参数使用详解 bijian1013 JavaScript uploadify3.1
使用：绑定的界面元素<input id='gallery'type='file'/>$("#gallery").uploadify({设置参数，参数如下}); 设置的属性： id: jQuery(this).attr('id'),//绑定的input的ID langFile: 'http://ww
精通Oracle10编程SQL(17)使用ORACLE系统包 bijian1013 oracle 数据库 plsql
/* *使用ORACLE系统包 */ --1.DBMS_OUTPUT --ENABLE:用于激活过程PUT,PUT_LINE,NEW_LINE,GET_LINE和GET_LINES的调用 --语法：DBMS_OUTPUT.enable(buffer_size in integer default 20000); --DISABLE:用于禁止对过程PUT,PUT_LINE,NEW
【JVM一】JVM垃圾回收日志 bit1129 垃圾回收
将JVM垃圾回收的日志记录下来，对于分析垃圾回收的运行状态，进而调整内存分配(年轻代，老年代，永久代的内存分配)等是很有意义的。JVM与垃圾回收日志相关的参数包括： -XX:+PrintGC -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -XX:+PrintGCDateStamps -Xloggc -XX:+PrintGC 通
Toast使用白糖_ toast
Android中的Toast是一种简易的消息提示框，toast提示框不能被用户点击，toast会根据用户设置的显示时间后自动消失。创建Toast 两个方法创建Toast makeText(Context context, int resId, int duration) 参数：context是toast显示在
angular.identity boyitech AngularJS AngularJS API
angular.identiy 描述: 返回它第一参数的函数. 此函数多用于函数是编程. 使用方法: angular.identity(value); 参数详解: Param Type Details value * to be returned. 返回值: 传入的value 实例代码: <!DOCTYPE HTML>
java-两整数相除，求循环节 bylijinnan java
import java.util.ArrayList; import java.util.List; public class CircleDigitsInDivision { /** * 题目：求循环节，若整除则返回NULL，否则返回char*指向循环节。先写思路。函数原型：char*get_circle_digits(unsigned k,unsigned j)
Java 日期周年 Chen.H java C++c C#
/** * java日期操作(月末、周末等的日期操作) * * @author * */ public class DateUtil { /** */ /** * 取得某天相加(减)後的那一天 * * @param date * @param num *
[高考与专业]欢迎广大高中毕业生加入自动控制与计算机应用专业 comsci 计算机
不知道现在的高校还设置这个宽口径专业没有,自动控制与计算机应用专业,我就是这个专业毕业的,这个专业的课程非常多,既要学习自动控制方面的课程,也要学习计算机专业的课程,对数学也要求比较高.....如果有这个专业,欢迎大家报考...毕业出来之后,就业的途径非常广..... 以后
分层查询（Hierarchical Queries） daizj oracle 递归查询层次查询
Hierarchical Queries If a table contains hierarchical data, then you can select rows in a hierarchical order using the hierarchical query clause: hierarchical_query_clause::= start with condi
数据迁移 daysinsun 数据迁移
最近公司在重构一个医疗系统，原来的系统是两个.Net系统，现需要重构到java中。数据库分别为SQL Server和Mysql，现需要将数据库统一为Hana数据库，发现了几个问题，但最后通过努力都解决了。 1、原本通过Hana的数据迁移工具把数据是可以迁移过去的，在MySQl里面的字段为TEXT类型的到Hana里面就存储不了了，最后不得不更改为clob。 2、在数据插入的时候有些字段特别长
C语言学习二进制的表示示例 dcj3sjt126com c basic
进制的表示示例 # include <stdio.h> int main(void) { int i = 0x32C; printf("i = %d\n", i); /* printf的用法 %d表示以十进制输出 %x或%X表示以十六进制的输出 %o表示以八进制输出 */ return 0; }
NsTimer 和 UITableViewCell 之间的控制 dcj3sjt126com ios
情况是这样的: 一个UITableView, 每个Cell的内容是我自定义的 viewA viewA上面有很多的动画, 我需要添加NSTimer来做动画, 由于TableView的复用机制, 我添加的动画会不断开启, 没有停止, 动画会执行越来越多. 解决办法: 在配置cell的时候开始动画, 然后在cell结束显示的时候停止动画查找cell结束显示的代理
MySql中case when then 的使用 fanxiaolong casewhenthenend
select "主键", "项目编号", "项目名称","项目创建时间", "项目状态","部门名称","创建人" union (select pp.id as "主键", pp.project_number as &
Ehcache（01）——简介、基本操作 234390216 cache ehcache 简介 CacheManager crud
Ehcache简介目录 1 CacheManager 1.1 构造方法构建 1.2 静态方法构建 2 Cache 2.1&
最容易懂的javascript闭包学习入门 jackyrong JavaScript
http://www.ruanyifeng.com/blog/2009/08/learning_javascript_closures.html 闭包（closure）是Javascript语言的一个难点，也是它的特色，很多高级应用都要依靠闭包实现。下面就是我的学习笔记，对于Javascript初学者应该是很有用的。一、变量的作用域要理解闭包，首先必须理解Javascript特殊
提升网站转化率的四步优化方案 php教程分享数据结构 PHP 数据挖掘 Google 活动
网站开发完成后,我们在进行网站优化最关键的问题就是如何提高整体的转化率，这也是营销策略里最最重要的方面之一，并且也是网站综合运营实例的结果。文中分享了四大优化策略：调查、研究、优化、评估，这四大策略可以很好地帮助用户设计出高效的优化方案。 PHP开发的网站优化一个网站最关键和棘手的是，如何提高整体的转化率，这是任何营销策略里最重要的方面之一，而提升网站转化率是网站综合运营实力的结果。今天，我就分
web开发里什么是HTML5的WebSocket？ naruto1990 Web html5 浏览器 socket
当前火起来的HTML5语言里面，很多学者们都还没有完全了解这语言的效果情况，我最喜欢的Web开发技术就是正迅速变得流行的 WebSocket API。WebSocket 提供了一个受欢迎的技术，以替代我们过去几年一直在用的Ajax技术。这个新的API提供了一个方法，从客户端使用简单的语法有效地推动消息到服务器。让我们看一看6个HTML5教程介绍里的 WebSocket API：它可用于客户端、服
Socket初步编程——简单实现群聊 Everyday都不同 socket 网络编程初步认识
初次接触到socket网络编程，也参考了网络上众前辈的文章。尝试自己也写了一下，记录下过程吧：服务端：（接收客户端消息并把它们打印出来） public class SocketServer { private List<Socket> socketList = new ArrayList<Socket>(); public s
面试：Hashtable与HashMap的区别（结合线程） toknowme
昨天去了某钱公司面试，面试过程中被问道 Hashtable与HashMap的区别？当时就是回答了一点，Hashtable是线程安全的，HashMap是线程不安全的，说白了，就是Hashtable是的同步的，HashMap不是同步的，需要额外的处理一下。今天就动手写了一个例子，直接看代码吧 package com.learn.lesson001; import java
MVC设计模式的总结 xp9802 设计模式 mvc 框架 IOC
随着Web应用的商业逻辑包含逐渐复杂的公式分析计算、决策支持等，使客户机越来越不堪重负，因此将系统的商业分离出来。单独形成一部分，这样三层结构产生了。其中‘层’是逻辑上的划分。三层体系结构是将整个系统划分为如图2.1所示的结构[3] （1）表现层（Presentation layer）：包含表示代码、用户交互GUI、数据验证。该层用于向客户端用户提供GUI交互，它允许用户