老胡的储物柜

如何实现一个Python爬虫框架

这篇文章的题目有点大，但这并不是说我自觉对Python爬虫这块有多大见解，我只不过是想将自己的一些经验付诸于笔，对于如何写一个爬虫框架，我想一步一步地结合具体代码来讲述如何从零开始编写一个自己的爬虫框架

2018年到如今，我花精力比较多的一个开源项目算是 Ruia了，这是一个基于 Python3.6+的异步爬虫框架，当时也获得一些推荐，比如 GithubTrendingPython语言榜单第二，目前 Ruia还在开发中， Star数目不过 700+，如果各位有兴趣，欢迎一起开发，来波 star我也不会拒绝哈~

什么是爬虫框架

说这个之前，得先说说什么是框架：

是实现业界标准的组件规范：比如众所周知的 MVC开发规范
提供规范所要求之基础功能的软件产品：比如 Django框架就是 MVC的开发框架，但它还提供了其他基础功能帮助我们快速开发，比如中间件、认证系统等

框架的关注点在于规范二字，好，我们要写的Python爬虫框架规范是什么？

很简单，爬虫框架就是对爬虫流程规范的实现，不清楚的朋友可以看上一篇文章

请求&响应
解析
持久化

这三个流程有没有可能以一种优雅的形式串联起来， Ruia目前是这样实现的，请看代码示例：

可以看到， Item&Field类结合一起实现了字段的解析提取， Spider类结合 Request*Response类实现了对爬虫程序整体的控制，从而可以如同流水线一般编写爬虫，最后返回的 item可以根据使用者自身的需求进行持久化，这几行代码，我们就实现了获取目标网页请求、字段解析提取、持久化这三个流程

实现了基本流程规范之后，我们继而就可以考虑一些基础功能，让使用者编写爬虫可以更加轻松，比如：中间件(Ruia里面的Middleware)、提供一些 hook让用户编写爬虫更方便(比如ruia-motor)

这些想明白之后，接下来就可以愉快地编写自己心目中的爬虫框架了

如何踏出第一步

首先，我对Ruia爬虫框架的定位很清楚，基于 asyncio&aiohttp的一个轻量的、异步爬虫框架，怎么实现呢，我觉得以下几点需要遵守：

轻量级，专注于抓取、解析和良好的API接口
插件化，各个模块耦合程度尽量低，目的是容易编写自定义插件
速度，异步无阻塞框架，需要对速度有一定追求

什么是爬虫框架如今我们已经很清楚了，现在急需要做的就是将流程规范利用Python语言实现出来，怎么实现，分为哪几个模块，可以看如下图示：

同时让我们结合上面一节的 Ruia代码来从业务逻辑角度看看这几个模块到底是什么意思：

Request：请求
Response：响应
Item & Field：解析提取
Spider：爬虫程序的控制中心，将请求、响应、解析、存储结合起来

这四个部分我们可以简单地使用五个类来实现，在开始讲解之前，请先克隆 Ruia框架到本地：

# 请确保本地Python环境是3.6+	
git clone https://github.com/howie6879/ruia.git	
# 安装pipenv	
pip install pipenv 	
# 安装依赖包	
pipenv install --dev

然后用 PyCharm打开 Ruia项目：

选择刚刚 pipenv配置好的python解释器：

此时可以完整地看到项目代码：

好，环境以及源码准备完毕，接下来将结合代码讲述一个爬虫框架的编写流程

Request & Response

Request类的目的是对 aiohttp加一层封装进行模拟请求，功能如下：

封装GET、POST两种请求方式
增加回调机制
自定义重试次数、休眠时间、超时、重试解决方案、请求是否成功验证等功能
将返回的一系列数据封装成 Response类返回

接下来就简单了，不过就是实现上述需求，首先，需要实现一个函数来抓取目标 url，比如命名为 fetch:

import asyncio	
import aiohttp	
import async_timeout	
from typing import Coroutine	
class Request:	
    # Default config	
    REQUEST_CONFIG = {	
        'RETRIES': 3,	
        'DELAY': 0,	
        'TIMEOUT': 10,	
        'RETRY_FUNC': Coroutine,	
        'VALID': Coroutine	
    }	
    METHOD = ['GET', 'POST']	
    def __init__(self, url, method='GET', request_config=None, request_session=None):	
        self.url = url	
        self.method = method.upper()	
        self.request_config = request_config or self.REQUEST_CONFIG	
        self.request_session = request_session	
    @property	
    def current_request_session(self):	
        if self.request_session is None:	
            self.request_session = aiohttp.ClientSession()	
            self.close_request_session = True	
        return self.request_session	
    async def fetch(self):	
        """Fetch all the information by using aiohttp"""	
        if self.request_config.get('DELAY', 0) > 0:	
            await asyncio.sleep(self.request_config['DELAY'])	
        timeout = self.request_config.get('TIMEOUT', 10)	
        async with async_timeout.timeout(timeout):	
            resp = await self._make_request()	
        try:	
            resp_data = await resp.text()	
        except UnicodeDecodeError:	
            resp_data = await resp.read()	
        resp_dict = dict(	
            rl=self.url,	
            method=self.method,	
            encoding=resp.get_encoding(),	
            html=resp_data,	
            cookies=resp.cookies,	
            headers=resp.headers,	
            status=resp.status,	
            history=resp.history	
        )	
        await self.request_session.close()	
        return type('Response', (), resp_dict)	
    async def _make_request(self):	
        if self.method == 'GET':	
            request_func = self.current_request_session.get(self.url)	
        else:	
            request_func = self.current_request_session.post(self.url)	
        resp = await request_func	
        return resp	
if __name__ == '__main__':	
    loop = asyncio.get_event_loop()	
    resp = loop.run_until_complete(Request('https://docs.python-ruia.org/').fetch())	
    print(resp.status)

实际运行一下，会输出请求状态 200，就这样简单封装一下，我们已经有了自己的请求类 Request，接下来只需要再完善一下重试机制以及将返回的属性封装一下就基本完成了：

# 重试函数	
async def _retry(self):	
    if self.retry_times > 0:	
        retry_times = self.request_config.get('RETRIES', 3) - self.retry_times + 1	
        self.retry_times -= 1	
        retry_func = self.request_config.get('RETRY_FUNC')	
        if retry_func and iscoroutinefunction(retry_func):	
            request_ins = await retry_func(weakref.proxy(self))	
            if isinstance(request_ins, Request):	
                return await request_ins.fetch()	
        return await self.fetch()

最终代码见 ruia/request.py即可，接下来就可以利用 Request来实际请求一个目标网页，如下：

这段代码请求了目标网页 https://docs.python-ruia.org/并返回了 Response对象，其中 Response提供属性介绍如下：

Field & Item

实现了对目标网页的请求，接下来就是对目标网页进行字段提取，我觉得 ORM的思想很适合用在这里，我们只需要定义一个 Item类，类里面每个属性都可以用 Field类来定义，然后只需要传入 url或者 html，执行过后 Item类里面定义的属性会自动被提取出来变成目标字段值

可能说起来比较拗口，下面直接演示一下可能你就明白这样写的好，假设你的需求是获取 HackerNews网页的 title和 url，可以这样实现：

import asyncio	
from ruia import AttrField, TextField, Item	
class HackerNewsItem(Item):	
    target_item = TextField(css_select='tr.athing')	
    title = TextField(css_select='a.storylink')	
    url = AttrField(css_select='a.storylink', attr='href')	
async def main():	
    async for item in HackerNewsItem.get_items(url="https://news.ycombinator.com/"):	
        print(item.title, item.url)	
if __name__ == '__main__':	
     items = asyncio.run(main())

从输出结果可以看到， title和 url属性已经被赋与实际的目标值，这样写起来是不是很简洁清晰也很明了呢？

来看看怎么实现， Field类的目的是提供多种方式让开发者提取网页字段，比如：

XPath
CSS Selector
RE

所以我们只需要根据需求，定义父类然后再利用不同的提取方式实现子类即可，代码如下：

class BaseField(object):	
    """	
    BaseField class	
    """	
    def __init__(self, default: str = '', many: bool = False):	
        """	
        Init BaseField class	
        url: http://lxml.de/index.html	
        :param default: default value	
        :param many: if there are many fields in one page	
        """	
        self.default = default	
        self.many = many	
    def extract(self, *args, **kwargs):	
        raise NotImplementedError('extract is not implemented.')	
class _LxmlElementField(BaseField):	
    pass	
class AttrField(_LxmlElementField):	
    """	
    This field is used to get  attribute.	
    """	
      pass	
class HtmlField(_LxmlElementField):	
    """	
    This field is used to get raw html data.	
    """	
    pass	
class TextField(_LxmlElementField):	
    """	
    This field is used to get text.	
    """	
      pass	
class RegexField(BaseField):	
    """	
    This field is used to get raw html code by regular expression.	
    RegexField uses standard library `re` inner, that is to say it has a better performance than _LxmlElementField.	
    """	
    pass

核心类就是上面的代码，具体实现请看 ruia/field.py

接下来继续说 Item部分，这部分实际上是对 ORM那块的实现，用到的知识点是 元类，因为我们需要控制类的创建行为：

class ItemMeta(type):	
    """	
    Metaclass for an item	
    """	
    def __new__(cls, name, bases, attrs):	
        __fields = dict({(field_name, attrs.pop(field_name))	
                         for field_name, object in list(attrs.items())	
                         if isinstance(object, BaseField)})	
        attrs['__fields'] = __fields	
        new_class = type.__new__(cls, name, bases, attrs)	
        return new_class	
class Item(metaclass=ItemMeta):	
    """	
    Item class for each item	
    """	
    def __init__(self):	
        self.ignore_item = False	
        self.results = {}

这一层弄明白接下来就很简单了，还记得上一篇文章《谈谈对Python爬虫的理解》里面说的四个类型的目标网页么：

单页面单目标
单页面多目标
多页面单目标
多页面多目标

本质来说就是要获取网页的单目标以及多目标（多页面可以放在Spider那块实现）， Item类只需要定义两个方法就能实现：

get_item()：单目标
get_items()：多目标，需要定义好 target_item

具体实现见： ruia/item.py

Spider

在 Ruia框架中，为什么要有 Spider，有以下原因：

真实世界爬虫是多个页面的（或深度或广度），利用 Spider可以对这些进行有效的管理
制定一套爬虫程序的编写标准，可以让开发者容易理解、交流，能迅速产出高质量爬虫程序
自由地定制插件

接下来说说代码实现， Ruia框架的 API写法我有参考 Scrapy，各个函数之间的联结也是使用回调，但是你也可以直接使用 await，可以直接看代码示例：

from ruia import AttrField, TextField, Item, Spider	
class HackerNewsItem(Item):	
    target_item = TextField(css_select='tr.athing')	
    title = TextField(css_select='a.storylink')	
    url = AttrField(css_select='a.storylink', attr='href')	
class HackerNewsSpider(Spider):	
    start_urls = [f'https://news.ycombinator.com/news?p={index}' for index in range(1, 3)]	
    async def parse(self, response):	
        async for item in HackerNewsItem.get_items(html=response.html):	
            yield item	
if __name__ == '__main__':	
    HackerNewsSpider.start()

使用起来还是挺简洁的，输出如下：

[2019:03:14 10:29:04] INFO  Spider  Spider started!	
[2019:03:14 10:29:04] INFO  Spider  Worker started: 4380434912	
[2019:03:14 10:29:04] INFO  Spider  Worker started: 4380435048	
[2019:03:14 10:29:04] INFO  Request 	
[2019:03:14 10:29:04] INFO  Request 	
[2019:03:14 10:29:08] INFO  Spider  Stopping spider: Ruia	
[2019:03:14 10:29:08] INFO  Spider  Total requests: 2	
[2019:03:14 10:29:08] INFO  Spider  Time usage: 0:00:03.426335	
[2019:03:14 10:29:08] INFO  Spider  Spider finished!

Spider的核心部分在于对请求 URL的请求控制，目前采用的是生产消费者模式来处理，具体函数如下：

详细代码，见 ruia/spider.py

更多

至此，爬虫框架的核心部分已经实现完毕，基础功能同样一个不落地实现了，接下来要做的就是：

实现更多优雅地功能
实现更多的插件，让生态丰富起来
修BUG

项目地址点击阅读原文或者在 github搜索 ruia，如果你有兴趣，请参与进来吧！

如果觉得写得不错，点个好看来个 star呗~

往期推荐：

MongoDB 创建数据库张飞光数据库 mongodb oracle
在MongoDB中，数据库的创建是一个简单的过程，当你首次向MongoDB中插入数据时，如果数据库不存在，MongoDB会自动创建它。我们只需选择一个数据库名称，并开始向其中插入文档即可。语法当你使用use命令来指定一个数据库时，如果该数据库不存在，MongoDB将自动创建它。MongoDB创建数据库的语法格式如下：useDATABASE_NAME如果数据库不存在，则创建数据库，否则切换到指定数据
2024年必备的AI代码编辑器：Cursor等8款神器推荐 surfirst LLM 人工智能编辑器 Cursor 开发者
AI代码编辑器在2024年深刻影响了开发者2024年，AI代码编辑器成为开发者日常工作中的核心工具，对编程方式和效率产生了深刻影响。以下几点尤其值得关注：加速应用开发：AI工具帮助开发者快速实现流程自动化，提高研发效率，并优化用户体验。例如，根据某项调查显示，使用AI代码编辑器后，开发速度提高了30%。个体效能显著提高：AI代码编辑器让个人开发者能够像一个小团队一样高效工作。全栈开发变得更加容易，
Systrace系列1—— 简介添码星空工具使用 android 经验分享 ide java
本文主要是对Systrace进行简单介绍，介绍其简单使用方法；如何去看Systrace；如何结合其他工具对Systrace中的现象进行分析。本系列的目的是通过Systrace这个工具，从另外一个角度来看待Android系统整体的运行，同时也从另外一个角度来对Framework进行学习。也许你看了很多讲Framework的文章，但是总是记不住代码，或者不清楚其运行的流程，也许从Systrace这个图
使用Chaindesk与大语言模型集成的实战指南 srudfktuffk 语言模型人工智能自然语言处理 python
技术背景介绍在现代AI应用中，快速有效地从大量数据中获取相关信息是至关重要的。Chaindesk是一款开源的文档检索平台，旨在将您的个人数据与大型语言模型（LLM）连接起来，实现高效的信息检索和应用集成。核心原理解析Chaindesk通过创建"数据存储"（datastore）来管理和索引数据，利用检索器（Retriever）进行高效查询。这使得用户能够在私有数据的基础上构建智能应用，而无需担心数据
CS书籍、代码资源下载网址 sun_kang CS Guide &&Links linux java tutorials debian documentation linux内核
CS网址收藏啄木鸟Pythonic开源社区：http://www.woodpecker.org.cn/中国IT实验室（游戏开发）：http://game.chinaitlab.com/游戏开发资源网：http://www.gameres.com/国内游戏开发论坛：http://bbs.gameres.com/国外的游戏开发站：http://www.gamedev.net/《问道》游戏开发论坛：ht
Yii框架中的表单构建器：构建复杂表单 ac-er8888 服务器运维 php 开发语言
Yii框架中的表单构建器（FormBuilder）是一个强大的工具，它允许开发人员以简单、面向对象的方式构建复杂的表单，从而提升Web应用的用户体验。以下是对Yii框架中表单构建器的详细简述，特别是在构建复杂表单方面的应用：一、表单构建器的基础组件介绍：Yii表单构建器是Yii框架中的一个组件，专门用于创建Web表单。它提供了一个简单的、面向对象的编程接口，使得开发人员能够轻松地创建各种常见的表单
探索ChatLiteLLM与Langchain的集成应用 safHTEAHE langchain python
在现代AI应用开发中，简化调用多种语言模型的过程显得尤为重要。ChatLiteLLM库应运而生，它为开发者提供了调用如Anthropic、Azure、Huggingface、Replicate等模型的简便方法。这篇文章将带你深入了解如何使用Langchain与LiteLLMI/O库协同工作，实现高效的语言模型交互。1.技术背景介绍随着人工智能技术的飞速发展，多种语言模型应用于不同场景。集成这些模型
MongoDB权限讲解只想按时下班 mongodb mongodb 数据库
文章目录MongoDB权限说明普通用户管理用户授权用户超级管理员创建管理用户mongdb库创建读写用户一个用户多个权限MongoDB权限说明权限误区：并不是说下面的排序就证明权限越来越大除了readWrite权限用户外(root权限用户也包括)，其它用户都不具备对数据库的写入权限，除read权限外，其它用户都不具备对数据库中的读权限，每个权限的功能各不一样(除root外)普通用户普通用户只是拥有下
tomcat配置存放静态资源，实现网页访问并下载 qq_40711092 tomcat java
配置server.xml在server.xml文件中的Host标签下嵌入一个Context标签，path是映射的web路径，doBase是本地磁盘的物理路径。-->-->设置tomcat允许访问静态文件夹，修改web.xml文件中如下图位置将false修改为truedefaultorg.apache.catalina.servlets.DefaultServletdebug0listingstru
缓存为什么比主存快？ Wx深入理解嵌入式缓存缓存为什么比主存快？SRAM的原理 DRAM的原理
缓存之所以比主存快，这是一个被广泛认知但未必深入理解的现象。让我们揭开这层神秘的面纱，探索缓存与主存速度差异的根本原因。目录1、多因素协同作用2、存储技术的较量SRAM的优势：DRAM的挑战：3、技术细节的深入5、总结1、多因素协同作用缓存与主存的速度差异，是由一系列相互交织的因素所决定的。这些因素包括存储器与处理器核心的距离、总线宽度、数据传输协议的复杂性，以及每种存储器的内在技术。2、存储技术
Oracle（2）Oracle数据库的主要组件有哪些？辞暮尔尔-烟火年年 Oracle oracle 数据库
Oracle数据库的主要组件包括以下几个部分，每个组件在数据库管理和操作中都起着至关重要的作用。以下是对这些组件的详细介绍，并结合一些代码示例来说明其功能。1.实例（Instance）Oracle实例是Oracle数据库的运行环境，由内存结构和后台进程组成。一个实例控制一个数据库的操作。内存结构系统全局区（SGA）：共享内存区，用于存储数据库缓存和共享信息。程序全局区（PGA）：为每个服务器进程分
Spring 3自定义注解与格式化器的深度实践 t0_54manong spring python 数据库个人开发
在Spring框架中，格式化器（Formatter）和注解（Annotation）是处理数据格式化和验证的强大工具。通过将注解与格式化器绑定，我们可以在字段级别灵活地定义数据的格式化规则。本文将通过一个完整的示例，展示如何创建自定义注解、格式化器，并将它们绑定到Spring的AnnotationFormatterFactory中，实现字段级别的数据格式化。一、背景与需求在开发Web应用时，我们经常
[读书日志]从零开始学习Chisel 第一篇：书籍介绍，Scala与Chisel概述，Scala安装运行（敏捷硬件开发语言Chisel与数字系统设计） JoneMaster 从零开始学Chisel JM读书日志系列开发语言 scala 后端 fpga开发架构嵌入式硬件
简介：从20世纪90年代开始，利用硬件描述语言和综合技术设计实现复杂数字系统的方法已经在集成电路设计领域得到普及。随着集成电路集成度的不断提高，传统硬件描述语言和设计方法的开发效率低下的问题越来越明显。近年来逐渐崭露头角的敏捷化设计方法将把集成电路设计带入一个新的阶段。与此同时，集成电路设计也需要一种适应敏捷化设计方法的新型硬件开发语言。本书从实用性和先进性出发，较全面地介绍新型硬件开发语言Chi
Python爬虫项目合集：200个Python爬虫项目带你从入门到精通人工智能_SYBH 爬虫试读 2025年爬虫百篇实战宝典:从入门到精通 python 爬虫数据分析信息可视化爬虫项目大全 Python爬虫项目合集爬虫从入门到精通项目
适合人群无论你是刚接触编程的初学者，还是已经掌握一定Python基础并希望深入了解网络数据采集的开发者，这个专栏都将为你提供系统化的学习路径。通过循序渐进的理论讲解、代码实例和实践项目，你将获得扎实的爬虫开发技能，适应不同场景下的数据采集需求。专栏特色从基础到高级，内容体系全面专栏内容从爬虫的基础知识与工作原理开始讲解，逐渐覆盖静态网页、动态网页、API数据爬取等实用技术。后续还将深入解析反爬机制
Trae：新一代 AI 智能 IDE，颠覆你的开发体验 that's boy 人工智能 ide chatgpt openai AI编程 AI写作 Claude
想体验各种AI模型的强大功能吗？chatTools平台汇集了o1、GPT4o、Claude和Gemini等多种AI选择，无论您有何种AI需求，都能在这里找到合适的解决方案。现在就来chatTools，开启您的AI之旅吧！作为一名开发者，你是否厌倦了繁琐的重复劳动？是否渴望一个能够真正理解你意图的编程助手？如果你的答案是肯定的，那么你一定要了解一下Trae——一款带有AI功能的智能IDE，它将彻底改
MongoDB详细讲解 + springboot集成 you0719 简单学点java 数据库 java
MongoDB以JSON为数据模型的文档非关系型数据库垂直扩展在一个机器上进行性能扩展水平扩展多个机器的扩展定位特点定位为应用数据库,存储数据特点:量大/非敏感/一定的查询性能MongoDB的语法是JavaScript语法添加db.集合名.insert(js对象)编辑db.集合名.updateMany({key:value}{$set:{key:value}})删除db.集合名.deleteMan
每个程序员都该学习的5种开发语言阿玥的小东东学习开发语言
我曾在某处读到过（可能在《代码大全》，但我不敢确定），程序员应该每年学习一门新的编程语言。但如果做不到，我建议，你至少学习以下5种开发语言，以便你在职业生涯有很好的表现。每个公司都喜爱精通多种编程语言并且多才多艺的程序员。一个既能很麻利地写脚本，也能编写复杂的Java程序的程序员，确实相当有价值。所以实际上，对于高级开发者来说，学习不止一种编程语言，几乎就是必然的要求。目前而言，面试官越来越看重那
face-kkk 山山而川_R face 深度学习
目录一、配置环境1、新建虚拟环境2、配置环境安装包3、下载安装使用环境二、注册新人1、采集照片2、注册新人3、测试视频或摄像头三、配置文件config1、项目配置文件configs/configs.py，用于设置人脸检测模型，特征提取模型二、下面是自己测试用（个人的一个记录，不具备参考意义）MTCNN人脸检测参考项目：GitHub-Sierkinhane/mtcnn-pytorch:Afacede
FunASR语言识别的环境安装、推理山山而川_R FunASR r语言 xcode 开发语言
目录一、环境配置1、创建虚拟环境2、安装环境及pytorch官网：pytorch下载地址3、安装funasr之前，确保已经安装了下面依赖环境:python代码调用（推荐）4、模型下载5、启动funasr服务二、客户端连接2.1html连接三、推理识别模型1、实时语音识别2、非实时语音识别一、环境配置源码地址：FunASRFunASR/README_zh.mdatmain·alibaba-damo-
安装线程自由（无GIL锁）Python及Pytorch方法为什么每天的风都这么大 python pytorch 开发语言
参考资料：https://py-free-threading.github.io/installing_cpython/https://github.com/pytorch/pytorch/issues/130249https://download.pytorch.org/whl/torch/截至当前（2025.1.22），最新的线程自由Python版本为13.1，因此下面的方法适用于该版本安装P
如何使用python技术爬取下载百度文库文档？大懒猫软件 python 百度开发语言
使用Python爬取百度文库文档需要通过分析网页结构和接口请求来实现。以下是一个基于搜索结果的实现方法，适用于爬取百度文库中的文档内容：第一部分：获取百度文库文档实现步骤获取文档ID和基本信息通过文档的URL获取文档ID，并解析页面内容以获取文档的类型、标题等信息。请求文档信息接口使用getdocinfo接口获取文档的页数、MD5校验码等参数。请求文档正文内容根据文档类型（如txt、doc等），请
如何写出优秀的提示词？ChatGPT官方的六种方法大懒猫软件 chatgpt 命令模式 prompt ai
使用ChatGPT时，提示词（Prompt）的质量直接影响到生成结果的好坏。ChatGPT官方文档中提供了六种优化提示词的方法，这些方法能够帮助用户更好地利用ChatGPT，提升其生成内容的准确性和实用性。本文将结合中文习惯和新的示例，对这些方法进行详细解读。第一章：指令要清晰清晰的指令是高效使用ChatGPT的基础。明确表达需求，避免让模型猜测，是获得精准回答的关键。1.1问题里包含更多细节在提
Blazor-Blogs 开源项目教程陆滔柏Precious
Blazor-Blogs开源项目教程Blazor-BlogsSimplebloggingapplicationwritteninMicrosoftServerSideBlazor项目地址:https://gitcode.com/gh_mirrors/bl/Blazor-Blogs项目介绍Blazor-Blogs是一个基于Blazor框架的开源博客系统。Blazor是一个使用.NET构建客户端Web
探索数据之美：Blazor-ApexCharts——为.NET Core而生的图表神器解雁淞
探索数据之美：Blazor-ApexCharts——为.NETCore而生的图表神器Blazor-ApexChartsAblazorwrapperforApexCharts.js项目地址:https://gitcode.com/gh_mirrors/bl/Blazor-ApexCharts在可视化日益重要的今天，找到一个既高效又灵活的图表库对于开发者来说至关重要。今天，我们要向大家隆重推荐一款专为
Blazor-ApexCharts 开源项目指南凌桃莺Talia
Blazor-ApexCharts开源项目指南项目地址:https://gitcode.com/gh_mirrors/bl/Blazor-ApexCharts一、项目介绍Blazor-ApexCharts是一个用于Blazor框架的图表组件库封装，它基于流行的前端图表库ApexCharts.js实现。这个项目旨在简化在Blazor应用中添加交互式图表的过程，无需直接处理复杂的JavaScript互
学习笔记一：oracle体系结构组件 coxddta29006 数据库操作系统 java
首先声明一下，我的学习笔记参考书主要是官方教材，oracle9idatabaseadministrationfundamentsed2.0我觉得学习是一个循序渐进的过程,从面到点,从宏观到微观,逐步渗透,各个击破,对于oracle,怎么样从宏观上来理解呢?先来看一个图,这个图取自于上面提到的教材,这个图对于从整体上理解ORACLE的体系结构组件，非常关键.下面来解释下这个图.对于一个数据库系统来说
Ubuntu 下访问摄像头及将摄像头数据重定向到http协议远程访问摄像头 chn89 Linux
本文的主要工作是ubuntu下打开摄像头，保存图片及视频，以及将视频流搬到网络上，远程访问之。两个目的，第一是手头现有树霉派，但是没有摄像头模块，所以就以笔记本来做实验，最终想法是树霉派连接摄像头模块作为一个远程网络视频监控器。第二，是安卓或者IOS装个支持视频流的播放器，就可以打开上述远程视频监控器了1打开摄像头为了访问摄像头，需要安装cheese软件。sudoapt-getinstallche
OpenCV 笔记(25)：图像的仿射变换 Java与Android技术栈 opencv 笔记人工智能计算机视觉
1.几何变换图像的几何变换是指将一幅图像中的坐标位置映射到另一幅图像中的新坐标位置，其实质是改变像素的空间位置，估算新空间位置上的像素值。几何变换不改变图像的像素值，只是在图像平面上进行像素的重新安排。以下是常用的几种几何变换：旋转：将图像旋转指定角度。缩放：按缩放因子调整图像大小，使其变大或变小。平移：将图像从当前位置移动到新位置。错切：沿特定轴倾斜图像。仿射变换：一个更广泛的类别，包括单个变换
AWS Elastic Beanstalk HaoHao_010 aws java 云计算服务器云服务器
AWSElasticBeanstalk是一项由AmazonWebServices(AWS)提供的完全托管的服务，旨在简化和加速应用程序的部署、管理和扩展。通过ElasticBeanstalk，开发者可以轻松地将应用程序发布到AWS云平台，而无需关注底层的基础设施管理，如服务器、负载均衡、扩展等。ElasticBeanstalk为开发人员提供了一个简化的方式来运行Web应用程序和服务，并自动处理许多
在EverlyAI上运行LLM模型——以LLAMA为例 HGWAcsdgvs llama python
在EverlyAI上运行LLM模型——以LLAMA为例技术背景介绍EverlyAI是一个强大的云平台，允许你在云中大规模运行机器学习模型。它还提供了对多种大型语言模型（LLM）的API访问。在这篇文章中，我们将展示如何使用EverlyAI的API来调用LLAMA模型。通过这种方式，你可以在云端轻松地运行和测试你的语言模型。核心原理解析LLAMA模型是一个强大的变压器模型，它具有数十亿个参数，能够处
Dom 周华华 JavaScript html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
【Spark九十六】RDD API之combineByKey bit1129 spark
1. combineByKey函数的运行机制 RDD提供了很多针对元素类型为(K,V)的API，这些API封装在PairRDDFunctions类中，通过Scala隐式转换使用。这些API实现上是借助于combineByKey实现的。combineByKey函数本身也是RDD开放给Spark开发人员使用的API之一首先看一下combineByKey的方法说明：
msyql设置密码报错：ERROR 1372 (HY000): 解决方法详解 daizj mysql 设置密码
MySql给用户设置权限同时指定访问密码时，会提示如下错误： ERROR 1372 (HY000): Password hash should be a 41-digit hexadecimal number；问题原因：你输入的密码是明文。不允许这么输入。解决办法：用select password('你想输入的密码');查询出你的密码对应的字符串，然后
路漫漫其修远兮吾将上下而求索周凡杨学习思索
王国维在他的《人间词话》中曾经概括了为学的三种境界古今之成大事业、大学问者，罔不经过三种之境界。“昨夜西风凋碧树。独上高楼，望尽天涯路。”此第一境界也。“衣带渐宽终不悔，为伊消得人憔悴。”此第二境界也。“众里寻他千百度，蓦然回首，那人却在灯火阑珊处。”此第三境界也。学习技术，这也是你必须经历的三种境界。第一层境界是说，学习的路是漫漫的，你必须做好充分的思想准备，如果半途而废还不如不要开始。这里，注
Hadoop(二)对话单的操作朱辉辉33 hadoop
Debug： 1、 A = LOAD '/user/hue/task.txt' USING PigStorage(' ') AS (col1,col2,col3); DUMP A; //输出结果前几行示例： (>ggsnPDPRecord(21),,) (-->recordType(0),,) (-->networkInitiation(1),,)
web报表工具FineReport常用函数的用法总结（日期和时间函数）老A不折腾 finereport 报表工具 web开发
web报表工具FineReport常用函数的用法总结（日期和时间函数）说明：凡函数中以日期作为参数因子的，其中日期的形式都必须是yy/mm/dd。而且必须用英文环境下双引号(" ")引用。 DATE DATE(year,month,day):返回一个表示某一特定日期的系列数。 Year:代表年，可为一到四位数。 Month:代表月份。
c++ 宏定义中的##操作符墙头上一根草 C++
#与##在宏定义中的--宏展开 #include <stdio.h> #define f(a,b) a##b #define g(a) #a #define h(a) g(a) int main() { &nbs
分析Spring源代码之，DI的实现 aijuans spring DI 现源代码
(转) 分析Spring源代码之，DI的实现 2012/1/3 by tony 接着上次的讲，以下这个sample [java] view plain copy print
for循环的进化 alxw4616 JavaScript
// for循环的进化 // 菜鸟 for (var i = 0; i < Things.length ; i++) { // Things[i] } // 老鸟 for (var i = 0, len = Things.length; i < len; i++) { // Things[i] } // 大师 for (var i = Things.le
网络编程Socket和ServerSocket简单的使用百合不是茶网络编程基础 IP地址端口
网络编程;TCP/IP协议网络:实现计算机之间的信息共享,数据资源的交换协议:数据交换需要遵守的一种协议,按照约定的数据格式等写出去端口:用于计算机之间的通信每运行一个程序，系统会分配一个编号给该程序，作为和外界交换数据的唯一标识 0~65535 查看被使用的
JDK1.5 生产消费者 bijian1013 java thread 生产消费者 java多线程
ArrayBlockingQueue：一个由数组支持的有界阻塞队列。此队列按 FIFO（先进先出）原则对元素进行排序。队列的头部是在队列中存在时间最长的元素。队列的尾部是在队列中存在时间最短的元素。新元素插入到队列的尾部，队列检索操作则是从队列头部开始获得元素。 ArrayBlockingQueue的常用方法：
JAVA版身份证获取性别、出生日期及年龄 bijian1013 java 性别出生日期年龄
工作中需要根据身份证获取性别、出生日期及年龄，且要还要支持15位长度的身份证号码，网上搜索了一下，经过测试好像多少存在点问题，干脆自已写一个。 CertificateNo.java package com.bijian.study; import java.util.Calendar; import
【Java范型六】范型与枚举 bit1129 java
首先，枚举类型的定义不能带有类型参数，所以，不能把枚举类型定义为范型枚举类，例如下面的枚举类定义是有编译错的 public enum EnumGenerics<T> { //编译错，提示枚举不能带有范型参数 OK, ERROR; public <T> T get(T type) { return null;
【Nginx五】Nginx常用日志格式含义 bit1129 nginx
1. log_format 1.1 log_format指令用于指定日志的格式，格式： log_format name(格式名称) type(格式样式) 1.2 如下是一个常用的Nginx日志格式： log_format main '[$time_local]|$request_time|$status|$body_bytes
Lua 语言 15 分钟快速入门 ronin47 lua 基础
- - 单行注释 - - [[ [多行注释] - - ]] - - - - - - - - - - - 1. 变量 & 控制流 - - - - - - - - - - num = 23 - - 数字都是双精度 str = 'aspythonstring'
java-35.求一个矩阵中最大的二维矩阵 ( 元素和最大 ) bylijinnan java
the idea is from: http://blog.csdn.net/zhanxinhang/article/details/6731134 public class MaxSubMatrix { /**see http://blog.csdn.net/zhanxinhang/article/details/6731134 * Q35 求一个矩阵中最大的二维
mongoDB文档型数据库特点开窍的石头 mongoDB文档型数据库特点
MongoDD: 文档型数据库存储的是Bson文档-->json的二进制特点：内部是执行引擎是js解释器，把文档转成Bson结构，在查询时转换成js对象。 mongoDB传统型数据库对比传统类型数据库：结构化数据，定好了表结构后每一个内容符合表结构的。也就是说每一行每一列的数据都是一样的文档型数据库：不用定好数据结构，
[毕业季节]欢迎广大毕业生加入JAVA程序员的行列 comsci java
一年一度的毕业季来临了。。。。。。。。正在投简历的学弟学妹们。。。如果觉得学校推荐的单位和公司不适合自己的兴趣和专业，可以考虑来我们软件行业，做一名职业程序员。。。软件行业的开发工具中，对初学者最友好的就是JAVA语言了，网络上不仅仅有大量的
PHP操作Excel – PHPExcel 基本用法详解 cuiyadll PHP Excel
导出excel属性设置//Include classrequire_once('Classes/PHPExcel.php');require_once('Classes/PHPExcel/Writer/Excel2007.php');$objPHPExcel = new PHPExcel();//Set properties 设置文件属性$objPHPExcel->getProperties
IBM Webshpere MQ Client User Issue (MCAUSER) darrenzhu IBM jms user MQ MCAUSER
IBM MQ JMS Client去连接远端MQ Server的时候，需要提供User和Password吗？答案是根据情况而定，取决于所定义的Channel里面的属性Message channel agent user identifier (MCAUSER)的设置。 http://stackoverflow.com/questions/20209429/how-mca-user-i
网线的接法 dcj3sjt126com
一、PC连HUB (直连线)A端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。 B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。二、PC连PC （交叉线）A端：(568A)：白绿，绿，白橙，蓝，白蓝，橙，白棕，棕； B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。三、HUB连HUB&nb
Vimium插件让键盘党像操作Vim一样操作Chrome dcj3sjt126com chrome vim
什么是键盘党？键盘党是指尽可能将所有电脑操作用键盘来完成，而不去动鼠标的人。鼠标应该说是新手们的最爱，很直观，指哪点哪，很听话！不过常常使用电脑的人，如果一直使用鼠标的话，手会发酸，因为操作鼠标的时候，手臂不是在一个自然的状态，臂肌会处于绷紧状态。而使用键盘则双手是放松状态，只有手指在动。而且尽量少的从鼠标移动到键盘来回操作，也省不少事。在chrome里安装 vimium 插件
MongoDB查询（2）——数组查询[六] eksliang mongodb MongoDB查询数组
MongoDB查询数组转载请出自出处：http://eksliang.iteye.com/blog/2177292 一、概述 MongoDB查询数组与查询标量值是一样的，例如，有一个水果列表，如下所示： > db.food.find() { "_id" : "001", "fruits" : [ "苹
cordova读写文件（1） gundumw100 JavaScript Cordova
使用cordova可以很方便的在手机sdcard中读写文件。首先需要安装cordova插件：file 命令为： cordova plugin add org.apache.cordova.file 然后就可以读写文件了，这里我先是写入一个文件，具体的JS代码为： var datas=null;//datas need write var directory=&
HTML5 FormData 进行文件jquery ajax 上传到又拍云 ileson jquery Ajax html5 FormData
html5 新东西：FormData 可以提交二进制数据。页面test.html <!DOCTYPE> <html> <head> <title> formdata file jquery ajax upload</title> </head> <body> <
swift appearanceWhenContainedIn:(version1.2 xcode6.4) 啸笑天 version
swift1.2中没有oc中对应的方法： + (instancetype)appearanceWhenContainedIn:(Class <UIAppearanceContainer>)ContainerClass, ... NS_REQUIRES_NIL_TERMINATION; 解决方法：在swift项目中新建oc类如下： #import &
java实现SMTP邮件服务器 macroli java 编程
电子邮件传递可以由多种协议来实现。目前，在Internet 网上最流行的三种电子邮件协议是SMTP、POP3 和 IMAP，下面分别简单介绍。　　◆ SMTP 协议　　简单邮件传输协议(Simple Mail Transfer Protocol,SMTP)是一个运行在TCP/IP之上的协议，用它发送和接收电子邮件。SMTP 服务器在默认端口25上监听。SMTP客户使用一组简单的、基于文本的
mongodb group by having where 查询sql qiaolevip 每天进步一点点学习永无止境 mongo 纵观千象
SELECT cust_id, SUM(price) as total FROM orders WHERE status = 'A' GROUP BY cust_id HAVING total > 250 db.orders.aggregate( [ { $match: { status: 'A' } }, { $group: {
Struts2 Pojo（六） Luob. POJO strust2
注意：附件中有完整案例 1.采用POJO对象的方法进行赋值和传值 2.web配置 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee&q
struts2步骤 wuai struts
1、添加jar包 2、在web.xml中配置过滤器 <filter> <filter-name>struts2</filter-name> <filter-class>org.apache.st

如何实现一个Python爬虫框架

你可能感兴趣的:(如何实现一个Python爬虫框架)