TRHX

Python3 爬虫学习笔记 C17【爬虫框架 pyspider — 基本使用】

Python3 爬虫学习笔记第十七章 —— 【爬虫框架 pyspider — 基本使用】

文章目录

【17.1】初识 pyspider
【17.2】使用 pyspider

【17.2.1】主界面
【17.2.2】项目界面

【17.3】使用 pyspider 爬取去哪儿网

【17.3.1】爬取首页
【17.3.2】信息匹配
【17.3.3】抓取下一页数据
【17.3.4】抓取JS渲染数据
【17.3.5】抓取所有数据
【17.3.6】启动爬虫项目

【17.1】初识 pyspider

pyspider 是由国人 Binux 编写的一个 Python 爬虫框架

GitHub：https://github.com/binux/pyspider
官方文档（英文）：http://docs.pyspider.org/
非官方文档（中文）：http://book.crifan.com/books/python_spider_pyspider/website/
非官方文档（中文）：https://www.cntofu.com/book/156/index.md

pyspider 特性：

python 脚本控制，可以使用任何 html 解析包（内置 pyquery）
WEB 界面编写调试脚本，起停脚本，监控执行状态，查看活动历史，获取结果产出
支持 MySQL、MongoDB、Redis、SQLite、Elasticsearch、PostgreSQL
对接了 PhantomJS，支持抓取 JavaScript 的页面
组件可替换，支持单机和分布式部署，支持 Docker 部署
提供优先级控制、失败重试、定时抓取等功能

Windows 系统安装 pyspider：

使用命令 pip install pyspider 安装，若报 PyCurl 相关错误，可访问 https://www.lfd.uci.edu/~gohlke/pythonlibs/#pycurl 下载对应 wheel 文件并使用命令 pip install whl文件名 安装即可

如果要爬取 JavaScrip 渲染的页面，还要下载 PhantomJS，并将 PhantomJS 的路径配置到环境变量里，或者直接复制到 Python 安装目录的 Scripts 文件夹，需要用到数据库储存的话，同样要安装好相应的数据库

准备就绪后，使用 pyspider all 命令可启动 pyspider，浏览器打开：http://localhost:5000/ 可以看到 pyspider 的 WebUI 管理界面

【17.2】使用 pyspider

【17.2.1】主界面

当成功创建了一个爬虫项目后，主界面如下所示：

Recent Active Tasks：查看最近活动的任务，会跳转到一个页面有列表显示
Create：创建一个新的爬虫项目
group：定义项目的分组，以方便管理，若 group 设置为 delete，则该项目将会在24小时之后删除
project name：爬虫项目名称
status：项目状态，各状态如下：
TODO：一个爬虫项目刚刚创建时的状态，此状态下可以编辑 Python 代码
STOP：中止项目的运行
CHECKING：当一个运行中的项目被编辑时项目状态会被自动设置成此状态并中止运行
DEBUG：会运行爬虫，顾名思义找 BUG，一般来说用于调试阶段
RUNNING：运行爬虫项目
PAUSED：当爬取过程中出现连续多次错误时，项目会自动设置为 PAUSE 状态，并等待一定时间后继续爬取，中途突然断网也会自动设置为此状态
rate/burst：当前的爬取速率，rate 代表 1 秒发出多少个请求，burst 相当于流量控制中的令牌桶算法的令牌数，rate 和 burst 设置的越大，爬取速率越快，速率的设定需要考虑本机性能和爬取过快被封的问题
avg time：任务平均时间
process：5m、1h、1d 分别指的是最近 5 分、1 小时、1 天内的请求情况，all 代表所有的请求情况，请求由不同颜色表示，蓝色的代表等待被执行的请求，绿色的代表成功的请求，黄色的代表请求失败后等待重试的请求，红色的代表失败次数过多而被忽略的请求
actions：对爬虫项目的操作，各操作如下：
Run：立即执行任务，需要 status 为 RUNNING 或者 DEBUG 状态；假如在配置的调度执行时间内已经执行过，再点 run 是无效的，需要删除 task.db 里的数据才行
Active Tasks：查看当前爬虫项目的活动任务
Results：查看项目运行结果

【17.2.2】项目界面

创建一个爬虫项目，界面如下所示：

创建项目：点击 Create 即可新建一个爬虫项目
Project Name：爬虫项目名称
Start URL(s) ：爬虫入口地址，选填，可在项目中更改

项目创建完成进入调试界面：

调试界面右边：编写代码的区域
调试界面左边：调试的区域，用于执行代码，显示输出信息等用途
run：单步调试爬虫程序，点击就可运行当前任务
< > 箭头：上一步、下一步，用于调试过程中切换到上一步骤或者下一步骤
save：保存当前代码，当代码变更后只有保存了再运行才能得到最新结果
enable css selector helper： CSS 选择器辅助程序
web：页面预览
html：可以查看页面源代码
follows：表示爬取请求，点击可查看所有的请求

在新建一个爬虫项目的时候，pyspider 已经自动生成了如下代码：

#!/usr/bin/env python
# -*- encoding: utf-8 -*-
# Created on 2019-09-17 21:18:13
# Project: 2

from pyspider.libs.base_handler import *


class Handler(BaseHandler):
    crawl_config = {
    }

    @every(minutes=24 * 60)
    def on_start(self):
        self.crawl('__START_URL__', callback=self.index_page)

    @config(age=10 * 24 * 60 * 60)
    def index_page(self, response):
        for each in response.doc('a[href^="http"]').items():
            self.crawl(each.attr.href, callback=self.detail_page)

    @config(priority=2)
    def detail_page(self, response):
        return {
            "url": response.url,
            "title": response.doc('title').text(),
        }

class Handler()：pyspider 爬虫的主类，可以在此处定义爬取、解析、存储的逻辑。整个爬虫的功能只需要一个 Handler 即可完成
crawl_config 属性：项目的所有爬取配置将会统一定义到这里，如定义 headers、设置代理等，配置之后全局生效
on_start() 方法：爬取入口，初始的爬取请求会在这里产生，该方法通过调用 crawl() 方法即可新建一个爬取请求，第一个参数是爬取的 URL，另一个参数 callback 指定了这个页面爬取成功后用哪个方法进行解析，默认指定为 index_page() 方法，即如果这个 URL 对应的页面爬取成功了，那 Response 将交给 index_page() 方法解析
index_page() 方法：接收 Response 参数，Response 对接了 pyquery。直接调用 doc() 方法传入相应的 CSS 选择器，就可以像 pyquery 一样解析此页面，代码中默认是 a[href^="http"]，即解析页面的所有链接，然后将链接遍历，再次调用了 crawl() 方法生成了新的爬取请求，同时再指定了 callback 为 detail_page，表示这些页面爬取成功了就调用 detail_page() 方法解析。index_page() 实现了两个功能，一是将爬取的结果进行解析，二是生成新的爬取请求
detail_page() 方法：同样接收 Response 作为参数。detail_page() 抓取的就是详情页的信息，就不会生成新的请求，只对 Response 对象做解析，解析之后将结果以字典的形式返回。当然也可以进行后续处理，如将结果保存到数据库等操作

PS：pyspider 默认的 web 预览页面窗口较小，可以找到 pyspider 文件夹有个 debug.min.css 文件（如：E:\Python\Lib\site-packages\pyspider\webui\static\debug.min.css），搜索 iframe，将原样式：iframe{border-width:0;width:100%} 改为 iframe{border-width:0;width:100%;height:400px !important} 即可，清除浏览器缓存后就会生效！

【17.3】使用 pyspider 爬取去哪儿网

爬取地址：http://travel.qunar.com/travelbook/list.htm
爬取目标：去哪儿网旅游攻略，发帖作者、标题、正文等

【17.3.1】爬取首页

创建一个名为 qunar 的爬虫项目，Start URL 设置为 http://travel.qunar.com/travelbook/list.htm ，点击 run 出现一个爬取请求

左边调试区域出现以下代码：

{
  "process": {
    "callback": "on_start"
  },
  "project": "qunar",
  "taskid": "data:,on_start",
  "url": "data:,on_start"
}

callback 为 on_start，表示此时执行了 on_start() 方法。在 on_start() 方法中，利用 crawl() 方法即可生成一个爬取请求，点击 index_page 链接后面的箭头会出现许多新的爬取请求，即首页所包含的所有链接

此时左边调试区域代码变为：

{
  "fetch": {},
  "process": {
    "callback": "index_page"
  },
  "project": "qunar",
  "schedule": {
    "age": 864000
  },
  "taskid": "73a789f99528a2bdc3ab83a13902962a",
  "url": "http://travel.qunar.com/travelbook/list.htm"
}

callback 变为了 index_page，表示此时执行了 index_page() 方法。传入 index_page() 方法的 response 参数为刚才生成的第一个爬取请求的 response 对象，然后调用 doc() 方法，传入提取所有 a 节点的 CSS 选择器，获取 a 节点的属性 href，实现了页面所有链接的提取，随后遍历所有链接，调用 crawl() 方法，把每个链接构造成新的爬取请求，可以看到 follows 新生成了 229 个爬取请求。点击 web 按钮可以直接预览当前页面，点击 html 按钮可以查看此页面源代码

【17.3.2】信息匹配

代码 for each in response.doc('a[href^="http"]').items(): 实现了对整个页面链接的获取，我们需要提取网页的攻略的标题，内容等信息，那么直接替换 doc() 方法里的匹配语句即可，pyspider 提供了非常方便的 CSS 选择器，点击 enable css selector helper 按钮后，选择要匹配的信息并点击，再点击箭头 add to editor 即可得到匹配语句

完成了 CSS 选择器的替换，点击 save 保存，再次点击 run 重新执行 index_page() 方法，可以看到 follows 变为了 10 个，即抓取到了 10 篇攻略

【17.3.3】抓取下一页数据

每一页只有 10 篇攻略，想要爬取所有页面的攻略，必须要得到下一页的数据，优化 index_page() 方法：

    @config(age=10 * 24 * 60 * 60)
    def index_page(self, response):
        for each in response.doc('li > .tit > a').items():
            self.crawl(each.attr.href, callback=self.detail_page)
        next = response.doc('.next').attr.href
        self.crawl(next, callback=self.index_page)

匹配下一页按钮，获取下一页按钮的 URL 并赋值给 next，将该 URL 传给 crawl() 方法，指定回调函数为 index_page() 方法，这样会再次调用 index_page() 方法，提取下一页的攻略标题

【17.3.4】抓取JS渲染数据

随便点击一个获取到的攻略，预览该页面，可以观察到头图一直在加载中，切换到 html 查看源代码页面，可以观察到没有 img 节点，那么此处就是后期经过 JavaScript 渲染后才出现的

针对 JavaScript 渲染页面，可以通过 PhantomJS 来实现，具体到 pyspider 中，只需要在 index_page() 的 crawl() 抓取方法中添加一个参数 fetch_type 即可：

    @config(age=10 * 24 * 60 * 60)
    def index_page(self, response):
        for each in response.doc('li > .tit > a').items():
            self.crawl(each.attr.href, callback=self.detail_page, fetch_type='js')
        next = response.doc('.next').attr.href
        self.crawl(next, callback=self.index_page)

保存之后再次运行即可看到正常页面

【17.3.5】抓取所有数据

改写 detail_page() 方法，同样通过 CSS 选择器提取 URL、标题、日期、作者、正文、图片等信息：

    @config(priority=2)
    def detail_page(self, response):
        return {
            'url': response.url,
            'title': response.doc('#booktitle').text(),
            'date': response.doc('.when .data').text(),
            'day': response.doc('.howlong .data').text(),
            'who': response.doc('.who .data').text(),
            'text': response.doc('#b_panel_schedule').text(),
            'image': response.doc('.cover_img').attr.src
        }

【17.3.6】启动爬虫项目

该爬虫项目完整代码如下：

#!/usr/bin/env python
# -*- encoding: utf-8 -*-
# Created on 2019-09-18 09:48:29
# Project: qunar

from pyspider.libs.base_handler import *


class Handler(BaseHandler):
    crawl_config = {
    }

    @every(minutes=24 * 60)
    def on_start(self):
        self.crawl('http://travel.qunar.com/travelbook/list.htm', callback=self.index_page)

    @config(age=10 * 24 * 60 * 60)
    def index_page(self, response):
        for each in response.doc('li > .tit > a').items():
            self.crawl(each.attr.href, callback=self.detail_page, fetch_type='js')
        next = response.doc('.next').attr.href
        self.crawl(next, callback=self.index_page)

    @config(priority=2)
    def detail_page(self, response):
        return {
            'url': response.url,
            'title': response.doc('#booktitle').text(),
            'date': response.doc('.when .data').text(),
            'day': response.doc('.howlong .data').text(),
            'who': response.doc('.who .data').text(),
            'text': response.doc('#b_panel_schedule').text(),
            'image': response.doc('.cover_img').attr.src
        }

保存代码后，回到主界面，将项目 status 修改为 RUNNING ，点击 actions 的 run 按钮即可启动爬虫

点击 Active Tasks，即可查看最近请求的详细状况：

点击 Results，即可查看所有的爬取结果：

另外，右上角还可以选择 JSON、CSV 格式

Browser-Use WebUI项目启动指南思考在马桶上人工智能 chatgpt 经验分享 python
摘要此前发布《Browser-UseWebUI使用体验》博文后，鉴于部分朋友运行时出现问题，重新运行并整理相关内容。本文详细记录WebUI项目启动全过程，涵盖Python3.11+、Chrome浏览器及APIKeys等环境要求，Python环境检查、依赖安装等环境配置步骤，.env文件中环境变量的设置方法。同时，针对启动中如lxml.html.clean依赖缺失、连接被拒等问题给出解决方案，介绍启
centos7输入python -m bitsandbytes报错CUDA Setup failed despite GPU being available. Please run the follo 小太阳，乐向上 python 开发语言
在centos7.9系统中安装gpu驱动及cuda，跑大模型会报错，提示让输入python-mbitsandbytes依然报错：CUDASETUP:Loadingbinary/usr/local/python3/lib/python3.9/site-packages/bitsandbytes/libbitsandbytes_cuda117.so.../lib64/libstdc++.so.6:ve
python3实现爬取淘宝页面的商品的数据信息（selenium+pyquery+mongodb） flood_d mongodb python selenium pyquery 爬虫
1.环境须知做这个爬取的时候需要安装好python3.6和selenium、pyquery等等一些比较常用的爬取和解析库，还需要安装MongoDB这个分布式数据库。2.直接上代码spider.pyimportrefromconfigimport*importpymongofromseleniumimportwebdriverfromselenium.common.exceptionsimportT
TCP/IP学习笔记(5) --IP选路 ox0080 Linux 网络 linux网络
静态IP选路一个简单的路由表选路是IP层最重要的一个功能之一。前面的部分已经简单的讲过路由器是通过何种规则来根据IP数据包的IP地址来选择路由。这里就不重复了。首先来看看一个简单的系统路由表。命令:routeprint|more对于一个给定的路由器，可以打印出五种不同的flag。U表明该路由可用。G表明该路由是到一个网关。如果没有这个标志，说明和Destination是直连的，而相应的Gatewa
【python】图形用户界面和游戏开发 usp1994 python ui ide
图形用户界面和游戏开发文章目录图形用户界面和游戏开发基于tkinter模块的GUI使用Pygame进行游戏开发制作游戏窗口在窗口中绘图加载图像实现动画效果碰撞检测事件处理基于tkinter模块的GUIGUI是图形用户界面的缩写，图形化的用户界面对使用过计算机的人来说应该都不陌生，在此也无需进行赘述。Python默认的GUI开发模块是tkinter（在Python3以前的版本中名为Tkinter），
嵌入式C语言学习笔记（2）愿抬头有阳光 c语言学习笔记
1.数组指针数组指针本质上就是一个指针，它里面存放的是数组的首地址。#includevoidshow(int(*p)[4],intn){for(inti=0;i4*4=16;3.命令行传递参数，main函数的标准格式intmain(intargc,constchar*argv[]){return0;}//argc：参数的个数包括./a.out//argv：参数的值列表argv[0]="./a.ou
C++学习笔记：引用 etp_ c++学习笔记
引用是已知变量的别名，通过将引用变量用作参数，函数将使用原始数据而不是其副本。下面将r作为a的别名：inta;int&r=a;就像char*是指向char的指针一样，int&是指向int的引用。（a和r指向相同的值和内存单元)注意：&r表示r引用变量的地址。引用和指针的区别1.必须在声明引用时将其初始化，而不能像指针那样先声明再赋值。2.引用更接近const指针，一旦与某个变量关联起来便有一直效忠
React学习笔记20 充气大锤 React学习笔记学习笔记 javascript 前端算法开发语言 react.js
一、React.forward1.1、作用通过ref暴露子组件的DOM1.2、场景说明1.3、语法实现//子组件constInput=forwardRef((props,ref)=>{return})//父组件functionfather_component(){constinputRef=useRef(null)constfocus=(ref)=>{ref.current.focus()}ret
python 游戏开发cocos2d库安装与使用范哥来了 python cocos2d 开发语言
Cocos2d-x是一个广泛使用的开源游戏开发框架，支持多种编程语言，包括Python。对于Python开发者来说，通常使用的是Cocos2d-py或者更现代的Cocos2d-x的Python绑定版本。这里我将指导你如何安装和开始使用Cocos2d-py。安装步骤安装Python：确保你的系统上已经安装了Python3.x版本。你可以从Python官方网站下载最新版的Python。安装pip：pi
Python 机器学习基础之学习基础环境搭建仙魁XAN Python 机器学习基础+实战案例 python 学习开发语言机器学习 machine learning
Python机器学习基础之学习基础环境搭建目录Python机器学习基础之学习基础环境搭建一、简单介绍二、什么是机器学习三、python环境的搭建1、Python安装包下载2、这里以下载Python3.10.9为例3、安装Python3.10.94、检验python是否安装成功，win+R快捷打开运行，输入cmd，打开cmd四、Pycharm环境搭建1、下载Pycharm安装包2、安装Pycharm
Win7 64 位 Vcode Python安装与环境配置 qq_40094167 机器学习 python 数据挖掘
一、对于win764位的Python版本，官网目前是Python3.8.10。千万不要装错哈哈二、Vcode版本，可以直接在官网或者360软件管家安装，都比较方便。但安装之前请先安装Python，然后安装Vcode。三、Vcode插件配置，本人插件配置多数是根据之前liunx系统配置的，里面许多关键字颜色和大小个人比较喜欢。@1codeRunner即代码运行@2RainbowBrackets彩虹花
C++学习笔记:函数重载及函数模板 etp_ c++学习笔记
函数重载默认参数能让你使用不同数目的参数调用同一个函数，而函数多态（函数重载）能让你使用多个同名函数。----一般完成类似的工作，但一定使用不同的参数列表（函数特征标）。下面定义一组原型如下的print()函数voidprint(constchar*str,intwidth);voidprint(doubled,intwidth);voidprint(longl,intwidth);编译器根据参数
Python从0到100（三十四）：Python中的urllib模块使用指南是Dream呀 python 开发语言
1.urllib模块概述在Python中，除了广泛使用的requests模块之外，urllib模块也是处理HTTP请求的重要工具。urllib模块在Python2中分为urllib和urllib2两个模块，而在Python3中，它们被合并为一个urllib模块。本文将重点介绍Python3中的urllib模块及其使用方法。2.urllib模块的基本方法介绍2.1urllib.request.url
PyTorch 深度学习博客 Zoro｜ PyTorch Deep Learning 人工智能
PyTorch深度学习博客欢迎来到我的PyTorch深度学习博客！在这里，我将分享使用PyTorch学习和实践深度学习项目的点滴经验。本博客适用于初学者和有一定基础的开发者，旨在帮助大家快速搭建环境、掌握核心概念，并通过实例了解实际应用。环境配置为了确保项目的稳定性和兼容性，我选择了Python3.9环境，并在conda创建的虚拟环境中运行最新且稳定的PyTorch版本2.6.0。1.创建Pyth
Gymnasium学习笔记 songyuc gymnasium
1.Customwrapper[doc]1.1reset()方法重写说明重写函数模板：defreset(self,**kwargs):obs=super().reset(**kwargs)...returnobs1.1.1签名解释Deepseek-r1-Cursor:reset()方法的定义如下：defreset(self,*,seed=None,options=None):...注意参数前的星号
使用 DeepSeek-R1 为 RAG 运行本地 Gradio 应用程序呱牛 do IT 人工智能 deepseek
让我们使用Gradio构建一个简单的演示应用程序，以使用DeepSeek-R1查询和分析文档。第1步：先决条件在深入研究实现之前，我们确保已安装以下工具和库：Python3.8+Python3.8+版Langchain：用于构建由大型语言模型（）LLMs提供支持的应用程序的框架，支持轻松检索、推理和工具集成Chromadb：一个高性能的向量数据库，专为高效的相似性搜索和嵌入存储而设计。Gradio
Python搭建静态web服务器 7 号 Python python
Python内置的web静态服务器Python内置的`http.server`模块可以快速启动一个简单的HTTP服务器。在Python3中，打开命令行或终端，在你想要作为静态服务器根目录的文件夹下，运行以下命令：python-mhttp.server8000这将会在当前目录启动一个HTTP服务器，监听端口8000，端口可以随意指定。你可以在浏览器中访问`http://localhost:8000`
ROS学习笔记之深度相机仿真、小结要好好养胃 ROS学习笔记人工智能机器学习 c++
通过Gazebo模拟kinect摄像头，并在Rviz中显示kinect摄像头数据。实现流程:kinect摄像头仿真基本流程:已经创建完毕的机器人模型，编写一个单独的xacro文件，为机器人模型添加kinect摄像头配置；将此文件集成进xacro文件；启动Gazebo，使用Rviz显示kinect摄像头信息。1.Gazebo仿真Kinect1.1新建Xacro文件，配置kinetic传感器信息//这
ROS学习笔记之摄像头仿真及显示要好好养胃 ROS学习笔记人工智能机器学习 c++
通过Gazebo模拟摄像头传感器，并在Rviz中显示摄像头数据。实现流程:摄像头仿真基本流程:已经创建完毕的机器人模型，编写一个单独的xacro文件，为机器人模型添加摄像头配置；将此文件集成进xacro文件；启动Gazebo，使用Rviz显示摄像头信息。1.Gazebo仿真摄像头1.1新建Xacro文件，配置摄像头传感器信息有几个要自行修改的地方，基本设置和laser有相同的部分，不做赘述。//实
OmniParser V2 安装与使用教程 Leaton Lee OmniParser V2 人工智能 deepseek
1.环境准备操作系统：支持Windows/macOS/Linux。Python版本：确保已安装Python3.7或更高版本。包管理工具：使用pip（Python自带）。安装环境：condacreate-n"omni"python==3.12condaactivateomnipipinstall-rrequirements.txt确保您已将V2权重下载到weights文件夹中（确保标题权重文件夹名为
lxml学习笔记 weixin_33843409 python
问题1：有一个XML文件，如何解析问题2：解析后，如果查找、定位某个标签问题3：定位后如何操作标签，比如访问属性、文本内容等fromlxmlimportetree->导入模块，该库常用的XML处理功能都在lxml.etree中requests+lxml解析小from lxml import etree import requests page = 1 url = 'http://www.
Python3.10报错 No module named ‘_ssl‘ 李卓璐报错整理 ssl 网络协议网络
报错原因在编译python3.10的时候不存在ssl相关依赖包，因此在make$makeinstall时将ssl忽略了。1.下载ssl依赖apt-getinstallopensslapt-getinstalllibssl-dev2.重新编译pythoncdPython3.10.0./configure--with-sslmakesudomakeinstall3.验证pythonimportssl
谷粒商城学习笔记，第七天：性能压测+缓存+分布式锁「已注销」数据库分布式 redis java 多线程
谷粒商城学习笔记，第七天：性能压测+缓存+分布式锁一、性能压测我们希望通过压测发现其他测试更难发现的错误：内存泄漏、并发与同步。1、性能指标吞吐量、响应时间QPSTPS、错误率RT:ResponseTime响应时间HPS:hitspersecond每秒点击次数TPS：Transactionpersecond系统每秒处理交易数QPS：querypersecond每秒处理查询次数2、JMeter下载地
STM32学习笔记李兆源—电子工程师 stm32 学习笔记
STM32系列(HAL库)——内部FLASH读写实验_简约版在此篇文章前，写过另外一篇关于STM32内部FLash读写的文章——点击跳转。之前那篇文章的代码是移植于正点原子的，比较复杂，因为它考虑了写入字节大于1K或2K时需要换页写入的问题。但是在实际使用过程中，我们需要写入的数据常常远小于1K，因此本篇文章的代码适用于写入小量数据使用(即小于1K或2K——取决于单片机最小写入页)。本次代码是借鉴
分布式电商项目谷粒商城学习笔记＜4＞怎么又有bug单 SpringBoot 分布式 java 开发语言阿里压力测试
文章目录十五、压力测试1.一些基本概念2.JVM内存机制3.压测记录4.Nginx动静分离5.优化三级分类查询十六、redisson分布式锁与缓存1.概念2.redis3.缓存失效缓存穿透缓存雪崩缓存击穿互斥锁：4.缓存击穿如何复制微服务：5.分布式缓存概念原则基本流程6.Redisson环境搭建可重入锁锁的续期读写锁信号量（Semaphore）闭锁7.缓存和数据库一致性十五、压力测试这里是使用j
【Python】面向对象菜萝卜子 Python python
编程的两大特点面向过程：着重于做什么面向对象（oop）：着重于谁去做python是面向对象语言，面向对象三大特点：封装、继承、多态面向对象：便于代码管理，方便迭代更新。新式类、经典类继承了python内置类的称为新式类，否则是经典类python3类：新式类python3中所有的类默认继承object(基类)，所以一般的类都是新式类python2类：必须显示声明继承内置类才是新式类，否则是经典类两个
【Unity入门教程】第一章游戏引擎基础【中国大学MOOC游戏引擎原理及应用】晴夏。 unity游戏开发游戏 unity 游戏开发 unity3d
以下均为来自中国大学mooc游戏引擎原理及应用时的学习笔记，不含商用，仅供学习交流使用，如果侵权请联系作者删除。第一章都很简单没什么好讲的，简单的介绍一下（其实是学习的时候第二章才开始记笔记）https://www.icourse163.org/course/CUC-1450317378?tid=1450731676才不会说是为了规格整齐每章都有才水了个第一章的
edger多组差异性分析_R语言统计分析微生物组数据 weixin_39961636 edger多组差异性分析
我在学习这本书记了一些笔记，如果你有学习，欢迎分享你的笔记或者教程。我的已有笔记汇总如下：宏基因组学习笔记宏基因组学习笔记2宏基因组笔记(第二章)R语言宏基因组学统计分析学习笔记(第三章-1)R语言宏基因组学统计分析学习笔记(第三章-2)https://link.springer.com/book/10.1007/978-981-13-1534-3下载方法，sci-hub大法啦。出版日期：2018
C#学习笔记（3）：调用YOLOv8 playerofIE c#学习笔记 YOLO python
最近做的项目需要C#编写上位机程序，同时也要使用yolo进行深度学习检测。使用pythonnet调用写好的py文件，C#代码如下:Runtime.PythonDLL="python310.dll";PythonEngine.Initialize();using(Py.GIL()){dynamicsys=Py.Import("sys");dynamictorch=Py.Import("torch")
Java学习笔记（二十二）路上阡陌 java 学习笔记
1Redis是单线程的那如何处理多个客户端发送的命令Redis虽然是单线程的，但它能够高效地处理多个客户端发送的命令，这主要得益于其内部使用的I/O多路复用技术和事件驱动模型。以下是Redis处理多个客户端命令的详细解释：1.1I/O多路复用技术Redis通过使用I/O多路复用技术，能够同时监听多个客户端连接上的I/O事件。当任何一个客户端连接上有读、写或异常等I/O事件发生时，I/O多路复用机制
Linux的Initrd机制被触发 linux
Linux 的 initrd 技术是一个非常普遍使用的机制，linux2.6 内核的 initrd 的文件格式由原来的文件系统镜像文件转变成了 cpio 格式，变化不仅反映在文件格式上， linux 内核对这两种格式的 initrd 的处理有着截然的不同。本文首先介绍了什么是 initrd 技术，然后分别介绍了 Linux2.4 内核和 2.6 内核的 initrd 的处理流程。最后通过对 Lin
maven本地仓库路径修改 bitcarter maven
默认maven本地仓库路径：C:\Users\Administrator\.m2 修改maven本地仓库路径方法： 1.打开E:\maven\apache-maven-2.2.1\conf\settings.xml 2.找到
XSD和XML中的命名空间 darrenzhu xml xsd schema namespace 命名空间
http://www.360doc.com/content/12/0418/10/9437165_204585479.shtml http://blog.csdn.net/wanghuan203/article/details/9203621 http://blog.csdn.net/wanghuan203/article/details/9204337 http://www.cn
Java 求素数运算周凡杨 java 算法素数
网络上对求素数之解数不胜数，我在此总结归纳一下，同时对一些编码，加以改进，效率有成倍热提高。第一种：原理: 6N(+-)1法任何一个自然数，总可以表示成为如下的形式之一： 6N，6N+1，6N+2，6N+3，6N+4，6N+5 (N=0，1，2，…)
java 单例模式 g21121 java
想必单例模式大家都不会陌生，有如下两种方式来实现单例模式： class Singleton { private static Singleton instance=new Singleton(); private Singleton(){} static Singleton getInstance() { return instance; }
Linux下Mysql源码安装 510888780 mysql
1.假设已经有mysql-5.6.23-linux-glibc2.5-x86_64.tar.gz (1)创建mysql的安装目录及数据库存放目录解压缩下载的源码包，目录结构，特殊指定的目录除外：
32位和64位操作系统墙头上一根草 32位和64位操作系统
32位和64位操作系统是指：CPU一次处理数据的能力是32位还是64位。现在市场上的CPU一般都是64位的，但是这些CPU并不是真正意义上的64 位CPU，里面依然保留了大部分32位的技术，只是进行了部分64位的改进。32位和64位的区别还涉及了内存的寻址方面，32位系统的最大寻址空间是2 的32次方= 4294967296（bit）= 4（GB）左右，而64位系统的最大寻址空间的寻址空间则达到了
我的spring学习笔记10-轻量级_Spring框架 aijuans Spring 3
一、问题提问： → 请简单介绍一下什么是轻量级？轻量级（Leightweight）是相对于一些重量级的容器来说的，比如Spring的核心是一个轻量级的容器，Spring的核心包在文件容量上只有不到1M大小，使用Spring核心包所需要的资源也是很少的，您甚至可以在小型设备中使用Spring。
mongodb 环境搭建及简单CURD antlove Web Install curd NoSQL mongo
一搭建mongodb环境 1. 在mongo官网下载mongodb 2. 在本地创建目录 "D:\Program Files\mongodb-win32-i386-2.6.4\data\db" 3. 运行mongodb服务 [mongod.exe --dbpath "D:\Program Files\mongodb-win32-i386-2.6.4\data\
数据字典和动态视图百合不是茶 oracle 数据字典动态视图系统和对象权限
数据字典（data dictionary）是 Oracle 数据库的一个重要组成部分，这是一组用于记录数据库信息的只读（read-only）表。随着数据库的启动而启动,数据库关闭时数据字典也关闭数据字典中包含数据库中所有方案对象（schema object）的定义(包括表，视图，索引，簇，同义词，序列，过程，函数，包，触发器等等) 数据库为一
多线程编程一般规则 bijian1013 java thread 多线程 java多线程
如果两个工两个以上的线程都修改一个对象，那么把执行修改的方法定义为被同步的，如果对象更新影响到只读方法，那么只读方法也要定义成同步的。不要滥用同步。如果在一个对象内的不同的方法访问的不是同一个数据，就不要将方法设置为synchronized的。
将文件或目录拷贝到另一个Linux系统的命令scp bijian1013 linux unix scp
一.功能说明 scp就是security copy，用于将文件或者目录从一个Linux系统拷贝到另一个Linux系统下。scp传输数据用的是SSH协议，保证了数据传输的安全，其格式如下： scp 远程用户名@IP地址：文件的绝对路径
【持久化框架MyBatis3五】MyBatis3一对多关联查询 bit1129 Mybatis3
以教员和课程为例介绍一对多关联关系，在这里认为一个教员可以叫多门课程，而一门课程只有1个教员教，这种关系在实际中不太常见，通过教员和课程是多对多的关系。示例数据：地址表： CREATE TABLE ADDRESSES ( ADDR_ID INT(11) NOT NULL AUTO_INCREMENT, STREET VAR
cookie状态判断引发的查找问题 bitcarter form cgi
先说一下我们的业务背景： 1.前台将图片和文本通过form表单提交到后台，图片我们都做了base64的编码，并且前台图片进行了压缩 2.form中action是一个cgi服务 3.后台cgi服务同时供PC，H5，APP 4.后台cgi中调用公共的cookie状态判断方法（公共的，大家都用，几年了没有问题）问题：（折腾两天。。。。） 1.PC端cgi服务正常调用，cookie判断没
通过Nginx,Tomcat访问日志(access log)记录请求耗时 ronin47
一、Nginx通过$upstream_response_time $request_time统计请求和后台服务响应时间 nginx.conf使用配置方式： log_format main '$remote_addr - $remote_user [$time_local] "$request" ''$status $body_bytes_sent "$http_r
java-67- n个骰子的点数。把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 bylijinnan java
public class ProbabilityOfDice { /** * Q67 n个骰子的点数 * 把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 * 在以下求解过程中，我们把骰子看作是有序的。 * 例如当n=2时，我们认为（1，2）和（2，1）是两种不同的情况 */ private stati
看别人的博客，觉得心情很好 Cb123456 博客心情
以为写博客，就是总结，就和日记一样吧，同时也在督促自己。今天看了好长时间博客: 职业规划: http://www.iteye.com/blogs/subjects/zhiyeguihua android学习: 1.http://byandby.i
[JWFD开源工作流]尝试用原生代码引擎实现循环反馈拓扑分析 comsci 工作流
我们已经不满足于仅仅跳跃一次，通过对引擎的升级，今天我测试了一下循环反馈模式，大概跑了200圈，引擎报一个溢出错误在一个流程图的结束节点中嵌入一段方程，每次引擎运行到这个节点的时候，通过实时编译器GM模块，计算这个方程，计算结果与预设值进行比较，符合条件则跳跃到开始节点，继续新一轮拓扑分析，直到遇到
JS常用的事件及方法 cwqcwqmax9 js
事件描述 onactivate 当对象设置为活动元素时触发。 onafterupdate 当成功更新数据源对象中的关联对象后在数据绑定对象上触发。 onbeforeactivate 对象要被设置为当前元素前立即触发。 onbeforecut 当选中区从文档中删除之前在源对象触发。 onbeforedeactivate 在 activeElement 从当前对象变为父文档其它对象之前立即
正则表达式验证日期格式 dashuaifu 正则表达式 IT其它 java其它
正则表达式验证日期格式 function isDate(d){ var v = d.match(/^(\d{4})-(\d{1,2})-(\d{1,2})$/i); if(!v) { this.focus(); return false; } } <input value="2000-8-8" onblu
Yii CModel.rules() 方法、validate预定义完整列表、以及说说验证 dcj3sjt126com yii
public array rules () {return} array 要调用 validate() 时应用的有效性规则。返回属性的有效性规则。声明验证规则，应重写此方法。每个规则是数组具有以下结构：array('attribute list', 'validator name', 'on'=>'scenario name', ...validation
UITextAttributeTextColor = deprecated in iOS 7.0 dcj3sjt126com ios
In this lesson we used the key "UITextAttributeTextColor" to change the color of the UINavigationBar appearance to white. This prompts a warning "first deprecated in iOS 7.0." Ins
判断一个数是质数的几种方法 EmmaZhao Math python
质数也叫素数，是只能被1和它本身整除的正整数，最小的质数是2，目前发现的最大的质数是p=2^57885161-1【注1】。判断一个数是质数的最简单的方法如下： def isPrime1(n): for i in range(2, n): if n % i == 0: return False return True 但是在上面的方法中有一些冗余的计算，所以
SpringSecurity工作原理小解读坏我一锅粥 SpringSecurity
SecurityContextPersistenceFilter ConcurrentSessionFilter WebAsyncManagerIntegrationFilter HeaderWriterFilter CsrfFilter LogoutFilter Use
JS实现自适应宽度的Tag切换 ini JavaScript html Web css html5
效果体验：http://hovertree.com/texiao/js/3.htm 该效果使用纯JavaScript代码，实现TAB页切换效果，TAB标签根据内容自适应宽度，点击TAB标签切换内容页。 HTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"
Hbase Rest API : 数据查询 kane_xie REST hbase
hbase（hadoop）是用java编写的，有些语言（例如python）能够对它提供良好的支持，但也有很多语言使用起来并不是那么方便，比如c#只能通过thrift访问。Rest就能很好的解决这个问题。Hbase的org.apache.hadoop.hbase.rest包提供了rest接口，它内嵌了jetty作为servlet容器。启动命令：./bin/hbase rest s
JQuery实现鼠标拖动元素移动位置（源码+注释）明子健 jquery js 源码拖动鼠标
欢迎讨论指正！ print.html代码： <!DOCTYPE html> <html> <head> <meta http-equiv=Content-Type content="text/html;charset=utf-8"> <title>发票打印</title> &l
Postgresql 连表更新字段语法 update qifeifei PostgreSQL
下面这段sql本来目的是想更新条件下的数据，可是这段sql却更新了整个表的数据。sql如下： UPDATE tops_visa.visa_order SET op_audit_abort_pass_date = now() FROM tops_visa.visa_order as t1 INNER JOIN tops_visa.visa_visitor as t2 ON t1.
将redis,memcache结合使用的方案? tcrct redis cache
公司架构上使用了阿里云的服务，由于阿里的kvstore收费相当高，打算自建，自建后就需要自己维护，所以就有了一个想法，针对kvstore(redis)及ocs(memcache)的特点，想自己开发一个cache层，将需要用到list，set，map等redis方法的继续使用redis来完成，将整条记录放在memcache下，即findbyid，save等时就memcache，其它就对应使用redi
开发中遇到的诡异的bug wudixiaotie bug
今天我们服务器组遇到个问题：我们的服务是从Kafka里面取出数据，然后把offset存储到ssdb中，每个topic和partition都对应ssdb中不同的key，服务启动之后，每次kafka数据更新我们这边收到消息，然后存储之后就发现ssdb的值偶尔是-2,这就奇怪了，最开始我们是在代码中打印存储的日志，发现没什么问题，后来去查看ssdb的日志，才发现里面每次set的时候都会对同一个key