Divine0

Python网络爬虫Requests库和Scrapy库入门

- 1 Requests库入门
- - 1.1 Requests库安装
  - 1.2 HTTP协议
  - 1.3 Requests库方法
  - 1.4 爬取网页的通用代码框架
  - 1.5 Requests库实战
- 2 Scrapy库入门
- - 2.1 Scrapy库安装
  - 2.2 Scrapy爬虫框架
  - 2.3 Request库和Scrapy爬虫的比较
  - 2.4 Scrapy爬虫的常用命令
  - 2.5 Scrapy爬虫的第一个实例
  - 2.6 Scrapy爬虫的基本使用
  - 2.7 Scrapy爬虫的数据类型
  - 2.8 Scrapy爬虫提取信息的方法
  - 2.9 股票数据Scrapy爬虫实例

1 Requests库入门

1.1 Requests库安装

pip install requests

Requests库的安装测试：

>>> import requests
>>> r = requests.get("http://www.baidu.com")
>>> r.status_code
200
>>> r.encoding = 'utf-8' #修改默认编码
>>> r.text		#打印网页内容

1.2 HTTP协议

HTTP,Hypertext Transfer Protocol,超文本传输协议

HTTP是一个基于“请求与响应”模式的、无状态的应用层协议。

HTTP协议采用URL作为定位网络资源的标识。

URL格式：http://host[:port][path]

host:合法的Internet主机域名或IP地址
port：端口号，缺省端口为80
path：请求资源的路径

HTTP URL的理解：

URL是通过HTTP协议存取资源的Internet路径，一个URL对应一个数据资源。

HTTP协议对资源的操作：

方法	说明
GET	请求获取URL位置的资源
HEAD	请求获取URl位置资源的响应消息报告，即获得该资源的头部信息
POST	请求向URL位置的资源后附加新的数据
PUT	请求向URL位置存储一个资源，覆盖原URL位置的资源
PATCH	请求局部更新URL位置的资源，即改变该处资源的部分内容
DELETE	请求删除URL位置存储的资源

1.3 Requests库方法

方法	说明
requests.request()	构造一个请求，支撑以下各方法的基础方法
requests.get()	获取HTML网页的主要方法，对应于HTTP的GET
requests.head()	获取HTML网页头信息的方法，对应于HTTP的HEAD
requests.post()	向HTML网页提交POST请求的方法，对应于HTTP的POST
requests.put()	向HTML网页提交PUT请求的方法，对应于HTTP的PUT
requests.patch()	向HTML网页提交局部修改请求，对应于HTTP的PATCH
requests.delete()	向HTML网页提交删除请求，对应于HTTP的DELETE

主要方法为request方法，其余6个都是由request方法封装。

request()方法：

requests.request(method,url,**kwargs)

method:请求方式，对应get/put/post等7种
url：拟获取页面的url链接
**kwargs：控制访问的参数，共13个，均为可选项

13个控制访问参数分别为：

params：字典或字节序列，作为参数增加到url中
data：字典、字节序列或文件对象，作为Request的内容
json：JSON格式的数据，作为Request的内容
headers：字典，HTTP定制头
cookies：字典或CookieJar，Request中的cookie
auth：元祖，支持HTTP认证功能
files：字典类型，传输文件
timeout：设定超时时间，秒为单位
proxies：字典类型，设定访问代理服务器，可以增加登录认证
allow_redirects：True/False，默认为True，重定向开关
stream：True/False，默认为True，获取内容立即下载开关
verify：True/False，默认为True，认证SSL证书开关
cert：本地SSL证书路径

get()方法：

requests.get(url,params=None,**kwargs)

url:拟获取页面的url链接
params:url中的额外参数，字典或字节流格式，可选
**kwargs:12个控制访问的参数

该方法构造了一个向服务器请求资源的Request对象，返回了一个包含服务器资源的Response对象，Response对象包含爬虫返回的内容

Response对象的属性：

属性	说明
r.status_code	HTTP请求的返回状态，200表示连接成
r.text	HTTP响应内容的字符串形式，即：url对应的页面内容
r.encoding	从HTTP header中猜测的响应内容编码方式
r.apparent_encoding	从内容中分析出的响应内容编码方式（备选编码方式）
r.content	HTTP响应内容的二进制形式

head()方法：

requests.head(url,**kwargs)

url:拟获取页面的url链接
**kwargs:13个控制访问的参数

post()方法：

requests.post(url,data=None,json=None,**kwargs)

url：拟更新页面的url链接
data：字典、字节序列或文件，Request的内容
json：JSON格式的数据，Request的内容
**kwargs：11个控制访问的参数

put()方法：

requests.put(url,data=None,json=None,**kwargs)

url：拟更新页面的url链接
data：字典、字节序列或文件，Request的内容
**kwargs：12个控制访问的参数

patch()方法：

同put()方法

delet()方法：

requests.delete(url,**kwargs)

url：拟删除页面的url链接
**kwargs：13个控制访问的参数

1.4 爬取网页的通用代码框架

Requests库的异常：

异常	说明
requests.ConnectionError	网络连接错误异常，如DNS查询失败、拒绝连接等
requests.HTTPError	HTTP错误异常
requests.URLRequired	URL缺失异常
requests.TooManyRedirects	超过最大重定向次数，产生重定向异常
requests.ConnectTimeout	连接远程服务器超时异常
requests.Timeout	请求URL超时，产生超时异常
r.raise_for_status()	如果不是200产生异常requests.HTTPError

import requests

def getHTMLText(url):
    try:
        r = requests.get(url,timeout=30)
        r.raise_for_status() #如果不是200，引发HTTPError异常
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return "产生异常"
if __name__ == "__main__":
    url = "http://www.baidu.com"
    print(getHTMLText(url))

1.5 Requests库实战

向360搜索提交关键词：

import requests

# 向搜索引擎进行关键词提交
url = "http://www.so.com/s"
try:
    kv = {'q':'python'}
    r = requests.get(url,params =kv)
    print(r.request.url)
    r.raise_for_status()
    print(len(r.text))
except:
    print("产生异常")

获取网络图片及存储：

import requests
import os
url = "http://image.ngchina.com.cn/2015/0323/20150323111422966.jpg"
root = "D:/pics/"
path = root + url.split('/')[-1]
try:
    if not os.path.exists(root):
        os.mkdir(root)
    if not os.path.exists(path):
        r = requests.get(url)
        with open(path,'wb') as f:
            f.write(r.content)  # r.content返回二进制内容
            f.close()
            print("文件保存成功")
    else:
        print("文件已存在")
except:
    print("爬取失败")

2 Scrapy库入门

2.1 Scrapy库安装

可以用anaconda安装scrapy，打开anaconda prompt，输入以下代码

conda install scrapy

报错：

CondaError: Downloaded bytes did not match Content-Length
  url: https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/win-64/pywin32-227-py37he774522_1.conda
  target_path: E:\Anaconda3\pkgs\pywin32-227-py37he774522_1.conda
  Content-Length: 5808297
  downloaded bytes: 2653872

问题是用conda安装包的时候下载包的长度不够导致安装包不成功，原因一般是在下载的时候速度较慢，通过更新配置的清华镜像源成功解决，具体配置方法请参考：Anaconda 镜像使用帮助

2.2 Scrapy爬虫框架

Scrapy不是一个函数功能库，而是一个爬虫框架。

Scrapy爬虫框架介绍：

爬虫框架是实现爬虫功能的一个软件结构和功能组件集合。
爬虫框架是一个半成品，能够帮助用户实现专业网络爬虫。

Scrapy爬虫框架解析：

Engine：不需要用户修改

控制所有模块之间的数据流
根据条件触发事件

Downloader：不需要用户修改

根据请求下载网页

Scheduler：不需要用户修改

对所有爬取请求进行调度管理

Downloader Middleware：用户可编写配置代码

目的：实施Engine、Scheduler和Downloader之间进行用户可配置的控制
功能：修改、丢弃、新增请求或响应

Spider：需要用户编写配置代码

解析Downloader返回的响应（Response）
产生爬取项（scraped item）
产生额外的爬取请求（Request）

Item Pipelines：需要用户编写配置代码

以流水线方式处理Spider产生的爬取项
由一组操作顺序组成，类似流水线，每个操作是一个Item Pipeline类型
可能操作包括：清理、检验、和查重爬取项中的HTML数据、将数据存储到数据库

Spider Middleware：用户可以编写配置代码

目的：对请求和爬取项的再处理
功能：修改、丢弃、新增请求或爬取项

2.3 Request库和Scrapy爬虫的比较

requests vs. Scrapy：

相同点：

两者都可以进行页面请求和爬取，Python爬虫的两个重要技术路线
两者可用性都好，文档丰富，入门简单
两者都没有处理js、提交表单、应对验证码等功能（可扩展）

不同点：

requests	Scrapy
页面级爬虫	网站级爬虫
功能库	框架
并发性考虑不足，性能较差	并发性好，性能较高
重点在于页面下载	重点在于爬虫结构
定制灵活	一般定制灵活，深度定制困难
上手十分简单	入门稍难

2.4 Scrapy爬虫的常用命令

Scrapy命令行：

Scrapy是为持续运行设计的专业爬虫框架，提供操作的Scrapy命令行

Scrapy常用命令：

命令	说明	格式
startproject	创建一个新工程	scrapy startproject [dir]
genspider	创建一个爬虫	scrapy genspider [options]
settings	获得爬虫配置信息	scrapy setting [options]
crawl	运行一个爬虫	scrapy crawl
list	列出工程中所有爬虫	scrapy list
shell	启动URL调试命令行	scrapy shell [url]

2.5 Scrapy爬虫的第一个实例

步骤1：建立一个Scrapy爬虫工程

打开cmd，输入以下命令在工程目录创建一个新的Scrapy工程，工程名为python123demo

生成的工程目录：

python123demo/ ----------------> 外层目录

scrapy.cfg ---------> 部署Scrapy爬虫的配置文件
python123demo/ ---------> Scrapy框架的用户自定义Python代码
__init__.py ----> 初始化脚本
items.py ----> Items代码模板（继承类）
middlewares.py ----> Middlewares代码模板（继承类）
pipelines.py ----> Pipelines代码模板（继承类）
settings.py ----> Scrapy爬虫的配置文件

spiders/ ----> Spiders代码模板目录（继承类）

__init__.py --------> 初始文件，无需修改
__pycache__/ --------> 缓存目录，无需修改

步骤2：在工程中产生一个Scrapy爬虫

打开cmd，输入以下命令生成一个名为demo的爬虫

步骤3：配置产生的spider爬虫

修改D:\pycodes\python123demo\python123demo\spiders\demo.py文件

# -*- coding: utf-8 -*-
import scrapy


class DemoSpider(scrapy.Spider):
    name = 'demo'
#    allowed_domains = ['python123.io']
    start_urls = ['http://python123.io/ws/demo.html']

    def parse(self, response):
        fname = response.url.split('/')[-1]
        with open(fname, 'wb') as f:
            f.write(response.body)
        self.log('Save file %s.' % name)

demo.py代码的完整版本

import scrapy

class DemoSpider(scrapy.Spider):
    name = "demo"
    
    def start_requests(self):
        urls = [
        		'http://python123.io/ws/demo.html'
        		]
        for url in urls:
            yield scrapy.Requests(url=url, callback=self.parse)
            
    def parse(self, response):
        fname = response.url.split('/')[-1]
        with open(fname, 'wb') as f:
            f.write(response.body)
        self.log('Saved file %s.' % fname)

步骤4：运行爬虫，获取网页

打开cmd，输入以下命令运行爬虫

2.6 Scrapy爬虫的基本使用

Scrapy爬虫的使用步骤：

步骤1：创建一个工程和Spider模板；
步骤2：编写Spider；
步骤3：编写Item Pipeline
步骤4：优化配置策略

2.7 Scrapy爬虫的数据类型

Request类：

class scrapy.http.Request()

Request对象表示一个HTTP请求
由Spider生成，由Downloader执行

属性或方法	说明
.url	Request对应的请求URL地址
.method	对应的请求方法，’GET‘ ’POST‘等
.headers	字典类型风格的请求头
.body	请求内容主体，字符串类型
.meta	用户添加的扩展信息，在Scrapy内部模块间传递信息使用
.copy()	复制该请求

Response类：

class scrapy.http.Response()

Response对象表示一个HTTP响应
由Downloader生成，由Spider处理

属性或方法	说明
.url	Response对应的URL地址
.status	HTTP状态码，默认是200
.headers	Response对应的头部信息
.body	Response对应的内容信息，字符串类型
.flags	一组标记
.request	产生Response类型对应的Request对象
.copy()	复制该响应

Item类：

class scrapy.item.Item()

Item对象表示一个从HTML页面中提取的信息内容
由Spider生成，由Item Pipeline处理
Item类似字典类型，可以按照字典类型操作

2.8 Scrapy爬虫提取信息的方法

Scrapy爬虫支持多种HTML信息提取方法：

Beautiful Soup
lxml
re
XPath Selector
CSS Selector

CSS Selector的基本使用：

CSS Selector由W3C组织维护并规范

2.9 股票数据Scrapy爬虫实例

功能描述：

技术路线：scrapy
目标：获取上交所和深交所所有股票的名称和交易信息
输出：保存到文件中

步骤1：建立工程和Spider模板

\>scrapy startproject BaiduStocks
\>cd BaiduStocks
\>scrapy genspider stocks baidu.com
进一步修改spiders/stocks.py文件

步骤2：编写Spider

配置stock.py文件
修改对返回页面的处理
修改对新增URL爬取请求的处理

修改spider.stocks.py文件使其能够解析返回的信息

# -*- coding: utf-8 -*-
import scrapy
import re
    
    
class StocksSpider(scrapy.Spider):
    name = "stocks"
    start_urls = ['https://quote.eastmoney.com/stocklist.html']
    
    def parse(self, response):
        for href in response.css('a::attr(href)').extract():
            try:
                stock = re.findall(r"[s][hz]\d{6}", href)[0]
                url = 'https://gupiao.baidu.com/stock/' + stock + '.html'
                yield scrapy.Request(url, callback=self.parse_stock)
            except:
                continue
    
    def parse_stock(self, response):
        infoDict = {}
        stockInfo = response.css('.stock-bets')
        name = stockInfo.css('.bets-name').extract()[0]
        keyList = stockInfo.css('dt').extract()
        valueList = stockInfo.css('dd').extract()
        for i in range(len(keyList)):
            key = re.findall(r'>.*', keyList[i])[0][1:-5]
            try:
                val = re.findall(r'\d+\.?.*', valueList[i])[0][0:-5]
            except:
                val = '--'
            infoDict[key]=val
    
        infoDict.update(
            {'股票名称': re.findall('\s.*\(',name)[0].split()[0] + \
                re.findall('\>.*\<', name)[0][1:-1]})
        yield infoDict

步骤3：编写Pipelines

配置pipelines.py文件
定义对爬取项（Scrapy Item）的处理类
配置ITEM_PIPELINES选项

修改pipelines.py

# -*- coding: utf-8 -*-
    
# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html
    
    
class BaidustocksPipeline(object):
    def process_item(self, item, spider):
        return item
    
class BaidustocksInfoPipeline(object):
    def open_spider(self, spider):
        self.f = open('BaiduStockInfo.txt', 'w')
    
    def close_spider(self, spider):
        self.f.close()
    
    def process_item(self, item, spider):
        try:
            line = str(dict(item)) + '\n'
            self.f.write(line)
        except:
            pass
        return item

修改setting.py中的ITEM_PIPELINES使框架能找到我们新定义的类

# Configure item pipelines
# See https://scrapy.readthedocs.org/en/latest/topics/item-pipeline.html
ITEM_PIPELINES = {
	'BaiduStocks.pipelines.BaidustocksInfoPipeline': 300,
}

配置并发连接选项：

settings.py文件

选项	说明
CONCURRENT_REQUESTS	Downloader最大并发请求下载数量，默认为32
CONCURRENT_ITEMS	Item Pipeline最大并发ITEM处理数量，默认为100
CONCURRENT_REQUESTS_PRE_DOMAIN	每个目标域名最大的并发请求数量，默认为8
CONCURRENT_REQUESTS_PRE_IP	每个目标IP最大的并发请求数量，默认为0，非0有效

与谁相约妖精欣儿
看到这周的主题是《见面》，我瞬间愣住，脑子思绪万千，在这诺大的城市，有什么人是许久不见，甚是想念的？回想这些年，每天除了工作就是家庭与孩子，唯一的娱乐项目就是看小说，即使与人聊天，也脱离不开工作、家庭、孩子，偶尔加点女性话题点缀。在孩童时代，羡慕大人们可以不用上学做作业，可以想去哪就去哪里，可以去很多城市见识不同的风景，而自己长大成人后，才知道,才知道成人了，每天需要考虑家里的油盐酱醋茶是否还有，
lesson17：Python函数之递归、匿名函数与变量作用域
目录引言一、递归函数：用自身解构复杂问题1.递归的基本结构2.递归的典型应用场景3.递归的优缺点与优化二、匿名函数：用lambda实现“一句话函数”1.lambda与普通函数的区别2.lambda的典型应用3.lambda的局限性三、变量作用域：理解LEGB规则1、LEGB规则的深度解析（1）Local（局部作用域）（2）Enclosing（嵌套作用域）（3）Global（全局作用域）（4）Bui
英超直播：纽卡斯尔联队十年前五名，球迷们难忘的时刻体育日记本
在过去的十年里，纽卡斯尔联队创造了许多特别而难忘的时刻，但是在这十年里，我们对俱乐部最美好的回忆是什么？过去的十年在卡通军心中引发了一场情绪的过山车。纽卡斯尔联队成功跻身前五，并在同一个十年经历了两次降级。从在圣詹姆斯公园听到欧罗巴联赛的圣歌，到在冠军路上迎战普利茅斯阿盖尔，一点都不好玩。尽管如此，在所有的低潮时刻，这十年确实包含了一些令人难忘的时刻，纽卡斯尔联队的球迷可以在未来几年与年轻一代分享
lesson11：Python的字典及方法你的电影很有趣 windows python
目录前言一、字典的定义与核心价值创建方式：二、核心特性：键的规则与无序性演变1、键的不可变性与唯一性2、无序性与Python版本差异三、常用操作与方法全解析四、与列表/元组的对比：数据结构选型指南五、高级应用技巧六、避坑指南：常见错误与最佳实践总结前言在Python的“数据结构工具箱”中，字典（Dictionary）无疑是最灵活、最强大的工具之一。无论是存储用户信息、解析JSON数据，还是实现缓存
C语言实现扫雷游戏：从经典玩法到代码构建
文章目录C语言实现扫雷游戏：从经典玩法到代码构建一、游戏简介：经典玩法回顾二、扫雷游戏的设计与实现2.1整体设计思路与技术选型核心技术栈多文件分工2.2棋盘设计：核心数据结构棋盘尺寸与扩展设计双棋盘机制2.3核心功能实现1.棋盘初始化与打印2.随机布置地雷3.地雷排查与数字计算2.4游戏流程控制4.排查逻辑完整实现三、功能扩展：提升游戏体验四、总结C语言实现扫雷游戏：从经典玩法到代码构建扫雷作为一
sshpass原理详解及自动化运维实践
什么是SSHpass？SSHpass是一个用于非交互式SSH密码验证的工具，它能够通过命令行直接提供SSH密码，从而绕过交互式密码输入提示。这在自动化脚本和批处理操作中尤为有用。工作原理SSHpass的工作原理可以概括为以下几个关键点：密码传递机制：SSHpass通过命令行参数、环境变量或文件等方式接收密码伪终端模拟：它模拟一个伪终端（pseudo-terminal）来与SSH客户端交互自动响应：
Conda 核心命令快速查阅表拉拉拉拉拉拉拉马 conda
本表旨在提供一个简洁、高效的Conda命令参考，专注于最常用功能的快速查找。1.环境管理(EnvironmentManagement)功能(Function)命令(Command)示例(Example)创建新环境condacreate-n[packages...]condacreate-nmyenvpython=3.9pandas激活环境condaactivatecondaactivatemyen
使用 Git 结合 GitHub 管理代码 - Autodl（笔记）
核心目标：在AutoDL服务器上方便地获取、修改和同步代码。利用GitHub作为中央代码仓库，实现版本控制、备份和协作。保持本地开发环境（如果有的话）与AutoDL服务器环境的代码同步。全流程步骤：阶段一：准备工作(在本地和GitHub上)拥有GitHub账户:如果没有，先去GitHub官网注册一个账户。创建GitHub仓库(Repository):登录GitHub。点击右上角的"+"号，选择"N
【C++特殊工具与技术】固有的不可移植的特性(3)::extern“C“
在软件开发中，混合编程是常见需求：C++调用C语言编写的底层库（如Linux系统调用）、C程序调用C++实现的算法模块，甚至C++与Ada、Fortran等其他语言交互。但不同语言在函数命名规则和调用约定上的差异，会导致链接阶段出现“无法解析的外部符号”错误。目录一、命名修饰与链接问题：CvsC++1.1C++的命名修饰机制1.2C语言的“无修饰”命名1.3链接失败的典型场景二、extern"C"
三伏天（1）小草_d5ad
婚姻的底色，离不开爱、理解和包容。有了它们，一切温柔与美好才会到来。一一题记一早醒来天已大亮，准确地说，秦凤不是自然醒来，而是被陈彬的手机铃声吵醒。秦凤昨夜睡不好，她躺下床睡不着再重新到另一个房间睡，折腾到了很晚还是睡不着，开空调太冷，没有风扇的房间又是太热，她不得不下楼喝水解渴，这会儿墙上的时间告诉了她，已经凌晨两点了，她怎还睡不着？秦凤看着墙边一瞬间闪现眼前的就是陈彬拿起鞋子甩出去……秦凤这会
frida objection注入时frida.core.RPCException: ReferenceError: ‘ObjC‘ is not defined解决马戏团小丑 java android
最新的17.0.xx版本frida进行objection注入时会报错PSC:\Users\19583>objection-gcom.example.hellojniexploreC:\Users\19583\AppData\Local\Programs\Python\Python312\Lib\site-packages\objection\utils\update_checker.py:7:Us
【读书清单】《了凡四训》&积善之方幻岭之漫
1.与人为善说话做事，不只是为自己所想，而是立足于客观事实的，不有意在他人面前卖弄自己骄傲的智慧和才能2.爱敬存心君子和小人差别就在于尊重爱护众人的那份心。各种各样的人，都是我们的同胞，都是值得尊敬的3.成人之美看到一个人做好事，或看到他的志向可以支持，资质可以进步的，都要对他进行引导，最终能造就他们4.劝人为善在忙碌着追逐名利的人，容易迷失自我。与他们相处时要随时提醒他们帮他们摆脱疑惑。比如看到
晨语问安2022年3月5日求索大伟
『晨语问安3.5』干活，人类赖以生存的底子，也是成就伟业的根本，开创美好明天的基石。俗话说：锯响就有沫，只要去干就能够取得效果，但是干，也有积极和消极之分，也有主动与被动之别，最终取得的效果也有大小之差，很多时候看似差之毫厘，可能结果天壤之别。干与不干、真干与假干的结果迥然不同，同样是真干，积极主动真干和消极被动真干的效果也不一样，且是时间越久差距越大。同样的工作相同的事情，如果积极主动真干取得的
凭什么？连大学甚至高中都没毕业的就成为大作家渊回川
起因昨天语文课讲到沈从文传记，看到这样的问题，不经难掩笑意。答大作家不是大学或者高中不毕业就可以成为的，而是他们大学或高中未能毕业，历尽艰险磨难，可以说是走投无路之下走上这条路的。而恰恰也许有天赋，也许有贵人或者启蒙之书，或者哪里听到的一两三句真理，从此潜心写作，背后总是有无尽的努力与汗水最终才做到了他们的大作家地位。问题的根源还是简单归因。人最喜欢做的事情就是把一个人的成就归一一个或者两个的经历
lesson18：Python函数的闭包与装饰器（难）你的电影很有趣 python 开发语言
目录引言闭包：函数式编程的"状态容器"一、闭包的本质与定义二、闭包的三大形成条件三、闭包的工作原理：变量的“持久化”四、闭包的核心应用场景五、闭包的注意事项六、闭包与装饰器的关系装饰器：基于闭包的功能增强工具一.装饰器的定义与作用二.装饰器的实现原理（基于闭包）三、装饰器进阶：灵活扩展功能1.带参数的装饰器2.保留函数元信息3.类装饰器与装饰器嵌套四、装饰器实战案例案例一：时间开销计算（性能监控）
Hadoop与云原生集成：弹性扩缩容与OSS存储分离架构深度解析
Hadoop与云原生集成的必要性Hadoop在大数据领域的基石地位作为大数据处理领域的奠基性技术，Hadoop自2006年诞生以来已形成包含HDFS、YARN、MapReduce三大核心组件的完整生态体系。根据CSDN技术社区的分析报告，全球超过75%的《财富》500强企业仍在使用Hadoop处理EB级数据，其分布式文件系统HDFS通过数据分片（默认128MB块大小）和三副本存储机制，成功解决了P
React教程(-一 ) -- 快速构建React开发环境嚣张.miner react react入门 react环境
React初接触一.react的安装1).使用方法可以直接下载使用http://facebook.github.io/react/下载最新2).直接使用BootCDN的ReactCDN库.在.html文件中直接引用-react.min.js-React的核心库-react-dom.min.js-提供与DOM相关的功能-babel.min.js-Babel可以将ES6代码转为ES5代码，这样我们就能
Python 模块化编程全解析：模块、包与第三方库管理指南 xw3373409564 java 前端数据库
模块与包模块化编程是什么？用生活例子秒懂想象你在搭乐高积木：每个小积木块都有特定功能（比如轮子、窗户、墙壁）——这就像模块（一个.py文件，封装了函数或类）。把相关的积木块装进一个盒子里，方便分类和取用——这就像包（一个文件夹，里面装多个模块和子包，带__init__.py标识）。模块化编程的核心思想是：把复杂代码拆成小而独立的"积木"，需要时直接拿来用，不用重复造轮子。1.模块的概念模块就是一个
Kubernetes K8S之资源控制器RC、RS、Deployment详解 LightZhang666 kubernetes ci/cd devops kubernetes k8s devops ci/cd docker
Kubernetes的资源控制器ReplicationController（RC）、ReplicaSet（RS）、Deployment（Deploy）详解与示例主机配置规划服务器名称(hostname)系统版本配置内网IP外网IP(模拟)k8s-masterCentOS7.72C/4G/20G172.16.1.11010.0.0.110k8s-node01CentOS7.72C/4G/20G172
leetcode 搜索二维矩阵 II python 四分法 DaydayHoliday
利用矩阵左上角元素总是最小，右下角总是最大的特性，将矩阵分成四部分，分别递归。请各位大佬多多提意见。classSolution(object):defsearchMatrix(self,matrix,target):""":typematrix:List[List[int]]:typetarget:int:rtype:bool"""row_num=len(matrix)ifrow_num==0:r
python 类实例_Python类的实例详解 weixin_39997173 python 类实例
类(class)是一个用户自定义类型，开发者可以将其实例化以获得实例（instance），实例表示这种类型的对象。在Python中，类就是对象，开发者可以像对其他对象那样处理函数，可以在调用函数时传递一个类作为参数，也可以返回一个类作为函数调用的结果。任何对象，即使是一个类对象，都有一个类型。在Python中，类型和类也都是第一类对象。类对象的类型也被称为该类的元类（metaclass）。对象的行
原生前端JavaScript/CSS与现代框架(Vue、React)的联系、区别与运行环境(精简版)
原生前端JavaScript/CSS与现代框架(Vue、React)的联系、区别与运行环境随着Web技术的不断发展，前端开发已经从最初的原生JavaScript和CSS时代，逐步演进到以Vue、React等为代表的现代前端框架时代。对于许多刚入门或正在转型的前端开发者来说，理解原生技术和现代框架之间的联系、区别，以及各自的运行环境和条件，有助于更好地把握前端技术栈的演变趋势和实际应用场景。一、原生
druid oracle不同版本分页,JFinal4.3 框架总结（三）铁扇不是公举 druid oracle不同版本分页
7持久层——ActiveRecordActiveRecord模式的核心是：一个Model对象唯一对应数据库表中的一条记录，而对应关系依靠的是数据库表的主键值。因此，ActiveRecord模式要求数据库表必须要有主键。当数据库表没有主键时，只能使用Db+Record模式来操作数据库。JFinal的前端提交的formBean与数据库查询的JavaBean可以使用的是同一个Model对象，Model对
夜色木馨木馨
乘着闲暇，就着夜色，漫步在沿河路上。不赶时间，不急不躁，晚风徐徐，凉意正好。临近假期，顿生许多悠闲，便犒劳犒劳自己，带上耳机，慢慢散步，慢慢游走。耳畔的音乐或许轻快节奏，或是舒缓情殇，些许英文浪漫，偶尔DJ嗨森，脚步也轻快起来。河水潺潺，柳枝纤纤，看一路灯红酒香，听阵阵人声嚷嚷，一切都弥漫着夏日的炎热与喧嚣，却颇有一番味道。路过一个小院，简陋，黢黑，门口一位老汉正专注地拉着二胡，悠然独奏。我不禁摘
python的signal weixin_33690963 python
今天在使用python的signal时，发现第二个传的函数必须是拥有两个函数参数变量的1importsignal2importtime3flag=True4deffunc1(a,b):5print"recieveSIGTERM"6globalflag7print"flag%s"%flag8flag=False9print"flag%s"%flag101112defmain():13signal.s
如何在 Windows 上安装 ONLYOFFICE 文档 v7.2 ONLYOFFICE
通过阅读本文，了解如何在Windows上安装ONLYOFFICE文档v7.2。引言使用社区版，您可以在本地服务器上安装ONLYOFFICE文档，并将在线编辑器与ONLYOFFICE协作平台或其他热门系统集成在一起。ONLYOFFICE文档是一个在线办公套件，包括文本文档、电子表格和演示文稿的查看器和编辑器，与包括.docx、.xlsx、.pptx在内的OfficeOpenXML格式完全兼容，并支持
枫桥夜泊游海盗杰克
踏上枫桥那些历经沧桑的石阶，原本粗粝的石条与其说是被无数的脚底板，不如承认是历经岁月的磨砺已是滑溜似镜，就像现代的光盘承载着无数的故事记录着多彩的人生，只是芸芸众生早已失去了依靠触摸与凝视与之神交互通的能力。桥堍下的铁岭关仍然据守着古道咽喉，只是古运河早已被江心洲和连廊以及更多的通往城区的拱桥打通，更别说身后的一众高楼大厦了，再也找不到一夫当关万夫莫开的雄风，城头的旌旗更像是古戏台的幡帘，平添了许
python字符串前面加字母_Python基础字符串前加u,r,b,f含义果呀哎呀妈呀哦呀 python字符串前面加字母
1、字符串前加u例：u"我是含有中文字符组成的字符串。"作用：后面字符串以Unicode格式进行编码，一般用在中文字符串前面，防止因为源码储存格式问题，导致再次使用时出现乱码。2、字符串前加r例：r"\n\n\n\n”#表示一个普通生字符串\n\n\n\n，而不表示换行了。作用：去掉反斜杠的转移机制。(特殊字符：即那些，反斜杠加上对应字母，表示对应的特殊含义的，比如最常见的”\n”表示换行，”\t
Python 轻量化环境管理利器 UV 入门与 Windows 下安装实战 wangjinjin180 python uv windows
https://www.52runoob.com/index.php/2025/06/19/python-轻量化环境管理利器-uv-入门与-windows-下安装实战/Python轻量化环境管理利器UV入门与Windows下安装实战一、什么是UV（UnikernelVirtualization）UV是一种轻量化的虚拟化技术，能够将应用程序与操作系统内核打包为一个单一的运行镜像，极大减少系统资源占用
工业大模型应用报告：新机遇、挑战与未来展望花生糖@ AIGC学习资料库大模型人工智能应用扩展屏应用开发 AI 机器学习
大模型在工业智能化发展中的新机遇、挑战与展望。以下是报告的核心内容概述：大模型为工业智能化发展带来新机遇大模型开启人工智能应用新时代，推动技术创新和应用。大模型有望成为驱动工业智能化的引擎，提高研发效率、拓展生产制造智能化应用边界、提升经营管理水平。大模型应用落地需要深度适配工业场景，解决行业知识和企业特定环境的理解问题。大模型和小模型在工业领域将长期并存小模型应用呈现倒U型分布，主要集中在生产制
log4j对象改变日志级别 3213213333332132 java log4j level log4j对象名称日志级别
log4j对象改变日志级别可批量的改变所有级别，或是根据条件改变日志级别。 log4j配置文件： log4j.rootLogger=ERROR,FILE,CONSOLE,EXECPTION #log4j.appender.FILE=org.apache.log4j.RollingFileAppender log4j.appender.FILE=org.apache.l
elk+redis 搭建nginx日志分析平台 ronin47 elasticsearch kibana logstash
elk+redis 搭建nginx日志分析平台 logstash,elasticsearch,kibana 怎么进行nginx的日志分析呢？首先，架构方面，nginx是有日志文件的，它的每个请求的状态等都有日志文件进行记录。其次，需要有个队列，redis的l
Yii2设置时区 dcj3sjt126com PHP timezone yii2
时区这东西，在开发的时候，你说重要吧，也还好，毕竟没它也能正常运行，你说不重要吧，那就纠结了。特别是linux系统，都TMD差上几小时，你能不痛苦吗？win还好一点。有一些常规方法，是大家目前都在采用的1、php.ini中的设置，这个就不谈了，2、程序中公用文件里设置，date_default_timezone_set一下时区3、或者。。。自己写时间处理函数，在遇到时间的时候，用这个函数处理（比较
js实现前台动态添加文本框，后台获取文本框内容 171815164 文本框
<%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://w
持续集成工具 g21121 持续集成
持续集成是什么？我们为什么需要持续集成？持续集成带来的好处是什么？什么样的项目需要持续集成？... 持续集成(Continuous integration ,简称CI)，所谓集成可以理解为将互相依赖的工程或模块合并成一个能单独运行
数据结构哈希表(hash)总结永夜-极光数据结构
1.什么是hash 来源于百度百科: Hash，一般翻译做“散列”，也有直接音译为“哈希”的，就是把任意长度的输入，通过散列算法，变换成固定长度的输出，该输出就是散列值。这种转换是一种压缩映射，也就是，散列值的空间通常远小于输入的空间，不同的输入可能会散列成相同的输出，所以不可能从散列值来唯一的确定输入值。简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。
乱七八糟程序员是怎么炼成的
eclipse中的jvm字节码查看插件地址： http://andrei.gmxhome.de/eclipse/ 安装该地址的outline 插件后重启，打开window下的view下的bytecode视图 http://andrei.gmxhome.de/eclipse/ jvm博客： http://yunshen0909.iteye.com/blog/2
职场人伤害了“上司” 怎样弥补 aijuans 职场
由于工作中的失误，或者平时不注意自己的言行“伤害”、“得罪”了自己的上司，怎么办呢？　　在职业生涯中这种问题尽量不要发生。下面提供了一些解决问题的建议：　　一、利用一些轻松的场合表示对他的尊重　　即使是开明的上司也很注重自己的权威，都希望得到下属的尊重，所以当你与上司冲突后，最好让不愉快成为过去，你不妨在一些轻松的场合，比如会餐、联谊活动等，向上司问个好，敬下酒，表示你对对方的尊重，
深入浅出url编码 antonyup_2006 应用服务器浏览器 servlet weblogic IE
出处：http://blog.csdn.net/yzhz 杨争 http://blog.csdn.net/yzhz/archive/2007/07/03/1676796.aspx 一、问题：编码问题是JAVA初学者在web开发过程中经常会遇到问题，网上也有大量相关的
建表后创建表的约束关系和增加表的字段百合不是茶标的约束关系增加表的字段
下面所有的操作都是在表建立后操作的,主要目的就是熟悉sql的约束,约束语句的万能公式 1,增加字段(student表中增加姓名字段) alter table 增加字段的表名 add 增加的字段名增加字段的数据类型 alter table student add name varchar2(10); &nb
Uploadify 3.2 参数属性、事件、方法函数详解 bijian1013 JavaScript uploadify
一.属性属性名称默认值说明 auto true 设置为true当选择文件后就直接上传了，为false需要点击上传按钮才上传。 buttonClass ” 按钮样式 buttonCursor ‘hand’ 鼠标指针悬停在按钮上的样子 buttonImage null 浏览按钮的图片的路
精通Oracle10编程SQL(16)使用LOB对象 bijian1013 oracle 数据库 plsql
/* *使用LOB对象 */ --LOB(Large Object)是专门用于处理大对象的一种数据类型，其所存放的数据长度可以达到4G字节 --CLOB/NCLOB用于存储大批量字符数据，BLOB用于存储大批量二进制数据，而BFILE则存储着指向OS文件的指针 /* *综合实例 */ --建立表空间 --#指定区尺寸为128k,如不指定，区尺寸默认为64k CR
【Resin一】Resin服务器部署web应用 bit1129 resin
工作中，在Resin服务器上部署web应用，通常有如下三种方式：配置多个web-app 配置多个http id 为每个应用配置一个propeties、xml以及sh脚本文件配置多个web-app 在resin.xml中,可以为一个host配置多个web-app <cluster id="app&q
red5简介及基础知识白糖_ 基础
简介 Red5的主要功能和Macromedia公司的FMS类似，提供基于Flash的流媒体服务的一款基于Java的开源流媒体服务器。它由Java语言编写，使用RTMP作为流媒体传输协议，这与FMS完全兼容。它具有流化FLV、MP3文件，实时录制客户端流为FLV文件，共享对象，实时视频播放、Remoting等功能。用Red5替换FMS后,客户端不用更改可正
angular.fromJson boyitech AngularJS AngularJS 官方API AngularJS API
angular.fromJson 描述: 把Json字符串转为对象使用方法: angular.fromJson(json); 参数详解: Param Type Details json string JSON 字符串返回值: 对象, 数组, 字符串或者是一个数字示例: <!DOCTYPE HTML> <h
java-颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I bylijinnan java
public class ReverseWords { /** * 题目：颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I.词以空格分隔。 * 要求： * 1.实现速度最快,移动最少 * 2.不能使用String的方法如split,indexOf等等。 * 解答：两次翻转。 */ publ
web实时通讯 Chen.H Web 浏览器 socket 脚本
关于web实时通讯，做一些监控软件。由web服务器组件从消息服务器订阅实时数据，并建立消息服务器到所述web服务器之间的连接，web浏览器利用从所述web服务器下载到web页面的客户端代理与web服务器组件之间的socket连接，建立web浏览器与web服务器之间的持久连接；利用所述客户端代理与web浏览器页面之间的信息交互实现页面本地更新，建立一条从消息服务器到web浏览器页面之间的消息通路
[基因与生物]远古生物的基因可以嫁接到现代生物基因组中吗? comsci 生物
大家仅仅把我说的事情当作一个IT行业的笑话来听吧..没有其它更多的意思如果我们把大自然看成是一位伟大的程序员,专门为地球上的生态系统编制基因代码,并创造出各种不同的生物来,那么6500万年前的程序员开发的代码,是否兼容现代派的程序员的代码和架构呢?
oracle 外部表 daizj oracle 外部表 external tables
oracle外部表是只允许只读访问，不能进行DML操作，不能创建索引，可以对外部表进行的查询，连接，排序，创建视图和创建同义词操作。 you can select, join, or sort external table data. You can also create views and synonyms for external tables. Ho
aop相关的概念及配置 daysinsun AOP
切面(Aspect): 通常在目标方法执行前后需要执行的方法（如事务、日志、权限），这些方法我们封装到一个类里面，这个类就叫切面。连接点（joinpoint） spring里面的连接点指需要切入的方法，通常这个joinpoint可以作为一个参数传入到切面的方法里面（非常有用的一个东西）。通知（Advice）通知就是切面里面方法的具体实现，分为前置、后置、最终、异常环
初一上学期难记忆单词背诵第二课 dcj3sjt126com english word
middle 中间的，中级的 well 喔，那么；好吧 phone 电话，电话机 policeman 警察 ask 问 take 拿到；带到 address 地址 glad 高兴的，乐意的 why 为什么 China 中国 family 家庭 grandmother (外)祖母 grandfather (外)祖父 wife 妻子 husband 丈夫 da
Linux日志分析常用命令 dcj3sjt126com linux log
1.查看文件内容 cat -n 显示行号 2.分页显示 more Enter 显示下一行空格显示下一页 F 显示下一屏 B 显示上一屏 less /get 查询"get"字符串并高亮显示 3.显示文件尾 tail -f 不退出持续显示 -n 显示文件最后n行 4.显示头文件 head -n 显示文件开始n行 5.内容排序 sort -n 按照
JSONP 原理分析 fantasy2005 JavaScript jsonp jsonp 跨域
转自 http://www.nowamagic.net/librarys/veda/detail/224 JavaScript是一种在Web开发中经常使用的前端动态脚本技术。在JavaScript中，有一个很重要的安全性限制，被称为“Same-Origin Policy”（同源策略）。这一策略对于JavaScript代码能够访问的页面内容做了很重要的限制，即JavaScript只能访问与包含它的
使用connect by进行级联查询 234390216 oracle 查询父子 Connect by 级联
使用connect by进行级联查询 connect by可以用于级联查询，常用于对具有树状结构的记录查询某一节点的所有子孙节点或所有祖辈节点。来看一个示例，现假设我们拥有一个菜单表t_menu，其中只有三个字段：
一个不错的能将HTML表格导出为excel,pdf等的jquery插件 jackyrong jquery插件
发现一个老外写的不错的jquery插件，可以实现将HTML 表格导出为excel,pdf等格式，地址在： https://github.com/kayalshri/ 下面看个例子，实现导出表格到excel,pdf <html> <head> <title>Export html table to excel an
UI设计中我们为什么需要设计动效 lampcy UI UI设计
关于Unity3D中的Shader的知识首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，
如何禁止页面缓存 nannan408 html jsp cache
禁止页面使用缓存~ ------------------------------------------------ jsp:页面no cache： response.setHeader("Pragma","No-cache"); response.setHeader("Cache-Control","no-cach
以代码的方式管理quartz定时任务的暂停、重启、删除、添加等 Everyday都不同定时任务管理 spring-quartz
【前言】在项目的管理功能中，对定时任务的管理有时会很常见。因为我们不能指望只在配置文件中配置好定时任务就行了，因为如果要控制定时任务的 “暂停” 呢？暂停之后又要在某个时间点 “重启” 该定时任务呢？或者说直接 “删除” 该定时任务呢？要改变某定时任务的触发时间呢？ “添加” 一个定时任务对于系统的使用者而言，是不太现实的，因为一个定时任务的处理逻辑他是不
EXT实例 tntxia ext
（1）增加一个按钮 JSP: <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); Stri
数学学习在计算机研究领域的作用和重要性 xjnine Math
最近一直有师弟师妹和朋友问我数学和研究的关系，研一要去学什么数学课。毕竟在清华，衡量一个研究生最重要的指标之一就是paper,而没有数学，是肯定上不了世界顶级的期刊和会议的，这在计算机学界尤其重要！你会发现，不论哪个领域有价值的东西，都一定离不开数学！在这样一个信息时代，当google已经让世界没有秘密的时候，一种卓越的数学思维，绝对可以成为你的核心竞争力. 无奈本人实在见地