XVII丶B

pyspider实战，爬取统计局工业运行数据

我们本次爬取湖州市统计局网站各个月份的工业运行数据。http://tjj.huzhou.gov.cn，我们需要爬取的网页索引页http://tjj.huzhou.gov.cn/tjsj/ydsj/index.html，需要具体需要数据所在相应页面。

1、准备工作

1.python基础

2.安装pyspider

3.可以忍受在网页写代码

4.编成达人请移步文章底部

2、编写爬虫

1.启动pyspider

pyspider all

2.如果是本地环境浏览器访问localhost:5000我们可以看到如下页面

点击create创建项目，输入项目名以及我们要爬取网页索引页的地址

点击create创建项目，点击进入页面中的run进入下方界面，左侧为webUI自带任务监视器，右侧为代码编辑器。

class Handler(BaseHandler):
    crawl_config = {
    }

    @every(minutes=24 * 60)
    def on_start(self):
        self.crawl('http://tjj.huzhou.gov.cn/tjsj/ydsj/index.html', callback=self.index_page)

    @config(age=10 * 24 * 60 * 60)
    def index_page(self, response):
        for each in response.doc('a[href^="http"]').items():
            self.crawl(each.attr.href, callback=self.detail_page)

    @config(priority=2)
    def detail_page(self, response):
        return {
            "url": response.url,
            "title": response.doc('title').text(),
        }

def on_start(self)是脚本的入口。点击run按钮时将调用它。
self.crawl(url, callback=self.index_page)*这是最重要的API。它将添加一个要被爬取的新任务。
def index_page(self, response)得到一个Response*对象。response.doc*是一个pyquery对象，我们可以通过它来拿到我们需要的数据。
def detail_page(self, response)返回一个dict对象作为结果。我们需要在这个方法中编写代码处理最终爬取到的数据，结果将resultdb默认捕获。我们可以重写on_result(self, result)方法来自行管理结果。

点击调试器上的run，我们可以看到follwos出现了一个1，点击它我们可以看到我们在创建项目是URL上填写的地址。

点击链接右侧的小箭头，我们应该会进入具体我们需要爬取数据所在页面的目录页，我们会看到网站给我门返回了一个403 Forbiden，惊了！ why？

这是由于这个网站的安全机制，没关系，我们只需要设置一个代理去模拟浏览器即可，指定self.crawl方法中指定user_agent参数。

agent='Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)Chrome/51.0.2704.63 Safari/537.36'
    @every(minutes=24 * 60)
    def on_start(self):
        self.crawl('http://tjj.huzhou.gov.cn/tjsj/ydsj/index.html',user_agent=self.agent, callback=self.index_page)

重新运行项目（注意我们需要点击调试器的返回上一步按钮回到之前的方法去运行）这时我们可以看到给我们返回了很多条请求地址但是我们会发现这里并没有我们需要的url。点开web我们会发现，并没有显示我们需要的数据，惊了 why?

我们可以看到原本应该显示各个月份数据的目录为空，这是由于这部分时由JS渲染的。这是我们只需指定self.craw的fetch_type参数为js,前提是你已经安装了phantomjs，要是没装pyspider也没辙。

self.crawl('http://tjj.huzhou.gov.cn/tjsj/ydsj/index.html', user_agent=self.agent,callback=self.index_page,fetch_type='js')

重新运行我们可以看到这时我们拿到了所有的url，但是这其中有很多是没用的url，这是我们只需修改index_page中选择器response.doc()的筛选条件即可，这时我们就筛选出了我们需要的url。

def index_page(self, response):
        for each in response.doc('a[href^="http://tjj.huzhou.gov.cn/xxgk/tjxx/tjsj"]').items():
            self.crawl(each.attr.href, callback=self.detail_page, user_agent=self.agent)

做到这步我们发现一个问题，网站上各个月份的数据很多，前端显示做了分页。通常来说我们只需获取下一页的链接并且在index_page方法中回调自身即可实现翻页，但是当我们点击下一页时，我们发现这个网站点下一页时是ajax局部更新的，我们无法获取下一页的链接，惊了！这可怎么办。

这时我们终于想起F12大法好，我们在目录页面http://tjj.huzhou.gov.cn/tjsj/ydsj/index.html，点击F12，依次点击Nework-->XHR,以及网页上的下一页按钮我们可以看到刷出了XHR文件。

点开XHR文件，我们可以看到请求后台的请求URL,以及最下方请求所带的参数。

我们来看看它的参数，pageno没用，channeild不知道是个什么，嗯pagesize就决定是你了。

我们在浏览器打开这个请求，带上参数pagesize=300，channelid=12746。果然得到了所有数据。

好了现在我们将on_start中的url更改为我们拿到的url,指定为POST方法，带上参数。

self.crawl('http://tjj.huzhou.gov.cn/hzgov/openapi/info/ajaxpagelist.do', callback=self.index_page,user_agent=self.agent,
                   method='POST',data={'channelid': 23746, 'pagesize':50})
        # 参数 pagesize指定当前页显示多少条数据,只爬取最近50个页面

现在请求得的到的将不再是页面而是JavaScript Object Notation数据，所以index_page方法中的代码也需要作相应得更改，分析相应json格式拿到url。

def index_page(self, response):
        for each in response.json['infolist']:
            self.crawl(each['url'], callback=self.detail_page, user_agent=self.agent,
                      )

好了现在我们可以轻松的拿到我们要爬取得所有页面了。之后就是爬取详情页面我们需要得数据了。

我们只需在detail_page方法中通过response.doc().text()API并在doc()中传入相应selector即可拿到我们所需要得数据。

通常情况下我们可以通过webUI自带的工具拿到数据，方法如下。

点击调试器得web->enable css selector helper ,选中需要拿的数据，点击右上方小箭头即可拿到选择器。

但。。。。。啊？？？？？惊了！why?

这个时候我们需要到浏览器中打开F12，选择element找到相应数据，右键点击选择copy selector即可。

value = response.doc('body > div.hz_bg1 > div.hz_xl_main > div > table > tbody > tr:nth-child(13) > td:nth-child(1)').text()

之后我们只需在return返回相应变量即可在控制台看到我们的数据。

return {
            "url": url,
            "title": response.doc('title').text(),
            "value":value
        }

好了至此我们已经可以拿到我们需要的数据了

三、存入Mysql数据库

我们只需初始化数据库连接，然后写一个数据库操作方法并在detail_page方法中调用即可

#连接数据库
    def __init__(self):
        self.db = pymysql.connect('localhost', 'root', '952866', 'huzouspider', charset='utf8')
    def add_Mysql(self, value, date, release_date, url):
        try:
            cursor = self.db.cursor()
            sql = 'insert into ie011531(value, date, release_date, url, area) values ("%s","%s","%s","%s","湖州")' % (value, date, release_date, url)  
            print(sql)
            cursor.execute(sql)
            print(cursor.lastrowid)
            self.db.commit()
        except Exception as e:
            print(e)
            self.db.rollback()

# 在detail_page中调用
self.add_Mysql(value,date,release_date,url)

四、说明

注解说明

修改代码中def on_start(self):方法上@ every注解配置定时任务，单位为分钟例如@every(minutes=31 * 24 * 60)为每31天重新执行一次爬取。在def index_page：方法上配置请求过期时间单位为秒，例如@config(age=31 * 24 * 60 * 60)为请求的过期时间为31天，在重新爬取时会判断该当前请求是否过期，若该条请求过期则重新爬取该页面，反之忽略该条请求，在on_statr方法中指定itag参数，这个参数指向目录页面某个值，这个值应当选取一个当这个目录页面发生变化时会变的值，若目录页这个值未发生变化那么就意味着目录页未发生变化pyspider则不重新执行爬取。@config(priority=2)指定爬取优先级

self.crawl主要参数说明：

callback:执行完当前方法后的回调函数。

fetch_type:指定fetch的类型

user_agent:设置代理

headers：指定请求头

Itag：指定页面标记，用于判断页面是否发生变化，不发生变化时不重新进行爬取。

prams：发送请求时添加到URL上的参数列表

data：发请求时附带的请求body

dashboard控制面板

Group：该项目的分组

Status：该项目状态

Rate：请求发送速度单位为个/秒，数值越大爬取速度越大

Burst：数值越大爬取速度越大

Progress：最近时间内请求情况

五、完整代码

from pyspider.libs.base_handler import *
import pymysql
import json

class Handler(BaseHandler):
    crawl_config = {
       
    }
    #连接数据库
    def __init__(self):
        self.db = pymysql.connect('localhost', 'root', '952866', 'huzouspider', charset='utf8')
    def add_Mysql(self, value, date, release_date, url):
        try:
            cursor = self.db.cursor()
            sql = 'insert into ie011531(value, date, release_date, url, area) values ("%s","%s","%s","%s","湖州")' % (value, date, release_date, url)  
            print(sql)
            cursor.execute(sql)
            print(cursor.lastrowid)
            self.db.commit()
        except Exception as e:
            print(e)
            self.db.rollback()
    # 代理模拟浏览器  
    agent='Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)Chrome/51.0.2704.63 Safari/537.36'
    # 每31*24*60分钟爬取一次
    @every(minutes=31 * 24 * 60)
    def on_start(self):
        self.crawl('http://tjj.huzhou.gov.cn/hzgov/openapi/info/ajaxpagelist.do', callback=self.index_page,user_agent=self.agent,
                   method='POST',data={'channelid': 23746, 'pagesize':50})
        # 参数 pagesize指定当前页显示多少条数据,只爬取最近50个条数据
        
    # request过期时间10年
    @config(age=10 * 12 * 30 * 24 * 60 * 60)
    def index_page(self, response):
        # print(response.json['infolist'])
        for each in response.json['infolist']:
            # print(each)
            self.crawl(each['url'], callback=self.detail_page, user_agent=self.agent,
                      )
        # itag指定增量爬取条件，当itag结果变化时才进行重新爬取
        # 翻页 获取下一页内容
        #next = response.doc('.next').attr.onclick
        #self.crawl(next,callback=self.index_page,fetch_type="js")
    @config(priority=2)
    def detail_page(self, response):
        # 指标名称
        policy_id = str("IE011526-0006")
        # 来源
        url = response.url
        # 页面创建日期用于判断
        dates = int(url[35:43])
        print(dates)
        # 发布日期
        release_date = str(dates)
        # 格式化月份
        date = response.doc('h4 > a').text()[1:10]
        if date[0]!='2':
            date = response.doc('.title1').text()[0:9]
        if date[8] == '月':
            date = date[0:4]+'-'+date[7]+'-'+'01'
        else:
            date = date[0:4]+'-'+date[7:9]+'-'+'01'
        print(date)
        # 标题
        title = response.doc('title').text()
        # 上下册
        wd = title[len(title)-3:len(title)-1]
        print(wd)
        # 规则
        selecter = ''
        if wd == '上册':
            index = response.doc('body > div.hz_bg1 > div.hz_xl_main > div > table > tbody > tr:nth-child(13) > td:nth-child(1)').text()
            print(index)
            if dates >20170301:
                if index == '商品房销售面积':
                    # 20181019
                    selecter = 'body > div.hz_bg1 > div.hz_xl_main > div > table > tbody > tr:nth-child(79) > td:nth-child(3)'
                elif index == '固定资产投资':
                    # 20190522
                    selecter = 'body > div.hz_bg1 > div.hz_xl_main > div > table > tbody > tr:nth-child(83) > td:nth-child(3)'
                elif index == '':
                    index = response.doc('body > div.hz_bg1 > div.hz_xl_main > div > div > div > table > tbody > tr:nth-child(13) > td:nth-child(1)').text()
                    print(index)
                    if index == '商品房销售面积':
                        # 20180322
                        selecter = 'body > div.hz_bg1 > div.hz_xl_main > div > div > div > table > tbody > tr:nth-child(81)  > td:nth-child(3)'
                    elif index == '固定资产投资':
                        # 20171017
                        selecter = 'body > div.hz_bg1 > div.hz_xl_main > div > div > div > table > tbody > tr:nth-child(85)  > td:nth-child(3)'   
        # 2017 6 月之前格式
            if 20120101<=dates<20170301:
                selecter = 'body > div.hz_bg1 > div.hz_xl_main > div > div > div > table > tbody > tr:nth-child(88)  > td:nth-child(3) > p'
            # print(selecter)
            # 计算机、通信和其他电子设备制造业-行业工业增加值增速
            value = response.doc(selecter).text()
            self.add_Mysql(value,date,release_date,url)
        else :
            value = '下册中无该指标'
        return {
            "url": url,
            "title": response.doc('title').text(),
            "value":value,
            "release_date":release_date,
            "date":date ,
            "policy_id":policy_id,
        }

【C语言】结构体篇熬夜超级玩家 C语言 c语言算法开发语言
目录结构体的定义结构体变量的声明和初始化声明结构体变量初始化结构体变量访问结构体成员结构体数组结构体指针结构体嵌套结构体作为函数参数值传递指针传递结构体的内存对齐位域结构体的定义结构体是一种自定义的数据类型，它把不同类型的数据组合成一个整体，方便管理和操作相关的数据。在定义结构体时，使用struct关键字，后面跟着结构体的名称，再用花括号{}包含结构体的成员列表，每个成员由数据类型和成员名组成，成
DeepSeek赋能机器人革命：从推理引擎到行业落地的全栈技术实践量子纠缠BUG DeepSeek部署 AI DeepSeek 机器人人工智能 AI编程
——解析大模型如何重塑机器人产业的智能化未来引言：机器人产业的技术范式转移在2025年全球机器人市场规模突破2000亿美元的关键节点，DeepSeek凭借其创新的"推理优先"技术架构，正在重构机器人产业的智能化路径。通过将大模型的认知推理能力与机器人执行系统深度融合，DeepSeek在商业服务、工业制造、智慧城市等领域创造了多个标杆案例。本文将从技术架构、行业应用、开发实践三个维度，深度解读Dee
flink-cdc实时增量同步mysql数据到elasticsearch 大数据技术派 #Flink elasticsearch flink mysql
什么是CDC？CDC是（ChangeDataCapture变更数据获取）的简称。核心思想是，监测并捕获数据库的变动（包括数据或数据表的插入INSERT、更新UPDATE、删除DELETE等），将这些变更按发生的顺序完整记录下来，写入到消息中间件中以供其他服务进行订阅及消费。1.环境准备mysqlelasticsearchflinkonyarn说明：如果没有安装hadoop，那么可以不用yarn，直
NTIRE比赛：技术前沿、国内企业表现与计算机视觉未来展望 AndrewHZ 深度学习新浪潮计算机视觉人工智能深度学习调研报告算法 NTIRE 画质算法
一、NTIRE比赛概述：图像恢复与增强领域的全球竞技场1.1NTIRE的定位与历史NTIRE（NewTrendsinImageRestorationandEnhancement）是计算机视觉领域最具影响力的国际赛事之一，聚焦于图像恢复与增强技术的前沿探索。自2017年首次举办以来，NTIRE每年与计算机视觉顶会CVPR联合召开，成为学术界与工业界技术实力的重要展示平台。其竞赛内容涵盖图像超分辨率、
中国团体保险行业发展规模及投资发展趋向研究报告2021-2027年 Le9420 电子商务
第1章：中国团体保险行业发展综述1.1团体保险行业定义及特点1.1.1团体保险行业的定义1.1.2团体保险行业产品/业务特点（1）团体保险与个人保险（2）团体保险与社会统筹保险1.2团体保险行业统计标准1.2.1团体保险行业统计口径1.2.2团体保险行业统计方法1.2.3团体保险行业数据种类1.2.4团体保险行业研究范围（1）团体人寿保险（2）团体健康保险（3）团体意外伤害保险第2章：美国团体健康
Java jar包后台运行方式详解我真的不想做程序员 java java jar 后端开发语言 ide
目录一、打包成jar文件二、后台运行jar文件三、示例四、总结在Java开发中，我们经常需要将应用程序打包成可执行的jar文件，并在后台运行。这种方式对于部署长时间运行的任务或需要持续监听事件的应用程序非常重要。本文将详细介绍如何实现Javajar包的后台运行，并通过具体代码示例帮助您更好地理解和应用。一、打包成jar文件要将Java应用程序打包成jar文件，首先需要确保项目的目录结构符合要求。一
MySQL保姆级教程（SQL语法基础篇）从小白到高手的进阶指南，收藏这一篇就够了网安导师小李网络安全编程程序员 mysql sql adb 安全 web安全网络自动化
本章节精心构构造SQL语法学习之旅的基石，旨在从基础出发，逐步深入，全面解析SQL语法规则并辅以丰富实例。通过这一篇章，您将循序渐进地掌握MySQL的核心语法，开启数据库操作的新境界。1：SQL语言概述SQL（StructuredQueryLanguage），简称SQL。结构化查询语言包含6个部分：类型释义范例数据查询语言DQL：DataQueryLanguage如SELECT数据操作语言DML：
Golang后端学习笔记 — 6. Golang操作数据库事务的方法宝码 Golang后端学习笔记 golang 数据库事务 postgresql
之前，学习了对数据库的每个表执行CRUD操作。真实的场景中，我们经常需要执行一个事务，它组合了多个表的相关操作。本节学习如何在Golang中实现它。在开始之前，先聊一下事务。什么是数据库事务？它是一个单一的工作单元，通常由多个表操作组成。比如：在我们的小银行项目中，我们要从张三的账户中向李四的账户中转账10元。该交易就包括5个操作，涉及到accounts表、entries表和transfers表：
全网精简版js数据结构——排序 ..儒数据结构js javascript 数据结构前端
冒泡排序functionBubbleSort(){const{length}=arrayfor(leti=0;iarr[j+1]){swap(arr,j,j+1)}}}console.log(arry);}functionswap(arry,a,b){consttemp=arry[a]arry[a]=arry[b]arry[b]=temp//或者用[arry[b],arry[a]]=[arry[a
对象的介绍及使用 ..儒 javascript 前端开发语言
对象简介1.对象是什么?对象是一种数据类型无序的数据的集合2.对象有什么特点?无序的数据的集合可以详细的描述描述某个事物对象的使用：用它保存多个数据1.对象声明语法let对象名={} let对象名=newObject()例如：//声明了一个person的对象letperson={}实际开发中，我们多用花括号。{}是对象字面量属性数据描述性的信息称为属性，如人的姓名、身高、年龄、性别等，一般是名词性
数组 + 函数 ..儒数据结构 javascript 前端
数组1.声明语法let数组名=[数据1，数据2，...，数据n]letarr=newArray[数据1，数据2，..数据]例letnames=['小明'，‘小刚'，‘小红'，‘小丽'，‘小米']数组是按顺序保存，所以每个数据都有自己的编号计算机中的编号从0开始，所以小明的编号为0，小刚编号为1，以此类推在数组中，数据的编号也叫索引或下标数组可以存储任意类型的数据2,数组的基本使用一些术语：元素：数
JS: 类型转换 + 运算符 + 循环 ..儒 javascript 开发语言 ecmascript
类型转换一，为什么需要类型转换JavaScript是弱数据类型：JavaScript也不知道变量到底属于那种数据类型，只有赋值了才清楚。坑：使用表单、prompt获取过来的数据默认是字符串类型的，此时就不能直接简单的进行加法运算。console.log（'1000e'+‘2000')//输出结果100002000此时需要转换变量的数据类型。通俗来说，就是把一种数据类型的变量转换成我们需要的数据类型
RoboVQA：机器人多模态长范围推理三谷秋水计算机视觉智能体大模型机器人人工智能机器学习计算机视觉深度学习语言模型
23年11月来自GoogleDeepmind的论文“RoboVQA:MultimodalLong-HorizonReasoningforRobotics”。本文提出一种可扩展、自下而上且本质多样化的数据收集方案，该方案可用于长期和中期的高级推理，与传统的狭窄自上而下的逐步收集相比，其吞吐量提高2.2倍。通过在3栋办公楼内执行任何用户请求并使用多种具身（机器人、人类、带抓取工具的人类）来收集真实数据
【C#实现手写Ollama服务交互，实现本地模型对话】吾与谁归in C#学习 WPF c#Ollama Deepseek 本地模型
前言C#手写Ollama服务交互，实现本地模型对话最近使用C#调用OllamaSharpe库实现Ollama本地对话，然后思考着能否自己实现这个功能。经过一番查找，和查看OllamaSharpe源码发现确实可以。其实就是开启Ollama服务后，发送HTTP请求，获取返回结果以及一些数据处理。基本流程1、启动Ollama服务进程。2、创建HttpClient对象。3、创建请求体（参数:模型名称、提示
深度学习PyTorch之数据加载DataLoader @Mr_LiuYang 计算机视觉基础深度学习 pytorch 人工智能
深度学习pytorch之简单方法自定义9类卷积即插即用文章目录数据加载基础架构1、Dataset类详解2、DataLoader核心参数解析3、数据增强数据加载基础架构核心类关系图torch.utils.data├──Dataset(抽象基类)├──DataLoader(数据加载器)├──Sampler(采样策略)├──BatchSampler(批量采样)└──IterableDataset(流式数
Web端测试时，接口返回200，页面有没显示，可能时什么原因？海姐软件测试测试工具面试职场和发展
需从系统架构、前后端交互、测试方法三个维度展开分析，结合具体场景给出可落地的排查方案：一、核心原因分析（按优先级排序）前端渲染异常JS脚本执行错误（如语法错误导致页面渲染中断）DOM元素未正确加载（XHR异步请求未完成时触发渲染）CSS样式冲突（display:none/visibility:hidden导致元素不可见）数据解析错误接口返回字段缺失（如缺少关键展示字段id）数据格式不符合预期（如字
接口测试中遇到的最大的困难是什么？Java接口测试中用到的框架有哪些？海姐软件测试接口测试测试工具
接口测试中的最大困难环境依赖与数据准备接口测试常依赖外部服务或数据库，测试环境不稳定（如第三方接口延迟）会导致测试结果不可靠。解决方案：使用Mock技术（如Mockito）模拟外部依赖，或通过Docker容器化测试环境，确保数据隔离。参数与逻辑复杂度复杂接口可能涉及多参数组合、加密签名（如Token、OAuth）或动态参数（如时间戳），手工构造请求容易出错。示例：电商接口需同时验证商品库存、用户优
模型上下文协议（MCP）：构建 AI 与数据交互的新范式 xxgshxs 人工智能 chatgpt prompt 文心一言 llama copilot
引言在人工智能领域，大型语言模型（LLMs）的应用正从通用问答向复杂任务执行演进，但数据孤岛、工具集成碎片化及隐私安全等问题制约了其潜力。模型上下文协议（ModelContextProtocol,MCP）作为Anthropic提出的开放标准，旨在通过标准化接口连接AI应用与异构数据源及工具，重塑AI开发范式。本文从技术架构、核心功能、应用场景等维度解析MCP的设计逻辑与实践价值。一、核心概念与设计
Hive在大数据集群下的部署正在绘制中大数据大数据 hive
hive安装1）把apache-hive-3.1.3-bin.tar.gz上传到Linux的/opt/software目录下2）解压apache-hive-3.1.3-bin.tar.gz到/opt/module/目录下面tar-zxvf/opt/software/apache-hive-3.1.3-bin.tar.gz-C/opt/module/3）修改apache-hive-3.1.3-bin
搭建分布式Hive集群逸曦玥泱大数据运维分布式 hive hadoop
title:搭建分布式Hive集群date:2024-11-2923:39:00categories:-服务器tags:-Hive-大数据搭建分布式Hive集群本次实验环境：Centos7-2009、Hadoop-3.1.4、JDK8、Zookeeper-3.6.3、Mysql-5.7.38、Hive-3.1.2功能规划方案一（本地运行模式）Master主节点（Mysql+Hive）192.168
黑马程序员-接口测试-四天学习接口测试-第二天-接口用例设计，测试点，功能测试，安全测试，性能测试，单接口测试，业务场景测试用例，postman简介，安装学习记录wanxiaowan postman 学习功能测试
今日学习目标分析接口文档，设计编写接口测试用例使用Postman设置请求方法、URL、请求头、请求体，向接口发送http请求，并查看响应数据分析接口文档，设计接口测试用例使用postman设置请求方法，url请求头，请求体，查看响应数据3接口用例设计为什么写防止测试点漏测。条理清晰方便分配工作，评估工作量和时间面试时使用！接口测试的测试点测试点称之为测试维度。5功能测试单接口功能：手工测试中的单个
Hadoop、Spark和 Hive 的详细关系夜行容忍 hadoop spark hive
Hadoop、Spark和Hive的详细关系1.ApacheHadoopHadoop是一个开源框架，用于分布式存储和处理大规模数据集。核心组件：HDFS(HadoopDistributedFileSystem)：分布式文件系统，提供高吞吐量的数据访问。YARN(YetAnotherResourceNegotiator)：集群资源管理和作业调度系统。MapReduce：基于YARN的并行处理框架，用
AI人工智能 Agent：电力系统中智能体的应用 AI天才研究院 AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AI人工智能Agent：电力系统中智能体的应用作者：禅与计算机程序设计艺术1.背景介绍1.1电力系统的挑战与机遇电力系统是现代社会运行的基石，其安全、可靠、高效运行对经济发展和人民生活至关重要。近年来，随着可再生能源的快速发展、电力需求的不断增长以及电力市场化的推进，电力系统面临着前所未有的挑战，同时也迎来了新的发展机遇。挑战：可再生能源的波动性和间歇性：太阳能和风能等可再生能源的输出功率受天气条
电力行业中的AMI系统小赖同学啊人工智能服务器网络运维
在电力行业中，AMI系统（AdvancedMeteringInfrastructure，高级计量基础设施）是一种集成了智能电表、通信网络和数据管理系统的现代化计量体系。AMI系统能够实现电力公司与用户之间的双向通信，提供实时用电数据，支持远程抄表、负荷管理、故障检测等功能，是智能电网的重要组成部分。以下是AMI系统的核心组成、功能、优势及其在电力行业中的应用：AMI系统的核心组成智能电表（Smar
Windows系统下解压".tar"文件出错，提示：无法创建符号链接，可能需要以管理器身份运行winrar ruangaoyan
1、解压文件出错，如下信息：D:\tools\hadoop-3.1.2.tar.gz:无法创建符号链接D:\tools\hadoop-3.1.2\hadoop-3.1.2\lib\native\libhadoop.so您可能需要以管理器身份运行WinRAR!客户端没有所需的特权。2、解决方式如下：WIN+R快捷的打开命令窗口，输入CMD输入：cd/dD:\tools\hadoop-3.1.2这是我
JavaScript面试宝典傻小胖 javascript 面试前端
1.JS由哪三部分组成？JavaScript由以下三部分组成：ECMAScript（ES）：JavaScript的核心语法，如变量、作用域、数据类型、函数、对象等。DOM（文档对象模型）：用于操作HTML和XML文档的API，可以动态修改网页内容、结构和样式。BOM（浏览器对象模型）：用于操作浏览器窗口和页面，例如window、navigator、location、history、screen等对
Elasticsearch（ES）详解：从入门到实践坚持蛊 elasticsearch jenkins 大数据
引言简介：Elasticsearch是一个基于Lucene的分布式搜索引擎，具有高效的全文搜索功能，广泛应用于日志分析、搜索引擎、实时数据处理等领域。本文目标：介绍Elasticsearch的基本概念、架构设计、配置优化、常见应用以及实际案例，帮助开发者掌握ES1.Elasticsearch概述Elasticsearch的背景和发展历程核心功能：全文检索、分布式搜索、实时数据分析主要应用场景：日志
卷积神经网络（笔记01）天行者@ cnn 人工智能深度学习
视觉处理三大任务：分类、目标检测、图像分割CNN网络主要有三部分构成：卷积层（ConvolutionalLayer）、池化层（PoolingLayer）和激活函数一、解释卷积层中的偏置项是什么，并讨论在神经网络中引入偏置项的好处。在卷积神经网络（CNN）的卷积层里，卷积操作本质上是输入数据与卷积核（滤波器）进行逐元素相乘再求和的过程。偏置项（Bias）是一个额外的可学习参数，对于每个卷积核而言，都
Spring WebFlux：响应式编程 m0_74825223 面试学习路线阿里巴巴 spring java 后端
在软件开发领域，随着互联网应用的规模和复杂性不断增加，传统的编程模型逐渐暴露出一些局限性，尤其是在面对高并发、大规模数据流处理等场景时。为了应对这些挑战，响应式编程（ReactiveProgramming）应运而生，它提供了一种更为高效、灵活的编程范式，以适应不断变化的系统需求。1.SpringWebFlux简介WebFlux提供了一个非阻塞、异步的Web框架，允许开发者构建高性能、可伸缩的Web
【Spring】_Spring事务与事务传播机制 _周游 Spring JavaEE 数据库 sql
目录1.创建项目、数据库及MyBatis配置1.1创建数据库及java实体类1.2使用yml配置MyBatis1.3对应三层架构开发2.Spring编程式事务2.1编写UserController类2.2接口测试2.23关于事务回滚与事务提交的日志3.Spring声明式事务3.1编写TransController类3.2接口测试3.3关于@Transactional实现事务回滚的情况3.3.1重新
设计模式介绍 tntxia 设计模式
设计模式来源于土木工程师克里斯托弗亚历山大（http://en.wikipedia.org/wiki/Christopher_Alexander）的早期作品。他经常发表一些作品，内容是总结他在解决设计问题方面的经验，以及这些知识与城市和建筑模式之间有何关联。有一天，亚历山大突然发现，重复使用这些模式可以让某些设计构造取得我们期望的最佳效果。亚历山大与萨拉-石川佳纯和穆雷西乐弗斯坦合作
android高级组件使用(一) 百合不是茶 android RatingBar Spinner
1、自动完成文本框（AutoCompleteTextView） AutoCompleteTextView从EditText派生出来，实际上也是一个文本编辑框，但它比普通编辑框多一个功能：当用户输入一个字符后，自动完成文本框会显示一个下拉菜单，供用户从中选择，当用户选择某个菜单项之后，AutoCompleteTextView按用户选择自动填写该文本框。使用AutoCompleteTex
[网络与通讯]路由器市场大有潜力可挖掘 comsci 网络
如果国内的电子厂商和计算机设备厂商觉得手机市场已经有点饱和了,那么可以考虑一下交换机和路由器市场的进入问题..... 这方面的技术和知识,目前处在一个开放型的状态,有利于各类小型电子企业进入 &nbs
自写简单Redis内存统计shell 商人shang Linux shell 统计Redis内存
#!/bin/bash address="192.168.150.128:6666,192.168.150.128:6666" hosts=(${address//,/ }) sfile="staticts.log" for hostitem in ${hosts[@]} do ipport=(${hostitem
单例模式(饿汉 vs懒汉) oloz 单例模式
package 单例模式; /* * 应用场景:保证在整个应用之中某个对象的实例只有一个 * 单例模式种的《懒汉模式》 * */ public class Singleton { //01 将构造方法私有化，外界就无法用new Singleton()的方式获得实例 private Singleton(){}; //02 申明类得唯一实例 priva
springMvc json支持杨白白 json springmvc
1.Spring mvc处理json需要使用jackson的类库，因此需要先引入jackson包 2在spring mvc中解析输入为json格式的数据:使用@RequestBody来设置输入 @RequestMapping("helloJson") public @ResponseBody JsonTest helloJson() {
android播放，掃描添加本地音頻文件小桔子
最近幾乎沒有什麽事情，繼續鼓搗我的小東西。想在項目中加入一個簡易的音樂播放器功能，就像華為p6桌面上那麼大小的音樂播放器。用過天天動聽或者QQ音樂播放器的人都知道，可已通過本地掃描添加歌曲。不知道他們是怎麼實現的，我覺得應該掃描設備上的所有文件，過濾出音頻文件，每個文件實例化為一個實體，記錄文件名、路徑、歌手、類型、大小等信息。具體算法思想，
oracle常用命令 aichenglong oracle dba 常用命令
1 创建临时表空间 create temporary tablespace user_temp tempfile 'D:\oracle\oradata\Oracle9i\user_temp.dbf' size 50m autoextend on next 50m maxsize 20480m extent management local
25个Eclipse插件 AILIKES eclipse插件
提高代码质量的插件1. FindBugsFindBugs可以帮你找到Java代码中的bug，它使用Lesser GNU Public License的自由软件许可。2. CheckstyleCheckstyle插件可以集成到Eclipse IDE中去，能确保Java代码遵循标准代码样式。3. ECLemmaECLemma是一款拥有Eclipse Public License许可的免费工具，它提供了
Spring MVC拦截器+注解方式实现防止表单重复提交 baalwolf spring mvc
原理：在新建页面中Session保存token随机码，当保存时验证，通过后删除，当再次点击保存时由于服务器端的Session中已经不存在了，所有无法验证通过。 1.新建注解： ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
《Javascript高级程序设计(第3版)》闭包理解 bijian1013 JavaScript
“闭包是指有权访问另一个函数作用域中的变量的函数。”--《Javascript高级程序设计(第3版)》看以下代码： <script type="text/javascript"> function outer() { var i = 10; return f
AngularJS Module类的方法 bijian1013 JavaScript AngularJS Module
AngularJS中的Module类负责定义应用如何启动，它还可以通过声明的方式定义应用中的各个片段。我们来看看它是如何实现这些功能的。一.Main方法在哪里如果你是从Java或者Python编程语言转过来的，那么你可能很想知道AngularJS里面的main方法在哪里？这个把所
[Maven学习笔记七]Maven插件和目标 bit1129 maven插件
插件(plugin)和目标(goal) Maven，就其本质而言，是一个插件执行框架，Maven的每个目标的执行逻辑都是由插件来完成的，一个插件可以有1个或者几个目标，比如maven-compiler-plugin插件包含compile和testCompile，即maven-compiler-plugin提供了源代码编译和测试源代码编译的两个目标使用插件和目标使得我们可以干预
【Hadoop八】Yarn的资源调度策略 bit1129 hadoop
1. Hadoop的三种调度策略 Hadoop提供了3中作业调用的策略， FIFO Scheduler Fair Scheduler Capacity Scheduler 以上三种调度算法，在Hadoop MR1中就引入了，在Yarn中对它们进行了改进和完善.Fair和Capacity Scheduler用于多用户共享的资源调度 2. 多用户资源共享的调度
Nginx使用Linux内存加速静态文件访问 ronin47
Nginx是一个非常出色的静态资源web服务器。如果你嫌它还不够快，可以把放在磁盘中的文件，映射到内存中，减少高并发下的磁盘IO。先做几个假设。nginx.conf中所配置站点的路径是/home/wwwroot/res，站点所对应文件原始存储路径：/opt/web/res shell脚本非常简单，思路就是拷贝资源文件到内存中，然后在把网站的静态文件链接指向到内存中即可。具体如下：
关于Unity3D中的Shader的知识 brotherlamp unity unity资料 unity教程 unity视频 unity自学
首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，然后我们来看下Unity3D自带的60多个S
CopyOnWriteArrayList vs ArrayList bylijinnan java
package com.ljn.base; import java.util.ArrayList; import java.util.Iterator; import java.util.List; import java.util.concurrent.CopyOnWriteArrayList; /** * 总述： * 1.ArrayListi不是线程安全的，CopyO
内存中栈和堆的区别 chicony 内存
1、内存分配方面：堆：一般由程序员分配释放，若程序员不释放，程序结束时可能由OS回收。注意它与数据结构中的堆是两回事，分配方式是类似于链表。可能用到的关键字如下：new、malloc、delete、free等等。栈：由编译器(Compiler)自动分配释放，存放函数的参数值，局部变量的值等。其操作方式类似于数据结构中
回答一位网友对Scala的提问 chenchao051 scala map
本来准备在私信里直接回复了，但是发现不太方便，就简要回答在这里。问题写道对于scala的简洁十分佩服，但又觉得比较晦涩，例如一例，Map("a" -> List(11,111)).flatMap(_._2)，可否说下最后那个函数做了什么，真正在开发的时候也会如此简洁？谢谢先回答一点，在实际使用中，Scala毫无疑问就是这么简单。
mysql 取每组前几条记录 daizj mysql 分组最大值最小值每组三条记录
一、对分组的记录取前N条记录：例如：取每组的前3条最大的记录 1.用子查询： SELECT * FROM tableName a WHERE 3> (SELECT COUNT(*) FROM tableName b WHERE b.id=a.id AND b.cnt>a. cnt) ORDER BY a.id,a.account DE
HTTP深入浅出 http请求 dcj3sjt126com http
HTTP(HyperText Transfer Protocol)是一套计算机通过网络进行通信的规则。计算机专家设计出HTTP，使HTTP客户（如Web浏览器）能够从HTTP服务器(Web服务器)请求信息和服务，HTTP目前协议的版本是1.1.HTTP是一种无状态的协议，无状态是指Web浏览器和Web服务器之间不需要建立持久的连接，这意味着当一个客户端向服务器端发出请求，然后We
判断MySQL记录是否存在方法比较 dcj3sjt126com mysql
把数据写入到数据库的时，常常会碰到先要检测要插入的记录是否存在，然后决定是否要写入。　　我这里总结了判断记录是否存在的常用方法：　　sql语句： select count ( * ) from tablename; 　　然后读取count(*)的值判断记录是否存在。对于这种方法性能上有些浪费，我们只是想判断记录记录是否存在，没有必要全部都查出来。
对HTML XML的一点认识 e200702084 html xml
感谢http://www.w3school.com.cn提供的资料 HTML 文档中的每个成分都是一个节点。节点根据 DOM，HTML 文档中的每个成分都是一个节点。 DOM 是这样规定的：整个文档是一个文档节点每个 HTML 标签是一个元素节点包含在 HTML 元素中的文本是文本节点每一个 HTML 属性是一个属性节点注释属于注释节点 Node 层次
jquery分页插件 genaiwei jquery Web 前端分页插件
//jquery页码控件// 创建一个闭包 (function($) { // 插件的定义 $.fn.pageTool = function(options) { var totalPa
Mybatis与Ibatis对照入门于学习 Josh_Persistence mybatis ibatis 区别联系
一、为什么使用IBatis/Mybatis 对于从事 Java EE 的开发人员来说，iBatis 是一个再熟悉不过的持久层框架了，在 Hibernate、JPA 这样的一站式对象 / 关系映射（O/R Mapping）解决方案盛行之前，iBaits 基本是持久层框架的不二选择。即使在持久层框架层出不穷的今天，iBatis 凭借着易学易用、
C中怎样合理决定使用那种整数类型？秋风扫落叶 c 数据类型
如果需要大数值(大于32767或小于32767), 使用long 型。否则, 如果空间很重要 (如有大数组或很多结构), 使用 short 型。除此之外, 就使用 int 型。如果严格定义的溢出特征很重要而负值无关紧要, 或者你希望在操作二进制位和字节时避免符号扩展的问题, 请使用对应的无符号类型。但是, 要注意在表达式中混用有符号和无符号值的情况。 &nbs
maven问题 zhb8015 maven问题
问题1： Eclipse 中新建maven项目无法添加src/main/java 问题 eclipse创建maevn web项目，在选择maven_archetype_web原型后，默认只有src/main/resources这个Source Floder。按照maven目录结构，添加src/main/ja
(二)androidpn-server tomcat版源码解析之--push消息处理 spjich java androdipn 推送
在 (一)androidpn-server tomcat版源码解析之--项目启动这篇中，已经描述了整个推送服务器的启动过程，并且把握到了消息的入口即XmppIoHandler这个类，今天我将继续往下分析下面的核心代码，主要分为3大块，链接创建，消息的发送，链接关闭。先贴一段XmppIoHandler的部分代码 /** * Invoked from an I/O proc
用js中的formData类型解决ajax提交表单时文件不能被serialize方法序列化的问题中华好儿孙 JavaScript Ajax Web 上传文件 FormData
var formData = new FormData($("#inputFileForm")[0]); $.ajax({ type:'post', url:webRoot+"/electronicContractUrl/webapp/uploadfile", data:formData, async: false, ca
mybatis常用jdbcType数据类型 ysj5125094 mybatis mapper jdbcType
MyBatis 通过包含的jdbcType 类型 BIT FLOAT CHAR