Ackarlix

基于Java的高性能网络机器人的研究

基于Java的高性能网络机器人的研究

整理：Ackarlix

摘要：高性能网络机器人是新一代 Web智能搜索引擎的核心，网络机器人是否高效直接影响搜索引擎的效能的发挥。对开发高性能网络机器人所涉及的关键技术和算法进行了详细地分析。最后，给出了程序的关键类，有助于工程的实际应用和开发。

关键字： Web ;搜索引擎;网络机器人;Java

中图分类号： TP393 文献标识码：A

Research on the High-Performance Robot Based on Java

CHEN Jin-Yang,JIANG Jian-Zhong, GUO Jun-Li

(Institute of Information Engineering,Information Engineering University,Zhengzhou　 450002)

Abstract:The high-performance robot is the core of the new Web intelligence search engine.The efficiency of the robot will directly influence the overall efficiency of the search engine.The key techniques and algorithm are mainly described.In the end,the key classes of the program based on Java are pointed out.It helps to the engineering applying and development.

Key words: Web;search engine;robot ;Java

1. 高性能网络机器人程序的研究意义

Web搜索引擎技术是当今网络信息处理领域的一个热点和难点。 Web可以看作是一个庞大的分布式网络数据库，对于这样一个信息量飞速增长的数据库，如果人工地去检索和分类整个Web将是一项非常巨大的工程，因此在搜索引擎技术中我们必须采用网络机器人在完成这项任务，我们研究的网络机器人程序就是这么一种专业化的能高效地扫描Web站点并检索其内容的程序。

网络机器人程序是 Web搜索引擎技术中关键的一部分，一般的搜索引擎由网络机器人、索引器、检索器和用户接口、Internet网络等五部分组成，简单地说，网络机器人程序的功能就是在Web上自动地搜索采集网页。但是随着用户需求的不断提高，目前基于关键字查询的搜索引擎已经不能满足用户对搜索结果要求更准、搜索范围更大的需求。因此新一代的智能搜索引擎要求网络机器人程序具有更高的性能，能够更快更新网页、更广搜索网页，所以研究高性能的网络机器人程序对搜索引擎的发展具有直接的现实意义和重要的学术价值。

2. Java套接字编程

网络是一个客户与服务器的世界，在网络上的几乎所有程序都是在处理客户进程和服务器进程之间的对话，我们所研究的网络机器人程序是浏览 Internet的客户/服务器的程序。想到Interne会自然的想到Web,Web是一种建立在HTTP之上的协议，而HTTP又是建立在TCP/IP之上的协议，它同时也一种套接字协议，因此我们可以这样说，Internet的实质就是采用套接字连接TCP/IP协议的网络。

Java有非常简单的套接字编程， Java定义了两个类：Socket和ServerSccket，它们是利用Java进行网络编程的重要类。如果编写的程序是扮演服务器的角色，就应该采用ServerSocket类；如果程序是连接到服务器的那么他扮演的是客户端的角色，我们应该使用Socket类，我们研究的网络机器人程序扮演的就是客户端的角色。

3关键技术的研究

网络机器人程序的工作是异常繁重的，好像永远都不会结束，网络机器人一边访问网页，一边又要查找下一步要访问的网页，访问了一个站点以后，仍然会有其它站点加入队列中，网络机器人程序的作业是按指数级增长的，所以对于大型的智能搜索引擎来说，提高网络机器人程序的效率是非常重要的，以下是开发高性能的网络机器人程序不可或缺的技术。

3.1多线程技术

对于一个程序员来说，要掌握多线程的编程技术确实有些难度，但更难的是，要确定什么时候需要用到多线程技术、怎么划分线程。多线程是一个应用程序在同一时刻运行超过一个任务的能力，多线程是发生在一个应用程序内部的，它们使用同一内存空间，所以一个进程的所有线程可以很容易地共享全局数据和资源。

网络机器人程序需要下载数十个甚至成百上千的网页，如果我们采用单线程来完成这一任务，效率是十分低的，程序的瓶颈就在于网络机器人程序在向服务器发出下载网页的请求后必须等待服务器的响应，可想而知，单线程技术需要一个接一个地去等待服务器的对请求的响应，等待时间将是对每一个网页请求等待响应的时间累加。

网络机器人程序必须采用多线程技术，多线程技术允许对成百上千的网页的等待时间结合在一起，众多的线程让网络机器人程序能同时等待大量的网页，而不是让它们一个接一个的执行。

3.2数据库技术

网络机器人程序必须跟踪它所遇到的每一个 URL(Uniform Resource Locator),对这个URL列表的管理就是网络机器人程序的作业管理，作业管理对于一个高效的网络机器人程序是非常重要的，这是因为网络机器人程序必须跟踪所访问的上千个网页的数据。

网络机器人程序的作业管理通常采用两种方法：一种是基于内存的队列管理，另一种是基于 SQL（Structured Query Language）数据库的队列管理。如果网络机器人程序访问大型的Web服务器时，利用基于内存来存储和管理大型站点的列表，就会显得速度很慢，消耗计算机资源越来越多，最终导致网络机器人的工作效率大大下降。所以管理和维护大型的Web站点的网页列表必须采用基于SQL的数据库队列管理机制。利用DBMS(Database Management System)管理大型的网页列表能大大缓解内存的使用，提高网络机器人程序的运行效率。

3.3数据库访问技术

网络机器人程序采用基于 SQL的数据库队列管理机制，必须有相应的数据库访问技术。Java为我们提供一组成为JDBC(Java Database Connectivity,Java数据库互连)的类来访问DBMS.JDBC的用途是允许向数据库发送SQL语句，从而让你指定希望从数据库返回的数据。在Java中，有四种类型的数据库驱动程序可以使JDBC有效的访问数据库，它们分别是JDBC-ODBC桥，部分Java和部分本机驱动程序，中间数据访问服务器以及纯Java驱动程序。

将多线程技术、数据库技术和 JDBC这些技术有效的结合在一起，我们就能创建高性能的网络机器人程序。

4设计思想与算法分析

4.1网页的链接类型

网络机器人程序在遍历 Internet时，必须从一个网页搜索到另一个网页，为了达到这个目的，网络机器人程序必须能够找到保存在它所访问的每个网页上的链接。网络机器人程序通过分析网页的HTML代码查找网页内所有链接到其它网页的标签，根据标签的属性HREF(Hypertext Reference，超文本链接)的值，网络机器人程序将会遇到三种链接类型：内部链接（Internal link）、外部链接(External link)和其它连接(other link)。内部链接指的是超链接所指向的网页与包含该链接的网页在同一台Web服务器中；外部链接指的是超链接所指向的网页所在的Web站点与包含该链接的Web站点不同；其它链接指的是超链接指向非网页的资源，如指向E-mail地址等。

4.2程序的设计思想

开发和设计网络机器人程序有两种思想可以选择：一种就是将程序设计为递归的程序；另一种就是将程序设计为非递归的程序。采用递归设计的程序思路清晰简单，但存在两个主要的问题：第一问题就是如果程序要运行很多次，被压入递归的堆栈会变得非常大，它可能会耗尽整个堆栈的内存并终止程序的运行；第二问题就是多线程技术与递归技术不能兼容。所以开发高性能的网络机器人程序不能采用递归的程序设计思想。

我们研究的高性能网络机器人采用的是非递归程序设计思想，当使用非递归的方法时，先给定网络机器人一个要访问的网页集合，它会把这一集合加到它将要访问站点的队列中去。网络机器人发现每个新的网页时不使用调用自身的方法，而是将新发现的链接加入到该队列中。当网络机器人处理完当前的网页后，它会在队列中查找要处理的下一页。

实际工作的时候网络机器人总共使用了四个队列，每个这样的队列保存着同一处理状态的 URL,它们如下：

等待队列：在这个队列中， URL等待被网络机器人处理。新发现的URL被加入到这个队列。

处理队列：当网络机器人开始处理时，它们被传送到这个队列。当一个 URL被处理后，它被移送到错误队列或者完成队列中。

错误队列：如果在处理该网页时发生了错误，它的 URL将被加入到错误队列中。网络机器人将不会对加入到错误队列的网页做进一步地处理。

完成队列：如果在下载网页时没有发生错误，该 URL将被加入到完成队列中。加入到完成队列中的URL将不会再移入其他队列中。

URL处理状态流程图：

4.3算法分析

我们的算法设计主要就是依据非递归的思想构造的，当一个 URL被加入到等待队列中时，网络机器人就会开始运行。只要等待队列中有一个网页或网络机器人正在处理一个网页，网络机器人就会继续它的工作。当等待队列为空并且当前没有处理任何网页，网络机器人就会停止它的工作。基本的算法如下所示：

Initialize URLS;//用一个 URL集合初始化网络机器人。

Queue enum{WaitQ,FinishQ,RunQ,MistakeQ};//队列类型：等待、完成、处理、错误队列。

FileText;

LinkType enum{InternalLink,ExternalLink,OtherLink};//超链类型：内部、外部、其他链接。

Begin

For url in URLS Do

PopQueue(url,WaitQ);//初始化 URL集合被加入到等待队列中。

While WaitQ is not empty Do//判断等待队列是否有 URL.。

Begin

url=PushQueue(WaitQ);//从等待队列中取出 URL。

While RunQ is not empty Do//判断处理队列是否有 URL。

Document=PopQueue(url,RunQ,LinkType);

SaveFileText(Document,FileText);//下载并保存处理队列中 URL对应的网页。

If Extract(NewURLS) from Document is not Null//从下载的网页中找新的链接。

Begin

For url in NewURLS Do

Begin

If url is not in FinishQ Then//如完成队列中没有 URL。

If url linktype is EnternalLink Then//如链接是外部链接。

PopQueue(url,WaitQ,LinkType);//将外部链接加入到等待队列中。

Else

PopQueue(url,RunQ,LinkType);//否则将链接加入到处理队列中。

End;

PopQueue(url,FinishQ,LinkType) ;

End While;

End;

5.程序的实现

网络机器人程序是通过 Java语言编写的，Java是面向对象的编程语言，将各个模块的主要功能封装在相对独立的类中，并通过接口函数将它们有效地连接起来，形成一个完整的系统。这种结构可以方便地引入新的方法改善和提高系统的功能，也可以建立新的类扩充其系统的功能。

下面给出实现系统的几个关键类：

Robot类―――网络机器人主要通过 Robot类来实现的，这个类包含很多起接口作用的方法，

主要完成控制 Robot运行，组织和管理所访问过的和将要访问的站点列表。

主要的方法有：

synchronized public void addWorkload(String url);//向作业管理器添加一个作业。

synchronized public void getWorkload(String url);//从作业管理器获得一个作业。

synchronized public Boolean foundInternalLink(String url);//发现内部链接并处理。

synchronized public Boolean foundExternalLink(String url);//发现外部链接并处理。

synchronized public Boolean foundOtherLink(String url);//发现其它链接并处理。

synchronized public void processPage(HTTP page);//用于处理网页，是网络机器人所要完成的实际工作。

synchronized public void robotComplete();//当网络机器人没有工作时调用。

public void setMaxBody(int mx);//设置要下载的正文大小。

public void getMaxBody(int mx);//返回要下载的正文大小。

public void run();//启动机器人进程。

public void halt();//停止机器人运行。

RobotSQLWorkload类―――是网络机器人的作业管理器，可以将作业存储在 SQL数据库中，通过使用SQL数据库，作业管理器可以处理大型的站点，也是实现高性能网络机器人重要的类。

主要方法：

synchronized public String assignWorkload();//从等待队列中请求一个 URL送入处理队列中。

synchronized public void addWorkload(String url);//将一个新的 URL送入等待队列。

synchronized public void completeWorkload(String url,Boolean error);//决定送入完成队列还是错误队列。

protected void setStatus(Sting url,char status);//设置 URL的状态：等待、运行、完成、错误。

synchronized public char getURLStatus(String url);//返回 URL的状态类型。

synchronized public void clear();//清除作业管理器的存储。

RobotWorker类―――－高性能的网络机器人应该是多线程的，把任务分成许多小任务，必须有一种方法在不同的线程间分配任务，工作的基本单元就是 RobotWorker类对象。

主要方法：

public Boolean isBusy();//返回线程的对象的状态是忙还是空闲。

public void run();//线程处于空闲则等待作业管理器分配一个作业，并通知此线程忙。

protected void processWorkload();//处理作业管理器中的作业。

public HTTP getHTTP();

6.小结

开发高性能的网络机器人对于提高 Web搜索引擎的整体性能起着至关重要的作用，也是研究和开发新一代的智能搜索引擎必然要求，本文研究了开发高性能网络机器人所涉及的不可或缺的关键技术、程序设计思想与算法，并对实现程序功能的一些关键类进行了详细地分析。这些对于开发相应的自主产权的Web智能搜索引擎都具有一定的参考和借鉴价值。利用概念词库建立智能更高的网络机器人能更好的提高查全率，这是我们今后的主要研究方向之一。

参考文献

1． Zhang W F,Xu B W,and Yang H J,Learning Users，Interest for Web Pre-Fetching,Proceedings of IEEE 4th

International W orkshop on Web Site Evolution (WSE2002), MONTRAL,Canada,October2,2002

2． Heaton J. Programming Spiders,Bots and Aggregators in Java.http://www.jeffheaton.com.2004.

3． Jeff Heaton[美]，董兆丰译，网络机器人JAVA编程指南〔M〕，北京电子工业出版社，2002,238-252.

4．佟晓筠等，面向主题的智能机器人ROBOT研究与实现〔J〕，电子与信息学报，25卷2003。

5．杜亚军等，爬行虫算法设计与程序实现〔J〕，计算机应用，24卷2004。

Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
Linux下QT开发的动态库界面弹出操作（SDL2） 13jjyao QT类 qt 开发语言 sdl2 linux
需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
Google earth studio 简介陟彼高冈yu 旅游
GoogleEarthStudio是一个基于Web的动画工具，专为创作使用GoogleEarth数据的动画和视频而设计。它利用了GoogleEarth强大的三维地图和卫星影像数据库，使用户能够轻松地创建逼真的地球动画、航拍视频和动态地图可视化。网址为https://www.google.com/earth/studio/。GoogleEarthStudio是一个基于Web的动画工具，专为创作使用G
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
关于提高复杂业务逻辑代码可读性的思考编程经验分享开发经验 java 数据库开发语言
目录前言需求场景常规写法拆分方法领域对象总结前言实际工作中大部分时间都是在写业务逻辑，一般都是三层架构，表示层（Controller）接收客户端请求，并对入参做检验，业务逻辑层（Service）负责处理业务逻辑，一般开发都是在这一层中写具体的业务逻辑。数据访问层（Dao）是直接和数据库交互的，用于查数据给业务逻辑层，或者是将业务逻辑层处理后的数据写入数据库。简单的增删改查接口不用多说，基本上写好一
SQL Server_查询某一数据库中的所有表的内容 qq_42772833 SQL Server 数据库 sqlserver
1.查看所有表的表名要列出CrabFarmDB数据库中的所有表（名），可以使用以下SQL语句：USECrabFarmDB;--切换到目标数据库GOSELECTTABLE_NAMEFROMINFORMATION_SCHEMA.TABLESWHERETABLE_TYPE='BASETABLE';对这段SQL脚本的解释：SELECTTABLE_NAME：这个语句的作用是从查询结果中选择TABLE_NAM
Git常用命令－修改远程仓库地址猿大师 Linux Java git java
查看远程仓库地址gitremote-v返回结果originhttps://git.coding.net/＊＊＊＊＊.git(fetch)originhttps://git.coding.net/＊＊＊＊＊.git(push)修改远程仓库地址gitremoteset-urloriginhttps://git.coding.net/＊＊＊＊＊.git先删除后增加远程仓库地址gitremotermori
DIV+CSS+JavaScript技术制作网页（旅游主题网页设计与制作）云南大理 STU学生网页设计网页设计期末网页作业 html静态网页 html5期末大作业网页设计 web大作业
️精彩专栏推荐作者主页:【进入主页—获取更多源码】web前端期末大作业：【HTML5网页期末作业(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】文章目录二、网站介绍三、网站效果▶️1.视频演示2.图片演示四、网站代码HTML结构代码CSS样式代码五、更多源码二、网站介绍网站布局方面：计划采用目前主流的、能兼容各大主流浏览器、显示效果稳定的浮动网页布局结构。网站程
【华为OD机试真题2023B卷 JAVA&JS】We Are A Team 若博豆 java 算法华为 javascript
华为OD2023（B卷）机试题库全覆盖，刷题指南点这里WeAreATeam时间限制：1秒|内存限制：32768K|语言限制：不限题目描述：总共有n个人在机房，每个人有一个标号（1<=标号<=n），他们分成了多个团队，需要你根据收到的m条消息判定指定的两个人是否在一个团队中，具体的：1、消息构成为：abc，整数a、b分别代
2023-04-17|篮球女孩长一木
1小学抑或初中阶段，在课外书了解到她的故事。“篮球女孩”。当时佩服她的顽强，也对生命多了一丝敬畏。今天刚好在公众号看到，长大后的“篮球女孩”。佩服之余又满是心疼。网络侵删祝那素未蒙面的女孩，未来一切顺遂。
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
在一台Ubuntu计算机上构建Hyperledger Fabric网络落叶无声9 区块链超级账本 Hyperledger fabric 区块链 ubuntu 构建 hyperledger fabric
在一台Ubuntu计算机上构建HyperledgerFabric网络Hyperledgerfabric是一个开源的区块链应用程序平台，为开发基于区块链的应用程序提供了一个起点。当我们提到HyperledgerFabric网络时，我们指的是使用HyperledgerFabric的正在运行的系统。即使只使用最少数量的组件，部署Fabric网络也不是一件容易的事。Fabric社区创建了一个名为Cello
关于城市旅游的HTML网页设计——(旅游风景云南 5页)HTML+CSS+JavaScript 二挡起步 web前端期末大作业 javascript html css 旅游风景
⛵源码获取文末联系✈Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业|游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作|HTML期末大学生网页设计作业，Web大学生网页HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScrip
HTML网页设计制作大作业（div+css）云南我的家乡旅游景点带文字滚动二挡起步 web前端期末大作业 web设计网页规划与设计 html css javascript dreamweaver 前端
Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作HTML期末大学生网页设计作业HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScript：做与用户的交互行为文章目录前端学习路线
MongoDB Oplog 窗口喝醉酒的小白 MongoDB 运维
在MongoDB中，oplog（操作日志）是一个特殊的日志系统，用于记录对数据库的所有写操作。oplog允许副本集成员（通常是从节点）应用主节点上已经执行的操作，从而保持数据的一致性。它是MongoDB副本集实现数据复制的基础。MongoDBOplog窗口oplog窗口是指在MongoDB副本集中，从节点可以用来同步数据的时间范围。这个窗口通常由以下因素决定：Oplog大小：oplog的大小是有限
webpack图片等资源的处理 dmengmeng
需要的loaderfile-loader（让我们可以引入这些资源文件）url-loader（其实是file-loader的二次封装）img-loader（处理图片所需要的）在没有使用任何处理图片的loader之前，比如说css中用到了背景图片，那么最后打包会报错的，因为他没办法处理图片。其实你只想能够使用图片的话。只加一个file-loader就可以，打开网页能准确看到图片。{test:/\.(p
node.js学习小猿L node.js node.js 学习 vim
node.js学习实操及笔记温故node.js，node.js学习实操过程及笔记~node.js学习视频node.js官网node.js中文网实操笔记githubcsdn笔记为什么学node.js可以让别人访问我们编写的网页为后续的框架学习打下基础，三大框架vuereactangular离不开node.jsnode.js是什么官网：node.js是一个开源的、跨平台的运行JavaScript的运行
【华为OD技术面试真题 - 技术面】-测试八股文真题题库（1）算法大师华为od 面试 python 算法前端
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.黑盒测试和白盒测试的区别2.假设我们公司现在开发一个类似于微信的软件1.0版本，现在要你测试这个功能：打开聊天窗口，输入文本，限制字数在200字以内。问你怎么提取测试点。功能测试性能测试安全性测试可用性测试跨平台兼容性测试网络环境测试3.接口测试的工具你了解哪些
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
【PG】常见数据库、表属性设置江无羡数据库
PG的常见属性配置方法数据库复制、备份相关表的复制标识单表操作批量表操作链接数据库复制、备份相关表的复制标识单表操作通过ALTER语句单独更改一张表的复制标识。ALTERTABLE[tablename]REPLICAIDENTITYFULL;批量表操作通过代码块的方式，对某个schema中的所有表一起更新其复制标识。SELECTtablename,CASErelreplidentWHEN'd'TH
《在战“疫”中成长致敬生活》观后感梅子刘的刀
（作者：周晨）今天上午，我看了“我是接班人”网络大课堂《在战役中成长致敬生活》。有很多人拿出自己攒下的钱，默默地捐给了武汉，有几千块钱的、有几万块钱的，也有十几万块钱的。连小朋友也把自己的压岁钱捐给了武汉。有名环卫工人把自己五年的积蓄全部捐给了武汉。有名外卖小哥为医护人员买鞋子送吃的。还有已经治愈出院的新型肺炎病人捐了400毫升的血浆。还有位叫大树的叔叔，虽然他没有钱，但是他地里有蔬菜，捐了几大卡
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
Java 重写(Override)与重载(Overload) 叨唧唧的
Java重写(Override)与重载(Overload)重写(Override)重写是子类对父类的允许访问的方法的实现过程进行重新编写,返回值和形参都不能改变。即外壳不变，核心重写！重写的好处在于子类可以根据需要，定义特定于自己的行为。也就是说子类能够根据需要实现父类的方法。重写方法不能抛出新的检查异常或者比被重写方法申明更加宽泛的异常。例如：父类的一个方法申明了一个检查异常IOExceptio
中原焦点团队网络初中级30期阴丽丽坚持分享第三百八十八次2022.10.18分享约练次数（74）咨询师（6）来访者（53）观察者（15）阴丽丽
今天是忙碌的一天，一早起来，总想着找点把事情弄完，可总也弄不完。就这样弄着吧！孩子的事，自己的事都在那里搁置着，不想做，有点欧！今天总体还不错，只是在下午起床时走神了俩小时，也算是给自己的放松吧！今日难得1.儿子乖巧、听话，努力配合，一天下来也是忙忙碌碌，这真的很难得！2.儿子今天录的视频被班主任认可，这真的很难得3.我今天早上做核酸时，自己把教案整了一下，这真的很难得
网络编程基础记得开心一点啊网络
目录♫什么是网络编程♫Socket套接字♪什么是Socket套接字♪数据报套接字♪流套接字♫数据报套接字通信模型♪数据报套接字通讯模型♪DatagramSocket♪DatagramPacket♪实现UDP的服务端代码♪实现UDP的客户端代码♫流套接字通信模型♪流套接字通讯模型♪ServerSocket♪Socket♪实现TCP的服务端代码♪实现TCP的客户端代码♫什么是网络编程网络编程，指网络上
简单了解 JVM 记得开心一点啊 jvm
目录♫什么是JVM♫JVM的运行流程♫JVM运行时数据区♪虚拟机栈♪本地方法栈♪堆♪程序计数器♪方法区/元数据区♫类加载的过程♫双亲委派模型♫垃圾回收机制♫什么是JVMJVM是JavaVirtualMachine的简称，意为Java虚拟机。虚拟机是指通过软件模拟的具有完整硬件功能的、运行在一个完全隔离的环境中的完整计算机系统（如：JVM、VMwave、VirtualBox）。JVM和其他两个虚拟机
关于Mysql 中 Row size too large (＞ 8126) 错误的解决和理解秋刀prince mysql mysql 数据库
提示：啰嗦一嘴，数据库的任何操作和验证前，一定要记得先备份！！！不会有错；文章目录问题发现一、问题导致的可能原因1、页大小2、行格式2.1compact格式2.2Redundant格式2.3Dynamic格式2.4Compressed格式3、BLOB和TEXT列二、解决办法1、修改页大小（不推荐）2、修改行格式3、修改数据类型为BLOB和TEXT列4、其他优化方式（可以参考使用）4.1合理设置数据
1分钟解决 -bash: mvn: command not found，在Centos 7中安装Maven Energet!c 开发语言
1分钟解决-bash:mvn:commandnotfound，在Centos7中安装Maven检查Java环境1下载Maven2解压Maven3配置环境变量4验证安装5常见问题与注意事项6总结检查Java环境Maven依赖Java环境，请确保系统已经安装了Java并配置了环境变量。可以通过以下命令检查：java-version如果未安装，请先安装Java。1下载Maven从官网下载：前往Apach
tomcat基础与部署发布暗黑小菠萝 Tomcat java web
从51cto搬家了，以后会更新在这里方便自己查看。做项目一直用tomcat，都是配置到eclipse中使用，这几天有时间整理一下使用心得，有一些自己配置遇到的细节问题。 Tomcat：一个Servlets和JSP页面的容器，以提供网站服务。一、Tomcat安装安装方式：①运行.exe安装包 &n
网站架构发展的过程 ayaoxinchao 数据库应用服务器网站架构
1.初始阶段网站架构：应用程序、数据库、文件等资源在同一个服务器上 2.应用服务和数据服务分离：应用服务器、数据库服务器、文件服务器 3.使用缓存改善网站性能：为应用服务器提供本地缓存，但受限于应用服务器的内存容量，可以使用专门的缓存服务器，提供分布式缓存服务器架构 4.使用应用服务器集群改善网站的并发处理能力：使用负载均衡调度服务器，将来自客户端浏览器的访问请求分发到应用服务器集群中的任何
[信息与安全]数据库的备份问题 comsci 数据库
如果你们建设的信息系统是采用中心-分支的模式,那么这里有一个问题如果你的数据来自中心数据库,那么中心数据库如果出现故障,你的分支机构的数据如何保证安全呢? 是否应该在这种信息系统结构的基础上进行改造,容许分支机构的信息系统也备份一个中心数据库的文件呢? &n
使用maven tomcat plugin插件debug关联源代码商人shang maven debug 查看源码 tomcat-plugin
*首先需要配置好'''maven-tomcat7-plugin'''，参见[[Maven开发Web项目]]的'''Tomcat'''部分。 *配置好后，在[[Eclipse]]中打开'''Debug Configurations'''界面，在'''Maven Build'''项下新建当前工程的调试。在'''Main'''选项卡中点击'''Browse Workspace...'''选择需要开发的
大访问量高并发 oloz 大访问量高并发
大访问量高并发的网站主要压力还是在于数据库的操作上，尽量避免频繁的请求数据库。下面简要列出几点解决方案： 01、优化你的代码和查询语句，合理使用索引 02、使用缓存技术例如memcache、ecache将不经常变化的数据放入缓存之中 03、采用服务器集群、负载均衡分担大访问量高并发压力 04、数据读写分离 05、合理选用框架，合理架构(推荐分布式架构)。
cache 服务器小猪猪08 cache
Cache 即高速缓存.那么cache是怎么样提高系统性能与运行速度呢？是不是在任何情况下用cache都能提高性能？是不是cache用的越多就越好呢？我在近期开发的项目中有所体会，写下来当作总结也希望能跟大家一起探讨探讨，有错误的地方希望大家批评指正。　　1.Cache 是怎么样工作的? 　　Cache 是分配在服务器上
mysql存储过程香水浓 mysql
Description:插入大量测试数据 use xmpl; drop procedure if exists mockup_test_data_sp; create procedure mockup_test_data_sp( in number_of_records int ) begin declare cnt int; declare name varch
CSS的class、id、css文件名的常用命名规则 agevs JavaScript UI 框架 Ajax css
CSS的class、id、css文件名的常用命名规则 (一)常用的CSS命名规则　　头：header 　　内容：content/container 　　尾：footer 　　导航：nav 　　侧栏：sidebar 　　栏目：column 　　页面外围控制整体布局宽度：wrapper 　　左右中：left right
全局数据源 AILIKES java tomcat mysql jdbc JNDI
实验目的：为了研究两个项目同时访问一个全局数据源的时候是创建了一个数据源对象，还是创建了两个数据源对象。 1：将diuid和mysql驱动包（druid-1.0.2.jar和mysql-connector-java-5.1.15.jar）copy至%TOMCAT_HOME%/lib下；2：配置数据源，将JNDI在%TOMCAT_HOME%/conf/context.xml中配置好,格式如下：&l
MYSQL的随机查询的实现方法 baalwolf mysql
MYSQL的随机抽取实现方法。举个例子，要从tablename表中随机提取一条记录，大家一般的写法就是：SELECT * FROM tablename ORDER BY RAND() LIMIT 1。但是，后来我查了一下MYSQL的官方手册，里面针对RAND()的提示大概意思就是，在ORDER BY从句里面不能使用RAND()函数，因为这样会导致数据列被多次扫描。但是在MYSQL 3.23版本中，
JAVA的getBytes()方法 bijian1013 java eclipse unix OS
在Java中，String的getBytes()方法是得到一个操作系统默认的编码格式的字节数组。这个表示在不同OS下，返回的东西不一样！ String.getBytes(String decode)方法会根据指定的decode编码返回某字符串在该编码下的byte数组表示，如： byte[] b_gbk = "
AngularJS中操作Cookies bijian1013 JavaScript AngularJS Cookies
如果你的应用足够大、足够复杂，那么你很快就会遇到这样一咱种情况：你需要在客户端存储一些状态信息，这些状态信息是跨session(会话)的。你可能还记得利用document.cookie接口直接操作纯文本cookie的痛苦经历。幸运的是，这种方式已经一去不复返了，在所有现代浏览器中几乎
[Maven学习笔记五]Maven聚合和继承特性 bit1129 maven
Maven聚合在实际的项目中，一个项目通常会划分为多个模块，为了说明问题，以用户登陆这个小web应用为例。通常一个web应用分为三个模块： 1. 模型和数据持久化层user-core, 2. 业务逻辑层user-service以 3. web展现层user-web， user-service依赖于user-core user-web依赖于user-core和use
【JVM七】JVM知识点总结 bit1129 jvm
1. JVM运行模式 1.1 JVM运行时分为-server和-client两种模式，在32位机器上只有client模式的JVM。通常，64位的JVM默认都是使用server模式，因为server模式的JVM虽然启动慢点，但是，在运行过程，JVM会尽可能的进行优化 1.2 JVM分为三种字节码解释执行方式：mixed mode, interpret mode以及compiler
linux下查看nginx、apache、mysql、php的编译参数 ronin47
在linux平台下的应用，最流行的莫过于nginx、apache、mysql、php几个。而这几个常用的应用，在手工编译完以后，在其他一些情况下（如：新增模块），往往想要查看当初都使用了那些参数进行的编译。这时候就可以利用以下方法查看。 1、nginx [root@361way ~]# /App/nginx/sbin/nginx -V nginx: nginx version: nginx/
unity中运用Resources.Load的方法？ brotherlamp unity视频 unity资料 unity自学 unity unity教程
问：unity中运用Resources.Load的方法？答：Resources.Load是unity本地动态加载资本所用的方法,也即是你想动态加载的时分才用到它,比方枪弹,特效,某些实时替换的图像什么的,主张此文件夹不要放太多东西,在打包的时分,它会独自把里边的一切东西都会集打包到一同,不论里边有没有你用的东西,所以大多数资本应该是自个建文件放置 1、unity实时替换的物体即是依据环境条件
线段树-入门 bylijinnan java 算法线段树
/** * 线段树入门 * 问题：已知线段[2,5] [4,6] [0,7]；求点2,4,7分别出现了多少次 * 以下代码建立的线段树用链表来保存，且树的叶子结点类似[i,i] * * 参考链接：http://hi.baidu.com/semluhiigubbqvq/item/be736a33a8864789f4e4ad18 * @author lijinna
全选与反选 chicony 全选
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <html> <head> <title>全选与反选</title>
vim一些简单记录 chenchao051 vim
mac在/usr/share/vim/vimrc linux在/etc/vimrc 1、问：后退键不能删除数据，不能往后退怎么办？答：在vimrc中加入set backspace=2 2、问：如何控制tab键的缩进？答：在vimrc中加入set tabstop=4 (任何
Sublime Text 快捷键 daizj 快捷键 sublime
[size=large][/size]Sublime Text快捷键：Ctrl+Shift+P：打开命令面板Ctrl+P：搜索项目中的文件Ctrl+G：跳转到第几行Ctrl+W：关闭当前打开文件Ctrl+Shift+W：关闭所有打开文件Ctrl+Shift+V：粘贴并格式化Ctrl+D：选择单词，重复可增加选择下一个相同的单词Ctrl+L：选择行，重复可依次增加选择下一行Ctrl+Shift+L：
php 引用(&)详解 dcj3sjt126com PHP
在PHP 中引用的意思是：不同的名字访问同一个变量内容. 与Ｃ语言中的指针是有差别的．Ｃ语言中的指针里面存储的是变量的内容在内存中存放的地址变量的引用 PHP 的引用允许你用两个变量来指向同一个内容复制代码代码如下: <? $a="ABC"; $b =&$a; echo
SVN中trunk,branches,tags用法详解 dcj3sjt126com SVN
Subversion有一个很标准的目录结构，是这样的。比如项目是proj，svn地址为svn://proj/，那么标准的svn布局是svn://proj/|+-trunk+-branches+-tags这是一个标准的布局，trunk为主开发目录，branches为分支开发目录，tags为tag存档目录（不允许修改）。但是具体这几个目录应该如何使用，svn并没有明确的规范，更多的还是用户自己的习惯。
对软件设计的思考 e200702084 设计模式数据结构算法 ssh 活动
软件设计的宏观与微观软件开发是一种高智商的开发活动。一个优秀的软件设计人员不仅要从宏观上把握软件之间的开发，也要从微观上把握软件之间的开发。宏观上，可以应用面向对象设计，采用流行的SSH架构，采用web层，业务逻辑层，持久层分层架构。采用设计模式提供系统的健壮性和可维护性。微观上，对于一个类，甚至方法的调用，从计算机的角度模拟程序的运行情况。了解内存分配，参数传
同步、异步、阻塞、非阻塞 geeksun 非阻塞
同步、异步、阻塞、非阻塞这几个概念有时有点混淆，在此文试图解释一下。同步：发出方法调用后，当没有返回结果，当前线程会一直在等待（阻塞）状态。场景：打电话，营业厅窗口办业务、B/S架构的http请求-响应模式。异步：方法调用后不立即返回结果，调用结果通过状态、通知或回调通知方法调用者或接收者。异步方法调用后，当前线程不会阻塞，会继续执行其他任务。实现：
Reverse SSH Tunnel 反向打洞實錄 hongtoushizi ssh
實際的操作步驟： # 首先，在客戶那理的機器下指令連回我們自己的 Server，並設定自己 Server 上的 12345 port 會對應到幾器上的 SSH port ssh -NfR 12345:localhost:22 [email protected] # 然後在 myhost 的機器上連自己的 12345 port，就可以連回在客戶那的機器 ssh localhost -p 1
Hibernate中的缓存 Josh_Persistence 一级缓存 Hiberante缓存查询缓存二级缓存
Hibernate中的缓存一、Hiberante中常见的三大缓存：一级缓存，二级缓存和查询缓存。 Hibernate中提供了两级Cache，第一级别的缓存是Session级别的缓存，它是属于事务范围的缓存。这一级别的缓存是由hibernate管理的，一般情况下无需进行干预；第二级别的缓存是SessionFactory级别的缓存，它是属于进程范围或群集范围的缓存。这一级别的缓存
对象关系行为模式之延迟加载 home198979 PHP 架构延迟加载
形象化设计模式实战 HELLO!架构一、概念 Lazy Load：一个对象，它虽然不包含所需要的所有数据，但是知道怎么获取这些数据。延迟加载貌似很简单，就是在数据需要时再从数据库获取，减少数据库的消耗。但这其中还是有不少技巧的。二、实现延迟加载实现Lazy Load主要有四种方法：延迟初始化、虚
xml 验证 pengfeicao521 xml xml解析
有些字符，xml不能识别，用jdom或者dom4j解析的时候就报错 public static void testPattern() { // 含有非法字符的串 String str = "Jamey친Ñ&#1282
div设置半透明效果 spjich css 半透明
为div设置如下样式： div{filter:alpha(Opacity=80);-moz-opacity:0.5;opacity: 0.5;} 说明： 1、filter：对win IE设置半透明滤镜效果，filter:alpha(Opacity=80)代表该对象80%半透明，火狐浏览器不认2、-moz-opaci
你真的了解单例模式么？ w574240966 java 单例设计模式 jvm
单例模式，很多初学者认为单例模式很简单，并且认为自己已经掌握了这种设计模式。但事实上，你真的了解单例模式了么。一，单例模式的5中写法。（回字的四种写法，哈哈。） 1，懒汉式（1）线程不安全的懒汉式 public cla

基于Java的高性能网络机器人的研究

你可能感兴趣的:(java,多线程,数据库,搜索引擎,网络,url)