Heritrix1.14源码分析（4）各个类说明

Oracle数据库从入门到精通系列之二十五：ERROR: ORA-12541: TNS:no listener错误详细的解决方法快乐骑行^_^ 数据库 Oracle数据库 ERROR ORA-12541 TNS no listener
Oracle数据库从入门到精通系列之二十五：ERROR:ORA-12541:TNS:nolistener错误详细的解决方法一、登陆Oracle数据库报错ORA-12541:TNS:nolistener二、检查Oracle数据库监听器的状态三、启动监听四、切换用户五、启动监听六、连接数据库一、登陆Oracle数据库报错ORA-12541:TNS:nolistenersqlplusc##dbzuser
Python自然语言处理之spacy模块介绍、安装与常见操作案例袁袁袁袁满 Python实用技巧大全 python 自然语言处理 easyui
文章目录spacy模块介绍安装spacy常见操作案例及代码1.加载模型并处理文本2.词性标注3.命名实体识别4.依存句法分析5.可视化（在JupyterNotebook中）spacy模块介绍spacy是一个强大的Python库，用于自然语言处理（NLP）。它提供了丰富的功能，包括分词、词性标注、依存句法分析、命名实体识别等，并且支持多种语言。spacy以其高性能、易用性和可扩展性而受到广泛欢迎。安
开源 AI 模型助力“智能提取“提取全攻略黑金IT AI智能知识图谱开源人工智能
在当今数字化浪潮汹涌澎湃的时代，信息如潮水般涌来，从浩如烟海的文本里快速又精准地提取人名，已然成为诸多领域的刚需。无论是让办公软件化身智能助手帮我们高效整理资料，助力大数据分析挖掘隐藏在字里行间的价值，还是赋能智能客服瞬间洞察客户身份，亦或是为构建庞大复杂、互联互通的知识图谱添砖加瓦，人名提取技术都宛如一颗关键的螺丝钉，紧紧铆住各个环节。今天，就带大家深入探寻那些超给力的支持从文本中提取人名的开源
Java8使用stream实现list中对象属性的合并（去重并求和） yellowatumn JAVA linq java c#
前言需要对一个List中的对象进行唯一值属性去重，属性求和，对象假设为BillsNums，有id、nums、sums三个属性，其中id表示唯一值，需要nums与sums进行求和，并最后保持一份。例如说：(“s1”,1,1)，(“s1”,2,3)，(“s2”,4,4)，求和并去重的话，就是(“s1”,3,4)，(“s2”,4,4)对象与属性123456789101112131415161718192
YashanDB事务管理数据库
本文内容来自YashanDB官网，原文内容请见https://doc.yashandb.com/yashandb/23.3/zh/%E6%A6%82%E5%BF%B5%...事务结构YashanDB事务由一条或多条SQL语句（DML或DDL）以及一条特殊的SETTRANSACTION语句组成。事务可以分为如下两类：一条或多条DML语句的组合，一起构成对数据库的原子修改一条DDL语句以从账户A给账户
前言——25机械考研复试专业面试问题汇总机械复试超全流程攻略机械复试看这一个专栏就够用了！机械复试调剂英语自我介绍口语专业面试常见问题总结机械保研面试一个 00 后的码农 25机械专业面试问题汇总考研机械复试面试面试问题机械设计调剂保研
一、开篇寄语：在准备考研复试的关键时期，许多学弟学妹们往往会寻求各种资料来辅助复习，市面上也因此涌现了大量的“考研复试全流程全攻略”。然而，这些攻略往往存在以下问题：1、内容不完整性遗漏关键信息：许多攻略在描述考研复试流程时，未能全面覆盖所有关键环节，导致考生可能忽视某些重要的准备事项。浅尝辄止：即便某些攻略提到了复试的各个环节，但在具体细节和应对策略上往往一带而过，缺乏深度和实用性。2、缺乏深入
二进制部署ETCD单机版神奇的海马体 #ETCD etcd 数据库
文章目录一、签发etcd证书二、搭建etcd单机版三、测试ETCD服务一、签发etcd证书注意：在操作签发证书操作时一定要检查服务器时间、时区是否一致，会导致证书不可用！！1、创建etcd目录mkdir/etc/etcd/{ssl,data}-p2、安装签发证书工具wgethttps://pkg.cfssl.org/R1.2/cfssl_linux-amd64wgethttps://pkg.cfs
计算机专业知识【子网掩码计算全解析：从小白到网络达人】一勺菠萝丶计算机专业知识网络服务器运维
在网络世界里，子网掩码是一个非常重要的概念，它就像是一把神奇的钥匙，帮助我们对网络进行合理的划分和管理。今天，我们就通过具体的例子，详细讲解如何根据子网数量和主机数量的要求来计算合适的子网掩码，让小白用户也能轻松理解。一、基础知识：C类网络默认子网掩码在IP地址分类体系中，C类网络是我们常见的一种网络类型。C类网络的默认子网掩码是255.255.255.0。那这个十进制的数字是怎么和二进制对应的呢
使用DeepSeek实现自动化编程：接口的补全与优化 Quz DeepSeek deepseek qt 人工智能 c++
目录简述1.通过写注释来实现接口补全1.1示例：编写接口注释1.2DeepSeek自动补全1.3验证结果（可行）2.通过注释优化代码2.1提示词2.2优化之前2.3DeepSeek优化后2.4代码解释2.5验证（差强人意）2.6进一步优化2.7优化方案（分优先级实现）2.7.1分批次更新+事件循环释放2.7.2定时器合并更新请求3.总结简述在软件开发的过程中，自动化编程可以显著提高开发效率、减少重
达梦官网驱动下载：DmJdbcDriver6、DmJdbcDriver7、DmJdbcDriver8、DmJdbcDriver11 钊兵达梦数据库 DmJdbcDriver 达梦驱动
官网下载达梦官网驱动下载：DmJdbcDriver6、DmJdbcDriver7、DmJdbcDriver8、DmJdbcDriver11官网下载地址：https://eco.dameng.com/download/滑倒网页最下方有驱动下载下载的压缩包包含以下文件：网盘下载如果觉得官网下载慢的小伙伴，可以在我整理的网盘中下载：https://pan.quark.cn/s/9bfafcf43ddc
K8S下redis哨兵集群使用secret隐藏configmap内明文密码方案详解磐基Stack专业服务团队 Kubernetes kubernetes redis bootstrap
#作者：朱雷文章目录一、背景环境及方案说明1.1、环境说明1.2、方案一：使用配置文件设置密码1.3、方案二：使用args的命令行传参设置密码二、redissecretconfigmapdeployment参考2.1创建secret-redis.yaml参考2.2修改configmap配置参考2.2.1哨兵节点修改（每个节点都修改）2.2.2主从节点配置修改2.2.3使用命令行参数指定密码（本小节
Elasticsearch常用的查询条件凌涑数据库搜索引擎
目录1.MatchQuery2.TermQuery3.RangeQuery4.BoolQuery5.ExistsQuery6.PrefixQuery7.WildcardQuery8.RegexpQuery9.TermsQuery10.NestedQuery11.GeoDistanceQuery12.ScriptQuery13.FuzzyQuery14.IdsQuery15.MoreLikeThis
LeetCode第43题_字符串相乘 @蓝莓果粒茶算法 leetcode linux 算法数据结构 c#unity 游戏程序
LeetCode第43题：字符串相乘题目描述给定两个以字符串形式表示的非负整数num1和num2，返回num1和num2的乘积，它们的乘积也表示为字符串形式。注意：不能使用任何内置的BigInteger库或直接将输入转换为整数。难度中等题目链接点击在LeetCode中查看题目示例示例1：输入：num1=“2”,num2=“3”输出：“6”示例2：输入：num1=“123”,num2=“456”输出
猎板讲堂：无刷电机调速控制的挑战与解决方案 lboyj 51单片机 PCB 嵌入式硬件
无刷电机调速控制是电机控制领域的基本要求，涉及到多种控制方式，包括电位器调速、PWM调速和分段速度调速。本文结合作者近20年的电机驱动开发经验，分享在高速无刷电机无级调速中遇到的问题和心得。电位器调速的问题与解决方案使用电位器调速时，调速精度受限于AD转换精度，最高为24.4RPM。硬件上的地线干扰等会引起AD输入的误差，导致转速控制不理想，尤其在高速电机上表现为不均匀的噪音。解决方案：通过在AD
猎板：解锁 14层PCB 特殊工艺的技术密码 lboyj pcb工艺
在PCB制造领域，猎板凭借一系列卓越的技术成果与良好的客户口碑，成功树立起行业标杆。接下来，让我们聚焦一款具备特殊工艺参数的PCB产品，深入探寻猎板在攻克复杂工艺时所展现出的硬核实力。一、多层结构与材料运用这款PCB产品为十四层结构，采用内外厚铜设计。多层结构的设计能有效增加布线层数，满足复杂电路的布局需求，提高信号传输的稳定性和效率。而厚铜的使用，对于大电流传输具有显著优势，能够降低线路电阻，减
Neo4j父子节点向量检索：平衡精确嵌入和上下文保留的高效方案 jaioyfpo neo4j python
Neo4j父子节点向量检索：平衡精确嵌入和上下文保留的高效方案引言在自然语言处理和信息检索领域，如何在保持上下文的同时实现精确的文本嵌入一直是一个挑战。本文将介绍一种基于Neo4j图数据库的创新解决方案，通过父子节点结构和向量索引，实现了精确嵌入和上下文保留的平衡。这种方法不仅提高了检索的准确性，还保持了文本的语义完整性。主要内容1.方案概述该方案的核心思想是将文档分割成较大的"父"块和较小的"子
Oracle错误：ORA-12541 TNS无监听程序 - MySQL JfpBlockchain oracle mysql 数据库
概述：当尝试连接到Oracle数据库时，可能会遇到"ORA-12541TNS无监听程序"错误。这个错误通常表示无法建立与数据库的网络连接，原因是目标数据库实例没有运行监听程序或监听程序无法访问。在本文中，我们将探讨此错误的常见原因，并提供一些解决方法。错误原因：ORA-12541错误通常由以下几个常见原因引起：目标数据库实例未启动监听程序。目标数据库实例的监听程序未正确配置。目标数据库实例的监听程
关于Bootstrap的前端面试题及其通俗易懂的答案解析 HappyAcmen 前端技术面试前端 bootstrap html
文章目录1.什么是Bootstrap？2.Bootstrap的主要特点有哪些？3.Bootstrap中的栅格系统是如何工作的？4.如何在Bootstrap中创建一个按钮？5.如何使一个元素在Bootstrap中可见或隐藏？6.Bootstrap中的导航栏是如何工作的？7.如何在Bootstrap中创建一个下拉菜单？8.Bootstrap中的模态框是如何使用的？9.如何在Bootstrap中实现图片
@RestController和@RequestBody注解含义编程就是如此 Java注解 java
一、@RestController（一）含义@RestController是SpringFramework中的一个组合注解，主要用于简化创建RESTfulWeb服务的过程。它结合了@Controller和@ResponseBody注解的功能，使得开发者可以更简洁地编写处理HTTP请求的控制器类。（二）用途@Controller：标记一个类为SpringMVC控制器，通常用于处理视图请求。@Resp
基于ChatGPT-4o信息检索、总结分析、论文写作与投稿、专利idea构思与交底书的撰写 AAIshangyanxiu chatgpt python 机器学习深度学习
第一章2024大语言模型最新进展与ChatGPT各模型讲解1、2024AIGC技术最新进展介绍（生成式人工智能的基本概念与原理、最新前沿技术和发展趋势简介）2、国内外大语言模型（ChatGPT4O、Gemini、Claude、Llama3、PerplexityAI、文心一言、星火、通义千问、Kimi、智谱清言、秘塔AI等）对比分析3、OpenAI12天12场直播新功能解读与演示（ChatGPTO1
c++实战项目：工业设备工厂系统 AI少女小鹿 c++开发语言
项目要求设计一个工业设备工厂系统，用抽象基类、继承、多态性和工厂模式来实现一个简单的工业设备管理系统，生成不同类型的数据。#include#includeusingnamespacestd;//抽象基类：工业设备classIndustrialDevice{public:virtualvoiddisplayInfo()=0;//纯虚函数};//具体类：传感器classSensor:publicInd
将Neo4j用于Python学习的创新方法黑金IT 知识图谱 neo4j python 学习
Neo4j作为一款强大的图数据库，其独特的关系性特点能够为Python学习带来全新的视角和深度理解。通过将Neo4j与Python学习相结合，可以帮助学生更直观、更深入地掌握Python编程的各个方面。以下是具体的建议和方法：1.利用Neo4j可视化Python数据结构通过Neo4j把Python中的数据结构，如列表、字典、集合等，以可视化的方式呈现。把数据结构中的元素当作节点，元素之间的关系作为
关于酒店旅游信息的数据采集API接口返回||包含参数说明电商数据girl 电商项目API接口测试跨境电商API接口酒店信息相关API接口旅游 java 开发语言大数据数据库 json
相关网站站点xiechengAPI接入说明携程获取酒店详情原数据API返回值说明item_get_app-获取酒店详情原数据xiecheng.item_get_app公共参数名称类型必须描述keyString是调用key（必须以GET方式拼接在URL中）secretString是调用密钥api_nameString是API接口名称（包括在请求地址中）[item_search,item_get,it
uniapp ios调试自定义原生插件的两种方式 ReyZhang uniapp ios原生插件与混合开发教程 UniApp插件导入自定义调试基座原生插件调试 uniapp ios
文章目录一、前言二、原生插件的导入步骤1：指定存放位置步骤2：插件导入配置三、自定义基座调试3.1制作自定义基座3.2编写调试插件的vue页面3.3运行到手机四、生成原生打包资源，原生端调试一、前言使用UniApp开发跨平台应用时，如果涉及到一些特殊场景，免不了要使用各个平台的原生代码来实现。这种和原生交互实现的方式，称之为“原生插件开发”。UniApp提供完善的原生插件开发机制，按照官方提供的插
网络协议相关问题 shaoin_2 网络协议网络
1.HTTP与HTTPS的区别HTTP：明文传输，端口80，无加密，易被窃听或篡改。HTTPS：SSL/TLS加密传输，端口443，通过数字证书验证身份，防止中间人攻击。混合加密：非对称加密交换密钥，对称加密传输数据。证书机制：由CA颁发，确保服务器身份可信。2.常见HTTP状态码2xx成功：200（OK）、201（Created）。3xx重定向：301（永久重定向）、302（临时重定向）、304
FreeSwitch的应用类模块狂爱代码的码农 VOIP那些事运维
FreeSWITCH应用类模块（Applications）完整表格模块名称功能描述mod_callcenter提供呼叫中心功能，支持队列、座席管理、监控等。mod_conference提供多方会议功能，支持音频、视频会议。mod_blacklist提供黑名单功能，阻止特定号码的呼叫。mod_db提供数据库操作功能，支持SQLite、PostgreSQL等数据库。mod_curl提供HTTP请求功能
Python 编程：如何交换列表的第一个和最后一个元素完美代码 numpy python
Python编程：如何交换列表的第一个和最后一个元素在Python中，要交换列表中的第一个元素和最后一个元素，可以通过以下步骤实现：获取列表的长度交换列表的第一个元素和最后一个元素下面是具体的代码实现：list=[1,2,3,4,5]length=
零入门kubernetes网络实战-2-＞网络协议栈包括哪些？码二哥码二哥的技术专栏零入门容器云网络 kubernetes 云原生 flannel calico
《零入门kubernetes网络实战》视频专栏地址https://www.ixigua.com/7193641905282875942本篇文章主要用于收集、整理、总结网络协议栈的相关知识点。1、网络协议栈包括哪些？应用层（http，ftp，tftp，telnet，dns，email等），传输层（tcp，udp），网络层（ip），链路层（wi-fi，以太网，令牌环，fddi等），物理层（mac）。可
【ARM Cache 与 MMU 系列文章 5.1 -- Cache 缓存一致性协议】主公讲 ARM #【ARM Cache与MMU/MPU 专栏】缓存 arm linux 缓存一致性
请阅读【ARMCache及MMU/MPU系列文章专栏导读】及【嵌入式开发学习必备专栏】文章目录1.1.1cache的组织1.1.2多级cache之间的配合工作1.1.3多核心cache的一致性1.1.4Lock指令1.1.5BusSnoopingProtocol1.1.5MESIProtocol1.1.1cache的组织L1cache分为单独的instructioncache（ICache）和da
代码随想录算法【Day52】 yonuyeung 代码随想录算法深度优先算法
Day51101.孤岛的总面积思路从周边找到陆地然后通过dfs或者bfs将周边靠陆地且相邻的陆地都变成海洋，然后再去重新遍历地图统计此时还剩下的陆地代码#include#includeusingnamespacestd;intdir[4][2]={-1,0,0,-1,1,0,0,1};//保存四个方向intcount;//统计符合题目要求的陆地空格数量voiddfs(vector>&grid,in
Java序列化进阶篇 g21121 java序列化
1.transient 类一旦实现了Serializable 接口即被声明为可序列化，然而某些情况下并不是所有的属性都需要序列化，想要人为的去阻止这些属性被序列化，就需要用到transient 关键字。
escape()、encodeURI()、encodeURIComponent()区别详解 aigo JavaScript Web
原文：http://blog.sina.com.cn/s/blog_4586764e0101khi0.html JavaScript中有三个可以对字符串编码的函数，分别是： escape,encodeURI,encodeURIComponent，相应3个解码函数：,decodeURI,decodeURIComponent 。下面简单介绍一下它们的区别 1 escape()函
ArcgisEngine实现对地图的放大、缩小和平移 Cb123456 添加矢量数据对地图的放大、缩小和平移 Engine
ArcgisEngine实现对地图的放大、缩小和平移: 个人觉得是平移，不过网上的都是漫游，通俗的说就是把一个地图对象从一边拉到另一边而已。就看人说话吧. 具体实现: 一、引入命名空间 using ESRI.ArcGIS.Geometry; using ESRI.ArcGIS.Controls; 二、代码实现.
Java集合框架概述天子之骄 Java集合框架概述
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
旗正4.0页面跳转传值问题何必如此 java jsp
跳转和成功提示 a) 成功字段非空forward 成功字段非空forward，不会弹出成功字段，为jsp转发，页面能超链接传值,传输变量时需要拼接。接拼接方式list.jsp?test="+strweightUnit+"或list.jsp?test="+weightUnit+&qu
全网唯一:移动互联网服务器端开发课程 cocos2d-x小菜 web开发移动开发移动端开发移动互联程序员
移动互联网时代来了！ App市场爆发式增长为Web开发程序员带来新一轮机遇，近两年新增创业者，几乎全部选择了移动互联网项目！传统互联网企业中超过98%的门户网站已经或者正在从单一的网站入口转向PC、手机、Pad、智能电视等多端全平台兼容体系。据统计，AppStore中超过85%的App项目都选择了PHP作为后端程
Log4J通用配置|注意问题笔记 7454103 DAO apache tomcat log4j Web
关于日志的等级那些去百度就知道了！这几天要搭个新框架配置了日志记下来！做个备忘！ #这里定义能显示到的最低级别,若定义到INFO级别,则看不到DEBUG级别的信息了~! log4j.rootLogger=INFO,allLog # DAO层 log记录到dao.log 控制台和总日志文件 log4j.logger.DAO=INFO,dao,C
SQLServer TCP/IP 连接失败问题 ---SQL Server Configuration Manager darkranger sql c windows SQL Server XP
当你安装完之后,连接数据库的时候可能会发现你的TCP/IP 没有启动.. 发现需要启动客户端协议 : TCP/IP 需要打开 SQL Server Configuration Manager... 却发现无法打开 SQL Server Configuration Manager..?? 解决方法: C:\WINDOWS\system32目录搜索framedyn.
[置顶] 做有中国特色的程序员 aijuans 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有些技术书读得可
document.domain 跨域问题 avords document
document.domain用来得到当前网页的域名。比如在地址栏里输入：javascript:alert(document.domain); //www.315ta.com我们也可以给document.domain属性赋值，不过是有限制的，你只能赋成当前的域名或者基础域名。比如：javascript:alert(document.domain = "315ta.com");
关于管理软件的一些思考 houxinyou 管理
工作好多看年了,一直在做管理软件,不知道是我最开始做的时候产生了一些惯性的思维,还是现在接触的管理软件水平有所下降.换过好多年公司,越来越感觉现在的管理软件做的越来越乱. 在我看来,管理软件不论是以前的结构化编程,还是现在的面向对象编程,不管是CS模式,还是BS模式.模块的划分是很重要的.当然,模块的划分有很多种方式.我只是以我自己的划分方式来说一下. 做为管理软件,就像现在讲究MVC这
NoSQL数据库之Redis数据库管理(String类型和hash类型) bijian1013 redis 数据库 NoSQL
一.Redis的数据类型 1.String类型及操作 String是最简单的类型，一个key对应一个value，string类型是二进制安全的。Redis的string可以包含任何数据，比如jpg图片或者序列化的对象。 Set方法：设置key对应的值为string类型的value
Tomcat 一些技巧征客丶 java tomcat dos
以下操作都是在windows 环境下一、Tomcat 启动时配置 JAVA_HOME 在 tomcat 安装目录，bin 文件夹下的 catalina.bat 或 setclasspath.bat 中添加 set JAVA_HOME=JAVA 安装目录 set JRE_HOME=JAVA 安装目录/jre 即可；二、查看Tomcat 版本在 tomcat 安装目
【Spark七十二】Spark的日志配置 bit1129 spark
在测试Spark Streaming时，大量的日志显示到控制台，影响了Spark Streaming程序代码的输出结果的查看(代码中通过println将输出打印到控制台上)，可以通过修改Spark的日志配置的方式，不让Spark Streaming把它的日志显示在console 在Spark的conf目录下，把log4j.properties.template修改为log4j.p
Haskell版冒泡排序 bookjovi 冒泡排序 haskell
面试的时候问的比较多的算法题要么是binary search，要么是冒泡排序，真的不想用写C写冒泡排序了，贴上个Haskell版的，思维简单，代码简单，下次谁要是再要我用C写冒泡排序，直接上个haskell版的，让他自己去理解吧。 sort [] = [] sort [x] = [x] sort (x:x1:xs) | x>x1 = x1:so
java 路径配置文件读取 bro_feng java
这几天做一个项目，关于路径做如下笔记，有需要供参考。取工程内的文件，一般都要用相对路径，这个自然不用多说。在src统计目录建配置文件目录res,在res中放入配置文件。读取文件使用方式： 1. MyTest.class.getResourceAsStream("/res/xx.properties") 2. properties.load(MyTest.
读《研磨设计模式》-代码笔记-简单工厂模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 个人理解：简单工厂模式就是IOC; * 客户端要用到某一对象，本来是由客户创建的，现在改成由工厂创建，客户直接取就好了 */ interface IProduct {
SVN与JIRA的关联 chenyu19891124 SVN
SVN与JIRA的关联一直都没能装成功，今天凝聚心思花了一天时间整合好了。下面是自己整理的步骤：一、搭建好SVN环境，尤其是要把SVN的服务注册成系统服务二、装好JIRA，自己用是jira-4.3.4破解版三、下载SVN与JIRA的插件并解压，然后拷贝插件包下lib包里的三个jar，放到Atlassian\JIRA 4.3.4\atlassian-jira\WEB-INF\lib下，再
JWFDv0.96 最新设计思路 comsci 数据结构算法工作企业应用公告
随着工作流技术的发展，工作流产品的应用范围也不断的在扩展，开始进入了像金融行业(我已经看到国有四大商业银行的工作流产品招标公告了)，实时生产控制和其它比较重要的工程领域，而
vi 保存复制内容格式粘贴 daizj vi 粘贴复制保存原格式不变形
vi是linux中非常好用的文本编辑工具，功能强大无比，但对于复制带有缩进格式的内容时，粘贴的时候内容错位很严重，不会按照复制时的格式排版，vi能不能在粘贴时，按复制进的格式进行粘贴呢？答案是肯定的，vi有一个很强大的命令可以实现此功能。在命令模式输入:set paste，则进入paste模式，这样再进行粘贴时
shell脚本运行时报错误：/bin/bash^M: bad interpreter 的解决办法 dongwei_6688 shell脚本
出现原因：windows上写的脚本，直接拷贝到linux系统上运行由于格式不兼容导致解决办法： 1. 比如文件名为myshell.sh，vim myshell.sh 2. 执行vim中的命令 : set ff?查看文件格式，如果显示fileformat=dos，证明文件格式有问题 3. 执行vim中的命令 :set fileformat=unix 将文件格式改过来就可以了，然后:w
高一上学期难记忆单词 dcj3sjt126com word english
honest 诚实的；正直的 argue 争论 classical 古典的 hammer 锤子 share 分享；共有 sorrow 悲哀；悲痛 adventure 冒险 error 错误；差错 closet 壁橱；储藏室 pronounce 发音；宣告 repeat 重做；重复 majority 大多数；大半 native 本国的，本地的，本国
hibernate查询返回DTO对象，DTO封装了多个pojo对象的属性 frankco POJO hibernate查询 DTO
DTO-数据传输对象；pojo-最纯粹的java对象与数据库中的表一一对应。简单讲：DTO起到业务数据的传递作用，pojo则与持久层数据库打交道。有时候我们需要查询返回DTO对象，因为DTO
Partition List hcx2013 partition
Given a linked list and a value x, partition it such that all nodes less than x come before nodes greater than or equal to x. You should preserve the original relative order of th
Spring MVC测试框架详解——客户端测试 jinnianshilongnian
上一篇《Spring MVC测试框架详解——服务端测试》已经介绍了服务端测试，接下来再看看如果测试Rest客户端，对于客户端测试以前经常使用的方法是启动一个内嵌的jetty/tomcat容器，然后发送真实的请求到相应的控制器；这种方式的缺点就是速度慢；自Spring 3.2开始提供了对RestTemplate的模拟服务器测试方式，也就是说使用RestTemplate测试时无须启动服务器，而是模拟一
关于推荐个人观点 liyonghui160com 推荐系统关于推荐个人观点
回想起来，我也做推荐了3年多了，最近公司做了调整招聘了很多算法工程师，以为需要多么高大上的算法才能搭建起来的，从实践中走过来，我只想说【不是这样的】第一次接触推荐系统是在四年前入职的时候，那时候，机器学习和大数据都是没有的概念，什么大数据处理开源软件根本不存在，我们用多台计算机web程序记录用户行为，用.net的w
不间断旋转的动画 pangyulei 动画
CABasicAnimation* rotationAnimation; rotationAnimation = [CABasicAnimation animationWithKeyPath:@"transform.rotation.z"]; rotationAnimation.toValue = [NSNumber numberWithFloat: M
自定义annotation sha1064616837 java enum annotation reflect
对象有的属性在页面上可编辑，有的属性在页面只可读，以前都是我们在页面上写死的，时间一久有时候会混乱，此处通过自定义annotation在类属性中定义。越来越发现Java的Annotation真心很强大，可以帮我们省去很多代码，让代码看上去简洁。下面这个例子主要用到了 1.自定义annotation：@interface，以及几个配合着自定义注解使用的几个注解 2.简单的反射 3.枚举
Spring 源码 up2pu spring
1.Spring源代码 https://github.com/SpringSource/spring-framework/branches/3.2.x 注：兼容svn检出 2.运行脚本 import-into-eclipse.bat 注：需要设置JAVA_HOME为jdk 1.7 build.gradle compileJava { sourceCompatibilit
利用word分词来计算文本相似度 yangshangchuan word word分词文本相似度余弦相似度简单共有词
word分词提供了多种文本相似度计算方式：方式一：余弦相似度，通过计算两个向量的夹角余弦值来评估他们的相似度实现类：org.apdplat.word.analysis.CosineTextSimilarity 用法如下： String text1 = "我爱购物"; String text2 = "我爱读书"; String text3 =

序号	类	说明
1	CommandLineParser	Heritrix也可以通过CMD命令进行操作,该类用于解析CMD命令
2	Heritrix	Heritrix主类,可以通过该类启动Heritrix
3	SimpleHttpServer	Heritrix Web服务器,可以通过Web管理Heritrix
4	WebappLifecycle	封装Servlet,如此才可以通过Web启动Heritrix,里面装载Heritrix对象

序号	类	说明
1	CrawlJob	Heritrix的核心类,代表着一个抓取任务,order.xml中大部分属性都围绕其配置,以后会着重说明
2	CrawlJobErrorHandler	维护者一个抓取任务(CrawlJob)的错误日志,UI中显示的JOB错误就来自于它
3	CrawlJobHandler	抓取任务处理器,Heritrix可以有多个抓取任务,都由它进行管理
4	InvalidJobFileException	抓取任务文件异常,意义不大
5	SeedRecord	记录种子的处理记录,如该种子重定向到哪个URL,在seeds.txt里面会有说明，该重定向值就来源于它
6	StatisticsSummary	统计摘要类，所用不多
7	StatisticsTracker	Heritrix核心类，统计跟踪器,贯穿整个Heritrix的运行,如统计抓取了多少URL，以后会着重说明

序号	类	说明
1	CookieUtils	Cookie工具类,主要用于访问Cookie
2	JobConfigureUtils	CrawlJob配置管理工具类,当你通过Web Ui去配置一个CrawlJob时就会用到这个类
3	RootFilter	不熟

序号	类	说明
1	CandidateURI	Heritrix的核心类,代表着一个URL,贯穿整个抓取,与CrawlURI的区别是它还没有通过调度器(Frontier)，只有通过了调度器的URL才可能去获取网页内容区下载等，以后会着重说明
2	CandidateURITest	CandidateURI的测试类,比如可以用它获知如何创建CanditeURI
3	Checkpoint	Heritrix会定期备份它的数据,如日志、正在获取的URL内容，都是在底层定时运行,当Heritrix异常中断可以通过它来恢复.也类似于各个数据库的Ckeckpoint
4	CoreAttributeConstants	装载着Heritrix的基本属性变量名,一般是对应order.xml中的标签名
5	CrawlHost	Heiritrix的核心类,代表着一个Host，里面主要包含域名、IP。由于Heritrix可以控制抓取速度，如对一个Host的抓取速度,这个类就代表着那个Host.以后会着重说明
6	CrawlOrder	Heritrix的核心类,基本上对应着order.xml的各个属性值,除了各个组件的详细属性，以后会着重说明
7	CrawlServer	Heritrix的核心类,也对应着一个Host,里面装载着一个Host的各种Heritrix数据,如统计信息、爬虫协议
8	CrawlSubstats	抓取统计类,主要统计抓取Url的个数、成功的个数、下载的字节数等等
9	CrawlURI	CandidateURI的子类,主要比CaidiateURI多了网页内容指纹、所属队列、组件处理器等
10	CredentialStore	凭证存储类，负责存储各种凭证,如登陆
11	FetchStatusCodes	抓取状态,有不同的属性代表不同的抓取状态,如DNS获取成功：S_DNS_SUCCESS
12	RobotsHonoringPolicy	爬虫协议,代表着不同的抓取策略
13	Robotstxt	爬虫协议,用于解析robots.txt
14	ServerCache	服务器缓存,主要缓存CrawlHost和CrawlServer
15	UriUniqFilter	接口,用于过滤已经抓取过的URL

序号	类	说明
1	Credential	凭证类,代表着一个凭证,从order.xml配置文件中获取数据
2	CredentialAvatar	代表着一个具体的凭证
3	HtmlFormCredential	Credential的子类,代表着提交HTML FORM表单时所需要的凭证
4	Rfc2617Credential	Credential的子类,代表着RFC2617 HTTP 认证凭证

序号	类	说明
1	AcceptDecideRule	URL规则,表示接受
2	ConfiguredDecideRule	URL规则，通过order.xml文件中的配置来决定是否拒绝(REJECT)或接受(ACCEPT)
3	DecideRule	URL规则的父类,审核一个URL是否接受(ACCEPT)、拒绝(REJECT)或放弃(PASS),通过decisionFor(Object object)方法,该方法由其子类实现
4	DecidingScope	验证一个URL是否在范围来决定是否接受、拒绝或放弃
5	MatchesRegExpDecideRule	通过配置的正则表达式来决定URL是否可接受、拒绝或放弃
6	NotMatchesRegExpDecideRule	MatchesRegExpDecideRule的子类,如果URL不匹配该正则则接受
7	PathologicalPathDecideRule	如果URL中相同目录名超过配置文件中的个数,则拒绝,如http://www.xxx.com/a/a/a/a/a其中a的个数超过一定限制则拒绝
8	PrerequisiteAcceptDecideRule	如果URL中有先决条件URL则接受,也就是该CandidateURI里的pathFromSeed属性里含有P,表示运行该URL之前有先要运行的URL
9	RejectDecideRule	URL规则，表示拒绝
10	TooManyHopsDecideRule	如果超过配置文件中的约点数(max-hops),则拒绝

序号	类	说明
1	CrawlStatusListener	爬虫监听器,如监听爬虫是否在运行，是否暂停等
2	CrawlURIDispositionListener	URL监听器,如监听URL是否失败，是要要重新抓取等

序号	类	说明
1	Extractor	所有抽取类的父类,用于从一个URL中抽取出新的URL
2	ExtractorCSS	从CSS中抽取出新的URL
3	ExtractorDOC	从DOC中抽取出新的URL
4	ExtractorHTML	从HTML中抽取出新的URL,Heritrix核心类
5	ExtractorHTTP	从HTTP中抽取出新的URL
6	ExtractorJS	从Javascript中抽取出新的URL
7	ExtractorPDF	从PDF中抽取出新的URL
8	ExtractorSWF	从SWF中抽取出新的URL
9	ExtractorXML	从XML中抽取出新的URL
10	HTTPContentDigest	网页内容文摘,实际上是通过MD5或SHA1算法将网页内容指纹化
11	Link	链接,代表抽取出来的URL

序号	类	说明
1	FetchDNS	获取DNS数据,如IP
2	FetchFTP	获取FTP数据
3	FetchHTTP	获取HTTP数据
4	HeritrixHttpMethodRetryHandler	HTTP重试处理器,重新去连接HTTP

序号	类	说明
1	AbstractTracker	统计器,统计抓取情况,父类，具体统计由子类实现
2	AlertManager	UI界面消息管理器,给用户显示爬虫相关消息，如一些异常情况
3	Checkpointer	备份器,定时备份Heritrix相关数据,如日志、BDB文件等
4	CrawlController	控制器,控制整个爬虫的启动、暂停、停止等,Heritrix的核心类
5	CrawlScope	URL范围管理器,如种子、哪些URL符合抓取哪些URL不符合抓取
6	Filter	过滤器,决定哪些URL可以抓取哪些不可以,父类,具体由子类实现
7	Frontier	调度器,对进来的URL进行调度，使其在接来下可以抓取
8	Processor	处理器,一个URL由不同的处理器(组件)合作完成,这个为处理器父类,不同的组件有不同的实现
9	ProcessorChain	处理器链,包含相同类型的处理器,如抽取URL的时候有从Html抽取的ExtractorHTML，从JavaScript抽取的ExtractorJs
10	ProcessorChainList	处理器链集合,包含多个处理器链,每个URL都会有这样一个处理器集合,使得先从该集合中获取处理器链,然后再从处理器链中获取每个处理器,最后让每个处理器都做他们的处理，完成整个抓取
11	Scoper	范围管理器,验证一个URL是否在用户配置(从order.xml中获取)的范围
12	StatisticsTracking	跟踪统计器,主要统计抓取情况,如宽带占用、抓取多少URL、抓取速度等，贯穿整个爬虫的运行
13	ToePool	线程池,用于管理爬虫线程
14	ToeThread	爬虫线程,代表着一个抓取,Heritrix的核心类,贯穿整个爬虫的运行，接下来会重点分析
15	WriterPoolProcessor	写处理器管理池,用于管理多个写处理器,可以在分布式中使用

序号	类	说明
1	AbstractFrontier	调度器基本实现类,Heritrix最复杂的地方之一，接下来会重点分析
2	BdbFrontier	BDB调度器,用BDB数据库去管理所有的URL,如保存哪些待抓取的URL，哪些已经抓取的URL,Heritrix最复杂的地方之一，接下来会重点分析
3	BdbMultipleWorkQueues	管理着所有的队列,所有的队列数据保存在BDB数据库中.Heritrix最复杂的地方之一，接下来会重点分析
4	BdbWorkQueue	抓取队列由BDB存储管理,相同classkey的URL为一个队列.classkey由用户配置决定，Heritrix默认是相同host的URL就为一个队列.Heritrix最复杂的地方之一，接下来会重点分析
5	FrontierJournal	调度器记录管理,记录调度器的每一次运行情况,如插入URL，插入失败URL等
6	HostnameQueueAssignmentPolicy	URL ClassKey获得策略,Heritrix的默认策略，通过域名来获得URL的class key。然后相同的classkey存放相同的队列
7	IPQueueAssignmentPolicy	URL ClassKey获得策略,这个策略是通过IP来获得URL的class key
8	QueueAssignmentPolicy	URL ClassKey获得策略，该类是抽象类,不同的策略由不同的子类实现，如根据域名、IP等，用户可以自己扩展
9	RecoveryJournal	管理着/logs/recover.gz，该文件记录所有的URL抓取情况，如抓取成功、失败都有不同的对应格式。该文件主要用于下次Heritrix恢复，如Heritrix异常中断重新启动Heritrix的话又会重新抓取，而如果基于该文件启动的话则会避免这个问题，同时对于上次异常中断而来不及抓取的URL都会优先抓取
10	RecyclingSerialBinding	给每个线程分配的数据输出流管理器,里面用ThreadLocal来管理每个线程的数据输出流，如此可以节省大量重复序列化
11	WorkQueue	代表着一个队列,抽象类,会有不同的子类实现，如由BDB存储数据的BdbWorkQueue,Heritrix最复杂的地方之一，接下来会重点分析
12	WorkQueueFrontier	队列调度器,管理着所有的队列，里面用不同的类型管理着不同的队列，如不在活动状态队列：Queue<String> inactiveQueues.可以说是Heritrix中最为复杂最为关键的类,接下来会重重点分析

Heritrix1.14源码分析（4）各个类说明

你可能感兴趣的:(Heritrix1.14源码分析（4）各个类说明)