zhaogezhuoyuezhao

Nutch 1.3 学习笔记 5-1 FetchThread

分类： Nutch 2011-08-27 22:54 433人阅读评论(1) 收藏举报

   Nutch 1.3 学习笔记 5-1 FetchThread 
  
 ----------------------------------- 
  
上一节看了Fetcher中主要几个类的实现，这一节会来分析一下其中用到的消费者FetcherThread,来看看它是干嘛的。 
  

 
1. Fetcher的Mapp模型
Fetcher.java代码中可以看到，Fetcher继承自MapRunable,它是Mapper的抽象接口，实现这个接口的子类能够更好的对Map的流程进行控制，包括多线程与异步Maper。 
  


 1.1 Fetcher的入口函数fetch(Path segment,int threads, boolean parsing)下面是它的源代码，来分析一下： 
  

[html]  view plain copy 
      
     
 // 对配置进行检测，看一些必要的配置是否已经配置了，如http.agent.name等参数  
         checkConfiguration();  
   
   
         // 记录fetch的开始时间  
         SimpleDateFormat sdf = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss");  
         long start = System.currentTimeMillis();  
         if (LOG.isInfoEnabled()) {  
             LOG.info("Fetcher: starting at " + sdf.format(start));  
           LOG.info("Fetcher: segment: " + segment);  
         }  
   
   
         // 这里对抓取的时候进行限制,在FetchItemQueue中会用到这个参数  
         // set the actual time for the timelimit relative  
         // to the beginning of the whole job and not of a specific task  
         // otherwise it keeps trying again if a task fails  
         long timelimit = getConf().getLong("fetcher.timelimit.mins", -1);  
         if (timelimit != -1) {  
           timelimit = System.currentTimeMillis() + (timelimit * 60 * 1000);  
           LOG.info("Fetcher Timelimit set for : " + timelimit);  
           getConf().setLong("fetcher.timelimit", timelimit);  
         }  
           
         // 生成一个Nutch的Map-Reduce配置  
         JobConf job = new NutchJob(getConf());  
         job.setJobName("fetch " + segment);  
       
         // 配置抓取线程数，  
         job.setInt("fetcher.threads.fetch", threads);  
         job.set(Nutch.SEGMENT_NAME_KEY, segment.getName());  
         // 配置是否对抓取的内容进行解析  
         job.setBoolean("fetcher.parse", parsing);  
       
         // for politeness, don't permit parallel execution of a single task  
         job.setSpeculativeExecution(false);  
       
         // 配置输出的路径名  
         FileInputFormat.addInputPath(job, new Path(segment, CrawlDatum.GENERATE_DIR_NAME));  
         // 配置输入的文件格式，这里类继承自SequenceFileInputFormat  
         // 它主要是覆盖了其getSplits方法，其作用是不对文件进行切分，以文件数量作为splits的依据  
         // 就是有几个文件，就有几个Map操作  
         job.setInputFormat(InputFormat.class);  
       
         // 配置Map操作的类  
         job.setMapRunnerClass(Fetcher.class);  
       
         // 配置输出路径  
         FileOutputFormat.setOutputPath(job, segment);  
         // 这里配置输出文件方法，这个类在前面已经分析过  
         job.setOutputFormat(FetcherOutputFormat.class);  
         // 配置输出<key,value>类型  
         job.setOutputKeyClass(Text.class);  
         job.setOutputValueClass(NutchWritable.class);  
       
         JobClient.runJob(job);  

 1.2 Fetcher的run方法分析 这个是Map类的入口，用于启动抓取的生产者与消费者，下面是部分源代码： 
  

[html]  view plain copy 
      
     
 // 生成生产者，用于读取Generate出来的CrawlDatum，把它们放到共享队列中  
     feeder = new QueueFeeder(input, fetchQueues, threadCount * 50);  
     //feeder.setPriority((Thread.MAX_PRIORITY + Thread.NORM_PRIORITY) / 2);  
     
     // the value of the time limit is either -1 or the time where it should finish  
     long timelimit = getConf().getLong("fetcher.timelimit", -1);  
     if (timelimit != -1) feeder.setTimeLimit(timelimit);  
     feeder.start();  
   
   
     // set non-blocking & no-robots mode for HTTP protocol plugins.  
     getConf().setBoolean(Protocol.CHECK_BLOCKING, false);  
     getConf().setBoolean(Protocol.CHECK_ROBOTS, false);  
     
 // 启动消费者线程  
     for (int i = 0; i < threadCount; i++) {       // spawn threads  
       new FetcherThread(getConf()).start();  
     }  
   
   
     // select a timeout that avoids a task timeout  
     long timeout = getConf().getInt("mapred.task.timeout", 10*60*1000)/2;  
   
   
 // 这里用一个循环来等待线程结束  
     do {                                          // wait for threads to exit  
       try {  
         Thread.sleep(1000);  
       } catch (InterruptedException e) {}  
   
   
     // 这个函数是得到相前线程的抓取状态，如抓取了多少网页，多少网页抓取失败，抓取速度是多少  
       reportStatus();  
         LOG.info("-activeThreads=" + activeThreads + ", spinWaiting=" + spinWaiting.get()  
             + ", fetchQueues.totalSize=" + fetchQueues.getTotalSize());  
   
   
 // 输出抓取队列中的信息  
      if (!feeder.isAlive() && fetchQueues.getTotalSize() < 5) {  
        fetchQueues.dump();  
      }  
       
     // 查看timelimit的值，这里只要返回的hitByTimeLimit不为0,checkTimelimit方法会清空抓取队列中的所有数据  
      // check timelimit  
      if (!feeder.isAlive()) {  
         int hitByTimeLimit = fetchQueues.checkTimelimit();  
          if (hitByTimeLimit != 0) reporter.incrCounter("FetcherStatus",  
             "hitByTimeLimit", hitByTimeLimit);  
      }  
       
     // 查看抓取抓取线程是否超时，如果超时，就退出等待  
         // some requests seem to hang, despite all intentions  
         if ((System.currentTimeMillis() - lastRequestStart.get()) > timeout) {  
         if (LOG.isWarnEnabled()) {  
           LOG.warn("Aborting with "+activeThreads+" hung threads.");  
         }  
         return;  
         }  
   
   
     } while (activeThreads.get() > 0);  
     LOG.info("-activeThreads=" + activeThreads);  

 2. Fetcher.FetcherThread 2.1 这个类主要是用来从队列中得到FetchItem，下面来看一下其run方法，其大概做了几件事：从抓取队列中得到一个FetchItem，如果返回为null,判断生产者是否还活着或者队列中是否还有数据，  如果队列中还有数据，那就等待，如果上面条件没有满足，就认为所有FetchItem都已经处理完了，退出当前抓取线程
得到FetchItem, 抽取其url，从这个url中分析出所使用的协议，调用相应的plugin来解析这个协议
得到相当url的robotRules，看是否符合抓取规则，如果不符合或者其delayTime大于我们配置的maxDelayTime，那就不抓取这个网页
对网页进行抓取，得到其抓取的Content和抓取状态，调用FetchItemQueues的finishFetchItem方法，表明当前url已经抓取完成
根据抓取协议的状态来进行下一步操作
 
   如果状态为WOULDBLOCK，那就进行retry,把当前url放加FetchItemQueues中，进行重试
如果是MOVED或者TEMP_MOVED,这时这个网页可以被重定向了，对其重定向的内容进行解析，得到重定向的网址，这时要生成一个新的FetchItem，根据其QueueID放到相应的队列的inProgress集合中，然后再对这个重定向的网页进行抓取
如果状态是EXCEPTION,对当前url所属的FetchItemQueue进行检测，看其异常的网页数有没有超过最大异常网页数，如果大于，那就清空这个队列，认为这个队列中的所有网页都有问题。
如果状态是RETRY或者是BLOCKED，那就输出CrawlDatum，将其状态设置成STATUS_FETCH_RETRY,在下一轮进行重新抓取
如果状态是GONE,NOTFOUND,ACCESS_DENIED,ROBOTS_DENIED，那就输出CrawlDatum，设置其状态为STATUS_FETCH_GONE，可能在下一轮中就不进行抓取了，
如果状态是NOTMODIFIED，那就认为这个网页没有改变过，那就输出其CrawlDatum，将其状态设成成STATUS_FETCH_NOTMODIFIED.
如果所有状态都没有找到，那默认输出其CrawlDatum,将其状态设置成STATUS_FETCH_RETRY，在下一轮抓取中再重试
 
  判断网页重定向的次数，如果超过最大重定向次数，就输出其CrawlDatum，将其状态设置成STATUS_FETCH_GONE

这里有一些细节没有说明，如网页被重定向以后如果操作，相应的协议是如果产生的，这个是通过插件产生的，具体插件是怎么调用的，这里就不说了，以后有机会会再分析一下。 
  


 2.2 下面分析FetcherThread中的另外一个比较重要的方法，就是output具体这个output大概做了如下几件事： 
  
判断抓取的content是否为空，如果不为空，那调用相应的解析插件来对其内容进行解析，然后就是设置当前url所对应的CrawlDatum的一些参数，如当前内容的MD5码，分数等信息
然后就是使用FetchOutputFormat输出当前url的CrawlDatum,Content和解析的结果ParseResult
下面分析一下FetcherOutputFormat中所使用到的ParseOutputFormat.RecordWriter 
  
在生成相应的ParseOutputFormat的RecordWriter过程中，这个RecordWriter会再生成三个RecordWriter来写出parse_text(MapFile),parse_data(MapFile)和crawl_parse(SequenceFile)，我们在segments下具体的segment中看到的三个这样的目录就是这个对象生成的，分别输出了网页的源代码;网页的解析数据，如网页title、外链接、元数据、状态等信息，这里会对外链接进行过滤、规格化，并且用插件计算每一个外链接的初始分数;另一个是网页解析后的CrawlDatum对象，这里会分析当前CrawlDatum中的metadata，从中生成两种新的CrawlDatum，还有就是它会对外链接生成相应的CrawlDatum，放入crawl_parse目录中，这里我还没有看明白。 
  




 3. 总结有点晕了，这里的代码有点复杂，我们来整理一下思路。 
  
 3.1 从目录生成的角度 从Generate后会在segments目录下生成一些要抓取的具体的segment，这里每一个segment下会有一个叫crawl_generate的目录，其中放着要抓取CrawlDatum信息
在Fetch的时候，会输出另外五个目录
 
   content: 这个目录只有在配置了要输出抓取内容时才会输出
crawl_fetch: 这个目录是输出抓取成功后的CrawlDatum信息，这里是对原来crawl_generate目录中的信息进行了一些修改，下面三个目录只有配置了解析参数后才会输出，如果后面调用bin/nutch parse命令
parse_text: 这个目录存放了抓取的网页内容，以提后面建立索引用
parse_data: 这里存入了网页解析后的一些数据，如网页title,外链接信息等
crawl_parse: 这里存储了一些新生成的CrawlDatum信息，如外链接等，以供下一次迭代抓取使用
 
  

 3.2 从数据流的角度Generate生成的CrawlDatum数据首先经过QueueFeeder生产者，放入共享队列
多个消费者(FetcherThread)从共享队列中取得要抓取的FetchItem数据
对FetchItem所对应的url进行抓取，得到相应的抓取内容，对抓取的状态进行判断，回调相应的操作
对抓取的内容进行解析，产生网页的外链接，生成新的CrawlDatum抓取数据，产生解析后的数据
调用FetcherOutputFormat.Writer对象，把CrawlDatum,Content,ParseResult分别写入crawl_fetch,content,(parse_text,parse_data,crawl_parse)目录中

好了，Fetcher的分析也差不多了，可能有一些细节还没有分析到，下面有机会再补上吧。 
 

HTML 元素和有效 DOCTYPES 智慧浩海 HTML html 前端
HTML元素-有效DOCTYPES下面的表格列出了所有的HTML5/HTML4.01/XHTML元素，以及它们会出现在什么文档类型(!DOCTYPE)中：HTML4.01/XHTML1.0TagHTML5TransitionalStrictFramesetXHTML1.1YesYesYesYesYesYesYesYesYesYesNoYesYesYesYesYesYesYesYesYesNoYes
PHP前置知识-HTML学习 freesec html 学习前端
HTML学习1、因特网和万维网1.1、Internet因特网：全球资源的总汇，连接网络的网络1.2、TCP/IP协议簇：传输层/网络层协议1.3、万维网：www（worldwideweb）HTTP超文本传输协议作用：接受和发布HTMl页面URL统一资源定位符协议://域名:端口号/文件路径/文件名.文件后缀http://www.QQ.com.cn:80/tq/index.html1.4、W3C组织
c++基础冰凉的保温瓶 c++开发 c++
extern关键字https://www.cnblogs.com/honernan/p/13431431.html定义和声明在介绍extern之前，我们需要了解一下变量的声明和定义。变量的声明指向程序表名变量的类型和名字，即使得名字为程序所知，一个文件如果想使用别处定义的名字则必须包含对那个名字的声明。而变量的定义指申请存储空间，并将其与变量名相关联，除此之外，还可以为变量指定初始值。在程序中变量
Springboot乐动健身房管理系统6xl64计算机毕业设计-课程设计-期末作业-毕设程序代做含宇网络 spring boot java 后端
Springboot乐动健身房管理系统6xl64计算机毕业设计-课程设计-期末作业-毕设程序代做【免费赠送源码】Springboot乐动健身房管理系统6xl64计算机毕业设计-课程设计-期末作业-毕设程序代做本源码技术栈：项目架构：B/S架构开发语言：Java语言开发软件：ideaeclipse前端技术：Layui、HTML、CSS、JS、JQuery等技术后端技术：JAVA运行环境：Win10、
Pytest项目_day01（HTTP接口）丿罗小黑 Pytest pytest http 网络协议
HTTPHTTP是一个协议（服务器传输超文本到浏览器的传送协议），是基于TCP/IP通信协议来传输数据（HTML文件，图片文件，查询结果等）。访问域名例如www.baidu.com就是百度的域名，我们想要访问百度，就需要使用DNS，来将www.baidu.com域名解析为ip地址。随后客户端向服务端发起TCP请求，三次握手进行连接，三次握手如下：客户端向服务端说：你准备好了吗，我要发送请求了服务端
oracle数据库转mysql数据库一直想成为大神的菜鸟数据库 oracle mysql
1.删除oracle相关配置1.1删除pom中的oracle依赖1.2删除有关@Configuration中oracle配置2.驱动引入引入mysql依赖mysqlmysql-connector-java8.0.13org.springframework.bootspring-boot-starter-jdbc3.配置文件更改spring:datasource:druid:url:jdbc:mys
大语言模型的训练数据清洗策略 gs80140 AI python
目录大语言模型的训练数据清洗策略1.数据去重与标准化问题解决方案示例代码（Python实现数据去重）：2.过滤有害内容问题解决方案示例代码（基于关键词过滤有害内容）：3.纠正数据不均衡问题解决方案示例代码（欠采样非均衡数据）：4.识别和纠正刻板印象问题解决方案示例代码（简单的数据增强）：5.处理低质量与无关数据问题解决方案示例代码（去除HTML标签）：6.处理时效性数据问题解决方案示例代码（基于时
用VSCode做前端开发北子ALF 杂谈 vscode ide 编辑器
vscode写前端和记markdown还是很好用的，虽然在C++,Java和Python大型项目开发的体验不如vs,idea和pycharm自动生成html骨架打个感叹号预览网页：liveserver插件
超全Java入门学习路线指南 Javaaaaaaaaaaa13 java 开发语言前端 spring spring boot eclipse tomcat
Java基础入门Java高级阶段数据库和JDBCHtml&JavascriptJsp&ServletStruts2框架讲解Spring框架讲解Hibernate框架讲解流行技术学习1、Java基础入门1、Java入门基础如果你没有任何的编程基础，那么本栏目的内容对你来说是至关重要的。打好基础，以后学习就会一帆风顺了。我们会先讲解了Java程序的开发环境的搭建、编写流程、工作原理等内容，接着学习有关
网络安全入门教程（非常详细）从零基础入门到精通，看完这一篇就够了白帽黑客坤哥 web安全安全网络网络安全物联网
href="https://csdnimg.cn/release/blogv2/dist/mdeditor/css/editerView/kdoc_html_views-1a98987dfd.css"rel="stylesheet"/>href="https://csdnimg.cn/release/blogv2/dist/mdeditor/css/editerView/ck_htmledit_v
Spring Boot - Spring Boot 静态资源映射（默认静态资源映射、自定义静态资源映射）我命由我12345 Java -简化库与框架编程 spring boot 后端 java java-ee spring intellij-idea intellij idea
一、静态资源映射在SpringBoot中，静态资源的映射是指将特定的URL路径与静态资源关联起来静态资源有例如，HTML、CSS、JS、图片等这使得客户端可以通过URL路径访问这些资源二、默认静态资源映射概述SpringBoot默认会将以下目录中的文件映射为静态资源classpath:/static/classpath:/public/classpath:/resources/classpath:
JAVA毕业设计河南口腔医疗机构线上服务系统计算机源码+lw文档+系统+调试部署+数据库煦洋cxsj985 java jvm 开发语言
JAVA毕业设计河南口腔医疗机构线上服务系统计算机源码+lw文档+系统+调试部署+数据库JAVA毕业设计河南口腔医疗机构线上服务系统计算机源码+lw文档+系统+调试部署+数据库本源码技术栈：项目架构：B/S架构开发语言：Java语言开发软件：ideaeclipse前端技术：Layui、HTML、CSS、JS、JQuery等技术后端技术：JAVA运行环境：Win10、JDK1.8数据库：MySQL5
数据访问：JPA 关联& MyBatis 斗-匕 oracle 数据库
创建项目添加关键依赖包:任何使用方式都需要首在pox.xml中引入mybatis-spring-boot-starter的启动器，我们使用项目向导添加的依赖如下：application.ymlspring:#配置数据源datasource:driver-class-name:com.mysql.cj.jdbc.Driverurl:jdbc:mysql://localhost:3306/crm?us
安卓环境脚本 nb的码农 linux杂项 linux
sudoapt-getinstalluuiduuid-devzlib1g-devliblz-devliblzo2-2liblzo2-devlzopgit-corecurlu-boot-toolsmtd-utilsandroid-tools-fsutilsopenjdk-8-jdkdevice-tree-compiler\gdiskm4libz-devgitgnupgflexbisongperfli
Python 视频爬取教程小白教程 python Python Python 视频爬取教程 Python 视频爬取 Python教程 Python 视频教程
文章目录前言基本原理环境准备Python安装选择Python开发环境安装必要库示例1：爬取简单直链视频示例2：爬取基于HTML5的视频（以某简单视频网站为例）前言以下是一个较为完整的Python视频爬取教程，包含基本原理、不同网站的爬取示例以及注意事项。基本原理视频爬取本质上是模拟浏览器向服务器发送请求，获取包含视频信息的网页内容，解析出视频的真实下载地址，然后将视频文件下载到本地。一般会用到re
试用qxl-wddm-0.18 henweimei
今天发现spice官网上有qxl-wddm的驱动，决定研究一下https://www.spice-space.org/download.html关于WDDM，来自百科https://baike.baidu.com/item/WDDM/1408199?fr=aladdin是对旧版的WindowsXP上的XPDM架构的改良，XPDM使用2D的GDI（GraphicsDeviceInterface）
auto.js_HTTP协议_get与post请求_ZHOU125disorder_ zjing125 #auto.js基础学习 auto.js HTTP协议 get与post请求
HTTP协议_get与post请求简介：HTTP协议对地址url进行一次HTTPGET请求http.get(url[,options,callback])url(string)请求的URL地址，需要以"http://"或"https://"开头。如果url没有以"http://"开头，则默认为"http://"。options(Object)请求选项。参见[http.request()][]。ca
HTML基础部分倒霉男孩 html+css学习笔记 html 前端
HTML基础部分所有HTML文档必须以开始。所有HTML文档本身以开始，以结尾。HTML文档中看见部分以开始，以结尾。标题：由到定义，定义最重要的标题，定义最不重要的标题。段落：使用定义，链接：使用定义，图片：使用标签定义scr（图片源路径）alt（附加信息）宽度width和高度height也可以添加。元素定义了文档，该元素又含两个其他HTML元素和定义了一个标题定义了一个段落标题段落结束标签是非
多线程(4) 噼里啪啦啦. java 算法前端
接着介绍多线程安全问题.由于线程是随机调度,抢占式执行的,随机性就会导致程序的执行顺序产生不同的结果,从而产生BUG.下面是一个线程不安全的例子.packageDemo4;publicclassDemo1{privatestaticintcount=0;publicstaticvoidmain(String[]args)throwsInterruptedException{Threadt1=new
HTML期末设计——代码篇 green5+1 html
事先声明这个网页设计也就是用了我学到的知识做的一个中规中矩的网页，可以给以后的大一新生们做个参考，和商业网站的效果肯定是没得比的，期望太高的可以关掉了引入页效果图：欢迎来到香氛密语body{background:url(img/1的背景图.jpg)no-repeatcentercenter;background-size:cover;/*让背景图基于容器大小伸缩*/background-attac
HTML CSS样式齐尹秦 HTML学习笔记前端学习
CSS(CascadingStyleSheets)用于渲染HTML元素标签的样式。如何使用CSSCSS是在HTML4开始使用的,是为了更好的渲染HTML元素而引入的.CSS可以通过以下方式添加到HTML中:内联样式-在HTML元素中使用"style"属性内部样式表-在HTML文档头部区域使用元素来包含CSS外部引用-使用外部CSS文件最好的方式是通过外部引用CSS文件.内联样式当特殊的样式需要应用
NFS,Nginx综合实验小何学计算机云原生 nginx 运维
1.实验要求配置NFS服务器作为ngxin服务的存储目录，并在目录中创建index.html文件，当访问http://你的IP地址时，可以成功显示index.html文件的内容。|角色|软件|IP|主机名|系统||NFS服务器|nfs-utils|192.168.72.7|server|RHEL9||WEB服务|nfs-utils,nginx|192.168.72.8|web|openEuler|
解决Python中递归报错的问题硫酸锌01 Python python
1、问题背景Duringhandlingoftheaboveexception,anotherexceptionoccurred:有没有见到过这个报错？当出现这个报错的时候，意味着报错信息特别特别地长，难以关注到有效信息。那么这种报错是如何产生的？以及如何设计才能避免产生这种冗长的报错？2、我的需求如果我有一个Python的多维数组列表：lst=[[[1,2],[3,4]],[[5,6],[7,8
ArcGIS 10.1 Engine Developer Kit 和 ArcGIS 10.1 Engine 快速入门指南冷月宫主 arcinfo
http://resources.arcgis.com/zh-cn/help/quick-start-guides/10.1/index.html#//01q100000004000000ArcGIS10.1EngineDeveloperKit和ArcGIS10.1Engine快速入门指南
【多线程】单例模式隔壁小查单例模式
文章目录1.单例模式1.1什么是单例模式1.2为什么使用单例模式1.3实现单例模式1.3.1饿汉模式1.3.1懒汉模式1.单例模式1.1什么是单例模式单例模式是一种创建型设计模式，它确保一个类只有一个实例，并提供一个全局访问点来访问该实例。单例=单个实例(对象)1.2为什么使用单例模式使用单例模式，就可以对咱们的代码进行一个更严格的校验和检查。示例：有的时候代码中，需要使用一个对象，来管理/持有大
Android 高频面试必问之Java基础 2401_83641443 程序员 android 面试 java
BootstrapClassLoader：Bootstrap类加载器负责加载rt.jar中的JDK类文件，它是所有类加载器的父加载器。Bootstrap类加载器没有任何父类加载器，如果调用String.class.getClassLoader()，会返回null，任何基于此的代码会抛出NUllPointerException异常，因此Bootstrap加载器又被称为初始类加载器。ExtClassL
批量将将xlsx转为csv，将csv转为csv utf-8 Znnjcidmslz 数据 python pandas
csv转换为csvutf-8将csv格式文件批量转换为csvutf-8格式文件，以下为使用Python处理的代码：importosimportpandasaspd#存有文件的路径current_path=os.getcwd()#current_path=os.path.dirname('G:/weather_output2')#转换之后存放的路径为“UTF8”，会检查当前路径是否有，没有就创建ut
企业信息化整体架构图 weixin_33937913 系统架构
今天无意间发现一张企业信息化的图，放在这里以后参考。CollaboraticeCommerce转载于:https://www.cnblogs.com/Masterpiece/archive/2004/12/29/83696.html
LangChain使用Prompt02 科研小达人 langchain 前端
1.设置提示fromlangchain.promptsimportChatPromptTemplateprompt_template=ChatPromptTemplate.from_messages([("system","你是一位专业的翻译，能够将{input_language}翻译成{output_language}，并且输出文本会根据用户要求的任何语言风格进行调整。请只输出翻译后的文本，不要
本地运行chatglm3-6b 和 ChatPromptTemplate的结合使用 hehui0921 LangChain java 服务器前端
importgradiofromtransformersimportAutoTokenizer,AutoModelfromlangchain_core.promptsimportChatPromptTemplatefromlangchain_core.output_parsersimportStrOutputParserfromlangchain_community.llmsimportHuggi
多线程编程之join()方法周凡杨 java JOIN 多线程编程线程
现实生活中，有些工作是需要团队中成员依次完成的，这就涉及到了一个顺序问题。现在有T1、T2、T3三个工人，如何保证T2在T1执行完后执行，T3在T2执行完后执行？问题分析：首先问题中有三个实体，T1、T2、T3，因为是多线程编程，所以都要设计成线程类。关键是怎么保证线程能依次执行完呢？ Java实现过程如下： public class T1 implements Runnabl
java中switch的使用 bingyingao java enum break continue
java中的switch仅支持case条件仅支持int、enum两种类型。用enum的时候，不能直接写下列形式。 switch (timeType) { case ProdtransTimeTypeEnum.DAILY: break; default: br
hive having count 不能去重 daizj hive 去重 having count 计数
hive在使用having count()是，不支持去重计数 hive (default)> select imei from t_test_phonenum where ds=20150701 group by imei having count(distinct phone_num)>1 limit 10; FAILED: SemanticExcep
WebSphere对JSP的缓存周凡杨 WAS JSP 缓存
对于线网上的工程，更新JSP到WebSphere后，有时会出现修改的jsp没有起作用，特别是改变了某jsp的样式后，在页面中没看到效果，这主要就是由于websphere中缓存的缘故，这就要清除WebSphere中jsp缓存。要清除WebSphere中JSP的缓存，就要找到WAS安装后的根目录。现服务
设计模式总结朱辉辉33 java 设计模式
1.工厂模式 1.1 工厂方法模式 (由一个工厂类管理构造方法) 1.1.1普通工厂模式(一个工厂类中只有一个方法) 1.1.2多工厂模式(一个工厂类中有多个方法) 1.1.3静态工厂模式(将工厂类中的方法变成静态方法) &n
实例：供应商管理报表需求调研报告老A不折腾 finereport 报表系统报表软件信息化选型
引言随着企业集团的生产规模扩张，为支撑全球供应链管理，对于供应商的管理和采购过程的监控已经不局限于简单的交付以及价格的管理，目前采购及供应商管理各个环节的操作分别在不同的系统下进行，而各个数据源都独立存在，无法提供统一的数据支持；因此，为了实现对于数据分析以提供采购决策，建立报表体系成为必须。业务目标 1、通过报表为采购决策提供数据分析与支撑 2、对供应商进行综合评估以及管理，合理管理和
mysql 林鹤霄
转载源：http://blog.sina.com.cn/s/blog_4f925fc30100rx5l.html mysql -uroot -p ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: YES) [root@centos var]# service mysql
Linux下多线程堆栈查看工具(pstree、ps、pstack) aigo linux
原文：http://blog.csdn.net/yfkiss/article/details/6729364 1. pstree pstree以树结构显示进程$ pstree -p work | grep adsshd(22669)---bash(22670)---ad_preprocess(4551)-+-{ad_preprocess}(4552) &n
html input与textarea 值改变事件 alxw4616 JavaScript
// 文本输入框(input) 文本域(textarea)值改变事件 // onpropertychange(IE) oninput(w3c) $('input,textarea').on('propertychange input', function(event) { console.log($(this).val()) });
String类的基本用法百合不是茶 String
字符串的用法; // 根据字节数组创建字符串 byte[] by = { 'a', 'b', 'c', 'd' }; String newByteString = new String(by); 1,length() 获取字符串的长度 &nbs
JDK1.5 Semaphore实例 bijian1013 java thread java多线程 Semaphore
Semaphore类一个计数信号量。从概念上讲，信号量维护了一个许可集合。如有必要，在许可可用前会阻塞每一个 acquire()，然后再获取该许可。每个 release() 添加一个许可，从而可能释放一个正在阻塞的获取者。但是，不使用实际的许可对象，Semaphore 只对可用许可的号码进行计数，并采取相应的行动。 S
使用GZip来压缩传输量 bijian1013 java GZip
启动GZip压缩要用到一个开源的Filter：PJL Compressing Filter。这个Filter自1.5.0开始该工程开始构建于JDK5.0，因此在JDK1.4环境下只能使用1.4.6。 PJL Compressi
【Java范型三】Java范型详解之范型类型通配符 bit1129 java
定义如下一个简单的范型类， package com.tom.lang.generics; public class Generics<T> { private T value; public Generics(T value) { this.value = value; } }
【Hadoop十二】HDFS常用命令 bit1129 hadoop
1. 修改日志文件查看器 hdfs oev -i edits_0000000000000000081-0000000000000000089 -o edits.xml cat edits.xml 修改日志文件转储为xml格式的edits.xml文件，其中每条RECORD就是一个操作事务日志 2. fsimage查看HDFS中的块信息等 &nb
怎样区别nginx中rewrite时break和last ronin47
在使用nginx配置rewrite中经常会遇到有的地方用last并不能工作，换成break就可以，其中的原理是对于根目录的理解有所区别，按我的测试结果大致是这样的。 location / { proxy_pass http://test;
java-21.中兴面试题输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等于 m bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; public class CombinationToSum { /* 第21 题 2010 年中兴面试题编程求解：输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等
eclipse svn 帐号密码修改问题开窍的石头 eclipse SVN svn帐号密码修改
问题描述： Eclipse的SVN插件Subclipse做得很好，在svn操作方面提供了很强大丰富的功能。但到目前为止，该插件对svn用户的概念极为淡薄，不但不能方便地切换用户，而且一旦用户的帐号、密码保存之后，就无法再变更了。解决思路：删除subclipse记录的帐号、密码信息，重新输入
[电子商务]传统商务活动与互联网的结合 comsci 电子商务
某一个传统名牌产品，过去销售的地点就在某些特定的地区和阶层，现在进入互联网之后，用户的数量群突然扩大了无数倍，但是，这种产品潜在的劣势也被放大了无数倍，这种销售利润与经营风险同步放大的效应，在最近几年将会频繁出现。。。。如何避免销售量和利润率增加的
java 解析 properties-使用 Properties-可以指定配置文件路径 cuityang java properties
#mq xdr.mq.url=tcp://192.168.100.15:61618; import java.io.IOException; import java.util.Properties; public class Test { String conf = "log4j.properties"; private static final
Java核心问题集锦 darrenzhu java 基础核心难点
注意，这里的参考文章基本来自Effective Java和jdk源码 1)ConcurrentModificationException 当你用for each遍历一个list时，如果你在循环主体代码中修改list中的元素，将会得到这个Exception，解决的办法是： 1)用listIterator, 它支持在遍历的过程中修改元素， 2)不用listIterator, new一个
1分钟学会Markdown语法 dcj3sjt126com markdown
markdown 简明语法基本符号 *,-,+ 3个符号效果都一样，这3个符号被称为 Markdown符号空白行表示另起一个段落 `是表示inline代码，tab是用来标记代码段，分别对应html的code，pre标签换行单一段落( <p>) 用一个空白行连续两个空格会变成一个 <br> 连续3个符号，然后是空行
Gson使用二（GsonBuilder） eksliang json gson GsonBuilder
转载请出自出处：http://eksliang.iteye.com/blog/2175473 一.概述 GsonBuilder用来定制java跟json之间的转换格式二.基本使用实体测试类：温馨提示：默认情况下@Expose注解是不起作用的,除非你用GsonBuilder创建Gson的时候调用了GsonBuilder.excludeField
报ClassNotFoundException: Didn't find class "...Activity" on path: DexPathList gundumw100 android
有一个工程，本来运行是正常的，我想把它移植到另一台PC上，结果报： java.lang.RuntimeException: Unable to instantiate activity ComponentInfo{com.mobovip.bgr/com.mobovip.bgr.MainActivity}: java.lang.ClassNotFoundException: Didn't f
JavaWeb之JSP指令 ihuning javaweb
要点 JSP指令简介 page指令 include指令 JSP指令简介 JSP指令（directive）是为JSP引擎而设计的，它们并不直接产生任何可见输出，而只是告诉引擎如何处理JSP页面中的其余部分。 JSP指令的基本语法格式： <%@ 指令属性名="
mac上编译FFmpeg跑ios 啸笑天 ffmpeg
1、下载文件：https://github.com/libav/gas-preprocessor，复制gas-preprocessor.pl到/usr/local/bin/下，修改文件权限：chmod 777 /usr/local/bin/gas-preprocessor.pl 2、安装yasm-1.2.0 curl http://www.tortall.net/projects/yasm
sql mysql oracle中字符串连接 macroli oracle sql mysql SQL Server
有的时候，我们有需要将由不同栏位获得的资料串连在一起。每一种资料库都有提供方法来达到这个目的： MySQL: CONCAT() Oracle: CONCAT(), || SQL Server: + CONCAT() 的语法如下： Mysql 中 CONCAT(字串1, 字串2, 字串3, ...): 将字串1、字串2、字串3，等字串连在一起。请注意，Oracle的CON
Git fatal: unab SSL certificate problem: unable to get local issuer ce rtificate qiaolevip 学习永无止境每天进步一点点 git 纵观千象
// 报错如下： $ git pull origin master fatal: unable to access 'https://git.xxx.com/': SSL certificate problem: unable to get local issuer ce rtificate // 原因：由于git最新版默认使用ssl安全验证，但是我们是使用的git未设
windows命令行设置wifi surfingll windows wifi 笔记本wifi
还没有讨厌无线wifi的无尽广告么，还在耐心等待它慢慢启动么教你命令行设置笔记本电脑wifi： 1、开启wifi命令 netsh wlan set hostednetwork mode=allow ssid=surf8 key=bb123456 netsh wlan start hostednetwork pause 其中pause是等待输入，可以去掉 2、
Linux（Ubuntu）下安装sysv-rc-conf wmlJava linux ubuntu sysv-rc-conf
安装：sudo apt-get install sysv-rc-conf 使用：sudo sysv-rc-conf 操作界面十分简洁，你可以用鼠标点击，也可以用键盘方向键定位，用空格键选择，用Ctrl+N翻下一页，用Ctrl+P翻上一页，用Q退出。背景知识 sysv-rc-conf是一个强大的服务管理程序，群众的意见是sysv-rc-conf比chkconf
svn切换环境，重发布应用多了javaee标签前缀 zengshaotao javaee
更换了开发环境，从杭州，改变到了上海。svn的地址肯定要切换的，切换之前需要将原svn自带的.svn文件信息删除，可手动删除，也可通过废弃原来的svn位置提示删除.svn时删除。然后就是按照最新的svn地址和规范建立相关的目录信息，再将原来的纯代码信息上传到新的环境。然后再重新检出，这样每次修改后就可以看到哪些文件被修改过，这对于增量发布的规范特别有用。检出

Nutch 1.3 学习笔记 5-1 FetchThread

1.1 Fetcher的入口函数fetch(Path segment,int threads, boolean parsing)

1.2 Fetcher的run方法分析

2. Fetcher.FetcherThread

2.1 这个类主要是用来从队列中得到FetchItem，下面来看一下其run方法，其大概做了几件事：

2.2 下面分析FetcherThread中的另外一个比较重要的方法，就是output

3. 总结

3.1 从目录生成的角度

3.2 从数据流的角度

你可能感兴趣的:(多线程,html,exception,Nutch,url,output,Parsing)