shaopeng5211

自己动手写搜索引擎（常搜吧历程七#解析文档之HTML#）（Java、Lucene、hadoop）

一、垂直搜索介绍

1、垂直搜索--即需要抓去大量的网页，分析其中的数据。垂直搜索更着重于正文内容模式分离，数据调整，相关链接分析，是一种结构化分析过程。

2、垂直搜索技术主要分为两个层次：模版级和网页库级

3、模版级是针对网页进行模版设定或者自动生成模版的方式抽取数据，对网页的采集也是针对性的采集，适合规模比较小、信息源少且稳定的需求，优点是快速实施、成本低、灵活性强，缺点是后期维护成本高，信息源和信息量小。

4、网页库级和模版方式最大的区别是对具体网页不依赖，可针对任意正常的网页信息采集信息抽取。缺点是其灵活性差、成本高。

垂直搜索大致需要以下技术：

1、信息采集技术

2、网页信息抽取技术

3、信息的处理技术（重复识别、聚类、比较、分析等）

4、语意相关性分析

5、分词

6、索引

二、使用HttpClient采集页面

1、HTTPClient项目就是专门设计来简化HTTP客户端与服务器进行各种通讯编程。

2、HTTPClient是基于HttpCore实现的一个HTTP/1.1兼容HTTP客户端，它提供了一系列可重用的客户端身份验证、HTTP状态保持、HTTP链接管理module。功能丰富的HTTPClient同时兼具出色的可拓展性和健壮性，目前已经成为了最为流行的JavaHttp客户端组件，为开发Web浏览器、WebService客户端提供了很大的便利。

下载地址： http://hc.apache.org/downloads.cgi

使用HttpClient

一般情况下，使用HttpClient需要以下5个步骤：

1、创建HttpClient的实例

2、创建某种连接方法的实例，在这里是最常见的是Get和Post

3、调用第一步中创建好的HttpClient实例的execute方法，得到执行结果

4、释放连接

5、对得到后的内容进行处理

下面来看两个抓去网页的实例

1、抓取搜索后的页面然后保存

package com.qianyan.test;

import java.io.BufferedReader;
import java.io.File;
import java.io.FileWriter;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;

import org.apache.http.HttpEntity;
import org.apache.http.HttpResponse;
import org.apache.http.client.ClientProtocolException;
import org.apache.http.client.HttpClient;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.DefaultHttpClient;

public class TestHttpClient {

	public static void main(String[] args) throws ClientProtocolException, IOException {
		HttpClient httpClient = new DefaultHttpClient();
		HttpGet httpGet = new HttpGet("http://www.baidu.com/s?wd=java");
		HttpResponse response = httpClient.execute(httpGet);
		HttpEntity entity = response.getEntity();

		InputStream ins = entity.getContent();
		BufferedReader reader = new BufferedReader(new InputStreamReader(ins));
		FileWriter writer = new FileWriter(new File("E:/baidu.htm"));

		String strLine = reader.readLine();
		while (null != strLine) {
			writer.write(strLine);
			strLine = reader.readLine();
		}
		writer.close();
		ins.close();
		reader.close();
		httpClient.getConnectionManager().shutdown();
		System.out.println("网页生成完毕！");
	}
}

1、抓取搜索后的页面打印出来

package com.qianyan.test;

import org.apache.http.HttpEntity;
import org.apache.http.HttpResponse;
import org.apache.http.client.HttpClient;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.DefaultHttpClient;
import org.apache.http.util.EntityUtils;

public class TestHttpClient2 {

	public static void main(String[] args) {
	    HttpClient httpClient = new DefaultHttpClient();  
	    try {  
	          
	        //创建HttpGet  
	        HttpGet httpGet = new HttpGet("http://www.ifeng.com");  
	        System.err.println("executing request " + httpGet.getURI());  
	        //执行get请求  
	        HttpResponse response = httpClient.execute(httpGet);  
	        //获取响应实体  
	        HttpEntity entity = response.getEntity();  
	        System.err.println("======================================================");  
	        //打印响应状态  
	        System.out.println(response.getStatusLine());  
	        if (entity != null) {  
	            //打印响应内容的长度  
	      
	            System.out.println("Response content lenght:"  
	                    + entity.getContentLength());  
	            String content = EntityUtils.toString(entity);  
	              
	            //解决HttpClient获取中文乱码 ，用String对象进行转码  
	            System.out.println("Response content:"  
	                    + new String(content.getBytes("ISO-8859-1"),"UTF-8"));  
	        }  
	        System.err.println("==========================================================");  
	    } catch (Exception e) {  
	        // TODO: handle exception  
	    }finally{  
	        //关闭连接，释放资源  
	        httpClient.getConnectionManager().shutdown();  
	    }  
	}
}

三、使用JTidy

1、Tidy是W3C用来解析网页的一个软件包，可以方便地将HTML文档转化为符合XML标准的文档，由于XML可以方便地使用XSLT技术对内容进行抽取，所以使用Tidy配合XSLT可以方便地将各种网页的内容抽取出来，保存成我们需要的格式。

2、通过JTidy可以方便地将标准的HTML网页转换为XML的DOM对象，然后，通过XPath和XSTL将需要的内容抽取出来。

3、下载地址：http://sourceforge.net/projects/jtidy

4、JTidy的代码实现

package com.qianyan.test;

import java.io.File;
import java.io.FileInputStream;
import java.io.FileOutputStream;
import java.io.InputStreamReader;

import org.w3c.dom.Document;
import org.w3c.tidy.Tidy;

public class TestJTidy {

	public static void main(String[] args) throws Exception {
		FileInputStream fis = new FileInputStream(new File("E:/baidu.htm"));
		InputStreamReader isr = new InputStreamReader(fis, "GBK");
		
		FileOutputStream fos = new FileOutputStream(new File("E:/baidu.xml"));
		Tidy tidy = new Tidy();
		tidy.setXmlTags(true);
		Document doc = tidy.parseDOM(isr, null);
		tidy.pprint(doc, fos);
		fos.close();
		fis.close();
		isr.close();
	}
}

四、使用Nekohtml

1、Nekohtml是一个Java语言的HTML扫描器和标签补全器（tag balancer），使得程序能解析HTML文档并用标准的XML借口来访问其中的信息。这个解析器能够扫描HTML文件并“修正”许多作者（人或机器）在编写HTML文档过程中常犯的错误。

2、Nekohtml能增补缺失的父元素、自动用结束标签关闭相应的元素，以及不匹配的内嵌元素标签。

NekoHTML的开发使用了Xerces Native Interface（XNI），后者是Xerces2的实现基础。

3、下载地址：http://nekohtml.sourceforge.net/index.html

4、代码实现：

package com.qianyan.test;

import java.io.BufferedReader;
import java.io.FileReader;

import org.cyberneko.html.parsers.DOMParser;
import org.w3c.dom.Document;
import org.w3c.dom.Element;
import org.w3c.dom.Node;
import org.w3c.dom.NodeList;
import org.xml.sax.InputSource;

public class TestNekoHTML {
    
	public static String textExtractor(Node root){
		   //若是文本的话，直接返回
		   if (root.getNodeType() == Node.TEXT_NODE) {
		    return root.getNodeValue().trim();
		   }
		   if(root.getNodeType() == Node.ELEMENT_NODE) {
		    Element elmt = (Element) root;
		    //抛弃脚本
		    if (elmt.getTagName().equals("STYLE")
		      || elmt.getTagName().equals("SCRIPT")
		      ||elmt.getTagName().equals("BR"))
		     return "";
		   
		    NodeList children = elmt.getChildNodes();
		    StringBuilder text = new StringBuilder();
		    for (int i = 0; i < children.getLength(); i++) {
		     text.append(textExtractor(children.item(i)));
		    }
		    return text.toString();
		   }
		   //对其他类型的节点，返回空值
		   return "";
		}
	
	/**
	 * @param args
	 * @throws Exception 
	 */
	public static void main(String[] args) throws Exception {
		DOMParser parser=new DOMParser();
		BufferedReader reader=new BufferedReader(new FileReader("e:/baidu1.htm"));
		parser.parse(new InputSource(reader));
		Document doc=parser.getDocument();
        Node body=doc.getElementsByTagName("body").item(0);
        String str=textExtractor(body);
        System.out.println(str);
        
	}

}

五、使用HTMLParser

1、HTML Parser是一个对HTML进行分析的快速实时的解析器。

2、用法：

1）Visitor

2)）Filter

3、下载地址：http://htmlparser.sourceforget.net/

4、代码实现：

package com.qianyan.test;

import org.htmlparser.Node;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.Tag;
import org.htmlparser.filters.NodeClassFilter;
import org.htmlparser.filters.OrFilter;
import org.htmlparser.filters.TagNameFilter;
import org.htmlparser.tags.ImageTag;
import org.htmlparser.tags.InputTag;
import org.htmlparser.tags.LinkTag;
import org.htmlparser.tags.OptionTag;
import org.htmlparser.tags.SelectTag;
import org.htmlparser.util.NodeList;
import org.htmlparser.util.ParserException;
import org.htmlparser.visitors.NodeVisitor;
import org.htmlparser.visitors.ObjectFindingVisitor;
import org.junit.Ignore;
import org.junit.Test;

public class TestHtmlParser {

	/**
	 * 测试ObjectFindVisitor的用法
	 */
	@Test
//	@Ignore
	public void testImageVistor() {
		try {
			ImageTag imgLink;
			ObjectFindingVisitor visitor = new ObjectFindingVisitor(
					ImageTag.class);
			Parser parser = new Parser();
			parser.setURL("http://www.baidu.com");
			parser.setEncoding(parser.getEncoding());
			parser.visitAllNodesWith(visitor);
			Node[] nodes = visitor.getTags();

			for (int i = 0; i < nodes.length; i++) {
				imgLink = (ImageTag) nodes[i];
				StringBuilder sb = new StringBuilder();
				sb.append(" ImageURL = " + imgLink.getImageURL());
				sb.append("---- ImageLocation = " + imgLink.extractImageLocn());
				sb.append("--- SRC = " + imgLink.getAttribute("SRC"));
				System.out.println(sb.toString());

			}
		} catch (Exception e) {
			e.printStackTrace();
		}
	}

	/**
	 * 测试NodeVisitor的用法，遍历所有节点
	 */
	@Test
	@Ignore
	public void testVisitorAll() {
		try {
			Parser parser = new Parser();
			parser.setURL("http://www.baidu.com");
			parser.setEncoding(parser.getEncoding());
			NodeVisitor visitor = new MyNodeVisitor();
			parser.visitAllNodesWith(visitor);
		} catch (ParserException e) {
			e.printStackTrace();
		}
	}

	/**
	 * 测试NodeClassFilter用法
	 */
	@Test
	@Ignore
	public void testLinkTag(){
		try{
			NodeFilter filter = new NodeClassFilter(LinkTag.class);
			Parser parser = new Parser();
			parser.setURL("http://www.baidu.com");
			parser.setEncoding(parser.getEncoding());
			NodeList list = parser.extractAllNodesThatMatch(filter);
			for(int i = 0; i < list.size(); i++){
				LinkTag node = (LinkTag) list.elementAt(i);
				System.out.println("Link is :" + node.extractLink());
			}
		}catch(Exception e){
			e.printStackTrace();
		}
	}
	
	/**
	 * 测试TagNameFilter用法
	 */
	@Test
	@Ignore
	public void testNodeFilter(){
		try{
			NodeFilter filter = new TagNameFilter("IMG");
			Parser parser = new Parser();
			parser.setURL("http://www.baidu.com");
			parser.setEncoding(parser.getEncoding());
			NodeList list = parser.extractAllNodesThatMatch(filter);
			for(int i = 0; i < list.size(); i++){
				System.out.println(" " + list.elementAt(i).toHtml());
			}
		}catch(Exception e){
			e.printStackTrace();
		}
	}
	
	/**
	 * 测试OrFilter的用法
	 */
	@Test
	@Ignore
	public void testOrFliter(){
		NodeFilter inputFilter = new NodeClassFilter(InputTag.class);
		NodeFilter selectFilter = new NodeClassFilter(SelectTag.class);
		NodeList  nodeList = null;
		try{
			Parser parser = new Parser();
			parser
			.setInputHTML("<head><title>OrFilter Test</title>"
		    + "<link href=http://www.baidu.com/test01/css.css’ text=’text/css’ rel=’stylesheet’ />"
		    + "<link href=http://www.baidu.com/test02/css.css’ text=’text/css’ rel=’stylesheet’ />"
		    + "</head>"
		    + "<body>"
		    + "<input type=’text’ value=’text1′ name=’text1′/>"
		    + "<input type=’text’ value=’text2′ name=’text2′/>"
		    + "<select><option id=’1′>1</option><option id=’2′>2</option><option id=’3′>3</option></select>"
		    + "<a href='http://www.baidu.com/'>baidu.com</a>"
		    + "</body>");
			
			parser.setEncoding(parser.getEncoding());
			OrFilter lastFilter = new OrFilter();
			lastFilter.setPredicates(new NodeFilter[]{selectFilter, inputFilter});
			nodeList = parser.parse(lastFilter);
			for(int i = 0; i <= nodeList.size(); i++){
				if(nodeList.elementAt(i) instanceof InputTag){
					InputTag tag = (InputTag)nodeList.elementAt(i);
					System.out.println("OrFilter tag name is :" + tag.getTagName()
							+ " ,tag value is:" + tag.getAttribute("value"));
				}
				if(nodeList.elementAt(i) instanceof SelectTag){
					SelectTag tag = (SelectTag)nodeList.elementAt(i);
					NodeList list = tag.getChildren();
					for(int j = 0; j < list.size(); j++){
						OptionTag option = (OptionTag)list.elementAt(j);
						System.out.println("OrFilter Option"
							+ option.getOptionText());
					}
				}
			}
		}catch(Exception e){
			e.printStackTrace();
		}
	}

}

/**
 * 内部实现了NodeVisitor下的visitTag方法
 * @author Administrator
 *
 */
class MyNodeVisitor extends NodeVisitor {
	public void visitTag(Tag tag) {
		System.out
				.println("Tag name is :" + tag.getTagName()
						+ "--- Class is :" + tag.getClass() + "---"
						+ tag.getText());
	}
}

#千锋逆战班郭燕学习的一天开启郭千岁呗
在千锋"逆战"学习云计算第17天加油努力会有好结果复习昨天知识中国加油！武汉加油！千峰加油!我自己加油！
浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
信息系统安全相关概念(上) YuanDaima2048 课程笔记基础概念安全信息安全笔记
文章总览：YuanDaiMa2048博客文章总览下篇:信息系统安全相关概念(下)信息系统安全相关概念[上]信息系统概述信息系统信息系统架构信息系统发展趋势：信息系统日趋大型化、复杂化信息系统面临的安全威胁信息系统安全架构设计--以云计算为例信息系统安全需求及安全策略自主访问控制策略DAC强制访问控制策略MAC信息系统概述信息系统用于收集、存储和处理数据以及传递信息、知识和数字产品的一组集成组件。几
【2023年】云计算金砖牛刀小试6 geekgold 云计算服务器网络 kubernetes 容器
第一套【任务1】私有云服务搭建[10分]【题目1】基础环境配置[0.5分]使用提供的用户名密码，登录提供的OpenStack私有云平台，在当前租户下，使用CentOS7.9镜像，创建两台云主机，云主机类型使用4vCPU/12G/100G_50G类型。当前租户下默认存在一张网卡，自行创建第二张网卡并连接至controller和compute节点（第二张网卡的网段为10.10.X.0/24，X为工位号
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
Hadoop 傲雪凌霜，松柏长青后端大数据 hadoop 大数据分布式
ApacheHadoop是一个开源的分布式计算框架，主要用于处理海量数据集。它具有高度的可扩展性、容错性和高效的分布式存储与计算能力。Hadoop核心由四个主要模块组成，分别是HDFS（分布式文件系统）、MapReduce（分布式计算框架）、YARN（资源管理）和HadoopCommon（公共工具和库）。1.HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
raksmart洛杉矶云服务器全面解析 rak部落服务器 raksmart洛杉矶云服务器
RAKsmart洛杉矶云服务器是一种高性能的云计算解决方案，专为满足不同业务需求而设计。以下是对RAKsmart洛杉矶云服务器的具体介绍，rak小编为您整理发布raksmart洛杉矶云服务器全面解析。1.线路选择：RAKsmart洛杉矶云服务器提供多种网络线路选项，包括大陆优化线路和CN2ONLY线路。这些线路能够提供更稳定和快速的连接速度，特别适合需要高效数据传输和低延迟的业务环境。2.性能表现
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
Docker学习十一：Kubernetes概述爱打羽球的程序猿 Docker学习系列 docker kubernetes 学习
一、Kubernetes简介2006年，Google提出了云计算的概念，当时的云计算领域还是以虚拟机为代表的云平台。2013年，Docker横空出世，Docker提出了镜像、仓库等核心概念，规范了服务的交付标准，使得复杂服务的落地变得更加简单，之后Docker又定义了OCI标准，Docker在容器领域称为事实的标准。但是，Docker诞生只是帮助定义了开发和交付标准，如果想要在生产环境中大批量的使
为用户都喜欢购买阿里云服务器？阿里云服务器有何优势？阿里云最新优惠和活动汇总
随着企业数字化转型的加速和云计算技术的日益成熟，云服务器已成为企业搭建应用、存储和处理数据的重要基础设施。在众多云服务提供商中，阿里云以其卓越的性能、丰富的产品线、出色的技术支持和强大的生态系统，赢得了众多用户的青睐。那么，阿里云服务器到底有哪些优势？为何如此多的用户选择使用阿里云服务器呢？阿里云服务器优势图.jpg阿里云服务器的优势一、技术领先，性能卓越阿里云作为国内最早涉足云计算领域的企业之一
hbase介绍 CrazyL- 云计算+大数据 hbase
hbase是一个分布式的、多版本的、面向列的开源数据库hbase利用hadoophdfs作为其文件存储系统，提供高可靠性、高性能、列存储、可伸缩、实时读写、适用于非结构化数据存储的数据库系统hbase利用hadoopmapreduce来处理hbase、中的海量数据hbase利用zookeeper作为分布式系统服务特点：数据量大：一个表可以有上亿行，上百万列（列多时，插入变慢）面向列：面向列（族）的
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
解锁企业潜能，Vatee万腾平台引领智能新纪元自媒体经济说其他
在数字化转型的浪潮中，企业正站在一个前所未有的十字路口，面对着前所未有的机遇与挑战。解锁企业内在潜能，实现跨越式发展，已成为众多企业的共同追求。而Vatee万腾平台，作为智能科技的先锋，正以其强大的智能赋能能力，引领企业步入一个全新的智能纪元。Vatee万腾平台，是一个集成了人工智能、大数据、云计算等前沿技术的综合性智能服务平台。它不仅仅是一个技术工具，更是企业转型升级的加速器，能够深入企业运营的
数字化智能工厂数字化供应链架构、全景管理、全流程贯通方案数字化建设方案智能制造数字工厂制造业数字化转型工业互联网架构
随着信息技术的飞速发展，数字化转型已成为制造企业提升竞争力的关键途径。数字化智能工厂通过集成先进的物联网(IoT)、大数据、云计算、人工智能(AI)等技术，实现了生产过程的智能化、供应链管理的精准化及决策的科学化。本方案旨在构建一套完善的数字化供应链架构，实现全景管理、全流程贯通、智慧化升级，以数据为驱动，强化技术支撑与安全管理体系，推动企业向智能制造迈进。一、数字化供应链架构1.**集成化平台构
等保测评中的关键技术挑战与应对策略亿林数据网络安全等保测评
在信息安全领域，等保测评（信息安全等级保护测评）作为确保信息系统安全性的重要手段，其过程中不可避免地会遇到一系列技术挑战。这些挑战不仅考验着企业的技术实力，也对其安全管理水平提出了更高要求。本文将深入探讨等保测评中的关键技术挑战，并提出相应的应对策略。一、等保测评中的关键技术挑战1.复杂系统架构的评估难度随着信息技术的快速发展，企业信息系统的架构日益复杂，包括分布式系统、微服务架构、云计算环境等。
高职人工智能训练师边缘计算实训室解决方案武汉唯众智创人工智能训练师边缘计算实训室人工智能训练师实训室边缘计算实训室
一、引言随着物联网（IoT）、大数据、人工智能（AI）等技术的飞速发展，计算需求日益复杂和多样化。传统的云计算模式虽在一定程度上满足了这些需求，但在处理海量数据、保障实时性与安全性、提升计算效率等方面仍面临诸多挑战。在此背景下，边缘计算作为一种新兴的计算模式应运而生，通过将计算能力推向数据生成或用户所在的网络边缘，显著降低了数据传输的延迟，提升了处理效率，并增强了数据安全性。针对高等职业院校的人工
Spark集群的三种模式 MelodyYN #Spark spark hadoop big data
文章目录1、Spark的由来1.1Hadoop的发展1.2MapReduce与Spark对比2、Spark内置模块3、Spark运行模式3.1Standalone模式部署配置历史服务器配置高可用运行模式3.2Yarn模式安装部署配置历史服务器运行模式4、WordCount案例1、Spark的由来定义：Hadoop主要解决，海量数据的存储和海量数据的分析计算。Spark是一种基于内存的快速、通用、可
月度总结 | 2022年03月 | 考研与就业的抉择 | 确定未来走大数据开发路线「已注销」个人总结 hadoop
一、时间线梳理3月3日，寻找到同专业的就业伙伴3月5日，着手准备Java八股文，决定先走Java后端路线3月8月，申请到了校图书馆的考研专座，决定暂时放弃就业，先准备考研，买了数学和408的资料书3月9日-3月13日，因疫情原因，宿舍区暂封，这段时间在准备考研，发现内容特别多3月13日-3月19日，大部分时间在刷Hadoop、Zookeeper、Kafka的视频，同时在准备实习的项目3月20日，退
边缘计算在现代数据中心的应用 666IDCaaa 边缘计算人工智能
当今数字化时代，数据中心扮演着至关重要的角色，而边缘计算的出现为现代数据中心带来了新的机遇和挑战。一、边缘计算的概念与特点边缘计算是一种将计算和数据存储靠近数据源或用户的分布式计算模式。与传统的集中式云计算相比，边缘计算具有以下特点：低延迟：由于数据处理在靠近数据源的地方进行，减少了数据传输的距离和时间，从而实现了更低的延迟。这对于实时性要求高的应用，如工业自动化、自动驾驶、虚拟现实等至关重要。高
HBase介绍 mingyu1016 数据库
概述HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable：一个结构化数据的分布式存储系统》。HBase是GoogleBigtable的开源实现，它利用HadoopHDFS作为其文件存储系统，利用HadoopMapReduce来处理HBase中的海量数据，利用Zookeeper作为协同服务。HBase的表结构HBase以表的形式存储数据。表有行和列组成。列划分为
新一代网络研发利器——开物™，让用户每一行代码都贡献在核心创新中科驭数网络云计算大数据人工智能
随着云计算、人工智能、大数据的快速发展，现有的IT系统越来越复杂，传统网络技术难以满足新的业务需求，DPU技术开始崭露头角，越来越多的企业与研究机构认识到高性能网络处理技术带来的巨大价值，并积极开展创新与实践，从而实现更匹配的功能和更高的系统性能。但是，从零开始进行网络系统的搭建，开发人员需要掌握各类创新技术无关的、最底层的技术架构原理，如硬件设计逻辑、API接口、底层IP、硬件驱动等一系列复杂的
Java中的大数据处理框架对比分析省赚客app开发者 java 开发语言
Java中的大数据处理框架对比分析大家好，我是微赚淘客系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！今天，我们将深入探讨Java中常用的大数据处理框架，并对它们进行对比分析。大数据处理框架是现代数据驱动应用的核心，它们帮助企业处理和分析海量数据，以提取有价值的信息。本文将重点介绍ApacheHadoop、ApacheSpark、ApacheFlink和ApacheStorm这四种流行的
Ubuntu系统入门指南：常用命令详解像风一样自由2020 ubuntu ubuntu linux 运维
Ubuntu系统入门指南：常用命令详解引言Ubuntu是一个基于Linux内核的开源操作系统，由Canonical公司和社区共同开发和维护。它以易用性、稳定性和广泛的软件支持而著称，广泛应用于个人电脑、服务器和云计算环境。对于新手来说，掌握Ubuntu的基本命令行操作可以大大提高工作效率和系统管理能力。Ubuntu通常每六个月发布一个新版本，每两年会推出一个长期支持（LTS）版本，提供五年的安全更
世界七大经济体方塘之声
1.美国是世界第一大经济体，2019年的GDP总量为21.41万亿美元，市值最高的公司是苹果，最新市值为1.71万亿美元，主营业务是一Mac、iPhone为主的电子消费产品。2.我国是世界第二大经济体，2019年的GDP总量为15.54万亿美元，市值最高的公司是阿里，最新市值为6891亿美元，主营业务是电商、云计算与本地服务。3.日本是世界第三大经济体，2019年的GDP总量为5.36万亿美元，市
每天了解一个不同的证书类型之红帽篇咕噜Yuki0609 linux
红帽是一家专注于开源技术的公司，其业务涵盖了Linux系统的发行、云计算、容器化应用、人工智能等，并且在全球市场上有广泛的用户群体。同时，红帽也在不断加强其在开源技术领域的研发，不断推出新的产品和服务，以满足客户的需求。因此，红帽公司在开源技术领域中处于领先地位，并且在市场中有着良好的发展前景。红帽证书分为三个级别：红帽认证系统管理员（RHCSA）是最基础的认证级别，要求考生掌握Linux系统的安
Hadoop windows intelij 跑 MR WordCount piziyang12138
一、软件环境我使用的软件版本如下:IntellijIdea2017.1Maven3.3.9Hadoop分布式环境二、创建maven工程打开Idea,file->new->Project,左侧面板选择maven工程。(如果只跑MapReduce创建java工程即可，不用勾选Creatfromarchetype，如果想创建web工程或者使用骨架可以勾选)image.png设置GroupId和Artif
AI算法部署方式对比分析：哪种方案性价比最高？ TSINGSEE AI智能人工智能视频监控技术安防视频监控
随着人工智能技术的飞速发展，AI算法在各个领域的应用日益广泛。AI算法的部署方式直接关系到系统的性能、实时性、成本及安全性等多个方面。本文将探讨AI算法分析的三种主要部署方式：本地计算、边缘计算和云计算，并详细分析它们的优劣性。一、本地计算1）部署方式本地计算是指将AI算法直接部署在摄像头或其他终端设备上。这种部署方式使得数据处理和分析在设备本地完成，无需通过网络传输数据。2）优点高效实时：由于数
绿色智慧档案馆构想之智慧档案馆环境综合管控一体化平台盛世宏博智慧档案智慧档案馆智慧档案馆
【智慧档案馆整体效果图】智慧档案库房一体化平台通过智慧档案管理，实现智慧档案感知协同处置功能；实现对档案实体的智能化识别、定位、跟踪监控；实现对档案至智能密集架、空气恒湿净化一体设备、安防设备，门禁设备等智能化巡检与即时处理。智慧档案平台基于物联网、云计算、大数据、档案人健康防护、档案安全防护等新技术，实现了对档案的收、管、存、用全业务流程管理；实现了对档案实体资源与数字资源的集中建设与管理；实现
AWS云计算助理开发考试指南：笑中带泪的学爸之路 zhutoutoutousan 学习程序人生云计算 aws
引子嘿，亲爱的云计算小伙伴们！听说你们准备踏上AWS云计算助理开发考试的征途，我这里有点小经验和一堆幽默笑话，说不定能给你们点灵感。心路历程从小白到AWS云计算助理开发，这段旅程真的像是一场奇幻冒险。刚开始，我对云计算的概念还是一头雾水，就像小时候不明觉厉的魔法一样。但是我坚信，只要肯努力，我也能成为这个领域的巫师。开始学习的时候，我像是一只狗啃骨头，啃啃停停，看着云端的那些服务就像是看天书。La
jdk tomcat 环境变量配置 Array_06 java jdk tomcat
Win7 下如何配置java环境变量 1。准备jdk包，win7系统，tomcat安装包（均上网下载即可） 2。进行对jdk的安装，尽量为默认路径（但要记住啊！！以防以后配置用。。。） 3。分别配置高级环境变量。电脑-->右击属性-->高级环境变量-->环境变量。分别配置 : path &nbs
Spring调SDK包报java.lang.NoSuchFieldError错误 bijian1013 java spring
在工作中调另一个系统的SDK包，出现如下java.lang.NoSuchFieldError错误。 org.springframework.web.util.NestedServletException: Handler processing failed; nested exception is java.l
LeetCode[位运算] - #136 数组中的单一数 Cwind java 题解位运算 LeetCode Algorithm
原题链接：#136 Single Number 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现两次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：题目限定了线性的时间复杂度，同时不使用额外的空间，即要求只遍历数组一遍得出结果。由于异或运算 n XOR n = 0, n XOR 0 = n，故将数组中的每个元素进
qq登陆界面开发 15700786134 qq
今天我们来开发一个qq登陆界面，首先写一个界面程序，一个界面首先是一个Frame对象，即是一个窗体。然后在这个窗体上放置其他组件。代码如下： public class First { public void initul(){ jf=ne
Linux的程序包管理器RPM 被触发 linux
在早期我们使用源代码的方式来安装软件时，都需要先把源程序代码编译成可执行的二进制安装程序，然后进行安装。这就意味着每次安装软件都需要经过预处理-->编译-->汇编-->链接-->生成安装文件--> 安装，这个复杂而艰辛的过程。为简化安装步骤，便于广大用户的安装部署程序，程序提供商就在特定的系统上面编译好相关程序的安装文件并进行打包，提供给大家下载，我们只需要根据自己的
socket通信遇到EOFException 肆无忌惮_ EOFException
java.io.EOFException at java.io.ObjectInputStream$PeekInputStream.readFully(ObjectInputStream.java:2281) at java.io.ObjectInputStream$BlockDataInputStream.readShort(ObjectInputStream.java:
基于spring的web项目定时操作知了ing java Web
废话不多说，直接上代码，很简单配置一下项目启动就行 1，web.xml <?xml version="1.0" encoding="UTF-8"?> <web-app xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="h
树形结构的数据库表Schema设计矮蛋蛋 schema
原文地址： http://blog.csdn.net/MONKEY_D_MENG/article/details/6647488 程序设计过程中，我们常常用树形结构来表征某些数据的关联关系，如企业上下级部门、栏目结构、商品分类等等，通常而言，这些树状结构需要借助于数据库完成持久化。然而目前的各种基于关系的数据库，都是以二维表的形式记录存储数据信息，
maven将jar包和源码一起打包到本地仓库 alleni123 maven
http://stackoverflow.com/questions/4031987/how-to-upload-sources-to-local-maven-repository <project> ... <build> <plugins> <plugin> <groupI
java IO操作与 File 获取文件或文件夹的大小，可读，等属性！！！百合不是茶
类 File File是指文件和目录路径名的抽象表示形式。 1，何为文件：标准文件（txt doc mp3...）目录文件（文件夹）虚拟内存文件 2，File类中有可以创建文件的 createNewFile（）方法,在创建新文件的时候需要try{} catch(）{}因为可能会抛出异常；也有可以判断文件是否是一个标准文件的方法isFile();这些防抖都
Spring注入有继承关系的类（2） bijian1013 java spring
被注入类的父类有相应的属性，Spring可以直接注入相应的属性，如下所例：1.AClass类 package com.bijian.spring.test4; public class AClass { private String a; private String b; public String getA() { retu
30岁转型期你能否成为成功人士 bijian1013 成长励志
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
【Velocity四】Velocity与Java互操作 bit1129 velocity
Velocity出现的目的用于简化基于MVC的web应用开发，用于替代JSP标签技术，那么Velocity如何访问Java代码.本篇继续以Velocity三http://bit1129.iteye.com/blog/2106142中的例子为基础， POJO package com.tom.servlets; public
【Hive十一】Hive数据倾斜优化 bit1129 hive
什么是Hive数据倾斜问题操作：join,group by,count distinct 现象：任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成；查看未完成的子任务，可以看到本地读写数据量积累非常大，通常超过10GB可以认定为发生数据倾斜。原因：key分布不均匀倾斜度衡量：平均记录数超过50w且
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua csrf
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-3.求子数组的最大和 bylijinnan java
package beautyOfCoding; public class MaxSubArraySum { /** * 3.求子数组的最大和题目描述：输入一个整形数组，数组里有正数也有负数。数组中连续的一个或多个整数组成一个子数组，每个子数组都有一个和。求所有子数组的和的最大值。要求时间复杂度为O(n)。例如输入的数组为1, -2, 3, 10, -4,
Netty源码学习-FileRegion bylijinnan java netty
今天看org.jboss.netty.example.http.file.HttpStaticFileServerHandler.java 可以直接往channel里面写入一个FileRegion对象，而不需要相应的encoder： //pipeline（没有诸如“FileRegionEncoder”的handler）： public ChannelPipeline ge
使用ZeroClipboard解决跨浏览器复制到剪贴板的问题 cngolon 跨浏览器复制到粘贴板 Zero Clipboard
Zero Clipboard的实现原理 Zero Clipboard 利用透明的Flash让其漂浮在复制按钮之上，这样其实点击的不是按钮而是 Flash ，这样将需要的内容传入Flash，再通过Flash的复制功能把传入的内容复制到剪贴板。 Zero Clipboard的安装方法首先需要下载 Zero Clipboard的压缩包，解压后把文件夹中两个文件：ZeroClipboard.js
单例模式 cuishikuan 单例模式
第一种（懒汉，线程不安全）： public class Singleton { 2 private static Singleton instance; 3 pri
spring+websocket的使用 dalan_123
一、spring配置文件 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3.or
细节问题：ZEROFILL的用法范围。 dcj3sjt126com mysql
1、zerofill把月份中的一位数字比如1，2，3等加前导0 mysql> CREATE TABLE t1 (year YEAR(4), month INT(2) UNSIGNED ZEROFILL, -> day
Android开发10——Activity的跳转与传值 dcj3sjt126com Android开发
Activity跳转与传值，主要是通过Intent类，Intent的作用是激活组件和附带数据。一、Activity跳转方法一Intent intent = new Intent(A.this, B.class); startActivity(intent) 方法二Intent intent = new Intent();intent.setCla
jdbc 得到表结构、主键 eksliang jdbc 得到表结构、主键
转自博客：http://blog.csdn.net/ocean1010/article/details/7266042 假设有个con DatabaseMetaData dbmd = con.getMetaData(); rs = dbmd.getColumns(con.getCatalog(), schema, tableName, null); rs.getSt
Android 应用程序开关GPS gqdy365 android
要在应用程序中操作GPS开关需要权限： <uses-permission android:name="android.permission.WRITE_SECURE_SETTINGS" /> 但在配置文件中添加此权限之后会报错，无法再eclipse里面正常编译，怎么办？ 1、方法一：将项目放到Android源码中编译； 2、方法二：网上有人说cl
Windows上调试MapReduce zhiquanliu mapreduce
1.下载hadoop2x-eclipse-plugin https://github.com/winghc/hadoop2x-eclipse-plugin.git 把 hadoop2.6.0-eclipse-plugin.jar 放到eclipse plugin 目录中。 2.下载 hadoop2.6_x64_.zip http://dl.iteye.com/topics/download/d2b
如何看待一些知名博客推广软文的行为？ justjavac 博客
本文来自我在知乎上的一个回答：http://www.zhihu.com/question/23431810/answer/24588621 互联网上的两种典型心态：当初求种像条狗，如今撸完嫌人丑当初搜贴像条犬，如今读完嫌人软你为啥感觉不舒服呢？难道非得要作者把自己的劳动成果免费给你用，你才舒服？就如同 Google 关闭了 Gooled Reader，那是
sql优化总结 macroli sql
为了是自己对sql优化有更好的原则性，在这里做一下总结，个人原则如有不对请多多指教。谢谢！要知道一个简单的sql语句执行效率，就要有查看方式，一遍更好的进行优化。一、简单的统计语句执行时间 declare @d datetime ---定义一个datetime的变量set @d=getdate() ---获取查询语句开始前的时间select user_id
Linux Oracle中常遇到的一些问题及命令总结超声波 oracle linux
1.linux更改主机名 (1)#hostname oracledb　　　　临时修改主机名 (2) vi /etc/sysconfig/network 　　修改hostname (3) vi /etc/hosts　　　　　　　　修改IP对应的主机名 2.linux重启oracle实例及监听的各种方法（注意操作的顺序应该是先监听，后数据库实例） &nbs
hive函数大全及使用示例 superlxw1234 hadoop hive函数
具体说明及示例参见附件文档。文档目录：目录一、关系运算： 4 1. 等值比较: = 4 2. 不等值比较: <> 4 3. 小于比较: < 4 4. 小于等于比较: <= 4 5. 大于比较: > 5 6. 大于等于比较: >= 5 7. 空值判断: IS NULL 5
Spring 4.2新特性-使用@Order调整配置类加载顺序 wiselyman spring 4
4.1 @Order Spring 4.2 利用@Order控制配置类的加载顺序 4.2 演示两个演示bean package com.wisely.spring4_2.order; public class Demo1Service { } package com.wisely.spring4_2.order; public class

自己动手写搜索引擎（常搜吧历程七#解析文档之HTML#）（Java、Lucene、hadoop）

你可能感兴趣的:(hadoop,Lucene,云计算)