fffddgx

htmlparser使用经验总结，与网页提取

先说说htmlparser的初步学习

我觉得htmlparser也不是很困难，就是处理是麻烦些，htmlparser对html节点处理的数据结构为：

解析html有3中方法

1：lexer

lexer解析html的方式更底层些，我返回的是node节点的线性序列，不能产生树形序列

2：filter

filter 解析html返回树形节点序列支持逻辑嵌套（andfilter(filter,andfilter(notfilter(),orfilter(..,..)))）

比较常用的几个filter：

(1)：AndFilter:相当与逻辑与，构造函数接受2个Filter(f1,f2),AndFilter(f1,f2)类似于f1&&f2

(2):HasAttributeFilter:用于提取含有指定属性的节点

(3):TagNameFilter:提取所有满足指定tag名的节点

3：visitor

其中有一个特别的 visitor：TextExtractingVisitor

此类用来提取网页中的所有文字，剔除所有标签。在有些时候比较好用。它还支持对已提取的节点的visit

用法：

//通过filter 获得NodeList
NodeList gen_tr = this.getParse().parse(general_data_filter);
//对已得到的NodeList采用TextExtractingVisitor方式visit
//这样就实现了filter和visitor的结合使用
gen_tr.visitAllNodesWith(new TextExtractingVisitor());

注：1：我认为析取筛选网页是做搜索引擎前期最关键也是最需要耐心的工作。

2：在解析的过程中你会发现经常抛空指针异常，原因：（1）：你的filter根本没有析取出节点（2）：你析取出的是"/n"，这个确实比较烦，一般当解析网页的时候，会经常出现很多"/n"例如:

<table>"/n"<tr>"/n"<td>"/n"text"/n"</td>"/n"</tr>"/n"</table>

下面是我解析：http://price.pcauto.com.cn/m11199/等相关的网页

这个网址中的汽车参数的代码，可能对初学者有所帮助：

提取网页内容的基类，它定义了一些提取网页内容的基本的通用的方法：

package get_infor;

import java.io.BufferedWriter;
import java.io.File;
import java.io.FileWriter;
import java.io.IOException;

import org.htmlparser.Parser;

public class BaseExtractor {
	protected static final String NEWLINE = "\r\n";

	private String outputPath;

	private String inputPath;

	private Parser parse;
	/**
	 * 对图片路径进行哈希的算法，这里采用MD5算法
	 */
	protected static final String HASH_ALGORITHM = "md5";
	/**
	 * 用于存放被处理过后的产口的图片的目录
	 */
	private String imageDir = "";
	
	public int extractedCount = 0; 
	
	String file_name = "";

	public String getOutputPath() {
		return outputPath;
	}

	public void setOutputPath(String outputPath) {
		this.outputPath = outputPath;
	}

	public String getInputPath() {
		return inputPath;
	}

	public void setInputPath(String inputPath) {
		this.inputPath = inputPath;
	}

	public Parser getParse() {
		return parse;
	}

	public void setParse(Parser parse) {
		this.parse = parse;
	}

	public String getMirrorDir() {
		return mirrorDir;
	}

	public void setMirrorDir(String mirrorDir) {
		this.mirrorDir = mirrorDir;
	}

	public String getImageDir() {
		return imageDir;
	}

	public void setImageDir(String imageDir) {
		this.imageDir = imageDir;
	}

	public static String getNEWLINE() {
		return NEWLINE;
	}

	public static String getHASH_ALGORITHM() {
		return HASH_ALGORITHM;
	}

	protected void operator() {
		String ip = this.getInputPath();
		visit(new File(ip));
	}

	public void visit(File dir) {
		if (dir.isFile()) {
			extract(dir.getAbsolutePath());
		} else {
			File[] fs = dir.listFiles();
			for (int i = 0; i < fs.length; i++) {
				if (fs[i].isFile()) {
					// p(fs[i].getAbsolutePath());
					extract(fs[i].getAbsolutePath());
				} else {
					visit(fs[i]);
				}
			}
		}
	}

	public void extract(String url) {
	}

	protected void write_file(StringBuffer sb) {
		try {
			file_name = StringUtils.filenameProcess(file_name);
			BufferedWriter bw = new BufferedWriter(new FileWriter(this
					.getOutputPath()
					+ file_name + ".txt"));
			bw.write(sb.toString());
			bw.flush();
			p("已经处理了："+ extractedCount+++file_name);
		} catch (IOException e) {
			e.printStackTrace();
		}
	}

	protected String process(String l6_td_str) {
		String l6_td_str1 = l6_td_str.replaceAll("\\&nbsp;", "");
		String l6_td_str2 = l6_td_str1.replaceAll("\n", "");
		int index2 = l6_td_str2.lastIndexOf(">");
		int index1 = l6_td_str2.indexOf("<");
		if (index1 != -1 && index2 != -1) {
			l6_td_str2 = l6_td_str2.substring(0, index1)
					+ l6_td_str2.substring(index2 + 1);

		}
		return l6_td_str2;
	}

	protected void p(Object o) {
		System.out.println(o);
	}
}

下面的CarExtractor是对BaseExtractor的继承，重载添加了特定的方法

package get_infor;

import java.io.File;
import java.io.FileInputStream;
import java.io.FileOutputStream;


import org.htmlparser.Node;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.filters.AndFilter;
import org.htmlparser.filters.HasAttributeFilter;
import org.htmlparser.filters.TagNameFilter;
import org.htmlparser.tags.ImageTag;
import org.htmlparser.tags.TableColumn;
import org.htmlparser.tags.TableTag;
import org.htmlparser.util.NodeList;
import org.htmlparser.util.ParserException;
import org.htmlparser.visitors.TextExtractingVisitor;

public class CarExtractor extends BaseExtractor {
//	析取网页内容方法
	public void extract(String url) {
		try {
			
			String real_url = "http://"+url.substring(72,url.length()-10).replaceAll("\\\\", "/");
			StringBuffer sb = new StringBuffer();
			sb.append("url: "+real_url+NEWLINE);
//			获得网页产品图片
			String pic_src = get_pic_src(url);
			sb.append("pic: "+pic_src+NEWLINE);
			this.getParse().reset();
			String general_data = this.get_general_data(url);
			sb.append(general_data);
			this.setParse(new Parser(url));
		
//			获得产品详细信息的过滤器
			NodeFilter Attribute_filter = new AndFilter(
					new TagNameFilter("td"), new AndFilter(
							new HasAttributeFilter("class", "bor1_c1"),
							new HasAttributeFilter("style", "padding:5px;")));
//			设定分析器的编码方式为"gb2312"
			this.getParse().setEncoding("gb2312");
			
			NodeList l1_td_list = this.getParse().parse(Attribute_filter);
			NodeList l2_table_list = l1_td_list.elementAt(0).getChildren();
//			获得产品的基本参数
			for (int j = 1; j < l2_table_list.size(); j += 2) {
				TableTag l2_table = (TableTag) l2_table_list.elementAt(j);
				Node l4_txt = l2_table.getFirstChild().getNextSibling()
						.getFirstChild().getNextSibling().getFirstChild();

				if (l4_txt.getClass().toString().equals(
						"class org.htmlparser.nodes.TextNode")
						&& !l4_txt.getText().matches("\n")) {
					sb.append(process(l4_txt.getText()) + "   ");

				} else {
					for (int m = 1; m < l2_table.getChildren().size(); m += 2) {
						NodeList l6_td_list = l2_table.getChildren().elementAt(
								m).getChildren().elementAt(1).getChildren()
								.elementAt(1).getChildren().elementAt(1)
								.getChildren();
						for (int k = 1; k < l6_td_list.size(); k += 2) {
							TableColumn l6_td = (TableColumn) l6_td_list
									.elementAt(k);
							String l6_td_str = l6_td.getStringText();

							l6_td_str = process(l6_td_str);

							if (l6_td.getAttribute("class").equals(
									"series_2_cs3_c1")
									|| l6_td.getAttribute("class").equals(
											"series_2_cs3_c4")
									|| l6_td.getAttribute("class").equals(
											"series_2_cs3_c7")) {
								sb.append(l6_td_str + " : ");
							} else if (l6_td.getAttribute("class").equals(
									"series_2_cs3_c2")
									|| l6_td.getAttribute("class").equals(
											"series_2_cs3_c5")
									|| l6_td.getAttribute("class").equals(
											"series_2_cs3_c8")) {
								sb.append(l6_td_str + " ;  ");
							}
						}
						sb.append(NEWLINE);
					}
				}
				sb.append(NEWLINE);
			}
//			获得产品的外设等高级参数
			NodeList l2_table_list2 = l1_td_list.elementAt(1).getChildren();
			for (int j = 1; j < l2_table_list2.size(); j += 2) {
				TableTag l2_table = (TableTag) l2_table_list2.elementAt(j);
				if (l2_table.getFirstChild().getNextSibling().getFirstChild().getNextSibling() != null) {
					Node l4_txt = l2_table.getFirstChild().getNextSibling()
							.getFirstChild().getNextSibling().getFirstChild();

					if (l4_txt.getClass().toString().equals(
							"class org.htmlparser.nodes.TextNode")
							&& !l4_txt.getText().matches("\n")) {
						sb.append(process(l4_txt.getText()) + "   ");

					} else {
						for (int l = 1; l < l2_table.getChildren().size(); l += 2) {
							NodeList l4_td_list = l2_table.getChildren()
									.elementAt(l).getChildren();
							for (int i = 1; i < l4_td_list.size(); i += 2) {
								TableColumn tc = (TableColumn) l4_td_list
										.elementAt(i).getChildren()
										.elementAt(1).getChildren()
										.elementAt(1).getChildren()
										.elementAt(1);
								sb.append(process(tc.getStringText()) + ",");
							}
							sb.append(NEWLINE);
						}
					}
					sb.append(NEWLINE);
				}
			}

//			System.out.println(sb.toString());
//			写入文件
			write_file(sb);
		} catch (ParserException e) {
			e.printStackTrace();
		} catch (Exception e) {
			e.printStackTrace();
		}
	}

//	获得产品图片的src的方法
	private String get_pic_src(String url) {
	
		NodeFilter pic_filter = new AndFilter(new TagNameFilter("td"),
				new HasAttributeFilter("class", "series_sy_intro_pic"));
		String imgURL = "";
		String new_image_file  = "";
		try {
			this.setParse(new Parser(url));
			this.getParse().setEncoding("gb2312");
			NodeList pic_nodes = this.getParse().parse(pic_filter);
			TableColumn tc = (TableColumn) pic_nodes.elementAt(0);

			ImageTag it = (ImageTag) (tc.childAt(1).getChildren().elementAt(0));
			imgURL = it.getImageURL();
//			String fileType = imgURL.substring(imgURL
//					.lastIndexOf(".") + 1);
			//生成新的图片的文件名
			new_image_file = StringUtils.encodePassword(
					imgURL, HASH_ALGORITHM)
					+ ".jpg";
//			imgURL = StringUtils.replace(imgURL, "+", " ");
			//利用miorr目录下的图片生成的新的图片
			copyImage(imgURL, new_image_file);
			

		} catch (ParserException e) {
			e.printStackTrace();
		} catch (Exception e) {
			e.printStackTrace();
		}
		return new_image_file;
	}

	
	protected boolean copyImage(String image_url, String new_image_file) {

		String dirs = image_url.substring(7);

		try {
			// instance the File as file_in and file_out
			File file_in = new File(new File("f:/"), dirs);
			if (file_in == null || !file_in.exists()) {
				file_in = new File("f:/noimage.jpg");
			}
			
			File file_out = new File(new File("f:/img/"), new_image_file);

			FileInputStream in1 = new FileInputStream(file_in);
			FileOutputStream out1 = new FileOutputStream(file_out);

			byte[] bytes = new byte[1024];
			int c;
			while ((c = in1.read(bytes)) != -1)
				out1.write(bytes, 0, c);

			// close
			in1.close();
			out1.close();
			return (true); // if success then return true
		} catch (Exception e) {
			e.printStackTrace();
			return (false); // if fail then return false
		}
	}
//	获取产品概要参数
	private String get_general_data(String url){
		StringBuffer general_data = new StringBuffer();
		try {
			this.setParse(new Parser(url));
			this.getParse().setEncoding("gb2312");
			NodeFilter general_data_filter = new AndFilter(new TagNameFilter("table"),new HasAttributeFilter("class","series_sy_intro_txt"));
			NodeFilter price_filter = new AndFilter(new TagNameFilter("td"),new HasAttributeFilter("class","f18b"));
			NodeList general_data_list = this.getParse().parse(general_data_filter);
			NodeList gen_tr = general_data_list.elementAt(0).getChildren();
			gen_tr.visitAllNodesWith(new TextExtractingVisitor());
			String str = process(gen_tr.asString().replaceAll("\\s", ""));
//			获得文件名字
			file_name= get_title(str);
			this.getParse().reset();
			NodeList price_td = this.getParse().parse(price_filter);
			TableColumn tc = (TableColumn)price_td.elementAt(0);
			String price = tc.getStringText();
			str = "概要参数："+ str + NEWLINE +"厂家指导价： "+price+NEWLINE;
			general_data.append(str);
			
		} catch (ParserException e) {
			e.printStackTrace();
		}
		return general_data.toString();
	
	}


	
	private String get_title(String str) {
		int index1,index2,index3,index4,index5;
		index1 = str.indexOf("生产厂商：")+5;
		index2 = str.indexOf("所属：");
		index3 = str.indexOf("上市时间：");
		index4 = str.indexOf("型　　号：")+5;
		index5 = str.indexOf("车　　型：");
		String bland = str.substring(index1,index2);
		String type = str.substring(index2+3,index3);
		String name = str.substring(index4,index5);
		return bland+"_"+type+""+name;
	}

	public static void main(String args[]) {
		CarExtractor ex = new CarExtractor();
		ex
				.setInputPath("F:/Workspaces/MyEclipse 7.1/heritrix/jobs/may2-20090501055518750/mirror/price.pcauto.com.cn");
		ex.setOutputPath("F:/job/");
		ex.get_general_data("F:/Workspaces/MyEclipse 7.1/heritrix/jobs/may2-20090501055518750/mirror/price.pcauto.com.cn/m157/index.html");
		ex.operator();
//		ex.extract("F:/Workspaces/MyEclipse 7.1/heritrix/jobs/may2-20090501055518750/mirror/price.pcauto.com.cn/m157/index.html");
	}


}

中间会用到StringUtils这个类，它的主要作用是对图片名称的md5编码，形成独一无二的名字

package get_infor;


import java.security.MessageDigest;

public class StringUtils {

	public static String trim(String line) {
		String result = line.trim();
		while (result.startsWith("　")) {
			result = result.substring(1);
		}
		while (result.endsWith("　")) {
			result = result.substring(0, result.length() - 1);
		}

		return result;
	}

	public static String filenameProcess(String name) {
		String result = name.trim();
		result = result.replaceAll("\\\\", "_");
		result = result.replaceAll("/", "_");
		result = result.replaceAll("\\*", " ");
		return result;
	}



	public static String encodePassword(String password, String algorithm) {
		byte[] unencodedPassword = password.getBytes();

		MessageDigest md = null;

		try {
			// first create an instance, given the provider
			md = MessageDigest.getInstance(algorithm);
		} catch (Exception e) {
			return password;
		}

		md.reset();

		// call the update method one or more times
		// (useful when you don't know the size of your data, eg. stream)
		md.update(unencodedPassword);

		// now calculate the hash
		byte[] encodedPassword = md.digest();

		StringBuffer buf = new StringBuffer();

		for (int i = 0; i < encodedPassword.length; i++) {
			if ((encodedPassword[i] & 0xff) < 0x10) {
				buf.append("0");
			}

			buf.append(Long.toString(encodedPassword[i] & 0xff, 16));
		}

		return buf.toString();
	}

	public static final String replace(String line, String oldString,
			String newString) {
		if (line == null) {
			return null;
		}
		int i = 0;
		if ((i = line.indexOf(oldString, i)) >= 0) {
			char[] line2 = line.toCharArray();
			char[] newString2 = newString.toCharArray();
			int oLength = oldString.length();
			StringBuffer buf = new StringBuffer(line2.length);
			buf.append(line2, 0, i).append(newString2);
			i += oLength;
			int j = i;
			while ((i = line.indexOf(oldString, i)) > 0) {
				buf.append(line2, j, i - j).append(newString2);
				i += oLength;
				j = i;
			}
			buf.append(line2, j, line2.length - j);
			return buf.toString();
		}
		return line;
	}

}

运行CarExtractor的main方法即可实现对INputPath目录下的所有已下网页的处理析取

运行后会出现像下面这种格式的5000多个txt文件

写道

url: http://price.pcauto.com.cn/m10156/
pic: bf66b8100173abc02ccbd96181df141a.jpg
概要参数：型　　号：凯雷德外交官2驱车　　型：SUV/CRV/CUV生产厂商：ECB工厂所属：[凯雷德]上市时间：2008最近更新：2008.06.27查二手车报价外形尺寸（长/宽/高）：0/0/0油耗：0.0L查看实际油耗优　　点：非常豪华，具有与生俱来的王者气势缺　　点：油耗偏高
厂家指导价： 136.0万
凯雷德外交官 2驱-基本资料
车型名称 : 凯雷德外交官 2驱 ; 车体结构 : SUV/CRV/CUV ; 豪华级别 : 豪华型 ;

凯雷德外交官 2驱-引擎参数
标准引擎 : V型8缸/6.2升/VVT可变进排气门正时/ETC电子节气门控制 ; 标准变速器 : 手自一体 6档 ; 标准排量 : 6200 cc ;
气门数 : 32 ; 最大功率 : 301/5700 KW/rpm ; 最大扭矩 : 565/4400 N?m/rpm ;
燃油系统 : 电子燃油喷射式 ; 理论油耗 : 升/百公里 ; 最高时速 : km/h ;
加速时间 : 秒（0-100km/h） ; 排放标准 : 欧Ⅳ标准 ; : ;

凯雷德外交官 2驱-转向/悬挂/轮胎
驱动方式 : 前置后驱 ; 制动方式 : 碟/碟（前/后） ; 转向助力 : 助力转向式 ;
悬挂方式 : ; 轮毂尺寸 : ; 轮胎 : ;

尺寸和重量
车身重量 : kg ; 轴距 : mm ; 轮距 : mm（前/后） ;
全车长度 : mm ; 车身宽度 : mm ; 车身高度 : mm ;

通过性
最小转弯半径 : m ; 最小离地间隙 : mm ; 最大爬坡度 : % ;
接近角 : ° ; 离去角 : ° ; : ;

货舱容积
行李舱容积 : L ; 油箱容积 : L ; 标准座位数 : ;

外观/内饰
舒适性配置
车辆安全/防盗配置
其他功能配置

毕竟我也是菜鸟，在设计过程中也遇到了很多困难，但是都一一克服，我说的有什么不对的地方，欢迎大家指正。谢谢

以上的3个类在设计过程中参考了《lucene+heritrix 开发自己的搜索引擎》

Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
ChatGPT 高效学习套路揭秘：让知识获取事半功倍的秘诀 kkai人工智能 chatgpt 人工智能学习媒体 ai
最近这段时间，AI热潮因ChatGPT的火爆再次掀起。如今，网上大部分内容都在调侃AI，但很少有人探讨如何正经使用ChatGPT做事情。作为一名靠搜索引擎和GitHub自学编程的开发者，第一次和ChatGPT深度交流后，我就确信：ChatGPT能够极大提高程序员学习新技术的效率。使用ChatGPT一个月后，我越发感受到它的颠覆性。因此，我想从工作和学习的角度，分享它的优势及我的一些使用技巧，而非娱
网站推广爬虫 Bearjumpingcandy 爬虫
网站推广爬虫是一种用于升网站曝光度和推广效果的工具。它通过自动化地访问和收集网站信息，从而实现对目标网站的广告、关键词、排名等数据进行分析和优化。以下是网站推广爬虫的一些介绍：数据收集：网站推广爬虫可以自动访问目标网站，并收集相关的数据，如网站流量、关键词排名、竞争对手信息等。这些数据可以帮助网站推广人员了解网站的现状和竞争环境，从而制定相应的推广策略。关键词优化：通过分析搜索引擎的关键词排名情况
SpringBoot整合ES搜索引擎实现网站热搜词及热度计算码踏云端 springboot Elasticsearch spring boot elasticsearch 后端热搜词热度计算 java
博主简介：历代文学网（PC端可以访问：https://literature.sinhy.com/#/literature?__c=1000，移动端可微信小程序搜索“历代文学”）总架构师，15年工作经验，精通Java编程，高并发设计，Springboot和微服务，熟悉Linux，ESXI虚拟化以及云原生Docker和K8s，热衷于探索科技的边界，并将理论知识转化为实际应用。保持对新技术的好奇心，乐于
Html Day01 所以你一定要努力
一、HTML与Web标准1.1五大浏览器厂商以及浏览器内核浏览器内核备注ChromeBlinkBlink其实是WebKit的分支。在WebKit上二次开发IETridentIE、猎豹安全、360极速浏览器、百度浏览器SafariWebkit从Safari推出之时起，它的渲染引擎就是Webkit。FirefoxGecko使用不多。打开速度慢、升级频繁。OperaBlink现在跟随chrome用bli
2019.1.6 root_restart
1.新版研学行程公众号推送及页面改动，以后继续尝试无logo版行程单方便转发，附带一篇研学政策解读2.百家号，头条号，搜狐号注册认证及审核，后续每天会在上面更新以往研学活动，增加搜索引擎中山大研学和雨滴教育的关联3.与鹿老师探讨研究方便代理的新宣传模式
只有一个诚字最重要（3.22）胡同学的读书笔记
1人们会认为谷歌是搜索引擎。而事实上，谷歌是第一个以机器为主导的搜索引擎，这个分类在谷歌之前是不存在的，而你必须要认识到谷歌的这个秘密才能判断它与其他公司的不同之处。2如果我目前在一个公司，当大家不知道未来的路怎么走，过去的路也已经彻底放弃了，我会先把事实摆在所有人面前，然后让大家讨论，在争论的过程中产生一个纲领性的共识，让每个部门在大的纲领下去寻求一种变化，不再以增长和竞争为纲，而是转移到产品和
写出渗透测试信息收集详细流程卿酌南烛_b805
一、扫描域名漏洞：域名漏洞扫描工具有AWVS、APPSCAN、Netspark、WebInspect、Nmap、Nessus、天镜、明鉴、WVSS、RSAS等。二、子域名探测：1、dns域传送漏洞2、搜索引擎查找（通过Google、bing、搜索c段）3、通过ssl证书查询网站：https://myssl.com/ssl.html和https://www.chinassl.net/ssltools
【ShuQiHere】快速排序（Quick Sort）：揭开高效排序算法的神秘面纱 ShuQiHere 排序算法算法数据结构
【ShuQiHere】引言在计算机科学中，排序算法是我们日常编程不可或缺的一部分。无论是处理大量数据、优化搜索引擎，还是进行系统性能提升，排序算法都起到了至关重要的作用。在所有的排序算法中，快速排序（QuickSort）凭借其高效性和灵活的分治策略成为最受欢迎的排序算法之一。在这篇博客中，我们将深入探讨快速排序的原理、性能分析以及如何通过优化策略进一步提升其效率。1.什么是快速排序？（QuickS
JAVA之接口 java萌新小白
接口接口的概述电脑上面的主板有很多接口，比如内存条的接口，有了这个接口，可以插入多个内存条，主板和内存条可能不是同一家生产厂商，但是两种物体却能结合到一起，正是因为这个接口的存在。只要厂家遵循这个接口，主板和内存条就可以随意更换，提高了可插拔性，接口其实也是体现着一种规范。在java语言里面使用interface来声明一个接口，接口其实是一个特殊的抽象类，在接口里面的方法全部都是抽象的。关于接口，
苹果的“AI茅”之路只走了一半美股研究社人工智能
今年苹果发布会最大的亮点，也许是和华为“撞档”，又或者是替腾讯“发布”新手游，但肯定不是iPhone16。9月10日，苹果秋季新品发布会与华为见非凡品牌盛典相继举行，iPhone16系列也与HUAWEIMateXT同日发布。不过，两大厂商的新品卖点各不相同，华为更加强调三折叠屏手机的“引领性、创新性、颠覆性”；苹果备受关注的则是苹果人工智能(AppleIntelligence)。首席执行官蒂姆·库
海量数据查找最大K个值：数据结构与算法的选择星辰@Sea 数据结构 Java 数据结构
在处理大数据集时，经常需要找到数据集中最大的K个元素，这样的需求在很多领域都有广泛应用，例如推荐系统中寻找评分最高的K个商品、数据分析中找出最重要的K个特征、搜索引擎中找到排名前K的结果等等。面对海量数据，传统的排序方法可能不再适用，因为它们通常具有较高的时间复杂度。因此，选择合适的数据结构和算法对于提高效率至关重要。本文将详细介绍如何在海量数据集中查找最大的K个值，探讨不同的数据结构与算法选择，
全面解析MeiliSearch及其Go语言实现寻找09之夏 Meilisearch golang 开发语言后端 Meilisearch
前言随着互联网的发展和数字化进程的加速，无论是企业还是个人用户，都需要面对海量的信息。在这个背景下，搜索技术的重要性日益凸显。MeiliSearch是一款开源搜索引擎，它的出现为开发者提供了一个高效、灵活的选择。本文将从多个角度探讨MeiliSearch的特性、使用方法及其实现原理，并通过Go语言示例展示如何构建一个高性能的搜索系统。一、MeiliSearch特性MeiliSearch之所以受到欢
形式向好、成本较低、可拓展性较高的名厨亮灶开源了 AI服务老曹开源人工智能能源智慧城市大数据
简介AI视频监控平台,是一款功能强大且简单易用的实时算法视频监控系统。愿景在最底层打通各大芯片厂商相互间的壁垒，省去繁琐重复的适配流程，实现芯片、算法、应用的全流程组合，减少企业级应用约95%的开发成本，在强大视频算法加持下的AR使得远程培训和远程操作指导不仅仅能够实现前后场的简单互动，而且能够实现人机结合，最终实现整个巡检流程的标准化。用户仅需在界面上简单操作，即可实现全视频的接入及布控。基础项
针对不同区域的摄像头，完成不同的算法配置的智慧快消开源了 AI服务老曹开源人工智能大数据智慧城市
智慧快消视频监控平台是一款功能强大且简单易用的实时算法视频监控系统。它的愿景是最底层打通各大芯片厂商相互间的壁垒，省去繁琐重复的适配流程，实现芯片、算法、应用的全流程组合，从而大大减少企业级应用约95%的开发成本。基于多年的深度学习技术研究和业务应用为基础，集深度学习核心训练和推理框架、基础模型库、端到端开发套件、丰富的工具组件于一体，是中国首个自主研发、功能完备、开源开放的产业级深度学习平台。基
腾讯武侠手游哪些好玩？腾讯出品的武侠手游排行榜2024 会飞滴鱼儿
如今，众多游戏厂商加入竞相推出各种武侠手游大作的潮流，其中腾讯公司凭借其创新能力和品牌力，成功推出一系列高质量的武侠手游。在这里，我们将为您推荐2024年腾讯推出的最热门武侠手游，助您畅享激战江湖的快感。但由于目前很多武侠一类的手游，完全就是靠对数值来取胜，导致很多经典武侠手游，都成为了牺牲品，尤其是游戏圈中近段时间出现的一系列事件，成为了导火索，很多游戏平台出现的内部福利号成为了焦点，下满小编就
可对画面进行平台传输，实时查看监控的智慧交通开源了。 ai产品老杨人工智能音视频安全开源 vue.js
智慧交通视觉监控平台是一款功能强大且简单易用的实时算法视频监控系统。它的愿景是最底层打通各大芯片厂商相互间的壁垒，省去繁琐重复的适配流程，实现芯片、算法、应用的全流程组合，从而大大减少企业级应用约95%的开发成本。用户只需在界面上进行简单的操作，就可以实现全视频的接入及布控。项目搭建地址项目开源地址：yihecode-server本项目基于ai场景而开发，提供算法模型管理、摄像头管理、告警管理、数
9月12日云技术研讨会 | ECU电控软件开发及测试全流程解决方案经纬恒润 ECU 电子电气架构软件开发与测试
“软件定义汽车”时代洪流下，电子电气架构往集中式发展已是大势所趋，控制器功能呈现出集中化、复杂化的特点，基于AutoSar架构开发复杂软件已成为行业共识。再加上ASPICE、ISO26262等过程体系和法规标准的要求，如何开发符合AutoSar架构的应用软件、评估软件质量和性能、优化软件结构、验证压力场景下的ECU稳定性成为各厂商面临的新挑战。本次研讨会，经纬恒润将结合业务团队多年来在软件开发和测
面对信息茧房，我们如何破局？听风便是雨_
当我们进入了互联网时代，信息的交互变得无比地便捷，当你需要什么样的信息，只需要在搜索引擎上输入，便可立马查询到你想要的结果，而且现在随着抖音、微博之类的应用APP的出现，我们本应从这些APP中获得更加丰富的知识或者信息，来开阔我们的眼界。但是事实上，我们仿佛没有获得预期的效果，更甚至于陷入更大的怪圈当中——缺乏耐心，不能容忍与自己想法不一样的他人建议，失去了与外界良好沟通的能力以及开拓自己的眼界的
M2B电商模式带动传统箱包产地转型升级万户通箱包直采平台
M2B（MakertoBusiness）箱包电商模式由万户通电商平台研发，由B2B模式优化升级而成，是箱包生产基地和经销商店铺的电商升级；实现了生产商直接面对经销商，精简流通环节，提高供应链效率，万户通箱包直采平台的M2B电商模式为用户创造真正的价值，让参与者达到共赢。M2B模式对箱包工厂的价值提升提升一：新品发布渠道在万户通微信平台和万户通APP里，每周都会通过新品专栏发布合作厂商最新商品详细信
80%的人都知道的——内容营销老泊
我们已经知道内容营销是依靠内容来进行营销，一起看一下内容营销的工作流吧。选题创作投放主要内容营销的选题类型-常青树：用户长时间关心的，比如房价，教育-热点：用户短时间关心的，比如八卦，实事二八原则常青树话题等等选题来源：访谈法：寻找目标用户尽可能一对一进行访谈，用户反馈的问题都可以成为你的选题来源数据法：利用搜索引擎获取内容选题。利用爬虫工具看看人们都比较关心哪些话题来作为选题基于时事的选题数据工
旅游网站设计与实现：SpringBoot框架案例分析 2401_85763803 旅游 spring boot 后端
目录摘要2Abstract31.1课题开发的背景41.2课题研究的意义41.3研究内容5第二章系统开发关键技术62.1JSP技术介绍62.2JAVA简介62.3MyEclipse开发环境72.4Tomcat服务器72.5SpringBoot框架72.6MySQL数据库8第三章系统分析93.1系统可行性研究93.2性能分析103.3业务流程分析10第四章系统的总体设计134.1系统功能结构设计134
50.复盘变现之路 506小棉袄
1.昨天下载了头条，用搜索引擎找到了如何写文章。注册了一下。这一切其实都好简单，但是自己就是拖着没有做，而且还心安理得。现在在管理别人，于是用自己做到了才能教别人去做到来要求自己发现也不难。2.日更被我捡了起来。后面没有特殊情况，我会一直更下去。放弃一件事很容易，坚持自己喜欢的事也不会太难。3.今天完成了50关的最后一关，接下来就要挑战100关。想看看自己的极限在哪里。具体做法：1.每天早起一小时
NLP_jieba中文分词的常用模块 Hiweir · NLP_jieba的使用自然语言处理中文分词人工智能 nlp
1.jieba分词模式（1）精确模式:把句子最精确的切分开,比较适合文本分析.默认精确模式.（2）全模式:把句子中所有可能成词的词都扫描出来,cut_all=True,缺点:速度快,不能解决歧义（3）paddle:利用百度的paddlepaddle深度学习框架.简单来说就是使用百度提供的分词模型.use_paddle=True.（4）搜索引擎模式:在精确模式的基础上,对长词再进行切分,提高召回率,
预警提醒并生成日志，便于后期追溯的智慧地产开源了 AI服务老曹开源安全智慧城市大数据人工智能
智慧地产视觉监控平台是一款功能强大且简单易用的实时算法视频监控系统。它的愿景是最底层打通各大芯片厂商相互间的壁垒，省去繁琐重复的适配流程，实现芯片、算法、应用的全流程组合，从而大大减少企业级应用约95%的开发成本。AI是新形势下数字经济的重要基础设施，具备同各行各业结合的能力，越来越多的行业和领域都在进行不同层次的智能化升级。新人工智能时代将是泛智能时代，覆盖的范围也远远不止传统理解中的互联网和科
DLNA(明基的返校讲座) 米丽 DLNA
数位家庭技术的两大标准DLNA是目前产业界最大的标准，DLNA建议采用UPnP这个业界标准。UPnP世界有七、八百家公司加入，在DLNA这一块有将近快三百家厂商加入，几乎市面上看的到的品牌都有加入这两大协会。这两个是非常显眼的工业标准，所以我今天会针对这两个做介绍，至于一些比较区域性的，如亚洲或北美的区域性标准就只会简单带过。在介绍这两个之后，会在介绍BenQ的ATC。ATC是前瞻技术中心，会介绍
JDBC使用晚睡早起₍˄·͈༝·͈˄*₎◞ ̑̑ java java
7.2创建JDBC应用7.2.1创建JDBC应用程序的步骤使用JDBC操作数据库中的数据包括6个基本操作步骤：（1）载入JDBC驱动程序：首先要在应用程序中加载驱动程序driver，使用Class.forName()方法加载特定的驱动程序，每种数据库管理系统的驱动程序不同，由数据库厂商提供。（2）定义连接URL，建立数据库连接对象：通过DriverManager类的getConnection()方
JDBC使用及源码编译 openGauss小助手 openGauss技术分享数据库 database
1.JDBC简介JDBC是JavaDataBaseConnectivity的缩写，它是Java程序访问数据库的标准接口。JDBC接口是Java标准库自带的，具体的JDBC驱动是由数据库厂商提供的，JDBC驱动也是由Java语言编写的，为一个jar包，真正实现JDBC接口中的类。openGauss数据库源自postgres，openGaussJDBC以PostgreSQLJDBCDriver42.2
Django：Python高级Web框架详解及参数设置零度° python python django 前端
Django是一个高级的PythonWeb框架，它鼓励快速开发和简洁实用的设计。Django遵循MVC设计模式，提供了一套完整的解决方案，用于构建复杂的、数据库驱动的网站。Django的主要特点自动管理数据库：通过ORM（对象关系映射）自动管理数据库。自动生成站点地图：支持搜索引擎优化（SEO）。用户身份认证：内置用户认证系统。中间件支持：强大的中间件支持，可以处理请求和响应。跨站请求伪造（CSR
JDBC理解迷糊银儿
DBC：databaseconnection这是数据库连接，JDBC是java编程语言支持的数据库连接。SUM公司提供了一些接口供各个数据库厂商实现，因为很多数据库的操作都是共用的，所以以接口的方式提供出来，由个大厂商实现。如在eclipse中引入的java-mysql-connector的jar包就实现了这些接口。数据库驱动：驱动就是两个设备之间沟通的桥梁，所以在使用数据库之前必须进行“加载驱动
web报表工具FineReport常见的数据集报错错误代码和解释老A不折腾 web报表 finereport 代码可视化工具
在使用finereport制作报表，若预览发生错误，很多朋友便手忙脚乱不知所措了，其实没什么，只要看懂报错代码和含义，可以很快的排除错误，这里我就分享一下finereport的数据集报错错误代码和解释，如果有说的不准确的地方，也请各位小伙伴纠正一下。 NS-war-remote=错误代码\:1117 压缩部署不支持远程设计 NS_LayerReport_MultiDs=错误代码
Java的WeakReference与WeakHashMap bylijinnan java 弱引用
首先看看 WeakReference wiki 上 Weak reference 的一个例子： public class ReferenceTest { public static void main(String[] args) throws InterruptedException { WeakReference r = new Wea
Linux——（hostname）主机名与ip的映射 eksliang linux hostname
一、什么是主机名无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。但IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。域名类型 linuxsir.org 这样的；主机名是用于什么的呢？答：在一个局域网中，每台机器都有一个主
oracle 常用技巧 18289753290
oracle常用技巧 ①复制表结构和数据 create table temp_clientloginUser as select distinct userid from tbusrtloginlog ②仅复制数据如果表结构一样 insert into mytable select * &nb
使用c3p0数据库连接池时出现com.mchange.v2.resourcepool.TimeoutException 酷的飞上天空 exception
有一个线上环境使用的是c3p0数据库，为外部提供接口服务。最近访问压力增大后台tomcat的日志里面频繁出现 com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.v2.resourcepool.BasicResou
IT系统分析师如何学习大数据蓝儿唯美大数据
我是一名从事大数据项目的IT系统分析师。在深入这个项目前需要了解些什么呢？学习大数据的最佳方法就是先从了解信息系统是如何工作着手，尤其是数据库和基础设施。同样在开始前还需要了解大数据工具，如Cloudera、Hadoop、Spark、Hive、Pig、Flume、Sqoop与Mesos。系统分析师需要明白如何组织、管理和保护数据。在市面上有几十款数据管理产品可以用于管理数据。你的大数据数据库可能
spring学习——简介 a-john spring
Spring是一个开源框架，是为了解决企业应用开发的复杂性而创建的。Spring使用基本的JavaBean来完成以前只能由EJB完成的事情。然而Spring的用途不仅限于服务器端的开发，从简单性，可测试性和松耦合的角度而言，任何Java应用都可以从Spring中受益。其主要特征是依赖注入、AOP、持久化、事务、SpringMVC以及Acegi Security 为了降低Java开发的复杂性，
自定义颜色的xml文件 aijuans xml
<?xml version="1.0" encoding="utf-8"?> <resources> <color name="white">#FFFFFF</color> <color name="black">#000000</color> &
运营到底是做什么的？ aoyouzi 运营到底是做什么的？
文章来源：夏叔叔（微信号：woshixiashushu），欢迎大家关注！很久没有动笔写点东西，近些日子，由于爱狗团产品上线，不断面试，经常会被问道一个问题。问：爱狗团的运营主要做什么？答：带着用户一起嗨。为什么是带着用户玩起来呢？究竟什么是运营？运营到底是做什么的？那么，我们先来回答一个更简单的问题——互联网公司对运营考核什么？以爱狗团为例，绝大部分的移动互联网公司，对运营部门的考核分为三块——用
js面向对象类和对象百合不是茶 js 面向对象函数创建类和对象
接触js已经有几个月了,但是对js的面向对象的一些概念根本就是模糊的,js是一种面向对象的语言但又不像java一样有class,js不是严格的面向对象语言 ,js在java web开发的地位和java不相上下 ,其中web的数据的反馈现在主流的使用json,json的语法和js的类和属性的创建相似下面介绍一些js的类和对象的创建的技术一:类和对
web.xml之资源管理对象配置 resource-env-ref bijian1013 java web.xml servlet
resource-env-ref元素来指定对管理对象的servlet引用的声明，该对象与servlet环境中的资源相关联 <resource-env-ref> <resource-env-ref-name>资源名</resource-env-ref-name> <resource-env-ref-type>查找资源时返回的资源类
Create a composite component with a custom namespace sunjing
https://weblogs.java.net/blog/mriem/archive/2013/11/22/jsf-tip-45-create-composite-component-custom-namespace When you developed a composite component the namespace you would be seeing would
【MongoDB学习笔记十二】Mongo副本集服务器角色之Arbiter bit1129 mongodb
一、复本集为什么要加入Arbiter这个角色回答这个问题，要从复本集的存活条件和Aribter服务器的特性两方面来说。什么是Artiber？ An arbiter does not have a copy of data set and cannot become a primary. Replica sets may have arbiters to add a
Javascript开发笔记白糖_ JavaScript
获取iframe内的元素通常我们使用window.frames["frameId"].document.getElementById("divId").innerHTML这样的形式来获取iframe内的元素，这种写法在IE、safari、chrome下都是通过的，唯独在fireforx下不通过。其实jquery的contents方法提供了对if
Web浏览器Chrome打开一段时间后，运行alert无效 bozch Web chorme alert 无效
今天在开发的时候，突然间发现alert在chrome浏览器就没法弹出了，很是怪异。试了试其他浏览器，发现都是没有问题的。开始想以为是chorme浏览器有啥机制导致的，就开始尝试各种代码让alert出来。尝试结果是仍然没有显示出来。这样开发的结果，如果客户在使用的时候没有提示，那会带来致命的体验。哎，没啥办法了就关闭浏览器重启。结果就好了，这也太怪异了。难道是cho
编程之美-高效地安排会议图着色问题贪心算法 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Collections; import java.util.List; import java.util.Random; public class GraphColoringProblem { /**编程之美高效地安排会议图着色问题贪心算法 * 假设要用很多个教室对一组
机器学习相关概念和开发工具 chenbowen00 算法 matlab 机器学习
基本概念：机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演绎。开发工具 M
[宇宙经济学]关于在太空建立永久定居点的可能性 comsci 经济
大家都知道,地球上的房地产都比较昂贵,而且土地证经常会因为新的政府的意志而变幻文本格式........ 所以,在地球议会尚不具有在太空行使法律和权力的力量之前,我们外太阳系统的友好联盟可以考虑在地月系的某些引力平衡点上面,修建规模较大的定居点
oracle 11g database control 证书错误 daizj oracle 证书错误 oracle 11G 安装
oracle 11g database control 证书错误 win7 安装完oracle11后打开 Database control 后，会打开em管理页面，提示证书错误，点“继续浏览此网站”，还是会继续停留在证书错误页面解决办法：是 KB2661254 这个更新补丁引起的，它限制了 RSA 密钥位长度少于 1024 位的证书的使用。具体可以看微软官方公告：
Java I/O之用FilenameFilter实现根据文件扩展名删除文件游其是你 FilenameFilter
在Java中，你可以通过实现FilenameFilter类并重写accept(File dir, String name) 方法实现文件过滤功能。在这个例子中，我们向你展示在“c:\\folder”路径下列出所有“.txt”格式的文件并删除。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
C语言数组的简单以及一维数组的简单排序算法示例，二维数组简单示例 dcj3sjt126com c array
# include <stdio.h> int main(void) { int a[5] = {1, 2, 3, 4, 5}; //a 是数组的名字 5是表示数组元素的个数，并且这五个元素分别用a[0], a[1]...a[4] int i; for (i=0; i<5; ++i) printf("%d\n",
PRIMARY, INDEX, UNIQUE 这3种是一类 PRIMARY 主键。就是唯一且不能为空。 INDEX 索引，普通的 UNIQUE 唯一索引 dcj3sjt126com primary
PRIMARY, INDEX, UNIQUE 这3种是一类PRIMARY 主键。就是唯一且不能为空。INDEX 索引，普通的UNIQUE 唯一索引。不允许有重复。FULLTEXT 是全文索引，用于在一篇文章中，检索文本信息的。举个例子来说，比如你在为某商场做一个会员卡的系统。这个系统有一个会员表有下列字段：会员编号 INT会员姓名
java集合辅助类 Collections、Arrays shuizhaosi888 Collections Arrays HashCode
Arrays、Collections 1 ）数组集合之间转换 public static <T> List<T> asList(T... a) { return new ArrayList<>(a); } a）Arrays.asL
Spring Security（10）——退出登录logout 234390216 logout Spring Security 退出登录 logout-url LogoutFilter
要实现退出登录的功能我们需要在http元素下定义logout元素，这样Spring Security将自动为我们添加用于处理退出登录的过滤器LogoutFilter到FilterChain。当我们指定了http元素的auto-config属性为true时logout定义是会自动配置的，此时我们默认退出登录的URL为“/j_spring_secu
透过源码学前端之 Backbone 三 Model 逐行分析JS源代码 backbone 源码分析 js学习
Backbone 分析第三部分 Model 概述： Model 提供了数据存储，将数据以JSON的形式保存在 Model的 attributes里，但重点功能在于其提供了一套功能强大，使用简单的存、取、删、改数据方法，并在不同的操作里加了相应的监听事件，如每次修改添加里都会触发 change，这在据模型变动来修改视图时很常用，并且与collection建立了关联。
SpringMVC源码总结（七）mvc:annotation-driven中的HttpMessageConverter 乒乓狂魔 springMVC
这一篇文章主要介绍下HttpMessageConverter整个注册过程包含自定义的HttpMessageConverter，然后对一些HttpMessageConverter进行具体介绍。 HttpMessageConverter接口介绍： public interface HttpMessageConverter<T> { /** * Indicate
分布式基础知识和算法理论 bluky999 算法 zookeeper 分布式一致性哈希 paxos
分布式基础知识和算法理论 BY [email protected] 本文永久链接：http://nodex.iteye.com/blog/2103218 在大数据的背景下，不管是做存储，做搜索，做数据分析，或者做产品或服务本身，面向互联网和移动互联网用户，已经不可避免地要面对分布式环境。笔者在此收录一些分布式相关的基础知识和算法理论介绍，在完善自我知识体系的同
Android Studio的.gitignore以及gitignore无效的解决 bell0901 android gitignore
　　github上.gitignore模板合集，里面有各种.gitignore ： https://github.com/github/gitignore 　　自己用的Android Studio下项目的.gitignore文件，对github上的android.gitignore添加了　　　　　　# OSX files　　　　　　//mac os下　　　　　　.DS_Store
成为高级程序员的10个步骤 tomcat_oracle 编程
What 软件工程师的职业生涯要历经以下几个阶段：初级、中级，最后才是高级。这篇文章主要是讲如何通过 10 个步骤助你成为一名高级软件工程师。 Why 得到更多的报酬！因为你的薪水会随着你水平的提高而增加提升你的职业生涯。成为了高级软件工程师之后，就可以朝着架构师、团队负责人、CTO 等职位前进历经更大的挑战。随着你的成长，各种影响力也会提高。
mongdb在linux下的安装 xtuhcy mongodb linux
一、查询linux版本号： lsb_release -a LSB Version: :base-4.0-amd64:base-4.0-noarch:core-4.0-amd64:core-4.0-noarch:graphics-4.0-amd64:graphics-4.0-noarch:printing-4.0-amd64:printing-4.0-noa

htmlparser使用经验总结，与网页提取

你可能感兴趣的:(搜索引擎,MyEclipse,Lucene,J#,IT厂商)