fffddgx

htmlparser使用经验总结，与网页提取

先说说htmlparser的初步学习

我觉得htmlparser也不是很困难，就是处理是麻烦些，htmlparser对html节点处理的数据结构为：

解析html有3中方法

1：lexer

lexer解析html的方式更底层些，我返回的是node节点的线性序列，不能产生树形序列

2：filter

filter 解析html返回树形节点序列支持逻辑嵌套（andfilter(filter,andfilter(notfilter(),orfilter(..,..)))）

比较常用的几个filter：

(1)：AndFilter:相当与逻辑与，构造函数接受2个Filter(f1,f2),AndFilter(f1,f2)类似于f1&&f2

(2):HasAttributeFilter:用于提取含有指定属性的节点

(3):TagNameFilter:提取所有满足指定tag名的节点

3：visitor

其中有一个特别的 visitor：TextExtractingVisitor

此类用来提取网页中的所有文字，剔除所有标签。在有些时候比较好用。它还支持对已提取的节点的visit

用法：

//通过filter 获得NodeList
NodeList gen_tr = this.getParse().parse(general_data_filter);
//对已得到的NodeList采用TextExtractingVisitor方式visit
//这样就实现了filter和visitor的结合使用
gen_tr.visitAllNodesWith(new TextExtractingVisitor());

注：1：我认为析取筛选网页是做搜索引擎前期最关键也是最需要耐心的工作。

2：在解析的过程中你会发现经常抛空指针异常，原因：（1）：你的filter根本没有析取出节点（2）：你析取出的是"/n"，这个确实比较烦，一般当解析网页的时候，会经常出现很多"/n"例如:

"/n""/n""/n""/n""/n"text"/n"

下面是我解析：http://price.pcauto.com.cn/m11199/等相关的网页

这个网址中的汽车参数的代码，可能对初学者有所帮助：

提取网页内容的基类，它定义了一些提取网页内容的基本的通用的方法：

package get_infor;

import java.io.BufferedWriter;
import java.io.File;
import java.io.FileWriter;
import java.io.IOException;

import org.htmlparser.Parser;

public class BaseExtractor {
	protected static final String NEWLINE = "\r\n";

	private String outputPath;

	private String inputPath;

	private Parser parse;
	/**
	 * 对图片路径进行哈希的算法，这里采用MD5算法
	 */
	protected static final String HASH_ALGORITHM = "md5";
	/**
	 * 用于存放被处理过后的产口的图片的目录
	 */
	private String imageDir = "";
	
	public int extractedCount = 0; 
	
	String file_name = "";

	public String getOutputPath() {
		return outputPath;
	}

	public void setOutputPath(String outputPath) {
		this.outputPath = outputPath;
	}

	public String getInputPath() {
		return inputPath;
	}

	public void setInputPath(String inputPath) {
		this.inputPath = inputPath;
	}

	public Parser getParse() {
		return parse;
	}

	public void setParse(Parser parse) {
		this.parse = parse;
	}

	public String getMirrorDir() {
		return mirrorDir;
	}

	public void setMirrorDir(String mirrorDir) {
		this.mirrorDir = mirrorDir;
	}

	public String getImageDir() {
		return imageDir;
	}

	public void setImageDir(String imageDir) {
		this.imageDir = imageDir;
	}

	public static String getNEWLINE() {
		return NEWLINE;
	}

	public static String getHASH_ALGORITHM() {
		return HASH_ALGORITHM;
	}

	protected void operator() {
		String ip = this.getInputPath();
		visit(new File(ip));
	}

	public void visit(File dir) {
		if (dir.isFile()) {
			extract(dir.getAbsolutePath());
		} else {
			File[] fs = dir.listFiles();
			for (int i = 0; i < fs.length; i++) {
				if (fs[i].isFile()) {
					// p(fs[i].getAbsolutePath());
					extract(fs[i].getAbsolutePath());
				} else {
					visit(fs[i]);
				}
			}
		}
	}

	public void extract(String url) {
	}

	protected void write_file(StringBuffer sb) {
		try {
			file_name = StringUtils.filenameProcess(file_name);
			BufferedWriter bw = new BufferedWriter(new FileWriter(this
					.getOutputPath()
					+ file_name + ".txt"));
			bw.write(sb.toString());
			bw.flush();
			p("已经处理了："+ extractedCount+++file_name);
		} catch (IOException e) {
			e.printStackTrace();
		}
	}

	protected String process(String l6_td_str) {
		String l6_td_str1 = l6_td_str.replaceAll("\\ ", "");
		String l6_td_str2 = l6_td_str1.replaceAll("\n", "");
		int index2 = l6_td_str2.lastIndexOf(">");
		int index1 = l6_td_str2.indexOf("<");
		if (index1 != -1 && index2 != -1) {
			l6_td_str2 = l6_td_str2.substring(0, index1)
					+ l6_td_str2.substring(index2 + 1);

		}
		return l6_td_str2;
	}

	protected void p(Object o) {
		System.out.println(o);
	}
}

下面的CarExtractor是对BaseExtractor的继承，重载添加了特定的方法

package get_infor;

import java.io.File;
import java.io.FileInputStream;
import java.io.FileOutputStream;


import org.htmlparser.Node;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.filters.AndFilter;
import org.htmlparser.filters.HasAttributeFilter;
import org.htmlparser.filters.TagNameFilter;
import org.htmlparser.tags.ImageTag;
import org.htmlparser.tags.TableColumn;
import org.htmlparser.tags.TableTag;
import org.htmlparser.util.NodeList;
import org.htmlparser.util.ParserException;
import org.htmlparser.visitors.TextExtractingVisitor;

public class CarExtractor extends BaseExtractor {
//	析取网页内容方法
	public void extract(String url) {
		try {
			
			String real_url = "http://"+url.substring(72,url.length()-10).replaceAll("\\\\", "/");
			StringBuffer sb = new StringBuffer();
			sb.append("url: "+real_url+NEWLINE);
//			获得网页产品图片
			String pic_src = get_pic_src(url);
			sb.append("pic: "+pic_src+NEWLINE);
			this.getParse().reset();
			String general_data = this.get_general_data(url);
			sb.append(general_data);
			this.setParse(new Parser(url));
		
//			获得产品详细信息的过滤器
			NodeFilter Attribute_filter = new AndFilter(
					new TagNameFilter("td"), new AndFilter(
							new HasAttributeFilter("class", "bor1_c1"),
							new HasAttributeFilter("style", "padding:5px;")));
//			设定分析器的编码方式为"gb2312"
			this.getParse().setEncoding("gb2312");
			
			NodeList l1_td_list = this.getParse().parse(Attribute_filter);
			NodeList l2_table_list = l1_td_list.elementAt(0).getChildren();
//			获得产品的基本参数
			for (int j = 1; j < l2_table_list.size(); j += 2) {
				TableTag l2_table = (TableTag) l2_table_list.elementAt(j);
				Node l4_txt = l2_table.getFirstChild().getNextSibling()
						.getFirstChild().getNextSibling().getFirstChild();

				if (l4_txt.getClass().toString().equals(
						"class org.htmlparser.nodes.TextNode")
						&& !l4_txt.getText().matches("\n")) {
					sb.append(process(l4_txt.getText()) + "   ");

				} else {
					for (int m = 1; m < l2_table.getChildren().size(); m += 2) {
						NodeList l6_td_list = l2_table.getChildren().elementAt(
								m).getChildren().elementAt(1).getChildren()
								.elementAt(1).getChildren().elementAt(1)
								.getChildren();
						for (int k = 1; k < l6_td_list.size(); k += 2) {
							TableColumn l6_td = (TableColumn) l6_td_list
									.elementAt(k);
							String l6_td_str = l6_td.getStringText();

							l6_td_str = process(l6_td_str);

							if (l6_td.getAttribute("class").equals(
									"series_2_cs3_c1")
									|| l6_td.getAttribute("class").equals(
											"series_2_cs3_c4")
									|| l6_td.getAttribute("class").equals(
											"series_2_cs3_c7")) {
								sb.append(l6_td_str + " : ");
							} else if (l6_td.getAttribute("class").equals(
									"series_2_cs3_c2")
									|| l6_td.getAttribute("class").equals(
											"series_2_cs3_c5")
									|| l6_td.getAttribute("class").equals(
											"series_2_cs3_c8")) {
								sb.append(l6_td_str + " ;  ");
							}
						}
						sb.append(NEWLINE);
					}
				}
				sb.append(NEWLINE);
			}
//			获得产品的外设等高级参数
			NodeList l2_table_list2 = l1_td_list.elementAt(1).getChildren();
			for (int j = 1; j < l2_table_list2.size(); j += 2) {
				TableTag l2_table = (TableTag) l2_table_list2.elementAt(j);
				if (l2_table.getFirstChild().getNextSibling().getFirstChild().getNextSibling() != null) {
					Node l4_txt = l2_table.getFirstChild().getNextSibling()
							.getFirstChild().getNextSibling().getFirstChild();

					if (l4_txt.getClass().toString().equals(
							"class org.htmlparser.nodes.TextNode")
							&& !l4_txt.getText().matches("\n")) {
						sb.append(process(l4_txt.getText()) + "   ");

					} else {
						for (int l = 1; l < l2_table.getChildren().size(); l += 2) {
							NodeList l4_td_list = l2_table.getChildren()
									.elementAt(l).getChildren();
							for (int i = 1; i < l4_td_list.size(); i += 2) {
								TableColumn tc = (TableColumn) l4_td_list
										.elementAt(i).getChildren()
										.elementAt(1).getChildren()
										.elementAt(1).getChildren()
										.elementAt(1);
								sb.append(process(tc.getStringText()) + ",");
							}
							sb.append(NEWLINE);
						}
					}
					sb.append(NEWLINE);
				}
			}

//			System.out.println(sb.toString());
//			写入文件
			write_file(sb);
		} catch (ParserException e) {
			e.printStackTrace();
		} catch (Exception e) {
			e.printStackTrace();
		}
	}

//	获得产品图片的src的方法
	private String get_pic_src(String url) {
	
		NodeFilter pic_filter = new AndFilter(new TagNameFilter("td"),
				new HasAttributeFilter("class", "series_sy_intro_pic"));
		String imgURL = "";
		String new_image_file  = "";
		try {
			this.setParse(new Parser(url));
			this.getParse().setEncoding("gb2312");
			NodeList pic_nodes = this.getParse().parse(pic_filter);
			TableColumn tc = (TableColumn) pic_nodes.elementAt(0);

			ImageTag it = (ImageTag) (tc.childAt(1).getChildren().elementAt(0));
			imgURL = it.getImageURL();
//			String fileType = imgURL.substring(imgURL
//					.lastIndexOf(".") + 1);
			//生成新的图片的文件名
			new_image_file = StringUtils.encodePassword(
					imgURL, HASH_ALGORITHM)
					+ ".jpg";
//			imgURL = StringUtils.replace(imgURL, "+", " ");
			//利用miorr目录下的图片生成的新的图片
			copyImage(imgURL, new_image_file);
			

		} catch (ParserException e) {
			e.printStackTrace();
		} catch (Exception e) {
			e.printStackTrace();
		}
		return new_image_file;
	}

	
	protected boolean copyImage(String image_url, String new_image_file) {

		String dirs = image_url.substring(7);

		try {
			// instance the File as file_in and file_out
			File file_in = new File(new File("f:/"), dirs);
			if (file_in == null || !file_in.exists()) {
				file_in = new File("f:/noimage.jpg");
			}
			
			File file_out = new File(new File("f:/img/"), new_image_file);

			FileInputStream in1 = new FileInputStream(file_in);
			FileOutputStream out1 = new FileOutputStream(file_out);

			byte[] bytes = new byte[1024];
			int c;
			while ((c = in1.read(bytes)) != -1)
				out1.write(bytes, 0, c);

			// close
			in1.close();
			out1.close();
			return (true); // if success then return true
		} catch (Exception e) {
			e.printStackTrace();
			return (false); // if fail then return false
		}
	}
//	获取产品概要参数
	private String get_general_data(String url){
		StringBuffer general_data = new StringBuffer();
		try {
			this.setParse(new Parser(url));
			this.getParse().setEncoding("gb2312");
			NodeFilter general_data_filter = new AndFilter(new TagNameFilter("table"),new HasAttributeFilter("class","series_sy_intro_txt"));
			NodeFilter price_filter = new AndFilter(new TagNameFilter("td"),new HasAttributeFilter("class","f18b"));
			NodeList general_data_list = this.getParse().parse(general_data_filter);
			NodeList gen_tr = general_data_list.elementAt(0).getChildren();
			gen_tr.visitAllNodesWith(new TextExtractingVisitor());
			String str = process(gen_tr.asString().replaceAll("\\s", ""));
//			获得文件名字
			file_name= get_title(str);
			this.getParse().reset();
			NodeList price_td = this.getParse().parse(price_filter);
			TableColumn tc = (TableColumn)price_td.elementAt(0);
			String price = tc.getStringText();
			str = "概要参数："+ str + NEWLINE +"厂家指导价： "+price+NEWLINE;
			general_data.append(str);
			
		} catch (ParserException e) {
			e.printStackTrace();
		}
		return general_data.toString();
	
	}


	
	private String get_title(String str) {
		int index1,index2,index3,index4,index5;
		index1 = str.indexOf("生产厂商：")+5;
		index2 = str.indexOf("所属：");
		index3 = str.indexOf("上市时间：");
		index4 = str.indexOf("型　　号：")+5;
		index5 = str.indexOf("车　　型：");
		String bland = str.substring(index1,index2);
		String type = str.substring(index2+3,index3);
		String name = str.substring(index4,index5);
		return bland+"_"+type+""+name;
	}

	public static void main(String args[]) {
		CarExtractor ex = new CarExtractor();
		ex
				.setInputPath("F:/Workspaces/MyEclipse 7.1/heritrix/jobs/may2-20090501055518750/mirror/price.pcauto.com.cn");
		ex.setOutputPath("F:/job/");
		ex.get_general_data("F:/Workspaces/MyEclipse 7.1/heritrix/jobs/may2-20090501055518750/mirror/price.pcauto.com.cn/m157/index.html");
		ex.operator();
//		ex.extract("F:/Workspaces/MyEclipse 7.1/heritrix/jobs/may2-20090501055518750/mirror/price.pcauto.com.cn/m157/index.html");
	}


}

中间会用到StringUtils这个类，它的主要作用是对图片名称的md5编码，形成独一无二的名字

package get_infor;


import java.security.MessageDigest;

public class StringUtils {

	public static String trim(String line) {
		String result = line.trim();
		while (result.startsWith("　")) {
			result = result.substring(1);
		}
		while (result.endsWith("　")) {
			result = result.substring(0, result.length() - 1);
		}

		return result;
	}

	public static String filenameProcess(String name) {
		String result = name.trim();
		result = result.replaceAll("\\\\", "_");
		result = result.replaceAll("/", "_");
		result = result.replaceAll("\\*", " ");
		return result;
	}



	public static String encodePassword(String password, String algorithm) {
		byte[] unencodedPassword = password.getBytes();

		MessageDigest md = null;

		try {
			// first create an instance, given the provider
			md = MessageDigest.getInstance(algorithm);
		} catch (Exception e) {
			return password;
		}

		md.reset();

		// call the update method one or more times
		// (useful when you don't know the size of your data, eg. stream)
		md.update(unencodedPassword);

		// now calculate the hash
		byte[] encodedPassword = md.digest();

		StringBuffer buf = new StringBuffer();

		for (int i = 0; i < encodedPassword.length; i++) {
			if ((encodedPassword[i] & 0xff) < 0x10) {
				buf.append("0");
			}

			buf.append(Long.toString(encodedPassword[i] & 0xff, 16));
		}

		return buf.toString();
	}

	public static final String replace(String line, String oldString,
			String newString) {
		if (line == null) {
			return null;
		}
		int i = 0;
		if ((i = line.indexOf(oldString, i)) >= 0) {
			char[] line2 = line.toCharArray();
			char[] newString2 = newString.toCharArray();
			int oLength = oldString.length();
			StringBuffer buf = new StringBuffer(line2.length);
			buf.append(line2, 0, i).append(newString2);
			i += oLength;
			int j = i;
			while ((i = line.indexOf(oldString, i)) > 0) {
				buf.append(line2, j, i - j).append(newString2);
				i += oLength;
				j = i;
			}
			buf.append(line2, j, line2.length - j);
			return buf.toString();
		}
		return line;
	}

}

运行CarExtractor的main方法即可实现对INputPath目录下的所有已下网页的处理析取

运行后会出现像下面这种格式的5000多个txt文件

写道

url: http://price.pcauto.com.cn/m10156/
pic: bf66b8100173abc02ccbd96181df141a.jpg
概要参数：型　　号：凯雷德外交官2驱车　　型：SUV/CRV/CUV生产厂商：ECB工厂所属：[凯雷德]上市时间：2008最近更新：2008.06.27查二手车报价外形尺寸（长/宽/高）：0/0/0油耗：0.0L查看实际油耗优　　点：非常豪华，具有与生俱来的王者气势缺　　点：油耗偏高
厂家指导价： 136.0万
凯雷德外交官 2驱-基本资料
车型名称 : 凯雷德外交官 2驱 ; 车体结构 : SUV/CRV/CUV ; 豪华级别 : 豪华型 ;

凯雷德外交官 2驱-引擎参数
标准引擎 : V型8缸/6.2升/VVT可变进排气门正时/ETC电子节气门控制 ; 标准变速器 : 手自一体 6档 ; 标准排量 : 6200 cc ;
气门数 : 32 ; 最大功率 : 301/5700 KW/rpm ; 最大扭矩 : 565/4400 N?m/rpm ;
燃油系统 : 电子燃油喷射式 ; 理论油耗 : 升/百公里 ; 最高时速 : km/h ;
加速时间 : 秒（0-100km/h） ; 排放标准 : 欧Ⅳ标准 ; : ;

凯雷德外交官 2驱-转向/悬挂/轮胎
驱动方式 : 前置后驱 ; 制动方式 : 碟/碟（前/后） ; 转向助力 : 助力转向式 ;
悬挂方式 : ; 轮毂尺寸 : ; 轮胎 : ;

尺寸和重量
车身重量 : kg ; 轴距 : mm ; 轮距 : mm（前/后） ;
全车长度 : mm ; 车身宽度 : mm ; 车身高度 : mm ;

通过性
最小转弯半径 : m ; 最小离地间隙 : mm ; 最大爬坡度 : % ;
接近角 : ° ; 离去角 : ° ; : ;

货舱容积
行李舱容积 : L ; 油箱容积 : L ; 标准座位数 : ;

外观/内饰
舒适性配置
车辆安全/防盗配置
其他功能配置

毕竟我也是菜鸟，在设计过程中也遇到了很多困难，但是都一一克服，我说的有什么不对的地方，欢迎大家指正。谢谢

以上的3个类在设计过程中参考了《lucene+heritrix 开发自己的搜索引擎》

IDC权威认可：瑞数信息双项入选《中国大模型安全保护市场概览》科技云报道安全
近日，国际数据公司IDC正式发布了《中国大模型安全保护市场概览，2025：全方位安全检测与防护构建可信AI》报告。本次报告中IDC结合全球统一定义以及中国市场特色，将中国大模型安全保护市场划分为7个细分领域，并通过对中国大模型安全保护市场的广泛和深入的调研，对各细分领域的代表厂商进行了全面梳理。瑞数信息凭借在AI领域的深厚技术积累与前瞻布局，入选中国大模型安全保护市场“保护大模型接口”与“保护大模
怎么加入广告联盟平台赚钱广告联盟平台(广告联盟挂机app)详细步骤小易的生活
加入广告联盟平台赚钱，是一个相对简单且有效的在线赚钱方式，特别适合拥有网站、博客、社交媒体账号或其他在线平台的个人或企业。以下是加入广告联盟平台并赚钱的详细步骤：选择合适的广告联盟平台搜索与了解：首先，你需要通过搜索引擎（如百度、谷歌）查找“广告联盟”或“网络广告”等关键词，找到一些知名的广告联盟平台，如GoogleAdSense、AmazonAssociates、百度联盟等。对比与选择：在选择平
站外SEO入门：三分钟掌握核心概念与基础操作 SEO_juper SEO Google 数字营销 seo 谷歌数字营销谷歌seo seo优化
站外SEO是您在网站之外所做的一切，以帮助它在SERP中排名更高。站内SEO侧重于内容、网站结构和技术改进，而站外SEO着眼于从外部建立信誉。有很多方法可以到达那里，从建立链接到社交媒体，再到获得那些令人垂涎的品牌提及。站外SEO对你意味着什么？通过站外SEO，您可以尝试为自己或您的企业获得信任和信誉。这个策略的很大一部分涉及链接建设，这涉及让其他网站链接回你的网站。这样做可以向搜索引擎表明您的内
零事故网站重构：11步标准化流程与风险管理指南
什么是网站重新设计？网站重新设计是一个涉及更改网站外观、内容和功能的过程。目标？开发一个更好地满足用户需求和业务目标的网站。网站更新涉及进行小规模的更改（例如对主页布局进行一些调整）。但是完全重新设计基本上是从头开始重建您现有的网站。网站重新设计检查清单通常包括以下要素：视觉设计：网站的外观，包括布局、配色方案、排版和品牌用户体验（UX）：网站如何为用户提供服务，包括导航和互动元素搜索引擎优化（S
EFK架构日志采集系统
以下是基于‌Filebeat+Elasticsearch+Kibana（EFK）‌构建日志采集系统的核心要点及部署指南，综合多来源最佳实践整理：一、架构核心要点‌组件角色‌‌Filebeat‌：轻量级日志采集器，实时监控文件/目录变化，高效转发日志数据（资源占用仅为Logstash的1/10）。‌Elasticsearch‌：分布式搜索引擎，存储日志并提供实时检索与分析能力。‌Kibana‌：可视
【数据结构】详解堆排序当中的topk问题（leetcode例题） ylfxw 数据结构 leetcode 算法
文章目录前言如何理解topk问题代码逻辑代码实现前言Leetcode相关题目：215.数组中的第K个最大元素如何理解topk问题**TopK问题是一个经典的问题，在计算机科学中，它的目标是在一组数据中找到前K个最大或最小的元素。**这个问题在许多场景下都很重要，比如搜索引擎的搜索结果排名、数据分析中的热门元素筛选等。.在最简单的形式中，给定一个数组（或列表）和一个整数K，TopK问题要求返回数组中
销售易发布中国首款AI CRM，纷享销客什么时候能抄上作业 wq54wq 人工智能
在数字化转型的深水区，客户关系管理、系统已成为企业增长的核心基础设施，一家可以与企业共同成长的CRM厂商才能跟上企业业务的快速发展，帮助企业实现高质量增长。2025年3月19日，销售易在腾讯云城市峰会上高调发布中国首款AICRM产品——NeoAgent。这款融合了腾讯混元大模型与DeepSeek开源技术的智能体矩阵，不仅重新定义了CRM的交互逻辑，更将行业竞争推向了“使技术真正回归赋能业务的本质”
背靠腾讯的销售易，发布中国首款AI CRM，纷享销客接下来怎么办 CC_54321 人工智能
在数字化转型的深水区，客户关系管理、系统已成为企业增长的核心基础设施，一家可以与企业共同成长的CRM厂商才能跟上企业业务的快速发展，帮助企业实现高质量增长。2025年3月19日，销售易在腾讯云城市峰会上高调发布中国首款AICRM产品——NeoAgent。这款融合了腾讯混元大模型与DeepSeek开源技术的智能体矩阵，不仅重新定义了CRM的交互逻辑，更将行业竞争推向了“使技术真正回归赋能业务的本质”
网站藏着的「机器人红绿灯」：5 分钟看懂 Robots 协议 incidite 机器人
你有没有想过：当搜索引擎爬取网站时，是谁在指挥它们“该去哪、不该去哪”？答案就藏在一个名叫Robots协议的简单规则里。这个看似神秘的技术，其实就像网站门口的“交通信号灯”，用几句明文代码就能规范爬虫的行为。今天，我们用5分钟揭开它的面纱，新手也能轻松掌握。什么是Robots协议？简单说，Robots协议是网站给搜索引擎爬虫看的“说明书”。它通过一个名为robots.txt的文本文件，告诉爬虫哪些
ChatGPT 与 AIGC 简问乱答 MatrixOnEarth
ChatGPT与AIGC简问乱答**仅代表个人观点。**[Q1]ChatGPT最近非常火爆，2个月突破1亿月活，从产品形态来看，我们知道的微软、谷歌的搜索引擎都会嵌入。那么我们如何看待它的用户粘性，真的会有那么多人持续使用吗还是说只是一阵热潮？[A1]首先，工业界长久以来对搜索引擎的最终产品形态的定义是：信息问答助理。目前的信息检索黄页的产品形态个人认为其实是在技术发展未能满足最终产品形态目标的情
这个导航站，竟然藏着6000+实用网站
在互联网的浩瀚海洋中，我们常常为寻找一个合适的资源而耗费大量时间，从搜索引擎的海量结果中筛选出真正有用的网站，就像在沙堆里淘金一样艰难。然而，E导航的出现，就像一位贴心的向导，将网络世界中那些闪闪发光的宝藏网站汇聚在一起，为我们的探索之旅点亮了一盏明灯。网站地址：E导航-以极简之名,探索网络之境E导航–以极简之名,探索网络之境。以极简的设计理念和丰富的资源分类，为用户提供了一个高效、便捷的网络探索
2022年全球市场金属压铸机总体规模、主要生产商、主要地区、产品和应用细分研究报告
本文研究全球市场、主要地区和主要国家金属压铸机的销量、销售收入等，同时也重点分析全球范围内主要厂商（品牌）竞争态势，金属压铸机销量、价格、收入和市场份额等。针对过去五年（2017-2021）年的历史情况，分析历史几年全球金属压铸机总体规模，主要地区规模，主要企业规模和份额，主要产品分类规模，下游主要应用规模等。规模分析包括销量、价格、收入和市场份额等。针对未来几年金属压铸机的发展前景预测，本文预测
初级安服仔面试攻略这小子嘴硬网络安全
写在最最最前面：，and，本篇单纯为up个人经历结合身边朋友经历所作，不是别的帖子的那种所谓标准答案面试经，成功率约7~8成，仅分享给各位师傅参考，话不多说直接开始：问：接触过哪些厂商的设备？答：主要接触过某某厂商、某某以及某某的态感和waf(设备挑自己有把握的说)，某某厂商的某某设备接触较少，我觉得xxx的xxxx设备比较特别，相对xxxxx的更xxxx。（大概的罗列出来，先突出个数，再突出精，
螺丝机器人的全球与中国市场2022-2028年：技术、参与者、趋势、市场规模及占有率研究报告麦田创投-晓晓人工智能物联网 big data
本文研究全球与中国市场螺丝机器人的发展现状及未来发展趋势，分别从生产和消费的角度分析螺丝机器人的主要生产地区、主要消费地区以及主要的生产商。重点分析全球与中国市场的主要厂商产品特点、产品规格、不同规格产品的价格、产量、产值及全球和中国市场主要生产商的市场份额。主要生产商包括：FIAMUtensiliPneumaticiSpa(1)RESIM(1)VisumaticIndustrialProduct
头条搜索极速版邀请码是多少，新的头条搜索极速版邀请码怎么填？资源共享猫
在当今信息爆炸的时代，搜索引擎已经成为我们获取信息、解决问题的重要工具。然而，面对琳琅满目的搜索引擎，用户往往难以选择。此时，头条搜索极速版应运而生，凭借其独特的功能和优秀的用户体验，迅速在搜索引擎市场中占据了一席之地。更令人兴奋的是，通过输入邀请码，用户可以享受到更多的特权和福利。今天，就让我们一起来探索头条搜索极速版邀请码大全的奥秘，看看它是如何为我们的搜索体验锦上添花的。一、头条搜索极速版的
企业级AI搜索引擎从零到一开发实战：全链路技术解析与代码实现
简介从零开始构建一个企业级AI搜索引擎，是掌握现代搜索技术栈的重要实践。本文将深入剖析基于大语言模型、知识图谱和分布式架构的智能搜索引擎开发全流程，从数据抓取、索引构建到查询处理模块，提供完整的代码实现和架构设计。通过整合多平台数据并应用优化策略，构建一个具备高并发处理能力、精准语义理解及高效搜索排序的智能搜索引擎系统。一、架构设计：智能搜索引擎的核心组件智能搜索引擎架构由三个核心模块组成：数据抓
【开源推荐】AI-PROXY：一站式多厂商AI API代理网关，帮你解决因网络无法请求的问题
【开源推荐】AI-PROXY：一站式多厂商AIAPI代理网关，帮你解决因网络无法请求的问题在AI技术飞速发展的当下，开发者们往往需要与多家AI厂商的API进行交互，这不仅涉及到复杂的API管理，还可能面临网络限制和安全隐患。今天，我将向大家隆重推荐一款专为解决这些痛点而生的开源项目——AI-PROXY，体验地址：https://aceproxy.xyz。一、项目简介AI-PROXY是一款开箱即用的
WebSocket应用场景分析及实践 AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介1996年，IETF（互联网工程任务组）提出了WebSocket协议，是一种低开销、多方通讯的网络传输协议。它的诞生标志着跨越式增长的Web服务爆发式增长时代到来。WebSocket作为新的通信协议标准化运用十分普遍，被各大浏览器厂商、服务器软件厂商以及各种开发者广泛采用，随之而来的就是各种应用场景需求浪潮。本文将从应用层面，以WebSocket为代表，剖析其一
RabitQ 量化：既省内存又提性能大禹智库《向量数据库指南》《实战AI智能体》人工智能 AI自动化大禹智库 AI智能体向量数据库
突破高维向量内存瓶颈：MlivusCloudRaBitQ量化技术的工程实践与调优指南作为大禹智库高级研究员，拥有三十余年向量数据库与AI系统架构经验的我发现，在当今多模态AI落地的核心场景中，高维向量引发的内存资源消耗问题已成为制约系统规模化部署的“卡脖子”因素。特别是在大规模图像检索、个性化推荐系统和语义搜索引擎中，动辄数亿级别的向量数据需要实时处理，传统全精度索引方式会让内存资源消耗呈指数级增
百度权重提升技巧分析：从底层逻辑到实战策略
在搜索引擎优化（SEO）领域，百度权重始终是网站运营者关注的核心指标之一。它不仅反映了网站在百度搜索中的综合表现，更直接影响着流量获取能力与商业价值。然而，百度权重并非百度官方直接公布的数据，而是第三方平台（如爱站、站长工具等）依据网站关键词排名、流量预估等数据综合计算的参考值。想要有效提升这一指标，需从搜索引擎工作原理出发，结合内容、技术、外链等多维度制定系统策略。一、明确百度权重的核心影响因素
【SpringCloud微服务实战09】Elasticsearch 搜索引擎李维山 Java elasticsearch spring cloud 搜索引擎
一、Elasticsearch安装1、Docker安装ES#创建一个网络dockernetworkcreatees-net#拉取ES镜像（这里使用7.17.18版本）dockerpullelasticsearch:7.17.18#新建一个目录存放es数据mkdirescdes#docker运行单机启动esdockerrun-d\--namees\-e"ES_JAVA_OPTS=-Xms512m-X
5、网络基础：从协议到各层解析 juice 探索Java网络编程精髓网络协议 TCP/IP OSI模型
网络基础：从协议到各层解析1.网络协议概述在网络通信中，协议是计算机之间进行数据交换的规则集合。不同的协议定义了网络通信的不同方面。例如，超文本传输协议（HTTP）规定了网页浏览器和服务器之间的通信方式；而IEEE802.3标准则定义了在特定类型的线缆上将比特编码为电信号的协议。开放且公开的协议标准使得不同厂商的软件和设备能够相互通信，比如你的网页浏览器无需关心服务器是Unix工作站、Window
RS485集线器选购指南：2025主流通信转换设备品牌盘点与应用方案解析
RS485集线器选购指南：2025主流通信转换设备品牌盘点与应用方案解析随着工业自动化和物联网的快速发展，RS485集线器作为一种可靠的串行通信设备，在各种工业场景中得到了广泛应用。2025年，RS485集线器市场产品种类更加丰富，功能也更加多样化。本文将基于权威数据平台的分析，盘点主流品牌厂商及其优势产品，并解析典型应用方案，帮助读者在选购时作出明智决策。一、RS485集线器的基本原理与应用场景
最全2025年AI开发工具深度对比分析：程序员的智能编程助手全指南最新功能、定价策略、使用体验和适用场景 Cursor、GitHub Copilot、Claude 4、Claude Code wei佳人工智能 ai AI编程 webstorm idea vscode
2025年AI开发工具深度对比分析：程序员的智能编程助手全指南引言(不想看文字可直接看后面图表对比）随着人工智能技术的飞速发展，AI编程助手已经从概念走向现实，成为现代软件开发不可或缺的工具。2025年上半年，AI编程工具市场迎来了前所未有的变革，各大厂商纷纷推出革命性功能，从简单的代码补全演进为能够理解完整项目上下文的智能编程代理。据最新市场研究显示，全球AI代码工具市场在2024年达到67亿美
零信任架构深度实战：从SPA到持续认证（含军工级部署方案）全息架构师 AI 行业应用实战先锋架构网络
️零信任架构深度实战：从SPA到持续认证（含军工级部署方案）提示语：文末提供《ZTNA部署工具包》+价值15999元的策略配置生成器！基于美国国防部零信任参考架构，揭秘如何3个月完成企业级改造！一、零信任演进历程1.1传统架构vs零信任对比单点突破即沦陷动态验证城堡式防御传统安全细胞级防护零信任1.2关键技术成熟度评估技术成熟度部署成本典型厂商单包授权(SPA)★★★★☆中Cloudflare,Z
迅雷网盘拉新群组转播收益怎么样？转存播放每天赚钱是真的吗清风导师
迅雷网盘推广群组转播是什么?迅雷网盘拉新群组转播收益怎么样?随着互联网的发展，虚拟资源越来越具有传播、储存的价值，所以作为载体云端网盘自然也是目前市场上众多厂商竞相争夺的蛋糕，巨头们各显神通不过目前最为普遍最为优质的方法还是开展拉新，就是给推广员佣金，让用户去分享网盘带来真实流量!（原创内容抄袭必究）目前的话，迅雷网盘在2024年对于线上拉新这块是特别的重视，可以说是不惜重金放在推广业务上，如果说
一文讲透HTML语义化标签
文章目录语义化标签概述HTML标签及其含义常见HTML5语义化标签语义化标签对搜索引擎（SEO）的影响提升搜索引擎排名增强可访问性改善用户体验语义化标签案例各标签作用说明语义化标签概述HTML语义化是指使用恰当的标签来准确表达内容的结构和含义，使网页不仅对人类开发者可读，也能被搜索引擎、辅助技术等更好地理解和处理。例如，用表示页眉，表示独立内容区块，提升页面可访问性和SEO效果。HTML标签及其含
多模态查询优化：5个提升搜索准确率的技巧
多模态查询优化：5个提升搜索准确率的技巧关键词：多模态搜索、特征融合、跨模态对齐、混合索引、语义增强摘要：本文将揭示5个提升多模态搜索准确率的实用技巧，通过生活化案例和代码示例，带您理解如何让图像、文本、语音等不同模态数据协同工作，构建更智能的搜索引擎。背景介绍目的和范围本文旨在帮助开发者和产品经理理解多模态搜索的核心优化技术。涵盖从基础概念到实战应用的完整知识体系，重点解析5个提升准确率的关键技
火绒规则禁止所有软件的安装_火绒阻止流氓全家桶规则莱财一哥火绒规则禁止所有软件的安装
火绒阻止流氓全家桶规则能够有效的阻止各种全家桶的安装，并且还能够对各种常见的广告进行全面的屏蔽，对于各种全家桶类型的软件这款软件几乎能够做到屏蔽，能够极为有效的帮助用户减少在电脑上面的乱七八糟的内容，感兴趣话就快来下载这款火绒阻止流氓全家桶规则！火绒阻止流氓全家桶规则介绍防不胜防的流氓软件，一不小心就帮你装上全家桶，导致电脑卡成PPT。没有电脑知识的用户，尤其是父母的电脑，通过某个搜索引擎搜索软件
个人站长必读：从零掌握SEO核心原理与实战技巧
文章目录从零开始理解SEO：个人站长必须知道的搜索引擎优化指南前言：为什么SEO对个人站长至关重要一、SEO基础概念解析1.1搜索引擎工作原理1.2核心排名因素分类二、技术SEO：构建搜索引擎友好的网站基础2.1网站架构优化2.2移动优先索引(Mobile-FirstIndexing)2.3网站速度优化三、内容优化：打造高排名内容3.1关键词研究与实践3.2内容质量评估标准3.3内容结构化技巧四、
多线程编程之卫生间周凡杨 java 并发卫生间线程厕所
如大家所知，火车上车厢的卫生间很小，每次只能容纳一个人，一个车厢只有一个卫生间，这个卫生间会被多个人同时使用，在实际使用时，当一个人进入卫生间时则会把卫生间锁上，等出来时打开门，下一个人进去把门锁上，如果有一个人在卫生间内部则别人的人发现门是锁的则只能在外面等待。问题分析：首先问题中有两个实体，一个是人，一个是厕所，所以设计程序时就可以设计两个类。人是多数的，厕所只有一个（暂且模拟的是一个车厢）。
How to Install GUI to Centos Minimal sunjing linux Install Desktop GUI
http://www.namhuy.net/475/how-to-install-gui-to-centos-minimal.html I have centos 6.3 minimal running as web server. I’m looking to install gui to my server to vnc to my server. You can insta
Shell 函数 daizj shell 函数
Shell 函数 linux shell 可以用户定义函数，然后在shell脚本中可以随便调用。 shell中函数的定义格式如下： [function] funname [()]{ action; [return int;] } 说明： 1、可以带function fun() 定义，也可以直接fun() 定义,不带任何参数。 2、参数返回
Linux服务器新手操作之一周凡杨 Linux 简单操作
1.whoami 当一个用户登录Linux系统之后，也许他想知道自己是发哪个用户登录的。此时可以使用whoami命令。 [ecuser@HA5-DZ05 ~]$ whoami e
浅谈Socket通信（一）朱辉辉33 socket
在java中ServerSocket用于服务器端，用来监听端口。通过服务器监听，客户端发送请求，双方建立链接后才能通信。当服务器和客户端建立链接后，两边都会产生一个Socket实例，我们可以通过操作Socket来建立通信。首先我建立一个ServerSocket对象。当然要导入java.net.ServerSocket包 ServerSock
关于框架的简单认识西蜀石兰框架
入职两个月多，依然是一个不会写代码的小白，每天的工作就是看代码，写wiki。前端接触CSS、HTML、JS等语言，一直在用的CS模型，自然免不了数据库的链接及使用，真心涉及框架，项目中用到的BootStrap算一个吧，哦，JQuery只能算半个框架吧，我更觉得它是另外一种语言。后台一直是纯Java代码，涉及的框架是Quzrtz和log4j。都说学前端的要知道三大框架，目前node.
You have an error in your SQL syntax; check the manual that corresponds to your 林鹤霄
You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 'option,changed_ids ) values('0ac91f167f754c8cbac00e9e3dc372
MySQL5.6的my.ini配置 aigo mysql
注意：以下配置的服务器硬件是：8核16G内存 [client] port=3306 [mysql] default-character-set=utf8 [mysqld] port=3306 basedir=D:/mysql-5.6.21-win
mysql 全文模糊查找便捷解决方案 alxw4616 mysql
mysql 全文模糊查找便捷解决方案 2013/6/14 by 半仙 [email protected] 目的: 项目需求实现模糊查找. 原则: 查询不能超过 1秒. 问题: 目标表中有超过1千万条记录. 使用like '%str%' 进行模糊查询无法达到性能需求. 解决方案: 使用mysql全文索引. 1.全文索引 : MySQL支持全文索引和搜索功能。MySQL中的全文索
自定义数据结构链表(单项 ,双向,环形) 百合不是茶单项链表双向链表
链表与动态数组的实现方式差不多, 数组适合快速删除某个元素链表则可以快速的保存数组并且可以是不连续的单项链表;数据从第一个指向最后一个实现代码: //定义动态链表 clas
threadLocal实例 bijian1013 java thread java多线程 threadLocal
实例1： package com.bijian.thread; public class MyThread extends Thread { private static ThreadLocal tl = new ThreadLocal() { protected synchronized Object initialValue() { return new Inte
activemq安全设置—设置admin的用户名和密码 bijian1013 java activemq
ActiveMQ使用的是jetty服务器, 打开conf/jetty.xml文件，找到 <bean id="adminSecurityConstraint" class="org.eclipse.jetty.util.security.Constraint"> <p
【Java范型一】Java范型详解之范型集合和自定义范型类 bit1129 java
本文详细介绍Java的范型，写一篇关于范型的博客原因有两个，前几天要写个范型方法(返回值根据传入的类型而定)，竟然想了半天，最后还是从网上找了个范型方法的写法；再者，前一段时间在看Gson, Gson这个JSON包的精华就在于对范型的优雅简单的处理，看它的源代码就比较迷糊，只其然不知其所以然。所以，还是花点时间系统的整理总结下范型吧。范型内容范型集合类范型类
【HBase十二】HFile存储的是一个列族的数据 bit1129 hbase
在HBase中，每个HFile存储的是一个表中一个列族的数据，也就是说，当一个表中有多个列簇时，针对每个列簇插入数据，最后产生的数据是多个HFile，每个对应一个列族，通过如下操作验证 1. 建立一个有两个列族的表 create 'members','colfam1','colfam2' 2. 在members表中的colfam1中插入50*5
Nginx 官方一个配置实例 ronin47 nginx 配置实例
user www www; worker_processes 5; error_log logs/error.log; pid logs/nginx.pid; worker_rlimit_nofile 8192; events { worker_connections 4096;} http { include conf/mim
java-15.输入一颗二元查找树，将该树转换为它的镜像，即在转换后的二元查找树中，左子树的结点都大于右子树的结点。用递归和循环 bylijinnan java
//use recursion public static void mirrorHelp1(Node node){ if(node==null)return; swapChild(node); mirrorHelp1(node.getLeft()); mirrorHelp1(node.getRight()); } //use no recursion bu
返回null还是empty bylijinnan java apache spring 编程
第一个问题，函数是应当返回null还是长度为0的数组（或集合）？第二个问题，函数输入参数不当时，是异常还是返回null？先看第一个问题有两个约定我觉得应当遵守： 1.返回零长度的数组或集合而不是null（详见《Effective Java》）理由就是，如果返回empty，就可以少了很多not-null判断： List<Person> list
[科技与项目]工作流厂商的战略机遇期 comsci 工作流
在新的战略平衡形成之前，这里有一个短暂的战略机遇期，只有大概最短6年，最长14年的时间，这段时间就好像我们森林里面的小动物，在秋天中，必须抓紧一切时间存储坚果一样，否则无法熬过漫长的冬季。。。。在微软，甲骨文，谷歌，IBM,SONY
过度设计-举例 cuityang 过度设计
过度设计，需要更多设计时间和测试成本，如无必要，还是尽量简洁一些好。未来的事情，比如访问量，比如数据库的容量，比如是否需要改成分布式都是无法预料的再举一个例子，对闰年的判断逻辑：　　1、 if($Year%4==0) return True; else return Fasle; 　　2、if ( ($Year%4==0 &am
java进阶，《Java性能优化权威指南》试读 darkblue086 java性能优化
记得当年随意读了微软出版社的.NET 2.0应用程序调试，才发现调试器如此强大，应用程序开发调试其实真的简单了很多，不仅仅是因为里面介绍了很多调试器工具的使用，更是因为里面寻找问题并重现问题的思想让我震撼，时隔多年，Java已经如日中天，成为许多大型企业应用的首选，而今天，这本《Java性能优化权威指南》让我再次找到了这种感觉，从不经意的开发过程让我刮目相看，原来性能调优不是简单地看看热点在哪里，
网络学习笔记初识OSI七层模型与TCP协议 dcj3sjt126com 学习笔记
协议：在计算机网络中通信各方面所达成的、共同遵守和执行的一系列约定　　计算机网络的体系结构：计算机网络的层次结构和各层协议的集合。　　两类服务：　　面向连接的服务通信双方在通信之前先建立某种状态，并在通信过程中维持这种状态的变化，同时为服务对象预先分配一定的资源。这种服务叫做面向连接的服务。　　面向无连接的服务通信双方在通信前后不建立和维持状态，不为服务对象
mac中用命令行运行mysql dcj3sjt126com mysql linux mac
参考这篇博客：http://www.cnblogs.com/macro-cheng/archive/2011/10/25/mysql-001.html 感觉workbench不好用（有点先入为主了）。 1，安装mysql 在mysql的官方网站下载 mysql 5.5.23 http://www.mysql.com/downloads/mysql/，根据我的机器的配置情况选择了64
MongDB查询（1）——基本查询[五] eksliang mongodb mongodb 查询 mongodb find
MongDB查询转载请出自出处：http://eksliang.iteye.com/blog/2174452 一、find简介 MongoDB中使用find来进行查询。 API:如下 function ( query , fields , limit , skip, batchSize, options ){.....} 参数含义： query:查询参数 fie
base64，加密解密经融加密，对接 y806839048 经融加密对接
String data0 = new String(Base64.encode(bo.getPaymentResult().getBytes(("GBK")))); String data1 = new String(Base64.decode(data0.toCharArray()),"GBK"); // 注意编码格式，注意用于加密，解密的要是同
JavaWeb之JSP概述 ihuning javaweb
什么是JSP？为什么使用JSP？ JSP表示Java Server Page，即嵌有Java代码的HTML页面。使用JSP是因为在HTML中嵌入Java代码比在Java代码中拼接字符串更容易、更方便和更高效。 JSP起源在很多动态网页中，绝大部分内容都是固定不变的，只有局部内容需要动态产生和改变。如果使用Servl
apple watch 指南啸笑天 apple
1. 文档 WatchKit Programming Guide（中译在线版 By @CocoaChina）译文译者原文概览 - 开始为 Apple Watch 进行开发 @星夜暮晨 Overview - Developing for Apple Watch 概览 - 配置 Xcode 项目 - Overview - Configuring Yo
java经典的基础题目 macroli java 编程
1.列举出 10个JAVA语言的优势 a:免费，开源，跨平台(平台独立性)，简单易用，功能完善，面向对象，健壮性，多线程，结构中立，企业应用的成熟平台, 无线应用 2.列举出JAVA中10个面向对象编程的术语 a:包，类，接口，对象，属性，方法，构造器，继承，封装，多态，抽象，范型 3.列举出JAVA中6个比较常用的包 Java.lang;java.util;java.io;java.sql;ja
你所不知道神奇的js replace正则表达式 qiaolevip 每天进步一点点学习永无止境纵观千象 regex
var v = 'C9CFBAA3CAD0'; console.log(v); var arr = v.split(''); for (var i = 0; i < arr.length; i ++) { if (i % 2 == 0) arr[i] = '%' + arr[i]; } console.log(arr.join('')); console.log(v.r
[一起学Hive]之十五-分析Hive表和分区的统计信息(Statistics) superlxw1234 hive hive分析表 hive统计信息 hive Statistics
关键字：Hive统计信息、分析Hive表、Hive Statistics 类似于Oracle的分析表，Hive中也提供了分析表和分区的功能，通过自动和手动分析Hive表，将Hive表的一些统计信息存储到元数据中。表和分区的统计信息主要包括：行数、文件数、原始数据大小、所占存储大小、最后一次操作时间等； 14.1 新表的统计信息对于一个新创建
Spring Boot 1.2.5 发布 wiselyman spring boot
Spring Boot 1.2.5已在7月2日发布，现在可以从spring的maven库和maven中心库下载。这个版本是一个维护的发布版，主要是一些修复以及将Spring的依赖提升至4.1.7(包含重要的安全修复)。官方建议所有的Spring Boot用户升级这个版本。项目首页 | 源

htmlparser使用经验总结，与网页提取

你可能感兴趣的:(IT厂商,Myeclipse,搜索引擎,J#,lucene)