Androidlushangderen

gSpan频繁子图挖掘算法

参考资料：http://www.cs.ucsb.edu/~xyan/papers/gSpan.pdf
http://www.cs.ucsb.edu/~xyan/papers/gSpan-short.pdf
http://www.jos.org.cn/1000-9825/18/2469.pdf

http://blog.csdn.net/coolypf/article/details/8263176

更多挖掘算法：https://github.com/linyiqun/DataMiningAlgorithm

介绍

gSpan算法是图挖掘邻域的一个算法，而作为子图挖掘算法，又是其他图挖掘算法的基础，所以gSpan算法在图挖掘算法中还是非常重要的。gSpan算法在挖掘频繁子图的时候，用了和FP-grown中相似的原理，就是Pattern-Grown模式增长的方式，也用到了最小支持度计数作为一个过滤条件。图算法在程序上比其他的算法更加的抽象，在实现时更加需要空间想象能力。gSpan算法的核心就是给定n个图，然后从中挖掘出频繁出现的子图部分。

算法原理

说实话，gSpan算法在我最近学习的算法之中属于非常难的那种，因为要想实现他，必须要明白他的原理，而这就要花很多时间去明白算法的一些定义，比如dfs编码，最右路径这样的概念。所以，我们应该先知道算法整体的一个结构。

1、遍历所有的图，计算出所有的边和点的频度。

2、将频度与最小支持度数做比较，移除不频繁的边和点。

3、重新将剩下的点和边按照频度进行排序，将他们的排名号给边和点进行重新标号。

4、再次计算每条边的频度，计算完后，然后初始化每条边，并且进行此边的subMining()挖掘过程。

subMining的过程

1、根据graphCode重新恢复当前的子图

2、判断当前的编码是否为最小dfs编码，如果是加入到结果集中，继续在此基础上尝试添加可能的边，进行继续挖掘

3、如果不是最小编码，则此子图的挖掘过程结束。

DFS编码

gSpan算法对图的边进行编码，采用E(v0,v1,A,B,a)的方式，v0,v1代表的标识，你可以看做就是点的id,A,B可以作为点的标号，a为之间的边的标号，而一个图就是由这样的边构成的，G{e1, e2, e3,.....}，而dfs编码的方式就是比里面的五元组的元素，我这里采用的规则是，从左往右依次比较大小，如果谁先小于另一方，谁就算小，图的比较算法同样如此，具体的规则可以见我后面代码中的注释。但是这个规则并不是完全一致的，至少在我看的相关论文中有不一样的描述存在。

生成subGraph

生成子图的进行下一次挖掘的过程也是gSpan算法中的一个难点，首先你要对原图进行编码，找到与挖掘子图一致的编码，找到之后，在图的最右路径上寻找可以扩展的边，在最右路径上扩展的情况分为2种，1种为在最右节点上进行扩展，1种为在最右路径的点上进行扩展。2种情况都需要做一定的判断。

算法的技巧

算法在实现时，用的技巧比较多，有些也很不好理解，比如在dfs编码或找子边的过程中，用到了图id对于Edge中的五元组id的映射，这个会一开始没想到，还有怎么去描述一个图通过一定的数据结构。

算法的实现

此算法是借鉴了网上其他版本的实现，我是在看懂了人家代码的基础上，自己对其中的某些部分作了修改之后的。由于代码比较多，下面给出核心代码，全部代码在这里。

GSpanTool.java:

package DataMining_GSpan;

import java.io.BufferedReader;
import java.io.File;
import java.io.FileReader;
import java.io.IOException;
import java.text.MessageFormat;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.Map;

/**
 * gSpan频繁子图挖掘算法工具类
 * 
 * @author lyq
 * 
 */
public class GSpanTool {
	// 文件数据类型
	public final String INPUT_NEW_GRAPH = "t";
	public final String INPUT_VERTICE = "v";
	public final String INPUT_EDGE = "e";
	// Label标号的最大数量，包括点标号和边标号
	public final int LABEL_MAX = 100;

	// 测试数据文件地址
	private String filePath;
	// 最小支持度率
	private double minSupportRate;
	// 最小支持度数，通过图总数与最小支持度率的乘积计算所得
	private int minSupportCount;
	// 初始所有图的数据
	private ArrayList<GraphData> totalGraphDatas;
	// 所有的图结构数据
	private ArrayList<Graph> totalGraphs;
	// 挖掘出的频繁子图
	private ArrayList<Graph> resultGraphs;
	// 边的频度统计
	private EdgeFrequency ef;
	// 节点的频度
	private int[] freqNodeLabel;
	// 边的频度
	private int[] freqEdgeLabel;
	// 重新标号之后的点的标号数
	private int newNodeLabelNum = 0;
	// 重新标号后的边的标号数
	private int newEdgeLabelNum = 0;

	public GSpanTool(String filePath, double minSupportRate) {
		this.filePath = filePath;
		this.minSupportRate = minSupportRate;
		readDataFile();
	}

	/**
	 * 从文件中读取数据
	 */
	private void readDataFile() {
		File file = new File(filePath);
		ArrayList<String[]> dataArray = new ArrayList<String[]>();

		try {
			BufferedReader in = new BufferedReader(new FileReader(file));
			String str;
			String[] tempArray;
			while ((str = in.readLine()) != null) {
				tempArray = str.split(" ");
				dataArray.add(tempArray);
			}
			in.close();
		} catch (IOException e) {
			e.getStackTrace();
		}

		calFrequentAndRemove(dataArray);
	}

	/**
	 * 统计边和点的频度，并移除不频繁的点边，以标号作为统计的变量
	 * 
	 * @param dataArray
	 *            原始数据
	 */
	private void calFrequentAndRemove(ArrayList<String[]> dataArray) {
		int tempCount = 0;
		freqNodeLabel = new int[LABEL_MAX];
		freqEdgeLabel = new int[LABEL_MAX];

		// 做初始化操作
		for (int i = 0; i < LABEL_MAX; i++) {
			// 代表标号为i的节点目前的数量为0
			freqNodeLabel[i] = 0;
			freqEdgeLabel[i] = 0;
		}

		GraphData gd = null;
		totalGraphDatas = new ArrayList<>();
		for (String[] array : dataArray) {
			if (array[0].equals(INPUT_NEW_GRAPH)) {
				if (gd != null) {
					totalGraphDatas.add(gd);
				}

				// 新建图
				gd = new GraphData();
			} else if (array[0].equals(INPUT_VERTICE)) {
				// 每个图中的每种图只统计一次
				if (!gd.getNodeLabels().contains(Integer.parseInt(array[2]))) {
					tempCount = freqNodeLabel[Integer.parseInt(array[2])];
					tempCount++;
					freqNodeLabel[Integer.parseInt(array[2])] = tempCount;
				}

				gd.getNodeLabels().add(Integer.parseInt(array[2]));
				gd.getNodeVisibles().add(true);
			} else if (array[0].equals(INPUT_EDGE)) {
				// 每个图中的每种图只统计一次
				if (!gd.getEdgeLabels().contains(Integer.parseInt(array[3]))) {
					tempCount = freqEdgeLabel[Integer.parseInt(array[3])];
					tempCount++;
					freqEdgeLabel[Integer.parseInt(array[3])] = tempCount;
				}

				int i = Integer.parseInt(array[1]);
				int j = Integer.parseInt(array[2]);

				gd.getEdgeLabels().add(Integer.parseInt(array[3]));
				gd.getEdgeX().add(i);
				gd.getEdgeY().add(j);
				gd.getEdgeVisibles().add(true);
			}
		}
		// 把最后一块gd数据加入
		totalGraphDatas.add(gd);
		minSupportCount = (int) (minSupportRate * totalGraphDatas.size());

		for (GraphData g : totalGraphDatas) {
			g.removeInFreqNodeAndEdge(freqNodeLabel, freqEdgeLabel,
					minSupportCount);
		}
	}

	/**
	 * 根据标号频繁度进行排序并且重新标号
	 */
	private void sortAndReLabel() {
		int label1 = 0;
		int label2 = 0;
		int temp = 0;
		// 点排序名次
		int[] rankNodeLabels = new int[LABEL_MAX];
		// 边排序名次
		int[] rankEdgeLabels = new int[LABEL_MAX];
		// 标号对应排名
		int[] nodeLabel2Rank = new int[LABEL_MAX];
		int[] edgeLabel2Rank = new int[LABEL_MAX];

		for (int i = 0; i < LABEL_MAX; i++) {
			// 表示排名第i位的标号为i，[i]中的i表示排名
			rankNodeLabels[i] = i;
			rankEdgeLabels[i] = i;
		}

		for (int i = 0; i < freqNodeLabel.length - 1; i++) {
			int k = 0;
			label1 = rankNodeLabels[i];
			temp = label1;
			for (int j = i + 1; j < freqNodeLabel.length; j++) {
				label2 = rankNodeLabels[j];

				if (freqNodeLabel[temp] < freqNodeLabel[label2]) {
					// 进行标号的互换
					temp = label2;
					k = j;
				}
			}

			if (temp != label1) {
				// 进行i，k排名下的标号对调
				temp = rankNodeLabels[k];
				rankNodeLabels[k] = rankNodeLabels[i];
				rankNodeLabels[i] = temp;
			}
		}

		// 对边同样进行排序
		for (int i = 0; i < freqEdgeLabel.length - 1; i++) {
			int k = 0;
			label1 = rankEdgeLabels[i];
			temp = label1;
			for (int j = i + 1; j < freqEdgeLabel.length; j++) {
				label2 = rankEdgeLabels[j];

				if (freqEdgeLabel[temp] < freqEdgeLabel[label2]) {
					// 进行标号的互换
					temp = label2;
					k = j;
				}
			}

			if (temp != label1) {
				// 进行i，k排名下的标号对调
				temp = rankEdgeLabels[k];
				rankEdgeLabels[k] = rankEdgeLabels[i];
				rankEdgeLabels[i] = temp;
			}
		}

		// 将排名对标号转为标号对排名
		for (int i = 0; i < rankNodeLabels.length; i++) {
			nodeLabel2Rank[rankNodeLabels[i]] = i;
		}

		for (int i = 0; i < rankEdgeLabels.length; i++) {
			edgeLabel2Rank[rankEdgeLabels[i]] = i;
		}

		for (GraphData gd : totalGraphDatas) {
			gd.reLabelByRank(nodeLabel2Rank, edgeLabel2Rank);
		}

		// 根据排名找出小于支持度值的最大排名值
		for (int i = 0; i < rankNodeLabels.length; i++) {
			if (freqNodeLabel[rankNodeLabels[i]] > minSupportCount) {
				newNodeLabelNum = i;
			}
		}
		for (int i = 0; i < rankEdgeLabels.length; i++) {
			if (freqEdgeLabel[rankEdgeLabels[i]] > minSupportCount) {
				newEdgeLabelNum = i;
			}
		}
		//排名号比数量少1，所以要加回来
		newNodeLabelNum++;
		newEdgeLabelNum++;
	}

	/**
	 * 进行频繁子图的挖掘
	 */
	public void freqGraphMining() {
		long startTime =  System.currentTimeMillis();
		long endTime = 0;
		Graph g;
		sortAndReLabel();

		resultGraphs = new ArrayList<>();
		totalGraphs = new ArrayList<>();
		// 通过图数据构造图结构
		for (GraphData gd : totalGraphDatas) {
			g = new Graph();
			g = g.constructGraph(gd);
			totalGraphs.add(g);
		}

		// 根据新的点边的标号数初始化边频繁度对象
		ef = new EdgeFrequency(newNodeLabelNum, newEdgeLabelNum);
		for (int i = 0; i < newNodeLabelNum; i++) {
			for (int j = 0; j < newEdgeLabelNum; j++) {
				for (int k = 0; k < newNodeLabelNum; k++) {
					for (Graph tempG : totalGraphs) {
						if (tempG.hasEdge(i, j, k)) {
							ef.edgeFreqCount[i][j][k]++;
						}
					}
				}
			}
		}

		Edge edge;
		GraphCode gc;
		for (int i = 0; i < newNodeLabelNum; i++) {
			for (int j = 0; j < newEdgeLabelNum; j++) {
				for (int k = 0; k < newNodeLabelNum; k++) {
					if (ef.edgeFreqCount[i][j][k] >= minSupportCount) {
						gc = new GraphCode();
						edge = new Edge(0, 1, i, j, k);
						gc.getEdgeSeq().add(edge);

						// 将含有此边的图id加入到gc中
						for (int y = 0; y < totalGraphs.size(); y++) {
							if (totalGraphs.get(y).hasEdge(i, j, k)) {
								gc.getGs().add(y);
							}
						}
						// 对某条满足阈值的边进行挖掘
						subMining(gc, 2);
					}
				}
			}
		}
		
		endTime = System.currentTimeMillis();
		System.out.println("算法执行时间"+ (endTime-startTime) + "ms");
		printResultGraphInfo();
	}

	/**
	 * 进行频繁子图的挖掘
	 * 
	 * @param gc
	 *            图编码
	 * @param next
	 *            图所含的点的个数
	 */
	public void subMining(GraphCode gc, int next) {
		Edge e;
		Graph graph = new Graph();
		int id1;
		int id2;

		for(int i=0; i<next; i++){
			graph.nodeLabels.add(-1);
			graph.edgeLabels.add(new ArrayList<Integer>());
			graph.edgeNexts.add(new ArrayList<Integer>());
		}

		// 首先根据图编码中的边五元组构造图
		for (int i = 0; i < gc.getEdgeSeq().size(); i++) {
			e = gc.getEdgeSeq().get(i);
			id1 = e.ix;
			id2 = e.iy;

			graph.nodeLabels.set(id1, e.x);
			graph.nodeLabels.set(id2, e.y);
			graph.edgeLabels.get(id1).add(e.a);
			graph.edgeLabels.get(id2).add(e.a);
			graph.edgeNexts.get(id1).add(id2);
			graph.edgeNexts.get(id2).add(id1);
		}

		DFSCodeTraveler dTraveler = new DFSCodeTraveler(gc.getEdgeSeq(), graph);
		dTraveler.traveler();
		if (!dTraveler.isMin) {
			return;
		}

		// 如果当前是最小编码则将此图加入到结果集中
		resultGraphs.add(graph);
		Edge e1;
		ArrayList<Integer> gIds;
		SubChildTraveler sct;
		ArrayList<Edge> edgeArray;
		// 添加潜在的孩子边，每条孩子边所属的图id
		HashMap<Edge, ArrayList<Integer>> edge2GId = new HashMap<>();
		for (int i = 0; i < gc.gs.size(); i++) {
			int id = gc.gs.get(i);

			// 在此结构的条件下，在多加一条边构成子图继续挖掘
			sct = new SubChildTraveler(gc.edgeSeq, totalGraphs.get(id));
			sct.traveler();
			edgeArray = sct.getResultChildEdge();

			// 做边id的更新
			for (Edge e2 : edgeArray) {
				if (!edge2GId.containsKey(e2)) {
					gIds = new ArrayList<>();
				} else {
					gIds = edge2GId.get(e2);
				}

				gIds.add(id);
				edge2GId.put(e2, gIds);
			}
		}

		for (Map.Entry entry : edge2GId.entrySet()) {
			e1 = (Edge) entry.getKey();
			gIds = (ArrayList<Integer>) entry.getValue();

			// 如果此边的频度大于最小支持度值，则继续挖掘
			if (gIds.size() < minSupportCount) {
				continue;
			}

			GraphCode nGc = new GraphCode();
			nGc.edgeSeq.addAll(gc.edgeSeq);
			// 在当前图中新加入一条边，构成新的子图进行挖掘
			nGc.edgeSeq.add(e1);
			nGc.gs.addAll(gIds);

			if (e1.iy == next) {
				// 如果边的点id设置是为当前最大值的时候，则开始寻找下一个点
				subMining(nGc, next + 1);
			} else {
				// 如果此点已经存在，则next值不变
				subMining(nGc, next);
			}
		}
	}
	
	/**
	 * 输出频繁子图结果信息
	 */
	public void printResultGraphInfo(){
		System.out.println(MessageFormat.format("挖掘出的频繁子图的个数为：{0}个", resultGraphs.size()));
	}

}

这个算法在后来的实现时，渐渐的发现此算法的难度大大超出我预先的设想，不仅仅是其中的抽象性，还在于测试的复杂性，对于测试数据的捏造，如果用的是真实数据测的话，数据量太大，自己造数据拿捏的也不是很准确。我最后也只是自己伪造了一个图的数据，挖掘了其中的一条边的情况。大致的走了一个过程。代码并不算是完整的，仅供学习。

算法的缺点

在后来实现完算法之后，我对于其中的小的过程进行了分析，发现这个算法在2个深度优先遍历的过程中还存在问题，就是DFS判断是否最小编码和对原图进行寻找相应编码，的时候，都只是限于Edge中边是连续的情况，如果不连续了，会出现判断出错的情况，因为在最右路径上添加边，就是会出现在前面的点中多扩展一条边，就不会是连续的。而在上面的代码中是无法处理这样的情况的，个人的解决办法是用栈的方式，将节点压入栈中实现最好。

算法的体会

这个算法花了很多的时间，关关理解这个算法就已经不容易了，经常需要我在脑海中去刻画这样的图形和遍历的一些情况，带给我的挑战还是非常的大吧。

算法的特点

此算法与FP-Tree算法类似，在挖掘的过程中也是没有产生候选集的，采用深度优先的挖掘方式，一步一步进行挖掘。gSpan算法可以进行对于化学分子的结构挖掘。

基于机器学习的人形机器人电池健康状态预测方法 AI天才研究院计算 AI大模型企业级应用开发实战 AI人工智能与大数据机器学习机器人人工智能 ai
基于机器学习的人形机器人电池健康状态预测方法：从理论到实践的系统解析关键词电池健康状态（SOH）、剩余使用寿命（RUL）、人形机器人、机器学习、时序数据建模、多模态特征融合、边缘计算部署摘要本报告系统解析基于机器学习的人形机器人电池健康状态预测方法，覆盖从理论框架到工程实现的全链路。首先界定人形机器人场景下电池健康状态的核心指标（SOH/RUL/RC），梳理从电化学模型到数据驱动方法的技术演进；其
软件测试进阶：Python 高级特性与数据库优化（第二阶段 Day6） study软测数据库 python sql
在掌握SQL复杂查询和Python数据库基础操作后，第六天将深入探索Python高级编程特性与数据库性能优化。通过掌握Python的模块与包管理、装饰器等高级语法，结合数据库索引优化、慢查询分析等技术，提升测试工具开发与数据处理效率。一、Python高级编程：模块、包与装饰器1.模块与包的使用模块导入：将代码拆分到不同.py文件中，通过import实现复用#自定义模块my_module.pydef
安卓App中调用升级接口并实现版本检查和升级功能的完整方案胡子洲 Android android
以下是安卓App中调用升级接口并实现版本检查和升级功能的完整方案，包含网络请求、版本解析、下载安装等核心逻辑：一、定义数据实体类（解析接口返回）//CheckUpgradeResponse.javapublicclassCheckUpgradeResponse{privateintcode;privateStringmsg;privateUpgradeDatadata;privateMapmap;
C++入门笔记张峻铖 C++c++
写在开头初衷：对于一个程序员/算法工程师来说，只会Python未免过于单薄了。出于未来找工作的需要，开始学习C++，并使用C++刷LeetCode。背景：本科有C语言课程，甚至学过汇编，研究生阶段主要使用Python。提醒：该系列文章以尽可能快地应用C++（刷题）为目的，暂以B站黑马程序员C++教程为教材，主要记录重点内容和对个人来讲不易理解或陌生的内容，具有较浓的个人笔记特点，因此，在全面性和权
【5分钟力扣】1160.拼写单词（python3实现）金鞍少年金鞍少年的刷题之路字符串 leetcode 力扣1160题 python拼写单词
文章目录一、前言二、题目三、哈希表解法3.1哈希表基本概念3.2解题思路3.3代码实例四、字符串比较解法4.1解题思路4.2代码实例一、前言如果放弃太早，你永远都不知道自己会错过什么。每天五分钟，看懂一道简单、中等难度的算法题，尽可能将复杂的题讲清楚。疯狂学习python中，2020-07-20更新二、题目给你一份『词汇表』（字符串数组）words和一张『字母表』（字符串）chars。假如你可以用
Open3D 进阶（31）渐进三角网(PTD)地面滤波点云侠点云进阶线性代数算法计算机视觉 python
目录一、算法原理1、PTD算法2、实现流程二、代码实现三、参数指南四、结果展示。一、算法原理1、PTD算法渐进三角网地面滤波算法（ProgressiveTINDensification,PTD）是一种广泛应用于机载LiDAR点云数据处理的滤波方法，旨在从复杂场景中精确分离地面点，以生成数字高程模型（DEM）。2、实现流程 PTD的核心思想是迭代加密三角网，逐步逼近真实地形：实现流程主要包括以
制造业EDI软件实施流程及盟接之桥在项目实施中的几点建议盟接之桥数据库人工智能大数据服务器制造
1.需求分析与规划目标：明确企业EDI的目标、交易类型、合作伙伴要求、数据来源等。盟接之桥建议：组织内部访谈，识别关键业务系统（如ERP、MES、WMS等）和需要集成的数据流。提供行业标准模板（如ANSIX12、EDIFACT、VDA等），帮助企业选择合适的EDI格式。协助评估与贸易伙伴之间的EDI对接复杂度。2.选型与方案设计目标：选择适合企业的EDI解决方案（本地部署/云服务/API集成等）。
C++入门笔记4 Bool类型的定义及使用做自己就好. c++从0到1 c++笔记开发语言
定义：bool是一种数据类型取值为false或者true定义：boolisFind=true;内存大小占一个字节使用bool的一些使用举例#includeusingnamespacestd;boolfun(inta,intb){returna+b>=10;}intmain(){boola=true;cout<
Day33打卡 @浙大疏锦行 ayuan0119 python打卡shu python
知识点回顾：PyTorch和cuda的安装查看显卡信息的命令行命令（cmd中使用）cuda的检查简单神经网络的流程数据预处理（归一化、转换成张量）#仍然用4特征，3分类的鸢尾花数据集作为我们今天的数据集fromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitimportnumpyasnp
谁来定义未来座舱？新一代车载显示「C位」之战开启高工智能汽车 c语言人工智能开发语言
在汽车智能网联化转型过程中，车载显示屏幕作为人车交互的重要载体，已经站上了迅猛发展的新起点。一方面，伴随着汽车智能化的加速渗透与发展，传统中控屏与仪表显示屏的单一显示模式已经难以匹配智能化交互需求，车载显示屏正在朝着大屏化、多屏化，以及更灵活的放置方式发展。在此背景下，HUD、副驾显示屏、后排娱乐显示屏等创新产品的出现，正加速获得市场青睐。高工智能汽车研究院监测数据显示，2024年1-12月，中国
2000-2020年全国地级市供水量、电力消费、煤气、天然气供量、液化石油气供量统计数据小王毕业啦大数据人工智能数据分析数据挖掘大数据社科数据数据统计深度学习
全国地级市供水量、电力消费、煤气、天然气供量、液化石油气供量统计数据2000-2020年.z.ziphttps://download.csdn.net/download/2401_84585615/89919939全国地级市的供水量、电力消费、煤气、天然气供量以及液化石油气供量的统计数据，涵盖了2000年至2020年的数据，为研究城市基础设施建设和能源消耗提供了重要的参考依据。这些数据不仅反映了各
怎么对教育视频进行加密？提高视频的安全性！菜包eo 音视频
前言在数字教育蓬勃发展的当下，知识版权保护成为行业核心命题。教育视频作为知识传播的重要载体，其加密技术的优劣直接关乎机构的核心竞争力与用户权益。本文将深入剖析高安全性视频加密方案，解锁教育内容防护的关键密码。一、VRM分片错序视频加密采用分布式编码技术，将视频文件物理切片，每片视频进行多种算法混合型加密，同时结合独立研制密码本，将关键数据进行错序混淆，对视频文件进行最高级别加密，这样经过加密的视频
本地文字识别系统 yanyvkun1 其他
本地文字识别系统，可把图片转换为文字，也可以截图转换文字，需要的拿走不谢。功能简介支持图片转文字和截图转文字的高效本地识别工具，无需联网即可快速提取图片中的文本内容，适用于文档处理、资料整理等多种场景。核心特点本地运行：隐私安全有保障，无需上传数据到云端多场景适配：支持导入图片文件或直接截图识别高精度转换：准确提取印刷体、手写体（部分支持）文字便捷操作：简洁界面一键转换，结果可编辑导出适用人群需要
产品思想实验：AI 长期记忆存储单元（Memory Graph Unit）人工智能
在现有LLM架构中，“记忆”通常是以线性上下文或简单数据库形式存在，缺乏结构化、语义链接和跨模型兼容性。我们要做的，是将“记忆”升级为一个具备智能检索能力、语义感知能力和多模型兼容能力的图谱系统。一、目标定位构建一个开放、结构化、可演化的AI长期记忆存储单元（MemoryGraphUnit）支持动态更新、优先级排序、冲突消解兼具语义理解与逻辑组织跨平台/跨模型通用格式二、整体架构设计记忆图谱的核心
大模型的“Tomcat”：一文读懂AI推理引擎（Inference Engine) 人工智能
本文已收录在Github，关注我，紧跟本系列专栏文章，咱们下篇再续！魔都架构师|全网30W技术追随者大厂分布式系统/数据中台实战专家主导交易系统百万级流量调优&车联网平台架构AIGC应用开发先行者|区块链落地实践者以技术驱动创新，我们的征途是改变世界！实战干货：编程严选网1推理引擎是啥？从熟悉的“服务器”说起，想象你用Java写好了一个业务应用，如订单处理服务，打成一个JAR或WAR包。这包能直接
vue界面增加自定义水印 js youyu-youyu javascript vue.js 前端
vue整个界面增加自定义水印需求：领导想要增加自定义水印好不容易调完，还是想记录一下,在.vue界面编写exportdefault{mounted(){this.$nextTick(()=>{this.addWatermark()})},methods:{//关键：添加水印//动态添加水印addWatermark(){//这是登录的时候保存在硬盘里的数据constbidataLoginUserin
人工智能中的知识图谱与向量数据库：选择与应用指南 AI Agent首席体验官人工智能知识图谱数据库
1.人工智能领域，知识图谱是什么？知识图谱是人工智能和语义网领域的一个重要概念，它是一种结构化的知识表示方法，用于存储实体之间的语义关系。知识图谱基本上是由节点（实体）和边（关系）组成的图结构：节点：代表现实世界中的实体或概念，如人物、地点、组织等边：代表实体间的语义关系，如"出生于"、“工作于”、"创立了"等知识图谱的主要特点和应用包括：语义网络表示：以三元组形式（主体-关系-客体）存储知识，如
Python包管理之Protry的基本使用菜鸟级后端 python linux 开发语言
一，Poetry是什么Poetry是Python生态中一款革命性的依赖管理与项目打包工具，它通过现代化的设计理念解决了传统工具（如pip+virtualenv）在项目管理中的诸多痛点，比pip的功能强大许多。核心功能如下：1，智能依赖管理Poetry采用pyproject.toml文件统一管理项目元数据、依赖声明及构建配置，通过poetryadd命令即可自动解析依赖树并安装精确版本，避免版本冲突（
卸载神器—Geek安装和使用菜鸟级后端软件需求
前言当你需要重新安装一个软件而去删除旧版的软件，却又由于删除不干净而又安装新版软件失败时，那么我推荐你使用Geek。Geek能够对电脑软件进行卸载、强制删除并删除软件对应的注册表数据等功能，可以保证卸载无残留，实在是人人必备的卸载神器啊！！！安装下载地址：GeekUninstaller-Download网盘地址：链接:https://pan.baidu.com/s/14p7hM1dLCOuNi3S
C++实现一个基于多态的职工管理系统（附源码） loveCC_orange C/C++c++面试华为后端开发多态
之前为了找实习，学了Python，刷了五六十道算法题，然后就开始投简历面试了，结果就是各个大厂一轮游，要Python开发的岗位又少的可怜。但所幸华为的实习面试通过了~本来以为这样就可以等着拿offer了，结果泡池子失败，今年华为的RAN研究部offer数量缩水，由于没在前四之列，所以就被pass掉了。然后又重新开始海投简历找实习。在无数次碰壁之后，深感自己才疏学浅，学的东西还是太少了。于是继续刷题
微调大语言模型(生成任务)，怎么评估它到底“变好”了？茫茫人海一粒沙语言模型人工智能自然语言处理
随着大语言模型（如GPT、LLaMA）的广泛应用，越来越多团队开始基于它们做微调，定制符合自己业务需求的模型。微调虽能让模型更贴合任务，但评估是否真的“变好”却不是简单的事。本文将系统介绍微调过程中和微调完成后，如何科学有效地评估模型效果，帮助你用对指标，做出准确判断。一、微调时的评估：关注训练过程中的模型表现1.验证集Loss（ValidationLoss）微调训练时，我们会准备一部分数据作为验
【AI大模型】26、算力受限下的模型工程：从LoRA到弹性智能系统的优化实践无心水 AI大模型人工智能搜索引擎 LoRA 大语言模型微调模型压缩知识蒸馏量化技术
引言：算力瓶颈与模型工程的突围之路在人工智能领域，大语言模型的发展正呈现出参数规模爆炸式增长的趋势。从GPT-3的1750亿参数到PaLM的5400亿参数，模型能力的提升往往伴随着对算力资源的极度渴求。然而，对于大多数企业和研究者而言，动辄数百GB的显存需求、数十万块GPU的训练集群显然是难以企及的"算力鸿沟"。当面对"无米之炊"的困境时，模型工程技术成为突破算力瓶颈的核心路径——通过算法创新而非
Python编程：使用 YOLO 目标检测倔强老吕 python 开发语言
YOLO（YouOnlyLookOnce）是一种基于深度学习的实时目标检测算法，由JosephRedmon等人于2016年首次提出。与传统的两阶段目标检测方法（如R-CNN系列）不同，YOLO将目标检测任务视为一个单一的回归问题，直接在图像上进行一次推理即可预测边界框和类别概率。YOLO的核心思想单次前向传播（SingleShotDetection）：YOLO只需对输入图像进行一次神经网络推理，就
基于YOLOv8和Faster R-CNN的输电线路异物目标检测项目检测输电线异物数据集输电线缺陷数据集绝缘子如何使用YOLOv8和Faster R-CNN训练输电线路异物目标检测数据集 QQ67658008 YOLO r语言 cnn 输电线路绝缘子线路异物目标检测
电力篇-输电线路缺陷数据集输电线路异物目标检测数据集16000张5种检测目标：‘burst’-爆裂‘defect’-缺陷‘foreign_obj’-异物‘insulator’-绝缘体‘nest’-窝（巢）带标注-YOLO格式可直接用于YOLO系列目标检测算法模型训练如何使用YOLOv8和FasterR-CNN训练输电线路异物目标检测数据集的详细步骤和代码。假设数据集包含16000张图片和5种检测目
性能测试需求分析详解
点击文末小卡片，免费获取软件测试全套资料，资料在手，涨薪更快1、客户方提出客户方能提出明确的性能需求，说明对方很重视性能测试，这样的企业一般是金融、电信、银行、医疗器械等；他们一般对系统的性能要求非常高，对性能也非常了解。提出需求也比较明确。曾经有一个银行项目，已经到最后的性能测试极端，因为数据库设计不合理，导致性能出现很大的问题，最终不得不把整合项目作废，对于这样的项目，其实从分析设计阶段就应该
使用.NET将PDF转换为Excel CodeBandit .net pdf excel .NET
在.NET开发中，我们经常需要处理不同格式的文件。有时候，我们可能需要将PDF文件转换为Excel文件，以便对数据进行进一步的分析和处理。在本文中，我将向您展示如何使用C#和一些开源库来实现这个目标。步骤1：准备工作在开始之前，我们需要准备一些工具和库：VisualStudio（或其他任何C#开发环境）：用于编写和运行C#代码。iTextSharp库：一个开源的.NET库，用于处理PDF文件。您可
Promise实例简单使用与理解 lichenyang453 前端
Promise的案例我们直接上案例然后通过案例去解释理解。我们的代码模拟的是去前端访问服务器获取数据然后渲染到页面上，服务器模拟的也是去访问其他地址获取数据然后返还给前端。importReactfrom'react'importHeaderfrom'./components/Header'import{useEffect,useState}from'react'import{useRoutes}f
不懂的还在争论AI，懂行的已用Python+DeepSeek变现！逆袭机会就在AI应用层渡难繁辰 python开发人工智能拥抱AI 人工智能 python ai
最近总有种错觉：AI时代轰轰烈烈，普通人却只能当看客？大模型训练动辄千万美金，算法高深莫测，似乎离我们太远。别急，AI真正的革命性力量，正从神秘实验室涌向普通人的键盘——它的名字叫“AI应用层”。而拿到这张船票的钥匙，就是你早该学起来的：Python。当质疑者还在争论“AI能否取代人类”，行动派已用DeepSeek+LangChain开发智能应用月入五位数！巨头烧钱搭台，我们轻量唱戏！科技大佬砸重
这份「零基础」机器学习实战课程，帮你彻底搞懂AI不再迷茫！——深度解析ML-For-Beginners wylee 人工智能机器学习
引言：告别迷茫，拥抱AI未来在当今科技浪潮之巅，人工智能（AI）无疑是最璀璨的明星。机器学习（MachineLearning），作为AI的核心驱动力，正以前所未有的速度渗透到我们生活的方方面面：从智能推荐系统到自动驾驶，从疾病诊断到金融风控，其应用场景几乎无处不在。然而，对于无数渴望投身AI领域的学习者而言，机器学习的门槛似乎一直高不可攀。你是否也曾有过这样的困惑：面对海量的在线课程和资料，眼花缭
串口（Serial Port）的基础知识 Mike_Wuzy 信号处理
下面是关于串口（SerialPort）的详细介绍以及不同通信协议之间的区别。1.什么是串口串行端口（SerialPort），也称为串行接口或RS-232接口，在计算机网络和嵌入式系统中广泛应用。它通过单根线缆传输数据，一次只发送一个比特位。由于其简单的硬件结构和广泛的应用支持，串口在许多领域仍然非常有用。2.RS-232协议RS-232（RecommendedStandard232）是应用最广泛的
ASM系列五利用TreeApi 解析生成Class lijingyao8206 ASM 字节码动态生成 ClassNode TreeAPI
前面CoreApi的介绍部分基本涵盖了ASMCore包下面的主要API及功能，其中还有一部分关于MetaData的解析和生成就不再赘述。这篇开始介绍ASM另一部分主要的Api。TreeApi。这一部分源码是关联的asm-tree-5.0.4的版本。在介绍前，先要知道一点， Tree工程的接口基本可以完
链表树——复合数据结构应用实例 bardo 数据结构树型结构表结构设计链表菜单排序
我们清楚：数据库设计中，表结构设计的好坏，直接影响程序的复杂度。所以，本文就无限级分类（目录）树与链表的复合在表设计中的应用进行探讨。当然，什么是树，什么是链表，这里不作介绍。有兴趣可以去看相关的教材。需求简介：经常遇到这样的需求，我们希望能将保存在数据库中的树结构能够按确定的顺序读出来。比如，多级菜单、组织结构、商品分类。更具体的，我们希望某个二级菜单在这一级别中就是第一个。虽然它是最后
为啥要用位运算代替取模呢 chenchao051 位运算哈希汇编
在hash中查找key的时候，经常会发现用&取代%，先看两段代码吧， JDK6中的HashMap中的indexFor方法： /** * Returns index for hash code h. */ static int indexFor(int h, int length) {
最近的情况麦田的设计者生活感悟计划软考想
今天是2015年4月27号整理一下最近的思绪以及要完成的任务 1、最近在驾校科目二练车，每周四天，练三周。其实做什么都要用心，追求合理的途径解决。为
PHP去掉字符串中最后一个字符的方法 IT独行者 PHP 字符串
今天在PHP项目开发中遇到一个需求，去掉字符串中的最后一个字符原字符串1,2,3,4,5,6, 去掉最后一个字符","，最终结果为1,2,3,4,5,6 代码如下： $str = "1,2,3,4,5,6,"; $newstr = substr($str,0,strlen($str)-1); echo $newstr;
hadoop在linux上单机安装过程 _wy_ linux hadoop
1、安装JDK jdk版本最好是1.6以上，可以使用执行命令java -version查看当前JAVA版本号，如果报命令不存在或版本比较低，则需要安装一个高版本的JDK，并在/etc/profile的文件末尾，根据本机JDK实际的安装位置加上以下几行： export JAVA_HOME=/usr/java/jdk1.7.0_25
JAVA进阶----分布式事务的一种简单处理方法无量多系统交互分布式事务
每个方法都是原子操作：提供第三方服务的系统，要同时提供执行方法和对应的回滚方法 A系统调用B,C,D系统完成分布式事务 =========执行开始======== A.aa(); try { B.bb(); } catch(Exception e) { A.rollbackAa(); } try { C.cc(); } catch(Excep
安墨移动广告：移动DSP厚积薄发引领未来广告业发展命脉矮蛋蛋 hadoop 互联网
　　“谁掌握了强大的DSP技术，谁将引领未来的广告行业发展命脉。”2014年，移动广告行业的热点非移动DSP莫属。各个圈子都在纷纷谈论，认为移动DSP是行业突破点，一时间许多移动广告联盟风起云涌，竞相推出专属移动DSP产品。　　到底什么是移动DSP呢? 　　DSP(Demand-SidePlatform)，就是需求方平台，为解决广告主投放的各种需求，真正实现人群定位的精准广
myelipse设置 alafqq IP
在一个项目的完整的生命周期中，其维护费用，往往是其开发费用的数倍。因此项目的可维护性、可复用性是衡量一个项目好坏的关键。而注释则是可维护性中必不可少的一环。注释模板导入步骤安装方法：打开eclipse/myeclipse 选择 window-->Preferences-->JAVA-->Code-->Code
java数组百合不是茶 java数组
java数组的声明创建初始化； java支持C语言数组中的每个数都有唯一的一个下标一维数组的定义声明： int[] a = new int[3];声明数组中有三个数int[3] int[] a 中有三个数，下标从0开始，可以同过for来遍历数组中的数
javascript读取表单数据 bijian1013 JavaScript
利用javascript读取表单数据，可以利用以下三种方法获取： 1、通过表单ID属性：var a = document.getElementByIdx_x_x("id"); 2、通过表单名称属性：var b = document.getElementsByName("name"); 3、直接通过表单名字获取：var c = form.content.
探索JUnit4扩展：使用Theory bijian1013 java JUnit Theory
理论机制（Theory）一.为什么要引用理论机制（Theory）当今软件开发中，测试驱动开发（TDD — Test-driven development）越发流行。为什么 TDD 会如此流行呢？因为它确实拥有很多优点，它允许开发人员通过简单的例子来指定和表明他们代码的行为意图。 TDD 的优点： &nb
[Spring Data Mongo一]Spring Mongo Template操作MongoDB bit1129 template
什么是Spring Data Mongo Spring Data MongoDB项目对访问MongoDB的Java客户端API进行了封装，这种封装类似于Spring封装Hibernate和JDBC而提供的HibernateTemplate和JDBCTemplate，主要能力包括 1. 封装客户端跟MongoDB的链接管理 2. 文档-对象映射，通过注解:@Document(collectio
【Kafka八】Zookeeper上关于Kafka的配置信息 bit1129 zookeeper
问题： 1. Kafka的哪些信息记录在Zookeeper中 2. Consumer Group消费的每个Partition的Offset信息存放在什么位置 3. Topic的每个Partition存放在哪个Broker上的信息存放在哪里 4. Producer跟Zookeeper究竟有没有关系？没有关系！！！ //consumers、config、brokers、cont
java OOM内存异常的四种类型及异常与解决方案 ronin47 java OOM 内存异常
　OOM异常的四种类型：　　　　　一：　StackOverflowError ：通常因为递归函数引起（死递归，递归太深）。-Xss 128k 一般够用。　二：　out Of memory: PermGen Space：通常是动态类大多，比如web 服务器自动更新部署时引起。-Xmx
java-实现链表反转-递归和非递归实现 bylijinnan java
20120422更新：对链表中部分节点进行反转操作，这些节点相隔k个： 0->1->2->3->4->5->6->7->8->9 k=2 8->1->6->3->4->5->2->7->0->9 注意1 3 5 7 9 位置是不变的。解法：将链表拆成两部分： a.0-&
Netty源码学习-DelimiterBasedFrameDecoder bylijinnan java netty
看DelimiterBasedFrameDecoder的API，有举例：接收到的ChannelBuffer如下： +--------------+ | ABC\nDEF\r\n | +--------------+ 经过DelimiterBasedFrameDecoder(Delimiters.lineDelimiter())之后，得到： +-----+----
linux的一些命令 -查看cc攻击-网口ip统计等 hotsunshine linux
Linux判断CC攻击命令详解 2011年12月23日 ⁄ 安全 ⁄ 暂无评论查看所有80端口的连接数 netstat -nat|grep -i '80'|wc -l 对连接的IP按连接数量进行排序 netstat -ntu | awk '{print $5}' | cut -d: -f1 | sort | uniq -c | sort -n 查看TCP连接状态 n
Spring获取SessionFactory ctrain sessionFactory
String sql = "select sysdate from dual"; WebApplicationContext wac = ContextLoader.getCurrentWebApplicationContext(); String[] names = wac.getBeanDefinitionNames(); for(int i=0; i&
Hive几种导出数据方式 daizj hive 数据导出
Hive几种导出数据方式 1.拷贝文件如果数据文件恰好是用户需要的格式，那么只需要拷贝文件或文件夹就可以。 hadoop fs –cp source_path target_path 2.导出到本地文件系统 --不能使用insert into local directory来导出数据，会报错 --只能使用
编程之美 dcj3sjt126com 编程 PHP 重构
我个人的 PHP 编程经验中，递归调用常常与静态变量使用。静态变量的含义可以参考 PHP 手册。希望下面的代码，会更有利于对递归以及静态变量的理解 header("Content-type: text/plain"); function static_function () { static $i = 0; if ($i++ < 1
Android保存用户名和密码 dcj3sjt126com android
转自：http://www.2cto.com/kf/201401/272336.html 我们不管在开发一个项目或者使用别人的项目，都有用户登录功能，为了让用户的体验效果更好，我们通常会做一个功能，叫做保存用户，这样做的目地就是为了让用户下一次再使用该程序不会重新输入用户名和密码，这里我使用3种方式来存储用户名和密码 1、通过普通的txt文本存储 2、通过properties属性文件进行存
Oracle 复习笔记之同义词 eksliang Oracle 同义词 Oracle synonym
转载请出自出处：http://eksliang.iteye.com/blog/2098861 1.什么是同义词同义词是现有模式对象的一个别名。概念性的东西，什么是模式呢？创建一个用户，就相应的创建了一个模式。模式是指数据库对象，是对用户所创建的数据对象的总称。模式对象包括表、视图、索引、同义词、序列、过
Ajax案例 gongmeitao Ajax jsp
数据库采用Sql Server2005 项目名称为:Ajax_Demo 1.com.demo.conn包 package com.demo.conn; import java.sql.Connection;import java.sql.DriverManager;import java.sql.SQLException; //获取数据库连接的类public class DBConnec
ASP.NET中Request.RawUrl、Request.Url的区别 hvt .net Web C#asp.net hovertree
如果访问的地址是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree%3C&n=myslider#zonemenu那么Request.Url.ToString() 的值是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree<&
SVG 教程（七）SVG 实例，SVG 参考手册天梯梦 svg
SVG 实例在线实例下面的例子是把SVG代码直接嵌入到HTML代码中。谷歌Chrome，火狐，Internet Explorer9，和Safari都支持。注意：下面的例子将不会在Opera运行，即使Opera支持SVG - 它也不支持SVG在HTML代码中直接使用。 SVG 实例 SVG基本形状一个圆矩形不透明矩形一个矩形不透明2 一个带圆角矩
事务管理 luyulong java spring 编程事务
事物管理 spring事物的好处为不同的事物API提供了一致的编程模型支持声明式事务管理提供比大多数事务API更简单更易于使用的编程式事务管理API 整合spring的各种数据访问抽象 TransactionDefinition 定义了事务策略 int getIsolationLevel()得到当前事务的隔离级别 READ_COMMITTED
基础数据结构和算法十一：Red-black binary search tree sunwinner Algorithm Red-black
The insertion algorithm for 2-3 trees just described is not difficult to understand; now, we will see that it is also not difficult to implement. We will consider a simple representation known
centos同步时间 stunizhengjia linux 集群同步时间
做了集群，时间的同步就显得非常必要了。以下是查到的如何做时间同步。在CentOS 5不再区分客户端和服务器，只要配置了NTP，它就会提供NTP服务。 1)确认已经ntp程序包： # yum install ntp 2)配置时间源（默认就行，不需要修改） # vi /etc/ntp.conf server pool.ntp.o
ITeye 9月技术图书有奖试读获奖名单公布 ITeye管理员 ITeye
ITeye携手博文视点举办的9月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 9月试读活动回顾：http://webmaster.iteye.com/blog/2118112本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《NFC：Arduino、Andro