_lichaoxi

问答系统(QA)1—基于词典的正向最大匹配算法

转载：杨尚川

地址：http://yangshangchuan.iteye.com/blog/2031813

内容有修改

基于词典的正向最大匹配算法（最长词优先匹配），算法会根据词典文件自动调整最大长度，分词的好坏完全取决于词典。

算法流程图如下：

Java实现代码如下：

package nlp.segmentation;

import java.io.IOException;

import java.nio.charset.StandardCharsets;

import java.nio.file.Files;

import java.nio.file.Paths;

import java.util.ArrayList;

import java.util.List;

/**

* 基于词典的正向最大匹配算法

public class FMMSeg {

private static final List DIC = new ArrayList();

private static int MAX_LENGTH = 0;

static{

//手动添加try-catch

try {

System.out.println("开始初始化词典");

int count = 0;

int max = 1;

//java8读取文件方式

List lines = Files.readAllLines(Paths.get("C:/Users/Administrator/Desktop/robot/笔记/dic.txt"), StandardCharsets.UTF_8);

for (String line : lines) {

DIC.add(line);

count ++;

if(max < line.length()){

max = line.length();

}

MAX_LENGTH = max;

System.out.println("完成初始化词典，词数目：" + count);

System.out.println("最大分词长度：" + MAX_LENGTH);

} catch (IOException e) {

System.err.println("词典装载失败：" + e.getMessage());

}

public static List seg(String text){

List result = new ArrayList();

while(text.length() > 0){

int len = MAX_LENGTH;

if(text.length() < len){

len = text.length();

}

//只取词典中最长分词的长度的子串进行匹配

String tryWord = text.substring(0, 0 + len);

while(!DIC.contains(tryWord)){

//如果长度为一且在词典中未找到匹配，则按长度为一切分

if(tryWord.length() == 1){

break;

}

tryWord = tryWord.substring(0, tryWord.length() - 1);

}

result.add(tryWord);

tryWord = tryWord.substring(tryWord.length());

}

return result;

}

public static void main(String[] args){

String text = "杨尚川是APDPlat应用级产品开发平台的作者";

System.out.println(seg(text));

}

运行效果：

开始初始化词典
完成初始化词典，词数目：427452
最大分词长度：16

分析：text为"杨尚川是APDPlat应用级产品开发平台的作者"

取最大分词长度tryword为"杨尚川是APDPlat应用级产品"——无匹配

tryword长度减一为"杨尚川是APDPlat应用级产"——无匹配

……

tryword长度减一为"杨尚川"——匹配
去除已匹配，取最大分词长度tryword为"是APDPlat应用级产品开发平"——无匹配

……

tryword长度减一为"是"——匹配
去除已匹配，取最大分词长度tryword为"APDPlat应用级产品开发平台"——无匹配

……

tryword长度减一为"APDPlat"——匹配
去除已匹配，取最大分词长度tryword为"应用级产品开发平台的作者"——无匹配

……

tryword长度减一为"应用"——匹配
去除已匹配，取最大分词长度tryword为"应用级产品开发平台的作者"——无匹配

……

tryword长度减一为"应用"——匹配
去除已匹配，取最大分词长度tryword为"级产品开发平台的作者"——无匹配

……

tryword长度减一为"级"——匹配
去除已匹配，取最大分词长度tryword为"产品开发平台的作者"——无匹配

……

tryword长度减一为"产品开发"——匹配
去除已匹配，取最大分词长度tryword为"平台的作者"——无匹配

……

tryword长度减一为"平台"——匹配
去除已匹配，取最大分词长度tryword为"的作者"——无匹配

……

tryword长度减一为"的"——匹配
去除已匹配，取最大分词长度tryword为"作者"——匹配

打印：[杨尚川, 是, APDPlat, 应用, 级, 产品开发, 平台, 的, 作者]

词典文件下载地址：http://pan.baidu.com/s/1i37gKLZ。

上面的代码是利用了JDK的Collection接口的contains方法来判断一个词是否在词典中，而这个方法的不同实现，其性能差异极大，上面的初始版本是用了ArrayList：List DIC = new ArrayList<>()。通常来说，对于查找算法，在有序列表中查找比在无序列表中查找更快，分区查找比全局遍历要快。

通过查看ArrayList、LinkedList、HashSet的contains方法的源代码，发现ArrayList和LinkedList采用全局遍历的方式且未利用有序列表的优势，HashSet使用了分区查找，如果hash分布均匀冲突少，则需要遍历的列表就很少甚至不需要。

测试代码如下：

package nlp.test;

import java.io.IOException;

import java.nio.charset.StandardCharsets;

import java.nio.file.Files;

import java.nio.file.Paths;

import java.util.ArrayList;

import java.util.HashSet;

import java.util.LinkedList;

import java.util.List;

import java.util.Random;

/**

* 比较词典查询算法的性能

public class SearchTest {

//为了生成随机查询的词列表

private static final List DIC_FOR_TEST = new ArrayList<>();

//通过更改这里DIC的实现来比较不同实现之间的性能

//private static final List DIC = new ArrayList<>();

//private static final List DIC = new LinkedList<>();

private static final HashSet DIC = new HashSet();

static{

try {

System.out.println("开始初始化词典");

int count=0;

List lines = Files.readAllLines(Paths.get("C:/dic.txt"), StandardCharsets.UTF_8);

for(String line : lines){

DIC.add(line);

DIC_FOR_TEST.add(line);

count++;

}

System.out.println("完成初始化词典，词数目："+count);

} catch (IOException ex) {

System.err.println("词典装载失败:"+ex.getMessage());

}

public static void main(String[] args){

//选取随机值

List words = new ArrayList<>();

for(int i=0;i<100000;i++){

words.add(DIC_FOR_TEST.get(new Random(System.nanoTime()+i).nextInt(427452)));

}

long start = System.currentTimeMillis();

for(String word : words){

DIC.contains(word);

}

long cost = System.currentTimeMillis()-start;

System.out.println("cost time:"+cost+" ms");

}

HashSet性能最好，比LinkedList和ArrayList快约3个数量级！ LinkedList要比ArrayList慢一些，虽然他们都是全局遍历，但是LinkedList需要操作下一个数据的引用，所以会多一些操作，LinkedList因为需要保存前驱和后继引用，占用的内存也要高一些。

前缀树（Trie）与HashSet效率接近，内存更低。自己实现一个Trie的数据结构，用ConcurrentHashMap和HashMap实现内存较高，采用数组实现，代码如下：

package nlp.test;

import java.util.Arrays;

import java.util.Collection;

import java.util.List;

public class TrieV2 {

private final TrieNode ROOT_NODE = new TrieNode('/');

public boolean contains(String item){

//去掉首尾空白字符

item=item.trim();

int len = item.length();

if(len < 1){

return false;

}

//从根节点开始查找

TrieNode node = ROOT_NODE;

for(int i=0;i

char character = item.charAt(i);

TrieNode child = node.getChild(character);

if(child == null){

//未找到匹配节点

return false;

}else{

//找到节点，继续往下找

node = child;

}

if(node.isTerminal()){

return true;

}

return false;

}

public void addAll(List items){

for(String item : items){

add(item);

}

public void add(String item){

//去掉首尾空白字符

item=item.trim();

int len = item.length();

if(len < 1){

//长度小于1则忽略

return;

}

//从根节点开始添加

TrieNode node = ROOT_NODE;

for(int i=0;i

char character = item.charAt(i);

TrieNode child = node.getChildIfNotExistThenCreate(character);

//改变顶级节点

node = child;

}

//设置终结字符，表示从根节点遍历到此是一个合法的词

node.setTerminal(true);

}

private static class TrieNode{

private char character;

private boolean terminal;

private TrieNode[] children = new TrieNode[0];

public TrieNode(char character){

this.character = character;

}

public boolean isTerminal() {

return terminal;

}

public void setTerminal(boolean terminal) {

this.terminal = terminal;

}

public char getCharacter() {

return character;

}

public void setCharacter(char character) {

this.character = character;

}

public Collection getChildren() {

return Arrays.asList(children);

}

public TrieNode getChild(char character) {

for(TrieNode child : children){

if(child.getCharacter() == character){

return child;

}

return null;

}

public TrieNode getChildIfNotExistThenCreate(char character) {

TrieNode child = getChild(character);

if(child == null){

child = new TrieNode(character);

addChild(child);

}

return child;

}

public void addChild(TrieNode child) {

children = Arrays.copyOf(children, children.length+1);

this.children[children.length-1]=child;

}

public void show(){

show(ROOT_NODE,"");

}

private void show(TrieNode node, String indent){

if(node.isTerminal()){

System.out.println(indent+node.getCharacter()+"(T)");

}else{

System.out.println(indent+node.getCharacter());

}

for(TrieNode item : node.getChildren()){

show(item,indent+"\t");

}

public static void main(String[] args){

TrieV2 trie = new TrieV2();

trie.add("APDPlat");

trie.add("APP");

trie.add("APD");

trie.add("杨尚川");

trie.add("杨尚昆");

trie.add("杨尚喜");

trie.add("中华人民共和国");

trie.add("中华人民打太极");

trie.add("中华");

trie.add("中心思想");

trie.add("杨家将");

trie.show();

}

TrieV2实现了节省内存的目标，节省了约70%，但是速度也慢了，慢了约10倍，可以对TrieV2做进一步优化，TrieNode的数组children采用有序数组，采用二分查找来加速。

使用了一个新的方法insert来加入数组元素，从无到有构建有序数组，把新的元素插入到已有的有序数组中，insert的代码如下：

/**

* 将一个字符追加到有序数组

* @param array 有序数组

* @param element 字符

* @return 新的有序数字

private TrieNode[] insert(TrieNode[] array, TrieNode element){

int length = array.length;

if(length == 0){

array = new TrieNode[1];

array[0] = element;

return array;

}

TrieNode[] newArray = new TrieNode[length+1];

boolean insert=false;

for(int i=0; i

if(element.getCharacter() <= array[i].getCharacter()){

//新元素找到合适的插入位置

newArray[i]=element;

//将array中剩下的元素依次加入newArray即可退出比较操作

System.arraycopy(array, i, newArray, i+1, length-i);

insert=true;

break;

}else{

newArray[i]=array[i];

}

if(!insert){

//将新元素追加到尾部

newArray[length]=element;

}

return newArray;

}

有了有序数组，在搜索的时候就可以利用有序数组的优势，重构搜索方法getChild：

数组中的元素是TrieNode，所以需要自定义TrieNode的比较方法：

时间：#分别运行10次测试，然后取平均值

LinkedList 10000次查询 cost time:48812 ms

ArrayList 10000次查询 cost time:40219 ms

HashSet 10000次查询 cost time:8 ms

HashSet 1000000次查询 cost time:258 ms

HashSet 100000000次查询 cost time:28575 ms

Trie 10000次查询 cost time:15 ms

Trie 1000000次查询 cost time:1024 ms

Trie 100000000次查询 cost time:104635

TrieV1 10000次查询 cost time:16 ms

TrieV1 1000000次查询 cost time:780 ms

TrieV1 100000000次查询 cost time:90949 ms

TrieV2 10000次查询 cost time:50 ms

TrieV2 1000000次查询 cost time:4361 ms

TrieV2 100000000次查询 cost time:483398

TrieV3 10000次查询 cost time:21 ms

TrieV3 1000000次查询 cost time:1264 ms

TrieV3 100000000次查询 cost time:121740 ms

TrieV3待优化：text.substring(0, 0+len);会导致产生大量的新的字符串的产生，消耗CPU的同时还会促发垃圾回收频繁发生导致性能下降。

解决方案：见《逆向最大匹配算法》

结论：经过优化后TrieV3仍然比HashSet慢4倍，也不影响它在分词算法中的作用，从上面的数据可以看到，TrieV3的整体分词性能领先HashSet十五个百分点（15%），而且内存占用只有HashSet的80%。

TrieV2-UML

TrieNode类图

TrieV2类图

你可能感兴趣的:(自然语言处理)

embedding模型有哪些？如何选择合适的embedding模型？行云流水AI笔记 embedding
embedding模型是一种将数据映射到低维空间的模型，常用于自然语言处理、推荐系统、图像识别等领域。以下是一些常见的embedding模型：Word2Vec：CBOW（ContinuousBag-of-Words）：通过上下文预测中心词。Skip-Gram：通过中心词预测上下文。GloVe（GlobalVectorsforWordRepresentation）：结合了词频统计和Word2Vec的
Transformer底层原理解析及基于pytorch的代码实现 LiRuiJie 人工智能 transformer pytorch 深度学习
1.Transformer底层原理解析1.1核心架构突破Transformer是自然语言处理领域的革命性架构，其核心设计思想完全摒弃了循环结构，通过自注意力机制实现全局依赖建模。整体架构图如下：以下是其核心组件：1）自注意力机制（Self-Attention）-输入序列的每个位置都能直接关注所有位置-数学公式（缩放点积注意力）：-Q：查询矩阵（当前关注点）-K：键矩阵（被比较项）-V：值矩阵（实际
Python爬虫实战：研究TextBlob相关技术 ylfhpy 爬虫项目实战 python 爬虫开发语言 html TextBlob
1.引言1.1研究背景与意义随着互联网技术的飞速发展，社交媒体已成为人们获取信息和表达观点的重要平台。每天在社交媒体上产生的海量文本数据蕴含着丰富的情感信息和社会舆情，分析这些文本情感倾向，有助于企业了解消费者对产品和服务的评价，政府部门监测社会舆论动态，研究机构探索公众对热点事件的态度。情感分析（SentimentAnalysis）作为自然语言处理的重要分支，旨在通过计算方法识别和提取文本中的主
对话云蝠智能：大模型如何让企业呼叫系统从 “成本中心” 变身 “价值枢纽”？ MARS_AI_ 人工智能自然语言处理信息与通信交互
在人工智能重塑企业服务的浪潮中，云蝠智能（南京星蝠科技有限公司旗下品牌）以深厚的技术积累和行业实践，逐步成长为国内智能外呼领域的标杆企业。其发展路径揭示了技术自主创新与场景深度结合的必然性。一、技术架构：全栈自研奠定领先基础云蝠智能的核心竞争力源于其全链路自研技术体系。该架构覆盖语音识别（ASR）、自然语言处理（NLP）、语音合成（TTS）及软交换六大层级，实现从基础设施到操作层的闭环设计。这一分
入选 ICML 2025！哈佛医学院等推出全球首个 HIE 领域临床思维图谱模型，神经认知结果预测任务上性能提升 15% hyperai
在人工智能技术突飞猛进的当下，大型视觉-语言模型（LVLMs）正以惊人的速度重塑多个领域的认知边界。在自然图像与视频分析领域，这类模型依托先进的神经网络架构、海量标注数据集与强大算力支持，已能精准完成物体识别、场景解析等高阶任务。而在自然语言处理领域，LVLMs通过对TB级文本语料的学习，在机器翻译、文本摘要、情感分析等任务上达到专业级水准，其生成的学术摘要甚至能精准提炼医学文献的核心结论。然而当
合规视角下银行智能客服风险防控 AI 智能服务智能客服人工智能 AIGC 数据库 chatgpt
1.AI驱动金融变革的政策与技术背景政策导向：我国《新一代人工智能发展规划》明确提出发展智能金融，要求：构建金融大数据平台，提升多媒体数据处理能力；创新智能金融产品与服务形态；推广智能客服、监控等技术应用；建立智能风控预警体系。技术支撑：云计算、大数据技术成熟为AI发展奠定了基础。深度学习算法的突破则引爆了本轮AI浪潮，显著提升了复杂任务处理精度，进而推动了计算机视觉、机器学习、自然语言处理（NL
GRU与Transformer结合：新一代序列模型 AI大模型应用工坊 gru transformer 深度学习 ai
GRU与Transformer结合：新一代序列模型关键词：GRU、Transformer、序列模型、结合、深度学习摘要：本文深入探讨了GRU与Transformer结合所形成的新一代序列模型。先介绍了GRU和Transformer各自的核心概念及工作原理，然后阐述了二者结合的原因、方式和优势。通过代码实际案例展示了如何搭建结合的模型，还探讨了其在自然语言处理、语音识别等领域的实际应用场景。最后对未
《AI办公类工具PPT系列之七——智谱清言》再见孙悟空_ 【2025 AI工具合集】人工智能 iSlide AI AI智能PPT powerpoint AI PPT PPT
一.简介官网地址为chatglm.cn智谱清言（也被称为ChatGLM）是一款基于大模型技术的人工智能产品，旨在通过其强大的自然语言处理能力，为用户提供高效、智能的交互体验。该产品不仅具备广泛的应用场景，还能够在多个领域内实现深度学习和自我优化。二.功能介绍内容创作：创意写作：帮助用户进行故事、诗歌等文学作品的创作。媒体写作：辅助撰写新闻稿、社交媒体帖子等内容。写作辅助：提供写作建议、结构安排和编
PDF 问答工具对比 - 询问有关 PDF 的任何问题 ComPDFKit pdf PDF AI PDF问答
很好，我研究了面向普通用户、以英语支持为重点的顶级PDF问答AI工具。我将通过准确性、速度、价格、隐私和第三方集成等标准，对基于Web和可下载工具进行比较。最终的文章将包含一个对比表以便更清晰地呈现。顶级PDF问答AI工具借助AI技术的PDF问答工具让您可以上传PDF文件并通过对话方式提问其内容。这些工具无需手动阅读，而是会对文档进行索引，并使用自然语言处理模型从文本中提取答案、摘要或翻译。它们可
Java对接Dify API接口完整指南小侠C deepseek AI Dify Java
Java对接DifyAPI接口完整指南一、DifyAPI简介Dify是一款AI应用开发平台，提供多种自然语言处理能力。通过调用Dify开放API，开发者可以快速集成智能对话、文本生成等功能到自己的Java应用中。二、准备工作获取API密钥登录Dify平台控制台在「API密钥」模块创建新的密钥添加依赖org.apache.httpcomponentshttpclient4.5.13com.faste
借力提示词检索解码与 OpenVINO™ GenAI 全面提升 LLM 推理 OpenVINO 中文社区经验分享
大语言模型（LLM）彻底改变了自然语言处理，推动了聊天机器人、摘要和内容生成等应用的发展。然而，推理效率依然是一个关键挑战，尤其在需要低延迟响应的场景下更为突出。试想你在一家餐厅，经常点同样的菜。服务员不必每次都询问你的订单再传达给厨房，而是直接认出你常点的菜品并立即上菜，这样既缩短了等待时间，也加快了整个服务流程。同样，在文本生成中，模型常常遇到输入提示中的重复模式。与每次都从零开始生成toke
100个AI大模型基础概念（收藏版）程序员鑫港人工智能大模型 ai 开发语言 java 大语言模型 LLM
在人工智能技术快速发展的时代背景下，大模型作为核心驱动力，正深刻改变着各行业的发展模式与应用场景。从自然语言处理到计算机视觉，从智能对话系统到科学研究辅助，大模型展现出强大的通用性和适应性。本文将从基础概念、核心技术、数据处理、训练方法、评估体系、应用场景、伦理安全等多个维度，系统阐述100个AI大模型的关键基础知识，帮助读者全面理解这一前沿技术领域。前排提示，文末有大模型AGI-CSDN独家资料
深度学习应用于情感识别：利用YOLOv8进行AffectNet情感分类 YOLO实战营深度学习 YOLO 分类人工智能目标检测目标跟踪数据挖掘
引言情感识别（EmotionRecognition）是计算机视觉和自然语言处理中的一个重要研究方向，广泛应用于人机交互、智能客服、心理健康监测、视频分析等领域。随着深度学习技术的发展，情感识别取得了显著进展，特别是在面部表情识别方面。面部表情作为人类情感的自然表现之一，能在很大程度上反映个体的情感状态。AffectNet数据集是一个广泛使用的情感识别数据集，它包含了大量带有标注情感标签的面部表情图
AI 销售系统：重塑销售格局的科技利器小柔说科技人工智能科技 java
在数字化浪潮汹涌澎湃的当下，人工智能（AI）正以前所未有的速度渗透到各个行业，销售领域也不例外。AI销售系统作为一种融合了先进人工智能技术的创新工具，正逐渐成为企业提升销售效率、优化客户体验、增强市场竞争力的关键因素。一、AI销售系统的概念与核心技术AI销售系统是基于人工智能技术构建的一套综合性销售管理平台，它整合了自然语言处理（NLP）、机器学习（ML）、数据分析、预测建模等多种核心技术。通过这
Unity AR构建维护系统的以AI驱动增强现实知识检索系统 Morpheon unity ar 人工智能
本博客概述了为维护开发的AI驱动增强现实（AR）知识检索系统的开发过程，该系统集成了Unity用于AR、Python服务器用于后端处理，以及ChatGPT用于自然语言处理。该系统允许维护工人通过AR设备（如HoloLens2）查询特定任务的知识（例如，故障排除步骤），并以全息图形式显示上下文感知的响应。Unity账户注册中文账户注册比较困难。它需要额外的验证码验证步骤，有时即使验证成功也不会重定向
使用LangChain与Solar进行文本嵌入 Zbb159 langchain
使用LangChain与Solar进行文本嵌入在处理自然语言处理中，文本嵌入是将文本转换为数字向量的一种技术，它使计算机能够理解和处理文本数据。在这篇文章中，我们将探索如何使用LangChain与Solar进行文本嵌入。技术背景介绍文本嵌入可以用于多种自然语言处理任务，例如文本分类、情感分析和语义搜索等。Solar是一种简单易用的嵌入服务，提供了强大的推理能力，可以轻松地将文本转换为嵌入向量。核心
医疗大模型深度剖析：腾讯医疗大模型案例，引领智能医疗新时代！
腾讯医疗大模型是混元大模型的医疗版。在DeepSeek爆火之前，腾讯健康已经依据医疗细分场景的具体需求，以腾讯自研的混元大模型，打造出医疗行业大模型。DeepSeek-R1发布后，腾讯健康第一时间完成了混元大模型与DeepSeek的融合。腾讯医疗大模型深度融合医学知识库与自然语言处理技术，旨在为医疗行业提供智能化的辅助解决方案。通过海量医学文献、临床指南、电子病历等专业数据训练，具备强大的医学知识
NLP市场规模将破千千亿，哪些岗位会成为新风口？ duolapig 人工智能
近年来，自然语言处理（NLP）技术在全球范围内掀起了一场“语言革命”。从智能客服到机器翻译，从情感分析到内容生成，NLP正以惊人的速度重塑人类与机器的交互方式。艾媒咨询数据显示，2023年中国NLP市场规模已达660亿元，预计2027年将突破千亿大关。这一数字背后，不仅是技术迭代的加速，更是一场深刻的人才需求变革。在AI大模型浪潮的推动下，新的职业风口正在形成，而这场变革的核心逻辑，是技术与产业融
自然语言处理基础知识入门(三) RNN，LSTM，GRU模型详解这个男人是小帅 NLP自然语言知识梳理入门 rnn 自然语言处理 lstm gru 人工智能神经网络
文章目录前言一、RNN模型1.1RNN的作用1.2RNN基本结构1.3双向循环神经网络1.4深层双向循环神经网络1.5RNN的梯度爆炸和消失问题二、LSTM模型2.1LSTM和RNN的结构对比2.2LSTM模型细节三、GRU模型总结前言在上一章节中，深入探讨了Word2vec模型的两种训练策略以及创新的优化方法，从而得到了优质的词嵌入表示。不仅如此，Word2vec作为一种语言模型，也具备根据上下
RNN、LSTM、GRU详解昔颜1121 人工智能 rnn python
RNN、LSTM、GRU详解在深度学习领域，序列数据（如语音识别、机器翻译、文本生成等）广泛应用于自然语言处理（NLP）、时间序列预测、语音和视频处理等任务中。针对序列数据，循环神经网络（RNN,RecurrentNeuralNetwork）及其改进版本——长短时记忆网络（LSTM,LongShort-TermMemory）和门控循环单元（GRU,GatedRecurrentUnit）成为处理时序
小白的进阶之路系列之十六----人工智能从初步到精通pytorch综合运用的讲解第九部分金沙阳人工智能 pytorch python
从零开始学习NLP在这个由三部分组成的系列中，你将构建并训练一个基本的字符级循环神经网络(RNN)来对单词进行分类。你将学习如何从零开始构建循环神经网络NLP的基本数据处理技术如何训练RNN以识别单词的语言来源。从零开始学自然语言处理：使用字符级RNN对名字进行分类我们将构建并训练一个基本的字符级循环神经网络(RNN)来对单词进行分类。展示了如何预处理数据以建模NLP。特别是，这些教程展示了如何以
人工神经网络：架构原理与技术解析 weixin_47233946 架构
##引言在深度学习和人工智能领域，人工神经网络（ArtificialNeuralNetwork,ANN）作为模拟人脑认知机制的核心技术，已在图像识别、自然语言处理和强化学习等领域实现了革命性突破。从AlphaGo击败人类顶尖棋手到ChatGPT的对话生成能力，ANN的进化持续推动技术边界的扩展。本文将深入剖析人工神经网络的核心原理、技术实现与发展趋势。##一、基础概念与数学模型###1.1生物启发
Spring中如何使用AI Mn孟 spring 人工智能 java 后端
Spring是一个用于构建Java应用程序的开源框架，它可以与各种AI技术集成。要在Spring中使用AI，首先需要选择一种AI技术，如机器学习、自然语言处理等。然后可以使用SpringBoot来构建应用程序，并使用相应的AI框架或库来实现AI功能。例如，可以使用TensorFlow或PyTorch来实现机器学习功能，使用NLTK或spaCy来实现自然语言处理功能。此外，还可以使用SpringCl
OpenAI Agents SDK 客户服务应用案例 lyh1344 easyui 前端 javascript
OpenAIAgentsSDK客户服务应用案例OpenAIAgentsSDK可用于构建智能化、自动化的客户服务解决方案。以下是一些典型应用案例及实现方法：智能问答助手通过OpenAIAgentsSDK训练一个基于知识库的问答助手，自动回答客户常见问题。可集成到网站、APP或社交媒体平台，提供24/7服务。支持自然语言处理，准确理解客户意图，提供个性化回复。多轮对话处理利用SDK的上下文保持能力，处
使用GutenbergLoader加载项目Gutenberg电子书 qq_37836323 langchain 人工智能 json
在现代应用中，文档加载器被广泛用于处理和分析各种格式的文本数据。在本文中，我们将重点介绍如何使用GutenbergLoader来加载项目Gutenberg的电子书并将其转换为可供后续处理的文档格式。技术背景介绍项目Gutenberg是一个在线数字图书馆，提供大量的免费电子书资源。为了有效地使用这些电子书，我们通常需要将它们的内容加载到一个可处理的文档格式。这使得后续的数据分析、自然语言处理等任务的
使用Hugging Face的BGE模型进行文本嵌入 lirxx 人工智能 langchain
在文本嵌入领域，BGE（BeijingAcademyofArtificialIntelligenceEmbeddings）模型是开源界的佼佼者。由北京智源人工智能研究院（BAAI）开发，BGE模型以其高效的嵌入性能和开放性获得了广泛的认可。本文将通过HuggingFace平台展示如何使用BGE模型进行文本嵌入。技术背景介绍文本嵌入是将文本数据转换为可计算向量的过程，这在自然语言处理（NLP）中具有
Java企业技术趋势分析：AI驱动下的Spring AI、LangChain4j与RAG系统架构在未来等你 Java场景面试宝典 AI 技术编程 Java Spring
【Java企业技术趋势分析：AI驱动下的SpringAI、LangChain4j与RAG系统架构】开篇在当今快速发展的技术环境中，人工智能（AI）正在以前所未有的速度重塑企业的技术架构和业务流程。Java作为企业级开发的主流语言之一，在AI应用落地方面也迎来了新的机遇和挑战。从自然语言处理（NLP）到机器学习（ML），再到生成式AI（GenerativeAI），Java开发者正在积极拥抱这些新兴技
PyABSA 入门指南：基于深度学习的情感分析工具包是纯一呀 DeepLearning AI NLP 深度学习人工智能 NLP
在自然语言处理（NLP）领域，情感分析（SentimentAnalysis）一直是热门任务之一。而基于方面的情感分析（Aspect-BasedSentimentAnalysis，ABSA），则是更细粒度的分析方式——不仅判断正负情绪，还识别情绪对象（方面）和具体情感极性（如好/差）。什么是PyABSA？PyABSA（PythonAspect-BasedSentimentAnalysis）是一个专为
AI智能时代SEO优化，AISEO-人工智能搜索引擎优化 weixin_ggwwsscc 人工智能搜索引擎 deepseek AI seo
AI驱动的关键词精准匹配与语义理解传统的关键词排名规则主要依赖于关键词的字面匹配，即网站内容中出现的关键词与用户搜索词完全一致或高度相似时，才有可能获得较好的排名。然而，随着AI技术在搜索引擎中的广泛应用，这一局面正在发生深刻改变。如今的搜索引擎借助自然语言处理（NLP）和机器学习算法，能够深入理解用户搜索词背后的语义和意图，实现更精准的内容匹配。AI智能时代SEO优化，AISEO-人工智能搜索引
从CoNLL-U格式文件读取文本的实战指南 yunwu12777 langchain 交互深度学习
在自然语言处理任务中，使用标准化的文本格式能够显著简化数据处理工作。CoNLL-U格式就是这样一种被广泛应用的文本格式，它是CoNLL-X格式的修订版，主要用于句法分析和词法标注任务。技术背景介绍CoNLL-U格式的文件是纯文本文件，采用UTF-8编码，文本内容包括三类行：词行：每个行代表一个词或标记，包含10个字段，用单个制表符分隔。空行：用于表示句子边界。注释行：以哈希符号(#)开头，用于附加
异常的核心类Throwable 无量 java 源码异常处理 exception
java异常的核心是Throwable，其他的如Error和Exception都是继承的这个类里面有个核心参数是detailMessage，记录异常信息，getMessage核心方法，获取这个参数的值，我们可以自己定义自己的异常类，去继承这个Exception就可以了，方法基本上，用父类的构造方法就OK，所以这么看异常是不是很easy package com.natsu;
mongoDB 游标（cursor）实现分页迭代开窍的石头 mongodb
上篇中我们讲了mongoDB 中的查询函数，现在我们讲mongo中如何做分页查询如何声明一个游标 var mycursor = db.user.find({_id:{$lte:5}}); 迭代显示游标数
MySQL数据库INNODB 表损坏修复处理过程 0624chenhong tomcat mysql
最近mysql数据库经常死掉，用命令net stop mysql命令也无法停掉，关闭Tomcat的时候，出现Waiting for N instance(s) to be deallocated 信息。查了下，大概就是程序没有对数据库连接释放，导致Connection泄露了。因为用的是开元集成的平台，内部程序也不可能一下子给改掉的，就验证一下咯。启动Tomcat,用户登录系统，用netstat -
剖析如何与设计人员沟通不懂事的小屁孩工作
最近做图烦死了，不停的改图，改图……。烦，倒不是因为改，而是反反复复的改，人都会死。很多需求人员不知该如何与设计人员沟通，不明白如何使设计人员知道他所要的效果，结果只能是沟通变成了扯淡，改图变成了应付。那应该如何与设计人员沟通呢？我认为设计人员与需求人员先天就存在语言障碍。对一个合格的设计人员来说，整天玩的都是点、线、面、配色，哪种构图看起来协调；哪种配色看起来合理心里跟明镜似的，
qq空间刷评论工具换个号韩国红果果 JavaScript
var a=document.getElementsByClassName('textinput'); var b=[]; for(var m=0;m<a.length;m++){ if(a[m].getAttribute('placeholder')!=null) b.push(a[m]) } var l
S2SH整合之session 灵静志远 spring AOP struts session
错误信息： Caused by: org.springframework.beans.factory.BeanCreationException: Error creating bean with name 'cartService': Scope 'session' is not active for the current thread; consider defining a scoped
xmp标签 a-john 标签
今天在处理数据的显示上遇到一个问题： var html = '<li><div class="pl-nr"><span class="user-name">' + user + '</span>' + text + '</div></li>'; ulComme
Ajax的常用技巧（2）---实现Web页面中的级联菜单 aijuans Ajax
在网络上显示数据，往往只显示数据中的一部分信息，如文章标题，产品名称等。如果浏览器要查看所有信息，只需点击相关链接即可。在web技术中，可以采用级联菜单完成上述操作。根据用户的选择，动态展开，并显示出对应选项子菜单的内容。在传统的web实现方式中，一般是在页面初始化时动态获取到服务端数据库中对应的所有子菜单中的信息，放置到页面中对应的位置，然后再结合CSS层叠样式表动态控制对应子菜单的显示或者隐
天-安-门，好高 atongyeye 情感
我是85后，北漂一族，之前房租1100，因为租房合同到期，再续，房租就要涨150。最近网上新闻，地铁也要涨价。算了一下，涨价之后，每次坐地铁由原来2块变成6块。仅坐地铁费用，一个月就要涨200。内心苦痛。晚上躺在床上一个人想了很久，很久。我生在农
android 动画百合不是茶 android 透明度平移缩放旋转
android的动画有两种 tween动画和Frame动画 tween动画;,透明度,缩放,旋转,平移效果 Animation 动画 AlphaAnimation 渐变透明度 RotateAnimation 画面旋转 ScaleAnimation 渐变尺寸缩放 TranslateAnimation 位置移动 Animation
查看本机网络信息的cmd脚本 bijian1013 cmd
@echo 您的用户名是：%USERDOMAIN%\%username%>"%userprofile%\网络参数.txt" @echo 您的机器名是：%COMPUTERNAME%>>"%userprofile%\网络参数.txt" @echo ___________________>>"%userprofile%\
plsql 清除登录过的用户征客丶 plsql
tools---preferences----logon history---history 把你想要删除的删除 -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一起进步。 email ： binary_spac
【Pig一】Pig入门 bit1129 pig
Pig安装 1.下载pig wget http://mirror.bit.edu.cn/apache/pig/pig-0.14.0/pig-0.14.0.tar.gz 2. 解压配置环境变量如果Pig使用Map/Reduce模式，那么需要在环境变量中，配置HADOOP_HOME环境变量 expor
Java 线程同步几种方式 BlueSkator volatile synchronized ThredLocal ReenTranLock Concurrent
为何要使用同步？ java允许多线程并发控制，当多个线程同时操作一个可共享的资源变量时（如数据的增删改查），将会导致数据不准确，相互之间产生冲突，因此加入同步锁以避免在该线程没有完成操作之前，被其他线程的调用，从而保证了该变量的唯一性和准确性。 1.同步方法&
StringUtils判断字符串是否为空的方法（转帖） BreakingBad null StringUtils “”
转帖地址：http://www.cnblogs.com/shangxiaofei/p/4313111.html public static boolean isEmpty(String str) 　　判断某字符串是否为空，为空的标准是 str== null 或 str.length()== 0
编程之美-分层遍历二叉树 bylijinnan java 数据结构算法编程之美
import java.util.ArrayList; import java.util.LinkedList; import java.util.List; public class LevelTraverseBinaryTree { /** * 编程之美分层遍历二叉树 * 之前已经用队列实现过二叉树的层次遍历，但这次要求输出换行，因此要
jquery取值和ajax提交复习记录 chengxuyuancsdn jquery取值 ajax提交
// 取值 // alert($("input[name='username']").val()); // alert($("input[name='password']").val()); // alert($("input[name='sex']:checked").val()); // alert($("
推荐国产工作流引擎嵌入式公式语法解析器-IK Expression comsci java 应用服务器工作 Excel 嵌入式
这个开源软件包是国内的一位高手自行研制开发的，正如他所说的一样，我觉得它可以使一个工作流引擎上一个台阶。。。。。。欢迎大家使用，并提出意见和建议。。。 ----------转帖--------------------------------------------------- IK Expression是一个开源的（OpenSource），可扩展的（Extensible），基于java语言
关于系统中使用多个PropertyPlaceholderConfigurer的配置及PropertyOverrideConfigurer daizj spring
1、PropertyPlaceholderConfigurer Spring中PropertyPlaceholderConfigurer这个类，它是用来解析Java Properties属性文件值，并提供在spring配置期间替换使用属性值。接下来让我们逐渐的深入其配置。基本的使用方法是：(1) <bean id="propertyConfigurerForWZ&q
二叉树:二叉搜索树 dieslrae 二叉树
所谓二叉树,就是一个节点最多只能有两个子节点,而二叉搜索树就是一个经典并简单的二叉树.规则是一个节点的左子节点一定比自己小,右子节点一定大于等于自己(当然也可以反过来).在树基本平衡的时候插入,搜索和删除速度都很快,时间复杂度为O(logN).但是,如果插入的是有序的数据,那效率就会变成O(N),在这个时候,树其实变成了一个链表. tree代码:
C语言字符串函数大全 dcj3sjt126com c function
C语言字符串函数大全函数名: stpcpy 功能: 拷贝一个字符串到另一个用法: char *stpcpy(char *destin, char *source); 程序例: #include <stdio.h> #include <string.h> int main
友盟统计页面技巧 dcj3sjt126com 技巧
在基类调用就可以了, 基类ViewController示例代码 -(void)viewWillAppear:(BOOL)animated { [super viewWillAppear:animated]; [MobClick beginLogPageView:[NSString stringWithFormat:@"%@",self.class]];
window下在同一台机器上安装多个版本jdk，修改环境变量不生效问题处理办法 flyvszhb java jdk
window下在同一台机器上安装多个版本jdk，修改环境变量不生效问题处理办法本机已经安装了jdk1.7，而比较早期的项目需要依赖jdk1.6，于是同时在本机安装了jdk1.6和jdk1.7. 安装jdk1.6前，执行java -version得到 C:\Users\liuxiang2>java -version java version "1.7.0_21&quo
Java在创建子类对象的同时会不会创建父类对象 happyqing java 创建子类对象父类对象
1.在thingking in java 的第四版第六章中明确的说了，子类对象中封装了父类对象， 2."When you create an object of the derived class, it contains within it a subobject of the base class. This subobject is the sam
跟我学spring3 目录贴及电子书下载 jinnianshilongnian spring
一、《跟我学spring3》电子书下载地址：《跟我学spring3》（1-7 和 8-13） http://jinnianshilongnian.iteye.com/blog/pdf 跟我学spring3系列 word原版下载二、源代码下载最新依
第12章 Ajax（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BI and EIM 4.0 at a glance blueoxygen BO
http://www.sap.com/corporate-en/press.epx?PressID=14787 有机会研究下EIM家族的两个新产品~~~~ New features of the 4.0 releases of BI and EIM solutions include: Real-time in-memory computing –
Java线程中yield与join方法的区别 tomcat_oracle java
长期以来，多线程问题颇为受到面试官的青睐。虽然我个人认为我们当中很少有人能真正获得机会开发复杂的多线程应用(在过去的七年中，我得到了一个机会)，但是理解多线程对增加你的信心很有用。之前，我讨论了一个wait()和sleep()方法区别的问题，这一次，我将会讨论join()和yield()方法的区别。坦白的说，实际上我并没有用过其中任何一个方法，所以，如果你感觉有不恰当的地方，请提出讨论。 &nb
android Manifest.xml选项阿尔萨斯 Manifest
结构继承关系 public final class Manifest extends Objectjava.lang.Objectandroid.Manifest 内部类 class Manifest.permission权限 class Manifest.permission_group权限组构造函数 public Manifest () 详细 androi
Oracle实现类split函数的方 zhaoshijie oracle
关键字：Oracle实现类split函数的方项目里需要保存结构数据，批量传到后他进行保存，为了减小数据量，子集拼装的格式，使用存储过程进行保存。保存的过程中需要对数据解析。但是oracle没有Java中split类似的函数。从网上找了一个，也补全了一下。 CREATE OR REPLACE TYPE t_split_100 IS TABLE OF VARCHAR2(100); cr