twilight_cc

NLP概述

NLP概述

自然语言处理介绍

NLP经典应用场景
问答系统案例-智能客服系统
nlp技术纬度

1 word segmentation（分词）
2 spell correction（拼写纠错）
3 filtering words（停用词过滤）
4 词的标准化
5 文本的表示（词向量化）
6 sentence similarity（距离相似度）
7 倒排表
8 语言模型
9 评估语言模型
10 平滑方法
11 生成语言模型

自然语言处理介绍

什么是nlp?
nlu(understanding)+nlg(generation)

nlp面临的挑战
一词多义

NLP经典应用场景

问答系统
基于检索的方法[知识库]
情感分析
股票价格预测舆情监控产品评论事件监测
机器翻译
seq2seq
自动提取摘要
聊天机器人
闲聊型（eq2seq）
问题导向型（意图识别）
信息抽取
从非结构化文本中提取感兴趣点
事件检测
知识图谱，三元组
命名实体识别…

问答系统案例-智能客服系统

语料库（knowledge base）Q&A
根据用户输入查找语料库中与其相似度最高的问题

pipeline:分词->清洗->标准化(stemming,lemmazation)->特征提取->建模(相似度算法，分类算法)->评估
返回相应问题的答案

nlp技术纬度

声音*（phonetics）
单词（morphology）
单词层面的技术：分词，pos(词性)，NER(命名实体识别)
句子结构（syntax）
句法分析（依赖语言）(词性)，依存分析（单词联系）
语义（semantic）

1 word segmentation（分词）

1.1 最大匹配方法
最大匹配算法是自然语言处理中的中文匹配算法中最基础的算法，分为前向匹配和后向匹配。

（1）前向最大匹配（forward-max matching）

max_length=5（假设）
词典
[“我们”，“经常”,“有”,“有意见”,“意见”,“分歧”]
例子：我们经常有意见分歧
step1：word=“我们经常有”，不在词典中，去掉最后一个"有","我们经常"不在词典中，去掉最后一个常…,得到"我们"在词典中，获得第一个分词[“我们”]
step2: word=“经常有意见”，不在词典中，从后面去掉一个词…,得到"经常"在词典中，获得分词结果[“我们”，“经常”]
…
最后获得的分词结果[我们|经常|有意见|分歧]

（2）后向最大匹配（backward-max matching）

例子：我们经常有意见分歧
step1: word=“有意见分歧”，不在词典中，去掉第一个"有"…，获得第一个分词[“分歧”]
step2: word=“经常有意见”，不在词典中，去掉第一个"经"…，获得分词[“有意见”，“分歧”]
…
最后获得的分词结果[我们|经常|有意见|分歧]

最大匹配的缺点:

依赖于词典，不能做词细分
局部最优（属于贪心算法）
效率不高（取决于max_length）
有歧义（不能考虑语义）

1.2 语言模型（考虑语义）

输入句子->生成所有可能的分割->利用语言模型，选择其中最好的

语言模型的缺点：

分词方法分两步进行（分割->计算unigram概率），时间复杂度很高

1.3 Viterbi算法(DP算法)

例子：“经常有意见分歧”
词典：[“经常”,“经”,“有”,“有意见”,“意见”,“分歧”,“见”,“意”,“见分歧”,“分”]
概率：[0.1,0.05,0.1,0.1,0.2,0.2,0.05,0.05,0.05,0.1]
-log(x):[2.3,3,2.3,2.3,1.6,1.6,3,3,3,2.3]

2 spell correction（拼写纠错）

最小编辑距离(DP算法)

insert/delete/replace
therr-> there/their
输入->从词典遍历所有词与输入的编辑距离，找到最小的-> 返回

缺点：从词典里循环所有词，时间复杂度很高

改进：输入->生成编辑距离为1，2的字符串->过滤->返回

给定一个字符串s,找出最有可能成为正确的字符串c
$argmax_{c\in candidates }p(c|s)=argmax_{c\in candidates }p(s|c)p(c)/p(s)$
p(s|c):对于一个正确的字符串，有多少人写成了s
p( c) : 所有文本中，单词c出现的概率（unigram probablity）

3 filtering words（停用词过滤）

对于NLP的应用，我们通常先把停用词/出现频率很低的词汇过滤掉,类似于特征选择的过程

停用词：‘the’,‘an’,‘their’,但是，也要考虑自己的使用场景
可以先用现有的停用词库，根据自己的场景，删掉不能使用的停用词，附加额外的停用词

4 词的标准化

4.1 stemming

通过定义后缀规则 sses->ss,ies->i
went,go,going->go(还原的词不一定是有效的单词)

4.2 lemmazaiton

还原后的词是有效单词

5 文本的表示（词向量化）

5.1 one-hot【向量的大小与词典大小相等】
任何两个词向量的内积都为0，不能表达相似度
产生的是稀疏向量sparsity

向量表达单词

词典：[我们，去，爬山，今天，你们，昨天，跑步]
按照单词在词典库中的顺序
我们：(1,0,0,0,0,0,0)->7维=|词典|
爬山：(0,0,1,0,0,0,0)
跑步：(0,0,0,0,0,0,1)
昨天：(0,0,0,0,0,1,0)

向量表达句子

boolean represention(不关心单词频率)

词典：[我们，又，去，爬山，今天，你们，昨天，跑步]
按照单词在词典库中的顺序
我们|今天|去|爬山：(1,0,1,1,1,0,0,0)->8维=|词典|
你们|昨天|跑步：(0,0,0,0,0,1,1,1)
你们|又|去|爬山|又|去|跑步：(0,1,1,1,0,1,0,1)

count based represention(记录单词频率)

词典：[我们，又，去，爬山，今天，你们，昨天，跑步]
按照单词在词典库中的顺序
我们|今天|去|爬山：(1,0,1,1,1,0,0,0)->8维=|词典|
你们|昨天|跑步：(0,0,0,0,0,1,1,1)
你们|又|去|爬山|又|去|跑步：(0,2,2,1,0,1,0,1)

tf-idf

$t f i d f (w) = t f (d, w) * i d f (w)$
其中tf(d,w):文档d中w的词频(count based)
idf(w)=log(N\N(w))(在很多文档中出现的单词，idf(w)值越小，重要性不大)
N:语料库中的文档总数
N(w):词w出现在多少个文档中

词典：[今天,上,NLP,课程,的,有,意思,数据,也]
s1:今天|上|NLP|课程->[1log(3\2),1log(3\1),1log(3\1),1log(3\3),0,0,0,0,0]
s2:今天|的|课程|有|意思->[1log(3\2),0,0,1log(3/3),1log(3\1),1log(3\2),1log(3\2),0,0]
s3:数据|课程|也|有|意思->[0,0,0,1log(3\3),0,1log(3\2),1log(3\2),1log(3\1),1log(3\1)]

5.2 词嵌入

针对于单词的表征，长度自定义（100～300），可以理解为从某些独立的维度上表示一个单词，可以表达词与词之间的相似性，可以用来做类比推理,通过相似度测量 $sim(e_{king}-e_{man}+e_{woman},e_{w})$ ,得到
$e_{man}-e_{woman} \approx e_{king}-e_{queen}$
$man\rightarrow woman$
$king\rightarrow queen$

词向量可以从某种意义上理解为代表单词的意思,（可从可视化进行表征t-SNE）

向量里每个值都是非0值
king：[-0.95,0.5,-0.05,0.2]

学习词向量
输入（string(10^9~1010个字符)）-> 模型（skip-gram/glove/cbow/rnn/lstm/mf/gaussian enbedding）->词向量

6 sentence similarity（距离相似度）

欧式距离

d = |s1-s2|
同一词典句子的长度相同

余弦相似度

$d = s 1 s 2 / (∣ s 1 ∣ ∣ s 2 ∣)$
d(s1,s2)=0

缺点: 只从出现频率来表示单词/句子，距离计算时，频次高的单词对结果影响较大，实际的语义分析时，并不是出现频率越高就越重要

7 倒排表

时间复杂度很高的问题，采用层层过滤的思想，将一个复杂度很高的操作变为多个复杂度低的操作的加和

8 语言模型

8.1 noisy channel model

p(text|source) ~ p(source|text)p(text)[语言模型]

应用场景（信号->文本）：
语音识别
机器翻译
拼写纠错
OCR
密码破解

8.2 language model

用来判断一句话从语法上是否通顺

chain rule

p(A,B,C,D)= p(A)P(B|A)P(C|AB)P(D|ABC)

条件概率计算:统计条件出现的概率（存在稀疏性的问题）

markov assumption

p(休息|今天，是，春节，我们，都)~p(休息|都)[1st order markov assumption]
p(休息|今天，是，春节，我们，都)~p(休息|我们，都)[2nd order markov assumption]
p(休息|今天，是，春节，我们，都)~p(休息|春节，我们，都)[3rd order markov assumption]

unigram

p(今天，是，春节，我们，都，休息)=p(今天)p(是)p(春节)p(我们)p(都)p(休息)
p(今天，春节,是，我们，都，休息)=p(今天)p(是)p(春节)p(我们)p(都)p(休息)
[存在缺陷]

bigram

p(今天，是，春节，我们，都，休息)=p(今天)p(是|今天)p(春节|是)p(我们|春节)p(都|我们)p(休息|都)

N-gram

9 评估语言模型

不依赖于任务

基于填空的思路,将训练好的语言模型应用在语料库中计算概率结果
今天—logp1
今天天气-logp2
今天天气很好-logp3
今天天气很好，适合-logp4
今天天气很好，适合出去-logp5
今天天气很好，适合出去运动logp6

perplexity

$perplexity=2^{-(x)},x:average\ log\ likelihood$

10 平滑方法

add one smoothing

$p_{MLE}(w_i|w_{i-1})=\frac{c(w_{i-1},w_i)}{c(w_{i-1})}$
$p_{add-1}(w_i|w_{i-1})=\frac{c(w_{i-1},w_i)+1}{c(w_{i-1})+V}$
V:词典库大小

add k smoothing

$p_{add-k}(w_i|w_{i-1})=\frac{c(w_{i-1},w_i)+k}{c(w_{i-1})+kV}$
k:超参数，可调
将训练好的语言模型应用于验证集语料库，得到perplexity=f(k),求k使f(k)最小

interpolation

在计算trigram概率时，同时考虑unigram,bigram,trigram出现的频次
$p(w_n|w_{n-1},w_{n-2})=\lambda_1p(w_n|w_{n-1},w_{n-2})+\lambda_2p(w_n|w_{n-1})+\lambda_3p(w_n)$
$\lambda_1+\lambda_2+\lambda_3=1$

good-turning smoothing

$N_c$ 出现了c次的单词的个数

没有出现过的单词
$p_{MLE}=0$
$p_{GT}=\frac{N_1}{N}$
出现过的单词
$p_{MLE}=\frac{c}{N}$
$p_{GT}=\frac{(c+1)N_{c+1}}{N_cN}$

假设你在钓鱼，已经抓到了18只鱼：10条鲤鱼，3条黑鱼，2条刀鱼，1条鲨鱼，1条草鱼，1条鳗鱼
没有出现过的：
p_{MLE}(飞鱼)=0
p_{GT}(飞鱼)=3/18
出现过的：
p_{MLE}(草鱼)=1/18
p_{GT}(草鱼)=(1+1)x1/(3x18)
一般情况下：p_{GT}

gt缺点： p计算依赖于 $N_{c+1}$ ，有可能是缺失值

解决方案： 采用算法进行 $N_{c+1}$ 缺失值填补

11 生成语言模型

图片、音乐、文本、编程

生成句子

首先根据语料库训练语言模型
voc:[NLP(0.1),I(0.3),like(0.2),studying(0.2),course(0.35),yesterday(0.05)]

根据语言模型采样生成句子
unigram:随机选择生成，语序不太合理
bigram:随机生成第一个单词，根据概率矩阵[包含终止符号，作为采样终止条件]，选择概率大的作为后面要生成的单词

你可能感兴趣的:(NLP)

【好书分享第十期】大模型应用解决方案_基于ChatGPT和GPT-4等Transformer架构的自然语言处理（文末送书）屿小夏书籍推荐 chatgpt transformer 架构大模型 AI
文章目录前言一、内容简介二、作者简介三、目录四、摘录粉丝福利前言在不到4年的时间里，Transformer模型以其强大的性能和创新的思想，迅速在NLP社区崭露头角，打破了过去30年的记录。BERT、T5和GPT等模型现在已成为计算机视觉、语音识别、翻译、蛋白质测序、编码等各个领域中新应用的基础构件。因此，斯坦福大学最近提出了“基础模型”这个术语，用于定义基于巨型预训练Transformer的一系列
【Python机器学习】NLP分词——利用分词器构建词汇表（三）——度量词袋之间的重合度 zhangbin_237 Python机器学习机器学习自然语言处理人工智能 python 开发语言
如果能够度量两个向量词袋之间的重合度，就可以很好地估计他们所用词的相似程度，而这也是它们语义上重合度的一个很好的估计。因此，下面用点积来估计一些新句子和原始的Jefferson句子之间的词袋向量重合度：importpandasaspdsentence="""ThomasJeffersonBeganbulidingMonticelliastheageof26.\n"""sentence=senten
【Python机器学习】NLP概述——深度处理 zhangbin_237 Python机器学习 python 机器学习自然语言处理人工智能机器人
自然语言处理流水线的各个阶段可以看作是层，就像是前馈神经网络中的层一样。深度学习就是通过在传统的两层机器学习模型架构（特征提取+建模）中添加额外的处理层来创建更复杂的模型和行为。上图中，前四层对应于聊天机器人流水线中的前两个阶段（特征提取和特征分析）。例如，词性标注（POS标注）是在聊天机器人流水线的分析阶段生成特征的一种方法。POS标签由默认的SpaCY流水线自动生成，该流水线包括上图中所有的前
【Python机器学习】NLP分词——词干还原的挑战 zhangbin_237 Python机器学习自然语言处理人工智能机器学习 python 开发语言
要想使用自然语言处理的相关应用，第一件事就是需要一个强大的词汇表。我们要把文档或任何字符串拆分为离散的有意义的词条，这里说的词条仅限于词、标点符号和数值，但是这里使用的技术可以很容易推广到字符序列包含的任何其他有意义的单元，比如ASCII表情符号、Unicode表情符号和数学符号。从文档中检索词条需要一些字符串处理方法，这些方法不仅仅是str.split()，处理时需要把标点符号与词分开，还需要将
NLP化学反应式福哥0075826
我只能承认，这样子理解NLP的人一定是个奇葩。对，我必须承认自己是个奇葩。因为以前的我总认为这世界很奇葩，所以我也只能变成个奇葩才能适应它……呃，Whatonearth我奇葩吗？好了，言归正传，NLP和化学有什么关系吗？我觉得有，或者说最起码它俩在识别标准上是比较相似的。初中的化学老师为了帮助我区分化学和物理的区别，曾经和我说过，看一个反应过程到底是属于化学反应还是物理变化，关键在于看它的结果是否
常见的NLP处理框架介绍！ weixin_54503231 自然语言处理人工智能
自然语言处理（NLP）处理框架是指一系列用于开发、实现和部署自然语言处理应用程序的工具、库和框架。以下是一些主要的NLP处理框架的介绍：一、NLTK（NaturalLanguageToolkit）概述：NLTK是Python编程语言中最著名的NLP库之一，由StevenBird、EwanKlein和EdwardLoper等人开发。它提供了丰富的资源，包括文本处理、语料库、分类、标记、解析、语义推理
NLP学习——信息抽取 P-ShineBeam NLP基础学习
信息抽取自动从半结构或无结构的文本中抽取出结构化信息的任务。常见的信息抽取任务有三类：实体抽取、关系抽取、事件抽取。1、实体抽取从一段文本中抽取出文本内容并识别为预定义的类别。实体抽取任务中的复杂问题：重复嵌套，原文中多个实体之间共享片段不连续，一个实体由多个不连续片段组成2、关系抽取从文本中抽取一对实体和预定义的关系类型。传统的关系抽取任务实现方案是先进行实体抽取，再输入头尾实体与原文进行关系分
Prompt-Tuning：大模型微调技术百度_开发者中心 prompt 自然语言处理大模型
随着深度学习技术的不断发展，大模型（如GPT、BERT等）在各种自然语言处理（NLP）任务中取得了显著的成功。然而，训练和部署大模型需要大量的计算资源和时间，这限制了其在一些资源有限场景中的应用。为了解决这个问题，研究人员提出了各种大模型微调技术，以减少模型的大小和计算复杂度，同时保持模型的性能。本文将重点介绍一些常见的大模型微调技术，包括Adapter-Tuning、Prefix-Tuning、
喝了那么多鸡汤，你知道哪一碗有毒吗？ b66c6f1f6d41
最近刚学了一句话：“管好自己是神，管别人是神经病！”因为这句话我做出了很大改变，不再想去改变任何一个人，从改变自己做起。虽然曾经我也学过NLP里一句话：“一个人不能改变另一个人。”在此之后我也一直在做出改变，不再去强势的想要改变别人，可是最近我却被文章开始的这句话迷失自我。很纠结的原因是，我的工作是保险代理人，这份工作其实在没有保险观念的客户面前，我都在想着怎么去与他们交流，让他们放心的购买保险，
从零开始大模型开发与微调：有趣的词嵌入 AGI通用人工智能之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
从零开始大模型开发与微调：有趣的词嵌入作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来自然语言处理（NLP）领域近年来取得了飞速发展，尤其是在预训练语言模型（Pre-trainedLanguageModels，简称PLMs）方面。从最初的词袋模型、隐语义模型，到如今的Transformer模型，PLMs在NLP任务中取得了
【Python机器学习】NLP概述——自然语言智商 zhangbin_237 Python机器学习机器学习自然语言处理人工智能 python 机器人
就像人类的智能一样，如果不考虑多个智能维度，单凭一个智商分数是无法轻易衡量NLP流水线的能力的。衡量机器人系统能力的一种常见方法是：根据系统行为的复杂性和所需的人类监督成都这两个维度来衡量。但是对自然语言处理流水线而言，其目标是建立一个完全自动化的自然语言处理系统，会消除所有的人工监督（一旦模型被训练和部署）。因此，一对更好的IQ维度应该能捕捉到自然语言流水线复杂的广度和深度。像Alexa或All
《人工智能与自然语言处理：开启智能交流新时代》程序猿阿伟人工智能自然语言处理
在当今科技迅猛发展的时代，人工智能已经成为了各个领域的热门话题。其中，自然语言处理（NaturalLanguageProcessing，简称NLP）作为人工智能的一个重要分支，正逐渐改变着我们与计算机交互的方式。那么，人工智能究竟是如何进行自然语言处理的呢？一、自然语言处理的基本概念自然语言处理是指让计算机理解、生成和处理人类语言的技术。它涉及到语言学、计算机科学、数学等多个学科领域，旨在使计算机
深度学习--复制机制 Ambition_LAO 深度学习
复制机制（CopyMechanism）是自然语言处理（NLP）中特别是在文本生成任务中（如机器翻译、摘要生成等）使用的一种技术。它允许模型在生成输出时不仅仅依赖于其词汇表中的单词，还可以从输入文本中“复制”单词到输出文本中。这种机制非常有用，尤其是在处理未见过的词汇或专有名词时。1.概念复制机制的基本思想是，在生成每个输出单词时，模型不仅从其词汇表中选择一个词，还可能直接从输入序列中复制一个词。这
python通过Gurobi求解线性规划 vibag 数学建模 python 算法
文章目录GurobiGurobi中主要的变量类型Gurobi使用基本步骤求解线性规划模型代码实现GurobiGurobi是一款强大的商业数学规划求解器，用于解决线性规划（LP）、整数规划（IP）、混合整数规划（MIP）、二次规划（QP）、非线性规划（NLP）等各种优化问题。它具有高效的求解算法、丰富的功能和友好的用户界面，被广泛应用于学术界和工业界。Gurobi采用了最先进的优化算法和技术，具有出
将遍历出的结果字符串装在列表月夜星空下
fromKeyword_extractionimportThe_original_titleKey_word=[]foriinThe_original_title:fromdtl_nlpimportmax_length_wordsll=max_length_words(i)Key_word.append(ll)keyword_all=Key_wordprint(keyword_all)
阿里云力夺 FewCLUE 榜首！知识融入预训练+小样本学习的实战解析阿里云技术自然语言处理机器学习
一概述7月8日，中文语言理解权威评测基准CLUE公开了中文小样本学习评测榜单最新结果，阿里云计算平台PAI团队携手达摩院智能对话与服务技术团队，在大模型和无参数限制模型双赛道总成绩第一名，决赛答辩总成绩第一名。中文语言理解权威评测基准CLUE自成立以来发布了多项NLP评测基准，包括分类榜单，阅读理解榜单和自然语言推断榜单等，在学术界、工业界产生了深远影响。其中，FewCLUE是CLUE最新推出的一
人工智能领域--RAG技术胡萝卜不甜机器学习人工智能 python 学习算法
今天带大家来学习一下RAG技术，尤其在在大模型中应用广泛。一.RAG（RetrievalAugmentedGeneration）检索增强生成RAG，即Retrieval-AugmentedGeneration（检索增强的生成），是一种结合了检索（Retrieval）和生成（Generation）机制的人工智能技术，常用于提升自然语言处理（NLP）任务的性能，尤其是在问答系统、文本摘要、对话系统等领
【ShuQiHere】“从 One-Hot 到 GPT：窥探词表示技术的演变” ShuQiHere gpt 神经网络机器学习人工智能
【ShuQiHere】在自然语言处理（NLP）领域，如何让机器理解人类语言一直是一个核心问题。而词表示（WordRepresentation）正是解决这个问题的基础技术。通过词表示，我们可以将文本中的词语转化为计算机能够理解和处理的数字向量，这为各种NLP任务，如文本分类、情感分析、机器翻译等，提供了强大的支持。从最早的One-Hot编码，到如今广泛应用的上下文相关词嵌入技术，词表示技术已经走过了
用 Unsloth 微调 LLaMA 3 8B liugddx AI 微调大模型 llama
用Unsloth微调LLaMA38B今年4月份，Meta公司发布了功能强大的大型语言模型（LLM）Llama-3，为从事各种NLP任务的开发人员提供了功能强大可以在普通机器上运行的开源LLM。然而，传统的LLM微调过程既耗时又耗费资源。但是，Unsloth的出现改变了这一局面，大大加快了Llama-3的微调速度。本文将探讨Unsloth如何帮助您以极高的速度和效率，根据具体需求对Llama-3进行
探索Ruby的自然语言处理宝库：文本魔法的艺术 2401_85743969 ruby 自然语言处理开发语言
标题：探索Ruby的自然语言处理宝库：文本魔法的艺术在人工智能的浪潮中，自然语言处理（NLP）成为了连接人类语言与机器理解的桥梁。Ruby，作为一种优雅而富有表现力的编程语言，拥有一系列强大的NLP库，它们使得文本分析、情感分析、机器翻译等任务变得简单而高效。本文将深入探索Ruby世界中的一些顶尖NLP库，并展示如何使用这些工具来执行实际的NLP任务。RubyNLP库的魔力Ruby的自然语言处理库
23 注意力机制—BERT Unknown To Known 动手学习深度学习 bert 人工智能深度学习
目录BERT预训练NLP里的迁移学习BERTBERT动机BERT预训练NLP里的迁移学习在计算机视觉中比较流行，将ImageNet或者更大的数据集上预训练好的模型应用到其他任务中，比如小数据的预测、图片分类或者是目标检测使用预训练好的模型（例如word2vec或语言模型）来抽取词、句子的特征做迁移学习的时候，一般不更新预训练好的模型在更换任务之后，还是需要构建新的网络来抓取新任务需要的信息使用预训
【2025校招】4399 NLP算法工程师笔试题 Iareges 秋招笔面试汇总自然语言处理算法面试秋招面经求职招聘笔试
目录1.第一题2.第二题3.第三题⏰时间：2024/08/19输入输出：ACM格式⏳时长：2h本试卷分为单选，自我评价题，编程题单选和自我评价这里不再介绍，4399的编程题一如既往地抽象，明明是NLP岗位的笔试题，却考了OpenCV相关的知识。btw，跟网友讨论了下，4399似乎不同时间节点的笔试题是一样的？？？1.第一题第一题是LC原题：441.排列硬币，题目和题解请前往LC查看。2.第二题题目
自然语言处理NLP之中文分词和词性标注陈敬雷-充电了么-CEO兼CTO 自然语言处理
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《自然语言处理原理与实战》（人工智能科学与技术丛书）【陈敬雷编著】【清华大学出版社】文章目录一、Python第三方库jieba（中文分词、词性标注）特点二、jieba中文分词的安装关键词抽取基于TF-IDF算法TF-IDF原理介绍基于TextRank算法的关键词抽取textRank算法原理介绍总结一、Python第三方库jieba
Google BERT 算法全面分析云点SEO 外贸推广谷歌优化谷歌SEO 算法百度 python 机器学习 java
2019年10月谷歌宣布启用GoogleBERT作为谷歌算法的一部分，这将影响10%的检索。并且谷歌五年来最重要的一次算法更新，本文是针对GoogleBERT算法的全面讲解。一、什么是BERT算法BERT全称是BidirectionalEncoderRepresentationsfromTransformers，BERT算法诞生于2018年，从当时开始就引起了AI界尤其是NLP（自然语言处理）界的
paddle nlp 3.0 全面拥抱开源大模型路人与大师 paddle 自然语言处理开源
首先安装神圣的飞桨自然语言处理框架3.0pipinstall--upgradepaddlenlp==3.0.0b0阿里云通义千问（Qwen2）系列大模型介绍阿里云通义千问（Qwen2）是阿里云推出的一系列先进的大型语言模型，涵盖了从轻量级到超大规模的各种模型，包括混合专家模型（Mixture-of-Experts,MoE）。Qwen2系列在多个自然语言处理任务上展现了卓越的性能，并且在一些基准测试
7个使用大语言模型的最佳情绪分析 API 幂简集成语言模型人工智能自然语言处理 API
您是否有兴趣开发能够智能跟踪受访者对某些话题感受的工具？或者是监控客户在所有社交媒体上对新产品的感受的工具？或者分析来电者对与特定座席互动的感受？由高级人工智能模型驱动的情感分析可以提供帮助。在本篇文章中，我们将更深入地探讨什么是情感分析、情感分析的工作原理、当前模式、用例、执行情感分析时使用的最佳API以及当前的一些局限性。什么是情感分析？在自然语言处理（NLP）中，情感分析是指使用人工智能（A
小琳AI课堂：Llama——NLP界的多面手小琳ai 小琳AI课堂人工智能 llama 自然语言处理
Llama:NLP界的多面手引言：大家好，这里是小琳AI课堂。今天，我们要探索的是自然语言处理（NLP）领域的一位明星——Llama。Llama，由MetaAI（原FacebookAI）开发，以其轻量级、高效和易用性著称，是处理快速、灵活文本需求的理想选择。核心功能：Llama提供了一系列NLP工具，包括词性标注、句法分析、命名实体识别等，帮助开发者深入理解和处理自然语言文本。语言支持：Llama
深入解析Doctran：使用AI和NLP优化文本处理 qq_37836323 人工智能自然语言处理 python
深入解析Doctran：使用AI和NLP优化文本处理引言在当今数据驱动的世界中，高效处理和分析大量文本信息变得至关重要。Doctran作为一个强大的Python包，结合了大型语言模型（LLMs）和开源自然语言处理（NLP）库的优势，为开发者提供了一个强大的工具，用于将原始文本转换为结构化、信息密集且优化的文档。本文将深入探讨Doctran的功能、使用方法以及它如何改变文本处理的游戏规则。Doctr
【Python机器学习】NLP概述——聊天机器人的自然语言流水线 zhangbin_237 Python机器学习自然语言处理机器人人工智能 python 机器学习
构建对话引擎或者聊天机器人所需的NLP流水线类似于某些问答系统。聊天机器人需要4个处理阶段和一个数据库来维护过去语句和回复的记录。这4个处理阶段中的每个阶段都可以包含一个或多个并行或串行工作的处理算法。如下图所示：1、解析：从自然语言文本中提取特征、结构化数值数；2、分析：通过对文本的情感、语法合法度及语义打分，生成和组合特征；3、生成：使用模板、搜索或语言模型生成可能的回复；4、执行：根据对话历
Datawhale AI夏令营第四期魔搭- AIGC文生图方向 task03笔记汪贤阳人工智能 AIGC 笔记
如何学习八图ai模型kolors1,Kolors是由快手公司开源的第三代文本到图像生成模型，基于StableDiffusion框架开发。它支持中英文输入，特别在中文内容的理解和生成上表现出色。2,深度学习基础：熟悉神经网络、卷积神经网络（CNN）、Transformer等深度学习模型的基本原理。自然语言处理（NLP）：了解文本编码、语言模型等NLP技术，因为Kolors在生成图像时需要理解并处理输
java的(PO,VO,TO,BO,DAO,POJO) Cb123456 VO TO BO POJO DAO
转: http://www.cnblogs.com/yxnchinahlj/archive/2012/02/24/2366110.html ------------------------------------------------------------------- O/R Mapping 是 Object Relational Mapping（对象关系映
spring ioc原理（看完后大家可以自己写一个spring） aijuans spring
最近，买了本Spring入门书：spring In Action 。大致浏览了下感觉还不错。就是入门了点。Manning的书还是不错的，我虽然不像哪些只看Manning书的人那样专注于Manning,但怀着崇敬的心情和激情通览了一遍。又一次接受了IOC 、DI、AOP等Spring核心概念。先就IOC和DI谈一点我的看法。IO
MyEclipse 2014中Customize Persperctive设置无效的解决方法 Kai_Ge MyEclipse2014
高高兴兴下载个MyEclipse2014，发现工具条上多了个手机开发的按钮，心生不爽就想弄掉他！结果发现Customize Persperctive失效！！有说更新下就好了，可是国内Myeclipse访问不了，何谈更新... so~这里提供了更新后的一下jar包，给大家使用！ 1、将9个jar复制到myeclipse安装目录\plugins中 2、删除和这9个jar同包名但是版本号较
SpringMvc上传 120153216 springMVC
@RequestMapping(value = WebUrlConstant.UPLOADFILE) @ResponseBody public Map<String, Object> uploadFile(HttpServletRequest request,HttpServletResponse httpresponse) { try { //
Javascript----HTML DOM 事件何必如此 JavaScript html Web
HTML DOM 事件允许Javascript在HTML文档元素中注册不同事件处理程序。事件通常与函数结合使用，函数不会在事件发生前被执行！注：DOM：指明使用的 DOM 属性级别。 1.鼠标事件属性
动态绑定和删除onclick事件 357029540 JavaScript jquery
因为对JQUERY和JS的动态绑定事件的不熟悉，今天花了好久的时间才把动态绑定和删除onclick事件搞定!现在分享下我的过程。在我的查询页面，我将我的onclick事件绑定到了tr标签上同时传入当前行(this值)参数，这样可以在点击行上的任意地方时可以选中checkbox，但是在我的某一列上也有一个onclick事件是用于下载附件的，当
HttpClient|HttpClient请求详解 7454103 apache 应用服务器网络协议网络应用 Security
HttpClient 是 Apache Jakarta Common 下的子项目，可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包，并且它支持 HTTP 协议最新的版本和建议。本文首先介绍 HTTPClient，然后根据作者实际工作经验给出了一些常见问题的解决方法。HTTP 协议可能是现在 Internet 上使用得最多、最重要的协议了，越来越多的 Java 应用程序需
递归逐层统计树形结构数据 darkranger 数据结构
将集合递归获取树形结构: /** * * 递归获取数据 * @param alist:所有分类 * @param subjname:对应统计的项目名称 * @param pk:对应项目主键 * @param reportList: 最后统计的结果集 * @param count:项目级别 */ public void getReportVO(Arr
访问WEB-INF下使用frameset标签页面出错的原因 aijuans struts2
<frameset rows="61,*,24" cols="*" framespacing="0" frameborder="no" border="0">
MAVEN常用命令 avords
Maven库： http://repo2.maven.org/maven2/ Maven依赖查询： http://mvnrepository.com/ Maven常用命令： 1. 创建Maven的普通java项目： mvn archetype:create -DgroupId=packageName
PHP如果自带一个小型的web服务器就好了 houxinyou apache 应用服务器 Web PHP 脚本
最近单位用PHP做网站，感觉PHP挺好的，不过有一些地方不太习惯，比如，环境搭建。PHP本身就是一个网站后台脚本，但用PHP做程序时还要下载apache，配置起来也不太很方便，虽然有好多配置好的apache+php+mysq的环境，但用起来总是心里不太舒服，因为我要的只是一个开发环境，如果是真实的运行环境，下个apahe也无所谓，但只是一个开发环境，总有一种杀鸡用牛刀的感觉。如果php自己的程序中
NoSQL数据库之Redis数据库管理(list类型) bijian1013 redis 数据库 NoSQL
3.list类型及操作 List是一个链表结构，主要功能是push、pop、获取一个范围的所有值等等，操作key理解为链表的名字。Redis的list类型其实就是一个每个子元素都是string类型的双向链表。我们可以通过push、pop操作从链表的头部或者尾部添加删除元素，这样list既可以作为栈，又可以作为队列。 &nbs
谁在用Hadoop？ bingyingao hadoop 数据挖掘公司应用场景
Hadoop技术的应用已经十分广泛了，而我是最近才开始对它有所了解，它在大数据领域的出色表现也让我产生了兴趣。浏览了他的官网，其中有一个页面专门介绍目前世界上有哪些公司在用Hadoop，这些公司涵盖各行各业，不乏一些大公司如alibaba,ebay,amazon,google,facebook,adobe等，主要用于日志分析、数据挖掘、机器学习、构建索引、业务报表等场景,这更加激发了学习它的热情。
【Spark七十六】Spark计算结果存到MySQL bit1129 mysql
package spark.examples.db import java.sql.{PreparedStatement, Connection, DriverManager} import com.mysql.jdbc.Driver import org.apache.spark.{SparkContext, SparkConf} object SparkMySQLInteg
Scala: JVM上的函数编程 bookjovi scala erlang haskell
说Scala是JVM上的函数编程一点也不为过，Scala把面向对象和函数型编程这两种主流编程范式结合了起来，对于熟悉各种编程范式的人而言Scala并没有带来太多革新的编程思想，scala主要的有点在于Java庞大的package优势，这样也就弥补了JVM平台上函数型编程的缺失，MS家.net上已经有了F#，JVM怎么能不跟上呢？对本人而言
jar打成exe bro_feng java jar exe
今天要把jar包打成exe，jsmooth和exe4j都用了。遇见几个问题。记录一下。两个软件都很好使，网上都有图片教程，都挺不错。首先肯定是要用自己的jre的，不然不能通用，其次别忘了把需要的lib放到classPath中。困扰我很久的一个问题是，我自己打包成功后，在一个同事的没有装jdk的电脑上运行，就是不行，报错jvm.dll为无效的windows映像，如截图最后发现
读《研磨设计模式》-代码笔记-策略模式-Strategy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 策略模式定义了一系列的算法，并将每一个算法封装起来，而且使它们还可以相互替换。策略模式让算法独立于使用它的客户而独立变化简单理解： 1、将不同的策略提炼出一个共同接口。这是容易的，因为不同的策略，只是算法不同，需要传递的参数
cmd命令值cvfM命令 chenyu19891124 cmd
cmd命令还真是强大啊。今天发现jar -cvfM aa.rar @aaalist 就这行命令可以根据aaalist取出相应的文件例如：在d：\workspace\prpall\test.java 有这样一个文件，现在想要将这个文件打成一个包。运行如下命令即可比如在d：\wor
OpenJWeb(1.8) Java Web应用快速开发平台 comsci java 框架 Web 项目管理企业应用
OpenJWeb(1.8) Java Web应用快速开发平台的作者是我们技术联盟的成员，他最近推出了新版本的快速应用开发平台 OpenJWeb(1.8)，我帮他做做宣传 OpenJWeb快速开发平台以快速开发为核心，整合先进的java 开源框架，本着自主开发+应用集成相结合的原则，旨在为政府、企事业单位、软件公司等平台用户提供一个架构透
Python 报错：IndentationError: unexpected indent daizj python tab 空格缩进
IndentationError: unexpected indent 是缩进的问题，也有可能是tab和空格混用啦 Python开发者有意让违反了缩进规则的程序不能通过编译，以此来强制程序员养成良好的编程习惯。并且在Python语言里，缩进而非花括号或者某种关键字，被用于表示语句块的开始和退出。增加缩进表示语句块的开
HttpClient 超时设置 dongwei_6688 httpclient
HttpClient中的超时设置包含两个部分： 1. 建立连接超时，是指在httpclient客户端和服务器端建立连接过程中允许的最大等待时间 2. 读取数据超时，是指在建立连接后，等待读取服务器端的响应数据时允许的最大等待时间在HttpClient 4.x中如下设置： HttpClient httpclient = new DefaultHttpC
小鱼与波浪 dcj3sjt126com
一条小鱼游出水面看蓝天，偶然间遇到了波浪。　　小鱼便与波浪在海面上游戏，随着波浪上下起伏、汹涌前进。　　小鱼在波浪里兴奋得大叫：“你每天都过着这么刺激的生活吗？简直太棒了。”　　波浪说：“岂只每天过这样的生活，几乎每一刻都这么刺激！还有更刺激的，要有潮汐变化，或者狂风暴雨，那才是兴奋得心脏都会跳出来。”　　小鱼说：“真希望我也能变成一个波浪，每天随着风雨、潮汐流动，不知道有多么好！”　　很快，小鱼
Error Code: 1175 You are using safe update mode and you tried to update a table dcj3sjt126com mysql
快速高效用：SET SQL_SAFE_UPDATES = 0；下面的就不要看了！今日用MySQL Workbench进行数据库的管理更新时，执行一个更新的语句碰到以下错误提示： Error Code: 1175 You are using safe update mode and you tried to update a table without a WHERE that
枚举类型详细介绍及方法定义 gaomysion enum javaee
转发 http://developer.51cto.com/art/201107/275031.htm 枚举其实就是一种类型，跟int, char 这种差不多，就是定义变量时限制输入的，你只能够赋enum里面规定的值。建议大家可以看看，这两篇文章，《java枚举类型入门》和《C++的中的结构体和枚举》，供大家参考。枚举类型是JDK5.0的新特征。Sun引进了一个全新的关键字enum
Merge Sorted Array hcx2013 array
Given two sorted integer arrays nums1 and nums2, merge nums2 into nums1 as one sorted array. Note:You may assume that nums1 has enough space (size that is
Expression Language 3.0新特性 jinnianshilongnian el 3.0
Expression Language 3.0表达式语言规范最终版从2013-4-29发布到现在已经非常久的时间了；目前如Tomcat 8、Jetty 9、GlasshFish 4已经支持EL 3.0。新特性包括：如字符串拼接操作符、赋值、分号操作符、对象方法调用、Lambda表达式、静态字段/方法调用、构造器调用、Java8集合操作。目前Glassfish 4/Jetty实现最好，对大多数新特性
超越算法来看待个性化推荐 liyonghui160com 超越算法来看待个性化推荐
一提到个性化推荐，大家一般会想到协同过滤、文本相似等推荐算法，或是更高阶的模型推荐算法，百度的张栋说过，推荐40%取决于UI、30%取决于数据、20%取决于背景知识，虽然本人不是很认同这种比例，但推荐系统中，推荐算法起的作用起的作用是非常有限的。就像任何
写给Javascript初学者的小小建议 pda158 JavaScript
　　一般初学JavaScript的时候最头痛的就是浏览器兼容问题。在Firefox下面好好的代码放到IE就不能显示了，又或者是在IE能正常显示的代码在firefox又报错了。　　如果你正初学JavaScript并有着一样的处境的话建议你：初学JavaScript的时候无视DOM和BOM的兼容性，将更多的时间花在了解语言本身（ECMAScript）。只在特定浏览器编写代码（Chrome/Fi
Java 枚举 ShihLei java enum 枚举
注：文章内容大量借鉴使用网上的资料，可惜没有记录参考地址，只能再传对作者说声抱歉并表示感谢！一基础 1）语法枚举类型只能有私有构造器（这样做可以保证客户代码没有办法新建一个enum的实例）枚举实例必须最先定义 2）特性 &nb
Java SE 6 HotSpot虚拟机的垃圾回收机制 uuhorse java HotSpot GC 垃圾回收 VM
官方资料，关于Java SE 6 HotSpot虚拟机的garbage Collection，非常全，英文。 http://www.oracle.com/technetwork/java/javase/gc-tuning-6-140523.html Java SE 6 HotSpot[tm] Virtual Machine Garbage Collection Tuning &

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他