hxcaifly

【NLP技术】：NLP简单介绍

文章目录

1. 前言
2. 文本预处理

2.1 去噪声
2.2 词汇归一化
2.3 目标标准化

3. 特征工程

3.1 句法分析
3.2 实体提取
3.3 统计特征
3.4 词嵌入（文本向量）

4.NLP的重要任务

4.1 文本分类
4.2 文本匹配/相似度
4.3 指代消除
4.4 其他的NLP问题

5. NLP的相关python引入包

1. 前言

NLP是数据科学领域的一个重要的分支，它包含了以一种高效的方式去分析，理解和从文本里提取信息等重要过程。通过利用NLP及其组件，可以组织大量的文本数据，执行大量的自动化任务，并解决各种问题，比如自动摘要，机器翻译，命名实体识别，关系提取，情感分析，语音识别和主题分割等。

在这之前我需要先讲解下一些将会在文章出现的专业术语：

符号化—将文本转化成特定的计算机可以识别标记的过程。
Tokens—文本中存在的单词和实体
文本目标–一个句子，一个短语，一个单词或者一篇文章

安装NLTK的过程：

安装Pip:

sudo easy_install pip

安装NLTK:

 sudo pip install -U nltk

下载NLTK数据：

import nltk
nltk.download()

2. 文本预处理

由于文本是所有数据中最非结构化的形式，所以存在各种类型的噪音，并且在不进行任何预处理的情况下，不容易分析。清洁和标准化文本，使其无噪声和准备分析的过程称为文本预处理。

这个过程主要由以下三步组成：

去噪声
词汇归一化
目标标准化

2.1 去噪声

只要是和输出没有关系的文本都可以看做噪声。

例如：语言的停用词(is，am, the, of等），URLs, 链接，社交媒体实体，标点符合和行业特定词。这一步主要是移除文本中的噪声因子。

噪声去除的一般方法是编写嘈杂实体的字典，并通过迭代文本对象消除噪声字典中存在的标记。

下面代码python实现的方式：

noise_list=['is','a','this','...']
def _remove_noise(input_text):
    words = input_text.split()
    noise_free_words=[word for word in words if word not in noise_list]
    noise_free_text = " ".join(noise_free_words)
    return noise_free_text

_remove_noise("this is a sample text")
>>> "sample text"

另一种方式是在使用特殊噪声模式时使用正则表达式。我们在前面的一篇文章中详细解释了正则表达式。下面python代码从输入文本中移除正则表达式模式：

 def _remove_regex(input_text, regrex_pattern):
        urls=re.finditer(regex_pattern, input_text)
        for i in urls:
            input_text = re.sub(i.group().strip,'', input_text)
         return input_text
    
    regrex_pattern = "#[\w]*"
    
    
_remove_regex("remove this #hashtag from analytic vidhya", regrex_pattern)
 >>>>"remove this from analytic vidhya"

2.2 词汇归一化

文本噪声的另一种类型是关于单个单词所表现的多个表示。

例如：“play”，“player”，“played",“plays” 和 ”playing"是“play"的多种表示形式。虽然他们的含义不一样，但是上下文中是相似的。这一步就是要把这些各种形式的单词归一化。归一化是具有文本特征工程的关键步骤，因为它将高纬特征（N个不同特征）转化成低维空间（1特征），这是任何ML模型的理想要求。

最常用的归一化方法是：

词干(Steamming)：词干是消除后缀的一个基本的基于规则的过程。（“ing”, “ly”, “es”等）
词元化(Lemmatization)：词元化是一个有组织性的，逐步地获得词根的过程，他利用词汇（单词的词典重要性）和词法分析（词法结构和词法关系）。

下面就是利用NLTK包的词干提取和词元化的python代码：

from nltk.stem.wordnet import WordNetLemmatizer
lem = WordNetLemmatizer()
  
from nltk.stem.porter import PorterStemmer
stem = PorterStemmer()

word = "multiplying"
lem.lemmatize(word, 'v')
>>> "multiply"

stem.stem(word)
>>>"multipli"

2.3 目标标准化

文本数据通常包含不存在于任何标准词汇词典中的词或者短语。这些片段不被搜索引擎和模型所识别。

一些例子是，首字母缩略词，带有附加词的标签和口语哩语。在正则表达式和手工编写的数据字典的帮助下，这种类型的噪声可以被固定。下面的代码使用字典查找方法来替代文中的社交媒体哩语。

look_dict = {'rt':'Retweet','dm':'direct message','awsm':'awesome','luv':'love','...'}

def _look_words(input_text):
    words = input_text.split()
    new_words = []
    for word in words:
        if word.lower() in lookup_dict:
            word = lookup_dict[word.lower()]
        new_words.append(word)
    new_text = " ".join(new_words)
    return new_text

_lookup_words("RT this is a retweeted tweet by me")
>>>> "Retweet this is a tetweeted tweet by me"

从目前为止讨论的三个步骤来看，其他类型的文本预处理包括编码解码噪声，语法检查器和拼写校正等。可以参考：https://www.analyticsvidhya.com/2014/11/text-data-cleaning-steps-python.

3. 特征工程

为了分析预处理的数据，需要将其转化为特征，根据使用情况，文本特征可以使用分类技术（句法分析，实体n-gram，基于单词的特征，统计特征和单词嵌入）来构造。继续阅读来详细了解这些技术。

3.1 句法分析

句法分析包括语法分析和句子排序中单词的分析，他们显示单词之间的关系。依存语法和词性标注是文本句法的重要属性。

依赖树：句子是由缝在一起的单词组成。句子中的词之间的关系是由基本依存语法决定的。依存语法是一类句法分析，涉及两个词之间的非对称二元关系。每一个关系都可以用三元组的形式来表示（主语，谓语和宾语）。考虑这句英文：“Bills on ports and immigration were submitted by Senator Brownback, Republican of Kansas"。依赖树略：

树显示出“submitted" 是整个句子的根，被两棵子树连着（主语和宾语）。每一棵子树又可以看成一棵单独的依赖树。

这种类型的数，当以自定向下的方式递归解析时，给出了语法关系三元组作为输出，它可以被用作许多NLP问题的特征，比如实体智能分析，参与者和实体识别以及文本分类。Python的StanFordCoreNLP和NLTK依赖文法可以用来生成依赖树。

词性标注：除了语法关系外，句子中的每个词也与词性（名词，动词，形容词，副词等）相关。词性定义了句子中单词的用法和功能。这是宾夕法尼亚大学定义的所有可能的词性列表。下面的代码使用NLTK对输入文本执行词性标注（它提供了几种事项方式，默认的感知器标注）。

 from nltk import word_tokenize, pos_tag
 text = "I am learning Natural Language Processing on Analytic Vidhya"
 tokens = word_tokenize(text)
 print pos_tag(tokens)
 >>>[('I','PRP'),('am','VBP'),('learning','VBG'),('Natural','NNP'),('Language',"NNP"),......]

词性标注应用于NLP的几个重要目的如下：

A.词义消歧：有些单词根据用法有多种含义，比如：看下面的两个句子：

please book my flight for Delhi
l am going to read this book in the flight

'book’是在不同语境中使用的，很明显这两种情况下的词性不一样。在句子1中，‘book’是动词，在句子2中，’book’是名词。

B.改进词性特征：一个学习模型可以在使用词作为特征时学习单词的不同上下文，但是如果词性标记与他们相连，那么语境就被保留，从而产生更强烈的特征，例如：

句子：book my flight, I will read this book.

一般的标记：（‘book’,1), (‘my’,1),(‘flight’,1),(‘I’,1),(‘will’,1),(‘read’,1),(‘this’,1)

带有词性的标记：（’book_VB’,1),(‘my_PRP’,1),(“flight_NN”,1),(“I_PRP”,1),(“will_MD”,1),(“read_VB”,1),(“this_DT”,1),(‘book_NN’,1)

C.归一化和词元化：词性标注是把单词归一化和词元化的基础。

D. 有效地停用词移除：词性标准在停用词移除过程中有非常有效的作用。

3.2 实体提取

实体被定义为句子中最重要的块–名词短语，动词短语或者两则。实体检测算法一般是基于规则的句法分析，字典查找，词性标注和依存句法分析的集成模型。实体检测一般在在自动聊天机器人，内容分析器和消费者洞察中看到。

主题建模和命名实体识别是NLP中的两个关键实体检测方法。

A.命名实体识别（NER)

从文本中检测命名实体，比如：人名，位置名称和公司名称等过程称为NER。

名词短语识别：这一步涉及使用依赖句法分析和词性标注提取文本中所有的名词短语。

短语分类：这是所有提取的名词短语分类为各自的类别（位置，名称等）的分类步骤。谷歌地图API提供可一个消歧位置的好方法。然后，维基百科的开房数据库可以用来识别人名或者公司名称。除此之外，还可以通过结合来自不同来源的信息来查找表和字典。

实体消歧：有时，可能实体分类会错误。因此在结果的顶部创建一个验证层是很有必要的。可以利用知识图谱来达到这个目的，流行的知识图谱有谷歌知识图，IBM Watson等。

B. 主题建模

主题建模是一种自动识别语料库中的主题的过程，它通过无监督的方式导出语料库中的单词之间的隐藏模式。主题被定义为“语料库中共同出现的术语的重复模式”。

LDA是最流行的主题建模技术。下面是python代码使用LDA实现主题建模的代码：

 doc1 = "sugar is bad to consume. My sister likes to have sugar, but not my father"
 doc2 = "My father spends a lot of time driving my sister around to dance practice"
 doc3 = "Doctors suggest that driving many cause increased stress and blood pressure"
 
 doc_complete = [doc1, doc2, doc3]
 doc_clean = [doc.split() for doc in doc_complete]
 
 import gensim from gensim
 import corpora
 
 #创建我们词料库的术语词典，其中每个唯一的术语被分配索引。
 dictionary = corpora.Dictionary(doc_clean)
 #利用上述词典将文档列表转化成文档项矩阵
 doc_term_matrix = [dictionary.doc2bow(doc) for doc in doc_clean]
 
 Lda = gensim.models.ldamodel.LdaModel
 
 #训练LDA模型
 ldamodel = Lda(doc_term_matrix, num_topics=3, id2word = dictionary , passes = 50)
 
 #结果
 print(ldamodel.print_topics())

C. N-grams作为特征

n个词的组合称为N-grams，一般更具信息量：

def generate_ngrams(text,n):
        words = text.split()
        output = []
        for i in range(len(word)-n +1):
            output.append(word[i:i+n])
        return output
    
generate_ngrams("this is a sample text",2)
 >>>>[['this','is'],['is','a'],['a','sample'],['sample','text']]

3.3 统计特征

文本数据还可以直接使用本节中描述的几种技术直接量化为数字：

A. TF-IDF

TF-IDF是一种常用的信息检索问题的加权模型。它的目的是将文本文档转化成向量模型，而不是考虑文档中单词出现的次数。

from sklearn.feature_extraction.text import TfidfVectorizer

obj = TfidfVectorizer()
corpus = ['This is sample document', 'another random document', 'third sample document text']

X = obj.fit_transform(corpus)
>>>>
(0,1) 0.345
(0,4) ...0.4444

该模型创建词汇字典并为每个单词分配索引。输出中的每一行包含元组（i, j)和文档i中索引j的单词的tf-idf值。

B.计数/密度/可读性特征

在模型和分析中也可以使用基于计数或密的特征。这些特征看似微不足道，但在学习模式中显示出巨大的影响。其中的一些特征是：单词计数，句子计数，标点符号和特定于行业的单词计数。其他类型的措施包括可读性措施，如音节计数，烟雾指数和轻松阅读。

3.4 词嵌入（文本向量）

词嵌入是表示词作为载体的现代方式，词语嵌入的目的是通过保持词料库中的上下文相似度来将高纬度特征重新定义为低纬度特征向量。他们广泛应用于卷积神经网络和递归神经网络等深度学习模型中。

Word2Vec 和 GloVe 是两种比较流行的文本嵌入模型，这些模型以文本语料库作为输入，并产生词向量作为输出。

Word2Vec 模型由预处理模块，称为连续词袋的浅神经网络和另一个称为skip-gram的深神经网络组成。这些模型被广泛应用于其他NLP问题中。它首先从训练语料库中构造词汇表，然后学习词嵌入表示。下面的代码使用genism包准备词嵌入作为向量：

from  gensim.models import Word2Vec
sentences = [['data','science'],['vidhya','science','data','analytics'],['machine','learning'],['deep','learning']]

#在词库中训练模型
model = Word2Vec(sentences, min_count = 1)

print(model.similarity('data','science'))
>>>0.1122
print(model['learning'])
>>> array([0.0034,0.00305,......])

他们可以被用作ML模型的特征向量，用于使用余弦相似性技术，词聚类和文本分类技术测试文本相似度。

4.NLP的重要任务

本节讨论自然语言处理领域中不同的使用情况以及存在的问题。

4.1 文本分类

文本分类是NLP的经典问题之一。最典型的例子包括电子邮件垃圾识别，新闻主题分类，情感分类和搜素引擎对页面的组织。

文本分类是指在一个固定类别中对文本对象进行系统分类的技术。当数据量太大，特征是用于组织，信息过滤和存储目的时，这是非常有用的。

一个典型的自然语言分类器由两部分组成：(a)训练；（b)预测。如下图，首先，文本输入是处理和特征提取。机器学习模型然后学习这些特征并用于预测新文本。

这里是一个代码，使用朴素贝叶斯分类器对文本进行分类：

from textblob.classifiers import NaiveBayesClassifier as NBC
from textblob import TextBlob

training_corpus = [
    ('I am exhuasted of this work','Class_B'),
    ("I can't cooperate with this", 'Class_B'),
    ('He is my badest enemy', 'Class_B'),
    ('My management is poor','Class_B'),
    ('I love this burger','Class_A'),
    ('This is an brilliant place','Class_A'),
    ('This is my best work','Class_A'),
    ('I feel very good about this dates', 'Class_A'),
    ('What an awesome view','Class_A'),
    ('I do not like this dish','Class_B')
]

test_corpus = [
    ('I am not feeling very well today','Class_B'),
    ('I feel brilliant','Class_A'),
    ('Gary is a friend of mine','Class_A'),
    ("I can't belive I'm doing this",'Class_B')
]

model = NBC(training_corpus)
print(model.classify("Their codes are amazing"))
>>>> 'Class_A'
print(model.accuracy(test_corpus))
>>>0.83

sklearn 也提供了一个用于文本分类的框架：

 from sklearn.feature_extraction.text
 import TfidfVectorizer from sklearn.metrics
 import classification_report
 from sklearn import svm
 #为SVM准备数据
 train_data = []
 train_labels = []
 for row in training_corpus:
     train_data.append(row[0])
     train_labels.append(row[1])
     
 test_data = []
 test_labels = []
 for row in test_corpus:
     test_data.append(row[0])
     test_labels.append(row[1])
     
 #创建特征向量
 vectorizer = TfidfVectorizer(min_df = 4, max_df = 0.9)
 #训练特征向量
 train_vectors = vectorizer.fit_transform(train_data)
 
 #把模型应用到测试数据中去 
 test_vectors = vectorizer.transform(test_data)
 
 #用SVM来呈现分类
 model = svm.SVC(kernel='linear')
 model.fit(train_vectors, train_labels)
 prediction = model.predict(test_vectors)
 >>>> ['Class_A','Class_A',.....]
 print(classification_report(test_labels, prediction))

文本分类是在很大程度上依赖于特征的质量和数量，而应用机器学习模型总是包含越来越多的训练数据是一个很好地实践。

4.2 文本匹配/相似度

NLP的一个重要领域是文本对象的匹配以及找到相似性。文本匹配的重要应用包括自动拼写校正，数据重复删除和基因组分析等。

根据需求，有多种文本匹配技术可以使用。这一部分详细描述了重要的技术。

A.LevenShtein距离

两个字符串之间的LevenShtein距离定义为将一个字符串转化为另一个字符串所需的最小编辑次数。而允许的编辑操作是插入，删除或者替换某单个字符。下面代码实现：

def levenshtein(s1, s2):
   if len(s1)>len(s2):
        s1,s2 = s2,s1
    distances = range(len(s1)+1)
    for index2,char2 in enumerate(s2):
        newDistances = [index2+1]
        for index1, char1 in enumerate(s1):
            if char1 == char2:
                newDistances.append(distances[index1])
            else:
                newDistances.append(1+ min(distances[index1], distances[index1+1], newDistances[-1]))
        distances = newDistances
     return distances[-1]

print(levenshtein('analyze','analyse'))

B.语音匹配

语音匹配算法将关键字作为输入（人的姓名，位置名称等)，并生产一个字符串，该字符串识别一组语音上相似的词。它对于搜索大型文本库，纠正拼写错误和匹配相关名称是非常有用的。Soundex和Metaphone是用于此目的的两种主要的语音算法。Python的Fuzzy用于计算不同单词的Soundex字符串：

import fuzzy 
soundex = fuzzy.Soundex(4)
print(soundex('ankit'))
print(soundex('aunkit'))

C.弹性字符串匹配

一个完整的文本匹配系统包括不同的流水线算法来计算各种文本变化。正则表达式也有助于这个目的。另一种常见的技术包括精确字符串匹配，区划匹配和紧凑匹配。

D.余弦相似度

当文本是一个符号代表的矢量余弦相似：

 import math
 from collections import Counter
 
 def get_cosine(vec1,vec2):
     common = set(vec1.keys()) & set(vec2.keys())
     numerator = sum([vec1[x]* vec2[x] for x in common])
     
     sum1 = sum([vec1[x]**2 for x in vec1.keys()])
     sum2 = sum([vec2[x]**2 for x in vec2.keys()])
     denominator = math.sqrt(sum1)*math.sqrt(sum2)
     if not denominator:
         return 0.0
     else:
         reurn float(numerator)/denominator
         
 def text_to_vector(text):
     words = text.split()
     return Counter(words)
 
 text1 = 'This is an article on analytics vidhya'
 text2 = 'article on analytics vidhya is about natural language processing'
 vector1 = text_to_vector(text1)
 vector2 = text_to_vector(text2)
 print(get_cosine(vector1, vector2))

4.3 指代消除

4.4 其他的NLP问题

文本摘要：给定一篇文章或者段落，自动总结它，以产生最重要和最相关的句子。
机器翻译：通过对现实世界的语法，语义和信息的照料，将文本从一种语言翻译成另一种语言。
自然语言生成和理解：将计算机数据库或者语言意图的信息转换成可读的人类语言，称为语言生成。将文本转化成易于计算机程序操作的逻辑结构称为语言理解。
光学字符识别：给定表示打印文本的图像，确定对应的文本。
文本信息：这涉及到分析文档（网站，文件，PDF和图像）中的文本数据以分析和清理格式。

5. NLP的相关python引入包

scikit-learn
NLTK：NLP技术的完整工具
Pattern：一个用于NLP和机器学习工具的 Web挖掘模块
TextBlob: 非常易用的NLP包，需要依赖于NLTK和Pattern
spaCy:集成python和Cython的工业加强版NLP
Gensim: 人类主题建模
Stanford Core NLP:

参考：

https://www.analyticsvidhya.com/blog/2017/01/ultimate-guide-to-understand-implement-natural-language-processing-codes-in-python

免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
轻量级模型解读——轻量transformer系列 lishanlu136 #图像分类轻量级模型 transformer 图像分类
先占坑，持续更新。。。文章目录1、DeiT2、ConViT3、Mobile-Former4、MobileViTTransformer是2017谷歌提出的一篇论文，最早应用于NLP领域的机器翻译工作，Transformer解读，但随着2020年DETR和ViT的出现(DETR解读，ViT解读)，其在视觉领域的应用也如雨后春笋般渐渐出现，其特有的全局注意力机制给图像识别领域带来了重要参考。但是tran
FlagEmbedding 吉小雨 python库 python
FlagEmbedding教程FlagEmbedding是一个用于生成文本嵌入（textembeddings）的库，适合处理自然语言处理（NLP）中的各种任务。嵌入（embeddings）是将文本表示为连续向量，能够捕捉语义上的相似性，常用于文本分类、聚类、信息检索等场景。官方文档链接：FlagEmbedding官方GitHub一、FlagEmbedding库概述1.1什么是FlagEmbeddi
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
深度解析：如何使用输出解析器将大型语言模型（LLM）的响应解析为结构化JSON格式 m0_57781768 语言模型 json 人工智能
深度解析：如何使用输出解析器将大型语言模型（LLM）的响应解析为结构化JSON格式在现代自然语言处理（NLP）的应用中，大型语言模型（LLM）已经成为了重要的工具。这些模型能够生成丰富的自然语言文本，适用于各种应用场景。然而，在某些应用中，开发者不仅仅需要生成文本，还需要将这些生成的文本转换为结构化的数据格式，例如JSON。这种结构化的数据格式在数据传输、存储以及进一步处理时具有显著优势。本文将深
使用LangChain和OpenAI实现高效文本标注 aehrutktrjk langchain python
使用LangChain和OpenAI实现高效文本标注引言在自然语言处理(NLP)领域，文本标注是一项重要且常见的任务。它涉及为文本分配标签，如情感、语言、风格等。本文将介绍如何使用LangChain和OpenAI的API来实现高效的文本标注系统。我们将探讨如何设置环境、定义标注模式，以及如何使用OpenAI的模型来执行标注任务。环境准备首先，我们需要安装必要的库并设置API密钥：%pipinsta
【NLP5-RNN模型、LSTM模型和GRU模型】一蓑烟雨紫洛 nlp rnn lstm gru nlp
RNN模型、LSTM模型和GRU模型1、什么是RNN模型RNN（RecurrentNeuralNetwork)中文称为循环神经网络，它一般以序列数据为输入，通过网络内部的结构设计有效捕捉序列之间的关系特征，一般也是以序列形式进行输出RNN的循环机制使模型隐层上一时间步产生的结果，能够作为当下时间步输入的一部分（当下时间步的输入除了正常的输入外还包括上一步的隐层输出）对当下时间步的输出产生影响2、R
基于深度学习的文本引导的图像编辑 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的文本引导的图像编辑（Text-GuidedImageEditing）是一种通过自然语言文本指令对图像进行编辑或修改的技术。它结合了图像生成和自然语言处理（NLP）的最新进展，使用户能够通过描述性文本对图像内容进行精确的调整和操控。1.文本引导的图像编辑的挑战文本和图像之间的对齐：如何将文本中的语义信息准确地映射到图像中的特定区域或元素是一个关键挑战。这涉及到多模态数据的对齐和理解。编
甘超波：NLP婚姻中如何与老人相处甘超波
哈喽，大家好我是甘超波，是一名NLP爱好者，每天一篇原创文章或视频，分享我的实战经验和案例，希望给你些启发和帮助看一下，在家庭中子女与老人观念不一致时案例1：在教育孩子方面，老人习惯用老一套教育方式教育孙子，子女受不了老人这种习惯，从而发生口舌之争？2：在生活习惯方面，老人喜欢吃剩菜剩饭，子女受不了老人这种习惯，从而发生口舌之争？.....这样的事情，我相信你或多或少都听过和看过，甚至了深有感悟。
transformer架构(Transformer Architecture)原理与代码实战案例讲解 AI架构设计之禅大数据AI人工智能 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
transformer架构(TransformerArchitecture)原理与代码实战案例讲解关键词：Transformer,自注意力机制,编码器-解码器,预训练,微调,NLP,机器翻译作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来自然语言处理（NLP）领域的发展经历了从规则驱动到统计驱动再到深度学习驱动的三个阶段。
英伟达（NVIDIA）B200架构解读 weixin_41205263 芯际争霸 GPGPU架构 gpu算力人工智能硬件架构
H100芯片是一款高性能AI芯片，其中的TransformerEngine是专门用于加速Transformer模型计算的核心部件。Transformer模型是一种自然语言处理（NLP）模型，广泛应用于机器翻译、文本生成等任务。TransformerEngine的电路设计原理主要包括以下几个方面：
《昇思 25 天学习打卡营第 25 天 | 基于 MindSpore 实现 BERT 对话情绪识别》 Sam9029 Mindscope模型学习深度学习
《昇思25天学习打卡营第25天|基于MindSpore实现BERT对话情绪识别》活动地址：https://xihe.mindspore.cn/events/mindspore-training-camp签名：Sam9029环境配置确保安装了正确版本的MindSpore和MindNLP库。!pipuninstallmindspore-y!pipinstall-ihttps://pypi.mirror
基于人工智能的智能语音助手人工智能发烧友人工智能
语音助手的自然语言处理模块是语音助手系统的关键组成部分。通过这个模块，系统能够识别用户的意图并做出相应的回应。我们可以使用NLP技术来解析文本输入，并将其转换为系统可以理解的命令或指令。在本项目中，我们将结合语音识别、自然语言处理和语音合成技术，构建一个功能简化的语音助手。一、项目背景与需求分析1.1项目目标本项目旨在创建一个语音助手系统，它可以：1.语音识别：从用户的语音输入中提取文本信息。2.
NLP_jieba中文分词的常用模块 Hiweir · NLP_jieba的使用自然语言处理中文分词人工智能 nlp
1.jieba分词模式（1）精确模式:把句子最精确的切分开,比较适合文本分析.默认精确模式.（2）全模式:把句子中所有可能成词的词都扫描出来,cut_all=True,缺点:速度快,不能解决歧义（3）paddle:利用百度的paddlepaddle深度学习框架.简单来说就是使用百度提供的分词模型.use_paddle=True.（4）搜索引擎模式:在精确模式的基础上,对长词再进行切分,提高召回率,
Linux如何查看端口 lanhuazui10 linux操作系统 linux
方法一：lsof-i:端口号用于查看某一端口的占用情况，比如查看9092端口使用情况，lsof-i:9095可以看到9095端口已经被nginx占用方法二：netstat-tunlp|grep端口号，用于查看指定的端口号的进程情况，如查看5050端口的情况，netstat-tunlp|grep5050-t(tcp)仅显示tcp相关选项-u(udp)仅显示udp相关选项-n拒绝显示别名，能显示数字的
【笔记】自然语言处理NLP---概论 xhanZ NLP相关
（from人文学院开设课程）目录1.自然语言处理概论1.1自然语言处理研究的意义、历史与现状1.1.1自然语言的特点1.1.2自然语言处理研究的意义1.1.3国外研究现状1.2NLP的方法、特点和规律1.2.1理性主义与经验主义1.2.2语料库语言学：经验主义研究方法1.2.3汉语语言处理的方法1.2.4基于知识图谱的深度学习1.自然语言处理概论1.1自然语言处理研究的意义、历史与现状1.1.1自
【笔记与idea】——ACL2017论文报告会胖胖的飞象深度学习人工智能笔记 idea
这篇是2017年我有幸参加了中文信息学会组织的ACL2017论文报告会记的笔记，当时还是研一新生，对NLP感兴趣，偶然通过老师知晓了这次报告会，所以想去现场听听大牛们的idea、和大牛们交流（然而由于当时没有入门，啥也不懂，交流失败。。。）但是总的来说，非常感谢组织这次报告会的老师们，尽管没能和大牛们有效的交流，但是这次报告会相当于在最短的时间内读懂了数十篇精彩论文的核心内容，对我后面的学习起到了
如何利用AI技术来提升用户的个性化体验和社区参与度？ Itfuture03 AI前沿技术人工智能
要利用AI技术提升用户的个性化体验和社区参与度，可以采取以下几种策略：个性化推荐系统：通过AI算法分析用户的行为和偏好，提供定制化的服务和内容推荐，如智能推荐活动、健康管理等，让居民感受到社区的温暖和关怀。智能助手与聊天机器人：引入AI驱动的虚拟助手，提供实时帮助、个性化建议和交互式对话，改善客户体验。自然语言处理（NLP）：实现具有AI能力的NLP，创建对用户友好的应用程序，简化用户体验，如客服
【Python】成功解决IndexError: list index out of range 高斯小哥 BUG解决方案合集 python list 新手入门学习 debug
【Python】成功解决IndexError:listindexoutofrange下滑查看解决方法欢迎莅临我的个人主页这里是我静心耕耘深度学习领域、真诚分享知识与智慧的小天地！博主简介：985高校的普通本硕，曾有幸发表过人工智能领域的中科院顶刊一作论文，熟练掌握PyTorch框架。技术专长：在CV、NLP及多模态等领域有丰富的项目实战经验。已累计一对一为数百位用户提供近千次专业服务，助力他们少走
使用Python和Jieba库进行中文情感分析：从文本预处理到模型训练的完整指南快撑死的鱼 Python算法精解 python 人工智能开发语言
使用Python和Jieba库进行中文情感分析：从文本预处理到模型训练的完整指南情感分析（SentimentAnalysis）是自然语言处理（NLP）领域中的一个重要分支，旨在从文本中识别出情绪、态度或意见等主观信息。在中文文本处理中，由于语言特性不同于英语，如何高效、准确地分词和提取关键词成为情感分析的关键步骤之一。在这篇文章中，我们将深入探讨如何使用Python和Jieba库进行中文情感分析，
论文阅读笔记: DINOv2: Learning Robust Visual Features without Supervision 小夏refresh 论文计算机视觉深度学习论文阅读笔记深度学习计算机视觉人工智能
DINOv2:LearningRobustVisualFeatureswithoutSupervision论文地址:https://arxiv.org/abs/2304.07193代码地址:https://github.com/facebookresearch/dinov2摘要大量数据上的预训练模型在NLP方面取得突破，为计算机视觉中的类似基础模型开辟了道路。这些模型可以通过生成通用视觉特征(即无
第3篇：LangChain的架构总览与设计理念 Gemini技术窝 langchain 架构大数据人工智能 AIGC nlp
LangChain库是一个专为自然语言处理（NLP）设计的强大工具包，致力于简化复杂语言模型链的构建和执行。在本文中，我们将深入解析LangChain库的架构，详细列出其核心组件、设计理念及其在不同场景中的应用，并讨论其优缺点。文章目录1.LangChain库简介2.核心组件2.1数据输入模块作用2.2数据预处理模块作用2.3数据增强模块作用2.4数据加载与批处理模块作用2.5模型训练模块作用2.
读李中莹先生论“阿Q精神" 猫咪06
这阵子重读《重塑心灵》，对“阿Q精神"一段很有感慨，在我们从小的信念里，阿Q的精神胜利法是被贬低的，是对无能力改变自己的境遇时，似手只能采用自我安慰的人的讽刺。李中莹先生在他的书中结合对话者的认可，定义阿Q精神“只求精神胜利，罔顾真实情况"，他就针对这两句话，解析阿Q精神，并进行了肯定‘，。首先“精神胜利"指的是自己内心有成功的感觉，这很符合NLP!如果所有人都认为你成功，而你自己没有成功的喜悦，
书单用户5521
提高思维（13本）：影响力逻辑思维（理查德·尼斯贝特）离经叛道:不按常理出牌的人如何改变世界（只看最后一章总结即可）改变:问题形成和解决的原则语言的魔力:谈笑间转变信念之NLP技巧（意识到语言顺序的重要性）改变心理学的40项研究对伪心理学说不你的误区:如何摆脱负面思维掌控你的生活战胜拖拉你的灯亮着吗?别做正常的傻瓜学会提问:批判性思维指南不确定世界的理性选择小说（5本）：霍乱时期的爱情那些回不去的
【Python】解决AttributeError: ‘NoneType‘ object has no attribute ‘xxxx‘ 云天徽上 Pandas python 开发语言 pandas 机器学习 numpy
【Python】解决AttributeError:'NoneType'objecthasnoattribute'xxxx'报错欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是云天徽上，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其
【自然语言处理】自然语言处理NLP概述及应用 @我们的天空人工智能技术 nlp 人工智能深度学习 python 机器学习自然语言处理 scikit-learn
自然语言处理（NaturalLanguageProcessing，简称NLP）是一门集计算机科学、人工智能以及语言学于一体的交叉学科，致力于让计算机能够理解、解析、生成和处理人类的自然语言。它是人工智能领域的一个关键分支，旨在缩小人与机器之间的交流障碍，使得机器能够更有效地识别并响应人类的自然语言指令或内容。自然语言处理NLP概述基本任务：文本分类：将文本划分为预定义的类别，如情感分析、主题分类等
OPENAI中RAG实现原理以及示例代码用PYTHON来实现 dzend aigc python 开发语言 ai
OPENAI中RAG实现原理以及示例代码用PYTHON来实现1.引言在当今人工智能领域，自然语言处理（NLP）是一个非常重要的研究方向。近年来，OPENAI发布了许多创新的NLP模型，其中之一就是RAG（Retrieval-AugmentedGeneration）模型。RAG模型结合了检索和生成两种方法，可以用于生成与给定问题相关的高质量文本。本文将介绍RAG模型的实现原理，并提供使用Python
开源AI图像识别：支持扫描文件批量识别快速对接数据库存储思通数科x 人工智能计算机视觉图像处理 OCR 文本识别
随着数字化转型的不断深入，图像识别技术在各行各业中的应用越来越广泛。文件封识别作为图像识别技术的一个分支，能够有效地提高文件处理的自动化程度和准确性。本文将探讨文件封识别技术的原理、应用场景以及如何将识别后的内容批量对应数据库字段进行存储。开源项目介绍(可本地部署，支持国产化)思通数科研发了一款多模态AI能力引擎，专注于提供自然语言处理（NLP）、情感分析、实体识别、图像识别与分类、OCR识别和语
桌面上有多个球在同时运动，怎么实现球之间不交叉，即碰撞？换个号韩国红果果 html 小球碰撞
稍微想了一下，然后解决了很多bug，最后终于把它实现了。其实原理很简单。在每改变一个小球的x y坐标后，遍历整个在dom树中的其他小球，看一下它们与当前小球的距离是否小于球半径的两倍？若小于说明下一次绘制该小球（设为a）前要把他的方向变为原来相反方向（与a要碰撞的小球设为b），即假如当前小球的距离小于球半径的两倍的话，马上改变当前小球方向。那么下一次绘制也是先绘制b，再绘制a，由于a的方向已经改变
《高性能HTML5》读后整理的Web性能优化内容白糖_ html5
读后感先说说《高性能HTML5》这本书的读后感吧，个人觉得这本书前两章跟书的标题完全搭不上关系，或者说只能算是讲解了“高性能”这三个字，HTML5完全不见踪影。个人觉得作者应该首先把HTML5的大菜拿出来讲一讲，再去分析性能优化的内容，这样才会有吸引力。因为只是在线试读，没有机会看后面的内容，所以不胡乱评价了。
[JShop]Spring MVC的RequestContextHolder使用误区 dinguangx jeeshop 商城系统 jshop 电商系统
在spring mvc中，为了随时都能取到当前请求的request对象，可以通过RequestContextHolder的静态方法getRequestAttributes()获取Request相关的变量，如request, response等。在jshop中，对RequestContextHolder的
算法之时间复杂度周凡杨 java 算法时间复杂度效率
在计算机科学中，算法的时间复杂度是一个函数，它定量描述了该算法的运行时间。这是一个关于代表算法输入值的字符串的长度的函数。时间复杂度常用大O符号表述，不包括这个函数的低阶项和首项系数。使用这种方式时，时间复杂度可被称为是渐近的，它考察当输入值大小趋近无穷时的情况。这样用大写O()来体现算法时间复杂度的记法，
Java事务处理 g21121 java
一、什么是Java事务通常的观念认为，事务仅与数据库相关。事务必须服从ISO/IEC所制定的ACID原则。ACID是原子性（atomicity）、一致性（consistency）、隔离性（isolation）和持久性（durability）的缩写。事务的原子性表示事务执行过程中的任何失败都将导致事务所做的任何修改失效。一致性表示当事务执行失败时，所有被该事务影响的数据都应该恢复到事务执行前的状
Linux awk命令详解 510888780 linux
一. AWK 说明 awk是一种编程语言，用于在linux/unix下对文本和数据进行处理。数据可以来自标准输入、一个或多个文件，或其它命令的输出。它支持用户自定义函数和动态正则表达式等先进功能，是linux/unix下的一个强大编程工具。它在命令行中使用，但更多是作为脚本来使用。 awk的处理文本和数据的方式：它逐行扫描文件，从第一行到
android permission 布衣凌宇 Permission
<uses-permission android:name="android.permission.ACCESS_CHECKIN_PROPERTIES" ></uses-permission>允许读写访问"properties"表在checkin数据库中，改值可以修改上传 <uses-permission android:na
Oracle和谷歌Java Android官司将推迟 aijuans java oracle
北京时间 10 月 7 日，据国外媒体报道，Oracle 和谷歌之间一场等待已久的官司可能会推迟至 10 月 17 日以后进行，这场官司的内容是 Android 操作系统所谓的 Java 专利权之争。本案法官 William Alsup 称根据专利权专家 Florian Mueller 的预测，谷歌 Oracle 案很可能会被推迟。　　该案中的第二波辩护被安排在 10 月 17 日出庭，从目前看来
linux shell 常用命令 antlove linux shell command
grep [options] [regex] [files] /var/root # grep -n "o" * hello.c:1:/* This C source can be compiled with:
Java解析XML配置数据库连接(DOM技术连接 SAX技术连接) 百合不是茶 sax技术 Java解析xml文档 dom技术 XML配置数据库连接
XML配置数据库文件的连接其实是个很简单的问题,为什么到现在才写出来主要是昨天在网上看了别人写的,然后一直陷入其中,最后发现不能自拔所以今天决定自己完成 ,,,,现将代码与思路贴出来供大家一起学习 XML配置数据库的连接主要技术点的博客; JDBC编程 : JDBC连接数据库 DOM解析XML: DOM解析XML文件 SA
underscore.js 学习（二） bijian1013 JavaScript underscore
Array Functions 所有数组函数对参数对象一样适用。1.first _.first(array, [n]) 别名: head, take 返回array的第一个元素，设置了参数n，就
plSql介绍 bijian1013 oracle 数据库 plsql
/* * PL/SQL 程序设计学习笔记 * 学习plSql介绍.pdf * 时间：2010-10-05 */ --创建DEPT表 create table DEPT ( DEPTNO NUMBER(10), DNAME NVARCHAR2(255), LOC NVARCHAR2(255) ) delete dept; select
【Nginx一】Nginx安装与总体介绍 bit1129 nginx
启动、停止、重新加载Nginx nginx 启动Nginx服务器，不需要任何参数u nginx -s stop 快速(强制)关系Nginx服务器 nginx -s quit 优雅的关闭Nginx服务器 nginx -s reload 重新加载Nginx服务器的配置文件 nginx -s reopen 重新打开Nginx日志文件
spring mvc开发中浏览器兼容的奇怪问题 bitray jquery Ajax springMVC 浏览器上传文件
最近个人开发一个小的OA项目,属于复习阶段.使用的技术主要是spring mvc作为前端框架,mybatis作为数据库持久化技术.前台使用jquery和一些jquery的插件. 在开发到中间阶段时候发现自己好像忽略了一个小问题,整个项目一直在firefox下测试,没有在IE下测试,不确定是否会出现兼容问题.由于jquer
Lua的io库函数列表 ronin47 lua io
1、io表调用方式：使用io表，io.open将返回指定文件的描述，并且所有的操作将围绕这个文件描述　　io表同样提供三种预定义的文件描述io.stdin,io.stdout,io.stderr 　　2、文件句柄直接调用方式,即使用file:XXX()函数方式进行操作,其中file为io.open()返回的文件句柄　　多数I/O函数调用失败时返回nil加错误信息,有些函数成功时返回nil
java-26-左旋转字符串 bylijinnan java
public class LeftRotateString { /** * Q 26 左旋转字符串 * 题目：定义字符串的左旋转操作：把字符串前面的若干个字符移动到字符串的尾部。 * 如把字符串abcdef左旋转2位得到字符串cdefab。 * 请实现字符串左旋转的函数。要求时间对长度为n的字符串操作的复杂度为O(n)，辅助内存为O(1)。 */ pu
《vi中的替换艺术》-linux命令五分钟系列之十一 cfyme linux命令
vi方面的内容不知道分类到哪里好，就放到《Linux命令五分钟系列》里吧！今天编程，关于栈的一个小例子，其间我需要把”S.”替换为”S->”(替换不包括双引号)。其实这个不难，不过我觉得应该总结一下vi里的替换技术了，以备以后查阅。 1 所有替换方案都要在冒号“:”状态下书写。 2 如果想将abc替换为xyz，那么就这样 :s/abc/xyz/ 不过要特别
[轨道与计算]新的并行计算架构 comsci 并行计算
我在进行流程引擎循环反馈试验的过程中，发现一个有趣的事情。。。如果我们在流程图的每个节点中嵌入一个双向循环代码段，而整个流程中又充满着很多并行路由，每个并行路由中又包含着一些并行节点，那么当整个流程图开始循环反馈过程的时候，这个流程图的运行过程是否变成一个并行计算的架构呢？
重复执行某段代码 dai_lm android
用handler就可以了 private Handler handler = new Handler(); private Runnable runnable = new Runnable() { public void run() { update(); handler.postDelayed(this, 5000); } }; 开始计时 h
Java实现堆栈（list实现） datageek 数据结构——堆栈
public interface IStack<T> { //元素出栈，并返回出栈元素 public T pop(); //元素入栈 public void push(T element); //获取栈顶元素 public T peek(); //判断栈是否为空 public boolean isEmpty
四大备份MySql数据库方法及可能遇到的问题 dcj3sjt126com DB backup
一：通过备份王等软件进行备份前台进不去？用备份王等软件进行备份是大多老站长的选择，这种方法方便快捷，只要上传备份软件到空间一步步操作就可以，但是许多刚接触备份王软件的客用户来说还原后会出现一个问题：因为新老空间数据库用户名和密码不统一，网站文件打包过来后因没有修改连接文件，还原数据库是好了，可是前台会提示数据库连接错误，网站从而出现打不开的情况。解决方法：学会修改网站配置文件，大多是由co
github做webhooks：[1]钩子触发是否成功测试 dcj3sjt126com github git webhook
转自: http://jingyan.baidu.com/article/5d6edee228c88899ebdeec47.html github和svn一样有钩子的功能，而且更加强大。例如我做的是最常见的push操作触发的钩子操作，则每次更新之后的钩子操作记录都会在github的控制板可以看到！工具/原料 github 方法/步骤
">的作用" target="_blank">JSP中的作用蕃薯耀
JSP中<base href="<%=basePath%>">的作用 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
linux下SAMBA服务安装与配置 hanqunfeng linux
局域网使用的文件共享服务。一.安装包： rpm -qa | grep samba samba-3.6.9-151.el6.x86_64 samba-common-3.6.9-151.el6.x86_64 samba-winbind-3.6.9-151.el6.x86_64 samba-client-3.6.9-151.el6.x86_64 samba-winbind-clients
guava cache IXHONG cache
缓存，在我们日常开发中是必不可少的一种解决性能问题的方法。简单的说，cache 就是为了提升系统性能而开辟的一块内存空间。　　缓存的主要作用是暂时在内存中保存业务系统的数据处理结果，并且等待下次访问使用。在日常开发的很多场合，由于受限于硬盘IO的性能或者我们自身业务系统的数据处理和获取可能非常费时，当我们发现我们的系统这个数据请求量很大的时候，频繁的IO和频繁的逻辑处理会导致硬盘和CPU资源的
Query的开始--全局变量,noconflict和兼容各种js的初始化方法 kvhur JavaScript jquery css
这个是整个jQuery代码的开始，里面包含了对不同环境的js进行的处理，例如普通环境，Nodejs，和requiredJs的处理方法。还有jQuery生成$, jQuery全局变量的代码和noConflict代码详解完整资源： http://www.gbtags.com/gb/share/5640.htm jQuery 源码： (
美国人的福利和中国人的储蓄 nannan408
今天看了篇文章，震动很大，说的是美国的福利。美国医院的无偿入院真的是个好措施。小小的改善，对于社会是大大的信心。小孩，税费等，政府不收反补，真的体现了人文主义。美国这么高的社会保障会不会使人变懒？答案是否定的。正因为政府解决了后顾之忧，人们才得以倾尽精力去做一些有创造力，更造福社会的事情，这竟成了美国社会思想、人
N阶行列式计算(JAVA) qiuwanchi N阶行列式计算
package gaodai; import java.util.List; /** * N阶行列式计算 * @author 邱万迟 * */ public class DeterminantCalculation { public DeterminantCalculation(List<List<Double>> determina
C语言算法之打渔晒网问题 qiufeihu c 算法
如果一个渔夫从2011年1月1日开始每三天打一次渔，两天晒一次网，编程实现当输入2011年1月1日以后任意一天，输出该渔夫是在打渔还是在晒网。代码如下： #include <stdio.h> int leap(int a) /*自定义函数leap()用来指定输入的年份是否为闰年*/ { if((a%4 == 0 && a%100 != 0
XML中DOCTYPE字段的解析 wyzuomumu xml
DTD声明始终以!DOCTYPE开头,空一格后跟着文档根元素的名称,如果是内部DTD,则再空一格出现[],在中括号中是文档类型定义的内容. 而对于外部DTD,则又分为私有DTD与公共DTD,私有DTD使用SYSTEM表示,接着是外部DTD的URL. 而公共DTD则使用PUBLIC,接着是DTD公共名称,接着是DTD的URL. 私有DTD <!DOCTYPErootSYST