C君莫笑

自然语言处理理论和应用

自然语言处理介绍
- 什么是自然语言
- 什么是自然语言处理（NLP）
- 什么是自然语言理解（NLU）
自然语言处理任务与方法
- 预备知识
- - 语言模型
  - - 什么是语言模型
    - 常见的语言模型
    - - N-Gram语言模型（n 元模型）
      - 神经网络语言模型(NNLM)
      - RNN语言模型
  - 文本向量化
  - - - 独热编码 | one-hot representation
      - 整数编码
      - 词嵌入 | word embedding
  - 常见算法
  - - 隐马尔可夫模型（HMM）
    - 条件随机场模型（CRF）
    - 双向循环神经网络+条件随机场模型（BiLSTM+CRF）
- 关键技术
- - 分词
  - - 什么是分词？
    - 为什么要分词？
    - 中文分词的3大难点
  - 词性标注
  - - 什么是词性标注？
  - 命名实体识别
  - 句法分析
  - 语义分析
  - 例子分析
- NLP任务的一般步骤
- 应用系统
- - 文本分类
  - 文本聚类
  - - TF-IDF算法
  - 机器翻译
  - 问答系统
  - 信息过滤
  - 自动文摘
  - 信息抽取
  - - LDA主题模型关键词提取
  - 舆情分析

自然语言处理介绍

什么是自然语言

以语音为物质外壳，由词汇和语法两部分组成的符号系统。

什么是自然语言处理（NLP）

自然语言处理就是，利用计算机为工具对人类特有的书面形式和口头形式的自然语言的信息，进行各种类型处理和加工的技术。（NLP就是人类和机器之间沟通的桥梁）

什么是自然语言理解（NLU）

自然语言理解 NLU)是所有支持机器理解文本内容的方法模型或任务的总称。NLU在文本信息处理处理系统中扮演着非常重要的角色，是推荐、问答、搜索等系统的必备模块。

自然语言处理任务与方法

预备知识

语言模型

什么是语言模型

语言模型可以对一段文本的概率进行估计，对信息检索，机器翻译，语音识别等任务有着重要的作用。语言模型分为统计语言模型和神经网络语言模型。

常见的语言模型

N-Gram语言模型（n 元模型）

n-gram是一种统计语言模型，用来根据前(n-1)个item来预测第n个item。在应用层面，这些item可以是音素（语音识别应用）、字符（输入法应用）、词（分词应用）或碱基对（基因信息）。一般来讲，可以从大规模文本或音频语料库生成n-gram模型。

n-gram模型的一个常用应用
搜索引擎如谷歌或百度等，或者输入法的提示。当我们在搜索每一个或几个词时，搜索框通常会以下拉菜单的形式给出几个备选项：

稀疏:窗口越大，越容易出现count为0的问题
存储∶这些count需要预先存储下来，这个量太大了

神经网络语言模型(NNLM)

优点:没有ngram语言模型的稀疏和存储的问题
缺点︰想要更好的性能，就要加大窗口，窗口越大，参数量越大

RNN语言模型

RNN语言模型优势:
可以处理任意长度文本序列，而参数量不变。
比n-gram能处理更长的上下文，而且没有稀疏的问题。

文本向量化

文本表示的作用就是将这些非结构化的信息转化为结构化的信息，这样就可以针对文本信息做计算，来完成我们日常所能见到的文本分类，情感判断等任务。

独热编码 | one-hot representation

假如我们要计算的文本中一共出现了4个词：猫、狗、牛、羊

缺点
无法表达词语之间的关系
这种过于稀疏的向量，导致计算和存储的效率都不高

整数编码

缺点
无法表达词语之间的关系
对于模型解释而言，整数编码可能具有挑战性。

词嵌入 | word embedding

常见算法

隐马尔可夫模型（HMM）

HMM是关于时序的概率模型，它由一个隐藏的马尔可夫链随机生成不可观测的随机状态序列，再由各个状态生成一个观测从而产生观测随机序列的过程。序列的每个位置叫做一个时刻。
两个假设
隐状态独立假设（齐次马尔科夫假设)∶当前状态只与上一状态有关。
观测独立假设:当前观测值只由当前隐状态产生，与其他观测值相互独立。

一个HMM模型实例

import numpy as np
from hmmlearn import hmm

# 设定隐藏状态的集合
states = ["box 1", "box 2", "box3"]
n_states = len(states)

# 设定观察状态的集合
observations = ["red", "white"]
n_observations = len(observations)

# 设定初始状态分布
start_probability = np.array([0.2, 0.4, 0.4])

# 设定状态转移概率分布矩阵
transition_probability = np.array([
  [0.5, 0.2, 0.3],
  [0.3, 0.5, 0.2],
  [0.2, 0.3, 0.5]
])

# 设定观测状态概率矩阵
emission_probability = np.array([
  [0.5, 0.5],
  [0.4, 0.6],
  [0.7, 0.3]
])

条件随机场模型（CRF）

条件随机场( Conditional Random
Field，CRF)，取消了HMM的两个独立假设，把标签转移和上下文输入都当做全局特征之一，在全局进行概率归一化，解决了HMM的标签偏置和上下文特征缺失问题。被广泛用于分词,
实体识别和词性标注等场景. 随着深度学习的普及, BILSTM+CRF, BERT+CRF, TRANSFORMER+CRF等模型,
逐步亮相, 并在这些标注场景, 效果有显著的提升。
条件随机场用于序列标注，中文分词、中文人名识别和歧义消解等自然语言处理中，表现出很好的效果。原理是：对给定的观察序列和标注序列，建立条件概率模型。条件随机场可用于不同预测问题，其学习方法通常是极大似然估计。
条件随机场模型也需要解决三个基本问题：特征的选择、参数训练和解码。

生产模型与判别模型

生产式模型：直接对联合分布进行建模，如：混合高斯模型、隐马尔科夫模型、马尔科夫随机场等
判别式模型：对条件分布进行建模，如：条件随机场、支持向量机、逻辑回归等。

双向循环神经网络+条件随机场模型（BiLSTM+CRF）

LSTM是循环神经网络（RNN）的一种变种，BiLSTM是指双向的LSTM网络，BiLSTM相对于传统的CRF算法，可以更有效的学习上下文特征，无需手工设计特征,同时也能处理更长的上下文依赖。

关键技术

分词

什么是分词？

分词就是将句子、段落、文章这种长文本，分解为以字词为单位的数据结构，方便后续的处理分析工作。

分词案例

import jieba
testSentence = "利用python进行数据分析"
print("1.精准模式分词结果："+"/".join(jieba.cut(testSentence,cut_all=False)))
print("2.全模式分词结果："+"/".join(jieba.cut(testSentence,cut_all=True)))
print("3.搜索引擎模式分词结果："+"/".join(jieba.cut_for_search(testSentence)))
print("4.默认（精准模式）分词结果："+"/".join(jieba.cut(testSentence)))

备注

精确模式：试图将句子最精确地切开，适合文本分析；
全模式：把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；
搜索引擎模式：在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。

#加载词典
print("加载词典")
def load_dictionary():
    dic = set()

    # 按行读取字典文件，每行第一个空格之前的字符串提取出来。
    for line in open("CoreNatureDictionary.mini.txt", "r",encoding='utf-8'):
        dic.add(line[0:line.find('	')])

    return dic
dic = load_dictionary()
print(dic)

print("找出一段文本中的所有单词")
#找出一段文本中的所有单词
def fully_segment(text, dic):
    word_list = []
    for i in range(len(text)):  # i 从 0 到text的最后一个字的下标遍历
        for j in range(i + 1, len(text) + 1):  # j 遍历[i + 1, len(text)]区间
            word = text[i:j]  # 取出连续区间[i, j]对应的字符串
            if word in dic:  # 如果在词典中，则认为是一个词
                word_list.append(word)
    return word_list


dic = load_dictionary()
print(fully_segment('就读北京大学', dic))

#正向最长匹配

def forward_segment(text, dic):
    word_list = []
    i = 0
    while i < len(text):
        longest_word = text[i]  # 当前扫描位置的单字
        for j in range(i + 1, len(text) + 1):  # 所有可能的结尾
            word = text[i:j]  # 从当前位置到结尾的连续字符串
            if word in dic:  # 在词典中
                if len(word) > len(longest_word):  # 并且更长
                    longest_word = word  # 则更优先输出
        word_list.append(longest_word)  # 输出最长词
        i += len(longest_word)  # 正向扫描
    return word_list

print("正向最长匹配")
dic = load_dictionary()
print(forward_segment('就读北京大学', dic))
print(forward_segment('研究生命起源', dic))

#逆向最长匹配
def backward_segment(text, dic):
    word_list = []
    i = len(text) - 1
    while i >= 0:  # 扫描位置作为终点
        longest_word = text[i]  # 扫描位置的单字
        for j in range(0, i):  # 遍历[0, i]区间作为待查询词语的起点
            word = text[j: i + 1]  # 取出[j, i]区间作为待查询单词
            if word in dic:
                if len(word) > len(longest_word):  # 越长优先级越高
                    longest_word = word
                    break
        word_list.insert(0, longest_word)  # 逆向扫描，所以越先查出的单词在位置上越靠后
        i -= len(longest_word)
    return word_list

print("逆向最长匹配")
dic = load_dictionary()
print(backward_segment('研究生命起源', dic))
print(backward_segment('项目的研究', dic))

#双向最长匹配
print("双向最长匹配")
def count_single_char(word_list: list):  # 统计单字成词的个数
    return sum(1 for word in word_list if len(word) == 1)


def bidirectional_segment(text, dic):
    f = forward_segment(text, dic)
    b = backward_segment(text, dic)
    if len(f) < len(b):  # 词数更少优先级更高
        return f
    elif len(f) > len(b):
        return b
    else:
        if count_single_char(f) < count_single_char(b):  # 单字更少优先级更高
            return f
        else:
            return b  # 都相等时逆向匹配优先级更高

print(bidirectional_segment('研究生命起源', dic))
print(bidirectional_segment('项目的研究', dic))

为什么要分词？

将复杂问题转化为数学问题
词是一个比较合适的粒度

中文分词的3大难点

没有统一的标准

歧义词如何切分

 乒乓球 \ 拍卖 \ 完了
 乒乓 \ 球拍 \ 卖 \ 完了

新词的识别
```
 蓝瘦香菇
 YYDS
 小趴菜
```

词性标注

什么是词性标注？

词性标注( Part-Of-Speech tagging，POS tagging )∶是指为句子的分词结果中的每个单词标注一个正确的词性的程序，也即确定每个词是名词、动词、形容词或者其他词性的过程。例如:迈向/v充满/v希望/n的/uj新/a世纪/n。词性标注是很多NLP任务的预处理步骤，如句法分析、信息抽取，经过词性标注后的文本会带来很大的便利性，但不是不可或缺的步骤。
给定带有各自标注的词的序列，我们可以确定下一个词最可能的词性。

import jieba.posseg
testSentence = "利用python进行数据分析"
words = jieba.posseg.cut(testSentence)
for item in words:
    print(item.word+"----"+item.flag)

命名实体识别

命名实体识别(Named Entity Recognition，NER）为自然语言处理(NLP)的基础任务之一，其目标是提取文本中的命名实体并对这些实体进行分类，比如人名、地名、机构、时间、货币和百分比等。

import jieba.analyse

print(jieba.analyse.extract_tags("我喜欢广州小蛮腰", 3))
print(jieba.analyse.extract_tags("我喜欢广州广州小蛮腰", 3))
print(jieba.analyse.extract_tags("我喜欢广州广州广州小蛮腰", 3))

import jieba.analyse
print("1.采取精准模式结果：")
print([item for item in jieba.tokenize("数据分析与数据挖掘的应用")])
print("-------------------")
print("2.采取搜索模式结果：")
print([item for item in jieba.tokenize("数据分析与数据挖掘的应用",mode="search")])

句法分析

是对句子和短语的结构进行分析，目的是要找出词、短语等的相互关系以及各自在句中的作用。

语义分析

是找出词义、结构意义及其结合意义，从而确定语言所表达的真正含义或概念。

例子分析

在生活中，如果想要订机票，人们会有很多种自然的表达

“订机票”；
“有去上海的航班么？”；
“看看航班，下周二出发去纽约的”；
“要出差，帮我查下机票”；

基于规则进行意图判断

基于NLU来识别用户意图

NLP任务的一般步骤

应用系统

文本分类

文本分类( text classification),又称文档分类( document classification),指的是将一个文档归类到一个或多个类别中的自然语言处理任务。文本分类的应用场景非常广泛，涵盖垃圾邮件过滤、垃圾评论过滤、自动标签、情感分析等任何需要自动归档文本的场合。

文本的类别有时又称作标签，所有类别组成了标注集，文本分类输出结果一定属于标注集。

文本分类是一个典型的监督学习任务，其流程离不开人工指导: 人工标注文档的类别，利用语料训练模型，利用模型预测文档的类别。

文本聚类

在许多app中都有推荐功能，比如网易云音乐有每日歌曲推荐、某些阅读软件有书籍阅读等等，一般的推荐模式有基于用户和基于内容，其中基于内容的推荐可能就有计算到文本相似度，当然肯定还结合了其他维度，如音乐的风格等。同理在搜索引擎中也会根据与搜索关键词的相似度对网页进行排序。接下来将实现基于TF-IDF加权技术的文本相似度计算。

TF-IDF算法

TF-IDF：是一种用于资讯检索与资讯探勘的常用加权技术。
（1）TF(term frequency)
词频，指的是某一个给定的词语在该文档中出现的频率。计算公式为某词在一个文档中出现的次数除以所有字词在该文档中出现的次数。
其中以所有字词在文档中出现的系数作为分母目的在于将词数进行归一化是为了防止偏向长的文档(不管该词语重要与否，同一个词语在长文档里可能会比短文件有更高的词数）。
（2）IDF（inverse document frequency）
逆向文件频率，是一个词语普遍重要性的度量。计算公式为总文档数目除以包含该词语之文件的数目，再将得到的商取对数。
（3）计算实例

词语“母牛”在某一篇总词语数为100个的文件出现了3次，该文件所在的语料库的文件总数为10,000,000份，并且“母牛”在其中的1,000份文件出现过，那么“母牛”一词在该文件中的词频就是3/100=0.03，其逆向文件频率为 log(10,000,000 / 1,000)=4。最后的TF-IDF的分数为0.03 * 4=0.12。

'''
利用gensim做TF-IDF主题模型 
'''
from gensim import corpora, models, similarities
import jieba
from collections import defaultdict
# 1.导入句子
sentence1 = "我喜欢吃番薯"
sentence2 = "番薯是个好东西"
sentence3 = "利用python进行文本挖掘"
# 2.分词
data1 = " ".join(jieba.cut(sentence1))
data2 = " ".join(jieba.cut(sentence2))
data3 = " ".join(jieba.cut(sentence3))
# 3.转换格式："词语1 词语2 词语3 … 词语n"
texts = [list(data1), list(data2), list(data3)]
# 4.基于文本建立词典
dictionary = corpora.Dictionary(texts)
featureNum=len(dictionary.token2id.keys())#提取词典特征数
dictionary.save("./dictionary.txt")#保存语料库
# 5.基于词典建立新的语料库
corpus = [dictionary.doc2bow(text) for text in texts]
# 6.TF-IDF处理
tfidf = models.TfidfModel(corpus)
'''
# 输出每个句子每个词语的tfidf值
corpus_tfidf = tfidf[corpus]
for doc in corpus_tfidf:
    print(doc)
'''
# 7.加载对比句子并整理其格式
query = "吃东西"
data4 = jieba.cut(query)
data41 = ""
for item in data4:
    data41 += item+" "
new_doc = data41
# 8.将对比句子转换为稀疏向量
new_vec = dictionary.doc2bow(new_doc.split())
# 9.计算相似性
index = similarities.SparseMatrixSimilarity(tfidf[corpus],num_features=featureNum)
sim = index[tfidf[new_vec]]
for i in range(len(sim)):
    print("查询与第"+str(i+1)+"句话的相似度为:"+str(sim[i]))

机器翻译

把输入的源语言文本通过自动翻译获得另外一种语言的文本。机器翻译从最早的基于规则的方法到二十年前的基于统计的方法，再到今天的基于神经网络（编码-解码）的方法，逐渐形成了一套比较严谨的方法体系。

问答系统

对一个自然语言表达的问题，由问答系统给出一个精准的答案。需要对自然语言查询语句进行某种程度的语义分析，包括实体链接、关系识别，形成逻辑表达式，然后到知识库中查找可能的候选答案并通过一个排序机制找出最佳的答案。

信息过滤

敏感词过滤及反垃圾文本的相关知识

自动文摘

from textrank4zh import TextRank4Keyword, TextRank4Sentence
import jieba
import logging

# 取消jieba分词的日志输出
jieba.setLogLevel(logging.INFO)
text = """
现在随着互联网的发展，网络的上传和下载文件的速度有了极大的提高。因此现在的基础设施，越来越多高要求的应用有了可行性。人工智能，深度学习，自然语言处理等网络热词频频出现在我们的视野，那么，到底什么是自然语言处理呢？接下来就由我们来给大家科普一下自然语言处理到底是什么，做什么，以及对我们有什么帮助。
首先，自然语言处理是人工智能的一个分支，最终的目标和人工智能一样都是模仿人的行为，而自然语言处理的终极目标细化到对语言的理解，使计算机像人一样阅读和理解语言，并且给出相应符合人类思维的回答。实现它的方式有很多，可以基于统计，也可以基于深度学习等方法。
简单来说，自然语言处理就是，对计算机中各种各样的语言文本文件进行分析和应用上的处理。比如分析出一段文字的语义是否是消极的，又或者是辨别出一段文字的名词，形容词等。
具体来说，自然语言处理，英文是Natural Language Processing，简写NLP。可以把它分成“自然语言”和“处理”两部分。先来看自然语言。现在世界上所有的语种语言，都属于自然语言，包括汉语、英语、法语等。然后再来看“处理”。这个“处理”是指计算机进行处理。但计算机毕竟不是人，无法像人一样处理文本，需要有自己的处理方式。因此自然语言处理，即是计算机接受用户自然语言形式的输入，并在内部通过人类所定义的算法进行加工、计算等系列操作，以模拟人类对自然语言的理解，并返回用户所期望的结果。
正如机械解放人类的双手一样，自然语言处理的目的在于用计算机代替人工来处理大规模的自然语言信息。它是人工智能、计算机科学、信息工程的交叉领域，涉及统计学、语言学等的知识。由于语言是人类思维的证明，故自然语言处理是人工智能的最高境界，被誉为“人工智能皇冠上的明珠”。
那么，自然语言处理具体能够给我们带来些什么呢：
下面是自然语言处理在整个领域中所处的具体位置和它主要做的一些内容：

自然语言处理的应用非常的广泛而且实用，下面针对自然语言处理的细分领域，让我们一起深入自然语言处理吧！
语义理解：
语义理解技术简单来说就是让计算机像人一样实现对文本篇章的理解，并且回答与篇章相关问题的过程。语义理解更注重于对上下文的理解以及对答案精准程度的把控。比如说，给出一段文字，然后再提出一个问题，计算机通过算法模型，根据文本的语义输出这个问题的答案。下面这张图是一个实例，计算机通过阅读理解了文章Passage和问题Question之后，回答相应的答案。
demo
2.2 文本摘要
就是交给计算机一段文字或者是一整篇论文，然后计算机根据你的正文来输出针对这段文字的摘要。其核心技术是要聚焦到文本文件最核心的部分，然后自动生成摘要。这个技术模仿了人独有的一个特征，那就是注意力。我们人在面对多个事务之前，总是会有优先级。就像你在酒吧当中，很多人都在说话，但是如果有人叫你的名字，或者你对某个人很感兴趣，那么你的大脑就会过滤掉其他的声音，而专注于你关注的事务。你看，计算机能做到这样的事，是不是越来越有人类的呢？
2.3 语言推理和溯因自然语言推理（aNLI）
语言推理：给计算机输入两个句子，然后计算机给你判断出两个句子之间的关系，比如是增强关系，或者是因果关系等。
demo
溯因自然语言推理（aNLI）：这是计算机模仿人类想象力的一种实现，因为人在面对一个问题的时候，比如有人问你什么是蓝色的事务，那么你的脑海中就会产生大量的与蓝色相关的事务，如天空，蓝鲸，蓝色汽车等，甚至也会联想到和蓝色不相关的，如篮子，兰花等。Anli就是使计算机模仿人类的日常对话的技术，它相较于自然语言推理的话，想象空间更大，并且更加符合人类的日常交流。
2.4 情绪分析
情绪分析是自然语言处理中文本分类的一种具体的应用。
文本分类是指用计算机对文本(或其他实体)按照一定的分类体系或标准进行自动分类标记。伴随着信息的爆炸式增长，人工的标注每个数据属于哪一个类别已经变得非常耗时，并且质量低下，因为受到标注人主观意识的影响。因此，利用计算机自动的来实现对文本进行分类的变得具有很大的意义，将重复且枯燥的文本分类任务交由计算机进行处理能够有效克服以上问题，同时所分类的数据具有一致性、高质量等特点。
情绪分析是计算机在学习了人类情绪特点之后对文本进行情绪上的分类，识别给定文本的情绪（比如，非常消极、消极、中性、积极、非常积极）。如果句子措辞清晰明确，比如“我不喜欢冬天的天气”，情绪分析就可以很简单。然而，当人工智能系统遇到具有翻转结构或否定的句子时，情绪分析可能会变得更具挑战性，例如“说讨厌冬天的天气不是我真正的事情，这是完全不准确的。情感分析核心难点在于如何理解文本情绪以及如何度量文本之间的距离。
下面是一个例子如图所示：
demo
2.5 机器翻译
简单来说，就是利用计算机技术实现从一种自然语言到另外一种自然语言的翻译过程。现在基于统计，深度学习的机器翻译方法突破了之前基于规则和实例翻译方法的局限性，翻译性能取得巨大提升。基于深度神经网络的机器翻译在日常口语等一些场景的成功应用已经显现出了巨大的潜力。随着上下文的语境表征和知识逻辑推理能力的发展，自然语言知识图谱不断扩充，机器翻译将会在多轮对话翻译及篇章翻译等领域取得更大进展。
2.6 问答系统和对话系统
严格上来说，问答系统和对话系统是人工智能多个领域分支结合起来共同实现的技术，自然语言处理是系统中不可获取的一部分。对话系统是接受用户提出的的问题，并返回像人一样相应的回答。常见形式为检索式、抽取式和生成式三种。近年来交互式也逐渐受到关注。典型应用有智能客服。与问答系统有许多相通之处，区别在于问答系统旨在直接给出精准回答，回答是否口语化不在主要考虑范围内；而对话系统旨在以口语化的自然语言对话的方式解决用户问题。对话系统目前分闲聊式和任务导向型。前者主要应用有siri、小冰等；后者主要应用有车载聊天机器人。（对话系统和问答系统应该是最接近NLP终极目标的领域）
3 应用实现的一般步骤
好了，我们了解了自然语言模仿了人类的方方面面，想象力，注意力，理解能力，情绪和对话等等，那么，我们到底是怎么让计算机实现这些技术的呢？下面我们就了解一下自然语言的基本技术吧！
其实现在要实现这些自然语言的技术，一定离不开大数据的支持。像人一样，人类对一件事情做出什么样的反应，有非常大的比重是来自于人类之前经历过的事情，也就是所谓的经验。有了经验，你才会对做某个事情更加得心应手。比如你去考试，如果你在之前已经做了类似的很多题目了，那么你就学习到了很多经验，基于这些经验，这次考试你做出的选择一般来说都是对的。计算机也同样如此，背后大数据的支撑，就是计算机所谓的“经验”，利用这些数据，计算机就可以做出更好更加正确的模仿人类。
另外，自然语言处理的很多细分应用场景中，一般都离不开几个必要的步骤，在介绍具体的实现细节之前，先举一个简单的现实例子来预热一下，准备好了吗？
比如说你想要做一个模型，让计算机帮你分析一个人是否可以做你的男/女朋友，首先你在现实中是对大量的人本身有一个基本度量的，你会很清楚这些人当中哪些是符合你的预期，适合做男女朋友的，哪些坚决不行。然后把这个人的特征抽取出来，比如你喜欢的人身高要在1.6米以上，善良，有车有房等等，计算机就可以根据这些具体量化的特征进行判断，从而输出适合和不适合两个答案。如果计算机输出不符合你的预期，那么就调整输入的特征参数（因为最开始计算机是不知道你身高的要求是1.6米的），将身高这个特征调整为1.55米，或者调整这个特征占整个特征的比重等等，然后重新计算输出，不断的循环，不断的调整特征的参数，直到输出大概率都符合你的预期为止。这样，一个男女朋友判断模型就做出来了。
好了，我们了解了一个简单的模型是怎么实现了之后，具体展开聊聊每个步骤具体要做的事情。
一是获取数据集，让计算机获得所谓的习题和答案。
二是对数据集进行数据的预处理，预处理过程中要对数据集中没有用和重复的词语进行处理，让计算机获得的数据集是高质量的，然后要对这些数据集进行分词，因为计算机是不能直接识别理解一个一个的文字的，所以为了让计算机可以量化每一个文字，我们要先把数据集分成一个一个的词，然后进行特征工程，也就是把每个词变成一个一个的向量。词向量基于某个规则进行（如one-hot、word2vec），每一个词向量不是随机产生的，而是会和周围的其他文字共同计算之后产生，这样每个词向量就和周围的词向量产生了联系，计算机就是通过这种方式来实现理解每个文字之间的联系的。之后就是针对不同的应用进行具体特征的选择，常用算法有（DF、MI、IG、CHI、WLLR、WFO等），至此，就把一个人可以理解的文字集合转变成了计算机可以理解的词向量集合。
三是对某个应用构造具体的模型，我们把这些词向量集合输入计算机之后，根据某个模型（也就是一个算法），基于数据集的“经验”进行计算，从而产生我们想要的结果，如果计算的结果不符合我们的预期，那么就调整每个输入特征的权重，在不断的循环优化中，逐渐的达成我们想要的预期，就像是不断做题的过程，获得了经验就可以做对这个题目。这个过程就是所谓一个计算机的模型学习，将知识转化为经验的过程。
最后就是对模型进行评估，一般我们把数据集分成训练集和测试集两个部分，训练集就是用于对模型进行训练的过程，过程中会不断优化每个输入特征的参数权重。而测试集就是检验我们模型的准确率，区别就在于使用测试集的这个过程不会改变参数权重，而是仅仅观察模型输出的答案是否符合我们的预期。
以上，就是一般情况下自然语言处理必做的几个步骤。
常见的模型分为机器学习模型和深度学习两种：
常见的机器学习模型有KNN，SVM，Naive Bayes，决策树，GBDT，K-means等。
常见的深度学习模型有CNN，RNN，LSTM，Seq2Seq，Fast Text，Text CNN等。
4 未来发展
现在几乎人人都离不开互联网，而且会将大量的文本数据存储放在网络上，这样就产生了大量的自然语言文本文件，这是一个巨大的资源，自然语言处理现在的发展很快，越来越多的人把注意力放在自然语言处理上面，很多方面的应用都有很大的进展，精度也越来越向人类靠近，甚至某些方面已经超越人类。但是，由于所有应用方面都是基于一个很简单的事情来做，跟具体人能干的事情还是差得很远。这些任务大多都只能对应于人的感知，比如识别一个图片里的东西或视频里的东西，都是人类几秒钟能做的事情，但是对于人类需要几个小时，甚至很多天才能做的事情，是没有涉及到的。所以自然语言处理有非常大的发展空间。
"""
def get_key_words(text, num=3):
    """提取关键词"""
    tr4w = TextRank4Keyword()
    tr4w.analyze(text, lower=True)
    key_words = tr4w.get_keywords(num)
    return [item.word for item in key_words]

def get_summary(text, num=3):
    """提取摘要"""
    tr4s = TextRank4Sentence()
    tr4s.analyze(text=text, lower=True, source='all_filters')
    return [item.sentence for item in tr4s.get_key_sentences(num)]

words = get_key_words(text)
print(words)
#['计算机', '自然语言', '人']
summary = get_summary(text)
print(summary)
#['现在几乎人人都离不开互联网，而且会将大量的文本数据存储放在网络上，这样就产生了大量的自然语言文本文件，这是一个巨大的资源，自然语言处理现在的发展很快，越来越多的人把注意力放在自然语言处理上面，很多方面的应用都有很大的进展，精度也越来越向人类靠近，甚至某些方面已经超越人类',
# '首先，自然语言处理是人工智能的一个分支，最终的目标和人工智能一样都是模仿人的行为，而自然语言处理的终极目标细化到对语言的理解，使计算机像人一样阅读和理解语言，并且给出相应符合人类思维的回答',
# '简单来说，自然语言处理就是，对计算机中各种各样的语言文本文件进行分析和应用上的处理']

信息抽取

从给定文本中抽取重要的信息，比如时间、地点、人物、事件、原因、结果、数字、日期、货币、专有名词等等。通俗说来，就是要了解谁在什么时候、什么原因、对谁、做了什么事、有什么结果。

LDA主题模型关键词提取

主题模型是一种统计模型用于发现文档集合中出现的抽象“主题”。主题建模是一种常用的文本挖掘工具，用于在文本体中发现隐藏的语义结构。

from gensim import corpora, models
import jieba.posseg as jp
import jieba


# 简单文本处理
def get_text(text):
    flags = ('n', 'nr', 'ns', 'nt', 'eng', 'v', 'd')  # 词性
    stopwords = ('的', '就', '是', '用', '还', '在', '上', '作为')  # 停用词
    words_list = []
    for text in texts:
        words = [w.word for w in jp.cut(text) if w.flag in flags and w.word not in stopwords]
        words_list.append(words)
    return words_list


# 生成LDA模型
def LDA_model(words_list):
    # 构造词典
    # Dictionary()方法遍历所有的文本，为每个不重复的单词分配一个单独的整数ID，同时收集该单词出现次数以及相关的统计信息
    dictionary = corpora.Dictionary(words_list)
    print(dictionary)
    print('打印查看每个单词的id:')
    print(dictionary.token2id)  # 打印查看每个单词的id

    # 将dictionary转化为一个词袋
    # doc2bow()方法将dictionary转化为一个词袋。得到的结果corpus是一个向量的列表，向量的个数就是文档数。
    # 在每个文档向量中都包含一系列元组,元组的形式是（单词 ID，词频）
    corpus = [dictionary.doc2bow(words) for words in words_list]
    print('输出每个文档的向量:')
    print(corpus)  # 输出每个文档的向量

    # LDA主题模型
    # num_topics -- 必须，要生成的主题个数。
    # id2word    -- 必须，LdaModel类要求我们之前的dictionary把id都映射成为字符串。
    # passes     -- 可选，模型遍历语料库的次数。遍历的次数越多，模型越精确。但是对于非常大的语料库，遍历太多次会花费很长的时间。
    lda_model = models.ldamodel.LdaModel(corpus=corpus, num_topics=2, id2word=dictionary, passes=10)

    return lda_model


if __name__ == "__main__":
    texts = ['作为千元机中为数不多拥有真全面屏的手机，OPPO K3一经推出，就簇拥不少粉丝', \
             '很多人在冲着这块屏幕购买了OPPO K3之后，发现原来K3的过人之处不止是在屏幕上', \
             'OPPO K3的消费者对这部手机总体还是十分满意的', \
             '吉利博越PRO在7月3日全新吉客智能生态系统GKUI19发布会上正式亮相', \
             '今年上海车展，长安CS75 PLUS首次亮相', \
             '普通版车型采用的是双边共双出式排气布局；运动版本车型采用双边共四出的排气布局']
    # 获取分词后的文本列表
    words_list = get_text(texts)
    print('分词后的文本：')
    print(words_list)

    # 获取训练后的LDA模型
    lda_model = LDA_model(words_list)

    # 可以用 print_topic 和 print_topics 方法来查看主题
    # 打印所有主题，每个主题显示5个词
    topic_words = lda_model.print_topics(num_topics=2, num_words=5)
    print('打印所有主题，每个主题显示5个词:')
    print(topic_words)

    # 输出该主题的的词及其词的权重
    words_list = lda_model.show_topic(0, 5)
    print('输出该主题的的词及其词的权重:')
    print(words_list)

舆情分析

是指收集和处理海量信息，自动化地对网络舆情进行分析，以实现及时应对网络舆情的目的。

# -*- coding:utf-8 -*-
import pandas as pd
import jieba
 
#基于波森情感词典计算情感值
def getscore(text):
    df = pd.read_table(r"BosonNLP_dict\BosonNLP_sentiment_score.txt", sep=" ", names=['key', 'score'])
    key = df['key'].values.tolist()
    score = df['score'].values.tolist()
    # jieba分词
    segs = jieba.lcut(text,cut_all = False) #返回list
    # 计算得分
    score_list = [score[key.index(x)] for x in segs if(x in key)]
    return sum(score_list)
 
#读取文件
def read_txt(filename):
    with open(filename,'r',encoding='utf-8')as f:
        txt = f.read()
    return txt
#写入文件
def write_data(filename,data):
    with open(filename,'a',encoding='utf-8')as f:
        f.write(data)
 
 
if __name__=='__main__':
    text = read_txt('test_data\微博.txt')
    lists  = text.split('\n')
 
    # al_senti = ['无','积极','消极','消极','中性','消极','积极','消极','积极','积极','积极',
    #             '无','积极','积极','中性','积极','消极','积极','消极','积极','消极','积极',
    #             '无','中性','消极','中性','消极','积极','消极','消极','消极','消极','积极'
    #             ]
    al_senti = read_txt(r'test_data\人工情感标注.txt').split('\n')
    i = 0
    for list in lists:
        if list  != '':
            # print(list)
            sentiments = round(getscore(list),2)
            #情感值为正数，表示积极；为负数表示消极
            print(list)
            print("情感值：",sentiments)
            print('人工标注情感倾向：'+al_senti[i])
            if sentiments > 0:
                print("机器标注情感倾向：积极\n")
                s = "机器判断情感倾向：积极\n"
            else:
                print('机器标注情感倾向：消极\n')
                s = "机器判断情感倾向：消极"+'\n'
            sentiment = '情感值：'+str(sentiments)+'\n'
            al_sentiment= '人工标注情感倾向:'+al_senti[i]+'\n'
            #文件写入
            filename = 'result_data\BosonNLP情感分析结果.txt'
            write_data(filename,'情感分析文本：')
            write_data(filename,list+'\n') #写入待处理文本
            write_data(filename,sentiment) #写入情感值
            write_data(filename,al_sentiment) #写入机器判断情感倾向
            write_data(filename,s+'\n') #写入人工标注情感
            i = i+1

你可能感兴趣的:(人生苦短-我用Python,自然语言处理,人工智能,nlp)

【硬核拆解】英伟达Blackwell芯片架构如何重构AI算力边界？ HeartException 人工智能
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站一、Blackwell诞生的算力危机（2025现状）graphTDA[2025年AI算力需求]-->B[千亿参数模型训练能耗>20GWh]A-->C[10万亿参数模型涌现]A-->D[传统架构内存墙：数据搬运耗能占68%]行业拐点事件：2025年3月：OpenAI宣布训练125万亿参数MoE模型
成像光谱遥感技术中的AI革命：ChatGPT在遥感领域中的应用科研的力量人工智能 ChatGPT chatgpt 人工智能
课程将最新的人工智能技术与实际的遥感应用相结合，提供不仅是理论上的，而且是适用和可靠的工具和方法。无论你是经验丰富的研究人员还是好奇的从业者，本课程都将为分析和解释遥感数据开辟新的、有效的方法，使你的工作更具影响力和前沿性。遥感技术主要通过卫星和飞机从远处观察和测量我们的环境，是理解和监测地球物理、化学和生物系统的基石。ChatGPT是由OpenAI开发的最先进的语言模型，在理解和生成人类语言方面
解锁AI新世界：ModelGate携手Cherry Studio，开启智能之旅
解锁AI新世界：ModelGate携手CherryStudio，开启智能之旅在人工智能技术飞速发展的当下，我们的工作与生活正被AI深刻改变。你是否渴望拥有一个强大的工具，帮你轻松驾驭各类AI应用，提升效率与创造力？今天，就为大家介绍一对黄金搭档——ModelGate与CherryStudio，它们将带你进入AI应用的全新境界。CherryStudio堪称AI桌面生态的“集大成者”，是一款支持多家主
Prompt Engineering 指南教程班磊闯Andrea
PromptEngineering指南教程Prompt-Engineering-Guidedair-ai/Prompt-Engineering-Guide:是一个用于指导对话人工智能开发的文档。适合用于学习对话人工智能开发和自然语言处理。特点是提供了详细的指南和参考资料，涵盖了多种对话人工智能技术和算法，并且可以自定义学习路径和行为。项目地址:https://gitcode.com/gh_mirr
电子词典开源项目源代码完全解析
本文还有配套的精品资源，点击获取简介：电子词典作为数字化学习工具，已由传统硬件发展为可定制的开源软件应用。本源代码提供深入理解其工作机制的机会，包括用户界面设计、词典数据库、查询引擎、翻译算法等。源代码通常由主流编程语言编写，涉及到数据结构与算法、UI设计、数据库管理、自然语言处理、本地化与多语言支持、版本控制、软件工程、API接口以及开源社区的协作和交流。1.电子词典工作原理和定制功能电子词典工
AI人工智能 Agent：在节能减排中的应用 AI天才研究院 Agentic AI 实战 AI人工智能与大数据 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1全球气候变化与节能减排随着工业化进程的加速和人口的不断增长，全球气候变化问题日益严峻。温室气体排放导致的全球变暖、极端天气事件频发等问题，已经对人类的生存环境和社会经济发展造成了严重威胁。因此，节能减排已成为全球共识，各国政府和企业都在积极探索和实施各种节能减排措施。1.2人工智能技术的兴起近年来，人工智能（AI）技术发展迅猛，并在各个领域取得了显著成果。AI技术具有强大的数据分
SOTA是什么意思？有奇妙能力吗 AI 知识分享自然语言处理人工智能 ai
最近看到一篇关于Transformer模型的论文，谷歌推出的BERT模型在11项NLP（naturallanguageprocessing）任务中夺得SOTA结果，引爆了整个NLP界。而Transformer是BERT取得成功的一个关键因素。谷歌的Transformer模型最早用于机器翻译任务，当时达到了SOTA效果。那么文中的SOTA效果，SOTA结果是什么意思呢?这里就来简单介绍一下定义：SO
CLIP之后，多模态模型将如何进化？三大技术路径解析老周聊AI AI大模型人工智能 MCP 机器学习神经网络深度学习 AI大模型大模型训练框架
多模态学习的革命：CLIP技术深度解析关注老周不迷路本文较长，建议点赞收藏以免遗失。由于文章篇幅有限，更多涨薪知识点，也可在主页查看最新AI大模型应用开发学习资料免费领取引言：多模态学习的时代来临在人工智能领域，多模态学习正成为最具前景的研究方向之一。传统AI系统通常专注于单一模态（如纯文本或纯图像），而人类认知的本质却是多模态的——我们通过视觉、听觉、触觉等多种感官协同理解世界。OpenAI于2
华为认证二选一：物联网 VS 人工智能，你的赛道在哪里？博睿谷IT99_ 物联网人工智能华为华为认证
一篇不讲情怀只讲干货的科普指南一、华为物联网&人工智能到底在搞什么？华为物联网（IoT）的核心是“万物互联”。通过传感器、通信技术（如NB-IoT/5G）、云计算平台（如OceanConnect），将物理设备（车、路灯、工厂机器）连入网络，实现数据采集、远程控制和智能决策。大白话就是：它让哑巴设备学会“说话”。华为人工智能（AI）的核心是“让机器学会思考”。聚焦大模型训练、部署与应用（如昇腾AI解
结构性变革与新兴机遇倒霉男孩经济学
近年来，全球就业市场正经历深刻的结构性变革。受技术进步、产业升级、人口结构变化及全球经济格局调整的影响，传统就业模式被重塑，新的职业机会不断涌现。本文将分析当前就业市场的主要趋势，并探讨其对劳动者、企业和政策制定者的启示。###**一、技术驱动下的就业结构变化**1.**人工智能与自动化替代部分传统岗位**-麦肯锡全球研究院预测，到2030年，全球约14%的劳动者（3.75亿人）可能因自动化技术而
大数据未来发展的趋势与挑战倒霉男孩大数据
随着信息技术的飞速发展，大数据已经成为推动社会进步和产业变革的重要力量。从商业决策到医疗健康，从智慧城市到人工智能，大数据技术的应用无处不在。未来，随着5G、物联网（IoT）、人工智能（AI）等技术的深度融合，大数据的发展将迎来更广阔的空间，同时也面临诸多挑战。本文将探讨大数据未来的发展趋势、应用前景以及可能面临的问题。一、大数据未来的发展趋势数据量持续爆发式增长随着5G网络的普及和物联网设备的广
Python知识点：如何使用Nvidia Jetson与Python进行边缘计算杰哥在此 Python系列 python 边缘计算开发语言面试编程
开篇，先说一个好消息，截止到2025年1月1日前，翻到文末找到我，赠送定制版的开题报告和任务书，先到先得！过期不候！如何使用NvidiaJetson与Python进行边缘计算NvidiaJetson平台是专为边缘计算设计的一系列AI计算机，它们能够处理和分析来自物联网(IoT)设备和边缘节点的数据。这些设备小巧、节能且功能强大，非常适合用于执行机器学习、计算机视觉和自然语言处理等任务。Python
未来运维，绝绝AI 必备 AI_运维_攻城狮 ai 运维人工智能
在当今数字化时代，运维工作对于企业的稳定运行至关重要。随着科技的不断进步，人工智能（AI）和自动化技术正逐渐改变着运维行业的面貌。本文将分析运维行业的未来发展方向，探讨人工智能在运维中的应用前景、自动化运维的发展趋势，并对未来的运维工作模式和技能需求进行预测和分析，以帮助读者更好地规划自己的职业发展。一、运维行业现状目前，运维工作主要包括服务器管理、网络管理、数据库管理、应用程序监控等方面。运维工
AI人工智能领域：Bard的崛起之路 AIGC应用创新大全人工智能 bard ai
AI人工智能领域：Bard的崛起之路关键词：Bard、GoogleAI、大语言模型、对话式AI、自然语言处理、生成式AI、AI竞争摘要：本文深入探讨GoogleBard的发展历程、技术架构及其在AI领域的地位。我们将从Bard的诞生背景开始，分析其核心技术原理，比较与其他大语言模型的异同，并通过实际案例展示其应用场景。最后展望Bard的未来发展方向及面临的挑战。背景介绍目的和范围本文旨在全面解析G
AI人工智能领域深度学习的跨模态检索技术 AI学长带你学AI AI人工智能与大数据应用开发 AI应用开发高级指南人工智能深度学习 ai
AI人工智能领域深度学习的跨模态检索技术关键词：跨模态检索、深度学习、多模态学习、特征提取、相似度计算、注意力机制、Transformer摘要：本文深入探讨了AI领域中基于深度学习的跨模态检索技术。我们将从基础概念出发，详细分析跨模态检索的核心算法原理、数学模型和实际应用。文章包含完整的Python实现示例，展示如何构建一个跨模态检索系统，并讨论当前的技术挑战和未来发展方向。通过本文，读者将全面理
Python程序设计第6章：函数和函数式编程若北辰 Python程序设计 python 开发语言
Python程序设计Python是全球范围内最受欢迎的编程语言之一，学好Python将对个人职业生涯产生很大的助力，Python在机器学习、深度学习、数据挖掘等领域应用极为广泛。在数据科学家/数据分析师、人工智能工程师、网络安全工程师、软件工程师/全栈工程师、自动化测试工程师等岗位，年入50万，很普遍，学好Python，高薪就业不是问题，因此推出Python程序设计系列文章：Python程序设计第
什么是神经网络和机器学习？【云驻共创】一键难忘人工智能机器学习深度学习神经网络网络
什么是神经网络和机器学习？一.背景在当今数字化浪潮中，神经网络和机器学习已成为科技领域的中流砥柱。它们作为人工智能的支柱，推动了自动化、智能化和数据驱动决策的进步。然而，对于初学者和专业人士来说，理解神经网络和机器学习的本质是至关重要的。在本文中，我们将深入探讨这两个概念的内涵、工作原理以及彼此之间的联系。二.神经网络和机器学习简介神经网络和机器学习都是人工智能领域中的重要概念，它们通常用于解决各
AI人工智能与OpenCV：实现智能图像编辑功能 AI智能探索者 AI Agent 智能体开发实战人工智能 opencv 计算机视觉 ai
AI人工智能与OpenCV：实现智能图像编辑功能关键词：人工智能、OpenCV、图像处理、计算机视觉、深度学习、智能编辑、图像增强摘要：本文深入探讨如何结合人工智能(AI)和OpenCV实现智能图像编辑功能。我们将从基础概念出发，详细介绍核心算法原理，展示实际代码实现，并分析典型应用场景。文章将涵盖从传统图像处理技术到深度学习方法的演进，重点讲解如何利用OpenCV和AI模型实现自动化的图像增强、
Orangepi Zero2 全志H616开发学习会学嵌入式 ARM Linux全志平台开发学习 linux 开发语言服务器
一.简介1.1为什么学学习目标依然是Linux系统，平台是ARM架构·蜂巢快递柜，配送机器人，这些应用场景用C51,STM32单片机无法实现·第三方介入库的局限性，比如刷脸支付和公交车收费设备需要集成支付宝SDK，提供的libalipay.so是Linux的库，设备必须跑Linux系统·图像识别，音频，视频等领域的技术支撑也无法脱离Linux系统·人工智能型设备通常需要更好的系统和更高的算力，所以
人工智能-基础篇-2-什么是机器学习？（ML，监督学习，半监督学习，零监督学习，强化学习，深度学习，机器学习步骤等） weisian151 人工智能人工智能机器学习学习
1、什么是机器学习？机器学习（MachineLearning,ML）是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析等数学理论。其核心目标是让计算机通过分析数据，自动学习规律并构建模型，从而对未知数据进行预测或决策，而无需依赖显式的程序指令。基本思想：通过数据驱动的方式，使系统能够从经验（数据）中改进性能，形成对数据模式的抽象化表达。基本概念：模型：模型是对现实世界现
2025年AI十大趋势：从多模态大模型到自主智能体 zhuzhi 人工智能大数据
2025年AI十大趋势：从多模态大模型到自主智能体人工智能技术正以前所未有的速度重塑着我们的世界。2025年，AI领域将迎来一系列突破性进展，从多模态大模型的全面进化到自主智能体的广泛应用，这些技术变革正在重新定义人机交互的边界。本文将系统梳理2025年AI发展的十大核心趋势，为读者揭示人工智能技术的最新发展方向及其对社会各领域的深远影响。趋势一：多模态大模型成为基础设施2025年，多模态大模型已
对话式AI助手的巅峰对决：ChatGPT与文心一言的实用价值探讨酷钉 chatgpt 人工智能
随着人工智能技术的发展，对话式AI助手逐渐成为了人们生活中的一部分。其中，ChatGPT和文心一言更是备受关注的两款对话式AI助手。本文将探讨这两款AI助手的实用价值，并通过案例和数据的方式进行分析。一、ChatGPT的实用价值跨语言交流ChatGPT是一款能够进行跨语言交流的对话式AI助手。据统计，ChatGPT支持的语言数量超过100种，用户可以通过它轻松地与不同国家和地区的人进行交流。例如，
微信小程序｜流浪动物救助小程序的设计与实现 qq_469603589 微信小程序小程序微信小程序
作者主页：编程指南针作者简介：Java领域优质创作者、CSDN博客专家、CSDN内容合伙人、掘金特邀作者、阿里云博客专家、51CTO特邀作者、多年架构师设计经验、腾讯课堂常驻讲师主要内容：Java项目、Python项目、前端项目、人工智能与大数据、简历模板、学习资料、面试题库、技术互助收藏点赞不迷路关注作者有好处文末获取源码项目编号：L-BS-XZBS-30一，环境介绍语言环境：Java:jdk1
计算机专业毕业设计选题指南（2025创新版）程序员小天00 课程设计毕业设计小程序 python eclipse java
计算机专业毕业设计选题指南（2025创新版）一、选题方向全景图（按技术维度划分）智能服务系统开发技术架构：SpringBoot+Vue3+MySQL/MongoDB典型场景：●智慧校园：实验室预约系统、学术成果可视化平台●医疗健康：电子病历智能分析系统、慢性病管理助手●城市治理：垃圾分类智能识别系统、交通拥堵预测模型创新点：融合OCR识别/NLP技术，实现无感化服务跨平台应用开发技术选型：Unia
如何禁止GPTBot等爬虫爬取网站内容：保护数据安全的实用指南淮橘√ 人工智能
引言随着人工智能技术的快速发展，网络爬虫（如OpenAI的GPTBot、GoogleBot、Anthropic的ClaudeBot等）被广泛用于抓取网站数据以训练AI模型或索引内容。然而，部分网站管理员可能不希望自己的内容被爬虫抓取，原因包括保护原创内容、降低服务器负载或防止数据被滥用。一、为什么需要禁止爬虫？网络爬虫可能带来以下问题：内容盗用风险：原创内容可能被AI模型或其他服务未经授权使用。服
Java 与 AI 携手，掀起多领域智能变革浪潮 WangRK_ 人工智能 java 开发语言
在数字化转型的时代浪潮下，技术更新迭代速度超乎想象。当Java这门历经二十余年沉淀的编程语言，遇上风头正劲的人工智能（AI），一场席卷多领域的智能变革正悄然发生。尤其是在金融与零售两大行业，这场技术融合带来的改变，正重塑着整个行业的生态。一、Java在金融与零售行业的“前世今生”（一）曾经的行业基石在金融领域，Java堪称“代码钢铁侠”，是金融基础设施的坚实支柱。全球顶级交易所依靠Java强大的性
从零开始理解Transformer模型：架构与应用淮橘√ transformer 深度学习人工智能
引言近年来，Transformer模型席卷了自然语言处理（NLP）领域，成为了深度学习中的明星架构。从Google提出的《AttentionisAllYouNeed》论文到ChatGPT、BERT等模型的广泛应用，Transformer以其强大的性能和灵活性改变了我们对序列建模的认知。本文将从零开始，深入浅出地解析Transformer的架构原理、核心组件以及实际应用场景，并提供一个简单的代码示例
筑牢医疗AI安全防线：四重防护体系全解析 Allen_Lyb 数智化教程（第二期）人工智能安全
一、引言：医疗AI发展中的安全困境在数字化浪潮席卷下，医疗领域正经历着一场由人工智能（AI）驱动的深刻变革。医疗AI凭借其强大的数据分析与处理能力，在疾病诊断、药物研发、健康管理等诸多环节展现出巨大潜力，成为推动医疗行业进步的关键力量。而这一切的背后，医疗数据作为AI发展的“燃料”，以及AI算力作为运行的“引擎”，起着不可或缺的核心作用。医疗数据涵盖了患者从基本信息、病史、症状描述到各种检查检验报
Open AI在AI人工智能领域的技术安全防护体系 AI智能探索者 AI Agent 智能体开发实战人工智能安全网络 ai
OpenAI在AI人工智能领域的技术安全防护体系关键词：OpenAI、AI安全、技术防护、伦理框架、模型对齐、数据隐私、对抗攻击摘要：本文将深入探讨OpenAI在人工智能领域构建的多层次技术安全防护体系。我们将从基础概念出发，逐步解析OpenAI如何通过技术创新和系统设计来确保AI系统的安全性、可靠性和可控性。文章将涵盖从数据安全到模型对齐，从伦理框架到实际防护技术的全方位内容，帮助读者全面理解现
揭秘自然语言处理在AI人工智能领域的奥秘 AI智能探索者 AI Agent 智能体开发实战人工智能自然语言处理 easyui ai
揭秘自然语言处理在AI人工智能领域的奥秘关键词：自然语言处理、AI人工智能、语言理解、语言生成、语义分析摘要：本文深入探讨了自然语言处理（NLP）在AI人工智能领域的奥秘。首先介绍了自然语言处理的背景，包括目的、预期读者、文档结构和相关术语。接着阐述了自然语言处理的核心概念与联系，通过文本示意图和Mermaid流程图进行展示。详细讲解了核心算法原理和具体操作步骤，并用Python源代码进行阐述。分
Enum 枚举 120153216 enum 枚举
原文地址：http://www.cnblogs.com/Kavlez/p/4268601.html Enumeration 于Java 1.5增加的enum type...enum type是由一组固定的常量组成的类型，比如四个季节、扑克花色。在出现enum type之前，通常用一组int常量表示枚举类型。比如这样： public static final int APPLE_FUJI = 0
Java8简明教程 bijian1013 java jdk1.8
Java 8已于2014年3月18日正式发布了，新版本带来了诸多改进，包括Lambda表达式、Streams、日期时间API等等。本文就带你领略Java 8的全新特性。一.允许在接口中有默认方法实现 Java 8 允许我们使用default关键字，为接口声明添
Oracle表维护快速备份删除数据 cuisuqiang oracle 索引快速备份删除
我知道oracle表分区，不过那是数据库设计阶段的事情，目前是远水解不了近渴。当前的数据库表，要求保留一个月数据，且表存在大量录入更新，不存在程序删除。为了解决频繁查询和更新的瓶颈，我在oracle内根据需要创建了索引。但是随着数据量的增加，一个半月数据就要超千万，此时就算有索引，对高并发的查询和更新来说，让然有所拖累。为了解决这个问题，我一般一个月会进行一次数据库维护，主要工作就是备
java多态内存分析麦田的设计者 java 内存分析多态原理接口和抽象类
“ 时针如果可以回头，熟悉那张脸，重温嬉戏这乐园，墙壁的松脱涂鸦已经褪色才明白存在的价值归于记忆。街角小店尚存在吗？这大时代会不会牵挂，过去现在花开怎么会等待。但有种意外不管痛不痛都有伤害，光阴远远离开，那笑声徘徊与脑海。但这一秒可笑不再可爱，当天心
Xshell实现Windows上传文件到Linux主机被触发 windows
经常有这样的需求，我们在Windows下载的软件包，如何上传到远程Linux主机上？还有如何从Linux主机下载软件包到Windows下；之前我的做法现在看来好笨好繁琐，不过也达到了目的，笨人有本方法嘛；我是怎么操作的： 1、打开一台本地Linux虚拟机，使用mount 挂载Windows的共享文件夹到Linux上，然后拷贝数据到Linux虚拟机里面；（经常第一步都不顺利，无法挂载Windo
类的加载ClassLoader 肆无忌惮_ ClassLoader
类加载器ClassLoader是用来将java的类加载到虚拟机中，类加载器负责读取class字节文件到内存中，并将它转为Class的对象（类对象），通过此实例的 newInstance()方法就可以创建出该类的一个对象。其中重要的方法为findClass(String name)。如何写一个自己的类加载器呢？首先写一个便于测试的类Student
html5写的玫瑰花知了ing html5
<html> <head> <title>I Love You!</title> <meta charset="utf-8" /> </head> <body> <canvas id="c"></canvas>
google的ConcurrentLinkedHashmap源代码解析矮蛋蛋 LRU
原文地址： http://janeky.iteye.com/blog/1534352 简述 ConcurrentLinkedHashMap 是google团队提供的一个容器。它有什么用呢？其实它本身是对 ConcurrentHashMap的封装，可以用来实现一个基于LRU策略的缓存。详细介绍可以参见 http://code.google.com/p/concurrentlinke
webservice获取访问服务的ip地址 alleni123 webservice
1. 首先注入javax.xml.ws.WebServiceContext, @Resource private WebServiceContext context; 2. 在方法中获取交换请求的对象。 javax.xml.ws.handler.MessageContext mc=context.getMessageContext(); com.sun.net.http
菜鸟的java基础提升之道——————>是否值得拥有百合不是茶
1，c++，java是面向对象编程的语言，将万事万物都看成是对象；java做一件事情关注的是人物，java是c++继承过来的，java没有直接更改地址的权限但是可以通过引用来传值操作地址，java也没有c++中繁琐的操作，java以其优越的可移植型，平台的安全型，高效性赢得了广泛的认同，全世界越来越多的人去学习java，我也是其中的一员 java组成：
通过修改Linux服务自动启动指定应用程序 bijian1013 linux
Linux中修改系统服务的命令是chkconfig (check config)，命令的详细解释如下: chkconfig 功能说明：检查，设置系统的各种服务。语　　法：chkconfig [ -- add][ -- del][ -- list][系统服务] 或 chkconfig [ -- level <</SPAN>
spring拦截器的一个简单实例 bijian1013 java spring 拦截器 Interceptor
Purview接口 package aop; public interface Purview { void checkLogin(); } Purview接口的实现类PurviesImpl.java package aop; public class PurviewImpl implements Purview { public void check
[Velocity二]自定义Velocity指令 bit1129 velocity
什么是Velocity指令在Velocity中，#set,#if, #foreach, #elseif, #parse等，以#开头的称之为指令，Velocity内置的这些指令可以用来做赋值，条件判断，循环控制等脚本语言必备的逻辑控制等语句，Velocity的指令是可扩展的，即用户可以根据实际的需要自定义Velocity指令自定义指令(Directive)的一般步骤 &nbs
【Hive十】Programming Hive学习笔记 bit1129 programming
第二章 Getting Started 1.Hive最大的局限性是什么？一是不支持行级别的增删改(insert, delete, update)二是查询性能非常差(基于Hadoop MapReduce）,不适合延迟小的交互式任务三是不支持事务2. Hive MetaStore是干什么的？Hive persists table schemas and other system metadata.
nginx有选择性进行限制 ronin47 nginx 动静　限制
http { limit_conn_zone $binary_remote_addr zone=addr:10m; limit_req_zone $binary_remote_addr zone=one:10m rate=5r/s;... server {... location ~.*\.(gif|png|css|js|icon)$ {
java-4.-在二元树中找出和为某一值的所有路径 . bylijinnan java
/* * 0.use a TwoWayLinkedList to store the path.when the node can't be path,you should/can delete it. * 1.curSum==exceptedSum:if the lastNode is TreeNode,printPath();delete the node otherwise
Netty学习笔记 bylijinnan java netty
本文是阅读以下两篇文章时： http://seeallhearall.blogspot.com/2012/05/netty-tutorial-part-1-introduction-to.html http://seeallhearall.blogspot.com/2012/06/netty-tutorial-part-15-on-channel.html 我的一些笔记 ===
js获取项目路径 cngolon js
//js获取项目根路径，如： http://localhost:8083/uimcardprj function getRootPath(){ //获取当前网址，如： http://localhost:8083/uimcardprj/share/meun.jsp var curWwwPath=window.document.locati
oracle 的性能优化 cuishikuan oracle SQL Server
在网上搜索了一些Oracle性能优化的文章，为了更加深层次的巩固[边写边记]，也为了可以随时查看，所以发表这篇文章。 1.ORACLE采用自下而上的顺序解析WHERE子句，根据这个原理，表之间的连接必须写在其他WHERE条件之前，那些可以过滤掉最大数量记录的条件必须写在WHERE子句的末尾。（这点本人曾经做过实例验证过，的确如此哦！
Shell变量和数组使用详解 daizj linux shell 变量数组
Shell 变量定义变量时，变量名不加美元符号（$，PHP语言中变量需要），如： your_name="w3cschool.cc" 注意，变量名和等号之间不能有空格，这可能和你熟悉的所有编程语言都不一样。同时，变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）。中间不能有空格，可以使用下划线（_）。不能使用标点符号。不能使用ba
编程中的一些概念，KISS、DRY、MVC、OOP、REST dcj3sjt126com REST
KISS、DRY、MVC、OOP、REST （1）KISS是指Keep It Simple,Stupid（摘自wikipedia），指设计时要坚持简约原则，避免不必要的复杂化。（2）DRY是指Don't Repeat Yourself（摘自wikipedia），特指在程序设计以及计算中避免重复代码，因为这样会降低灵活性、简洁性，并且可能导致代码之间的矛盾。（3）OOP 即Object-Orie
[Android]设置Activity为全屏显示的两种方法 dcj3sjt126com Activity
1. 方法1：AndroidManifest.xml 里，Activity的 android:theme 指定为" @android:style/Theme.NoTitleBar.Fullscreen" 示例: <application
solrcloud 部署方式比较 eksliang solrCloud
solrcloud 的部署其实有两种方式可选，那么我们在实践开发中应该怎样选择呢？第一种：当启动solr服务器时，内嵌的启动一个Zookeeper服务器，然后将这些内嵌的Zookeeper服务器组成一个集群。第二种：将Zookeeper服务器独立的配置一个集群，然后将solr交给Zookeeper进行管理谈谈第一种：每启动一个solr服务器就内嵌的启动一个Zoo
Java synchronized关键字详解 gqdy365 synchronized
转载自：http://www.cnblogs.com/mengdd/archive/2013/02/16/2913806.html 多线程的同步机制对资源进行加锁，使得在同一个时间，只有一个线程可以进行操作，同步用以解决多个线程同时访问时可能出现的问题。同步机制可以使用synchronized关键字实现。当synchronized关键字修饰一个方法的时候，该方法叫做同步方法。当s
js实现登录时记住用户名 hw1287789687 记住我记住密码 cookie 记住用户名记住账号
在页面中如何获取cookie值呢? 如果是JSP的话,可以通过servlet的对象request 获取cookie,可以参考:http://hw1287789687.iteye.com/blog/2050040 如果要求登录页面是html呢?html页面中如何获取cookie呢? 直接上代码了页面:loginInput.html 代码: <!DOCTYPE html PUB
开发者必备的 Chrome 扩展 justjavac chrome
Firebug：不用多介绍了吧https://chrome.google.com/webstore/detail/bmagokdooijbeehmkpknfglimnifench ChromeSnifferPlus：Chrome 探测器，可以探测正在使用的开源软件或者 js 类库https://chrome.google.com/webstore/detail/chrome-sniffer-pl
算法机试题李亚飞 java 算法机试题
在面试机试时，遇到一个算法题，当时没能写出来，最后是同学帮忙解决的。这道题大致意思是：输入一个数，比如4,。这时会输出： &n
正确配置Linux系统ulimit值字符串 ulimit
在Linux下面部署应用的时候，有时候会遇上Socket/File: Can’t open so many files的问题；这个值也会影响服务器的最大并发数，其实Linux是有文件句柄限制的，而且Linux默认不是很高，一般都是1024，生产服务器用其实很容易就达到这个数量。下面说的是，如何通过正解配置来改正这个系统默认值。因为这个问题是我配置Nginx+php5时遇到了，所以我将这篇归纳进
hibernate调用返回游标的存储过程 Supanccy2013 java DAO oracle Hibernate jdbc
注：原创作品，转载请注明出处。上篇博文介绍的是hibernate调用返回单值的存储过程，本片博文说的是hibernate调用返回游标的存储过程。此此扁博文的存储过程的功能相当于是jdbc调用select 的作用。 1，创建oracle中的包，并在该包中创建的游标类型。 ---创建oracle的程
Spring 4.2新特性-更简单的Application Event wiselyman application
1.1 Application Event Spring 4.1的写法请参考10点睛Spring4.1-Application Event 请对比10点睛Spring4.1-Application Event 使用一个@EventListener取代了实现ApplicationListener接口,使耦合度降低; 1.2 示例包依赖 <p