Sonhhxg_柒

【NLP】词向量

大家好，我是Sonhhxg_柒，希望你看完之后，能对你有所帮助，不足请指正！共同学习交流

个人主页－Sonhhxg_柒的博客_CSDN博客

欢迎各位→点赞 + 收藏⭐️ + 留言

系列专栏 - 机器学习【ML】自然语言处理【NLP】深度学习【DL】

foreword

✔说明⇢本人讲解主要包括Python、机器学习（ML）、深度学习（DL）、自然语言处理（NLP）等内容。

如果你对这个系列感兴趣的话，可以关注订阅哟

文章目录

什么是词向量/词嵌入

词向量的理解 TODO

Word2Vec

基于层次 SoftMax 的 CBOW 模型

层次 SoftMax 的正向传播

层次 Softmax 的反向传播 TODO

基于层次 Softmax 的 Skip-gram 模型

---

基于负采样的 CBOW 和 Skip-gram

负采样算法

Word2Vec 中的做法

一些源码细节

σ(x) 的近似计算

低频词的处理

高频词的处理

自适应学习率

参数初始化

GloVe

共现矩阵

构架共现矩阵的细节

GloVe 的基本思想

GloVe 的目标函数

GloVe 目标函数的推导过程

GloVe 与 Word2Vec 的区别

FastText

gensim.models.FastText 使用示例

获取单个词的 ngrams 表示

计算一个未登录词的词向量

WordRank TODO

CharCNN 字向量

其他实践

一般 embedding 维度的选择

什么是词向量/词嵌入

词向量（word embedding）是一个固定长度的实值向量
词向量是神经语言模型的副产品。
词向量是针对“词”提出的。事实上，也可以针对更细或更粗的粒度来进行推广——比如字向量、句向量、文档向量等

词向量的理解 TODO

word2vec 中的数学原理详解（三）背景知识 - CSDN博客

在 NLP 任务中，因为机器无法直接理解自然语言，所以首先要做的就是将语言数学化——词向量就是一种将自然语言数学化的方法。

One-hot 表示

TODO

分布式表示 (distributed representation)

分布式假设
TODO
常见的分布式表示方法
- 潜在语义分析 (Latent Semantic Analysis, LSA)
  - SVD 分解
- 隐含狄利克雷分布 (Latent Dirichlet Allocation, LDA)，主题模型
- 神经网络、深度学习

Word2Vec

Word2Vec 本质上也是一个神经语言模型，但是它的目标并不是语言模型本身，而是词向量；因此，其所作的一系列优化，都是为了更快更好的得到词向量
Word2Vec 提供了两套模型：CBOW 和 Skip-Gram(SG)
- CBOW 在已知 context(w) 的情况下，预测 w
- SG 在已知 w 的情况下预测 context(w)
从训练集的构建方式可以更好的理解和区别 CBOW 和 SG 模型
- 每个训练样本为一个二元组 (x, y)，其中 x为特征，y为标签
  
  假设上下文窗口的大小 context_window =5，即
  
  或者说 skip_window = 2，有 context_window = skip_window*2 + 1
- CBOW 的训练样本为：
- SG 的训练样本为：
- 一般来说，skip_window <= 10
除了两套模型，Word2Vec 还提供了两套优化方案，分别基于 Hierarchical Softmax (层次SoftMax) 和 Negative Sampling (负采样)

基于层次 SoftMax 的 CBOW 模型

【输入层】将 context(w) 中的词映射为 m 维词向量，共 2c 个
【投影层】将输入层的 2c 个词向量累加求和，得到新的 m 维词向量
【输出层】输出层对应一棵哈夫曼树，以词表中词作为叶子节点，各词的出现频率作为权重——共 N 个叶子节点，N-1 个非叶子节点
对比 N-gram 神经语言模型的网络结构
- 【输入层】前者使用的是 w 的前 n-1 个词，后者使用 w 两边的词
  
  这是后者词向量的性能优于前者的主要原因
- 【投影层】前者通过拼接，后者通过累加求和
- 【隐藏层】后者无隐藏层
- 【输出层】前者为线性结构，后者为树形结构
模型改进
- 从对比中可以看出，CBOW 模型的主要改进都是为了减少计算量——取消隐藏层、使用层Softmax代替基本Softmax

层次 SoftMax 的正向传播

层 Softmax 实际上是把一个超大的多分类问题转化成一系列二分类问题
示例：求 P("足球"|context("足球"))
- 从根节点到“足球”所在的叶子节点，需要经过 4 个分支，每次分支相当于一次二分类（逻辑斯蒂回归，二元Softmax）
  
  这里遵从原文，将 0 作为正类，1 作为负类
- 而 P("足球"|context("足球")) 就是每次分类正确的概率之积，即
  
  这里每个非叶子都对应一个参数 θ_i

为什么层次 SoftMax 能加速

Softmax 大部分的计算量在于分母部分，它需要求出所有分量的和
而层次 SoftMax 每次只需要计算两个分量，因此极大的提升了速度

层次 Softmax 的反向传播 TODO

word2vec 中的数学原理详解（四）基于 Hierarchical Softmax 的模型 - CSDN博客

基于层次 Softmax 的 Skip-gram 模型

这里保留了【投影层】，但实际上只是一个恒等变换
从模型的角度看：CBOW 与 SG 模型的区别仅在于 x_w 的构造方式不同，前者是 context(w) 的词向量累加；后者就是 w 的词向量
虽然 SG 模型用中心词做特征，上下文词做类标，但实际上两者的地位是等价的

---

基于负采样的 CBOW 和 Skip-gram

层次 Softmax 还不够简单，于是提出了基于负采样的方法进一步提升性能
负采样（Negative Sampling）是 NCE(Noise Contrastive Estimation) 的简化版本

噪音对比估计（NCE） - CSDN博客
CBOW 的训练样本是一个 (context(w), w) 二元对；对于给定的 context(w)，w 就是它的正样本，而其他所有词都是负样本。
如果不使用负采样，即 N-gram 神经语言模型中的做法，就是对整个词表 Softmax 和交叉熵
负采样相当于选取所有负例中的一部分作为负样本，从而减少计算量
Skip-gram 模型同理

负采样算法

负采样算法，即对给定的 w ，生成相应负样本的方法
最简单的方法是随机采样，但这会产生一点问题，词表中的词出现频率并不相同
- 如果不是从词表中采样，而是从语料中采样；显然，那些高频词被选为负样本的概率要大于低频词
- 在词表中采样时也应该遵循这个
因此，负采样算法实际上就是一个带权采样过程

Word2Vec 中的做法

记
以这 N+1 个点对区间 [0,1] 做非等距切分
引入的一个在区间 [0,1] 上的 M 等距切分，其中 M >> N

源码中取 M = 10^8
然后对两个切分做投影，得到映射关系
采样时，每次生成一个 [1, M-1] 之间的整数 i，则 Table(i) 就对应一个样本；当采样到正例时，跳过（拒绝采样）。
特别的，Word2Vec 在计算 len(w) 时做了一些改动——为 count(·) 加了一个指数

一些源码细节

`σ(x)` 的近似计算

类似带权采样的策略，用查表来代替计算
具体计算公式如下

因为 σ(x) 函数的饱和性，当 x < -6 || x > 6 时，函数值基本不变了

低频词的处理

对于低频词，会设置阈值（默认 5），对于出现频次低于该阈值的词会直接舍弃，同时训练集中也会被删除

高频词的处理

高频词提供的信息相对较少，为了提高低频词的词向量质量，有必要对高频词进行限制
高频词对应的词向量在训练时，不会发生明显的变化，因此在训练是可以减少对这些词的训练，从而提升速度

Sub-sampling 技巧

源码中使用 Sub-sampling 技巧来解决高频词的问题，能带来 2~10 倍的训练速度提升，同时提高低频词的词向量精度
给定一个词频阈值 t，将 w 以 p(w) 的概率舍弃，p(w) 的计算如下

Word2Vec 中的Sub-sampling

显然，Sub-Sampling 只会针对出现频次大于 t 的词
特别的，Word2Vec 使用如下公式计算 p(w)，效果是类似的

自适应学习率

预先设置一个初始的学习率 η_0（默认 0.025），每处理完 M（默认 10000）个词，就根据以下公式调整学习率
随着训练的进行，学习率会主键减小，并趋向于 0
为了方式学习率过小，Word2Vec 设置了一个阈值 η_min（默认 0.0001 * η_0）；当学习率小于 η_min，则固定为 η_min。

参数初始化

词向量服从均匀分布 [-0.5/m, 0.5/m]，其中 m 为词向量的维度
所有网络参数初始化为 0

GloVe

CS224d - L2&3-词向量

共现矩阵

共现矩阵的实现方式
- 基于文档 - LSA 模型（SVD分解）
- 基于窗口 - 类似 skip-gram 模型中的方法
  
  skip_window = 1 的共现矩阵

构架共现矩阵的细节

功能词的处理
- 功能词：如 "the", "he", "has", ...
- 法1）直接忽略
  - 在一些分类问题上可以这么做；如果目标是词向量，则不建议使用这种方法
- 法2）设置阈值 min(x, t)
  - 其中 x 为功能词语其他词的共现次数，t 为设置的阈值
可以尝试使用一些方法代替单纯的计数，如皮尔逊相关系数，负数记为 0

但是似乎没有人这么做

GloVe 的基本思想

GloVe 模型的是基于共现矩阵构建的
GloVe 认为共现矩阵可以通过一些统计信息得到词之间的关系，这些关系可以一定程度上表达词的含义
- solid related to ice but not steam
- gas related to stream but not ice
- water related to both
- fashion relate not to both
说明 TODO
GloVe 的基本思想：
- 假设词向量已知，如果这些词向量通过某个函数（目标函数）可以拟合共现矩阵中的统计信息，那么可以认为这些词向量也拥有了共现矩阵中蕴含的语义
- 模型的训练过程就是拟合词向量的过程

GloVe 的目标函数

其中

w_i 和 w_j 为词向量
x_ij 为 w_i 和 w_j 的共现次数
f(x) 是一个权重函数，为了限制高频词和防止 x_ij = 0
- 当 x_ij = 0 时，有

GloVe 目标函数的推导过程

以前整理在 OneNote 上的，有时间在整理

目标函数
w_i 的权重函数

GloVe 与 Word2Vec 的区别

Word2Vec 本质上是一个神经网络；
Glove 也利用了反向传播来更新词向量，但是结构要更简单，所以 GloVe 的速度更快
Glove 认为 Word2Vec 对高频词的处理还不够，导致速度慢；GloVe 认为共现矩阵可以解决这个问题

实际 Word2Vec 已结有了一些对高频词的措施 > 高频词的处理
从效果上看，虽然 GloVe 的训练速度更快，但是词向量的性能在通用性上要弱一些：
在一些任务上表现优于 Word2Vec，但是在更多的任务上要比 Word2Vec 差

FastText

FastText 是从 Word2Vec 的 CBOW 模型演化而来的；

从网络的角度来看，两者的模型基本一致；区别仅在于两者的输入和目标函数不同；

基于层次 SoftMax 的 CBOW 模型
FastText 与 CBOW 的相同点：
- 包含三层：输入层、隐含层、输出层（Hierarchical Softmax）
- 输入都是多个单词的词向量
- 隐藏层（投影层）都是对多个词向量的叠加平均
- 输出都是一个特定的 target
- 从网络的角度看，两者基本一致
不同点：
- CBOW 的输入是中心词两侧skip_window内的上下文词；FastText 除了上下文词外，还包括这些词的字符级 N-gram 特征

注意，字符级 N-gram 只限制在单个词内，以英文为例

// 源码中计算 n-grams 的声明，只计算单个词的字符级 n-gram
compute_ngrams(word, unsigned int min_n, unsigned int max_n);

# > https://github.com/vrasneur/pyfasttext#get-the-subwords
>>> model.args.get('minn'), model.args.get('maxn')
(2, 4)
# 调用源码的 Python 接口，源码上也会添加 '<' 和 '>'
>>> model.get_all_subwords('hello') # word + subwords from 2 to 4 characters
['hello', '', 'lo', 'lo>', 'o>']
>>> # model.get_all_subwords('hello world')  # warning

值得一提的是，因为 FastText 使用了字符级的 N-gram 向量作为额外的特征，使其能够对未登录词也能输出相应的词向量；

具体来说，未登录词的词向量等于其 N-gram 向量的叠加

`gensim.models.FastText` 使用示例

../codes/FastText

构建 FastText 以及获取词向量

# gensim 示例
import gensim
import numpy as np
from gensim.test.utils import common_texts
from gensim.models.keyedvectors import FastTextKeyedVectors
from gensim.models._utils_any2vec import compute_ngrams, ft_hash
from gensim.models import FastText

# 构建 FastText 模型
sentences = [["Hello", "World", "!"], ["I", "am", "huay", "."]]
min_ngrams, max_ngrams = 2, 4  # ngrams 范围
model = FastText(sentences, size=5, min_count=1, min_n=min_ngrams, max_n=max_ngrams)

# 可以通过相同的方式获取每个单词以及任一个 n-gram 的向量
print(model.wv['hello'])
print(model.wv['

 
  获取单个词的 ngrams 表示 
   
   利用源码中 compute_ngrams 方法，gensim 提供了该方法的 Python 接口 sum_ngrams = 0
for s in sentences:
    for w in s:
        w = w.lower()
        # from gensim.models._utils_any2vec import compute_ngrams
        ret = compute_ngrams(w, min_ngrams, max_ngrams)  
        print(ret)
        sum_ngrams += len(ret)
"""
['', '', '']
['', '', '']
['', '']
['', '']
['', '', '']
['', '', '']
['<.', '.>', '<.>']
"""
assert sum_ngrams == len(model.wv.vectors_ngrams)
print(sum_ngrams)  # 57
print()
 
 
  
 
  计算一个未登录词的词向量 
   
    未登录词实际上是已知 n-grams 向量的叠加平均
 # 因为 "a", "aa", "aaa" 中都只含有 "
 
 
    只要未登录词能被已知的 n-grams 组合，就能得到该词的词向量 
     
     gensim.models.keyedvectors.FastTextKeyedVectors.word_vec(token) 的内部实现 
    
 word_unk = "aam"
ngrams = compute_ngrams(word_unk, min_ngrams, max_ngrams)  # min_ngrams, max_ngrams = 2, 4
word_vec = np.zeros(model.vector_size, dtype=np.float32)
ngrams_found = 0
for ngram in ngrams:
    ngram_hash = ft_hash(ngram) % model.bucket
    if ngram_hash in model.wv.hash2index:
        word_vec += model.wv.vectors_ngrams[model.wv.hash2index[ngram_hash]]
        ngrams_found += 1

if word_vec.any():  #
    word_vec = word_vec / max(1, ngrams_found)
else:  # 如果一个 ngram 都没找到，gensim 会报错；个人认为把 0 向量传出来也可以
    raise KeyError('all ngrams for word %s absent from model' % word_unk)

print(word_vec)
print(model.wv["aam"])
"""
[ 0.02210762 -0.10488641  0.05512805  0.09150169  0.00725085]
[ 0.02210762 -0.10488641  0.05512805  0.09150169  0.00725085]
"""

# 如果一个 ngram 都没找到，gensim 会报错
#   其实可以返回一个 0 向量的，它内部实际上是从一个 0 向量开始累加的；
#   但返回时做了一个判断——如果依然是 0 向量，则报错
# print(model.wv['z'])
"""
Traceback (most recent call last):
  File "D:/OneDrive/workspace/github/DL-Notes-for-Interview/code/工具库  /gensim/FastText.py", line 53, in 
    print(model.wv['z'])
  File   "D:\program\work\Python\Anaconda3\envs\tf\lib\site-packages\gensim\models  \keyedvectors.py", line 336, in __getitem__
    return self.get_vector(entities)
  File   "D:\program\work\Python\Anaconda3\envs\tf\lib\site-packages\gensim\models  \keyedvectors.py", line 454, in get_vector
    return self.word_vec(word)
  File   "D:\program\work\Python\Anaconda3\envs\tf\lib\site-packages\gensim\models  \keyedvectors.py", line 1989, in word_vec
    raise KeyError('all ngrams for word %s absent from model' % word)
KeyError: 'all ngrams for word z absent from model'
"""
  
  
 
  WordRank TODO 
  CharCNN 字向量 
   
   CharCNN 的思想是通过字符向量得到词向量 
   
   
   [1509] Character-level Convolutional Networks for Text Classification 
   
  其他实践 
  一般 embedding 维度的选择 
   
   Feature Columns  |  TensorFlow 
   
   
   经验公式 embedding_size = n_categories ** 0.25 
   在大型语料上训练的词向量维度通常会设置的更大一些，比如 100~300 
     
     如果根据经验公式，是不需要这么大的，比如 200W 词表的词向量维度只需要 200W ** 0.25 ≈ 37

TensorFlow深度学习实战项目：从入门到精通点我头像干啥 Ai 深度学习 tensorflow 人工智能
引言深度学习作为人工智能领域的一个重要分支，近年来取得了显著的进展。TensorFlow作为Google开源的深度学习框架，因其强大的功能和灵活的架构，成为了众多开发者和研究者的首选工具。本文将带领大家通过一个实战项目，深入理解TensorFlow的使用方法，并掌握深度学习的基本流程。1.TensorFlow简介1.1TensorFlow是什么？TensorFlow是一个开源的机器学习框架，由Go
使用大语言模型API在AI应用中的实现 qq_37836323 人工智能语言模型自然语言处理 python
随着人工智能技术的迅速发展，大语言模型（LLM）在自然语言处理（NLP）领域的应用越来越广泛。本文将介绍如何使用大语言模型API来实现一些基础的AI应用，并提供一个简单的demo代码，帮助大家更好地理解和使用这些技术。大语言模型API简介大语言模型（如GPT-4）能够理解和生成类似人类的文本。这些模型可以应用于各种任务，包括文本生成、语言翻译、情感分析、对话系统等。为了方便国内用户访问这些强大的模
【深度学习】 PyTorch一文详解 Nerous_ 深度学习深度学习 pytorch 人工智能机器学习 python
“PyTorchisadeeplearningframeworkthatprioritizessimplicityandflexibility,makingitthego-tochoiceforbothresearchersanddevelopers.”—Anonymous1.PyTorch简介1.1PyTorch的背景与发展PyTorch是由Facebook人工智能研究院（FAIR）开发的一个开
【NLP】 API在大语言模型中的应用 Nerous_ 深度学习自然语言处理语言模型人工智能
大语言模型（LargeLanguageModels,LLMs）通过API（应用程序接口）为开发者提供了便捷的调用方式，使其能够快速集成自然语言处理能力到各类应用中。以下是API在LLM中的核心应用场景及技术实现细节：一、核心应用场景自然语言理解与生成应用示例：智能客服：解析用户问题并生成回复（如ChatGPTAPI）。内容创作：自动生成文章、广告文案或代码（如OpenAI的GPT-4）。技术实现：
存算一体与存算分离：架构设计的深度解析与实现方案克里斯蒂亚诺罗纳尔多阿维罗大数据数据库
随着数据量的不断增大和对计算能力的需求日益提高，存算一体作为一种新型架构设计理念，在大数据处理、云计算和人工智能等领域正逐步引起广泛关注。在深入探讨存算一体之前，我们需要先了解存储和计算的基本概念，以及存算分离和存算一体之间的区别。什么是存算一体？存算一体，顾名思义，是将数据存储与计算资源紧密结合，形成一个统一的架构。在这种架构下，存储和计算不仅在物理层面上结合，更在架构设计上深度融合。具体来说，
自动语音识别（ASR）：技术、应用与未来 ajie1117 语音识别人工智能
自动语音识别（ASR）：技术、应用与未来1.ASR简介自动语音识别（ASR，AutomaticSpeechRecognition）是一种将语音转换为文本的技术。它利用人工智能（AI）、深度学习和自然语言处理（NLP）技术来识别和理解人类的语言，使计算机能够与人类进行更自然的交互。2.ASR的工作原理ASR的核心流程通常包括以下几个步骤：语音信号采集：通过麦克风或其他设备获取音频数据。预处理：去除噪
30秒生成电子合同：B2B系统+AI引擎缩短80%交易周期|数商云数商云网络 B2B系统数字化电商平台人工智能大数据云计算数据库运维 java spring
引言在数字经济时代，B2B（Business-to-Business）电子商务正在以前所未有的速度改变着企业的运营模式。随着交易量的不断攀升，传统的合同生成和审核流程逐渐成为制约交易效率的瓶颈。然而，随着人工智能（AI）技术的飞速发展，结合B2B系统的智能化升级，我们正见证一场合同生成效率的革命。本文将深入探讨“30秒生成电子合同：B2B系统+AI引擎缩短80%交易周期”这一创新模式，解析其背后的
【北京迅为】iTOP-RK3568开发板OpenHarmony系统南向驱动开发UART接口运作机制迅为电子 RK3568开发板 RK3568开发板 OpenHarmony
瑞芯微RK3568芯片是一款定位中高端的通用型SOC，采用22nm制程工艺，搭载一颗四核Cortex-A55处理器和MaliG522EE图形处理器。RK3568支持4K解码和1080P编码，支持SATA/PCIE/USB3.0外围接口。RK3568内置独立NPU，可用于轻量级人工智能应用。RK3568支持安卓11和linux系统，主要面向物联网网关、NVR存储、工控平板、工业检测、工控盒、卡拉OK
大学期间如何学习利用AI der丸子吱吱吱学习人工智能
一、引言人工智能（AI）是当今世界技术发展的重要方向，它已经渗透到医疗、金融、交通、娱乐等各个领域。随着AI技术的快速发展，它不仅改变了我们的生活，也带来了巨大的职业机会。然而，面对如此广阔的领域，作为大学生，如何在本科阶段有效地学习和利用AI，成了许多同学的困惑。本文将详细介绍大学生在本科阶段如何通过合理的学习路线、方法和工具，逐步掌握AI的核心技术，并为日后进入AI行业打下坚实的基础。通过这篇
全面掌握Python：从安装到基础再到进阶的系统学习之路（附代码，建议新手收藏） der丸子吱吱吱 python 学习开发语言新手入门代码
Python，作为一种现代化的高级编程语言，因其简洁易懂的语法和强大的功能，成为了数据科学、人工智能、Web开发等多个领域的首选语言。在这篇文章中，我们将从大学课本的结构来详细介绍Python，帮助大家从零基础开始，逐步深入掌握Python的各个方面。目录第一章：Python简介与安装1.1Python语言概述1.2安装Python1.3Python的开发环境1.4第一个Python程序第二章：基
yum install locate出现Error: Unable to find match: locate解决方案爱编程的喵喵 Linux解决方案 linux locate yum 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了yuminstalllocate出现
【人工智能机器学习基础篇】——深入详解无监督学习之降维：PCA与t-SNE的关键概念与核心原理猿享天开人工智能数学基础专讲人工智能机器学习无监督学习降维
深入详解无监督学习之降维：PCA与t-SNE的关键概念与核心原理在当今数据驱动的世界中，数据维度的增多带来了计算复杂性和存储挑战，同时也可能导致模型性能下降，这一现象被称为“维度诅咒”（CurseofDimensionality）。降维作为一种重要的特征提取和数据预处理技术，旨在通过减少数据的维度，保留其主要信息，从而简化数据处理过程，并提升模型的性能。本文将深入探讨两种广泛应用于无监督学习中的降
模型上下文协议 (MCP)是什么？Model Context Protocol 需要你了解一下同学小张学习 AIGC AI-native agi gpt 开源协议
大家好，我是同学小张，+v:jasper_8017一起交流，持续学习AI大模型应用实战案例，持续分享，欢迎大家点赞+关注，订阅我的大模型专栏，共同学习和进步。在人工智能领域，ModelContextProtocol（MCP）正逐渐成为连接AI模型与各类数据源及工具的重要标准。MCP究竟为何物？它又将如何改变AI应用的开发与使用？文章目录0.概念1.MCP的总体架构2.为何使用MCP？3.我的理解4
生成式对抗网络在人工智能艺术创作中的应用与创新研究辛迎蕌人工智能
摘要本文深入探究生成式对抗网络（GAN）在人工智能艺术创作领域的应用与创新。通过剖析GAN核心原理，阐述其在图像、音乐、文学等艺术创作中的实践，分析面临的挑战与创新方向，呈现GAN对艺术创作模式的变革，为理解人工智能与艺术融合发展提供全面视角。一、引言在人工智能与艺术深度融合的时代浪潮中，生成式对抗网络（GAN）作为一项突破性技术，为艺术创作带来了全新的可能性。它打破传统创作边界，以独特的对抗学习
知识图谱在人工智能语义理解与推理中的关键作用及发展研究 @王威& 人工智能
摘要本文聚焦知识图谱，深入剖析其在人工智能语义理解与推理中的核心作用。阐述知识图谱的构建原理、表示方法，分析其在自然语言处理、智能问答系统、推荐系统等多领域助力语义理解与推理的应用，探讨面临的挑战并展望未来发展方向，全面呈现知识图谱对人工智能发展的重要价值与深远影响。一、引言在人工智能追求更精准理解和处理人类语言与知识的进程中，知识图谱成为关键技术。它以结构化形式组织海量知识，揭示实体间复杂关系，
Flink启动任务 swg321321 flink 大数据
Flink以本地运行作为解读例如：第一章Python机器学习入门之pandas的使用提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录Flink前言StreamExecutionEnvironmentLocalExecutorMiniClusterStreamGraph二、使用步骤1.引入库2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发
计算机专业毕业设计题目推荐（新颖选题）本科计算机人工智能专业相关毕业设计选题大全✅ 会写代码的羊毕设选题课程设计人工智能毕业设计毕设题目毕业设计题目 ai AI编程
文章目录前言最新毕设选题（建议收藏起来）本科计算机人工智能专业相关的毕业设计选题毕设作品推荐前言2025全新毕业设计项目博主介绍：✌全网粉丝10W+,CSDN全栈领域优质创作者，博客之星、掘金/华为云/阿里云等平台优质作者。技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、大数据、机器学习等设计与开发。主要内容：免费功能
AI人工智能 Agent：在赋能传统行业中的应用 AI天才研究院计算 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AI人工智能Agent：在赋能传统行业中的应用1.背景介绍1.1人工智能的发展历程1.1.1人工智能的起源与发展1.1.2人工智能的三次浪潮1.1.3人工智能的现状与挑战1.2传统行业面临的困境1.2.1效率低下1.2.2成本高企1.2.3决策滞后1.3人工智能赋能传统行业的必要性1.3.1提高效率1.3.2降低成本1.3.3优化决策2.核心概念与联系2.1人工智能Agent的定义2.1.1Age
《深度剖析：BERT与GPT——自然语言处理架构的璀璨双星》人工智能深度学习
在自然语言处理（NLP）的广袤星空中，BERT（BidirectionalEncoderRepresentationsfromTransformers）与GPT（GenerativePretrainedTransformer）系列模型宛如两颗最为耀眼的星辰，引领着NLP技术不断迈向新的高度。它们基于独特的架构设计，以强大的语言理解与生成能力，彻底革新了NLP的研究与应用范式，成为学界和业界竞相探索
“四预”驱动数字孪生水利：让智慧治水守护山河安澜 GeoSaaS 实景三维智慧城市人工智能 gis 大数据安全
近年来，从黄河秋汛到海河特大洪水，从珠江流域性洪灾到长江罕见骤旱，极端天气频发让水安全问题备受关注。如何实现“治水于未发”？数字孪生水利以“预报、预警、预演、预案”（四预）为核心，正在掀起一场水利治理的智慧革命。一、数字孪生水利：从物理世界到虚拟镜像的跃迁数字孪生水利并非简单的“数字建模”，而是通过高精度传感器、大数据、人工智能等技术，在虚拟空间构建与物理流域完全映射的“数字分身”，实现水情、工情
硬件NAS将成为电子垃圾？ DeepSeek+NAS 家用NAS WinNAS 飞牛NAS 人工智能安卓NAS
随着人工智能（AI）技术的快速发展，传统的NAS设备正面临一场深刻的变革。过去，NAS的主要功能是提供数据存储和共享服务，但在AI时代，单纯的存储功能已无法满足用户需求。未来的NAS必须集成本地AI能力，才能成为真正的AI-NAS。然而，当前市场上的NAS产品硬件配置普遍较低，无法支持本地AI的运行。因此，现有的硬件NAS在三年内可能会被淘汰，取而代之的将是集成了AI和NAS功能的家用AI服务器。
Hugging Face预训练GPT微调ChatGPT（微调入门！新手友好！） y江江江江机器学习大模型 gpt chatgpt
HuggingFace预训练GPT微调ChatGPT（微调入门！新手友好！）在实战中，⼤多数情况下都不需要从0开始训练模型，⽽是使⽤“⼤⼚”或者其他研究者开源的已经训练好的⼤模型。在各种⼤模型开源库中，最具代表性的就是HuggingFace。HuggingFace是⼀家专注于NLP领域的AI公司，开发了⼀个名为Transformers的开源库，该开源库拥有许多预训练后的深度学习模型，如BERT、G
【DeepSeek】全方位使用指南————简版諰. 人工智能 ai AI写作
一、平台概述DeepSeek（深度求索）是专注实现AGI的中国的人工智能公司，提供多款AI产品：智能对话（Chat）文生图（Art）代码助手（Coder）API开发接口企业定制解决方案二、注册与登录2.1账号创建访问官网https://www.deepseek.com点击右上角「注册」支持三种方式：手机号+短信验证邮箱注册（需验证邮件）第三方登录（微信/Google账号）2.2订阅计划套餐类型免费
【人工智能】注意力机制深入理解问道飞鱼机器学习与人工智能人工智能注意力机制
文章目录**一、注意力机制的核心思想****二、传统序列模型的局限性****三、Transformer与自注意力机制****1.自注意力机制的数学公式****四、注意力机制的关键改进****1.稀疏注意力（SparseAttention）****2.相对位置编码（RelativePositionEncoding）****3.图注意力网络（GraphAttentionNetwork,GAN）****
Transformer与图神经网络的融合与应用 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Transformer与图神经网络的融合与应用关键词：Transformer,图神经网络,注意力机制,图结构数据,图表示学习,图分类,图生成1.背景介绍近年来，深度学习技术在各个领域取得了显著的进展。其中，Transformer模型和图神经网络（GraphNeuralNetworks,GNNs）是两个备受关注的研究方向。Transformer最初应用于自然语言处理领域，通过自注意力机制实现了并行计
深度学习的颠覆性发展：从卷积神经网络到Transformer AI天才研究院 AI大模型应用入门实战与进阶 ChatGPT 大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍深度学习是人工智能的核心技术之一，它通过模拟人类大脑中的神经网络学习从大数据中抽取知识，从而实现智能化的自动化处理。深度学习的发展历程可以分为以下几个阶段：2006年，GeoffreyHinton等人开始研究卷积神经网络（ConvolutionalNeuralNetworks，CNN），这是深度学习的第一个大突破。CNN主要应用于图像处理和语音识别等领域。2012年，AlexKrizh
使用 OpenAI Chat 模型进行对话开发的入门指南 eahba python
技术背景介绍OpenAI的对话模型（ChatOpenAI）为开发者提供了强大的自然语言处理功能，可以实现高度交互的AI应用。这篇文章将帮助您快速入门，了解如何在您的应用中集成和使用这些模型，并探讨不同的功能特性。核心原理解析ChatOpenAI模型是基于OpenAI的GPT家族，能够理解上下文并产生对话式回应。最新版的模型不仅支持标准文本输入输出，还支持工具调用、结构化输出等高级特性，满足多种复杂
高性能计算:GPU加速与分布式训练 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍随着人工智能技术的飞速发展，深度学习模型的规模和复杂度不断提升，对计算能力的需求也越来越高。传统的CPU架构已经难以满足深度学习模型训练的需求，因此，GPU加速和分布式训练成为了高性能计算领域的研究热点。1.1.深度学习与计算挑战深度学习模型通常包含数百万甚至数十亿个参数，训练过程需要进行大量的矩阵运算和梯度更新，对计算资源的需求非常高。传统的CPU架构虽然具有较强的通用性，但其并行计
人工智能之数学基础：矩阵的范数每天五分钟玩转人工智能机器学习深度学习之数学基础人工智能矩阵算法线性代数范数
本文重点在前面课程中，我们学习了向量的范数，在矩阵中也有范数，本文来学习一下。矩阵的范数对于分析线性映射函数的特性有重要的作用。矩阵范数的本质矩阵范数是一种映射，它将一个矩阵映射到一个非负实数。矩阵的范数前面我们学习了向量的范数，只有当满足几个条件的时候，此时才可以，那么矩阵也是一样的，当满足下面的条件的时候，才可以定义||A||为矩阵A的范数矩阵范数的性质连续性矩阵范数是连续的函数。即如果矩阵序
AI 大模型应用数据中心的数据清洗工具 SuperAGI2025 计算机软件编程原理与应用实践 java python javascript kotlin golang 架构人工智能
1.背景介绍在人工智能大模型应用的浪潮中，数据清洗作为数据预处理的重要环节，对于提升模型性能和可靠性具有至关重要的作用。数据中心作为人工智能模型的运行环境，面临着海量数据流和多样化的数据类型，如何高效、准确地进行数据清洗，成为应用大模型的关键问题之一。本文将详细介绍AI大模型应用数据中心的数据清洗工具，包括核心概念、算法原理、具体操作步骤、应用场景等，旨在为AI大模型的实际应用提供参考。2.核心概
apache ftpserver-CentOS config gengzg apache
<server xmlns="http://mina.apache.org/ftpserver/spring/v1" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation=" http://mina.apache.o
优化MySQL数据库性能的八种方法 AILIKES sql mysql
1、选取最适用的字段属性　　MySQL可以很好的支持大数据量的存取，但是一般说来，数据库中的表越小，在它上面执行的查询也就会越快。因此，在创建表的时候，为了获得更好的性能，我们可以将表中字段的宽度设得尽可能小。例如，在定义邮政编码这个字段时，如果将其设置为CHAR(255),显然给数据库增加了不必要的空间，甚至使用VARCHAR这种类型也是多余的，因为CHAR(6)就可以很
JeeSite 企业信息化快速开发平台 Kai_Ge JeeSite
JeeSite 企业信息化快速开发平台平台简介 JeeSite是基于多个优秀的开源项目，高度整合封装而成的高效，高性能，强安全性的开源Java EE快速开发平台。 JeeSite本身是以Spring Framework为核心容器，Spring MVC为模型视图控制器，MyBatis为数据访问层， Apache Shiro为权限授权层，Ehcahe对常用数据进行缓存，Activit为工作流
通过Spring Mail Api发送邮件 120153216 邮件 main
原文地址：http://www.open-open.com/lib/view/open1346857871615.html 使用Java Mail API来发送邮件也很容易实现，但是最近公司一个同事封装的邮件API实在让我无法接受，于是便打算改用Spring Mail API来发送邮件，顺便记录下这篇文章。【Spring Mail API】 Spring Mail API都在org.spri
Pysvn 程序员使用指南 2002wmj SVN
源文件:http://ju.outofmemory.cn/entry/35762 这是一篇关于pysvn模块的指南. 完整和详细的API请参考 http://pysvn.tigris.org/docs/pysvn_prog_ref.html. pysvn是操作Subversion版本控制的Python接口模块. 这个API接口可以管理一个工作副本, 查询档案库, 和同步两个. 该
在SQLSERVER中查找被阻塞和正在被阻塞的SQL 357029540 SQL Server
SELECT R.session_id AS BlockedSessionID , S.session_id AS BlockingSessionID , Q1.text AS Block
Intent 常用的用法备忘 7454103 .net android Google Blog F#
Intent 应该算是Android中特有的东西。你可以在Intent中指定程序要执行的动作（比如：view,edit,dial），以及程序执行到该动作时所需要的资料。都指定好后，只要调用startActivity()，Android系统会自动寻找最符合你指定要求的应用程序，并执行该程序。下面列出几种Intent 的用法显示网页:
Spring定时器时间配置 adminjun spring 时间配置定时器
红圈中的值由6个数字组成，中间用空格分隔。第一个数字表示定时任务执行时间的秒，第二个数字表示分钟，第三个数字表示小时，后面三个数字表示日，月，年，< xmlnamespace prefix ="o" ns ="urn:schemas-microsoft-com:office:office" /> 测试的时候，由于是每天定时执行，所以后面三个数
POJ 2421 Constructing Roads 最小生成树 aijuans 最小生成树
来源：http://poj.org/problem?id=2421 题意：还是给你n个点，然后求最小生成树。特殊之处在于有一些点之间已经连上了边。思路：对于已经有边的点，特殊标记一下，加边的时候把这些边的权值赋值为0即可。这样就可以既保证这些边一定存在，又保证了所求的结果正确。代码： #include <iostream> #include <cstdio>
重构笔记——提取方法（Extract Method） ayaoxinchao java 重构提炼函数局部变量提取方法
提取方法（Extract Method）是最常用的重构手法之一。当看到一个方法过长或者方法很难让人理解其意图的时候，这时候就可以用提取方法这种重构手法。下面是我学习这个重构手法的笔记：提取方法看起来好像仅仅是将被提取方法中的一段代码，放到目标方法中。其实，当方法足够复杂的时候，提取方法也会变得复杂。当然，如果提取方法这种重构手法无法进行时，就可能需要选择其他
为UILabel添加点击事件 bewithme UILabel
默认情况下UILabel是不支持点击事件的，网上查了查居然没有一个是完整的答案，现在我提供一个完整的代码。 UILabel *l = [[UILabel alloc] initWithFrame:CGRectMake(60, 0, listV.frame.size.width - 60, listV.frame.size.height)]
NoSQL数据库之Redis数据库管理(PHP-REDIS实例) bijian1013 redis 数据库 NoSQL
一.redis.php <?php //实例化 $redis = new Redis(); //连接服务器 $redis->connect("localhost"); //授权 $redis->auth("lamplijie"); //相关操
SecureCRT使用备注 bingyingao secureCRT 每页行数
SecureCRT日志和卷屏行数设置一、使用securecrt时，设置自动日志记录功能。 1、在C:\Program Files\SecureCRT\下新建一个文件夹(也就是你的CRT可执行文件的路径），命名为Logs； 2、点击Options -> Global Options -> Default Session -> Edite Default Sett
【Scala九】Scala核心三：泛型 bit1129 scala
泛型类 package spark.examples.scala.generics class GenericClass[K, V](val k: K, val v: V) { def print() { println(k + "," + v) } } object GenericClass { def main(args: Arr
素数与音乐 bookjovi 素数数学 haskell
由于一直在看haskell，不可避免的接触到了很多数学知识，其中数论最多，如素数，斐波那契数列等，很多在学生时代无法理解的数学现在似乎也能领悟到那么一点。闲暇之余，从图书馆找了<<The music of primes>>和<<世界数学通史>>读了几遍。其中素数的音乐这本书与软件界熟知的&l
Java-Collections Framework学习与总结-IdentityHashMap BrokenDreams Collections
这篇总结一下java.util.IdentityHashMap。从类名上可以猜到，这个类本质应该还是一个散列表，只是前面有Identity修饰，是一种特殊的HashMap。简单的说，IdentityHashMap和HashM
读《研磨设计模式》-代码笔记-享元模式-Flyweight bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.HashMap; import java.util.List; import java
PS人像润饰&调色教程集锦 cherishLC PS
1、仿制图章沿轮廓润饰——柔化图像，凸显轮廓 http://www.howzhi.com/course/retouching/ 新建一个透明图层，使用仿制图章不断Alt+鼠标左键选点，设置透明度为21%，大小为修饰区域的1/3左右（比如胳膊宽度的1/3），再沿纹理方向（比如胳膊方向）进行修饰。所有修饰完成后，对该润饰图层添加噪声，噪声大小应该和
更新多个字段的UPDATE语句 crabdave update
更新多个字段的UPDATE语句 update tableA a set (a.v1, a.v2, a.v3, a.v4) = --使用括号确定更新的字段范围
hive实例讲解实现in和not in子句 daizj hive not in in
本文转自：http://www.cnblogs.com/ggjucheng/archive/2013/01/03/2842855.html 当前hive不支持 in或not in 中包含查询子句的语法，所以只能通过left join实现。假设有一个登陆表login(当天登陆记录,只有一个uid),和一个用户注册表regusers(当天注册用户，字段只有一个uid)，这两个表都包含
一道24点的10+种非人类解法（2,3,10,10） dsjt 算法
这是人类算24点的方法？！！！事件缘由：今天晚上突然看到一条24点状态，当时惊为天人，这NM叫人啊？以下是那条状态朱明西 : 24点，算2 3 10 10，我LX炮狗等面对四张牌痛不欲生，结果跑跑同学扫了一眼说，算出来了，2的10次方减10的3次方。。我草这是人类的算24点啊。。然后么。。。我就在深夜很得瑟的问室友求室友算刚出完题，文哥的暴走之旅开始了 5秒后
关于YII的菜单插件 CMenu和面包末breadcrumbs路径管理插件的一些使用问题 dcj3sjt126com yii framework
在使用 YIi的路径管理工具时，发现了一个问题。 <?php
对象与关系之间的矛盾：“阻抗失配”效应[转] come_for_dream 对象
概述 “阻抗失配”这一词组通常用来描述面向对象应用向传统的关系数据库（RDBMS）存放数据时所遇到的数据表述不一致问题。C++程序员已经被这个问题困扰了好多年，而现在的Java程序员和其它面向对象开发人员也对这个问题深感头痛。 “阻抗失配”产生的原因是因为对象模型与关系模型之间缺乏固有的亲合力。“阻抗失配”所带来的问题包括：类的层次关系必须绑定为关系模式（将对象
学习编程那点事 gcq511120594 编程互联网
一年前的夏天，我还在纠结要不要改行，要不要去学php？能学到真本事吗？改行能成功吗？太多的问题，我终于不顾一切，下定决心，辞去了工作，来到传说中的帝都。老师给的乘车方式还算有效，很顺利的就到了学校，赶巧了，正好学校搬到了新校区。先安顿了下来，过了个轻松的周末，第一次到帝都，逛逛吧！接下来的周一，是我噩梦的开始，学习内容对我这个零基础的人来说，除了勉强完成老师布置的作业外，我已经没有时间和精力去
Reverse Linked List II hcx2013 list
Reverse a linked list from position m to n. Do it in-place and in one-pass. For example:Given 1->2->3->4->5->NULL, m = 2 and n = 4, return
Spring4.1新特性——页面自动化测试框架Spring MVC Test HtmlUnit简介 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Hadoop集群工具distcp liyonghui160com
1. 环境描述两个集群：rock 和 stone rock无kerberos权限认证，stone有要求认证。 1. 从rock复制到stone，采用hdfs Hadoop distcp -i hdfs://rock-nn:8020/user/cxz/input hdfs://stone-nn:8020/user/cxz/运行在rock端，即源端问题：报版本
一个备份MySQL数据库的简单Shell脚本 pda158 mysql 脚本
　　主脚本（用于备份mysql数据库）：　　该Shell脚本可以自动备份数据库。只要复制粘贴本脚本到文本编辑器中，输入数据库用户名、密码以及数据库名即可。我备份数据库使用的是mysqlump 命令。后面会对每行脚本命令进行说明。　　 1. 分别建立目录“backup”和“oldbackup” 　　#mkdir /backup 　　#mkdir /oldbackup 　
300个涵盖IT各方面的免费资源（中）——设计与编码篇 shoothao IT资源图标库图片库色彩板字体
A. 免费的设计资源 Freebbble:来自于Dribbble的免费的高质量作品。 Dribbble:Dribbble上“免费”的搜索结果——这是巨大的宝藏。 Graphic Burger:每个像素点都做得很细的绝佳的设计资源。 Pixel Buddha:免费和优质资源的专业社区。 Premium Pixels:为那些有创意的人提供免费的素材。
thrift总结 - 跨语言服务开发 uule thrift
官网官网JAVA例子 thrift入门介绍 IBM-Apache Thrift - 可伸缩的跨语言服务开发框架 Thrift入门及Java实例演示 thrift的使用介绍 RPC POM： <dependency> <groupId>org.apache.thrift</groupId>

【NLP】词向量

foreword

什么是词向量/词嵌入

词向量的理解 TODO

Word2Vec

基于层次 SoftMax 的 CBOW 模型

层次 SoftMax 的正向传播

层次 Softmax 的反向传播 TODO

基于层次 Softmax 的 Skip-gram 模型

---

基于负采样的 CBOW 和 Skip-gram

负采样算法

Word2Vec 中的做法

一些源码细节

σ(x) 的近似计算

低频词的处理

高频词的处理

自适应学习率

参数初始化

GloVe

共现矩阵

构架共现矩阵的细节

GloVe 的基本思想

GloVe 的目标函数

GloVe 目标函数的推导过程

GloVe 与 Word2Vec 的区别

FastText

gensim.models.FastText 使用示例

获取单个词的 ngrams 表示

计算一个未登录词的词向量

WordRank TODO

CharCNN 字向量

其他实践

一般 embedding 维度的选择

你可能感兴趣的:(自然语言处理（NLP）,1024程序员节,自然语言处理,人工智能)

`σ(x)` 的近似计算

`gensim.models.FastText` 使用示例