机计复计机

NLP入门（1）— 从NNLM到Word2Vec

前言

这是本人的第一篇博客，主要以记录自己的学习内容为主，由于水平有限，如果内容有误还请各位看官多多包涵，及时指正。本篇博客也多参考了各篇博客、书籍及视频，在此感谢各位前辈的指导。
这一篇博客将要介绍早期NLP发展阶段使用到的模型，随后引出至今为止依然在使用的词向量。

数学基础

贝叶斯公式

贝叶斯公式是英国数学家贝叶斯（ Thomas Bayes）提出来的，用来描述两个条件概率之间的关系。若记P(A)，P(B)分别表示事件A和事件B发生的概率，P(A|B)表示事件B发生的情况下事件A发生的概率，P(A,B)表示事件A，B同时发生的概率，则有
$\frac { P ( A , B ) } { P ( B ) } , \quad P ( B | A ) = \frac { P ( A , B ) } { P ( A ) }$
根据上面的公式进一步推出
$\frac { P ( B | A ) } { P ( B ) }$
以上便是贝叶斯公式。

统计语言模型

简单说来，统计语言模型简单来讲就是计算一个句子出现概率的概率模型。

模型原理

假设一个句子W 由T个词 $\cdots , w _ { T }$ 按顺序组成，记作
$\left( w _ { 1 } , w _ { 2 } , \cdots , w _ { T } \right)$
则一个句子的概率就是词 $\cdots , w _ { T }$ 的联合概率
$\left( w _ { 1 } ^ { T } \right) = p \left( w _ { 1 } , w _ { 2 } , \cdots , w _ { T } \right)$
根据贝叶斯公式，上式分解为
$\left( w _ { 1 } ^ { T } \right) = p \left( w _ { 1 } \right) \cdot p \left( w _ { 2 } | w _ { 1 } \right) \cdot p \left( w _ { 3 } | w _ { 1 } ^ { 2 } \right) \cdots p \left( w _ { T } | w _ { 1 } ^ { T - 1 } \right)$
这里等式右边的式子中各项条件概率便是该语言模型（LM）的参数了。如果计算得到了这些参数，那么就可以通过上面的式子计算得到句子出现的概率。
接下来介绍计算这些参数的方法。计算参数的方法有很多，这里只介绍n-gram和神经网络两种。

参数计算

现在考虑计算上面式子中的一个参数 $\left( w _ { k } | w _ { 1 } ^ { k - 1 } \right)(k>1)$ 。根据贝叶斯公式，有
$\left( w _ { k } | w _ { 1 } ^ { k - 1 } \right) = \frac { p \left( w _ { 1 } ^ { k } \right) } { p \left( w _ { 1 } ^ { k - 1 } \right) }$
根据大数定理，当语料库足够大时，上式近似表示为
$\left( w _ { k } | w _ { 1 } ^ { k - 1 } \right) \approx \frac { \ { count } \left( w _ { 1 } ^ { k } \right) } { \ { count } \left( w _ { 1 } ^ { k - 1 } \right) }$
其中 $\ { count } \left( w _ { 1 } ^ { k } \right)$ 和 $\ { count } \left( w _ { 1 } ^ { k-1 } \right)$ 分别表示词串 $w _ { 1 } ^ { k }$ 和 $w _ { 1 } ^ { k-1 }$ 在语料中出现的次数，即对语料中出现次数进行统计，这也是为什么该模型被称为统计语言模型的原因。
如果 $k$ 很大的时候， $\ { count } \left( w _ { 1 } ^ { k } \right)$ 和 $\ { count } \left( w _ { 1 } ^ { k-1 } \right)$ 的统计非常耗时。

n-gram模型

n-gram的基本思想是：一个词的出现概率只和其之前n-1个词有关，从而大大降低计算复杂度。即
$\left( w _ { k } | w _ { 1 } ^ { k - 1 } \right) \approx p \left( w _ { k } | w _ { k - n + 1 } ^ { k - 1 } \right)$
根据贝叶斯公式和大数定理，上式转化成
$\left( w _ { k } | w _ { 1 } ^ { k - 1 } \right) \approx \frac { \ { count } \left( w _ { k - n + 1 } ^ { k } \right) } { \ { count } \left( w _ { k - n + 1 } ^ { k - 1 } \right) }$
n的取值是一个值得考究的问题，如果n过小，那么模型的效果肯定不行；但是如果n的取值过大，需要计算的参数会指数级增长，计算将非常耗时。实际应用中n=3是常用取值。

神经网络

在机器学习领域通常的做法是：对所考虑的问题建模后先为其构造一个目标函数，然后对这个目标函数进行优化，从而求得一组最优的参数，最后利用这组最优参数对应的模型来进行预测。
对于统计语言模型，构造目标函数为极大似然，即
$\prod _ { w \in \mathcal { C } } p ( w | {Context} ( w ) )$
其中 $\mathcal{C}$ 表示语料（Corpus）， $C o n t e x t (w)$ 表示词的上下文，即 $w$ 周边的词的集合。
实际应用中，目标函数也会常采用极大对数似然
$\mathcal { L } = \sum _ { w \in \mathcal { C } } \log p ( w | { Context } ( w ) )$
接下来将进一步介绍使用神经网络的模型。

神经网络语言模型（NNLM）

概述

应用场景：已知前文数个词语，通过概率计算预测下一个词。
输入：语料中词 $w$ 以及它的上下文{ $w, C o n t e x t (w)$ }；
输出：预测语料中基于前文的前提下每个词的概率 $p ( w | {Context} ( w ) )$ （即类条件概率）；
目标：最大化似然函数。

网络结构

NNLM具有三层网络结构，分别为输入（投影）层、隐含层和输出层，如下图所示。

这里首次出现了词向量的输入处理，关于词向量的介绍放在下一节，在此我们专注于介绍网络结构。

输入（投影）层

将语料中所有不重复的词语提取出来作为词典。这里的输入是传统one-hot编码。one-hot是早期对词语进行编码的形式，在以词典所构成的维度大小的向量中，每一个词对应位标记为1，其余位全为0（关于one-hot更详细的解释建议看官查阅其它博客）。因此也可以将每个词的one-hot看作是每一个词的索引，根据这个索引可以在从语料提取的词典中找到对应的词语。所以图中的输入表示为index。
从one-hot到词向量的转换本质上便是乘以一个转换矩阵C ，这里是共享参数的，所有输入进行相同的矩阵变换。但是为了提取一个词，我们要进行一次矩阵运算，比较低效，所以比较成熟的框架都提供了查表的方法，效率更高。这也就是图中的look-up table。
通过上一步操作得到每个词对应的词向量表示，最后将每个词向量拼接成句子矩阵输入到下一层。

隐含层
隐含层的操作比较简单，经过一层tanh激活函数运算输出到下一层。
输出层
最后的输出层的目的便是要得到每个词的类条件概率。于是将经过隐含层的计算输出进行归一化处理，使用softmax激活函数得到最终的概率。
需要注意的是，输出层这里使用了赫夫曼树的结构进行高效运算，感兴趣的看官可以查阅其它资料。

最后，训练过程便是使得正确词的类条件概率能够最大化的参数调整过程。

总结

在这个模型里面，词向量更像是一个副产物，不过这个副产物却带来了巨大的影响，下一节我们将深入理解。
最后我们讨论一下n-gram与NNLM的关系：n-gram是计算前n-1个词语条件下出现某个词语的概率，NNLM的话以这个概率公式为原型构造的目标函数，是n-gram演化而来的。

词向量及Word2Vec

One-hot Representation

在上一节中我们提到了one-hot representation，他属于词袋模型。one-hot representation用一个很长的向量来表示一个词，向量的长度为词典 $\mathcal{D}$ 的大小N，向量的分量只有一个1，其它全为0，1的位置对应该词在词典中的索引。
这种表示有一些缺点：

容易受维数灾难的困扰：one-hot representation都是非常稀疏的向量，将这样的向量直接输入将增加很多不必要的运算，耗时较长。
无法刻画相似词语之间的关系：one-hot representation只包含词典索引位置的信息，而词典中的词都是随意排列的；这样的数据直接进行学习好比死记硬背，泛化能力差。

Word Embedding

将one-hot representation转换成词向量的操作称作Word Embedding，词向量针对上面提到的缺点进行了改进。

类似语义的词语位置会比较接近，同时向量的每个维度都会代表特殊的含义。

从上面这张图可以很好的解释这种优势，假定这个词向量的维度为2，则词向量空间即为一个平面。其中，动词和名词之间距离较远，植物之间、动物之间的距离很近。同时注意到，动词与动物几乎在同一高度，可以推测纵坐标可能代表着词语的动静含义；横坐标可能代表着词性的关系。
进一步地，相类似的词向量间存在着固定的关系，相同关系的词向量距离也是近乎相同的。

上面两张图非常清晰地展示了这种关系。将国家和首都的词向量，词语的不同时态词向量相连接，发现形成的形状是相似的，说明相似词向量存在固定的关系；接着定量分析，两种相同关系的词向量距离是近似的，因此已知另外一组相同关系词向量的距离可以间接推测其他对应的词向量。

Word Embedding是由机器阅读大量文章之后得到的，是一个无监督的过程。要使无监督过程起效果，实现的思路是词汇的含义可以由上下文来判断得到，或者更明白地说类似含义的词替换之后句子意思不会有问题。

获取词向量

介绍完词向量的优势之后，接下来就要考虑如何能够得到词向量的问题。这里有两种方法实现上述的思路：Count based和Prediction based。
简单介绍一下Count based：统计在相同文档中两个词出现的次数，与两个词的点积（相似度）成正相关，即使用出现频次来代表词向量间的距离。
我们将着重介绍Prediction based：训练一个网络，在给定上一个词的情况下得到输出下一个词的概率分布，在词语概率分布正确的情况下，其隐含层的输入即为所需要的词向量。
解释一下为什么隐含层输入就满足词向量的需求：Prediction based只有在隐含层学习到了较好的词向量特征才能够输出正确的概率分布，因此隐含层的输入确实是我们所需要的。

在网络训练过程中，我们只需要收集大量文本，将上下文输入到文本，最小化与正确词语概率分布之间的交叉熵即可。这里最小化交叉熵是等价于最大化极大似然的，具体的证明可以参考知乎的文章。
单输入一个词汇的效果可能并不好，因此我们输入多个上文词汇，并且共享权重。共享权重目的是：可以减少参数数量，同时，避免上下文词语输入位置不一样而得到不同的结果。

Word2Vec

接下来介绍广为人知的Word2Vec模型，也是基于上一小节提到的Prediction based方法。主要分为CBOW和Skip-gram两种模型。

它们都只有一层隐含层，同样，训练后取出隐含层的输入即为需要的词向量。
CBOW和feedforward NNLM非常相似。CBOW是输入前后文来预测中间词，而NNLM是只是输入前文，没有后文。Skip-gram则与之相反，输入中间词预测上下文。

参考资料

word2vec 中的数学原理详解https://www.cnblogs.com/peghoty/p/3857839.html
李宏毅深度学习19（完整版）国语https://www.bilibili.com/video/av48285039?p=67
神经网路语言模型(NNLM)的理解https://blog.csdn.net/lilong117194/article/details/82018008

最后欢迎各位看官指正错误，如果有不清楚的也欢迎留言，本人才疏学浅，会尽力回答。

你可能感兴趣的:(人工智能,自然语言处理,神经网络,机器学习,深度学习)

嵌入式AI必备技能2-模型的压缩与加速奥德彪123 嵌入式AI 人工智能嵌入式
嵌入式AI必备技能2-模型的压缩与加速引言随着嵌入式AI设备的广泛应用，模型的计算效率和存储需求成为核心挑战。由于嵌入式系统通常资源受限，传统的深度学习模型往往难以直接部署。因此，模型压缩和加速技术应运而生，旨在减少计算量、降低存储需求，同时尽可能保持模型的准确性。本文介绍几种常见的模型压缩与加速方法，包括剪枝、低秩分解、量化、权值共享、知识蒸馏等，并探讨如何综合应用这些技术来优化AI模型。1.常
数据标注工具及其对预训练模型性能的影响 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1预训练模型的崛起近年来，预训练模型（Pre-trainedModels）在自然语言处理（NLP）领域取得了显著的成功。这些模型通过在大规模无标注文本数据集上进行预训练，学习到丰富的语言知识和语义表示，并在下游任务中展现出优异的性能。BERT、GPT-3等预训练模型的出现，标志着NLP领域进入了一个新的时代。1.2数据标注的重要性尽管预训练模型展现出强大的能力，但它们仍然需要针对特
Python 科学计算与机器学习入门：NumPy + Scikit-Learn 实战指南吴师兄大模型 python numpy scikit-learn 人工智能开发语言机器学习编程
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
吴恩达机器学习笔记复盘（二）监督学习和无监督学习 wgc2k 机器学习机器学习笔记学习
监督学习经济价值以及定义监督学习是机器学习中创造了99%经济价值的类型，它是学习输入到输出映射的算法，关键在于给学习算法提供包含正确答案（即给定输入X的正确标签Y）的学习例子。生活中的例子邮件分类，输入是电子邮件，输出是判断邮件是否为垃圾邮件。语音识别，输入音频剪辑，输出文本记录。机器翻译，输入一种语言文本，输出其他语言的相应翻译。在线广告，输入广告和用户信息，预测用户是否点击广告，为公司带来大量
cv君独家视角 | AI内幕系列七：EfficientViT模型：基于多尺度线性注意力模块，实现高效的高分辨率密集预测 cv君 cv君独家视角 AI内幕系列原创项目级实战项目深度学习与计算机视觉精品 1024程序员节 EfficientViT 高分辨率密集预测任务高分辨率视觉模型 Transformer 人工智能计算机视觉
专题概况cv君独家视角|AI内幕系列是一个专注于人工智能领域的深度专题，旨在为读者揭开AI所有领域技术的神秘面纱，展示其背后的科学原理和实际应用。通过一系列精心策划的文章，我们将带您深入了解AI的各个领域，从计算机视觉到文本语音等多模态领域，从基础理论到前沿技术，从行业应用到未来趋势。无论您是AI领域的工程师或者专家，还是对这一领域充满好奇的读者，这个系列都将为您提供高价值的见解和启发，为您带来横
UNet 改进：添加Transformer注意力机制增强捕捉长距离依赖关系的能力听风吹等浪起 AI 改进系列 transformer 深度学习人工智能
目录1.Transformer注意力机制2.Unet改进3.代码1.Transformer注意力机制TransformerBlock是Transformer模型架构的基本组件，广泛应用于机器翻译、文本摘要和情感分析等自然语言处理任务。TransformerBlock是一个由两个子组件组成的构建块：多头注意力机制和前馈神经网络。这两个组件协同工作，处理和转换输入序列。多头注意力机制负责从输入序列中捕
NVIDIA显卡型号有哪些？怎么知道自己电脑的型号？可靠的豆包蟹同志杂烩积累经验分享
NVIDIA显卡型号显卡分N卡和A卡，这个N卡指的是英伟达（NVIDIA），A卡之前是ATI（后来被AMD收购），现在的A卡指的就是AMD显卡。如果是为了玩游戏或者是学深度学习，选显卡肯定是要选N卡，因为A卡对于游戏优化的没有N卡好。（1）图中的GTX表示是英伟达的一个系列名称，全称叫GeForceGTX，GTX定位高端显卡系列，从低到高排名：GS/GT/GTS/GTX/RTX/Ultra，从20
英伟达系列显卡大解析B100、H200、L40S、A100 2301_78234743 java
家里有了变故。。。快手数分秋招一面面经我发现算法岗也不很难进啊(深度学习)算法想转数开…Java零基础校招学习路线突击版（吐血整理）等的花都谢了的华子最后给开了22k，武汉，应该是14a。不过在这几个月里我坚定了搞几年快钱回家和np朋友因骂了hr，boos被封了哈哈哈在央企想被开除需要做什么？2024小米分布式存储研发急招华为2012被毁意向我发现算法岗也不很难进啊(深度学习)在央企想被开除需要做
阿里巴巴发布 R1-Omni：首个基于 RLVR 的全模态大语言模型，用于情感识别新加坡内哥谈技术语言模型人工智能自然语言处理
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/情感识别一直是AI领域的难题，尤其是视觉与音频信号的融合。单独依赖视觉或音频的模型，往往
安全中心建设关键技术之机器学习 sinfoyou 安全机器学习人工智能
1.1.1功能要求针对目前广为流行的网银、掌上银行撞库行为，需要围绕撞库防护建立针对性的发现、预警、拦截体系。在本课题在大量数据中自动分析获得规律，并利用规律对未知数据进行预测。通过机器学习重点解决目前无法在识别撞库攻击源IP地址的基础上，进一步识别出被撞库成功的账号。由于机器学习算法需要从数据中自动分析获得规律，所以必须要有历史数据。在针对撞库攻击行为分析的场景中，首先需要获取手机银行和网上银行
eBest AI Hub全场景接入Deepseek eBest数字化转型方案人工智能
一、技术赋能，智创未来Deepseek的强大基因将为eBest产品注入新的活力即时智能响应：融合海量行业智慧与互联网搜索精华，提供秒级智能建议；多模态理解能力：突破界限，无缝融合文本、代码与图像理解，精准解析用户的需求；进化式深度学习：不断学习，持续进化，为用户提供日益完善、超越期待的服务体验。二、全场景赋能，体验再次跃升1.智能报表-数据洞察，指尖掌控升级后的智能报表功能，能够根据查询和检
认知科学：解决复杂问题的5个关键策略 AI天才研究院 AI大模型应用入门实战与进阶大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍认知科学是一门研究人类思维、认知和行为的科学。它涉及到大脑、神经科学、心理学、语言学、人工智能和计算机科学等多个领域。认知科学试图揭示人类如何理解和处理信息，以及如何进行决策和行动。在本文中，我们将探讨5个关键策略，这些策略可以帮助我们解决复杂问题。这些策略包括：模式识别规则抽取推理和逻辑推理知识表示和知识图谱多模态处理我们将在接下来的部分中详细讨论这些策略，并提供代码实例和数学模型公
人工智能：重塑未来生活与工作的科技力量 Geektec 问答专栏人工智能应用创新
方向一：介绍人工智能技术的发展历程和现状，指出它的应用领域和前景一、人工智能技术的发展历程人工智能（ArtificialIntelligence,AI）作为一门学科，其起源可以追溯到20世纪50年代。最初，AI的研究主要集中在逻辑推理、机器学习和自然语言处理等领域，目标是使机器能够模拟人类的智能行为。尽管在早期的探索中，AI遭遇了诸多挑战和瓶颈，但其发展潜力逐渐被认可，并在随后几十年中得到了迅速的
如何优化AI模型的Prompt：深度指南 Earth explosion 人工智能 prompt
随着人工智能（AI）技术的快速发展，AI模型在文本生成、翻译、问答等领域的应用越来越广泛。在使用这些模型时，**Prompt（提示）**的质量直接影响输出结果的好坏。优化Prompt不仅能提升生成文本的准确性，还能显著提高工作效率。作为一个希望提升AI应用效果的普通人，如何才能优化Prompt呢？本文将为你提供一份详细的指南，涵盖从基础知识到高级技巧的各个方面。一、什么是Prompt？1.1定义P
AI 行业发展趋势：科技创新引领未来变革我是阿萌畅聊AI 人工智能科技学习
在当今数字化时代，人工智能（AI）行业正以前所未有的速度蓬勃发展，深刻地改变着我们的生活、工作和社会格局。从基础技术的突破到广泛的应用场景拓展，AI展现出了一系列令人瞩目的发展趋势，预示着一个充满无限可能的未来。一、技术创新持续突破模型规模与性能提升AI模型正朝着更大规模、更复杂的方向发展。以GPT系列为代表的大语言模型，参数数量不断攀升，从GPT-2的15亿参数到GPT-4的万亿级参数，模型的语
前沿技术有哪些推动行业发展的新技术简介 jiemidashi 经验分享
现在有很多新东西正在改变的生活。比如人工智能。它能帮做很多事情。像写文章、画画还有处理数据。这些都很有用。再说说区块链。它让信息更安全。数据不容易被改掉。这对隐私很有帮助。还有5G网络。速度快得不得了。看视频玩游戏都特别顺畅。感觉和以前完全不一样。再就是新能源车。不用油了。用电就行。省钱又环保。开着还很安静。最后说说虚拟现实。戴上眼镜就能去别的世界。玩游戏或者学习都超级酷。这些东西都在慢慢走进的生
DeepSeek R1有什么不同新加坡内哥谈技术人工智能深度学习机器人科技
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/深度思考实验室（DeepSeek）最近发布了全新的推理模型R1，声称该模型不仅性能超越目
基于RWA 与 AI-Agent 协同的企业数字化生态构建 leijiwen 人工智能
在当前数字经济高速发展的背景下，企业数字化转型已成为提升竞争力和创新能力的必由之路。以实体零售与文旅行业为代表的传统产业，正通过现实世界资产（RWA）数字化与人工智能代理（AI-Agent）的协同应用，构建全新的数字生态系统。正如“无数据不基础、无token不可信、无AI不产品、无产业不应用”这一理念所强调的，数字化生态的建立必须依托数据、信任机制、智能技术以及产业深度融合，才能实现真正的转型升级
Prompt工程：大模型沟通指南（人工智能到大模型） Harry技术 AI prompt 人工智能
文章目录人工智能到大模型机器学习深度学习大模型Prompt工程：大模型沟通的桥梁在人工智能的广袤领域中，大模型无疑是最为璀璨的明珠之一。它仿佛是一座连接人类与人工智能的桥梁，让我们能够更加深入地探索和利用人工智能的强大能力。而要实现与大模型的高效沟通，Prompt工程扮演着至关重要的角色。让我们一起走进Prompt工程的奇妙世界，探寻大模型沟通的奥秘。人工智能到大模型“人工智能是一种模拟人类智能的
科技创新：改变生活的力量与未来趋势 jiemidashi 科技生活人工智能经验分享
人工智能在智能客服中的应用越来越普遍。它改变了传统的客服模式。AI可以快速回答用户的问题，提高了客服效率和服务质量。首先，人工智能能够处理大量信息。智能客服可以在几秒钟内回应客户的请求。这比人工客服快得多。客户不需要等待很久就能得到答案。举个例子，某电商平台使用AI聊天机器人来处理用户咨询。这个机器人能够24小时工作，随时解决问题。这样，顾客体验得到了显著提升。其次，人工智能能提供个性化服务。通过
Cursor 终极使用指南：从零开始走向AI编程二川bro 智能AI 前端 AI编程
Cursor终极使用指南：从零开始走向AI编程问什么是cursor?mindmaproot(Cursor核心功能)智能编码代码生成自动补全错误修复项目管理多窗口布局版本控制终端集成个性设置主题定制快捷键配置插件扩展AI协作对话编程知识检索文档生成前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，可以分享一下给大家。点击跳转到网站。https://www.captainbed.cn/ccc
大语言模型（LLMs）全面学习指南（非常详细）零基础入门到精通，收藏这一篇就够了网络安全大白科技程序员人工智能语言模型人工智能自然语言处理
大语言模型（LLMs）作为人工智能（AI）领域的一项突破性发展，已经改变了自然语言处理（NLP）和机器学习（ML）应用的面貌。这些模型，包括OpenAI的GPT-4o和Google的gemini系列等，已经展现出了在理解和生成类人文本方面的令人印象深刻的能力，使它们成为各行各业的宝贵工具。如下这份指南将涵盖LLMs的基础知识、训练过程、用例和未来趋势……一.WhatareLargeLanguage
Gemma 3 发布：最强单 GPU/TPU 可运行模型，性能超 Llama-405B！新加坡内哥谈技术人工智能自然语言处理语言模型深度学习 copilot llama
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/GoogleDeepMind再次掀起AI界的狂潮，正式推出Gemma3——一款轻量级但性
神经网络完成训练的详细过程每天五分钟玩转人工智能神经网络人工智能深度学习 pytorch 机器学习优化算法包括梯度下降法
神经网络完成训练的详细过程一、神经网络的基本概念神经网络是一种模拟人脑神经系统的计算模型，由大量的神经元（节点）和它们之间的连接（权重）组成。神经元接收输入信号，通过加权求和和激活函数的处理，产生输出信号。这些输出信号又可以作为其他神经元的输入，从而形成一个复杂的网络结构。神经网络的训练过程就是调整这些权重和偏置（每个神经元除了有权重外，还有一个偏置项，用于调整输出的阈值），使得网络的输出能够尽可
大模型生成人物关系思维导图的实战教程 herosunly 大模型生成人物关系生成思维导图实战教程
大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。本文主要介绍了大模型生成人物关系思维导图的实战教程，希望对使用大语言模型的同学们有所帮
轻松掌握：Milvus向量数据库部署与RAG使用技巧威研威语人工智能数据库 milvus 数据库人工智能 RAG
Milvus简介Milvus是一款开源的向量数据库，由Zilliz开发并维护，适合用于机器学习和人工智能领域。是一款专为处理向量查询而设计的数据库，Milvus能够对万亿级向量进行索引。Milvus官网：https://milvus.io/Milvus中文文档：https://www.milvus-io.com/Milvus部署环境准备Linux操作系统Docker19.03或更高版本Docker
《深度剖析：鸿蒙系统下智能NPC与游戏剧情的深度融合》人工智能深度学习
在游戏开发领域，鸿蒙系统的崛起为开发者们带来了前所未有的机遇与挑战。尤其是在开发基于鸿蒙系统的人工智能游戏时，实现智能NPC的行为逻辑与游戏剧情紧密结合，成为了打造沉浸式游戏体验的关键。鸿蒙系统作为一款面向全场景的分布式操作系统，具有强大的多设备协同能力和出色的性能表现。这为人工智能游戏的开发提供了坚实的基础，使得游戏能够在不同设备上流畅运行，并且实现数据的无缝同步。而人工智能技术的融入，则为游戏
《解锁华为黑科技：MindSpore+鸿蒙深度集成奥秘》人工智能深度学习
在数字化浪潮汹涌澎湃的当下，人工智能与操作系统的融合已成为推动科技发展的核心驱动力。华为作为科技领域的先锋，其AI开发框架MindSpore与鸿蒙系统的深度集成备受瞩目，开启了智能生态的新篇章。华为MindSpore：AI框架的创新先锋MindSpore自2019年诞生以来，迅速在AI领域崭露头角。它以其独特的设计理念和先进的技术架构，为开发者提供了全场景的AI开发支持。从设计理念上看，MindS
Python API接口君王的羔羊 Python AI python
人工智能机器人EverydayWechat老李API图灵机器人：http://www.turingapi.com/（需求实名制认证，并每天免费数量只有100条）青云客智能聊天机器人：http://api.qingyunke.com/（无须申请，无数量限制，但有点智障，分手神器。分手神器，慎用）智能闲聊（腾讯）：https://ai.qq.com/product/nlpchat.shtml(申请使用
pytorch实现cifar10多分类总结 L_pyu 人工智能 pytorch 分类
cifar-10简介：CIFAR-10是一个常用的图像分类数据集，每张图片都是3×32×32，3通道彩色图片，分辨率32×32。它包含了10个不同类别，每个类别有6000张图像，其中5000张用于训练，1000张用于测试。这10个类别分别为：飞机、汽车、鸟类、猫、鹿、狗、青蛙、马、船和卡车。CIFAR-10分类任务是将这些图像正确地分类到它们所属的类别中。对于这个任务，可以使用深度学习模型，如卷积
用MiddleGenIDE工具生成hibernate的POJO（根据数据表生成POJO类） AdyZhang POJO eclipse Hibernate MiddleGenIDE
推荐:MiddlegenIDE插件, 是一个Eclipse 插件. 用它可以直接连接到数据库, 根据表按照一定的HIBERNATE规则作出BEAN和对应的XML ，用完后你可以手动删除它加载的JAR包和XML文件! 今天开始试着使用
.9.png Cb123456 android
“点九”是andriod平台的应用软件开发里的一种特殊的图片形式，文件扩展名为：.9.png 　　智能手机中有自动横屏的功能,同一幅界面会在随着手机(或平板电脑)中的方向传感器的参数不同而改变显示的方向,在界面改变方向后,界面上的图形会因为长宽的变化而产生拉伸,造成图形的失真变形。　　我们都知道android平台有多种不同的分辨率，很多控件的切图文件在被放大拉伸后，边
算法的效率天子之骄算法效率复杂度最坏情况运行时间大O阶平均情况运行时间
算法的效率效率是速度和空间消耗的度量。集中考虑程序的速度，也称运行时间或执行时间，用复杂度的阶(O)这一标准来衡量。空间的消耗或需求也可以用大O表示，而且它总是小于或等于时间需求。以下是我的学习笔记： 1.求值与霍纳法则，即为秦九韶公式。 2.测定运行时间的最可靠方法是计数对运行时间有贡献的基本操作的执行次数。运行时间与这个计数成正比。
java数据结构何必如此 java 数据结构
Java 数据结构 Java工具包提供了强大的数据结构。在Java中的数据结构主要包括以下几种接口和类：枚举（Enumeration）位集合（BitSet）向量（Vector）栈（Stack）字典（Dictionary）哈希表（Hashtable）属性（Properties）以上这些类是传统遗留的，在Java2中引入了一种新的框架-集合框架(Collect
MybatisHelloWorld 3213213333332132
//测试入口TestMyBatis package com.base.helloworld.test; import java.io.IOException; import org.apache.ibatis.io.Resources; import org.apache.ibatis.session.SqlSession; import org.apache.ibat
Java|urlrewrite|URL重写|多个参数 7454103 java xml Web 工作
个人工作经验！如有不当之处，敬请指点 1.0 web -info 目录下建立 urlrewrite.xml 文件类似如下： <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE u
达梦数据库+ibatis darkranger sql mysql ibatis SQL Server
--插入数据方面如果您需要数据库自增... 那么在插入的时候不需要指定自增列. 如果想自己指定ID列的值, 那么要设置 set identity_insert 数据库名.模式名.表名; ----然后插入数据; example: create table zhabei.test( id bigint identity(1,1) primary key, nam
XML 解析四种方式 aijuans android
XML现在已经成为一种通用的数据交换格式,平台的无关性使得很多场合都需要用到XML。本文将详细介绍用Java解析XML的四种方法。 XML现在已经成为一种通用的数据交换格式,它的平台无关性,语言无关性,系统无关性,给数据集成与交互带来了极大的方便。对于XML本身的语法知识与技术细节,需要阅读相关的技术文献,这里面包括的内容有DOM(Document Object
spring中配置文件占位符的使用 avords
1.类 <?xml version="1.0" encoding="UTF-8"?><!DOCTYPE beans PUBLIC "-//SPRING//DTD BEAN//EN" "http://www.springframework.o
前端工程化-公共模块的依赖和常用的工作流 bee1314 webpack
题记：一个人的项目，还有工程化的问题嘛？我们在推进模块化和组件化的过程中，肯定会不断的沉淀出我们项目的模块和组件。对于这些沉淀出的模块和组件怎么管理？另外怎么依赖也是个问题？你真的想这样嘛？ var BreadCrumb = require(‘../../../../uikit/breadcrumb’); //真心ugly。
上司说「看你每天准时下班就知道你工作量不饱和」，该如何回应？ bijian1013 项目管理沟通 IT职业规划
问题：上司说「看你每天准时下班就知道你工作量不饱和」，如何回应正常下班时间6点，只要是6点半前下班的，上司都认为没有加班。 Eno-Bea回答，注重感受，不一定是别人的虽然我不知道你具体从事什么工作与职业，但是我大概猜测，你是从事一项不太容易出现阶段性成果的工作
TortoiseSVN，过滤文件征客丶 SVN
环境： TortoiseSVN 1.8 配置：在文件夹空白处右键选择 TortoiseSVN -> Settings 在 Global ignote pattern 中添加要过滤的文件：多类型用英文空格分开 *name ：过滤所有名称为 name 的文件或文件夹 *.name ：过滤所有后缀为 name 的文件或文件夹 --------
【Flume二】HDFS sink细说 bit1129 Flume
1. Flume配置 a1.sources=r1 a1.channels=c1 a1.sinks=k1 ###Flume负责启动44444端口 a1.sources.r1.type=avro a1.sources.r1.bind=0.0.0.0 a1.sources.r1.port=44444 a1.sources.r1.chan
The Eight Myths of Erlang Performance bookjovi erlang
erlang有一篇guide很有意思： http://www.erlang.org/doc/efficiency_guide 里面有个The Eight Myths of Erlang Performance： http://www.erlang.org/doc/efficiency_guide/myths.html Myth: Funs are sl
java多线程网络传输文件(非同步)-2008-08-17 ljy325 java 多线程 socket
利用 Socket 套接字进行面向连接通信的编程。客户端读取本地文件并发送；服务器接收文件并保存到本地文件系统中。使用说明:请将TransferClient, TransferServer, TempFile三个类编译，他们的类包是FileServer. 客户端: 修改TransferClient: serPort, serIP, filePath, blockNum,的值来符合您机器的系
读《研磨设计模式》-代码笔记-模板方法模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.sql.Connection; import java.sql.DriverManager; import java.sql.PreparedStatement; import java.sql.ResultSet;
配置心得 chenyu19891124 配置
时间就这样不知不觉的走过了一个春夏秋冬，转眼间来公司已经一年了，感觉时间过的很快，时间老人总是这样不停走，从来没停歇过。作为一名新手的配置管理员，刚开始真的是对配置管理是一点不懂，就只听说咱们公司配置主要是负责升级，而具体该怎么做却一点都不了解。经过老员工的一点点讲解，慢慢的对配置有了初步了解，对自己所在的岗位也慢慢的了解。做了一年的配置管理给自总结下： 1.改变从一个以前对配置毫无
对“带条件选择的并行汇聚路由问题”的再思考 comsci 算法工作软件测试嵌入式领域模型
2008年上半年，我在设计并开发基于”JWFD流程系统“的商业化改进型引擎的时候，由于采用了新的嵌入式公式模块而导致出现“带条件选择的并行汇聚路由问题”(请参考2009-02-27博文)，当时对这个问题的解决办法是采用基于拓扑结构的处理思想，对汇聚点的实际前驱分支节点通过算法预测出来，然后进行处理，简单的说就是找到造成这个汇聚模型的分支起点，对这个起始分支节点实际走的路径数进行计算，然后把这个实际
Oracle 10g 的clusterware 32位下载地址 daizj oracle
Oracle 10g 的clusterware 32位下载地址 http://pan.baidu.com/share/link?shareid=531580&uk=421021908 http://pan.baidu.com/share/link?shareid=137223&uk=321552738 http://pan.baidu.com/share/l
非常好的介绍：Linux定时执行工具cron dongwei_6688 linux
Linux经过十多年的发展，很多用户都很了解Linux了，这里介绍一下Linux下cron的理解，和大家讨论讨论。cron是一个Linux 定时执行工具，可以在无需人工干预的情况下运行作业，本文档不讲cron实现原理，主要讲一下Linux定时执行工具cron的具体使用及简单介绍。新增调度任务推荐使用crontab -e命令添加自定义的任务（编辑的是/var/spool/cron下对应用户的cr
Yii assets目录生成及修改 dcj3sjt126com yii
assets的作用是方便模块化，插件化的，一般来说出于安全原因不允许通过url访问protected下面的文件，但是我们又希望将module单独出来，所以需要使用发布，即将一个目录下的文件复制一份到assets下面方便通过url访问。 assets设置对应的方法位置 \framework\web\CAssetManager.php assets配置方法在m
mac工作软件推荐 dcj3sjt126com mac
mac上的Terminal + bash ＋ screen组合现在已经非常好用了，但是还是经不起iterm＋zsh＋tmux的冲击。在同事的强烈推荐下，趁着升级mac系统的机会，顺便也切换到iterm＋zsh＋tmux的环境下了。我为什么要要iterm2 切换过来也是脑袋一热的冲动，我也调查过一些资料，看了下iterm的一些优点： * 兼容性好，远程服务器 vi 什么的低版本能很好兼
Memcached(三)、封装Memcached和Ehcache frank1234 memcached ehcache spring ioc
本文对Ehcache和Memcached进行了简单的封装，这样对于客户端程序无需了解ehcache和memcached的差异，仅需要配置缓存的Provider类就可以在二者之间进行切换，Provider实现类通过Spring IoC注入。 cache.xml <?xml version="1.0" encoding="UTF-8"?>
Remove Duplicates from Sorted List II hcx2013 remove
Given a sorted linked list, delete all nodes that have duplicate numbers, leaving only distinct numbers from the original list. For example,Given 1->2->3->3->4->4->5,
Spring4新特性——注解、脚本、任务、MVC等其他特性改进 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
MySQL安装文档 liyong0802 mysql
工作中用到的MySQL可能安装在两种操作系统中，即Windows系统和Linux系统。以Linux系统中情况居多。安装在Windows系统时与其它Windows应用程序相同按照安装向导一直下一步就即，这里就不具体介绍，本文档只介绍Linux系统下MySQL的安装步骤。 Linux系统下安装MySQL分为三种：RPM包安装、二进制包安装和源码包安装。二
使用VS2010构建HotSpot工程 p2p2500 HotSpot OpenJDK VS2010
1. 下载OpenJDK7的源码： http://download.java.net/openjdk/jdk7 http://download.java.net/openjdk/ 2. 环境配置 ▶
Oracle实用功能之分组后列合并 seandeng888 oracle 分组实用功能合并
1 实例解析由于业务需求需要对表中的数据进行分组后进行合并的处理，鉴于Oracle10g没有现成的函数实现该功能，且该功能如若用JAVA代码实现会比较复杂，因此，特将SQL语言的实现方式分享出来，希望对大家有所帮助。如下：表test 数据如下： ID,SUBJECTCODE,DIMCODE,VALUE 1&nbs
Java定时任务注解方式实现 tuoni java spring jvm xml jni
Spring 注解的定时任务，有如下两种方式：第一种： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http
11大Java开源中文分词器的使用方法和分词效果对比 yangshangchuan word分词器 ansj分词器 Stanford分词器 FudanNLP分词器 HanLP分词器
本文的目标有两个： 1、学会使用11大Java开源中文分词器 2、对比分析11大Java开源中文分词器的分词效果本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码，至于效果哪个好，那要用的人结合自己的应用场景自己来判断。 11大Java开源中文分词器，不同的分词器有不同的用法，定义的接口也不一样，我们先定义一个统一的接口： /** * 获取文本的所有分词结果, 对比

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他