PaperWeekly

Word Embedding Papers | 经典再读之fastText

关于作者：张正，坐标巴黎，上班NLP，下班词嵌入。

从词嵌入到句嵌入

到底什么是 fastText ？

先说结论，fastText 在不同语境中至少有两个含义：

1. 在文章 Bag of Tricks for Efficient Text Classification [1] 中，fastText 是作者提出的文本分类器的名字。与 sub-word 无关！也不是新的词嵌入训练模型！是 word2vec 中 CBOW 模型的简单变种。

2. 作为 Facebook 开源包，fastText [6] 是用来训练词嵌入或句嵌入的，其不仅包括 1 中论文的代码实现，还包括 Enriching Word Vectors with Subword Information [2] 及 FastText.zip: Compressing text classification models [3] 两文的代码实现。

本来觉得这些含义区别不重要，直到连我自己都被弄迷糊了。在写这篇解读前，我心中的 fastText 一直是第三种含义：用 sub-word 信息加强词嵌入训练，解决 OOV（Out-Of-Vocabulary）表征的方法。结果带着这个预先的理解读 Bag of Tricks for Efficient Text Classification，越读越迷惑。

为理清思路，第一小节我们就先讲讲 Bag of Tricks for Efficient Text Classification 中的 fastText，第二小节则围绕 Enriching Word Vectors with Subword Information。

1.1 Abstract

“本文探索了一种简单有效的文本分类基准（方法）。我们的实验表明，我们的快速文本分类器 fastText 在准确性方面与深度学习分类器平分秋色，其训练和评估速度（相比深度学习模型更是）要快许多个数量级。

我们可以使用标准的多核 CPU 在不到 10 分钟的时间内用 fastText 训练超过 10 亿个单词，并在一分钟之内将 50 万个句子在 31 万 2 千个类中做分类。”

作者中又出现了托老师，不知道是不是受他影响，这篇文章在表述上也很有 word2vec 的味道，更不用说模型本身。fastText 和 word2vec 的卖点都是简单高效（快）。

1.2 一句话介绍fastText

word2vec 的 CBOW 模型中将中心词替换为类别标签就得到了 fastText。

具体到一些小区别：

CBOW 中词袋的大小由 window_size 决定，而 fastText 中就是整个要分类的文本。
CBOW 实际运行中用 Hierarchical softmax，fastText 用 softmax 或 Hierarchical softmax，具体试类的数量决定。

这就是一个标配版且可以实际应用的 fastText 了，我要再强调三点它和 CBOW 无区别的地方，因为在别的讲该论文的文章中看到了一些错误的理解：

CBOW 和 fastText 都是用平均值来预测的。（CBOW 不是求和，是求平均）
N-gram 对于 CBOW 和 fastText 都是锦上添花的元素，不是标配。
词向量初始化都是随机的，fastText 并没有在 word2vec 预训练词嵌入的基础上再训练。

1.3 对N-gram的理解

如果没有重新读这篇文章，我也会下意识地往 character 级别想，但是必须要在此强调：这篇文章和 character 没有任何关系！文章中的 n-gram 出自 Character-level Convolutional Networks for Text Classification [4]，是 word 级别的。与我在 word2vec 中提到的 phrases 类似。

在此梳理几个概念：

BOW (Bag-Of-Words)：给你一个句子，统计每个词在其中出现的次数，这种表征方法就是 BOW。

CBOW (Continuous BOW)：托老师在 BOW 前加了个 C，就是因为word2vec 并没有基于词频，而是连续的分布式的表征（continuous distributed representation）。
n-gram (or word n-gram)：“我写知乎”，bi-gram 就是“我写”，“写知”和“知乎”。
character-level n-gram：中文不太好讲 word 和 character 的区别，深入到字母级别，把一个词拆成字母串。Enriching Word Vectors with Subword Information 中是 character-level n-gram，这里不是。

作者的实验证明，引入 word n-gram 可以提升一些任务的表现，原因是标配版中只用 word 级别求平均值完全忽略了词序，而 n-gram 保留了小范围的部分词序，对于文本表征是有意义的，从这个角度也可以判断此处的 n-gram 应当是词级别而不是 character 级别的。

这篇文章可以看作是 word2vec 的一个延伸，并不是 fastText 出名的原因。

1.4 “假装看过代码”

我要坦白：我确实没仔细看过 fastText 的源码。因此从代码角度来解释 n-gram 在不同 fastText 版本中的区别我直接引用评论 keep fighting 同学的内容，非常感谢！不同于 word2vec，fastText 源码和论文是相互匹配的，可以交叉验证我们对 n-gram 的理解。

Word Embedding Papers | 经典再读之fastText_第1张图片

1.5 创新性有限的fastText.zip

同 word2vec 一样，softmax 给模型的计算量、内存占用都带来了很大的负担。对 fastText 而言，随着文本数量和词典规模增大，内存占用会极大地攀升。针对该问题，FastText.zip: Compressing text classification models [5] 研究了如何在对模型效果影响不大的情况下节省内存。

按照惯例，我们还是简单翻一下 abstract：

“我们考虑生成用于文本分类的紧凑架构的问题，从而使整个模型适配有限的内存。在考虑了受 hashing 相关文献启发的不同解决方案后，我们提出了一种基于 PQ 算法（Product Quantization）来存储词嵌入的方法。虽然原始技术会导致准确性下降，但我们将此方法改编为规避量化伪像。

虽然原版方法会导致准确性下降，但我们将此方法改进为可以规避 quantization artefacts 的（我尽力了，但我真的不知道这里怎么翻译，求大神指导）。在几个基准测试上的实验结果表明，我们的方法通常仅需要比 fastText 少两个数量级的内存，而在准确性方面仅稍差一些。就内存使用率和准确性之间的平衡而言，它比现有技术高出许多。”

如 OpenReview 所说，这篇文章是用已经存在的模型压缩方法（如 PQ 算法、用 hashing 来缩小词典内存占用等），创新性有限。何况 ICLR 更关注 DL 模型而不是 NLP 文本分类部分，因此被拒也可以理解。

Word Embedding Papers | 经典再读之fastText_第2张图片

从词嵌入到子词嵌入

接着再聊聊文章 Enriching Word Vectors with Subword Information [7]，真 fastText。

2.1 Abstract

“在大型未标注语料库上训练的连续词表征对于许多自然语言处理任务有用。通过为每个单词分配不同的向量，学习此类表征的流行模型会忽略单词的词法（形态学）信息。这是一个限制，尤其是对于具有大量词汇和许多罕见词的语言。

在本文中，我们提出了一种基于 skipgram 模型的新方法，其中每个单词都被表示为一个 n- 字袋（我实在找不到特别贴切的中文翻译，此处“ n- 字袋”对应 cbow 里的“词袋”）。一个向量表征与每个 n- 字（符）有关；单词被表示为它们（n- 字表征）的总和。

我们的方法很快速，（它）允许在大型语料库上快速训练模型，并允许我们为未出现在训练数据中的单词计算其表征。我们在词的相似性和类比任务上用九种不同的语言评估我们的词表征。通过与最近提出的（基于）形态学的词表征法进行比较，我们证明了我们的向量在这些任务上实现了最先进的性能。”

原版 abstract 只有一段，为了结构清晰，被我拆成了以上三部分。

fastText 依旧是 skip-gram 模型基础上的延展（毕竟通讯作者是托老师）。但不同于 word2vec 最小单位是词（word），它引入了词中 n 个字（character）的信息。这样做的目的，是为了解决 word2vec 没能解决的 OOV（Out-Of-Vocabulary）问题，即如何表示不在词典中，从未见过的词。当然，按照 fastText 的光荣传统，它不仅局限于英语，而是关注多语词嵌入。

2.2 拆！词到子词（subword，n-grams）

这篇文章的精华当然是如何把一个词拆成子词（subword），子词就是词中 n 个字母的集合。

照搬文中给的例子：

你看这个“where”，

它又长又宽，

就像这个猫它又大又圆，

Word Embedding Papers | 经典再读之fastText_第3张图片

你们来这里阅读，

觉得，图很，好看，

就像我给你们扯淡，

一样很开心。

吸完我家的猫后，来继续说 “where”，假设我们要把它拆成 3 个字母的集合，我们很容易就得到：“whe”，“her”，“ere”。是不是觉得哪里不对，如果这样做的话，如何区分单词 “her” 和 3-grams 中的 “her”。

因此，重点来了，作者提出了给单词头尾加上“<>”符号，“where” 就成了“”，这样其 3-grams 的完全体就是：

“”

而单词“her”就成了“”，就可以与“her”区分开了。

2.3 塞！把子词塞进skip-gram

说完了如何把词拆成子词，那么下面唯一的问题就是怎么把拆出来的塞进 skip-gram 模型了。我们先想下总共有多少种选择？三种。

只有子词
只有词
子词加词

有几个位置可以塞？两个。

回想下 skip-gram 模型，用中心词来预测上下文中的一个词。因此两个位置是：

1. 中心词

2. 上下文词

综上，一共有 6 种选择，当然更准确点说是 5 种，毕竟 a2+b2 是 skip-gram 本尊。

fastText 的选择是：a3+b2！

这是一个非常容易被忽视的点，fastText 中是把词本身加入到 n-grams 袋中的。如下原文为证：

We also include the word w itself in the set of its n-grams, to learn a representation for each word (in addition to character n-grams).

中心词的词向量是 n-grams 袋（n-grams 袋中也包含词本身）中所有向量的和。而要去预测的上下文词，就是正常词向量，没有用到子词信息。

2017 ACL 的 fastText 展示提问环节，有人问过为什么不是 a1，作者的回答是他们试过 a1，发现效果不好。

2.3 当你遇到OOV

word2vec 时期，遇到训练时没遇到的词，它的词向量无法得到。有了 fastText，对于 OOV 词，直接对其 n-gram 向量求和就 ok。

当然，这样做的前提是基于词的拼写、子词在形态学上是有意义的。因此，不同语言，不同效果，作者发现这种方法对阿拉伯语、德语和俄语就比对英语、法语和西班牙语效果好。

中国字的偏旁就像 subword 一样，看一个字的组成也能大概猜想其含义，不知道有没有中国字版的 fastText？希望有知乎大神作答。

2.4 长文如何写？

把一篇文章写长实在太难了：要么你提出的算法非常完整，4 页完全不够写；要么你的实验分析做得非常完善，让人可以通过它对你提出的方法获得全面的理解。这篇文章是 ACL 的一篇长文，是后者的典范。实验和结果分析部分也非常值得学习。

结尾彩蛋，fastText 作者 Armand Joulin 是我非常喜欢的研究者之一，我也很荣幸能邀请到他作我博士答辩委员会的评审之一。

按照惯例，答辩时会给每位评审准备一份演讲 PPT 的缩印版。答辩结束回收这些材料时，看到 Armand 在缩印版上写下了很多有意义的笔记和问题，还顺手留下了两幅大作。（可见我讲的是多么无聊。。。）

Word Embedding Papers | 经典再读之fastText_第4张图片

Word Embedding Papers | 经典再读之fastText_第5张图片

希望大家能在其中看出什么惊人的 NLP idea。

Stay Hungry. Stay Foolish.

参考文献

[1] Bag of Tricks for Efficient Text Classification https://arxiv.org/pdf/1607.01759.pdf

[2] Enriching Word Vectors with Subword Information https://arxiv.org/pdf/1607.04606.pdf

[3] FastText.zip: Compressing text classification models https://arxiv.org/pdf/1612.03651.pdf

[4] Character-level Convolutional Networks for Text Classification https://papers.nips.cc/paper/5782-character-level-convolutional-networks-for-text-classification.pdf

[5] FastText.zip: Compressing text classification models https://arxiv.org/abs/1612.03651

[6] https://fasttext.cc

[7] Enriching Word Vectors with Subword Information https://www.aclweb.org/anthology/Q17-1010.pdf

更多阅读

#投稿通道#

让你的论文被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学习心得或技术干货。我们的目的只有一个，让知识真正流动起来。

???? 来稿标准：

• 稿件确系个人原创作品，来稿需注明作者个人信息（姓名+学校/工作单位+学历/职位+研究方向）

• 如果文章并非首发，请在投稿时提醒并附上所有已发布链接

• PaperWeekly 默认每篇文章都是首发，均会添加“原创”标志

???? 投稿邮箱：

• 投稿邮箱：[email protected]

• 所有文章配图，请单独在附件中发送

• 请留下即时联系方式（微信或手机），以便我们在编辑发布时和作者沟通

????

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域，欢迎在公众号后台点击「交流群」，小助手将把你带入 PaperWeekly 的交流群里。

递归经典问题--老鼠迷宫阿亮爱学代码 Java java 算法开发语言
代码：publicclassMiGong{publicstaticvoidmain(String[]args){//先创建迷宫，二维数组表示int[][]map=newint[8][7];//先规定map数组的元素值0：表示可以走1：表示障碍物int[][]map=newint[8][7];for(inti=0;i<7;i++){map[0][i]=1;map[7][i]=1;}map[3][1]
Flutter多设备之响应式布局 harmonyos
Flutter多设备之响应式布局参考鸿蒙原生响应式布局场景，保持相似体验。布局能力使用场景使用说明断点将窗口宽度划分为不同的范围（即断点），监听窗口尺寸变化，当断点改变时同步调整页面布局。依赖扩展库：breakpoint媒体查询媒体查询支持监听窗口宽度、横竖屏、深浅色、设备类型等多种媒体特征，当媒体特征发生改变时同步调整页面布局。直接使用FlutterSDK中MediaQuery，无需额外适配栅格
Flutter多设备之典型布局场景 harmonyos
Flutter多设备之典型布局场景参考鸿蒙原生典型布局场景，保持相似体验。布局能力使用场景使用说明页签栏使用页签控制内容切换的容器，每个页签对应一个内容视图。基于动态断点，当位于sm,md时,使用flutter内置组件DefaultTabController、TabBar和TabBarView显示底部页签栏；当位于lg时，使用DefaultTabController和NavigationRail显
LGTM？Github中那些迷之缩写 SunTecTec github
PR:PullRequest.拉取请求，给其他项目提交代码LGTM:LooksGoodToMe.朕知道了代码已经过review，可以合并SGTM:SoundsGoodToMe.和上面那句意思差不多，也是已经通过了review的意思WIP:WorkInProgress.传说中提PR的最佳实践是，如果你有个改动很大的PR，可以在写了一部分的情况下先提交，但是在标题里写上WIP，以告诉项目维护者这个功能
AI框架之Spring AI与Spring Cloud Alibaba AI使用讲解 web13688565871 面试学习路线阿里巴巴人工智能 spring java
文章目录1AI框架1.1SpringAI简介1.2SpringAI使用1.2.1pom.xml1.2.2可实现的功能1.3SpringCloudAlibabaAI1.4SpringCloudAlibabaAI实践操作1.4.1pom.xml1.4.2配置文件1.4.3对接文本模型1.4.4文生图模型1.4.5语音合成模型1AI框架1.1SpringAI简介在软件开发的世界中，Java一直是企业级应
华为HarmonyOS NEXT 应用开发实现日常提醒应用「已注销」华为 harmonyos 鸿蒙鸿蒙系统
前言不久前华为已经宣布全新HarmonyOSNEXT鸿蒙星河版将在今年秋天正式和消费者见面，并已经面向开发者开放申请。鸿蒙星河版会有更智能、更极致的原生体验，也标志着鸿蒙迈向其发展的第二阶段。因此，对于鸿蒙生态建设而言，2024年可谓至关重要，而生态建设的前提，就是要有足够的开发人才。与之对应的，今年春招市场上与鸿蒙相关岗位和人才旺盛的热度，一方面反应了鸿蒙生态的逐渐壮大，另一方面也让人们对鸿蒙下
Leetcode【串联所有单词的子串】
30.串联所有单词的子串给定一个字符串s和一个字符串数组words。words中所有字符串长度相同。s中的串联子串是指一个包含words中所有字符串以任意顺序排列连接起来的子串。例如，如果words=["ab","cd","ef"]，那么"abcdef"，"abefcd"，"cdabef"，"cdefab"，"efabcd"，和"efcdab"都是串联子串。"acdbef"不是串联子串，因为他不是
Leetcode-串联所有单词的子串-Java 云开·山落 leetcode java 算法
历经一个半小时终于看明白了，分享给需要的小伙伴题目难度：困难给定一个字符串s和一个字符串数组words。words中所有字符串长度相同。s中的串联子串是指一个包含words中所有字符串以任意顺序排列连接起来的子串。例如，如果words=["ab","cd","ef"]，那么"abcdef"，"abefcd"，"cdabef"，"cdefab"，"efabcd"，和"efcdab"都是串联子串。"a
LeetCode题解：30.串联所有单词的子串【Python题解超详细，KMP搜索、滑动窗口法】，知识拓展：Python中的排列组合
题目描述给定一个字符串s和一个字符串数组words。words中所有字符串长度相同。s中的串联子串是指一个包含words中所有字符串以任意顺序排列连接起来的子串。例如，如果words=["ab","cd","ef"]，那么"abcdef"，"abefcd"，"cdabef"，"cdefab"，"efabcd"和"efcdab"都是串联子串。"acdbef"不是串联子串，因为他不是任何words排列
【LeetCode】串联所有单词的子串 java 手写从前Code LeetCode刷题 leetcode 算法哈希表
给定一个字符串s和一些长度相同的单词words。找出s中恰好可以由words中所有单词串联形成的子串的起始位置。注意子串要与words中的单词完全匹配，中间不能有其他字符，但不需要考虑words中单词串联的顺序。示例1：输入：s="barfoothefoobarman",words=["foo","bar"]输出：[0,9]解释：从索引0和9开始的子串分别是"barfoo"和"foobar"。输出
C++ | Leetcode C++题解之第30题串联所有单词的子串 Ddddddd_158 经验分享 c++Leetcode 题解
题目：题解：classSolution{public:vectorfindSubstring(string&s,vector&words){vectorres;intm=words.size(),n=words[0].size(),ls=s.size();for(inti=0;idiffer;for(intj=0;j
Python接口测试之接口关键字封装测试老哥 python 软件测试自动化测试职场和发展测试用例接口测试测试工具
点击文末小卡片，免费获取软件测试全套资料，资料在手，涨薪更快我们使用RF做UI自动化测试的时候，使用的是关键字驱动。同样，Python做接口自动化测试的时候，也可以使用关键字驱动。但是这里并不是叫关键字驱动，而是叫数据驱动。而接口测试的关键字是什么呢？我们数据驱动的载体是Excel，那么excel里存放的数据是接口测试用例数据，一个接口数据里有常量和变量。变量就是一些参数对应的值，而常量就是接口的
展开说说Android之Retrofit详解_使用篇老梁学Android&HarmonyOS 网络编程 android retrofit 网络
Retrofit是由Square公司开发的类型安全HTTP客户端框架，借助动态代理在运行时生成接口实现类，将注解转化为OkHttp请求配置；节省成本通过转换器(Gson/Moshi)自动序列化JSON/XML，内部处理网络请求在主线程返回报文。Retrofit直译是封装、翻版。他就是对okhttp做了进一步封装，方便使用，它底层的所有请求默认走的都是Okhttp。所以使用Retrofit必须依赖o
软件测试面试前该准备些什么？ AIZHINAN 面试软件测试面试软件测试面经简历包装面试技巧
在软件测试面试前，充分的准备可以显著提升你的信心和表现。以下是需要重点关注的准备方向，分为技术能力、项目经验、面试技巧和软技能四个部分：一、技术能力准备基础理论软件测试基本概念：测试类型（功能、性能、安全、兼容性等）、测试阶段（单元测试、集成测试、系统测试等）。经典面试题：黑盒vs白盒测试的区别？什么是边界值分析、等价类划分？Bug的生命周期是怎样的？如何设计测试用例？（举例：测试一个登录页面）测
红黑树与2-3树：插入、删除操作的时间复杂度与实现机制比较一键难忘红黑树数据结构
本文收录于专栏：算法之翼红黑树与2-3树：插入、删除操作的时间复杂度与实现机制比较红黑树（Red-BlackTree）和2-3树（2-3Tree）是两种广泛用于平衡二叉查找树的自平衡树结构。它们在插入、删除和查找操作中的性能都表现良好，并且可以确保树的高度是对数级别，从而保证了高效的操作时间。本文将对红黑树和2-3树进行深入的比较，并结合代码实例说明它们的实现和应用。1.数据结构简介1.1红黑树简
安装wordpress报错(完美解决) 光头程序员em wordpress 报错
#错误1#YourserverisrunningPHPversion7.2.1butWordPress6.7.1requiresatleast7.2.24.这是因为wordpress6.7.1需要7.2.24及以上版本，解决方法就是下载低版本wordpress或者升级高版本的php运行环境#错误2#不能选择数据库可以连接到数据库服务器（这说明您的用户名和密码正确），但是不能选择wordpress数
【力扣hot100】python刷题笔记之哈希 Animato. 哈希算法 leetcode 笔记
1.两数之和（简单）题目描述：给定一个整数数组nums和一个整数目标值target，请你在该数组中找出和为目标值target的那两个整数，并返回它们的数组下标。你可以假设每种输入只会对应一个答案，并且你不能使用两次相同的元素。你可以按任意顺序返回答案。示例：解法一：暴力解法：双层循环（这里就不给代码了）解法二：哈希表（时间复杂度O(n)）算法思路：（1）先创建一个空字典当做哈希表来存储已经遍历过的
广州华锐互动携手中石油：AR 巡检系统实现重大突破广州华锐视点 ar
广州华锐互动在AR技术领域的卓越成就，通过一系列与知名企业、机构的成功合作案例得以充分彰显。其中，与中石油的合作项目堪称经典，展现了广州华锐互动运用AR技术解决实际难题、达成目标的强大实力。中石油作为能源行业的巨擘，在石油勘探、开采、运输和炼化等环节面临着诸多复杂的挑战。广州华锐互动与中石油携手，针对其油田设备巡检和员工培训等关键业务场景，开发了一套定制化的AR解决方案。在油田设备巡检方面，传统的
K8S必问面试题之：K8S架构中每个组件的作用运维爱背锅 K8S面试题 kubernetes 架构容器 K8S面试题面试 devops 运维
微信关注运维爱背锅，用通俗易懂的方式教你运维K8S面试题：K8S架构中每个组件的作用大家好！今天我们来聊聊Kubernetes（简称K8S）中各个组件的作用，这是一道必问的面试题——各个组件就像一支分工明确的足球队，有人守门、有人射门，还有人负责喊战术。下面咱们就用“人话”拆解一下这些组件的职责。1.etcd：集群的“八卦的小本本”作用：分布式K-V（键值）存储数据库，专门记录集群的所有“秘密”，
左神算法之矩阵旋转90度岳轩子左神算法算法矩阵线性代数
目录旋转矩阵90度（原地操作）1.题目2.解释3.思路4.代码5.总结6.其他旋转矩阵90度（原地操作）1.题目旋转矩阵90度，且只能用有限的几个变量。比如下面的矩阵：12345678910111213141516转换结果为：139511410621511731612842.解释旋转矩阵90度是指将矩阵顺时针旋转90度。观察旋转前后的变化可以发现：原矩阵的第一行变为旋转后矩阵的最后一列原矩阵的第二
PPT 要你好看（全彩）又是一个装逼的
分享一下我老师大神的人工智能教程！零基础，通俗易懂！http://blog.csdn.net/jiangjunshow也欢迎大家转载本篇文章。分享知识，造福人民，实现我们中华民族伟大复兴！PPT,要你好看（全彩）杨臻编著ISBN978-7-121-14725-82011年11月出版定价：49.90元16开264页宣传语：般若黑洞▪百万点击之升华16位知名PPT高手联袂热议内容简介此刻呈现在你面前的
deepseek：2025年Java面试必刷高频LeetCode题目 Alexon Xu java 面试 leetcode
以下是2025年Java面试中高频LeetCode题目分类及对应链接，结合大厂实际考察频率整理：一、链表类反转链表（Easy）迭代法与递归实现双解，掌握三指针操作环形链表检测（Easy）快慢指针经典应用，延伸考察环入口点计算合并K个排序链表（Hard）优先队列解法时间复杂度O(NlogK)相交链表（Easy）双指针数学技巧：a+c+b=b+c+a删除链表的倒数第N个节点（Medium）快慢指针+虚
深度学习中Embedding原理讲解 zhishidi ai笔记深度学习 embedding 人工智能
我们用最直白的方式来理解深度学习中Embedding（嵌入）的概念。核心思想一句话：Embedding就是把一些复杂、离散的东西（比如文字、类别、ID）转换成计算机更容易理解和计算的“数字密码”，这些“数字密码”能代表这个东西的本质特征或含义。为什么需要Embedding？想象一下，你要教计算机认识“苹果”和“橙子”：原始表示（不好用）：你告诉计算机：“苹果”的编号是1，“橙子”的编号是2。问题来
飞算 JavaAI 2.0.0和 AI 编程技术设计的 120 章 Java 系统教程 AI编程员 001AI传统＆编程语言 002AI编程工具汇总 003AI编程作品汇总开发语言深度学习 pillow AI编程人工智能
以下是基于飞算JavaAI2.0.0和AI编程技术设计的120章Java系统教程，涵盖从基础到高阶、理论到实践的全栈知识体系，结合经典案例与企业级项目实战，适合零基础到架构师的学习路径：第一部分：基础入门（第1-30章）Java开发环境配置JDK21+IntelliJIDEA+飞算AI插件安装第一个AI生成的HelloWorld程序基础语法与AI辅助编程数据类型、变量、运算符飞算AI：自动生成算法
横向移动02
基于wmic的横向移动本文章中的192.168.3.32是目标地址，就是靶机ip地址条件：wmi服务开启，端口135，默认开启防火墙允许135、445等端口通信知道目标机的账户密码或HASH内置（单执行）shell wmic /node:192.168.3.32 /user:sqlserver\administrator /password:admin!@#123 proce
《FastAPI & AI编程结合：从入门到精通》指南 AI编程员 001AI传统＆编程语言 002AI编程工具汇总 003AI编程作品汇总笔记学习 fastapi 开发语言深度学习
以下是一篇系统性的《FastAPI&AI编程结合：从入门到精通》指南，共分30大章节，超过10万字，涵盖FastAPI核心开发、AI集成原理、高性能优化、经典案例和5大完整项目实战。第一章：FastAPI革命性优势1.1现代API框架对比#性能基准测试(Requests/sec)|框架|JSON响应|数据验证|异步支持||---
用AI给AR加“智慧”：揭秘增强现实智能互动的优化秘密 Echo_Wish 人工智能前沿技术人工智能 ar
用AI给AR加“智慧”：揭秘增强现实智能互动的优化秘密引子：增强现实，到底还能怎么更聪明？还记得当年PokémonGO火爆全球的场景吗？玩家们手机对准街头，虚拟小精灵活灵活现地跳出来，那就是增强现实（AR）最经典的应用之一。随着硬件发展和算法进步，AR正逐步从“炫酷玩具”变成生产力工具、教育助手、零售新体验。但AR想要更“聪明”，不是简单把虚拟物放到现实里那么简单，而是让虚拟世界和现实环境更自然地
重排利器：行列式点过程（DPP）在推荐系统中的应用 Jay Kay 推荐算法数学建模推荐算法
在推荐系统的重排阶段，我们常面临结果同质化问题——精排结果相似物料扎堆，导致用户体验单调。行列式点过程（DeterminantalPointProcesses,DPP）通过数学建模相关性与多样性的平衡，成为解决该问题的经典方案。一、DPP的核心思想DPP将推荐列表视为一个点过程，其核心是计算子集出现的概率。给定候选集(Z)（精排输出的Top-N物料），DPP定义子集(Y\subseteqZ)出现的
二叉树之层序遍历
二叉树之层序遍历前言一、层序遍历是什么？二、层序遍历的构建三、样例代码疑问补充：总结前言在二叉树的四种遍历中，唯独层序遍历是最特殊的，他用的不是递归的思路，而是队列，在部分面试题里也出现不少一、层序遍历是什么？层序遍历就是按层从上到下，每层按一定顺序对树的节点进行遍历如图所示：他通过队列的形式，输入第一个节点到队头后，随着他的pop，他会将他的左右孩子push进入队列每当一个节点被pop，他的左右
Cesium 实战 05 - 标绘编辑功能系列之编辑线段对象（Linestring | Polyline）非科班Java出身GISer Cesium 实战教程 cesium 编辑线 cesium 修改线编辑 polyline cesium编辑line cesium修改line 修改 polyline cesium编辑标绘线
Cesium实战-标绘编辑功能系列之编辑线段对象（Linestring|Polyline）核心代码完整代码在线示例本来想着标绘功能是比较基础的功能，而且网上一搜一堆，就不在教程里放了。后来觉得，标绘也是项目实战中非常常用的，网上虽然教程挺多，但是由于质量参差不齐，版本各不一致。本教程系列还是加上比较合适，主要是在线示例可以更好的帮助到需要的GISer。标绘编辑功能系列包含=编辑点、编辑线、编辑面，
js动画html标签（持续更新中） 843977358 html js 动画 media opacity
1.jQuery 效果 - animate() 方法改变 "div" 元素的高度： $(".btn1").click(function(){ $("#box").animate({height:"300px
springMVC学习笔记 caoyong springMVC
1、搭建开发环境 a>、添加jar文件，在ioc所需jar包的基础上添加spring-web.jar,spring-webmvc.jar b>、在web.xml中配置前端控制器 <servlet> &nbs
POI中设置Excel单元格格式 107x poi style 列宽合并单元格自动换行
引用：http://apps.hi.baidu.com/share/detail/17249059 POI中可能会用到一些需要设置EXCEL单元格格式的操作小结：先获取工作薄对象: HSSFWorkbook wb = new HSSFWorkbook(); HSSFSheet sheet = wb.createSheet(); HSSFCellStyle setBorder = wb.
jquery 获取A href 触发js方法的this参数无效的情况一炮送你回车库 jquery
html如下： <td class=\"bord-r-n bord-l-n c-333\"> <a class=\"table-icon edit\" onclick=\"editTrValues(this);\">修改</a> </td>" j
md5 3213213333332132 MD5
import java.security.MessageDigest; import java.security.NoSuchAlgorithmException; public class MDFive { public static void main(String[] args) { String md5Str = "cq
完全卸载干净Oracle11g sophia天雪 orale数据库卸载干净清理注册表
完全卸载干净Oracle11g A、存在OUI卸载工具的情况下：第一步：停用所有Oracle相关的已启动的服务；第二步：找到OUI卸载工具：在“开始”菜单中找到“oracle_OraDb11g_home”文件夹中 &
apache 的access.log 日志文件太大如何解决 darkranger apache
CustomLog logs/access.log common 此写法导致日志数据一致自增变大。直接注释上面的语法 #CustomLog logs/access.log common 增加： CustomLog "|bin/rotatelogs.exe -l logs/access-%Y-%m-d.log
Hadoop单机模式环境搭建关键步骤 aijuans 分布式
Hadoop环境需要sshd服务一直开启，故，在服务器上需要按照ssh服务，以Ubuntu Linux为例，按照ssh服务如下： sudo apt-get install ssh sudo apt-get install rsync 编辑HADOOP_HOME/conf/hadoop-env.sh文件，将JAVA_HOME设置为Java
PL/SQL DEVELOPER 使用的一些技巧 atongyeye java sql
1 记住密码这是个有争议的功能，因为记住密码会给带来数据安全的问题。但假如是开发用的库，密码甚至可以和用户名相同，每次输入密码实在没什么意义，可以考虑让PLSQL Developer记住密码。位置：Tools菜单－－Preferences－－Oracle－－Logon HIstory－－Store with password 2 特殊Copy 在SQL Window
PHP：在对象上动态添加一个新的方法 bardo 方法动态添加闭包
有关在一个对象上动态添加方法，如果你来自Ruby语言或您熟悉这门语言，你已经知道它是什么...... Ruby提供给你一种方式来获得一个instancied对象，并给这个对象添加一个额外的方法。好！不说Ruby了，让我们来谈谈PHP PHP未提供一个“标准的方式”做这样的事情，这也是没有核心的一部分... 但无论如何，它并没有说我们不能做这样
ThreadLocal与线程安全 bijian1013 java java多线程 threadLocal
首先来看一下线程安全问题产生的两个前提条件： 1.数据共享，多个线程访问同样的数据。 2.共享数据是可变的，多个线程对访问的共享数据作出了修改。实例：定义一个共享数据： public static int a = 0;
Tomcat 架包冲突解决征客丶 tomcat Web
环境： Tomcat 7.0.6 win7 x64 错误表象：【我的冲突的架包是：catalina.jar 与 tomcat-catalina-7.0.61.jar 冲突，不知道其他架包冲突时是不是也报这个错误】严重: End event threw exception java.lang.NoSuchMethodException: org.apache.catalina.dep
【Scala三】分析Spark源代码总结的Scala语法一 bit1129 scala
Scala语法 1. classOf运算符 Scala中的classOf[T]是一个class对象，等价于Java的T.class,比如classOf[TextInputFormat]等价于TextInputFormat.class 2. 方法默认值 defaultMinPartitions就是一个默认值，类似C++的方法默认值
java 线程池管理机制 BlueSkator java线程池管理机制
编辑 Add Tools jdk线程池一、引言第一：降低资源消耗。通过重复利用已创建的线程降低线程创建和销毁造成的消耗。第二：提高响应速度。当任务到达时，任务可以不需要等到线程创建就能立即执行。第三：提高线程的可管理性。线程是稀缺资源，如果无限制的创建，不仅会消耗系统资源，还会降低系统的稳定性，使用线程池可以进行统一的分配，调优和监控。
关于hql中使用本地sql函数的问题（问-答） BreakingBad HQL 存储函数
转自于：http://www.iteye.com/problems/23775 问：我在开发过程中，使用hql进行查询（mysql5）使用到了mysql自带的函数find_in_set()这个函数作为匹配字符串的来讲效率非常好，但是我直接把它写在hql语句里面（from ForumMemberInfo fm,ForumArea fa where find_in_set(fm.userId,f
读《研磨设计模式》-代码笔记-迭代器模式-Iterator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.Arrays; import java.util.List; /** * Iterator模式提供一种方法顺序访问一个聚合对象中各个元素，而又不暴露该对象内部表示 * * 个人觉得，为了不暴露该
常用SQL chenjunt3 oracle sql C++c C#
--NC建库 CREATE TABLESPACE NNC_DATA01 DATAFILE 'E:\oracle\product\10.2.0\oradata\orcl\nnc_data01.dbf' SIZE 500M AUTOEXTEND ON NEXT 50M EXTENT MANAGEMENT LOCAL UNIFORM SIZE 256K ; CREATE TABLESPA
数学是科学技术的语言 comsci 工作活动领域模型
从小学到大学都在学习数学，从小学开始了解数字的概念和背诵九九表到大学学习复变函数和离散数学，看起来好像掌握了这些数学知识，但是在工作中却很少真正用到这些知识，为什么？最近在研究一种开源软件-CARROT2的源代码的时候，又一次感觉到数学在计算机技术中的不可动摇的基础作用，CARROT2是一种用于自动语言分类（聚类）的工具性软件，用JAVA语言编写，它
Linux系统手动安装rzsz 软件包 daizj linux sz rz
1、下载软件 rzsz-3.34.tar.gz。登录linux，用命令 wget http://freeware.sgi.com/source/rzsz/rzsz-3.48.tar.gz下载。 2、解压 tar zxvf rzsz-3.34.tar.gz 3、安装 cd rzsz-3.34 ; make posix 。注意：这个软件安装与常规的GNU软件不
读源码之:ArrayBlockingQueue dieslrae java
ArrayBlockingQueue是concurrent包提供的一个线程安全的队列,由一个数组来保存队列元素.通过 takeIndex和 putIndex来分别记录出队列和入队列的下标,以保证在出队列时不进行元素移动. //在出队列或者入队列的时候对takeIndex或者putIndex进行累加,如果已经到了数组末尾就又从0开始,保证数
C语言学习九枚举的定义和应用 dcj3sjt126com c
枚举的定义 # include <stdio.h> enum WeekDay { MonDay, TuesDay, WednesDay, ThursDay, FriDay, SaturDay, SunDay }; int main(void) { //int day; //day定义成int类型不合适 enum WeekDay day = Wedne
Vagrant 三种网络配置详解 dcj3sjt126com vagrant
Forwarded port Private network Public network Vagrant 中一共有三种网络配置，下面我们将会详解三种网络配置各自优缺点。端口映射(Forwarded port)，顾名思义是指把宿主计算机的端口映射到虚拟机的某一个端口上，访问宿主计算机端口时，请求实际是被转发到虚拟机上指定端口的。Vagrantfile中设定语法为： c
16.性能优化-完结 frank1234 性能优化
性能调优是一个宏大的工程，需要从宏观架构(比如拆分，冗余，读写分离，集群，缓存等)，软件设计（比如多线程并行化，选择合适的数据结构），数据库设计层面（合理的表设计，汇总表，索引，分区，拆分，冗余等）以及微观（软件的配置，SQL语句的编写，操作系统配置等）根据软件的应用场景做综合的考虑和权衡，并经验实际测试验证才能达到最优。性能水很深，笔者经验尚浅，赶脚也就了解了点皮毛而已，我觉得
Word Search hcx2013 search
Given a 2D board and a word, find if the word exists in the grid. The word can be constructed from letters of sequentially adjacent cell, where "adjacent" cells are those horizontally or ve
Spring4新特性——Web开发的增强 jinnianshilongnian spring spring mvc spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装配置tengine并设置开机启动 liuxingguome centos
yum install gcc-c++ yum install pcre pcre-devel yum install zlib zlib-devel yum install openssl openssl-devel Ubuntu上可以这样安装 sudo aptitude install libdmalloc-dev libcurl4-opens
第14章工具函数（上） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Xelsius 2008 and SAP BW at a glance blueoxygen BO Xelsius
Xelsius提供了丰富多样的数据连接方式，其中为SAP BW专属提供的是BICS。那么Xelsius的各种连接的优缺点比较以及Xelsius是如何直接连接到BEx Query的呢？以下Wiki文章应该提供了全面的概览。 http://wiki.sdn.sap.com/wiki/display/BOBJ/Xcelsius+2008+and+SAP+NetWeaver+BW+Co
oracle表空间相关 tongsh6 oracle
在oracle数据库中，一个用户对应一个表空间，当表空间不足时，可以采用增加表空间的数据文件容量，也可以增加数据文件，方法有如下几种： 1.给表空间增加数据文件 ALTER TABLESPACE "表空间的名字" ADD DATAFILE '表空间的数据文件路径' SIZE 50M; &nb
.Net framework4.0安装失败 yangjuanjava .net windows
上午的.net framework 4.0，各种失败，查了好多答案，各种不靠谱，最后终于找到答案了和Windows Update有关系，给目录名重命名一下再次安装，即安装成功了！下载地址：http://www.microsoft.com/en-us/download/details.aspx?id=17113 方法： 1.运行cmd，输入net stop WuAuServ 2.点击开