数据实战派

针对无监督学习NLP任务，梳理非结构化文本背后的方法和经验

图片出处：Unsplash

原文：Unsupervised NLP : Methods and Intuitions behind working with unstructured texts[1]

作者：Divish Dayal（全栈 ML 工程师）

译者：青苹果

本文将介绍自然语言处理中无监督技术及其应用领域的入门内容，包括词向量背后的直觉如何走向更大范围的使用和进步，并逐渐发展为对语言模型细节的核心讨论、在行业中的活跃应用以及针对不同用例的可能应用。

自然语言处理 (NLP, Natural Language Processing) 和自然语言理解 (NLU, Natural Language Understanding) 两大领域方兴未艾，十分前沿，无监督学习更是在其中占据重要地位。这是因为它同时满足了两个条件 —— 不仅无处不在，而且相当复杂。

在这个行业中，经常会出现这样的情况：遇到一个业务问题，然后展开头脑风暴，设想各种可能的解决方案。

甚至有时候，你会想出创新的数据集和标签来解决你的问题。但通常情况下，标签并不存在，接下来，你要么与 Mturk 打交道 (一个众包数据注释平台)，要么只能在没有任何标签的情况下解决问题，即使用无监督技术。

本文会试图把在无监督学习 NLP 任务领域多年的经验和知识分解成简单的 “零部件”，希望你能更多地、更好地了解这个领域，深入探索和研究 —— 甚至可以在解决和处理自然语言处理问题时，产生一种更好、更结构化的直觉思维。

从词向量和语言模型这两个最基本、最普遍的子领域开始，本文在讨论基本概念和基础理论的同时，还将介绍有关最佳实践、实际应用和工业应用以及相关库的优缺点的一点个人经验。

词向量

你或许会问，为何要把词表示成向量？

将单词表示为 50-300 个浮点值的向量数组是 NLP 中最大的飞跃之一，也是最容易理解的一种。在现在普遍流行的词向量出现之前，词汇表中的词是使用传统的独热编码（One-Hot 编码）进行向量化，如下所示。该图中给出了 “I love NLP” 这句话中所包含的 3 个单词的独热向量。目前，这种方法仍广泛应用于 ML 算法中，如，TF-IDF；而且在数字电路中应用的也很普遍。

图片源自作者：此处的单词 “love” 的独热编码表示为向量 [0,1,0]

过去十年中，诸如 word2vec [1] 和 Glove [2] 等词向量的出现，极大得推动着 NLP 领域的发展。可以说，伴随着深度学习的兴起，词向量在越来越多的文本任务中得到广泛的应用，几乎可以很好地完成所有 “分内” 的任务。

那么，词向量是如何训练的？

word2vec 词向量模型有两种训练模式 —Skip-gram (Continuous Skip-gram Model) 和 CBOW (Continuous Bag-of-Words Model)，如下图所示。这两种模型的基本原则大致是相同的 —— 两者都是用于将文本进行向量表示的实现方法，而单词的信息就依赖于所处的上下文语义信息中。

例如，“Man” 和 “Woman” 可以在非常相似的上下文中使用，比如下面两句话间的对比，“Man can do something” 和 “Woman can do something”，除了主语不同，上下文的结构完全一致。在数百万计的句子和标记中，结合这些上下文信息，统计归纳出 “Man” 和 “Woman” 在用法上是相关的，而 “Man” 和 “he/him” 以及 “Woman” 和 “she/her” 也具有相关性。因此，在大型数据集上，基于这些词在不同的句子，不同的语境中使用而形成的关联，词向量开始变得更有意义。

其中，CBOW 模型是用上下文预测中心词，而 Skip-gram 模型则用于预测当前中心词的周围单词。例如，在句子 “climate change is affecting nature adversely.” 中，CBOW 模型将试图根据上下文来预测这个词的影响，也就是句子中围绕中心词的其他单词。下图给出了两种方法的演示。

为训练单词向量建模变量。图片出处：Efficient Estimation of Word Representations in Vector Space [1]

当你在包含网络文章等内容的大型数据集上训练这样一个超过数十亿标记的模型时，你得到的是词汇表中每个单词的非常有效的表示，而且均以向量的形式进行呈现。这些向量长度可能是 300 维，即每个单词由 300 个实数表示。如下图所示，给出了解释这些向量最著名的例子。

图像源自作者：二维空间可视化解释词向量的示例。

基于上图，假设下列向量方程成立：

通俗一点解释，也就是说，像上述公式中出现的成对单词，向量投射出相似的关系。

字词向量体现了各国与首都之间的关系。图片出处：papers.nips.cc/paper/5021-distributed-representations-of-words-and-phrases-and-their-compositionality.pdf

在真实的应用程序中，词向量可以展现其非常有趣的特性。正因为有了词向量，机器就能够以更像人类的方式理解和处理文本。一般来说，对文字和文本的理解也延伸到了其他多样化的媒体形式，诸如演讲、图像和视频之类的，但前提条件是这些形式需要先转换为文本，然后再进行进一步处理。稍后将对此进行更多地介绍。

在 word2vec 中，我们并没有直接利用构词学中的信息：不管是在 Skip-gram 还是 CBOW 模型中，面对形态不同的单词，如，“dog” 和 “dogs”，用不同的向量进行表示，因此，模型并未直接表达这两个向量之间的关系。鉴于此，在 2017 年发表的一篇论文 [3] 中，fastText 提出了名为子词嵌入（sub-word embeddings）的方法来构造向量，显然，词向量的表示质量有了显著的提高。

在语料库中的很多单词，都存在较多公共的字符，即内部形态相似，比如，“book” 和 “books”，如果使用传统的 word2vec，两者间共性的信息会由于转换不同的 id 而丢失，因此，为了克服问题，选择使用字符级的 n-grams 表示一个单词。以 “where” 单词为例，将其分解为子单词或 n-grams 表示，试图将构词信息引入 word2vec 中的 CBOW 模型，此处，n 的取值为 3，则具体的表示形式为:

然后将这些子词向量组合以构建词向量。这种方式有助于更好地学习语言中单词之间的联系。可以想象为，我们用一种更细粒度的方式去探索更深层次的知识。这有助于学习现象，甚至从语言引理的角度上，从词汇内部出发。例如，“cat” 和 “cats” 之间的区别就像 “dog” 和 “dogs” 这样的词对一样。以此类推，“boy” 和 “boyfriend” 与 “girl” 和 “girlfriend” 也有相同的关系。这种方法还有助于为词库外（OOV, out of vocabulary）单词的创建提供更有意义的表示，这些单词是模型在训练集中还未曾见过的。

词向量可有效的用于快速计算，尤其是在计算资源有限的情况下。在各种语料库 (新闻、网络、社交媒体，如 Twitter 和 Reddit 等等) 中找到预训练的词向量很容易。你可能想在最接近应用程序数据集的数据集上训练的词向量。比如，在 twitter 数据集上训练的词向量会与在新闻类文章上训练的词向量有所不同。

词向量可以用来构造单词或句子的向量，以辅助其用于相似度计算或聚类任务。即使是为数据集绘制词云这样的简单任务，也称得上是分析数据集的强大方法。然而，词向量的真正魅力还是得通过语言建模进行诠释。

图片源自作者：这篇文章生成的词云

语言模型

首先，何为语言模型？

对于无监督的 nlp 任务而言，语言建模堪称机器学习（ML, machine learning）工程师装备库中的主要工具。关于其定义，维基百科给出了如下解释:

统计语言模型就是单词序列上的概率分布。

所以，用更简单的话来说 —— 语言模型用于捕捉和预测句子或文档中单词之间的关系。语言模型从根本上预测了句子中下一个单词的条件概率分布，给出的是：

用这个方法，句子出现的概率是：

长话短说，语言模型就是学习数据集中的单词关联，以便用来预测句子中的下一个单词，或句子的有效性 —— 根据训练数据集上学习到的分布，判断句子出现的可能性大小。所以，相比于一些怪诞的问候，如，“Hi, goodnight!”，模型更可能告诉你 “Hi, how are you doing?” 这样的更日常，可能性更大的表达。

图片源自作者：语言模型在手机键盘应用程序上的应用

如上图所示，这是语言模型最明显的用法之一：在我们打字时，键盘应用程序会提示下一个单词。这也是自动校正的工作原理。让我们通过下图更详细地了解这个过程。

图片源自作者：语言模型的工作图解

语言模型本质上是基于时间序列的网络，用句子中的单词或上下文转换后的词向量作为输入。最后，可以得到词汇表中所有单词的概率值，以了解在给定上下文的情况下，特定的单词适合成为文本中下一个单词的可能性。实际上，词汇量很大 (约 300k 或者更多)，这些输出概率仅对 10 个单词以内有效，至于其余概率值很小的单词 (如 0.00001)，可以忽略不计。

从架构上看，语言模型包含两个主要模块 —— 编码器和解码器。

顾名思义，编码器用于使用时间序列神经网络模型对输入 (词向量) 进行编码。

时间序列的概念，可以通俗理解为，模型考虑了句子中单词的位置顺序，即 word_2 是在 word_1 之后的。而解码器则刚好与编码器相反，编码器的输出作为解码器的输入，然后输出端每次 “吐” 出一个单词 —— 循环到最后的时候，组成为一个句子的输出。这是一些深层的架构资料，如果你要自己编写代码的话，可能会有帮助。除此之外，多了解一些术语也是增长知识的一个很好的方法。

图片源自作者：语言模型的典型结构

现在，我们来讨论一个基本 “开箱即用” 的语言模型。在无监督的环境中，语言模型的应用方式非常广泛，如下所示，我们看一下几个最受欢迎的：

l 将句子向量化。这是一种比平均单词向量更好的向量化句子的方法。

l 监督环境（存在标注）下的句子 / 文件分类任务。从操作上来说 —— 使用预先训练好的无监督语言模型来进一步训练 (微调) 一个有监督的分类任务。在没有任何标签的情况下，你可以执行聚类来分割数据以便于进行分析。

l 生成任务。句子生成是一个新兴的热门领域，诸如最近新闻头条的 GPT-3 之类的。生成任务的应用可以涉及很多的方向，比如，广告，游戏，新闻或文档摘要，对话模型，聊天机器人，键盘 / 谷歌智能提示，问答等等。如果你有合适的数据集，就像《权力的游戏》中做的那样，任何类型的生成皆有可能。一些高级应用程序在多媒体设置中也使用语言模型，如图像字幕、各种语音转文本格式和文本转语音任务 (例如 Alexa)、手写识别等等。

l 用于跨语言的机器翻译已经取得了长足的进展。像谷歌翻译这样的应用程序使用语言模型将语音转换为文本，然后再翻译为其他语言。

l 大型数据集上的信息检索任务，例如实体解析、基于方面的情感分析、文档标记等。一些超级强大的应用程序还会结合知识库使用语言模型。

上述举例的都是当前语言模型的主流应用。可以使用语言模型对顺序使用或生成的数据进行建模。借助 AI 生成音乐就是这样一种应用程序。令人难以置信的是，现在有很多的应用程序，而且分分钟都在不断的扩展。随着学术界和业界的大量研究，建模能力正在迅速地提升。在每一次主要的 AI 会议上，我们都可以听到相关任务的技术水平都在进一步提高，以至于现在很难跟踪整个领域的动态。建议是，你现在首要做的是专注于一个或几个上述提到的子领域。

少样本学习和零样本学习

最后再介绍人工智能领域中一个有趣且新生的概念 —— 少样本学习（few-shot learning）。

它意味着一个经过训练的模型可以通过融合先验知识，以较少的、带有监督信息的样本来学习新的任务。

可以说，这是人工智能领域的一大进步，因为从传统角度上，即使是简单的任务，你也需要大量的数据来学习。在语言模型的环境中，像 BERT 和 GPT-x 模型这样的预训练模型需要训练数十亿个标记 (>100GB 的原始文本数据)，甚至在特定任务上微调这些模型也需要 1M 以上的数据点。相比之下，少样本学习可以使用仅仅几个点来学习新任务。

这个概念通过零样本学习（Zero-Shot Learning）进一步提升到了一个全新的水平，在零样本学习中，只将关于类的元数据级别的信息作为输入，而不是数据点。这是一个仍处于早期阶段的新的活跃的研究领域。一旦获得了业内可接受的精度指标，这会是一个非常有前途的领域。

图片源自作者：根据参数大小绘制各种语言模型

另一方面，模型的准确性和有用性与数据集和模型参数大小直接相关。

这张图展示了 2017-2020 年主要的语言模型。参数的大小每年都在增加一个数量级 ——BERT-Large (2018)[5] 有 355M 个参数，GPT-2 (2019 年初)[6] 有 1.5B 个参数，T5 (2019 年末)[7] 进一步扩展到 11B，最后 GPT-3 (2020 年中)[4] 达到了惊人的 175B 个参数。

例如，大热的 GPT-3 就需要 700GB 的 GPU 内存来训练，远远超过普通消费者所拥有的 10-16GB 内存的 GPU，在 cloud Tesla V100 这样的 GPU 上进行并行训练的成本超过 460 万美元。作为 “一介凡人” 的我们只能使用这些庞大的预训练模型的较小版本来完成我们 “无关紧要” 的任务。

当然，这并非一定是坏事，相反地，这是人工智能发展的必然结果，但考虑到这一基本技术的未来，这更是我们需要深思熟虑的事情。

Refrences：
[1] Mikolov, Tomas, et al. Efficient estimation of word representations in vector space.
[2] Pennington, J., Socher, R., & Manning, C. D. (2014, October). Glove: Global vectors for word representation. In Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP) (pp. 1532–1543).
[3] Bojanowski, P., Grave, E., Joulin, A., & Mikolov, T. (2017). Enriching word vectors with subword information. Transactions of the Association for Computational Linguistics, 5, 135–146.
[4] Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., … & Agarwal, S. (2020). Language models are few-shot learners. arXiv preprint arXiv:2005.14165.
[5]Devlin, J., Chang, M.W., Lee, K. and Toutanova, K., 2018. Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.
[6] Radford, A., Wu, J., Child, R., Luan, D., Amodei, D. and Sutskever, I., 2019. Language models are unsupervised multitask learners. OpenAI blog, 1(8), p.9.
[7] Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., Zhou, Y., Li, W. and Liu, P.J., 2019. Exploring the limits of transfer learning with a unified text-to-text transformer. arXiv preprint arXiv:1910.10683.

struts1+struts2项目兼容升级到了spring boot 2.7 和稀泥 struts spring boot java
原项目比较复杂，集成了各种框架（struts1struts2spring3等），趁工作之余练练手，学习一下springboot。大概花了一周时间才调通。一、调整jar版本，寻找合适的版本。第一步、首先原项目JDK6，要用springbootJDK肯定要升级了。原来的struts2也有漏洞了，也要升级。在不升级其他框架的情况下。jdk2117都可以运行，索性选择jdk21，反正是练手。第二步、str
在WPF中把Canvas保存为图片，文本文件，xps文件 Anticlimax丶 WPF Canvas转图片 Canvas转文本文件 Canvas转xps文件
由于wpf的UI使用xaml来表达的，所以我们们可利用这个优点，把WPF中的xaml元素另存为各样的文件，在很多时候我们都不须要这样的操作。把xaml保存为图片、字符串、XPS等等。这里我写了一些方法，以供大家参考.。注意：以下保存操作前，一定要确保参数中的canvas有高和宽。1.把canvas保存为文本文件usingSystem.IO;publicvoidExport(Uripath,Canv
python实际应用场景代码 yzx991013 python 前端服务器
1.自动化文件整理importosimportshutildeforganize_downloads_folder():download_path="/Users/YourName/Downloads"#修改为你的下载路径file_types={"Images":[".jpg",".png",".gif"],"Documents":[".pdf",".docx",".txt"],"Videos":
贪心算法之分发饼干努力小子 #刷题（简单难度）#贪心算法
假设你是一位很棒的家长，想要给你的孩子们一些小饼干。但是，每个孩子最多只能给一块饼干。对每个孩子i，都有一个胃口值gi，这是能让孩子们满足胃口的饼干的最小尺寸；并且每块饼干j，都有一个尺寸sj。如果sj>=gi，我们可以将这个饼干j分配给孩子i，这个孩子会得到满足。你的目标是尽可能满足越多数量的孩子，并输出这个最大数值。注意：你可以假设胃口值为正。一个小朋友最多只能拥有一块饼干。示例1:输入:[1
@Autowired 和 @Resource 注解的区别在努力的韩小豪 spring spring boot java-ee java
前言@Autowired和Resource是Spring中用于依赖注入的注解，但两者在实现机制和使用方式上有显著差异。主要区别1.来源不同@Autowired：由Spring框架提供（org.springframework.beans.factory.annotation），与Spring强耦合。@Resource：由JSR-250规范定义（javax.annotation.Resource），属
【业务场景实战】JWT实现用户登录仰望-星空~~ java
在我们平时登录注册的过程中，我们的信息都会由浏览器发送给后端进行处理，然后再插入到数据库中，下次我们进行登录的时候，只需要输入用户名和密码就可以登录成功进入网站进行操作了。但个人信息暴露在大众面前这是极其不安全的，对于我们的隐私，我们并不希望被别人知道。所以我们在登录的时候，浏览器中进行传递的数据有些是会脱敏、有些是需要进行加密之后才能进行传递的。一、JWT简介JWT（全称JSONWEBToken
【业务场景实战】数据增量同步仰望-星空~~ android
时间过得真快，又是一年求职季，再过几个月我也要找暑假实习了，最近比较忙加上自身状态也不是很好，导致我的博客断更了很长时间。之后我尽量每周一更，好了，今天我们来讲讲关于数据增量同步。在一些比较大、用户量比较多、实时性要求比较高的的系统中，我们通常需要进行数据同步。这不只是为了提高系统的并发量，降低数据库访问的压力，提升用户的体验。同时也是为了让系统能够稳定运行，满足特定的场景需求。对于一些购物网站实
关于 2＞/dev/null 的作用以及机理深耕半夜 java 开发语言
每个进程都有三个标准文件描述符：stdin（标准输入）、stdout（标准输出）和stderr（标准错误）。默认情况下，stderr会输出到终端。使用2>可以将stderr重定向到其他地方，比如文件或者设备文件。/dev/null作为一个字符设备，所有写入它的数据都会被丢弃，不会保存在任何地方，因此执行命令时产生的错误信息就不会显示出来，也不会保存在日志文件中。重定向符号功能典型示例>覆盖式写入文
JAVA刷Leecode-贪心算法-分配问题-分发饼干搬砖的水鱼 leetcode 算法 java python leetcode 贪心算法
JAVA刷Leecode-贪心算法算法思想分配问题-分发饼干（135，hard)算法思想采用贪心的策略，保证每次操作都是局部最优解，从而最终的结果是全局最优。贪心算法不是对所有问题都能得到整体最优解，选择的贪心策略必须具有无后效性，即某个状态以前的过程不会影响以后的状态，只和当前的状态相关。包括分配问题（455，135）和区间问题（435）；练习：605，452，763，122，406。分配问题-
【贪心算法】1、分发饼干念奕玥【Java】数据结构与算法 java leetcode 贪心算法
贪心算法或贪心思想采用贪心的策略，保证每次操作都是局部最优的，从而使最后得到的结果是全局最优的。可用于解决分配问题e.g.leetcode455分发饼干解题思路：目标：尽可能满足越多数量的孩子。根据目标，可以容易想到，先去满足胃口值小的孩子。为了尽量使饼干可以满足更多的孩子，所以要把饼干尺寸大于等于孩子胃口值的饼干中挑尺寸最小的饼干给孩子。满足了这个孩子之后，再采取同样的策略去考虑剩下的孩子，直到
使用Spring Boot实现分布式任务调度 weixin_836869520 spring boot 分布式后端
使用SpringBoot实现分布式任务调度大家好，我是微赚淘客系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！一、SpringBoot与分布式任务调度概述在分布式系统中，任务调度是一项关键的技术，它能够有效地管理和调度系统中的各种任务，确保任务能够按时执行并具有高可用性和可靠性。SpringBoot作为Java领域流行的开发框架，提供了多种实现分布式任务调度的解决方案。二、SpringB
WPF从初学者到专家：实战项目经验分享与总结 xcLeigh WPF 从入门到精通 wpf C#
WPF从初学者到专家：实战项目经验分享与总结一、前言二、WPF基础概念与入门2.1什么是WPF2.2XAML基础2.3数据绑定基础三、第一个WPF项目：简单的待办事项列表3.1项目需求分析3.2项目搭建与界面设计3.3业务逻辑实现四、中级项目：音乐播放器应用4.1项目需求分析4.2界面设计与布局4.3多媒体功能实现五、高级项目：企业级办公自动化平台（回顾与进阶）5.1项目回顾与优化5.2引入MVV
强化学习 Reward 百态老人算法
在强化学习中，奖励（Reward）是智能体（Agent）与环境（Environment）交互过程中获得的重要反馈信号。奖励机制在强化学习中扮演着至关重要的角色，因为它不仅指导智能体如何在环境中行动，还影响其策略的优化和最终的学习效果。奖励是智能体在执行某个动作后从环境中获得的即时反馈，用于评估该动作的好坏。这种反馈帮助智能体调整其行为策略，以期在未来获得更多的奖励。奖励可以是正数、负数或零，其或负
智能指针和常规指针在性能上有什么区别？指针
智能指针和常规指针在性能上确实存在一些差异，这些差异主要源于它们在内存管理机制上的不同。以下是它们在性能方面的详细对比：一、智能指针的性能开销std::unique_ptr开销较小：std::unique_ptr是一种轻量级的智能指针，它通过移动语义管理资源的所有权。由于它不涉及引用计数，因此性能开销相对较小。特点：不允许复制，但可以移动。在对象生命周期结束时自动调用delete释放内存。性能影响
C++有哪些高级特性值得学习？ c++
C++是一种功能丰富且复杂的编程语言，其中许多高级特性可以帮助开发者编写更高效、更安全、更灵活的代码。以下是一些值得深入学习的C++高级特性：模板编程（Templates）模板是C++中实现泛型编程的核心机制，允许开发者编写与数据类型无关的代码。模板函数cpp复制templateTmax(Ta,Tb){return(a>b)?a:b;}优点：模板函数可以处理多种数据类型，避免了代码重复。应用场景：
C# 的选择语句 visual-studio
选择就是程序分支。即利用某个条件，选择程序进行的方向。ifif是分支里面最复杂的、最常用的。它会测试其后的括号内的表达式（通常返回值是bool），并转换为bool，已确定括号内为true它要做点什么。它可以包括另外的关键字else，即当括号内为false它又要做点什么。最简单的ifConsole.WriteLine("请输入一个字符串（不输入或者全是空格将显示警告）：");string?zfc输入
流浪地球 - 华为OD机试真题(E卷、C++) 什码情况华为od c++算法数据结构面试机试
针对刷题难，效率慢，我们提供一对一算法辅导，针对个人情况定制化的提高计划（全称1V1效率更高）。有兴趣的同学可以扫码添加我们的微信（code5bug）了解，免费试课一下。题目描述流浪地球计划在赤道上均匀部署了N个转向发动机，按位置顺序编号为0~N。1).初始状态下所有的发动机都是未启动状态;2).发动机启动的方式分为”手动启动”和”关联启动”两种方式;3).如果在时刻1一个发动机被启动，下一个时刻
python大赛对名_用100行Python爬虫代码抓取公开的足球数据玩（一）司马各 python大赛对名
在《用Python模拟2018世界杯夺冠之路》一文中，我选择从公开的足球网站用爬虫抓取数据，从而建模并模拟比赛，但是略过了爬虫的实施细节。虽然爬虫并不难做，但希望可以让更多感兴趣的朋友自己动手抓数据下来玩，提供便利，今天就把我抓取球探网的方法和Python源码拿出来分享给大家，不超过100行代码。希望球友们能快速get爬虫的技能。#-*-coding:utf-8-*-from__future__i
鸿蒙开发：ArkTs字符串string
前言本文代码案例基于Api13。字符串在实际的开发中还是非常重要的，牵扯到的用法也是比较多的，比如字符串中的查找，替换，切割等等。字符串（String）是由零个或多个字符组成的有限序列，在计算机编程和数据处理中广泛使用。字符串可以包含字母、数字、标点符号、空格，甚至可以是空字符串（即不包含任何字符的字符串）。字符串是文本信息的基本表示形式，在几乎所有编程语言中都有专门的字符串数据类型或类来处理它们
DeepSpeed-Chat：Reward Model【奖励模型】 u013250861 #LLM/训练 RL/强化学习排序强化学习
第二阶段：奖励模型微调奖励模型(RM)微调类似于第一阶段有监督微调(SFT)。但是，RM和SFT微调之间存在几个关键差异：训练数据差异：对于SFT微调，数据是查询（query）和答案（answer）拼接在一起。然而，对于RM微调，每批数据由两个查询-答案对组成，即具有高分答案和低分答案的相同查询。这也导致了如下所述的第二个差异。训练目标差异：对于RW，训练目标是pairwiserankingsco
第二章 EXI协议原理与实现--7.8 测试ISO15118-20命令快活林高老大 ISO15118 EXI
7EfficientXML编解码库7.8测试ISO15118-20命令编解码现在开始使用EfficientXML的库测试ISO15118-20命令的编解码是否正确，是否与EXICodec.jar的结果一致。在本书的附录B中罗列了ISO15118-20的所有命令（json、xml、exi），感兴趣的读者可以使用这些命令自己进行编解码验证。编写测试程序mytest20-all.c，对15118-2命令
北斗导航 |低轨导航研究进展单北斗SLAMer 卫星导航人工智能北斗三号 GNSS 算法低轨导航
低轨导航作为空天信息网络的重要组成部分，近年来在技术研发、系统构建及实际应用方面均取得显著进展。以下是基于最新研究动态的总结：一、技术研发与系统构建低轨导航增强系统技术突破2025年1月，青岛召开的低轨卫星导航增强系统技术发展研讨会汇集了国内26家单位的60名专家，重点讨论了低轨星座与现有导航系统（如北斗、GPS）的融合增强技术。例如：巨型导航星座数字仿真试验系统：国防科技大学刘文祥团队提出通过数
在Spring Boot中实现分布式任务调度微赚淘客系统开发者 spring boot 分布式后端
在SpringBoot中实现分布式任务调度大家好，我是微赚淘客系统3.0的小编，也是冬天不穿秋裤，天冷也要风度的程序猿！使用SpringBoot与Quartz实现分布式任务调度1.引入依赖在SpringBoot项目中，首先需要引入Quartz和相关依赖：org.springframework.bootspring-boot-starter-quartz2.配置Quartz在SpringBoot的配
springboot自定义封装线程池工具类 k&p Java spring boot java spring
1.首先配置线程池的配置文件，在此处定义线程池的核心线程数等核心参数：/***核心线程数=cpu核心数+1*/privatefinalintcore=Runtime.getRuntime().availableProcessors()+1;@AutowiredprivateThreadPoolPropertiesthreadPoolProperties;@Bean(name="threadPool
基于 Redis 的分布式锁实现与优化 Blossom.118 分布式系统与高性能计算领域 redis 分布式数据库 python3.11 算法数据结构推荐算法
在分布式系统中，锁机制是保障数据一致性和并发控制的关键技术之一。Redis作为一种高性能的内存数据库，常被用于实现分布式锁。本文将详细介绍基于Redis的分布式锁的实现原理、代码示例以及优化策略，帮助读者更好地理解和应用这一技术。一、分布式锁的概念与需求在单机系统中，锁的实现相对简单，可以通过操作系统的同步机制或编程语言提供的锁机制来完成。然而，在分布式系统中，多个进程或线程可能运行在不同的机器上
从入门到进阶：Python数据可视化实战技巧 Blossom.118 分布式系统与高性能计算领域信息可视化 python 开发语言网络协议 spring boot java 后端
在数据分析和数据科学领域，数据可视化是将复杂数据以直观图形展示的重要手段。Python作为数据科学领域的首选语言之一，提供了强大的数据可视化库，如Matplotlib、Seaborn、Plotly等。本文将从入门到进阶，逐步介绍Python数据可视化的实战技巧，帮助读者快速提升数据可视化能力。一、入门：Matplotlib基础Matplotlib是Python中最基础、最强大的数据可视化库之一。它
摄影工作室预约管理系统基于Spring BootSSM QQ1978519681计算机程序 spring boot 后端 java 毕业设计计算机毕设
目录摘要一、系统架构二、功能模块2.1用户管理模块2.2摄影师管理模块2.3预约管理模块2.4商品管理模块2.5管理员管理模块三.数据库设计四.技术栈五.安全性与性能六.用户界面与体验七.扩展性与可维护性摘要在数字化与信息化飞速发展的当下，人们的生活节奏日益加快，对于各类服务便捷性、高效性的需求也愈发强烈。摄影服务作为记录生活美好瞬间、留存珍贵回忆的重要方式，深受大众喜爱。然而，传统的摄影工作室预
feign发送GET请求传递对象参数，报错Request method ‘POST‘ not supported 码到成功>_< java 开发语言
feign发送GET请求传递对象参数，报错Requestmethod‘POST‘notsupported参考：Feign发送Get请求时使用对象传递参数(Requestmethod‘POST‘notsupported问题)Fegin的GET请求传对象解决Feign调用的GET参数传递的问题
CLR中的类型转换 qzy0621 C#C++笔记 c++c#
CLR中的类型转换字符串类型转换容器类型转换自定义类型相互转换项目设置CLR（CommonLanguageRuntime，公共语言运行时）是微软.NET框架的核心组件，是微软对CLI标准的具体实现，负责管理和执行托管代码，提供跨语言互操作性、内存管理、安全性等关键服务CLR的类型转换机制是.NET框架中实现类型安全与多语言互操作的核心功能之一若调试不能命中，可参考C#通过CLR调用C++代码无法命
【二、DeepSeek应用场景与案例】10.农业智能化：DeepSeek如何助力精准种植与养殖？代码世界的浪客人工智能 DeepSeek
一、引言1.1农业智能化的时代背景在全球人口持续增长的大趋势下，粮食需求正以前所未有的速度攀升。据联合国相关预测，到2050年，全球人口有望突破90亿，这无疑给本就压力重重的农业生产带来了更为艰巨的挑战，保障充足的粮食供应成为了迫在眉睫的任务。与此同时，资源短缺问题日益尖锐，耕地面积因城市化进程、土地退化等因素不断缩减，水资源分布不均且浪费严重，进一步加剧了农业生产的困境。根据世界银行的数据，过去
多线程编程之卫生间周凡杨 java 并发卫生间线程厕所
如大家所知，火车上车厢的卫生间很小，每次只能容纳一个人，一个车厢只有一个卫生间，这个卫生间会被多个人同时使用，在实际使用时，当一个人进入卫生间时则会把卫生间锁上，等出来时打开门，下一个人进去把门锁上，如果有一个人在卫生间内部则别人的人发现门是锁的则只能在外面等待。问题分析：首先问题中有两个实体，一个是人，一个是厕所，所以设计程序时就可以设计两个类。人是多数的，厕所只有一个（暂且模拟的是一个车厢）。
How to Install GUI to Centos Minimal sunjing linux Install Desktop GUI
http://www.namhuy.net/475/how-to-install-gui-to-centos-minimal.html I have centos 6.3 minimal running as web server. I’m looking to install gui to my server to vnc to my server. You can insta
Shell 函数 daizj shell 函数
Shell 函数 linux shell 可以用户定义函数，然后在shell脚本中可以随便调用。 shell中函数的定义格式如下： [function] funname [()]{ action; [return int;] } 说明： 1、可以带function fun() 定义，也可以直接fun() 定义,不带任何参数。 2、参数返回
Linux服务器新手操作之一周凡杨 Linux 简单操作
1.whoami 当一个用户登录Linux系统之后，也许他想知道自己是发哪个用户登录的。此时可以使用whoami命令。 [ecuser@HA5-DZ05 ~]$ whoami e
浅谈Socket通信（一）朱辉辉33 socket
在java中ServerSocket用于服务器端，用来监听端口。通过服务器监听，客户端发送请求，双方建立链接后才能通信。当服务器和客户端建立链接后，两边都会产生一个Socket实例，我们可以通过操作Socket来建立通信。首先我建立一个ServerSocket对象。当然要导入java.net.ServerSocket包 ServerSock
关于框架的简单认识西蜀石兰框架
入职两个月多，依然是一个不会写代码的小白，每天的工作就是看代码，写wiki。前端接触CSS、HTML、JS等语言，一直在用的CS模型，自然免不了数据库的链接及使用，真心涉及框架，项目中用到的BootStrap算一个吧，哦，JQuery只能算半个框架吧，我更觉得它是另外一种语言。后台一直是纯Java代码，涉及的框架是Quzrtz和log4j。都说学前端的要知道三大框架，目前node.
You have an error in your SQL syntax; check the manual that corresponds to your 林鹤霄
You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 'option,changed_ids ) values('0ac91f167f754c8cbac00e9e3dc372
MySQL5.6的my.ini配置 aigo mysql
注意：以下配置的服务器硬件是：8核16G内存 [client] port=3306 [mysql] default-character-set=utf8 [mysqld] port=3306 basedir=D:/mysql-5.6.21-win
mysql 全文模糊查找便捷解决方案 alxw4616 mysql
mysql 全文模糊查找便捷解决方案 2013/6/14 by 半仙 [email protected] 目的: 项目需求实现模糊查找. 原则: 查询不能超过 1秒. 问题: 目标表中有超过1千万条记录. 使用like '%str%' 进行模糊查询无法达到性能需求. 解决方案: 使用mysql全文索引. 1.全文索引 : MySQL支持全文索引和搜索功能。MySQL中的全文索
自定义数据结构链表(单项 ,双向,环形) 百合不是茶单项链表双向链表
链表与动态数组的实现方式差不多, 数组适合快速删除某个元素链表则可以快速的保存数组并且可以是不连续的单项链表;数据从第一个指向最后一个实现代码: //定义动态链表 clas
threadLocal实例 bijian1013 java thread java多线程 threadLocal
实例1： package com.bijian.thread; public class MyThread extends Thread { private static ThreadLocal tl = new ThreadLocal() { protected synchronized Object initialValue() { return new Inte
activemq安全设置—设置admin的用户名和密码 bijian1013 java activemq
ActiveMQ使用的是jetty服务器, 打开conf/jetty.xml文件，找到 <bean id="adminSecurityConstraint" class="org.eclipse.jetty.util.security.Constraint"> <p
【Java范型一】Java范型详解之范型集合和自定义范型类 bit1129 java
本文详细介绍Java的范型，写一篇关于范型的博客原因有两个，前几天要写个范型方法(返回值根据传入的类型而定)，竟然想了半天，最后还是从网上找了个范型方法的写法；再者，前一段时间在看Gson, Gson这个JSON包的精华就在于对范型的优雅简单的处理，看它的源代码就比较迷糊，只其然不知其所以然。所以，还是花点时间系统的整理总结下范型吧。范型内容范型集合类范型类
【HBase十二】HFile存储的是一个列族的数据 bit1129 hbase
在HBase中，每个HFile存储的是一个表中一个列族的数据，也就是说，当一个表中有多个列簇时，针对每个列簇插入数据，最后产生的数据是多个HFile，每个对应一个列族，通过如下操作验证 1. 建立一个有两个列族的表 create 'members','colfam1','colfam2' 2. 在members表中的colfam1中插入50*5
Nginx 官方一个配置实例 ronin47 nginx 配置实例
user www www; worker_processes 5; error_log logs/error.log; pid logs/nginx.pid; worker_rlimit_nofile 8192; events { worker_connections 4096;} http { include conf/mim
java-15.输入一颗二元查找树，将该树转换为它的镜像，即在转换后的二元查找树中，左子树的结点都大于右子树的结点。用递归和循环 bylijinnan java
//use recursion public static void mirrorHelp1(Node node){ if(node==null)return; swapChild(node); mirrorHelp1(node.getLeft()); mirrorHelp1(node.getRight()); } //use no recursion bu
返回null还是empty bylijinnan java apache spring 编程
第一个问题，函数是应当返回null还是长度为0的数组（或集合）？第二个问题，函数输入参数不当时，是异常还是返回null？先看第一个问题有两个约定我觉得应当遵守： 1.返回零长度的数组或集合而不是null（详见《Effective Java》）理由就是，如果返回empty，就可以少了很多not-null判断： List<Person> list
[科技与项目]工作流厂商的战略机遇期 comsci 工作流
在新的战略平衡形成之前，这里有一个短暂的战略机遇期，只有大概最短6年，最长14年的时间，这段时间就好像我们森林里面的小动物，在秋天中，必须抓紧一切时间存储坚果一样，否则无法熬过漫长的冬季。。。。在微软，甲骨文，谷歌，IBM,SONY
过度设计-举例 cuityang 过度设计
过度设计，需要更多设计时间和测试成本，如无必要，还是尽量简洁一些好。未来的事情，比如访问量，比如数据库的容量，比如是否需要改成分布式都是无法预料的再举一个例子，对闰年的判断逻辑：　　1、 if($Year%4==0) return True; else return Fasle; 　　2、if ( ($Year%4==0 &am
java进阶，《Java性能优化权威指南》试读 darkblue086 java性能优化
记得当年随意读了微软出版社的.NET 2.0应用程序调试，才发现调试器如此强大，应用程序开发调试其实真的简单了很多，不仅仅是因为里面介绍了很多调试器工具的使用，更是因为里面寻找问题并重现问题的思想让我震撼，时隔多年，Java已经如日中天，成为许多大型企业应用的首选，而今天，这本《Java性能优化权威指南》让我再次找到了这种感觉，从不经意的开发过程让我刮目相看，原来性能调优不是简单地看看热点在哪里，
网络学习笔记初识OSI七层模型与TCP协议 dcj3sjt126com 学习笔记
协议：在计算机网络中通信各方面所达成的、共同遵守和执行的一系列约定　　计算机网络的体系结构：计算机网络的层次结构和各层协议的集合。　　两类服务：　　面向连接的服务通信双方在通信之前先建立某种状态，并在通信过程中维持这种状态的变化，同时为服务对象预先分配一定的资源。这种服务叫做面向连接的服务。　　面向无连接的服务通信双方在通信前后不建立和维持状态，不为服务对象
mac中用命令行运行mysql dcj3sjt126com mysql linux mac
参考这篇博客：http://www.cnblogs.com/macro-cheng/archive/2011/10/25/mysql-001.html 感觉workbench不好用（有点先入为主了）。 1，安装mysql 在mysql的官方网站下载 mysql 5.5.23 http://www.mysql.com/downloads/mysql/，根据我的机器的配置情况选择了64
MongDB查询（1）——基本查询[五] eksliang mongodb mongodb 查询 mongodb find
MongDB查询转载请出自出处：http://eksliang.iteye.com/blog/2174452 一、find简介 MongoDB中使用find来进行查询。 API:如下 function ( query , fields , limit , skip, batchSize, options ){.....} 参数含义： query:查询参数 fie
base64，加密解密经融加密，对接 y806839048 经融加密对接
String data0 = new String(Base64.encode(bo.getPaymentResult().getBytes(("GBK")))); String data1 = new String(Base64.decode(data0.toCharArray()),"GBK"); // 注意编码格式，注意用于加密，解密的要是同
JavaWeb之JSP概述 ihuning javaweb
什么是JSP？为什么使用JSP？ JSP表示Java Server Page，即嵌有Java代码的HTML页面。使用JSP是因为在HTML中嵌入Java代码比在Java代码中拼接字符串更容易、更方便和更高效。 JSP起源在很多动态网页中，绝大部分内容都是固定不变的，只有局部内容需要动态产生和改变。如果使用Servl
apple watch 指南啸笑天 apple
1. 文档 WatchKit Programming Guide（中译在线版 By @CocoaChina）译文译者原文概览 - 开始为 Apple Watch 进行开发 @星夜暮晨 Overview - Developing for Apple Watch 概览 - 配置 Xcode 项目 - Overview - Configuring Yo
java经典的基础题目 macroli java 编程
1.列举出 10个JAVA语言的优势 a:免费，开源，跨平台(平台独立性)，简单易用，功能完善，面向对象，健壮性，多线程，结构中立，企业应用的成熟平台, 无线应用 2.列举出JAVA中10个面向对象编程的术语 a:包，类，接口，对象，属性，方法，构造器，继承，封装，多态，抽象，范型 3.列举出JAVA中6个比较常用的包 Java.lang;java.util;java.io;java.sql;ja
你所不知道神奇的js replace正则表达式 qiaolevip 每天进步一点点学习永无止境纵观千象 regex
var v = 'C9CFBAA3CAD0'; console.log(v); var arr = v.split(''); for (var i = 0; i < arr.length; i ++) { if (i % 2 == 0) arr[i] = '%' + arr[i]; } console.log(arr.join('')); console.log(v.r
[一起学Hive]之十五-分析Hive表和分区的统计信息(Statistics) superlxw1234 hive hive分析表 hive统计信息 hive Statistics
关键字：Hive统计信息、分析Hive表、Hive Statistics 类似于Oracle的分析表，Hive中也提供了分析表和分区的功能，通过自动和手动分析Hive表，将Hive表的一些统计信息存储到元数据中。表和分区的统计信息主要包括：行数、文件数、原始数据大小、所占存储大小、最后一次操作时间等； 14.1 新表的统计信息对于一个新创建
Spring Boot 1.2.5 发布 wiselyman spring boot
Spring Boot 1.2.5已在7月2日发布，现在可以从spring的maven库和maven中心库下载。这个版本是一个维护的发布版，主要是一些修复以及将Spring的依赖提升至4.1.7(包含重要的安全修复)。官方建议所有的Spring Boot用户升级这个版本。项目首页 | 源

针对无监督学习NLP任务，梳理非结构化文本背后的方法和经验

词向量

那么，词向量是如何训练的？

语言模型

少样本学习和零样本学习

你可能感兴趣的:(针对无监督学习NLP任务，梳理非结构化文本背后的方法和经验)