喜欢打酱油的老鸟

NLP在网络文学领域的应用

https://www.toutiao.com/a6639229716274348551/

智能推荐系统 2018-12-26 17:22:08

一、业务背景

网络文学的发展已有20年的时间，阅文从发展之初的不太看好，再到现在发展为400亿港币市值的阅读平台和文学IP巨头。他的发展历程并不是那么一帆风顺，但却也契合了当前人们对物质文化的热切需求。目前很多网络小说已经改编为电影或电视剧，按每天每人阅读消费带动收入，可以说网络小说在泛娱乐场景下已无处不在。

1.1 发展历程

从中国加入国际互联网以来，网络小说一直是互相竞争的领域，几乎互联网的巨头都想对这个领域进行渗透。其原因主要是小说是IP（Intellectual Property）的一个起源，为了争夺这样一个起源，很多公司都会在网络小说方面进行布局。2016年阅文统一网络小说后，竞争仍在继续，如现在的爱奇艺文学以及头条传媒平台，都在做网络小说。

网络小说主要是创作式平台，作者在里面占有举足轻重的作用，所以永远不可能达成平台化的单方垄断，很难把所有的竞争对手都压制住，因而需要不断的提升作者与读者双方的生态体验。

1.2 产业状况

现代小说不在是作家单枪匹马进行创作，而是变成挖掘哪些元素比较受人喜欢，然后以一种比较快的方法去切入进行变现，并伴随一些商业衍生产品。如从网络小说衍生为国产动漫，电视剧、电影、自拍剧等，这些都是网络小说的一些变现方法。

网络小说是一种产业链生态，不仅仅是写小说、看小说这一件事。更多的是用户会参与其中，并告诉我们小说衍生的下一步应该如何走，是应该变成漫画还是变成影视剧。也正是这个原因，大量的付费阅读变成了免费阅读，希望把自己的作品扩展到其他领域，获取更多的收益。每家都有自己的网络小说平台，发展方式都是从明星作家到产业变现的方式。为了IP变现和影视流动，需要对网络小说作品做更深层次的理解。以前不太关注的点，如一篇长篇小说是不是适合改编成影视、游戏或者动漫，如何对改编的合理性进行评估，现在都需要有深层次的理解。

1.3 作者作品

网络小说头部流量作品主要有玄幻、奇幻、科幻、仙侠、武侠、都市、历史、灵异和游戏。每种类型的网络小说都有自己的代表作，如武侠类别的代表作为英雄志。

不同类型的小说有不同的表现形式。如玄幻小说和武侠小说是完全不一样的作品，玄幻小说比武侠小说有更夸张的表现形式，如手一挥，星球就爆炸了，这种在武侠小说中仍然不存在。随着种类的变化词的意义也不同，如“吓死了”，很多时候不是死了或者要死了，而是情感的一种表达方式。这也是NLP之所以困难的一个原因。也就是说NLP是由共识而来，也是会随共识而变。对于一个词的语义，在不同的文章中、不同的上下文中都在不停的变化，不可能有一个标准的方法来处理一切NLP问题。而且热门的网络小说类型也在不停的变化。

1.4 写作套路

网络小说的写作有自己套路，一般表现在书名、等级、打斗、装备、悬念及世界观等方面。如书名要么狂、要么low，总之要贴近小白和草根；等级设定要完备、可以无限升级、做到一山还比一山高；打斗要么跨级逆袭，要么扮猪吃虎；装备则需要变废为宝、随手捡来的垃圾也得是个宝物；明线暗线要留足吊胃口的悬念，例如要报仇、要找爹妈、要复活老婆等；世界观都非常大，如玄幻仙侠中，可涉及地球、星系、异界、多宇宙、平行宇宙、混沌等。网络小说到最后已经不是在写文章，而是写一种体系和架构。作者会驱动自己把文章变成架构体系。文字风格需要使用夸张的手法，如一吼之下，让好几座山峰都炸开。

1.5 网文结构化-标签维度

这里说的网文结构化，主要从标签维度考虑。而在这之前需要明确什么是标签以及标签如何进行定义，如何把标签描述清楚等。一个好的标签体系是后续工作的基础。

对网络文章进行结构化，主要是通过技术结合人工进行确定。标签标记大致流程为。首先通过运营、编辑结合技术手段确定标签体系，再通过用户填写标签，以及通过技术判断标签下的候选作品集，运营和编辑对候选结果进行判断后与作家沟通确认（但不许作家随意改动）后，形成最终的用户标签。如果后续需要补充标签，如编辑或者技术提议补充新标签，或者用户标记了新标签后，需要运营对这些新增的标签进行确认，然后在重复标签标记的工作。流程如下图所示。

标签主要分为通用标签和品类题材标签，通用标签主要强调通用性，而品类主题标签主要是结合品类进行更加细化标签。甚至内容风格、套路流派、主角身份及故事元素等方面都需要制定细化的标签体系。

为什么要做这么多、这么细的标签，其原因在于网络文章的推荐是不同于短资讯类的推荐，短资讯喜欢不喜欢，看一眼马上就已经明确了。但网络小说需要看比较长的篇幅才能确定喜欢还是不喜欢，如果推荐不准确，用户看了两小时后不喜欢这部小说，会导致用户对推荐非常反感。因此需要对网络小说的标签进行细化，建设更多维度的标签。

二、技术架构

内容挖掘目标：

持续提升内容价值转化。最简单的是确定用户喜欢不喜欢、但更重要的是要转化到其他场景中去，需要深挖，把不同的场景循环起来。这才是一个比较好的内容挖掘平台。网络小说内容挖掘主要存在三方面的问题：

1、内容挖掘算子分散不集中、不可互相促进；2、需求来源散乱、整理代价大、不可复用；3、内容挖掘后的使用渠道单一。

解决方案：

1、内容挖掘平台需要闭环。即平台需求、挖掘算子和业务反馈需要形成闭环。2、不同平台之间需要链接。即业务观察、内容生产、挖掘平台及应用场景之间需要形成很好的链接关系。

2.1 内容挖掘平台-赋能业务

内容挖掘平台的主要任务是挖掘内容价值、赋能作者，提升内容流传效率。其目的是赋能业务，不同的业务需要挖掘不同的内容。如果是IP变现，需要预测内容的目标群体以及转化的可行性分析，应该转化为动漫、电视剧还是游戏等。如果是针对阅读用户，用户提供一些明确的信息，则需要提供推荐理由、标签和结构信息等辅助用户进行消费决策。针对作家，可以引导作家写什么样的内容，用户更感兴趣。针对内容审核可以提示一些审核风险等。通过趋势指数、候选标签的指导编辑进行内容方向的判断等。

2.2 技术全景

技术主要包含底层数据、核心技术、基础算子、应用策略和业务场景五层。如下图所示。

需要说明的是，基础算子中的书层次，需要依赖段落与章节粒度的分析，却又与这两个粒度的分析方法不同，是独立的端到端模型。

2.3 知识库构建

知识库主要用于辅助语义理解、关系网络构建和知识推理。知识库可以辅助网络内容进行语义理解，并希望把这些知识库固化下来进行迭代更新。以及相应的角色与角色之间的关系，把关系网络建立起来。当需要大规模、系统化的深层关系挖掘时，可通过知识库来支持知识推理。

2.4 知识库构建方法

查看详情

知识库的构建方法主要有两种，一种是基于数据推理，另一种是基于人工构建。人工构建方法比较简单，而基于数据推理的方法则需要大量的算法辅助。

三、落地实践

业务落地场景主要有角色分析、标签建设、推荐语生成、色情鉴别和抄袭鉴别五种场景。

3.1 角色分析

角色分析主要通过NER加关系抽取进行分析。NER主要是书籍主角识别，关系为人物关系和书籍角色关系。书籍主角名识别最简单的一种方法是通过关键词+词性+百家姓来分析角色，这种简单的方法就可以达到很高的准确率（95.6%）。另外主角的出现次数是远多于其他角色，其他角色的次数呈现阶段性下降，通过这种方式可以确定主要人物、重要人物、一般人物等。

人物关系通过社交关系反应。所谓社交关系，定义为两个人有过对话、打斗，即存在社交关系。社交广泛程度通过社交比例进行量化，与人物A有社交关系的所有人除以书中人物总数，即为人物A的社交比例。将每一次对话、打斗记为一次关系(可以累加)，可以通过这种关系构建人物关系矩阵。有了这个关系矩阵，就可以进一步构建人物关系图并分析人物关系。

从人物关系矩阵中，可以发现每个人物之间存在的一些联系和冲突，然后通过统计人物贡献周围的一些词是正向还是负向来判断人物是正面人物还是反面人物。通过人物关系矩阵，进一步加工成关系向量，再用关系向量聚类，就可以聚成图中的四大类。

聚类后，发现每一类中的人物关系显著高于类与类之间人物的关系。通常，在网文中，关系密切的一群人会有一个组织或帮派。与此同时，也会出现少量的聚类错误。

通过与主角的对话等，结合情感挖掘方法进行情感分析和预测，使用基于参数共享和端到端标注的深度学习方法对实体识别与关系抽取进行联合挖掘，分析其他角色的人物性格与情感分析。

3.2 标签建设

标签能有效给予读者锚点，让筛选的成本进一步降低，但每本书的标签都是不一样的。与段内容的标签不同，段落中存在一些标签，但是很有可能不置信。网文标签变换非常快，2016年热门标签是校花、兵王，2018年热门标签变成了神豪、奶爸。重要的问题是不太清楚热门标签会不会变化，而且每年都会有新标签出现，如何才能快速对新标签进行融合。第二个问题是标签因为某些书籍而诞生，需要后续慢慢发展而填充进来，很可能在那个时间点样本是相当有限的（就算长期来看，某些标签的样本总量也极低）。由于这些问题，需要对标签进行重复建设，但是数据标注永远稀缺。因此需要整合标签体系，完善反馈闭环。具体的做法是充分利用群体知识，结合已有行为数据和内容数据的标签，通过标签生产和管理生成一些不太确定标签，然后在通过编辑、运营进行标注，再进行标签生成和管理，形成标签产出机制进行循环迭代。

标签的生成主要有两种方法。一种是基于规则产出，缺点是规则不好定义，规则中的词存在歧义，在不同的场景和上下文中有不同的意思。

另一种方法是基于相似度产出，这里的相似度主要有两类，一类是语义相似度，包含标签语义向量生成和书籍语义向量生成；另一种是B2V行为特征向量相似度，通过用户行为的相关性对标签进行预测。

结合规则特征、结构特征和语义特征，使用深度学习进行建模。但存在在标注不完整的情况下，多标签如何联合建模的问题。

3.3 推荐语生成

生成推荐语的目标是需要覆盖推荐池内的数据，提升转化。解决推荐理由相对单调，信息量低的问题。

结合标签和用户行为数据，推荐语生成有两种方案。一是基于结构化内容模板生成，另一种方案是基于书单已有的推荐语作为训练语料，使用data2seq模型生成推荐语。

除推荐语生成外，还可以结合推荐文章生成，热门作家、台词和时间模板等进行更好的推荐。让用户看到不仅仅是推荐、更是一个AI的应用场景。

3.4 色情鉴别

色情鉴别主要判断内容是否涉黄、涉政及涉黑等，鉴别方法包含关键词召回和模型召回两种。关键词召回需要定义风险召回关键词和黑名单等。模型召回使用的特征包括规则粒度特征、结构特征和语义特征。规则特征在不同的条件语境下，不同的代词会有不同的指代对象，此时需要很多规则去列举。如不同的穿着和形容词等，有不同的组合，定义好特征规则后，再接入模型进行判断。也可以使用word2vec进行特征扩展，但同时也会引入大量的噪音。

3.5 抄袭鉴别

抄袭一般会对关键词和命名实体进行替换。基于这种原因，在做抄袭鉴别时，把句子中的部分关键词和命名实体识别去除，只提取常用词词典中的词，减少命名实体、时间名词的干扰。具体的算法有：

章节拆分：以句子为最小单位，判断不同章节中句子是否有重复。 句子筛选：删除短句，只保留长句。原因是加入短句会使得最后的命中结果太多。 去除长句中的命名实体：保留常用词，减少实体词的干扰。 提取指纹：通过MD5等，对每个长句提取唯一的指纹，得到该章节的所有指纹集合。 建立索引：通过Lucene对指纹建立倒排表。

鉴别时，先对章节进行预处理，利用Lucene索引对比指纹库，如果被找到的句子数超过一定的阈值，则认定该章节为抄袭章节。

四、实践总结

技术如何与业务结合。很多时候不能避免返工，但要保证这件事或者方向正确，要对业务问题非常清楚。

如何快速构建正负样本。样本标注不是硬标注，应结合技术手段尽可能减少标注的工作量（例如谷歌流体标注改造），标注尽可能使用二值判断的方式，避免使用从多个选项中选择一个的方式。另一点是配套监控与记录、校验，确保整个标注过程可控。

如何充分利用用户行为。不要觉得用户行为是无效的，用户行为能提供很多信息。文本本身是通过共识达成的，而用户行为记录的是更本质的共识系统。如果业务上会产出用户行为，则优先考虑用户行为贡献的知识。用户行为表明两个item相关，就不要单纯从NLP语义上去判断说不相关。将行为融入到NLP分析模型中，也是后续的发展方向。

作者介绍：

马宇峰，阅文信息资深研发工程师内容挖掘平台技术负责人。前百度高级研发工程师，研究方向主要包括知识图谱、用户理解、推荐系统。曾获2014百度知识图谱竞赛第1名。

对话新希望CDO李旭昶：立足核心诉求，积极拥抱人工智能
“转型焕新，希望无限。”整理|王娴编辑|云舒出品｜极新4月12日，在「2024飞书先进生产力峰会|成都站」活动中，新希望首席数字官李旭昶先生做了主题为“转型焕新，希望无限”的分享。上次见他是4个月前，当时我们聊了1个多小时，内容涉及数字化转型、人工智能、管理、技术商业等话题。今天顺着他分享的内容，将这篇对话分享出来。随着信息科技的发展，我国传统企业在过去几年中逐步进行数字化转型，利用先进的科学技术
飞算科技：以创新科技引领数字化变革，旗下飞算 JavaAI 成开发利器飞算JavaAI开发助手科技
作为国家级高新技术企业，飞算科技专注于自主创新，在数字科技领域持续深耕，用前沿技术为各行业客户赋能，助力其实现数字化转型升级的飞跃。飞算科技凭借深厚的技术积累，将互联网科技、大数据、人工智能等技术与实际应用紧密融合。公司组建了一支由行业资深专家和技术精英构成的团队，他们在相关领域积累了多年实践经验，深刻理解不同行业客户在数字化进程中面临的痛点与挑战。基于这些洞察，飞算科技推出了一系列具有创新性和实
Rust+ChatBoxAI：实战
ChatboxAIChatboxAI是一款基于人工智能技术的智能助手工具，旨在通过自然语言交互帮助用户完成多种任务。以下是其核心功能与特点：功能概述多模型支持：可连接OpenAI、Claude、Gemini等主流大语言模型，用户能自由切换不同AI服务。本地运行：支持离线使用，数据隐私性较强，适合敏感信息处理场景。跨平台兼容：提供Windows、macOS和Linux客户端，同步支持移动端应用。核心
【Java架构师的未来与趋势】架构学院 Java成神之路-架构师进阶 java 开发语言
Java架构师的未来与趋势引言Java作为企业级应用开发的主力军，已经走过了25年的历程。在这四分之一个世纪中，Java生态系统经历了从Applet到企业级应用，从单体架构到微服务，从本地部署到云原生的巨大转变。今天，Java架构师正站在新一轮技术变革的十字路口——人工智能、云计算、低代码、边缘计算等新兴技术正深刻重塑软件架构的形态和架构师的角色。据JetBrains《2023Java开发者调查》
丰盛日记第三天幸运星小燕子
第123期NLP执行师二阶4组章艳Day3分享《有效引导他人的能力》学到情绪管理的方法和体验练习中感动的一天，我很开心！1、复习大脑结构:由原始脑、情绪脑、皮质层三部分组成；三部分需要充分配合和相互制约，考虑三赢后，才能做出正确的决定。2、情绪体验小游戏:树和松鼠，让我们提醒不同的情绪感受。3、处理情绪的四个方法:思维、体能、环境、关系；导师建议可以使用呼吸放松法，使自己的情绪可以及时的醒觉→_→
生成式人工智能实战 | 像素卷积神经网络（PixelCNN）盼小辉丶生成式人工智能实战150讲深度学习生成模型 aigc
生成式人工智能实战|像素卷积神经网络0.前言1.PixelCNN工作原理1.1掩码卷积层1.2残差块2.PixelCNN分析3.使用混合分布改进PixelCNN3.1模型构建3.2模型训练0.前言像素卷积神经网络(PixelConvolutionalNeuralNetwork,PixelCNN)是于2016年提出的一种图像生成模型，其根据前面的像素预测下一个像素的概率来逐像素地生成图像，模型可以通
【转】【译】How to Handle Very Long Sequences with LSTM（LSTM RNN 超长序列处理）开始奋斗的胖子机器学习 RNN LSTM 序列深度学习
原文地址http://machinelearningmastery.com/handle-long-sequences-long-short-term-memory-recurrent-neural-networks/一个长的输入序列却只对应一个或者一小段输出就是我们经常说的序列标注和序列分类。主要包括下面一些例子：包含上千个词的文件情感分类（NLP）包含上千个时间状态的脑电痕迹分类（Medici
最全2025年AI开发工具深度对比分析：程序员的智能编程助手全指南最新功能、定价策略、使用体验和适用场景 Cursor、GitHub Copilot、Claude 4、Claude Code wei佳人工智能 ai AI编程 webstorm idea vscode
2025年AI开发工具深度对比分析：程序员的智能编程助手全指南引言(不想看文字可直接看后面图表对比）随着人工智能技术的飞速发展，AI编程助手已经从概念走向现实，成为现代软件开发不可或缺的工具。2025年上半年，AI编程工具市场迎来了前所未有的变革，各大厂商纷纷推出革命性功能，从简单的代码补全演进为能够理解完整项目上下文的智能编程代理。据最新市场研究显示，全球AI代码工具市场在2024年达到67亿美
Postman + Newman + Jenkins 接口自动化测试 Thomas Kant 自动化测试 postman newman jenkins allure
亲爱的技术爱好者们，热烈欢迎来到Kant2048的博客！我是ThomasKant，很开心能在CSDN上与你们相遇～本博客的精华专栏：【自动化测试】【测试经验】【人工智能】【Python】Postman
无人值守人工智能智慧系统数据分析：深度洞察与未来展望呆码科技人工智能数据分析数据挖掘
无人值守人工智能智慧系统数据分析：深度洞察与未来展望随着科技的飞速发展，人工智能（AI）技术已逐渐渗透到社会经济的各个领域，其中无人值守人工智能智慧系统作为AI技术应用的前沿阵地，正引领着一场深刻的行业变革。这类系统通过集成高级算法、大数据分析、物联网（IoT）及云计算等先进技术，实现了对复杂环境的自主监控、智能决策与高效管理，极大地提升了运营效率，降低了人力成本，并开启了数据驱动决策的新纪元。本
论“人工智能生命体”站在那个高度？（之二）中國龍在廣州人工智能-智能体-具身智能人工智能
第一部分：人工智能生命体人工智能生命体，提及的是《人工智能生命体新启点》一书，原文附后，本文中以本书代表。《人工智能生命体新启点》一书，是在现今科学技术发展，从人工智能、智能体、具身智能等大环境下，形成的一种全新理念的理论指导，以此发展出具有自我意识的人工智能生命体，拥有现代科技并以生命体的形式出现，具备类人类般的思想活动，更好的体现与融入人类的社会环境；具有自我意识的智能生命体就如人类的拥有大脑
医疗AI与融合数据库的整合：挑战、架构与未来展望（上） Allen_Lyb 数智化教程（第二期）人工智能数据库架构
引言随着人工智能（AI）在医疗健康领域的广泛应用，数据已成为医疗AI发展的核心驱动力。然而，医疗数据具有极度的异构性（包括结构化电子病历、医学影像向量、基因组JSON/图结构、传感器时序等），传统数据架构难以高效整合。因数据孤岛、复杂ETL流程以及昂贵维护成本，医疗AI平台通常难以充分发挥价值。融合数据库（ConvergedDatabase/多模态一体化数据库）通过支持SQL、JSON、图、向量、
一文看懂：马斯克旗下人工智能公司 xAI 正式推出的Grok 4，Grok 4 如何开启 “多智能体内生化” 的 AI 新范式，重塑多模态大模型与 AI Agent 未来陈敬雷-充电了么-CEO兼CTO 《GPT多模态大模型与AI Agent智能体》新书内容人工智能 gpt agi chatgpt 大模型 deep learning 神经网络
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AIAgent智能体》（跟我一起学人工智能）【陈敬雷编著】【清华大学出版社】GPT多模态大模型与AIAgent智能体书籍本章配套视频课程【陈敬雷】文章目录GPT多模态大模型与AIAgent智能体系列二十六一文看懂：马斯克旗下人工智能公司xAI正式推出的Grok4，Grok4如何开启“多智能体内生化”的AI新范
大模型开源王炸！Kimi K2凭万亿参数撕开大模型天花板：代码、Agent、推理全碾压，32家企业疯抢接入陈敬雷-充电了么-CEO兼CTO 《GPT多模态大模型与AI Agent智能体》新书内容 transformer chatgpt 深度学习 lstm kimi Agent AIGC
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AIAgent智能体》（跟我一起学人工智能）【陈敬雷编著】【清华大学出版社】GPT多模态大模型与AIAgent智能体书籍本章配套视频课程【陈敬雷】文章目录GPT多模态大模型与AIAgent智能体系列二十七开源王炸！KimiK2凭万亿参数撕开大模型天花板：代码、Agent、推理全碾压，32家企业疯抢接入一、架构
Prompt：开启与AI高效对话的钥匙
解密Prompt：开启与AI高效对话的钥匙一、什么是Prompt？——AI的“使用说明书”想象一下，你正在指挥一位无所不知但毫无主动性的“实习生”——人工智能（AI）。你不能指望它“心领神会”，你必须给出清晰、具体的指令，它才能准确地完成你想要的任务。这个指令，就是Prompt（提示或提示词）。简单来说，Prompt是你向AI（如大型语言模型LLM）发出的文本或问题，用以引导它生成特定的、高质量的
AI人工智能中Actor - Critic算法的深入解析与应用场景 AI智能探索者 AI Agent 智能体开发实战人工智能算法 ai
AI人工智能中Actor-Critic算法的深入解析与应用场景关键词：Actor-Critic、强化学习、策略梯度、价值函数、深度强化学习、马尔可夫决策过程、A2C/A3C摘要：本文将深入解析Actor-Critic算法的核心原理，从基础概念到数学推导，再到实际应用场景。我们将通过生动的比喻解释这一强化学习中的重要算法，展示其Python实现代码，并探讨它在游戏AI、机器人控制等领域的应用。最后，
AI人工智能领域多模态大模型的发展历程回顾 AI智能探索者 AI Agent 智能体开发实战人工智能 ai
AI人工智能领域多模态大模型的发展历程回顾关键词：AI人工智能、多模态大模型、发展历程、技术演变、应用场景摘要：本文旨在全面回顾AI人工智能领域多模态大模型的发展历程。通过对不同阶段核心概念、算法原理、数学模型等方面的深入剖析，结合实际项目案例，探讨其在各个领域的应用场景。同时，推荐相关的学习资源、开发工具和重要论文著作，最后总结多模态大模型的未来发展趋势与挑战，并对常见问题进行解答。1.背景介绍
AI人工智能领域Actor - Critic算法的可视化分析 AI智能探索者 AI Agent 智能体开发实战人工智能算法 ai
AI人工智能领域Actor-Critic算法的可视化分析关键词：Actor-Critic算法、强化学习、策略梯度、价值函数、可视化分析、神经网络、马尔可夫决策过程摘要：本文深入浅出地讲解Actor-Critic算法的核心原理，通过生活化的比喻和可视化分析，帮助读者理解这一强化学习中的重要算法。我们将从基础概念入手，逐步剖析算法架构，并通过Python代码实现和可视化演示，展示算法在实际问题中的应用
如何用深度学习实现图像风格迁移
最近研学过程中发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击链接跳转到网站人工智能及编程语言学习教程。读者们可以通过里面的文章详细了解一下人工智能及其编程等教程和学习方法。下面开始对正文内容的介绍。前言图像风格迁移是人工智能领域中一个非常有趣且富有创意的应用。它能够让一张普通的照片瞬间变成梵高笔下的《星月夜》风格，或者像莫奈的《睡莲》一样充满艺术感。这种技术不仅在
“闭门造车”之多模态思路浅谈：自回归学习与生成 PaperWeekly 回归学习数据挖掘人工智能机器学习
©PaperWeekly原创·作者|苏剑林单位|科学空间研究方向|NLP、神经网络这篇文章我们继续来闭门造车，分享一下笔者最近对多模态学习的一些新理解。在前文《“闭门造车”之多模态思路浅谈：无损》中，我们强调了无损输入对于理想的多模型模态的重要性。如果这个观点成立，那么当前基于VQ-VAE、VQ-GAN等将图像离散化的主流思路就存在能力瓶颈，因为只需要简单计算一下信息熵就可以表明离散化必然会有严重
AI人工智能领域TensorFlow的模型训练策略 AIGC应用创新大全人工智能 tensorflow python ai
AI人工智能领域TensorFlow的模型训练策略关键词：TensorFlow、模型训练、深度学习、神经网络、优化策略、分布式训练、迁移学习摘要：本文将深入探讨TensorFlow框架下的模型训练策略，从基础概念到高级技巧，全面解析如何高效训练深度学习模型。我们将从数据准备、模型构建、训练优化到部署应用，一步步揭示TensorFlow模型训练的核心技术，并通过实际代码示例展示最佳实践。背景介绍目的
Actor - Critic：AI人工智能领域的新宠儿
Actor-Critic：AI人工智能领域的新宠儿关键词：强化学习、Actor-Critic、策略梯度、价值函数、深度强化学习、A2C、A3C摘要：Actor-Critic是强化学习领域的一种重要算法框架，它结合了策略梯度方法和价值函数方法的优点，成为近年来人工智能领域的热门研究方向。本文将用通俗易懂的方式介绍Actor-Critic的核心概念、工作原理、实现方法以及实际应用，帮助读者理解这一强大
探索AI人工智能中遗传算法的进化奥秘 AI学长带你学AI 人工智能 ai
探索AI人工智能中遗传算法的进化奥秘关键词：遗传算法、自然选择、基因编码、适应度函数、群体进化、交叉变异、优化问题摘要：本文将用生物进化视角解读人工智能中的遗传算法原理。通过达尔文进化论的生活化比喻，结合Python代码实例演示如何模拟基因遗传、自然选择等过程，揭示遗传算法在路径规划、参数优化等场景的应用奥秘。最后探讨遗传算法的局限性与未来发展方向。背景介绍目的和范围本文旨在用通俗易懂的方式解析遗
深度剖析AI人工智能领域多模态大模型 AI学长带你学AI AI人工智能与大数据应用开发 AI应用开发高级指南人工智能 ai
深度剖析AI人工智能领域多模态大模型关键词：AI人工智能、多模态大模型、模型架构、算法原理、应用场景摘要：本文旨在对AI人工智能领域的多模态大模型进行深度剖析。首先介绍多模态大模型的背景知识，包括目的、预期读者等。接着阐述核心概念，分析其架构和原理，并给出相应的流程图。通过Python代码详细讲解核心算法原理和具体操作步骤，同时用数学模型和公式进一步阐释。在项目实战部分，给出实际案例及详细代码解读
Open AI在AI人工智能领域的创新之路 AI学长带你学AI AI人工智能与大数据应用开发 AI应用开发高级指南人工智能 ai
OpenAI在AI人工智能领域的创新之路关键词：OpenAI、人工智能、创新之路、技术突破、应用场景摘要：本文深入探讨了OpenAI在AI人工智能领域的创新之路。首先介绍了OpenAI的背景信息，包括其成立目的、发展历程等。接着详细阐述了OpenAI的核心概念，如强化学习、生成式对抗网络等，并通过示意图和流程图展示其原理和架构。然后讲解了相关核心算法原理，结合Python代码进行具体说明。同时，给
探索AI人工智能领域Actor - Critic的无限潜力
探索AI人工智能领域Actor-Critic的无限潜力关键词：AI人工智能、Actor-Critic、强化学习、策略网络、价值网络摘要：本文将深入探索AI人工智能领域中Actor-Critic方法的无限潜力。我们会先介绍其背景知识，接着用通俗易懂的方式解释核心概念，包括Actor和Critic的含义及它们之间的关系，然后阐述其核心算法原理和具体操作步骤，还会给出数学模型和公式并举例说明。通过项目实
AI人工智能领域多模态大模型的技术瓶颈与解决方案 AI学长带你学AI 人工智能 ai
AI人工智能领域多模态大模型的技术瓶颈与解决方案关键词：多模态大模型、技术瓶颈、跨模态对齐、计算效率、数据稀缺、模型泛化、解决方案摘要：本文深入探讨了AI人工智能领域多模态大模型发展过程中面临的主要技术瓶颈，包括跨模态对齐困难、计算资源消耗巨大、高质量多模态数据稀缺、模型泛化能力不足等问题。针对这些挑战，我们提出了系统性的解决方案，涵盖算法优化、架构创新、数据增强等多个维度。文章通过理论分析、数学
【杂谈】-人工智能：从无序部署到可问责治理的转型之路
人工智能：从无序部署到可问责治理的转型之路文章目录人工智能：从无序部署到可问责治理的转型之路1、失控的人工智能与“漂移”现象的潜在危机2、穿透迷雾：探寻人工智能治理的真谛3、民主化进程中的治理觉醒4、迈向未来：构建可问责的人工智能生态体系5、抉择时刻：关乎人工智能发展走向的关键权衡人工智能已然步入一个关键的转折阶段。当下，众多企业竞相投身于各类人工智能系统的部署浪潮之中，从功能多样的生成式人工智能
自动字幕生成器：Auto-Subtitle — 技术解析与应用指南房耿园Hartley
自动字幕生成器：Auto-Subtitle—技术解析与应用指南在视频内容日益丰富的今天，自动字幕生成工具变得越来越重要，尤其是对于听障人士、非母语者和在嘈杂环境下观看视频的人来说。Auto-Subtitle是一个开源项目，它利用先进的自然语言处理（NLP）技术为你的视频自动生成准确的字幕。本文将深入探讨这个项目的原理、功能、应用场景及特点，以期吸引更多开发者和用户关注并使用。项目简介Auto-Su
从“直觉抢答”到“深度思考”：大模型的“慢思考”革命，思维链、树、图如何让AI越来越像人？陈敬雷-充电了么-CEO兼CTO 《GPT多模态大模型与AI Agent智能体》新书内容人工智能 chatgpt AIGC 神经网络 python 大模型思维链
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AIAgent智能体》（跟我一起学人工智能）【陈敬雷编著】【清华大学出版社】GPT多模态大模型与AIAgent智能体书籍本章配套视频课程【陈敬雷】文章目录GPT多模态大模型与AIAgent智能体系列十六从“直觉抢答”到“深度思考”：大模型的“慢思考”革命，思维链、树、图如何让AI越来越像人？引言：当AI从“快
Linux的Initrd机制被触发 linux
Linux 的 initrd 技术是一个非常普遍使用的机制，linux2.6 内核的 initrd 的文件格式由原来的文件系统镜像文件转变成了 cpio 格式，变化不仅反映在文件格式上， linux 内核对这两种格式的 initrd 的处理有着截然的不同。本文首先介绍了什么是 initrd 技术，然后分别介绍了 Linux2.4 内核和 2.6 内核的 initrd 的处理流程。最后通过对 Lin
maven本地仓库路径修改 bitcarter maven
默认maven本地仓库路径：C:\Users\Administrator\.m2 修改maven本地仓库路径方法： 1.打开E:\maven\apache-maven-2.2.1\conf\settings.xml 2.找到
XSD和XML中的命名空间 darrenzhu xml xsd schema namespace 命名空间
http://www.360doc.com/content/12/0418/10/9437165_204585479.shtml http://blog.csdn.net/wanghuan203/article/details/9203621 http://blog.csdn.net/wanghuan203/article/details/9204337 http://www.cn
Java 求素数运算周凡杨 java 算法素数
网络上对求素数之解数不胜数，我在此总结归纳一下，同时对一些编码，加以改进，效率有成倍热提高。第一种：原理: 6N(+-)1法任何一个自然数，总可以表示成为如下的形式之一： 6N，6N+1，6N+2，6N+3，6N+4，6N+5 (N=0，1，2，…)
java 单例模式 g21121 java
想必单例模式大家都不会陌生，有如下两种方式来实现单例模式： class Singleton { private static Singleton instance=new Singleton(); private Singleton(){} static Singleton getInstance() { return instance; }
Linux下Mysql源码安装 510888780 mysql
1.假设已经有mysql-5.6.23-linux-glibc2.5-x86_64.tar.gz (1)创建mysql的安装目录及数据库存放目录解压缩下载的源码包，目录结构，特殊指定的目录除外：
32位和64位操作系统墙头上一根草 32位和64位操作系统
32位和64位操作系统是指：CPU一次处理数据的能力是32位还是64位。现在市场上的CPU一般都是64位的，但是这些CPU并不是真正意义上的64 位CPU，里面依然保留了大部分32位的技术，只是进行了部分64位的改进。32位和64位的区别还涉及了内存的寻址方面，32位系统的最大寻址空间是2 的32次方= 4294967296（bit）= 4（GB）左右，而64位系统的最大寻址空间的寻址空间则达到了
我的spring学习笔记10-轻量级_Spring框架 aijuans Spring 3
一、问题提问： → 请简单介绍一下什么是轻量级？轻量级（Leightweight）是相对于一些重量级的容器来说的，比如Spring的核心是一个轻量级的容器，Spring的核心包在文件容量上只有不到1M大小，使用Spring核心包所需要的资源也是很少的，您甚至可以在小型设备中使用Spring。
mongodb 环境搭建及简单CURD antlove Web Install curd NoSQL mongo
一搭建mongodb环境 1. 在mongo官网下载mongodb 2. 在本地创建目录 "D:\Program Files\mongodb-win32-i386-2.6.4\data\db" 3. 运行mongodb服务 [mongod.exe --dbpath "D:\Program Files\mongodb-win32-i386-2.6.4\data\
数据字典和动态视图百合不是茶 oracle 数据字典动态视图系统和对象权限
数据字典（data dictionary）是 Oracle 数据库的一个重要组成部分，这是一组用于记录数据库信息的只读（read-only）表。随着数据库的启动而启动,数据库关闭时数据字典也关闭数据字典中包含数据库中所有方案对象（schema object）的定义(包括表，视图，索引，簇，同义词，序列，过程，函数，包，触发器等等) 数据库为一
多线程编程一般规则 bijian1013 java thread 多线程 java多线程
如果两个工两个以上的线程都修改一个对象，那么把执行修改的方法定义为被同步的，如果对象更新影响到只读方法，那么只读方法也要定义成同步的。不要滥用同步。如果在一个对象内的不同的方法访问的不是同一个数据，就不要将方法设置为synchronized的。
将文件或目录拷贝到另一个Linux系统的命令scp bijian1013 linux unix scp
一.功能说明 scp就是security copy，用于将文件或者目录从一个Linux系统拷贝到另一个Linux系统下。scp传输数据用的是SSH协议，保证了数据传输的安全，其格式如下： scp 远程用户名@IP地址：文件的绝对路径
【持久化框架MyBatis3五】MyBatis3一对多关联查询 bit1129 Mybatis3
以教员和课程为例介绍一对多关联关系，在这里认为一个教员可以叫多门课程，而一门课程只有1个教员教，这种关系在实际中不太常见，通过教员和课程是多对多的关系。示例数据：地址表： CREATE TABLE ADDRESSES ( ADDR_ID INT(11) NOT NULL AUTO_INCREMENT, STREET VAR
cookie状态判断引发的查找问题 bitcarter form cgi
先说一下我们的业务背景： 1.前台将图片和文本通过form表单提交到后台，图片我们都做了base64的编码，并且前台图片进行了压缩 2.form中action是一个cgi服务 3.后台cgi服务同时供PC，H5，APP 4.后台cgi中调用公共的cookie状态判断方法（公共的，大家都用，几年了没有问题）问题：（折腾两天。。。。） 1.PC端cgi服务正常调用，cookie判断没
通过Nginx,Tomcat访问日志(access log)记录请求耗时 ronin47
一、Nginx通过$upstream_response_time $request_time统计请求和后台服务响应时间 nginx.conf使用配置方式： log_format main '$remote_addr - $remote_user [$time_local] "$request" ''$status $body_bytes_sent "$http_r
java-67- n个骰子的点数。把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 bylijinnan java
public class ProbabilityOfDice { /** * Q67 n个骰子的点数 * 把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 * 在以下求解过程中，我们把骰子看作是有序的。 * 例如当n=2时，我们认为（1，2）和（2，1）是两种不同的情况 */ private stati
看别人的博客，觉得心情很好 Cb123456 博客心情
以为写博客，就是总结，就和日记一样吧，同时也在督促自己。今天看了好长时间博客: 职业规划: http://www.iteye.com/blogs/subjects/zhiyeguihua android学习: 1.http://byandby.i
[JWFD开源工作流]尝试用原生代码引擎实现循环反馈拓扑分析 comsci 工作流
我们已经不满足于仅仅跳跃一次，通过对引擎的升级，今天我测试了一下循环反馈模式，大概跑了200圈，引擎报一个溢出错误在一个流程图的结束节点中嵌入一段方程，每次引擎运行到这个节点的时候，通过实时编译器GM模块，计算这个方程，计算结果与预设值进行比较，符合条件则跳跃到开始节点，继续新一轮拓扑分析，直到遇到
JS常用的事件及方法 cwqcwqmax9 js
事件描述 onactivate 当对象设置为活动元素时触发。 onafterupdate 当成功更新数据源对象中的关联对象后在数据绑定对象上触发。 onbeforeactivate 对象要被设置为当前元素前立即触发。 onbeforecut 当选中区从文档中删除之前在源对象触发。 onbeforedeactivate 在 activeElement 从当前对象变为父文档其它对象之前立即
正则表达式验证日期格式 dashuaifu 正则表达式 IT其它 java其它
正则表达式验证日期格式 function isDate(d){ var v = d.match(/^(\d{4})-(\d{1,2})-(\d{1,2})$/i); if(!v) { this.focus(); return false; } } <input value="2000-8-8" onblu
Yii CModel.rules() 方法、validate预定义完整列表、以及说说验证 dcj3sjt126com yii
public array rules () {return} array 要调用 validate() 时应用的有效性规则。返回属性的有效性规则。声明验证规则，应重写此方法。每个规则是数组具有以下结构：array('attribute list', 'validator name', 'on'=>'scenario name', ...validation
UITextAttributeTextColor = deprecated in iOS 7.0 dcj3sjt126com ios
In this lesson we used the key "UITextAttributeTextColor" to change the color of the UINavigationBar appearance to white. This prompts a warning "first deprecated in iOS 7.0." Ins
判断一个数是质数的几种方法 EmmaZhao Math python
质数也叫素数，是只能被1和它本身整除的正整数，最小的质数是2，目前发现的最大的质数是p=2^57885161-1【注1】。判断一个数是质数的最简单的方法如下： def isPrime1(n): for i in range(2, n): if n % i == 0: return False return True 但是在上面的方法中有一些冗余的计算，所以
SpringSecurity工作原理小解读坏我一锅粥 SpringSecurity
SecurityContextPersistenceFilter ConcurrentSessionFilter WebAsyncManagerIntegrationFilter HeaderWriterFilter CsrfFilter LogoutFilter Use
JS实现自适应宽度的Tag切换 ini JavaScript html Web css html5
效果体验：http://hovertree.com/texiao/js/3.htm 该效果使用纯JavaScript代码，实现TAB页切换效果，TAB标签根据内容自适应宽度，点击TAB标签切换内容页。 HTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"
Hbase Rest API : 数据查询 kane_xie REST hbase
hbase（hadoop）是用java编写的，有些语言（例如python）能够对它提供良好的支持，但也有很多语言使用起来并不是那么方便，比如c#只能通过thrift访问。Rest就能很好的解决这个问题。Hbase的org.apache.hadoop.hbase.rest包提供了rest接口，它内嵌了jetty作为servlet容器。启动命令：./bin/hbase rest s
JQuery实现鼠标拖动元素移动位置（源码+注释）明子健 jquery js 源码拖动鼠标
欢迎讨论指正！ print.html代码： <!DOCTYPE html> <html> <head> <meta http-equiv=Content-Type content="text/html;charset=utf-8"> <title>发票打印</title> &l
Postgresql 连表更新字段语法 update qifeifei PostgreSQL
下面这段sql本来目的是想更新条件下的数据，可是这段sql却更新了整个表的数据。sql如下： UPDATE tops_visa.visa_order SET op_audit_abort_pass_date = now() FROM tops_visa.visa_order as t1 INNER JOIN tops_visa.visa_visitor as t2 ON t1.
将redis,memcache结合使用的方案? tcrct redis cache
公司架构上使用了阿里云的服务，由于阿里的kvstore收费相当高，打算自建，自建后就需要自己维护，所以就有了一个想法，针对kvstore(redis)及ocs(memcache)的特点，想自己开发一个cache层，将需要用到list，set，map等redis方法的继续使用redis来完成，将整条记录放在memcache下，即findbyid，save等时就memcache，其它就对应使用redi
开发中遇到的诡异的bug wudixiaotie bug
今天我们服务器组遇到个问题：我们的服务是从Kafka里面取出数据，然后把offset存储到ssdb中，每个topic和partition都对应ssdb中不同的key，服务启动之后，每次kafka数据更新我们这边收到消息，然后存储之后就发现ssdb的值偶尔是-2,这就奇怪了，最开始我们是在代码中打印存储的日志，发现没什么问题，后来去查看ssdb的日志，才发现里面每次set的时候都会对同一个key

NLP在网络文学领域的应用

你可能感兴趣的:(人工智能,NLP,网络文学)