zenRRan

【微软小冰】多轮和情感机器人的先行者

来自：CS的陋室

在大学时代参加过一次微软技术大会，没记错的是在2015年吧，当时演讲者（原谅我不记得名字）在台上介绍了两款机器人，所负责日常事务的秘书小娜（Cortana）和具有情感沟通能力的小冰（XiaoIce），前者在现在看来更像是任务型的代表，而小冰，则更像是一个有血有肉的人，在回答中能更明显地透露出人的气息，这在当时已经是神级别的产品了。

19年微软的4位大佬桌子Arxiv上对微软小冰的整体架构进行了详尽的介绍，我们来看一下：论文标题：The design and implement of XiaoIce, an empathetic social chatbot。

按事先说明，这篇文章没有啥复杂的模型，而是把小冰的外部结构讲的很清楚，可以说是智能机器人整个领域一个非常前沿的介绍，大家可以在这里面抽取自己所需放入自己的系统里面。

懒人目录：

小冰的设计原则
小冰的架构
对话引擎
小结

小冰的设计原则

一般系统级介绍的文章，开篇intro结束后会开始讲结构了，但是这篇论文却加了一章专门讨论全文的设计原则，这里面其实有很多有参考价值的东西，我们来看看。

IQ+EQ+Personality

文章认为，一个完整的人，需要拥有完整智商情商和人格，小冰也是这样拆解实现的。

先说智商，文章将小冰的智商理解为知识和记忆的建模，图像和自然语言的理解、推理、生成和预测。这么说起来其实就非常明确了，一方面我们要有存储，一种是长期稳定的知识，另一种是短期变化的聊天记忆；另一方面就是满足基本的交流能力，这个和人的对话类似，理解对方说什么、自己反应提炼信息、产生自己的回复并且对对方的回答产生预期。

然后是情商，情商被拆解为共情能力和社交能力。顾名思义，前者是一种将心比心的能力，理解他人的能力，这里面其实涵盖了query理解、用户画像、情感检测、情绪识别、动态追踪情绪变化等多个能力，可能在细节上每个能力其实都已经有一定的研究，但组合在一起还是有一定难度的；而后者，其实体现在交流上，用户是有不同的文化、性格等的背景的，因此要具备迎合对方兴趣的能力，尽可能避免说一些敏感的话题。

最后是人格，中文叫做personality，让一个人能成为人，必须有他最鲜明的标签，有自己的性格，因为只有明确性格才能让用户有明确的预期，知道他会和你聊什么，当然这点还被做的更加差异化，不同地区、场景的小冰可能会有不同的形象以满足当地用户的需求。

抓手：对话交互次数

要衡量一个机器人好坏，对于小冰所应对的场景，文章使用了平均单次对话交互次数作为评价的抓手。文章认为这是一个非常有效、长期可靠的指标。首先对于对话机器人，更多的对话次数意味着用户愿意与他沟通，获取所需信息；第二是，虽然类似“没听懂”的这种问题可能会短期带来更高的交互次数，但是这种劣质的交互次数多以后用户自然就不愿意再和交流了，所以这个指标在长期来看也是比较有意义的；第三虽然一些技能的快速达成同样会大导致交互次数的下降，但是高效的交互同样会加强用户和机器人的纽带，在长期同样有意义。（作者在这里说了很多有关交互次数的误解，但是个人感觉这个指标还是不能只看次数，还有一些别的指标吧，只看一个指标可能会比较危险）

把社交聊天当做是分层决策

这里的分层决策其实看做是将整个对话内容决策看做两层操作：顶层是技能决策，选择合适的技能应对用户的对话，底层则考虑原始基本的话术执行回复，两者结合完成整体对话操作。

a top-level process manages the overall conversation and selects skills to handle different types of conversation modes (e.g., chatting casually, question answering, ticket booking), and a low- level process, controlled by the selected skill, chooses primitive actions (responses) to generate a conversation segment or complete a task.

小冰的架构

整体架构长这样。

整体架构分了3层。

用户体验层。不同APP下、不同的语音输入场景下，用户都有不同的需求。这里分了两种，说人话就是把语音模式单独抽取出，满足更为实时的对话场景，另一种则涵盖文本、图像、声音、视频的模式。这里面会涉及大量的信息预处理的工作，如文本图像则是归一化、声音的去噪、判全和ASR等等。
对话引擎层。看名字就知道了，主要是用来进行对话交互的处理的，里面涵盖了大量的功能，后面会花点时间展开说，论文也是花了整个章节来讨论这块。
数据层。我们当然知道是需要存储数据的，但是存了什么与怎么用就是用户所关心。这里主要讲了有什么，有小冰画像、用户画像、成对（我们有的时候叫平行）数据、非成对数据、主题索引、知识图谱。

对话引擎

前面的章节讨论了整体架构后，这时候就把最核心的对话引擎拿出来详细品一品了。

对话管理器

Dialogue Manager，对话管理器，可以说是多轮对话最为灵魂的一个模块了，这里作者把它分为了两个子模块，分别是全局状态管理器和对话规则，这里其实把整个对话看成一个类似强化学习问题去看了，根据这个状态和对话规则，可以进行一些动作决策，即，这个动作可以是特定技能，也可以是核心对话的一些规则。

首先聊聊对话状态管理器，它主要维护的是对话过程中出现的需要记忆的信息，从而跟踪对话的状态，举个例子，在对话过程汇总达成的共识就需要被记录下来，如当前的话题、用户的爱好等，这种是短期、对话内有效的记忆。

而对话规则，则如上所示采用了分层的对话策略，高级策略管技能，低级策略管话术。而在其中，高级策略管理的技能也需要记录下来，于是有了话题管理器，它主要用于实现当前话题、管理话题切换等功能，这里有很多有意思的技术，如发现用户觉得无聊的时候主动切换话题、自身知识匮乏聊不下去时的主动切换等等。

说到这个话题的切换，其实内部是按照“召回-排序”的模式去搭建的，这个和推荐搜索非常类似，召回主要就是基于用户信息和当前对话的状态了，而排序其实用的就是多个特征合并到一个提升树上进行机器学习打分排序，文章中列举了一些排序的规则，如下：

上下文信息。
新鲜度。
用户个性化特征。
流行度。可以理解为网络的热门程度。
接受度。可以理解为在小冰场景下的用户愿意去聊的程度。

情感计算

如果说小冰情感机器人的一个代表任务，那么情感计算模块就是整个小冰最为特色的对话模块了。

实质上情感计算模块是把上面提到的状态给构造处后来，这4个东西分别为上下文状态、上下文、用户情感向量和回复的情感向量，这个东西后续就会被放入dialog policy（对话规则）中进行处理，最终表现为小冰形式的回复——一个18岁，可靠，富有同情心，深情，博学多闻，但会自欺欺人，并且幽默感极佳的妹子（心动了没？）。

整合整个计算模块主要有3个任务：上下文query理解、用户理解和用户回复生成。

首先是上下文query理解，这个相信很多做搜索推荐的人应该都会比较熟悉，这里面涉及到这几个计算任务：

命名实体识别。NLU的基本操作。
共指解析。这个在多轮对话非常常见，要把里面你的代词给解析出来。
句子完整性。这个在对话问题里面很常见，需要判断句子是否完整。

用户理解实质上就是基于上面的和，即上下文状态和上下文，处理成用户情感向量。这里面主要有5个核心工作：

话题检测，检测当前的话题状态，看用户有没有自己开新的的话题等。这个要会和话题管理器进行交互（topic manager）
识别对话意图，文中一共提到了11中对话意图，如打招呼、回复、告知等。
情感分析，分析用户情绪，是开心、伤心、愤怒等。
观点分析，分析用户对话题的观点，乐观悲观等。
在用户画像明确的前提下引入用户画像，如性别兴趣等。

在上面基础上就可以生成了，这里作者把它叫做用户共情向量生成，说到生成，说明就要把前面的信息集成起来，这样才能有一个比较综合性的结果，这里就包括了前面的对话内容、用户理解，还需要涵盖小冰的人格特征等。

核心聊天模块

核心聊天模块是处理用户输入最终完成结果回复的重要模块，它主要分为通用域聊天和垂直域聊天。顾名思义通用域就是管常见的闲聊、开放域场景的聊天，对于特定领域、任务的聊天，就交给垂直域聊天负责，一般都会是一些比较有深度知识依赖的领域，例如聊电影演员八卦之类的。这样划分的核心主要是根据下游数据库知识存储的结构有关，这个和搜索非常类似。

无论是开放域聊天还是垂直于聊天，实质上都是一种“召回-排序”模式的实现方式，召回（生成）多个可能的回答，然后排序。召回的方式文章列举了3种：

基于成对文本的数据库检索。
神经网络生成。文中提到了实质上用的是seq2seq的框架，并特地提到了GRU-RNN。
非成对样本。非成对样本的召回来自一些讲座、对话记录等，进行过一些类似非小冰风格的过滤，使用，即对话上下文状态作为索引过滤，并借助知识图谱的方式进行适当的拓展，知识图谱的构建原理源于“共现”。

然后就是排序了，排序同样使用的是提升树类的模型（可见提升树类的机器学习模型仍有很大的使用空间，不要小看）。特征作者也列举出来了：

局部语义相似度特征。保证小冰回复的内容和上一句足够接近，使用的是DSSM模型。
全局语义相似度特征。保证整个聊天会话中内容是比较紧凑的，所以会和全局上下文进行与上述相似的一次语义相似度计算。
情绪匹配度。为了保证小冰的形象及其回复足够有共情力，需要考虑情绪上的匹配度（注意这里叫匹配度，不是相似性，用户伤心你不见得要跟着她伤心，你可以尝试用快乐感染他，大家细品，这也是为什么前两个用户用的是coherence，这一个用的是matching的理由）。
检索相似性。即搜索的相似性，在特定话题下，应该有一些特定的关键词是需要被保留的，所以要有搜索上的相似性，比较突出的当然就是BM25之类的基操了。

图像评论

图像评论稍微会触及到我的知识盲区——CV，我试着讲讲吧。

首先看需求，回想下我们在微信给别人发图都是为了什么，为了聊天分享对吧，哪怕是斗图也有斗图本身的含义，因此图像评论功能有别于一般的图像识别，因为这里除了要识别图像内容，还要分析出用户的目的，然后返回针对性的内容，例如“斗图”，只有能分析出目的并且能给出针对性回复，斗图才能都得起来。

整体的操作流程和文字的处理其实类似，所以作者更多是举例子而没有深入技术细节。

对话技能

对话技能涉及到对话内容中需要完成的任务，这块和上述的图像评论和核心聊天共同组成了IQ模块，对话技能主要分为内容创建，深度参与和任务完成三种能力。

内容创建的主要目标是和人类一起完成一些创作任务，如画画、作曲等，甚至包括一些儿童读物等。这里特别提到了RNN进行创作。

深度参与旨在通过针对特定主题和设置来满足用户的特定情感和智力需求，从而提高用户的长期参与度，类似的一些百科检索、求安慰之类的其实都算是深度参与的部分，他主要涵盖两个维度，从IQ到EQ，以及组内的讨论。上面提到的百科、求安慰其实都算是这个维度里面的，这个能覆盖大量用户需求。组内讨论则倾向于和用户达成一种更加深入的关系，文中提到的“数羊”技能就是其中一个。

任务完成能力让小冰具备了和小娜类似的私人秘书能力，而且更具“人性”，完成度和贴心度都很高，类似一些相关的问答，小冰会考虑到用户的知识背景给出更加通俗的解释，例如美国人问某个国家的面积，回复可能就是“面积是XXX，相当于X个美国”。

小结

文章读完，可能深度技术上没有很明显的提升，文中但凡说了模型，其实都是一些非常经典简单的模型，收获是在于知道了这些架构上、设计思路上的东西，回头想来说实话其实模型反而不是最值钱的东西，他只是一个工具，有了好的设计，出效果的风险就会更低，哪怕是各种飞机大炮模型，其实都是建立在对用户对系统现状足够理解，根据这个现状因地制宜建立起来的，不是谁都适用，试错风险自然就高了，这也是我在本系列第一篇用这个的核心目的所在。



下载一：中文版！学习TensorFlow、PyTorch、机器学习、深度学习和数据结构五件套！

后台回复【五件套】
下载二：南大模式识别PPT

后台回复【南大模式识别】

说个正事哈

由于微信平台算法改版，公号内容将不再以时间排序展示，如果大家想第一时间看到我们的推送，强烈建议星标我们和给我们多点点【在看】。星标具体步骤为：

（1）点击页面最上方“深度学习自然语言处理”，进入公众号主页。

（2）点击右上角的小点点，在弹出页面点击“设为星标”，就可以啦。

感谢支持，比心。

投稿或交流学习，备注：昵称-学校（公司）-方向，进入DL&NLP交流群。

方向有很多：机器学习、深度学习，python，情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

记得备注呦

推荐两个专辑给大家：

专辑 | 李宏毅人类语言处理2020笔记

专辑 | NLP论文解读

专辑 | 情感分析


整理不易，还望给个在看！

系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
Flask框架入门：快速搭建轻量级Python网页应用「已注销」 python-AI python基础网站网络 python flask 后端
转载：Flask框架入门：快速搭建轻量级Python网页应用1.Flask基础Flask是一个使用Python编写的轻量级Web应用框架。它的设计目标是让Web开发变得快速简单，同时保持应用的灵活性。Flask依赖于两个外部库：Werkzeug和Jinja2，Werkzeug作为WSGI工具包处理Web服务的底层细节，Jinja2作为模板引擎渲染模板。安装Flask非常简单，可以使用pip安装命令
Python Flask 框架入门：快速搭建 Web 应用的秘诀 Python编程之道 Python人工智能与大数据 Python编程之道 python flask 前端 ai
PythonFlask框架入门：快速搭建Web应用的秘诀关键词Flask、微框架、路由系统、Jinja2模板、请求处理、WSGI、Web开发摘要想快速用Python搭建一个灵活的Web应用？Flask作为“微框架”代表，凭借轻量、可扩展的特性，成为初学者和小型项目的首选。本文将从Flask的核心概念出发，结合生活化比喻、代码示例和实战案例，带你一步步掌握：如何用Flask搭建第一个Web应用？路由
python_虚拟环境阿_焦 python
第一、配置虚拟环境：virtualenv（1）pipvirtualenv>安装虚拟环境包（2）pipinstallvirtualenvwrapper-win>安装虚拟环境依赖包（3）c盘创建虚拟目录>C:\virtualenv>配置环境变量【了解一下】：（1）如何使用virtualenv创建虚拟环境a、cd到C:\virtualenv目录下：b、mkvirtualenvname>创建虚拟环境nam
Python爱心光波
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
Python流星雨 Want595 python 开发语言
文章目录系列文章写在前面技术需求完整代码代码分析1.模块导入2.画布设置3.画笔设置4.颜色列表5.流星类(Star)6.流星对象创建7.主循环8.流星运动逻辑9.视觉效果10.总结写在后面系列文章序号直达链接表白系列1Python制作一个无法拒绝的表白界面2Python满屏飘字表白代码3Python无限弹窗满屏表白代码4Python李峋同款可写字版跳动的爱心5Python流星雨代码6Python
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
Python之七彩花朵代码实现 PlutoZuo Python python 开发语言
Python之七彩花朵代码实现文章目录Python之七彩花朵代码实现下面是一个简单的使用Python的七彩花朵。这个示例只是一个简单的版本，没有很多高级功能，但它可以作为一个起点，你可以在此基础上添加更多功能。importturtleastuimportrandomasraimportmathtu.setup(1.0,1.0)t=tu.Pen()t.ht()colors=['red','skybl
Python 脚本最佳实践2025版
前文可以直接把这篇文章喂给AI,可以放到AI角色设定里,也可以直接作为提示词.这样,你只管提需求,写脚本就让AI来.概述追求简洁和清晰：脚本应简单明了。使用函数(functions)、常量(constants)和适当的导入(import)实践来有逻辑地组织你的Python脚本。使用枚举(enumerations)和数据类(dataclasses)等数据结构高效管理脚本状态。通过命令行参数增强交互性
（Python基础篇）了解和使用分支结构 EternityArt 基础篇 python
目录一、引言二、Python分支结构的类型与语法（一）if语句（单分支）（二）if-else语句（双分支）（三）if-elif-else语句（多分支）三、分支结构的应用场景（一）提示用户输入用户名，然后再提示输入密码，如果用户名是“admin”并且密码是“88888”则提示正确，否则，如果用户名不是admin还提示用户用户名不存在,（二）提示用户输入用户名，然后再提示输入密码，如果用户名是“adm
（Python基础篇）循环结构 EternityArt 基础篇 python
一、什么是Python循环结构？循环结构是编程中重复执行代码块的机制。在Python中，循环允许你：1.迭代处理数据：遍历列表、字典、文件内容等。2.自动化重复任务：如批量处理数据、生成序列等。3.控制执行流程：根据条件决定是否继续或终止循环。二、为什么需要循环结构？假设你需要打印1到100的所有偶数：没有循环：需手动编写100行print()语句。print(0)print(2)print(4)
（Python基础篇）字典的操作 EternityArt 基础篇 python 开发语言
一、引言在Python编程中，字典（Dictionary）是一种极具灵活性的数据结构，它通过“键-值对”（key-valuepair）的形式存储数据，如同现实生活中的字典——通过“词语（键）”快速查找“释义（值）”。相较于列表和元组的有序索引访问，字典的优势在于基于键的快速查找，这使得它在处理需要频繁通过唯一标识获取数据的场景中极为高效。掌握字典的操作，能让我们更高效地组织和管理复杂数据，是Pyt
Python七彩花朵 Want595 python 开发语言
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
用OpenCV标定相机内参应用示例（C++和Python）
下面是一个完整的使用OpenCV进行相机内参标定（CameraCalibration）的示例，包括C++和Python两个版本，基于棋盘格图案标定。一、目标：相机标定通过拍摄多张带有棋盘格图案的图像，估计相机的内参：相机矩阵（内参）K畸变系数distCoeffs可选外参（R,T）标定精度指标（如重投影误差）二、棋盘格参数设置（根据自己的棋盘格设置）：棋盘格角点数：9x6（内角点，9列×6行）；每个
Anaconda 详细下载与安装教程
Anaconda详细下载与安装教程1.简介Anaconda是一个用于科学计算的开源发行版，包含了Python和R的众多常用库。它还包括了conda包管理器，可以方便地安装、更新和管理各种软件包。2.下载Anaconda2.1访问官方网站首先，打开浏览器，访问Anaconda官方网站。2.2选择适合的版本在页面中，你会看到两个主要的下载选项：AnacondaIndividualEdition：适用于
python中 @注解及内置注解的使用方法总结以及完整示例慧一居士 Python python
在Python中，装饰器（Decorator）使用@符号实现，是一种修改函数/类行为的语法糖。它本质上是一个高阶函数，接受目标函数作为参数并返回包装后的函数。Python也提供了多个内置装饰器，如@property、@staticmethod、@classmethod等。一、核心概念装饰器本质：@decorator等价于func=decorator(func)执行时机：在函数/类定义时立即执行装饰
Python中的静态方法和类方法详解
在Python中，`@staticmethod`和`@classmethod`是两种装饰器，它们用于定义类中的方法，但是它们的行为和用途有所不同。###@staticmethod`@staticmethod`装饰器用于定义一个静态方法。静态方法不接收类或实例的引用作为第一个参数，因此它不能访问类的状态或实例的状态。静态方法可以看作是与类关联的普通函数，但它们可以通过类名直接调用。classMath
Python中类静态方法：@classmethod/@staticmethod详解和实战示例
在Python中，类方法(@classmethod)和静态方法(@staticmethod)是类作用域下的两种特殊方法。它们使用装饰器定义，并且与实例方法(deffunc(self))的行为有所不同。1.三种方法的对比概览方法类型是否访问实例(self)是否访问类(cls)典型用途实例方法✅是❌否访问对象属性类方法@classmethod❌否✅是创建类的替代构造器，访问类变量等静态方法@stati
Python多版本管理与pip升级全攻略：解决冲突与高效实践码界奇点 Python python pip 开发语言 python3.11 源代码管理虚拟现实依赖倒置原则
引言Python作为最流行的编程语言之一，其版本迭代速度与生态碎片化给开发者带来了巨大挑战。据统计，超过60%的Python开发者需要同时维护基于Python3.6+和Python2.7的项目。本文将系统解决以下核心痛点：如何安全地在同一台机器上管理多个Python版本pip依赖冲突的根治方案符合PEP标准的生产环境最佳实践第一部分：Python多版本管理核心方案1.1系统级多版本共存方案Wind
基于Python的健身数据分析工具的搭建流程day1 weixin_45677320 python 开发语言数据挖掘爬虫
基于Python的健身数据分析工具的搭建流程分数据挖掘、数据存储和数据分析三个步骤。本文主要介绍利用Python实现健身数据分析工具的数据挖掘部分。第一步：加载库加载本文需要的库，如下代码所示。若库未安装，请按照python如何安装各种库（保姆级教程）_python安装库-CSDN博客https://blog.csdn.net/aobulaien001/article/details/133298
数字孪生技术为UI前端注入新活力：实现产品设计的沉浸式体验 ui设计前端开发老司机 ui
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“平面交互”到“沉浸体验”的UI革命当用户在电商APP中翻看3D家具模型却无法感知其与自家客厅的匹配度，当设计师在2D屏幕上绘制汽车内饰却难以预判实际乘坐体验——传统UI设计的“平面化、静态化、割裂感”
seaborn又一个扩展heatmapz qq_21478261 #Python可视化 matplotlib
推荐阅读：Pythonmatplotlib保姆级教程嫌Matplotlib繁琐？试试Seaborn！
NGS测序基础梳理01-文库构建（Library Preparation） qq_21478261 #生物信息生物学
本文介绍Illumina测序平台文库构建（LibraryPreparation）步骤，文库结构。写作时间：2020.05。推荐阅读：10W字《Python可视化教程1.0》来了！一份由公众号「pythonic生物人」精心制作的PythonMatplotlib可视化系统教程，105页PDFhttps://mp.weixin.qq.com/s/QaSmucuVsS_DR-klfpE3-Q10W字《Rg
AI音乐模拟器：AIGC时代的智能音乐创作革命 lauo 人工智能 AIGC 开源前端机器人
AI音乐模拟器：AIGC时代的智能音乐创作革命引言：AIGC浪潮下的音乐创作新范式在数字化转型的浪潮中，人工智能生成内容（AIGC）正在重塑各个创意领域。音乐产业作为创意经济的重要组成部分，正经历着前所未有的变革。据最新市场研究数据显示，全球AI音乐市场规模预计将从2023年的5.8亿美元增长到2030年的26.8亿美元，年复合增长率高达24.3%。这一快速增长的市场背后，是AI音乐技术正在打破传
Python 常用内置函数详解（七）：dir()函数——获取当前本地作用域中的名称列表或对象的有效属性列表
目录一、功能二、语法和示例一、功能dir()函数获取当前本地作用域中的名称列表或对象的有效属性列表。二、语法和示例dir()函数有两种形式，如果没有实参，则返回当前本地作用域中的名称列表。如果有实参，它会尝试返回该对象的有效属性列表。如果对象有一个名为__dir__()的方法，那么该方法将被调用，并且必须返回一个属性列表。dir()函数的语法格式如下：C:\Users\amoxiang>ipyth
pythonjson中list操作_Python json.dumps 特殊数据类型的自定义序列化操作
场景描述：Python标准库中的json模块，集成了将数据序列化处理的功能；在使用json.dumps()方法序列化数据时候，如果目标数据中存在datetime数据类型，执行操作时，会抛出异常：TypeError:datetime.datetime(2016,12,10,11,04,21)isnotJSONserializable那么遇到json.dumps序列化不支持的数据类型，该怎么办！首先，
LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
Python 日期格式转json.dumps的解决方法 douyaoxin python json 开发语言
classDateEncoder(json.JSONEncoder):defdefault(self,obj):ifisinstance(obj,datetime.datetime):returnobj.strftime('%Y-%m-%d%H:%M:%S')elifisinstance(obj,datetime.date):returnobj.strftime("%Y-%m-%d")json.d
Python 爬虫实战：视频平台播放量实时监控（含反爬对抗与数据趋势预测）西攻城狮北 python 爬虫音视频
一、引言在数字内容蓬勃发展的当下，视频平台的播放量数据已成为内容创作者、营销人员以及行业分析师手中极为关键的情报资源。它不仅能够实时反映内容的受欢迎程度，更能在竞争分析、营销策略制定以及内容优化等方面发挥不可估量的作用。然而，视频平台为了保护自身数据和用户隐私，往往会设置一系列反爬虫机制，对数据爬取行为进行限制。这就向我们发起了挑战：如何巧妙地突破这些限制，同时精准地捕捉并预测播放量的动态变化趋势
Python技能手册 - 模块module 金色牛神 Python python windows 开发语言
系列Python常用技能手册-基础语法Python常用技能手册-模块modulePython常用技能手册-包package目录module模块指什么typing数据类型int整数float浮点数str字符串bool布尔值TypeVar类型变量functools高阶函数工具functools.partial()函数偏置functools.lru_cache()函数缓存sorted排序列表排序元组排序
jdk tomcat 环境变量配置 Array_06 java jdk tomcat
Win7 下如何配置java环境变量 1。准备jdk包，win7系统，tomcat安装包（均上网下载即可） 2。进行对jdk的安装，尽量为默认路径（但要记住啊！！以防以后配置用。。。） 3。分别配置高级环境变量。电脑-->右击属性-->高级环境变量-->环境变量。分别配置 : path &nbs
Spring调SDK包报java.lang.NoSuchFieldError错误 bijian1013 java spring
在工作中调另一个系统的SDK包，出现如下java.lang.NoSuchFieldError错误。 org.springframework.web.util.NestedServletException: Handler processing failed; nested exception is java.l
LeetCode[位运算] - #136 数组中的单一数 Cwind java 题解位运算 LeetCode Algorithm
原题链接：#136 Single Number 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现两次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：题目限定了线性的时间复杂度，同时不使用额外的空间，即要求只遍历数组一遍得出结果。由于异或运算 n XOR n = 0, n XOR 0 = n，故将数组中的每个元素进
qq登陆界面开发 15700786134 qq
今天我们来开发一个qq登陆界面，首先写一个界面程序，一个界面首先是一个Frame对象，即是一个窗体。然后在这个窗体上放置其他组件。代码如下： public class First { public void initul(){ jf=ne
Linux的程序包管理器RPM 被触发 linux
在早期我们使用源代码的方式来安装软件时，都需要先把源程序代码编译成可执行的二进制安装程序，然后进行安装。这就意味着每次安装软件都需要经过预处理-->编译-->汇编-->链接-->生成安装文件--> 安装，这个复杂而艰辛的过程。为简化安装步骤，便于广大用户的安装部署程序，程序提供商就在特定的系统上面编译好相关程序的安装文件并进行打包，提供给大家下载，我们只需要根据自己的
socket通信遇到EOFException 肆无忌惮_ EOFException
java.io.EOFException at java.io.ObjectInputStream$PeekInputStream.readFully(ObjectInputStream.java:2281) at java.io.ObjectInputStream$BlockDataInputStream.readShort(ObjectInputStream.java:
基于spring的web项目定时操作知了ing java Web
废话不多说，直接上代码，很简单配置一下项目启动就行 1，web.xml <?xml version="1.0" encoding="UTF-8"?> <web-app xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="h
树形结构的数据库表Schema设计矮蛋蛋 schema
原文地址： http://blog.csdn.net/MONKEY_D_MENG/article/details/6647488 程序设计过程中，我们常常用树形结构来表征某些数据的关联关系，如企业上下级部门、栏目结构、商品分类等等，通常而言，这些树状结构需要借助于数据库完成持久化。然而目前的各种基于关系的数据库，都是以二维表的形式记录存储数据信息，
maven将jar包和源码一起打包到本地仓库 alleni123 maven
http://stackoverflow.com/questions/4031987/how-to-upload-sources-to-local-maven-repository <project> ... <build> <plugins> <plugin> <groupI
java IO操作与 File 获取文件或文件夹的大小，可读，等属性！！！百合不是茶
类 File File是指文件和目录路径名的抽象表示形式。 1，何为文件：标准文件（txt doc mp3...）目录文件（文件夹）虚拟内存文件 2，File类中有可以创建文件的 createNewFile（）方法,在创建新文件的时候需要try{} catch(）{}因为可能会抛出异常；也有可以判断文件是否是一个标准文件的方法isFile();这些防抖都
Spring注入有继承关系的类（2） bijian1013 java spring
被注入类的父类有相应的属性，Spring可以直接注入相应的属性，如下所例：1.AClass类 package com.bijian.spring.test4; public class AClass { private String a; private String b; public String getA() { retu
30岁转型期你能否成为成功人士 bijian1013 成长励志
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
【Velocity四】Velocity与Java互操作 bit1129 velocity
Velocity出现的目的用于简化基于MVC的web应用开发，用于替代JSP标签技术，那么Velocity如何访问Java代码.本篇继续以Velocity三http://bit1129.iteye.com/blog/2106142中的例子为基础， POJO package com.tom.servlets; public
【Hive十一】Hive数据倾斜优化 bit1129 hive
什么是Hive数据倾斜问题操作：join,group by,count distinct 现象：任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成；查看未完成的子任务，可以看到本地读写数据量积累非常大，通常超过10GB可以认定为发生数据倾斜。原因：key分布不均匀倾斜度衡量：平均记录数超过50w且
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua csrf
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-3.求子数组的最大和 bylijinnan java
package beautyOfCoding; public class MaxSubArraySum { /** * 3.求子数组的最大和题目描述：输入一个整形数组，数组里有正数也有负数。数组中连续的一个或多个整数组成一个子数组，每个子数组都有一个和。求所有子数组的和的最大值。要求时间复杂度为O(n)。例如输入的数组为1, -2, 3, 10, -4,
Netty源码学习-FileRegion bylijinnan java netty
今天看org.jboss.netty.example.http.file.HttpStaticFileServerHandler.java 可以直接往channel里面写入一个FileRegion对象，而不需要相应的encoder： //pipeline（没有诸如“FileRegionEncoder”的handler）： public ChannelPipeline ge
使用ZeroClipboard解决跨浏览器复制到剪贴板的问题 cngolon 跨浏览器复制到粘贴板 Zero Clipboard
Zero Clipboard的实现原理 Zero Clipboard 利用透明的Flash让其漂浮在复制按钮之上，这样其实点击的不是按钮而是 Flash ，这样将需要的内容传入Flash，再通过Flash的复制功能把传入的内容复制到剪贴板。 Zero Clipboard的安装方法首先需要下载 Zero Clipboard的压缩包，解压后把文件夹中两个文件：ZeroClipboard.js
单例模式 cuishikuan 单例模式
第一种（懒汉，线程不安全）： public class Singleton { 2 private static Singleton instance; 3 pri
spring+websocket的使用 dalan_123
一、spring配置文件 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3.or
细节问题：ZEROFILL的用法范围。 dcj3sjt126com mysql
1、zerofill把月份中的一位数字比如1，2，3等加前导0 mysql> CREATE TABLE t1 (year YEAR(4), month INT(2) UNSIGNED ZEROFILL, -> day
Android开发10——Activity的跳转与传值 dcj3sjt126com Android开发
Activity跳转与传值，主要是通过Intent类，Intent的作用是激活组件和附带数据。一、Activity跳转方法一Intent intent = new Intent(A.this, B.class); startActivity(intent) 方法二Intent intent = new Intent();intent.setCla
jdbc 得到表结构、主键 eksliang jdbc 得到表结构、主键
转自博客：http://blog.csdn.net/ocean1010/article/details/7266042 假设有个con DatabaseMetaData dbmd = con.getMetaData(); rs = dbmd.getColumns(con.getCatalog(), schema, tableName, null); rs.getSt
Android 应用程序开关GPS gqdy365 android
要在应用程序中操作GPS开关需要权限： <uses-permission android:name="android.permission.WRITE_SECURE_SETTINGS" /> 但在配置文件中添加此权限之后会报错，无法再eclipse里面正常编译，怎么办？ 1、方法一：将项目放到Android源码中编译； 2、方法二：网上有人说cl
Windows上调试MapReduce zhiquanliu mapreduce
1.下载hadoop2x-eclipse-plugin https://github.com/winghc/hadoop2x-eclipse-plugin.git 把 hadoop2.6.0-eclipse-plugin.jar 放到eclipse plugin 目录中。 2.下载 hadoop2.6_x64_.zip http://dl.iteye.com/topics/download/d2b
如何看待一些知名博客推广软文的行为？ justjavac 博客
本文来自我在知乎上的一个回答：http://www.zhihu.com/question/23431810/answer/24588621 互联网上的两种典型心态：当初求种像条狗，如今撸完嫌人丑当初搜贴像条犬，如今读完嫌人软你为啥感觉不舒服呢？难道非得要作者把自己的劳动成果免费给你用，你才舒服？就如同 Google 关闭了 Gooled Reader，那是
sql优化总结 macroli sql
为了是自己对sql优化有更好的原则性，在这里做一下总结，个人原则如有不对请多多指教。谢谢！要知道一个简单的sql语句执行效率，就要有查看方式，一遍更好的进行优化。一、简单的统计语句执行时间 declare @d datetime ---定义一个datetime的变量set @d=getdate() ---获取查询语句开始前的时间select user_id
Linux Oracle中常遇到的一些问题及命令总结超声波 oracle linux
1.linux更改主机名 (1)#hostname oracledb　　　　临时修改主机名 (2) vi /etc/sysconfig/network 　　修改hostname (3) vi /etc/hosts　　　　　　　　修改IP对应的主机名 2.linux重启oracle实例及监听的各种方法（注意操作的顺序应该是先监听，后数据库实例） &nbs
hive函数大全及使用示例 superlxw1234 hadoop hive函数
具体说明及示例参见附件文档。文档目录：目录一、关系运算： 4 1. 等值比较: = 4 2. 不等值比较: <> 4 3. 小于比较: < 4 4. 小于等于比较: <= 4 5. 大于比较: > 5 6. 大于等于比较: >= 5 7. 空值判断: IS NULL 5
Spring 4.2新特性-使用@Order调整配置类加载顺序 wiselyman spring 4
4.1 @Order Spring 4.2 利用@Order控制配置类的加载顺序 4.2 演示两个演示bean package com.wisely.spring4_2.order; public class Demo1Service { } package com.wisely.spring4_2.order; public class