机智的叉烧

前沿重器[23] | 聊聊对话系统：query理解

前沿重器

栏目主要给大家分享各种大厂、顶会的论文和分享，从中抽取关键精华的部分和大家分享，和大家一起把握前沿技术。具体介绍：仓颉专项：飞机大炮我都会，利器心法我还有。

近期，我再次总结了我的历史文章，累积起来有50w字，百余篇文章了，有兴趣可以拿来看看，获取方式：七夕清流，百余篇累计50w字文章合集发布。

往期回顾

前沿重器[18] | KDD21-淘宝向量检索
前沿重器[19] | 预训练在美团搜索广告中的应用
前沿重器[20] | 文本分类和意图识别调研思考
前沿重器[21] | 聊聊对话系统：概述
前沿重器[22] | 聊聊对话系统：技术架构

query理解应该是我这里聊的最多的内容了，无论是涉及的技术还是一些细节的技术方案，其实有，这次适逢重新聊这个对话理解技术，我这里也按着流程和思路去聊，但是涉及重复的展开的，我会引导大家去我的历史文章里的，而这篇，我也考虑讲一些其他的，然后还有一些现实应用中容易遇到的问题。

这个小系列的文章记录：

概述。对整个对话系统有一个比较完整的综述，聊聊他的概念和一些核心技术点等。
技术架构——对话系统是怎么运转和处理的。
内容理解——理解对方说什么，也就是NLU。（就这篇）
内容输出——回复对方的内容是怎么产生的，
多轮对话——多轮的信息处理和对话策略。

这里，我先把我上次聊query理解的文章先放出来，已经是很久之前的事了：

心法利器[34] | 报告小结：query理解概述
R&S[24] | 浅谈Query理解和分析

query理解是干什么的

上一期在给出的美团智能问答技术的架构中说到了问题理解，这里所谓的问题理解就是我说的query理解，在这一步中，我们需要做的就是把用户提出的内容充分理解，从而让我们后续的回复能更精准，这点和我们日常的对话是符合的，只有理解对方说的话，我们的回复才有意义。

这里聊清了他的意义，但是具体做的事情其实并不清晰，而具体要做什么，我们首先要考虑的是，说query理解是为了最终的回复结果，是指就是为了下游的结果生成服务的，这也意味着，query理解的任务很大程度上和下游的需求有关，下游需要什么，我们提取什么。

query理解的具体任务

这时候，依旧是要看例子。

美团智能问答技术

先来看看上次提到的美团，看看他们在做什么：前沿重器[22] | 聊聊对话系统：技术架构

可以看到，主要是6个部分，我这里先解释下，当然了有些是联合在一起起作用的我就合在一起了：

领域意图识别：主要用于识别query的话题意图，下游针对不同的意图是有不同的资源或者是处理方式，所以这个意图识别非常重要。
领域路由和意图澄清：和搜索不同的是，在多意图上的处理，对话系统在只能给一个结果的情况下只能转为澄清或者取一个概率明显高的，这个判断的工作则要由领域路由来判断然后做这个意图澄清。
实体识别和链接：实体的抽取和链接，下游如果是KBQA或者是文本检索，其实是非常需要实体信息的。
时效识别：应该是美团场景特有的一个点了，就是识别某个实体或者活动的时效性，例如有些活动结束了，那应该是需要给拒绝的回复了。
实体澄清：这个和多意图其实类似，举个例子大家就明白了——“苹果”。
句式识别：顾名思义，就是识别整个句式，这个具体的用法很多，例如有的时候有了句式，能快速识别意图或者是实体。
槽位填充：槽位填充和实体识别很类似，很多地方的说法会不太一直，就槽位而言，主要是看指的是向用户追问还是用户提出的槽位问题需要对话系统来填。

这些任务，都是旨在从query中抽取甚至是推理出一些信息，这些信息是有利于我们给出回复的，例如意图识别我们是探索用户的需求是什么，ner则是给出用户更加细粒度的要求或者是用户的一些先决条件，当用户给出的内容我们感到模糊的时候，也可以适时返回一些澄清意图，引导用户更好地描述他的问题，从而让我们进一步回答。

平安对话系统

看完美团的，回头看看平安的，其实相比之下，平安的对话系统会稍微简单一些：

这里的细节里可以看到，整个理解被看做是整个预处理模块，这个可能和下游的处理复杂度有关，他这里下游主要是ES检索和向量检索，从而那张可以多少看到，对多轮的要求不多，而是个性化等方面会比较多，所以在query理解上就会相对简单了。

共性query理解任务

从上面的两个例子可以看到一些比较共性的任务：

意图识别。
实体识别。

而另一方面，也会有一些针对业务定制化的任务和根据下游数据需求去做的任务，前者有美团的时效识别，后者又有类似实体链接之类的任务。

其他的多少要么就是细节内容，我平时讲的语义匹配或者相似度问题，但是这个可能会不放在这里，而一般放在检索之类的里面，这个我放在下一篇讲吧。

query和下游任务之间的关系

上面我不停地强调，query理解要做的是理解query，但不能局限于此，而还应该考虑下游要怎么用我们的东西，而不能我们擅自去划分，而这里进一步展开，我们可以考虑的因素有这些，我分段展开描述。

对于检索式，下游利用我们的意图识别的方式是什么。直接的，是字段检索构造语义向量的特征，如果是字段检索，那都有哪些字段，类目体系如何，类目之间的边界是什么，这些都是需要我们去明确和了解的，同样是大类小说，但是类目下有小说名。作者、发布时间等，甚至有些模糊的直接带了些标签，例如“最新”、“恐怖”、“爱情”等等，底层的数据结构是什么样的，我们只有充分了解，才能让下游更好的利用起来，如果我们自顾自的做了一版，效果还很好，但就是不好用，那肯定是不行的。

对于生成式，我们也要考虑生成式里需要用到的信息有哪些，毕竟我们肯定不想要言而无物的万能回复，带一些信息的回复总不至于把天聊死，所以我们提供的信息就非常重要，此时就要看下游用的信息是用到什么粒度，例如是只需要实体，还是要详细到实体类型的实体信息，下游要根据意图变化给出一些对话策略，那我们的意图体系也要尽可能和下游的意图对话策略对齐。

所以，回到query理解任务下，我们是需要充分了解下游任务的需求，才来去做query理解，合理划分任务，才能做好这颗在整个系统中的螺丝钉。

query任务解释

这块我已经写了无数的文章来汇总了，虽说技术日新月异，但是任务本身的变化并不太大差异，而且从日常实践的经验来看，我们更多关注的不应该用什么模型，而是具体设计的思路以及具体的数据，数据集的优化往往是大幅提升效果的快速方式，真心的，大部分情况，textcnn和bert没有太多效果的差异。

意图识别

意图识别可以看做是一个文本分类任务，因为这个任务实质上就是把query识别到特定的类目上去，与常规nlp任务不同的主要是这几个特点：

类目边界不明确，这块其实难度不小。
数据质量大部分情况都不高，需要花大量时间操纵数据，这也是很多情况模型效果diff不明显的原因了。
空间分布可能会比较零散，这个其实会一定程度影响我们的方案设计的，模型上也要考虑多空间的承载能力。
数据会具有一些场景特色，如名词性场景、口语化问题等。

意图识别应该是我自己而言比较擅长的一个领域了，虽说意图识别可以被看做是一个文本分类的任务，但我们不局限于用文本分类的方法来解决这个文本分类的问题，与之对应的，我更建议是把他当做一个完整的系统来进行处理：

心法利器[29] | 把文本分类任务做成一个系统
前沿重器[20] | 文本分类和意图识别调研思考
心法利器[26] | 以搜代分：文本多分类新思路
心法利器[11] | 任务方案思考：文本分类篇

实体识别

实体识别的本质就是一个NER问题，而且可以是一个比较传统的NER问题，在大部分情况不太需要考虑嵌套、连接之类的问题，在早起版本我们可以把一些复杂的问题放到相对不关键的位置，关键点还是抽取出实体，这一方面是让我们不需要考虑太过复杂的ner模型，另一方面也给了传统地词典匹配足够的生存空间。

这里再仔细聊聊对话场景相比一般场景的NER特点：

大部分对话场景，有一定的时效性，这个时效性体现在一些新热词汇的抽取，基本上都要给这个问题留空间，所以词表肯定是要留着的，必须做。
短句问题，同样可能需要词典来处理，尤其是光杆名词的时候，词典效果是最好的，毕竟没有上下文，模型很难生效。
上面提的分类的口语化问题难做，但其实NER反而好做一点。

具体的方法可以看我这些文章吧：

心法利器[12] | 任务方案思考：序列标注（NER）篇
NLP.TM[29] | 近期做NER的反思
NLP.TM[31] | 2018年的一篇NER综述笔记
NLP.TM[18] | 搜索中的命名实体识别

其他的工作

query理解的工作主要是这些，而另外的，则是一些场景特点或者是下游任务需求去增加的了，例如纠错、实体连接、时效性之类的，甚至包括关键词抽取或者是词权重，这种要根据任务需求来进行设计和优化了，此时尤其要明确好需求。

举个例子，关键词抽取，在很多讲解中，大部分是根据任务需求来整的，有的时候关键词是那些名词的词汇，有的时候则是动词的词汇，而反推过来，其实所谓的关键词，是要看对谁关键，有的时候，是需要作为关键词给用户看的，有的时候则是给相似度模型看的，这直接导致了抽取方式需要有所取舍判断，此处对于对话系统，其实和搜索系统类似，都是抽取“对相似度模型有利”的词汇，这个就是所谓任务设计根据需求来设计了。

对话系统特别场景的应对

如果仅仅从NLP角度出发，可能对话系统中拆解得到的很多任务都非常成熟，但是一旦到了落地场景，其实问题绝对不是NLP任务那么简单，我们是需要考虑到这个场景下的用户习惯的，这些习惯直接导致的是用户的query具有特定的风格，而这些风格，不见得模型能够简单的解决，而需要更多辅助措施才能解决。我在日常遇到了不少，这里我聊一些。

时效性问题

类似热点话题、新品迭代比较快的电商平台，这些场景下，都会有很多时效性很多的产品，举个例子，公司出了新品，先不论下游的检索，就是上游的ner和意图识别，都需要快速更新，一般的分类和实体识别模型去做的话，意味着要更新模型，更新模型这个事无论是在效果的稳定性上还是在更新及时性上都有很大风险，而相反，通过词典和模板的方式来处理则无论是在稳定性还是效果上都有稳定的保证。

口语化问题

对话系统本身给用户的感知就是一个聊天框或者一个完整的对话系统，所以相比搜索，用户给出的query会更加口语化，也会更加偏向于完整的句子，更严谨的说，就是完整句子的占比会比搜索高一些，这也就让我们不得不重视这个问题了。

有关这个问题，其实有文章专门聊过：心法利器[52] | 口语化句子解析问题。这里简单说一下，就两个角度，模型角度和数据角度。

数据层面是收益比较大的，这里通过定向的补充样本进行优化，就能有比较好的效果了。
模型层面，则是使用对抗学习、r-dropout之类的方式对模型进行一定的扰动，毕竟口语化本质还是对句子的信息扰动，所以增强模型鲁棒性，能一定程度缓解这个问题。

当然了，这个口语化的问题，可以一定程度描述为长句问题，其实解决的思路和这个类似，所以长句问题不赘述了，但是短句，还是要拿出来的。

短句问题

长短句之前我同样聊过（心法利器[51] | 长短句语义相似问题探索），不过是在语义相似度上的，其实在综合的query理解也会有类似的问题，但是更多是在短句上，这点和搜索是类似的，这个和口语化可以说是两个极端了，对于短句的问题，主要是两个情况比较多吧：

有意义的短句，例如“维修”，意义就很明确。
无意义的断句，在一些场景下，用户可能给的短句含义不是很多或者表意不明，例如“请问”，也有一些在特定场景，可能类似"你好"也是无意义词，但是有些场景可能会认为是有意义的，就看你有没有设计“欢迎”意图了。

常规的，句子短信息少，信息少会导致两种情况，分别是无意义和模糊。一般这种问题的解决思路是这样的：

意图识别在做的时候，需要考虑短句，常规情况，短句模型是可以覆盖的，尤其是高频的，没见过的理论上应该拒绝。
对于新词，就该延续时效性问题那块的处理，用词典来解决，很方便。
一般地，被意图识别统一识别为负类的，自然就是无意义的，这样无意义的能被摘出来，而对于困难的，黑名单自然可以安排，短句其实要挖掘覆盖起来难度不会很高的。

意图识别模块的把关其实还好，而对于多意图，此时则需要通过一定的规则和置信度，来调整排序，甚至是，可以在多意图情况下给用户一个澄清，这个在美团那个案例里就有聊到澄清的问题，例如“你是想要问下面的哪个问题”，这个需要和产品一起沟通最佳体验的回复，当然这个是短句引申出来的问题，但是这本质上应该是一个模糊澄清的处理问题，而非短句了。

小结

本文着重去聊的，主要是这几个点：

整个query理解都有哪些关键的组件，不同的业界还往这里面塞了什么有特点的东西。
重点的query理解任务，都是怎么做的。
对话系统中的任务，和常规的NLP，在数据和场景上有什么特点，以及如何应对。

希望对大家有用吧。

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Python中深拷贝与浅拷贝的区别 yuxiaoyu.
转自：http://blog.csdn.net/u014745194/article/details/70271868定义：在Python中对象的赋值其实就是对象的引用。当创建一个对象，把它赋值给另一个变量的时候，python并没有拷贝这个对象，只是拷贝了这个对象的引用而已。浅拷贝：拷贝了最外围的对象本身，内部的元素都只是拷贝了一个引用而已。也就是，把对象复制一遍，但是该对象中引用的其他对象我不复
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
开发者关心的那些事圣子足道 ios 游戏编程 apple 支付
我要在app里添加IAP，必须要注册自己的产品标识符（product identifiers）。产品标识符是什么？产品标识符（Product Identifiers）是一串字符串，它用来识别你在应用内贩卖的每件商品。App Store用产品标识符来检索产品信息，标识符只能包含大小写字母（A-Z）、数字（0-9）、下划线（-）、以及圆点(.)。你可以任意排列这些元素，但我们建议你创建标识符时使用
负载均衡器技术Nginx和F5的优缺点对比 bijian1013 nginx F5
对于数据流量过大的网络中，往往单一设备无法承担，需要多台设备进行数据分流，而负载均衡器就是用来将数据分流到多台设备的一个转发器。目前有许多不同的负载均衡技术用以满足不同的应用需求，如软/硬件负载均衡、本地/全局负载均衡、更高
LeetCode[Math] - #9 Palindrome Number Cwind java Algorithm 题解 LeetCode Math
原题链接：#9 Palindrome Number 要求：判断一个整数是否是回文数，不要使用额外的存储空间难度：简单分析：题目限制不允许使用额外的存储空间应指不允许使用O(n)的内存空间，O(1)的内存用于存储中间结果是可以接受的。于是考虑将该整型数反转，然后与原数字进行比较。注：没有看到有关负数是否可以是回文数的明确结论，例如
画图板的基本实现 15700786134 画图板
要实现画图板的基本功能，除了在qq登陆界面中用到的组件和方法外，还需要添加鼠标监听器，和接口实现。首先，需要显示一个JFrame界面： public class DrameFrame extends JFrame { //显示
linux的ps命令被触发 linux
Linux中的ps命令是Process Status的缩写。ps命令用来列出系统中当前运行的那些进程。ps命令列出的是当前那些进程的快照，就是执行ps命令的那个时刻的那些进程，如果想要动态的显示进程信息，就可以使用top命令。要对进程进行监测和控制，首先必须要了解当前进程的情况，也就是需要查看当前进程，而 ps 命令就是最基本同时也是非常强大的进程查看命令。使用该命令可以确定有哪些进程正在运行
Android 音乐播放器下一曲连续跳几首歌肆无忌惮_ android
最近在写安卓音乐播放器的时候遇到个问题。在MediaPlayer播放结束时会回调 player.setOnCompletionListener(new OnCompletionListener() { @Override public void onCompletion(MediaPlayer mp) { mp.reset(); Log.i("H
java导出txt文件的例子知了ing java servlet
代码很简单就一个servlet,如下： package com.eastcom.servlet; import java.io.BufferedOutputStream; import java.io.IOException; import java.net.URLEncoder; import java.sql.Connection; import java.sql.Resu
Scala stack试玩, 提高第三方依赖下载速度矮蛋蛋 scala sbt
原文地址： http://segmentfault.com/a/1190000002894524 sbt下载速度实在是惨不忍睹, 需要做些配置优化下载typesafe离线包, 保存为ivy本地库 wget http://downloads.typesafe.com/typesafe-activator/1.3.4/typesafe-activator-1.3.4.zip 解压r
phantomjs安装(linux，附带环境变量设置) ，以及casperjs安装。 alleni123 linux spider
1. 首先从官网 http://phantomjs.org/下载phantomjs压缩包，解压缩到/root/phantomjs文件夹。 2. 安装依赖 sudo yum install fontconfig freetype libfreetype.so.6 libfontconfig.so.1 libstdc++.so.6 3. 配置环境变量 vi /etc/profil
JAVA IO FileInputStream和FileOutputStream，字节流的打包输出百合不是茶 java核心思想 JAVA IO操作字节流
在程序设计语言中，数据的保存是基本，如果某程序语言不能保存数据那么该语言是不可能存在的，JAVA是当今最流行的面向对象设计语言之一，在保存数据中也有自己独特的一面，字节流和字符流 1，字节流是由字节构成的，字符流是由字符构成的字节流和字符流都是继承的InputStream和OutPutStream ,java中两种最基本的就是字节流和字符流类 FileInputStream
Spring基础实例（依赖注入和控制反转） bijian1013 spring
前提条件：在http://www.springsource.org/download网站上下载Spring框架，并将spring.jar、log4j-1.2.15.jar、commons-logging.jar加载至工程1.武器接口 package com.bijian.spring.base3; public interface Weapon { void kil
HR看重的十大技能 bijian1013 提升能力 HR 成长
一个人掌握何种技能取决于他的兴趣、能力和聪明程度，也取决于他所能支配的资源以及制定的事业目标，拥有过硬技能的人有更多的工作机会。但是，由于经济发展前景不确定，掌握对你的事业有所帮助的技能显得尤为重要。以下是最受雇主欢迎的十种技能。　　一、解决问题的能力　　每天，我们都要在生活和工作中解决一些综合性的问题。那些能够发现问题、解决问题并迅速作出有效决
【Thrift一】Thrift编译安装 bit1129 thrift
什么是Thrift The Apache Thrift software framework, for scalable cross-language services development, combines a software stack with a code generation engine to build services that work efficiently and s
【Avro三】Hadoop MapReduce读写Avro文件 bit1129 mapreduce
Avro是Doug Cutting(此人绝对是神一般的存在）牵头开发的。开发之初就是围绕着完善Hadoop生态系统的数据处理而开展的（使用Avro作为Hadoop MapReduce需要处理数据序列化和反序列化的场景）,因此Hadoop MapReduce集成Avro也就是自然而然的事情。这个例子是一个简单的Hadoop MapReduce读取Avro格式的源文件进行计数统计，然后将计算结果
nginx定制500，502，503，504页面 ronin47 nginx　错误显示
server { listen 80; error_page 500/500.html; error_page 502/502.html; error_page 503/503.html; error_page 504/504.html; location /test {return502;}} 配置很简单，和配
java-1.二叉查找树转为双向链表 bylijinnan 二叉查找树
import java.util.ArrayList; import java.util.List; public class BSTreeToLinkedList { /* 把二元查找树转变成排序的双向链表题目：输入一棵二元查找树，将该二元查找树转换成一个排序的双向链表。要求不能创建任何新的结点，只调整指针的指向。 10 / \ 6 14 / \
Netty源码学习-HTTP-tunnel bylijinnan java netty
Netty关于HTTP tunnel的说明： http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/socket/http/package-summary.html#package_description 这个说明有点太简略了一个完整的例子在这里： https://github.com/bylijinnan
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别 coder_xpf jquery json map val()
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别数据库查询出来的map有一个字段为空通过System.out.println()输出 JSONUtil.serialize(map)： {"one":"1","two":"nul
Hibernate缓存总结 cuishikuan 开源 ssh javaweb hibernate缓存三大框架
一、为什么要用Hibernate缓存？ Hibernate是一个持久层框架，经常访问物理数据库。为了降低应用程序对物理数据源访问的频次，从而提高应用程序的运行性能。缓存内的数据是对物理数据源中的数据的复制，应用程序在运行时从缓存读写数据，在特定的时刻或事件会同步缓存和物理数据源的数据。二、Hibernate缓存原理是怎样的？ Hibernate缓存包括两大类：Hib
CentOs6 dalan_123 centos
首先su - 切换到root下面1、首先要先安装GCC GCC-C++ Openssl等以来模块：yum -y install make gcc gcc-c++ kernel-devel m4 ncurses-devel openssl-devel2、再安装ncurses模块yum -y install ncurses-develyum install ncurses-devel3、下载Erang
10款用 jquery 实现滚动条至页面底端自动加载数据效果 dcj3sjt126com JavaScript
无限滚动自动翻页可以说是web2.0时代的一项堪称伟大的技术，它让我们在浏览页面的时候只需要把滚动条拉到网页底部就能自动显示下一页的结果，改变了一直以来只能通过点击下一页来翻页这种常规做法。无限滚动自动翻页技术的鼻祖是微博的先驱：推特(twitter)，后来必应图片搜索、谷歌图片搜索、google reader、箱包批发网等纷纷抄袭了这一项技术，于是靠滚动浏览器滚动条
ImageButton去边框&Button或者ImageButton的背景透明 dcj3sjt126com imagebutton
在ImageButton中载入图片后，很多人会觉得有图片周围的白边会影响到美观，其实解决这个问题有两种方法一种方法是将ImageButton的背景改为所需要的图片。如：android:background="@drawable/XXX" 第二种方法就是将ImageButton背景改为透明，这个方法更常用在XML里； <ImageBut
JSP之c:foreach eksliang jsp forearch
原文出自：http://www.cnblogs.com/draem0507/archive/2012/09/24/2699745.html <c:forEach>标签用于通用数据循环，它有以下属性属性描述是否必须缺省值 items 进行循环的项目否无 begin 开始条件否 0 end 结束条件否集合中的最后一个项目 step 步长否 1
Android实现主动连接蓝牙耳机 gqdy365 android
在Android程序中可以实现自动扫描蓝牙、配对蓝牙、建立数据通道。蓝牙分不同类型，这篇文字只讨论如何与蓝牙耳机连接。大致可以分三步：一、扫描蓝牙设备： 1、注册并监听广播： BluetoothAdapter.ACTION_DISCOVERY_STARTED BluetoothDevice.ACTION_FOUND BluetoothAdapter.ACTION_DIS
android学习轨迹之四：org.json.JSONException: No value for hyz301 json
org.json.JSONException: No value for items 在JSON解析中会遇到一种错误，很常见的错误 06-21 12:19:08.714 2098-2127/com.jikexueyuan.secret I/System.out﹕ Result:{"status":1,"page":1,&
干货分享：从零开始学编程系列汇总 justjavac 编程
程序员总爱重新发明轮子，于是做了要给轮子汇总。从零开始写个编译器吧系列 (知乎专栏) 从零开始写一个简单的操作系统 (伯乐在线) 从零开始写JavaScript框架 (图灵社区) 从零开始写jQuery框架 (蓝色理想 ) 从零开始nodejs系列文章 (粉丝日志) 从零开始编写网络游戏
jquery-autocomplete 使用手册 macroli jquery Ajax 脚本
jquery-autocomplete学习一、用前必备官方网站：http://bassistance.de/jquery-plugins/jquery-plugin-autocomplete/ 当前版本：1.1 需要JQuery版本：1.2.6 二、使用 <script src="./jquery-1.3.2.js" type="text/ja
PLSQL-Developer或者Navicat等工具连接远程oracle数据库的详细配置以及数据库编码的修改超声波 oracle plsql
　　在服务器上将Oracle安装好之后接下来要做的就是通过本地机器来远程连接服务器端的oracle数据库，常用的客户端连接工具就是PLSQL-Developer或者Navicat这些工具了。刚开始也是各种报错，什么TNS:no listener;TNS:lost connection;TNS:target hosts...花了一天的时间终于让PLSQL-Developer和Navicat等这些客户
数据仓库数据模型之：极限存储--历史拉链表 superlxw1234 极限存储数据仓库数据模型拉链历史表
在数据仓库的数据模型设计过程中，经常会遇到这样的需求： 1. 数据量比较大; 2. 表中的部分字段会被update,如用户的地址，产品的描述信息，订单的状态等等; 3. 需要查看某一个时间点或者时间段的历史快照信息，比如，查看某一个订单在历史某一个时间点的状态，比如，查看某一个用户在过去某一段时间内，更新过几次等等; 4. 变化的比例和频率不是很大，比如，总共有10
10点睛Spring MVC4.1-全局异常处理 wiselyman spring mvc
10.1 全局异常处理使用@ControllerAdvice注解来实现全局异常处理; 使用@ControllerAdvice的属性缩小处理范围 10.2 演示演示控制器 package com.wisely.web; import org.springframework.stereotype.Controller; import org.spring