LiveVideoStack_

邓滨：信号处理+深度学习才能实现语音交互

本文来自小鱼在家首席音频科学家邓滨在LiveVideoStackCon 2018讲师热身分享，并由LiveVideoStack整理而成。邓滨认为，传统的信号处理与前沿的深度学习技术结合，才能实现准确的语音交互，缺一不可。

文 / 邓滨

整理 / LiveVideoStack

直播回放：

https://www.baijiayun.com/web/playback/index?classid=18082933304314&session_id=201808300&token=HK8TUrosMf1t681rrJ0J_R1l3G4xGeRN6oakZ-l2IE6PADGtWOcHnW7r6LCYJ0wMkavU9LZ3eZYKp0fXMnVKLQ

大家好，今天与大家分享的是新潮AI硬件中的传统语音信号处理技术。

主要内容分为以下四个部分：

1、智能硬件语音交互的现实障碍

2、什么是语音前处理

3、信号处理 & 深度学习

4、语音前处理的变革演进

1、智能硬件语音交互的现实障碍

上图是美国著名科幻电影《钢铁侠》中的几个场景，可以说这部电影全面展现了未来先进人机语音交互的强大魅力。在电影中，主角托尼·斯塔克拥有一套名叫“贾维斯”的虚拟智能管家，无论是在家中还是户外，抑或是身披战甲时托尼都可随意与其对话并发号施令，而这位虚拟管家的回复之自然如同一位真实存在的伙伴，不仅对命令的理解准确无误，还能对托尼的一些比较无厘头的笑话做出与真人类似的回应，这种强大的交互能力让每一位看过此片的观众都期待能够在现实中也拥有一位这样的虚拟智能管家。实际上依赖当前的科技水平，在真实生活场景中实现如此自然的对话，仍是一件非常困难的事情。本次分享不会涉及太多有关深度学习、神经网络、知识图谱的技术范畴，也不会过多讨论诸如ASR、IOP等有关自然语言理解能力的技术，而是主要关注语音信号的拾取优化，能否进一步提升未来自然语音交互的识别能力。

以《钢铁侠》电影中的场景为例，在实际应用中，人机语音交互面临着诸多复杂的场景：

风噪、机械振动噪声：以钢铁侠战衣飞行为代表的应用场景，战衣飞行的速度越快，其产生的风噪与机械部件摩擦振动的噪声就越严重。

枪林弹雨的爆炸声：以钢铁侠作战为代表的特殊场景，战斗时周围环境中的爆炸声会对拾音系统产生严重干扰。

远场问题：以托尼的豪宅为代表的生活场景，如何保证托尼在宽敞大客厅中任何一个角落向虚拟管家下达的指令都能被准确拾取。

混响问题：以“钢铁侠战衣”的密闭空间为代表的应用场景，此场景中声音会产生反弹折射从而造成混响干扰声音拾取。

回声问题

如果以现实生活场景为例，用户与一个人工智能硬件设备进行人机对话会面临什么样的影响呢？

上图展示的是一个包括客厅、书房、阳台、各种家具在内的非常典型的普通家庭场景，其中存在多种能够为语音交互带来干扰的环境因素。例如来自厨房的包括水流声、油烟机噪声、炒菜洗碗杂声在内的各种噪声；客厅中的人交谈说话、儿童游戏打闹的噪声；还有因远场和房间角落造成的混响，房间中的家用电器如空调、风扇、吸尘器、电视、音响等等发出的强烈噪声，窗外传来的包括汽车声、风声、雨声雷声在内的户外噪声等等。即使我们实现了在理想环境中智能语音交互的强大性能，一旦在实际应用中涉及到如远场噪声、回声等问题，人机交互的性能就会急剧下降。

为了进一步验证以上环境因素对智能语音识别系统的影响，我们使用智能音响进行了测试。

上图是我们使用世界上最著名的智能音箱之一 Amazon Echo 测试在不同噪声场景下唤醒性能波动的结果，测试方法如下：我们使用一百次100%可用的测试用例（在安静环境中距离设备非常近的条件下播放一百次唤醒指令并确保Echo唤醒成功率为100%。则视此测试用例是可用的），并分别测试了添加七种不同类型噪声：安静、轻音乐、激烈歌曲、新闻联播、雷雨声、客厅综合噪声、厨房综合噪声；同时把声源与Echo之间的距离控制在1m与3.5m两个距离量，进行唤醒测试并统计其唤醒成功率。通过测试可以发现，在安静的环境中，距离Echo 1m时唤醒成功率可保持91%左右，3.5m时则下降到72%；而在后续各种不同噪声环境中，Echo的唤醒性能急剧下降。实验结果基本验证了之前的推测：真实生活场景中的各种环境条件，的确会对人机交互识别造成不利影响。除了Amazon Echo，我们还测试了Google Home以及国内的一些智能助手。除了以上环境变量之外，我们还选择了回声、远场、混响、不同角度等干扰场景，得到的性能曲线都是类似的。

综上所述，生活中的种种干扰因素一定会对人机语音交互的性能造成很大的不利影响，而某些干扰因素就目前技术而言，是无法从根本上解决的。如果将近场、无噪声、无回声、无混响等理想环境下的语音识别作为天花板，那么不同厂商探索的在干扰环境下的高性能语音识别方案，则是致力于如何在恶劣环境下更接近这层天花板。

2、什么是语音前处理

接下来介绍的技术是语音前处理。这种技术从何而来？因何而生的？其意义是什么？

2.1 原理

我们所谓的人机语音交互实际上是一种仿生模拟，上图第一条路径表示的是人类通过生理器官进行拾音的过程。人耳的生理构造包括耳廓、耳道、鼓膜等，外界的声波传播至耳朵，耳廓收集声波后通过耳道将其传播至鼓膜并引起鼓膜振动，鼓膜振动使声音信号通过听觉神经传递至大脑，并由大脑对接收到的声音进行辨别。这里需要强调的是，人的生理器官具有多种处理能力，例如人的耳廓与耳道具备滤波器的功能，而鼓膜与听觉神经则负责将信号放大，从而易于在声音中提炼有效信息；接下来的高级神经与大脑则具备了声纹识别、自然语言理解等语音识别的功能，最终经过大脑分捡出的有效信息则指导人类根据语言理解驱动正常的行为。

第二条路径表示的是机器进行声音拾取的过程，首先需要用于声音拾取的麦克风，在这里麦克风拾取的是模拟信号，系统需通过信号处理对模拟信号进行模数转换，从而获得声音的数字信号；与人类听觉系统类似，接下来通过数字信号领域的一系列放大、降噪、回声一致等处理，声音的清晰度与信噪比会得到显著提升，最终这些声学数字信号会被传输至机器的大脑，如深度学习或自然语言理解系统从而被转换成机器可以理解的指令。与人类的听觉系统不同，这里的麦克风明显不具备人耳的耳廓、耳道等特性，无法对声音信号进行有效的前期处理，只能最大限度地实现不失真拾音。因此我们需要在麦克风拾取原始声音的基础上进行相应的优化也就是语音“前”处理，才能得到有利于机器学习理解辨识并作出正确反馈的声学信号。

2.2 意义

为什么需要语音“前”处理？上图表示一个比较典型的语音信号处理过程：首先，我们将麦克风拾取声音信号的过程称为“听到”，此过程的作用是将声音信息由声波形式转换成数字信号形式；随后声音信息被传输至“语音信号处理”模块，此语音数字信号处理模块的功能是“听清”，也就是对接收到的声音信号进行清晰化处理；经过清晰化处理之后的声音信号会被继续传输至文字信息识别系统，我们将文字信息识别系统中的处理过程称为“听懂”——从“听到”、“听清”到“听懂”的整体流程就是机器模拟人听觉生理活动的过程。在“听懂”部分，系统首先会对信号中的声学特征进行提取，随后根据之前整个深度学习系统经过大量标准语言训练训练得到的声学模型与语音模型进行匹配与解码，最终得到一个较为准确的文字识别结果。如果在“听到”阶段没有清晰拾得目标音频，麦克风拾取到的信号中就会包含我们上文介绍到的各种恶劣环境影响因子例如混响声音、外界噪声、回声、远场声音、衰减声音等等，倘若不处理这些混有噪音的声音信号而是直接将其送到文字识别系统就难以根据之前的标准语言训练得到的声学模型对目标声音进行识别与匹配，识别效果一定会大打折扣。因而我们必须在其中添加一个“听清”的过程，在语音识别之前加入语音信号处理模块，通常我们会把这部分流程我们称为“语音前处理”。

3、信号处理VS深度学习

接下来我将会讲述信号处理与深度学习的关系。可以说这两者中的前者算是传统学科，后者算是前沿学科。首先需要提出以下几个问题：深度学习+大数据能否解决所有的语音干扰问题？深度学习时代的前端数字信号处理技术是否已经过时？深度学习是数字信号处理的终结吗？仅针对干扰的模型训练能够有效识别并去除干扰吗？之前我参与了有关深度学习时代信号处理没有意义的讨论，对此观点的结论是否定的。

为什么深度学习不可能代替信号处理？我们在现实生活中面临以下几大问题：

第一大问题是噪声问题。噪声分为平稳噪声与非平稳噪声，平稳噪声指的是特性相对平稳，以日常生活中的一些如白噪声、驾驶汽车匀速行驶时发动机的声音、风噪等频率特性、时变特性比较平稳的理想噪声为例；而非平稳噪声则与之相反，比较典型的例子是人说话声、KTV音乐等等。

第二大问题是回声问题，例如一个智能音箱正在播放歌曲，此时音响上的麦克风也正在工作并处于随时等待被主人唤醒的待命状态。这时，用户会希望与智能音箱进行语音交互时麦克风不会混淆拾取到的自己发出的指令声与音响喇叭放出的音乐声，此时对于用户发出的语音指令来说此音箱喇叭发出的声音就被称为“回声”；在实践中音响必须滤除此回声并保留来自用户有效的指令声才能对用户的指令做出正确反应。也许有些人会认为这与噪声类似，实际上二者并不一样，处理方法也不尽相同。

第三大问题是远场问题。用户距离智能音响比较近时可获得较为准确的语音识别体验；而一旦用户距离智能音响较远，其语音交互的性能就会急剧下降并影响用户使用智能音箱的良好体验。

第四大问题是混响问题。当将此设备摆放在墙角或较为空旷的房间时，用户发出的有效指令声经过此房间的墙壁折射反弹多次后被设备的麦克风拾取，麦克风会收到混合在一起的多个不同时间延迟下的指令声音，这种混响多次的指令也会为语音识别带来巨大干扰。

第五大问题是声音定位。围绕在此设备周围360度空间内的任何方位都有可能成为用户指令的声源位置，声音定位的目的就是瞄准用户指令声源所在的角度并进行波束集中，有效提高声音拾取的准确性。

那么这些问题可以用深度学习来有效解决吗？

平稳噪声：可以解决

方法是针对一个干扰模型进行大量训练。例如在训练最初时向语音识别系统输入大量加噪的语料，这里的“加噪”是指加入明确希望去除的噪声类型如风噪、汽车噪声等。将此噪声提前模拟并加入训练后得到的识别系统可准确识别此噪声的声学特性，这样就可得到能够识别并处理真正含有此噪声语料的语音识别系统，增强它的鲁棒性，更有效地去除平稳噪声对有效语音的影响。

非平稳噪声：部分解决

即使绝大多数非平稳噪声无法被捕捉特性，但仍然存在少量非平稳噪声可被捕捉到特性，我们可以通过深度学习训练解决这部分非平稳噪声的干扰问题。

混响问题：部分解决

如果我们确定了某房间的混响模型，例如这间房间的空旷程度、长宽高、墙壁的材质、设备在房间中摆放的位置等，那么声音在此房间中传递、反弹再传递到设备的时长、混响效果与混响模型就是确定的，就能将其结合深度学习从而解决混响问题；如果这些场景发生了改变，那么相对应的混响模型就需要进行改变。

综上所述，深度学习可以解决平稳噪声问题与部分非平稳噪声和混响问题，但是丰富其语料模型从而达到良好训练效果的工作量很大；而通过深度学习并不能妥善解决并不具备恒定特性的远场、回声与声源定位问题，我们无法从这三者中提取有价值的模型特征的。语音识别问题归根结底是信噪比问题，我们可以把所有的干扰都视为影响原始语音信号信噪比的噪声，当信噪比不佳时系统无法从声音中提取有效信号的声音模型，语音识别就无法成功。

4、语音前处理的变革演进

讲完了语音信号处理的前世，接下来我们谈一谈语音信号处理的今生。想必大家听完之前的分享，心中可能会产生一个疑问：我们知道语音信号处理是一个有着近百年历史的传统技术，那么传统的语音信号处理技术能否直接完美地运用于人机语音交互呢？

我们熟知的语音信号处理主要被应用于通信系统，而通信系统的设备处于一个较为可控的应用场景中，例如从最早的座机、固定电话到现在的移动电话，而移动电话也是从模拟信号发展到到数字电话时代，整体主要服务于包括军用步话机在内的通信场景。我们以手机为例，手机有四种通讯模式：手持、免提、插线耳机以及蓝牙耳机。对于语音信号处理来说，经过业界几十年的探索，这几种模式的发展都比较成熟，大家已经摸索出了应对这几种通讯模式较为典型的语音算法，例如免提模式下如何降噪，手持模式下可用手机多个麦克风进行降噪等。

业界应对这些传统方式都有比较成熟的方案，但是面对现在以智能音箱为例的新型人工智能硬件设备来说，其与手机的结构和应用场景完全不同，手机主要用于近场通讯，但智能音箱主要运用在中远距离通讯，且智能音箱上喇叭的功率与其播放的声音强度比手机高很多；使用距离较远就存在我之前提到的远场声音问题，与此同时麦克风所能识别到用户的指令音量也会更小而回声却会更恶劣；由于智能音箱摆放位置的多样性，其需要面临的混响环境也会更加复杂；即使智能音箱具备多个麦克风，但由于其是作为一个远场设备，我们无法使用副麦进行降噪处理。有信号处理经验的同学可能对此会比较了解，副麦降噪依赖于手持模式下主麦在用户嘴边而副麦在手机背面，只有当主麦副麦之间拾音差异在6dB以上才能实现副麦降噪，那么对于远场设备来说副麦降噪并无理论基础。

除了以上新型智能音箱人机对话与传统通讯工具手机电话之间的明显差异，人脑对语言的理解与机器之间也存在不小差异。传统的通信是人与人之间的交流，而语音识别则是人与机器之间的交流，二者本质上存在很大差别。任何的信号处理过程都会破坏语音信号声学特性，也许人能够成功识别这种破坏后的信息但机器却无法处理。因而我们需要在传统通信的语音信号处理基础上进行改进和创新，特别优化匹配语音识别的特性要求，从而让人工智能硬件既能听清楚也能讲明白，这也是所有人工智能硬件厂家核心科技之所在。

总结来说，就是从前端的信号处理与后端的识别两个层面进行系统性的综合优化，才能实现我们期待的与人工智能自然交流的美好愿景。

Q&A

Q：前端使用哪些去噪算法？

A：通常降噪有以下几类方法：

1）滤波器降噪：一种较为典型的方案，主要通过如维纳滤波这样的自适应滤波对声音进行降噪。

2）主副麦降噪：主要运用于手机等手持模式上，使用位于手机下方的主麦克风与手机背面的副麦克风进行降噪。

当用户使用手持模式拨打电话时主麦靠在嘴边而副麦朝向外界，当外界环境充斥噪声时主麦玉副麦都会收到有效语音与噪声的混合声音，但对比两个麦克风，主麦收到用户的有效语音信号更强而副麦收到外界的噪声更强，使用谱减法将主麦收到的声音减去副麦的噪声，留下的就是有效信号；再放大有效信号即可得到清晰的语音。而智能硬件无法使用副麦降噪，如果使用单麦那么我们可借助滤波与噪声估计，用估计出噪声的频谱与此噪声对比，并使用普减法从原始信号中消除噪声频谱。在这里需要强调的是我们的降噪处理最终的接收对象是谁。如果是给机器则不能破坏原始语音的声学特征，需要把降噪控制在一定的程度内。

Q：远场单通道降噪对于收益率有何影响？

A：两年前我们的小鱼在家产品就使用了单麦克风并实现降噪与语音信号放大、回声抑制、远场增强等一系列功能，提升十分明显。我们曾使用讯飞的语音识别引擎与标准接口进行对比实验，在没有添加任何其他处理算法的情况下使用讯飞识别引擎测试近场拾音，其准确率可达到100%，一旦将距离增加到1m～3m的远场，识别率会大幅度降低至50%～10%；而如果加上远场单通道语音增强算法，可将3m时10%的准确率提升至70%左右，收益十分明显。单麦算法的使用需要结合不同场景，如果现在绝大多数智能音箱为了比拼识别准确率都用麦克风阵列，在成本上则会带来很大压力，单麦算法在小型设备或低成本设备的应用前景十分广阔。

Q：智能音箱的扬声器音量是否不能过大，否则会造成强非线性影响AEC？

A：是的，这涉及到硬件的选型问题。我们知道较昂贵的扬声器其声音特性也会更出色，主要体现在线性优秀、底噪更低、失真更小、信噪比更高等。但由于受到产品的限制我们往往无法选择性能如此优秀的扬声器，因而扬声器的播放响度控制在不失真的范围内。如果一味地追求声音大而使播放出的声音信号被麦克风吸收使得频谱失真或造成非常强的非线性，那么从算法层面上来说很难解决由此带来的影响。我认为应该尽可能调试好扬声器的声学参数或从硬件选型进行控制从而达到一个音量与音质的平衡。

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
2020-01-25 晴岚85
郑海燕坚持分享590天2020.1.24在生活中只存在两个问题。一个问题是：你知道想要达成的目标是什么，但却不知道如何才能达成；另一个问题是：你不知道你的目标是什么。前一个是行动的问题，后一个是结果的问题。通过制定具体的下一步行动，可以解决不知道如何开始行动的问题。而通过去想象结果，对结果做预估，可以解决找不着目标的问题。对于所有吸引我们注意力，想要完成的任务，你可以先想象一下，预期的结果究竟是什
随笔 | 仙一般的灵气海思沧海
仙岛今天，我看了你全部，似乎已经进入你的世界我不知道，这是否是梦幻，还是你仙一般的灵气吸引了我也许每一个人都要有一份属于自己的追求，这样才能够符合人生的梦想，生活才能够充满着阳光与快乐我不知道，我为什么会这样的感叹，是在感叹自己的人生，还是感叹自己一直没有孜孜不倦的追求只感觉虚度了光阴，每天活在自己的梦中，活在一个不真实的世界是在逃避自己，还是在逃避周围的一切有时候我嘲笑自己，嘲笑自己如此的虚无，
element实现动态路由+面包屑软件技术NINI vue案例 vue.js 前端
el-breadcrumb是ElementUI组件库中的一个面包屑导航组件，它用于显示当前页面的路径，帮助用户快速理解和导航到应用的各个部分。在Vue.js项目中，如果你已经安装了ElementUI，就可以很方便地使用el-breadcrumb组件。以下是一个基本的使用示例：安装ElementUI（如果你还没有安装的话）:你可以通过npm或yarn来安装ElementUI。bash复制代码npmi
微服务下功能权限与数据权限的设计与实现 nbsaas-boot 微服务 java 架构
在微服务架构下，系统的功能权限和数据权限控制显得尤为重要。随着系统规模的扩大和微服务数量的增加，如何保证不同用户和服务之间的访问权限准确、细粒度地控制，成为设计安全策略的关键。本文将讨论如何在微服务体系中设计和实现功能权限与数据权限控制。1.功能权限与数据权限的定义功能权限：指用户或系统角色对特定功能的访问权限。通常是某个用户角色能否执行某个操作，比如查看订单、创建订单、修改用户资料等。数据权限：
2021年12月19日，春蕾教育集团团建活动感受——黄晓丹黄错错加油
感受:1.从陌生到熟悉的过程。游戏环节让我们在轻松的氛围中得到了锻炼，也增长了不少知识。2.游戏过程中，我们贡献的是个人力量，展现的是团队的力量。它磨合的往往不止是工作的熟悉，更是观念上契合度的贴近。3.这和工作是一样的道理。在各自的岗位上，每个人摆正自己的位置、各司其职充分发挥才能，并团结一致劲往一处使，才能实现最大的成功。新知:1.团队精神需要不断地创新。过去，人们把创新看作是冒风险，现在人们
Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码说私域人工智能小程序
摘要：本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合，阐述了链动2+1模式、AI智能名片和S2B2C商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来了新的机遇，提升了用户信任感、拓展了营销渠道，并实现了线上线下的完美融合。一、引言随着互联网技术的不断发展，社区团购作为一种新兴的商业模式，在满足消费者日常需
消息中间件有哪些常见类型 xmh-sxh-1314 java
消息中间件根据其设计理念和用途，可以大致分为以下几种常见类型：点对点消息队列（Point-to-PointMessagingQueues）：在这种模型中，消息被发送到特定的队列中，消费者从队列中取出并处理消息。队列中的消息只能被一个消费者消费，消费后即被删除。常见的实现包括IBM的MQSeries、RabbitMQ的部分使用场景等。适用于任务分发、负载均衡等场景。发布/订阅消息模型（Pub/Sub
2022-04-18 Apbenz
语重心长的和我说，不要老是说不行，人至而立之年危机四伏，内在的，外在的，感觉就是心力憔悴，让人无所适从。面对职场的无情，突然好羡慕干体力劳动的外卖小哥。难道命运是想让我去送外卖了吗？干体力活才能让我活下去？fastadmin打卡成功,淘宝金币任务完成。ㅏㅓㅗㅜㅡㅣㅐㅔㅑㅕㅛㅠㅢㅒㅖY行。야자여자요리우유의사얘기예
腾讯云技术深度探索：构建高效云原生微服务架构我的运维人生云原生架构腾讯云运维开发技术共享
腾讯云技术深度探索：构建高效云原生微服务架构在当今快速发展的技术环境中，云原生技术已成为企业数字化转型的关键驱动力。腾讯云作为行业领先的云服务提供商，不断推出创新的产品和技术，助力企业构建高效、可扩展的云原生微服务架构。本文将深入探讨腾讯云在微服务领域的最新进展，并通过一个实际案例展示如何在腾讯云平台上构建云原生应用。腾讯云微服务架构概览腾讯云微服务架构基于云原生理念，旨在帮助企业快速实现应用的容
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
关于提高复杂业务逻辑代码可读性的思考编程经验分享开发经验 java 数据库开发语言
目录前言需求场景常规写法拆分方法领域对象总结前言实际工作中大部分时间都是在写业务逻辑，一般都是三层架构，表示层（Controller）接收客户端请求，并对入参做检验，业务逻辑层（Service）负责处理业务逻辑，一般开发都是在这一层中写具体的业务逻辑。数据访问层（Dao）是直接和数据库交互的，用于查数据给业务逻辑层，或者是将业务逻辑层处理后的数据写入数据库。简单的增删改查接口不用多说，基本上写好一
拥有断舍离的心态，过精简生活--《断舍离》读书笔记爱吃丸子的小樱桃
不知不觉间房间里的东西越来越多，虽然摆放整齐，但也时常会觉得空间逼仄，令人心生烦闷。抱着断舍离的态度，我开始阅读《断舍离》这本书，希望从书中能找到一些有效的方法，帮助我实现空间、物品上的断舍离。《断舍离》是日本作家山下英子通过自己的经历、思考和实践总结而成的，整体内涵也从刚开始的私人生活哲学的“断舍离”升华成了“人生实践哲学”，接着又成为每个人都能实行的“改变人生的断舍离”，从“哲学”逐渐升华成“
从0到500+，我是如何利用自媒体赚钱？一列脚印
运营公众号半个多月，从零基础的小白到现在慢慢懂了一些运营的知识。做好公众号是很不容易的，要做很多事情；排版、码字、引流…通通需要自己解决，业余时间全都花费在这上面涨这么多粉丝是真的不容易，对比知乎大佬来说，我们这种没资源，没人脉，还没钱的小透明来说，想要一个月涨粉上万，怕是今天没睡醒（不过你有的方法，算我piapia打脸）至少我是清醒的，自己慢慢努力，实现我的万粉目标！大家快来围观、支持我吧！孩子
使用LLaVa和Ollama实现多模态RAG示例 llzwxh888 python 人工智能开发语言
本文将详细介绍如何使用LLaVa和Ollama实现多模态RAG（检索增强生成），通过提取图像中的结构化数据、生成图像字幕等功能来展示这一技术的强大之处。安装环境首先，您需要安装以下依赖包：!pipinstallllama-index-multi-modal-llms-ollama!pipinstallllama-index-readers-file!pipinstallunstructured!p
利用Requests Toolkit轻松完成HTTP请求 nseejrukjhad http 网络协议网络 python
RequestsToolkit的力量：轻松构建HTTP请求Agent在现代软件开发中，API请求是与外部服务交互的核心。RequestsToolkit提供了一种便捷的方式，帮助开发者构建自动化的HTTP请求Agent。本文旨在详细介绍RequestsToolkit的设置、使用和潜在挑战。引言RequestsToolkit是一个强大的工具包，可用于构建执行HTTP请求的智能代理。这对于想要自动化与外
利用LangChain的StackExchange组件实现智能问答系统 nseejrukjhad langchain microsoft 数据库 python
利用LangChain的StackExchange组件实现智能问答系统引言在当今的软件开发世界中，StackOverflow已经成为程序员解决问题的首选平台之一。而LangChain作为一个强大的AI应用开发框架，提供了StackExchange组件，使我们能够轻松地将StackOverflow的海量知识库集成到我们的应用中。本文将详细介绍如何使用LangChain的StackExchange组件
想明白这个问题，你才能写下去文自拾
春节放假的时候，又有一天梦见她，第二天她冒着漫天大雪，傻傻地跑来见我。她说，见见傻傻的我，天很冷，心很暖。她回去后，我写了一篇文章，题目叫——从此梦中只有你。我们没在一起的很长一段时间里，她都在我的心底，一次次出现在我的梦里。我对她说，在一起之前，是胆小且闷骚，在一起之后，我变得不要脸了。不要脸的——去爱你。那文章没写完，火车上，给她看了。我有点小失望，花了好几个小时写，她分分钟就看完，很希望她逐
HTML网页设计制作大作业（div+css）云南我的家乡旅游景点带文字滚动二挡起步 web前端期末大作业 web设计网页规划与设计 html css javascript dreamweaver 前端
Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作HTML期末大学生网页设计作业HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScript：做与用户的交互行为文章目录前端学习路线
MongoDB Oplog 窗口喝醉酒的小白 MongoDB 运维
在MongoDB中，oplog（操作日志）是一个特殊的日志系统，用于记录对数据库的所有写操作。oplog允许副本集成员（通常是从节点）应用主节点上已经执行的操作，从而保持数据的一致性。它是MongoDB副本集实现数据复制的基础。MongoDBOplog窗口oplog窗口是指在MongoDB副本集中，从节点可以用来同步数据的时间范围。这个窗口通常由以下因素决定：Oplog大小：oplog的大小是有限
Faiss Tips：高效向量搜索与聚类的利器焦习娜Samantha
FaissTips：高效向量搜索与聚类的利器faiss_tipsSomeusefultipsforfaiss项目地址:https://gitcode.com/gh_mirrors/fa/faiss_tips项目介绍Faiss是由FacebookAIResearch开发的一个用于高效相似性搜索和密集向量聚类的库。它支持多种硬件平台，包括CPU和GPU，能够在海量数据集上实现快速的近似最近邻搜索（AN
人怎么才能认识自己？阿尚青子自由写作人
人怎么才能认识自己？（原问题）我从不愿意上纲上线地确定偌大的话题，就直接说吧。纵使你能认识世界上的万事万物，你很难做到真实地认识自己。因为即使就这个世界，基本上每个人也很难做到客观、公正、科学地认识。对你好的人就是好吗？一件事情是否能够保持永远原来的样子？借不到钱的男友，女友想离开他就理直气壮？父母对子女有几分慷慨，又有几分是无私？工作的意义究竟是什么？是工作需要你，还是你需要工作呢？诸如此类的问
如何成为段子手欣雅阅读
我是一个尬聊大师，与朋友聊天经常把话题聊死，留我一个人在群里，望着自己打下的最后一句话无语凝噎。看到风趣幽默的朋友与人聊天，很是艳羡，觉得自己何时才能成为这样的段子手呢？一、段子是什么？“段子”一词在百度百科上的解释：本是相声中的一个艺术术语，指的是相声作品中一节或一段艺术内容。我的理解：段子就是一些搞笑的故事或者笑话。二、为什么要会说段子？不知道大家有没有这样的朋友，本来很无趣的聚会，只要有他参
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
数据仓库——维度表一致性墨染丶eye 背诵数据仓库
数据仓库基础笔记思维导图已经整理完毕，完整连接为：数据仓库基础知识笔记思维导图维度一致性问题从逻辑层面来看，当一系列星型模型共享一组公共维度时，所涉及的维度称为一致性维度。当维度表存在不一致时，短期的成功难以弥补长期的错误。维度时确保不同过程中信息集成起来实现横向钻取货活动的关键。造成横向钻取失败的原因维度结构的差别，因为维度的差别，分析工作涉及的领域从简单到复杂，但是都是通过复杂的报表来弥补设计
ARM驱动学习之5 LEDS驱动 JT灬新一嵌入式 C 底层 arm开发学习单片机
ARM驱动学习之5LEDS驱动知识点：•linuxGPIO申请函数和赋值函数–gpio_request–gpio_set_value•三星平台配置GPIO函数–s3c_gpio_cfgpin•GPIO配置输出模式的宏变量–S3C_GPIO_OUTPUT注意点：DRIVER_NAME和DEVICE_NAME匹配。实现步骤：1.加入需要的头文件：//Linux平台的gpio头文件#include//三
Low Power概念介绍-Voltage Area 飞奔的大虎
随着智能手机，以及物联网的普及，芯片功耗的问题最近几年得到了越来越多的重视。为了实现集成电路的低功耗设计目标，我们需要在系统设计阶段就采用低功耗设计的方案。而且，随着设计流程的逐步推进，到了芯片后端设计阶段，降低芯片功耗的方法已经很少了，节省的功耗百分比也不断下降。芯片的功耗主要由静态功耗（staticleakagepower）和动态功耗(dynamicpower)构成。静态功耗主要是指电路处于等
想家，想念家乡的四季三妹杨敏
不知道，为什么，这次我回自己出生地—老家，反倒有了一种出差走亲戚的感觉。人啊，出来得久了，就生分了。就不再那么心贴着心脸对着脸了。需要时间，需要机缘，需要我们再重新把自己的思维重置一遍，你才能够转得回这个弯儿的。最好的转弯儿，不是说教，也不是余旧，都有些治标不治本。真正管用的东西，只有一样。也简单。一个字：吃。吃一顿家乡的饭，喝一口家乡的水，听一听那浓重得有些陌生的乡音，心就回来了。心回来，人才算
简介Shell、zsh、bash zhaosuningsn Shell zsh bash shell linux bash
Shell是Linux和Unix的外壳，类似衣服，负责外界与Linux和Unix内核的交互联系。例如接收终端用户及各种应用程序的命令，把接收的命令翻译成内核能理解的语言，传递给内核，并把内核处理接收的命令的结果返回给外界，即Shell是外界和内核沟通的桥梁或大门。Linux和Unix提供了多种Shell，其中有种bash，当然还有其他好多种。Mac电脑中不但有bash，还有一个zsh，预装的，据说
Dom 周华华 JavaScript html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
【Spark九十六】RDD API之combineByKey bit1129 spark
1. combineByKey函数的运行机制 RDD提供了很多针对元素类型为(K,V)的API，这些API封装在PairRDDFunctions类中，通过Scala隐式转换使用。这些API实现上是借助于combineByKey实现的。combineByKey函数本身也是RDD开放给Spark开发人员使用的API之一首先看一下combineByKey的方法说明：
msyql设置密码报错：ERROR 1372 (HY000): 解决方法详解 daizj mysql 设置密码
MySql给用户设置权限同时指定访问密码时，会提示如下错误： ERROR 1372 (HY000): Password hash should be a 41-digit hexadecimal number；问题原因：你输入的密码是明文。不允许这么输入。解决办法：用select password('你想输入的密码');查询出你的密码对应的字符串，然后
路漫漫其修远兮吾将上下而求索周凡杨学习思索
王国维在他的《人间词话》中曾经概括了为学的三种境界古今之成大事业、大学问者，罔不经过三种之境界。“昨夜西风凋碧树。独上高楼，望尽天涯路。”此第一境界也。“衣带渐宽终不悔，为伊消得人憔悴。”此第二境界也。“众里寻他千百度，蓦然回首，那人却在灯火阑珊处。”此第三境界也。学习技术，这也是你必须经历的三种境界。第一层境界是说，学习的路是漫漫的，你必须做好充分的思想准备，如果半途而废还不如不要开始。这里，注
Hadoop(二)对话单的操作朱辉辉33 hadoop
Debug： 1、 A = LOAD '/user/hue/task.txt' USING PigStorage(' ') AS (col1,col2,col3); DUMP A; //输出结果前几行示例： (>ggsnPDPRecord(21),,) (-->recordType(0),,) (-->networkInitiation(1),,)
web报表工具FineReport常用函数的用法总结（日期和时间函数）老A不折腾 finereport 报表工具 web开发
web报表工具FineReport常用函数的用法总结（日期和时间函数）说明：凡函数中以日期作为参数因子的，其中日期的形式都必须是yy/mm/dd。而且必须用英文环境下双引号(" ")引用。 DATE DATE(year,month,day):返回一个表示某一特定日期的系列数。 Year:代表年，可为一到四位数。 Month:代表月份。
c++ 宏定义中的##操作符墙头上一根草 C++
#与##在宏定义中的--宏展开 #include <stdio.h> #define f(a,b) a##b #define g(a) #a #define h(a) g(a) int main() { &nbs
分析Spring源代码之，DI的实现 aijuans spring DI 现源代码
(转) 分析Spring源代码之，DI的实现 2012/1/3 by tony 接着上次的讲，以下这个sample [java] view plain copy print
for循环的进化 alxw4616 JavaScript
// for循环的进化 // 菜鸟 for (var i = 0; i < Things.length ; i++) { // Things[i] } // 老鸟 for (var i = 0, len = Things.length; i < len; i++) { // Things[i] } // 大师 for (var i = Things.le
网络编程Socket和ServerSocket简单的使用百合不是茶网络编程基础 IP地址端口
网络编程;TCP/IP协议网络:实现计算机之间的信息共享,数据资源的交换协议:数据交换需要遵守的一种协议,按照约定的数据格式等写出去端口:用于计算机之间的通信每运行一个程序，系统会分配一个编号给该程序，作为和外界交换数据的唯一标识 0~65535 查看被使用的
JDK1.5 生产消费者 bijian1013 java thread 生产消费者 java多线程
ArrayBlockingQueue：一个由数组支持的有界阻塞队列。此队列按 FIFO（先进先出）原则对元素进行排序。队列的头部是在队列中存在时间最长的元素。队列的尾部是在队列中存在时间最短的元素。新元素插入到队列的尾部，队列检索操作则是从队列头部开始获得元素。 ArrayBlockingQueue的常用方法：
JAVA版身份证获取性别、出生日期及年龄 bijian1013 java 性别出生日期年龄
工作中需要根据身份证获取性别、出生日期及年龄，且要还要支持15位长度的身份证号码，网上搜索了一下，经过测试好像多少存在点问题，干脆自已写一个。 CertificateNo.java package com.bijian.study; import java.util.Calendar; import
【Java范型六】范型与枚举 bit1129 java
首先，枚举类型的定义不能带有类型参数，所以，不能把枚举类型定义为范型枚举类，例如下面的枚举类定义是有编译错的 public enum EnumGenerics<T> { //编译错，提示枚举不能带有范型参数 OK, ERROR; public <T> T get(T type) { return null;
【Nginx五】Nginx常用日志格式含义 bit1129 nginx
1. log_format 1.1 log_format指令用于指定日志的格式，格式： log_format name(格式名称) type(格式样式) 1.2 如下是一个常用的Nginx日志格式： log_format main '[$time_local]|$request_time|$status|$body_bytes
Lua 语言 15 分钟快速入门 ronin47 lua 基础
- - 单行注释 - - [[ [多行注释] - - ]] - - - - - - - - - - - 1. 变量 & 控制流 - - - - - - - - - - num = 23 - - 数字都是双精度 str = 'aspythonstring'
java-35.求一个矩阵中最大的二维矩阵 ( 元素和最大 ) bylijinnan java
the idea is from: http://blog.csdn.net/zhanxinhang/article/details/6731134 public class MaxSubMatrix { /**see http://blog.csdn.net/zhanxinhang/article/details/6731134 * Q35 求一个矩阵中最大的二维
mongoDB文档型数据库特点开窍的石头 mongoDB文档型数据库特点
MongoDD: 文档型数据库存储的是Bson文档-->json的二进制特点：内部是执行引擎是js解释器，把文档转成Bson结构，在查询时转换成js对象。 mongoDB传统型数据库对比传统类型数据库：结构化数据，定好了表结构后每一个内容符合表结构的。也就是说每一行每一列的数据都是一样的文档型数据库：不用定好数据结构，
[毕业季节]欢迎广大毕业生加入JAVA程序员的行列 comsci java
一年一度的毕业季来临了。。。。。。。。正在投简历的学弟学妹们。。。如果觉得学校推荐的单位和公司不适合自己的兴趣和专业，可以考虑来我们软件行业，做一名职业程序员。。。软件行业的开发工具中，对初学者最友好的就是JAVA语言了，网络上不仅仅有大量的
PHP操作Excel – PHPExcel 基本用法详解 cuiyadll PHP Excel
导出excel属性设置//Include classrequire_once('Classes/PHPExcel.php');require_once('Classes/PHPExcel/Writer/Excel2007.php');$objPHPExcel = new PHPExcel();//Set properties 设置文件属性$objPHPExcel->getProperties
IBM Webshpere MQ Client User Issue (MCAUSER) darrenzhu IBM jms user MQ MCAUSER
IBM MQ JMS Client去连接远端MQ Server的时候，需要提供User和Password吗？答案是根据情况而定，取决于所定义的Channel里面的属性Message channel agent user identifier (MCAUSER)的设置。 http://stackoverflow.com/questions/20209429/how-mca-user-i
网线的接法 dcj3sjt126com
一、PC连HUB (直连线)A端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。 B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。二、PC连PC （交叉线）A端：(568A)：白绿，绿，白橙，蓝，白蓝，橙，白棕，棕； B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。三、HUB连HUB&nb
Vimium插件让键盘党像操作Vim一样操作Chrome dcj3sjt126com chrome vim
什么是键盘党？键盘党是指尽可能将所有电脑操作用键盘来完成，而不去动鼠标的人。鼠标应该说是新手们的最爱，很直观，指哪点哪，很听话！不过常常使用电脑的人，如果一直使用鼠标的话，手会发酸，因为操作鼠标的时候，手臂不是在一个自然的状态，臂肌会处于绷紧状态。而使用键盘则双手是放松状态，只有手指在动。而且尽量少的从鼠标移动到键盘来回操作，也省不少事。在chrome里安装 vimium 插件
MongoDB查询（2）——数组查询[六] eksliang mongodb MongoDB查询数组
MongoDB查询数组转载请出自出处：http://eksliang.iteye.com/blog/2177292 一、概述 MongoDB查询数组与查询标量值是一样的，例如，有一个水果列表，如下所示： > db.food.find() { "_id" : "001", "fruits" : [ "苹
cordova读写文件（1） gundumw100 JavaScript Cordova
使用cordova可以很方便的在手机sdcard中读写文件。首先需要安装cordova插件：file 命令为： cordova plugin add org.apache.cordova.file 然后就可以读写文件了，这里我先是写入一个文件，具体的JS代码为： var datas=null;//datas need write var directory=&
HTML5 FormData 进行文件jquery ajax 上传到又拍云 ileson jquery Ajax html5 FormData
html5 新东西：FormData 可以提交二进制数据。页面test.html <!DOCTYPE> <html> <head> <title> formdata file jquery ajax upload</title> </head> <body> <
swift appearanceWhenContainedIn:(version1.2 xcode6.4) 啸笑天 version
swift1.2中没有oc中对应的方法： + (instancetype)appearanceWhenContainedIn:(Class <UIAppearanceContainer>)ContainerClass, ... NS_REQUIRES_NIL_TERMINATION; 解决方法：在swift项目中新建oc类如下： #import &
java实现SMTP邮件服务器 macroli java 编程
电子邮件传递可以由多种协议来实现。目前，在Internet 网上最流行的三种电子邮件协议是SMTP、POP3 和 IMAP，下面分别简单介绍。　　◆ SMTP 协议　　简单邮件传输协议(Simple Mail Transfer Protocol,SMTP)是一个运行在TCP/IP之上的协议，用它发送和接收电子邮件。SMTP 服务器在默认端口25上监听。SMTP客户使用一组简单的、基于文本的
mongodb group by having where 查询sql qiaolevip 每天进步一点点学习永无止境 mongo 纵观千象
SELECT cust_id, SUM(price) as total FROM orders WHERE status = 'A' GROUP BY cust_id HAVING total > 250 db.orders.aggregate( [ { $match: { status: 'A' } }, { $group: {
Struts2 Pojo（六） Luob. POJO strust2
注意：附件中有完整案例 1.采用POJO对象的方法进行赋值和传值 2.web配置 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee&q
struts2步骤 wuai struts
1、添加jar包 2、在web.xml中配置过滤器 <filter> <filter-name>struts2</filter-name> <filter-class>org.apache.st

邓滨：信号处理+深度学习才能实现语音交互

你可能感兴趣的:(邓滨：信号处理+深度学习才能实现语音交互)