lrhaowx

【小贝出品】定制你的对话机器人 - 基于RASA搭建

源代码 Hands on Setting Up Develop Environment

Open Custom Connector More Concept 工程上的处理

Tracker Store
Event Broker
Model Storage
Chitchat and FAQs Asignment 自己的机器人，并且使用active serve去实现对话机器人天气查询功能

RASA

What's the weather like tomorrow
nlu- DM对话管理（RASA中叫core）拿出来是action-送到NLG（生成对话语言）
intent（weather query）
entity （tomorrow）实体，与slot区别

变成slot存储到对话机器人当中，slot和entity内容是一样的，slot是一个记忆，保存到记忆当中

core模块，RASA中是用story描述的对话流程，一个intent，对话机器人做什么样的action

两种情况让有slot：

从用户说的话当中识别实体
作为程序员在代码中注入进去

Setting up Rasa Source Code

Rasa代码写的非常好，不仅是对话机器人；很多工程上的，比如如何写代码，如何写规范的代码；都很值得学习工程师的艺术感，工匠精神：不仅仅实现功能，同样让代码具有美感；自己写起来也会非常享受，不是搬砖拼凑起来实现功能，而是设计艺术品，值得品鉴的东西。所以学习Rasa工程上的知识

用poetry做包管理，可以把项目需要哪些包，这样的文件记录好，是更先进的包管理工具

把包下载之后， python get-poetry.py
pycharm提供了类似anaconda的工具，可以去管理poetry去管理环境；但不是官方默认，需要安装第三方插件 poetry.lock记录了其依赖的包

poetry install 会自动把其以来的包全都安装好；不像用pip和anaconda是基于pip和anaconda版本来判断；而poetry完全是一致的，类似于yarn和npm；不会出现版本冲突的问题；这也是为什么Rasa选用它做管理。会自动检测到当前项目下面需要的第三方包，并自动升级和补充缺少的包。出现网络问题：科学上网或多上几次
你可以贡献给Rasa也可以贡献给xbot，xbot也是用poetry做包管理
poetry和pip不一样的是，它添加包的时候不是install 而是add poetry add fastweb
poetry和anaconda不冲突，是类似的东西，区别就在于管理机制不太一样

每个环境都隔离的，A环境安装的包，B环境也没有，（anaconda虚拟环境里的包，在pycharm里面配置，显示不出来）anaconda和poetry都是这样。区别在于anaconda会依赖于一系列其他的包，会有内部版本的机制，选择哪个版本去安装；而poetry完全按照用户怎么去定义

Optimize NLU

每一个管道都串起来、连起来；串行的、管道式的；
用户的一段话- componentA第一个组件- ComponentB- ComponentC；将来可以自己开发自定义的component
整个过程是为了寻找到intent和entity

让对话机器人理解能力先提升，理解的程度在于识别intent更准确，识别entity也更准确
NLU的过程其实是通过pipeline机制去做的，pipeline机制会有很多类的名字，这些类的名字是怎么回事呢？

我感觉rasa训练很快，其实Rasa用了预训练模型接口类：

在定义pipeline时结构就是串行结构
在pipeline又封装了几种概念，用哪些种方法去做事情。因为分的很细，能看字面意思（比如Tokenizer），把nlp里常规操作流程通过pipeline形式定义了出来

分词：WhitespaceTokenizer 用空格符做分词（对中文来讲没有任何用处；中文- JiebaTokenizer，供中国用户使用nlu功能）

MitieTokenizer 常用的包，提供了一些分词、实体抽取、文本分类的方法，更多的使用于英文场景
SpacyTokenizer，也是非常好用的nlp库，但是官方不支持中文、去找，用它的方式去加载，可以指定一个模型，把那个模型加载尽量；使用Rasa时用jieba做分词

对话机器人涵盖了nlp所有东西目前中文分词工具最好的：hanlp，也是xbot里使用的工具

featurizer 把中文转换成embedding的形式

SpacyFeaturizer
ConveRTFeaturizer被废弃
LanguageModelFeaturizer语言模型当成模型的一个feature；如果能找到中文LanguageModel，pre-train的模型（如bert，支持bert

），是可以的

RegexFeaturizer 定义一句话，会用正则去描述这句话，把正则当成feature，试图学习到语言的信息；只对英文又好的作用，对中文反而把nlu搞得很惨，反而识别不到
CountVectorsFeaturizer n-gram 不能配置
LexicalSyntacticFeaturizer 把语法信息加进去，能否得到比较好的分类；英文友好，中文不友好能用的可能就俩

Improve NLU- Pipeline Approach

一）Intent Classifiers 意图分类；也提供了一些可选择的组件通常的选择：

MitintentClassifier 不推荐，麻烦
SklearnIntetnClassifier 适用于数据量小，优点就是速度快，需要的数据不多
KeywordIntentClassifier 关键字，去对应到意图上，回到传统时代，通过规则识别到某些关键字，用处不太大
DIETClassifier Rasa默认到Classifier，使用dual intent entity transformer；讲到模块，每一个模块，会结合rasa每一个模块去讲；推荐！后面讲nlu模块会详细讲解

FallbackClassifier

一方面识别到，另一方面没识别到，不在intent范围内，主要帮我们解决，如果只写了很多意图，但是用户说的话确实不在intent里面，对用户不友好，fallbackClassifier先识别一下意图是否在定义的意图空间里面，在的话再用别的classifier；不在的话就告诉不支持：作为异常情况引导的分类

Q：这些classifier是模型吗？

- 对，就是一些深度学习的模型

Q：Fallbackclassfier是与其他分类方法独立的还是包含的？

是先要用fallback然后再用其他分类方法DIETclassfier-先做是否在意图空间内，

通常放在前面一些，先做fallback识别，再做其他识别

Rasa自己不做训练，都是用开源模型 end2end：问题--空间太大，完全基于语料做生成，不可控；因为对话机器人要跟用户接触，不可控，所以工业界不用，在研究领域比较热，最后一节课会讲一讲end2end模型

二）实体识别

……
SpacyEntityExtracter
有人名、国家名、建筑名……看需要识别哪些实体，写到里面去，如果不写的话，默认全部都识别；但是全部都识别，会导致模型相对慢一些；如果能定义好自己的空间，模型相对快一些。不支持中文
CRFEntityExtractor
DucklingTHTTExtractor
DIETClassifier 不仅仅把分类做完，同时把实体识别也做出来，联合joint，这种模型任务更难，准确率更精准 Combined Intent Classifier 既能得到entity也能得到intent。支持中文以上是nlu的一些组件，components；通过pipeline把它们串起来，更好地

Choosing the Right components 怎么选择正确的组件（best practice）对于中文的用户，可选择不多对于英文用户，优先选择spaceTokenizer

选择feature主要方式是看数据量

此图帮助选components组件：

1）先看是否有pre-train模型

2）对应language model

3）一句话是否有两个意图的情况；

4）如果没有，有没有专业领域的词，domain specific terms 专业词，pre-train的模型 embedding并没有做很好，很多这样的专业名词，

5）有没有很多这样的数据，有没有用深度学习的方式去做，如果没有那么多数据去训练专业名词，则用sklearn

Intent Recognition常见问题 :

1） lack of training data

2) out-of-vocabulary words 并没有见过用户所说的词（生词），第一种方法是增加语料，使语言模型泛化能力更强；第二是使用embedding/pre-train的模型，已经学习到语言里面的特性，有相对好的泛化能力，大量减少oov现象

3）similar Intents 定义意图意思太相近，导致分类的不准确，碰到这样的情况，首先看能不能把这两种分类做合并，成一个意图，看看能否在实体部分做区分；在设计意图的时候去考虑 4）skewed data 容易出现数据不均衡；模型偏向于语料比较多的意图；不要出现语料不均的问题

Q：多少语料算多，多少算少。

--比如先十条，baseline，看是否能达到要求，比如都能达到80%以上，可以先分享出去，给到测试人员，让测试人员做测评工作；不停迭代，同时收集很多很多语料，语料越来越多。然后上线去做，线上又收集到很多数据，再去做，不停迭代

Q：rasa如何使用？

看entity实体是否是有限的集合，如果是有限的集合，使用lookup table，是有限的空间内，是枚举型的，如果没有这些则用NER/CIF, 帮我们做意图的分类和抽取

Q：数据不均衡要做不均衡学习吧，数据增强的一些方法，Smote ADASYN之类的

A：数据增强肯定是解决数据不均衡的方法；但是在对话里做数据增强是比较难的-- 超纲，后面讲，先按Rasa讲

Custom Components自己去写

需要把模块名加到pipeline里，类路径的名字，去写component

再查再问怎么做inference，分类entities，转换成rasa期待的一种格式；还有persist怎么存储训练好的格式，save成各种各样的文件，如何save如何做持久化；load如何加载，按照tensorflow和按照？？存的load方法完全不一样

Q：自己写component有例子吗？

实现的是情感分析的component，依赖于entity，language_list
train如何train，用了nltk（微软的库）做朴素贝叶斯训练
然后process怎么做推理工作，预测的过程
得到的结果，之后做convert to rasa，支持json格式，输出给到下一个component，就是通过这样的标准格式一步一步去传递
json_pickle去做持久化，有了持久化之后怎么做load，用反序列化加载出来，读到模型里面去

以上一系列过程都是怎么去优化NLU

Expand your NLU Data

一）更好的模型

二）更多的数据：https://rasa.com/docs/rasa/generating-nlu-data

三）Share your Bot to More people把你的对话机器人分享给更多的人

四）NLU Data Augmentation 数据增强，可以做nlu的data augmentation

五）Reinforce Learning 可以生成一些数据，从而帮我们产生更多的数据

怎么把数据分成训练集和测试集，按照20%和80%比例分成训练集和测试集rasa data split nlurasa versiontrain_test_split 就是80% 20%分开，用test数据集做测试在调nlu过程中有一个命令很重要：

rasa shell nlu

使得我们可以单独测试nlu模型性能是否ok，能否按照我们想要的把用户意图和实体都抽取出来
字典就是component返回的字典
把“你好”分类的类别，分类到great，每一个分类置信度
可以不停地测，比如输入“你好吗”，这个是greet；
“你吃了吗”，在train里没有但是仍然得到90%+置信度的greet还是很不错的

“台北的天气好吗”

entity也出来了怎么变成slot？此时需要在domain里面，在slot下面写上entity的名字，influence_conversation是否影响对话：通常不影响False，后续在slot里面就能拿

policy模块所做的事情？写比较多，会比较慢，是并行的，不是串行的，选择置信度最高的结果作为下一个action 当所有policy都预测到同一个confidence，priority优先级是在源码里定义的，先执行rulePolicy再执行……最后TEDPolicy，是深度学习带记忆的policy

DM模块会讲具体的算法，是Facebook出的一篇论文，借鉴了Facebook论文做的工作，就叫TED Policy，得到SOTA结果--可以搜一下论文

有发论文需求可以加入xbot里面去；中文的rasa

epoch训练多少轮，取决于story

max_history TEDPolicy会记住上下文的信息，然后做判断，max history记忆上下文，是记忆多少轮；有些对话场景是任务的对话场景，平均来看三轮可以完成的任务，如果记录的是十轮对话场景，就不值得这么大的值；默认是max_history轮次，实际往往不需要这么多 number_of_transformer_layer 用多少层的transformer做这个事情，需要研究算法
Memoizaiton Policy 更多是依据规则；可能会产生超出story范围之外的结果；可以用memorization的方式去做，可以匹配intent action去走，没有泛化能力

生成下面的action，只是规则带来的泛化性，不是算法带来的泛化性

rule-based policies是完全规则的形式主要用来讲nlu的时候，可以定义很多rule

custom Policies

policy也是可以自定义的

先不讲，后面真正讲policy算法的时候再讲，放到rasa框架里自己实现policy

以上是模型方面，数据方面：如何获取更多的story，同nlu：

Share your Bot to More people
Stories Data Augmentation
Reinforce Learning

Action

对话机器人需要查接口，才能做查天气的工作 action_ 与前面是一致的 rasa知道你在，在此方法里用这样的方式，查询天气的逻辑写出来即可写完这样的东西之后，要执行 rasa run actions微服务概念，每一个action都是一个单独的服务，每一个action就可以多布置几台，这时候就会启动服务，就跑在了5055端口上，rasa就会在命中了number_form

就会进到run里面，做实体识别的时候已经拿到，tracker就是在rasa里定义的关于记忆的东西，叫记录仪，去get_slot，拿到命名的city的slot，找到比如“台北”，然后就可以去调第三方接口，把台北传进去，然后通过dispatcher，rasa的action server 跟rasa交互的工具，然后就会跟用户说这句话，

return 返回的是事件--**是在Rasa系统里与Rasa交互的东西 [AllSlotReset]**词槽信息都清空

Events

都被表征成一系列事件/暗号

SlotSet 想给slot里填一个值，都通过event机制去与rasa交互
reminderScheduled 比如小度音响，明早八点叫我起床，在某一个时间点去做一个事情，等到那个时间就会响应某一个action
ReminderCancelled 能创建一个日程，还能取消一个日程，通过这样一个slot告诉把event取消掉
UserUtternceReverted
ActionReverted重复一个action，可能有些场景会用到
Restarted重启整个对话机器人，用到的场景比较少
SessionStarted 重新开启一个session，要把当前slot都忘记，除非设置一个全局slot
BotUttered bot度用户说了句什么话 the texter sent to the user

目前看rasa里events这个系统是不完善的，将来想要做扩展的地方，也是我们需要在xbot里实现更多场景的一个地方

Knowledge Base Actions

如何做KBQA 用知识库回答用户问题

如何实现上图查询过程？只要写一个json文件，按照这样的格式

一些key-value对， using Action kb

Leverage information

“the first one”要知道指代的是第一个

怎么构建数据集拿到这个实体，就能够自动找到返回的第一个

需要在语料里标注的，value是restaurant，就能找到要从哪个restaurant里拿数据，要在语料里定义好这个东西
第二个是mention，指代消息，the first one, the second one
attribute: 就是在数据库里的一些信息，就会自动去找price-range，从属性里去拿，返回一句话

接下来你写的action server是什么样子的

继承ActionQueryKnowledgeBAse

可以自动帮我们做查询，做查询的query，再返回信息

以上就是配置过程，先配语料，entity slot在domain里定义好，把action写到story里面去，关于知识库的查询动作就可以实现了

Q：：FormAction不太明白原理

定义的比action复杂些首先action name，有name才嫩写到story里面去表单，填一些类别，电话号码，电话号码的数值，要查询哪些业务，做提交，提交完之后要做哪些回复，做哪些操作

Q：action是从哪里定义获取的slot的

action会把tracker（rasa里的信息）当作参数传递进来把entity当作slot永久记忆下来

rasa后端是tf，没用pytorch

conditional 带有条件的方式天气查询的接口

更多资料

https://github.com/RasaHQ/rasa

https://github.com/RasaHQ/rasa-demo

https://github.com/sfrpl/rasa-chatbot

https://zhuanlan.zhihu.com/p/75517803

推荐阅读

1.图神经网络 - 图与图学习（二）

2.pyspark - pyspark的语法

3.强化学习教程：从DPG到DDPG的原理及tf代码详解

加入微信学习交流请扫描助手二维码：

【无标题】
PyQt5相关论文方向扩充及技术特性解析PyQt5的核心优势PyQt5作为基于Qt框架的Python绑定库，在科研与工程应用中具备显著优势。其跨平台兼容性极强，可在Windows、macOS、Linux等主流操作系统上稳定运行，且能保持界面风格的一致性，这对开发多场景应用系统至关重要。在界面设计方面，PyQt5提供了丰富的UI组件库，从基础的按钮、文本框到高级的图表、3D控件应有尽有，同时支持Qt
Apache Ignite 的并发控制：实现高性能事务处理的关键 AI天才研究院 AI实战 AI人工智能与大数据 LLM大模型落地实战指南大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍随着大数据时代的到来，数据量的增长和计算能力的提升使得传统的数据库和计算模型已经无法满足业务需求。为了应对这些挑战，分布式计算和存储技术得到了广泛的研究和应用。ApacheIgnite是一款高性能的分布式数据库和计算平台，它可以提供实时性能和高可用性，同时支持事务处理和并发控制。在这篇文章中，我们将深入探讨ApacheIgnite的并发控制机制，以及如何实现高性能事务处理。我们将从以下
DolphinScheduler 如何高效调度 AnalyticDB on Spark 作业？ DolphinScheduler社区 spark 大数据分布式
DolphinScheduler是一个分布式易扩展的可视化DAG工作流任务调度开源系统，能高效地执行和管理大数据流程。用户可以在DolphinSchedulerWeb界面轻松创建、编辑和调度云原生数据仓库AnalyticDBMySQL版的Spark作业。前提条件AnalyticDBforMySQL集群的产品系列为企业版、基础版或湖仓版。AnalyticDBforMySQL集群中已创建Job型资源组
Python数据读写与组织全解析（查缺补漏篇） Monkey的自我迭代 python学习的查缺补漏机器学习人工智能 python
1高维数据由键值对类型的数据构成，可以多层嵌套。高维数据相比一维和二维数据能表达更加灵活和复杂的数据关系，可以用字典类型表示。一维数据不用字典类型来表示。2read、readline、redlines和for循环输出读取的区别直接read，读取的结果就是一个字符串，和文件中一模一样f_2=open('cpi.csv','r')print(f_2.read())指标,2015,2016,2017,居
Python文件路径操作全面指南：从基础到高级应用 Monkey的自我迭代 python 开发语言
文件路径操作是Python编程中不可或缺的核心技能，无论是数据科学、Web开发还是自动化办公，都离不开对文件路径的有效管理。本文将系统性地介绍Python中文件路径操作的各类方法，帮助您掌握这一关键技术。一、文件路径基础概念1.1路径类型解析文件路径主要分为两种类型，理解它们的区别是路径操作的基础：绝对路径：从文件系统根目录开始的完整路径，如Windows系统中的C:\Users\Username
python排序算法之基数排序华强笔记 python数据结构和算法 python 算法
#代码如下：'''基数排序：1.把数据分为10个桶，以为数字有0-9这10个2.依次把数据的个位，十位，百位等等各个位数的数据进行分桶排序，放在这10个桶中3.最大的数有k位，则循环k次4.时间复杂度O(kn),空间复杂度O(k+n),其中k=log10(n)+1'''defradixs_sort(li):max_num=max(li)it=0while10**it<=max_num:bucket
京东零售重磅开源 | OxyGent：像搭乐高一样组装AI团队，实现群体智能京东零售技术零售开源人工智能
京东零售Oxygen团队正式开源发布多智能体协作框架——OxyGent。这一创新框架致力于帮助开发者高效组装多智能体协作系统，实现智能体间的无缝协作、弹性扩展与全链路可追溯。推动人工智能从“单点突破”迈向“群体智能”时代。OxyGent已在开源社区正式上线。开源地址：https://github.com/jd-opensource/OxyGent官网地址：https://oxygent.jd.co
具身智能的视觉-语言导航综述
24年2月来自曲阜师范、华东师大和哈工大的论文“Vision-LanguageNavigationwithEmbodiedIntelligence:ASurvey”。作为人工智能领域的长期愿景，具身智能的核心目标是提升智体与环境的感知、理解和交互能力。视觉-语言导航（VLN）作为实现具身智能的重要研究路径，致力于探索智体如何利用自然语言与人进行有效沟通，接收并理解指令，并最终依靠视觉信息实现精准导
python折半查找算法_python二分查找代码试用递归法编写python程序实现折半查找算法...
python二分查找算法函数bi_search(),该函数实现检回忆，很美却很伤；回忆只是回不到过去的记忆。输入格式:第一行为正整数n接下来若干行为待查找的数字，每行输入一个总是女人为了天长地久而烦恼，男人却可以洒脱地出乎意料。defprime(n):ifnend:return-1mid=(start+end)//2ifprimelist[mid]==prime:returnmidelifprim
具身智能：从理论到实践的跨越
具身智能（EmbodiedAI）的概念起源与发展是一个跨越半个多世纪的学术探索历程，其核心思想在不同学科的交叉碰撞中逐渐成型。以下从理论源头、技术奠基、术语演进三个维度展开解析，揭示这一概念的学术脉络与产业价值：一、理论源头：从图灵的哲学构想到认知科学的具身化转向1.图灵的"感官机器"设想（1950年）在人工智能奠基性论文《计算机器与智能》中，图灵提出了两种智能发展路径：抽象计算路径：如国际象棋等
PyCharm高效入门指南：从零开始掌握Python开发利器软考和人工智能学堂 Python开发经验强化学习 PyCharm
引言PyCharm是JetBrains公司推出的一款强大的Python集成开发环境(IDE)，被全球数百万Python开发者所青睐。无论你是Python初学者还是经验丰富的开发者，掌握PyCharm都能显著提升你的开发效率。本文将带你从零开始，全面了解PyCharm的核心功能和使用技巧。1.PyCharm的安装与配置1.1下载与安装首先访问JetBrains官网下载PyCharm。PyCharm有
python作业陈小铃子 python 开发语言
基础练习练习目标函数01.计算车费题目描述小红打车，起步价8元(3公里),每公里收费2元，她打车行驶了n公里，通过函数封装并计算车费输入描述输入一个公里数输出描述输出应付车费示例输入：5输出：12defcalculate_fare(distance):base_price=8#起步价per_km_cost=2#每公里费用min_distance=3#最小计费距离ifdistance0:sum_nu
【Python】(三）面试题和Py基础题戏精亿点点菜面试职场和发展 python
1.技术面试题（1）解释Linux中的进程、线程和守护进程的概念，以及如何管理它们？答：进程（Process）：进程是操作系统中资源分配的基本单位，是正在运行的程序的实例。每个进程都有自己的内存空间、文件描述符和执行上下文。管理：①查看进程：使用ps、top、htop等命令查看当前运行的进程。②启动进程：通过命令行或脚本启动新进程。③终止进程：使用kill命令发送信号终止进程，例如kill-9PI
python小工具：测内网服务器网速和延迟秃了也弱了。 python大家庭服务器 python java
文章目录一、使用1、代码2、使用3、注意事项一、使用1、代码importargparseimportsocketimporttimeimportsubprocessimportreimportsysdefmeasure_latency(host):#使用ping命令测量延迟try:#根据操作系统选择ping参数ifsys.platform.startswith('win'):output=subp
Python面试题-6 编织幻境的妖 python 服务器开发语言
1.请解释Python中的动态类型。Python中的动态类型Python是一种动态类型语言，这意味着你不需要在编程时声明变量的类型，而是在运行时自动推断类型。在Python中，变量的类型是在程序运行时决定的，这意味着同一个变量可以在不改变其类型的情形下被赋予不同类型的值。动态类型的优点在于它提高了编程的灵活性，因为你不需要预先确定数据的类型，可以更容易地写出简洁的代码。然而，这也可能导致运行时错误
开源模型应用落地-qwen模型小试-Qwen2.5-7B-Instruct-玩转ollama（一）开源技术探险家开源模型-实际应用落地 #深度学习自然语言处理语言模型
一、前言在AI大模型百花齐放的时代，很多人都对新兴技术充满了热情，都想尝试一下。然而，实际上要入门AI技术的门槛非常高。除了需要高端设备，还需要面临复杂的部署和安装过程，这让很多人望而却步。在这样的背景下，Ollama的出现为广大开发者和爱好者提供了一条便捷的道路，极大地降低了应用机器学习的门槛。Ollama的优势在于其极致的简化。通过这个平台，用户可以轻松下载、运行和管理各种机器学习模型，而无需
10分钟搞定 MinIO 单节点多磁盘部署！打造稳定高可用对象存储【二】
MinIO是一个**高性能、开源的对象存储系统**，主要用于存储非结构化数据（如图片、视频、文档、备份等），与AmazonS3完全兼容。它被广泛用于云原生应用、大数据分析、AI模型存储、容器平台（如Kubernetes）等场景。MinIO支持多种部署模式，其中：单节点单磁盘（Single-NodeSingle-Drive）模式适用于开发测试、小规模应用或资源受限的场景。它的部署简单，不依赖集群、分
机器学习之——认识机器学习 -睡到自然醒~ golang 重构开发语言
首先，什么是机器学习？参照百度百科的讲解，“机器学习是一门多领域交叉学科，设计概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习能力，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。”什么意思呢？也就是说，机器学习是一门跨领域的学科，是一种能够让机器模仿人类学习能力的一种学科。在Andrew的课程中，提到了几个机器学习的定义：1，A
Epoch 老兵发新帖人工智能
在深度学习和机器学习中，Epoch（轮次或周期）是一个核心训练概念，指模型在整个训练数据集上完成一次完整遍历的过程。以下是关于Epoch的详细解析：一、核心定义基本含义Epoch表示模型将所有训练数据完整学习一次的过程。例如：若训练集有10,000个样本，则1个Epoch即模型用这10,000个样本训练一轮。与相关概念的关系Batch（批次）：数据集被分割成的小组（如每批32个样本）。Iterat
火爆全网的条形竞赛图，Python轻松实现统计学家
image这个动图叫条形竞赛图，非常适合制作随时间变动的数据。我已经用streamlit+bar_chart_race实现了，然后白嫖了heroku的服务器，大家通过下面的网址上传csv格式的表格就可以轻松制作条形竞赛图，生成的视频可以保存本地。https://bar-chart-race-app.herokuapp.com/本文我将实现过程介绍一下，白嫖服务器+部署留在下期再讲。纯matplot
【无标题】Python---day9 模块化编程概念（模块、包、导入）及常见系统模块总结和第三方模块管理 AnAn__kang python java 服务器
系列文章目录前言跟着博主学Python，今天我们来到了第九天的学习，模块化编程的概念。Python作为一门编程语言，本身就是用于对模块以及各种包的使用来达到我们自己想到创作的目的。所以今天博主就给大家盘点一下有关于各种常见的包以及如何进行导入的。一.模块Module，模块1.1基本概念定义：模块是一个Python文件，每个.py.py.py文件就是一个模块。作用：用于组织代码，避免代码重复，提高复
Python --- day 10 Opencv模块的使用 AnAn__kang python opencv 开发语言
系列文章目录前言今天博主带大家进入Opencv的学习，这是一个专门针对处理图像和视频的一个模块，大家以理解为主，增强自己的编程思维，再后续我们训练模型时会大批量的处理图片时会经常用到这个模块。1OpenCV介绍OpenCV（开放源代码计算机视觉库）是一个开源的计算机视觉和机器学习软件库。由一系列C++类和函数构成，用于图像处理、计算机视觉领域的算法实现。1.1OpenCV优势**开源免费：**完全
时序数据库在数据库领域的应用前景数据库管理艺术数据库时序数据库 struts ai
时序数据库在数据库领域的应用前景关键词：时序数据库、时间序列数据、物联网、监控系统、金融分析、大数据、实时分析摘要：本文深入探讨了时序数据库在现代数据管理中的关键作用和应用前景。我们将从时序数据的基本特性出发，分析时序数据库的核心架构和设计原理，比较主流时序数据库产品的技术特点，并通过实际案例展示其在物联网、金融科技、运维监控等领域的应用价值。文章还将提供时序数据库选型指南，探讨未来技术发展趋势，
【无标题】Python --- Day5 函数的位置传参、关键词传参及其可变性和解包操作 AnAn__kang python 前端人工智能
系列文章目录前言今天小伙伴们跟我进入第五天的Python课程学习，主要是关于函数的位置传参，关键传参和可变性和解包传参这其中的具体定义以及它们的使用场景`一、调用传参函数调用时传递参数的方式有多种，包括位置传参、关键词传参、多个参数解包、参数默认值等。1.1位置传参最常见的传参方式，参数按定义的顺序依次传入函数。示例：defgreet(name,age):print(f"Hello,{name}.
时序数据库在数据库领域的行业应用数据库管理艺术数据库时序数据库 ai
时序数据库在数据库领域的行业应用关键词：时序数据库、数据库领域、行业应用、时间序列数据、实时分析摘要：本文深入探讨了时序数据库在数据库领域的行业应用。首先介绍了时序数据库的背景知识，包括其目的、适用读者、文档结构和相关术语。接着阐述了时序数据库的核心概念、架构和工作原理，通过Python代码详细讲解了核心算法。还介绍了相关的数学模型和公式，并举例说明。在项目实战部分，给出了开发环境搭建、源代码实现
Python --- Day3 推导式及常见语句和内置函数的学习！！！
系列文章目录前言相信各位伙伴们在前俩次的文章和Python的基础学习中大有收获，这次我们将进入推导式，常见语句和内置函数的学习！跟着博主一起成为一名Ai的算法工程师！一、推导式用更简洁的方式创建列表、字典和集合。是Python特有的一种表达式形式。1.1列表推导式a=[1,2,3,4]result=[x*2forxina]#创建一个新列表，元素是原列表每个元素的两倍1.2字典推导式a=['a','
生命3.0时代，面对人工智能时代的到来，我们可以做些什么笃定的沙丁鱼
生命的定义生命的定义有很多，最为人所熟知的是在生物学上的定义，即生命是蛋白质存在的一种形式。但是，这种定义可能不太适用于未来的智能机器和外星文明，我们不能将我们对未来生命的思考局限在过去遇到过的物种，所以需要将生命定义得更广阔一些：生命是一个能保持自身复杂性并能进行复制的过程。复制的对象并不是由原子组成的物质，而是能阐明原子是如何排列的信息，这种信息由比特组成。换句话说：我们可以将生命看作一种自我
cuda编程python接口_使用Python写CUDA程序的方法 weixin_39822184 cuda编程python接口
使用Python写CUDA程序有两种方式：*Numba*PyCUDAnumbapro现在已经不推荐使用了，功能被拆分并分别被集成到accelerate和Numba了。例子numbaNumba通过及时编译机制(JIT)优化Python代码，Numba可以针对本机的硬件环境进行优化，同时支持CPU和GPU的优化，并且可以和Numpy集成，使Python代码可以在GPU上运行，只需在函数上方加上相关的指
基于 Python 的网站信息探测工具设计与实现计算机毕业设计指导 python 网络服务器
基于Python的网站信息探测工具设计与实现摘要在渗透测试与网络安全评估中，信息探测是最基础且关键的一步。通过对目标网站的操作系统、服务器、CMS、端口、目录结构等信息进行自动化探测，可为后续攻击路径识别提供基础数据支撑。传统工具如WhatWeb、FOFA等虽功能强大，但在定制化与扩展性方面受限。本文设计并实现了一款基于Python的轻量级网站信息探测工具，支持URL/IP扫描、开放端口探测、CM
机器学习数据预处理阶段为什么需要——归一化处理
参考：https://www.cnblogs.com/bjwu/p/8977141.html通常，在DataScience中，预处理数据有一个很关键的步骤就是数据的标准化。这里主要引用sklearn文档中的一些东西来说明，主要把各个标准化方法的应用场景以及优缺点总结概括，以来充当笔记。提升模型精度在机器学习算法的目标函数(例如SVM的RBF内核或线性模型的l1和l2正则化)，许多学习算法中目标函数
[星球大战]阿纳金的背叛 comsci
本来杰迪圣殿的长老是不同意让阿纳金接受训练的......... 但是由于政治原因,长老会妥协了...这给邪恶的力量带来了机会所以......现代的地球联邦接受了这个教训...绝对不让某些年轻人进入学院
看懂它，你就可以任性的玩耍了！ aijuans JavaScript
javascript作为前端开发的标配技能，如果不掌握好它的三大特点：1.原型 2.作用域 3. 闭包 ,又怎么可以说你学好了这门语言呢？如果标配的技能都没有撑握好，怎么可以任性的玩耍呢？怎么验证自己学好了以上三个基本点呢，我找到一段不错的代码，稍加改动，如果能够读懂它，那么你就可以任性了。 function jClass(b
Java常用工具包 Jodd Kai_Ge java jodd
Jodd 是一个开源的 Java 工具集，包含一些实用的工具类和小型框架。简单，却很强大！写道 Jodd = Tools + IoC + MVC + DB + AOP + TX + JSON + HTML < 1.5 Mb Jodd 被分成众多模块，按需选择，其中工具类模块有： jodd-core &nb
SpringMvc下载 120153216 springMVC
@RequestMapping(value = WebUrlConstant.DOWNLOAD) public void download(HttpServletRequest request,HttpServletResponse response,String fileName) { OutputStream os = null; InputStream is = null;
Python 标准异常总结 2002wmj python
Python标准异常总结 AssertionError 断言语句（assert）失败 AttributeError 尝试访问未知的对象属性 EOFError 用户输入文件末尾标志EOF（Ctrl+d） FloatingPointError 浮点计算错误 GeneratorExit generator.close()方法被调用的时候 ImportError 导入模块失
SQL函数返回临时表结构的数据用于查询 357029540 SQL Server
这两天在做一个查询的SQL，这个SQL的一个条件是通过游标实现另外两张表查询出一个多条数据，这些数据都是INT类型，然后用IN条件进行查询，并且查询这两张表需要通过外部传入参数才能查询出所需数据，于是想到了用SQL函数返回值，并且也这样做了，由于是返回多条数据，所以把查询出来的INT类型值都拼接为了字符串，这时就遇到问题了，在查询SQL中因为条件是INT值，SQL函数的CAST和CONVERST都
java 时间格式化 | 比较大小| 时区个人笔记 7454103 java eclipse tomcat c MyEclipse
个人总结！不当之处多多包含！引用 1.0 如何设置 tomcat 的时区：位置：(catalina.bat---JAVA_OPTS 下面加上) set JAVA_OPT
时间获取Clander的用法 adminjun Clander 时间
/** * 得到几天前的时间 * @param d * @param day * @return */ public static Date getDateBefore(Date d,int day){ Calend
JVM初探与设置 aijuans java
JVM是Java Virtual Machine（Java虚拟机）的缩写，JVM是一种用于计算设备的规范，它是一个虚构出来的计算机，是通过在实际的计算机上仿真模拟各种计算机功能来实现的。Java虚拟机包括一套字节码指令集、一组寄存器、一个栈、一个垃圾回收堆和一个存储方法域。 JVM屏蔽了与具体操作系统平台相关的信息，使Java程序只需生成在Java虚拟机上运行的目标代码（字节码）,就可以在多种平台
SQL中ON和WHERE的区别 avords
SQL中ON和WHERE的区别数据库在通过连接两张或多张表来返回记录时，都会生成一张中间的临时表，然后再将这张临时表返回给用户。 www.2cto.com 在使用left jion时，on和where条件的区别如下： 1、 on条件是在生成临时表时使用的条件，它不管on中的条件是否为真，都会返回左边表中的记录。
说说自信 houxinyou 工作生活
自信的来源分为两种,一种是源于实力,一种源于头脑.实力是一个综合的评定,有自身的能力,能利用的资源等.比如我想去月亮上,要身体素质过硬,还要有飞船等等一系列的东西.这些都属于实力的一部分.而头脑不同,只要你头脑够简单就可以了!同样要上月亮上,你想,我一跳,1米,我多跳几下,跳个几年,应该就到了!什么?你说我会往下掉?你笨呀你!找个东西踩一下不就行了吗? 无论工作还
WEBLOGIC事务超时设置 bijian1013 weblogic jta 事务超时
系统中统计数据，由于调用统计过程，执行时间超过了weblogic设置的时间，提示如下错误：统计数据出错! 原因：The transaction is no longer active - status: 'Rolling Back. [Reason=weblogic.transaction.internal
两年已过去，再看该如何快速融入新团队 bingyingao java 互联网融入架构新团队
偶得的空闲，翻到了两年前的帖子该如何快速融入一个新团队，有所感触，就记下来，为下一个两年后的今天做参考。时隔两年半之后的今天，再来看当初的这个博客，别有一番滋味。而我已经于今年三月份离开了当初所在的团队，加入另外的一个项目组，2011年的这篇博客之后的时光，我很好的融入了那个团队，而直到现在和同事们关系都特别好。大家在短短一年半的时间离一起经历了一
【Spark七十七】Spark分析Nginx和Apache的access.log bit1129 apache
Spark分析Nginx和Apache的access.log，第一个问题是要对Nginx和Apache的access.log文件进行按行解析，按行解析就的方法是正则表达式： Nginx的access.log解析正则表达式 val PATTERN = """([^ ]*) ([^ ]*) ([^ ]*) (\\[.*\\]) (\&q
Erlang patch bookjovi erlang
Totally five patchs committed to erlang otp, just small patchs. IMO, erlang really is a interesting programming language, I really like its concurrency feature. but the functional programming style
log4j日志路径中加入日期 bro_feng java log4j
要用log4j使用记录日志，日志路径有每日的日期，文件大小5M新增文件。实现方式 log4j: <appender name="serviceLog" class="org.apache.log4j.RollingFileAppender"> <param name="Encoding" v
读《研磨设计模式》-代码笔记-桥接模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 个人觉得关于桥接模式的例子，蜡笔和毛笔这个例子是最贴切的：http://www.cnblogs.com/zhenyulu/articles/67016.html * 笔和颜色是可分离的，蜡笔把两者耦合在一起了：一支蜡笔只有一种
windows7下SVN和Eclipse插件安装 chenyu19891124 eclipse插件
今天花了一天时间弄SVN和Eclipse插件的安装，今天弄好了。svn插件和Eclipse整合有两种方式，一种是直接下载插件包，二种是通过Eclipse在线更新。由于之前Eclipse版本和svn插件版本有差别，始终是没装上。最后在网上找到了适合的版本。所用的环境系统：windows7JDK：1.7svn插件包版本：1.8.16Eclipse：3.7.2工具下载地址：Eclipse下在地址：htt
[转帖]工作流引擎设计思路 comsci 设计模式工作应用服务器 workflow 企业应用
作为国内的同行，我非常希望在流程设计方面和大家交流，刚发现篇好文(那么好的文章，现在才发现，可惜)，关于流程设计的一些原理，个人觉得本文站得高，看得远，比俺的文章有深度，转载如下 ================================================================================= 自开博以来不断有朋友来探讨工作流引擎该如何
Linux 查看内存，CPU及硬盘大小的方法 daizj linux cpu 内存硬盘大小
一、查看CPU信息的命令 [root@R4 ~]# cat /proc/cpuinfo |grep "model name" && cat /proc/cpuinfo |grep "physical id" model name : Intel(R) Xeon(R) CPU X5450 @ 3.00GHz model name :
linux 踢出在线用户 dongwei_6688 linux
两个步骤： 1.用w命令找到要踢出的用户，比如下面： [root@localhost ~]# w 18:16:55 up 39 days, 8:27, 3 users, load average: 0.03, 0.03, 0.00 USER TTY FROM LOGIN@ IDLE JCPU PCPU WHAT
放手吧,就像不曾拥有过一样 dcj3sjt126com
内容提要：静悠悠编著的《放手吧就像不曾拥有过一样》集结“全球华语世界最舒缓心灵”的精华故事，触碰生命最深层次的感动，献给全世界亿万读者。《放手吧就像不曾拥有过一样》的作者衷心地祝愿每一位读者都给自己一个重新出发的理由，将那些令你痛苦的、扛起的、背负的，一并都放下吧！把憔悴的面容换做一种清淡的微笑，把沉重的步伐调节成春天五线谱上的音符，让自己踏着轻快的节奏，在人生的海面上悠然漂荡，享受宁静与
php二进制安全的含义 dcj3sjt126com PHP
PHP里，有string的概念。 string里，每个字符的大小为byte（与PHP相比，Java的每个字符为Character，是UTF8字符，C语言的每个字符可以在编译时选择）。 byte里，有ASCII代码的字符，例如ABC，123，abc，也有一些特殊字符，例如回车，退格之类的。特殊字符很多是不能显示的。或者说，他们的显示方式没有标准，例如编码65到哪儿都是字母A，编码97到哪儿都是字符
Linux下禁用T440s，X240的一体化触摸板(touchpad) gashero linux ThinkPad 触摸板
自打1月买了Thinkpad T440s就一直很火大，其中最让人恼火的莫过于触摸板。 Thinkpad的经典就包括用了小红点(TrackPoint)。但是小红点只能定位，还是需要鼠标的左右键的。但是自打T440s等开始启用了一体化触摸板，不再有实体的按键了。问题是要是好用也行。实际使用中，触摸板一堆问题，比如定位有抖动，以及按键时会有飘逸。这就导致了单击经常就
graph_dfs hcx2013 Graph
package edu.xidian.graph; class MyStack { private final int SIZE = 20; private int[] st; private int top; public MyStack() { st = new int[SIZE]; top = -1; } public void push(i
Spring4.1新特性——Spring核心部分及其他 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
配置HiveServer2的安全策略之自定义用户名密码验证 liyonghui160com
具体从网上看 http://doc.mapr.com/display/MapR/Using+HiveServer2#UsingHiveServer2-ConfiguringCustomAuthentication LDAP Authentication using OpenLDAP Setting
一位30多的程序员生涯经验总结 pda158 编程工作生活咨询
1.客户在接触到产品之后，才会真正明白自己的需求。　　这是我在我的第一份工作上面学来的。只有当我们给客户展示产品的时候，他们才会意识到哪些是必须的。给出一个功能性原型设计远远比一张长长的文字表格要好。 2.只要有充足的时间，所有安全防御系统都将失败。　　安全防御现如今是全世界都在关注的大课题、大挑战。我们必须时时刻刻积极完善它，因为黑客只要有一次成功，就可以彻底打败你。 3.
分布式web服务架构的演变自由的奴隶 linux Web 应用服务器互联网
最开始，由于某些想法，于是在互联网上搭建了一个网站，这个时候甚至有可能主机都是租借的，但由于这篇文章我们只关注架构的演变历程，因此就假设这个时候已经是托管了一台主机，并且有一定的带宽了，这个时候由于网站具备了一定的特色，吸引了部分人访问，逐渐你发现系统的压力越来越高，响应速度越来越慢，而这个时候比较明显的是数据库和应用互相影响，应用出问题了，数据库也很容易出现问题，而数据库出问题的时候，应用也容易
初探Druid连接池之二——慢SQL日志记录 xingsan_zhang 日志连接池 druid 慢SQL
由于工作原因，这里先不说连接数据库部分的配置，后面会补上，直接进入慢SQL日志记录。 1.applicationContext.xml中增加如下配置： <bean abstract="true" id="mysql_database" class="com.alibaba.druid.pool.DruidDataSourc

【小贝出品】定制你的对话机器人 - 基于RASA搭建

【小贝出品】定制你的对话机器人 - 基于RASA搭建

你可能感兴趣的:(机器学习,人工智能,python爬虫,人工智能,大数据,python,机器学习,聊天机器人)