qq_26898461

机器学习系列(5)_从白富美相亲名单看特征选择与预处理（上）

作者：龙心尘 &&寒小阳
时间：2016年1月。
出处：
http://blog.csdn.net/longxinchen_ml/article/details/50471682

1. 引言

再过一个月就是春节，相信有很多码农就要准备欢天喜地地回家过（xiang）年(qin)了。我们今天也打算讲一个相亲的故事。

讲机器学习为什么要讲相亲？被讨论群里的小伙伴催着相亲，哦不，催着讲特征工程紧啊。只是我们不太敢讲这么复杂高深的东西，毕竟工程实践的经验太复杂了，没有统一的好解释的理论，一般的教材讲这方面的内容不多。我们就打算以一个相亲的故事为例，串一些特征工程的内容。

2. 故事背景

事先声明：本故事纯属虚构，如有雷同，纯属巧合！

海归白富美韩梅梅刚回国，还没适应工作，母亲就催着相亲。以父母的关系，他们了解到的适龄单身男青年有100个。要从100个男生中找到1个理想的女婿，可谓百里挑一。韩梅梅母亲也担心女儿相亲多了会反感，打算草拟一个相亲名单，人数不多。怎么从中挑出优秀男青年就是一个首要的问题。

3. 用机器学习的框架去分析

我们用机器学习的框架分析，在父母眼中，这100个男生最终将会分成两类：“女婿”（1人）和“非女婿”（99人）。“女婿”和“非女婿”就叫做“标签”。

而选择相亲名单的标准——如“是否高富帅”、“是否海归”等等——就叫作“特征”。最好能有一个特征能够精确定位理想女婿。但这太过理想了。比较现实的方法是从这些“特征”中选择、拆分、组合出最合适的特征，逐渐逼近我们的标签，以形成一个精简的相亲名单。而这个过程，就可以理解成特征处理、特征工程的过程。

但是，现实中的特征有千千万，拆分重组之后特征又是几何级数地增加，可能永远也穷举不完。因此需要有统一客观的指标来衡量这些特征对标签的识别能力，以便进一步地深入分析。而评估这些“特征”对我们的“标签”的有效程度的过程就叫作“特征有效性分析”。

4. 剧情一：韩妈妈的“如意算盘”

为人父母嘛，总是希望女儿嫁得好。韩妈妈的第一反应的就是要找“高富帅”。先她先从这100个男生中挑了挑，符合高富帅这个标准的有5个人。

韩妈妈的如意算盘是这样的：女婿就从这5个人中挑，概率就是20%，比之前的1%整整提高了20倍，嘿嘿嘿。。。

5. 特征有效性分析

其实，这就韩妈妈不知不觉就走了一个特征有效性分析的过程。我们用图表演示一下：

考虑到各方面的概率，用下图表示更加直观：

为了表述方便，我们以随机挑女婿而不考虑任何特征的概率叫做“ 先验概率” （1%）。而中间的箭头中的概率则表示在已经知道样本所属特征前提下，属于女婿还是不属于女婿的概率，也可以叫作 “标签相对于某个特征的后验概率” （20%）。而母亲的如意算盘就是考虑了上图中红圈部分的先验概率与后验概率（也可以叫条件概率）。这其实是一种很朴素的特征有效性分析的方法。而且她还做了个更加精确的数量化描述：

后验概率先验概率=20%1%=20（倍）。

只是在工程上做除法可能运算会麻烦些，而两边同时取对数转换成减法则更方便：

log(后验概率先验概率)=log(后验概率)−log(先验概率)

概率表示着选女婿的可能性或者确定性。在本例中，后验概率的确定性比先验概率的确定性更高。可见，“确定性的增加”可以作为特征有效性分析的一个指标。

我们进一步分析，无论先验概率还是后验概率，其本身是0-1之间的一个数，取完对数之后是一个负数，这在现实中不太方便找到其对应的现象解释。但是概率的倒数一定大于1，取完对数之后就是一个正数，就好找现实解释了。我们可以把这个“概率倒数的对数”理解成不确定性的指标。于是上式就变成：

log(后验概率先验概率)=log(1先验概率)−log(1后验概率)

这里面的 log(后验概率先验概率) 我们叫做互信息。

因此，“不确定性的减少”可以作为特征有效性分析的一个指标。这个结论我们接下来将会反复用到。

6. 剧情二：白富美巧劝慈母

韩妈妈半开玩笑地问韩梅梅：“我们家闺女只挑高富帅的怎么样？”女儿想了想，说：“如果人家看不上我们怎么办？”母亲笑着说：“我们的家境哪里差了？何况我们的女儿这么优秀，我们还看不上他们呢。”

女儿说：“这就是说明我们双方不合适了。我们家条件虽然还不错，但是比下有余、比上不足，跟真正条件好的家庭比较起来我们根本不算事儿。如果一味挑高富帅，他们可能觉得我们只是看中他们的钱，反倒把我们家看低了。相反，要是真要有个真正对我好的男生，比什么都幸福，而他不一定必须是高富帅。毕竟跟我一起相处一辈子的是一个活生生的人，而不是他背后的东西嘛。”

母亲很有感慨地说：“嗯，你能这样想我就放心了。梅梅真是长大了。那么，你打算怎么办？”女儿说道：“高富帅也得分人，踏实人品好的也可以接触一下，但是玩心太重不会照顾人的我就不喜欢。估计高富帅里面这两种人一半一半吧。很多男生并不是高富帅，其中没准也有合适的人呢。”

7. 特征有效性分析

现在特征的分布发生了新变化。按韩梅梅的分析，高富帅中可能有一半她就不会喜欢，而不是高富帅的男生中没准有合适的人。我们可以简单假设高富帅中与非高富帅中各有0.5个合适的人。则分析图表如下：

现在的情况是，“是不是女婿”的可能性同时分布在“是高富帅”和“不是高富帅”中，单独衡量“高富帅”本身的后验概率已经不够描述特征的整体效果了。我们可以有一个考虑特征整体情况的指标。

还是回到之前的那句话：

“不确定性的减少”可以作为特征有效性分析的一个指标。

我们之前考虑了“是女婿”的不确定性是 log(11%) ，相应的“不是女婿”的不确定性是 log(199%) ，那么标签“是否女婿”作为整体的平均不确定性则可以理解为这两个状态的加权平均：

H（Y）=1%×log(11%)+99%×log(199%)=0.08079 。(全文假定对数log的底数取为2)

这就是传说中的信息熵。我们用Y表示标签，用 H（Y）表示“是否女婿”的信息熵，也就是其整体的平均不确定性。

那么考虑特征（“是否高帅富”）后的标签（“是否女婿”）的平均不确定性怎么衡量？我们用 X:{“是高富帅”,“不是高富帅”} 来表示特征。其实，与上面的思路类似，我们在已知特征为“是高富帅”的前提下，“是否女婿”这个标签的整体平均不确定性可以用相对“是高富帅”的后验概率来求出：

H(Y|X=“是高富帅”)=(0.5/5)×log(1(0.5/5))+(4.5/5)×log(1(4.5/5))=0.46900

在已知特征为“不是高富帅”的前提下，“是否女婿”这个标签的整体平均不确定性可以用相对“不是高富帅”的后验概率来求出：

H(Y|X=“不是高富帅”)=(0.5/95)×log(1(0.5/95))+(94.5/95)×log(1(94.5/95))=0.04741 。

因此，已知特征(无论具体是“是高富帅”还是“不是高富帅”)情况下的标签平均不确定性为前面两种情况的加权平均：

H(Y|X)
=P(X=“是高富帅”)×H(Y|X=“是高富帅”)+P(X=“不是高富帅”)×H(Y|X=“不是高富帅”)
=5/100×0.46900+95/100×0.04741=0.06849
这就是传说中的条件熵。

所以，考虑特征后，标签的“不确定性的减少”为：

I（Y,X）=H（Y）−H(Y|X)=0.01230
这个 I（Y,X）就叫做平均互信息。

我们用同样的方法去评价之前母亲设想的女婿只在高富帅中的理想情况（也就是女婿只在高富帅中产生的情况）的互信息 I（Y,X′）=0.04470

平均互信息从理想情况的0.04470下降到0.01230，也就是说原以为特征“是否高富帅”与标签“是否女婿”的相关性很高，后来发现相关性其实是比较低的。可见理想很丰满，现实很骨感。

8. 剧情三：白富美重定名单

其实，韩梅梅没有说出来的话是她有一个青梅竹马的码农叫李雷。她出国之前的对他的印象还不错。如果按母亲的标准李雷肯定排除在相亲名单外了，而她想给他一个机会。

这时母亲说话了：“我们家女儿考虑得挺好，那相亲名单你来定吧。”女儿说：“不是高富帅的男生也该好好区分一下，那些品行端正、气度不凡、踏实肯干的潜力股的男生我也比较欣赏，其他的就暂且不考虑了。”母亲说：“就是说可以从高富帅中挑出部分品德好的，还有从不是高帅富的男生中挑出部分潜力股，共同组成一个新的名单，我们的女婿就在这里面了?”女儿不好意思地说：“妈妈您真着急，八字还没一撇呢。”

接着，韩梅梅母女俩从高富帅中挑了2个口碑不错的，又从不是高富帅的男生中条了10个很不错的。最终组成了12人的相亲名单。李雷的名字在其中。

9. 拆分重组成为新特征

其实以上韩梅梅母女俩完成了一次特征的拆分与重组过程。具体图示如下:

这里用“潜帅德”表示韩梅梅对“品行端正、气度不凡、踏实肯干的潜力股”的特征的描述。

特征进行拆分与重组的过程在特征工程中经常出现。因为当你对特征与标签的相关性有定量的评估方法后，会筛选出那些不那么显著的特征（如本例中的“是否高富帅”），然后去分析考核指标这么低的原因，启发你引入新的特征（如本例中的“是否品德良好”、“是否有潜力”）将原有特征拆分重组，可能会有更好的效果。而这些生成的新特征，又要经过特征有效性分析来最终评估。如此反复迭代。

10. 特征有效性分析

我们用 X2 来表示新特征，与上面的思路类似，我们计算 X2 的平均互信息：

I（Y,X2）=H（Y）−H(Y|X2)=0.03114

与之前的平均互信息 I（Y,X）=0.01230 比起来，有了显著提高。可见新特征 X2 比之前的特征 X 更有效。

11. 剧情四:韩妈妈给名单分级

在跟韩梅梅聊完之后，韩妈妈转念一想:“为什么非要有一份相亲名单？可以把这12个人再分成两类，第一类是高富帅的，先相亲。这些觉得不合适后再考虑剩下的10个人啊。”

12. 特征有效性分析

我们继续分析，用 X3 来表示新特征，与上面的思路类似，我们计算 X3 的平均互信息：

I（Y,X3）=H（Y）−H(Y|X3)=0.03593

与之前的平均互信息 I（Y,X2）=0.03114 比起来，又有了一定的提高。可见新特征 X3 比之前的特征 X2 更有效。

韩妈妈真是为女儿的相亲操碎了心。

13. 剧情五：韩妈妈问计赵媒婆

韩妈妈思索完之后抑制不住内心的兴奋，想找人倾诉。这时她正好在路上碰见了赵媒婆。赵媒婆在韩妈妈的老闺蜜圈中享有盛誉，相亲非常有经验。

赵媒婆听了韩妈妈的诉说后，微微一笑，说：“你这个名单不够专业。”韩妈妈大为诧异。赵媒婆继续说：“高、富、帅三个特征本来就是相互独立的三个特征，你硬生生地绑在一起，多少大好青年被你给甩掉了。后面的潜力股啊、人品端正啊什么的都类似。”韩妈妈恍然大悟:“真是这样啊。”

赵媒婆说：“其实你这里最大的问题是这些特征的评估都是拍脑袋决定，没有充分的现实数据做支撑，很可能会犯错误的。”韩妈妈暗暗点头，心生佩服。

赵媒婆接着说：“还有一个问题，你准备了两份名单，也就是把人群分成了三份，你算平均互信息只能评价整体的，具体到每一份人群你怎么对他们评价？”韩妈妈想了想，说：“我们可以直接用相对于某个具体条件的信息熵啊。”赵媒婆说：“何苦这么麻烦呢？”

韩妈妈听她话里有话，打算继续问下去。

14. 评价特征选项的两个方法

在赵媒婆最后一个问题中，韩妈妈所说的其实是可以计算以下三个值来评估具体的特征选项：

H(Y|X3=“高富帅德”)
H(Y|X3=“潜帅德”)
H(Y|X3=“不是高富帅德且不是潜帅德”)

而这三个值在之前计算条件熵 H(Y|X3) 的过程中就已经计算出来了。所以比较起来应该很方便。

但其实更简单的方法用他们相对于所需要标签的后验概率评价。如下图红色的部分，比较大小就可以找出评价较好的特征。

显然“高富帅德”的评分最高（0.25），“潜帅德”的评分次之（0.05），“不是高富帅德且不是潜帅德”评分最差（0）。符合韩妈妈的预期。

然而，赵媒婆的想说的并不是这种方法，而是逻辑回归……

15. 剧情六：赵媒婆的数据库

赵媒婆不等韩妈妈说话，就直接拿出了自己的神器:一个平板电脑。然后打开她的相亲数据库，点了点鼠标，一张巨大的表展现出来。韩妈妈目瞪口呆：“现在媒婆都用高科技了？”赵媒婆傲娇地说:“那是。”

这张大表是她这么多年来全国各地相亲介绍的所有男生信息，分别标注了每个男生的升高、年龄、年薪、长相特点、教育经历、工作经历、是否海归、工作年限、工作公司、工作地点、出身地、是否有户口、是否公务员、具体职业、行业、性格倾向等等信息。

她还有一张女生信息表，另外一张男生女生相亲情况表（相亲成功、相亲不成、继续发展、未接触）。媒婆一一给韩妈妈解释这些信息。韩妈妈连连惊呼。

赵媒婆接着说道：“我们可以从里面找出跟你女儿情况相近的一些女生信息，再把跟她们相过亲的男生找出来，把其中相亲成功的归为一类，剩下的归为另一类。然后假设男生的每个特征对相亲成功都有贡献，贡献的权重为 wi 。我们用逻辑回归的方法可以求出这些权重，把这些权重大的特征挑出来，你再用它们来找女婿就方便了。”

韩妈妈说：“逻~辑~什么？”赵媒婆说：“高科技了，你不懂的。不过给我干儿子写了个博客来介绍，你可以看看。”

16. 特征筛选与特征工程工作流

呃，我们什么时候成赵媒婆的干儿子了?先不管这些。逻辑回归并不是什么高科技，在前面的文章里已有简单的解释。我们在这里就补充说明一下为什么可以用权重来衡量特征的贡献。以下是一个典型的逻辑回归过程：

我们期望 P(z) 的概率越大越好， sigmoid 函数是个单调递增函数，所以z越大越好，在所有特征都归一化的前提下，显然是权重 wi 越大越好。因此与 wi 对应的特征就是我们要寻找的显著特征。而那些权重小的特征就可以先不考虑了。这就完成了一个最简单的特征筛选的过程。

当然，这里所说的权重大可以指的是权重的绝对值很大，比如特征“富”的权重是-100，是一个很小的数，但这也就意味着“不富”的权重会很大，以至于显著影响我们的z的结果。所以这也是一个显著特征。

需要补充一下的是，在工程实践中，权重的幅度和正则化也有关系。L1正则化会把特征拉稀疏，会产出一部分0特征。而不是0的那些特征，是有作用的特征。所以L1正则化其实具备一定的特征选择（feature selection）的作用。尤其是很高维空间的feature，用L1正则化，其实能帮助做一下feature selection的。而L2正则化，则会把各个维度的权重拉平均一些，抑制住各个维度权重幅度的方差。但是抑制归抑制，最后的权重还是会有大小差异，就像上文说的，绝对值大的权重，对应的特征区分度好一些。

对于那些不够显著的特征，我们需要分析一下这个特征的具体情况是怎样，是否需要对其进行重新拆分与重组，拆分重组后新的特征又可以进行特征有效性分析。如此不断迭代反复，就可以挑选出比较理想的特征了。

我们用以下整个工作流大致展现这个过程。由于很多内容没有展开，我们先把名字写进去，在后续的文章中继续扩展。

17. 剧情七：韩妈妈新名单尘埃落定

在韩妈妈与赵媒婆的尽心鼓捣下，最终生成了一个只有4个人的相亲名单。其中只剩下一名高富帅，另外三人中有一人正是李雷。韩妈妈拿着新名单给女儿看，韩梅梅沉默半晌，心想李雷在四人名单中怎么也能存在，莫非这也是缘分？

18. 小结

本文中主要讲了一些特征有效性分析的方法，包括用互信息，平均互信息，条件熵，后验概率，逻辑回归权重等方法对特征与标签的相关性进行了评估。有了这些评估做基础，可以筛选出显著的特征，并对对不显著的特征进行分析、拆分和重组，最终形成新的特征并反复迭代。本文略过了一些特征预处理的方法，并对特征有效性评估的阐述不够充分，我们将在接下来的文章中予以讨论。

Python 爬虫实战：微博话题讨论数趋势爬取与分析全流程西攻城狮北 python 爬虫开发语言
1.项目背景与目标微博话题（#话题#）是社交媒体舆情监测、品牌营销、热点追踪的重要数据源。本实战要完成以下目标：爬取指定话题在7天内的讨论数、阅读量、热搜排名等关键指标。将数据存入MySQL，并每日增量更新。用Pandas+Matplotlib绘制趋势图，直观呈现热度变化。基于SnowNLP做情感倾向分析，输出正面/负面占比。生成一份可分享的HTML可视化报告。2.环境搭建与依赖2.1安装核心库p
高可扩展属性建模设计：架构师的全局思考与落地方案 nbsaas-boot 数据库
在复杂业务系统中，动态属性扩展始终是架构设计的核心难题之一。传统方案如宽表设计和EAV（实体-属性-值）模型分别在性能与扩展性上各有优势与劣势，但也都有明显局限。为了兼顾性能、扩展性、维护成本，需要引入更灵活的设计模式。本文将深入探讨除宽表和EAV以外的几种现代解决方案，并提供综合推荐。一、问题背景：属性扩展的基本矛盾属性扩展的根本矛盾是：字段的多样性&动态性↔结构化存储&高性能查询需求变动频繁↔
宽表设计（Wide Table）与子表 + 类型 + 属性表设计（EAV 模型或“属性表”模型） nbsaas-boot 数据库
在软件系统设计中，属性扩展（尤其是面向动态业务字段的扩展）是一个常见问题。尤其在企业应用、CMS、电商平台等场景中，经常会遇到「某个对象可能会增加不同的字段」的需求，例如：商品新增自定义字段、用户增加扩展信息等。本文将讨论两种主流方案——宽表设计（WideTable）与子表+类型+属性表设计（EAV模型或“属性表”模型），并从可维护性、性能、适用场景等方面进行系统分析。一、方案一：宽表设计（Wid
数据结构 - 栈的实现（c语言） NO.-LL 数据结构数据结构链表
目录前言：栈的实现方式讨论栈的实现栈的定义接口函数接口函数实现1、初始化栈（StackInit）2、销毁（StackDestroy）3、入栈（StackPush）4、出栈（StackPop）5、返回栈顶数据（StackTop）6、计算栈的大小（StackSize）7、判断栈是否为空（StackIfEmpty）完整代码：Stack.hStack.cOJ练习：前言：栈：一种特殊的线性表，其只允许在固定
【AI大模型面试八股文】大模型训练中如何应对灾难性遗忘问题？一叶千舟 AI大模型应用【八股文】人工智能深度学习
目录✅面试回答模板：一、什么是灾难性遗忘？举个通俗的例子：二、灾难性遗忘是怎么发生的？常见触发情境：三、我们为什么要关注灾难性遗忘？四、主流解决方案汇总✅1.固定部分参数（FeatureExtraction）✅2.正则化策略（Regularization）✅3.回放机制（Rehearsal/Replay）✅4.参数隔离（ParameterIsolation）✅5.使用提示学习（PromptLear
Random Erasing：计算机视觉的「隐形斗篷」——遮挡艺术的对抗学习革命星光银河深度学习-代表性技术主题 /概念层面计算机视觉学习人工智能 cnn 神经网络深度学习
当ImageNet冠军模型在真实世界的遮挡面前崩溃时（识别准确率骤降38%），中科院自动化研究所2017年提出的RandomErasing技术以一纸惊艳了学界。这种在图像中随机挖洞的简单操作，让ResNet-50在Partial-iNaturalist数据集上抗遮挡能力提升4.2倍，错误率降低59%，揭示了模型鲁棒性的深层密码。️遮挡困境：视觉模型的阿喀琉斯之踵图像识别鲁棒性演化史时代技术Imag
从0开始，手搓一个ViT 星光银河学习 python 深度学习机器学习学习神经网络人工智能 transformer
importtorchimporttorch.nnasnnimporttorch.nn.functionalasFclassPatchEmbedding(nn.Module):def__init__(self,img_size,patch_size,in_chans,embed_dim):super().__init__()assertimg_size%patch_size==0,"Imagedi
Windows.old文件夹恢复系统解决方案 Think_2013
开始在百度上搜，百度经验，还有很多复制百度经验的答案，关键是我没有DVD,那种方法基本不管用，何况现在笔记本都不太喜欢装光驱了，后面自己摸索，尝试各种办法，最终发现原理，其实很简单的。第一步：必须要有windows.old文件夹，其次，windows.old文件夹下面有WindowsOld.wim文件，据我判断，windows.old文件夹下面是一些安装程序文件和数据，而WindowsOld.wi
今日分享：怎么综合分析5星股票？
5starsstocks-alsoknownas5starsstocks,passivestocks,dividendstocks,valuestocksandincomestocks5starsstocksRatingDefinitionsRatingCriteriaMeaningInvestmentAdvice★★★★★Price≤80%intrinsicvalue,widemoat,high
威胁情报的工作原理和架构 hao_wujing 安全
大家读完觉得有帮助记得关注和点赞！！！**威胁情报（ThreatIntelligence）**是通过系统化采集、分析、关联**威胁数据**，生成可操作的防御知识，支撑安全决策的闭环体系。其核心价值在于**将碎片化攻击信息转化为前瞻性防御策略**。以下从工作原理到架构的深度解析：---###一、威胁情报核心工作原理####**情报生命周期（IntelligenceCycle）**```mermaid
循环神经网络（RNN）：序列数据处理的强大工具 LNL13 rnn 人工智能深度学习
在人工智能和机器学习的广阔领域中，处理和理解序列数据一直是一个重要且具有挑战性的任务。循环神经网络（RecurrentNeuralNetwork，RNN）作为一类专门设计用于处理序列数据的神经网络，在诸多领域展现出了强大的能力。从自然语言处理中的文本生成、机器翻译，到时间序列分析中的股票价格预测、天气预测等，RNN都发挥着关键作用。本文将深入探讨RNN的工作原理、架构特点、训练方法、常见类型以及其
逻辑回归详解：从原理到实践
在机器学习的广阔领域中，逻辑回归（LogisticRegression）虽名为“回归”，实则是一种用于解决二分类（0或1）问题的有监督学习算法。它凭借简单易懂的原理、高效的计算性能以及出色的解释性，在数据科学、医学诊断、金融风控等诸多领域中得到了广泛应用。接下来，我们将从多个维度深入剖析逻辑回归，带你揭开它的神秘面纱。一、逻辑回归的基本概念在回归分析中，线性回归是通过构建线性方程来预测连续值，例如
深度解析生成式 AI：从技术原理到实战应用 LNL13 人工智能
一、生成式AI：重构数字内容生产范式（一）技术定义与核心价值生成式人工智能（GenerativeAI）是通过深度学习模型自动创造文本、图像、代码、视频等内容的技术体系，其核心在于从数据中学习概率分布并生成符合人类认知的输出。与传统判别式AI（如图像分类）不同，生成式AI实现了从"识别"到"创造"的跨越，典型应用包括：文本领域：ChatGPT对话系统、小说自动生成图像领域：MidJourney艺术创
i18next + 原生JS 双引擎：打造前端多语言系统最佳实践 javascript前端css
摘要随着前端项目面向全球化用户的需求增长，多语言支持（也叫国际化i18n）已经成为许多Web和移动应用的“标配”。尤其在构建企业级项目、SaaS平台或面向东南亚、欧洲、北美等多个语言区域的应用时，如何优雅地实现前端的多语言切换，成为开发者必须掌握的一项技能。本文将通过i18next实现国际化功能，并结合原生JS的轻量方案讲解，从基础配置到应用场景逐步剖析，带你快速落地一个实用的前端国际化系统。引言
睿尔曼系列机器人——以创新驱动未来，重塑智能协作新生态（上） BFT白芙堂机器人人工智能睿尔曼机器人协作机器人机器学习复合机器人
在工业自动化与智能服务深度融合的浪潮中，协作机器人凭借其安全、灵活、易部署的特性，成为推动产业升级的核心力量。睿尔曼（RuiermanRobotics）作为中国协作机器人领域的领军品牌，始终以“让机器人触手可及”为使命，专注于轻量化、高精度、高性价比的协作机器人研发与生产。其产品矩阵覆盖工业制造、物流仓储、医疗健康、商业服务等多场景，通过模块化设计、智能算法优化和开放生态构建，为全球客户提供高效、
HarmonyOS开发：使用语音识别的步骤演示
引言在当下的生活与工作场景中，语音识别技术早已渗透到方方面面——从手机上的语音助手快速拨打电话、发送消息，到智能音箱根据语音指令播放音乐、查询天气，再到办公场景里通过语音转文字功能高效记录会议纪要，其应用的广泛性不言而喻。而HarmonyOS在语音识别领域展现出了强大的技术实力，为用户带来了全方位的支持。它不仅能够精准识别普通话，满足大多数用户的日常需求，还兼容多种方言以及外语，极大地拓宽了使用范
人形机器人运动控制技术演进：从强化学习到神经微分方程的前沿解析
1.引言：人形运动控制的挑战与范式迁移人形机器人需在非结构化环境中实现双足行走、跑步、跳跃等复杂动作，其核心问题可归结为高维连续状态-动作空间的实时优化。传统方法（如基于模型的预测控制MPC）依赖精确的动力学建模，但在实际系统中面临以下瓶颈：模型失配：复杂接触动力学（如足-地交互）难以显式建模；计算瓶颈：高维非线性优化难以满足实时性需求；环境扰动敏感：传统控制器对未知干扰的鲁棒性不足。近年来，以强
NVIDIA Isaac GR00T N1.5 人形机器人强化学习入门教程（五）强化学习与机器人控制仿真机器人与具身智能人工智能机器人深度学习神经网络强化学习模仿学习具身智能
系列文章目录目录系列文章目录前言一、更深入的理解1.1实体化动作头微调1.1.1实体标签1.1.2工作原理1.1.3支持的实现1.2高级调优参数1.2.1模型组件1.2.1.1视觉编码器（tune_visual）1.2.1.2语言模型（tune_llm）1.2.1.3投影器（tune_projector）1.2.1.4扩散模型（tune_diffusion_model）1.2.2理解数据转换1.2
java毕业设计-基于java的电商网购平台，网购商城管理系统(源码+LW+部署文档+全bao+远程调试+代码讲解等) 程序猿八哥 spring boot vue jave java 课程设计开发语言
博主介绍：✌️码农一枚，专注于大学生项目实战开发、讲解和毕业文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌️技术范围：：小程序、SpringBoot、SSM、JSP、Vue、PHP、Java、python、爬虫、数据可视化、大数据、物联网、机器学习等设计与开发。主要内容：免费功能设计，开题报告、任务书、全b
【保姆级教程】Cpolar+EasyImage搭建私人图床，看完就会！
文章目录1.前言2.EasyImage网站搭建2.1.EasyImage下载和安装2.2.EasyImage网页测试2.3.cpolar的安装和注册3.本地网页发布3.1.Cpolar云端设置3.2Cpolar内网穿透本地设置4.公网访问测试5.结语1.前言在数字内容创作领域，高效的视觉素材管理系统已成为提升生产效能的核心要素。当前创作者面临的关键困境在于：如何建立可自主掌控的图像存储架构？虽然云
推荐一个纯绿色无广告的H5游戏站 Think_2013 Web前端游戏娱乐游戏
纯绿色，连内嵌广告都已经去掉了，上班摸鱼最佳适合小伙伴偶尔娱乐一下Cubes2048-Free2048CubeGameOnline|Cubes2048由两个经典游戏贪吃蛇+2048改编融合而来贪吃蛇不用多说，大家都知道2048曾经也是风靡全球，简单但是又不简单的玩法吸引了很多用户主打休闲娱乐，同学们别上头哈点开即玩：Cubes2048-Free2048CubeGameOnline|Cubes204
长短期记忆网络（LSTM）：让神经网络拥有 “持久记忆力” 的神奇魔法
在神经网络的奇妙世界里，有一种模型仿佛拥有了“魔法”，能够记住很久以前的信息，克服了传统循环神经网络（RNN）在处理长序列数据时的“健忘症”，它就是长短期记忆网络（LongShort-TermMemoryNetwork），简称LSTM。今天，就让我们一起走进LSTM的世界，揭开它神秘的面纱。一、从RNN的“健忘症”说起循环神经网络（RNN）是一种专门为处理序列数据而设计的神经网络，它通过隐藏层的循
python cache_python自带缓存lru_cache用法及扩展(详细) 柳溪笙 python cache
本篇博客将结合python官方文档和源码详细讲述lru_cache缓存方法是怎么实现，它与redis缓存的区别是什么，在使用时碰上functiontools.wrap装饰器时会发生怎样的变化，以及了解它给我们提供了哪些功能然后在其基础上实现我们自制的缓存方法my_cache。1.lru_cache的使用1.1参数详解以下是lru_cache方法的实现，我们看出可供我们传入的参数有2个maxsize
软件开发工程师使用 DeepSeek 的实用指南
在软件开发领域，效率与创新是推动项目成功的核心动力。DeepSeek作为一款具备深度代码理解能力的AI工具，能为开发工程师提供全流程技术支持，显著提升研发效能与交付质量。以下从实际应用场景出发，详细说明如何将DeepSeek深度融入开发工作流。一、代码编写与优化1.智能代码生成编码环节中，DeepSeek可基于精确需求描述生成高质量代码片段，大幅减少重复劳动。例如：基础功能：输入"Java实现两个
华为OD 机试 2025 B卷 - 跳格子2 (C++ & Python & JAVA & JS & GO) 无限码力华为OD机试真题刷题笔记华为od 华为OD2025B卷华为OD机考2025B卷华为OD机试2025B卷华为OD机试
跳格子2华为OD机试真题目录点击查看:华为OD机试2025B卷真题题库目录｜机考题库+算法考点详解华为OD机试2025B卷200分题型题目描述小明和朋友玩跳格子游戏，有n个连续格子组成的圆圈，每个格子有不同的分数，小朋友可以选择以任意格子起跳，但是不能跳连续的格子，不能回头跳，也不能超过一圈;给定一个代表每个格子得分的非负整数数组，计算能够得到的最高分数。输入描述给定一个数例，第一个格子和最后一个
华为OD 机试 2025 B卷 - 投篮大赛 (C++ & Python & JAVA & JS & GO) 无限码力华为OD机试真题刷题笔记华为od 华为OD机试华为OD机试 2025B卷华为OD2025B卷华为OD机考2025B卷
投篮大赛华为OD机试真题目录点击查看:华为OD机试2025B卷真题题库目录｜机考题库+算法考点详解华为OD机试2025B卷100分题型题目描述你现在是一场采用特殊赛制投篮大赛的记录员。这场比赛由若干回合组成，过去几回合的得分可能会影响以后几回合的得分。比赛开始时，记录是空白的。你会得到一个记录操作的字符串列表ops，其中ops[i]是你需要记录的第i项操作，ops遵循下述规则：整数x-表示本回合新
C++异常机制深度剖析与工程哲学思考泡沫o0 C/C++编程世界:探索C/C++的奥妙 c++开发语言 linux c++11 嵌入式 qt arm
目录标题C++异常机制深度剖析与工程哲学思考一、异常机制的诞生与初衷1.1语义分离与错误处理的优雅设计1.2RAII与自动化资源管理二、异常机制的现实困境与多维分析2.1性能开销的深层原因2.2异常机制带来的认知与维护成本三、异常机制的未来与替代方案探索3.1异常机制的优化困境与标准委员会的努力3.2替代方案与工程实践的权衡艺术3.3工程哲学视角下的未来路径结语C++异常机制深度剖析与工程哲学思考
怎么限制某些IP访问服务器？莱卡云（Lcayun） tcp/ip 服务器网络协议云计算 linux
您可以通过多种方式限制特定IP地址访问您的服务器，以下是几种常见的方法：1.使用防火墙限制IP访问Linux系统(iptables)#阻止单个IPiptables-AINPUT-s192.168.1.100-jDROP#阻止IP段iptables-AINPUT-s192.168.1.0/24-jDROP#允许特定IP访问SSH(22端口)iptables-AINPUT-s203.0.113.5-p
Java在AI与量子计算时代的新突破：2025年技术前瞻与实践指南〃冷·夏ぐ java 人工智能量子计算
在2025年的技术浪潮中，Java作为一门历经近30年发展的编程语言，不仅没有显出疲态，反而在AI、量子计算、云原生等前沿领域展现出惊人的适应力和创新力。本文将深入探讨Java在2025年的最新技术趋势，包括Java24的重大更新、AI与量子计算支持、性能优化策略以及现代Java开发的最佳实践，帮助开发者掌握这些变革性技术，提升技术竞争力。Java24重磅发布：AI与量子计算时代的语言革新2025
golang 中当 JSON 数据缺少结构体（struct）中定义的某些字段，会有异常吗翔云123456 Golang golang
目录关键影响示例演示潜在问题与解决方案问题1：逻辑错误（零值干扰）问题2：忽略可选字段问题3：第三方库验证最佳实践总结在Go语言中，当JSON数据缺少结构体（struct）中定义的某些字段时，不会产生错误，但会导致以下结果和行为：关键影响零值填充缺少的字段会被自动赋值为其类型的零值：数值类型（int,float等）→0字符串（string）→空字符串""布尔类型（bool）→false指针、切片、
安装数据库首次应用 Array_06 java oracle sql
可是为什么再一次失败之后就变成直接跳过那个要求 enter full pathname of java.exe的界面这个java.exe是你的Oracle 11g安装目录中例如：【F:\app\chen\product\11.2.0\dbhome_1\jdk\jre\bin】下的java.exe 。不是你的电脑安装的java jdk下的java.exe！注意第一次，使用SQL D
Weblogic Server Console密码修改和遗忘解决方法 bijian1013 Welogic
在工作中一同事将Weblogic的console的密码忘记了，通过网上查询资料解决，实践整理了一下。一.修改Console密码打开weblogic控制台，安全领域 --> myrealm -->&n
IllegalStateException: Cannot forward a response that is already committed Cwind java Servlets
对于初学者来说，一个常见的误解是：当调用 forward() 或者 sendRedirect() 时控制流将会自动跳出原函数。标题所示错误通常是基于此误解而引起的。示例代码： protected void doPost() { if (someCondition) { sendRedirect(); } forward(); // Thi
基于流的装饰设计模式木zi_鸣设计模式
当想要对已有类的对象进行功能增强时，可以定义一个类，将已有对象传入，基于已有的功能，并提供加强功能。自定义的类成为装饰类模仿BufferedReader，对Reader进行包装，体现装饰设计模式装饰类通常会通过构造方法接受被装饰的对象，并基于被装饰的对象功能，提供更强的功能。装饰模式比继承灵活，避免继承臃肿，降低了类与类之间的关系装饰类因为增强已有对象，具备的功能该
Linux中的uniq命令被触发 linux
Linux命令uniq的作用是过滤重复部分显示文件内容，这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个及以后更多个重复行将被删去，行比较是根据所用字符集的排序序列进行的。该命令加工后的结果写到输出文件中。输入文件和输出文件必须不同。如果输入文件用“- ”表示，则从标准输入读取。 AD： uniq [选项] 文件说明：这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个
正则表达式Pattern 肆无忌惮_ Pattern
正则表达式是符合一定规则的表达式，用来专门操作字符串，对字符创进行匹配，切割，替换，获取。例如，我们需要对QQ号码格式进行检验规则是长度6~12位不能0开头只能是数字，我们可以一位一位进行比较，利用parseLong进行判断，或者是用正则表达式来匹配[1-9][0-9]{4,14} 或者 [1-9]\d{4,14} &nbs
Oracle高级查询之OVER (PARTITION BY ..) 知了ing oracle sql
一、rank()/dense_rank() over(partition by ...order by ...) 现在客户有这样一个需求，查询每个部门工资最高的雇员的信息，相信有一定oracle应用知识的同学都能写出下面的SQL语句： select e.ename, e.job, e.sal, e.deptno from scott.emp e, (se
Python调试矮蛋蛋 python pdb
原文地址： http://blog.csdn.net/xuyuefei1988/article/details/19399137 1、下面网上收罗的资料初学者应该够用了，但对比IBM的Python 代码调试技巧： IBM：包括 pdb 模块、利用 PyDev 和 Eclipse 集成进行调试、PyCharm 以及 Debug 日志进行调试： http://www.ibm.com/d
webservice传递自定义对象时函数为空，以及boolean不对应的问题 alleni123 webservice
今天在客户端调用方法 NodeStatus status=iservice.getNodeStatus(). 结果NodeStatus的属性都是null。进行debug之后，发现服务器端返回的确实是有值的对象。后来发现原来是因为在客户端，NodeStatus的setter全部被我删除了。本来是因为逻辑上不需要在客户端使用setter，结果改了之后竟然不能获取带属性值的
java如何干掉指针，又如何巧妙的通过引用来操作指针————>说的就是java指针百合不是茶
C语言的强大在于可以直接操作指针的地址，通过改变指针的地址指向来达到更改地址的目的,又是由于c语言的指针过于强大，初学者很难掌握， java的出现解决了c，c++中指针的问题 java将指针封装在底层，开发人员是不能够去操作指针的地址，但是可以通过引用来间接的操作：定义一个指针p来指向a的地址（&是地址符号）：
Eclipse打不开，提示“An error has occurred.See the log file ***/.log” bijian1013 eclipse
打开eclipse工作目录的\.metadata\.log文件，发现如下错误： !ENTRY org.eclipse.osgi 4 0 2012-09-10 09:28:57.139 !MESSAGE Application error !STACK 1 java.lang.NoClassDefFoundError: org/eclipse/core/resources/IContai
spring aop实例annotation方法实现 bijian1013 java spring AOP annotation
在spring aop实例中我们通过配置xml文件来实现AOP，这里学习使用annotation来实现，使用annotation其实就是指明具体的aspect,pointcut和advice。1.申明一个切面(用一个类来实现)在这个切面里,包括了advice和pointcut AdviceMethods.jav
[Velocity一]Velocity语法基础入门 bit1129 velocity
用户和开发人员参考文档 http://velocity.apache.org/engine/releases/velocity-1.7/developer-guide.html 注释 1.行级注释## 2.多行注释#* *# 变量定义使用$开头的字符串是变量定义，例如$var1, $var2, 赋值使用#set为变量赋值，例
【Kafka十一】关于Kafka的副本管理 bit1129 kafka
1. 关于request.required.acks request.required.acks控制者Producer写请求的什么时候可以确认写成功，默认是0， 0表示即不进行确认即返回。 1表示Leader写成功即返回，此时还没有进行写数据同步到其它Follower Partition中 -1表示根据指定的最少Partition确认后才返回，这个在 Th
lua统计nginx内部变量数据 ronin47 lua nginx　统计
server { listen 80; server_name photo.domain.com; location /{set $str $uri; content_by_lua ' local url = ngx.var.uri local res = ngx.location.capture(
java-11.二叉树中节点的最大距离 bylijinnan java
import java.util.ArrayList; import java.util.List; public class MaxLenInBinTree { /* a. 1 / \ 2 3 / \ / \ 4 5 6 7 max=4 pass "root"
Netty源码学习-ReadTimeoutHandler bylijinnan java netty
ReadTimeoutHandler的实现思路：开启一个定时任务，如果在指定时间内没有接收到消息，则抛出ReadTimeoutException 这个异常的捕获，在开发中，交给跟在ReadTimeoutHandler后面的ChannelHandler，例如 private final ChannelHandler timeoutHandler = new ReadTim
jquery验证上传文件样式及大小(好用) cngolon 文件上传 jquery验证
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> <script src="jquery1.8/jquery-1.8.0.
浏览器兼容【转】 cuishikuan css 浏览器 IE
浏览器兼容问题一：不同浏览器的标签默认的外补丁和内补丁不同问题症状：随便写几个标签，不加样式控制的情况下，各自的margin 和padding差异较大。碰到频率:100% 解决方案：CSS里 *{margin:0;padding:0;} 备注：这个是最常见的也是最易解决的一个浏览器兼容性问题，几乎所有的CSS文件开头都会用通配符*来设
Shell特殊变量：Shell $0, $#, $*, $@, $?, $$和命令行参数 daizj shell $#$?特殊变量
前面已经讲到，变量名只能包含数字、字母和下划线，因为某些包含其他字符的变量有特殊含义，这样的变量被称为特殊变量。例如，$ 表示当前Shell进程的ID，即pid，看下面的代码： $echo $$ 运行结果 29949 特殊变量列表变量含义 $0 当前脚本的文件名 $n 传递给脚本或函数的参数。n 是一个数字，表示第几个参数。例如，第一个
程序设计KISS 原则-------KEEP IT SIMPLE, STUPID! dcj3sjt126com unix
翻到一本书，讲到编程一般原则是kiss：Keep It Simple, Stupid.对这个原则深有体会，其实不仅编程如此，而且系统架构也是如此。 KEEP IT SIMPLE, STUPID! 编写只做一件事情，并且要做好的程序；编写可以在一起工作的程序，编写处理文本流的程序，因为这是通用的接口。这就是UNIX哲学.所有的哲学真正的浓缩为一个铁一样的定律，高明的工程师的神圣的“KISS 原
android Activity间List传值 dcj3sjt126com Activity
第一个Activity： import java.util.ArrayList;import java.util.HashMap;import java.util.List;import java.util.Map;import android.app.Activity;import android.content.Intent;import android.os.Bundle;import a
tomcat 设置java虚拟机内存 eksliang tomcat 内存设置
转载请出自出处：http://eksliang.iteye.com/blog/2117772 http://eksliang.iteye.com/ 常见的内存溢出有以下两种: java.lang.OutOfMemoryError: PermGen space java.lang.OutOfMemoryError: Java heap space ------------
Android 数据库事务处理 gqdy365 android
使用SQLiteDatabase的beginTransaction()方法可以开启一个事务，程序执行到endTransaction() 方法时会检查事务的标志是否为成功，如果程序执行到endTransaction()之前调用了setTransactionSuccessful() 方法设置事务的标志为成功则提交事务，如果没有调用setTransactionSuccessful() 方法则回滚事务。事
Java 打开浏览器 hw1287789687 打开网址 open浏览器 open browser 打开url 打开浏览器
使用java 语言如何打开浏览器呢? 我们先研究下在cmd窗口中,如何打开网址使用IE 打开 D:\software\bin>cmd /c start iexplore http://hw1287789687.iteye.com/blog/2153709 使用火狐打开 D:\software\bin>cmd /c start firefox http://hw1287789
ReplaceGoogleCDN：将 Google CDN 替换为国内的 Chrome 插件 justjavac chrome Google google api chrome插件
Chrome Web Store 安装地址： https://chrome.google.com/webstore/detail/replace-google-cdn/kpampjmfiopfpkkepbllemkibefkiice 由于众所周知的原因，只需替换一个域名就可以继续使用Google提供的前端公共库了。同样，通过script标记引用这些资源，让网站访问速度瞬间提速吧
进程VS.线程 m635674608 线程
资料来源： http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/001397567993007df355a3394da48f0bf14960f0c78753f000 1、Apache最早就是采用多进程模式 2、IIS服务器默认采用多线程模式 3、多进程优缺点优点：多进程模式最大
Linux下安装MemCached 字符串 memcached
前提准备：1. MemCached目前最新版本为：1.4.22，可以从官网下载到。2. MemCached依赖libevent，因此在安装MemCached之前需要先安装libevent。2.1 运行下面命令，查看系统是否已安装libevent。[root@SecurityCheck ~]# rpm -qa|grep libevent libevent-headers-1.4.13-4.el6.n
java设计模式之--jdk动态代理（实现aop编程） Supanccy2013 java DAO 设计模式 AOP
与静态代理类对照的是动态代理类，动态代理类的字节码在程序运行时由Java反射机制动态生成，无需程序员手工编写它的源代码。动态代理类不仅简化了编程工作，而且提高了软件系统的可扩展性，因为Java 反射机制可以生成任意类型的动态代理类。java.lang.reflect 包中的Proxy类和InvocationHandler 接口提供了生成动态代理类的能力。 &
Spring 4.2新特性-对java8默认方法(default method)定义Bean的支持 wiselyman spring 4
2.1 默认方法(default method) java8引入了一个default medthod; 用来扩展已有的接口,在对已有接口的使用不产生任何影响的情况下,添加扩展使用default关键字 Spring 4.2支持加载在默认方法里声明的bean 2.2 将要被声明成bean的类 public class DemoService {