炼丹笔记

我的成长之路：追逐冠军的少年

写在前面

从“数字中国建设峰会”回到北京的这个周末，一个人来到公司，回想这几年走过的路感慨良多。于是乎提起笔，写一下我这几年的经历、感悟、收获。给自己做一个阶段性的总结，同时也记录一下我是怎么从“水暖建材行业子弟”重回“计算机行业”，又是怎么由一个“数据算法竞赛小萌新”一步步成长，并取得一些成绩的。

那么，先做一个自我介绍，大家好，我是 DOTA，我是朱翔宇。

2015：回归 | 回归学校，重回计算机行业

2015年对我来说是一个特殊的年份。
这一年，我父亲去世了。
这一年，我放弃了父亲留下的公司和水暖建材生意。
这一年，我在本科毕业两年之后，选择了重回学校。
正如《平凡之路》中朴树唱的一样，我曾经拥有着的一切，转眼都飘散如烟。但人生本就如此，我们总归会遇到一些自己不愿面对的事情，这也正是成长的意义。

在北科大读研期间，有着明确目标和想要什么的我，从研一泡在图书馆到研二常驻实验室，抛弃了所谓的生活与社交，并且最后毕业典礼我也没去参加。在那时的我看来，我需要是的时间去弥补曾经的空白，需要的是提升我对领域的全面认知，需要的是用忙碌来让自己少胡思乱想。整个过程看起来很极端，但是对空白状态的我来说，却是极其有效的。

同时幸运的是我遇到了一个好导师，在阳小龙教授那里我学会了3件终身受益的事情，

一是，通过对文章一次次反复的修改、批注、修改、在批注的过程中，我看到了自己逻辑上所存在的问题，并逐渐形成了对全局和对细节的把控能力；

二是，相较于放养模式，从进入实验室的那一刻，每周分享、总结、陈述的周会，养成了良好的自学和表达能力。在一种只有阶段性目标，没有细节控制的实验室氛围下，有了更多思考思辨的时间，也让完成目标的方式有了无数种可能。“只定目标，不做计划” 这一点也成了我沿用至今的前进方式；

三是，我曾经有个阶段是负能力爆棚的人，对看不惯的人和事，时常有负能力的表达，但正如后来阳老师提醒我的那样，一个连自己情绪都控制不了的人，又能在未来走多远呢？

2017：起始 | 开始于这个夏天

2017年的夏天，偶然的机会我接触到了数据竞赛，本科阶段参加大学生数学建模竞赛的我，对这种新的数据竞赛形式充满了好奇，于是，在一种好奇与自信的情绪下，我参加了2017年的“中国高校计算机大赛——大数据挑战赛”。

赛题描述：鼠标轨迹识别当前广泛运用于多种人机验证产品中，不仅便于用户的理解记忆，而且极大增加了暴力破解难度。但攻击者可通过黑产工具产生类人轨迹批量操作以绕过检测，并在对抗过程中不断升级其伪造数据以持续绕过同样升级的检测技术。我们期望用机器学习算法来提高人机验证中各种机器行为的检出率，其中包括对抗过程中出现的新的攻击手段的检测。

数据层面，给出了鼠标移动轨迹(x,y,t)，目标坐标(x,y)和类别标签：1-正常轨迹，0-机器轨迹。通过建模预测某条轨迹属于正常轨迹还是机器轨迹。

2017年的我，在算法模型层面还是个小白，虽然经过两年的积累有了不少基础，但是在真正的实际问题面前，你会发现之前学习到的东西有多理想化。不过有一点我还是清楚的，特征决定模型的上限，而算法模型在无限的逼近这个上限。因此，我开始自己的特征工程之路，由原始数据（x,y,t）数据对x-y、x-t、y-t进行可视化分析。同时我的特征设计理念是：特征描述“人”，而非用特征描述“机器”，寻二者之异，以达泛化目的。突出XYT各自特征细节及有效的利用组合特征，特征提取时分别将X、Y、T进行归一化处理；同时，结合规则由横向特征（X），纵向特征（Y），时间特征（T）三个角度提取特征。

模型层面只选择了单模XGBoost模型，在没有做交叉验证的情况，拿到了决赛全国第6名的成绩，可见在特征构建和对问题的理解层面，做的还是可以的。如果你要问我为啥不做CV，不做融合呢？那我只能告诉你，因为我无知呀，那时的我还是个小白。

现在回忆起来，第一次参加数据竞赛期间，还是有蛮多有记忆的小插曲的。比如换了好多次队名，最后因为研究生宿舍三人都玩DOTA，所以用了这个ID；比如因为比赛期间文超的开源而喷过他，后来也算不打不相识的认识了他，并在一段时间里通过交流学到了很多东西；比如认识了很多圈内选手都熟悉的清华大学刘强老师，也正是因为刘老师的鼓励，没有中途放弃比赛，并一路打到了决赛，兑现了跟刘老师之前的约定，去深圳拿到了清华百年纪念邮票。

2018：入世 | 加入京东的第一年

竞赛不仅可以让自己保持一种战斗状态，还可以认识一波志同道合的朋友。从深圳回到北京之后，在本次比赛冠军选手潘坤同学的“忽悠”之下，我来到了京东，开始了算法实习生之路，并在毕业之后留在了这里。如果问我为什么选择这里，那就是我个人的选择观问题了。

首先，我选择的是团队，一个纯粹的工作氛围在我的选择里排第一位。实习让我对团队的氛围有了了解，同时接受了两年社会毒打的我，自认为看人上还是挺准的，当然事实也验证了我的判断。其次，我选择的是方向，“扎根数据，贴近业务”，是我对自己的定位，因为没有数据的算法就只是一堆公式，同时没有业务背景的依托，算法就只是自嗨。最后，我选择的是相信自己，乱世出枭雄，我喜欢从0到1的过程。

工作成长——金融场景下的推荐

这一年，我的主要工作是在金融场景下的推荐任务。之前没有过推荐经验，也没人带的经纬度算法小队开始了从数据收集、数据清洗、特征加工、算法建模的全流程探索。基于当时的算法工程师的能力素质，现在回想还好当时没人带，不然可能早就完犊子了。“塞翁失马，焉知非福”大概如此。

回过头来，聊一下金融场景下的推荐问题。推荐在某种程度上可以简化为用户和物品之间的匹配问题，为合适的用户匹配上合适的物品。但只做算法模型，脱离业务背景的打法是毫无意义的。毕竟推荐是离业务很近的一门技术。

因此，在基金推荐这个任务中，经过和业务方等多次沟通，我们尽可能多的列出了可能会影响用户申购行为的因素，并将其量化为算法模型可以识别的特征。同时确定建模目标，减少运营人工配置产品工作量。通过甄选给用户推荐长中短期业绩表现较优质的基金，让用户能够切实赚到收益，尝试将非权益类基金偏好型的用户向权益类基金引导，以增加业务收入。

特征上，除了用户行为特征、属性特征以为，增加市场热度特征维度，增加alpha值衡量用户获得超过市场平均回报的能力，增加beta值衡量用户能获得市场平均盈利的能力。

在召回阶段，基金商品和零售商品不同的地方在于金融商品的量级要小的很多，相较于传统的多路召回的方式，在基金推荐中，我们首先对用户基金类型偏好进行预测。同时基于业务理解我们增加了一路“4433选基法”召回，该选基方法关注基金的长中短期业绩表现，筛选标准十分严格。精选出来的基金在盈利能力、市场业绩、抵抗风险等方面都有不俗的表现的基金。

在排序阶段，在召回到的基金类型偏好的基础上，对多种用户类型进行分开建模，用LR+LightGBM进行排序。

最终在相较于之前的线上模型和并行PK的其他团队，CTR层面提高了12%左右，GMV提高了70%左右。很幸运，自己的思考产生了实际的线上效果。

突破瓶颈——亮剑深度学习

2018年，我开始了自己第一个用深度学习的数据算法竞赛，因为在工作中基于业务理解、特征工程层面的方法优化要优于深度模型的投入成本，同时考虑到业务可解释性和GPU建模环境问题，如何快速且有效的由业务建模成了工作中的主旋律。这也让我产生了一种危机感，因此，在个人能力突破上，我选择了NLP类深度学习竞赛进行亮剑。

关于赛题：
达观数据提供了一批长文本数据和分类信息，结合当下最先进的NLP和人工智能技术，深入分析文本内在结构和语义信息，构建文本分类模型，实现精准分类。

解决方案：

对于这个文本分类任务，有个小的操作其实都可以达到很高的分数，即使模型不够优秀。通过对于词向量做一个增强，即利用word2vec与glove的差异性，构建一个鲁棒性更高的词语向量表征。我们试试word2vec+glove+faxttext的组合，对于我来说，效果并不是很好，我觉得可能的原因是faxttext与word2vec的相似性很高，弱化了glove的向量表征，同时，对于glove单独的词向量我也没有尝试过，大家也可以尝试一下。对于模型的话，赛后我们开源了一个双层的biGRUModel模型和rnnCapsuleModel。

最终，首次使用纯深度学习模型构建的算法解决方案取的了季军的成绩。通过这次比赛我和提莫（何从庆）也成了很好的朋友，同时，在他那里也让我在近几年交流学习到了很多知识。

2019：突破 | 突破自我，拥抱变化

2019年是动荡的一年，这一年我经历了两次组织架构的调整，同时团队里除了我以外的其他同期入职的校招生也在这一年全部选择了离开。虽然我也想过离开，但本着拥抱变化的心态，我还在继续战斗。因为我当年入职之时，我就给自己设了一道墙，那就是，未来3年无论如何变化，无论经历什么，我都要守住3年期限。只有在不断变化的环境中茁壮成长，才是最有力量的。当时，这个过程中，我也见到了好多只是挂着算法工程师岗的算法工程师，对此我不予置评，毕竟人微言轻。

工作成长——多目标任务的推荐

在变化中，2019年在工作上最大的收获，是完成了多目标任务场景的推荐，同时也是在算法建模层面，我觉得比较有意思的一个场景挑战，以至于在问题最初期，我认为它是一个伪命题。当然这个过程中，我还做过返利商品推荐、众筹商品推荐、数据挖掘等工作，就不展开说了。

在这个多目标任务场景的推荐任务中，根据业务背景的特点，我用了Random Walk和Deep Walk，对核心指标进行了拆分，因为交叉转化这个概念，在模型层面是没法建模的，但我们换个思路，怎么通过基于A指标的建模，使得B指标有所提升呢？我的解决方案是基于业务建模，通过细致化的拆分用户群体，单独建模的方式对不同人群的特点采取分步建模。具体实现形式因为涉及到的业务场景太多，不方便介绍，但基本思想是“随机游走，分而治之”。

突破瓶颈——技术沉淀

这一年我经历了很多负能量的事情，在这里就不方便多说了，毕竟阳老师的教诲我还是深深的记得的。人之不如意之事，十有八九。但你依旧需要抬头向前，有了之前深度学习的初次尝试，我决定继续迈向专家之路，毕竟取得一次好成绩不代表什么，可能是只是运气好而已。

第一次的深度学习尝试之后，我做了很多思考，比如每一层都在抽取什么要的特征，又是怎么发挥作用的，我还能通过什么样的方式抽取什么样的特征表达。也正是基于这些思考，我领悟到了一套炼丹方法，并逐渐形成了自己的一本 炼丹笔记。

Attention与Capsule初体验

之后我参加了JDATA绝对语义识别挑战大赛，预测广告宣传语是否违规。在这个比赛中，对Attention、Capsule也有深入的理解。

当序列越长时，RNN在捕捉序列长期依赖关系时就显得越弱。而从分析attention函数我们可以发现，Attention是将进行序列的每一个元素与其他元素的对比，在这个过程中每一个元素间的距离都是1。因此，我们在BI-GRU和Bi-LSTM模型中引入attention机制，去灵活的捕捉全局和局部的联系。

Capsule是通过向量的方式来建模，它利用向量输出代替标量输出，捕捉空间结构信息，最初由深度学习之父hinton提出应用在图像领域。由于NLP是通过词的向量的方式构建的，所以Capsule方式在NLP领域有着得天独厚的优势，在这个比赛中，我们将Capsule方式由图像领域迁移到了NLP领域，并进行了应用与实践。因为Capsule本质上是一种并行注意力模型，能把信息提取的注意力集中到下一层更加活跃的Capsule，同时忽略掉那些不活跃的。所以，我们将RNN的输出作为low-level Capsule，同时通过动态路由的方式构建高层语义表征得到high-level Capsule，得到的空间特征作为后续Dense层的输入。

BERT作为横扫NLP各项任务的一个大杀器，在本次比赛中我也做了相应的应用。
BERT与最近的其他语言表示模型不同，BERT旨在通过联合调节所有层中的上下文来预先训练深度双向表示。因此，用12层Transformer捕捉全局语义信息，通过next perdiction 预测下句话，可以构建上下文的语境词向量。预训练的BERT表示可以通过一个额外的输出层进行微调，适用于广泛任务的最先进模型的构建。

在此次比赛的决赛答辩中，有些选手提出BERT模型在使用时，不如Bi-LSTM效果好，其原因大概有两种，一是BERT模型的使用在训练过程中未收敛；而是直接套用原始模型，而针对该实际问题进行相应的优化和参数调整。

技术文章沉淀

认识许多志同道合的小伙伴，这也正是我参加数据竞赛的原因之一吧。2019年我和阿水成为了小伙伴，一个帅气的小伙，富有激情，很有想法。在很多方面都是我学习的榜样。同时工作两年和学习上的积累，让我开始对实战进行总结，并慢慢了养成了技术文章沉淀的习惯。以上方案，如果有兴趣的同学，可以看我之前的分享的详细方案，链接如下：

https://zhuanlan.zhihu.com/p/88257675 https://zhuanlan.zhihu.com/p/86868102 https://zhuanlan.zhihu.com/p/147049432

2020：挑战 | 当打之年，一往无前

2020年，新冠改变了很多，也改变了很多工作和生活模式，也改变了我很多。一如既往，今年又经历了一次组织架构的变动，不过幸运的是，无论是我离开的直属团队，还是我现在加入的直属团队，都是很nice的，只是因为个人职业规划和部门职能的改变，我做出了自己的选择。

第一本书

2020年春节期间，一次机缘巧合巧合和Cookly他们一起完成国内第一本针对竞赛实操的图书：《阿里云天池大赛赛题解析——机器学习篇》。第一次写书，春节期间完成了初稿，幕后发生了一些小故事，不仅感叹缘分的奇妙，一往无前，挺好。

为了让更多人以更低的成本接触到竞赛，更快的参与竞赛，天池团队开发了提供免费算力的DSW平台，与竞赛头部选手、机构合作分享了一系列可免费学习视频课程，为了让大家更方便的参与到数据竞赛，天池团队将7年内举行的200多场竞赛相关内容进行沉淀、优化，再优化，最终联合电子工业出版社出版了国内第一本针对竞赛实操的图书：《阿里云天池大赛赛题解析——机器学习篇》。

本书包含四大经典竞赛案例，通过七个维度详细解析每个赛题，让你清晰知道这个赛题在说什么，为什么会有这个赛题，如何用现有技术解决这个问题以及如何去优化解决方案等内容，每个赛题案例都包含N大知识点，揽括机器学习全流程，学到的不只是技术，更是一种解决问题的思维方式。

从200多场竞赛中筛选了最典型的四大竞赛——工业蒸汽预测、天猫用户重复购买预测、O2O优惠券预测和阿里云安全恶意程序检测，每个竞赛都从赛题理解、数据探索、特征工程、模型训练、模型验证、特征优化、模型融合7个步骤展开讲解、层层递进，解析竞赛内容和解决方案。

如果你想开始你的算法学习和竞赛之路，如果你想在竞赛中取得更好的成绩，如果你想知道普通选手和优秀选手的差距，如果你也想通过竞赛拿到更好的offer···作为小白，这是一本很适合的竞赛入门书，也是一本很好的算法学习实践图书；作为大神，你可以通过本书实战内容梳理自己的竞赛知识点和技能圈，查漏补缺，更上一层楼。

数字中国创新大赛

因为疫情原因，原本5月份举行的数字中国建设峰会推迟到了10月份，让本来3月就结束的一场智能算法比赛，在10月份数字中国创新大赛数字政府赛道总决赛的舞台上进行了延续。

如果说这次比赛最大的收获，那应该是和鱼佬，杰少，林有夕，糖糖的组队，工作后还继续参加数据竞赛，说的积极一点是让自己保持一种战斗状态和激情，说的实在一点呢，应该是我是一个很无趣的人，告别了dota游戏之后，我大部分休息时间是宅着的，所以让自己忙起来，仿佛是从研究生期间带来的惯性。但数据竞赛给我带来最大的乐趣，应该是结识队友，个人的人生经历使然吧。

在本次数字中国创新大赛中，我们的方案共由四部分组成。首先是数据基石部分，由数据探索和特征工程组成，对收集到的数据进行分析整理提取有效信息；算法内核部分是系统的智慧大脑，能够提供多种算法模型，如预测作业类型预测、预测相似度匹配、防碰撞预警等；工程骨架部分将算法内核与可视化平台进行关联，帮助实现算法封装和平台搭建；可视化平台部分由数据驱动、算法支撑，进行实时监管和智能决策，辅助海事人员进行海洋建设和管理。

在智慧海图云系统的架构设计，我们在构思整个系统方案时，秉承快速建设、多次迭代、小步快跑的模式，强调数据的多渠道采集，同时注重形成以海事、渔业场景为核心的智能化体系。系统架构分为四个部分，数据采集、数据存储、数据模型和智慧应用。完备的系统架构由强大的技术支撑，系统完成前后端分离设计，保证代码和数据安全，可视化部分使用GPU引擎完成前端百万轨迹点秒级渲染。

个人总结与感悟

（1）工作与学习并行，任何时候都不能丢掉提升自己的机会，人是懒惰的，如果你不甘于平庸，那你就得努力。

（2）工作习惯的养成，无论是读研还是刚参加工作的时候，我就有记笔记的习惯，善于总结才能进步。分享一下我的部分工作笔记目录。

（3）人生目标的设定，每三年一个大目标，每一年有个小目标。但是我从来不给自己制定具体计划，因为计划没有变化快。当你有了目标的时候，你所有的选择都会偏向你的目标

（4）战斗意志——逢敌必亮剑。我最喜欢的一部战争题材电视剧的台词，逢敌必亮剑，狭路相逢勇者胜，倒在敌人的剑下不丢人。人生的不如意之事太多，不要玻璃心。

（5）拥抱变化。工作之后，你就会发现，变化时时刻刻的存在，学会拥抱变化并成长。

（6）志同道合的小伙伴。有伙伴的感觉真的很好。

写给毕业生们的建议

感谢一路走来，leader们对我信任。作为一名技术面的面试官，截至目前我面试过的候选人应该有60多个了。社招的我就不多做评论了。对于应届毕业生，给出一些我的建议吧。如果你没有项目的磨炼，那你应该有着扎实的基本功，并且在基础知识之上你应该有些自己的思考，大多数面试官是在发现你的优点，这也是由你简历入手去了解你的一个过程，初始分50分，每次回答与对问题的理解，为你加减分，所以扎扎实实，拿出你最好的一面，展示自己。最后，好好刷LeetCode！LeetCode！LeetCode！

主要技术沉淀经历

科研论文、发明专利共20余项
《阿里云天池大赛赛题解析》作者
数字中国创新大赛数字政府赛道智能算法赛冠军
Microsoft DiggSci 科学数据挖掘大赛亚军
ICDM Knowledge Graph Contest 季军
“达观杯”文本智能处理挑战赛季军
京东JDATA算法大赛绝对语义识别挑战赛季军
“中国法研杯”司法人工智能挑战赛三等奖
数字中国创新大赛数字政府赛道铜奖
其他数据竞赛Top10 若干

写在最后

感谢一路走来所有帮助我的小伙伴们，感谢我这几年我陆续遇到的贵人，阳老师、兴东哥、光叔、磊哥、文文、芬姐、雪姐，还有智能不要脸群的小伙伴。感谢你们~

还有一起战斗过的坤、从庆、阿水、杰少、鱼佬、有夕、雨琨，路还很长，未来可期。

最后，完成对毕业后这3年的总结，开启下一个3-5年目标。

未来见~

2020年，开启了我的分享之路，分享一些在推荐搜索算法、自然语言处理炼丹技巧和感悟。欢迎关注，加入我们。一起学习成长~

AI进化论：从图灵测试到智能革命的临界点 A达峰绮人工智能数据处理经验分享 AIGC AI人工智能
智能觉醒的起源密码（1943-2010）在曼彻斯特维多利亚大学的实验室里，1948年"Baby"计算机完成人类首个存储程序运行实验时，艾伦·图灵正在构思《计算机器与智能》。这篇划时代论文提出的"模仿游戏"测试，为人工智能奠定了哲学基础。1956年达特茅斯会议上，麦卡锡正式提出"人工智能"概念，当时学界乐观预测"二十年内机器将完成人类所有工作"。神经网络的发展轨迹充满戏剧性：1958年罗森布拉特发明
AI时代个人财富增长实战指南：从零基础到精通变现的完整路径 A达峰绮人工智能
（本文基于人工智能技术发展规律，结合互联网经济底层逻辑，为普通从业者构建系统性AI应用框架）一、建立AI认知基础：技术理解与工具掌握技术分类认知人工智能工具分为四大功能模块：自然语言处理（文本生成、对话交互）、计算机视觉（图像视频处理）、数据分析（预测建模）、自动化控制（流程优化）。建议新手首先掌握语言类工具的基础操作，逐步扩展到其他领域。工具操作逻辑通用AI工具通常包含三大核心功能模块：输入界面
【北上广深杭大厂AI算法面试题】计算机视觉篇...如何解决多尺度问题？努力毕业的小土博^_^ AI算法题库人工智能算法计算机视觉深度学习神经网络
【北上广深杭大厂AI算法面试题】计算机视觉篇…如何解决多尺度问题？【北上广深杭大厂AI算法面试题】计算机视觉篇…如何解决多尺度问题？文章目录【北上广深杭大厂AI算法面试题】计算机视觉篇...如何解决多尺度问题？前言数据级别的多尺度模型架构上的多尺度表示FPN代码示例（PyTorch）说明其他多尺度处理方法总结欢迎铁子们点赞、关注、收藏！祝大家逢考必过！逢投必中！上岸上岸上岸！upupup大多数高校
【大模型书籍PDF】从零开始大模型开发与微调：基于PyTorch与ChatGLM （推荐）_从零开始大模型开发与微调 pdf 喝不喝奶茶丫 pytorch 人工智能语言模型大模型转行大模型 AI大模型微调
今天又来给大家推荐一本大模型方面的书籍。本书使用PyTorch2.0作为学习大模型的基本框架，以ChatGLM为例详细讲解大模型的基本理论、算法、程序实现、应用实战以及微调技术，为读者揭示大模型开发技术。本书配套示例源代码、PPT课件。（书籍分享）
笔记-LeetCode 787: K 站中转内最便宜的航班我只是什么都不会而已算法
题目描述有n个城市通过一些航班连接。给你一个数组flights，其中flights[i]=[fromi,toi,pricei]，表示该航班都从城市fromi开始，以价格pricei抵达toi。现在给定所有的城市和航班，以及出发城市src和目的地dst，你的任务是找到出一条最多经过k站中转的路线，使得从src到dst的价格最便宜，并返回该价格。如果不存在这样的路线，则输出-1。代码模板（BFS+最短
大语言模型学习路线：从入门到实战大模型官方资料语言模型学习人工智能产品经理自然语言处理搜索引擎
大语言模型学习路线：从入门到实战在人工智能领域，大语言模型（LargeLanguageModels,LLMs）正迅速成为一个热点话题。本学习路线旨在为有基本Python编程和深度学习基础的学习者提供一个清晰、系统的大模型学习指南，帮助你在这一领域快速成长。本学习路线更新至2024年02月，后期部分内容或工具可能需要更新。适应人群已掌握Python基础具备基本的深度学习知识学习步骤本路线将通过四个核
Java基础面试题学习 PowerCloud java 学习开发语言
转换成自已的语言来回答，来源小林coding、沉默王二以及其它资源和自已改编。1、概念1、说一下Java的特点我认为Java有很多特点首先是平台无关性：Java可以实现一次编译到处运行，因为Java的编译器将源代码编译成字节码，使得该字节码可以在任意装有JVM的操作系统上运行。其次是面向对象的性质：Java是面向对象编程语言，这种OOP的特性使得代码易于维护和重用。主要源于封装继承多态这三大特性。
软考系统架构设计师考试学习和考试的知识点大纲，覆盖所有考试考点 DKPT #系统架构设计师系统架构学习
以下是软考系统架构设计师考试的知识点大纲，覆盖所有官方考点，分为基础知识、核心技术、系统设计、案例分析、论文写作五大模块，帮助系统性学习和备考：一、基础知识模块计算机组成与体系结构计算机硬件组成（CPU、内存、I/O设备）存储系统（Cache、RAID、虚拟内存）指令系统与流水线技术操作系统进程与线程管理（调度算法、死锁）内存管理（分页、分段、虚拟内存）文件系统与磁盘管理数据库系统关系数据库（SQ
单调栈详解【C/C++】ん贤算法单调栈算法 c++数据结构贪心算法
前言：了解过单调队列后，你会发现单调栈的思想其实挺简单...当然前提是要了解一下什么是栈(stack)。看待一个问题，从不同角度，也许能有不同的收获。在数学家眼中，单调栈本质上是一个严格或非严格维护的单调递增或单调递减的数学结构。其核心在于动态的维护动态递增或递减的有序关系。而对于算法工程师，他们首先关注单调栈的核心优势：O(n)的时间复杂度。在需要遍历序列，并纪录极值的情况下（如接雨水、每日温度
Caffeine vs Guava Cache：性能巅峰对决，谁才是 Java 本地缓存之王？ Julian.zhou Java 开发基础技能缓存 java 算法
CaffeinevsGuavaCache：性能巅峰对决，谁才是Java本地缓存之王？导语：在Java本地缓存的战场上，Caffeine和GuavaCache是开发者最常用的两大神器。但究竟谁的性能更胜一筹？为何Caffeine被称为“GuavaCache的终结者”？本文通过算法原理、并发性能、内存管理、实战测试四大维度，彻底揭秘两者的性能差异，文末附迁移指南和选型建议！一、核心差异：算法与淘汰策略
122. 买卖股票的最佳时机 II 请向我看齐 LeetCode 算法
题目分析LeetCode第122题是“买卖股票的最佳时机II”。题目描述为：给定一个数组prices，其中prices[i]是一支给定股票第i天的价格。设计一个算法来计算你所能获取的最大利润。你可以尽可能地完成更多的交易（多次买卖一支股票）。模式识别本题属于动态规划或者贪心算法的范畴。由于可以进行多次交易，且没有交易次数限制，所以可以通过比较相邻两天的价格，只要后一天价格比前一天高，就进行一次交易
二分查找算法 WH牛算法算法
目录1.二分查找算法的介绍1.1算法思路1.2算法模版1.2.1查找区间左端点1.2.1查找区间右端点2.模版题2.1数的范围2.2数的三次方根3.典题3.1机器人跳跃问题3.2分巧克力4.课后题1.二分查找算法的介绍1.1算法思路假设目标值在闭区间[l,r]中，每次将区间长度缩小一半，当l=r时，我们就找到了目标值。说人话：就是把答案所在的区间逐渐缩小，直到区间内只有答案。二分查找算法的时间复杂
Linux内核学习之 -- epoll()一族系统调用分析笔记 lagransun linux 学习笔记
背景linux4.19epoll()也是一种I/O多路复用的技术，但是完全不同于select()/poll()。更加高效，高效的原因其他博客也都提到了，这篇笔记主要是从源码的角度来分析一下实现过程。作为自己的学习笔记，分析都在代码注释中，后续回顾的时候看注释好一点。相关链接：Linux内核学习之–ARMv8架构的系统调用笔记Linux内核学习之–系统调用open()和write()的实现笔记Lin
景联文科技入选中国信通院发布的“人工智能数据标注产业图谱” 景联文科技科技人工智能
近日，由中国信息通信研究院、中国人工智能产业发展联盟牵头，联合中国电信集团、沈阳市数据局、保定高新区等70多家单位编制完成并发布《人工智能数据标注产业图谱》。景联文科技作为人工智能产业关键环节的代表企业，入选图谱中技术服务板块。图谱按照国家数据局技术创新、行业赋能、生态培育、标准应用、人才就业、数据安全等六个方面任务展开，由上游资源提供方、中游数据标注核心服务方、下游配套支撑方三部分组成。其中上游
《Armv8/armv9架构入门指南》-【第十四章】多核处理器 Arm精选 ARM-TEE-Android armv8 armv9 多核处理 DSU 嵌入式
快速链接:.ARMv8/ARMv9架构入门到精通-[目录]付费专栏-付费课程【购买须知】:联系方式-加入交流群----联系方式-加入交流群个人博客笔记导读目录(全部)
搜广推校招面经五十四 Y1nhl 搜广推面经搜索算法 python 推荐算法机器学习人工智能
美团推荐算法一、手撕Transformer的位置编码1.1.位置编码的作用Transformer模型没有显式的序列信息（如RNN的循环结构），因此需要通过位置编码（PositionalEncoding）为输入序列中的每个位置添加位置信息。位置编码的作用是：提供序列位置信息：帮助模型理解输入序列中元素的顺序。保持唯一性和连续性：确保每个位置的位置编码是唯一的，且相邻位置的位置编码是连续的。1.2.位
搜广推校招面经五十三 Y1nhl 搜广推面经 python 机器学习人工智能推荐算法搜索算法算法
小红书推荐算法一、ESMM(EntireSpaceMulti-TaskModel)ESMM（EntireSpaceMulti-TaskModel）是一种用于解决推荐系统中多任务学习问题的模型。它由阿里巴巴团队提出，主要用于处理点击率（CTR）和转化率（CVR）的联合预测问题。1.1.背景在推荐系统中，CTR和CVR是两个重要的指标：CTR（Click-ThroughRate）：用户点击广告的概率。
EnerVerse：智元机器人提出首个机器人4D世界模型，在动作规划任务中达到SOTA水平强化学习曾小健机器人
EnerVerse：智元机器人提出首个机器人4D世界模型，在动作规划任务中达到SOTA水平PNP机器人PNP机器人2025年02月10日21:04上海本文来自：公众号智元机器人https://sites.google.com/view/enerverse，出于学术/技术分享进行转载，如有侵权，联系删文。EnerVerse的科研核心团队由智元机器人研究院的具身算法精英组成。黄思渊，作为上海交通大学与
C语言复习笔记（一维数组）会飞的CR7 C语言数组一维数组初始化数组元素
数组是一组有序数据的集合，在程序设计中，为方便处理往往会把一些同类型的数据按有序的形式组织起来，且用一个统一的名字标识这组数据，这个名字就称为数组名，构成数组的每一数据称为数组元素或者下标变量。在C语言中，数组属于构造数据类型。一个数组可以包含多个数组元素，这些数组元素可以是基本数据类型或构造类型，按照数组的维数可以分为一维数组和多维数组，按照数组元素的类型，数组又可以分为数值型数组、字符型数组、
使用 Milvus 进行向量数据库管理与实践 qahaj milvus 数据库 python
技术背景介绍在当今的AI与机器学习应用中，处理和管理大量的嵌入向量是一个常见的需求。Milvus是一个开源向量数据库，专门用于存储、索引和管理深度神经网络以及其他机器学习模型生成的大规模嵌入向量。它的高性能和易用性使其成为处理向量数据的理想选择。核心原理解析Milvus的核心功能体现在其强大的向量索引和搜索能力。它支持多种索引算法，包括IVF、HNSW等，使其能够高效地进行大规模向量的相似性搜索操
C语言复习笔记6---while循环for循环 .又是新的一天. C语言复习笔记 c语言算法 c++
感谢张学长为大家整理的笔记~考点整合A+B问题分离一个整数每一位从后往前从前往后→字符数组(字符串)/看成一堆字符栈(先入后出)→递归while→循环版的if（while循环的直接应用→模拟）gcd和lcm打擂法求max,min判断素数O(n)O(sqrt(n))→分离因子的快捷的求法打印素数表数列求和、斐波那契数列(递推)递推和递归递推往往用迭代(循环)来实现讲从前往后分离整数的递归写法实现方式
C语言复习笔记5---数组 .又是新的一天. C语言复习笔记 c语言算法 c++
数组考点排序冒泡排序O(n^2)选择排序O(n^2)(插入排序)分离每一位正序逆序哈希(hash)→用值直接作为下标日期处理问题数组的基本操作插入和删除逆序（移位）7-19田忌赛马(双指针)二维数组→矩阵矩阵转置判断对称矩阵矩阵运算矩阵移位杨辉三角*知识点数组:存储若干个相同的数据类型的元素intchardoublefloatlonglong定义数组数据类型数组名[数组大小]inta[100];数
《沉思录》 froxy 读书笔记程序人生
《沉思录》是古罗马皇帝马可·奥勒留（MarcusAurelius）在戎马倥偬中写下的哲学笔记，也是斯多葛学派的重要代表作。全书以自我对话的形式，探讨了生命、死亡、责任、自然法则以及心灵的安宁。以下是总结与启示：《沉思录》的核心思想总结顺应自然与理性斯多葛哲学认为，宇宙是一个有序的整体，人应遵循自然法则（逻各斯），接受命运的安排。理性是人与神的共通点，通过理性控制欲望和情绪，才能获得内心的自由。专注
gcc version 11.4.0 (Ubuntu 11.4.0-1ubuntu1~22.04) 上编译问题笔记老爸我爱你开发语言 c++
编译错误如下：Infileincludedfrom/usr/include/glib-2.0/glib/glib-typeof.h:39,from/usr/include/glib-2.0/glib/gatomic.h:28,from/usr/include/glib-2.0/glib/gthread.h:32,from/usr/include/glib-2.0/glib/gasyncqueue.
【IT大学生必会的】 10 种图表线性回归 .Boss. 深度学习开发语言人工智能机器学习算法
这段时间，不少同学提到了一些图表的问题。每次在使用matplotlib画图，运用这些图表说明问题的时候，很多时候是模糊的，比如说什么时候画什么图合适？其实这个根据你自己的需求，自己的想法来就行。今天的话，我这里举例在线性回归中，最常用的一些图表，应该可以cover绝大多数情况了。其他算法模型适用的图表，咱们在后面再给大家进行总结~至于数据集，表现方式，大家可以根据我给出的代码继续调整即可！那么，在
【自学笔记】Web3基础知识点总览-持续更新 Long_poem 笔记 web3
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录Web3基础知识点总览（Markdown格式）1.引言2.区块链基础3.智能合约4.去中心化应用（DApps）5.数字货币与钱包6.跨链技术7.Web3生态与工具代码块示例（Solidity智能合约）总结Web3基础知识点总览（Markdown格式）1.引言Web3，也称为第三代互联网或去中心化互联网，旨在通过区块链技术实现更
物理学不存在了？诺贝尔物理学奖颁给了人工智能资讯新鲜事人工智能
2024年10月8日，瑞典皇家科学院宣布，将2024年诺贝尔物理学奖授予美国普林斯顿大学教授约翰·J·霍普菲尔德（JohnJ.Hopfield）和加拿大多伦多大学教授杰弗里·E·辛顿（GeoffreyE.Hinton），以表彰他们“在人工神经网络机器学习方面的基础性发现和发明”。辛顿在接受电话采访时表示：“完全没想到”。实话实说，在结果出来前，大家也都没想到。因为在外界预测里，今年的诺贝尔物理学奖
分布式限流方案：基于 Redis 的令牌桶算法实现代码怪兽大作战后端分布式 redis 算法 java 令牌桶接口限流
分布式限流方案：基于Redis的令牌桶算法实现前言一、原理介绍：令牌桶算法二、分布式限流的设计思路三、代码实现四、方案优缺点五、适用场景总结前言在分布式场景下，接口限流变得更加复杂。传统的单机限流方式难以满足跨节点的限流需求，因此需要一种分布式限流方案。这里介绍一种基于Redis和Redisson实现的令牌桶算法分布式限流方案。一、原理介绍：令牌桶算法令牌桶算法是一种用于控制流量的经典算法，其基本
http与https的区别哥谭居民0001 网络安全服务器
加密方式：加密技术是对信息进行编码和解码的技术，编码是把原来可读信息（又称明文）译成代码形式（又称密文），其逆过程就是解码（解密），加密技术的要点是加密算法，加密算法可以分为三类：对称加密，如AES基本原理：将明文分成N个组，然后使用密钥对各个组进行加密，形成各自的密文，最后把所有的分组密文进行合并，形成最终的密文。优势：算法公开、计算量小、加密速度快、加密效率高缺陷：双方都使用同样密钥，安全性得
Jira获取story信息更新子任务状态脚本技术实现吾爱乐享 w w w w .f e n
title:Jira获取story信息更新子任务状态脚本技术实现tags:-Jiracategories:-Jira一、项目背景在Jira项目管理系统中，当story主任务处于特定状态（如“READYFORPM”或“已关闭”）时，需要对其所有子任务的状态进行更新。为了实现这一自动化操作，编写了一个Python脚本，以提高工作效率和准确性。二、技术选型编程语言：Python，因其简洁易读的语法和丰富
多线程编程之join()方法周凡杨 java JOIN 多线程编程线程
现实生活中，有些工作是需要团队中成员依次完成的，这就涉及到了一个顺序问题。现在有T1、T2、T3三个工人，如何保证T2在T1执行完后执行，T3在T2执行完后执行？问题分析：首先问题中有三个实体，T1、T2、T3，因为是多线程编程，所以都要设计成线程类。关键是怎么保证线程能依次执行完呢？ Java实现过程如下： public class T1 implements Runnabl
java中switch的使用 bingyingao java enum break continue
java中的switch仅支持case条件仅支持int、enum两种类型。用enum的时候，不能直接写下列形式。 switch (timeType) { case ProdtransTimeTypeEnum.DAILY: break; default: br
hive having count 不能去重 daizj hive 去重 having count 计数
hive在使用having count()是，不支持去重计数 hive (default)> select imei from t_test_phonenum where ds=20150701 group by imei having count(distinct phone_num)>1 limit 10; FAILED: SemanticExcep
WebSphere对JSP的缓存周凡杨 WAS JSP 缓存
对于线网上的工程，更新JSP到WebSphere后，有时会出现修改的jsp没有起作用，特别是改变了某jsp的样式后，在页面中没看到效果，这主要就是由于websphere中缓存的缘故，这就要清除WebSphere中jsp缓存。要清除WebSphere中JSP的缓存，就要找到WAS安装后的根目录。现服务
设计模式总结朱辉辉33 java 设计模式
1.工厂模式 1.1 工厂方法模式 (由一个工厂类管理构造方法) 1.1.1普通工厂模式(一个工厂类中只有一个方法) 1.1.2多工厂模式(一个工厂类中有多个方法) 1.1.3静态工厂模式(将工厂类中的方法变成静态方法) &n
实例：供应商管理报表需求调研报告老A不折腾 finereport 报表系统报表软件信息化选型
引言随着企业集团的生产规模扩张，为支撑全球供应链管理，对于供应商的管理和采购过程的监控已经不局限于简单的交付以及价格的管理，目前采购及供应商管理各个环节的操作分别在不同的系统下进行，而各个数据源都独立存在，无法提供统一的数据支持；因此，为了实现对于数据分析以提供采购决策，建立报表体系成为必须。业务目标 1、通过报表为采购决策提供数据分析与支撑 2、对供应商进行综合评估以及管理，合理管理和
mysql 林鹤霄
转载源：http://blog.sina.com.cn/s/blog_4f925fc30100rx5l.html mysql -uroot -p ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: YES) [root@centos var]# service mysql
Linux下多线程堆栈查看工具(pstree、ps、pstack) aigo linux
原文：http://blog.csdn.net/yfkiss/article/details/6729364 1. pstree pstree以树结构显示进程$ pstree -p work | grep adsshd(22669)---bash(22670)---ad_preprocess(4551)-+-{ad_preprocess}(4552) &n
html input与textarea 值改变事件 alxw4616 JavaScript
// 文本输入框(input) 文本域(textarea)值改变事件 // onpropertychange(IE) oninput(w3c) $('input,textarea').on('propertychange input', function(event) { console.log($(this).val()) });
String类的基本用法百合不是茶 String
字符串的用法; // 根据字节数组创建字符串 byte[] by = { 'a', 'b', 'c', 'd' }; String newByteString = new String(by); 1,length() 获取字符串的长度 &nbs
JDK1.5 Semaphore实例 bijian1013 java thread java多线程 Semaphore
Semaphore类一个计数信号量。从概念上讲，信号量维护了一个许可集合。如有必要，在许可可用前会阻塞每一个 acquire()，然后再获取该许可。每个 release() 添加一个许可，从而可能释放一个正在阻塞的获取者。但是，不使用实际的许可对象，Semaphore 只对可用许可的号码进行计数，并采取相应的行动。 S
使用GZip来压缩传输量 bijian1013 java GZip
启动GZip压缩要用到一个开源的Filter：PJL Compressing Filter。这个Filter自1.5.0开始该工程开始构建于JDK5.0，因此在JDK1.4环境下只能使用1.4.6。 PJL Compressi
【Java范型三】Java范型详解之范型类型通配符 bit1129 java
定义如下一个简单的范型类， package com.tom.lang.generics; public class Generics<T> { private T value; public Generics(T value) { this.value = value; } }
【Hadoop十二】HDFS常用命令 bit1129 hadoop
1. 修改日志文件查看器 hdfs oev -i edits_0000000000000000081-0000000000000000089 -o edits.xml cat edits.xml 修改日志文件转储为xml格式的edits.xml文件，其中每条RECORD就是一个操作事务日志 2. fsimage查看HDFS中的块信息等 &nb
怎样区别nginx中rewrite时break和last ronin47
在使用nginx配置rewrite中经常会遇到有的地方用last并不能工作，换成break就可以，其中的原理是对于根目录的理解有所区别，按我的测试结果大致是这样的。 location / { proxy_pass http://test;
java-21.中兴面试题输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等于 m bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; public class CombinationToSum { /* 第21 题 2010 年中兴面试题编程求解：输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等
eclipse svn 帐号密码修改问题开窍的石头 eclipse SVN svn帐号密码修改
问题描述： Eclipse的SVN插件Subclipse做得很好，在svn操作方面提供了很强大丰富的功能。但到目前为止，该插件对svn用户的概念极为淡薄，不但不能方便地切换用户，而且一旦用户的帐号、密码保存之后，就无法再变更了。解决思路：删除subclipse记录的帐号、密码信息，重新输入
[电子商务]传统商务活动与互联网的结合 comsci 电子商务
某一个传统名牌产品，过去销售的地点就在某些特定的地区和阶层，现在进入互联网之后，用户的数量群突然扩大了无数倍，但是，这种产品潜在的劣势也被放大了无数倍，这种销售利润与经营风险同步放大的效应，在最近几年将会频繁出现。。。。如何避免销售量和利润率增加的
java 解析 properties-使用 Properties-可以指定配置文件路径 cuityang java properties
#mq xdr.mq.url=tcp://192.168.100.15:61618; import java.io.IOException; import java.util.Properties; public class Test { String conf = "log4j.properties"; private static final
Java核心问题集锦 darrenzhu java 基础核心难点
注意，这里的参考文章基本来自Effective Java和jdk源码 1)ConcurrentModificationException 当你用for each遍历一个list时，如果你在循环主体代码中修改list中的元素，将会得到这个Exception，解决的办法是： 1)用listIterator, 它支持在遍历的过程中修改元素， 2)不用listIterator, new一个
1分钟学会Markdown语法 dcj3sjt126com markdown
markdown 简明语法基本符号 *,-,+ 3个符号效果都一样，这3个符号被称为 Markdown符号空白行表示另起一个段落 `是表示inline代码，tab是用来标记代码段，分别对应html的code，pre标签换行单一段落( <p>) 用一个空白行连续两个空格会变成一个 <br> 连续3个符号，然后是空行
Gson使用二（GsonBuilder） eksliang json gson GsonBuilder
转载请出自出处：http://eksliang.iteye.com/blog/2175473 一.概述 GsonBuilder用来定制java跟json之间的转换格式二.基本使用实体测试类：温馨提示：默认情况下@Expose注解是不起作用的,除非你用GsonBuilder创建Gson的时候调用了GsonBuilder.excludeField
报ClassNotFoundException: Didn't find class "...Activity" on path: DexPathList gundumw100 android
有一个工程，本来运行是正常的，我想把它移植到另一台PC上，结果报： java.lang.RuntimeException: Unable to instantiate activity ComponentInfo{com.mobovip.bgr/com.mobovip.bgr.MainActivity}: java.lang.ClassNotFoundException: Didn't f
JavaWeb之JSP指令 ihuning javaweb
要点 JSP指令简介 page指令 include指令 JSP指令简介 JSP指令（directive）是为JSP引擎而设计的，它们并不直接产生任何可见输出，而只是告诉引擎如何处理JSP页面中的其余部分。 JSP指令的基本语法格式： <%@ 指令属性名="
mac上编译FFmpeg跑ios 啸笑天 ffmpeg
1、下载文件：https://github.com/libav/gas-preprocessor，复制gas-preprocessor.pl到/usr/local/bin/下，修改文件权限：chmod 777 /usr/local/bin/gas-preprocessor.pl 2、安装yasm-1.2.0 curl http://www.tortall.net/projects/yasm
sql mysql oracle中字符串连接 macroli oracle sql mysql SQL Server
有的时候，我们有需要将由不同栏位获得的资料串连在一起。每一种资料库都有提供方法来达到这个目的： MySQL: CONCAT() Oracle: CONCAT(), || SQL Server: + CONCAT() 的语法如下： Mysql 中 CONCAT(字串1, 字串2, 字串3, ...): 将字串1、字串2、字串3，等字串连在一起。请注意，Oracle的CON
Git fatal: unab SSL certificate problem: unable to get local issuer ce rtificate qiaolevip 学习永无止境每天进步一点点 git 纵观千象
// 报错如下： $ git pull origin master fatal: unable to access 'https://git.xxx.com/': SSL certificate problem: unable to get local issuer ce rtificate // 原因：由于git最新版默认使用ssl安全验证，但是我们是使用的git未设
windows命令行设置wifi surfingll windows wifi 笔记本wifi
还没有讨厌无线wifi的无尽广告么，还在耐心等待它慢慢启动么教你命令行设置笔记本电脑wifi： 1、开启wifi命令 netsh wlan set hostednetwork mode=allow ssid=surf8 key=bb123456 netsh wlan start hostednetwork pause 其中pause是等待输入，可以去掉 2、
Linux（Ubuntu）下安装sysv-rc-conf wmlJava linux ubuntu sysv-rc-conf
安装：sudo apt-get install sysv-rc-conf 使用：sudo sysv-rc-conf 操作界面十分简洁，你可以用鼠标点击，也可以用键盘方向键定位，用空格键选择，用Ctrl+N翻下一页，用Ctrl+P翻上一页，用Q退出。背景知识 sysv-rc-conf是一个强大的服务管理程序，群众的意见是sysv-rc-conf比chkconf
svn切换环境，重发布应用多了javaee标签前缀 zengshaotao javaee
更换了开发环境，从杭州，改变到了上海。svn的地址肯定要切换的，切换之前需要将原svn自带的.svn文件信息删除，可手动删除，也可通过废弃原来的svn位置提示删除.svn时删除。然后就是按照最新的svn地址和规范建立相关的目录信息，再将原来的纯代码信息上传到新的环境。然后再重新检出，这样每次修改后就可以看到哪些文件被修改过，这对于增量发布的规范特别有用。检出