zch001104

三十一

首页新闻博问专区闪存班级我的博客我的园子账号设置退出登录注册登录TechFlow2019 博客园首页新随笔联系订阅管理随笔 - 287 文章 - 0 评论 - 161 算法工程师为什么成天做数据，都做哪些数据？大家好，前几天群里有小伙伴说希望看到更多的算法工程师的日常。其实对于算法工程师而言，最大的日常就是做数据了，所以给大家分享一下做数据的那些事。为什么很少做模型在大家想象当中，可能算法工程师做的事情是今天看paper，明天把paper实现了，后天就上线使用，然后公司的收入刷刷涨，我们的工资、级别也跟着涨。但实际上，大多数岗位下的工程师日常并不是这样。国外有一个著名的大佬（我忘记名字了）曾经说过，算法工程师有70%的时间是投入在数据上的，花在模型和调参上的只有不到20%。这句话大家可能或多或少都听过，但是想必都不是很理解，为什么会这样呢？为什么不能多花点时间做模型呢？原因也很简单，并非不想，而是不能。不能的原因也很有很多，我随便举几个最常见的。框架限制模型不能随便动的原因有很多，一般来说最常见的是框架的限制。这种情况在大公司和小公司里都有，比如之前我在某大公司的时候，公司的框架非常成熟，以至于很少写代码去实现某一个模型，而更多的是可视化界面的连线以及设置操作。问题来了，在这个场景当中，可视化界面当中可选的模型是固定的，都是基础团队开发好的，他们开发好了这么多模型，我们就只能使用这么多模型，除非我们脱离这整个流程，但显然这是不可能的。所以当时在很长的一段时间里，我们只能在有限的模型当中做选择。直到后来，公司开发出了新的框架工具，可以让我们自己定制神经网络的代码实现深度模型，这才鸟枪换炮迎来了全面升级。小公司虽然不像大公司这样有一套成熟且不易改动的框架，但是一般也会有自己的一套流程。比如公司前人留下来链路是基于开源xgboost开发的，你想要使用TensorFlow训练神经网络模型代替原有的xgboost，一般来说这是肯定有效果的，也一定会迎来提升。但问题是，你可能需要把训练模型、线上调用模型的整个链路都重构。很多算法工程师的开发能力不太行，而且也不太愿意做工程重构的事情，再加上这块工作量也不小，所以很容易出现的情况就是，大家都明知道怎么做比较好，但是由于投入比较多，大家也都不愿意做，一直delay。效果难保证第二个原因是paper上的一些模型和做法，效果其实是很难保证的。如果你读过paper会发现paper的结论往往都有很多前提。比如某某特定的数据或者是场景，前期强大的recall以及过滤系统，或者是完善的特征准备等等。paper里不会把这些都写出来，它只会写上做法以及结果。所以这就导致了，很多paper里写得天花乱坠的方法，实际应用起来效果可能并不好。这也不是paper吹牛，而是你没有同样的条件。举个例子，阿里的数据埋点非常精准，精准到用户从打开app到关闭app的每一个动作和行为都有记录，每一个商品或者是模块在用户处展示了多少时间，甚至是用户翻页的速度都有全面完整的记录。就这种数据，一般规模的小公司根本做不了。你做不了这个数据，你就没有paper里那些精准的特征。那你如何保证你使用阿里的模型也有同样的效果呢？优先级问题我们都知道，事情根据紧急以及重要可以分成四类，不重要不紧急、紧急不重要、紧急且重要、重要不紧急。很多人也都知道，最重要的事情是把那些重要且不紧急的事情做好。说起来大家都会说，但是实际上未必人人都会这么选。当你面临KPI考核压力的时候，一线的工程师可能就只能盯着紧急的事情做。因为他们需要赶紧做出一点成绩来完成自己的业绩，完成自己业绩的最好方法绝不是去升级或者是更新模型，而是找一些特征做一做，或者是使用一些取巧的方法看看能否提升效果。花时间去更新模型，付出的劳动很大，也不一定有效果。但是做特征代价很小，做了一个没效果，可以再做一个，迭代也快。这其实并不完全是工程师鼠目寸光，也是整个职场氛围的影响的结果。大家都看重业绩和绩效，以至于大家都陷入了局部最优解，但是却离整体最优解越来越远。要想避免这种情况，需要有高瞻远瞩、统筹规划的架构师或者是leader，能够抗住升级模型的风险压力。对可能出现的情况以及将来要做的事情有充足、详细的规划，并且有足够的经验应对各种可能出现的事情。但是大家也都知道，拥有这种能力的leader在职场里凤毛麟角。大公司里都不多见，小公司里就更加难得了。做哪些数据说完了模型的问题，我们来聊聊数据，既然不能频繁地变更模型，工程师们就只能更多地来做数据了，那么工程师们到底又在做哪些数据，需要花费这么多时间呢？训练数据大公司里有完整的流程，我们把流程设计好了之后，训练数据、测试数据、模型训练以及部署可以一条龙流水线作业。但是在中小型公司里，这往往是做不到的。原始数据是不能直接用来训练模型的，这中间需要复杂的处理流程。首先，需要做采样。就拿CTR预估的场景来举例，一般情况下真实场景下的点击率不会超过10%。但是模型训练一般正负样本的比例是1：3左右，那么这就需要我们对负样本进行采样。采样你还不能直接采，因为可能这些样本当中还存在很多脏数据或者是非法的数据。我们需要先把这些有问题的数据过滤了之后，再进行采样，这样才能保证我们的数据是干净的。采样了之后，我们需要进行特征和字段的查找补全。因为数据往往是分开存储的，比如用户的基础信息是一张表，用户的行为数据又是一张表，商品的信息是一张表，各种各样的数据存放在各种各样的地方。我们有了样本之后，还需要去查找很多的数据，才能把所有需要用到的字段搜集齐。当我们搜集了所有需要的数据之后，我们才能开始真正样本的制作，也就是使用这些我们查找以及搜集到的原始数据生成输入模型的样本特征。每一个特征可能都有自己独特的生成逻辑，这也是一个庞大的工程。这一步做完还没结束，还会需要把数据转化成模型需要的格式。比如tfdata或者是tensor、json之类的。这么一系列步骤，大公司一般都有一整套完整的自动调度流程，工程师们不需要操心，只需要拿来用就好了。但是在中小型公司，可能就只有一些手动工具了，需要数据都需要手工去跑一些任务或者是脚本。跑的过程当中还有可能会失败以及遇到各种问题，虽然说起来平平无奇，也没什么价值，但这些事情都是需要工作量的。新的特征特征怎么做？在kaggle之类比赛当中，可能就是使用pandas写两个函数，或者是几行处理的逻辑就搞定了。但实际上绝不是这么简单。我举一个最简单的例子好了，比如我们将年龄进行归一化，做成一个标准化年龄的特征。这个简单吧，我们就用比较简单的最大最小值归一化方法好了，公式是：归一化之后，这个特征值会被缩放到0-1的区间里。但是这里面用到了两个参数，一个是最大值，一个是最小值。这两个参数怎么来？你可能会觉得这还不简单，我们遍历下数据不就知道了。但问题是这个数据你并不是只用一次，以后每次生成训练数据都需要生成这个特征，难道每次跑的时候都手动遍历一下数据找下最大最小值吗？而且数据是在变化的，每一天用户年龄的最大和最小值可能都不一样，假如说我们要跑好几天的训练数据怎么办？设计一个新的特征是简单的，但是里面的一些参数会让事情变得复杂，我们往往需要设计复杂的机制来将新完成的特征加入流程。效果分析还有一块数据处理的大头在效果分析，效果分析有两种，第一种是做一些之前没有的指标以及相关的分析，或者是应老板的要求做一些业务指标的分析，达成我们的绩效。比如像是最基础的CTR、CVR、收入等数据，也有像是老板临时起意想要看的某些数据。比如分析一下某些特征的分布，比如看一下某个特定族群中样本的数量或者是数据的情况，等等等等，不一而足。第二种是我们模型做出来之后的效果分析，如果说模型的效果还，那还好。如果效果不好，问题就来了，我们怎么样确定是哪里出了问题？是因为模型本身的性能不足呢？还是我们的特征不够或者是特征当中存在问题呢？还是我们的数据质量不高呢？还是说什么地方存在bug呢？算法不像是工程，工程当中绝大多数事情是确定的，结果不对一定是因为逻辑有bug，那么只要仔细测试，分析原因，总能解决。那种难以复现，找不到原因的问题非常罕见。但是算法不一样，大多数情况下并没有绝对的错误和正确，甚至没有绝对的原因。我们扮演的角色更多地像是侦探，根据一些蛛丝马迹推测导致问题的原因，然后用实验尝试着解决，在这个过程当中就涉及到大量的数据处理和分析的工作。比如，如果你怀疑是某些特征分布有问题导致了模型效果不好，那么你需要分析特征的分布。如果你怀疑是数据存在bug，那么你需要设计方案，筛选数据，仔细甄别数据当中的问题，验证自己的想法。如果你觉得是训练数据量不够，那么你需要增大训练量，设计对比实验……总之，想要排查问题都需要大量的数据分析，绝不仅仅是看看代码，想一想就能有结论的。感想很多想要从事算法的人真正做了算法之后，往往会有幻灭感。会有一种强烈的面试造航母，入职拧螺丝的感觉。原因也很简单，我们面试的时候问的是各种各样的模型，各种先进的理念和方法，但是入职之后面临的工作却是各种各样的数据分析以及数据准备。比如我当年大部分时间都在写SQL做数据，我一度怀疑公司的职位安排。但当我理解了这一切的运作机制之后，我就理解了。实际的工作场景和线上算法比赛不同，线上比赛我们可以使用各种各样的trick来提升成绩。还可以搞各种跨界混搭，比如今年的腾讯算法大赛的冠军的做法就是把BERT应用在了用户行为分析的场景下。但是在实际的场景当中，由于系统以及各方面的制约，这些想法都是很难实现的而且效果也难保证，最终还是要落实到基本的数据支撑上来。打个不确切的比方，各种各样的算法模型就好像是工具箱里的各式工具，我们仅仅了解工具是没用的。最重要的是要理解使用工具的场景，从而可以根据需要选择最合适的工具。但很遗憾的是，我们对数据以及场景的理解是很难量化的，所以面试的时候只能退而求其次问你工具的使用了，长此以往很多人本末倒置，搞错了核心竞争力，出现对面试的种种非议也就不奇怪了。今天的文章就到这里，衷心祝愿大家每天都有所收获。如果还喜欢今天的内容的话，请来一个三连支持吧~（点赞、关注、转发）标签: 算法工程师, 算法好文要顶关注我收藏该文 TechFlow2019
关注 - 0
粉丝 - 177 +加关注 0 0

« 上一篇：一半人写不出冒泡排序，你的同龄人都躺下了 posted @ 2020-11-23 10:23 TechFlow2019 阅读(75) 评论(0) 编辑收藏

刷新评论刷新页面返回顶部

发表评论【福利】注册AWS账号，立享12个月免费套餐编辑预览 7693b08a-a8f6-49f3-f45a-08d88556cc23 Markdown 帮助自动补全不改了退出订阅评论 [Ctrl+Enter快捷键提交]

首页新闻博问专区闪存班级【推荐】News: 大型组态、工控、仿真、CADGIS 50万行VC++源码免费下载
【推荐】博客园 & 陌上花开HIMMR 给单身的程序员小哥哥助力脱单啦～
【推荐】从零开始的RPG游戏制作教程，来《魔兽争霸III》共同成长
【推荐】了不起的开发者，挡不住的华为，园子里的品牌专区
【推荐】未知数的距离，毫秒间的传递，声网与你实时互动
【福利】AWS携手博客园为开发者送免费套餐与抵扣券
【推荐】阿里云折扣价格返场，错过再等一年
相关博文：
· SDOI2010选做
· gisoracle做windows界面
· 实现mypwd(选做）
· Win10系统重做
· myod实验（选做）
» 更多推荐…最新 IT 新闻:
· 当你按下「随机播放」时，QQ音乐和网易云们都做了什么？
· 「菜鸟」索尼挑战大疆，无人机行业来了新玩家
· 谷歌整合所有音乐服务，YouTube能否扛起大旗？
· vivo为什么要重新做一个手机系统？
· 超大 AirPods、9 倍大纸牌、手机投影仪……这些产品不好用但很吸睛
» 更多新闻…

公告日拱一卒，功不唐捐欢迎关注我的公众号：TechFlow 昵称： TechFlow2019
园龄： 10个月
粉丝： 177
关注： 0 +加关注

< 2020年11月> 日一二三四五六 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 1 2 3 4 5 6 7 8 9 10 11 12

搜索常用链接我的随笔我的评论我的参与最新评论我的标签我的标签算法(87) LeetCode(58) 机器学习基础(53) python(45) 数据结构(35) Python基础(20) go语言(14) 高等数学(14) golang(13) 数据处理(13) 更多随笔分类 Go(15) LeetCode题解(53) Python(37) spark(6) 大数据与分布式(10) 机器学习(45) 其他(1) 数学基础(16) 算法与数据结构(45) 随笔档案 2020年11月(13) 2020年10月(22) 2020年9月(21) 2020年8月(22) 2020年7月(22) 2020年6月(29) 2020年5月(31) 2020年4月(36) 2020年3月(32) 2020年2月(28) 2020年1月(23) 2019年12月(8) 最新评论1. Re:一半人写不出冒泡排序，你的同龄人都躺下了人都想活的轻松点–白丸2. Re:一半人写不出冒泡排序，你的同龄人都躺下了@dotnetcms.org工作室可凡是都要个结果，没人管你思维…–fen儿3. Re:一半人写不出冒泡排序，你的同龄人都躺下了有个屁用一个orderby 就搞定了，可悲的是有一堆人不去看底层源码–hanbindsg4. Re:一半人写不出冒泡排序，你的同龄人都躺下了@XSpringSun 其实这个社会就是金字塔，不是人为操纵，而是自然形成。有些人天赋高+有资源，那么他们就是金字塔顶端；肯努力但是资源差，就留在金字塔中间；至于那些资源差+不努力，就只能沉在金字塔下…–lts89895. Re:一半人写不出冒泡排序，你的同龄人都躺下了有些东西在现阶段，是你怎么努力都改变不了的，或者说，你拼尽全力，才达到别人躺下的状态。
但是努力一定能改变，超过你边上和你相同家境、智商、情商的人群！–大彭呀阅读排行榜 1. 大数据算法——布隆过滤器(10449) 2. 在vscode中配置LeetCode插件，从此愉快地刷题(5365) 3. 一半人写不出冒泡排序，你的同龄人都躺下了(3470) 4. MySQL不香吗，为什么还要有noSQL？(3354) 5. 概率统计——三扇门游戏与贝叶斯定理(3262) 评论排行榜 1. 一半人写不出冒泡排序，你的同龄人都躺下了(30) 2. 大数据算法——布隆过滤器(28) 3. MySQL不香吗，为什么还要有noSQL？(14) 4. 随机数大家都会用，但是你知道生成随机数的算法吗？(9) 5. 计算机专业的学生要怎样做才能避免成为低级的码农？(6) 推荐排行榜 1. 大数据算法——布隆过滤器(41) 2. MySQL不香吗，为什么还要有noSQL？(20) 3. 一半人写不出冒泡排序，你的同龄人都躺下了(17) 4. 从头搭建一个“微博”有多难(14) 5. 对于技术岗位而言，开发岗累还是算法岗累呢？(9)

Appium+python自动化（三十一）logging 程序员的世界你不懂 appium 自动化运维
日志概述日志作用不管是在项目开发还是测试过程中，项目运行一旦出现问题日志信息就非常重要了。日志是定位问题的重要手段，就像侦探人员要根据现场留下的线索来推断案情。日志级别脚本运行会有很多的情况，比如调试信息、报错异常信息等。日志要根据这些不同的情况来继续分级管理，不然对于排查问题的筛选会有比较大的干扰。。日志一般定位的级别如下：级别何时使用DEBUG调试信息，也是最详细的日志信息。INFO证明事情按
（三十一）深度解析领域特定语言（DSL）第六章——语法分析：递归下降语法分析器（Recursive-Descent Parser） weixin_46217641 DSL 领域特定语言开发语言软件构建 java
一、基本原理自顶向下语法分析器主要包括如下两种类型：递归下降语法分析器。一种基于函数递归的分析技术，可以通过回溯来处理一些更复杂的语法，但效率会降低，且可能导致无限循环。LL(k)语法分析器。一种表格驱动的预测分析器，算法比较复杂，但比递归下降分析器强大，可以处理更大的语法类别。递归下降分析方法的核心优势在于其直观性和低学习成本，特别适合手动实现语法分析器的场景。尽管语法分析器生成器（如ANTLR
微信小程序通过nodejs云函数解密获得微信步数 wstcl 微信小程序小程序
在前一文章我讲了如何通过php后端解密encryptedData获得过去三十一天微信运动步数，这对于已有自己服务器者来说是个不错的选择，在服务器上需要进行十分复杂的配置，但如果仅为了实现这一个功能，去租用服务器，显然成本太高，微信小程序开发工具本身就为提供了更“轻”成本的方案——nodejs云函数。要运行云函数，要安装nodejs，百度十分容易搜索到，如果在开始本文前你还没有接触过云函数，请自行阅
基于cornerstone3D的dicom影像浏览器第三十一章从PACS服务加载图像西哥写代码 javascript dicom pacs
文章目录前言一、两个服务接口1.查询检查接口2.查询图像接口二、查询界面组件三、修改归档总结前言"基于cornerstone3D的dicom影像浏览器"系列文章中都是加载本地文件夹的的dicom图像。作为一个合格的dicom影像浏览器需要对接PACS服务端，从PACS服务查询检查，下载图像。本章实现一个查询界面，对接PACS服务。效果如下：一、两个服务接口PACS服务需要提供两个接口查询检查接口查
第三十一天打卡不爱吃山楂罐头 python打卡 python
@浙大疏锦行今日的示例代码包含2个部分notebook文件夹内的ipynb文件，介绍下今天的思路项目文件夹中其他部分：拆分后的信贷项目，学习下如何拆分的，未来你看到的很多大项目都是类似的拆分方法知识点回顾规范的文件命名规范的文件夹管理机器学习项目的拆分编码格式和类型注解作业：尝试针对之前的心脏病项目ipynb，将他按照今天的示例项目整理成规范的形式，思考下哪些部分可以未来复用。importosim
LeeCode打卡第三十一天一只大毛吖 windows 算法 leetcode 深度优先数据结构 java
LeeCode打卡第三十一天第一题：电话号码的字母组合（LeeCode第17题）:给定一个仅包含数字2-9的字符串，返回所有它能表示的字母组合。答案可以按任意顺序返回。给出数字到字母的映射如下（与电话按键相同）。注意1不对应任何字母。主要思想：最重要的一个点是，最后输出的为一个字符串数组，所以每一个字符串的保存很重要，本题解主要用Stringbuilder中的字符串的拼接方法来实现的。classS
Spring Cloud Alibaba 三十一 Dubbo 十方来财 Alibaba Spring Cloud dubbo
概述ApacheDubbo（原名Dubbo）是阿里巴巴于2011年开源的高性能JavaRPC框架，后来捐赠给Apache基金会成为顶级项目。Dubbo在国内互联网行业有着广泛的应用，常被用于构建大规模分布式服务或微服务体系。下面将介绍Dubbo的主要特性、核心组件、典型用法以及常见问题，为你在分布式服务架构中使用Dubbo提供一个入门指引。1.核心特性高性能RPC采用单一长连接和NIO异步通讯机制
Java面试高频问题（31-33）风铃儿~ 面试 java 算法
三十一、服务网格：东西向流量治理与故障注入服务网格架构分层mermaidgraphBTsubgraphControlPlaneAPilot-->BEnvoySidecarCMixer-->BDCitadel-->BendsubgraphDataPlaneB-->E服务AB-->F服务BB-->G服务Cend核心能力矩阵功能维度Istio实现方案Linkerd方案技术选型点流量路由VirtualSe
管理杂谈——采石矶大捷的传奇与启示号钟管理杂谈团队管理职场和发展领导力
南宋抗金史上，岳飞与岳家军的铁血传奇家喻户晓，但另一位力挽狂澜的“文官战神”却常被忽视——他从未掌兵，却在南宋存亡之际整合溃军，以少胜多，缔造采石矶大捷。此人正是虞允文。一介书生何以扭转乾坤？他的故事又能为现代管理者提供哪些启示？大家好，我是王浩！观今宜鉴古，无古不成今。今天我就为大家讲述这段惊心动魄的历史。绍兴三十一年（公元1161年），金主完颜亮率六十万大军分四路南下，南宋两淮防线迅速崩溃，长
硬件工程师面试常见问题（7）嘿，二极管硬件工程
第三十一问：RTC电路，电池寿命估算上图可知，该电路有两个供电一个是电池供电，一个是其他供电，已知电池大小为120mAh，该电路在电池供电下吃3uA的电流，计算120*（10^3）/3/24/365=4.56（年）；第三十二问：latch电平触发和register边沿触发的区别latch电平触发：高于某个值时为高电平，低于某个值时为低电平，高电平或者低电平采样触发事件。register边沿触发：上
代码随想录算法训练营第三十一天|56. 合并区间、738.单调递增的数字、968.监控二叉树一杯咖啡Miracle 代码随想录算法训练营算法 leetcode 数据结构 python
今日题目56.合并区间题目链接：56.合并区间-力扣（LeetCode）思考：本题需要对有重叠区间进行合并，最终结果存放多个无重叠的区间。首先对原始数组按照区间左边界由小到大排序，这样便于从左到右遍历区间。每次结果保存的都是一个区间，只有当无重叠的情况才会保存该区间，这个被保存的区间需要随着遍历更新，因此初始化left和right为数组的第一个区间的左右边界。相邻两个区间不重叠时，前面的区间就可以
多模态大语言模型arxiv论文略读（三十一） Jamence #mllm_daily 语言模型人工智能自然语言处理
FromGPT-4toGeminiandBeyond:AssessingtheLandscapeofMLLMsonGeneralizability,TrustworthinessandCausalitythroughFourModalities➡️论文标题：FromGPT-4toGeminiandBeyond:AssessingtheLandscapeofMLLMsonGeneralizabili
2024三掌柜赠书活动第三十一期：数字王国里的虚拟人――技术、商业与法律解读三掌柜666 人工智能
目录前言虚拟人定义关键技术应用场景商业价值及挑战法律解读1.知识产权2.隐私权和数据保护3.责任归属关于《数字王国里的虚拟人――技术、商业与法律解读》编辑推荐内容简介作者简介精彩书评图书目录书中前言/序言《数字王国里的虚拟人――技术、商业与法律解读》全书速览结束语前言在数字时代，虚拟人作为一种新兴的科技现象，正逐渐走进公众视野，从虚拟偶像、数字助手到虚拟客服，虚拟人技术的应用领域日益广泛。尤其是近
Android 天气APP（三十一）每日提醒弹窗 2401_89191684 android
增加位置如下：然后进入SplashActivity，重写getBiYingResult方法，代码如下：/**必应壁纸数据返回@paramresponseBiYingImgResponse*/@OverridepublicvoidgetBiYingResult(Responseresponse){if(response.body().getImages()!=null){//得到的图片地址是没有前缀
C# 重构 believe209 C#c#重构 NET
2009年，SeanChambers在其博客中发表了31DaysofRefactoring:Usefulrefactoringtechniquesyouhavetoknow系列文章，每天发布一篇，介绍一种重构手段，连续发文31篇，故得名“重构三十一天：你应该掌握的重构手段”。此外，SeanChambers还将这31篇文章【即31种重构手段】整理成一本电子书，以下是博客原文链接和电子书下载地址：博客
NLP高频面试题（三十一）——多模态预训练模型的主要结构、特征对齐与融合方法及对比损失函数详解 Chaos_Wang_ NLP常见面试题自然语言处理人工智能
多模态学习的背景与挑战多模态学习旨在让模型同时理解和融合来自不同模态（如图像和文本）的信息，以获得更全面的语义理解。在人类认知中，我们习惯将视觉、语言、听觉等多种信息共同处理，因此发展能够整合多模态数据的人工智能模型具有重要意义。近几年，随着深度学习在计算机视觉和自然语言处理领域的突破，研究者开始探索将视觉和语言模态进行联合预训练，希望模型能从海量未标注的图文数据中学习通用表示，从而在下游任务（例
《 C++ 点滴漫谈：三十一》写好递归不踩坑：C++ 递归函数的精髓与实战 Lenyiin 编程显微镜 c++递归 Lenyiin
摘要递归是C++语言中至关重要的编程技术，广泛应用于数据结构、算法设计和数学计算等领域。本文系统讲解了递归的基本概念、分类及其工作原理，并分析了常见应用，如二分查找、快速排序和深度优先搜索。同时，针对递归的性能问题，我们探讨了优化策略，包括尾递归优化、记忆化搜索和动态规划等。此外，文章介绍了C++11及以后的现代特性，如constexpr递归、std::function与递归lambda以及C++
从头开始学C语言第三十一天——void指针和const指针神阶平天牛魔王 c语言
void指针void指针是一种不确定数据类型的指针，可以通过强制转换类型让该指针指向任何数据类型的变量。说明形式：void*对于void指针，在没有强制转换数据类型之前，不能进行指针的算术运算#includeintmain(){inta=10;void*p;p=&a;printf("%d%d\n",a,*(int*)p);return0;}printf("%d%d\n",a,*(int*)p);这
第三十一篇数据仓库（DW）与商业智能（BI）架构设计与实践指南随缘而动，随遇而安数据库 sql 数据仓库大数据数据库架构
目录一、DW/BI架构核心理论与选型策略1.1主流架构模式对比（1）Kimball维度建模架构（2）Inmon企业工厂架构（3）混合架构二、架构设计方法论与实施步骤2.1维度建模实战指南（1）模型选择决策树（2）ETL开发规范2.2实时BI技术栈选型三、全链路实施与优化策略3.1五阶段实施框架3.2数据治理体系构建四、行业场景深度实践4.1电商用户行为分析4.2金融风控实时预警五、关键问题解析Q1
先进制造aps专题三十一免费企业高级计划和优化(Advanced Planning and Optimizer)产品FreeAPO简介 lijianhua_9712 aps
FreeAPO是一款免费的企业高级计划和优化（APO，AdvancedPlanningandOptimizer）产品，提供了比SAPAPO更丰富的功能包括以下软件:1.销售需求预测软件免费版(dp)2.车辆路径调度软件免费版(vrp)3.高级生产计划和排程软件免费版(aps)4.供应链网络规划设计软件开源免费版(snp)5.生产排产仿真/工厂制造仿真软件开源免费版(sim)6.约束优化求解器软件开
WIN32汇编： 31.列表视图控件 GodDragon win32汇编汇编 buffer listview null report string
第三十一课列表视图控件本课中我们将学习如何创建和使用列表视图控件。理论：列表视图控件和树型视图、丰富文本编辑控件一样是通用控件的一种。可能您都已经知道了列表视图控件，只不过是不知道它的确切名字而已。列表视图控件可以用来很好地显示项目。在这方面它和列表框相同，只不过它的性能更强。有两种方法创建一个列表视图控件。第一种也是最简单的方法是：用资源编辑器来创建它。用该种方法只是不要忘记在您的代码（的任何位
第三十一天：Scrapyd的安装及使用穿梭的编织者 Python爬虫训练营 python 开发语言
文章目录一、安装scrapyd二、安装setuptools三、部署工程1.创建项目2.启动scrapyd3.部署项目4.配置scrapyd-deploy5.使用scrapyd-deploy四、运行Spider五、查看效果一、安装scrapydpipinstallscrapyd二、安装setuptools为什么要安装这个工具？因为部署的应用需要打包成*.egg才能运行官网下载地址：https://p
跟我一起学 Python 数据处理（三十一）：攻克 PDF 数据采集中的难题 lilye66 python pdf 数据库 beautifulsoup
跟我一起学Python数据处理（三十一）：攻克PDF数据采集中的难题在数据处理的征程中，我们不断探索与成长。本文继续以Python处理PDF数据为主题，深入剖析其中复杂问题的解决之道，旨在与大家携手提升Python数据处理能力，共同跨越重重难关。一、数据采集问题剖析在处理PDF文本数据时，常遭遇诸多棘手状况。如文中处理国家相关数据时，双行国家名称对应的数值采集出现错误。查看源数据发现，双行国家对应
Java基础知识总结（三十一）--API--- java.lang.System a18007931080 java 开发语言
属性和行为都是静态的。longcurrentTimeMillis();//返回当前时间毫秒值exit();//退出虚拟机PropertiesgetProperties();//获取当前系统的属性信息Propertiesprop=System.getProperties();//获取系统的属性信息，并将这些信息存储到Properties集合中。System.setProperty("myname",
【机器学习：三十一、推荐系统：从基础到应用】 KeyPan 机器学习机器学习人工智能决策树算法深度学习
1.推荐系统概述推荐系统是一种根据用户的兴趣和偏好，为用户提供个性化建议的技术，广泛应用于电子商务、流媒体平台和社交媒体等领域。通过分析用户行为数据，推荐系统可以帮助用户发现他们感兴趣的内容，同时提升平台的用户体验和商业收益。定义与作用推荐系统是一种数据过滤技术，旨在从海量数据中筛选出用户可能感兴趣的信息。它不仅能提升用户的满意度，还能增加平台的转化率和黏性。分类推荐系统主要分为以下三类：基于内容
小说《灰色年代》第三章、书中自有黄金屋/第二节（1）/作者:邵明房作者_0970
——第三章、第二节、科举与国考（1）科举制的简介：科举制度是古代读书人，参加选拔考试的制度，它是历代通过考试选拔官吏的一种手段，由于采用分科取士的办法，所以叫做科举。科举制从隋代开始实行，到清光绪三十一年（1905年）举行最后一科进士考试为止，经历了1300年，1905年9月2日，清政府废除科举制度。科举考前三名，分别为状元、榜眼、探花。这种划分和称谓是在元朝时确定下来的，明清时期沿袭了元朝的这种
第三十一节:Vue路由:前端路由vs后端路由的了解曹老师
1.认识前端路由和后端路由前端路由相对于后端路由而言的,在理解前端路由之前先对于路由有一个基本的了解路由:简而言之,就是把信息从原地址传输到目的地的活动对于我们来说路由就是:根据不同的url地址展示不同的页面内容1.1后端路由以前咱们接触比较多的后端路由,当改变url地址时,浏览器会向服务器发送请求,服务器根据这个url,返回不同的资源内容后端路由的特点就是前端每次跳转到不同url地址,都会重新访
日记！（2022年7月31日！）。傅申1980
日记！！“毅力”！！“坚强”！！“顽强”！！“关键”！！“决定”！！“沉沦”！！（二零二二年，七月三十一日，星期天，凌晨，两点四十五分，左右！！）。（上海市，北部，北部“郊区”，“宝山”区，“写作”者，一“住处”，一普通，“商务”公寓，“写字”楼内，一“破旧”的，小“书房”里！！）。“人”作任何的“事情”，都要“必须”具备“毅力”！！“毅力”是人，“自身力量”的“倍增器”！！有“毅力”的人，往往能
在30岁前要养成的习惯梅子雨的季节
我是一个女生。有句俗话说：男人三十一枝花，那么女人呢？91年出生，今年28岁（实际上需要到12月份才到28岁），说不在乎自己的年龄其实是骗人的。我之所以介绍自己是一个女生，而不是一个女人，可能其中也有一部分在乎年龄的原因（笑）。在我的意识形成时，女人是指已经结了婚，有了孩子，有了家庭的女性，才能称之为女人。所以，我一直抗拒自己被称之为女人。在自己思想还有些叛逆的时候，就和朋友争论过女生，女人和女性
《苦中乐》清风明月冯耀杰
日升日落又一天，披星戴月莫等闲。休言耕耘辛酸苦，亦痛亦笑亦悠然。素茶薄酒半诗书，文章为业友笔砚。忘却生存艰涩苦，便是人间活神仙！（清风明月于五月三十一号）‘
用MiddleGenIDE工具生成hibernate的POJO（根据数据表生成POJO类） AdyZhang POJO eclipse Hibernate MiddleGenIDE
推荐:MiddlegenIDE插件, 是一个Eclipse 插件. 用它可以直接连接到数据库, 根据表按照一定的HIBERNATE规则作出BEAN和对应的XML ，用完后你可以手动删除它加载的JAR包和XML文件! 今天开始试着使用
.9.png Cb123456 android
“点九”是andriod平台的应用软件开发里的一种特殊的图片形式，文件扩展名为：.9.png 　　智能手机中有自动横屏的功能,同一幅界面会在随着手机(或平板电脑)中的方向传感器的参数不同而改变显示的方向,在界面改变方向后,界面上的图形会因为长宽的变化而产生拉伸,造成图形的失真变形。　　我们都知道android平台有多种不同的分辨率，很多控件的切图文件在被放大拉伸后，边
算法的效率天子之骄算法效率复杂度最坏情况运行时间大O阶平均情况运行时间
算法的效率效率是速度和空间消耗的度量。集中考虑程序的速度，也称运行时间或执行时间，用复杂度的阶(O)这一标准来衡量。空间的消耗或需求也可以用大O表示，而且它总是小于或等于时间需求。以下是我的学习笔记： 1.求值与霍纳法则，即为秦九韶公式。 2.测定运行时间的最可靠方法是计数对运行时间有贡献的基本操作的执行次数。运行时间与这个计数成正比。
java数据结构何必如此 java 数据结构
Java 数据结构 Java工具包提供了强大的数据结构。在Java中的数据结构主要包括以下几种接口和类：枚举（Enumeration）位集合（BitSet）向量（Vector）栈（Stack）字典（Dictionary）哈希表（Hashtable）属性（Properties）以上这些类是传统遗留的，在Java2中引入了一种新的框架-集合框架(Collect
MybatisHelloWorld 3213213333332132
//测试入口TestMyBatis package com.base.helloworld.test; import java.io.IOException; import org.apache.ibatis.io.Resources; import org.apache.ibatis.session.SqlSession; import org.apache.ibat
Java|urlrewrite|URL重写|多个参数 7454103 java xml Web 工作
个人工作经验！如有不当之处，敬请指点 1.0 web -info 目录下建立 urlrewrite.xml 文件类似如下： <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE u
达梦数据库+ibatis darkranger sql mysql ibatis SQL Server
--插入数据方面如果您需要数据库自增... 那么在插入的时候不需要指定自增列. 如果想自己指定ID列的值, 那么要设置 set identity_insert 数据库名.模式名.表名; ----然后插入数据; example: create table zhabei.test( id bigint identity(1,1) primary key, nam
XML 解析四种方式 aijuans android
XML现在已经成为一种通用的数据交换格式,平台的无关性使得很多场合都需要用到XML。本文将详细介绍用Java解析XML的四种方法。 XML现在已经成为一种通用的数据交换格式,它的平台无关性,语言无关性,系统无关性,给数据集成与交互带来了极大的方便。对于XML本身的语法知识与技术细节,需要阅读相关的技术文献,这里面包括的内容有DOM(Document Object
spring中配置文件占位符的使用 avords
1.类 <?xml version="1.0" encoding="UTF-8"?><!DOCTYPE beans PUBLIC "-//SPRING//DTD BEAN//EN" "http://www.springframework.o
前端工程化-公共模块的依赖和常用的工作流 bee1314 webpack
题记：一个人的项目，还有工程化的问题嘛？我们在推进模块化和组件化的过程中，肯定会不断的沉淀出我们项目的模块和组件。对于这些沉淀出的模块和组件怎么管理？另外怎么依赖也是个问题？你真的想这样嘛？ var BreadCrumb = require(‘../../../../uikit/breadcrumb’); //真心ugly。
上司说「看你每天准时下班就知道你工作量不饱和」，该如何回应？ bijian1013 项目管理沟通 IT职业规划
问题：上司说「看你每天准时下班就知道你工作量不饱和」，如何回应正常下班时间6点，只要是6点半前下班的，上司都认为没有加班。 Eno-Bea回答，注重感受，不一定是别人的虽然我不知道你具体从事什么工作与职业，但是我大概猜测，你是从事一项不太容易出现阶段性成果的工作
TortoiseSVN，过滤文件征客丶 SVN
环境： TortoiseSVN 1.8 配置：在文件夹空白处右键选择 TortoiseSVN -> Settings 在 Global ignote pattern 中添加要过滤的文件：多类型用英文空格分开 *name ：过滤所有名称为 name 的文件或文件夹 *.name ：过滤所有后缀为 name 的文件或文件夹 --------
【Flume二】HDFS sink细说 bit1129 Flume
1. Flume配置 a1.sources=r1 a1.channels=c1 a1.sinks=k1 ###Flume负责启动44444端口 a1.sources.r1.type=avro a1.sources.r1.bind=0.0.0.0 a1.sources.r1.port=44444 a1.sources.r1.chan
The Eight Myths of Erlang Performance bookjovi erlang
erlang有一篇guide很有意思： http://www.erlang.org/doc/efficiency_guide 里面有个The Eight Myths of Erlang Performance： http://www.erlang.org/doc/efficiency_guide/myths.html Myth: Funs are sl
java多线程网络传输文件(非同步)-2008-08-17 ljy325 java 多线程 socket
利用 Socket 套接字进行面向连接通信的编程。客户端读取本地文件并发送；服务器接收文件并保存到本地文件系统中。使用说明:请将TransferClient, TransferServer, TempFile三个类编译，他们的类包是FileServer. 客户端: 修改TransferClient: serPort, serIP, filePath, blockNum,的值来符合您机器的系
读《研磨设计模式》-代码笔记-模板方法模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.sql.Connection; import java.sql.DriverManager; import java.sql.PreparedStatement; import java.sql.ResultSet;
配置心得 chenyu19891124 配置
时间就这样不知不觉的走过了一个春夏秋冬，转眼间来公司已经一年了，感觉时间过的很快，时间老人总是这样不停走，从来没停歇过。作为一名新手的配置管理员，刚开始真的是对配置管理是一点不懂，就只听说咱们公司配置主要是负责升级，而具体该怎么做却一点都不了解。经过老员工的一点点讲解，慢慢的对配置有了初步了解，对自己所在的岗位也慢慢的了解。做了一年的配置管理给自总结下： 1.改变从一个以前对配置毫无
对“带条件选择的并行汇聚路由问题”的再思考 comsci 算法工作软件测试嵌入式领域模型
2008年上半年，我在设计并开发基于”JWFD流程系统“的商业化改进型引擎的时候，由于采用了新的嵌入式公式模块而导致出现“带条件选择的并行汇聚路由问题”(请参考2009-02-27博文)，当时对这个问题的解决办法是采用基于拓扑结构的处理思想，对汇聚点的实际前驱分支节点通过算法预测出来，然后进行处理，简单的说就是找到造成这个汇聚模型的分支起点，对这个起始分支节点实际走的路径数进行计算，然后把这个实际
Oracle 10g 的clusterware 32位下载地址 daizj oracle
Oracle 10g 的clusterware 32位下载地址 http://pan.baidu.com/share/link?shareid=531580&uk=421021908 http://pan.baidu.com/share/link?shareid=137223&uk=321552738 http://pan.baidu.com/share/l
非常好的介绍：Linux定时执行工具cron dongwei_6688 linux
Linux经过十多年的发展，很多用户都很了解Linux了，这里介绍一下Linux下cron的理解，和大家讨论讨论。cron是一个Linux 定时执行工具，可以在无需人工干预的情况下运行作业，本文档不讲cron实现原理，主要讲一下Linux定时执行工具cron的具体使用及简单介绍。新增调度任务推荐使用crontab -e命令添加自定义的任务（编辑的是/var/spool/cron下对应用户的cr
Yii assets目录生成及修改 dcj3sjt126com yii
assets的作用是方便模块化，插件化的，一般来说出于安全原因不允许通过url访问protected下面的文件，但是我们又希望将module单独出来，所以需要使用发布，即将一个目录下的文件复制一份到assets下面方便通过url访问。 assets设置对应的方法位置 \framework\web\CAssetManager.php assets配置方法在m
mac工作软件推荐 dcj3sjt126com mac
mac上的Terminal + bash ＋ screen组合现在已经非常好用了，但是还是经不起iterm＋zsh＋tmux的冲击。在同事的强烈推荐下，趁着升级mac系统的机会，顺便也切换到iterm＋zsh＋tmux的环境下了。我为什么要要iterm2 切换过来也是脑袋一热的冲动，我也调查过一些资料，看了下iterm的一些优点： * 兼容性好，远程服务器 vi 什么的低版本能很好兼
Memcached(三)、封装Memcached和Ehcache frank1234 memcached ehcache spring ioc
本文对Ehcache和Memcached进行了简单的封装，这样对于客户端程序无需了解ehcache和memcached的差异，仅需要配置缓存的Provider类就可以在二者之间进行切换，Provider实现类通过Spring IoC注入。 cache.xml <?xml version="1.0" encoding="UTF-8"?>
Remove Duplicates from Sorted List II hcx2013 remove
Given a sorted linked list, delete all nodes that have duplicate numbers, leaving only distinct numbers from the original list. For example,Given 1->2->3->3->4->4->5,
Spring4新特性——注解、脚本、任务、MVC等其他特性改进 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
MySQL安装文档 liyong0802 mysql
工作中用到的MySQL可能安装在两种操作系统中，即Windows系统和Linux系统。以Linux系统中情况居多。安装在Windows系统时与其它Windows应用程序相同按照安装向导一直下一步就即，这里就不具体介绍，本文档只介绍Linux系统下MySQL的安装步骤。 Linux系统下安装MySQL分为三种：RPM包安装、二进制包安装和源码包安装。二
使用VS2010构建HotSpot工程 p2p2500 HotSpot OpenJDK VS2010
1. 下载OpenJDK7的源码： http://download.java.net/openjdk/jdk7 http://download.java.net/openjdk/ 2. 环境配置 ▶
Oracle实用功能之分组后列合并 seandeng888 oracle 分组实用功能合并
1 实例解析由于业务需求需要对表中的数据进行分组后进行合并的处理，鉴于Oracle10g没有现成的函数实现该功能，且该功能如若用JAVA代码实现会比较复杂，因此，特将SQL语言的实现方式分享出来，希望对大家有所帮助。如下：表test 数据如下： ID,SUBJECTCODE,DIMCODE,VALUE 1&nbs
Java定时任务注解方式实现 tuoni java spring jvm xml jni
Spring 注解的定时任务，有如下两种方式：第一种： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http
11大Java开源中文分词器的使用方法和分词效果对比 yangshangchuan word分词器 ansj分词器 Stanford分词器 FudanNLP分词器 HanLP分词器
本文的目标有两个： 1、学会使用11大Java开源中文分词器 2、对比分析11大Java开源中文分词器的分词效果本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码，至于效果哪个好，那要用的人结合自己的应用场景自己来判断。 11大Java开源中文分词器，不同的分词器有不同的用法，定义的接口也不一样，我们先定义一个统一的接口： /** * 获取文本的所有分词结果, 对比

三十一

你可能感兴趣的:(三十一)