AI科技大本营

基于机器学习场景，如何搭建特征数据管理中台？

「免费学习 60+ 节公开课：投票页面，点击讲师头像」

作者 | 陈迪豪，第四范式资深架构师

编辑 | Jane

出品 | AI科技大本营（ID：rgznai100）

本文为CSDN即将推出的《新战场：决胜中台》专刊的第 5 篇文章。

一、机器学习场景与高性能特征管理中台

理想的机器学习场景是给到数据，训练模型后就能直接上线服务。然而真实的 AI 应用落地过程非常复杂，并不是有数据、懂算法就可以了。

首先建模具有一定门槛，建模科学技术人才除了要懂机器学习算法，还要知道熟悉建模业务场景，会使用 SQL、Python 做数据处理、特征拼接、支持时序特征；建模完成到上线，要保持在线与离线一致性，实现高性能硬实时预估服务；工程上涉及特征监控、读写分离、实时特征计算，这些情况在真实的 AI 应用场景中都要考虑到。

以我们合作的某银行事中反欺诈场景下的性能要求为例：首先实时性要求 P99 响应时间在 20 毫秒以内，比大家在业务里统计的平均延时要小很多，只有 1% 的时间可以在 20 毫秒以上；二是建模特征非常复杂，在线和离线的模型特征超过1000个；三是窗口特征需要能够在实时场景中生成；四是模型迭代周期短，需要定期上线更新。

在这种情况下，对企业特征管理中台有什么要求？

1、存储和计算必须是高性能的；

2、对离线特征的支持要与在线保持一致性；

3、训练得到的模型要支持端到端的预估；

4、支持单行和时序特征；

5、预估服务支持分布式高可用。

其中为什么强调特征的离线在线一致性？

用开源软件一般可以做到的是，离线积累一部分数据，然后用开源的深度学习框架训练模型，模型上线时把模型加载进来，但是机器学习除了模型预估还包括前面的处理过程，每个离线特征要支持在线预估都需要花几倍时间进行维护，以确保离线数据到在线预估的特征数据是一致的。

我们如何保证离线在线一致性呢？

通过一个统一的特征描述语言，用户离线环境中用这种统一特征描述语言进行表示与建模，在线环境中直接使用这个建模脚本来上线。

它的基本逻辑架构：

1、离线阶段是模型训练阶段，使用分布式存储存储原始数据；大数据处理引擎获得数据后进行划窗，窗口有不同的聚合计算逻辑，通过聚合计算得到一系列特征，这种特征可能是跨行和跨表的；最后，生成的数据处理经过特征签名可以直接给深度机器学习框架做训练。这是离线的阶段，将数据处理部分翻译成Spark，以分布式任务的方式运行。

2、在线阶段肯定不能依赖 Spark 做实时预估，只可以使用流式接口实现近实时的计算；但因为我们有一个统一的特征描述语言，所以可以保证特征计算生成的代码与离线阶段是一样的，这样也就保证了离线在线保持了计算逻辑的一致性。

3、特征抽取的数据怎么来？离线阶段可以通过读分布式存储然后通过划窗来获取，AI特征管理中台中的存储组件包括一个实时特征时序数据库，通过这个时序数据库可以获取在线的窗口数据，然后实现一个高性能的模型评分服务。

二、特征管理中台的计算和存储核心剖析

这部分将主要介绍整体架构和计算、存储两大引擎。

如上图所示，整体架构的左侧是用户接口，用户可以用控制台、命令行、SDK的方式访问核心组件。底层是硬件包括 HDD、SSD、网卡等；中间层是特征管理的两个重要组件，FE特征计算与存储引擎，在线有超高性能全内存时序数据库，得到的数据可以给自研的机器学习框架使用，或者给 TensorFlow 等开源的框架使用。

我们的特征描述语言是什么？其实是针对机器学习场景中定制的 DSL，有针对这种语法的编译器和解析器。语法可以参考下面的例子，第 1 行代码表示创建一个窗口，通过窗口的参数可以保证后续每一行的特征计算都在一个窗口数据内，在窗口数据内可以做很多复杂的计算。第 3 行是单行计算特征，很简单，像大家用过的 Spark 或 Python 都包含了很多特征计算，如内置支持日期处理；像条件表达式这类复杂的计算，大家可以用 SQL 或者 Spark。另外，我们自己跟标准窗口不一样的部分是根据科学家反馈设计跨表的窗口计算、拼表计算特征、特殊拼表特征也可以在 DSL 中描述。

为什么要设计DSL？首先，机器学习产品中数据处理的逻辑是固定的，它跟 SQL 不一样。SQL是通用数据处理语言，很多方法是标准 SQL 中没有的，对条件表达式的处理或某种时间特征的计算，都是通过自定义来支持的。通过这种描述语言生成一个特征可以保证在线也能够使用。

第二种接口是 SQL。SQL是目前最流行的数据处理语言，可以对全表做Partion分区，分区后可以排序或者做聚合计算，也可以做全表的数据处理，但标准的 SQL 是没办法上线的，有很多支持SQL 的系统，如 MySQL、Spark、Hive 等，虽然支持了丰富的数据处理逻辑，但都是不可以直接上线的。

为什么SQL上线这么困难了？因为 SQL 的聚合计算可以是当前行，也可以是当前一段时间的窗口数据，实际上如果在 SQL 里对当前行以后的数据做聚合计算就会造成差数据穿越问题。用一个机器学习场景中的例子进行解释，你要计算当前交易是否属于欺诈交易，取得的时间是在这个时间以前某一天的时间和当前时间以后的某一个时间进行特征计算，但在实际上线时是没办法获取未来数据作为特征计算的，这种建模时就出现的穿越特征也会严重影响模型上线后的效果。

这种特征可以通过SQL的窗口函数来获得，我们称之为穿越特征，也就是在特征计算时是不应该引用当前行以后的数据，因为在真实线上预估中无法获取比当前行以后的数据。在我们的特征管理平台中，对于时间窗口的定义就限制了following参数必须是 Current Row，不计算当前行以后的特征。在这种限制的情况下，在线预估时就确保了窗口数据不会超过当前行，前面的数据可以通过时序特征数据库来做聚合，这种方式也保证优化后的 SQL 是符合机器学习在线预估的要求的，可以直接上线到实时预估服务中。

我们对 SQL 还有一些定制化拓展，例如对数据处理后的列可以做连续或者离散的特征签名计算，这是针对稠密和稀疏特征常用的签名方法。因为机器学习的输入数据不一定是大宽表，推荐系统中的输入一般都是非常稀疏离散的，这种稀疏数据结构在 SQL中是无法表示的，我们通过语法的拓展让它直接生成样本文件，这种样本文件本身支持稀疏和稠密的格式，可以直接对接开源的机器学习框架。

除了面向用户的特征描述语言，特征管理中台还支持 AutoML自动特征工程，用户只需输入原始的多个表数据，AutoML 程序可以对它进行自动分组与自动特征筛选，给出组合后的特征效果的评估，在一定的计算资源下进行迭代优化，最后生成SQL和特征描述语言配置，在线服务也可以直接使用导出的配置来上线。

在计算引擎中还有非常多的功能优化点：1、支持多行时序特征，不只是针对单行计算，还可以对多行做聚合；2、支持强类型检查，支持 Map、List 复杂结构和 Lambda 表达式；3、实现 Last Join功能，实现超高性能的多表拼接功能；4、实现定制化跨表Window功能，实现高效的跨表划窗特征生成；什么是跨表Window？就是划窗的主表数据跟获取窗口数据的副表可以不是同一个表；5、支持 TensorFlow、LightGBM 和自研究机器学习机器等；6、预热编译以及内存编译器，使用Javac的编译优化；7、支持动态加载 UDF、UDAF 等用户自定义函数和功能。

计算性能也有很多优化：1、优化Spark的Window实现，支持 CodeGen 函数以及跨表窗口计算；2、同一进程内的内存编译优化，充分利用 Java 编译器优化生成高性能 byte code；3、支持特征级别的异常隔离，用户在同个窗口的多个特征计算，不会因为数据异常导致特征失败，也不会影响其他特征；4、对表达式也做了重写优化，常量表达式可以直接替换，对重复计算没有结果的表可以做提前剪枝，并且复用中间表达式的变量；5、在反欺诈机器学习场景中，相同特征下与 PySpark、SparkSQL相比提升了10倍性能；6、支持 RDMA 和 FPGA 硬件加速，对生成样本做高性能压缩，高性能版本比纯软件版本提升了3倍性能。

上面提到的都是计算核心的组件，再说说实现高性能、高并发、时序优化的存储核心——自研的全内存分布式时序数据库。为什么是时序数据库？因为我们在机器学习场景中很多特征都是基于时窗聚合而成的，窗口的特征就要求数据按时间序列进行排序和计算。

对于常见的机器学习场景，例如每笔交易都需要了解前序交易的情况；IoT的场景下，需要提前获得不同设备在不同时间段类的数据信息，所以面向 AI 的时序数据库在机器学习场景中非常有价值。

我们的时序数据库还支持多维度的查询和聚合；支持常见的按行数的数据淘汰策略和TTL。在特征管理中台中还有基于英特尔傲腾持久内存AEP的优化，这是一种全新的存储技术，介于内存和 SSD 之间的非易失性的存储，跟写到 SSD 一样数据不会丢失，同时可以把它当成内存来用。AEP存储的成本比内存低很多，但是会像内存一样优化，实现高性能，使用AEP优化以后性能可以提高 3 倍以上。基于这种新的存储介质可以实现根据热度的分层存储，对非常热的数据可以把表放在全内存里，对没那么热的数据可以放在AEP或者硬盘存储中。

三、特征管理中台在生产环境的应用实践

在一个真实场景 B2C Antifraud 业务中，交易表原始数据表有 2 张交易表和 7 张属性表。它的数据量非常大，总体特征超过 800 个，特征包括基于卡号维度做窗口聚合等数据；或者基于设备维度来定义窗口大小和时间段。

模型训练需要的基础特征包括交易特征、卡特征、客户特征、商户特征以及这几个特征的交叉组合。时序特征包括每张卡和每个设备维度所统计过去交易的最大值、最小值、数量、是不是第一次交易等。最后用到的单表有 5000 万数据，生成的特征有 19 亿维，为什么这么高维？因为用户的设备ID、所在的城市都会离散化，为了避免冲突会用使用超高维稀疏值来存，生成的总特征就有 19 亿维，需要 3T 内存来计算。

在特征管理中台还包括不同类型的数据和特征脚本的管理，支持远程调试环境，支持单机的Notebook 运行；支持全流程的一键上线，上线后预估接口是原始数据表输入，不需要在原始输入上再做数据的预处理和特征抽取处理。对此，我们还提供了 Python 客户端，用户可以写 Python来执行特征抽取逻辑，也可以使用支持的SQL语法，后面可以基于这个特征描述脚本来进行模型训练和应用上线了。

同时，我们也支持 TensorFlow 的分布式训练和内部机器学习框架的分布式计算，模型部署只需要一个简单的命令；部署成高可用的模型预估服务，可以看到，在线预估的输入数据都是原始的表数据，训练时输入表有多少列，这里输入多少列就可以；最后预估后返回特征抽取已经模型预估的结果。

《新战场：决胜中台》专刊已发布文章链接：

平安科技智能认知的“中台战事”
易观的大数据中台之路
知识图谱，下一代数据中台的核心技术
新战场路在何方——详解360金融数据中台之旅

（*本文为AI科技大本营原创文章，转载请微信联系1092722531）

◆

精彩推荐

◆

点击阅读原文，或扫描文首贴片二维码

所有CSDN 用户都可参与投票和抽奖活动

加入福利群，每周还有精选学习资料、技术图书等福利发送

推荐阅读

被追捧为“圣杯”的深度强化学习已走进死胡同
阿里达摩院2020趋势第一弹：感知智能的“天花板”和认知智能的“野望”
11年艺术学习“转投”数学，他出版首本TensorFlow中文教材，成为蚂蚁金服技术大军一员
召回→排序→重排：技术演进趋势的深度之旅，2020 必备！
如何写出让同事膜拜的漂亮代码？
AMD或推出64核128线程HEDT平台；地平线即将推出新一代自动计算平台；阿里达摩院公布2020十大科技趋势……
2019 最烂密码榜单出炉，教你设置神级密码！
GitHub Action 有风险？！
骗了马云 10 亿被骂 4 年后，院士王坚留下 4 条人生启示
万字长文回望2019：影响区块链行业发展的9大事件

你点的每个“在看”，我都认真当成了AI

关于沟通这件事，项目经理不需要每次都面对面进行流程大师兄
很多项目经理都会遇到这样的问题，项目中由于事情太多，根本没有足够的时间去召开会议，那在这种情况下如何去有效地管理项目中的利益相关者？当然，不建议电子邮件也不需要开会的话，建议可以采取下面几种方式来形成有效的沟通，这几种方式可以帮助你努力的通过各种办法来保持和各方面的联系。项目经理首先要问自己几个问题，项目中哪些利益相关者是必须要进行沟通的？可以列出项目中所有的利益相关者清单，同时也整理出项目中哪些
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
2020-01-25 晴岚85
郑海燕坚持分享590天2020.1.24在生活中只存在两个问题。一个问题是：你知道想要达成的目标是什么，但却不知道如何才能达成；另一个问题是：你不知道你的目标是什么。前一个是行动的问题，后一个是结果的问题。通过制定具体的下一步行动，可以解决不知道如何开始行动的问题。而通过去想象结果，对结果做预估，可以解决找不着目标的问题。对于所有吸引我们注意力，想要完成的任务，你可以先想象一下，预期的结果究竟是什
【iOS】MVC设计模式 Magnetic_h ios mvc 设计模式 objective-c 学习 ui
MVC前言如何设计一个程序的结构，这是一门专门的学问，叫做"架构模式"（architecturalpattern），属于编程的方法论。MVC模式就是架构模式的一种。它是Apple官方推荐的App开发架构，也是一般开发者最先遇到、最经典的架构。MVC各层controller层Controller/ViewController/VC（控制器）负责协调Model和View，处理大部分逻辑它将数据从Mod
地推话术，如何应对地推过程中家长的拒绝校师学
相信校长们在做地推的时候经常遇到这种情况：市场专员反馈家长不接单，咨询师反馈难以邀约这些家长上门，校区地推疲软，招生难。为什么？仅从地推层面分析，一方面因为家长受到的信息轰炸越来越多，对信息越来越“免疫”；而另一方面地推人员的专业能力和营销话术没有提高，无法应对家长的拒绝，对有意向的家长也不知如何跟进，眼睁睁看着家长走远；对于家长的疑问，更不知道如何有技巧地回答，机会白白流失。由于回答没技巧和专业
C语言如何定义宏函数？小九格物 c语言
在C语言中，宏函数是通过预处理器定义的，它在编译之前替换代码中的宏调用。宏函数可以模拟函数的行为，但它们不是真正的函数，因为它们在编译时不会进行类型检查，也不会分配存储空间。宏函数的定义通常使用#define指令，后面跟着宏的名称和参数列表，以及宏展开后的代码。宏函数的定义方式：1.基本宏函数：这是最简单的宏函数形式，它直接定义一个表达式。#defineSQUARE(x)((x)*(x))2.带参
微服务下功能权限与数据权限的设计与实现 nbsaas-boot 微服务 java 架构
在微服务架构下，系统的功能权限和数据权限控制显得尤为重要。随着系统规模的扩大和微服务数量的增加，如何保证不同用户和服务之间的访问权限准确、细粒度地控制，成为设计安全策略的关键。本文将讨论如何在微服务体系中设计和实现功能权限与数据权限控制。1.功能权限与数据权限的定义功能权限：指用户或系统角色对特定功能的访问权限。通常是某个用户角色能否执行某个操作，比如查看订单、创建订单、修改用户资料等。数据权限：
《投行人生》读书笔记小蘑菇的树洞
《投行人生》----作者詹姆斯-A-朗德摩根斯坦利副主席40年的职业洞见-很短小精悍的篇幅，比较适合初入职场的新人。第一部分成功的职业生涯需要规划1.情商归为适应能力分享与协作同理心适应能力，更多的是自我意识，你有能力识别自己的情并分辨这些情绪如何影响你的思想和行为。2.对于初入职场的人的建议，细节，截止日期和数据很重要截止日期，一种有效的方法是请老板为你所有的任务进行优先级排序。和老板喝咖啡的好
如何在 Fork 的 GitHub 项目中保留自己的修改并同步上游更新？github_fork_update iBaoxing github
如何在Fork的GitHub项目中保留自己的修改并同步上游更新？在GitHub上Fork了一个项目后，你可能会对项目进行一些修改，同时原作者也在不断更新。如果想要在保留自己修改的基础上，同步原作者的最新更新，很多人会不知所措。本文将详细讲解如何在不丢失自己改动的情况下，将上游仓库的更新合并到自己的仓库中。问题描述假设你在GitHub上Fork了一个项目，并基于该项目做了一些修改，随后你发现原作者对
店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码说私域人工智能小程序
摘要：本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合，阐述了链动2+1模式、AI智能名片和S2B2C商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来了新的机遇，提升了用户信任感、拓展了营销渠道，并实现了线上线下的完美融合。一、引言随着互联网技术的不断发展，社区团购作为一种新兴的商业模式，在满足消费者日常需
消息中间件有哪些常见类型 xmh-sxh-1314 java
消息中间件根据其设计理念和用途，可以大致分为以下几种常见类型：点对点消息队列（Point-to-PointMessagingQueues）：在这种模型中，消息被发送到特定的队列中，消费者从队列中取出并处理消息。队列中的消息只能被一个消费者消费，消费后即被删除。常见的实现包括IBM的MQSeries、RabbitMQ的部分使用场景等。适用于任务分发、负载均衡等场景。发布/订阅消息模型（Pub/Sub
html 中如何使用 uniapp 的部分方法某公司摸鱼前端 html uni-app 前端
示例代码：Documentconsole.log(window);效果展示：好了，现在就可以uni.使用相关的方法了
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
腾讯云技术深度探索：构建高效云原生微服务架构我的运维人生云原生架构腾讯云运维开发技术共享
腾讯云技术深度探索：构建高效云原生微服务架构在当今快速发展的技术环境中，云原生技术已成为企业数字化转型的关键驱动力。腾讯云作为行业领先的云服务提供商，不断推出创新的产品和技术，助力企业构建高效、可扩展的云原生微服务架构。本文将深入探讨腾讯云在微服务领域的最新进展，并通过一个实际案例展示如何在腾讯云平台上构建云原生应用。腾讯云微服务架构概览腾讯云微服务架构基于云原生理念，旨在帮助企业快速实现应用的容
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Google earth studio 简介陟彼高冈yu 旅游
GoogleEarthStudio是一个基于Web的动画工具，专为创作使用GoogleEarth数据的动画和视频而设计。它利用了GoogleEarth强大的三维地图和卫星影像数据库，使用户能够轻松地创建逼真的地球动画、航拍视频和动态地图可视化。网址为https://www.google.com/earth/studio/。GoogleEarthStudio是一个基于Web的动画工具，专为创作使用G
从鸡肉高汤到记忆的魔法再到有效提示的艺术步子哥人工智能
还记得小时候那些天马行空的白日梦吗？也许只要按下键盘上的某个神奇组合，电脑就会发出滴滴的声响，一个隐藏的世界突然在你眼前展开，让你获得超凡的能力，摆脱平凡的生活。这听起来像是玩过太多电子游戏的幻想，但实际上，间隔重复系统给人的感觉惊人地相似。在最佳状态下，这些系统就像魔法一样神奇。本文将以一个看似平凡的鸡肉高汤食谱为例，深入浅出地探讨如何编写有效的间隔重复提示，让你像掌握烹饪技巧一样轻松地掌握记忆
PHP环境搭建详细教程好看资源平台前端 php
PHP是一个流行的服务器端脚本语言，广泛用于Web开发。为了使PHP能够在本地或服务器上运行，我们需要搭建一个合适的PHP环境。本教程将结合最新资料，介绍在不同操作系统上搭建PHP开发环境的多种方法，包括Windows、macOS和Linux系统的安装步骤，以及本地和Docker环境的配置。1.PHP环境搭建概述PHP环境的搭建主要分为以下几类：集成开发环境：例如XAMPP、WAMP、MAMP，这
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
关于提高复杂业务逻辑代码可读性的思考编程经验分享开发经验 java 数据库开发语言
目录前言需求场景常规写法拆分方法领域对象总结前言实际工作中大部分时间都是在写业务逻辑，一般都是三层架构，表示层（Controller）接收客户端请求，并对入参做检验，业务逻辑层（Service）负责处理业务逻辑，一般开发都是在这一层中写具体的业务逻辑。数据访问层（Dao）是直接和数据库交互的，用于查数据给业务逻辑层，或者是将业务逻辑层处理后的数据写入数据库。简单的增删改查接口不用多说，基本上写好一
18-115 一切思考不能有效转化为行动，都TM是扯淡！成长时间线
7月25号写了一篇关于为什么会断更如此严重的反思，然而，之后日更仅仅维持了一周，又出现了这次更严重的现象。从8月2号到昨天8月6号，5天！又是5天没有更文！虽然这次断更时间和上次一样，那为什么说这次更严重？因为上次之后就分析了问题的原因，以及应该如何解决，按理说应该会好转，然而，没过几天严重断更的现象再次出现，想想，经过反思，问题依然没有解决与改变，这让我有些担忧。到底是哪里出了问题，难道我就真的
我在意的 Yuexiaofeng
我所在意的，往往是你最容易忽略的，这让我感到为难。我所感动的，你却无动于衷，这使我感到惭愧。我所做的，你却视而不见，这让我不知如何是好。
四章-32-点要素的聚合彩云飘过
本文基于腾讯课堂老胡的课《跟我学Openlayers--基础实例详解》做的学习笔记，使用的openlayers5.3.xapi。源码见1032.html，对应的官网示例https://openlayers.org/en/latest/examples/cluster.htmlhttps://openlayers.org/en/latest/examples/earthquake-clusters.
如果做到轻松在股市赚钱？只要坚持这三个原则。履霜之人
大A股里向来就有七亏二平一赚的说法，能赚钱的都是少数人。否则股市就成了慈善机构，人人都有钱赚，谁还要上班？所以说亏钱是正常的，或者说是应该的。那么那些赚钱的人又是如何做到的呢？普通人能不能找到捷径去分一杯羹呢？方法是有的，但要做到需要你有极高的自律。第一，控制仓位，散户最大的问题是追涨杀跌，只要涨起来，就把钱往股票上砸，然后被套，隔天跌的受不了，又一刀切，全部割肉。来来回回间，遍体鳞伤。所以散户首
【加密社】Solidity 中的事件机制及其应用加密社闲侃区块链智能合约区块链
加密社引言在Solidity合约开发过程中，事件（Events）是一种非常重要的机制。它们不仅能够让开发者记录智能合约的重要状态变更，还能够让外部系统（如前端应用）监听这些状态的变化。本文将详细介绍Solidity中的事件机制以及如何利用不同的手段来触发、监听和获取这些事件。事件存储的地方当我们在Solidity合约中使用emit关键字触发事件时，该事件会被记录在区块链的交易收据中。具体而言，事件
从0到500+，我是如何利用自媒体赚钱？一列脚印
运营公众号半个多月，从零基础的小白到现在慢慢懂了一些运营的知识。做好公众号是很不容易的，要做很多事情；排版、码字、引流…通通需要自己解决，业余时间全都花费在这上面涨这么多粉丝是真的不容易，对比知乎大佬来说，我们这种没资源，没人脉，还没钱的小透明来说，想要一个月涨粉上万，怕是今天没睡醒（不过你有的方法，算我piapia打脸）至少我是清醒的，自己慢慢努力，实现我的万粉目标！大家快来围观、支持我吧！孩子
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
使用LLaVa和Ollama实现多模态RAG示例 llzwxh888 python 人工智能开发语言
本文将详细介绍如何使用LLaVa和Ollama实现多模态RAG（检索增强生成），通过提取图像中的结构化数据、生成图像字幕等功能来展示这一技术的强大之处。安装环境首先，您需要安装以下依赖包：!pipinstallllama-index-multi-modal-llms-ollama!pipinstallllama-index-readers-file!pipinstallunstructured!p
微信开发者验证接口开发 362217990 微信开发者 token 验证
微信开发者接口验证。 Token，自己随便定义，与微信填写一致就可以了。根据微信接入指南描述 http://mp.weixin.qq.com/wiki/17/2d4265491f12608cd170a95559800f2d.html 第一步：填写服务器配置第二步：验证服务器地址的有效性第三步：依据接口文档实现业务逻辑这里主要讲第二步验证服务器有效性。建一个
一个小编程题-类似约瑟夫环问题 BrokenDreams 编程
今天群友出了一题：一个数列,把第一个元素删除,然后把第二个元素放到数列的最后,依次操作下去,直到把数列中所有的数都删除,要求依次打印出这个过程中删除的数。 &
linux复习笔记之bash shell (5) 关于减号-的作用 eksliang linux关于减号“-”的含义 linux关于减号“-”的用途 linux关于“-”的含义 linux关于减号的含义
转载请出自出处： http://eksliang.iteye.com/blog/2105677 管道命令在bash的连续处理程序中是相当重要的，尤其在使用到前一个命令的studout（标准输出）作为这次的stdin（标准输入）时，就显得太重要了，某些命令需要用到文件名，例如上篇文档的的切割命令（split）、还有
Unix(3) 18289753290 unix ksh
1)若该变量需要在其他子进程执行，则可用"$变量名称"或${变量}累加内容什么是子进程？在我目前这个shell情况下，去打开一个新的shell，新的那个shell就是子进程。一般状态下，父进程的自定义变量是无法在子进程内使用的，但通过export将变量变成环境变量后就能够在子进程里面应用了。 2)条件判断： &&代表and ||代表or&nbs
关于ListView中性能优化中图片加载问题酷的飞上天空 ListView
ListView的性能优化网上很多信息，但是涉及到异步加载图片问题就会出现问题。具体参看上篇文章http://314858770.iteye.com/admin/blogs/1217594 如果每次都重新inflate一个新的View出来肯定会造成性能损失严重，可能会出现listview滚动是很卡的情况，还会出现内存溢出。现在想出一个方法就是每次都添加一个标识，然后设置图
德国总理默多克：给国人的一堂“震撼教育”课永夜-极光教育
http://bbs.voc.com.cn/topic-2443617-1-1.html德国总理默多克：给国人的一堂“震撼教育”课　安吉拉—默克尔，一位经历过社会主义的东德人，她利用自己的博客，发表一番来华前的谈话，该说的话，都在上面说了，全世界想看想传播——去看看默克尔总理的博客吧！　　德国总理默克尔以她的低调、朴素、谦和、平易近人等品格给国人留下了深刻印象。她以实际行动为中国人上了一堂
关于Java继承的一个小问题。。。随便小屋 java
今天看Java 编程思想的时候遇见一个问题，运行的结果和自己想想的完全不一样。先把代码贴出来！ //CanFight接口 interface Canfight { void fight(); } //ActionCharacter类 class ActionCharacter { public void fight() { System.out.pr
23种基本的设计模式 aijuans 设计模式
Abstract Factory：提供一个创建一系列相关或相互依赖对象的接口，而无需指定它们具体的类。　　Adapter：将一个类的接口转换成客户希望的另外一个接口。A d a p t e r模式使得原本由于接口不兼容而不能一起工作的那些类可以一起工作。　　Bridge：将抽象部分与它的实现部分分离，使它们都可以独立地变化。　　Builder：将一个复杂对象的构建与它的表示分离，使得同
《周鸿祎自述：我的互联网方法论》读书笔记 aoyouzi 读书笔记
从用户的角度来看,能解决问题的产品才是好产品,能方便/快速地解决问题的产品,就是一流产品. 商业模式不是赚钱模式一款产品免费获得海量用户后,它的边际成本趋于0,然后再通过广告或者增值服务的方式赚钱,实际上就是创造了新的价值链. 商业模式的基础是用户,木有用户,任何商业模式都是浮云.商业模式的核心是产品,本质是通过产品为用户创造价值. 商业模式还包括寻找需求
JavaScript动态改变样式访问技术百合不是茶 JavaScript style属性 ClassName属性
一:style属性格式: HTML元素.style.样式属性="值"; 创建菜单:在html标签中创建或者在head标签中用数组创建 <html> <head> <title>style改变样式</title> </head> &l
jQuery的deferred对象详解 bijian1013 jquery deferred对象
jQuery的开发速度很快，几乎每半年一个大版本，每两个月一个小版本。每个版本都会引入一些新功能，从jQuery 1.5.0版本开始引入的一个新功能----deferred对象。 &nb
淘宝开放平台TOP Bill_chen C++c 物流 C#
淘宝网开放平台首页：http://open.taobao.com/ 淘宝开放平台是淘宝TOP团队的产品，TOP即TaoBao Open Platform，是淘宝合作伙伴开发、发布、交易其服务的平台。支撑TOP的三条主线为： 1.开放数据和业务流程 * 以API数据形式开放商品、交易、物流等业务； &
【大型网站架构一】大型网站架构概述 bit1129 网站架构
大型互联网特点面对海量用户、海量数据大型互联网架构的关键指标高并发高性能高可用高可扩展性线性伸缩性安全性大型互联网技术要点前端优化 CDN缓存反向代理 KV缓存消息系统分布式存储 NoSQL数据库搜索监控安全想到的问题： 1.对于订单系统这种事务型系统，如
eclipse插件hibernate tools安装白糖_ Hibernate
eclipse helios(3.6)版 1.启动eclipse 2.选择 Help > Install New Software...> 3.添加如下地址： http://download.jboss.org/jbosstools/updates/stable/helios/ 4.选择性安装：hibernate tools在All Jboss tool
Jquery easyui Form表单提交注意事项 bozch jquery easyui
jquery easyui对表单的提交进行了封装，提交的方式采用的是ajax的方式，在开发的时候应该注意的事项如下： 1、在定义form标签的时候，要将method属性设置成post或者get，特别是进行大字段的文本信息提交的时候，要将method设置成post方式提交，否则页面会抛出跨域访问等异常。所以这个要
Trie tree(字典树)的Java实现及其应用-统计以某字符串为前缀的单词的数量 bylijinnan java实现
import java.util.LinkedList; public class CaseInsensitiveTrie { /** 字典树的Java实现。实现了插入、查询以及深度优先遍历。 Trie tree's java implementation.(Insert,Search,DFS) Problem Description Igna
html css 鼠标形状样式汇总 chenbowen00 html css
css鼠标手型cursor中hand与pointer Example：CSS鼠标手型效果 <a href="#" style="cursor:hand">CSS鼠标手型效果</a><br/> Example：CSS鼠标手型效果 <a href="#" style=&qu
[IT与投资]IT投资的几个原则 comsci it
无论是想在电商,软件,硬件还是互联网领域投资,都需要大量资金,虽然各个国家政府在媒体上都给予大家承诺,既要让市场的流动性宽松,又要保持经济的高速增长....但是,事实上,整个市场和社会对于真正的资金投入是非常渴望的,也就是说,表面上看起来,市场很活跃,但是投入的资金并不是很充足的......
oracle with语句详解 daizj oracle with with as
oracle with语句详解转在oracle中，select 查询语句，可以使用with,就是一个子查询，oracle 会把子查询的结果放到临时表中，可以反复使用例子:注意，这是sql语句，不是pl/sql语句，可以直接放到jdbc执行的 ----------------------------------------------------------------
hbase的简单操作 deng520159 数据库 hbase
近期公司用hbase来存储日志,然后再来分析 ,把hbase开发经常要用的命令找了出来. 用ssh登陆安装hbase那台linux后用hbase shell进行hbase命令控制台! 表的管理 1）查看有哪些表 hbase(main)> list 2）创建表 # 语法：create <table>, {NAME => <family&g
C语言scanf继续学习、算术运算符学习和逻辑运算符 dcj3sjt126com c
/* 2013年3月11日20:37:32 地点：北京潘家园功能：完成用户格式化输入多个值目的：学习scanf函数的使用 */ # include <stdio.h> int main(void) { int i, j, k; printf("please input three number:\n"); //提示用
2015越来越好 dcj3sjt126com 歌曲
越来越好房子大了电话小了感觉越来越好假期多了收入高了工作越来越好商品精了价格活了心情越来越好天更蓝了水更清了环境越来越好活得有奔头人会步步高想做到你要努力去做到幸福的笑容天天挂眉梢越来越好婆媳和了家庭暖了生活越来越好孩子高了懂事多了学习越来越好朋友多了心相通了大家越来越好道路宽了心气顺了日子越来越好活的有精神人就不显
java.sql.SQLException: Value '0000-00-00' can not be represented as java.sql.Tim feiteyizu mysql
数据表中有记录的time字段（属性为timestamp）其值为：“0000-00-00 00:00:00” 程序使用select 语句从中取数据时出现以下异常： java.sql.SQLException:Value '0000-00-00' can not be represented as java.sql.Date java.sql.SQLException: Valu
Ehcache（07）——Ehcache对并发的支持 234390216 并发 ehcache 锁 ReadLock WriteLock
Ehcache对并发的支持在高并发的情况下，使用Ehcache缓存时，由于并发的读与写，我们读的数据有可能是错误的，我们写的数据也有可能意外的被覆盖。所幸的是Ehcache为我们提供了针对于缓存元素Key的Read（读）、Write（写）锁。当一个线程获取了某一Key的Read锁之后，其它线程获取针对于同
mysql中blob,text字段的合成索引 jackyrong mysql
在mysql中，原来有一个叫合成索引的，可以提高blob,text字段的效率性能，但只能用在精确查询，核心是增加一个列，然后可以用md5进行散列，用散列值查找则速度快比如： create table abc(id varchar(10),context blog,hash_value varchar(40)); insert into abc(1,rep
逻辑运算与移位运算 latty 位运算逻辑运算
源码：正数的补码与原码相同例+7 源码：00000111 补码：00000111 （用8位二进制表示一个数）负数的补码：符号位为1，其余位为该数绝对值的原码按位取反；然后整个数加1。 -7 源码： 10000111 ，其绝对值为00000111 取反加一：11111001 为-7补码已知一个数的补码，求原码的操作分两种情况：
利用XSD 验证XML文件 newerdragon java xml xsd
XSD文件（XML Schema 语言也称作 XML Schema 定义（XML Schema Definition，XSD）。具体使用方法和定义请参看： http://www.w3school.com.cn/schema/index.asp java自jdk1.5以上新增了SchemaFactory类可以实现对XSD验证的支持，使用起来也很方便。以下代码可用在J
搭建 CentOS 6 服务器(12) - Samba rensanning centos
（1）安装 # yum -y install samba Installed: samba.i686 0:3.6.9-169.el6_5 # pdbedit -a rensn new password:123456 retype new password:123456 …… （2）Home文件夹 # mkdir /etc
Learn Nodejs 01 toknowme nodejs
（1）下载nodejs https://nodejs.org/download/ 选择相应的版本进行下载（2）安装nodejs 安装的方式比较多，请baidu下我这边下载的是“node-v0.12.7-linux-x64.tar.gz”这个版本（1）上传服务器（2）解压 tar -zxvf node-v0.12.
jquery控制自动刷新的代码举例 xp9802 jquery
1、html内容部分复制代码代码示例: <div id='log_reload'> <select name="id_s" size="1"> <option value='2'>-2s-</option> <option value='3'>-3s-</option

基于机器学习场景，如何搭建特征数据管理中台？

平安科技智能认知的“中台战事”

易观的大数据中台之路

知识图谱，下一代数据中台的核心技术

新战场路在何方——详解360金融数据中台之旅

阿里达摩院2020趋势第一弹：感知智能的“天花板”和认知智能的“野望”

11年艺术学习“转投”数学，他出版首本TensorFlow中文教材，成为蚂蚁金服技术大军一员

召回→排序→重排：技术演进趋势的深度之旅，2020 必备！

如何写出让同事膜拜的漂亮代码？

AMD或推出64核128线程HEDT平台；地平线即将推出新一代自动计算平台；阿里达摩院公布2020十大科技趋势……

2019 最烂密码榜单出炉，教你设置神级密码！

GitHub Action 有风险？！

骗了马云 10 亿被骂 4 年后，院士王坚留下 4 条人生启示

万字长文回望2019：影响区块链行业发展的9大事件

你可能感兴趣的:(基于机器学习场景，如何搭建特征数据管理中台？)