小余要努力

【小余送书第二期】《MLOps工程实践：工具、技术与企业级应用》参与活动，即有机会中奖哦！！！祝各位铁铁们双节快乐！

1、背景介绍

2、内容简介

3、读者对象

4、专家推荐

5、书籍目录

作者简介

前言

第1章　全面了解MLOps1

1.1　人工智能的趋势和现状 1

1.1.1　趋势1：人工智能在企业中加速落地，彰显更多业务价值 1

1.1.2　趋势2：人工智能应用从以模型为中心向以数据为中心转变 3

1.1.3　现状：人工智能落地成功率低，

成本高 4

1.2　人工智能的问题、挑战以及应对措施 5

1.2.1　问题1：机器学习代码只是整个系统的一小部分 5

1.2.2　问题2：数据是最主要的问题 6

1.2.3　挑战：人工智能系统

如何规模化落地 7

1.2.4　应对措施：MLOps 8

1.3　MLOps简介 8

1.3.1　MLOps的定义 8

1.3.2　MLOps相关的工具和平台 12

1.3.3　MLOps的优势 13

1.4　MLOps与DevOps 14

1.4.1　DevOps的3个优点 14

1.4.2　MLOps延续了DevOps的优点 17

1.4.3　MLOps和DevOps的不同之处 19

1.4.4　MLOps和DevOps的目标与

实践理念 20

1.5　MLOps与其他XOps的区别 20

1.5.1　MLOps与AIOps的区别 21

1.5.2　MLOps与DataOps的区别 21

1.5.3　MLOps与ModelOps的区别 22

1.5.4　XOps的相同点：

都基于DevOps原则 22

1.6　本章小结 22

第2章　MLOps涉及的角色23

2.1　角色类型 23

2.1.1　产品经理 24

2.1.2　数据科学家 24

2.1.3　数据工程师 25

2.1.4　机器学习工程师 26

2.1.5　DevOps工程师 27

2.1.6　IT运维工程师 27

2.2　角色划分以及角色之间

存在的问题 28

2.2.1　角色划分 28

2.2.2　问题1：技术栈不一致导致人工智能模型线上、线下效果不一致 28

2.2.3　问题2：关注点不同导致对系统的

需求不同 29

2.2.4　协作问题及解决办法 30

2.3　本章小结 30

第3章　机器学习项目概论31

3.1　机器学习项目简介 31

3.1.1　机器学习的定义 31

3.1.2　机器学习相关概念 33

3.1.3　机器学习能解决的问题 37

3.1.4　机器学习项目度量 38

3.1.5　机器学习项目难以落地的

原因 41

3.2　深入理解机器学习项目全流程 44

3.2.1　方案调研 45

3.2.2　方案投产 49

3.3　本章小结 51

第4章　MLOps中的数据部分52

4.1　从以模型为中心到以数据为中心 52

4.1.1　以模型为中心的时代 52

4.1.2　以数据为中心的时代 53

4.2　MLOps中的数据生命周期管理 55

4.3　数据存储架构演进 56

4.4　MLOps中主要的数据问题及

解决方案 57

4.4.1　常见的数据质量问题及

解决方案 57

4.4.2　时序数据穿越问题及解决方案 59

4.4.3　离线和实时数据一致性问题及

解决方案 64

4.4.4　数据安全问题及解决方案 66

4.4.5　数据共享与复用问题及

解决方案 67

4.5　本章小结 67

第5章　流水线工具69

5.1　Airflow 69

5.1.1　Airflow的功能和应用场景 69

5.1.2　Airflow的核心概念 72

5.1.3　Airflow的使用方法 72

5.2　MLflow 80

5.2.1　MLflow的功能和应用场景 80

5.2.2　MLflow的核心概念 81

5.2.3　MLflow的使用方法 82

5.3　其他流水线工具 91

5.4　本章小结 93

第6章　特征平台94

6.1　特征平台的概念和起源 94

6.2　特征平台的特性 96

6.3　特征平台的现状 97

6.4　主流的特征平台 98

6.4.1　Tecton的特征平台 99

6.4.2　AWS的SageMaker特征平台 100

6.4.3　Databricks的特征平台 102

6.4.4　Feast项目 103

6.4.5　OpenMLDB项目 105

6.5　特征平台的发展趋势 106

6.6　本章小结 107

第7章　实时特征平台

OpenMLDB108

7.1　实时特征平台构建方法论 108

7.1.1　机器学习闭环 108

7.1.2　实时特征计算 109

7.1.3　痛点：线上线下计算一致性

校验带来的高成本 110

7.1.4　目标：开发即上线 112

7.1.5　技术需求 112

7.1.6　抽象架构 113

7.1.7　OpenMLDB架构设计实践 114

7.2　OpenMLDB项目介绍 116

7.2.1　设计理念 116

7.2.2　生产级机器学习特征平台 116

7.2.3　核心特性 117

7.2.4　常见问题 117

7.3　核心模块—在线引擎 118

7.3.1　概览 118

7.3.2　Apache ZooKeeper 119

7.3.3　Nameserver 119

7.3.4　Tablet 120

7.4　核心数据结构 122

7.4.1　背景介绍 122

7.4.2　双层跳表索引 122

7.4.3　预聚合技术 124

7.4.4　性能表现 125

7.5　高级特性—主从集群部署 127

7.5.1　定义和目标 127

7.5.2　技术方案 127

7.5.3　主从集群搭建实践 130

7.5.4　主从集群部署常见问题 131

7.6　高级特性—双存储引擎 133

7.6.1　内存和磁盘双存储

引擎架构 133

7.6.2　功能支持对比 134

7.6.3　性能对比 135

7.7　执行流程介绍 136

7.7.1　执行流程概览 136

7.7.2　执行模式概览 137

7.7.3　离线模式 137

7.7.4　在线模式 138

7.7.5　请求模式 138

7.8　实践 139

7.8.1　准备 140

7.8.2　使用流程 141

7.8.3　实时特征计算的结果说明 144

7.9　生态整合—在线数据源Kafka 145

7.9.1　简介 145

7.9.2　准备工作 146

7.9.3　步骤1：启动OpenMLDB

并创建数据库 146

7.9.4　步骤2：启动Kafka

并创建Topic 147

7.9.5　步骤3：启动Connector 147

7.9.6　步骤4：测试 148

7.10　生态整合—离线数据源Hive 149

7.10.1　配置 149

7.10.2　数据类型 149

7.10.3　通过LIKE语法快速建表 150

7.10.4　将Hive数据导入

OpenMLDB 150

7.10.5　将OpenMLDB数据

导出到Hive 151

7.11　案例：出租车行程时间预测 151

7.11.1　环境准备和预备知识 151

7.11.2　全流程演示 152

7.12　本章小结 155

第8章　Adlik推理工具链156

8.1　机器学习模型落地挑战 156

8.2　Adlik的优势 157

8.3　Adlik的架构 158

8.3.1　模型优化器 159

8.3.2　模型编译器 161

8.3.3　推理引擎模块 161

8.4　快速入门 164

8.4.1　编译模型 164

8.4.2　部署模型 166

8.4.3　模型推理 166

8.4.4　引入自定义运行时 167

8.5　Adlik端到端模型推理优化实践 168

8.5.1　模型结构优化 168

8.5.2　模型推理引擎 170

8.6　本章小结 171

第9章　云服务供应商的端到端MLOps解决方案172

9.1　认识SageMaker 173

9.1.1　SageMaker的主要组成

部分 173

9.1.2　广泛的数据源和数据集成

支持 174

9.2　无代码实现供应链中到货时间的

预测 176

9.2.1　数据准备 177

9.2.2　简单的数据合并 179

9.2.3　构建、训练和分析机器学习

模型 180

9.2.4　模型预测 183

9.3　应用SageMaker Notebook进行 MLOps 管理 183

9.3.1　数据导入 184

9.3.2　数据清洗和特征设计 184

9.3.3　模型训练 185

9.3.4　模型评估 186

9.3.5　模型上线 187

9.3.6　使用模型仓库和 Pipeline系统

管理训练成果 187

9.4　本章小结 194

第10章　MLOps 在反欺诈与推荐

系统中的应用196

10.1　案例1：信用卡交易反欺诈系统 196

10.1.1　定义业务目标 196

10.1.2　系统设计的挑战 198

10.1.3　数据准备与特征设计思路 201

10.1.4　系统设计与实现 202

10.2　案例2：推荐系统 205

10.2.1　推荐系统介绍 205

10.2.2　定义优化目标 206

10.2.3　系统设计挑战与实现思路 208

10.3　本章小结 210

第11章　网易云音乐实时模型大规模应用之道211

11.1　从云音乐直播推荐中的实时性

说起 211

11.1.1　直播对实时性的强需求 213

11.1.2　推荐引擎实时性的三要素 213

11.1.3　直播精排模型的实时化演进 216

11.2　实时增量模型的构建 216

11.2.1　实时特征快照 217

11.2.2　实时样本归因 219

11.2.3　实时样本拼接 222

11.2.4　增量训练和更新 223

11.2.5　线上效果 224

11.3　特征平台将实时能力泛化到

更多场景 225

11.4　FeatureBox 226

11.4.1　FeatureBox解决的问题 226

11.4.2　FeatureBox整体架构 227

11.4.3　DataHub模块 227

11.4.4　Transform模块 231

11.4.5　MFDL模块 232

11.4.6　Storage模块 233

11.4.7　Monitor模块 234

11.5　在线预估基于FeatureBox的

构建 236

11.5.1　特征与模型的高效迭代 236

11.5.2　高性能预估计算 242

11.5.3　预估与FeatureBox实时性

方案 246

11.6　本章小结 248

第12章　小米广告机器学习平台

实践249

12.1　小米广告一站式机器学习平台

简介 249

12.1.1　传统机器学习流程的问题 249

12.1.2　小米广告机器学习平台模块

简介 251

12.2　特征工程模块 252

12.2.1　特征工程简介 252

12.2.2　数据源管理 253

12.2.3　特征管理 253

12.2.4　样本管理 257

12.3　模型训练平台 259

12.3.1　算法管理 260

12.3.2　离线模型训练管理 261

12.3.3　模型更新 262

12.4　线上推理模块 264

12.4.1　线上推理服务介绍 264

12.4.2　高性能和高可用保证 266

12.4.3　模型部署 268

12.5　本章小结 273

第13章　腾讯金融推荐中台实践274

13.1　业务介绍 274

13.1.1　业务优化目标 274

13.1.2　业务特点 275

13.2　现状及挑战 276

13.2.1　推荐系统复杂性 277

13.2.2　算法工程技术壁垒 278

13.3　MLOps实践 278

13.4　推荐系统产品体系 280

13.4.1　特征系统 281

13.4.2　模型训练系统 281

13.4.3　模型服务系统 282

13.4.4　推荐运营系统 283

13.5　系统设计 283

13.5.1　特征系统 284

13.5.2　模型服务系统 290

13.6　本章小结 293

第14章　众安金融实时特征平台

实践294

14.1　众安金融的MLOps建设背景 294

14.2　众安金融的MLOps建设思路 295

14.2.1　众安金融的MLOps流程说明 295

14.2.2　众安金融特征平台

能力要求 297

14.3　实时特征平台的架构设计 297

14.3.1　实时特征平台架构说明 298

14.3.2　实时特征数据源层 298

14.3.3　实时特征平台的核心功能 299

14.4　实时业务特征计算 300

14.4.1　实时业务特征计算系统

设计 300

14.4.2　实时业务特征核心数据

模型 301

14.4.3　实时业务特征计算引擎 302

14.5　反欺诈场景中的特征计算 303

14.5.1　反欺诈特征计算系统设计 303

14.5.2　反欺诈特征分类说明 304

14.5.3　用户关系图谱实现方案 305

14.6　本章小结 306

第15章　MLOps成熟度模型308

15.1　能力成熟度模型概述 308

15.2　谷歌的MLOps成熟度模型 309

15.2.1　谷歌对MLOps的理解和

认识 309

15.2.2　谷歌对MLOps成熟度等级的

定义 310

15.3　微软的MLOps成熟度模型 317

15.3.1　微软对MLOps成熟度模型的

理解和认识 317

15.3.2　微软对MLOps成熟度等级的

定义 318

15.4　信通院的MLOps成熟度模型 322

15.4.1　需求管理能力子域

1、背景介绍

作为计算机科学的一个重要领域，机器学习也是目前人工智能领域非常活跃的分支之一。机器学习通过分析海量数据、总结规律，帮助人们解决众多实际问题。随着机器学习技术的发展，越来越多的企业将机器学习技术作为核心竞争力，并运用在实际业务中。

但是，机器学习应用落地并非一件轻松的事情，AI开发者往往需要面对各个环节的挑战。这些环节包括目标定义、数据收集、数据清洗、特征提取、模型选择、模型训练、模型部署和模型监控等，其中任何一个环节出现失误，都可能影响算法和策略在最终业务中落地的效果，造成成倍的损失。反过来看，利用工程化技术去优化模型的自学习能力，能让模型保持持续更新、迭代和演进，随着数据和业务的变化不断进行自适应，避免衰退，始终保持在最佳状态，为业务场景带来更好的效果、更多的价值。

除了效果之外，机器学习应用的开发效率也是阻碍落地的关键因素。像Google这样的互联网领头羊企业，其AI科学家与AI工程师也常常会遇到“开发一周，上线三月”的情况。因此需要针对每个模型花费数月时间进行正确性排查，覆盖模型鲁棒性、数据时序穿越、线上线下一致性、数据完整性等各个维度。

从团队协作角度来看，数据、模型、算法的开发和部署需要不同的技能和知识，需要团队敏捷地进行沟通和协作。因此，建设一种可以在任何时间、任何环境被信任的团队合作模式、沟通渠道以及反馈机制，形成一个如敏捷迭代、Kubernetes一样的事实标准，可方便AI工程师敏捷、快速地上线AI应用。

除了效果和效率两个AI开发者所关注的维度外，成本、人才、安全也是机器学习应用开发落地时需要权衡的。

成本：无论软件、硬件成本还是人力成本，企业需要在落地AI应用的效益和成本之间进行权衡，确保投入产出比是可行的，而这要求开发者对成本和产出有更加精准的预测和判断。
人才：人才短缺是一个普遍问题，哪怕是在硅谷、中关村等科技人才聚集地，具备机器学习和软件开发能力的人也是供不应求的。开发者需要更好地精进技能，规划好AI工程化的技能树和学习路径，把自己变成有竞争力的人才。
安全：几乎所有的企业都会要求AI应用背后的数据、算法和模型符合法规和标准。开发者需要确保AI应用和系统不会向企业外部泄露数据，不让非法的攻击侵入并影响业务系统。

正是在这样的背景下，MLOps快速成为机器学习生产落地中不可或缺的关键能力。构建一个靠谱、永远可以信任、从容应对新技术演进的机器学习系统，匹配让AI开发者高效且省心省力的机器学习应用开发流程，成为当前机器学习领域面临的极为关键的问题之一。

《MLOps工程实践：工具、技术与企业级应用》

陈雨强郑曌谭中意卢冕等著

第四范式创始人领衔撰写

腾讯、小米、百度、网易等分享MLOps工程经验

指导企业构建可靠、高效、可复用、可扩展机器学习模型

作为当今企业和研究人员关注的热点领域，MLOps相关的知识和实践仍然相对分散，因此，迫切需要一本系统化介绍MLOps实践方法的书籍。希望本书能够：

梳理MLOps的核心概念和方法，帮助读者全面了解MLOps的基本原理；
提供实用的案例分析和操作指南，使读者能够在实际项目中应用MLOps，提高工作效率；
针对不同规模的企业和团队，给出相应的MLOps最佳实践，帮助它们量身定制MLOps策略；
探讨MLOps的未来发展趋势，以及如何将新技术方向（如人工智能伦理、可解释性等）融入MLOps实践。

MLOps实践的推广和普及需要时间和努力，希望本书可以为研究人员提供全面、系统和实用的指南，以便他们在实际应用中构建可靠、高效和稳健的机器学习模型，实现业务价值最大化。

2、内容简介

这是一本能指导企业利用MLOps技术构建可靠、高效、可复用、可扩展的机器学习模型，从而实现AI工程化落地的著作。本书由国内AI领域的独角兽企业第四范式的联合创始人领衔撰写，从工具、技术、企业级应用、成熟度评估4个维度对MLOps进行了全面的讲解。

本书的主要内容包括如下9个方面：
（1）MLOps的核心概念和方法，可以帮助读者全面了解MLOps的基本原理；
（2）MLOps涉及的几种角色，以及这些角色之间如何协作；
（3）机器学习项目的基础知识和全流程，是学习和应用MLOps的基础；
（4）MLOps中的数据处理、主要流水线工具Airflow和MLflow、特征平台和实时特征 OpenMLDB、推理工具链Adlik，为读者系统讲解MLOps的技术和工具；
（5）云服务供应商的端到端MLOps解决方案；
（6）第四范式、网易、小米、腾讯、众安金融等企业的MLOps工程实践案例和经验；
（7）MLOps的成熟度模型，以及微软、谷歌和信通院对MLOps成熟度模型的划分；
（8）针对不同规模的企业和团队的MLOps最佳实践，帮助他们量身定做MLOps策略；
（9）MLOps的未来发展趋势，以及如何将新技术融入MLOps实践。

本书深入浅出、循序渐进地讲解了如何在实际项目中利用MLOps进行机器学习模型的部署、监控与优化，以及如何利用MLOps实现持续集成与持续交付等高效的工作流程。同时，本书通过企业级的MLOps案例和解决方案，帮助读者轻松掌握MLOps的设计思路以及学会应用MLOps解决实际问题。

3、读者对象

本书旨在帮助读者掌握MLOps技术，从而构建可靠、可重复使用和可扩展的机器学习工作流程。我们更加强调实践和操作，通过示例来帮助读者更好地理解并应用这些技术和工具。

本书适用的读者对象如下。

数据科学家和AI研究人员：希望了解如何将自己的模型和算法更有效地部署到实际生产环境，提高工作效率和质量。
机器学习工程师和DevOps工程师：想要掌握MLOps的最佳实践，以便在组织内更好地支持AI和ML项目的开发、部署与维护。
产品经理和业务负责人：希望了解MLOps的概念和实践，以便更好地推动组织内AI和ML项目的落地，提高项目成功率和产出价值。
教育者和学者：在教学和研究过程中需要掌握MLOps的理论和实践知识，以便为学生和咨询者提供指导。

4、专家推荐

本书作者根据自己多年在软件研发、运维、DevOps和机器学习等领域的从业经验，对MLOps这一新生事物的原理和工具进行了全面系统的介绍，并结合多家企业的实践案例总结整理出一系列MLOps最佳实践，覆盖端到端机器学习全生命周期，涉及AI科学家和AI工程师在内的多个角色，知识新颖，内容丰富，极具参考价值。相信大部分AI从业人员会从中受益，强烈推荐！
—— 崔宝秋　小米集团前副总裁

这是一本业界真正需要的书。它全面介绍了AI工程化落地的全过程，包括面对的挑战、要解决的问题、常用工具和平台，以及企业的实践案例。这样一本内容全面、翔实的工具书能让读者对AI技术在企业落地方面有比较深的认识。希望它能帮助更多企业AI的应用者、工程师跨越AI工程化的鸿沟。
—— 堵俊平　LFAI & DATA基金会前董事主席

本书介绍了MLOps的完整流程、方法论、开源工具，并包含了网易云音乐、众安保险、小米商城、腾讯金融等的一手实践案例，对行业内外的工程师都有很高的学习和参考价值。
—— 戈君　字节跳动架构师

bRPC项目创始人/Apache VP

MLOps可以使得人工智能应用从低效能的手工制作模式，逐渐演变成自动化的、高效的流水线生产模式，将有力地促进人工智能规模化应用。盼此关于MLOps的书也能为大家学习人工智能指明方向。
—— 孟伟　中兴通讯开源战略总监

本书不仅从原理上阐述了MLOps的基本概念、方法、核心技术，更从实践角度给出了MLOps全流程搭建工具，并提供了丰富的互联网大厂典型MLOps平台搭建案例，以飨读者。内容专业翔实，极具可操作性。强烈推荐给AI算法和平台工程师，常读常新，大有裨益。
—— 陶阳宇　腾讯机器学习平台部总监

MLOps是现代软件工程理念下的机器学习系统构建方法论，指导企业在智能化升级中构建AI中台。本书全面介绍了MLOps的核心技术，结合丰富的业界实践向读者展示了AI原生时代下的AI中台技术全貌！
—— 王耀　百度智能云技术委员会主席

MLOps可以降低人工智能应用开发和维护的技术门槛和成本，是人工智能走进各行各业的关键技术。本书介绍了业界多家领先企业在MLOps方面的实践经验，具有非常高的参考价值。
—— 汪源　网易副总裁

本书作者长期工作在业务或咨询第一线，从工程师视角介绍机器学习在企业实践中的落地，系统阐述机器学习在实际工作中的困难和解决方案，是一本很好的实践指南。
—— 于洋　众安保险首席风险官

MLOps最重要的任务是保证机器学习应用生命周期中各个环节紧密协作，让应用的智能程度不断提高，真正解决用户在现实世界中的问题。感谢谭中意等专家的长期努力，让我们在CSDN中文社区中能看到高质量的经验和智慧结晶。期待这本书能帮助我们的研究员和工程师跨越各式各样的AI应用大峡谷。
—— 邹欣　CSDN副总裁

5、书籍目录

作者简介

前言

第1章　全面了解MLOps1

1.1　人工智能的趋势和现状 1

1.1.1　趋势1：人工智能在企业中加速落地，彰显更多业务价值 1

1.1.2　趋势2：人工智能应用从以模型为中心向以数据为中心转变 3

1.1.3　现状：人工智能落地成功率低，

成本高 4

1.2　人工智能的问题、挑战以及应对措施 5

1.2.1　问题1：机器学习代码只是整个系统的一小部分 5

1.2.2　问题2：数据是最主要的问题 6

1.2.3　挑战：人工智能系统

如何规模化落地 7

1.2.4　应对措施：MLOps 8

1.3　MLOps简介 8

1.3.1　MLOps的定义 8

1.3.2　MLOps相关的工具和平台 12

1.3.3　MLOps的优势 13

1.4　MLOps与DevOps 14

1.4.1　DevOps的3个优点 14

1.4.2　MLOps延续了DevOps的优点 17

1.4.3　MLOps和DevOps的不同之处 19

1.4.4　MLOps和DevOps的目标与

实践理念 20

1.5　MLOps与其他XOps的区别 20

1.5.1　MLOps与AIOps的区别 21

1.5.2　MLOps与DataOps的区别 21

1.5.3　MLOps与ModelOps的区别 22

1.5.4　XOps的相同点：

都基于DevOps原则 22

1.6　本章小结 22

第2章　MLOps涉及的角色23

2.1　角色类型 23

2.1.1　产品经理 24

2.1.2　数据科学家 24

2.1.3　数据工程师 25

2.1.4　机器学习工程师 26

2.1.5　DevOps工程师 27

2.1.6　IT运维工程师 27

2.2　角色划分以及角色之间

存在的问题 28

2.2.1　角色划分 28

2.2.2　问题1：技术栈不一致导致人工智能模型线上、线下效果不一致 28

2.2.3　问题2：关注点不同导致对系统的

需求不同 29

2.2.4　协作问题及解决办法 30

2.3　本章小结 30

第3章　机器学习项目概论31

3.1　机器学习项目简介 31

3.1.1　机器学习的定义 31

3.1.2　机器学习相关概念 33

3.1.3　机器学习能解决的问题 37

3.1.4　机器学习项目度量 38

3.1.5　机器学习项目难以落地的

原因 41

3.2　深入理解机器学习项目全流程 44

3.2.1　方案调研 45

3.2.2　方案投产 49

3.3　本章小结 51

第4章　MLOps中的数据部分52

4.1　从以模型为中心到以数据为中心 52

4.1.1　以模型为中心的时代 52

4.1.2　以数据为中心的时代 53

4.2　MLOps中的数据生命周期管理 55

4.3　数据存储架构演进 56

4.4　MLOps中主要的数据问题及

解决方案 57

4.4.1　常见的数据质量问题及

解决方案 57

4.4.2　时序数据穿越问题及解决方案 59

4.4.3　离线和实时数据一致性问题及

解决方案 64

4.4.4　数据安全问题及解决方案 66

4.4.5　数据共享与复用问题及

解决方案 67

4.5　本章小结 67

第5章　流水线工具69

5.1　Airflow 69

5.1.1　Airflow的功能和应用场景 69

5.1.2　Airflow的核心概念 72

5.1.3　Airflow的使用方法 72

5.2　MLflow 80

5.2.1　MLflow的功能和应用场景 80

5.2.2　MLflow的核心概念 81

5.2.3　MLflow的使用方法 82

5.3　其他流水线工具 91

5.4　本章小结 93

第6章　特征平台94

6.1　特征平台的概念和起源 94

6.2　特征平台的特性 96

6.3　特征平台的现状 97

6.4　主流的特征平台 98

6.4.1　Tecton的特征平台 99

6.4.2　AWS的SageMaker特征平台 100

6.4.3　Databricks的特征平台 102

6.4.4　Feast项目 103

6.4.5　OpenMLDB项目 105

6.5　特征平台的发展趋势 106

6.6　本章小结 107

第7章　实时特征平台

OpenMLDB108

7.1　实时特征平台构建方法论 108

7.1.1　机器学习闭环 108

7.1.2　实时特征计算 109

7.1.3　痛点：线上线下计算一致性

校验带来的高成本 110

7.1.4　目标：开发即上线 112

7.1.5　技术需求 112

7.1.6　抽象架构 113

7.1.7　OpenMLDB架构设计实践 114

7.2　OpenMLDB项目介绍 116

7.2.1　设计理念 116

7.2.2　生产级机器学习特征平台 116

7.2.3　核心特性 117

7.2.4　常见问题 117

7.3　核心模块—在线引擎 118

7.3.1　概览 118

7.3.2　Apache ZooKeeper 119

7.3.3　Nameserver 119

7.3.4　Tablet 120

7.4　核心数据结构 122

7.4.1　背景介绍 122

7.4.2　双层跳表索引 122

7.4.3　预聚合技术 124

7.4.4　性能表现 125

7.5　高级特性—主从集群部署 127

7.5.1　定义和目标 127

7.5.2　技术方案 127

7.5.3　主从集群搭建实践 130

7.5.4　主从集群部署常见问题 131

7.6　高级特性—双存储引擎 133

7.6.1　内存和磁盘双存储

引擎架构 133

7.6.2　功能支持对比 134

7.6.3　性能对比 135

7.7　执行流程介绍 136

7.7.1　执行流程概览 136

7.7.2　执行模式概览 137

7.7.3　离线模式 137

7.7.4　在线模式 138

7.7.5　请求模式 138

7.8　实践 139

7.8.1　准备 140

7.8.2　使用流程 141

7.8.3　实时特征计算的结果说明 144

7.9　生态整合—在线数据源Kafka 145

7.9.1　简介 145

7.9.2　准备工作 146

7.9.3　步骤1：启动OpenMLDB

并创建数据库 146

7.9.4　步骤2：启动Kafka

并创建Topic 147

7.9.5　步骤3：启动Connector 147

7.9.6　步骤4：测试 148

7.10　生态整合—离线数据源Hive 149

7.10.1　配置 149

7.10.2　数据类型 149

7.10.3　通过LIKE语法快速建表 150

7.10.4　将Hive数据导入

OpenMLDB 150

7.10.5　将OpenMLDB数据

导出到Hive 151

7.11　案例：出租车行程时间预测 151

7.11.1　环境准备和预备知识 151

7.11.2　全流程演示 152

7.12　本章小结 155

第8章　Adlik推理工具链156

8.1　机器学习模型落地挑战 156

8.2　Adlik的优势 157

8.3　Adlik的架构 158

8.3.1　模型优化器 159

8.3.2　模型编译器 161

8.3.3　推理引擎模块 161

8.4　快速入门 164

8.4.1　编译模型 164

8.4.2　部署模型 166

8.4.3　模型推理 166

8.4.4　引入自定义运行时 167

8.5　Adlik端到端模型推理优化实践 168

8.5.1　模型结构优化 168

8.5.2　模型推理引擎 170

8.6　本章小结 171

第9章　云服务供应商的端到端MLOps解决方案172

9.1　认识SageMaker 173

9.1.1　SageMaker的主要组成

部分 173

9.1.2　广泛的数据源和数据集成

支持 174

9.2　无代码实现供应链中到货时间的

预测 176

9.2.1　数据准备 177

9.2.2　简单的数据合并 179

9.2.3　构建、训练和分析机器学习

模型 180

9.2.4　模型预测 183

9.3　应用SageMaker Notebook进行 MLOps 管理 183

9.3.1　数据导入 184

9.3.2　数据清洗和特征设计 184

9.3.3　模型训练 185

9.3.4　模型评估 186

9.3.5　模型上线 187

9.3.6　使用模型仓库和 Pipeline系统

管理训练成果 187

9.4　本章小结 194

第10章　MLOps 在反欺诈与推荐

系统中的应用196

10.1　案例1：信用卡交易反欺诈系统 196

10.1.1　定义业务目标 196

10.1.2　系统设计的挑战 198

10.1.3　数据准备与特征设计思路 201

10.1.4　系统设计与实现 202

10.2　案例2：推荐系统 205

10.2.1　推荐系统介绍 205

10.2.2　定义优化目标 206

10.2.3　系统设计挑战与实现思路 208

10.3　本章小结 210

第11章　网易云音乐实时模型大规模应用之道211

11.1　从云音乐直播推荐中的实时性

说起 211

11.1.1　直播对实时性的强需求 213

11.1.2　推荐引擎实时性的三要素 213

11.1.3　直播精排模型的实时化演进 216

11.2　实时增量模型的构建 216

11.2.1　实时特征快照 217

11.2.2　实时样本归因 219

11.2.3　实时样本拼接 222

11.2.4　增量训练和更新 223

11.2.5　线上效果 224

11.3　特征平台将实时能力泛化到

11.4　FeatureBox 226

11.4.1　FeatureBox解决的问题 226

11.4.2　FeatureBox整体架构 227

11.4.3　DataHub模块 227

11.4.4　Transform模块 231

11.4.5　MFDL模块 232

11.4.6　Storage模块 233

11.4.7　Monitor模块 234

11.5　在线预估基于FeatureBox的

构建 236

11.5.1　特征与模型的高效迭代 236

11.5.2　高性能预估计算 242

11.5.3　预估与FeatureBox实时性

方案 246

11.6　本章小结 248

第12章　小米广告机器学习平台

实践249

12.1　小米广告一站式机器学习平台

简介 249

12.1.1　传统机器学习流程的问题 249

12.1.2　小米广告机器学习平台模块

简介 251

12.2　特征工程模块 252

12.2.1　特征工程简介 252

12.2.2　数据源管理 253

12.2.3　特征管理 253

12.2.4　样本管理 257

12.3　模型训练平台 259

12.3.1　算法管理 260

12.3.2　离线模型训练管理 261

12.3.3　模型更新 262

12.4　线上推理模块 264

12.4.1　线上推理服务介绍 264

12.4.2　高性能和高可用保证 266

12.4.3　模型部署 268

12.5　本章小结 273

第13章　腾讯金融推荐中台实践274

13.1　业务介绍 274

13.1.1　业务优化目标 274

13.1.2　业务特点 275

13.2　现状及挑战 276

13.2.1　推荐系统复杂性 277

13.2.2　算法工程技术壁垒 278

13.3　MLOps实践 278

13.4　推荐系统产品体系 280

13.4.1　特征系统 281

13.4.2　模型训练系统 281

13.4.3　模型服务系统 282

13.4.4　推荐运营系统 283

13.5　系统设计 283

13.5.1　特征系统 284

13.5.2　模型服务系统 290

13.6　本章小结 293

第14章　众安金融实时特征平台

实践294

14.1　众安金融的MLOps建设背景 294

14.2　众安金融的MLOps建设思路 295

14.2.1　众安金融的MLOps流程说明 295

14.2.2　众安金融特征平台

能力要求 297

14.3　实时特征平台的架构设计 297

14.3.1　实时特征平台架构说明 298

14.3.2　实时特征数据源层 298

14.3.3　实时特征平台的核心功能 299

14.4　实时业务特征计算 300

14.4.1　实时业务特征计算系统

设计 300

14.4.2　实时业务特征核心数据

模型 301

14.4.3　实时业务特征计算引擎 302

14.5　反欺诈场景中的特征计算 303

14.5.1　反欺诈特征计算系统设计 303

14.5.2　反欺诈特征分类说明 304

14.5.3　用户关系图谱实现方案 305

14.6　本章小结 306

第15章　MLOps成熟度模型308

15.1　能力成熟度模型概述 308

15.2　谷歌的MLOps成熟度模型 309

15.2.1　谷歌对MLOps的理解和

认识 309

15.2.2　谷歌对MLOps成熟度等级的

定义 310

15.3　微软的MLOps成熟度模型 317

15.3.1　微软对MLOps成熟度模型的

理解和认识 317

15.3.2　微软对MLOps成熟度等级的

定义 318

15.4　信通院的MLOps成熟度模型 322

15.4.1　需求管理能力子域

15.4.2　数据工程能力子域

15.5　本章小结 329

直播预告

AI工程化—— 如何让AI在企业多快好省的落地？

AI 2.0时代，要不要学习MLOPS？MLOps推理的挑战以及大模型时代的推理优化思路如何？以及基于MLOps构建网易云音乐实时模型大规模应用实践分享~

10月14日19：00，第四范式平台架构师李瀚、中兴通讯AI高级工程师袁丽雅、网易云音乐算法工程高级总监吴官林、星策社区发起人及LF AI & Data TAC成员兼 Outreach主席谭中意 四位嘉宾将与您分享~

IT阅读排行榜

将在10月14日 19:00 直播预约

AI工程化：如何让AI在企业多快好省的落地
暨《MLOps工程实践》新书发布会

视频号

抽奖方式：评论区随机抽取若干名小伙伴送出！！

参与方式：关注博主、点赞、收藏、评论区评论“数据要素，安全流通”

（切记要点赞 + 收藏，否则中奖无效，每人最多评论三次！！）

书籍将于2023-10-09开始发货，赶紧参与哦！！！

你可能感兴趣的:(送书活动,机器人,AI,人工智能,送书)

guava loadingCache代码示例 IM 胡鹏飞 Java 工具类介绍
publicclassTest2{publicstaticvoidmain(String[]args)throwsException{LoadingCachecache=CacheBuilder.newBuilder()//设置并发级别为8，并发级别是指可以同时写缓存的线程数.concurrencyLevel(8)//设置缓存容器的初始容量为10.initialCapacity(10)//设置缓存
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element(
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化的资料的朋友，可以添加戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！intmain(){vectormyvec{3,
【LeetCode 热题 100】24. 两两交换链表中的节点——（解法一）迭代+哨兵 xumistore LeetCode leetcode 链表算法 java
Problem:24.两两交换链表中的节点题目：给你一个链表，两两交换其中相邻的节点，并返回交换后链表的头节点。你必须在不修改节点内部的值的情况下完成本题（即，只能进行节点交换）。文章目录整体思路完整代码时空复杂度时间复杂度：O(N)空间复杂度：O(1)整体思路这段代码旨在解决一个经典的链表操作问题：两两交换链表中的节点(SwapNodesinPairs)。问题要求将链表中每两个相邻的节点进行交换
基于定制开发开源AI智能名片S2B2C商城小程序的社群游戏定制策略研究说私域人工智能小程序游戏
摘要：本文聚焦社群游戏定制领域，深入探讨以社群文化和用户偏好为导向的定制策略。通过分析互动游戏活动、社群文化塑造等关键要素，结合定制开发开源AI智能名片S2B2C商城小程序的技术特性，提出针对性游戏定制方案。研究旨在提升社群用户参与度与游戏体验，为社群游戏发展提供理论支持与实践指导。关键词：社群游戏定制；定制开发开源AI智能名片S2B2C商城小程序；社群文化；用户偏好一、引言在数字化社交蓬勃发展的
Android ViewBinding 使用与封装教程积跬步DEV Android 开发实战大全 android
AndroidViewBinding使用与封装教程：一、ViewBinding是什么？核心功能：为每个XML布局文件自动生成一个绑定类（如ActivityMainBinding），直接暴露所有带ID的视图引用。优点：避免繁琐的findViewById()，类型安全且编译时检查。对比DataBinding：ViewBinding仅处理视图引用，无数据绑定功能。DataBinding支持双向数据绑定，
Java大厂面试实录：谢飞机的电商场景技术问答（Spring Cloud、MyBatis、Redis、Kafka、AI等）
Java大厂面试实录：谢飞机的电商场景技术问答（SpringCloud、MyBatis、Redis、Kafka、AI等）本文模拟知名互联网大厂Java后端岗位面试流程，以电商业务为主线，由严肃面试官与“水货”程序员谢飞机展开有趣的对话，涵盖SpringCloud、MyBatis、Redis、Kafka、SpringSecurity、AI等热门技术栈，并附详细解析，助力求职者备战大厂面试。故事设定谢
【超硬核】JVM源码解读：Java方法main在虚拟机上解释执行 HeapDump性能社区 java 开发语言后端 jvm
本文由HeapDump性能社区首席讲师鸠摩（马智）授权整理发布第1篇-关于Java虚拟机HotSpot，开篇说的简单点开讲Java运行时，这一篇讲一些简单的内容。我们写的主类中的main()方法是如何被Java虚拟机调用到的？在Java类中的一些方法会被由C/C++编写的HotSpot虚拟机的C/C++函数调用，不过由于Java方法与C/C++函数的调用约定不同，所以并不能直接调用，需要JavaC
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
Python之七彩花朵代码实现 PlutoZuo Python python 开发语言
Python之七彩花朵代码实现文章目录Python之七彩花朵代码实现下面是一个简单的使用Python的七彩花朵。这个示例只是一个简单的版本，没有很多高级功能，但它可以作为一个起点，你可以在此基础上添加更多功能。importturtleastuimportrandomasraimportmathtu.setup(1.0,1.0)t=tu.Pen()t.ht()colors=['red','skybl
Python 脚本最佳实践2025版
前文可以直接把这篇文章喂给AI,可以放到AI角色设定里,也可以直接作为提示词.这样,你只管提需求,写脚本就让AI来.概述追求简洁和清晰：脚本应简单明了。使用函数(functions)、常量(constants)和适当的导入(import)实践来有逻辑地组织你的Python脚本。使用枚举(enumerations)和数据类(dataclasses)等数据结构高效管理脚本状态。通过命令行参数增强交互性
（Python基础篇）字典的操作 EternityArt 基础篇 python 开发语言
一、引言在Python编程中，字典（Dictionary）是一种极具灵活性的数据结构，它通过“键-值对”（key-valuepair）的形式存储数据，如同现实生活中的字典——通过“词语（键）”快速查找“释义（值）”。相较于列表和元组的有序索引访问，字典的优势在于基于键的快速查找，这使得它在处理需要频繁通过唯一标识获取数据的场景中极为高效。掌握字典的操作，能让我们更高效地组织和管理复杂数据，是Pyt
基于开源AI智能名片链动2+1模式与S2B2C商城小程序的渠道选择策略研究说私域人工智能小程序
摘要：在数字化商业环境下，品牌与产品的渠道选择对其市场推广和运营成功至关重要。本文聚焦于如何依据自身品牌和产品特性，结合开源AI智能名片链动2+1模式与S2B2C商城小程序，运用科学的渠道选择方法，慎重挑选1-2个适宜平台，集中资源发力并取得成绩后再拓展其他渠道。通过理论分析与案例研究，探讨该策略的有效性和可行性，为企业渠道布局提供参考。关键词：渠道选择；开源AI智能名片；链动2+1模式；S2B2
深入解析 TCP 连接状态与进程挂起、恢复与关闭誰能久伴不乏 tcp/ip 网络服务器
文章目录深入解析TCP连接状态与进程挂起、恢复与关闭一、TCP连接的各种状态1.**`LISTEN`**（监听）2.**`SYN_SENT`**（SYN已发送）3.**`SYN_RECEIVED`**（SYN已接收）4.**`ESTABLISHED`**（已建立）5.**`FIN_WAIT_1`**（关闭等待1）6.**`FIN_WAIT_2`**（关闭等待2）7.**`CLOSE_WAIT`**
Java大厂面试故事：谢飞机的互联网音视频场景技术面试全纪录（Spring Boot、MyBatis、Kafka、Redis、AI等）来旺 Java场景面试宝典 Java Spring Boot MyBatis Kafka Redis 微服务 AI
Java大厂面试故事：谢飞机的互联网音视频场景技术面试全纪录（SpringBoot、MyBatis、Kafka、Redis、AI等）互联网大厂技术面试不仅考察技术深度，更注重业务场景与系统设计能力。本篇以严肃面试官与“水货”程序员谢飞机的对话，带你体验音视频业务场景下的Java面试全过程，涵盖主流技术栈，并附详细答案解析，助你面试无忧。故事场景设定谢飞机是一名有趣但技术基础略显薄弱的程序员，这次应
C++ 设计模式：抽象工厂（Abstract Factory）冀晓武 C++设计模式 c++设计模式抽象工厂模式
链接：C++设计模式链接：C++设计模式-工厂方法链接：C++设计模式-原型模式链接：C++设计模式-建造者模式抽象工厂（AbstractFactory）是一种创建型设计模式，它提供一个接口，用于创建一系列相关或相互依赖的对象，而无需指定它们的具体类。抽象工厂模式通常用于创建一组相关的产品对象，例如不同类型的机器人和它们的配件。1.问题分析在某些情况下，我们需要创建一组相关或相互依赖的对象，但我们
配音助手：自媒体神器，内置海量音色的语音，支持多主播配音阿幸软件杂货间媒体
软件介绍内置文字转语音，提供多个主播音色，男声、女声、小孩、方言。支持的场景也是比较多，比如：广告促销、有声读物、广播配音、影视配音、Ai配音等。这个软件是免费的，只不过需要通过手机号码登录就可以使用全部功能了。软件下载夸克下载
Anaconda 详细下载与安装教程
Anaconda详细下载与安装教程1.简介Anaconda是一个用于科学计算的开源发行版，包含了Python和R的众多常用库。它还包括了conda包管理器，可以方便地安装、更新和管理各种软件包。2.下载Anaconda2.1访问官方网站首先，打开浏览器，访问Anaconda官方网站。2.2选择适合的版本在页面中，你会看到两个主要的下载选项：AnacondaIndividualEdition：适用于
MySQL Explain 详解：从入门到精通，让你的 SQL 飞起来
引言：为什么Explain是SQL优化的“照妖镜”？在Java开发中，我们常常会遇到数据库性能瓶颈的问题。一条看似简单的SQL语句，在数据量增长到一定规模后，可能会从毫秒级响应变成秒级甚至分钟级响应，直接拖慢整个应用的性能。此时，你是否曾困惑于：为什么这条SQL突然变慢了？索引明明建了，为什么没生效？到底是哪里出了问题？答案就藏在MySQL的EXPLAIN命令里。EXPLAIN就像一面“照妖镜”，
kube-scheduler 抢占机制分享放大价值 kubernetes源码分析 kubernetes kube-scheduler 抢占
当pod调度失败后，会在PostFilter扩展点执行抢占流程，下面分析相关的代码实现抢占接口//PodNominatorabstractsoperationstomaintainnominatedPods.typePodNominatorinterface{//将pod加入抢占成功的node中AddNominatedPod(pod*PodInfo,nodeNamestring)//将pod从no
Java特性之设计模式【责任链模式】 Naijia_OvO Java特性 java 设计模式责任链模式
一、责任链模式概述顾名思义，责任链模式（ChainofResponsibilityPattern）为请求创建了一个接收者对象的链。这种模式给予请求的类型，对请求的发送者和接收者进行解耦。这种类型的设计模式属于行为型模式在这种模式中，通常每个接收者都包含对另一个接收者的引用。如果一个对象不能处理该请求，那么它会把相同的请求传给下一个接收者，依此类推主要解决：职责链上的处理者负责处理请求，客户只需要将
ThinkSound V2版 - 一键给无声视频配音，为AI视频生成匹配音效支持50系显卡一键整合包下载昨日之日2006 ai语音音视频人工智能
ThinkSound是阿里通义实验室开源的首个音频生成模型，它能够让AI像专业“音效师”一样，根据视频内容生成高度逼真、与视觉内容完美契合的音频。ThinkSound可直接应用于影视后期制作，为AI生成的视频自动匹配精准的环境噪音与爆炸声效；服务于游戏开发领域，实时生成雨势变化等动态场景的自适应音效；同时可以无障碍视频生产，为视障用户同步生成画面描述与环境音效。今天分享的ThinkSoundV2版
基于Python的健身数据分析工具的搭建流程day1 weixin_45677320 python 开发语言数据挖掘爬虫
基于Python的健身数据分析工具的搭建流程分数据挖掘、数据存储和数据分析三个步骤。本文主要介绍利用Python实现健身数据分析工具的数据挖掘部分。第一步：加载库加载本文需要的库，如下代码所示。若库未安装，请按照python如何安装各种库（保姆级教程）_python安装库-CSDN博客https://blog.csdn.net/aobulaien001/article/details/133298
“Datawhale AI夏令营”基于带货视频评论的用户洞察挑战赛 fzyz123 Datawhale AI夏令营人工智能 Datawhale 大模型技术 NLP 深度学习 AI夏令营
前言：本次是DatawhaleAI夏令营2025年第一期的内容，赛事是：基于带货视频评论的用户洞察挑战赛（科大讯飞AI大赛）一、赛事背景在直播电商爆发式增长浪潮中，短视频平台积累的海量带货视频及用户评论数据蕴含巨大商业价值。这些数据不仅是消费者体验的直接反馈，更是驱动品牌决策的关键资产。用户洞察的核心在于视频内容与评论数据的联合挖掘：通过智能识别推广商品分析评论中的情感表达与观点聚合精准捕捉消费者
无面试无offer? 你需要AI 求职co-pilot的帮助!
大家好啊，我写的开源免费求职AIco-pilot工具发布了v3.0.0，欢迎大家参与、使用!https://github.com/weicanie/prisma-ai一、项目介绍开源免费的求职co-pilot，自动化简历准备至offer到手的整个流程。优化您的项目、定制您的简历、为您匹配工作，并帮助您做好面试准备。二、核心价值prisma-ai旨在解决求职者在准备简历和寻找工作时最头疼的3个问题:
[特殊字符] 实时数据洪流突围战：Flink+Paimon实现毫秒级分析的架构革命（附压测报告）——日均百亿级数据处理成本降低60%的工业级方案 Lucas55555555 flink 大数据
引言：流批一体的时代拐点据阿里云2025白皮书显示，实时数据处理需求年增速达240%，但传统Lambda架构资源消耗占比超运维成本的70%。某电商平台借助Flink+Paimon重构实时数仓后，端到端延迟从分钟级压缩至800ms，计算资源节省5.6万核/月。技术红利窗口期：2025年ApachePaimon1.0正式发布，支持秒级快照与湖仓一体，成为替代Iceberg的新范式一、痛点深挖：实时数仓
AIGC工具与软件开发流程的深度集成方案 Irene-HQ 软件开发测试 AIGC 测试工具 github AIGC 程序人生面试
一、代码开发环节集成路径‌环境配置标准化‌安装AIGC工具包并配置环境变量（如设置AIGC_TOOL_PATH），确保团队开发环境一致‌。在IDE插件市场安装Copilot等工具，实现编码时实时建议调用‌。‌人机协作新模式‌‌需求解析‌：上传PRD文档，AI自动提取业务规则生成类结构（如支付模块的PaymentService雏形）‌。‌代码补全‌：输入注释//JWT验证中间件，生成OAuth2.0
AI音乐模拟器：AIGC时代的智能音乐创作革命 lauo 人工智能 AIGC 开源前端机器人
AI音乐模拟器：AIGC时代的智能音乐创作革命引言：AIGC浪潮下的音乐创作新范式在数字化转型的浪潮中，人工智能生成内容（AIGC）正在重塑各个创意领域。音乐产业作为创意经济的重要组成部分，正经历着前所未有的变革。据最新市场研究数据显示，全球AI音乐市场规模预计将从2023年的5.8亿美元增长到2030年的26.8亿美元，年复合增长率高达24.3%。这一快速增长的市场背后，是AI音乐技术正在打破传
【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（Advanced RAG[1]）基于历史对话重新生成Query？ 985小水博一枚呀 AI大模型学习路线人工智能学习 langchain RAG
【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）基于历史对话重新生成Query？【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）基于历史对话重新生成Query？文章目录【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）基于历史对话重新生成Q
【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（Advanced RAG[1]）其他Query优化相关策略？ 985小水博一枚呀 AI大模型学习路线人工智能学习 langchain
【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）其他Query优化相关策略？【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）其他Query优化相关策略？文章目录【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）其他Query优化相关策略？一
Topview Avatar 2深度实测：AI数字人带货的新高度，还是又一个营销噱头？神码小Z AI工具人工智能
在AI数字人赛道越来越卷的今天，各家产品都在宣传自己的"独门秘技"。最近，TopviewAI推出的Avatar2引起了我的注意——号称突破了产品尺寸限制，实现了"万物皆可带"。作为一个经常需要制作营销视频的内容创作者，我决定亲自上手测试一番，看看这款工具是否真的像宣传的那样强大。TopviewAvatar2是什么？革命性升级还是渐进式改良？TopviewAvatar2是TopviewAI推出的第二
jQuery 跨域访问的三种方式 No 'Access-Control-Allow-Origin' header is present on the reque qiaolevip 每天进步一点点学习永无止境跨域众观千象
XMLHttpRequest cannot load http://v.xxx.com. No 'Access-Control-Allow-Origin' header is present on the requested resource. Origin 'http://localhost:63342' is therefore not allowed access. test.html:1
mysql 分区查询优化 annan211 java 分区优化 mysql
分区查询优化引入分区可以给查询带来一定的优势，但同时也会引入一些bug. 分区最大的优点就是优化器可以根据分区函数来过滤掉一些分区，通过分区过滤可以让查询扫描更少的数据。所以，对于访问分区表来说，很重要的一点是要在where 条件中带入分区，让优化器过滤掉无需访问的分区。可以通过查看explain执行计划，是否携带 partitions
MYSQL存储过程中使用游标 chicony Mysql存储过程
DELIMITER $$ DROP PROCEDURE IF EXISTS getUserInfo $$ CREATE PROCEDURE getUserInfo(in date_day datetime)-- -- 实例-- 存储过程名为：getUserInfo-- 参数为：date_day日期格式:2008-03-08-- BEGINdecla
mysql 和 sqlite 区别 Array_06 sqlite
转载： http://www.cnblogs.com/ygm900/p/3460663.html mysql 和 sqlite 区别 SQLITE是单机数据库。功能简约，小型化，追求最大磁盘效率 MYSQL是完善的服务器数据库。功能全面，综合化，追求最大并发效率 MYSQL、Sybase、Oracle等这些都是试用于服务器数据量大功能多需要安装，例如网站访问量比较大的。而sq
pinyin4j使用 oloz pinyin4j
首先需要pinyin4j的jar包支持；jar包已上传至附件内方法一:把汉字转换为拼音；例如：编程转换后则为biancheng /** * 将汉字转换为全拼 * @param src 你的需要转换的汉字 * @param isUPPERCASE 是否转换为大写的拼音； true:转换为大写；fal
微博发送私信随意而生微博
在前面文章中说了如和获取登陆时候所需要的cookie，现在只要拿到最后登陆所需要的cookie，然后抓包分析一下微博私信发送界面 http://weibo.com/message/history?uid=****&name=**** 可以发现其发送提交的Post请求和其中的数据，让后用程序模拟发送POST请求中的数据，带着cookie发送到私信的接入口，就可以实现发私信的功能了。
jsp 香水浓 jsp
JSP初始化容器载入JSP文件后，它会在为请求提供任何服务前调用jspInit()方法。如果您需要执行自定义的JSP初始化任务，复写jspInit()方法就行了 JSP执行这一阶段描述了JSP生命周期中一切与请求相关的交互行为，直到被销毁。当JSP网页完成初始化后
在 Windows 上安装 SVN Subversion 服务端 AdyZhang SVN
在 Windows 上安装 SVN Subversion 服务端2009-09-16高宏伟哈尔滨市道里区通达街291号最佳阅读效果请访问原地址：http://blog.donews.com/dukejoe/archive/2009/09/16/1560917.aspx 现在的Subversion已经足够稳定，而且已经进入了它的黄金时段。我们看到大量的项目都在使
android开发中如何使用 alertDialog从listView中删除数据？ aijuans android
我现在使用listView展示了很多的配置信息，我现在想在点击其中一条的时候填出 alertDialog,点击确认后就删除该条数据，（ ArrayAdapter ，ArrayList，listView 全部删除），我知道在下面的onItemLongClick 方法中参数 arg2 是选中的序号，但是我不知道如何继续处理下去 1 2 3
jdk-6u26-linux-x64.bin 安装 baalwolf linux
1.上传安装文件(jdk-6u26-linux-x64.bin) 2.修改权限 [root@localhost ~]# ls -l /usr/local/jdk-6u26-linux-x64.bin 3.执行安装文件 [root@localhost ~]# cd /usr/local [root@localhost local]# ./jdk-6u26-linux-x64.bin&nbs
MongoDB经典面试题集锦 BigBird2012 mongodb
1.什么是NoSQL数据库？NoSQL和RDBMS有什么区别？在哪些情况下使用和不使用NoSQL数据库？ NoSQL是非关系型数据库，NoSQL = Not Only SQL。关系型数据库采用的结构化的数据，NoSQL采用的是键值对的方式存储数据。在处理非结构化/半结构化的大数据时；在水平方向上进行扩展时；随时应对动态增加的数据项时可以优先考虑使用NoSQL数据库。在考虑数据库的成熟
JavaScript异步编程Promise模式的6个特性 bijian1013 JavaScript Promise
Promise是一个非常有价值的构造器，能够帮助你避免使用镶套匿名方法，而使用更具有可读性的方式组装异步代码。这里我们将介绍6个最简单的特性。在我们开始正式介绍之前，我们想看看Javascript Promise的样子： var p = new Promise(function(r
[Zookeeper学习笔记之八]Zookeeper源代码分析之Zookeeper.ZKWatchManager bit1129 zookeeper
ClientWatchManager接口 //接口的唯一方法materialize用于确定那些Watcher需要被通知 //确定Watcher需要三方面的因素1.事件状态 2.事件类型 3.znode的path public interface ClientWatchManager { /** * Return a set of watchers that should
【Scala十五】Scala核心九：隐式转换之二 bit1129 scala
隐式转换存在的必要性，在Java Swing中，按钮点击事件的处理，转换为Scala的的写法如下： val button = new JButton button.addActionListener( new ActionListener { def actionPerformed(event: ActionEvent) {
Android JSON数据的解析与封装小Demo ronin47
转自：http://www.open-open.com/lib/view/open1420529336406.html package com.example.jsondemo; import org.json.JSONArray; import org.json.JSONException; import org.json.JSONObject; impor
[设计]字体创意设计方法谈 brotherlamp UI ui自学 ui视频 ui教程 ui资料
从古至今，文字在我们的生活中是必不可少的事物，我们不能想象没有文字的世界将会是怎样。在平面设计中，UI设计师在文字上所花的心思和功夫最多，因为文字能直观地表达UI设计师所的意念。在文字上的创造设计，直接反映出平面作品的主题。如设计一幅戴尔笔记本电脑的广告海报，假设海报上没有出现“戴尔”两个文字，即使放上所有戴尔笔记本电脑的图片都不能让人们得知这些电脑是什么品牌。只要写上“戴尔笔
单调队列-用一个长度为k的窗在整数数列上移动，求窗里面所包含的数的最大值 bylijinnan java 算法面试题
import java.util.LinkedList; /* 单调队列滑动窗口单调队列是这样的一个队列：队列里面的元素是有序的，是递增或者递减题目：给定一个长度为N的整数数列a(i),i=0,1,...,N-1和窗长度k. 要求：f(i) = max{a(i-k+1),a(i-k+2),..., a(i)},i = 0,1,...,N-1 问题的另一种描述就
struts2处理一个form多个submit chiangfai struts2
web应用中，为完成不同工作，一个jsp的form标签可能有多个submit。如下代码： <s:form action="submit" method="post" namespace="/my"> <s:textfield name="msg" label="叙述：">
shell查找上个月，陷阱及野路子 chenchao051 shell
date -d "-1 month" +%F 以上这段代码，假如在2012/10/31执行，结果并不会出现你预计的9月份，而是会出现八月份，原因是10月份有31天，9月份30天，所以-1 month在10月份看来要减去31天，所以直接到了8月31日这天，这不靠谱。野路子解决：假设当天日期大于15号
mysql导出数据中文乱码问题 daizj mysql 中文乱码导数据
解决mysql导入导出数据乱码问题方法：１、进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+----------------------------------------+ | Variable_name&nbs
SAE部署Smarty出现：Uncaught exception 'SmartyException' with message 'unable to write dcj3sjt126com PHP smarty sae
对于SAE出现的问题：Uncaught exception 'SmartyException' with message 'unable to write file...。官方给出了详细的FAQ：http://sae.sina.com.cn/?m=faqs&catId=11#show_213 解决方案为： 01 $path
《教父》系列台词 dcj3sjt126com
Your love is also your weak point. 你的所爱同时也是你的弱点。 If anything in this life is certain, if history has taught us anything, it is that you can kill anyone. 不顾家的人永远不可能成为一个真正的男人。 &
mongodb安装与使用 dyy_gusi mongo
一.MongoDB安装和启动,widndows和linux基本相同 1.下载数据库, linux:mongodb-linux-x86_64-ubuntu1404-3.0.3.tgz 2.解压文件,并且放置到合适的位置 tar -vxf mongodb-linux-x86_64-ubun
Git排除目录 geeksun git
在Git的版本控制中，可能有些文件是不需要加入控制的，那我们在提交代码时就需要忽略这些文件，下面讲讲应该怎么给Git配置一些忽略规则。有三种方法可以忽略掉这些文件，这三种方法都能达到目的，只不过适用情景不一样。 1. 针对单一工程排除文件这种方式会让这个工程的所有修改者在克隆代码的同时，也能克隆到过滤规则，而不用自己再写一份，这就能保证所有修改者应用的都是同一
Ubuntu 创建开机自启动脚本的方法 hongtoushizi ubuntu
转载自： http://rongjih.blog.163.com/blog/static/33574461201111504843245/ Ubuntu 创建开机自启动脚本的步骤如下： 1) 将你的启动脚本复制到 /etc/init.d目录下以下假设你的脚本文件名为 test。 2) 设置脚本文件的权限 $ sudo chmod 755
第八章流量复制/AB测试/协程 jinnianshilongnian nginx lua coroutine
流量复制在实际开发中经常涉及到项目的升级，而该升级不能简单的上线就完事了，需要验证该升级是否兼容老的上线，因此可能需要并行运行两个项目一段时间进行数据比对和校验，待没问题后再进行上线。这其实就需要进行流量复制，把流量复制到其他服务器上，一种方式是使用如tcpcopy引流；另外我们还可以使用nginx的HttpLuaModule模块中的ngx.location.capture_multi进行并发
电商系统商品表设计 lkl
DROP TABLE IF EXISTS `category`; -- 类目表 /*!40101 SET @saved_cs_client = @@character_set_client */; /*!40101 SET character_set_client = utf8 */; CREATE TABLE `category` ( `id` int(11) NOT NUL
修改phpMyAdmin导入SQL文件的大小限制 pda158 sql mysql
　用phpMyAdmin导入mysql数据库时，我的10M的数据库不能导入，提示mysql数据库最大只能导入2M。　　 phpMyAdmin数据库导入出错：　　You probably tried to upload too large file. Please refer to documentation for ways to workaround this limit.
Tomcat性能调优方案 Sobfist apache jvm tomcat 应用服务器
一、操作系统调优对于操作系统优化来说，是尽可能的增大可使用的内存容量、提高CPU的频率，保证文件系统的读写速率等。经过压力测试验证，在并发连接很多的情况下，CPU的处理能力越强，系统运行速度越快。。【适用场景】任何项目。二、Java虚拟机调优应该选择SUN的JVM，在满足项目需要的前提下，尽量选用版本较高的JVM，一般来说高版本产品在速度和效率上比低版本会有改进。 J
SQLServer学习笔记 vipbooks 数据结构 xml
1、create database school 创建数据库school 2、drop database school 删除数据库school 3、use school 连接到school数据库，使其成为当前数据库 4、create table class(classID int primary key identity not null) 创建一个名为class的表，其有一

【小余送书第二期】《MLOps工程实践：工具、技术与企业级应用》参与活动，即有机会中奖哦！！！祝各位铁铁们双节快乐！

1、背景介绍

2、内容简介

3、读者对象

4、专家推荐

5、书籍目录

目 录

作者简介

前言

第1章 全面了解MLOps1

1.1 人工智能的趋势和现状 1

1.1.1 趋势1：人工智能在企业中加速落地，彰显更多业务价值 1

1.1.2 趋势2：人工智能应用从以模型为中心向以数据为中心转变 3

1.1.3 现状：人工智能落地成功率低，

成本高 4

1.2 人工智能的问题、挑战以及应对措施 5

1.2.1 问题1：机器学习代码只是整个系统的一小部分 5

1.2.2 问题2：数据是最主要的问题 6

1.2.3 挑战：人工智能系统

如何规模化落地 7

1.2.4 应对措施：MLOps 8

1.3 MLOps简介 8

1.3.1 MLOps的定义 8

1.3.2 MLOps相关的工具和平台 12

1.3.3 MLOps的优势 13

1.4 MLOps与DevOps 14

1.4.1 DevOps的3个优点 14

1.4.2 MLOps延续了DevOps的优点 17

1.4.3 MLOps和DevOps的不同之处 19

1.4.4 MLOps和DevOps的目标与

实践理念 20

1.5 MLOps与其他XOps的区别 20

1.5.1 MLOps与AIOps的区别 21

1.5.2 MLOps与DataOps的区别 21

1.5.3 MLOps与ModelOps的区别 22

1.5.4 XOps的相同点：

都基于DevOps原则 22

1.6 本章小结 22

第2章 MLOps涉及的角色23

2.1 角色类型 23

2.1.1 产品经理 24

2.1.2 数据科学家 24

2.1.3 数据工程师 25

2.1.4 机器学习工程师 26

2.1.5 DevOps工程师 27

2.1.6 IT运维工程师 27

2.2 角色划分以及角色之间

存在的问题 28

2.2.1 角色划分 28

2.2.2 问题1：技术栈不一致导致人工智能模型线上、线下效果不一致 28

2.2.3 问题2：关注点不同导致对系统的

需求不同 29

2.2.4 协作问题及解决办法 30

2.3 本章小结 30

第3章 机器学习项目概论31

3.1 机器学习项目简介 31

3.1.1 机器学习的定义 31

3.1.2 机器学习相关概念 33

3.1.3 机器学习能解决的问题 37

3.1.4 机器学习项目度量 38

3.1.5 机器学习项目难以落地的

原因 41

3.2 深入理解机器学习项目全流程 44

3.2.1 方案调研 45

3.2.2 方案投产 49

3.3 本章小结 51

第4章 MLOps中的数据部分52

4.1 从以模型为中心到以数据为中心 52

4.1.1 以模型为中心的时代 52

4.1.2 以数据为中心的时代 53

4.2 MLOps中的数据生命周期管理 55

4.3 数据存储架构演进 56

4.4 MLOps中主要的数据问题及

解决方案 57

4.4.1 常见的数据质量问题及

解决方案 57

4.4.2 时序数据穿越问题及解决方案 59

4.4.3 离线和实时数据一致性问题及

解决方案 64

4.4.4 数据安全问题及解决方案 66

目录

第1章　全面了解MLOps1

1.1　人工智能的趋势和现状 1

1.1.1　趋势1：人工智能在企业中加速落地，彰显更多业务价值 1

1.1.2　趋势2：人工智能应用从以模型为中心向以数据为中心转变 3

1.1.3　现状：人工智能落地成功率低，

1.2　人工智能的问题、挑战以及应对措施 5

1.2.1　问题1：机器学习代码只是整个系统的一小部分 5

1.2.2　问题2：数据是最主要的问题 6

1.2.3　挑战：人工智能系统

1.2.4　应对措施：MLOps 8

1.3　MLOps简介 8

1.3.1　MLOps的定义 8

1.3.2　MLOps相关的工具和平台 12

1.3.3　MLOps的优势 13

1.4　MLOps与DevOps 14

1.4.1　DevOps的3个优点 14

1.4.2　MLOps延续了DevOps的优点 17

1.4.3　MLOps和DevOps的不同之处 19

1.4.4　MLOps和DevOps的目标与

1.5　MLOps与其他XOps的区别 20

1.5.1　MLOps与AIOps的区别 21

1.5.2　MLOps与DataOps的区别 21

1.5.3　MLOps与ModelOps的区别 22

1.5.4　XOps的相同点：

1.6　本章小结 22

第2章　MLOps涉及的角色23

2.1　角色类型 23

2.1.1　产品经理 24

2.1.2　数据科学家 24

2.1.3　数据工程师 25

2.1.4　机器学习工程师 26

2.1.5　DevOps工程师 27

2.1.6　IT运维工程师 27

2.2　角色划分以及角色之间

2.2.1　角色划分 28

2.2.2　问题1：技术栈不一致导致人工智能模型线上、线下效果不一致 28

2.2.3　问题2：关注点不同导致对系统的

2.2.4　协作问题及解决办法 30

2.3　本章小结 30

第3章　机器学习项目概论31

3.1　机器学习项目简介 31

3.1.1　机器学习的定义 31

3.1.2　机器学习相关概念 33

3.1.3　机器学习能解决的问题 37

3.1.4　机器学习项目度量 38

3.1.5　机器学习项目难以落地的

3.2　深入理解机器学习项目全流程 44

3.2.1　方案调研 45

3.2.2　方案投产 49

3.3　本章小结 51

第4章　MLOps中的数据部分52

4.1　从以模型为中心到以数据为中心 52

4.1.1　以模型为中心的时代 52

4.1.2　以数据为中心的时代 53

4.2　MLOps中的数据生命周期管理 55

4.3　数据存储架构演进 56

4.4　MLOps中主要的数据问题及

4.4.1　常见的数据质量问题及

4.4.2　时序数据穿越问题及解决方案 59

4.4.3　离线和实时数据一致性问题及

4.4.4　数据安全问题及解决方案 66

4.4.5　数据共享与复用问题及

4.5　本章小结 67

第5章　流水线工具69

5.1　Airflow 69

5.1.1　Airflow的功能和应用场景 69

5.1.2　Airflow的核心概念 72

5.1.3　Airflow的使用方法 72

5.2　MLflow 80

5.2.1　MLflow的功能和应用场景 80

5.2.2　MLflow的核心概念 81

5.2.3　MLflow的使用方法 82

5.3　其他流水线工具 91

5.4　本章小结 93

第6章　特征平台94

6.1　特征平台的概念和起源 94

6.2　特征平台的特性 96

6.3　特征平台的现状 97

6.4　主流的特征平台 98