东海陈光剑

【读书笔记】大数据之路：阿里巴巴大数据实践

大数据之路：阿里巴巴大数据实践

简介：

在Alibaba集团内，数据人员面临的现实情况是：集团数据存储已经达到EB级别，部分单张表每天的数据记录数高达几千亿条；在2016年“双11购物狂欢节”的24小时中，支付金额达到了1207亿元人民币，支付峰值高达12万笔/秒，下单峰值达17.5万笔/秒，媒体直播大屏处理的总数据量高达百亿级别且所有数据都需要做到实时、准确地对外披露……巨大的信息量给数据采集、存储和计算都带来了极大的挑战。《大数据之路——Alibaba大数据实践》就是在此背景下完成的。本书中讲到的Alibaba大数据系统架构，就是为了满足不断变化的业务需求，同时实现系统的高度扩展性、灵活性以及数据展现的高性能而设计的。本书由Alibaba数据技术及产品部组织并完成写作，是Alibaba分享对大数据的认知，与生态伙伴共创数据智能的重要基石。相信本书中的实践和思考对同行会有很大的启发和借鉴意义。

目录：

第1章总述 1

第1篇数据技术篇

第2章日志采集 8

2.1 浏览器的页面日志采集 8

2.1.1 页面浏览日志采集流程 9

2.1.2 页面交互日志采集 14

2.1.3 页面日志的服务器端清洗和预处理 15

2.2 无线客户端的日志采集 16

2.2.1 页面事件 17

2.2.2 控件点击及其他事件 18

2.2.3 特殊场景 19

2.2.4 H5 ＆ Native日志统一 20

2.2.5 设备标识 22

2.2.6 日志传输 23

2.3 日志采集的挑战 24

2.3.1 典型场景 24

2.3.2 大促保障 26

第3章数据同步 29

3.1 数据同步基础 29

3.1.1 直连同步 30

3.1.2 数据文件同步 30

3.1.3 数据库日志解析同步 31

3.2 阿里数据仓库的同步方式 35

3.2.1 批量数据同步 35

3.2.2 实时数据同步 37

3.3 数据同步遇到的问题与解决方案 39

3.3.1 分库分表的处理 39

3.3.2 高效同步和批量同步 41

3.3.3 增量与全量同步的合并 42

3.3.4 同步性能的处理 43

3.3.5 数据漂移的处理 45

第4章离线数据开发 48

4.1 数据开发平台 48

4.1.1 统一计算平台 49

4.1.2 统一开发平台 53

4.2 任务调度系统 58

4.2.1 背景 58

4.2.2 介绍 59

4.2.3 特点及应用 65

MaxCompute

系统架构

MaxCompute以数据为中心，内建多种计算模型和服务接口，满足广泛的数据分析需求。一切服务“开通”即用，更好地赋能数据业务。

计算模型

支持SQL、MapReduce、Graph多种计算模型于一身

SQL

MaxCompute SQL采用标准的SQL语法，兼容部分Hive语法。在语法上和HQL非常接近，熟悉SQL或HQL的编程人员都容易上手。另外MaxCompute提供更高效的计算框架支持SQL计算模型，执行效率比普通的MapReduce模型更高。需要注意的是，MaxCompute SQL不支持事务、索引及Update/Delete等操作。

MapReduce

MaxCompute提供的Java MapReduce编程模型。值得注意的是，由于MaxCompute并没有开放文件接口，用户只能通过它所提供的Table读写数据，因此MaxCompute的MapReduce模型与开源社区中通用的MapReduce模型在使用上有一定的区别。我们相信，这样的改动虽然失去一定的灵活性，例如：不能够自定义排序及哈希算法，但却能够简化开发流程，免除很多琐碎的工作。更为重要的是，MaxCompute还提供了基于MapReduce的扩展计算模型，即MR2。在该模型下，一个Map函数后，可以接入连续多个Reduce函数。

Graph

对于某些复杂的迭代计算场景，例如：K-Means，PageRank等，如果仍然使用MapReduce来完成这些计算任务将是非常耗时的。MaxCompute提供的Graph模型能够非常好的完成这一类计算任务。

第5章实时技术 68

5.1 简介 69

5.2 流式技术架构 71

5.2.1 数据采集 72

5.2.2 数据处理 74

5.2.3 数据存储 78

5.2.4 数据服务 80

5.3 流式数据模型 80

5.3.1 数据分层 80

5.3.2 多流关联 83

5.3.3 维表使用 84

5.4 大促挑战＆保障 86

5.4.1 大促特征 86

5.4.2 大促保障 88

第6章数据服务 91

6.1 服务架构演进 91

6.1.1 DWSOA 92

6.1.2 OpenAPI 93

6.1.3 SmartDQ 94

6.1.4 统一的数据服务层 96

6.2 技术架构 97

6.2.1 SmartDQ 97

6.2.2 iPush 100

6.2.3 Lego 101

6.2.4 uTiming 102

6.3 最佳实践 103

6.3.1 性能 103

6.3.2 稳定性 111

第7章数据挖掘 116

7.1 数据挖掘概述 116

7.2 数据挖掘算法平台 117

7.3 数据挖掘中台体系 119

7.3.1 挖掘数据中台 120

7.3.2 挖掘算法中台 122

7.4 数据挖掘案例 123

7.4.1 用户画像 123

7.4.2 互联网反作弊 125

第2篇数据模型篇

第8章大数据领域建模综述 130

8.1 为什么需要数据建模 130

8.2 关系数据库系统和数据仓库 131

8.3 从OLTP和OLAP系统的区别看模型方法论的选择 132

8.4 典型的数据仓库建模方法论 132

8.4.1 ER模型 132

8.4.2 维度模型 133

8.4.3 Data Vault模型 134

8.4.4 Anchor模型 135

8.5 阿里巴巴数据模型实践综述 136

1、为什么要建模意义

图书，希望分门别类摆放，电脑桌面上文件希望是自己习惯组织方式。

数据模型：数据组织和存储方法。强调从业务、存取和使用角度合理存储。

（烂程序员关心代码，好的程序员关系数据结构和他们间的关系）

重要性：

（1）性能：快速查询、减少IO。

（2）成本：降低计算和存储成本（减少数据冗余、结果复用）

（3）效率：提高查询效率（用户体验好）

（4）质量：改善口径不一致，减少计算错误可能性

2、关系数据库与数据仓库

目前仍大规模使用SQL加工处理，使用table存储数据，关系理论描述数据关系。大数据仅基于存储特点在关系模型的范式上有了新的选择。

OLTP和OLAP：OLTP数据操作随机读写，关注满足3NF的模型，事务处理中解决数据冗余和一致性问题。OLAP数据操作批量读写，关注数据整合和复杂查询的性能问题。

3、数据仓库建模方法论

（1）ER模型

Bill Inmon提出，从企业高度设计的一个3NF模型，用实体关系ER模型来描述企业业务，基本满足3NF理论。为数据分析决策服务，但不能直接用于分析决策。

与OLTP的3NF区别在于，站在企业角度面向主题抽象，而不是针对某一个业务流程的实体对象抽象。

三个特点：需全面了解企业业务和数据，实施周期长，成本高，模型人员要求高。

三个阶段：高阶模型（描述企业业务总体概况）、中层模型（高阶模型基础上细化数据项）、物理模型（中层模型基础上考虑物理存储和基于平台的性能物理属性设计）。

典型代表：Teradata金融行业的FS-LDM（Finacial Services Logical Data Model），10大主题。

（2）维度模型

Ralph Kimball提出，重点关注如何快速完成需求分析，同时复杂查询的响应性能。从分析决策需求出发构建模型，可直接用于分析决策。

设计步骤：选择分析决策业务过程，选择粒度，确定分析维度（维表），确定衡量指标（事实表）

典型代表：星形模型，特殊场景下使用雪花模型。

（3）Data Vault模型

Dan Linstedt提出，ER模型衍生，为实现数据整合，不能直接用于分析决策。

组成部分：hub（企业核心业务实体），Link（hub间的关系，与ER模型最大区别是将关系做为一个独立单元抽象，可提升扩展性），Satellite（hub的描述内容）

（4）Anchor模型

Lars Ronnback提出，高度可扩展模型，扩展只添加不修改。6NF，基本变成k-v结构化模型。增加非常多的join操作，主要适用于基于一小部分字段进行分析的查询，类似列式存储。

组成部分：Anchors（类似hub，业务实体，只有主键），Attributes（类似Satellite，一个表只有一个Anchors属性，k-v结构），Knots（可能会被Anchors使用的多个公共属性）

在各组成部分基础上，又细分历史和非历史。历史会以时间戳加多条记录方式，记录数据变迁历史。

4、阿里数据仓库模型建设发展阶段

（1）ODS+DSS

Oracle数据库，ODS贴源和DSS基于贴源的数据统计，无模型方法体系。

（2）ODL+BDL+IDL+ADL

MPP的Greenplum，希望使用模型改变烟囱式开发，提升数据一致性，减少冗余。ER模型+维度模型方式。

ODL（操作数据层）与源系统一致，

BDL（基础数据层）引入ER模型，进行数据整合，构建一致的基础数据模型。

IDL（接口数据层）引入维度模型，构建集市层。

ADL（应用数据层）完成应用个性化和基于展现需求的数据组装

经验总结：ER模型对于不成熟的、快速变化的业务不适用，风险特别大。

（3）维度建模为核心的公共层数据架构体系（One Data）

hadoop为代表的分布式存储计算平台，着力解决数据存储和数据共享问题。

第9章阿里巴巴数据整合及管理体系 138

9.1 概述 138

9.1.1 定位及价值 139

9.1.2 体系架构 139

9.2 规范定义 140

9.2.1 名词术语 141

9.2.2 指标体系 141

9.3 模型设计 148

9.3.1 指导理论 148

9.3.2 模型层次 148

9.3.3 基本原则 150

高内聚低耦合

核心模型与扩展模型分离

9.4 模型实施 152

9.4.1 业界常用的模型实施过程 152

9.4.2 OneData实施过程 154

第10章维度设计 159

10.1 维度设计基础 159

10.1.1 维度的基本概念 159

10.1.2 维度的基本设计方法 160

10.1.3 维度的层次结构 162

10.1.4 规范化和反规范化 163

10.1.5 一致性维度和交叉探查 165

10.2 维度设计高级主题 166

10.2.1 维度整合 166

10.2.2 水平拆分 169

10.2.3 垂直拆分 170

10.2.4 历史归档 171

10.3 维度变化 172

10.3.1 缓慢变化维 172

10.3.2 快照维表 174

10.3.3 极限存储 175

10.3.4 微型维度 178

10.4 特殊维度 180

10.4.1 递归层次 180

10.4.2 行为维度 184

10.4.3 多值维度 185

10.4.4 多值属性 187

10.4.5 杂项维度 188

第11章事实表设计 190

11.1 事实表基础 190

11.1.1 事实表特性 190

11.1.2 事实表设计原则 191

11.1.3 事实表设计方法 193

11.2 事务事实表 196

11.2.1 设计过程 196

11.2.2 单事务事实表 200

11.2.3 多事务事实表 202

11.2.4 两种事实表对比 206

11.2.5 父子事实的处理方式 208

11.2.6 事实的设计准则 209

11.3 周期快照事实表 210

11.3.1 特性 211

11.3.2 实例 212

11.3.3 注意事项 217

11.4 累积快照事实表 218

11.4.1 设计过程 218

11.4.2 特点 221

11.4.3 特殊处理 223

11.4.4 物理实现 225

11.5 三种事实表的比较 227

11.6 无事实的事实表 228

11.7 聚集型事实表 228

11.7.1 聚集的基本原则 229

11.7.2 聚集的基本步骤 229

11.7.3 阿里公共汇总层 230

11.7.4 聚集补充说明 234

第3篇数据管理篇

第12章元数据 236

12.1 元数据概述 236

12.1.1 元数据定义 236

12.1.2 元数据价值 237

12.1.3 统一元数据体系建设 238

12.2 元数据应用 239

12.2.1 Data Profile 239

12.2.2 元数据门户 241

12.2.3 应用链路分析 241

12.2.4 数据建模 242

12.2.5 驱动ETL开发 243

第13章计算管理 245

13.1 系统优化 245

13.1.1 HBO 246

13.1.2 CBO 249

13.2 任务优化 256

13.2.1 Map倾斜 257

13.2.2 Join倾斜 261

13.2.3 Reduce倾斜 269

第14章存储和成本管理 275

14.1 数据压缩 275

14.2 数据重分布 276

14.3 存储治理项优化 277

14.4 生命周期管理 278

14.4.1 生命周期管理策略 278

14.4.2 通用的生命周期管理矩阵 280

14.5 数据成本计量 283

14.6 数据使用计费 284

第15章数据质量 285

15.1 数据质量保障原则 285

15.2 数据质量方法概述 287

15.2.1 消费场景知晓 289

15.2.2 数据加工过程卡点校验 292

15.2.3 风险点监控 295

15.2.4 质量衡量 299

第4篇数据应用篇

第16章数据应用 304

16.1 生意参谋 305

16.1.1 背景概述 305

16.1.2 功能架构与技术能力 307

16.1.3 商家应用实践 310

16.2 对内数据产品平台 313

16.2.1 定位 313

16.2.2 产品建设历程 314

16.2.3 整体架构介绍 317

附录A 本书插图索引 320

你可能感兴趣的:(读书笔记,大数据)

深入解析：Tableau在数据可视化中的高级应用 Echo_Wish 实战高阶大数据信息可视化数据分析数据挖掘
深入解析：Tableau在数据可视化中的高级应用引言在大数据时代，数据可视化已成为数据分析中不可或缺的一部分。作为一款广受欢迎的数据可视化工具，Tableau以其强大的功能和灵活性，赢得了众多数据分析师的青睐。然而，许多人在使用Tableau时，仅停留在基本操作层面，未能充分发挥其潜力。本文将深入探讨Tableau的高级应用，展示其在复杂数据分析中的强大能力，并以具体实例说明其实际应用效果。数据预
Sharding-JDBC 实现分库分表一叶飘零_sweeeet java 分布式 mysql Sharding-JDBC 分库分表 java mysql
一、引言随着互联网业务的快速发展，数据量不断增长，传统的单一数据库架构已经难以满足高并发、大数据量的存储和查询需求。分库分表技术成为了解决这些问题的重要手段。Sharding-JDBC作为一款优秀的数据库中间件，能够方便地实现分库分表，提高系统的性能和可扩展性。本文将详细介绍Sharding-JDBC实现分库分表的实战过程。二、Sharding-JDBC概述（一）Sharding-JDBC的定义和
阿里云 MaxCompute MaxQA 开启公测，解锁近实时高效查询体验阿里云大数据AI技术阿里云云原生 MaxCompute 大数据实时数仓
随着实时、近实时数据分析需求的持续增长，查询响应时间在现代数据分析和业务应用中变得越来越重要。为减少查询响应时间，提升数据效率，阿里云云原生大数据计算服务MaxCompute推出MaxQA（原MCQA2.0）查询加速功能，在独享的查询加速资源池的基础上，对管控链路、查询优化器、执行引擎、存储引擎以及缓存机制等多个环节进行全面优化，显著减少了查询响应时间，适用于BI场景、交互式分析以及近实时数仓等对
《深入浅出AI》前言知识：深度学习基础总结 GoAI 深入浅出AI 人工智能深度学习机器学习 cnn rnn 生成对抗网络神经网络
个人主页:GoAI|公众号:GoAI的学习小屋|交流群:704932595|个人简介：掘金签约作者、百度飞桨PPDE、领航团团长、开源特训营导师、CSDN、阿里云社区人工智能领域博客专家、新星计划计算机视觉方向导师等，专注大数据与人工智能知识分享。AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成
EBS 性能不足？从吞吐量到 IOPS，阿里云全方位优化 Anna_Tong 阿里云云计算存储加速吞吐量优化 RAID配置云计算运维 IOPS 提升
在云计算环境中，存储性能对于业务稳定运行至关重要，尤其是数据库、大数据分析、AI计算等高IO需求的应用。然而，许多用户在使用EBS（弹性块存储）时，可能会遇到磁盘吞吐量或IOPS（每秒输入/输出操作数）不足的问题，导致应用响应变慢、数据处理延迟，甚至影响业务连续性。那么，是什么原因导致EBS性能瓶颈？如何优化吞吐量和IOPS以提升存储性能？阿里云又能提供哪些优化方案？本文将从存储架构、性能监控、优
DeepSeek接入大数据能做什么 PersistDZ 大数据与AI 大数据
DeepSeek作为一家专注于AGI和AI大模型技术的公司，在大数据领域可以通过以下方式切入，结合其核心能力提供创新解决方案：一、DeepSeek接入大数据领域的技术路径多模态数据处理能力支持文本/图像/视频/传感器数据的统一处理自主研发的MoE（MixtureofExperts）架构可并行处理异构数据超大规模特征工程基于千亿参数模型的自动特征提取支持非结构化数据的深度语义解析实时计算优化自研分布
《Spring实战》读书笔记-第3章高级装配 2401_89790580 spring oracle 数据库
Spring表达式语言在上一章中，我们看到了一些最为核心的bean装配技术。你可能会发现上一章学到的知识有很大的用处。但是，bean装配所涉及的领域并不仅仅局限于上一章所学习到的内容。Spring提供了多种技巧，借助它们可以实现更为高级的bean装配功能。在本章中，我们将会深入介绍一些这样的高级技术。本章中所介绍的技术也许你不会天天都用到，但这并不意味着它们的价值会因此而降低。3.1环境与prof
Hadoop01-入门&集群环境搭建--非原创（test） xl.liu 大数据 Test
Hadoop01-入门&集群环境搭建今日内容Hadoop的介绍集群环境搭建准备工作Linux命令和Shell脚本增强集群环境搭建来来来大数据概述大数据:就是对海量数据进行分析处理，得到一些有价值的信息，然后帮助企业做出判断和决策.处理流程:1:获取数据2:处理数据3:展示结果1：Hadoop介绍Hadoop是一个分布式系基础框架,它允许使用简单的编程模型跨大型计算机的大型数据集进行分布式处理.它主
AI技术在音乐产品中有哪些应用场景？大数据人工智能音乐大数据
自动标注、平滑过渡、音乐鉴权、AI创作，当AI技术应用于音乐行业为人类的精神文化与娱乐生活带来便利和更多选择时，也是一件让人激动不已的事情。随着深度学习算法的出现、大数据和5G技术的成熟，AI人工智能已逐渐融入我们的生产生活中，在教育、医疗、政务办公、城市管理等多个方面发挥作用。随着AI技术在音乐行业研究及应用的深入，音乐人工智能已经不新鲜，很多新的应用和产品已经惊艳亮相。基于对于音乐技术及产品的
【深度学习入门：基于python的理论与实现读书笔记】第五章误差反向传播法 Bin二叉深度学习 python 人工智能
目录摘要第五章误差反向传播法简单层的实现乘法层的实现加法层的实现激活函数层的实现ReLU层Sigmoid层Affine层和Softmax层的实现Affine层Softmax-with-Loss层误差反向传播法的实现摘要该文章简要介绍了神经网络的误差反向传播法，省去了大量的推理过程，重点讲述了神经网络误差反向传播法的代码实现。第五章误差反向传播法反向传播就是从后到前局部计算偏导数并将其与从上游传来的
iot架构 mqtt netty_一个关于小程序Iot的具体实现（MQTT版） Alfred Cheng iot架构 mqtt netty
前言Iot，这个名词应该很多人都听过了吧，即大数据、Ai等兴起后也紧跟着研发大潮流的到来，即物联网。传统简单的说就是智能化、程序化的控制硬件设施，大家最容易想到的应该是智能家居，通过一个App或者遥控进行对家具设置的远程控制。而今天要说的是人与物之间的通信控制，且通过互联网产品来执行人的命令，而机器进行应答。竞品说到小程序控制硬件，大家应该立马想到什么产品呢？某拜、某FO、售货机等等，他们的架构上
智慧园区安全调度的重要性 Guheyunyi 安全网络 python 大数据人工智能信息可视化数据分析
随着科技的飞速发展，智慧园区作为现代城市的重要组成部分，正逐渐成为企业、政府和居民生活的重要载体。智慧园区通过物联网、大数据、人工智能等先进技术，实现了资源的高效配置和管理的智能化。然而，随着园区规模的扩大和复杂性的增加，安全问题也日益凸显。因此，智慧园区的安全调度显得尤为重要。智慧园区安全调度的定义智慧园区安全调度是指通过先进的技术手段和管理方法，对园区内的各类安全风险进行实时监控、预警和应急处
（一）大数据---Hadoop整体介绍（架构层）----（组件(3) 2401_84166965 程序员大数据 hadoop 架构
复杂性:体现在数据的管理和操作上。如何抽取，转换，加载，连接，关联以把握数据内蕴的有用信息已经变得越来越有挑战性二、大数据技术有哪些（重点）===================================================================================基础的技术包含数据的采集、数据预处理、分布式存储、NoSQL数据库、数据仓库、机器学习、并行计
使用 LLM 实现的 RSS 个性信息推送，效果实测 day2
每天早上，我都会点开coze推送的RSS邮件，经常能找到感兴趣的有用信息。因为铺天盖地的deepseek，蹭热点的文章很多，我往往只瞄一眼标题今天出现了这么3条信息，实在开心嵌入式那条，原因是我最近笔记里写了nRF的开发配置，我正在被zephyr开发工具链折磨。工作记忆那一条，跟我最近《学习的门道》读书笔记有关隐私优先那一条，跟我跟xBeta讨论笔记工具有关每天推送的邮件让人期待的感觉真好。
聚焦银行业数智化转型，火山引擎数据飞轮系列白皮书重磅发布大数据
随着金融科技的快速发展，银行业也在不断提升数字化水平。通过大数据、人工智能等技术的应用，银行可以更加精准地了解客户需求，提供个性化的金融产品和服务，还能降低运营成本，提升风险管理能力，创造更多业务价值。《金融科技发展规划（2022~2025年）》也明确指出，以加强金融数据要素应用为基础，以深化金融供给侧结构性改革为目标，以加快金融机构数字化转型、强化金融科技审慎监管为主线，将数字元素注入金融服务全
携手鲲鹏昇腾 HashData展现云原生数仓创新力量数据库
5月9日-11日，鲲鹏昇腾开发者大会2024在北京中关村国际创新中心举行，众多行业领袖、专家学者及优秀开发们齐聚一堂，分享产业趋势、技术创新和应用实践。酷克数据作为华为鲲鹏生态重要合作伙伴，受邀出席本次大会，展示其与鲲鹏昇腾生态联合开发的云数仓解决方案及应用案例，与全球开发者共同探讨云原生数仓前沿技术。今年两会政府工作报告明确提出：“深化大数据、人工智能等研发应用，开展人工智能+行动，打造具有国际
遥感影像目标检测：从CNN（Faster-RCNN）到Transformer（DETR）岁月如歌，青春不败生态遥感目标检测 cnn transformer 遥感遥感影像
我国高分辨率对地观测系统重大专项已全面启动，高空间、高光谱、高时间分辨率和宽地面覆盖于一体的全球天空地一体化立体对地观测网逐步形成，将成为保障国家安全的基础性和战略性资源。未来10年全球每天获取的观测数据将超过10PB，遥感大数据时代已然来临。一：深度卷积网络知识1.深度学习在遥感图像识别中的范式和问题2.深度学习的历史发展历程3.机器学习，深度学习等任务的基本处理流程4.卷积神经网络的基本原理5
读书笔记 - 代码整洁之道：程序员的职业素养天罚神读书笔记 java
读书笔记-代码整洁之道：程序员的职业素养第1章职业道德了解你的领域，每个专业软件开发人员必须精通的事项坚持学习练习辅导第2章说“不”对抗角色高风险时刻要有团队精神试试看消极对抗说"是"的成本如何写出好代码第3章说“是”承诺用语承诺识别缺乏承诺的征兆坚守原则第4章编码不要在疲劳的时候写代码不要在焦虑的时候写代码理性应对中断如何应对阻塞状态关于调试保持好节奏进度延迟加班帮助帮助他人接受他人的帮助辅导定
读书笔记 - 修改代码的艺术天罚神读书笔记 java
读书笔记-修改代码的艺术第1章修改软件第2章带着反馈工作系统变更方式反馈方式遗留代码修改方法第3章感知和分离伪协作程序模拟对象第4章接缝模型接缝第5章工具自动化重构工具单元测试用具第6章时间紧迫，但必须修改新生方法（SproutMethod）新生类（SproutClass）包装方法包装类装饰器模式第7章永远都无法完成的修改第8章如何添加新特性测试驱动开发测试驱动开发使用了下面这样的步骤：对于遗留代
创新市场调查方法，精准把握消费者脉搏（消费者调查） zhonglidc01 消费者调查市场调查咨询大数据人工智能
在当今竞争激烈的市场环境中，（第三方市场调查）企业要想精准把握消费者需求，制定有效的市场策略，（市场咨询公司）创新的市场调查方法至关重要。成都中立调查公司凭借17年的深厚调研经验，（问卷调查）结合线上线下调查、运用大数据分析等创新举措，致力于为客户提供更具前瞻性的市场洞察，助力企业精准把握消费者脉搏，提升市场竞争力。一、结合线上线下调查，全面覆盖消费者群体线上调研：便捷高效，触达广泛受众在互联网时
揭秘Linux：从服务器到智能家居，一个操作系统如何改变世界寒水馨 Linux问题解决方案服务器 linux 智能家居
揭秘Linux：从服务器到智能家居，一个操作系统如何改变世界文章目录揭秘Linux：从服务器到智能家居，一个操作系统如何改变世界引言：Linux，不仅仅是一个操作系统Linux在企业级应用中的霸主地位云计算与虚拟化：Linux的天下大数据与人工智能：Linux的助推器Web服务器：Apache和Nginx的最佳搭档Linux在移动和嵌入式设备中的崛起Android：Linux的最成功衍生品物联网（
探索大数据处理：利用 Apache Spark 解锁数据价值 Echo_Wish 实战高阶大数据 apache spark 大数据
探索大数据处理：利用ApacheSpark解锁数据价值大家好，我是你们熟悉的大数据领域自媒体创作者Echo_Wish。今天，我们来聊聊如何利用ApacheSpark进行大规模数据处理。ApacheSpark作为一个快速、通用的集群计算框架，以其出色的性能和丰富的API，成为大数据处理的利器。那么，ApacheSpark究竟如何帮助我们高效处理海量数据？接下来，让我们一起深入探讨。一、ApacheS
浅聊读写分离不全数据库 JAVA C#相关数据库读写分离 C#JAVA
一、前言最近工作很繁忙，同事的离职给我带来了很多的事情，投身于博客的时间比较少，另外在宿舍住可能部分的时间要随大流，鹤立鸡群有一些不好，当然这也是给自己找借口和理由，趁着周末整理下最近的感悟；另外公司用的ElasticSearch，最近我也在探索，微服务方面暂时搁浅，待到搬出宿舍的时候在开始一波666的操作；另外随着数据量增加自己还需要去接触波大数据东西，不得说真是有些挑战和机遇，看自己如何把握了
电力知识图谱与大模型的结合：从构建到行业应用的深度解析 Cc不爱吃洋葱知识图谱人工智能自然语言处理大模型大语言模型 LLM 语言模型
随着大数据和人工智能技术的飞速发展，电力行业迎来了智能化转型的全新契机。电力知识图谱作为一种将数据转化为结构化知识的技术，正在赋能故障诊断、设备管理、运维优化等核心场景。而当知识图谱与大模型相结合，更能释放强大的知识推理和智能预测能力，为行业智慧化发展注入新动力。本文将从专业视角，深入探讨电力知识图谱的构建过程、大模型的融入方法，以及它们在实际应用中的落地场景。通过具体案例剖析与技术解读，帮助你了
360智算中心：万卡GPU集群落地实践 ZVAyIVqt0UFji
360智算中心是一个融合了人工智能、异构计算、大数据、高性能网络、AI平台等多种技术的综合计算设施，旨在为各类复杂的AI计算任务提供高效、智能化的算力支持。360智算中心不仅具备强大的计算和数据处理能力，还结合了AI开发平台，使得计算资源的使用更加高效和智能化。360内部对于智算中心的核心诉求是性能和稳定性，本文将深入探讨360智算中心在万卡GPU集群中的落地实践过程，包括算力基础设施搭建、集群优
Effective Objective-C 2.0 读书笔记——内存管理（下）小鹿撞出了脑震荡 objective-c java 开发语言
EffectiveObjective-C2.0读书笔记——内存管理（下）在dealloc方法中只释放引用并解除监听对象在经历其生命期后，最终会为系统所回收，这时就要执行dealloc方法了。在每个对象的生命期内，此方法仅执行一次，也就是当保留计数降为0的时候。在这个方法之中，主要就是释放对象所拥有的引用。比如CoreFoundation对象就必须手工释放，因为它们是由纯C的API所生成的。在dea
字节跳动后端或大数据基础知识面试题及参考答案（2万字长文）大模型大数据攻城狮大数据大厂面试数据结构算法 leetcode
目录Redis的数据类型Redis数据类型的底层数据结构三次握手、四次挥手Redis持久化机制购物车为什么用Redis存，是永久存储吗MySQL的InnoDB索引数据结构哪些SQL的关键字会让索引失效队列、栈、数组、链表有什么不同讲讲爬虫的构成爬虫抓到的数据不清洗吗？不去重吗？对爬虫的更多了解Linux进程间通信机制进程和线程的区别线程私有的数据讲一下堆排序，每次调整的时间复杂度？堆排序是稳定的吗
《2025：中国行业新方向与民营企业的使命》晚风る传媒
2025年，中国经济正站在新的历史节点上，科技创新、数字经济、绿色经济等成为发展的核心驱动力。在这样的背景下，2025年民营企业座谈会的召开，无疑为中国未来行业的发展指明了方向。本文将结合座谈会内容，探讨中国未来行业发展的新方向。一、数字经济：创新驱动的核心引擎数字经济已成为全球经济增长的重要引擎，而民营企业在其中扮演着关键角色。2025年，数字经济将继续深化，涵盖云计算、大数据、人工智能、物联网
网络安全：挑战、技术与未来发展一ge科研小菜鸡运维网络运维
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注1.引言在数字化时代，网络安全（Cybersecurity）已成为全球关注的焦点。随着云计算、大数据、人工智能（AI）、物联网（IoT）等技术的发展，企业和个人的敏感数据在互联网上的流通日益增加，黑客攻击、数据泄露、勒索软件等网络安全威胁也日趋严峻。本文将从网络安全的核心概念、常见攻击手段、防御技术、企业安全策略以及未来发展趋势等方面，深入探讨如
DolphinScheduler环境搭建、服务启动等常见问题及解决方案数据库
ApacheDolphinScheduler作为一款分布式易扩展的工作流调度系统，广泛应用于大数据任务编排。然而，在实际使用中，用户可能会遇到环境搭建、服务启动、工作流执行等问题。本文结合社区文档与用户实践经验，整理以下高频问题及详细解决方案，帮助用户快速定位并解决问题。一、安装与部署问题环境依赖配置错误问题：部署时因缺少JDK、Maven或数据库配置导致失败。解决方案：安装JDK1.8+并配置J
书其实只有三类西蜀石兰类
一个人一辈子其实只读三种书，知识类、技能类、修心类。知识类的书可以让我们活得更明白。类似十万个为什么这种书籍，我一直不太乐意去读，因为单纯的知识是没法做事的，就像知道地球转速是多少一样（我肯定不知道），这种所谓的知识，除非用到，普通人掌握了完全是一种负担，维基百科能找到的东西，为什么去记忆？知识类的书，每个方面都涉及些，让自己显得不那么没文化，仅此而已。社会认为的学识渊博，肯定不是站在
《TCP/IP 详解，卷1：协议》学习笔记、吐槽及其他 bylijinnan tcp
《TCP/IP 详解，卷1：协议》是经典，但不适合初学者。它更像是一本字典，适合学过网络的人温习和查阅一些记不清的概念。这本书，我看的版本是机械工业出版社、范建华等译的。这本书在我看来，翻译得一般，甚至有明显的错误。如果英文熟练，看原版更好： http://pcvr.nl/tcpip/ 下面是我的一些笔记，包括我看书时有疑问的地方，也有对该书的吐槽，有不对的地方请指正： 1.
Linux—— 静态IP跟动态IP设置 eksliang linux IP
一.在终端输入 vi /etc/sysconfig/network-scripts/ifcfg-eth0 静态ip模板如下： DEVICE="eth0" #网卡名称 BOOTPROTO="static" #静态IP（必须） HWADDR="00:0C:29:B5:65:CA" #网卡mac地址 IPV6INIT=&q
Informatica update strategy transformation 18289753290
更新策略组件：标记你的数据进入target里面做什么操作，一般会和lookup配合使用，有时候用0,1,1代表 forward rejected rows被选中，rejected row是输出在错误文件里，不想看到reject输出，将错误输出到文件，因为有时候数据库原因导致某些column不能update，reject就会output到错误文件里面供查看，在workflow的
使用Scrapy时出现虽然队列里有很多Request但是却不下载，造成假死状态酷的飞上天空 request
现象就是：程序运行一段时间，可能是几十分钟或者几个小时，然后后台日志里面就不出现下载页面的信息，一直显示上一分钟抓取了0个网页的信息。刚开始已经猜到是某些下载线程没有正常执行回调方法引起程序一直以为线程还未下载完成，但是水平有限研究源码未果。经过不停的google终于发现一个有价值的信息，是给twisted提出的一个bugfix 连接地址如下http://twistedmatrix.
利用预测分析技术来进行辅助医疗蓝儿唯美医疗
2014年，克利夫兰诊所（Cleveland Clinic）想要更有效地控制其手术中心做膝关节置换手术的费用。整个系统每年大约进行2600例此类手术，所以，即使降低很少一部分成本，都可以为诊所和病人节约大量的资金。为了找到适合的解决方案，供应商将视野投向了预测分析技术和工具，但其分析团队还必须花时间向医生解释基于数据的治疗方案意味着什么。克利夫兰诊所负责企业信息管理和分析的医疗
java 线程(一)：基础篇 DavidIsOK java 多线程线程
&nbs
Tomcat服务器框架之Servlet开发分析 aijuans servlet
最近使用Tomcat做web服务器，使用Servlet技术做开发时，对Tomcat的框架的简易分析：疑问：为什么我们在继承HttpServlet类之后，覆盖doGet(HttpServletRequest req, HttpServetResponse rep)方法后，该方法会自动被Tomcat服务器调用，doGet方法的参数有谁传递过来？怎样传递？分析之我见： doGet方法的
揭秘玖富的粉丝营销之谜与小米粉丝社区类似 aoyouzi 揭秘玖富的粉丝营销之谜
玖富旗下悟空理财凭借着一个微信公众号上线当天成交量即破百万，第七天成交量单日破了1000万;第23天时，累计成交量超1个亿……至今成立不到10个月，粉丝已经超过500万，月交易额突破10亿，而玖富平台目前的总用户数也已经超过了1800万，位居P2P平台第一位。很多互联网金融创业者慕名前来学习效仿，但是却鲜有成功者，玖富的粉丝营销对外至今仍然是个谜。　　近日，一直坚持微信粉丝营销
Java web的会话跟踪技术百合不是茶 url会话 Cookie会话 Seession会话 Java Web 隐藏域会话
会话跟踪主要是用在用户页面点击不同的页面时,需要用到的技术点会话:多次请求与响应的过程 1,url地址传递参数,实现页面跟踪技术格式:传一个参数的 url?名=值传两个参数的 url?名=值 &名=值关键代码
web.xml之Servlet配置 bijian1013 java web.xml Servlet配置
定义： <servlet> <servlet-name>myservlet</servlet-name> <servlet-class>com.myapp.controller.MyFirstServlet</servlet-class> <init-param> <param-name>
利用svnsync实现SVN同步备份 sunjing SVN 同步 E000022 svnsync 镜像
1. 在备份SVN服务器上建立版本库 svnadmin create test 2. 创建pre-revprop-change文件 cd test/hooks/ cp pre-revprop-change.tmpl pre-revprop-change 3. 修改pre-revprop-
【分布式数据一致性三】MongoDB读写一致性 bit1129 mongodb
本系列文章结合MongoDB，探讨分布式数据库的数据一致性，这个系列文章包括：数据一致性概述与CAP 最终一致性(Eventually Consistency) 网络分裂(Network Partition)问题多数据中心(Multi Data Center) 多个写者(Multi Writer)最终一致性一致性图表(Consistency Chart) 数据
Anychart图表组件-Flash图转IMG普通图的方法白糖_ Flash
问题背景：项目使用的是Anychart图表组件，渲染出来的图是Flash的，往往一个页面有时候会有多个flash图，而需求是让我们做一个打印预览和打印功能，让多个Flash图在一个页面上打印出来。那么我们打印预览的思路是获取页面的body元素，然后在打印预览界面通过$("body").append(html)的形式显示预览效果，结果让人大跌眼镜：Flash是
Window 80端口被占用 WHY? bozch 端口占用 window
平时在启动一些可能使用80端口软件的时候，会提示80端口已经被其他软件占用，那一般又会有那些软件占用这些端口呢？下面坐下总结： 1、web服务器是最经常见的占用80端口的，例如：tomcat , apache , IIS , Php等等； 2
编程之美-数组的最大值和最小值-分治法（两种形式） bylijinnan 编程之美
import java.util.Arrays; public class MinMaxInArray { /** * 编程之美数组的最大值和最小值分治法 * 两种形式 */ public static void main(String[] args) { int[] t={11,23,34,4,6,7,8,1,2,23}; int[]
Perl正则表达式 chenbowen00 正则表达式 perl
首先我们应该知道 Perl 程序中，正则表达式有三种存在形式，他们分别是：匹配：m/<regexp>;/ （还可以简写为 /<regexp>;/ ，略去 m）替换：s/<pattern>;/<replacement>;/ 转化：tr/<pattern>;/<replacemnt>;
[宇宙与天文]行星议会是否具有本行星大气层以外的权力呢? comsci
举个例子: 地球,地球上由200多个国家选举出一个代表地球联合体的议会,那么现在地球联合体遇到一个问题,地球这颗星球上面的矿产资源快要采掘完了....那么地球议会全体投票,一致通过一项带有法律性质的议案,既批准地球上的国家用各种技术手段在地球以外开采矿产资源和其它资源........ &
Oracle Profile 使用详解 daizj oracle profile 资源限制
Oracle Profile 使用详解转一、目的： Oracle系统中的profile可以用来对用户所能使用的数据库资源进行限制，使用Create Profile命令创建一个Profile，用它来实现对数据库资源的限制使用，如果把该profile分配给用户，则该用户所能使用的数据库资源都在该profile的限制之内。二、条件：创建profile必须要有CREATE PROFIL
How HipChat Stores And Indexes Billions Of Messages Using ElasticSearch & Redis dengkane elasticsearch Lucene
This article is from an interview with Zuhaib Siddique, a production engineer at HipChat, makers of group chat and IM for teams. HipChat started in an unusual space, one you might not
循环小示例，菲波拉契序列，循环解一元二次方程以及switch示例程序 dcj3sjt126com c 算法
# include <stdio.h> int main(void) { int n; int i; int f1, f2, f3; f1 = 1; f2 = 1; printf("请输入您需要求的想的序列："); scanf("%d", &n); for (i=3; i<n; i
macbook的lamp环境 dcj3sjt126com lamp
sudo vim /etc/apache2/httpd.conf /Library/WebServer/Documents 是默认的网站根目录重启Mac上的Apache服务这个命令很早以前就查过了，但是每次使用的时候还是要在网上查：停止服务：sudo /usr/sbin/apachectl stop 开启服务：s
java ArrayList源码下 shuizhaosi888 ArrayList源码
版本 jdk-7u71-windows-x64 JavaSE7 ArrayList源码上：http://flyouwith.iteye.com/blog/2166890 /** * 从这个列表中移除所有c中包含元素 */ public boolean removeAll(Collection<?> c) {
Spring Security（08）——intercept-url配置 234390216 Spring Security intercept-url 访问权限访问协议请求方法
intercept-url配置目录 1.1 指定拦截的url 1.2 指定访问权限 1.3 指定访问协议 1.4 指定请求方法 1.1 &n
Linux环境下的oracle安装 jayung oracle
linux系统下的oracle安装本文档是Linux(redhat6.x、centos6.x、redhat7.x) 64位操作系统安装Oracle 11g(Oracle Database 11g Enterprise Edition Release 11.2.0.4.0 - 64bit Production)，本文基于各种网络资料精心整理而成，共享给有需要的朋友。如有问题可联系：QQ：52-7
hotspot虚拟机 leichenlei java HotSpot jvm 虚拟机文档
JVM参数 http://docs.oracle.com/javase/6/docs/technotes/guides/vm/index.html JVM工具 http://docs.oracle.com/javase/6/docs/technotes/tools/index.html JVM垃圾回收 http://www.oracle.com
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” noaighost Web node.js
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” 眼里的Node.JS 初初接触node是一年前的事，那时候年少不更事。还在纠结什么语言可以编写出牛逼的程序，想必每个码农都会经历这个月经性的问题：微信用什么语言写的？facebook为什么推荐系统这么智能，用什么语言写的？dota2的外挂这么牛逼，用什么语言写的？……用什么语言写这句话，困扰人也是阻碍
快速开发Android应用 rensanning android
Android应用开发过程中，经常会遇到很多常见的类似问题，解决这些问题需要花时间，其实很多问题已经有了成熟的解决方案，比如很多第三方的开源lib，参考 Android Libraries 和 Android UI/UX Libraries。编码越少，Bug越少，效率自然会高。但可能由于根本没听说过、听说过但没用过、特殊原因不能用、自己已经有了解决方案等等原因，这些成熟的解决
理解Java中的弱引用 tomcat_oracle java 工作面试
　不久之前，我面试了一些求职Java高级开发工程师的应聘者。我常常会面试他们说，“你能给我介绍一些Java中得弱引用吗？”，如果面试者这样说，“嗯，是不是垃圾回收有关的？”，我就会基本满意了，我并不期待回答是一篇诘究本末的论文描述。　　然而事与愿违，我很吃惊的发现，在将近20多个有着平均5年开发经验和高学历背景的应聘者中，居然只有两个人知道弱引用的存在，但是在这两个人之中只有一个人真正了
标签输出html标签" target="_blank">关于标签输出html标签 xshdch jsp
http://back-888888.iteye.com/blog/1181202 关于<c:out value=""/>标签的使用，其中有一个属性是escapeXml默认是true(将html标签当做转移字符，直接显示不在浏览器上面进行解析)，当设置escapeXml属性值为false的时候就是不过滤xml，这样就能在浏览器上解析html标签， &nb

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他