古月_Monbir

数据产品-数据仓库的规范化建设

不积跬步无以至千里，现今很多头部企业能实现鳌头独占的一个很大原因也是基于本身长久的数据积累，进而形成数据可应用化的业务壁垒。一直以来，马云小伙所贯彻的新能源战略为“数据”的主张也引领着很多企业往数字化方向发展，而对于如何将恒河沙数的数据沉淀为数据资产，进行走通业务数据化和数据业务化的闭环，一直都是很多大企业的攻破重点。而数据仓库的建设，是企业数据资产化的必经过程已是百喙如一，本篇文章想和大家分享一下我所理解的数仓的规范化建设过程

一、建设前的注意点（非数仓建设的过程描述）

1、数据产品和老板们的矛盾点：

做过数仓的小伙伴可能比较有感知，数仓的建设周期长久，高可用的数仓建设过程都要长至半年以上，整个周期的产出是指标体系文档、数据模型、数据字典等，对于不知为何要进行数据分层设计的老板来说，这些增加了数据的存储成本，没看到给业务增长营收带来实际的产出。好在我们在做之前是和老板们讲清楚整个建设的过程

2、数据产品和数据研发的矛盾点：

作为数据产品，我们基于从产品侧的理解去设计建设规范，比如指标矩阵的设计规范、数仓分层规范、层级命名规范，对应数据研发侧也会基于他们的考虑出一套规范，所以容易撞出火花。所以最好的作法是参照行业上现在比较成熟的作法去落地实施，本次我们的建设过程就是参照阿里的建设理念和学而思网校的落地实践进行开展

二、建设前的规范化说明

1、模型概念原则

数据模型定义了数据之间关系和结构，使得我们可以有规律地获取想要的数据，数据模型是在业务需求分析之后，数据仓库工作开始时的第一步，而模型的设计需要遵循和多准则，比如：高内聚和低耦合、核心模型与扩展模型分离、公共处理逻辑下沉及单一、成本与性能平衡、数据可回滚、一致性、命名清晰可理解
但作为数据产品，更多需要输出的业务建模的指标矩阵，个人觉得最需要考虑模型整体的“高内聚低耦合”。所谓的“高内聚低耦合”，用我们业务上的数据用法就是：将业务相关的指标在底层表设计时存在一起，而对于低概率同时访问的数据分离开来，比如对于营收数据域，可以将流水相关的指标数据都放置一起进行表设计，而对于用户活跃相关的指标数据放置日志数据域。我会觉得这个点是最重要的原因，是其关系着建模之后对应的分析师和数据应用层的使用体验，这个会直接决定我们的模型好不好用

2、层级设计原则

2.1、DWD数据明细层


2.2、DWS数据汇总层

2.3、ADS数据应用层

2.4、DIM数据维表


2.5、数据映射表

2.6、数据字典表

3、公共命名规范

 不使用驼峰命名法，不使用引号命名，用下划线命名法
 事实表维度一般只存维度编码，不存维度中文名称
 事实表字段顺序：粒度、维度、指标。
 表及字段名不宜过长，优先使用约定成俗的中文与英文缩写
 表及字段COMMENT信息，必须填写中文，<>注明杖举值、其他说明
 区日期统一使用dt，格式YYYYMMDD

3.1、数据表后缀说明

3.2、指标命名规范：

3.3、数据类型定义：

三、数仓模型体系拆解

现在的数仓建模的体系架构是已经较为明晰的，总体流程可以描述为以下几个点：

1、以“维度建模”为理论基础去构建总线型矩阵，根据实际对业务的深入了解去拆分整个公司体系下的数据域（也可以称之为主题域，两者可以单独开也可以进行融合）
2、进而基于每个数据域或主题域的特性，去拆分描述这个数据域下的核心业务过程、修饰类型和分析维度，构建所有主题域下的业务过程和分析维度的总线型矩阵
3、基于每一个业务过程，去拆解描述每一个业务过程会产生的原子指标，通过原子指标和修饰词的组合，产生对应的派生指标，聚合多种派生指标的四则运算则产生对应的复合指标
4、基于上面的步骤，我们梳理出了每个数据域下的业务动作、分析维度、原子指标、复合指标、派生指标和对应的修饰类型词条。数据研发可根据此总线型矩阵去对应构建每一个数据域应该构建的维度表和数仓分层事实表

相关概念的说明：
①数据域：数据域是业务板块中有一定规模的且相对独立的数据业务范围。面向业务分析，将业务过程或者维度进行抽象的集合，为保障整个体系的生命力，数据域是需要抽象提炼的、并且长期维护和更新的，但不轻易变动。在划分数据域时，既能涵盖当前所有的业务需求，又能在新业务进入时无影响的被包含近已有的数据域和扩展新的数据域
②业务过程：指企业的业务活动事件，如下单、支付、退款都是业务过程。业务过程是一个不可拆分的行为事件，通俗地讲，业务过程就是企业活动中的事件
③时间周期：用来明确数据统计的时间范用或者时间点，如最近30天、自然周、截至当日等
④修饰词：指除了统计维度以外指标的业务场景限定抽象。如在日志域中，有修饰词PC端、APP端等
⑤原子指标：基于某一业务事件行为下的度量，是业务定义中不可再拆分的指标，具有明确业务含义的名词，如出勤人数
⑥派生指标：派生指标=一个原子指标+多个修饰词(可选)+时间周期。可以理解为对原子指标业务统计范围的圈定。如原子指标:
出勤人数，最近1天北京分校出勤人数则为派生指标(最近1天为时间周期，北京分校为修饰词)
⑦复合指标:原子指标或者派生指标进行数学运算得到的新的指标，比如已经存在两个指标续报人数与在班人数，两个指标相除就会生成续报率指标
⑧维度：维度是度量的环境，用来反映业务的一个属性，包括原子维度和派生维度，原子维度比如城市，通过对城市的上钻可以得到一线城市、二线城市等，则为派生维度
⑨维度项：维度项隶属于一个维度，如城市维度里面的北京、上海等

四、总线型矩阵拆解

1、业务流程的全面梳理

基于业务调研，梳理出核心的数仓主题域，并通过对业务的深度理解，梳理每一个主题域下所对应的业务过程。这是数仓建设的第一步，也是最重要的一步，因为其关系着整个数仓的建设框架和对应的底层数据域如何划分的问题

2、拆分主题域和数据域

通过对业务流程的全面梳理，我们已经能够同步输出对应我们再应用层会关注的核心模块是哪一些内容，直接可以映射到我们的主题域的划分。但通过和数据研发的沟通我们可以发现。直接按业务流程划分的主题域去构建对应的数据域是不满住“高内聚低耦合”的原则，比如：同样是活动，在销售域和教学域两处都会发生，如果两个数据都构建同样的业务模块，是不满住我们最初想表达的最重的原则的。

在这里，我们可以通过对历史报表的分析和进一步的业务调研，可以进一步对业务流程进行抽象，将关联性强的业务过程放置一起，关联性低的内容隔离出来，进而去拆分我们数仓应该搭建的数据域。而在梳理业务过程的时候，我们可以基于我们的主题域进行过程和指标相关的梳理，主要原因是在于基于主题域去梳理，能够极大的方便我们构建ADS应用层，对齐各业务线的动作和明确我们最终想呈现的内容。
主题域：

数据域：

3、拆解总线型矩形

有了主题域和对应每个主题域下的业务动作，我们需要对应去构建每个业务动作会从哪些维度进行下钻分析。一般可以基于业务调研进行信息收集，同时我们也可以基于历史的报表的分析进行维度抽离得到原子维度，通过原子维度聚合得到派生维度，然后将全部业务动作作为举证的列，抽离全部分析维度作为矩阵的行，进而构建我们的总线型矩阵

4、维度和通用词条整理

总线矩阵设计好之后，下一步则是去拆解每个业务过程的分析指标，包括原子指标、复合指标和派生指标。在此之前，我们需要对我们的维度做好管理，同时将常用的修饰通用词条进行对应的整理，便于后面三种指标维度的构建。

4.1 维度整合
维度的整合包括原子维度的整合派生维度的整合，维度的整合是为了指标数仓进行维度表的构建

4.2 通用词条整合
通用词条类型有四种，分别为时间周期、修饰词、行为、量度
①时间周期：用来明确数据统计的时间范用或者时间点，如本讲、当前学期、当日、累计等
②修饰词：指除了统计维度以外指标的业务场景限定抽象，如正价课、学科老用户、网校新用户等
③行为：用户完成的一个动作，如支付、回放等，在网校业务场景下，有一些状态类的描述也被归属到行为中，如在班、在线等
④量度：即某一行为的单位，比如人数、人次

5、指标拆解

指标的拆解包括三个模块：原子维度、派生维度和复合维度
指标的拆解详细程度关系着数仓事实表的构建和分层抽离的合理性，针对每个指标的构建需要有一定的业务依赖，并且需描述清楚对应指标的业务口径和常见的统计方法，因为其关系着数仓在对每个事实的更新频率的设计（我们不可能让每个表都做到实时更新，也不可能都T+1更新），因此我们需要提供者提供者这样的信息，保证后期数据表的可用性

5.1原子指标拆解：
原子指标的拆解是基于业务动作下进行直接拆解，不需要和任何维度和通用词条进行挂钩
对应对原子指标的管理内容包括：行为、量度、中文名称，英文code，所属数据域及业务过程、指标分级、指标口径描述等

5.2派生指标拆解
派生指标的拆解是基于原子指标的基础上，结合分析维度或通用词条进行衍生构建
对应对派生指标的管理内容包括：原子指标、时间周期、其他修饰词、中文名称，英文code，所属数据域及业务过程、指标分级等。其中，英文code=原子指标+时间周期+其它修饰词，中文名=时间周期+[其它修饰词]+原子指标

5.3复合指标拆解
复合指标则是基于派生指标的四则运算构建
对应对复合指标的管理内容包括：表达式、中文名称，英文code，所属数据域及业务过程、指标分级等

基于上述的全部过程，在数据产品侧能够为数据研发侧提供维度建模所依赖的维度信息和业务动作事实信息，能够很好的帮助其开展维度表和事实表的构建

五、数据字典、元数据管理和数据门户的搭建

数仓建设过程中会形成很多产出物，对应底层构建的这些数据表都会形成我们的数据资产，供后续的一系类数据应用使用，因此我们需要对其进行标准化的管理，便于后期的持续迭代和扩展

1、数据字典

数仓在实际进行表开发的过程中会进行模型的概念设计，也就是通过建模工具进行表设计（比如：powerdesigner），对应建模工具可以导出对应的数据字典，这个能够极大的方便我们后面对表的使用，追踪表的数据血缘。在实际开发之后，比如用阿里云的Dataworks，也是可以对应查看对应表的血缘关系和对应数据地图，可以说这个就是提升生成力的生产工具了

2、元数据管理

数仓建设是一个持续迭代的过程，我们的数据生产会持续进行中，为标准化所的数据，包括指标、维度和通用词条等的管理，有对应的元数据管理平台是最好的，可以看到现在比较成熟的公司都会搭建自己的元数据管理平台，希望这一块在后面也能够搭建起来

3、数据门户

做了那么多的底层搭建，最终都是为了服务于上层的应用，而数据门户是一个公司数据方面的门面，能够洞察公司整体业务情况和走向，进行数据预警。通过数仓的搭建，能够归口公司统一的数据口径，展现精确的数据洞察看板，希望这一块在后面也能够搭建起来

最后，整个数仓的搭建过程其实都是可以参照的，我们的数仓搭建过程也是参照学而思的作法开展。但我觉得更为重要的是深入了解业务，才能知晓我们应该构建那些维表和事实表，如何做到真正的“高内聚低耦合”。同时在做数仓其实还有很多需要前瞻性和扩展性的东西需要考虑，可能在这方面自己的经验还很薄弱，比如如何将我们的离线数仓实现和实时数仓的连接，整个数仓底层所依赖的框架和技术选型等，在这方面自己的认知还是比较浅的，希望后面能够慢慢学习补上

附：相关文章的参照
1、学而思网校数据指标体系建设https://mp.weixin.qq.com/s/_forqu4Xc0nOyegGocabmg
2、阿里巴巴数据整合及管理提下https://zhuanlan.zhihu.com/p/149074940
3、滴滴数据仓库建设：https://mp.weixin.qq.com/s/-pLpLD_HMiasyyRxo5oTRQ
4、滴滴实时数仓建设：https://mp.weixin.qq.com/s__biz=MzU1ODEzNjI2NA==&mid=2247500113&idx=1&sn=07b76ddf6670dd7f10e3a2c8faa5caa2&chksm=fc29aff6cb5e26e08bdf58095918ec98e8e29f21fce772086ef394e08caecf8305eca3d36ed0&scene=21#wechat_redirect

Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
水泥质量纠纷案代理词徐宝峰律师
贵州领航建设有限公司诉贵州纳雍隆庆乌江水泥有限公司产品质量纠纷案代理词尊敬的审判长、审判员：贵州千里律师事务所接受被告贵州纳雍隆庆乌江水泥有限公司的委托，指派我担任其诉讼代理人，参加本案的诉讼活动。下面，我结合本案事实和相关法律规定发表如下代理意见，供合议庭评议案件时参考：原告应当举证证明其遭受的损失与被告生产的水泥质量的因果关系。首先水泥是一种粉状水硬性无机胶凝材料。加水搅拌后成浆体，能在空气中
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
运城寻访重逢石头纪实【严建设老照片395 集】我简直能把你想透，当我走进运城的时候。我已急得热汗直流，访问了十九个老头，把晋南的小城转了三周。虽然是悠久的思旧，我仍然是牛样的执... 严建设
运城寻访重逢石头纪实【严建设老照片395集】我简直能把你想透，当我走进运城的时候。我已急得热汗直流，访问了十九个老头，把晋南的小城转了三周。虽然是悠久的思旧，我仍然是牛样的执拗。说什么变换的世情，泛起了过去的逝流，你就是真正的故友。踏破铁鞋的淡愁，已化为不废功夫的范畴，是就像远在天涯近在咫尺，就像是梦乡的邂逅，我紧紧地攥着你的手。你已长成了高高的个头，俊逸的容颜却很清瘦，你那样顽皮的童音，已变到老
把握“三度”打造“三有”干部队伍辛德瑞拉卡卡卡
“胜败兴亡之分，不得不归咎于人事也”。干部队伍建设工作的好坏，关系到党和国家的发展全局。近日，新疆维吾尔自治区党委书记马兴瑞在部分党群单位走访调研时强调，要努力培养造就忠诚干净担当的高素质专业化干部队伍。各级组织部门应当在培养选拔干部、吸收优秀青年到党内来、培养造就优秀人才上下功夫，切实增强干部投身实践、解决问题、推进工作的能力，着力打造高素质专业化干部队伍。“天生我材必有用”，增强选育有“准度”
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
数据仓库——维度表一致性墨染丶eye 背诵数据仓库
数据仓库基础笔记思维导图已经整理完毕，完整连接为：数据仓库基础知识笔记思维导图维度一致性问题从逻辑层面来看，当一系列星型模型共享一组公共维度时，所涉及的维度称为一致性维度。当维度表存在不一致时，短期的成功难以弥补长期的错误。维度时确保不同过程中信息集成起来实现横向钻取货活动的关键。造成横向钻取失败的原因维度结构的差别，因为维度的差别，分析工作涉及的领域从简单到复杂，但是都是通过复杂的报表来弥补设计
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
Python数据分析与可视化 jun778895 python 数据分析开发语言
Python数据分析与可视化是一个涉及数据处理、分析和以图形化方式展示数据的过程，它对于数据科学家、分析师以及任何需要从数据中提取洞察力的专业人员来说至关重要。以下将详细探讨Python在数据分析与可视化方面的应用，包括常用的库、数据处理流程、可视化技巧以及实际应用案例。一、Python数据分析与可视化的重要性数据可视化是将数据以图形或图像的形式表示出来，以便人们能够更直观地理解数据背后的信息和规
2023-05-25 季风2026
育人细无声，光影文传情------南校区射灯投影内容为了丰富校园文化建设，打造全方位、多角度、光影文的育人环境，宣教科特出具“育人细无声，光影文传情”的射灯文化建设方案，拟定投射内容若干，请领导审阅。第一阶段投射内容：校风校训等学校精神。1.南校区大门口：校风：诚朴自信知行合一校训：厚德精技励学创新2.教学楼门口：教风：因材施教德技双馨学风：博学慎思明辨笃行3.宿舍楼门口：团结友善互帮互助包容大度
遗落的光阴古诗风光
第七篇，小明的学生时代。小明所做的城乡专线，经过二十分钟的笛鸣不断的飞驰，到了小镇中心红绿灯位置。小明家的小镇是依靠着国道建立起来的，沿着国道两侧不断的建设楼房门店，并且这些房子大多是在政府的规划下盖的，只有很少一部分是镇府盖的其他的都是住户自己自由发挥盖的，所以除了门口的门面房看起来还算一直，后面基本上都是哪个有钱哪个盖的多。所以卖东西的也都集中在路两侧，刚好还有一条横向的县道，连接着其他两个镇
2023-02-18 我_4b6f
保定影像之街道（一〇八一）2019年2月26日，星期二。农历己亥年丙寅月甲午日（猪年）一月（正月）二十二。河北省保定市：朝阳大街。保定市，古称清苑、上谷、保州、保府。因城池似靴，又称靴城。保定与北京相伴而生，保定之名取自“保卫大都、安定天下”之意。朝阳大街，南北街道，1973年始建。原名农展路，因其东侧农业展览馆建设在先，故命名为农展路。后因该路视野开阔、日照时间较长，更名朝阳路。2003年5月2
全视通智慧病房系统旧病房改造方案 2301_78035670 解决方案人工智能大数据
一、背景介绍在当今医疗技术日新月异的时代，智慧病房作为医院现代化建设的重要一环，正逐步从概念走向现实，深刻改变着患者的就医体验与医护人员的工作模式。智慧病房的改造背景，根植于医疗需求的日益增长、技术创新的不断推动以及对医疗质量与效率的不懈追求之中。二、医疗需求的深刻变革随着人口老龄化的加剧和慢性病患者数量的激增，医疗资源分配不均、医患沟通不畅、患者照护效率低下等问题日益凸显。传统的病房管理模式已难
2022-08-15 梁亦冕
当好“答卷人”，考出“好成绩”近日，习近平总书记在省部级主要领导干部“学习习近平总书记重要讲话精神，迎接党的二十大”专题研讨班上发表重要讲话时强调，高举中国特色社会主义伟大旗帜，奋力谱写全面建设社会主义现代化国家崭新篇章。此次重要讲话明确宣示党在新征程上举什么旗、走什么路、以什么样的精神状态、朝着什么样的目标继续前进，对团结和激励全国各族人民为夺取中国特色社会主义新胜利而奋斗具有十分重大的意义。广
如何建设数据中台（五）——数据汇集—打破企业数据孤岛 weixin_47088026 学习记录和总结中台数据中台程序人生经验分享
数据汇集——打破企业数据孤岛要构建企业级数据中台，第一步就是将企业内部各个业务系统的数据实现互通互联，打破数据孤岛，主要通过数据汇聚和交换来实现。企业采集的数据可以是线上采集、线下数据采集、互联网数据采集、内部数据采集等。线上数据采集主要载体分为互联网和移动互联网两种，对应有系统平台、网页、H5、小程序、App等，可以采用前端或后端埋点方式采集数据。线下数据采集主要是通过硬件来采集，例如：WiFi
大模型训练数据库Common Crawl WindyChanChan 数据集语言模型数据库
CommonCrawl介绍‌‌CommonCrawl是一个非营利组织，致力于通过大规模分布式爬虫系统定期抓取整个Web并将其存储在一个可公开访问的数据库中。CommonCrawl的数据收集和处理过程包括使用Python开源爬虫工具收集全球范围内的网站数据，并将其上传到‌CommonCrawl基金会的数据仓库中。该项目从2008年开始，至今已经积累了大量的原始网页数据、元数据和文本提取数据。这些数据
感谢“封建迷信”救了中国讲健康的小鱼儿
首先，我们必须明白什么是封建迷信？封，最早考证可见甲骨文，是培树以划封疆界之意，后又引申为国，因此“封建”之意不言而喻，用现代话讲就是国内的自我建设、发展、改革和完善，封建者，国之内务也。至于迷信，主要指在精神层面后代对祖先的不疑、至信。中国有句老话叫富不过三代，为什么？就是因为后人丢弃了祖先的初衷和根本。时空转换，但一切皆在道中，不能离道，后代可以改革、完善和发展，但根和本不能丢。故《大学》曰：
公道中学举行校园安全目标责任书签订仪式公中盛传云
图片发自App为认真做好学校校园安全管理工作,切实将安全抓实抓细，真正落实到位，责任到人，形成齐抓共管的局面。公道中学在毓贤楼多功能教室举行了2018-2019学年校园安全目标责任书签订仪式。公道中学全体教职工近150人参加签订仪式。图片发自App会议开始，公道中学校长助理盛传云传达了《扬州市邗江区教育系统社会治安综合治理暨平安校园建设责任书》的精神及近期有关上级教育主管部门下发有关食品安全、交通
《经营者养成记》读书笔记分享 37度杉杉
何为经营者：变革的能力、赚钱的能力、建设团队的能力和追求理想的能力。读书笔记：（一）经营的含义1、所谓经营者，就是取得成果的人2、所谓经营者，是抱持使命感，将使命与成果相结合的人3、经营者必须是领导者，具备“建设团队的能力”4、经营者必须为使命而生的人，具备“追求理想的能力”（二）为什么必须培养经营者？一、变革的能力1、抱持高远的目标2、质疑常识，不受常识束缚3、树立高标准、不放松不放弃4、不畏风
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
python读写CSV文件 bcbobo21cn .Net python 开发语言机器学习 CSV
做数据分析，有时候要分析的数据在CSV文件里；先看一下python读写CSV文件；importpandasaspddf=pd.read_csv('test1.csv')print(df)print('')print(df.head(2))companyname=["A1","B2","E3","F4"]legperson=["lier","yanqi","wangwu","zhangsan"]le
软件测试/测试开发/全日制 |利用Django REST framework构建微服务霍格沃兹-慕漓 django 微服务 sqlite
霍格沃兹测试开发学社推出了《Python全栈开发与自动化测试班》。本课程面向开发人员、测试人员与运维人员，课程内容涵盖Python编程语言、人工智能应用、数据分析、自动化办公、平台开发、UI自动化测试、接口测试、性能测试等方向。为大家提供更全面、更深入、更系统化的学习体验，课程还增加了名企私教服务内容，不仅有名企经理为你1v1辅导，还有行业专家进行技术指导，针对性地解决学习、工作中遇到的难题。让找
在服务器计算节点中使用 jupyter Lab ranshan567 程序人生
JupyterLab是一个基于网页的交互式开发环境,用于科学计算、数据分析和机器学.jupyterlab是jupyternotebook的下一代产品,集成了更多功能,使用起来更方便.在进行数据分析及可视化时，个人电脑不能满足大数据的分析需求，就需要用到高性能计算机集群资源，然而计算机集群的计算节点往往没有联网功能，所以在计算机集群中使用jupyterLab需要进行一些配置。具体的步骤如下：
数据仓库介绍阿龙的代码在报错数据分析数据仓库数据库
数据仓库数据仓库的概念数据仓库的主要特征数据仓库的主流开发语言-sql结构化数据sql语句数据仓库的概念数据仓库（英语：DataWarehouse，简称数仓、DW）,是一个用于存储、分析、报告的数据系统。数据仓库的目的是构建面向分析的集成化数据环境，分析结果为企业提供决策支持（DecisionSupport）。就是数据仓库只分析数据并不产生数据数据仓库的主要特征1、面向主题主题是一个抽象的概念，是
学深学透砥砺奋进奋力谱写新时代组织工作新篇章 dd7790b7ef52
历史启迪未来，盛会凝聚共识。党的二十大胜利召开，向全党全国人民发出了自信自强、守正创新、踔厉奋发、勇毅前行的伟大号召。我们要在学懂弄通做实党的二十大绘制的宏伟蓝图、确立的奋斗目标、作出的战略部署上下功夫，着力推动党的二十大精神在组织系统落地生根、开花结果，为建设中国式现代化提供坚强的组织保障。锚定“凝心铸魂”关键任务，抓好新时代党的创新理论武装。组织部作为管党治党的重要职能部门，要把学习贯彻党的二
大数据真实面试题---SQL The博宇大数据面试题——SQL 大数据 mysql sql 数据库 big data
视频号数据分析组外包招聘笔试题时间限时45分钟完成。题目根据3张表表结构，写出具体求解的SQL代码（搞笑品类定义：视频分类或者视频创建者分类为“搞笑”）1、表创建语句：createtablet_user_video_action_d(dsint,user_idstring,video_idstring,action_typeint,`timestamp`bigint)rowformatdelimi
基层干部：做一颗小小的螺丝凝秀
在党的二十大报告中，习近平总书记指出，“要加快建设农业强国，扎实推动乡村产业、人才、文化、生态、组织振兴”。如今，我国正在从一个传统农业大国迈向农业强国的过程。党的二十大报告对新时代新征程三农工作作出了工作部署，提出“全面推进乡村振兴”、“基本实现新型工业化、信息化、城镇化、农业现代化”等方针，为新时代新征程三农工作指明方向。作为一名战斗在三农工作一线的基层干部，要坚守自己的岗位，做一颗小小的螺丝
ASM系列五利用TreeApi 解析生成Class lijingyao8206 ASM 字节码动态生成 ClassNode TreeAPI
前面CoreApi的介绍部分基本涵盖了ASMCore包下面的主要API及功能，其中还有一部分关于MetaData的解析和生成就不再赘述。这篇开始介绍ASM另一部分主要的Api。TreeApi。这一部分源码是关联的asm-tree-5.0.4的版本。在介绍前，先要知道一点， Tree工程的接口基本可以完
链表树——复合数据结构应用实例 bardo 数据结构树型结构表结构设计链表菜单排序
我们清楚：数据库设计中，表结构设计的好坏，直接影响程序的复杂度。所以，本文就无限级分类（目录）树与链表的复合在表设计中的应用进行探讨。当然，什么是树，什么是链表，这里不作介绍。有兴趣可以去看相关的教材。需求简介：经常遇到这样的需求，我们希望能将保存在数据库中的树结构能够按确定的顺序读出来。比如，多级菜单、组织结构、商品分类。更具体的，我们希望某个二级菜单在这一级别中就是第一个。虽然它是最后
为啥要用位运算代替取模呢 chenchao051 位运算哈希汇编
在hash中查找key的时候，经常会发现用&取代%，先看两段代码吧， JDK6中的HashMap中的indexFor方法： /** * Returns index for hash code h. */ static int indexFor(int h, int length) {
最近的情况麦田的设计者生活感悟计划软考想
今天是2015年4月27号整理一下最近的思绪以及要完成的任务 1、最近在驾校科目二练车，每周四天，练三周。其实做什么都要用心，追求合理的途径解决。为
PHP去掉字符串中最后一个字符的方法 IT独行者 PHP 字符串
今天在PHP项目开发中遇到一个需求，去掉字符串中的最后一个字符原字符串1,2,3,4,5,6, 去掉最后一个字符","，最终结果为1,2,3,4,5,6 代码如下： $str = "1,2,3,4,5,6,"; $newstr = substr($str,0,strlen($str)-1); echo $newstr;
hadoop在linux上单机安装过程 _wy_ linux hadoop
1、安装JDK jdk版本最好是1.6以上，可以使用执行命令java -version查看当前JAVA版本号，如果报命令不存在或版本比较低，则需要安装一个高版本的JDK，并在/etc/profile的文件末尾，根据本机JDK实际的安装位置加上以下几行： export JAVA_HOME=/usr/java/jdk1.7.0_25
JAVA进阶----分布式事务的一种简单处理方法无量多系统交互分布式事务
每个方法都是原子操作：提供第三方服务的系统，要同时提供执行方法和对应的回滚方法 A系统调用B,C,D系统完成分布式事务 =========执行开始======== A.aa(); try { B.bb(); } catch(Exception e) { A.rollbackAa(); } try { C.cc(); } catch(Excep
安墨移动广告：移动DSP厚积薄发引领未来广告业发展命脉矮蛋蛋 hadoop 互联网
　　“谁掌握了强大的DSP技术，谁将引领未来的广告行业发展命脉。”2014年，移动广告行业的热点非移动DSP莫属。各个圈子都在纷纷谈论，认为移动DSP是行业突破点，一时间许多移动广告联盟风起云涌，竞相推出专属移动DSP产品。　　到底什么是移动DSP呢? 　　DSP(Demand-SidePlatform)，就是需求方平台，为解决广告主投放的各种需求，真正实现人群定位的精准广
myelipse设置 alafqq IP
在一个项目的完整的生命周期中，其维护费用，往往是其开发费用的数倍。因此项目的可维护性、可复用性是衡量一个项目好坏的关键。而注释则是可维护性中必不可少的一环。注释模板导入步骤安装方法：打开eclipse/myeclipse 选择 window-->Preferences-->JAVA-->Code-->Code
java数组百合不是茶 java数组
java数组的声明创建初始化； java支持C语言数组中的每个数都有唯一的一个下标一维数组的定义声明： int[] a = new int[3];声明数组中有三个数int[3] int[] a 中有三个数，下标从0开始，可以同过for来遍历数组中的数
javascript读取表单数据 bijian1013 JavaScript
利用javascript读取表单数据，可以利用以下三种方法获取： 1、通过表单ID属性：var a = document.getElementByIdx_x_x("id"); 2、通过表单名称属性：var b = document.getElementsByName("name"); 3、直接通过表单名字获取：var c = form.content.
探索JUnit4扩展：使用Theory bijian1013 java JUnit Theory
理论机制（Theory）一.为什么要引用理论机制（Theory）当今软件开发中，测试驱动开发（TDD — Test-driven development）越发流行。为什么 TDD 会如此流行呢？因为它确实拥有很多优点，它允许开发人员通过简单的例子来指定和表明他们代码的行为意图。 TDD 的优点： &nb
[Spring Data Mongo一]Spring Mongo Template操作MongoDB bit1129 template
什么是Spring Data Mongo Spring Data MongoDB项目对访问MongoDB的Java客户端API进行了封装，这种封装类似于Spring封装Hibernate和JDBC而提供的HibernateTemplate和JDBCTemplate，主要能力包括 1. 封装客户端跟MongoDB的链接管理 2. 文档-对象映射，通过注解:@Document(collectio
【Kafka八】Zookeeper上关于Kafka的配置信息 bit1129 zookeeper
问题： 1. Kafka的哪些信息记录在Zookeeper中 2. Consumer Group消费的每个Partition的Offset信息存放在什么位置 3. Topic的每个Partition存放在哪个Broker上的信息存放在哪里 4. Producer跟Zookeeper究竟有没有关系？没有关系！！！ //consumers、config、brokers、cont
java OOM内存异常的四种类型及异常与解决方案 ronin47 java OOM 内存异常
　OOM异常的四种类型：　　　　　一：　StackOverflowError ：通常因为递归函数引起（死递归，递归太深）。-Xss 128k 一般够用。　二：　out Of memory: PermGen Space：通常是动态类大多，比如web 服务器自动更新部署时引起。-Xmx
java-实现链表反转-递归和非递归实现 bylijinnan java
20120422更新：对链表中部分节点进行反转操作，这些节点相隔k个： 0->1->2->3->4->5->6->7->8->9 k=2 8->1->6->3->4->5->2->7->0->9 注意1 3 5 7 9 位置是不变的。解法：将链表拆成两部分： a.0-&
Netty源码学习-DelimiterBasedFrameDecoder bylijinnan java netty
看DelimiterBasedFrameDecoder的API，有举例：接收到的ChannelBuffer如下： +--------------+ | ABC\nDEF\r\n | +--------------+ 经过DelimiterBasedFrameDecoder(Delimiters.lineDelimiter())之后，得到： +-----+----
linux的一些命令 -查看cc攻击-网口ip统计等 hotsunshine linux
Linux判断CC攻击命令详解 2011年12月23日 ⁄ 安全 ⁄ 暂无评论查看所有80端口的连接数 netstat -nat|grep -i '80'|wc -l 对连接的IP按连接数量进行排序 netstat -ntu | awk '{print $5}' | cut -d: -f1 | sort | uniq -c | sort -n 查看TCP连接状态 n
Spring获取SessionFactory ctrain sessionFactory
String sql = "select sysdate from dual"; WebApplicationContext wac = ContextLoader.getCurrentWebApplicationContext(); String[] names = wac.getBeanDefinitionNames(); for(int i=0; i&
Hive几种导出数据方式 daizj hive 数据导出
Hive几种导出数据方式 1.拷贝文件如果数据文件恰好是用户需要的格式，那么只需要拷贝文件或文件夹就可以。 hadoop fs –cp source_path target_path 2.导出到本地文件系统 --不能使用insert into local directory来导出数据，会报错 --只能使用
编程之美 dcj3sjt126com 编程 PHP 重构
我个人的 PHP 编程经验中，递归调用常常与静态变量使用。静态变量的含义可以参考 PHP 手册。希望下面的代码，会更有利于对递归以及静态变量的理解 header("Content-type: text/plain"); function static_function () { static $i = 0; if ($i++ < 1
Android保存用户名和密码 dcj3sjt126com android
转自：http://www.2cto.com/kf/201401/272336.html 我们不管在开发一个项目或者使用别人的项目，都有用户登录功能，为了让用户的体验效果更好，我们通常会做一个功能，叫做保存用户，这样做的目地就是为了让用户下一次再使用该程序不会重新输入用户名和密码，这里我使用3种方式来存储用户名和密码 1、通过普通的txt文本存储 2、通过properties属性文件进行存
Oracle 复习笔记之同义词 eksliang Oracle 同义词 Oracle synonym
转载请出自出处：http://eksliang.iteye.com/blog/2098861 1.什么是同义词同义词是现有模式对象的一个别名。概念性的东西，什么是模式呢？创建一个用户，就相应的创建了一个模式。模式是指数据库对象，是对用户所创建的数据对象的总称。模式对象包括表、视图、索引、同义词、序列、过
Ajax案例 gongmeitao Ajax jsp
数据库采用Sql Server2005 项目名称为:Ajax_Demo 1.com.demo.conn包 package com.demo.conn; import java.sql.Connection;import java.sql.DriverManager;import java.sql.SQLException; //获取数据库连接的类public class DBConnec
ASP.NET中Request.RawUrl、Request.Url的区别 hvt .net Web C#asp.net hovertree
如果访问的地址是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree%3C&n=myslider#zonemenu那么Request.Url.ToString() 的值是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree<&
SVG 教程（七）SVG 实例，SVG 参考手册天梯梦 svg
SVG 实例在线实例下面的例子是把SVG代码直接嵌入到HTML代码中。谷歌Chrome，火狐，Internet Explorer9，和Safari都支持。注意：下面的例子将不会在Opera运行，即使Opera支持SVG - 它也不支持SVG在HTML代码中直接使用。 SVG 实例 SVG基本形状一个圆矩形不透明矩形一个矩形不透明2 一个带圆角矩
事务管理 luyulong java spring 编程事务
事物管理 spring事物的好处为不同的事物API提供了一致的编程模型支持声明式事务管理提供比大多数事务API更简单更易于使用的编程式事务管理API 整合spring的各种数据访问抽象 TransactionDefinition 定义了事务策略 int getIsolationLevel()得到当前事务的隔离级别 READ_COMMITTED
基础数据结构和算法十一：Red-black binary search tree sunwinner Algorithm Red-black
The insertion algorithm for 2-3 trees just described is not difficult to understand; now, we will see that it is also not difficult to implement. We will consider a simple representation known
centos同步时间 stunizhengjia linux 集群同步时间
做了集群，时间的同步就显得非常必要了。以下是查到的如何做时间同步。在CentOS 5不再区分客户端和服务器，只要配置了NTP，它就会提供NTP服务。 1)确认已经ntp程序包： # yum install ntp 2)配置时间源（默认就行，不需要修改） # vi /etc/ntp.conf server pool.ntp.o
ITeye 9月技术图书有奖试读获奖名单公布 ITeye管理员 ITeye
ITeye携手博文视点举办的9月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 9月试读活动回顾：http://webmaster.iteye.com/blog/2118112本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《NFC：Arduino、Andro