IT北辰

ETL工程师面试题

项目问题：
1.每天抽取数据10+怎么抽取

每天抽取数据10+的方式取决于数据的来源和结构。以下是一些通用的方法：

使用数据库查询语言（如SQL）从数据源中检索数据。你可以编写查询语句以根据特定的条件和限制抽取所需的数据。
使用数据提取工具或库，如Python的Pandas库。这些工具和库提供了方便的方法来连接数据库，筛选和读取数据。
编写程序或脚本（如Python脚本）来自动化数据抽取过程。你可以编写程序来连接到数据库，读取表或视图的数据，并将其转换为所需的格式。
使用ETL（提取、转换、加载）工具，如Apache NiFi或Talend。这些工具提供了用于抽取、转换和加载数据的流程和组件，可以方便地设置和管理数据抽取任务

2.一般怎么把数据进行一些码值转换
数据的码值转换通常涉及以下几种情况：

数据编码：将数据转换为特定的编码格式，如ASCII、GBK、UTF-8等，以便在计算机中存储和传输。在进行数据编码转换时，需要确定源数据的编码格式和目标编码格式，并使用相应的编码转换函数进行转换。
数据位数转换：将数据的位数从一个数值系统转换为另一个数值系统，如将十进制数转换为二进制数、八进制数或十六进制数。在进行数据位数转换时，需要确定源数据的数值系统和目标数值系统，并使用相应的位数转换函数进行转换。
数据类型转换：将数据从一个数据类型转换为另一个数据类型，如将字符串转换为整数、浮点数等。在进行数据类型转换时，需要确定源数据的数据类型和目标数据类型，并使用相应的类型转换函数进行转换。
数据格式转换：将数据从一个数据格式转换为另一个数据格式，如将CSV格式转换为JSON格式、XML格式等。在进行数据格式转换时，需要确定源数据的数据格式和目标数据格式，并使用相应的格式转换函数进行转换。

3.用kettle调用存过

在Kettle中，可以使用“调用存储过程”步骤来调用存储过程 。下面是一个简单的例子，展示如何在Kettle中调用存储过程：

创建一个转换。
在新创建的转换中添加“表输入”步骤。
在“表输入”步骤中添加“调用DB存储过程”步骤。
在“调用DB存储过程”步骤中，填写存储过程的名称和参数等信息。

4.数据你们公司数据量有多大

 增量数据10万+  全量数据10亿+

5.数据仓库的架构（数据仓库的分层）分三层

数据仓库三层结构是一种经典的数据仓库架构模式，它将数据仓库分为三个层次进行设计和实现，分别是数据源层、数据处理层和数据存储层。数据源层提供数据来源，数据处理层负责数据处理和转换，数据存储层负责将处理后的数据存储到数据仓库中。这种模式的好处是各层功能明确、易于实现和维护，可以提高数据仓库的性能和可扩展性。同时，这种模式也符合模块化设计的思想，可以使不同的模块负责不同的功能，从而提高代码的重用性和可维护性。因此，数据仓库三层结构在实践中得到了广泛应用，成为企业决策支持系统中不可或缺的一部分。

ods：把业务系统的数据抽取到数据仓库里（财务系统核心业务系统
客户关系系统人力资源管理系统）
dw：ods层数据清洗转换之后存放到dw层（去除后续不需要的字段去重去空格
码值转换统一字段类型）
App：dw层的数据根据业务需求的指标进行存储过程的编写，用作后续分析使用
（编写分析报告制作报表）
6.组内人员构成：
组长 etl 开发需求数据分析 bi

7.在工作中写过那些表
资产负债表、利润表、现金流量表、固定资产明细表等

比较复杂的存过（难点）
根据客户忠诚度来分级，首先根据需求得到与银行忠诚度的相应算法
根据指标名、指标值、分值、权重等计算出一个得分，然后将表中的数据进行分析筛选得到需要的字段，
这些字段分布在不同的表中，通过表连接将这些表连接在一起，用case when
进行指标分级，然后将查询出来的结果集子查询，最后通过各指标的权重进行计算得到每个用户的最终分值
8.解决死锁的方法有哪些？
sql server 自动检测和消除死锁
设置死锁优先级
设置锁定超时
使用更新锁，避免死锁
如果数据库错误，发生死锁：有问题一般反馈给运维
9.优化的核心思想
减少物理I/O的扫描次数，根据这个原则去对sql进行排查和优化
首先打开执行计划然后重点查看带的地方，如果有表连接查看执行计划的表连接方式
如果是小的结果集，看NL的驱动表是否是小表（返回行数少的表），再看被驱动的表上面是否有索引，如果没有，去加上索引，提高效率
如果是较大的结果集，看表连接是否为hash join，避免出现在较大结果集中使用NL的情况，如果出现超大表和超小表的hash join，一定要让小表进行广播（Broadcast）
对于不等值连接，同时结果集比较大，可以考虑sort merge join，但这种表连接方式对于系统性能消耗比前面两种要更多，因为需要排序
10.优化方面
sql语句尽量用大写
select句中避免使用
减少访问数据库的次数
Where条件筛选一般在索引列
带有union、minus、intersect的sql语句都可以用其他方式重写
尽量多使用commit
优化group by可以通过将不需要的记录在group by之前过滤掉
用where子句替换having子句
用索引提高效率
用>=替代>
避免在索引列上使用not,避免在索引列进行计算
11.分区表
种类：范围分区：最常用，一般以日期为分区键
hash分区：在列的值没有合适的范围条件
列表分区：根据分区值来指定分区
组合分区：范围分区+hash分区范围分区+列表分区
12. 11g 19c 9.0

13.表空间 5个
系统表空间：主要包括数据字典、pl\sql程序单元以及所有方案对象的定义
sysaux表空间：作为system表空间的辅助表空间
临时表空间：用于暂存一些复杂的sql查询语句运行时产生的临时数据
撤销表空间：由oracle自动分配管理，一个实例在一个时刻只能使用一个undo表空间
用户表空间：用来存放用户数据
永久性表空间：一般保存表、视图、过程和索引等的数据。
临时性表空间：只用于保存系统中短期活动的数据。
撤销表空间：用来帮助回退未提交的事务数据。
14.linux常见命令
grep 正则 awk sed (vim+grep) cat find mkdir rmdir
查看磁盘空间cpu或者内存使用情况： df du
常用的linux操作系统：redhat 红帽 hp-unix
linux操作系统中的常用命令
ls、cd、pwd、mkdir、rmdir、cp、rm、mv、cat、tac、nl、more、less、head、tail、df、du、seq、chmod、echo、wc、sort、su、find、zip、unzip、gzip、ps、grep、sed、awk等
查看前100行后100行 head -100 tail -100
15.常用的表有哪些,数据量有多大
资产表、客户表、现金流水表、流水表 50+
16.经常使用的字段
客户编码、客户类别、客户名称、证件类型、证件号码、客户性别、开卡时间、电话号码
17.对客户怎么分层
根据客户开户日期做细分,为客户打账龄属性标签,<=3个月的为新客户,>3个月<12个月为待开发客户,>36个月的为老客户,其余的为熟悉客户
18.kettle经常使用的
输入输出、获取系统信息、维度查询/更新、字段选择、增加常量、排序记录、增加序列、19.什么是数据抽取
从源数据系统把数据抽取到ods层或者dw层中
20.如何数据清洗
把不需要的、不符合规范的进行处理(空值处理、校验准确性、规范格式、数据转码、数据标准)
21.转换加载
数据刷新,就是把每天抽取过来的数据更新到通过模型设计好的表中,如事实表、维度表、汇总表等,更新这些表的存过都是开发好的,个人认为这些合并增删改的过程都叫加载
22.索引用在什么地方
一般加在经常检索的字段的列
23.索引分类
B树索引：一般用
位图索引：在列中值高度重复时用
24.索引优缺点
索引优点：加快索引速度、加速表之间的连接、分组排序是减少查询时间、唯一索引保证每一行的唯一性
索引缺点：占用物理空间,对表进行增删改合并时索引也跟着动态维护,降低效率
25.索引失效
有or会失效,对索引字段进行计算,not in,null,not null

26.使用索引一定会增加效率嘛
不一定
27.维度建模中的两种表模型
事实表：指分析主题所有对应的表或者需求所有对应的表或者指标计算字段所在表
特点：一般是由外键(其他表主键)的聚集的表
维度表：在对事实表根据各个维度进行统计分析的时候,可能需要关联上其他的表,此时其他的表一般称为维度表
在一些特殊的情况下，有一些表既是当前的事实表,又是其他主题的维度表
28.常见的建模方式
三范式建模
以业务为导向,在建表时,表应该有一个主键，尽可能避免数据的冗余情况发生
维度建模
以分析为导向,构建表时，是要能够满足分析的要求,能够让目标分析更加简单,在利于分析的要求下,允许数据出现一定的冗余
29.数仓发展的三种发展模型
星型模型：只有一个事实表,也就是只有一个分析的主题,有多个维度表、多个维度表之间没有任何关联
什么时期容易产生：中期
雪花模型：只有一个事实表,也就是只有分析的主题,有多个维度表,维度表可以接着关联其他维度表
什么时期容易产生：数仓出现了畸形的情况下,有可能产生模型,这种模型下,非常不便于维护和分析,在实际使用尽量避免这种模型出现
星座模型：有多个事实表,也就是有多个分析的主题,有多个维度表,在条件复合的情况下,多个事实表之间的维度可以进行公用
多个星型模型构成的星座模型
星型模型和雪花模型的区别：星型模型是事实表直接连接维度表,雪花是直接或间接连接
30.主键索引和唯一索引的区别
相同点：都属于实体完整性约束
不同点：唯一性索引所在的列允许空值,但是主键约束所在的列不允许空值
可以把唯一性约束放在一个或者多个列上,这些列或列组合必须有唯一性,但唯一性约束所在的列并不是表的主键列
唯一性约束强制在指定的列上创建一个唯一性索引,在默认情况下,创建唯一性的非聚簇索引,但也可以指定所创建的索引是聚簇索引
建立主键的目的是让外键来引用
一个表最多只有一个主键，但可以有很多唯一键
31.触发器
DML触发器、替代触发器、系统触发器、DDL触发器、登录触发器
触发器是一种特殊的存储过程,在插入删除或修改特定表中的数据是并发执行的,
比数据库本身标准的功能有更精细更复杂的数据空值能力
可以驾驭数据库中的数据或时间限制用户的操作
可以跟踪用户对数据库的操作
实现复杂的数据完整性规则
能同步实时的复制表中的数据

32.存储过程中的异常处理
exception when 异常名1 then…;when 异常名2 then…;end;
预定义异常：有名字,有异常描述
非预定义异常：没名字,有描述
自定义异常：想要什么名字自己起
33.游标
静态游标：显示游标和隐式游标
动态游标：强类型和弱类型
主要应用在数据批量更新或删除
34.存储过程和函数的区别
函数有return,存过没有
存过可以调用函数,函数不可以调用存过
存过用来实现某种操作或者业务,函数用来实现某种功能
DML一般用存过
如果返回值超过一个,一般用存过
35.存储过程和触发器的区别
1.存储过程时已经创建并存储在数据库中的SQL语句，可以重复使用，而触发器是一种特殊的不是又用户直接调用的存储过程创建触发器时,会定义在针对特定表或列进行特定类型的数据修改时触发
2.用户可以直接调用或执行存储过程,但是无法直接调用或执行触发器
3.存储过程可以采用输入参数,而触发器不能将参数作为输入我们不能将参数作为输入传递给触发器
4.存储过程可以返回零或N个值,触发器无法返回值
5.可以在存储过程中使用事务,触发器内不允许进行事务处理
6.存储过程通常用于执行用户指定的任务,触发器通常用于审计工作
36.常用的函数：
sum、count、substr、sum()over()、rank()over()、row_number()over()
37.锁表
造成锁表的原因:一个程序执行了对一个表的INSERT，并且还未COMMIT提交，另一个程序也对同一个表进行INSERT，则此时就会发生资源正在忙的异常
解除锁表的方法：查看被锁的表是由哪个用户造成的死锁，然后查看简洁的进程查出锁定表的SID，最后杀掉进程SID
减少锁表概率的方法：减少INSERT,UPDATE,DELETE语句到COMMIT之间的时间，具体可以把批量执行改为单个执行、优化SQL自身的非执行速度
38.视图
视图和表不同，视图是已经编译好的SQL语句，没有实际的物理记录，只是逻辑概念上的存在。
表可以及时修改而视图只能修改创建视图的语句，如果表时内容的话视图就是窗口。可以合并分离的数据创建分区视图，更安全。
视图的建立和删除只影响视图本身，不会影响对应的基本表，工作中我们一般部直接修改视图
优缺点：使用视图可以指定用户数据，聚焦特定的数据，简单化数据操作，使基表中的数据有一定的安全性，可以合并分立数据，创建分区视图。
但是视图性能差，修改有限制
39.数据备份：exp imp
40.oracle的job
job有定时执行的功能，可以在指定的时间点或每天的某个时间点自行执行任务。
而且oracle重新启动后，job会继续运行，不用重新启动。
最重要的字段就是job这个值就是我们操作job的id号，
what 操作存储过程的名称，
next_date 执行的时间，
interval执行间隔
41.拉链表
拉链表是一种数据模型，主要是针对数据仓库设计中表存储数据的方式而定义的，
顾名思义，所谓拉链，就是记录历史。记录一个事物从开始，一直到当前状态的所有变化的信息。
拉链表可以避免按每一天存储所有记录造成的海量存储问题，同时也是处理缓慢变化数据（SCD2）的一种常见方式。
42.报表的相关知识
展现报表：所谓展现报表就是将数据库里的数据取出来以一定的样式展现出来，不改变数据库里的数据的报表。展现报表根据取数方式的不同，又可分为普通报表和行式报表。普通展现报表一次取出所需的全部数据，可以做分组、求和等运算，因此在设计时尽量控制取出数据的数量，只取出必要的数据，在硬件能够承受的条件下运行，避免发生内存溢出。行式报表是采取sql分页查询的方式，因此，当数据量较大的时候，可以采用行式报表。
行式报表主要用于处理大数量的数据展现，它每次都只从数据库中调取本页的数据，当点击下一页的时候，会重新调取下一页的数据，这样就解决了内存溢出的问题。由于行式报表每次只取出了一部分数据来展现，因而没法做分组，求和，求平均值等运算。
填报报表：填报报表顾名思义就是进行数据的填写和上报，因此它不仅能从数据库取数，还能进行数据的录入和修改。
43.linux相关知识
常见的命令查看磁盘空间 cpu或者内存使用情况查看文件前100后100行
cat查看cpu个数 du查看文件磁盘空间 top查看cpu free查看内存
44.表连接
内连接和外连接，外连接分为左外连接，右外连接，全外连接
内连接是显示量表共有的数据
左外连接是显示量表共有的和左表独有的数据，右表用空补齐
右外连接是显示两表共有的数据和右表独有的数据，
左表用空补齐全外连接是显示量表独有和共有的数据
45.drop、truncate和delete的区别
DROP：属于DDL，不能回滚，不能加WHERE条件，表内容和表结构一起删除
TRUNCATE：属于DDL，不能回滚，不能加WHERE条件，只删除表内容
DELETE：属于DML，可以回滚，可以加WHERE条件，根据WHERE删除部分内容
速度上来说DROP>TRUNCATE>DELETE
46.ddl dml：
DDL数据定义语言：CREATE 创建；ALTER 修改；DROP 删除；TRUNCATE 清空
DML数据操作语言：INSERT INTO 插入；UPDATE SET 更新；DELETE FROM 删除；MERGE INTO
47.大数据：hadoop
1.大多准确（数据质量有保证）
2.解决的问题：大量的数据存储和数据计算
48.数据的类型：
1.半结构化数据：数据有一定的结构但是结构不固定
json xml
2.结构化数据：固定的字段字段类型一定（数据库里的表）
3.非结构化数据：没有固定的结构（文本文件视频音频图片）
49.大数据行业内分析的基本步骤：
1.明确分析的目的和基本思路
2.收集数据（web页面手机app（埋点）业务系统）
3.数据的处理（java）
4.数据分析处理（SQL hiveSQL hql）
5.数据的应用：数据可视化分析
6.数据分析报告的产出：数据分析人员
50.hadoop：Apache使用java语言编写的开源免费的软件是一个开发和运行处理大规模数据的平台
hadoop的三大核心：
hdfs：分布式存储数据的框架可以实现海量数据的存储（磁盘）
yarn：是负责资源调度的平台（cpu 内存）
MapReduce：分布式计算的框架
hadoop的创始人：道格卡廷 Doug cutting 卡大爷
hadoop的特性：扩容能力
成本低：构建成本低花销少
效率高：存储数据和处理数据的效率
可靠性：数据不容易丢失
51.hadoop生态圈：
hdfs：分布式存储数据的框架可以实现海量数据的存储（磁盘）
yarn：是负责资源调度的平台（cpu 内存）
MapReduce：分布式计算的框架
hive：基于hadoop分布式存储的数据仓库提供SQL查询的数据操作
sqoop：hadoop生态圈里的etl工具（RDBMS–>hdfs）
oozie：工作流调度框架
zookeeper：分布式协调服务的组件
cdh：提供了统一的可视化管理界面可以实现大数据组件的自动部署和配置并且调优和安装都非常便捷
多用户管理来控制权限，稳定性高
缺点：占用内存对linux有一定的了解对hadoop的Apache版本有一定的安装和调优经验
52.hdfs：基本概念
分布式文件系统：跨多台服务器来完成数据存储的工作
能够存储海量的数据（tb pb 。。）并且为用户提供一个统一的资源访问接口让用户感觉到只是在访问一个简单的文件系统

hdfs适用的场景：
	1.存储非常大的文件 需要高吞吐量 对延迟没有要求
	2.一次性写入多次读取：数据一旦存储之后 不需要对数据进行更高 后期只是查询
hdfs不适用的场景:
	1.低延迟的数据访问
	2.不适合存储大量小文件
	3.需要对数据进行多次修改

53.hive:
基于hadoop的数据仓库工具
主要用于数据的离线分析
本质：就是把SQL转化为mr语言的工具
为什么要用hive
直接使用hadoop开发比较繁琐用户需要对mr直接进行操作，学习成本高
hive提供了类似于SQL的功能用户只要编写SQL即可查询出相关的数据学习成本低因为大多数程序员都会SQL
54.oozie：是一个开源的工作流调度引擎框架
工作流：业务过程的部分或者整体在计算机应用环境下的自动化
1.业务过程可以被拆解
2.业务流程之间存在依赖关系
3.业务流程是一个周期性的工作
oozie三种工作流：
workflow：最基础的工作流任务，不支持定时，不支持批量处理（一次性执行多个工作流）
coordinator（计划）：对workflow进行再包装，让他支持定时周期执行
bundle：对coordinator进行再度包装在能定时执行任务的情况下实现批量处理
oozie的工作流配置：基于一种图形DAG（有向无环图）
55.sqoop：是Apache下的一款用于hadoop生态圈与关系型数据库之间进行数据导入导出的工具

工作机制：将导入导出的命令转化成mr来执行

56.sqoop和其他常见etl工具的区别
kettle nifi sqoop
1.kettle虽然功能完善，但是当处理大量数据的时候瓶颈问题比较突出不适合大数据项目
2.nifi功能强大，且支持大数据量操作，但是它独立于hadoop集群，需要独立服务器来支撑
上手门槛高学习难度大用人成本高
3.sqoop专为关系型数据库和hadoop之间的etl而生，支持海量数据，操作门槛低
57.数据仓库：
特点：
面向主题
数据集成
非易失
时变
数据仓库系统执行流程
1、确定分析所依赖的源数据。
2、通过ETL将源数据采集到数据仓库。
3、数据按照数据仓库提供的主题结构进行存储。
4、根据各部门的业务分析要求创建数据集市（数据仓库的子集）。
5、决策分析、报表等应用系统从数据仓库查询数据、分析数据。
6、用户通过应用系统查询分析结果、报表
58.ETL（Extra, Transfer, Load）包括数据抽取、数据转换、数据装载三个过程。
1、抽取
数据抽取是从各各业务系统、外部系统等源数据处采集源数据。
2、转换
采集过来的源数据如果要存储到数据仓库需要按照一定的数据格式对源数据进行转换，常见的转换方式有数据类型转换、格式转换、缺失值补充、数据综合等。
3、装载
转换后的数据就可以存储到数据仓库中，这个过程要装载。数据装载通常是按一定的频率进行的，比如每天装载当天的订单数据、每星期装载客户信息等。
59.数据仓库：是用于企业整体分析的数据集合，比如分为：销售主题、客户主题、产品主题等。
数据集市：是用于部门分析的数据集合，从范围上来讲它属于数据仓库的子集，比如：销售部门的数据集市只有销售主题。
数据仓库和数据集市具有什么区别？
1、范围的区别
数据仓库是针对企业整体分析数据的集合。
数据集市是针对部门级别分析的数据集合。
2、数据粒度不同
数据仓库通常包括粒度较细的数据明细。
数据集市则会在数据仓库的基础上进行数据聚合，这些聚合后的数据就会直接用于部门业务分析。
60.维度与指标
指标：衡量事务发展的标准，也叫度量，如价格，销量等；指标可以求和、求平均值等计算
维度：事务的特征，如颜色、区域、时间等，可以根据不同的维度来对指标进行分析对比。比如根据区域维度来分析不同区域的产品销量，根据时间来分析每个月产品的销量，同一个产品销量指标从不同的维度分析会得出不同的结果
总结：维度就是编写SQL过程中用到的分组字段和条件筛选字段
61.维度建模：
维度表和事实表:
维度表：维度是指观察数据的角度，一般是一个名词，比如对于销售金额这个事实，我们可以从销售时间、销售产品、销售店铺、购买顾客等多个维度来观察分析
高基数维度数据：一般是用户资料表、商品资料表类似的资料表。数据量可能是千万级或者上亿级别。
低基数维度数据：一般是配置表，比如枚举值对应的中文含义，或者日期维表、地理维表等。数据量可能是个位数或者几千条几万条。
事实表：事实表记录了特定事件的数字化信息,一般由数值型数字和指向维度表的外键组成

62.数仓分层：
好处：1.清晰数据结构：每一个数据分层都有它的作用域和职责，在使用表的时候能更方便地定位和理解。
2.复杂问题简单化：将一个复杂的任务分解成多个步骤来完成，每一层解决特定的问题。
3.便于维护：当数据出现问题之后，可以不用修复所有的数据，只需要从有问题的步骤开始修复。
4.减少重复开发：规范数据分层，开发一些通用的中间层数据，能够减少重复开发的工作量。
5.高性能：数据仓库的构建将大大缩短获取信息的时间，数据仓库作为数据的集合，所有的信息都可以从数据仓库直接获取，尤其对于海量数据的关联查询和复杂查询，所以数据仓库分层有利于实现复杂的统计需求，提高数据统计的效率。
简单理解数仓更层次的作用
ODS：存放接入的原始数据
DW：存放重点设计的数据仓库中间层数据
APP：面向业务定制的应用数据
63.hive的分区操作
分区字段的选择
1.选择的字段可以把数据均匀的分成多个区域
2.确定好的分区字段与后续查询需求所使用的字段能够对应上
3.选择分区字段后，尽量避免大量分区数据产生
分区方式：
静态分区：导入数据时需要手动指定分区
应用场景：导入数据时向一个分区导入（适合单个分区导入数据）
例子：load data inpath ‘user/hive/xxx.txt’ into table partition(分区字段=值)
insert into table partition(分区字段=值)

动态分区：导入数据时，系统可以动态判断目标分区
应用场景：适合一次性导入多个分区数据
例子：insert into partition(分区字段)
注意：select语句的查询结果最后的字段必须是分区字段并且按顺序列出
64.构建每一层需要用到的表
外部表：external,删除表的时候数据不会被删除
数据不归我们独自管理数据除了我们自己使用其他部门也要用到这个表
内部表：删除表的时候数据也会同时被删除
数据完全归我们自己管理采用内部表

企业发展的痛点：
数据量大：hdfs大数据的存储容器
数据分散：sqoop大数据的etl工具
统计分析难度大：hive进行数据分析
项目的大致流程：
1.进行数据预处理建立数据中心
2.数据分析处理重中之重大量的分析SQL
3.数据的展示 BI可视化分析
项目的需求：共计五大模块
1.访问和咨询用户看板
2.意向用户看板
3.报名用户看板
4.有效线索看板
5.学生出勤看板
项目的架构：
1.通过sqoop将数据从不同数据源导入到hdfs里
2.将hdfs数据在hive中映射成表
3.在hive中进行数据清洗分析
4.将分析结构导出到MySQL中
5.通过可视化工具进行报表展示
所用到的技术：hadoop hive+sqoop+oozie+dhfs+BI工具
管理平台：CDH

在线教育行业近几年发展迅猛导致数据量激增，传统关系型数据库无法满足日常分析需求
所以采用大数据技术来解决当前面临的问题
我们的项目是基于CDH实现的 在这里面 我们用到了 hive sqoop oozie hdfs xxBI工具去做实施
实施过程中有五大模块 分别....... 在这里 我主要负责 xxx模块的开发

咨询量与访问量的统计操作
1.全量
1.1：数据采集MySQL—>ods层的表
1.2：从ods层采集数据到dwd层
1.3：dwd–>dws层
1.4：dwd层数据导出到MySQL
2.增量
2.1：数据采集MySQL—>ods层的表
2.2：从ods层采集数据到dwd层
2.3：dwd–>dws层
2.4：dwd层数据导出到MySQL
每一步脚本如何编写（处理当前日期前一天的数据）

数据仓库的分层：
ods层：与原表的数据保持一致
dw：需要考虑的是如何把零散的数据一步一步细化
dwd：明细层根据分析的主题把与主题相关的表结合在一起形成一张新表，并且只保留后续分析要用的字段
ods—>dwd
insert into table
select
…
from a,b

		dwm：中间表 主要是将一些多个维度统计出来形成一张中间表
			 对不同维度的进一步分析
		dws：业务层 对不同维度的指标进行计算

	访问量表设计：
		维度：小时 天 月 季度 年  区域 来源  搜索来源  访问页面 访问量
		需要考虑 如何存储以上相关的数据

研究数据如何存储
行存储的特点：查询满足条件的一整行（所有列）数据的时候，列存储则需要去每个聚集的字段找到对应的每个列的值，
行存储只需要找到其中一个值，其余的值都在相邻地方，所以此时行存储查询的速度更快。
列存储的特点：因为每个字段的数据聚集存储，在查询只需要少数几个字段的时候，能大大减少读取的数据量；
每个字段的数据类型一定是相同的，列式存储可以针对性的设计更好的设计压缩算法。
数据格式：采用orcfile的格式
压缩方式：在ODS数据源层，因为数据量较大，可以采用orcfile+ZLIB的方式，以节省磁盘空间；
而在计算的过程中（DWD、DWM、DWS、APP），为了不影响执行的速度，可以浪费一点磁盘空间，采用orcfile+SNAPPY的方式，提升hive的执行速度。
存储空间足够的情况下，推荐采用SNAPPY压缩。
T+1：T数据产生的时间 1：数据分析的时间 T+1：数据产生之后需要留在下一天进行分析

你可能感兴趣的:(etl工程师,数据仓库)

PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
自动化运维工程师面试题解析【真题】
ZabbixAgent默认监听的端口是A.10050。以下是关键分析：选项排除：C.80是HTTP默认端口，与ZabbixAgent无关。D.5432是PostgreSQL数据库的默认端口，不涉及ZabbixAgent。B.10051是ZabbixServer的默认监听端口，用于接收Agent发送的数据，而非Agent自身的监听端口。ZabbixAgent的配置：根据官方文档，ZabbixAgen
苦练Python第9天：if-else分支九剑 python后端前端人工智能
苦练Python第9天：if-else分支九剑前言大家好，我是倔强青铜三。是一名热情的软件工程师，我热衷于分享和传播IT技术，致力于通过我的知识和技能推动技术交流与创新，欢迎关注我，微信公众号：倔强青铜三。欢迎点赞、收藏、关注，一键三连！！！欢迎来到100天Python挑战第9天！今天我们不练循环，改磨“分支剑法”——ifelse三式：单分支、双分支、多分支，以及嵌套和三元运算符，全部实战演练，让
苦练Python第8天：while 循环之妙用 python后端前端人工智能
苦练Python第8天：while循环之妙用原文链接：https://dev.to/therahul_gupta/day-9100-while-loops-with-real-world-examples-528f作者：RahulGupta译者：倔强青铜三前言大家好，我是倔强青铜三。是一名热情的软件工程师，我热衷于分享和传播IT技术，致力于通过我的知识和技能推动技术交流与创新，欢迎关注我，微信公众
苦练Python第5天：字符串从入门到格式化 python后端人工智能前端
苦练Python第5天：字符串从入门到格式化原文链接：https://dev.to/therahul_gupta/day-5100-working-with-strings-basics-to-formatting-2kkn作者：RahulGupta译者：倔强青铜三前言大家好，我是倔强青铜三。是一名热情的软件工程师，我热衷于分享和传播IT技术，致力于通过我的知识和技能推动技术交流与创新，欢迎关注我
JVM与Spring Boot核心解析 AIHacksCash Java场景面试宝典 Java JVM Spring Boot
我是廖志伟，一名Java开发工程师、《Java项目实战——深入理解大型互联网企业通用技术》（基础篇）、（进阶篇）、（架构篇）清华大学出版社签约作家、Java领域优质创作者、CSDN博客专家、阿里云专家博主、51CTO专家博主、产品软文专业写手、技术文章评审老师、技术类问卷调查设计师、幕后大佬社区创始人、开源项目贡献者。拥有多年一线研发和团队管理经验，研究过主流框架的底层源码(Spring、Spri
ETL可视化工具 DataX -- 简介( 一) dazhong2012 软件工具数据仓库 datax ETL
引言DataX系列文章：ETL可视化工具DataX–安装部署(二)ETL可视化工具DataX–DataX-Web安装(三)1.1DataX1.1.1DataX概览DataX是阿里云DataWorks数据集成的开源版本，在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX实现了包括MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、
法律科技领域人工智能代理构建的十个经验教训，一位人工智能工程师通过构建、部署和维护智能代理的经验教训来优化法律工作流程的历程。知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 ai
目录介绍什么是代理人？为什么它对法律如此重要？法律技术中代理用例示例-合同审查代理-法律研究代理在LegalTech中使用代理的十个教训-教训1：即使代理很酷，它们也不能解决所有问题-教训2：选择最适合您用例的框架-教训3：能够快速迭代不同的模型-教训4：从简单开始，必要时扩展-教训5：使用跟踪解决方案；您将需要它-教训6：确保跟踪成本，代理循环可能很昂贵-教训7：将控制权交给最终用户（人在环路中
C++ 性能优化指南三月微风 c++性能优化开发语言
C++性能优化指南（针对GCC编译器，面向高级工程师面试）代码优化面试常问点：如何避免不必要的对象拷贝？为什么要用引用或std::move？虚函数调用有什么性能开销？原理解释：传递对象时按值会拷贝整个对象，特别是大对象会频繁分配/释放内存，影响性能；应尽量改用引用或指针传递。C++11引入移动语义（move），允许“窃取”临时对象的资源，避免深拷贝。虚函数调用需要先通过对象的虚函数表指针（vptr
探索实时流处理的未来：Kafka Streams 深度指南秋或依
探索实时流处理的未来：KafkaStreams深度指南项目介绍欢迎进入KafkaStreams：实时流处理的世界！这不仅仅是一本书，更是一个通往流处理领域深层奥秘的门户。由PrashantPandey编著，这本书以ApacheKafka2.1中的KafkaStreams库为核心，为读者铺就了一条从理解基础概念到熟练掌握KafkaStreams编程的路径。无论是软件工程师、数据架构师，还是对大数据处
uniapp 如何封装实现任意页面都能使用的全局弹窗代码简单说 2025开发必备(限时特惠)uni-app vue.js javascript uniapp全局弹窗 uniapp弹窗组件
【实战干货】uniapp如何封装实现任意页面都能使用的全局弹窗标签：uniapp弹窗组件全局弹窗Vue动态渲染跨页面弹窗✨前端老司机亲授，uniapp无法在所有页面中直接用自定义弹窗？别急，一招动态挂载vue实例，优雅解决！背景故事：一个被“弹窗”搞崩溃的早晨作为一名前端开发工程师，有一天我在给uniapp项目加IM消息功能，需求是：不论当前用户在哪个页面，只要有消息来，就要立即弹出提示窗口。听起
20k软件测试工程师必会——Jenkins+Git+Appium 持续集成策略测试小姐姐哟软件测试 jenkins 运维
持续集成（Continuousintegration，简称CI）持续集成是一种开发实践，它倡导团队成员需要频繁的集成他们的工作，每次集成都通过自动化构建（包括编译、构建、自动化测试）来验证，从而尽快地发现集成中的错误。让正在开发的软件始终处于可工作状态，让产品可以快速迭代，同时还能保持高质量。Jenkins是基于Java开发的持续集成工具，开源免费，官网：https://jenkins.io/Ap
Hive简介
文章目录Hive简介Hive特点Hive和RDBMS的对比Hive的架构Hive的数据组织Hive数据类型Hive简介1、Hive由Facebook实现并开源2、是基于Hadoop的一个数据仓库工具3、可以将结构化的数据映射为一张数据库表4、并提供HQL(HiveSQL)查询功能5、底层数据是存储在HDFS上6、Hive的本质是将SQL语句转换为MapReduce任务运行7、使不熟悉MapRedu
sqlplus表结构查询胡斌附体 oracle 数据库字符集建表语句查询格式输出
背景。需要知道目标表名。所属用户。目标库和源库同属一类数据库,oracle。使用的数据融合系统，在ogg加持下还需要手动在目标库创建表结构登录目标库sqlplus，使用sqlplus/assysdba查询建表语句执行以下语句进行查询--设置输出格式（在SQL*Plus中执行）SETLONG1000000--确保完整显示长文本SETPAGESIZE0--禁用分页SETLINESIZE200--调整行
京东大佬教你剖析软件测试的底层逻辑程序员霄霄软件测试软件测试功能测试自动化程序人生职场和发展
写这篇文章，是希望把我的一些我认为是非常有价值的经验总结出来，能够帮助刚做测试不久的新同事，或者是测试经验丰富的老同事以共享。希望我们可爱的新同事，准备要在测试领域耕耘的伙伴，能够通过我的文章了解到测试的底层逻辑，也就是我们测试工作中可能看不到隐藏较深的点，而不只是日常所见的写用例、提bug、开发自动化、做平台。俗话说外行看热闹，内行看门道。我认为测试人员不应该成为PRD的搬运工，高级测试工程师也
AI 时代程序员的出路：高薪神话还能撑多久？ freewind 人工智能
2025年，美国市场一名普通软件工程师的平均总包仍在15–16万美元/年，位居各行业顶薪之列BuiltInCoursera。可就在同时，71%的企业已经把AI写码模型引入生产线，近一半“用得相当激进”LegitSecurity——意味着写代码这件事，正在被机器半自动接管。下一个五年，程序员还能稳坐“金饭碗”吗？1|程序员为什么一直“贵”？原因解释稀缺性计算机教育普及赶不上互联网爆发，10年形成长期
SQL Server通过CLR连接InfluxDB实现异构数据关联查询技术指南 Favor_Yang SQL调优及高级SQL语法编写 SQL Server InfluxDB
一、背景与需求场景在工业物联网和金融监控场景中，实时时序数据（InfluxDB）需与业务元数据（SQLServer）联合分析：工业场景：设备传感器每秒采集温度、振动数据（InfluxDB），需关联工单状态、设备型号（SQLServer）金融场景：交易流水时序数据（每秒万条）需实时匹配客户风险等级、账户余额（SQLServer）核心痛点：传统ETL延迟高，无法满足实时风控/故障诊断需求，需实现毫秒级
Git分支管理：如何实现分支自动化测试？项目管理实战手册项目管理最佳实践 git elasticsearch 大数据 ai
Git分支管理：如何实现分支自动化测试？关键词：Git分支管理、自动化测试、持续集成、CI/CD、测试策略、分支策略、DevOps摘要：本文将深入探讨如何在Git分支管理中实现自动化测试，从基础概念到高级实践，详细介绍如何构建高效的自动化测试流程。我们将分析不同的分支策略对测试的影响，展示如何配置CI/CD流水线来自动触发测试，并通过实际案例演示如何优化测试执行效率。无论您是开发新手还是资深工程师
佰力博PEAI压电分析仪-精准测量压电材料d33系数 2401_83530248 科技材料工程制造
D33测试是用于测量压电材料压电常数d33值的测试方法，它是评估压电材料性能的重要手段之一。d33值表示材料在受到机械应力时产生电荷的能力，是衡量压电材料在传感器、执行器等应用中的关键参数。D33测试不仅能够帮助研究人员了解材料改性后的性能变化，还能为工程师设计压电器件提供依据，确保其性能满足实际应用需求。佰力博PEAI1000高精度压电分析仪是一款采用动态法评估压电材料压电系数d33的专用测量设
从零开始，学习基于RTthread的嵌入式学不会的某杨学习
一、嵌入式是什么官方的讲嵌入式系统是以应用为中心，以计算机技术为基础，能够根据用户需求（功能、可靠性、成本、体积、功耗、环境等）灵活裁剪软硬件模块的专用计算机系统。嵌入式分为软件和硬件两个方向。做嵌入式软件，需要对硬件有一定的基础。下面列一下成为软硬件都会的嵌入式工程师的学习路径吧。电子设计→PCB设计→C语言→单片机→操作系统二、嵌入式系统相信看到这篇文章的同学都已经有基本的c语言编程能力，所以
DDD实践：技术细节解析 MoneyHacksPro Java场景面试宝典 DDD Software Architecture Domain Modeling
我是廖志伟，一名Java开发工程师、《Java项目实战——深入理解大型互联网企业通用技术》（基础篇）、（进阶篇）、（架构篇）清华大学出版社签约作家、Java领域优质创作者、CSDN博客专家、阿里云专家博主、51CTO专家博主、产品软文专业写手、技术文章评审老师、技术类问卷调查设计师、幕后大佬社区创始人、开源项目贡献者。拥有多年一线研发和团队管理经验，研究过主流框架的底层源码(Spring、Spri
ShardingSphere技术解析
我是廖志伟，一名Java开发工程师、《Java项目实战——深入理解大型互联网企业通用技术》（基础篇）、（进阶篇）、（架构篇）清华大学出版社签约作家、Java领域优质创作者、CSDN博客专家、阿里云专家博主、51CTO专家博主、产品软文专业写手、技术文章评审老师、技术类问卷调查设计师、幕后大佬社区创始人、开源项目贡献者。拥有多年一线研发和团队管理经验，研究过主流框架的底层源码(Spring、Spri
微服务架构核心技术解析
我是廖志伟，一名Java开发工程师、《Java项目实战——深入理解大型互联网企业通用技术》（基础篇）、（进阶篇）、（架构篇）清华大学出版社签约作家、Java领域优质创作者、CSDN博客专家、阿里云专家博主、51CTO专家博主、产品软文专业写手、技术文章评审老师、技术类问卷调查设计师、幕后大佬社区创始人、开源项目贡献者。拥有多年一线研发和团队管理经验，研究过主流框架的底层源码(Spring、Spri
JVM与Spring Boot核心解析
我是廖志伟，一名Java开发工程师、《Java项目实战——深入理解大型互联网企业通用技术》（基础篇）、（进阶篇）、（架构篇）清华大学出版社签约作家、Java领域优质创作者、CSDN博客专家、阿里云专家博主、51CTO专家博主、产品软文专业写手、技术文章评审老师、技术类问卷调查设计师、幕后大佬社区创始人、开源项目贡献者。拥有多年一线研发和团队管理经验，研究过主流框架的底层源码(Spring、Spri
Spring MVC 框架解析 MoneyHacksPro Java场景面试宝典 Spring MVC Web Development Java Framework
我是廖志伟，一名Java开发工程师、《Java项目实战——深入理解大型互联网企业通用技术》（基础篇）、（进阶篇）、（架构篇）清华大学出版社签约作家、Java领域优质创作者、CSDN博客专家、阿里云专家博主、51CTO专家博主、产品软文专业写手、技术文章评审老师、技术类问卷调查设计师、幕后大佬社区创始人、开源项目贡献者。拥有多年一线研发和团队管理经验，研究过主流框架的底层源码(Spring、Spri
Hcia知识汇总小鱼快快游服务器网络 php
一.什么是HCIAHCIA—华为体系下的初级网络工程师二.网络的概念网络就是利用传输介质将世界不同位置的计算机连接在一起，就形成了一张网----可以实现信息传递和资源共享。三.网络基础计算机——电脑：处理电流信号--数字信号,实现电信号到数学信号的转换。1.应用层：抽象语言，电脑不认识，会转换成编码，软件是加到应用层的2.表示层：将编码转成二进制，所以表示层之下都是二进制应用层，表示层都是将各种类
搜广推校招面经九十一
美团机器学习/数据挖掘算法工程师_二面一、介绍一下ESMM模型，是否有进行过函数推导传统的转化率建模方式：只用发生点击（click=1）的样本来训练CVR模型。CVR定义如下：CVR=P(y=1∣x,z=1)CVR=P(y=1|x,z=1)CVR=P(y=1∣x,z=1)y=1表示用户发生了转化（如购买）z=1表示用户点击了广告这样做的问题：样本选择偏差（SampleSelectionBias,S
单稳态触发器Multisim电路仿真——硬件工程师笔记逼子歌单片机语音识别嵌入式硬件硬件工程师真题硬件工程师硬件工程触发器
目录1单稳态触发器基础知识1.1工作原理1.2电路结构1.3特点1.4应用1.5设计考虑1.6总结2555定时器实现的单稳态触发器2.1电路配置2.2工作原理2.3特点2.4应用2.5设计考虑2.6总结3反相器和与非门实现积分型单稳态触发器3.1电路结构3.2工作原理3.3特点3.4应用3.5设计考虑3.6总结4反相器和与非门实现微分型单稳态触发器4.1电路结构4.2工作原理4.3特点4.4应用4
今日Github热门仓库推荐2025-07-07 桃白白大人 Github热门项目推荐 github
今日Github热门仓库推荐2025-07-07如果让AI分别扮演后端开发人员和前端开发人员，然后看看他们分别对github每天的trending仓库感兴趣的有哪些，并且给出他感兴趣的理由，那会发生什么呢？本内容通过Python+AI生成，项目地址跳转后端开发人员推荐仓库名称：NanmiCoder/MediaCrawler仓库推荐理由：作为一个有10年后端开发经验的工程师，我对数据抓取和处理有浓厚
FasterRCNN源码解析（一）-——跑通代码_霹雳巴拉wz的代码看不懂 2401_84140023 2024年程序员学习运维 linux 面试
为了做好运维面试路上的助攻手，特整理了上百道【运维技术栈面试题集锦】，让你面试不慌心不跳，高薪offer怀里抱！这次整理的面试题，小到shell、MySQL，大到K8s等云原生技术栈，不仅适合运维新人入行面试需要，还适用于想提升进阶跳槽加薪的运维朋友。本份面试集锦涵盖了174道运维工程师面试题128道k8s面试题108道shell脚本面试题200道Linux面试题51道docker面试题35道Je
异常的核心类Throwable 无量 java 源码异常处理 exception
java异常的核心是Throwable，其他的如Error和Exception都是继承的这个类里面有个核心参数是detailMessage，记录异常信息，getMessage核心方法，获取这个参数的值，我们可以自己定义自己的异常类，去继承这个Exception就可以了，方法基本上，用父类的构造方法就OK，所以这么看异常是不是很easy package com.natsu;
mongoDB 游标（cursor）实现分页迭代开窍的石头 mongodb
上篇中我们讲了mongoDB 中的查询函数，现在我们讲mongo中如何做分页查询如何声明一个游标 var mycursor = db.user.find({_id:{$lte:5}}); 迭代显示游标数
MySQL数据库INNODB 表损坏修复处理过程 0624chenhong tomcat mysql
最近mysql数据库经常死掉，用命令net stop mysql命令也无法停掉，关闭Tomcat的时候，出现Waiting for N instance(s) to be deallocated 信息。查了下，大概就是程序没有对数据库连接释放，导致Connection泄露了。因为用的是开元集成的平台，内部程序也不可能一下子给改掉的，就验证一下咯。启动Tomcat,用户登录系统，用netstat -
剖析如何与设计人员沟通不懂事的小屁孩工作
最近做图烦死了，不停的改图，改图……。烦，倒不是因为改，而是反反复复的改，人都会死。很多需求人员不知该如何与设计人员沟通，不明白如何使设计人员知道他所要的效果，结果只能是沟通变成了扯淡，改图变成了应付。那应该如何与设计人员沟通呢？我认为设计人员与需求人员先天就存在语言障碍。对一个合格的设计人员来说，整天玩的都是点、线、面、配色，哪种构图看起来协调；哪种配色看起来合理心里跟明镜似的，
qq空间刷评论工具换个号韩国红果果 JavaScript
var a=document.getElementsByClassName('textinput'); var b=[]; for(var m=0;m<a.length;m++){ if(a[m].getAttribute('placeholder')!=null) b.push(a[m]) } var l
S2SH整合之session 灵静志远 spring AOP struts session
错误信息： Caused by: org.springframework.beans.factory.BeanCreationException: Error creating bean with name 'cartService': Scope 'session' is not active for the current thread; consider defining a scoped
xmp标签 a-john 标签
今天在处理数据的显示上遇到一个问题： var html = '<li><div class="pl-nr"><span class="user-name">' + user + '</span>' + text + '</div></li>'; ulComme
Ajax的常用技巧（2）---实现Web页面中的级联菜单 aijuans Ajax
在网络上显示数据，往往只显示数据中的一部分信息，如文章标题，产品名称等。如果浏览器要查看所有信息，只需点击相关链接即可。在web技术中，可以采用级联菜单完成上述操作。根据用户的选择，动态展开，并显示出对应选项子菜单的内容。在传统的web实现方式中，一般是在页面初始化时动态获取到服务端数据库中对应的所有子菜单中的信息，放置到页面中对应的位置，然后再结合CSS层叠样式表动态控制对应子菜单的显示或者隐
天-安-门，好高 atongyeye 情感
我是85后，北漂一族，之前房租1100，因为租房合同到期，再续，房租就要涨150。最近网上新闻，地铁也要涨价。算了一下，涨价之后，每次坐地铁由原来2块变成6块。仅坐地铁费用，一个月就要涨200。内心苦痛。晚上躺在床上一个人想了很久，很久。我生在农
android 动画百合不是茶 android 透明度平移缩放旋转
android的动画有两种 tween动画和Frame动画 tween动画;,透明度,缩放,旋转,平移效果 Animation 动画 AlphaAnimation 渐变透明度 RotateAnimation 画面旋转 ScaleAnimation 渐变尺寸缩放 TranslateAnimation 位置移动 Animation
查看本机网络信息的cmd脚本 bijian1013 cmd
@echo 您的用户名是：%USERDOMAIN%\%username%>"%userprofile%\网络参数.txt" @echo 您的机器名是：%COMPUTERNAME%>>"%userprofile%\网络参数.txt" @echo ___________________>>"%userprofile%\
plsql 清除登录过的用户征客丶 plsql
tools---preferences----logon history---history 把你想要删除的删除 -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一起进步。 email ： binary_spac
【Pig一】Pig入门 bit1129 pig
Pig安装 1.下载pig wget http://mirror.bit.edu.cn/apache/pig/pig-0.14.0/pig-0.14.0.tar.gz 2. 解压配置环境变量如果Pig使用Map/Reduce模式，那么需要在环境变量中，配置HADOOP_HOME环境变量 expor
Java 线程同步几种方式 BlueSkator volatile synchronized ThredLocal ReenTranLock Concurrent
为何要使用同步？ java允许多线程并发控制，当多个线程同时操作一个可共享的资源变量时（如数据的增删改查），将会导致数据不准确，相互之间产生冲突，因此加入同步锁以避免在该线程没有完成操作之前，被其他线程的调用，从而保证了该变量的唯一性和准确性。 1.同步方法&
StringUtils判断字符串是否为空的方法（转帖） BreakingBad null StringUtils “”
转帖地址：http://www.cnblogs.com/shangxiaofei/p/4313111.html public static boolean isEmpty(String str) 　　判断某字符串是否为空，为空的标准是 str== null 或 str.length()== 0
编程之美-分层遍历二叉树 bylijinnan java 数据结构算法编程之美
import java.util.ArrayList; import java.util.LinkedList; import java.util.List; public class LevelTraverseBinaryTree { /** * 编程之美分层遍历二叉树 * 之前已经用队列实现过二叉树的层次遍历，但这次要求输出换行，因此要
jquery取值和ajax提交复习记录 chengxuyuancsdn jquery取值 ajax提交
// 取值 // alert($("input[name='username']").val()); // alert($("input[name='password']").val()); // alert($("input[name='sex']:checked").val()); // alert($("
推荐国产工作流引擎嵌入式公式语法解析器-IK Expression comsci java 应用服务器工作 Excel 嵌入式
这个开源软件包是国内的一位高手自行研制开发的，正如他所说的一样，我觉得它可以使一个工作流引擎上一个台阶。。。。。。欢迎大家使用，并提出意见和建议。。。 ----------转帖--------------------------------------------------- IK Expression是一个开源的（OpenSource），可扩展的（Extensible），基于java语言
关于系统中使用多个PropertyPlaceholderConfigurer的配置及PropertyOverrideConfigurer daizj spring
1、PropertyPlaceholderConfigurer Spring中PropertyPlaceholderConfigurer这个类，它是用来解析Java Properties属性文件值，并提供在spring配置期间替换使用属性值。接下来让我们逐渐的深入其配置。基本的使用方法是：(1) <bean id="propertyConfigurerForWZ&q
二叉树:二叉搜索树 dieslrae 二叉树
所谓二叉树,就是一个节点最多只能有两个子节点,而二叉搜索树就是一个经典并简单的二叉树.规则是一个节点的左子节点一定比自己小,右子节点一定大于等于自己(当然也可以反过来).在树基本平衡的时候插入,搜索和删除速度都很快,时间复杂度为O(logN).但是,如果插入的是有序的数据,那效率就会变成O(N),在这个时候,树其实变成了一个链表. tree代码:
C语言字符串函数大全 dcj3sjt126com c function
C语言字符串函数大全函数名: stpcpy 功能: 拷贝一个字符串到另一个用法: char *stpcpy(char *destin, char *source); 程序例: #include <stdio.h> #include <string.h> int main
友盟统计页面技巧 dcj3sjt126com 技巧
在基类调用就可以了, 基类ViewController示例代码 -(void)viewWillAppear:(BOOL)animated { [super viewWillAppear:animated]; [MobClick beginLogPageView:[NSString stringWithFormat:@"%@",self.class]];
window下在同一台机器上安装多个版本jdk，修改环境变量不生效问题处理办法 flyvszhb java jdk
window下在同一台机器上安装多个版本jdk，修改环境变量不生效问题处理办法本机已经安装了jdk1.7，而比较早期的项目需要依赖jdk1.6，于是同时在本机安装了jdk1.6和jdk1.7. 安装jdk1.6前，执行java -version得到 C:\Users\liuxiang2>java -version java version "1.7.0_21&quo
Java在创建子类对象的同时会不会创建父类对象 happyqing java 创建子类对象父类对象
1.在thingking in java 的第四版第六章中明确的说了，子类对象中封装了父类对象， 2."When you create an object of the derived class, it contains within it a subobject of the base class. This subobject is the sam
跟我学spring3 目录贴及电子书下载 jinnianshilongnian spring
一、《跟我学spring3》电子书下载地址：《跟我学spring3》（1-7 和 8-13） http://jinnianshilongnian.iteye.com/blog/pdf 跟我学spring3系列 word原版下载二、源代码下载最新依
第12章 Ajax（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BI and EIM 4.0 at a glance blueoxygen BO
http://www.sap.com/corporate-en/press.epx?PressID=14787 有机会研究下EIM家族的两个新产品~~~~ New features of the 4.0 releases of BI and EIM solutions include: Real-time in-memory computing –
Java线程中yield与join方法的区别 tomcat_oracle java
长期以来，多线程问题颇为受到面试官的青睐。虽然我个人认为我们当中很少有人能真正获得机会开发复杂的多线程应用(在过去的七年中，我得到了一个机会)，但是理解多线程对增加你的信心很有用。之前，我讨论了一个wait()和sleep()方法区别的问题，这一次，我将会讨论join()和yield()方法的区别。坦白的说，实际上我并没有用过其中任何一个方法，所以，如果你感觉有不恰当的地方，请提出讨论。 &nb
android Manifest.xml选项阿尔萨斯 Manifest
结构继承关系 public final class Manifest extends Objectjava.lang.Objectandroid.Manifest 内部类 class Manifest.permission权限 class Manifest.permission_group权限组构造函数 public Manifest () 详细 androi
Oracle实现类split函数的方 zhaoshijie oracle
关键字：Oracle实现类split函数的方项目里需要保存结构数据，批量传到后他进行保存，为了减小数据量，子集拼装的格式，使用存储过程进行保存。保存的过程中需要对数据解析。但是oracle没有Java中split类似的函数。从网上找了一个，也补全了一下。 CREATE OR REPLACE TYPE t_split_100 IS TABLE OF VARCHAR2(100); cr