追风筝的少年-

数据湖之基于flink+hudi+hive的实践（一）

文章目录

- 一、介绍
- 二、环境准备与实验
- - 1、环境
  - 2、启动步骤
  - 3、实验过程
- 三、遇到过的坑
- 四、参考资料

一、介绍

hudi最新的0.9版本经过众人千呼万唤，终于在9月份出来了。hudi可以兼容在hadoop基础之上存储海量数据，不仅可以进行批处理，还可以在数据湖上进行流处理，即离线与实时结合。并且同时提供了2种原生语义：

1）Update/Delete记录：即通过hudi可以更新和删除表中记录，同时还提供写操作的事务保证。
2）Change Streams：可以从某个时间点获取给定表中已updated/inserted/deleted的所有记录的增量流。

不仅支持近实时写入和分析，还支持Spark、Presto、Trino、Hive 等的 SQL 读/写、事务回滚和并发控制、快照查询/增量查询、可插入索引等。更多介绍请参考Apache hudi官网

hudi0.8版本与flinksql的兼容性不好，里面没有对connector='hudi’的实现，在github上可以看到0.9版本有相关的实现了。

二、环境准备与实验

1、环境

flink1.12.2
hudi0.9
hive 3.1.2
hadoop 3.1.1

2、启动步骤

flink-conf.yaml中，需要开启checkpoint，其配置如下：

execution.checkpointing.interval: 3000sec
state.backend: rocksdb
state.checkpoints.dir: hdfs://hadoop0:9000/flink-checkpoints
state.savepoints.dir: hdfs://hadoop0:9000/flink-savepoints

第一步：启动hadoop集群，进入$HADOOP_HOME，执行：

./sbin/start-dfs.sh

在启动hadoop集群之前，建议先同步集群的时间，不然在后面操作hudi时会报错，可以使用如下命令同步。

ntpdate time1.aliyun.com

第二步：启动hive节点，进入$HIVE_HOME/conf，执行命令：

nohup hive --service metastore 
nohup hiveserver2 &

启动hive后，执行beeline -u jdbc:hive2://hadoop0:10000命令是可以正常进入hive的。如果没有，可能需要检查hive-site.xml的配置或者查看启动日志。

第三步：启动flink节点，进入$FLINK_HOME/bin，执行命令：

./start-cluster.sh

在此之前，可以设置taskmanager的数量和slot的数量，hudi官网上是将taskmanager的数量设置为4，一个taskmanager有一个slot。当然也可以根据服务器的配置和数据量大小而定；
此外，$FLINK_HMOE/lib/目录下还需引入下面几个包：

flink-connector-hive_2.11-1.12.2.jar
flink-hadoop-compatibility_2.11-1.12.2.jar
flink-sql-connector-hive-3.1.2_2.11-1.12.2.jar
hive-exec-3.1.2.jar
hudi-flink-bundle_2.11-0.9.0.jar

3、实验过程

第一步：启动flink-sql客户端，在$FLINK_HOME/bin目录执行：

export HADOOP_CLASSPATH=`$HADOOP_HOME/bin/hadoop classpath`
./sql-client.sh embedded

hudi0.9官网上执行是的./sql-client.sh embedded -j …/lib/hudi-flink-bundle_2.11-0.9.0.jar shell这条命令，用flink sql插入数据时会报错，导致jobmanager挂掉，目前在hudi0.10已经修复了这个bug。

第二步：建表和插入数据

use catalog myhive; --指定catalog，也可以不指定
CREATE TABLE tb_hudi_0901_tmp30 (
  uuid VARCHAR(20) PRIMARY KEY NOT ENFORCED,
  name VARCHAR(10),
  age INT,
  ts TIMESTAMP(3),
  `partition` VARCHAR(20)
)
PARTITIONED BY (`partition`)
WITH (
  'connector' = 'hudi',
  'path' = 'hdfs://hadoop0:9000/hudi/tb_hudi_0901_tmp30',
  'write.tasks'='1',
  'compaction.async.enabled' = 'false',
  'compaction.tasks'='1',
  'table.type' = 'MERGE_ON_READ'  ) ; 

INSERT INTO tb_hudi_0901_tmp30 VALUES ('id1','Danny',23,TIMESTAMP '1970-01-01 00:00:01','part1'),
('id2','Stephen',33,TIMESTAMP '1970-01-01 00:00:02','part1'),
('id3','Julian',53,TIMESTAMP '1970-01-01 00:00:03','part1'),
('id4','Fabian',31,TIMESTAMP '1970-01-01 00:00:04','part1'),
('id5','Sophia',18,TIMESTAMP '1970-01-01 00:00:05','part1'),
('id7','Bob',44,TIMESTAMP '1970-01-01 00:00:07','part1');

效果如下图所示：

在这里，实验用的是离线压缩，compaction.async.enabled设置了false，也可以在线压缩。如果是在线压缩，批环境实验还没有成功，但是在流环境下，接kafka作为数据源，触发checkpoint是可以的，默认是当触发5次checkpoint时会生成压缩计划，然后调度对应的压缩任务，在hdfs便可以看到生成parquet文件了，这个是至关重要的，没有生成parquet文件，在hive里面是查不到数据了。如图所示：

第三步：建立hive外部表

方式一：INPUTFORMAT为HoodieParquetInputFormat类型的外部表。只会查询出来parquet数据文件中的内容，但是刚刚更新或者删除的数据不能查出来，对hive表中mor/cow类型的表均可执行count(*)操作。

 CREATE EXTERNAL TABLE hudi_tb_test_copy4 (
`_hoodie_commit_time` string,
`_hoodie_commit_seqno` string,
`_hoodie_record_key` string,
`_hoodie_partition_path` string,
`_hoodie_file_name` string,
`uuid` STRING,
`name` STRING,
`age` bigint,
`ts` bigint) PARTITIONED BY (`partition` string)
ROW FORMAT SERDE 'org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe'
STORED AS INPUTFORMAT 'org.apache.hudi.hadoop.HoodieParquetInputFormat'
OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat'
LOCATION 'hdfs://hadoop0:9000/hudi/tb_hudi_0901_tmp30';

方式二：INPUTFORMAT为HoodieParquetRealtimeInputFormat类型的外部表。会实时读出来写入的数据，将基于Parquet的基础列式文件和基于行的Avro日志文件合并在一起呈现出来。不过最近发现用此类型时，在hive集群中对mor表执行count(*)操作会报内存溢出错误，cow类型的表没有这个问题。

CREATE EXTERNAL TABLE hudi_tb_test_copy4 (
`_hoodie_commit_time` string,
`_hoodie_commit_seqno` string,
`_hoodie_record_key` string,
`_hoodie_partition_path` string,
`_hoodie_file_name` string,
`uuid` STRING,
`name` STRING,
`age` bigint,
`ts` bigint) PARTITIONED BY (`partition` string)
ROW FORMAT SERDE 'org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe'
STORED AS INPUTFORMAT 'org.apache.hudi.hadoop.realtime.HoodieParquetRealtimeInputFormat'
OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat'
LOCATION 'hdfs://hadoop0:9000/hudi/tb_hudi_0901_tmp30';

alter table hudi_tb_test_copy4 add if not exists partition(`partition`='part1') location 'hdfs://hadoop0:9000/hudi/tb_hudi_0901_tmp30/part1';

在hudi0.9版本也可以不用手动建立hive外部表，可以自动生成的，可惜目前还没有打通这个环节…

第四步：beeline查询数据

查询之前，先执行如下命令，第一个命令是把包加入到hive环境中，是属于当前会话的；若永久生效，需要在$HIVE_HOME建立auxlib/，把包放入此目录，然后重启hive集群。
```
add jar hdfs://hadoop0:9000/jar/hudi-hadoop-mr-bundle-0.9.0.jar;
set hive.input.format = org.apache.hudi.hadoop.hive.HoodieCombineHiveInputFormat;
```
效果如下图所示：

至此，flink->hudi->hive的环节就打通了，但是还有许多问题在研究中。比如：
- cow表会有写放大问题，当表中有大量的更新数据写入时，落地的parquet文件的总大小会double，每写一次会double一次。不过这是正常的，copy_on_write，copy的是没有变化的数据，hudi将这些数据copy出来，然后append新增或更新的数据，落地为一个新文件。所有不难理解cow表会产生很多文件了。
- cow表会生成很多小的parquet文件，parquet文件的个数好像与这个参数write.bucket_assign.tasks有关，设置之后发现文件个数明显减少了。
- mor类型的表默认是完成5次checkpoint才会调度压缩任务，生成parquet文件的，如果在hdfs上没有看到parquet文件，那得看看有没有完成指定次数的checkpoint了。不过测试时发现批环境下即便完成了checkpoint，也没有触发压缩任务，很奇怪；但在流环境中是可以的。对了，mor生成的log会定期清理的。
- hoodie.datasource.write.precombine.field: 更新数据时，如果存在两个具有相同主键的记录，则此列中的值将决定更新哪个记录。选择诸如时间戳的列确保选择具有最新时间戳的记录。这个参数很有用，默认指定的字段是ts字段，所以flink表中要有ts字段，没有的话，需要指定了。
- read.streaming.check-interval: 每隔多久去检验一次有没有新的操作在timeline上产生的。

三、遇到过的坑

[1] ERROR: Attempting to operate on hdfs journalnode as root
ERROR: but there is no HDFS_JOURNALNODE_USER defined. Aborting operation. 解决办法：在 hadoop-env.sh 文件下面添加如下内容。

export JAVA_HOME=/usr/java/jdk1.8.0_181
export HDFS_NAMENODE_USER=root
export HDFS_DATANODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export HDFS_ZKFC_USER=root
export HDFS_JOURNALNODE_USER=root

[2] IllegalArgumentException: Following instants have timestamps >= compactionInstant (20210710211157) Instants :[[20210713205004__deltacommit__COMPLETED], [20210713205200__deltacommit__COMPLETED], [20210714091634__deltacommit__COMPLETED]]
错误原因：compaction时必须保证所有completed,inflight,requested的compaction的时间必须小于当前压缩时间。解决办法：查看集群的时间，同步时间ntpdate time1.aliyun.com
[3] java.lang.NoSuchMethodError: io.javalin.core.CachedRequestWrapper.getContentLengthLong()J
at io.javalin.core.CachedRequestWrapper.(CachedRequestWrapper.kt:22) ~[hudi-flink-bundle_2.11-0.9.0.jar:0.9.0]
at io.javalin.core.JavalinServlet.service(JavalinServlet.kt:34) ~[hudi-flink-bundle_2.11-0.9.0.jar:0.9.0]
at io.javalin.core.util.JettyServerUtil $i n i t i a l i z e$ httpHandler$1.doHandle(JettyServerUtil.kt:72) ~[hudi-flink-bundle_2.11-0.9.0.jar:0.9.0]
at org.apache.hudi.org.apache.jetty.server.handler.ScopedHandler.nextScope(ScopedHandler.java:203) ~[hudi-flink-bundle_2.11-0.9.0.jar:0.9.0]
错误原因：像这类NoSuchMethodError的错误，一般都是类冲突导致，同一个类依赖了多个版本，运行的时类加载器没有找到这个类的方法导致的。定位到ServletRequestWrapper这个类冲突，把相关的类移除就可以了。
[4] FAILED: RuntimeException java.lang.ClassNotFoundException: org.apache.hudi.hadoop.realtime.HoodieParquetRealtimeInputFormat (state=42000,code=40000)。在hive集群里面执行如下命令：
```
add jar hdfs://hadoop0:9000/jar/hudi-hadoop-mr-bundle-0.9.0.jar;
```
这里只列出了印象较深刻的一些问题。。。

四、参考资料

[1] https://hudi.apache.org/docs/flink-quick-start-guide/
[2] https://www.yuque.com/docs/share/01c98494-a980-414c-9c45-152023bf3c17?#
[3] https://zhuanlan.zhihu.com/p/131210053
[4] https://cloud.tencent.com/developer/article/1812134
[5] https://blog.csdn.net/xxscj/article/details/115320772
[6] https://blog.csdn.net/hjl18309163914/article/details/116057379?spm=1001.2014.3001.5501

最后用一句话结尾
世事洞明皆学问，人情练达即文章~~~

opencv入门(6) TrackBar调整图片和键盘响应千殃sama opencv 学习笔记
文章目录1创建trackbar2使用userdata传入函数3键盘响应1创建trackbar1.trackbar名称2.创建在哪个窗口上3.拖动trackbar改变的值4.trackBar的最大值5.trackbar改变时的回调函数6.带入回调函数的数据，可以不用带,是一个void指针createTrackbar(“Valuebar”,“亮度调整”,&lightness,max_value,on_
php数据导出pdf文件 Z单单 pdf
一.导出pdf文件，首先要安装相关的类库文件，我用的是dompdf类库。1.安装类库文件：composerrequiredompdf/dompdf2.引入类库文件到你的控制器中，创建方法：publicfunctiongeneratePdf(){//你需要打印的查询内容$data=['name'=>'烦烦烦','content'=>'哈哈哈计划经济','img'=>'https:://www.tup
kafka问题解决笔记 Leo_Hu666 kafka 笔记分布式
1.ERRORShutdownbrokerbecausealllogdirsin/tmp/kafka-logshavefailed(kafka.log.LogManager)修改：/data3/kafka_2.12-3.9.1/config/server.propertieslog.dirs=/tmp/kafka-logs-new
Python爬虫设置代理IP 菜鸟驿站2020 python
配置代理ipfrombs4importBeautifulSoupimportrequestsimportrandom#从ip代理网站获取ip列表defget_ip_list(url,headers):web_data=requests.get(url,headers=headers)soup=BeautifulSoup(web_data.text,'lxml')ips=soup.find_all(
golang实现从request请求返回的response中提取网站图标的faviconMMH3, faviconMD5, faviconPath, faviconData, faviconURL
golang实现从request请求返回的response中提取网站图标的faviconMMH3,faviconMD5,faviconPath,faviconData,faviconURL，其中faviconData类型为[]byte，其余为string类型。在Go中提取网站的favicon（网站图标）并计算其MMH3和MD5哈希值，同时获取路径、原始数据和URL，可以通过以下步骤实现：packa
08_Excel 导入 - 用户信息批量导入耀耀_很无聊【后端开发】Java 碎碎念 excel java 开发语言
08_Excel导入-用户信息批量导入1.VO类java复制编辑@Data@AllArgsConstructor@NoArgsConstructorpublicclassUserInfoBatch4ExcelReq{@ExcelProperty(value="用户姓名")@Schema(description="用户姓名")privateStringuserName;@ExcelProperty(
Android学习笔记 LXR小朋友 android 学习笔记
一、Android四大组件精要1.Activity生命周期：onCreate()→onStart()→onResume()→onPause()→onStop()→onDestroy()重点场景：屏幕旋转：onSaveInstanceState()保存临时数据返回栈管理：launchMode（standard/singleTop/singleTask/singleInstance）页面跳转：Inte
Android Jetpack架构组件(四)之LiveData xiangzhihong8 深入Android应用开发
一、LiveData简介LiveData是Jetpack架构组件Lifecycle库的一部分，是一个可感知生命周期的可观察容器类(Observable)。与常规的可观察类不同，LiveData具有生命周期感知能力，这意味着它具有感知应用组件（如Activity、Fragment或Service）的生命周期的能力，并且LiveData仅更新处于活跃生命周期状态的应用组件观察者。因此，LiveData
掌握Android Jetpack，优化移动开发体验移动开发前沿移动端开发宝典 android jetpack android ai
掌握AndroidJetpack，优化移动开发体验关键词：AndroidJetpack、组件化开发、ViewModel、LiveData、Room、Navigation、Compose摘要：本文深入探讨AndroidJetpack组件库的核心架构和使用方法，通过系统化的讲解和实战演示，帮助开发者理解如何利用Jetpack系列组件提升开发效率、构建健壮的Android应用。文章将从基础概念入手，逐步
MVI+Compose架构实战 Android洋芋 MVI JetpackCompose Kotlin Flow 状态管理声明式UI
简介本文将深入探讨为什么LiveData不适合在JetpackCompose中使用，并通过完整代码示例展示MVI+Compose架构的实现。从Android架构演进历史到Composable函数的重组机制，从单向数据流原理到StateFlow的线程安全特性，全面解析这一技术趋势背后的深层原因。一、为什么LiveData不适合在JetpackCompose中使用？LiveData与Compose的单
＜电子幽灵＞开发笔记:BAT基础笔记(一）
BAT脚本基础笔记(一)介绍费曼学习法最重要的部分，即把知识教给一个完全不懂的孩子——或者小白。为了更好的自我学习，也为了让第一次接触某个知识范畴的同学快速入门，我会把我的学习笔记整理成电子幽灵系列。提示：作为低代码工具的笔记，这里会用特殊字体表示要用到的函数等等。请若要学习，请结合相关工具边用边学。BAT基础笔记（一）BAT脚本基础笔记(一)介绍简介在哪里编写BAT代码？BAT基本语法1.基本命
＜电子幽灵＞前端第一件：HTML基础笔记下靈镌sama 电子幽灵随手记前端 html 笔记
HTML基础笔记（下）介绍费曼学习法最重要的部分，即把知识教给一个完全不懂的孩子——或者小白。为了更好的自我学习，也为了让第一次接触某个知识范畴的同学快速入门，我会把我的学习笔记整理成电子幽灵系列。提示：文章的是以解释-代码块-解释的结构呈现的。当你看到代码块并准备复制复现的时候，最好先保证自己看过了代码块前后的解释。＜电子幽灵＞前端第一件：HTML基础笔记上中，最基础的一部分HTML标签和已经以
树莓派实验——人脸识别 Rounie opencv python 计算机视觉
importnumpyasnp#导入numpy科学计算库importcv2#导入OpenCV函数库#装载人脸识别特征文件face_cascade=cv2.CascadeClassifier('/usr/local/lib/python3.5/dist-packages/cv2/data/haarcascade_frontalface_alt.xml')cap=cv2.VideoCapture(0)
《UE5_C++多人TPS完整教程》学习笔记40 ——《P41 装备（武器）姿势（Equipped Pose）》 SHOTJEE #ue5 游戏 c++
本文为B站系列教学视频《UE5_C++多人TPS完整教程》——《P41装备（武器）姿势（EquippedPose）》的学习笔记，该系列教学视频为计算机工程师、程序员、游戏开发者、作家（Engineer,Programmer,GameDeveloper,Author）StephenUlibarri发布在Udemy上的课程《UnrealEngine5C++MultiplayerShooter》的中文字
数据中心双活架构解决方案
数据中心双活架构解决方案数据中心双活架构（Active-ActiveDataCenter）旨在实现业务高可用、负载均衡和灾难自动切换。以下是完整的解决方案，涵盖架构设计、关键技术、实施步骤及最佳实践。1.双活架构设计1.1基本架构模型同城双活（MetroActive-Active）两个数据中心距离≤100km（低延迟，通常100km（延迟较高，通常>10ms）采用异步数据复制（如Kafka+CDC
[第一章 web入门]SQL注入-2 weixin_40546436 渗透测试
1通过updatexml取数据从页面发现有一个提示如果加上?tips=1的话，通过burpsuite发包可以通过updatexml来查看回显，可以通过这个取到数据下面是通过updatexml来注入，这时4步中用到语句name=admin’andupdatexml(1,concat(0x7e,(select(database())),0x7e),1)#&pass=bbname=admin’andup
Vue3.3 + TypeScript ，自主打造媲美 ElementPlus 的组件库之学习笔记怪我冷i 大前端 typescript 学习笔记
Vue3.3+TS4，自主打造媲美ElementPlus的组件库第1章课程介绍1-1课程导学1-2代码库使用注意事项1-3项目演示地址：http://element.vikingship.xyz/第2章Typescript基础知识2-1什么是Typescript为什么要学习它2-2安装Typescript2-3原始数据类型和Any类型2-4数组和元组2-5Interface-接口初探2-6函数2-
Spark从入门到熟悉（篇三）小新学习屋数据分析 spark 大数据分布式
本文介绍Spark的DataFrame、SparkSQL，并进行SparkSQL实战，加强对编程的理解，实现快速入手知识脉络包含如下7部分内容：RDD和DataFrame、SparkSQL的对比创建DataFrameDataFrame保存成文件DataFrame的API交互DataFrame的SQL交互SparkSQL实战参考资料RDD和DataFrame、SparkSQL的对比RDD对比Data
使用GPU进行机器学习训练时，如果GPU-Util计算核心满载工作但是显存占用较少，应该如何优化？十子木机器学习深度学习人工智能
是否需要优化？如果任务运行正常：无需干预（GPU设计本就是优先榨干计算性能）。如果出现卡顿或效率低下：增大batch_size：提升显存占用，减少数据搬运次数（但需避免OOM）。启用混合精度：torch.cuda.amp可减少显存占用并加速计算。检查CPU到GPU的数据流：避免频繁的小数据拷贝（如DataLoader的num_workers设置）。
探秘Swift高级开发：深度解析与实践指南强妲佳Darlene
探秘Swift高级开发：深度解析与实践指南Advanced-SwiftNotesofAdvancedSwift.《swift进阶》学习笔记swift5.3项目地址:https://gitcode.com/gh_mirrors/ad/Advanced-Swift在软件开发的世界里，掌握一门编程语言的精髓，意味着你可以创造出无限可能的应用。而Swift，这款由Apple推出的高性能编程语言，以其易学易
变幻莫测：CoreData 中 Transformable 类型面面俱到（八）大熊猫侯佩 Apple开发入门 CoreData Transformable Data SwiftData 类型转换 Codable Swift
概述各位似秃似不秃小码农们都知道，在苹果众多开发平台中CoreData无疑是那个最简洁、拥有“官方认证”且最具兼容性的数据库框架。使用它可以让我们非常方便的搭建出App所需要的持久存储体系。不过，大家是否知道在CoreData中还存在一个Transformable类型，它到底是个啥？应用场景有哪些？在最新的SwiftData中有没有对应物？对于开发者又有哪些“见雀张罗”的撸码陷阱和最佳实践呢？在本
Android 中函数实现多个返回值的几种方式
在编程中，函数通常只能返回一个值。但通过使用对象封装、Pair、Triple、数组、列表或Bundle方式，可以轻松地返回多个值。1、对象封装方式创建数据类来封装需要返回的多个值。dataclassResult(valcode:Int,valmessage:String)fungetMultiValues():Result{returnResult(1,"success")}//调用方式valre
ZYNQ MPSOC PL端DDR4读写--介绍（1） LEEE@FPGA FPGA高速接口开发 fpga开发 DDR4
1DDR4介绍DDR4SDRAM（Double-Data-RateFourthGenerationSynchronousDynamicRandomAccessMemory，简称为DDR4SDRAM），是一种高速动态随机存取存储器，它属于SDRAM家族的存储器产品，提供了相较于DDR3SDRAM更高的运行性能与更低的电压，并被广泛的应用于计算机的运行缓存。DDR4主要特点1)更高频率与带宽起步频率为
大数据集群架构hadoop集群、Hbase集群、zookeeper、kafka、spark、flink、doris、dataeas(二) 争取不加班！ hadoop hbase zookeeper 大数据运维
zookeeper单节点部署wget-chttps://dlcdn.apache.org/zookeeper/zookeeper-3.8.4/apache-zookeeper-3.8.4-bin.tar.gz下载地址tarxfapache-zookeeper-3.8.4-bin.tar.gz-C/data/&&mv/data/apache-zookeeper-3.8.4-bin//data/zoo
大模型学习（Datawhale_Happy-LLM）笔记7: Encoder-Decoder PLM lxltom 学习笔记 language model 自然语言处理神经网络人工智能深度学习
大模型学习（Datawhale_Happy-LLM）笔记7:Encoder-DecoderPLM1.Encoder-Decoder架构概述1.1架构基础Encoder-DecoderPLM是基于原始Transformer架构的完整实现，它同时保留了编码器（Encoder）和解码器（Decoder）两个核心组件。这种设计使得模型能够兼具文本理解和生成的双重能力，特别适合处理序列到序列（Seq2Seq
《UNIX环境高级编程》笔记第三章——文件IO（2) day_day_hard_up Linux系统编程笔记 linux c语言 unix
1.简介本文是上一篇笔记文件IO（1）的续写，接下来继续补充一些文件IO特性以及介绍剩下的一些函数。文件IO的读写效率与调用时传入的buf大小有关，也与打开的文件描述标志有关（O_SYNC和O_DSYNC），影响效率IO效率的相关函数有sync、fsync和fdatasync。理解dup、dup2和fcntl函数的预前知识:（1）每个进在进程表中都有一个记录项，记录项包含一张打开的文件描述符表，每
mongodb 基本概念重生之我是一名程序员 mongodb
mongodb基本概念基于mongo:4.4.2databasedatabase数据库tablecollection数据库表/集合rowdocument数据记录行/文档columnfield数据字段/域indexindex索引tablejoins表连接,MongoDB不支持primarykeyprimarykey主键,MongoDB自动将_id字段设置为主键MongoDB数据类型数据类型描述Str
数据结构之顺序表 Capricorn_man 数据结构
一、创建头文件typedefintSLDataType;//动态存储typedefstructSeqList{SLDataType*a;//动态开辟的数组intsize;//有效数据的数量intcapacity;//空间大小}SL;二、初始化顺序表voidSLInit(SL*psl){assert(psl);psl->a=NULL;psl->size=0;psl->capacity=0;}三、销毁
【分析学】从有限开覆盖定理出发 -- 实数系完备性 BlackPercy 分析学数学高等数学
目录有限开覆盖定理实数系完备性定理确界定理单调有界定理闭区间套定理聚点定理柯西收敛定理有限开覆盖定理开覆盖定义：设{Ui}i∈I\{U_i\}_{i\inI}{Ui}i∈I是一个开覆盖，即[a,b]⊆⋃i∈IUi[a,b]\subseteq\bigcup_{i\inI}U_i[a,b]⊆⋃i∈IUi,称⋃i∈IUi\bigcup_{i\inI}U_i⋃i∈IUi为闭区间[a,b][a,b][a,b
FFmpeg中TS与MP4格式的extradata差异详解码流怪侠音视频基础 ffmpeg MP4 TS 音视频 extradata 视频编解码实时音视频
在视频处理中，extradata是存储解码器初始化参数的核心元数据，直接影响视频能否正确解码。本文深入解析TS和MP4格式中extradata的结构差异、存储逻辑及FFmpeg处理方案。一、extradata的核心作用extradata是解码必需的参数集合，包含：H.264：SPS（序列参数集）、PPS（图像参数集）H.265：VPS（视频参数集）、SPS、PPS音频：采样率、声道数等配置其核心功
Spring4.1新特性——综述 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Schema与数据类型优化 annan211 数据结构 mysql
目前商城的数据库设计真是一塌糊涂，表堆叠让人不忍直视，无脑的架构师，说了也不听。在数据库设计之初，就应该仔细揣摩可能会有哪些查询，有没有更复杂的查询，而不是仅仅突出很表面的业务需求，这样做会让你的数据库性能成倍提高，当然，丑陋的架构师是不会这样去考虑问题的。选择优化的数据类型 1 更小的通常更好更小的数据类型通常更快，因为他们占用更少的磁盘、内存和cpu缓存，
第一节 HTML概要学习 chenke html Web css
第一节 HTML概要学习 1. 什么是HTML HTML是英文Hyper Text Mark-up Language(超文本标记语言)的缩写，它规定了自己的语法规则，用来表示比“文本”更丰富的意义，比如图片，表格，链接等。浏览器（IE,FireFox等）软件知道HTML语言的语法，可以用来查看HTML文档。目前互联网上的绝大部分网页都是使用HTML编写的。打开记事本输入一下内
MyEclipse里部分习惯的更改 Array_06 eclipse
继续补充中---------------------- 1.更改自己合适快捷键windows-->prefences-->java-->editor-->Content Assist--> Activation triggers for java的右侧“.”就可以改变常用的快捷键选中 Text
近一个月的面试总结 cugfy 面试
本文是在学习中的总结，欢迎转载但请注明出处：http://blog.csdn.net/pistolove/article/details/46753275 前言打算换个工作，近一个月面试了不少的公司，下面将一些面试经验和思考分享给大家。另外校招也快要开始了，为在校的学生提供一些经验供参考，希望都能找到满意的工作。
HTML5一个小迷宫游戏 357029540 html5
通过《HTML5游戏开发》摘抄了一个小迷宫游戏，感觉还不错，可以画画，写字，把摘抄的代码放上来分享下，喜欢的同学可以拿来玩玩！ <html> <head> <title>创建运行迷宫</title> <script type="text/javascript"
10步教你上传githib数据张亚雄 git
官方的教学还有其他博客里教的都是给懂的人说得，对已我们这样对我大菜鸟只能这么来锻炼，下面先不玩什么深奥的，先暂时用着10步干净利索。等玩顺溜了再用其他的方法。操作过程（查看本目录下有哪些文件NO.1）ls （跳转到子目录NO.2）cd+空格+目录（继续NO.3）ls （匹配到子目录NO.4）cd+ 目录首写字母+tab键+（首写字母“直到你所用文件根就不再按TAB键了”）（查看文件
MongoDB常用操作命令大全 adminjun mongodb 操作命令
成功启动MongoDB后，再打开一个命令行窗口输入mongo，就可以进行数据库的一些操作。输入help可以看到基本操作命令，只是MongoDB没有创建数据库的命令，但有类似的命令如：如果你想创建一个“myTest”的数据库，先运行use myTest命令，之后就做一些操作（如：db.createCollection('user')）,这样就可以创建一个名叫“myTest”的数据库。一
bat调用jar包并传入多个参数 aijuans
下面的主程序是通过eclipse写的： 1.在Main函数接收bat文件传递的参数（String[] args）如： String ip =args[0]; String user=args[1]; &nbs
Java中对类的主动引用和被动引用 ayaoxinchao java 主动引用对类的引用被动引用类初始化
在Java代码中，有些类看上去初始化了，但其实没有。例如定义一定长度某一类型的数组，看上去数组中所有的元素已经被初始化，实际上一个都没有。对于类的初始化，虚拟机规范严格规定了只有对该类进行主动引用时，才会触发。而除此之外的所有引用方式称之为对类的被动引用，不会触发类的初始化。虚拟机规范严格地规定了有且仅有四种情况是对类的主动引用，即必须立即对类进行初始化。四种情况如下：1.遇到ne
导出数据库提示 outfile disabled BigBird2012 mysql
在windows控制台下，登陆mysql，备份数据库： mysql>mysqldump -u root -p test test > D:\test.sql 使用命令 mysqldump 格式如下： mysqldump -u root -p *** DBNAME > E:\\test.sql。注意：执行该命令的时候不要进入mysql的控制台再使用，这样会报
Javascript 中的 && 和 || bijian1013 JavaScript &&||
准备两个对象用于下面的讨论 var alice = { name: "alice", toString: function () { return this.name; } } var smith = { name: "smith",
[Zookeeper学习笔记之四]Zookeeper Client Library会话重建 bit1129 zookeeper
为了说明问题，先来看个简单的示例代码： package com.tom.zookeeper.book; import com.tom.Host; import org.apache.zookeeper.WatchedEvent; import org.apache.zookeeper.ZooKeeper; import org.apache.zookeeper.Wat
【Scala十一】Scala核心五：case模式匹配 bit1129 scala
package spark.examples.scala.grammars.caseclasses object CaseClass_Test00 { def simpleMatch(arg: Any) = arg match { case v: Int => "This is an Int" case v: (Int, String)
运维的一些面试题 yuxianhua linux
1、Linux挂载Winodws共享文件夹 mount -t cifs //1.1.1.254/ok /var/tmp/share/ -o username=administrator,password=yourpass 或 mount -t cifs -o username=xxx,password=xxxx //1.1.1.1/a /win
Java lang包-Boolean BrokenDreams boolean
Boolean类是Java中基本类型boolean的包装类。这个类比较简单，直接看源代码吧。 public final class Boolean implements java.io.Serializable,
读《研磨设计模式》-代码笔记-命令模式-Command bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.List; /** * GOF 在《设计模式》一书中阐述命令模式的意图：“将一个请求封装
matlab下GPU编程笔记 cherishLC matlab
不多说，直接上代码 gpuDevice % 查看系统中的gpu,,其中的DeviceSupported会给出matlab支持的GPU个数。 g=gpuDevice(1); %会清空 GPU 1中的所有数据,,将GPU1 设为当前GPU reset(g) %也可以清空GPU中数据。 a=1; a=gpuArray(a); %将a从CPU移到GPU中 onGP
SVN安装过程 crabdave SVN
SVN安装过程 subversion-1.6.12 ./configure --prefix=/usr/local/subversion --with-apxs=/usr/local/apache2/bin/apxs --with-apr=/usr/local/apr --with-apr-util=/usr/local/apr --with-openssl=/
sql　行列转换 daizj sql 行列转换行转列列转行
行转列的思想是通过case when 来实现列转行的思想是通过union all 来实现下面具体例子：假设有张学生成绩表(tb)如下: Name Subject Result 张三语文　　74 张三数学　　83 张三物理　　93 李四语文　　74 李四数学　　84 李四物理　　94 */ /* 想变成姓名 &
MySQL--主从配置 dcj3sjt126com mysql
linux下的mysql主从配置：说明：由于MySQL不同版本之间的(二进制日志)binlog格式可能会不一样，因此最好的搭配组合是Master的MySQL版本和Slave的版本相同或者更低， Master的版本肯定不能高于Slave版本。（版本向下兼容） mysql1 : 192.168.100.1 //master mysq
关于yii 数据库添加新字段之后model类的修改 dcj3sjt126com Model
rules: array('新字段','safe','on'=>'search') 1、array('新字段', 'safe')//这个如果是要用户输入的话，要加一下， 2、array('新字段', 'numerical'),//如果是数字的话 3、array('新字段', 'length', 'max'=>100),//如果是文本 1、2、3适当的最少要加一条，新字段才会被
sublime text3 中文乱码解决 dyy_gusi Sublime Text
sublime text3中文乱码解决原因：缺少转换为UTF-8的插件目的：安装ConvertToUTF8插件包第一步：安装能自动安装插件的插件，百度“Codecs33”，然后按照步骤可以得到以下一段代码： import urllib.request,os,hashlib; h = 'eb2297e1a458f27d836c04bb0cbaf282' + 'd0e7a30980927
概念了解：CGI，FastCGI，PHP-CGI与PHP-FPM geeksun PHP
CGI CGI全称是“公共网关接口”(Common Gateway Interface)，HTTP服务器与你的或其它机器上的程序进行“交谈”的一种工具，其程序须运行在网络服务器上。 CGI可以用任何一种语言编写，只要这种语言具有标准输入、输出和环境变量。如php,perl,tcl等。 FastCGI FastCGI像是一个常驻(long-live)型的CGI，它可以一直执行着，只要激活后，不
Git push 报错 "error: failed to push some refs to " 解决 hongtoushizi git
Git push 报错 "error: failed to push some refs to " . 此问题出现的原因是：由于远程仓库中代码版本与本地不一致冲突导致的。由于我在第一次git pull --rebase 代码后，准备push的时候，有别人往线上又提交了代码。所以出现此问题。解决方案： 1： git pull 2：
第四章 Lua模块开发 jinnianshilongnian nginx lua
在实际开发中，不可能把所有代码写到一个大而全的lua文件中，需要进行分模块开发；而且模块化是高性能Lua应用的关键。使用require第一次导入模块后，所有Nginx 进程全局共享模块的数据和代码，每个Worker进程需要时会得到此模块的一个副本（Copy-On-Write），即模块可以认为是每Worker进程共享而不是每Nginx Server共享；另外注意之前我们使用init_by_lua中初
java.lang.reflect.Proxy liyonghui160com
1.简介 Proxy 提供用于创建动态代理类和实例的静态方法（1）动态代理类的属性代理类是公共的、最终的，而不是抽象的未指定代理类的非限定名称。但是，以字符串 "$Proxy" 开头的类名空间应该为代理类保留代理类扩展 java.lang.reflect.Proxy 代理类会按同一顺序准确地实现其创建时指定的接口
Java中getResourceAsStream的用法 pda158 java
1.Java中的getResourceAsStream有以下几种： 1. Class.getResourceAsStream(String path) ： path 不以’/'开头时默认是从此类所在的包下取资源，以’/'开头则是从ClassPath根下获取。其只是通过path构造一个绝对路径，最终还是由ClassLoader获取资源。　　2. Class.getClassLoader.get
spring 包官方下载地址（非maven） sinnk spring
SPRING官方网站改版后，建议都是通过 Maven和Gradle下载，对不使用Maven和Gradle开发项目的，下载就非常麻烦，下给出Spring Framework jar官方直接下载路径: http://repo.springsource.org/libs-release-local/org/springframework/spring/ s
Oracle学习笔记(7) 开发PLSQL子程序和包 vipbooks oracle sql 编程
哈哈，清明节放假回去了一下，真是太好了，回家的感觉真好啊！现在又开始出差之旅了，又好久没有来了，今天继续Oracle的学习！这是第七章的学习笔记，学习完第六章的动态SQL之后，开始要学习子程序和包的使用了……，希望大家能多给俺一些支持啊！编程时使用的工具是PLSQL