大数据星球-浪尖

parquet嵌套数据结构

1，原文

翻译原文 http://lastorder.me/tag/parquet.html

英文原文 https://blog.twitter.com/2013/dremel-made-simple-with-parquet

2，前言

Google 对于传说中3秒查询 1 PB 数据的 Dremel，有一篇论文：Dremel: Interactive Analysis of Web-Scale Datasets http://research.google.com/pubs/pub36632.html. 这篇论文基本上在描述 Dremel 的数据存储格式.

用容易理解但不准确的的话概括上面那篇论文，就是怎么把一些嵌套的 Protobuff 结构（有相同 schema，如果你不熟悉 Protobuff，那类比 xml 或者 json），拆成若干个表存储（就是逻辑上的二维表），然后通过查那些表，还能快速拼装回原来的 PB（指 Protobuff 下同），再而且，如果你只关注嵌套结构中的某一个层级的某一部分，我可以只读那一部分的数据，只把你关心的那一部分拼装回来，所谓指哪打哪，由于不用读其他不必要的部分，所以省掉了很多 IO，所以速度很快. 然而由于我很笨，所以一直感觉看的云里雾里，直到 2013年9月11号，Twitter 的 Engineering blog 发了一篇博客叫 Dremel made simple with Parquet，看过后恍然大悟. 以下就翻译这篇博客，算是对自己阅读的总结，也与更多人分享.
对于优化『关系型数据库上的分析任务』，列式存储（Columnar Storage）是个比较流行的技术. 这一技术对处理大数据集的好处是有据可查的，可以参见诸多学术资料，以及一些用作分析的商业数据库.(http://people.csail.mit.edu/tdanford/6830papers/stonebraker-cstore.pdf, http://www.vldb.org/pvldb/，http://www.monetdb.org/)

我们的目标是，对于一个查询，尽量只读取对这个查询有用的数据，以此来让磁盘 IO 最小. 用 Parquet，我们做到了把 Twitter 的大数据集上的 IO 缩减到原来的 1/3. 我们也做到了『指哪打哪』，也就是遍历（scan）一个数据集的时候，如果只读取部分列，那么读取时间也相应会缩短，时间缩短的比例就是那几列的数据量占全部列数据量的比例. 原理很简单，就是不采用传统的按行存储，而是连续存储一列的数据. 如果数据是扁平的（比如二维表形式），那列改成按列存储毫无难度，处理嵌套的数据结构才是真正的挑战.

我们的开源项目 Parquet 是 Hadoop 上的一种支持列式存储文件格式，起初只是 Twitter 和 Coudera 在合作开发，发展到现在已经有包括 Criteo公司在内的许多其他贡献者了. Parquet 用 Dremel 的论文中描述的方式，把嵌套结构存储成扁平格式. 由于受益于这种技术，我们决定写篇更通俗易懂的文章来向大家介绍它. 首先讲一下嵌套数据结构的一般模型，然后会解释为什么这个模型可以被一坨扁平的列（columns）所描述，最后讨论为什么列式是高效的.

何谓列式存储？看下面的例子，这就是三个列 A B C.

如果把它换成行式存储的，那么数据就是一行挨着一行存储的

按列存，有几个好处

1，按列存，能够更好地压缩数据，因为一列的数据一般都是同质的（homogenous）. 对于hadoop集群来说，空间节省非常可观.
2，I/O 会大大减少，因为扫描（遍历/scan）的时候，可以只读其中部分列. 而且由于数据压缩的更好的缘故，IO所需带宽也会减小.
3，由于每列存的数据类型是相同的，we can use encodings better suited to the modern processors’ pipeline by making instruction branching more predictable. （没想好怎么翻译，各位自己理解吧）

3，嵌套结构的模型

首先是嵌套结构的模型，此处选取的模型就跟 PB 类似. 多个 field 可以形成一个 group，一个 field 可以重复出现（叫做 repeated field），这样就简单地描述了嵌套和重复，没有必要用更复杂的结构如 Map / List / Sets，因为这些都能用 group 和 repeated field 的各种组合来描述. （熟悉 PB 的人，对这里说的东西应该很清楚，因为这就是跟 PB 一样的，如果此处有疑惑，最好的方法是立即左转出门去看一下 PB）
整个结构是从最外层一个 message 开始的. 每个 field 有三个属性：repetition、type、name. 一个 field 的 type 属性，要么是 group，要么是基本类型（int, float, boolean, string），repetition 属性，有以下三种：

a).required：出现，且只能出现 1 次.

b). 出现 1 或 0 次.

c). repeated：0 到任意多次

例如，下边是一个 address book 的 schema.

message AddressBook {
  required string owner;
  repeated string ownerPhoneNumbers;
  repeated group contacts {
    required string name;
    optional string phoneNumber;
  }
}

Lists（或者 Sets）可以用 repeated field 表示.

Maps，首先有一个 repeated field 在外面，里面每个 field，是一个 group，group 里面是 key-value 对，其中key 是 required 的.

4，列式存储格式

列式存储，简单来说就是三件事：1. 把一个嵌套的结构，映射为若干列 2. 把一条嵌套的数据，写入这些列里. 3. 还能根据这些列，把原来的嵌套结构拼出来. 做到这三点，目的就达到了.

译注：直观来看，嵌套结构含有两种信息：1. 字段的嵌套关系 2. 最终每个字段的值. 所以如何转换成列式也可以从这里下手，分别解决『值』和『嵌套关系』.

Parquet 的做法是，为嵌套结构的 schema 中每个基本类型的 field，建立一个列. 若用一棵树描述schema，基本类型的 field，就是树的叶子.

上边的 address book 结构用树表示：

观察上图，其实最终的值，都是在基本类型的 field 中的，group 类型的 field 本身不含有值，是基本类型组合起来的.

对上图蓝色叶子节点，每个对应一个列，就可以把结构中所有的值存起来了，如下表.

现在，『值』的问题解决了，还剩『嵌套关系』，这种关系，用叫做 repetition level 和 definition level 的两个值描述. 有了这俩值，就可以把原来的嵌套结构完全还原出来，下文将详细讲解这两个值到底是什么. ]

1,Definition Level

( 这俩 Level 容易把人看糊涂，如果看文字描述没明白，请看例子回头再看文字描述）

为支持嵌套结构，我们需要知道一个 field，到哪一层，变成 null 了（就是指field没有定义），这就是 definition level 的功能. 设想，如果一个field 有定义，则它的parents 也肯定有定义，这是很显然的. 如果一个 field 是没有定义的，那有可能它的上级是没定义的，但上上级有定义；也有可能是它的上级和上上级都没定义，所以需要知道到底是从哪一级开始没定义的，这是还原整条记录所必须知道的.

译注：（假设有一种一旦出现就每代必须遗传的病）如果你得了这个病，那么有可能你是第一个，你爸爸没这个病; 也可能是从你爸爸开始才出现这种病的（你爷爷还没这种病）; 也有可能是从你爷爷开始就已经得病了. 反过来，如果你爸爸没这个病，那么你爷爷肯定也是健康的. 你需要一个值，描述是从你家第几代开始得病的，这个值就类似 definition level. 希望这比喻有助于理解.

对于扁平结构（就是没有任何嵌套），optional field 可以用一个 bit 来表示是否有定义：有：1，无：0 .

对于嵌套结构，我们可以给每一级的 optional field 都加一个 bit 来记录是否有定义，但其实没有必要，因为如上一段所说，因为嵌套的特性上层没定义，那下层当然也是没定义的，所以只要知道从哪一级开始没定义就可以了.

最后，required field 因为总是有定义的，所以不需要 definition level.

还是看例子，下边是一个简单的嵌套的schema：

message ExampleDefinitionLevel {
  optional group a {
    optional group b {
      optional string c;
    }
  }
}

转换成列式，它只有一列 a.b.c，所有 field 都是 optional 的，都可能是 null. 如果 c 有定义，那么 a b 作为它的上层，也将是有定义的. 当 c 是 null 时候，可能是因为它的某一级 parent 为 null 才导致 c 是 null 的，这时为了记录嵌套结构的状况，我们就需要保存最先出现 null 的那一层的深度了. 一共三个嵌套的 optional field，所以最大 definition level 是 3.

以下是各种情形下，a.b.c 的 definiton level:

这里 definition level 不会大于3，等于 3 的时候，表示 c 有定义；等于 0,1,2 的时候，指明了 null 出现的层级.

required 总是有定义的，所以不需要 definition level. 下面把 b 改成 required，看看情况如何.

message ExampleDefinitionLevel {

  optional group a {

required group b {

      optional string c;

    }

  }

}

现在最大的 definition level 是 2，因为 b 不需要 definition level. 下面是各种情形下，a.b.c 的 definition level:

不要让 definition level 太大，这很重要，目标是所用的比特越少越好（后面会说）

2,Repetition level

对于一个带 repeated field 的结构，转成列式表示后，一列可能有多个值，这些值的一部分是一坨里的，另一部分可能是另一坨里的，但一条记录的全部列都放在一列里，傻傻分不清楚，所以需要一个值来区分怎么分成不同的坨. 这个值就是 repetition level：对于列中的一个值，它告诉我这个值，是在哪个层级上，发生重复的. 这句话不太好理解，还是看例子吧.
这个结构转成列式的，实际也只有一列: level1.level2，这一列的各个值，对应的 repeatiton level 如下：
下图可以看出，换句话说就是 repetition level 告诉我们，在从列式表达，还原嵌套结构的时候，是在哪一级插入新值的.

repetiton = 0，标志着一整条新 record 的开始. 在扁平化结构里，没有 repetition 所以 repetition level 总是 0. Only levels that are repeated need a Repetition level: optional 和 required 永远也不会重复，在计算 repetition level 的时候，可将其跳过.

3,拆分与组装

message AddressBook {

  required string owner;

  repeated string ownerPhoneNumbers;

  repeated group contacts {

    required string name;

    optional string phoneNumber;

  }

}

现在我们同时用这两种标识（definition level, repetition level），重新考虑 Address book 的例子. 下表显示了每一列两种标识可能出现的最大值，并解释了为什么要比列所在深度小.
单说 contacts.phoneNumber 这一列，如果手机号有定义，则 definition level 达到最大即2，如果有一个联系人是没有手机号的，则 definition level是 1. 如果联系人是空的，则 definition level 是0.

AddressBook {

  owner: "Julien Le Dem",

  ownerPhoneNumbers: "555 123 4567",

  ownerPhoneNumbers: "555 666 1337",

  contacts: {

    name: "Dmitriy Ryaboy",

    phoneNumber: "555 987 6543",

  },

  contacts: {

    name: "Chris Aniszczyk"

  }

}

AddressBook {

  owner: "A. Nonymous"

}

现在我们拿 contacts.phoneNumber 这一列来做说明.

若一条记录是如下这样的：

AddressBook {

  contacts: {

    phoneNumber: "555 987 6543"

  }

  contacts: {

  }

}

AddressBook {

}

转成列式之后，列中存储的东西应该是这样的（R = Repetiton Level， D = Definition Level）：

为了将这条嵌套结构的 record 转换成列式，我们把这个 record 整个遍历一次.

contacts.phoneNumber: “555 987 6543”
    new record: R = 0

    value is defined: D = maximum (2)

contacts.phoneNumber: null

    repeated contacts: R = 1

    only defined up to contacts: D = 1
  
contacts: null

    new record: R = 0

    only defined up to AddressBook: D = 0

最后列中存储的东西是：

注意，NULL 值在这里列出来，是为了表述清晰，但是实际上是不会存储的. 列中小于最大 definition 值的（这个例子里最大值是2），都应该是 NULL.

为了通过列是存储，还原重建这条嵌套结构的记录，写一个循环读列中的值

R=0, D=2, Value = “555 987 6543”:
R = 0 这是一个新的 record. 从根开始按照schema 重建结构，直到 repetition level 达到 2
D = 2 是最大值，值是有定义的，所以此时将值插入.
R=1, D=1:
R = 1 level1 的 contact list 中一条新记录
D = 1 contacts 有定义，但 phoneNumber 没定义，所建一个空的 contacts 即可.
R=0, D=0:
R = 0 一条新 record. 可以重建嵌套结构，直到达到 definition level 的值.
D = 0 => contacts 是 null，所以最后拼装出来的是一个空的 Address Book

4,高效存储 Definition Levels 和 Repetiton Levels.

在存储方面，问题很容易归结为：每一个基本类型的列，都要创建三个子列（R, D, Value）. 然而，得益于我们所采用的这种列式的格式，三个子列的总开销其实并不大. 因为两种 Levels的最大值，是由 schema 的深度决定的，并且通常只用几个 bit 就够用了（1个bit 就可表达1层嵌套，2个bit就可以表达3层嵌套了，3个bit就能够表达7层嵌套了, [ 译注：四层嵌套编程的时候就已经很恶心了，从编程和可维护角度，也不应该搞的嵌套层次太深（个人观点） ]），对于上面的 AddressBook 实例，owner这一列，深度为1，contacts.name 深度为2，而这个表达能力已经很强了. R level 和 D level 的下限总是0，上限总是列的深度. 如果一个 field 不是 repeated 的，就更好了，可以不需要 repetition level，而 required field 则不需要 definition level，这降低了两种 level 的上限.

考虑特殊情况，所有 field 全是 required（相当于SQL 中的NOT NULL），repetition level 和 definition level 就完全不需要了（总是0，所以不需要存储），直接存值就ok了. 如果我们要同时支持存储扁平结构，那么两种 level也是一样不需要存储空间的.

由于以上这些特性，我们可以找到一种结合 Run Length Encoding 和 bit packing（https://github.com/Parquet/parquet-mr/tree/master/parquet-column/src/main/java/parquet/column/values/rle）的高效的编码方式. 一个很多值为 NULL 的稀疏的列，压缩后几乎不怎么占空间，与此相似，一个几乎总是有值的 optional 列，will cost very little overhead to store millions of 1s（在这个也没想好怎么翻译，总之是开销很小的意思了）. 现实状况是，用于存储 levels 的空间，可以忽略不计. 以存储一个扁平结构为例（没有嵌套），直接顺序地把一列的值写入，如果某个field是 optional 的，那就取一位用来标识是否为 null.

完.

队列基本用法 xingyuner2 SE-Queue Java SE List Queue
队列（Queue）是常用的数据结构，可以将队列看成特殊的线性表，队列限制了对线性表的访问方式：只能从线性表的一端添加（offer）元素，从另一端取出（poll）元素。队列遵循先进先出（FIFOFirstInputFirstOutput）的原则。JDK中提供了Queue接口，同时使得LinkedList实现了该接口提示:选择LinkedList实现Queue的原因在于Queue经常要进行首尾添加和删
C链表的一些基础知识 weixin_58038206 c语言链表开发语言
一、链表的基本概念链表是一种常见的线性数据结构，它由一系列节点组成，每个节点包含数据部分和指向下一个节点的指针（单链表情况）。通过指针将各个节点连接起来，与数组不同，链表在内存中的存储不是连续的，其优点是可以灵活地进行插入、删除操作，无需像数组那样移动大量元素。二、单链表的实现定义节点结构体：//定义单链表节点结构体typedefstructListNode{intdata;//数据域，这里以整型
Go 语言源码分析——map SSSTing_ golang golang
哈希表用于存储键值对的映射关系，具有O(1)的读写性能。通过哈希函数可以将不同的键映射到不同索引上，当不同的键映射到同一个索引上时，会产生哈希冲突，可通过开放寻址法、链表法来解决哈希冲突，其中Go使用的是链表法。一、数据结构map将键值对存放在桶数组中，每个桶只保存8个键值对，通过键的低8位选择桶，通过键的高8位选择放在桶的哪个位置。如果有超过8个键值对映射到同一个桶，则会放到溢出桶typehma
PTA：嵌套循环找完数悦悦子a啊算法 c语言
所谓完数就是该数恰好等于除自身外的因子之和。例如：6=1+2+3，其中1、2、3为6的因子。本题要求编写程序，找出任意两正整数m和n之间的所有完数。输入格式：输入在一行中给出2个正整数m和n（1#includeintanswer(intn,int*p)//找因子{intj=0;for(inti=1;i<=n/2;i++){if(n%i==0){*(p+j)=i;j++;}}returnj;}int
MySQL锁机制 ᅟᅠ ᅟᅠ MySQL mysql 数据库 java
系列文章目录一、MySQL数据结构选择二、MySQL性能优化explain关键字详解三、MySQL索引优化四、MySQL事务五、MySQL锁机制六、MySQL多版本并发（MVCC）机制文章目录系列文章目录一、MySQL锁机制概述二、悲观锁三、乐观锁四、表锁、行锁、页锁4.1、表锁4.2、行锁4.3、页锁五、读锁、写锁、意向锁5.1、读锁5.2、写锁5.3、意向锁六、间隙锁、临键锁一、MySQL锁机
队列的基本用法 weixin_58038206 c语言算法
以下是关于C语言中队列的详细知识，包括队列的生成、相关函数使用以及其他重要概念：一、队列的概念队列是一种线性数据结构，它遵循先进先出（FirstInFirstOut，FIFO）的原则，就像日常生活中的排队一样，先进入队列的元素先被取出。队列有两个端点，一端是队头（front），用于删除元素；另一端是队尾（rear），用于插入元素。二、队列的顺序存储结构实现（数组实现）结构体定义#defineMAX
语句嵌套（for中for）、break(跳出)\continue（继续）青木川崎 java
/*语句嵌套：就是语句中还有语句。现在要学的是循环嵌套。*/classForForDemo{publicstaticvoidmain(String[]args){for(intx=0;x<3;x++){for(inty=0;y<4;y++)//共打印12次ok。{System.out.println(“Ok”);}}}}打印星星1****2****3****4****classForForDemo
JavaScript进阶不断学习的码农 javascript javascript 前端 vue.js
一.同步和异步程序同步程序就是从头到尾一一执行异步是同步程序执行完成之后才来执行异步程序js是单线程的一个任务执行完成之后才会执行另外一个二.js的内存结构栈内存和堆内存js分引用类型和原始类型原始类型存储在栈内存中引用类型存储在堆内存中三.什么是闭包闭包就是函数嵌套函数，内部的函数就是闭包正常情况下函数执行完成之后，内部的变量就会被销毁（释放内存）闭包：内部函数没有执行完成，外部函数变量不会被销
JS宏进阶：Map与Object jackispy JS宏进阶 javascript 开发语言 ecmascript
Object是JavaScript中最基本的数据类型之一，用于创建对象实例。newObject()是创建空对象的一种常见方式。而Map只是一种用于存储键值对的数据结构。相对于Object而言，他没有原型（也就是不能通过原型链的方式添加方法），但也存在自身的优势，某些场景，newMap可能比newObject更好用。下面是其内置方法的详细介绍：一、newMap1、创建新的Map对象，只能使用newM
Python字典实战：打造高效学生成绩管理系统清水白石008 python Python题库 python 开发语言
Python字典实战：打造高效学生成绩管理系统在日常学习和工作中，我们经常需要管理和查询数据。Python的字典（Dictionary）是一种非常强大的数据结构，它以键值对（key-valuepairs）的形式存储数据，能够实现高效的数据检索。本文将以创建一个学生成绩管理系统为例，深入讲解如何使用Python字典存储学生姓名和成绩信息，并实现根据姓名查找成绩的功能。本文旨在提供实用性强、内容丰富、
Go 语言 map源码分析及图解（一）（查找、写入、删除K/V值） Mr.禾 Go golang 数据结构源码分析图解
文章目录map基本结构hash值定位K/V值map创建计算桶的数量申请buckets内存空间tophash标记位介绍查找K/V值（mapaccess1）写入K/V值（mapassign）删除K/V值（mapdelete）map扩容的源码分析见下一节map基本结构hmap是map的核心数据结构：typehmapstruct{countint//当前的元素个数flagsuint8Buint8//桶的数
SQL数据分析（简单版）编程星空扩展知识 sql 数据库
一、常见数据库分类（1）关系型数据库采用关系模型组织数据的数据库，以行和列的形式存储数据，形成数据表，一组数据表组成了数据库（2）非关系型数据库非关系型数据库在严格意义上不是一种数据库，应该是一种数据结构化存储方法的集合，可以是文档或者键值对等。二、数据库常用功能（1）表数据表是数据库中存储数据的基本组成单位，例如用户信息表、订单表、采购表等。（2）查询查询是数据库中应用最多的对象之一，最常用的功
方舟生存进化mysql_一分钟明了MySQL聚簇索引和非聚簇索引_rust辅助,方舟生存进化辅助... 突发奇想的饭粒方舟生存进化mysql
SpringBoot整合rabbitmq辅助MySQL的InnoDB索引数据结构是B树，主键索引叶子节点的值存储的就是MySQL的数据行，通俗索引的叶子节点的值存储的是主键值，这是了解聚簇索引和非聚簇索引的条件什么是聚簇索引？很简单记着一句话：找到了索引就找到了需要的数据，那么这个索引就是聚簇索引，以是主键就是聚簇索引，修改聚簇索引实在就是修改主键。什么是非聚簇索引？索引的存储和数据的存储是星散的
HarmonyOS 应用开发之ArkData OpenHarmony_小贾 OpenHarmony HarmonyOS 移动开发 harmonyos 华为移动开发鸿蒙开发 ui
功能介绍ArkData（方舟数据管理）为开发者提供数据存储、数据管理和数据同步能力，比如联系人应用数据可以保存到数据库中，提供数据库的安全、可靠以及共享访问等管理机制，也支持与手表同步联系人信息。标准化数据定义：提供OpenHarmony跨应用、跨设备的统一数据类型标准，包含标准化数据类型和标准化数据结构。数据存储：提供通用数据持久化能力，根据数据特点，分为用户首选项、键值型数据库和关系型数据库。
【Java数据结构】Java对象的比较回响N 数据结构 java
元素的比较基本类型比较在Java中基本类型比较可以直接比较大小，返回一个布尔类型（true或者false）。inta=10;intb=20;System.out.println(a>b);System.out.println(a=b);System.out.println(a{publicStringname;@OverridepublicintcompareTo(Studento){//重写co
C++命名空间 Blunny2468 c++算法开发语言
目录（一）命名空间1、命名空间的使用为什么需要命名空间？如何简化命名空间的使用？使用using声明引入特定的对象2、自己编写命名空间情况一：两个命名空间内变量名重复情况二：命名空间与全局变量冲突情况三：命名空间与局部变量冲突3、命名空间封装函数4、命名空间嵌套5、作用域运算符::总结（二）格式化输出（一）命名空间1、命名空间的使用你可能已经注意到，我们的程序中使用的是std::cout和std::
python循环——九九乘法表（更加轻松的理解循环结构）李雨非-19期-河北工职大成长 python python 开发语言循环
感受首先，得明确意识到这个问题，就是我的循环结构学的一塌糊涂，完全不能很好的使用这个循环来实现各种九九乘法表达输出，这样的循环结构太差了，还需要我自己找时间来补充一下循环的使用，来拓宽自己的思考方向，这是个不错的机会，让我更加充分的体会循环的嵌套。重点在写博客中对可迭代对象的求知欲不断的加深，让我对于对象以及可迭代的认识更深了，不得不说，有时候还是得写出来才可以给予自己更加强大的欲望，从而推动自己
【WRF模拟】WRF运行时进程数限制的原因及报错解决方案 WW、forever WRF模型原理及应用 WRF
目录WRF运行时进程数限制的原因网格块的最小尺寸要求嵌套域的尺寸和分辨率进程数与网格划分的关系案例1：四层嵌套错误：ERROR:ReducetheMPIrankcount,orredistributethetasks解决方法参考WRF运行时进程数限制的原因在进行wrf模拟时，若内层网格分辨率较高，模拟时间较久，可适当增加运行内核数，但如何确定合适的内核数呢？太高会导致模型报错，太低又会增加模型运行
一篇文章告诉你什么是BloomFilter 后端
什么是BloomFilter布隆过滤器（英语：BloomFilter）是1970年由布隆提出的。它实际上是一个很长的二进制向量和一系列随机映射函数。主要用于判断一个元素是否在一个集合中。通常我们会遇到很多要判断一个元素是否在某个集合中的业务场景，一般想到的是将集合中所有元素保存起来，然后通过比较确定。链表、树、散列表（又叫哈希表，Hashtable）等等数据结构都是这种思路。但是随着集合中元素的增
【Java数据结构】二叉树相关算法回响N 算法数据结构 java 开发语言链表
第一题：获取二叉树中结点个数得到二叉树结点个数，如果结点为空则返回0，然后再用递归计算左树结点个数+根结点（1个）+右树结点个数。publicintnodeSize(Noderoot){if(root==null)return0;returnnodeSize1(root.left)+nodeSize1(root.right)+1;}第二题：获取叶子结点的个数得到叶子结点个数和结点总数的做法相同，也
【Leetcode】24-两两交换链表中的节点 wanlinBee要努力算法与数据结构 leetcode 链表算法
题目简述给你一个链表，两两交换其中相邻的节点，并返回交换后链表的头节点。你必须在不修改节点内部的值的情况下完成本题（即，只能进行节点交换）。测试案例：输入：head=[1,2,3,4]输出：[2,1,4,3]数据结构：classListNode:def__init__(self,val=0,next=None):self.val=valself.next=next解法一（迭代）主要思路根据数据结构
Python 获取字典的值：全面指南 egzosn python java 服务器前端 linux
字典(dict)是Python中一个强大的数据结构，用于存储键值对。无论是处理JSON数据，还是设计复杂的配置文件，字典都无处不在。本文将全面介绍在Python中获取字典值的各种方法，通过多个详细的代码示例，帮助你掌握如何在不同场景下灵活操作字典。一、字典基础知识在Python中，字典使用花括号{}定义，其键必须是不可变的(如字符串、数字或元组)，值可以是任意类型。以下是一个简单的字典示例：登录后
二叉树算法 JAVA 爱掉发的小龙 java 开发语言前端后端 python
二叉树是一种常用的数据结构，它由一系列的节点组成，每个节点最多有两个子节点，分别称为左子节点和右子节点。在Java中，我们可以通过定义一个二叉树的节点类来实现二叉树算法。一个典型的二叉树节点类如下所示：classNode{intval;Nodeleft;Noderight;publicNode(intval){this.val=val;this.left=null;this.right=null;
风控系统之指标回溯，历史数据重跑后端
个人博客：无奈何杨（wnhyang）个人语雀：wnhyang共享语雀：在线知识共享Github：wnhyang-Overview回顾默认你已经看过之前那篇风控系统指标计算/特征提取分析与实现01，Redis、Zset、模版方法。其中已经介绍了如何利用redis的zset结构完成指标计算，为了方便这篇文章的介绍，还是在正式开始本篇之前回顾一下。时间窗口zset是redis中的一种数据结构，表示有序集
[练习]简单结构体操作程序 siy2333 练习算法 c语言笔记学习
在学习C语言的过程中，我们经常会接触到各种数据结构的操作，其中数列（数组）是最基本也是最常用的一种。今天，我们分析一个简单的C语言程序，以及进行一定程度的改进。程序概述这个程序的主要目的是实现一个简单的数列操作，包括数列的内存分配、删除指定元素以及输出数列的功能。程序的核心是一个名为sequence的结构体，它包含数列的大小和指向数列元素的指针。通过几个函数的配合，程序完成了数列的创建、修改和输出
JVM加载影࿐ེ jvm
JVM（Java虚拟机）并不是在工程启动时就将所有类都加载到内存中，而是采用按需加载的方式，即在需要使用某个类时才会加载该类。JVM的类加载机制包括了加载、验证、准备、解析和初始化五个阶段。当Java程序运行时，JVM会根据需要，通过类加载器查找并加载类的字节码数据。这些数据可以来源于本地文件系统、网络、jar包等多种途径。加载完成后，JVM会将类的二进制数据转换成方法区内部的数据结构，并生成一个
Python 数据结构与算法学习 X天地不仁数据结构学习
2022年秋季，笔者初次接触数据结构与算法，当时只觉得书上写的内容晦涩难懂，加之自己的怠惰，很难理解所讲解的内容。所幸，期末的考核因为疫情放开，延迟到了2023年的春季开学，并且试卷的难度很低，60来分，混了个及格。1、什么是数据结构官方定义:并没有…民间定义:“数据结构是数据对象，以及存在于该对象的实例和组成实例的数据元素之间的各种联系。这些联系可以通过定义相关的函数来给出。”---《数据结构、
《现代CSS技术应用与实践》小册完结啦！
历时125天，《现代CSS技术应用与实践》小册迎来了完结，总篇数40篇，约11万字。后续还会继续更新，欢迎订阅支持我。《现代CSS技术应用与实践》是一本专注于现代CSS技术应用与实践的指导手册。小册旨在帮助读者深入理解现代CSS新特性的概念、原理和应用，掌握现代CSS技术的最新进展和实践经验，从而提升网页设计和开发的技能。小册内容涵盖现代CSS的基础知识、CSS嵌套及作用域、CSS布局技术与技巧、
Lua语言的数据结构 Quantum&Coder 包罗万象 golang 开发语言后端
Lua语言的数据结构及其应用引言Lua是一种轻量级的编程语言，因其简单易学和高效灵活而广受欢迎。尤其在游戏开发、嵌入式系统以及其他需要高性能的场合中，Lua常常作为脚本语言被使用。在Lua中，数据结构的设计充分考虑了其简洁性与高效性，使得开发者能够更方便地进行各种数据处理。本文将深入探讨Lua语言中的主要数据结构及其应用，帮助读者更好地理解和使用Lua。Lua的数据结构概述Lua主要提供了两种内置
【数据分析（二）】初探 Pandas dandellion_ Python语法数据分析 pandas 数据挖掘
目录引言1.基本数据结构1.1.Series的初始化和简单操作1.2.DataFrame的初始化和简单操作1.2.1.初始化与持久化1.2.2.读取查看1.2.3.行操作1.2.4.列操作1.2.5.选中筛查2.数据预处理2.0.生成样例表2.1.缺失值处理2.2.类型转换和排序2.3.统计分析3.数据透视3.0.生成样例表3.1.生成透视表4.数据重塑4.1.层次化索引4.1.1.双层索引的Se
ViewController添加button按钮解析。（翻译）张亚雄 c
<div class="it610-blog-content-contain" style="font-size: 14px"></div>// ViewController.m // Reservation software // // Created by 张亚雄 on 15/6/2.
mongoDB 简单的增删改查开窍的石头 mongodb
在上一篇文章中我们已经讲了mongodb怎么安装和数据库/表的创建。在这里我们讲mongoDB的数据库操作在mongo中对于不存在的表当你用db.表名他会自动统计下边用到的user是表明，db代表的是数据库添加(insert):
log4j配置 0624chenhong log4j
1) 新建java项目 2) 导入jar包，项目右击，properties—java build path—libraries—Add External jar，加入log4j.jar包。 3) 新建一个类com.hand.Log4jTest package com.hand; import org.apache.log4j.Logger; public class
多点触摸(图片缩放为例) 不懂事的小屁孩多点触摸
多点触摸的事件跟单点是大同小异的，上个图片缩放的代码，供大家参考一下 import android.app.Activity; import android.os.Bundle; import android.view.MotionEvent; import android.view.View; import android.view.View.OnTouchListener
有关浏览器窗口宽度高度几个值的解析换个号韩国红果果 JavaScript html
1 元素的 offsetWidth 包括border padding content 整体的宽度。 clientWidth 只包括内容区 padding 不包括border。 clientLeft = offsetWidth -clientWidth 即这个元素border的值 offsetLeft 若无已定位的包裹元素
数据库产品巡礼：IBM DB2概览蓝儿唯美 db2
IBM DB2是一个支持了NoSQL功能的关系数据库管理系统，其包含了对XML，图像存储和Java脚本对象表示（JSON）的支持。DB2可被各种类型的企业使用，它提供了一个数据平台，同时支持事务和分析操作，通过提供持续的数据流来保持事务工作流和分析操作的高效性。 DB2支持的操作系统 DB2可应用于以下三个主要的平台: 工作站，DB2可在Linus、Unix、Windo
java笔记5 a-john java
控制执行流程： 1，true和false 利用条件表达式的真或假来决定执行路径。例：（a==b）。它利用条件操作符“==”来判断a值是否等于b值，返回true或false。java不允许我们将一个数字作为布尔值使用，虽然这在C和C++里是允许的。如果想在布尔测试中使用一个非布尔值，那么首先必须用一个条件表达式将其转化成布尔值，例如if(a!=0)。 2，if-els
Web开发常用手册汇总 aijuans PHP
一门技术，如果没有好的参考手册指导,很难普及大众。这其实就是为什么很多技术，非常好，却得不到普遍运用的原因。正如我们学习一门技术，过程大概是这个样子： ①我们日常工作中，遇到了问题，困难。寻找解决方案，即寻找新的技术； ②为什么要学习这门技术？这门技术是不是很好的解决了我们遇到的难题，困惑。这个问题，非常重要，我们不是为了学习技术而学习技术，而是为了更好的处理我们遇到的问题，才需要学习新的
今天帮助人解决的一个sql问题 asialee sql
今天有个人问了一个问题，如下： type AD value A
意图对象传递数据百合不是茶 android 意图Intent Bundle对象数据的传递
学习意图将数据传递给目标活动; 初学者需要好好研究的 1,将下面的代码添加到main.xml中 <?xml version="1.0" encoding="utf-8"?> <LinearLayout xmlns:android="http:/
oracle查询锁表解锁语句 bijian1013 oracle object session kill
一.查询锁定的表如下语句，都可以查询锁定的表语句一： select a.sid, a.serial#, p.spid, c.object_name, b.session_id, b.oracle_username, b.os_user_name from v$process p, v$s
mac osx 10.10 下安装 mysql 5.6 二进制文件［tar.gz］征客丶 mysql osx
场景：在 mac osx 10.10 下安装 mysql 5.6 的二进制文件。环境：mac osx 10.10、mysql 5.6 的二进制文件步骤：[所有目录请从根“/”目录开始取，以免层级弄错导致找不到目录] 1、下载 mysql 5.6 的二进制文件，下载目录下面称之为 mysql5.6SourceDir；下载地址：http://dev.mysql.com/downl
分布式系统与框架 bit1129 分布式
RPC框架 Dubbo 什么是Dubbo Dubbo是一个分布式服务框架，致力于提供高性能和透明化的RPC远程服务调用方案，以及SOA服务治理方案。其核心部分包含: 远程通讯: 提供对多种基于长连接的NIO框架抽象封装，包括多种线程模型，序列化，以及“请求-响应”模式的信息交换方式。集群容错: 提供基于接
那些令人蛋痛的专业术语白糖_ spring Web SSO IOC
spring 【控制反转(IOC)/依赖注入(DI)】：由容器控制程序之间的关系，而非传统实现中，由程序代码直接操控。这也就是所谓“控制反转”的概念所在：控制权由应用代码中转到了外部容器，控制权的转移，是所谓反转。简单的说：对象的创建又容器(比如spring容器)来执行，程序里不直接new对象。 Web 【单点登录(SSO)】：SSO的定义是在多个应用系统中，用户
《给大忙人看的java8》摘抄 braveCS java8
函数式接口：只包含一个抽象方法的接口 lambda表达式：是一段可以传递的代码你最好将一个lambda表达式想象成一个函数，而不是一个对象，并记住它可以被转换为一个函数式接口。事实上，函数式接口的转换是你在Java中使用lambda表达式能做的唯一一件事。方法引用：又是要传递给其他代码的操作已经有实现的方法了，这时可以使
编程之美-计算字符串的相似度 bylijinnan java 算法编程之美
public class StringDistance { /** * 编程之美计算字符串的相似度 * 我们定义一套操作方法来把两个不相同的字符串变得相同，具体的操作方法为： * 1.修改一个字符（如把“a”替换为“b”）; * 2.增加一个字符（如把“abdd”变为“aebdd”）; * 3.删除一个字符（如把“travelling”变为“trav
上传、下载压缩图片 chengxuyuancsdn 下载
/** * * @param uploadImage --本地路径(tomacat路径) * @param serverDir --服务器路径 * @param imageType --文件或图片类型 * 此方法可以上传文件或图片.txt,.jpg,.gif等 */ public void upload(String uploadImage,Str
bellman-ford(贝尔曼-福特)算法 comsci 算法 F#
Bellman-Ford算法(根据发明者 Richard Bellman 和 Lester Ford 命名)是求解单源最短路径问题的一种算法。单源点的最短路径问题是指：给定一个加权有向图G和源点s，对于图G中的任意一点v，求从s到v的最短路径。有时候这种算法也被称为 Moore-Bellman-Ford 算法，因为 Edward F. Moore zu 也为这个算法的发展做出了贡献。与迪科
oracle ASM中ASM_POWER_LIMIT参数 daizj ASM oracle ASM_POWER_LIMIT 磁盘平衡
ASM_POWER_LIMIT 该初始化参数用于指定ASM例程平衡磁盘所用的最大权值，其数值范围为0~11，默认值为1。该初始化参数是动态参数，可以使用ALTER SESSION或ALTER SYSTEM命令进行修改。示例如下： SQL>ALTER SESSION SET Asm_power_limit=2;
高级排序:快速排序 dieslrae 快速排序
public void quickSort(int[] array){ this.quickSort(array, 0, array.length - 1); } public void quickSort(int[] array,int left,int right){ if(right - left <= 0
C语言学习六指针_何谓变量的地址一个指针变量到底占几个字节 dcj3sjt126com C语言
# include <stdio.h> int main(void) { /* 1、一个变量的地址只用第一个字节表示 2、虽然他只使用了第一个字节表示，但是他本身指针变量类型就可以确定出他指向的指针变量占几个字节了 3、他都只存了第一个字节地址，为什么只需要存一个字节的地址，却占了4个字节，虽然只有一个字节，但是这些字节比较多，所以编号就比较大，
phpize使用方法 dcj3sjt126com PHP
phpize是用来扩展php扩展模块的，通过phpize可以建立php的外挂模块,下面介绍一个它的使用方法,需要的朋友可以参考下安装（fastcgi模式）的时候，常常有这样一句命令：代码如下: /usr/local/webserver/php/bin/phpize 一、phpize是干嘛的？ phpize是什么？ phpize是用来扩展php扩展模块的，通过phpi
Java虚拟机学习 - 对象引用强度 shuizhaosi888 JAVA虚拟机
本文原文链接：http://blog.csdn.net/java2000_wl/article/details/8090276 转载请注明出处！无论是通过计数算法判断对象的引用数量，还是通过根搜索算法判断对象引用链是否可达，判定对象是否存活都与“引用”相关。引用主要分为：强引用(Strong Reference)、软引用(Soft Reference)、弱引用(Wea
.NET Framework 3.5 Service Pack 1（完整软件包）下载地址 happyqing .net 下载 framework
Microsoft .NET Framework 3.5 Service Pack 1（完整软件包） http://www.microsoft.com/zh-cn/download/details.aspx?id=25150 Microsoft .NET Framework 3.5 Service Pack 1 是一个累积更新，包含很多基于 .NET Framewo
JAVA定时器的使用 jingjing0907 java timer 线程定时器
1、在应用开发中，经常需要一些周期性的操作，比如每5分钟执行某一操作等。对于这样的操作最方便、高效的实现方式就是使用java.util.Timer工具类。 privatejava.util.Timer timer; timer = newTimer(true); timer.schedule( newjava.util.TimerTask() { public void run()
Webbench 流浪鱼 webbench
首页下载地址 http://home.tiscali.cz/~cz210552/webbench.html Webbench是知名的网站压力测试工具，它是由Lionbridge公司（http://www.lionbridge.com）开发。 Webbench能测试处在相同硬件上，不同服务的性能以及不同硬件上同一个服务的运行状况。webbench的标准测试可以向我们展示服务器的两项内容：每秒钟相
第11章动画效果（中） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
windows下制作bat启动脚本. sanyecao2314 java cmd 脚本 bat
java -classpath C:\dwjj\commons-dbcp.jar;C:\dwjj\commons-pool.jar;C:\dwjj\log4j-1.2.16.jar;C:\dwjj\poi-3.9-20121203.jar;C:\dwjj\sqljdbc4.jar;C:\dwjj\voucherimp.jar com.citsamex.core.startup.MainStart
Java进行RSA加解密的例子 tomcat_oracle java
加密是保证数据安全的手段之一。加密是将纯文本数据转换为难以理解的密文；解密是将密文转换回纯文本。　　数据的加解密属于密码学的范畴。通常，加密和解密都需要使用一些秘密信息，这些秘密信息叫做密钥，将纯文本转为密文或者转回的时候都要用到这些密钥。　　对称加密指的是发送者和接收者共用同一个密钥的加解密方法。　　非对称加密(又称公钥加密)指的是需要一个私有密钥一个公开密钥，两个不同的密钥的
Android_ViewStub 阿尔萨斯 ViewStub
public final class ViewStub extends View java.lang.Object android.view.View android.view.ViewStub 类摘要： ViewStub 是一个隐藏的，不占用内存空间的视图对象，它可以在运行时延迟加载布局资源文件。当 ViewSt