Hadoop技术博文

一条数据的HBase之旅，简明HBase入门教程-开篇

本文由毕杰山同学贡献，原文首发于公众号：NoSQL漫谈 链接：https://mp.weixin.qq.com/s/CXsGcbbsKTMXotlwRFQ5xw

一些常见的HBase新手问题

什么样的数据适合用HBase来存储？
既然HBase也是一个数据库，能否用它将现有系统中昂贵的Oracle替换掉？
存放于HBase中的数据记录，为何不直接存放于HDFS之上？
能否直接使用HBase来存储文件数据？
Region(HBase中的数据分片)迁移后，数据是否也会被迁移？
为何基于Spark/Hive分析HBase数据时性能较差？

开篇

用惯了Oracle/MySQL的同学们，心目中的数据表，应该是长成这样的：

这种表结构规整，每一行都有固定的列构成，因此，非常适合结构化数据的存储。但在NoSQL领域，数据表的模样却往往换成了另外一种"画风"：

行由看似"杂乱无章"的列组成，行与行之间也无须遵循一致的定义，而这种定义恰好符合半结构化数据或非结构化数据的特点。本文所要讲述的HBase，就属于该派系的一个典型代表。这些"杂乱无章"的列所构成的多行数据，被称之为一个"稀疏矩阵"，而上图中的每一个"黑块块"，在HBase中称之为一个KeyValue。

Apache HBase官方给出了这样的定义：

Apache HBase™ is the Hadoop database, a distributed, scalable, big data store.

即：Apache HBase是基于Hadoop构建的一个分布式的、可伸缩的海量数据存储系统。

HBase常被用来存放一些海量的(通常在TB级别以上)结构比较简单的数据，如历史订单记录，日志数据，监控Metris数据等等，HBase提供了简单的基于Key值的快速查询能力。

HBase在国内市场已经取得了非常广泛的应用，在搜索引擎中，也可以看出来，HBase在国内呈现出了逐年上升的势态：

从Apache HBase所关联的github项目的commits统计信息来看，也可以看出来该项目非常活跃：

(需要说明的一点：HBase中的每一次commit，都已经过社区Commiter成员严格的Review，在commit之前，一个Patch可能已经被修改了几十个版本)

令人欣喜的是，国内的开发者也积极参与到了HBase社区贡献中，而且被社区接纳了多名PMC以及Committer成员。

本文将以一条数据在HBase中的“旅程”为线索，介绍HBase的核心概念与流程，几乎每一部分都可以展开成一篇独立的长文，但本文旨在让读者能够快速的了解HBase的架构轮廓，所以很多特性/流程被被一言带过，但这些特性在社区中往往经历了漫长的开发过程。至于讲什么以及讲到什么程度，本文都做了艰难的取舍，在讲解的过程中，将会穿插解答本文开始所提出的针对初学者的一些常见问题。

本文适用于HBase新手，而对于具备一定经验的HBase开发人员，相信本文也可以提供一些有价值的参考。本文内容基于HBase 2.0 beta 2版本，对比于1.0甚至是更早期的版本，2.0出现了大量变化，下面这些问题的答案将揭示部分关键的变化（新手可以直接跳过这些问题）：

HBase meta Region在哪里提供服务？

HBase是否可以保证单行操作的原子性？

Region中写WAL与写MemStore的顺序是怎样的？

你是否遇到过Region长时间处于RIT的状态？你认为旧版本中Assignment Manager的主要问题是什么？

在面对Full GC问题时，你尝试做过哪些优化？

你是否深究过HBase Compaction带来的“写放大”有多严重？

HBase的RPC框架存在什么问题？

导致查询时延毛刺的原因有哪些？

本系列文章的整体行文思路如下：

介绍HBase数据模型
基于数据模型介绍HBase的适用场景
快速介绍集群关键角色以及集群部署建议
示例数据介绍
写数据流程
读数据流程
数据更新
负载均衡机制
HBase如何存储小文件数据

这些内容将会被拆成几篇文章。至于集群服务故障的处理机制，集群工具，周边生态，性能调优以及最佳实践等进阶内容，暂不放在本系列文章范畴内。

约定

1. 本文范围内针对一些关键特性/流程，使用了加粗以及加下划线的方式做了强调，如"ProcedureV2"。这些特性往往在本文中仅仅被粗浅提及，后续计划以独立的文章来介绍这些特性/流程。

2. 术语缩写：对于一些进程/角色名称，在本文范围内可能通过缩写形式来表述：

数据模型

RowKey

用来表示唯一一行记录的主键，HBase的数据是按照RowKey的字典顺序进行全局排序的，所有的查询都只能依赖于这一个排序维度。

通过下面一个例子来说明一下"字典排序"的原理：

RowKey列表{"abc", "a", "bdf", "cdf", "defg"}按字典排序后的结果为{"a", "abc", "bdf", "cdf", "defg"}

也就是说，当两个RowKey进行排序时，先对比两个RowKey的第一个字节，如果相同，则对比第二个字节，依次类推...如果在对比到第M个字节时，已经超出了其中一个RowKey的字节长度，那么，短的RowKey要被排在另外一个RowKey的前面。

稀疏矩阵

参考了Bigtable，HBase中一个表的数据是按照稀疏矩阵的方式组织的，"开篇"部分给出了一张关于HBase数据表的抽象图，我们再结合下表来加深大家关于"稀疏矩阵"的印象：

看的出来：每一行中，列的组成都是灵活的，行与行之间并不需要遵循相同的列定义，也就是HBase数据表"schema-less"的特点。

Region

区别于Cassandra/DynamoDB的"Hash分区"设计，HBase中采用了"Range分区"，将Key的完整区间切割成一个个的"Key Range" ，每一个"Key Range"称之为一个Region。

也可以这么理解：将HBase中拥有数亿行的一个大表，横向切割成一个个"子表"，这一个个"子表"就是Region：

Region是HBase中负载均衡的基本单元，当一个Region增长到一定大小以后，会自动分裂成两个。

Column Family

如果将Region看成是一个表的横向切割，那么，一个Region中的数据列的纵向切割，称之为一个Column Family。每一个列，都必须归属于一个Column Family，这个归属关系是在写数据时指定的，而不是建表时预先定义。

KeyValue

KeyValue的设计不是源自Bigtable，而是要追溯至论文"The log-structured merge-tree(LSM-Tree)"。每一行中的每一列数据，都被包装成独立的拥有特定结构的KeyValue，KeyValue中包含了丰富的自我描述信息:

看的出来，KeyValue是支撑"稀疏矩阵"设计的一个关键点：一些Key相同的任意数量的独立KeyValue就可以构成一行数据。但这种设计带来的一个显而易见的缺点：每一个KeyValue所携带的自我描述信息，会带来显著的数据膨胀。

适用场景

在介绍完了HBase的数据模型以后，我们可以回答本文一开始的前两个问题：

什么样的数据适合用HBase来存储？

既然HBase也是一个数据库，能否用它将现有系统中昂贵的Oracle替换掉？

HBase的数据模型比较简单，数据按照RowKey排序存放，适合HBase存储的数据，可以简单总结如下：

以实体为中心的数据
实体可以包括但不限于如下几种：
- 自然人／账户／手机号／车辆相关数据
- 用户画像数据（含标签类数据）
- 图数据（关系类数据）

描述这些实体的，可以有基础属性信息、实体关系(图数据)、所发生的事件(如交易记录、车辆轨迹点)等等。

以事件为中心的数据
- 监控数据
- 时序数据
- 实时位置类数据
- 消息/日志类数据

上面所描述的这些数据，有的是结构化数据，有的是半结构化或非结构化数据。HBase的“稀疏矩阵”设计，使其应对非结构化数据存储时能够得心应手，但在我们的实际用户场景中，结构化数据存储依然占据了比较重的比例。由于HBase仅提供了基于RowKey的单维度索引能力，在应对一些具体的场景时，依然还需要基于HBase之上构建一些专业的能力，如：

OpenTSDB 时序数据存储，提供基于Metrics+时间+标签的一些组合维度查询与聚合能力
GeoMesa 时空数据存储，提供基于时间+空间范围的索引能力
JanusGraph 图数据存储，提供基于属性、关系的图索引能力

HBase擅长于存储结构简单的海量数据但索引能力有限，而Oracle等传统关系型数据库(RDBMS)能够提供丰富的查询能力，但却疲于应对TB级别的海量数据存储，HBase对传统的RDBMS并不是取代关系，而是一种补充。

HBase与HDFS

我们都知道HBase的数据是存储于HDFS里面的，相信大家也都有这么的认知：

HBase是一个分布式数据库，HDFS是一个分布式文件系统

理解了这一点，我们先来粗略回答本文已开始提出的其中两个问题：

HBase中的数据为何不直接存放于HDFS之上？

HBase中存储的海量数据记录，通常在几百Bytes到KB级别，如果将这些数据直接存储于HDFS之上，会导致大量的小文件产生，为HDFS的元数据管理节点(NameNode)带来沉重的压力。

文件能否直接存储于HBase里面？

如果是几MB的文件，其实也可以直接存储于HBase里面，我们暂且将这类文件称之为小文件，HBase提供了一个名为MOB的特性来应对这类小文件的存储。但如果是更大的文件，强烈不建议用HBase来存储，关于这里更多的原因，希望你在详细读完本系列文章所有内容之后能够自己解答。

集群角色

关于集群环境，你可以使用国内外大数据厂商的平台，如Cloudera，Hontonworks以及国内的华为，都发行了自己的企业版大数据平台，另外，华为云、阿里云中也均推出了全托管式的HBase服务。

我们假设集群环境已经Ready了，先来看一下集群中的关键角色：

相信大部分人对这些角色都已经有了一定程度的了解，我们快速的介绍一下各个角色在集群中的主要职责：

ZooKeeper
在一个拥有多个节点的分布式系统中，假设，只能有一个节点是主节点，如何快速的选举出一个主节点而且让所有的节点都认可这个主节点？这就是HBase集群中存在的一个最基础命题。
利用ZooKeeper就可以非常简单的实现这类"仲裁"需求，ZooKeeper还提供了基础的事件通知机制，所有的数据都以 ZNode的形式存在，它也称得上是一个"微型数据库"。
NameNode
HDFS作为一个分布式文件系统，自然需要文件目录树的元数据信息，另外，在HDFS中每一个文件都是按照Block存储的，文件与Block的关联也通过元数据信息来描述。NameNode提供了这些元数据信息的存储。
DataNode
HDFS的数据存放节点。
RegionServer
HBase的数据服务节点。
Master
HBase的管理节点，通常在一个集群中设置一个主Master，一个备Master，主备角色的"仲裁"由ZooKeeper实现。 Master主要职责：
①负责管理所有的RegionServer。
②建表/修改表/删除表等DDL操作请求的服务端执行主体。
③管理所有的数据分片(Region)到RegionServer的分配。
④如果一个RegionServer宕机或进程故障，由Master负责将它原来所负责的Regions转移到其它的RegionServer上继续提供服务。
⑤Master自身也可以作为一个RegionServer提供服务，该能力是可配置的。

集群部署建议

如果基于物理机/虚拟机部署，通常建议：

1. RegionServer与DataNode联合部署，RegionServer与DataNode按1:1比例设置。

这种部署的优势在于，RegionServer中的数据文件可以存储一个副本于本机的DataNode节点中，从而在读取时可以利用HDFS中的"短路径读取(Short Circuit)"来绕过网络请求，降低读取时延。

2. 管理节点独立于数据节点部署

如果是基于物理机部署，每一台物理机节点上可以设置几个RegionServers/DataNodes来提升资源使用率。

也可以选择基于容器来部署，如在HBaseCon Asia 2017大会知乎的演讲主题中，就提到了知乎基于Kubernetes部署HBase服务的实践。

对于公有云HBase服务而言，为了降低总体拥有成本(TCO)，通常选择"计算与存储物理分离"的方式，从架构上来说，可能导致平均时延略有下降，但可以借助于共享存储底层的IO优化来做一些"弥补"。

HBase集群中的RegionServers可以按逻辑划分为多个Groups，一个表可以与一个指定的Group绑定，可以将RegionServer Group理解成将一个大的集群划分成了多个逻辑子集群，借此可以实现多租户间的隔离，这就是HBase中的RegionServer Group特性。

示例数据

给出一份我们日常都可以接触到的数据样例，先简单给出示例数据的字段定义：

本文力求简洁，仅给出了最简单的示例。如下是"虚构"的样例数据：

在本文大部分内容中所涉及的一条数据，是上面加粗的最后一行"Mobile1"为"13400006666"这行记录。

写数据之前：创建连接

Login

在启用了安全特性的前提下，Login阶段是为了完成用户认证(确定用户的合法身份)，这是后续一切安全访问控制的基础。

当前Hadoop/HBase仅支持基于Kerberos的用户认证，ZooKeeper除了Kerberos认证，还能支持简单的用户名/密码认证，但都基于静态的配置，无法动态新增用户。如果要支持其它第三方认证，需要对现有的安全框架做出比较大的改动。

创建Connection

Connection可以理解为一个HBase集群连接的抽象，建议使用ConnectionFactory提供的工具方法来创建。因为HBase当前提供了两种连接模式：同步连接，异步连接，这两种连接模式下所创建的Connection也是不同的。我们给出ConnectionFactory中关于获取这两种连接的典型方法定义：

Connection中主要维护着两类共享的资源：

线程池
Socket连接

这些资源都是在真正使用的时候才会被创建，因此，此时的连接还只是一个"虚拟连接"。

写数据之前：创建数据表

DDL操作的抽象接口 - Admin

Admin定义了常规的DDL接口，列举几个典型的接口：

预设合理的数据分片 - Region

分片数量会给读写吞吐量带来直接的影响，因此，建表时通常建议由用户主动指定划分Region分割点，来设定Region的数量。

HBase中数据是按照RowKey的字典顺序排列的，为了能够划分出合理的Region分割点，需要依据如下几点信息：

Key的组成结构
Key的数据分布预估
如果不能基于Key的组成结构来预估数据分布的话，可能会导致数据在Region间的分布不均匀
读写并发度需求
依据读写并发度需求，设置合理的Region数量

为表定义合理的Schema

既然HBase号称"schema-less"的数据存储系统，那何来的是"schema "？的确，在数据库范式的支持上，HBase非常弱，这里的"schema"，主要指如下一些信息的设置：

1. NameSpace设置

2. Column Family的数量

3. 每一个Column Family中所关联的一些关键配置：

① Compression

HBase当前可以支持Snappy，GZ，LZO，LZ4，Bzip2以及ZSTD压缩算法

② DataBlock Encoding

HBase针对自身的特殊数据模型所做的一种压缩编码

③ BloomFilter

可用来协助快速判断一条记录是否存在

④ TTL

指定数据的过期时间

⑤ StoragePolicy

指定Column Family的存储策略，可选项有："ALL_SSD"，"ONE_SSD"，"HOT"，"WARM"，"COLD"，"LAZY_PERSIST"

HBase中并不需要预先设置Column定义信息，这就是HBase schema less设计的核心。

Client发送建表请求到Master

建表的请求是通过RPC的方式由Client发送到Master:

RPC接口基于Protocol Buffer定义
建表相关的描述参数，也由Protocol Buffer进行定义及序列化

Client端侧调用了Master服务的什么接口，参数是什么，这些信息都被通过RPC通信传输到Master侧，Master再依据这些接口\参数描述信息决定要执行的操作。2.0版本中，HBase目前已经支持基于Netty的异步RPC框架。

关于HBase RPC框架

早期的HBase RPC框架，完全借鉴了Hadoop中的实现，那时，Netty项目尚不盛行。

Master侧接收到Client侧的建表请求以后，一些主要操作包括：

1. 生成每一个Region的描述信息对象HRegionInfo，这些描述信息包括：Region ID, Region名称，Key范围，表名称等信息。

2. 生成每一个Region在HDFS中的文件目录。

3. 将HRegionInfo信息写入到记录元数据的hbase:meta表中。

说明

meta表位于名为"hbase"的namespace中，因此，它的全称为"hbase:meta"。但在本系列文章范畴内，常将其缩写为"meta"。

整个过程中，新表的状态也是记录在hbase:meta表中的，而不用再存储在ZooKeeper中。

如果建表执行了一半，Master进程故障，如何处理？这里是由HBase自身提供的一个名为Procedure(V2)的框架来保障操作的事务性的，备Master接管服务以后，将会继续完成整个建表操作。

一个被创建成功的表，还可以被执行如下操作：

Disable 将所有的Region下线，该表暂停读写服务
Enable 将一个Disable过的表重新Enable，也就是上线所有的Region来正常提供读写服务
Alter 更改表或列族的描述信息

Master分配Regions

新创建的所有的Regions，通过AssignmentManager将这些Region按照轮询(Round-Robin)的方式分配到每一个RegionServer中，具体的分配计划是由LoadBalancer来提供的。

AssignmentManager负责所有Regions的分配/迁移操作，Master中有一个定时运行的线程，来检查集群中的Regions在各个RegionServer之间的负载是否是均衡的，如果不均衡，则通过LoadBalancer生成相应的Region迁移计划，HBase中支持多种负载均衡算法，有最简单的仅考虑各RegionServer上的Regions数目的负载均衡算法，有基于迁移代价的负载均衡算法，也有数据本地化率优先的负载均衡算法，因为这一部分已经提供了插件化机制，用户也可以自定义负载均衡算法。

总结

本文主要介绍了如下内容：

1. HBase项目概述，呈现了HBase社区的活跃度以及搜索引擎热度等信息

2. HBase数据模型部分，讲到了RowKey，稀疏矩阵，Region，Column Family，KeyValue等概念

3. 基于HBase的数据模型，介绍了HBase的适合场景（以实体/事件为中心的简单结构的数据）

4. 介绍了HBase与HDFS的关系

5. 介绍了集群的关键角色：ZooKeeper, Master, RegionServer，NameNode, DataNode

6. 集群部署建议

7. 给出了一些示例数据

8. 写数据之前的准备工作：建立集群连接，建表（建表时应该定义合理的Schema以及设置合理的Region数量），建表由Master处理，新创建的Regions由Region AssignmentManager负责分配到各个RegionServer。

下一篇文章将正式开始介绍写数据的流程。

致谢

感谢Apache HBase PMC成员Ted Yu，李钰，张铎对本文中与2.0版本相关特性/流程描述内容方面的Review。

你可能感兴趣的:(一条数据的HBase之旅，简明HBase入门教程-开篇)

Redis常见问题汇总
目录1、Redis为什么这么快2、Redis的过期策略以及内存淘汰机制2.1、为什么不用定时删除策略2.2、定期删除+惰性删除是如何工作的2.3、采用定期删除+惰性删除就没其他问题了么?2.4、Redis内存淘汰机制3、Redis并发环境下使用3.1、如何解决redis的并发竞争key问题3.2、MySQL里有2000w数据，redis中只存20w的数据，如何保证redis中的数据都是热点数据4、
Go与Python在数据管道与分析项目中的抉择：性能与灵活性的较量真智AI 人工智能 python go
你正在设计一个全新数据管道或启动一个分析项目，此时你或许正在思考该选择Python还是Go。五年前，这甚至不是个值得讨论的问题——你会毫不犹豫地选择Python，故事到此为止。然而，近年来Go在数据领域，尤其是在数据基础设施和实时处理方面，正逐渐被更多人采用。实际上，这两种语言都已在现代数据技术栈中找到了各自的定位。Python依然非常适合机器学习和数据分析，而Go则逐步成为高性能数据基础设施的首
2018-02-28 我可爱的小宇
践行17反复的记住以前学习的思考方式所谓的现状就是过往的积累，急切改变现状，要有耐心。我们活在未来。戒掉抱怨，积累，成长，选着刚需，靠耐心活在未来。这种价值观。赚不到钱。正确的难受。进取型的人格，思考方式，就是注意自己的成长正确的刚需，刚需塑造大脑，做什么都要做到最好。做过第一的经验，不断的思考，不断的学习，给他一个重大的意义。知道什么好，知道什么差价值观决定命运。以偏概全。大多数人的需求才是真的
Redis-py 实战指南：从安装到向量索引，Python 操作 Redis 全解析佑瞻数据库与知识图谱 redis python 数据库人工智能
在Python开发中，操作Redis数据库是很多场景下的刚需，而redis-py作为Redis官方推荐的Python客户端，更是我们绕不开的工具。但你是否在安装时踩过版本兼容的坑？是否在连接集群或配置TLS时犯过难？甚至想尝试向量索引却不知从何下手？今天我们就从基础到进阶，手把手带你玩转redis-py，让Python操作Redis变得简单又高效。一、redis-py安装：避坑指南首先，我们需要安
直接封袖的暗恋文案 9a46a38f3f09
1、蛮普通的蛮心动的2、在茫茫人海中我总能一眼锁定你3、假装看不见，余光千百遍4、幸好思念无声，可惜思念无声5、怕你知道怕你不知道6、我把你写在风里，从此整个世界是你7、偶尔想你，时常偶尔8、比起你的脸，我更熟悉你的鞋子和背影9、我偷偷的碰了你一下，不料你像蒲公英一样散开，此后记忆里都是你的影子10、我也曾为了看你一眼，望遍整个校园11、其实别人提起你的时候，我都有认真偷听12你闪烁一下，我的世界
Python返回函数完全指南：从基础到高级应用 Python_trys python 数据库开发语言 Python教程 Python技巧 Python入门 Python基础
包含编程籽料、学习路线图、爬虫代码、安装包等！【点击领取】前言在Python编程中，函数不仅可以执行操作，还可以作为返回值，这种特性为编程带来了极大的灵活性和强大的表达能力。本文将全面介绍Python中的返回函数，从基础概念到高级应用场景，帮助开发者掌握这一重要特性。一、返回函数的基本概念1.1什么是返回函数？返回函数指的是一个函数可以返回另一个函数作为其结果。在Python中，函数是一等对象，可
【Java笔记】七大排序赶飞机偏偏下雨 Java java 数据结构笔记
目录1.直接插入排序2.希尔排序3.选择排序4.堆排序(重要)5.冒泡排序6.快速排序（重要）6.1Hoare法6.1.1Hoare法优化6.2挖坑法（重点）6.3快速排序的非递归写法7.归并排序海量数据的排序问题8.总结1.直接插入排序时间复杂度：最坏情况：O(n2)最坏情况：O(n)空间复杂度：O(1)稳定性：稳定如果一个排序本身就是稳定的排序那么他可以被实现为不稳定的排序但是如果一个排序本身
【原创文集】你来到了我的心头，我呢？龙少也
文章来源：教育科学学院18预文1班刘钰战场上笔在纸在上沙沙作响，铛铛铛，考试结束了，但与此同时高中生涯也永远成为了过去式，留下的只能是满满的回忆。走在路上，遍地是高考生丟落的书籍、试卷，似乎是在宣泄这高中三年的委屈，又似乎是对考试结果的不满。我顺利的进入了大学，尽管是还不是正式的大学生。怀着对大学生活的憧憬，懵懵懂懂的我开始学着去适应高中老师口头说的天堂，新生开学，各种各样的社团来招募新成员，我报
【.net core】通过类名字符串获取类成员 MoFe1 .netcore java 开发语言
//从当前执行的程序集获取Assemblyassembly=Assembly.GetExecutingAssembly();Typetype=assembly.GetType("YourNamespace.YourClass");//或从指定程序集获取Assemblyassembly=Assembly.Load("YourAssemblyName");Typetype=assembly.GetTy
.NetCore发布到Linux下(Shell脚本控制服务启动) .NetHero c#.netcore linux
一、netcore后端部署1.设置端口号配置文件，指定接口的端口号(*注意不要和已有的服务端口相同!)Program
《论语》每日一句Day 7 贤贤易色王隽祺
原文：子夏曰：“贤贤易色；事父母，能竭其力；事君，能致其身；与朋友交，言而有信。虽曰未学，吾必谓之学矣。”译文：子夏说：“一个人能够尊重贤者而看轻女色；侍奉父母，能够竭尽全力；服侍君主，能够献出自己的生命；同朋友交往，说话诚实、恪守信用“这样的人，即使他自己说没有学过什么，我也一定要说他已经学习过了”心得：（或闻思修）这句话说明了在如今的社会，真正有学问的人是怎样的人：1、尊重贤者轻女色的人2、孝
东晋最可能统一天下的皇帝，平定王敦叛乱可惜英年早逝，他是谁？枫桡
晋明帝司马绍，生于公元299年卒于公元325年。晋元帝司马睿长子，东晋第二帝。司马绍自幼聪明异常，深父亲喜爱，十岁就被册立为太子。司马绍文武兼备，谦恭有礼，与名臣王导、庾亮、温峤、桓彝等私交很好。元帝在位时，大将军王敦擅权。元帝想除掉他，没成想，王敦先下手为强。公元322年，王敦在武昌发动叛乱，没多久，王敦就率军攻人了京师建康。年少气盛的司马绍决定亲自上阵，与王敦一决雌雄，在众人的极力阻止下只好作
【剽悍个人品牌创业俱乐部】创业财务自由的社群运营人苏宝
文/剽悍一只猫001创业，赚的不只是钱，更重要的，是赚缘分、认知、内在的强大和通透。002为什么我们不会经常搞发售动作？那样会让我们活得太累，且没有足够的时间做别的很重要的事情。003什么是别的很重要的事情？比如好好养自己、好好陪家人、好好做交付。004我们发布了剽悍个人品牌创业俱乐部，这个产品，有一点非常打动人：我们为你严选同行者，在这里，你结交一个牛人的初始成本，不到一百元。005有些价值是不
Python爬虫实战：从新浪财经爬取股票新闻的完整实现 Python爬虫项目 python 爬虫开发语言数据分析 php
第一部分：爬虫概述1.1什么是爬虫？爬虫是指通过程序模拟浏览器的行为，自动化地抓取网络上的数据。通过爬虫技术，能够从各种网站上提取信息，广泛应用于数据采集、数据分析、机器学习等领域。1.2新浪财经简介新浪财经是中国最大的财经信息平台之一，提供股票、基金、债券、外汇等多方面的财经新闻和数据。在股票领域，新浪财经提供了大量的股票行情、实时数据、新闻报道等信息，因此爬取新浪财经的股票新闻对于投资分析和决
Go-Redis × 向量检索实战用 HNSW 在 Redis 中索引与查询文本 Embedding（Hash & JSON 双版本） Hello.Reader 数据库运维缓存技术 golang redis embedding
1.场景与思路痛点：把“文本内容”转成向量后，如何在本地Redis里做近似向量搜索（KNN），而不依赖外部向量数据库？方案：利用HuggingFace模型sentence-transformers/all-MiniLM-L6-v2生成384维Float32向量；借助RediSearch的HNSW索引能力，在Hash或JSON文档里存储&查询向量；用go-redisv9的高阶API（FTCreate
2023年长高钙片十大品牌排行榜-长高钙片哪个牌子好氧惠爱高省
青少年在长身体的时候，需要补充一定的钙元素。你知道青少年吃什么钙片有助于长高？推荐青少年钙片品牌排行榜，真正的大品牌，有着足够好的补钙效果，值得人们入手！购物、看电影、点外卖、用氧惠APP！更优惠！氧惠（全网优惠上氧惠）——是与以往完全不同的抖客+淘客app！2023全新模式，我的直推也会放到你下面，送1:1超级补贴(邀请好友自购多少，你就推广得多少，非常厉害)，欢迎各位团队长体验！也期待你的加入
6月8日星期五雨天橄榄绿_7e3a
下午放学，送女儿去跆拳道馆的路上，我和女儿边走边聊天。“yueyue呀，今天和昨天，妈妈送姐姐去参加高考，七年后的今天，我就该送你去参加高考了。”我搂着女儿的肩膀开玩笑地对她说道。“是吗？”女儿扬起脑袋问我，小眼睛一眨一眨的。“是的，猪宝宝（女儿属猪），你准备好了吗？”我故意异常坚定的回答道。“没有。”女儿毫不犹豫地回答，同时哈哈大笑。“猪宝宝，那么从现在开始准备吧。”我拍拍她的肩膀。“妈妈，不许
油价猛涨突破110美元？加油更贵了该咋办？慕容随风
据证券时报3月2日的报道，在石油股暴涨的背后，是油价的再度飙涨。布伦特油价时隔多年再次突破110美元。而国内和石油相关的期货上午亦集体飙涨，多个相关期货品种涨停。行情数据显示，截至收盘，沪指跌0.13%，深成指跌1.05%，创业板指跌1.77%。行业板块方面，石油、有色金属、煤炭等资源类板块领涨。据彭博资讯，2021年俄罗斯向欧洲输送的管道天然气占欧洲总进口量的35%，俄罗斯原油出口占据欧洲进口总
个人成长|很庆幸，我放弃了北大光华和五道口的MBA 丽松Lisong
（照片摄于2018年10月，美丽的斯坦福校园）人生总是会有很多遗憾，但是可能到某个时间点，对于过往的一些遗憾，你会突然变得释然，甚至庆幸。虽然在有些人眼里MBA并不值钱，但北大光华和清华五道口金融学院的MBA项目并不是像很多人以为的“花钱就能上”，真的申请过的人会知道。到目前为止，我依然认为北大的光华管理学院是中国最好的商学院之一，五道口金融学院更是中国最好的金融学院（没有之一）。对于一个有“名校
Oracle分区表插入数据库时间时报ORA-14400 Indestructible
使用springdatajpa插入数据时，需要表中的createtime保存为数据库时间，而不是应用服务器时间，实现这个功能只需要在实体类上面加@DynamicInsert就可以了。代码如下：@Entity@Table(name="ENTITY")@DynamicInsertpublicclassEntity{@Column(nullable=false)privateDatecreatetime
Spring AI高级RAG功能查询重写和查询翻译非ban必选 deepseek spring 人工智能 java
1、创建查询重写转换器//创建查询重写转换器queryTransformer=RewriteQueryTransformer.builder().chatClientBuilder(openAiChatClient.mutate()).build();查询重写是RAG系统中的一个重要优化技术，它能够将用户的原始查询转换成更加结构化和明确的形式。这种转换可以提高检索的准确性，并帮助系统更好地理解用户
2019.2.1串讲心得梧桐70
虽然看过海灵格老师家庭系统排列的书，但还是不会应用，不能透过情绪剖析家庭系统中的问题，内心充满了对这本书的期待。通过屹峥老师的串讲，贯通了全书内容，盼望老师能用实例来加深对书中内容的理解。没有书，去网上找电子书没找到，学习群中听读就成了主要的学习方式。
人生为什么努力幻影意念
我们喜欢的东西都很贵，这是我们努力的理由。人生一世，草木一秋。生而为人，不说创造多大的功绩，但至少要让自己的人生过得无怨无悔，这是我们努力的理由！环顾四周，所有的人都在努力生活。辛勤的劳动，努力的工作，为了他们的理想去努力打拼。我们每个人作为社会中的一份子，我们没有理由去掉队，更没有理由去空耗自己的人生。所以我们要去追赶或者超越别人的步伐，这是我们努力的理由！家庭中，看到自己父母期盼的眼神，期盼你
2021-03-18 Linux进阶-from Biotrainee 乔帮主_d2ac
vim编辑器Vim编辑器：大多数Linux都会自带的文本编辑器。功能强大：代码补全、编译及错误跳转等方便编程的功能特别丰富，在程序员中被广泛使用。功能强大到其官方现在对自己的定位是“程序开发工具”Vim编辑器：三种模式image.png命令模式方向键或者hjkl^和$：快速到所在行的开头和末尾（用0也可以到开头）30j：向下移动30行（数字+方向进行快速移动）ctrl+f或b:上下翻页（forwa
（连载）木鱼录第二十章独陌行
第二十章丹羽失踪迹青夕丢性命我和江璐已经辞职，和长风一起来帮着大头打理清缘茶社，我们的事情没有进展，茶社的生意却是越来越好。这天我们几个正坐在茶社大厅闲聊，张有一突然出现在面前，他告诉了我们一个惊人的消息，丹羽的炼丹房炸了，丹羽不知所踪，有人看见张守星和丹羽的徒弟青夕浑身是血，一前一后从废墟中出来，然后也不知道去了哪里。他还说，失踪的那六位正神都回来了，他们开始打理天庭事物，但是谁劫持了他们？为什
AutoGen C#三步变强：比Python还野的多AI协作实战！墨瑾轩一起学学C#【四】c#python 人工智能
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣一、第一步：环境搭建——给AutoGen装上"AI乐高积木"目标：用C#搭建AutoGen基础环境，像组装乐高一样准备工具。步骤：克隆AutoGen项目：访问AutoGenGitHub仓库，克隆到本地：gitclonehttps://github.com/mi
C#进行串口应用开发如何处理串口的异常情况 openwin_top c#串口应用开发问题系列 c#开发语言串口通讯上位机
python编程示例系列python编程示例系列二python的Web神器Streamlit如何应聘高薪职位C#视觉应用开发问题系列c#串口应用开发问题系列microPythonPython最小内核源码解析NI-motion运动控制c语言示例代码解析在C#中进行串口应用开发时，处理串口的异常情况是非常重要的。常见的串口异常包括端口不可用、数据传输错误、超时等
挑战1000天演讲打卡的第627天：女儿皮肤过敏。开心快乐幸福美满
上个8月28号女儿陪我去杭州学习体质养生的课，这个课前后加起来是五天，在这五天的日子里我每天六点起床九点上课，中午12点下课，下午2点上课5点结束。女儿在这五天的日子里晚上不睡白天不起，结果在课程结束的前一天孩子身上长了好多的小疹子而且很痒很痒，看着孩子满身的小疹子，又痒的难受，实在是好心疼可是又不知道怎么办？后来就带着孩子去了杭州的医院看了一下，医生说是荨麻疹，然后晚上给她挂了些盐水，还开了点药
spring.factories文件的作用骆驼整理说分布式微服务框架开源框架及中间件 spring 后端 java springboot
目录配置项解析机制原理详解spring.factories文件在SpringBoot的jar包中，存在一个名为META-INF/spring.factories的文件，该文件定义了所有可用的自动配置类。配置项在spring.factories文件中，常见的配置项包括但不限于以下几种：自动配置类：用于指定自动配置类，这些类会在SpringBoot启动时根据类路径下的jar包和配置自动进行bean的创
AI 智能运维，重塑大型企业软件运维：从自动化到智能化的进阶实践 AI、少年郎人工智能运维自动化
一、引言：企业软件运维的智能化转型浪潮在数字化转型加速的背景下，大型企业软件架构日益复杂，微服务、多云环境、分布式系统的普及导致传统运维模式面临效率瓶颈。AI技术的渗透催生了智能运维（AIOps）的落地，通过机器学习、大模型、智能Agent等技术，实现从"人工救火"到"智能预防"的范式转变。本文结合头部企业实践，解析AI在运维领域的核心应用场景、技术架构及未来趋势，特别针对基础运维中流程重构、技术
Algorithm 香水浓 java Algorithm
冒泡排序 public static void sort(Integer[] param) { for (int i = param.length - 1; i > 0; i--) { for (int j = 0; j < i; j++) { int current = param[j]; int next = param[j + 1];
mongoDB 复杂查询表达式开窍的石头 mongodb
1:count Pg: db.user.find().count(); 统计多少条数据 2:不等于$ne Pg: db.user.find({_id:{$ne:3}},{name:1,sex:1,_id:0}); 查询id不等于3的数据。 3：大于$gt $gte(大于等于) &n
Jboss Java heap space异常解决方法, jboss OutOfMemoryError : PermGen space 0624chenhong jvm jboss
转自 http://blog.csdn.net/zou274/article/details/5552630 解决办法： window->preferences->java->installed jres->edit jre 把default vm arguments 的参数设为-Xms64m -Xmx512m ----------------
文件上传下载解析相对路径不懂事的小屁孩文件上传
有点坑吧，弄这么一个简单的东西弄了一天多，身边还有大神指导着，网上各种百度着。下面总结一下遇到的问题：文件上传，在页面上传的时候，不要想着去操作绝对路径，浏览器会对客户端的信息进行保护，避免用户信息收到攻击。在上传图片，或者文件时，使用form表单来操作。前台通过form表单传输一个流到后台，而不是ajax传递参数到后台，代码如下: <form action=&
怎么实现qq空间批量点赞换个号韩国红果果 qq
纯粹为了好玩！！逻辑很简单 1 打开浏览器console；输入以下代码。先上添加赞的代码 var tools={}; //添加所有赞 function init(){ document.body.scrollTop=10000; setTimeout(function(){document.body.scrollTop=0;},2000);//加
判断是否为中文灵静志远中文
方法一： public class Zhidao { public static void main(String args[]) { String s = "sdf灭礌 kjl d{';\fdsjlk是"; int n=0; for(int i=0; i<s.length(); i++) { n = (int)s.charAt(i); if((
一个电话面试后总结 a-john 面试
今天，接了一个电话面试，对于还是初学者的我来说，紧张了半天。面试的问题分了层次，对于一类问题，由简到难。自己觉得回答不好的地方作了一下总结：在谈到集合类的时候，举几个常用的集合类，想都没想，直接说了list,map。然后对list和map分别举几个类型： list方面：ArrayList,LinkedList。在谈到他们的区别时，愣住了
MSSQL中Escape转义的使用 aijuans MSSQL
IF OBJECT_ID('tempdb..#ABC') is not null drop table tempdb..#ABC create table #ABC ( PATHNAME NVARCHAR(50) ) insert into #ABC SELECT N'/ABCDEFGHI' UNION ALL SELECT N'/ABCDGAFGASASSDFA' UNION ALL
一个简单的存储过程 asialee mysql 存储过程构造数据批量插入
今天要批量的生成一批测试数据，其中中间有部分数据是变化的，本来想写个程序来生成的，后来想到存储过程就可以搞定，所以随手写了一个，记录在此： DELIMITER $$ DROP PROCEDURE IF EXISTS inse
annot convert from HomeFragment_1 to Fragment 百合不是茶 android 导包错误
创建了几个类继承Fragment, 需要将创建的类存储在ArrayList<Fragment>中; 出现不能将new 出来的对象放到队列中,原因很简单; 创建类时引入包是:import android.app.Fragment; 创建队列和对象时使用的包是:import android.support.v4.ap
Weblogic10两种修改端口的方法 bijian1013 weblogic 端口号配置管理 config.xml
一.进入控制台进行修改 1.进入控制台: http://127.0.0.1:7001/console 2.展开左边树菜单域结构->环境->服务器-->点击AdminServer(管理) &
mysql 操作指令征客丶 mysql
一、连接mysql 进入 mysql 的安装目录； $ bin/mysql -p [host IP 如果是登录本地的mysql 可以不写 -p 直接 -u] -u [userName] -p 输入密码，回车，接连；二、权限操作［如果你很了解mysql数据库后，你可以直接去修改系统表，然后用 mysql> flush privileges; 指令让权限生效］ 1、赋权 mys
【Hive一】Hive入门 bit1129 hive
Hive安装与配置 Hive的运行需要依赖于Hadoop，因此需要首先安装Hadoop2.5.2，并且Hive的启动前需要首先启动Hadoop。 Hive安装和配置的步骤 1. 从如下地址下载Hive0.14.0 http://mirror.bit.edu.cn/apache/hive/ 2.解压hive，在系统变
ajax 三种提交请求的方法 BlueSkator Ajax jqery
1、ajax 提交请求 $.ajax({ type:"post", url : "${ctx}/front/Hotel/getAllHotelByAjax.do", dataType : "json", success : function(result) { try { for(v
mongodb开发环境下的搭建入门 braveCS 运维
linux下安装mongodb 1）官网下载mongodb-linux-x86_64-rhel62-3.0.4.gz 2）linux 解压 gzip -d mongodb-linux-x86_64-rhel62-3.0.4.gz; mv mongodb-linux-x86_64-rhel62-3.0.4 mongodb-linux-x86_64-rhel62-
编程之美-最短摘要的生成 bylijinnan java 数据结构算法编程之美
import java.util.HashMap; import java.util.Map; import java.util.Map.Entry; public class ShortestAbstract { /** * 编程之美最短摘要的生成 * 扫描过程始终保持一个[pBegin,pEnd]的range,初始化确保[pBegin,pEnd]的ran
json数据解析及typeof chengxuyuancsdn js typeof json解析
// json格式 var people='{"authors": [{"firstName": "AAA","lastName": "BBB"},' +' {"firstName": "CCC&
流程系统设计的层次和目标 comsci 设计模式数据结构 sql 框架脚本
流程系统设计的层次和目标
RMAN List和report 命令 daizj oracle list report rman
LIST 命令使用RMAN LIST 命令显示有关资料档案库中记录的备份集、代理副本和映像副本的信息。使用此命令可列出： • RMAN 资料档案库中状态不是AVAILABLE 的备份和副本 • 可用的且可以用于还原操作的数据文件备份和副本 • 备份集和副本，其中包含指定数据文件列表或指定表空间的备份 • 包含指定名称或范围的所有归档日志备份的备份集和副本 • 由标记、完成时间、可
二叉树:红黑树 dieslrae 二叉树
红黑树是一种自平衡的二叉树,它的查找,插入,删除操作时间复杂度皆为O(logN),不会出现普通二叉搜索树在最差情况时时间复杂度会变为O(N)的问题. 红黑树必须遵循红黑规则,规则如下 1、每个节点不是红就是黑。 2、根总是黑的 &
C语言homework3，7个小题目的代码 dcj3sjt126com c
1、打印100以内的所有奇数。 # include <stdio.h> int main(void) { int i; for (i=1; i<=100; i++) { if (i%2 != 0) printf("%d ", i); } return 0; } 2、从键盘上输入10个整数，
自定义按钮, 图片在上, 文字在下, 居中显示 dcj3sjt126com 自定义
#import <UIKit/UIKit.h> @interface MyButton : UIButton -(void)setFrame:(CGRect)frame ImageName:(NSString*)imageName Target:(id)target Action:(SEL)action Title:(NSString*)title Font:(CGFloa
MySQL查询语句练习题，测试足够用了 flyvszhb sql mysql
http://blog.sina.com.cn/s/blog_767d65530101861c.html 1.创建student和score表 CREATE TABLE student ( id INT(10) NOT NULL UNIQUE PRIMARY KEY , name VARCHAR
转：MyBatis Generator 详解 happyqing mybatis
MyBatis Generator 详解 http://blog.csdn.net/isea533/article/details/42102297 MyBatis Generator详解 http://git.oschina.net/free/Mybatis_Utils/blob/master/MybatisGeneator/MybatisGeneator.
让程序员少走弯路的14个忠告 jingjing0907 工作计划学习
无论是谁，在刚进入某个领域之时，有再大的雄心壮志也敌不过眼前的迷茫：不知道应该怎么做，不知道应该做什么。下面是一名软件开发人员所学到的经验，希望能对大家有所帮助 1.不要害怕在工作中学习。只要有电脑，就可以通过电子阅读器阅读报纸和大多数书籍。如果你只是做好自己的本职工作以及分配的任务，那是学不到很多东西的。如果你盲目地要求更多的工作，也是不可能提升自己的。放
nginx和NetScaler区别流浪鱼 nginx
NetScaler是一个完整的包含操作系统和应用交付功能的产品，Nginx并不包含操作系统，在处理连接方面，需要依赖于操作系统，所以在并发连接数方面和防DoS攻击方面，Nginx不具备优势。 2.易用性方面差别也比较大。Nginx对管理员的水平要求比较高，参数比较多，不确定性给运营带来隐患。在NetScaler常见的配置如健康检查，HA等，在Nginx上的配置的实现相对复杂。 3.策略灵活度方
第11章动画效果（下） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
FAQ - SAP BW BO roadmap blueoxygen BO BW
http://www.sdn.sap.com/irj/boc/business-objects-for-sap-faq Besides, I care that how to integrate tightly. By the way, for BW consultants, please just focus on Query Designer which i
关于java堆内存溢出的几种情况 tomcat_oracle java jvm jdk thread
【情况一】：　　 java.lang.OutOfMemoryError: Java heap space：这种是java堆内存不够，一个原因是真不够，另一个原因是程序中有死循环；　　如果是java堆内存不够的话，可以通过调整JVM下面的配置来解决：　　<jvm-arg>-Xms3062m</jvm-arg> 　　<jvm-arg>-Xmx
Manifest.permission_group权限组阿尔萨斯 Permission
结构继承关系 public static final class Manifest.permission_group extends Object java.lang.Object android. Manifest.permission_group 常量 ACCOUNTS 直接通过统计管理器访问管理的统计 COST_MONEY可以用来让用户花钱但不需要通过与他们直接牵涉的权限 D