OneTenTwo76

【用户画像】将数据迁移到ClickHouse（源码实现）、位图的介绍（bitmap）、位图在用户分群中的应用、位图的使用

文章目录

一数据迁移至Clickhouse
- 1 为何要迁移
- 2 方案选型
- 3 任务目标
- 4 设计分析
- 5 代码实现
- - （1 ）pom.xml
  - （2）配置文件
  - （3）创建库
- 6 打包发布
二在clickhouse中宽表转换为Bitmap表
- 1 为什么用位图（Bitmap）?
- - （1）存储成本
  - （2）天然去重
  - （3）快速定位
  - （4）集合间计算
  - （5）优势场景
  - （6）局限性
- 2 Bitmap在用户分群中的应用
- - （1）现状
  - （2）传统解决方案
  - （3）更好的方案
- 3 在clickhouse中使用Bitmap表
- - （1） SQL实现
  - （2）在clickhouse中使用Bitmap表
  - - 建表和数据
    - 数据转换
    - 创建Bitmap表
    - 插入数据
    - 对Bitmap进行查询
    - - 对Bitmap进行查询
      - 范围值查询
    - 函数总结

一数据迁移至Clickhouse

1 为何要迁移

标签计算完成后保存在hive虽然可以查询但是性能非常糟糕。而标签的使用往往是即时的。最常见的场景就是“用户分群”，也称“人群圈选”、“圈人”等等。

分群操作就是根据多个标签组合，产生一个用户集合，供营销、广告等部门使用。而这些操作计算量大，产生结果需要时效性高。

2 方案选型

选择方案最重要的依据就是数据量和时效性要求。

时效性	数据量	分群方案
能接受隔天	无所谓	HIVE宽表
即时产生	千万以下，标签百级	OLAP宽表(Elasticsearch,Clickhouse,Tidb…)
即时产生	亿级，标签千级	Bitmap方式(Clickhouse，doris)

适合的才是最好的，此任务选择用Clickhouse实现Bitmap方式存储。

3 任务目标

把hive中标签宽表数据，写入至Clickhouse的宽表。

4 设计分析

读取hive的宽表，在clickhouse中建立对应的宽表。

因为并不是hive表到hive表，所以并不能够直接用insert select 解决。
先通过把数据查询成为Dataframe ，再通过行动算子写入至Clickhouse的宽表。

5 代码实现

搭建模块 – task-export-ck

（1 ）pom.xml

在poml文件中添加配置

    <dependencies>
        <dependency>
            <groupId>com.hzy.userprofilegroupId>
            <artifactId>task-commonartifactId>
            <version>1.0-SNAPSHOTversion>
        dependency>
    dependencies>

    <build>
        <plugins>
            
            <plugin>
                <groupId>net.alchim31.mavengroupId>
                <artifactId>scala-maven-pluginartifactId>
                <version>3.4.6version>
                <executions>
                    <execution>
                        
                        <goals>
                            <goal>compilegoal>
                            <goal>testCompilegoal>
                        goals>
                    execution>
                executions>
            plugin>

            <plugin>
                <groupId>org.apache.maven.pluginsgroupId>
                <artifactId>maven-assembly-pluginartifactId>
                <version>3.0.0version>
                <configuration>
                    <descriptorRefs>
                        <descriptorRef>jar-with-dependenciesdescriptorRef>
                    descriptorRefs>
                configuration>
                <executions>
                    <execution>
                        <id>make-assemblyid>
                        <phase>packagephase>
                        <goals>
                            <goal>singlegoal>
                        goals>
                    execution>
                executions>
            plugin>
        plugins>
    build>

（2）配置文件

core-site.xml、hdfs-site.xml、hive-site.xml、hive-site.xml、log4j.properties与之前模块无异,主要用于本地调试。

config.properties

#mysql配置
mysql.url=jdbc:mysql://hadoop101:3306/user_profile_manage2022?characterEncoding=utf-8&useSSL=false
mysql.username=root
mysql.password=123456

clickhouse.url=jdbc:clickhouse://hadoop101:8123/user_profile2022

ClickHouse有两个对外开放的端口号：8123和9000

8123，适用于JDBC，短连接，HTTP协议

9000，适用于Client，长连接，TCP协议

添加执行clickhouse的Sql语句的工具类。

因为该工具也会被其他模块使用，所以放在task-common下的util层

package com.hzy.userprofile.util

import java.sql.{Connection, DriverManager, Statement}
import java.util.Properties

object ClickHouseUtil {

  private val properties: Properties = MyPropertiesUtil.load("config.properties")
  val CLICKHOUSE_URL = properties.getProperty("clickhouse.url")

  def executeSql(sql: String ): Unit ={
    Class.forName("ru.yandex.clickhouse.ClickHouseDriver");
    val connection: Connection = DriverManager.getConnection(CLICKHOUSE_URL, null, null)
    val  statement: Statement = connection.createStatement()
    statement.execute(sql)
    connection.close()
  }
}

（3）创建库

clickhouse-client -m

create database user_profile1009;

完成测试后，可以在ClickHouse中user_profile1009中看到对应的数据。

6 打包发布

添加流程任务，因为要在合并宽表任务之后执行，所以级别设为300，调度任务之后，再次测试执行，等待结果。

注意注释掉//.setMaster("local[*]")，打包，上传。

启动远程任务提交器，内网穿透。

二在clickhouse中宽表转换为Bitmap表

1 为什么用位图（Bitmap）?

（1）存储成本

假设有个1,2,5的数字集合，如果常规的存储方法，要用3个Int32空间。其中一个Int32就是32位的空间。三个就是3*32Bit，相当于12个字节。

如果用Bitmap怎么存储呢，只用8Bit（1个字节）就够了。每一位代表一个数，位号就是数值，1标识有，0标识无。如下图：

7	6	5	4	3	2	1	0
0	0	1	0	0	1	1	0

这样的一个字节可以存8个整数，每一个数的存储成本实质上是1Bit。

也就是说Bitmap的存储成本是Array[Int32]的1/32,是Array[Int64]的1/64。

好处一：如果有一个超大的无序且不重复的整数集合，用Bitmap的存储成本是非常低的。

（2）天然去重

好处二：因为每个值都只对应唯一的一个位置，不能存储两个值，所以Bitmap结构可以天然去重。

（3）快速定位

如果有一个需求，比如想判断数字“3”是否存在于该集合中。若是传统的数字集合存储，那就要逐个遍历每个元素进行判断，时间复杂度为O(N)。

但是若是Bitmap存储只要查看对应的下标数的值是0还是1即可，时间复杂度为O(1)。

查询3

7	6	5	4	→3	2	1	0
0	0	1	0	0	1	1	0

好处三：非常方便快速的查询某个元素是否在集合中。

（4）集合间计算

如果有另一个集合2、3、7，想查询这两个集合的交集。

传统方式[1,2,5]与[2,3,7] 取交集就要两层循环遍历。

而Bitmap只要把00100110和10001100进行与操作就行了。而计算机做与、或、非、异或等等操作是非常快的。

如下：

7	6	5	4	3	2	1	0
1	0	0	0	1	1	0	0

7	6	5	4	3	2	1	0
0	0	1	0	0	1	1	0

	6	5	4	3	2	1	0
0	0	0	0	0	1	0	0

好处四：集合与集合之间的运行非常快。

（5）优势场景

综上，Bitmap非常适合的场景：

海量数据的压缩存储
去重存储
判断值存在于集合
集合之间的交并差

（6）局限性

当然这种方式也有局限性：

只能存储正整数字而不是字符串
存储的值必须是无序不重复
不适合存储稀疏的集合，比如一个集合存了三个数[5,1230000,88880000] 这三个数，用Bitmap存储的话其实就不太划算。（但是clickhouse使用的RoaringBitmap，优化了这个稀疏问题。）

RoaringBitmap是一种混合的结构，将整个的数据空间分成一段一段的，如0-1000,1000-2000等，这样就可以将每一段去独立的管理。RoaringBitmap中有两种存储方式，使用Bitmap或者使用数组存储，如果数据很稀疏则使用数组存储十分划算，反之使用Bitmap存储划算。于是，在RoaringBitmap中会存在一个阈值，超过阈值使用Bitmap存储，最终将这两种数据结构组合起来，以解决数据稀疏的问题。

2 Bitmap在用户分群中的应用

（1）现状

首先，如下是用户的标签宽表

用户	性别	年龄	偏好
1	男	90后	数码
2	男	70后	书籍
3	男	90后	美食
4	女	80后	书籍
5	女	90后	美食

如果想根据标签划分人群，比如：年龄：90后 + 偏好：美食。

（2）传统解决方案

那么无非对列值进行遍历筛选，如果优化也就是列上建立索引，但是当这张表有1000个标签列时，如果要索引生效并不是每列有索引就行，要每种查询组合建一个索引才能生效，索引数量相当于1000个列排列组合的个数，这显然是不可能的。

（3）更好的方案

那么更好的办法是按字段重组成Bitmap。

将年龄和偏好分别提取出来。

年龄	Array	Bitmap
90后	1,3,5	00101010
80后	4	00010000
70后	2	00000100

性别	Array	Bitmap
男	1,2,3	00001110
女	4,5	00110000

偏好	Array	Bitmap
数码	1	00000010
美食	3,5	00101000
书籍	2,4	00010100

如果能把数据调整成这样的结构，想进行条件组合，就简单了。

比如: [美食] + [90后] = Bitmap[3,5] & Bitmap[1,3,5] = 3,5 这个计算速度相比宽表条件筛选是非常非常快的。

3 在clickhouse中使用Bitmap表

最终想得到的结果如下图：

现原始表结构为：

转换过程如下图：

（1） SQL实现

-- 将两列值拼成数组
select [1 as a, 2 as b];
-- 将两列值拼成元组
select (1 as a, 2 as b);
-- 元组外面再嵌套数组
select [(1 as a, 2 as b),(3,4)];
-- 再炸开
select arrayJoin( [(1 as a, 2 as b),(3,4)] );
-- 切开
select rs_col.1 , rs_col.2 from (select arrayJoin( [(1 as a, 2 as b),(3,4)] ) rs_col ) rs_t;

（2）在clickhouse中使用Bitmap表

以上面的表举例：

建表和数据

create table user_tag_merge 
(   uid UInt64,
	gender String,
	agegroup String,
	favor String
)engine=MergeTree()
order by (uid);

模拟数据

insert into user_tag_merge values(1,'M','90后','sm');
insert into user_tag_merge values(2,'M','70后','sj');
insert into user_tag_merge values(3,'M','90后','ms');
insert into user_tag_merge values(4,'F','80后','sj');
insert into user_tag_merge values(5,'F','90后','ms');

原始数据如下：

数据转换

现依据上图流程，依次对数据进行处理

-- 拼
select uid, [ ('gender',gender),('agegroup',agegroup),('favor',favor)] from user_tag_merge;
-- 炸：用arrayJoin炸开，类似于hive中的explode
select uid, arrayJoin( [ ('gender',gender),('agegroup',agegroup),('favor',favor)] ) tv
from user_tag_merge;
-- 切
select tv.1,tv.2,uid
from
( select uid, arrayJoin( [ ('gender',gender),('agegroup',agegroup),('favor',favor)] ) tv
from user_tag_merge) user_tag;
-- 聚
select tv.1,tv.2,groupArray(uid)
from
( select uid, arrayJoin( [ ('gender',gender),('agegroup',agegroup),('favor',favor)] ) tv
from user_tag_merge) user_tag
group by tv.1,tv.2;
-- 聚（bitmap）
select tv.1,tv.2,groupBitmapState(uid)
from
( select uid, arrayJoin( [ ('gender',gender),('agegroup',agegroup),('favor',favor)] ) tv
from user_tag_merge) user_tag
group by tv.1,tv.2;
-- bitmap的结构本身无法用正常文本显示，为看出效果，再嵌套一层数组
select tv.1,tv.2,bitmapToArray(groupBitmapState(uid))
from
( select uid, arrayJoin( [ ('gender',gender),('agegroup',agegroup),('favor',favor)] ) tv
from user_tag_merge) user_tag
group by tv.1,tv.2;

创建Bitmap表

create table user_tag_value_string
 ( 
    tag_code String,
	tag_value String ,
	us AggregateFunction(groupBitmap,UInt64)
)engine=AggregatingMergeTree()
 partition by  (tag_code) 
 order by (tag_value);

Bitmap表必须选择AggregatingMergeTree引擎。

对应的Bitmap字段，必须是AggregateFunction(groupBitmap,UInt64)，groupBitmap标识数据的聚合方式，UInt64标识最大可存储的数字长度。

业务结构上，稍作了调整。把不同的标签放在了同一张表中，但是因为根据tag_code进行了分区，所以不同的标签实质上还是物理分开的。

插入数据

groupBitmapState()：将多行的值聚合成一个bitmap值。

insert into user_tag_value_string
select tv.1,tv.2,groupBitmapState(uid)
from
( select uid, arrayJoin( [ ('gender',gender),('agegroup',agegroup),('favor',favor)] ) tv
from user_tag_merge) user_tag
group by tv.1,tv.2;

-- 查看数据是否正确，再转成数组
select tag_code, tag_value, bitmapToArray(us) from user_tag_value_string;

结果如下：

以上操作就是通过一句sql，将在ClickHouse处理的宽表变成一个位图表。

对Bitmap进行查询

使用这个Bitmap表进行查询。

比如想查询[90后]+[美食]的用户条件组合查询

bitmapAnd(bitmapa,bitmapb)：求交集

select bitmapToArray(
bitmapAnd ( (select us from user_tag_value_string where tag_value='90后' and tag_code='agegroup') ,
(select us from user_tag_value_string where tag_value='ms' and tag_code='favor') )
);

首先用条件筛选出us, 每个代表一个Bitmap结构的uid集合，找到两个Bitmap后用bitmapAnd函数求交集。然后为了观察结果用bitmapToArray函数转换成可见的数组。

范围值查询

比如要取 [90后]或者[80后] + [美食]
或者消费金额大于1000 + [女性]

groupBitmapState 和groupBitmapMergeState区别

前者把普通值聚合成bitmap ，后者是bitmap之间进行并集的聚合

select bitmapToArray(
bitmapAnd ( (select groupBitmapMergeState(us) from user_tag_value_string where tag_value in ('90后','80后') and tag_code='agegroup') ,
(select us from user_tag_value_string where tag_value='ms' and tag_code='favor') )
);

先对多个年龄组取并集，然后去交集。

询时，有可能需要针对某一个标签，取多个值，甚至是一个区间范围，那就会涉及多个值的userId集合，因此需要在子查询内部用groupBitmapMergeState进行一次合并，其实就多个集合取并集。

比如要取 [90后]或者[80后] + [美食]或者[书籍]

select bitmapToArray(
bitmapAnd ( (select groupBitmapMergeState(us) from user_tag_value_string where tag_value in ('90后','80后') and tag_code='agegroup') ,
(select groupBitmapMergeState(us) from user_tag_value_string where tag_value in ('ms','sj') and tag_code='favor') )
);

函数总结

函数
arrayJoin	宽表转Bitmap表需要行转列，要用arrayJoin把多列数组炸成行。
groupBitmapState	把聚合列的数字值聚合成Bitmap的聚合函数
bitmapAnd	求两个Bitmap值的交集
bitmapOr	求两个Bitmap值的并集
bitmapXor	求两个Bitmap值的差集(异或)
bitmapToArray	把Bitmap转换成数值数组
groupBitmapMergeState	把一列中多个bitmap值进行并集聚合。（连续值）
bitmapCardinality	求Bitmap包含的值个数

select tag_value,bitmapCardinality(us) from user_tag_value_string;

更多其他函数可以参考官网。

10.PE导出表蓝屏达人 PE文件结构 windows
一：定位导出表PIMAGE_NT_HEADERS->OptionalHeader->DataDirectory[0]typedefstruct_IMAGE_DATA_DIRECTORY{DWORDVirtualAddress;//导出表的RVADWORDSize;//导出表大小（没用）}IMAGE_DATA_DIRECTORY,*PIMAGE_DATA_DIRECTORY;该结构的VirtualA
时序数据库QuestDB在Winform窗体应用 ryan68888 时序数据库
以下是QuestDB在Winform使用的代码：//初始化privatevoidInit(){//创建数据库对象(用法和EFDappper一样通过new保证线程安全)SqlSugarClientDb=newSqlSugarClient(newConnectionConfig(){ConnectionString=“host=10.3.5.227;port=8812;username=admin;p
机器学习knnlearn1 XW-ABAP 机器学习机器学习人工智能
importmatplotlib.pyplotaspltimportnumpyasnpimportoperator#定义一个函数用于创建数据集defcreateDataSet():#定义特征矩阵，每个元素是一个二维坐标点，代表不同策略数据点的坐标group=np.array([[20,3],[15,5],[18,1],[5,17],[2,15],[3,20]])#定义每个数据点对应的标签，用于区分
docker gitlab 无法访问及502错误破解中小学～软硬件Ai（植入数学与物理） java技术
1、dockergitlab创建dockerrun-d--namegitlab\--restartalways\-p8443:443\-p83:80\-p8822:22\-v/gitlab/config:/etc/gitlab\-v/gitlab/logs:/var/log/gitlab\-vgitlab/data:/var/opt/gitlab\gitlab/gitlab-ce:13.3.7-c
基于 MySQL 和 Spring Boot 的在线论坛管理系统设计与实现城南|阿洋-计算机从小白到大神 mysql spring boot 数据库
markdownCopy✌全网粉丝20W+,csdn特邀作者、博客专家、CSDN[新星计划]导师、java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、pyhton、机器学习技术领域和毕业项目实战✌哈喽兄弟们，好久不见哦～最近整理了一下之前写过的一些小项目/毕业设计。发现还是有很多存货的，想一想既然放在电脑里面也吃灰，那么还不如分享出去，没准还可以帮助到
.net 4.0环境异步方法实现，异步委托和回调异常处理蔚蓝星空-大强异步多线程 c#asp.net
.net4.0环境异步方法实现，异步委托和回调异常处理无返回值的异步方法通过委托实现staticvoidMain(string[]args){//异步执行写入数据任务，不阻塞主线程任务SetDataAsync(1);Console.WriteLine("主线程后续任务...");Console.ReadKey();}publicstaticvoidSetDataAsync(intnum){//这里
Matlab绘制台风路径--数据来源：中国气象局热带气旋资料中心 e决 matlab
%读取台风数据fid=fopen('CH2009BST.txt','r');data=textscan(fid,'%s','Delimiter','\n');fclose(fid);data=data{1};%提取台风Morakot数据typhoon_data=[];is_dora=false;fori=1:length(data)line=data{i};%检查是否是Morakot台风的起始行i
SQL自学：怎么创建视图 m0_74823471 面试学习路线阿里巴巴 sql 数据库
在SQL中，视图是一种虚拟表，它是基于一个或多个表的查询结果集。视图并不实际存储数据，而是在每次查询时动态生成结果。一、创建视图的语法（以MySQL为例）CREATEVIEWview_nameASSELECTcolumn1,column2,...FROMtable_nameWHEREcondition;view_name：是要创建的视图的名称。column1,column2,...：要在视图中显示
conda篇----在已有conda环境的基础上升级python包心惠天意 conda python jvm
conda篇----在已有conda环境的基础上升级python包原先的python版本第一步：condaupdate--all(py11)[xxx@aivrs01xxx]$condaupdate--allCollectingpackagemetadata(current_repodata.json):doneSolvingenvironment:done==>WARNING:Anewervers
SQL数据更新小王Jacky 数据库学习 sql 数据库
1.插入数据**(1)插入单个元组**--向学生表S插入一条学生记录INSERTINTOS(SNO,SN,SEX,AGE,DEPT)VALUES('S001','张三','男',20,'计算机系');--向选课表SC插入一条选课记录INSERTINTOSC(SNO,CNO,SCORE)VALUES('S001','C001',85);**(2)插入多个元组**--向课程表C插入多条课程记录INSE
COMP 315: Cloud Computing for E-Commerce W_X_99515681 开发语言
Assignment1:JavascriptCOMP315:CloudComputingforE-CommerceFebruary20251IntroductionAcommontaskwhenbackendprogrammingisdatacleaning,whichistheprocessoftakinganinitialdatasetthatmaycontainerroneousorinco
pythontype函数使用_Python astype(np.float)函数使用方法解析 weixin_39870238 pythontype函数使用
Pythonastype(np.float)函数使用方法解析我的数据库如图结构我取了其中的nameagenr，做成array，只要所取数据存在str型，那么取出的数据，全部转化为str型，也就是array阵列的元素全是str，不管数据库定义的是不是int型。那么问题来了，取出的数据代入公式进行计算的时候，就会类型不符，这是就用到astype(np.float)代码如下importpymysqlim
如何安全删除MySQL字段？从原理到实战的保姆级指南！小丁学Java 产品资质管理系统安全 mysql 数据库
从MyISAM到InnoDB：解锁MySQL在线删除字段的终极指南真实案例：一次失败的DDL操作引发的思考场景复现：某业务表invite_codes需要删除invitor字段，执行以下命令时触发报错：ALTERTABLEinvite_codesDROPCOLUMNinvitor,ALGORITHM=INPLACE;--报错信息：ALGORITHM=INPLACEisnotsupportedfort
Spring Data JPA 的分页魔法：Pageable vs PageRequest，谁才是真正的“分页王”？✨ 小丁学Java Spring Data JPA 数据库
SpringDataJPA的分页魔法：PageablevsPageRequest，谁才是真正的“分页王”？嘿，各位技术探险家！今天我们要解锁SpringDataJPA的分页秘籍，聊聊Pageable和PageRequest这对“分页双人组”的爱恨情仇！从它们的关系到使用场景，再到一个让我抓狂的参数陷阱，这篇博客带你从迷雾走向光明，还有流程图助阵，快跟我一起跳进这个技术冒险吧！第一幕：分页的“魔法钥
mysql与mariadb版本对应_MySQL与MariaDB及各种版本杂谈 weixin_39616416
MySQL1.MySQLCommunityServer社区版本，开源免费，但不提供官方技术支持。(我们通常使用的MySQL版本)2.MySQLEnterpriseEdition企业版本，需付费，可以试用30天。3.MySQLCluster集群版，开源免费。可将几个MySQLServer封装成一个Server。4.MySQLClusterCGE高级集群版，需付费。5.MySQLWorkbench(G
SQL 错误 [1064] [42000] You have an error in your SQL syntax； check the manual that corresponds to yo web14786210723 sql 数据库
在为用户指定数据的时候，报错了，SQL错误[1064][42000]:YouhaveanerrorinyourSQLsyntax;checkthemanualthatcorrespondstoyoGRANTALLPRIVILEGESONjeecg-boot.*TO'jeecgoot'@'%';ERROR1064(42000):YouhaveanerrorinyourSQLsyntax;checkt
MariaDB 和 MySQL 版本关联 java我跟你拼了数据库笔记 mariadb mysql 数据库数据库篇版本关联
MariaDB和MySQL是两个常用的关系型数据库管理系统（RDBMS），它们在很多方面非常相似，因为MariaDB是MySQL的一个分支。MariaDB和MySQL之间的版本关联可以通过以下几个方面来理解：1.历史背景MySQL:MySQL是一个开源的数据库管理系统，由MySQLAB开发，后来被SunMicrosystems收购，再之后被Oracle收购。MariaDB:MariaDB是MySQ
因为mysql 8新的认证插件导致主从复制的IO线程失败库海无涯 mysql
1、错误信息Last_IO_Error:errorconnectingtomaster'[email protected]:3306'-retry-time:60retries:1message:Authenticationplugin'caching_sha2_password'reportederror:Authenticationrequiressecureconnection.2、
MySQL HA的全新篇章：Semisynchronous Replication迁移至InnoDB Cluster的实用指南库海无涯 MySQL mysql
1、概述临时接了一个搭建InnoDBCluster的活儿，客户给我说是有数据的，我当时想这不是非常简单吗？干活儿的时候，才发现并没有这么简单，接手的时候发现是SemisynchronousReplication的环境，然后把从库切换成InnoDBCluster的primary。2、环境复现2.1、从库5.140信息采集mysql>showreplicastatus\G***************
SpringBoot集成Flink-CDC，实现对数据库数据的监听 rkmhr_sef 面试学习路线阿里巴巴 spring boot flink 数据库
一、什么是CDC？CDC是ChangeDataCapture（变更数据获取）的简称。核心思想是，监测并捕获数据库的变动（包括数据或数据表的插入、更新以及删除等），将这些变更按发生的顺序完整记录下来，写入到消息中间件中以供其他服务进行订阅及消费。二、Flink-CDC是什么？CDCConnectorsforApacheFlink是一组用于ApacheFlink的源连接器，使用变更数据捕获(CDC)从
7种数据结构就很对数据结构 windows
7种数据结构顺序表sqlite.hseqlite.c单链表linklist.clinklist.h双链表doulinklist.cdoulinklist.h链式栈linkstack.clinkstack.h队列SeqQueue.cSeqQueue.h树tree.c哈希表hash.c顺序表sqlite.h#ifndef__SEQLIST_H__#define__SEQLIST_H__typedefs
docker 内容器访问另一个容器中的服务 docker容器网络
docker中有两个容器，分别名为mq和hyperf，想在hyperf中访问mq可以使用下面的方法1.创建网络dockernetworkcreatemynetwork2.将使用到的容器(如业务容器，mysql，redis，mq等容器)都加入到网络中dockernetworkconnectmynetworkhyperfdockernetworkconnectmynetworkmqdockernetw
docker避免容器中的内容被挂载的空目录覆盖(比如nginx的html目录) dockervolume
我有一个镜像jb:1.0，镜像中/jb下有一些内容需要挂载到宿主机来dockervolumecreatejb_volumedockerrun--namejb-v/home/dcw/data:/data--mountsource=jb,target=/jb-itdjb:1.0如果想修改宿主机中的内容可以通过下面命令找到挂载的内容在宿主机的位置dockerinspectjbimage.png
【赵渝强老师】达梦数据库的数据库对象数据库信创
达梦数据库中包含各种数据库对象，主要分为两大类型：基本数据库对象和复杂数据库对象。下面分别进行介绍。视频讲解如下：https://www.bilibili.com/video/BV1HwffYXEu5/?aid=113888909595...一、基本数据库对象常见的基本数据库对象有：表、索引、视图、序列、同义词等。之所以叫做基本数据库对象是因为这些对象直接使用一条DDL（DataDefinitio
使用Docker部署MySQL8.0.29 九思x docker
第一步：拉取镜像dockerpullmysql:8.0.29作用：从DockerHub拉取MySQL8.0.29官方镜像。第二步：启动容器dockerrun--nameshare_mysql\--restart=always\-vmysql-data:/var/lib/mysql\-p3306:3306\-eMYSQL_ROOT_PASSWORD=root\-dmysql:8.0.29参数说明：-
宝塔安装mayfly-go mayans005 数据库
mayfly-go:web版linux(终端文件脚本进程)、数据库(mysqlpgsql)、redis(单机哨兵集群)、mongo统一管理操作平台。1、终端执行命令下载程序包wgethttps://gitee.com/objs/mayfly-go/releases/download/v1.3.0/mayfly-go-linux-amd64.zip2、在宝塔新建一个MySQL数据库，将下载程序包中的
Indy TIDHttp与TIdMultiPartFormDataStream “"Range check error"解决阆遤 Delphi &Com integer 报表 session 工具 file
这两天在用indyhttp做一个数据上传式工具，在使用TIdMultiPartFormDataStream时，老是了现“Rangecheckerror“错误，一开始以为是自己代码中有漏洞，经２个小时调试，排除自身代码问题并DEBUG跟踪INDY源代码后，发现TIdMultiPartFormDataStream.IdRead中：CopyTIdBytes(FInternalBuffer,0,VBuff
开源项目推荐：Mayfly-go 周风队
开源项目推荐：Mayfly-gomayfly-goweb版linux(终端文件脚本进程)、数据库(mysqlpgsql高斯达梦)、redis(单机哨兵集群)、mongo统一管理操作平台。项目地址:https://gitcode.com/gh_mirrors/ma/mayfly-goMayfly-go是一个基于浏览器的统一管理操作平台，它支持多种数据库和系统管理功能。该项目主要使用Go语言和前端框架
推荐项目：Mayfly-Go - 高性能的时间序列数据库齐游菊Rosemary
推荐项目：Mayfly-Go-高性能的时间序列数据库mayfly-goweb版linux(终端文件脚本进程)、数据库(mysqlpgsql高斯达梦)、redis(单机哨兵集群)、mongo统一管理操作平台。项目地址:https://gitcode.com/gh_mirrors/ma/mayfly-go项目简介是一款由Dromara团队开发的高性能、轻量级时间序列数据库（TimeSeriesData
Mayfly-Go 开源项目教程方蕾嫒Falcon
Mayfly-Go开源项目教程mayfly-goweb版linux(终端文件脚本进程)、数据库(mysqlpgsql高斯达梦)、redis(单机哨兵集群)、mongo统一管理操作平台。项目地址:https://gitcode.com/gh_mirrors/ma/mayfly-go项目介绍Mayfly-Go是一个基于Go语言开发的开源项目，旨在提供一个轻量级、高性能的微服务框架。该项目由Dromar
SQL的各种连接查询 xieke90 UNION ALL UNION 外连接内连接 JOIN
一、内连接概念：内连接就是使用比较运算符根据每个表共有的列的值匹配两个表中的行。内连接（join 或者inner join ） SQL语法： select * fron
java编程思想--复用类百合不是茶 java 继承代理组合 final类
复用类看着标题都不知道是什么,再加上java编程思想翻译的比价难懂,所以知道现在才看这本软件界的奇书一:组合语法:就是将对象的引用放到新类中即可代码: package com.wj.reuse; /** * * @author Administrator 组
[开源与生态系统]国产CPU的生态系统 comsci cpu
计算机要从娃娃抓起...而孩子最喜欢玩游戏.... 要让国产CPU在国内市场形成自己的生态系统和产业链,国家和企业就不能够忘记游戏这个非常关键的环节.... 投入一些资金和资源,人力和政策,让游
JVM内存区域划分Eden Space、Survivor Space、Tenured Gen，Perm Gen解释商人shang jvm内存
jvm区域总体分两类，heap区和非heap区。heap区又分：Eden Space（伊甸园）、Survivor Space(幸存者区)、Tenured Gen（老年代-养老区）。非heap区又分：Code Cache(代码缓存区)、Perm Gen（永久代）、Jvm Stack(java虚拟机栈)、Local Method Statck(本地方法栈)。 HotSpot虚拟机GC算法采用分代收
页面上调用 QQ oloz qq
<A href="tencent://message/?uin=707321921&Site=有事Q我&Menu=yes"> <img style="border:0px;" src=http://wpa.qq.com/pa?p=1:707321921:1></a>
一些问题文强chu 问题
1.eclipse 导出 doc 出现“The Javadoc command does not exist.” javadoc command 选择 jdk/bin/javadoc.exe 2.tomcate 配置 web 项目 ..... SQL:3.mysql * 必须得放前面否则 select&nbs
生活没有安全感小桔子生活孤独安全感
圈子好小，身边朋友没几个，交心的更是少之又少。在深圳，除了男朋友，没几个亲密的人。不知不觉男朋友成了唯一的依靠，毫不夸张的说，业余生活的全部。现在感情好，也很幸福的。但是说不准难免人心会变嘛，不发生什么大家都乐融融，发生什么很难处理。我想说如果不幸被分手(无论原因如何)，生活难免变化很大，在深圳，我没交心的朋友。明
php 基础语法 aichenglong php 基本语法
1 .1 php变量必须以$开头 <?php $a=” b”; echo ?> 1 .2 php基本数据库类型 Integer float/double Boolean string 1 .3 复合数据类型数组array和对象 object 1 .4 特殊数据类型 null 资源类型(resource) $co
mybatis tools 配置详解 AILIKES mybatis
MyBatis Generator中文文档 MyBatis Generator中文文档地址： http://generator.sturgeon.mopaas.com/ 该中文文档由于尽可能和原文内容一致，所以有些地方如果不熟悉，看中文版的文档的也会有一定的障碍，所以本章根据该中文文档以及实际应用，使用通俗的语言来讲解详细的配置。本文使用Markdown进行编辑，但是博客显示效
继承与多态的探讨百合不是茶 JAVA面向对象继承对象
继承 extends 多态继承是面向对象最经常使用的特征之一：继承语法是通过继承发、基类的域和方法 //继承就是从现有的类中生成一个新的类，这个新类拥有现有类的所有extends是使用继承的关键字：在A类中定义属性和方法； class A{ //定义属性 int age； //定义方法 public void go
JS的undefined与null的实例 bijian1013 JavaScript JavaScript
<form name="theform" id="theform"> </form> <script language="javascript"> var a alert(typeof(b)); //这里提示undefined if(theform.datas
TDD实践（一） bijian1013 java 敏捷 TDD
一.TDD概述 TDD：测试驱动开发，它的基本思想就是在开发功能代码之前，先编写测试代码。也就是说在明确要开发某个功能后，首先思考如何对这个功能进行测试，并完成测试代码的编写，然后编写相关的代码满足这些测试用例。然后循环进行添加其他功能，直到完全部功能的开发。
[Maven学习笔记十]Maven Profile与资源文件过滤器 bit1129 maven
什么是Maven Profile Maven Profile的含义是针对编译打包环境和编译打包目的配置定制，可以在不同的环境上选择相应的配置，例如DB信息，可以根据是为开发环境编译打包，还是为生产环境编译打包，动态的选择正确的DB配置信息 Profile的激活机制 1.Profile可以手工激活，比如在Intellij Idea的Maven Project视图中可以选择一个P
【Hive八】Hive用户自定义生成表函数(UDTF) bit1129 hive
1. 什么是UDTF UDTF，是User Defined Table-Generating Functions，一眼看上去，貌似是用户自定义生成表函数，这个生成表不应该理解为生成了一个HQL Table，貌似更应该理解为生成了类似关系表的二维行数据集 2. 如何实现UDTF 继承org.apache.hadoop.hive.ql.udf.generic
tfs restful api 加auth 2.0认计 ronin47
　　目前思考如何给tfs的ngx-tfs api增加安全性。有如下两点：　　一是基于客户端的ip设置。这个比较容易实现。　　二是基于OAuth2.0认证，这个需要lua，实现起来相对于一来说，有些难度。　　现在重点介绍第二种方法实现思路。　　前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGe
jdk环境变量配置 byalias java jdk
进行java开发，首先要安装jdk，安装了jdk后还要进行环境变量配置： 1、下载jdk（http://java.sun.com/javase/downloads/index.jsp），我下载的版本是：jdk-7u79-windows-x64.exe 2、安装jdk-7u79-windows-x64.exe 3、配置环境变量：右击"计算机"-->&quo
《代码大全》表驱动法-Table Driven Approach-2 bylijinnan java
package com.ljn.base; import java.io.BufferedReader; import java.io.FileInputStream; import java.io.InputStreamReader; import java.util.ArrayList; import java.util.Collections; import java.uti
SQL 数值四舍五入小数点后保留2位 chicony 四舍五入
1.round() 函数是四舍五入用，第一个参数是我们要被操作的数据，第二个参数是设置我们四舍五入之后小数点后显示几位。 2.numeric 函数的2个参数，第一个表示数据长度，第二个参数表示小数点后位数。例如：　　select cast(round(12.5,2) as numeric(5,2))
c++运算符重载 CrazyMizzz C++
一、加+，减-，乘*，除/ 的运算符重载 Rational operator*(const Rational &x) const{ return Rational(x.a * this->a); } 在这里只写乘法的，加减除的写法类似二、<<输出,>>输入的运算符重载 &nb
hive DDL语法汇总 daizj hive 修改列 DDL 修改表
hive DDL语法汇总１、对表重命名 hive> ALTER TABLE table_name RENAME TO new_table_name; 2、修改表备注 hive> ALTER TABLE table_name SET TBLPROPERTIES ('comment' = new_comm
jbox使用说明 dcj3sjt126com Web
参考网址：http://www.kudystudio.com/jbox/jbox-demo.html jBox v2.3 beta [ 点击下载] 技术交流QQGroup：172543951 100521167 [2011-11-11] jBox v2.3 正式版 - [调整&修复] IE6下有iframe或页面有active、applet控件
UISegmentedControl 开发笔记 dcj3sjt126com
// typedef NS_ENUM(NSInteger, UISegmentedControlStyle) { // UISegmentedControlStylePlain, // large plain &
Slick生成表映射文件 ekian scala
Scala添加SLICK进行数据库操作，需在sbt文件上添加slick-codegen包 "com.typesafe.slick" %% "slick-codegen" % slickVersion 因为我是连接SQL Server数据库，还需添加slick-extensions，jtds包 "com.typesa
ES-TEST gengzg test
package com.MarkNum; import java.io.IOException; import java.util.Date; import java.util.HashMap; import java.util.Map; import javax.servlet.ServletException; import javax.servlet.annotation
为何外键不再推荐使用 hugh.wang mysql DB
表的关联，是一种逻辑关系，并不需要进行物理上的“硬关联”，而且你所期望的关联，其实只是其数据上存在一定的联系而已，而这种联系实际上是在设计之初就定义好的固有逻辑。在业务代码中实现的时候，只要按照设计之初的这种固有关联逻辑来处理数据即可，并不需要在数据库层面进行“硬关联”，因为在数据库层面通过使用外键的方式进行“硬关联”，会带来很多额外的资源消耗来进行一致性和完整性校验，即使很多时候我们并不
领域驱动设计 julyflame VO DAO 设计模式 DTO po
概念： VO（View Object）：视图对象，用于展示层，它的作用是把某个指定页面（或组件）的所有数据封装起来。 DTO（Data Transfer Object）：数据传输对象，这个概念来源于J2EE的设计模式，原来的目的是为了EJB的分布式应用提供粗粒度的数据实体，以减少分布式调用的次数，从而提高分布式调用的性能和降低网络负载，但在这里，我泛指用于展示层与服务层之间的数据传输对
单例设计模式 hm4123660 java Singleton 单例设计模式懒汉式饿汉式
单例模式是一种常用的软件设计模式。在它的核心结构中只包含一个被称为单例类的特殊类。通过单例模式可以保证系统中一个类只有一个实例而且该实例易于外界访问，从而方便对实例个数的控制并节约系统源。如果希望在系统中某个类的对象只能存在一个，单例模式是最好的解决方案。 &nb
logback zhb8015 log logback
一、logback的介绍 Logback是由log4j创始人设计的又一个开源日志组件。logback当前分成三个模块：logback-core,logback- classic和logback-access。logback-core是其它两个模块的基础模块。logback-classic是log4j的一个改良版本。此外logback-class
整合Kafka到Spark Streaming——代码示例和挑战 Stark_Summer spark storm zookeeper PARALLELISM processing
作者Michael G. Noll是瑞士的一位工程师和研究员，效力于Verisign，是Verisign实验室的大规模数据分析基础设施（基础Hadoop）的技术主管。本文，Michael详细的演示了如何将Kafka整合到Spark Streaming中。期间， Michael还提到了将Kafka整合到 Spark Streaming中的一些现状，非常值得阅读，虽然有一些信息在Spark 1.2版
spring-master-slave-commondao 王新春 DAO spring dataSource slave master
互联网的web项目，都有个特点：请求的并发量高，其中请求最耗时的db操作，又是系统优化的重中之重。为此，往往搭建 db的一主多从库的数据库架构。作为web的DAO层，要保证针对主库进行写操作，对多个从库进行读操作。当然在一些请求中，为了避免主从复制的延迟导致的数据不一致性，部分的读操作也要到主库上。（这种需求一般通过业务垂直分开，比如下单业务的代码所部署的机器，读去应该也要从主库读取数

【用户画像】将数据迁移到ClickHouse（源码实现）、位图的介绍（bitmap）、位图在用户分群中的应用、位图的使用

文章目录

一 数据迁移至Clickhouse

1 为何要迁移

2 方案选型

3 任务目标

4 设计分析

5 代码实现

（1 ）pom.xml

（2）配置文件

（3）创建库

6 打包发布

二 在clickhouse中宽表转换为Bitmap表

1 为什么用位图（Bitmap）?

（1）存储成本

（2）天然去重

（3）快速定位

（4）集合间计算

（5）优势场景

（6）局限性

2 Bitmap在用户分群中的应用

（1）现状

（2）传统解决方案

（3）更好的方案

3 在clickhouse中使用Bitmap表

（1） SQL实现

（2） 在clickhouse中使用Bitmap表

建表和数据

数据转换

创建Bitmap表

插入数据

对Bitmap进行查询

对Bitmap进行查询

范围值查询

函数总结

你可能感兴趣的:(用户画像,big,data,clickhouse,database,sql)

一数据迁移至Clickhouse

二在clickhouse中宽表转换为Bitmap表

（2）在clickhouse中使用Bitmap表