本文来自 网易云社区
最近为产品做了一次HBase的数据迁移操作,学习了一些相关的技术和实现方案。现整理出来,作为今后HBase数据迁移的参考。如有纰漏,欢迎指正。
1. 前期准备
1.1 确认集群使用的版本
源HBase集群(以下称旧集群)和目的HBase集群(以下称新集群)的版本可能并不是一致的,特别是其底层所使用的HDFS版本信息。譬如这样一个数据迁移场景:业务希望从低版本的HBase集群(0.94.x)迁移到当前稳定的HBase集群(1.2.x),因为新版本的HBase有新特性,Bug更少,稳定性和可运维行更优。理论上新版本会兼容老版本的API,但是如果彼此版本差距过大,可能会出现HDFS RPC版本不一致(一般来说是Protobuf的版本),那么集群之间的迁移就会因为彼此与对方的NameNode无法进行通信而无法进行。 这种情况下,需要先考虑升级低版本的HDFS。
1.2 确认集群是否开启Kerberos认证
这里会有三种可能情况:一是都未开启认证,二是都开启认证,三是一个开了,另一个没开。前两种情况按照正常的认证(或非认证)的配置操作即可,第三种情况则需要在开启了认证的集群上开启 ipc.client.fallback-to-simple-auth-allowed 参数,意即在使用Kerberos的方式访问非Kerberos的集群时,系统自动转换成简单认证,否则会出现认证问题。Kerberos的配置和使用本文不做展开。
1.3 确认操作账号的读写权限问题
要在不同的HBase集群之间做数据迁移,必然要涉及到不同集群的读写权限问题。HBase使用ACL来管理不同数据表的读写权限,在开启了Kerberos认证的环境下,还需要验证Kerberos;而HBase使用的HDFS自身也有一套类似的权限管理规则,当两个集群配置不同时(如部署账号不一致),极易出现冲突。在迁移前需要确认两个集群的管理员账号(HDFS和HBase账号)是否一致,如果不一致,需要开通权限。
1.4 开启YARN服务
数据迁移任务本质上是一个MapRedcue任务,故需要在一个集群上开启YARN服务。如何选择在哪个集群上开呢?建议是在新集群上开,因为旧集群上可能还需要继续跑线上业务,在上面起大量Map任务并把数据远程写入到新集群,会对线上业务带来较大的性能影响;而新集群较大可能是一个独立集群,尚没有业务运行,在其上运行Map任务通过网络从旧集群中拉数据到本地写入,性价比更高,且对线上业务的侵入性更低。
在HBase集群上配置YARN服务可以查阅其安装部署文档,这里不做展开。
1.5 确认数据迁移的SLA
数据迁移是否是在线迁移,即业务不能中断。若业务允许做离线迁移,可以先将该表Disable后再做迁移,然后在新集群上重新clone成新表即可;但若需要在线进行迁移,则需要提前新集群上生成对应的HBase表,开启ACL权限等操作,并让业务开启数据双写,确保两个集群的数据在迁移时刻之后的数据是一致的。因为数据迁移和后续的数据合并耗时都很长,如果不开启双写,是无法达到数据一致性要求的。所以大多数情况下,业务都是要求数据迁移以在线方式进行。
1.6 源集群开启Snapshot
HBase的Snapshot是从0.94.6之后才引入的特性,开启Snapshot特性需要开启 hbase.snapshot.enabled (默认已开启)。如果没有开启该特性,则需要重启服务以开启该特性;如果版本过低,就只能使用其他对业务影响较大的CopyTable/ExportTable(需要Disable表)才能操作。
2. 生成HBase表和Region
完成前期的验证和准备工作后,就可以在新集群中创建待迁移的目的表和域(以下称Region)了。 因为迁移过程中业务需要开启双写,所以目的表结构必须和源表是一致;同时源数据表可能已经存在多个Region了,那么目的表也必须提前规划好这些Region,以免双写期间出现Region数量不足出现热点或者Region内文件数过多频繁Compact导致线上业务出现性能问题。 这里详细说明下如何正确创建一个带有多个Region的表。
2.1 使用RegionSplitter生成表
如果新建一个自带多个Region的表,可以使用以下命令:
例1. 生成一个表 t1, 有30个region,且表有一个列族"d",则使用
bin/hbase org.apache.hadoop.hbase.util.RegionSplitter t1 UniformSplit -c 30 -f d
例2. 生成一个表 t2, 有10个region,有两个列族 d1,d2, 其起始rowkey是'0'
bin/hbase org.apache.hadoop.hbase.util.RegionSplitter t2 UniformSplit -c 10 -f d1:d2 --firstrow '0'
2.2 使用HBase Shell生成表
使用HBase shell中的create命令也可以直接生成多个Regions,前提是必须要指定split keys
例3. 生成一个表 t3,按照'10','20','30','40'为Regions的split keys
create 't3', 'f1', SPLITS => ['10', '20', '30', '40']
整个表划分成5个Region,其起始和结束key分别是 ['0','10'],['10','20'],['20','30'],['30','40'],['40',-]
2.3 将已有的表重新切分或合并
如果一个表的Region范围过大,可以使用split来将其切分成两个子Region
split 't1', '1'
split '110e80fecae753e848eaaa08843a3e87', '\x001'
同理,如果表的Region过于零散,可以使用merge_region来进行合并
hbase> merge_region 'ENCODED_REGIONNAME', 'ENCODED_REGIONNAME'
hbase> merge_region 'ENCODED_REGIONNAME', 'ENCODED_REGIONNAME', true
具体的操作命令用户可以自己查看HBase的相关文档来了解。
注: 在为迁移的目的表划分多个Region时,其StartEndKey最好和旧HBase集群中源表分布一致。这样后续文件加载时,不需要额外进行过多的拆分,可以节省载入时间。另外有一点需要说明,使用splitKey时,系统不支持Hex字符串。 如果想用HexString来作为自己Region的StartKey,则需要对HBase的客户端代码进行简单的修改。简单来说需要能支持Bytes.toBinaryString()方法, 但系统读取后都是直接用Byets.toBytes()方法。 具体的代码实现,可以私聊。
3. Snapshot机制与使用
HBase快照是一份指向多个HFile文件的元数据文件。在执行snapshot命令时,不会触发任何的HBase数据操作,所以这个命令非常高效。使用快照来恢复或克隆一个表也非常快,因为它只需要引用已有的HFile文件即可。所以使用Snapshot进行数据迁移的优势就是备份和拷贝数据对线上服务没有影响,或者影响极低。其流程如下:
执行snapshot命令时,Master会从自己管理的meta信息中,找到该表所在RegionServer,然后下发该命令到相应的一个或多个RegionServer(RS)
RS负责生成HFile文件引用,同时会获取其Region的HFile文件信息,将当前文件的大小写入到manifest文件中。
HFile文件是使用Append方式来添加的,所以某一个时刻的文件大小相当于记录了一份当前时刻的文件偏移量。 恢复时,系统也只会读到该偏移量的位置。 如果想再次对该表做快照,那么文件引用的偏移量会正确设置为当前HFile的大小。
Snapshot命令有一个skipFlush参数,设置为true时,会强制将RS的MemStore里内容刷到磁盘中,可能会造成RS短暂的中止服务。时间长短视内存中的数据量而定。 在这里我们不需要靠强制刷新出内存中的数据来保证数据完整性,理由如下:
如果我们使用的是停服迁移的方式,那么使用快照时内存中是没有数据写入的。
如果使用的双写迁移的方案,则快照时存在于内存中的那部分数据实际上会被双写到另外的集群中,同样不会有数据丢失的问题。
3.1 创建快照
hbase> snapshot 'sourceTable', 'snapshotName'
hbase> snapshot 'namespace:sourceTable', 'snapshotName', {SKIP_FLUSH => true}
3.2 查看快照
hbase> list_snapshots
hbase> list_snapshots 'abc.*'
3.3 克隆快照
hbase> clone_snapshot 'snapshotName', 'tableName'
hbase> clone_snapshot 'snapshotName', 'namespace:tableName'
生成snapshot后,可以通过hadoop的Shell命令来查看到对应的snapshot目录
bin/hadoop fs -ls /hbase/.hbase-snapshot/newSnapshot
Found 2 items
-rw-r--r-- 3 xxx xxx 35 2017-04-24 21:58 /hbase/.hbase-snapshot/newSnapshot/.snapshotinfo
-rw-r--r-- 3 xxx xxx 486 2017-04-24 21:58 /hbase/.hbase-snapshot/newSnapshot/data.manifest
4. 使用ExportSnapshot工具迁移快照数据
ExportSnapshot是HBase提供的Snapshot迁移工具,其使用方法见下图:
可以看出,这个工具的参数列表和HDFS的DistCp工具很类似。其简要流程如下:
首先通过HDFS的cp方法,将/.hbase-snapshot/newSnapshot目录拷贝至新集群上
然后将/hbase/data/下面的数据文件通过MapReduce的方式(DistCp)拷贝至 新集群的/hbase/archive/data/
最后检查snapshot相关文件的完整性
5. 数据合并方式
一旦数据迁移到了新集群,我们可以通过clone_snapshot 命令重新生成该表,如果业务是一个可以支持离线迁移的,那迁移工作也就算完成了。更多的情况是,业务开了双写,即老集群和新集群同时在更新数据,我们需要把迁移后的数据进行合并。这里有三种方法:
5.1. 使用Phoenix SQL导入
需要在新集群上开启Phoenix支持(如何安装Phoenix见相关文档)
假设双写的新表为A',A'表必须使用Phoenix的接口来创建。其使用方法与常规的SQL语法类似,但是要注意其splitKey的用法:
例1. 创建一个表t1,只有一个列族f1,有1个修饰字段body, splitKey为['a','b','c']
CREATE TABLE IF NOT EXISTS t1
( "id" char(10) not null primary key, "f1".body varchar)
DATA_BLOCK_ENCODING='NONE',VERSIONS=5,MAX_FILESIZE=2000000 split on ('a', 'b', 'c')
使用clone_snapshot命令将迁移的数据重新生成一个HBase表B,然后再使用Phoenix的DDL重新生成B表(和实际的表B不会冲突,Phoenix的元数据存在另外的目录下),最后使用UPSERT SELECT命令将B表中的数据插入到双写的A’表即可
UPSERT INTO A'("id","f1".body) SELECT "id","f1".body FROM B;
注: 使用Phoenix的问题在于,原来的业务模式需要做较大改动以适应新的JDBC访问HBase方式。
5.2. 使用MapReduce导入
使用MapReduce导入需要有YARN服务支持,同样需要先使用clone_snapshot命令将迁移的数据重新生成一个HBase表。
用户需要使用HBase的API从表中读取记录,然后插入到新的表,这个方法实际上就是上面Phoenix的底层实现。如果集群没有安装Phoenix插件,可以用这个方法。但这个方法的缺点也是显而易见,需要自己写代码来实现在一个Map中实现上述操作,且如何切分RowKey到各个Map任务中也是一个不小的难题。
5.3. 使用IncrementLoadHFile工具
顾名思义,这个工具可以实现往HBase表中添加HFile来实现数据的批量写入,其使用方法如下:
bin/hbase org.apache.hadoop.hbase.mapreduce.LoadIncrementalHFiles
usage: completebulkload /path/to/hfileoutputformat-output tablename
-Dcreate.table=no - can be used to avoid creation of table by this tool
Note: if you set this to 'no', then the target table must already exist in HBase
这个工具的使用说明很简单,只需要提供一个HFile文件所在的Hdfs路径名和所需要写入的HBase Table名即可。 例1. 将/tmp/hbase/archive/data/test/test/f8510124151cabf704bc02c9c7e687f6目录下的HFile文件加载到test:test表中
bin/hbase org.apache.hadoop.hbase.mapreduce.LoadIncrementalHFiles -Dcreate.table=no /tmp/hbase/archive/data/test/test/f8510124151cabf704bc02c9c7e687f6 test:test
其实现原理说明如下:
首先确认目录下的HFile文件是否合法,得到一个文件列表。
从列表中获取某一个HFile,获取文件的起始和结束rowKey
查找要导入到新表的各个Region,得到其StartEndKeys(每次都是重新重启)
根据HFile的startKey,判断该HFile应该插入的Region位置
以该HFile的起始rowkey所要插入的Region的EndKey将文件切成top和bottom两部分,将这2个文件加入到待加载的文件列表中
使用SecureBulkLoadHFile方法一次性批量加载这些文件,如果其中有文件加载失败,则方法失败,返回异常的文件列表。
将返回的异常文件,加入到循环加载的文件列表里。
继续重复2-7整个流程,直至完成加载或达到重试阈值而异常退出。
SecureLoadHFile的原理也很简单,它是一个原子操作,所以操作过程中会有短暂的卡顿。
检查待加载的HFiles是否来自多个列族,需要对多个列族同时加锁以保障一致性。
检查该次操作是否满足相关权限要求,同时也会将对应的HFile文件进行权限变更操作
完成HFile文件加载,新的HFile引用被加入到Region的StoreFile列表中。
对这块逻辑感兴趣的同学,可以自行查阅SecureBulkLoadEndpoint,HRegion,HStore等类。
关于如何减少批量加载的时间,有以下几点需要注意:
如果新集群上的regions的起始和结束rowkey分布正好和旧集群一致,那么使用批量加载HFile的方式可以最快的方式来合并到线上表中。否则就需要针对新的Region来拆分HFile。
调整hbase.hregion.max.filesize 参数,该参数用于控制一个Region下的最大HFile的文件大小,超过该值后,系统会强制拆分这个文件。新旧集群上这个参数配置可能会不一致,为了尽快完成加载,可以考虑将其设置成一致,或者新集群上的配置更大,这样也能减少加载时间
该工具默认的重试次数是10次,即一个Hfile如果拆分次数超过10次,就会放弃本次批量加载。 需要注意留意日志
6. 数据验证
HFile文件增量加载更新完毕之后,进行数据验证流程。因为数据量实在太大,不可能对两边的HBase表中的记录做一一比对,故可进行抽样验证。按照Snapshot和双写的机制来讲,数据可能有重复,但不可能存在丢失的情况。验证算法描述如下:
按照迁移过程中不同阶段,划分成不同的时间区域。 对于每一个时间区间,选一个子区间作为样本
选定旧集群中的A表,获取其Region信息,得到每个Region的起始rowkey
按照每个Region的起始rowkey, 顺序查找 N 条该区间中的rowkey记录
根据上一步拿到的rowkey到相应的测试表中(A')中查找是否能找到匹配的记录。
找到记录后,对比相应Column+Cell信息,能够都完全匹配即为一个匹配的记录(因为双写的原因,时间戳会有先后,故不判断时间戳。rowkey已能满足要求)
使用Java连接Kerberized HBase的需要的配置如下:
hbase-site.xml
fs.defaultFS
hdfs://test1.163.org:8020
hbase.rootdir
hdfs://test1.163.org:8020/hbase
hbase.zookeeper.quorum
test1.163.org,test2.163.org,test3.163.org
zookeeper.znode.parent
/hbase
hbase.cluster.distributed
true
hadoop.security.authorization
true
hadoop.security.authentication
kerberos
hbase.rpc.timeout
180000
hbase.client.operation.timeout
120000
hbase.security.authentication
kerberos
hbase.security.authorization
true
dfs.namenode.principal
hdfs/[email protected]
hbase.master.kerberos.principal
hbase/[email protected]
hbase.regionserver.kerberos.principal
hbase/[email protected]
hbase.client.scanner.caching
100000
认证模块的代码片段如下(仅作参考)
Configuration configuration = HBaseConfiguration.create();
configuration.addResource("hbase-site.xml");
UserGroupInformation.setConfiguration(configuration);
UserGroupInformation.loginUserFromKeytab("principal", "keytab.path");
TableName tableName = TableName.valueOf("hbase.table.name"));
Connection connection = ConnectionFactory.createConnection(configuration);
HTable table = (HTable) connection.getTable(tableName);
7. 事后操作
因为批量加载操作会对原HFile文件进行多次拷贝,拆分等操作,会消耗大量的HDFS存储资源和物理机磁盘空间。 在数据合并完成并验证后,可以清理掉这些临时结果。此外如果在加载过程中出现了较多的自动Region切分,也可在此时重新将小Region进行合并。 最后在新集群上专门为数据迁移开启的YARN服务也可以停掉了,减少对HBase服务的影响。
原文:HBase数据迁移实战
本文来自网易云社区,经作者金川授权发布。
了解 网易云 :
网易云官网:https://www.163yun.com
云创大会0元抢购早鸟票:https://yc.163yun.com
云产品全面促销5折起:https://www.163yun.com/activity/promotion
你可能感兴趣的:(大数据,HBase,网易云)
海量数据查找最大K个值:数据结构与算法的选择
星辰@Sea
数据结构 Java 数据结构
在处理大数据集时,经常需要找到数据集中最大的K个元素,这样的需求在很多领域都有广泛应用,例如推荐系统中寻找评分最高的K个商品、数据分析中找出最重要的K个特征、搜索引擎中找到排名前K的结果等等。面对海量数据,传统的排序方法可能不再适用,因为它们通常具有较高的时间复杂度。因此,选择合适的数据结构和算法对于提高效率至关重要。本文将详细介绍如何在海量数据集中查找最大的K个值,探讨不同的数据结构与算法选择,
Google大数据架构技术栈
剑海风云
Big Data 大数据 架构 Google BigData
数据存储层ColossusColossus作为Google下一代GFS(GoogleFileSystem)。GFS本身存在一些不足单主瓶颈GFS依赖单个主节点进行元数据管理,随着数据量和访问请求的增长,出现了可扩展性瓶颈。想象一下,只有一位图书管理员管理着一个庞大的图书馆——最终,事情变得难以承受。元数据可扩展性有限主节点上的集中元数据存储无法有效扩展,影响了性能并妨碍了PB和EB级数据的管理。实
Hbase - 迁移数据[导出,导入]
kikiki5
>有没有这样一样情况,把一个集群中的某个表导到另一个群集中,或者hbase的表结构发生了更改,但是数据还要,比如预分区没做,导致某台RegionServer很吃紧,Hbase的导出导出都可以很快的完成这些操作。![](https://upload-images.jianshu.io/upload_images/9028759-4fb9aa8ca3777969.png?imageMogr2/auto
绿色智慧档案馆构想之智慧档案馆环境综合管控一体化平台
盛世宏博智慧档案
智慧档案馆 智慧档案馆
【智慧档案馆整体效果图】智慧档案库房一体化平台通过智慧档案管理,实现智慧档案感知协同处置功能;实现对档案实体的智能化识别、定位、跟踪监控;实现对档案至智能密集架、空气恒湿净化一体设备、安防设备,门禁设备等智能化巡检与即时处理。智慧档案平台基于物联网、云计算、大数据、档案人健康防护、档案安全防护等新技术,实现了对档案的收、管、存、用全业务流程管理;实现了对档案实体资源与数字资源的集中建设与管理;实现
大数据时代,我们都是透明人
随心追梦人
随着科技的飞速发展,现在的吃穿住行变得愈发的便捷,各种新兴产业也顺应着时代的发展营运而生,许多跟不上时代的产业,技术也随之被淘汰,中国真正进入了新时代!新时代有几个特点,其中之一便是信息技术的发展让我们生活更便捷,与此同时,各行业获取客户的信息也更方便和完整,收集到的数据再加以运用又会助力其他产业的更新和进步,这就是大数据的作用。前两天,一个同事说他买的房今年10月接房,前两天就有好几个装修公司给
通过DBeaver连接Phoenix操作hbase
不想做咸鱼的王富贵
通过DBeaver连接Phoenix操作hbase前言本文介绍常用一种通用数据库工具Dbeaver,DBeaver可通过JDBC连接到数据库,可以支持几乎所有的数据库产品,包括:MySQL、PostgreSQL、MariaDB、SQLite、Oracle、Db2、SQLServer、Sybase、MSAccess、Teradata、Firebird、Derby等等。商业版本更是可以支持各种NoSQ
包月5元!网易云音乐宣布学生会员降价:比苹果Apple Music良心
氧惠好物
亲爱的网易云音乐用户们,好消息来啦!为了回馈广大学生用户的支持,网易云音乐现在将学生会员的价格降到了每月5元!这是网易云音乐历史上力度最大的回馈行动之一。氧惠APP(带货领导者)——是与以往完全不同的抖客+淘客app!2024全新模式,我的直推也会放到你下面。主打:带货高补贴,深受各位带货团队长喜爱(每天出单带货几十万单)。注册即可享受高补贴+0撸+捡漏等带货新体验。送万元推广大礼包,教你如何1年
虚拟现实智能家居实训系统实训解决方案
武汉唯众智创
智能家居实训系统 智能家居实训室 虚拟现实智能家居实训系统
随着科技的飞速发展,智能家居已成为现代生活的重要组成部分,它不仅极大地提升了居住的便捷性与舒适度,还推动了物联网、大数据、人工智能等前沿技术的融合应用。为了满足市场对智能家居专业人才日益增长的需求,虚拟现实智能家居实训系统实训解决方案旨在通过高度仿真的虚拟环境,为职业院校学生提供全面、高效、安全的智能家居系统学习与实践平台。一、解决方案概述该方案是一款深度融合教学理论、实践操作与效果评估的全方位解
命令行工具部署达梦数据库 DMDPC(BP 多副本架构)
百代繁华一朝都-绮罗生
数据库 架构 网络
解达梦数据库DPC集群的主要使用场景:DMDPC关注和解决的是大数据、计算与存储分离、高可用、支持全部的SQL标准、拥有完整的事务处理能力和集群规模能够动态伸缩的业务场景:大量的复杂查询操作要求优化器能够生成优良的执行计划,并且执行引擎能够充分利用多机器、多核的硬件资源某些行业对数据一致性和多副本备份容灾有较高要求,同时希望维护成本足够低和故障恢复时间足够短;用户的业务规模有峰值,要求所需的机器资
Hbase - kerberos认证异常
kikiki2
之前怎么认证都认证不上,问题找了好了,发现它的异常跟实际操作根本就对不上,死马当活马医,当时也是瞎改才好的,给大家伙记录记录。KrbException:ServernotfoundinKerberosdatabase(7)-LOOKING_UP_SERVER>>>KdcAccessibility:removestorm1.starsriver.cnatsun.security.krb5.KrbTg
国家等保 2.0 时代,你的移动安全要如何防护?
Reneeeeee412
移动互联时代,什么对企业最重要?是人才?是技术?在勒索病毒“WannaCry”肆虐全球之后企业更加意识到安全才是关键所在跃至2.0时代国家等级保护范围扩展到新领域在信息安全领域,国家提出了最为深远的保障制度——信息安全等级保护制度。在2017年5月等保制度顺应时代要求一跃升级到2.0,不仅安全等级的评定条件更加严格,保护要求也扩展到移动互联、云计算、大数据、物联网和工业控制等新技术和新应用领域。在
计算机毕业设计选题推荐-基于Python框架项目推荐(中)
计算机毕设大佬
Java毕设实战项目 Python毕设实战项目 爬虫+大数据毕设实战项目 python 计算机毕业设计 django 计算机毕业设计如何选题 25届计算机毕业设计如何选题 计算机毕业设计选题推荐 24届计算机毕设选题推荐
博主介绍:✌十余年IT大项目实战经验、在某机构培训学员上千名、专注于本行业领域✌技术范围:Java实战项目、Python实战项目、微信小程序/安卓实战项目、爬虫+大数据实战项目、Nodejs实战项目、PHP实战项目、.NET实战项目、Golang实战项目。主要内容:系统功能设计、开题报告、任务书、系统功能实现、功能代码讲解、答辩PPT、文档编写、文档修改、文档降重、一对一辅导答辩。获取源码可以联系
VBA 把Excel表当做一个大数据库来操作
码猩
excelVBA专栏 excel 数据库
VBA把Excel表当做一个大数据库来操作SubSqlQueryBJD(strBillNoAsString)DimstrSqlAsStringDimarrCol()AsStringDimstrLineWhereDimarrWhere()AsStringDimstrWhereValAsStringDimstrResultShowRngAsStringDimstrWhereRngAsStringDim
淘宝购物攻略,省钱技巧大揭秘!
测评君高省
淘宝买东西省钱的方法有哪些?很早之前就已经开始实行网购返利,但还是有那么一部分人不愿意相信,戒备心的驱使下网购一直都是原价,但用大数据告诉你淘宝一年返利好几亿,就我本人一个月返利都好几百,特别是在双十一那种电商节的时候返利提现上千很容易。首先,为什么会有返利?简单来说淘宝商家为了推广自己的产品,给自己的产品设置了返利和优惠券,这个返利并不是我们购物时页面上看到的,是隐藏的返利,包括优惠券也是隐藏的
Python基础知识进阶之正则表达式_头歌python正则表达式进阶
前端陈萨龙
程序员 python 学习 面试
最后硬核资料:关注即可领取PPT模板、简历模板、行业经典书籍PDF。技术互助:技术群大佬指点迷津,你的问题可能不是问题,求资源在群里喊一声。面试题库:由技术群里的小伙伴们共同投稿,热乎的大厂面试真题,持续更新中。知识体系:含编程语言、算法、大数据生态圈组件(Mysql、Hive、Spark、Flink)、数据仓库、Python、前端等等。网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是
【计算机毕设-大数据方向】基于Hadoop的电商交易数据分析可视化系统的设计与实现
程序员-石头山
大数据实战案例 大数据 hadoop 毕业设计 毕设
博主介绍:✌全平台粉丝5W+,高级大厂开发程序员,博客之星、掘金/知乎/华为云/阿里云等平台优质作者。【源码获取】关注并且私信我【联系方式】最下边感兴趣的可以先收藏起来,同学门有不懂的毕设选题,项目以及论文编写等相关问题都可以和学长沟通,希望帮助更多同学解决问题前言随着电子商务行业的迅猛发展,电商平台积累了海量的数据资源,这些数据不仅包括用户的基本信息、购物记录,还包括用户的浏览行为、评价反馈等多
分布式离线计算—Spark—基础介绍
测试开发abbey
人工智能—大数据
原文作者:饥渴的小苹果原文地址:【Spark】Spark基础教程目录Spark特点Spark相对于Hadoop的优势Spark生态系统Spark基本概念Spark结构设计Spark各种概念之间的关系Executor的优点Spark运行基本流程Spark运行架构的特点Spark的部署模式Spark三种部署方式Hadoop和Spark的统一部署摘要:Spark是基于内存计算的大数据并行计算框架Spar
宝妈兼职网在家工作,宝妈兼职一单一结
手机聊天员赚钱平台
宝妈就是暂时离不开,宝宝还小的妈妈,要想兼职可不容易。给大家推荐一个一对一陪聊项目叭,正规聊天主播项目,网易云旗下大平台,无任何费用,下方有微信二维码,可扫码了解,也可点击链接,联系我们了解:https://www.jianshu.com/p/a8b7493d9f71也可加微:yisi225即要工作,又要照顾宝宝,一举两得的事,不是没有,可是也很累的。我身边就有一个宝妈,孩子两岁多,她的兼职就是玩
【大数据】如何读取多个Excel文件并计算列数据的最大求和值
熬夜的王
大数据 excel python 开发语言 big data
导语:在数据分析和处理中,我们经常需要从多个Excel文件中提取数据并进行计算。本文将带您通过一个实用的Python教程,学习如何读取D盘目录下特定文件夹内的多个Excel文件,并计算特定列数据的最大求和值。文章目录一、准备工作二、教程步骤1.导入必要的库2.设置文件路径3.获取Excel文件列表4.选择文件5.初始化最大求和值6.指定求和的列索引7.读取Excel文件并计算列求和8.输出结果三、
大数据领域的深度分析——AI是在帮助开发者还是取代他们?
阳爱铭
大数据与数据中台技术沉淀 大数据 人工智能 后端 数据库架构 数据库开发 etl工程师 chatgpt
在大数据领域,生成式人工智能(AIGC)的应用正在迅速扩展,改变了数据科学家和开发者的工作方式。本文将从大数据的专业视角,探讨AI工具在这一领域的作用,以及它们是如何帮助开发者而非取代他们的。1.大数据领域的AI工具现状在大数据领域,AI工具已经取得了显著进展,以下是几款主要的AI工具及其功能和实际应用:ApacheSpark+MLlib:ApacheSpark是一个开源的分布式计算系统,广泛用于
python实现模糊逻辑_基于Python的大数据集模糊逻辑
takeiiii
python实现模糊逻辑
我的团队一直致力于在两个大数据集上运行模糊逻辑算法。第一个(子集)大约是180K行,包含我们需要在第二个(超集)中匹配的人的姓名、地址和电子邮件。超集包含250万条记录。两者都具有相同的结构,并且数据已经被清理,即地址解析、名称规范化等ContactIDint,FullNamevarchar(150),Addressvarchar(100),Emailvarchar(100)目标是将一行子集中的值
大数据新视界 --大数据大厂之 Spark 性能优化秘籍:从配置到代码实践
青云交
大数据新视界 Spark 性能优化 内存分配 并行度 存储级别 shuffle 减少 算法优化 代码实践 数据读取 广播变量 数据倾斜 Spark 数据库
亲爱的朋友们,热烈欢迎你们来到青云交的博客!能与你们在此邂逅,我满心欢喜,深感无比荣幸。在这个瞬息万变的时代,我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客,正是这样一个温暖美好的所在。在这里,你们不仅能够收获既富有趣味又极为实用的内容知识,还可以毫无拘束地畅所欲言,尽情分享自己独特的见解。我真诚地期待着你们的到来,愿我们能在这片小小的天地里共同成长,共同进步。本博客的精华专栏:Ja
大数据新视界--大数据大厂之MySQL数据库课程设计:MySQL集群架构负载均衡方法选择全攻略(2-2)
青云交
大数据新视界 Java技术栈 Java性能优化 数据库 高可用性架构 负载均衡 业务规模 预算限制 可扩展性 技术团队能力 数据安全性 系统复杂性 行业特点 硬件负载均衡器 Nginx HAProxy
亲爱的朋友们,热烈欢迎你们来到青云交的博客!能与你们在此邂逅,我满心欢喜,深感无比荣幸。在这个瞬息万变的时代,我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客,正是这样一个温暖美好的所在。在这里,你们不仅能够收获既富有趣味又极为实用的内容知识,还可以毫无拘束地畅所欲言,尽情分享自己独特的见解。我真诚地期待着你们的到来,愿我们能在这片小小的天地里共同成长,共同进步。本博客的精华专栏:Ja
大数据新视界 --大数据大厂之Flink强势崛起:大数据新视界的璀璨明珠
青云交
大数据新视界 Flink 大数据 数据类型 实时处理 流处理 框架对比 应用场景 数据处理 大数据新视界 数据库
亲爱的朋友们,热烈欢迎你们来到青云交的博客!能与你们在此邂逅,我满心欢喜,深感无比荣幸。在这个瞬息万变的时代,我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客,正是这样一个温暖美好的所在。在这里,你们不仅能够收获既富有趣味又极为实用的内容知识,还可以毫无拘束地畅所欲言,尽情分享自己独特的见解。我真诚地期待着你们的到来,愿我们能在这片小小的天地里共同成长,共同进步。本博客的精华专栏:Ja
【深入剖析】Kylin架构全景及其组件详解
2401_85763639
kylin 架构 大数据
标题:【深入剖析】Kylin架构全景及其组件详解ApacheKylin是一个开源的分布式分析引擎,提供大数据集上的即时分析能力。它通过预计算技术,将数据以多维立方体的形式存储,从而加快查询速度。本文将详细探讨Kylin的架构及其组件,包括数据源、元数据存储、Cube构建、协调节点、查询引擎等关键部分。1.Kylin架构概述Kylin的架构设计为分层结构,每一层负责不同的功能和任务。2.数据源层Ky
做手机兼职哪些比较靠谱?如何用手机做兼职赚钱?手机兼职怎么做
手机聊天员赚钱平台
当今社会,基本上每人都有一部手机,不仅可以用于沟通、娱乐等,还可以用来做一些简单的兼职工作,每天不需要花太长时间,那么手机兼职工作能做什么呢?市场提供了很多这样的机会,你可以利用业余时间来做,这里介绍一些可靠的手机兼职工作,希望帮助你(我们或我签名,化身,了解更多的在线兼职平台)。给大家推荐一个陪聊赚米项目叭,正规陪聊项目,网易云旗下大平台,无任何费用,下方有微信二维码,可扫码了解,也可点击链接,
编程常用命令总结
Yellow0523
Linux BigData 大数据
编程命令大全1.软件环境变量的配置JavaScalaSparkHadoopHive2.大数据软件常用命令Spark基本命令Spark-SQL命令Hive命令HDFS命令YARN命令Zookeeper命令kafka命令Hibench命令MySQL命令3.Linux常用命令Git命令conda命令pip命令查看Linux系统的详细信息查看Linux系统架构(X86还是ARM,两种方法都可)端口号命令L
从底层原理上理解ClickHouse 中的稀疏索引
goTsHgo
大数据 分布式 Clickhouse 数据库 clickhouse
稀疏索引(SparseIndexes)是ClickHouse中一个重要的加速查询机制。与传统数据库使用的B-Tree或哈希索引不同,ClickHouse的稀疏索引并不是为每一行数据构建索引,而是为数据存储的块或部分数据生成索引。这种索引的核心思想是通过减少需要扫描的数据范围来加速查询,特别适用于大数据量场景。1.基本概念:数据存储与索引在理解稀疏索引之前,首先需要理解ClickHouse的列式存储
ECharts地图-自定义26(大数据量散点图、地图飞线效果)
图表制作解说
echarts地图 echarts地图 大数据量散点图 涟漪散点图 飞线图 统计分析 数据可视化 大屏可视化
代码视频讲解:ECharts地图-自定义26_哔哩哔哩_bilibiliECharts地图-自定义26
Python爬虫入门实战:抓取CSDN博客文章
A Bug's Code Journey
爬虫 python
一、前言在大数据时代,网络上充斥着海量的信息,而爬虫技术就是解锁这些信息宝库的钥匙。Python,以其简洁易读的语法和强大的库支持,成为编写爬虫的首选语言。本篇博客将从零开始,带你一步步构建一个简单的Python爬虫,抓取CSDN博客的文章标题和链接。二、环境准备在开始之前,确保你的环境中安装了Python和以下必要的库:1.requests:用于发送HTTP请求2.BeautifulSoup:用
LeetCode[位运算] - #137 Single Number II
Cwind
java Algorithm LeetCode 题解 位运算
原题链接:#137 Single Number II
要求:
给定一个整型数组,其中除了一个元素之外,每个元素都出现三次。找出这个元素
注意:算法的时间复杂度应为O(n),最好不使用额外的内存空间
难度:中等
分析:
与#136类似,都是考察位运算。不过出现两次的可以使用异或运算的特性 n XOR n = 0, n XOR 0 = n,即某一
《JavaScript语言精粹》笔记
aijuans
JavaScript
0、JavaScript的简单数据类型包括数字、字符创、布尔值(true/false)、null和undefined值,其它值都是对象。
1、JavaScript只有一个数字类型,它在内部被表示为64位的浮点数。没有分离出整数,所以1和1.0的值相同。
2、NaN是一个数值,表示一个不能产生正常结果的运算结果。NaN不等于任何值,包括它本身。可以用函数isNaN(number)检测NaN,但是
你应该更新的Java知识之常用程序库
Kai_Ge
java
在很多人眼中,Java 已经是一门垂垂老矣的语言,但并不妨碍 Java 世界依然在前进。如果你曾离开 Java,云游于其它世界,或是每日只在遗留代码中挣扎,或许是时候抬起头,看看老 Java 中的新东西。
Guava
Guava[gwɑ:və],一句话,只要你做Java项目,就应该用Guava(Github)。
guava 是 Google 出品的一套 Java 核心库,在我看来,它甚至应该
HttpClient
120153216
httpclient
/**
* 可以传对象的请求转发,对象已流形式放入HTTP中
*/
public static Object doPost(Map<String,Object> parmMap,String url)
{
Object object = null;
HttpClient hc = new HttpClient();
String fullURL
Django model字段类型清单
2002wmj
django
Django 通过 models 实现数据库的创建、修改、删除等操作,本文为模型中一般常用的类型的清单,便于查询和使用: AutoField:一个自动递增的整型字段,添加记录时它会自动增长。你通常不需要直接使用这个字段;如果你不指定主键的话,系统会自动添加一个主键字段到你的model。(参阅自动主键字段) BooleanField:布尔字段,管理工具里会自动将其描述为checkbox。 Cha
在SQLSERVER中查找消耗CPU最多的SQL
357029540
SQL Server
返回消耗CPU数目最多的10条语句
SELECT TOP 10
total_worker_time/execution_count AS avg_cpu_cost, plan_handle,
execution_count,
(SELECT SUBSTRING(text, statement_start_of
Myeclipse项目无法部署,Undefined exploded archive location
7454103
eclipse MyEclipse
做个备忘!
错误信息为:
Undefined exploded archive location
原因:
在工程转移过程中,导致工程的配置文件出错;
解决方法:
 
GMT时间格式转换
adminjun
GMT 时间转换
普通的时间转换问题我这里就不再罗嗦了,我想大家应该都会那种低级的转换问题吧,现在我向大家总结一下如何转换GMT时间格式,这种格式的转换方法网上还不是很多,所以有必要总结一下,也算给有需要的朋友一个小小的帮助啦。
1、可以使用
SimpleDateFormat SimpleDateFormat
EEE-三位星期
d-天
MMM-月
yyyy-四位年
Oracle数据库新装连接串问题
aijuans
oracle数据库
割接新装了数据库,客户端登陆无问题,apache/cgi-bin程序有问题,sqlnet.log日志如下:
Fatal NI connect error 12170.
VERSION INFORMATION: TNS for Linux: Version 10.2.0.4.0 - Product
回顾java数组复制
ayaoxinchao
java 数组
在写这篇文章之前,也看了一些别人写的,基本上都是大同小异。文章是对java数组复制基础知识的回顾,算是作为学习笔记,供以后自己翻阅。首先,简单想一下这个问题:为什么要复制数组?我的个人理解:在我们在利用一个数组时,在每一次使用,我们都希望它的值是初始值。这时我们就要对数组进行复制,以达到原始数组值的安全性。java数组复制大致分为3种方式:①for循环方式 ②clone方式 ③arrayCopy方
java web会话监听并使用spring注入
bewithme
Java Web
在java web应用中,当你想在建立会话或移除会话时,让系统做某些事情,比如说,统计在线用户,每当有用户登录时,或退出时,那么可以用下面这个监听器来监听。
import java.util.ArrayList;
import java.ut
NoSQL数据库之Redis数据库管理(Redis的常用命令及高级应用)
bijian1013
redis 数据库 NoSQL
一 .Redis常用命令
Redis提供了丰富的命令对数据库和各种数据库类型进行操作,这些命令可以在Linux终端使用。
a.键值相关命令
b.服务器相关命令
1.键值相关命令
&
java枚举序列化问题
bingyingao
java 枚举 序列化
对象在网络中传输离不开序列化和反序列化。而如果序列化的对象中有枚举值就要特别注意一些发布兼容问题:
1.加一个枚举值
新机器代码读分布式缓存中老对象,没有问题,不会抛异常。
老机器代码读分布式缓存中新对像,反序列化会中断,所以在所有机器发布完成之前要避免出现新对象,或者提前让老机器拥有新增枚举的jar。
2.删一个枚举值
新机器代码读分布式缓存中老对象,反序列
【Spark七十八】Spark Kyro序列化
bit1129
spark
当使用SparkContext的saveAsObjectFile方法将对象序列化到文件,以及通过objectFile方法将对象从文件反序列出来的时候,Spark默认使用Java的序列化以及反序列化机制,通常情况下,这种序列化机制是很低效的,Spark支持使用Kyro作为对象的序列化和反序列化机制,序列化的速度比java更快,但是使用Kyro时要注意,Kyro目前还是有些bug。
Spark
Hybridizing OO and Functional Design
bookjovi
erlang haskell
推荐博文:
Tell Above, and Ask Below - Hybridizing OO and Functional Design
文章中把OO和FP讲的深入透彻,里面把smalltalk和haskell作为典型的两种编程范式代表语言,此点本人极为同意,smalltalk可以说是最能体现OO设计的面向对象语言,smalltalk的作者Alan kay也是OO的最早先驱,
Java-Collections Framework学习与总结-HashMap
BrokenDreams
Collections
开发中常常会用到这样一种数据结构,根据一个关键字,找到所需的信息。这个过程有点像查字典,拿到一个key,去字典表中查找对应的value。Java1.0版本提供了这样的类java.util.Dictionary(抽象类),基本上支持字典表的操作。后来引入了Map接口,更好的描述的这种数据结构。
&nb
读《研磨设计模式》-代码笔记-职责链模式-Chain Of Responsibility
bylijinnan
java 设计模式
声明: 本文只为方便我个人查阅和理解,详细的分析以及源代码请移步 原作者的博客http://chjavach.iteye.com/
/**
* 业务逻辑:项目经理只能处理500以下的费用申请,部门经理是1000,总经理不设限。简单起见,只同意“Tom”的申请
* bylijinnan
*/
abstract class Handler {
/*
Android中启动外部程序
cherishLC
android
1、启动外部程序
引用自:
http://blog.csdn.net/linxcool/article/details/7692374
//方法一
Intent intent=new Intent();
//包名 包名+类名(全路径)
intent.setClassName("com.linxcool", "com.linxcool.PlaneActi
summary_keep_rate
coollyj
SUM
BEGIN
/*DECLARE minDate varchar(20) ;
DECLARE maxDate varchar(20) ;*/
DECLARE stkDate varchar(20) ;
DECLARE done int default -1;
/* 游标中 注册服务器地址 */
DE
hadoop hdfs 添加数据目录出错
daizj
hadoop hdfs 扩容
由于原来配置的hadoop data目录快要用满了,故准备修改配置文件增加数据目录,以便扩容,但由于疏忽,把core-site.xml, hdfs-site.xml配置文件dfs.datanode.data.dir 配置项增加了配置目录,但未创建实际目录,重启datanode服务时,报如下错误:
2014-11-18 08:51:39,128 WARN org.apache.hadoop.h
grep 目录级联查找
dongwei_6688
grep
在Mac或者Linux下使用grep进行文件内容查找时,如果给定的目标搜索路径是当前目录,那么它默认只搜索当前目录下的文件,而不会搜索其下面子目录中的文件内容,如果想级联搜索下级目录,需要使用一个“-r”参数:
grep -n -r "GET" .
上面的命令将会找出当前目录“.”及当前目录中所有下级目录
yii 修改模块使用的布局文件
dcj3sjt126com
yii layouts
方法一:yii模块默认使用系统当前的主题布局文件,如果在主配置文件中配置了主题比如: 'theme'=>'mythm', 那么yii的模块就使用 protected/themes/mythm/views/layouts 下的布局文件; 如果未配置主题,那么 yii的模块就使用 protected/views/layouts 下的布局文件, 总之默认不是使用自身目录 pr
设计模式之单例模式
come_for_dream
设计模式 单例模式 懒汉式饿汉式 双重检验锁失败 无序写入
今天该来的面试还没来,这个店估计不会来电话了,安静下来写写博客也不错,没事翻了翻小易哥的博客甚至与大牛们之间的差距,基础知识不扎实建起来的楼再高也只能是危楼罢了,陈下心回归基础把以前学过的东西总结一下。
*********************************
8、数组
豆豆咖啡
二维数组 数组 一维数组
一、概念
数组是同一种类型数据的集合。其实数组就是一个容器。
二、好处
可以自动给数组中的元素从0开始编号,方便操作这些元素
三、格式
//一维数组
1,元素类型[] 变量名 = new 元素类型[元素的个数]
int[] arr =
Decode Ways
hcx2013
decode
A message containing letters from A-Z is being encoded to numbers using the following mapping:
'A' -> 1
'B' -> 2
...
'Z' -> 26
Given an encoded message containing digits, det
Spring4.1新特性——异步调度和事件机制的异常处理
jinnianshilongnian
spring 4.1
目录
Spring4.1新特性——综述
Spring4.1新特性——Spring核心部分及其他
Spring4.1新特性——Spring缓存框架增强
Spring4.1新特性——异步调用和事件机制的异常处理
Spring4.1新特性——数据库集成测试脚本初始化
Spring4.1新特性——Spring MVC增强
Spring4.1新特性——页面自动化测试框架Spring MVC T
squid3(高命中率)缓存服务器配置
liyonghui160com
系统:centos 5.x
需要的软件:squid-3.0.STABLE25.tar.gz
1.下载squid
wget http://www.squid-cache.org/Versions/v3/3.0/squid-3.0.STABLE25.tar.gz
tar zxf squid-3.0.STABLE25.tar.gz &&
避免Java应用中NullPointerException的技巧和最佳实践
pda158
java
1) 从已知的String对象中调用equals()和equalsIgnoreCase()方法,而非未知对象。 总是从已知的非空String对象中调用equals()方法。因为equals()方法是对称的,调用a.equals(b)和调用b.equals(a)是完全相同的,这也是为什么程序员对于对象a和b这么不上心。如果调用者是空指针,这种调用可能导致一个空指针异常
Object unk
如何在Swift语言中创建http请求
shoothao
http swift
概述:本文通过实例从同步和异步两种方式上回答了”如何在Swift语言中创建http请求“的问题。
如果你对Objective-C比较了解的话,对于如何创建http请求你一定驾轻就熟了,而新语言Swift与其相比只有语法上的区别。但是,对才接触到这个崭新平台的初学者来说,他们仍然想知道“如何在Swift语言中创建http请求?”。
在这里,我将作出一些建议来回答上述问题。常见的
Spring事务的传播方式
uule
spring事务
传播方式:
新建事务
required
required_new - 挂起当前
非事务方式运行
supports
&nbs