本文来自 网易云社区
最近为产品做了一次HBase的数据迁移操作,学习了一些相关的技术和实现方案。现整理出来,作为今后HBase数据迁移的参考。如有纰漏,欢迎指正。
1. 前期准备
1.1 确认集群使用的版本
源HBase集群(以下称旧集群)和目的HBase集群(以下称新集群)的版本可能并不是一致的,特别是其底层所使用的HDFS版本信息。譬如这样一个数据迁移场景:业务希望从低版本的HBase集群(0.94.x)迁移到当前稳定的HBase集群(1.2.x),因为新版本的HBase有新特性,Bug更少,稳定性和可运维行更优。理论上新版本会兼容老版本的API,但是如果彼此版本差距过大,可能会出现HDFS RPC版本不一致(一般来说是Protobuf的版本),那么集群之间的迁移就会因为彼此与对方的NameNode无法进行通信而无法进行。 这种情况下,需要先考虑升级低版本的HDFS。
1.2 确认集群是否开启Kerberos认证
这里会有三种可能情况:一是都未开启认证,二是都开启认证,三是一个开了,另一个没开。前两种情况按照正常的认证(或非认证)的配置操作即可,第三种情况则需要在开启了认证的集群上开启 ipc.client.fallback-to-simple-auth-allowed 参数,意即在使用Kerberos的方式访问非Kerberos的集群时,系统自动转换成简单认证,否则会出现认证问题。Kerberos的配置和使用本文不做展开。
1.3 确认操作账号的读写权限问题
要在不同的HBase集群之间做数据迁移,必然要涉及到不同集群的读写权限问题。HBase使用ACL来管理不同数据表的读写权限,在开启了Kerberos认证的环境下,还需要验证Kerberos;而HBase使用的HDFS自身也有一套类似的权限管理规则,当两个集群配置不同时(如部署账号不一致),极易出现冲突。在迁移前需要确认两个集群的管理员账号(HDFS和HBase账号)是否一致,如果不一致,需要开通权限。
1.4 开启YARN服务
数据迁移任务本质上是一个MapRedcue任务,故需要在一个集群上开启YARN服务。如何选择在哪个集群上开呢?建议是在新集群上开,因为旧集群上可能还需要继续跑线上业务,在上面起大量Map任务并把数据远程写入到新集群,会对线上业务带来较大的性能影响;而新集群较大可能是一个独立集群,尚没有业务运行,在其上运行Map任务通过网络从旧集群中拉数据到本地写入,性价比更高,且对线上业务的侵入性更低。
在HBase集群上配置YARN服务可以查阅其安装部署文档,这里不做展开。
1.5 确认数据迁移的SLA
数据迁移是否是在线迁移,即业务不能中断。若业务允许做离线迁移,可以先将该表Disable后再做迁移,然后在新集群上重新clone成新表即可;但若需要在线进行迁移,则需要提前新集群上生成对应的HBase表,开启ACL权限等操作,并让业务开启数据双写,确保两个集群的数据在迁移时刻之后的数据是一致的。因为数据迁移和后续的数据合并耗时都很长,如果不开启双写,是无法达到数据一致性要求的。所以大多数情况下,业务都是要求数据迁移以在线方式进行。
1.6 源集群开启Snapshot
HBase的Snapshot是从0.94.6之后才引入的特性,开启Snapshot特性需要开启 hbase.snapshot.enabled (默认已开启)。如果没有开启该特性,则需要重启服务以开启该特性;如果版本过低,就只能使用其他对业务影响较大的CopyTable/ExportTable(需要Disable表)才能操作。
2. 生成HBase表和Region
完成前期的验证和准备工作后,就可以在新集群中创建待迁移的目的表和域(以下称Region)了。 因为迁移过程中业务需要开启双写,所以目的表结构必须和源表是一致;同时源数据表可能已经存在多个Region了,那么目的表也必须提前规划好这些Region,以免双写期间出现Region数量不足出现热点或者Region内文件数过多频繁Compact导致线上业务出现性能问题。 这里详细说明下如何正确创建一个带有多个Region的表。
2.1 使用RegionSplitter生成表
如果新建一个自带多个Region的表,可以使用以下命令:
例1. 生成一个表 t1, 有30个region,且表有一个列族"d",则使用
bin/hbase org.apache.hadoop.hbase.util.RegionSplitter t1 UniformSplit -c 30 -f d
例2. 生成一个表 t2, 有10个region,有两个列族 d1,d2, 其起始rowkey是'0'
bin/hbase org.apache.hadoop.hbase.util.RegionSplitter t2 UniformSplit -c 10 -f d1:d2 --firstrow '0'
2.2 使用HBase Shell生成表
使用HBase shell中的create命令也可以直接生成多个Regions,前提是必须要指定split keys
例3. 生成一个表 t3,按照'10','20','30','40'为Regions的split keys
create 't3', 'f1', SPLITS => ['10', '20', '30', '40']
整个表划分成5个Region,其起始和结束key分别是 ['0','10'],['10','20'],['20','30'],['30','40'],['40',-]
2.3 将已有的表重新切分或合并
如果一个表的Region范围过大,可以使用split来将其切分成两个子Region
split 't1', '1'
split '110e80fecae753e848eaaa08843a3e87', '\x001'
同理,如果表的Region过于零散,可以使用merge_region来进行合并
hbase> merge_region 'ENCODED_REGIONNAME', 'ENCODED_REGIONNAME'
hbase> merge_region 'ENCODED_REGIONNAME', 'ENCODED_REGIONNAME', true
具体的操作命令用户可以自己查看HBase的相关文档来了解。
注: 在为迁移的目的表划分多个Region时,其StartEndKey最好和旧HBase集群中源表分布一致。这样后续文件加载时,不需要额外进行过多的拆分,可以节省载入时间。另外有一点需要说明,使用splitKey时,系统不支持Hex字符串。 如果想用HexString来作为自己Region的StartKey,则需要对HBase的客户端代码进行简单的修改。简单来说需要能支持Bytes.toBinaryString()方法, 但系统读取后都是直接用Byets.toBytes()方法。 具体的代码实现,可以私聊。
3. Snapshot机制与使用
HBase快照是一份指向多个HFile文件的元数据文件。在执行snapshot命令时,不会触发任何的HBase数据操作,所以这个命令非常高效。使用快照来恢复或克隆一个表也非常快,因为它只需要引用已有的HFile文件即可。所以使用Snapshot进行数据迁移的优势就是备份和拷贝数据对线上服务没有影响,或者影响极低。其流程如下:
执行snapshot命令时,Master会从自己管理的meta信息中,找到该表所在RegionServer,然后下发该命令到相应的一个或多个RegionServer(RS)
RS负责生成HFile文件引用,同时会获取其Region的HFile文件信息,将当前文件的大小写入到manifest文件中。
HFile文件是使用Append方式来添加的,所以某一个时刻的文件大小相当于记录了一份当前时刻的文件偏移量。 恢复时,系统也只会读到该偏移量的位置。 如果想再次对该表做快照,那么文件引用的偏移量会正确设置为当前HFile的大小。
Snapshot命令有一个skipFlush参数,设置为true时,会强制将RS的MemStore里内容刷到磁盘中,可能会造成RS短暂的中止服务。时间长短视内存中的数据量而定。 在这里我们不需要靠强制刷新出内存中的数据来保证数据完整性,理由如下:
如果我们使用的是停服迁移的方式,那么使用快照时内存中是没有数据写入的。
如果使用的双写迁移的方案,则快照时存在于内存中的那部分数据实际上会被双写到另外的集群中,同样不会有数据丢失的问题。
3.1 创建快照
hbase> snapshot 'sourceTable', 'snapshotName'
hbase> snapshot 'namespace:sourceTable', 'snapshotName', {SKIP_FLUSH => true}
3.2 查看快照
hbase> list_snapshots
hbase> list_snapshots 'abc.*'
3.3 克隆快照
hbase> clone_snapshot 'snapshotName', 'tableName'
hbase> clone_snapshot 'snapshotName', 'namespace:tableName'
生成snapshot后,可以通过hadoop的Shell命令来查看到对应的snapshot目录
bin/hadoop fs -ls /hbase/.hbase-snapshot/newSnapshot
Found 2 items
-rw-r--r-- 3 xxx xxx 35 2017-04-24 21:58 /hbase/.hbase-snapshot/newSnapshot/.snapshotinfo
-rw-r--r-- 3 xxx xxx 486 2017-04-24 21:58 /hbase/.hbase-snapshot/newSnapshot/data.manifest
4. 使用ExportSnapshot工具迁移快照数据
ExportSnapshot是HBase提供的Snapshot迁移工具,其使用方法见下图:
可以看出,这个工具的参数列表和HDFS的DistCp工具很类似。其简要流程如下:
首先通过HDFS的cp方法,将/.hbase-snapshot/newSnapshot目录拷贝至新集群上
然后将/hbase/data/下面的数据文件通过MapReduce的方式(DistCp)拷贝至 新集群的/hbase/archive/data/
最后检查snapshot相关文件的完整性
5. 数据合并方式
一旦数据迁移到了新集群,我们可以通过clone_snapshot 命令重新生成该表,如果业务是一个可以支持离线迁移的,那迁移工作也就算完成了。更多的情况是,业务开了双写,即老集群和新集群同时在更新数据,我们需要把迁移后的数据进行合并。这里有三种方法:
5.1. 使用Phoenix SQL导入
需要在新集群上开启Phoenix支持(如何安装Phoenix见相关文档)
假设双写的新表为A',A'表必须使用Phoenix的接口来创建。其使用方法与常规的SQL语法类似,但是要注意其splitKey的用法:
例1. 创建一个表t1,只有一个列族f1,有1个修饰字段body, splitKey为['a','b','c']
CREATE TABLE IF NOT EXISTS t1
( "id" char(10) not null primary key, "f1".body varchar)
DATA_BLOCK_ENCODING='NONE',VERSIONS=5,MAX_FILESIZE=2000000 split on ('a', 'b', 'c')
使用clone_snapshot命令将迁移的数据重新生成一个HBase表B,然后再使用Phoenix的DDL重新生成B表(和实际的表B不会冲突,Phoenix的元数据存在另外的目录下),最后使用UPSERT SELECT命令将B表中的数据插入到双写的A’表即可
UPSERT INTO A'("id","f1".body) SELECT "id","f1".body FROM B;
注: 使用Phoenix的问题在于,原来的业务模式需要做较大改动以适应新的JDBC访问HBase方式。
5.2. 使用MapReduce导入
使用MapReduce导入需要有YARN服务支持,同样需要先使用clone_snapshot命令将迁移的数据重新生成一个HBase表。
用户需要使用HBase的API从表中读取记录,然后插入到新的表,这个方法实际上就是上面Phoenix的底层实现。如果集群没有安装Phoenix插件,可以用这个方法。但这个方法的缺点也是显而易见,需要自己写代码来实现在一个Map中实现上述操作,且如何切分RowKey到各个Map任务中也是一个不小的难题。
5.3. 使用IncrementLoadHFile工具
顾名思义,这个工具可以实现往HBase表中添加HFile来实现数据的批量写入,其使用方法如下:
bin/hbase org.apache.hadoop.hbase.mapreduce.LoadIncrementalHFiles
usage: completebulkload /path/to/hfileoutputformat-output tablename
-Dcreate.table=no - can be used to avoid creation of table by this tool
Note: if you set this to 'no', then the target table must already exist in HBase
这个工具的使用说明很简单,只需要提供一个HFile文件所在的Hdfs路径名和所需要写入的HBase Table名即可。 例1. 将/tmp/hbase/archive/data/test/test/f8510124151cabf704bc02c9c7e687f6目录下的HFile文件加载到test:test表中
bin/hbase org.apache.hadoop.hbase.mapreduce.LoadIncrementalHFiles -Dcreate.table=no /tmp/hbase/archive/data/test/test/f8510124151cabf704bc02c9c7e687f6 test:test
其实现原理说明如下:
首先确认目录下的HFile文件是否合法,得到一个文件列表。
从列表中获取某一个HFile,获取文件的起始和结束rowKey
查找要导入到新表的各个Region,得到其StartEndKeys(每次都是重新重启)
根据HFile的startKey,判断该HFile应该插入的Region位置
以该HFile的起始rowkey所要插入的Region的EndKey将文件切成top和bottom两部分,将这2个文件加入到待加载的文件列表中
使用SecureBulkLoadHFile方法一次性批量加载这些文件,如果其中有文件加载失败,则方法失败,返回异常的文件列表。
将返回的异常文件,加入到循环加载的文件列表里。
继续重复2-7整个流程,直至完成加载或达到重试阈值而异常退出。
SecureLoadHFile的原理也很简单,它是一个原子操作,所以操作过程中会有短暂的卡顿。
检查待加载的HFiles是否来自多个列族,需要对多个列族同时加锁以保障一致性。
检查该次操作是否满足相关权限要求,同时也会将对应的HFile文件进行权限变更操作
完成HFile文件加载,新的HFile引用被加入到Region的StoreFile列表中。
对这块逻辑感兴趣的同学,可以自行查阅SecureBulkLoadEndpoint,HRegion,HStore等类。
关于如何减少批量加载的时间,有以下几点需要注意:
如果新集群上的regions的起始和结束rowkey分布正好和旧集群一致,那么使用批量加载HFile的方式可以最快的方式来合并到线上表中。否则就需要针对新的Region来拆分HFile。
调整hbase.hregion.max.filesize 参数,该参数用于控制一个Region下的最大HFile的文件大小,超过该值后,系统会强制拆分这个文件。新旧集群上这个参数配置可能会不一致,为了尽快完成加载,可以考虑将其设置成一致,或者新集群上的配置更大,这样也能减少加载时间
该工具默认的重试次数是10次,即一个Hfile如果拆分次数超过10次,就会放弃本次批量加载。 需要注意留意日志
6. 数据验证
HFile文件增量加载更新完毕之后,进行数据验证流程。因为数据量实在太大,不可能对两边的HBase表中的记录做一一比对,故可进行抽样验证。按照Snapshot和双写的机制来讲,数据可能有重复,但不可能存在丢失的情况。验证算法描述如下:
按照迁移过程中不同阶段,划分成不同的时间区域。 对于每一个时间区间,选一个子区间作为样本
选定旧集群中的A表,获取其Region信息,得到每个Region的起始rowkey
按照每个Region的起始rowkey, 顺序查找 N 条该区间中的rowkey记录
根据上一步拿到的rowkey到相应的测试表中(A')中查找是否能找到匹配的记录。
找到记录后,对比相应Column+Cell信息,能够都完全匹配即为一个匹配的记录(因为双写的原因,时间戳会有先后,故不判断时间戳。rowkey已能满足要求)
使用Java连接Kerberized HBase的需要的配置如下:
hbase-site.xml
fs.defaultFS
hdfs://test1.163.org:8020
hbase.rootdir
hdfs://test1.163.org:8020/hbase
hbase.zookeeper.quorum
test1.163.org,test2.163.org,test3.163.org
zookeeper.znode.parent
/hbase
hbase.cluster.distributed
true
hadoop.security.authorization
true
hadoop.security.authentication
kerberos
hbase.rpc.timeout
180000
hbase.client.operation.timeout
120000
hbase.security.authentication
kerberos
hbase.security.authorization
true
dfs.namenode.principal
hdfs/[email protected]
hbase.master.kerberos.principal
hbase/[email protected]
hbase.regionserver.kerberos.principal
hbase/[email protected]
hbase.client.scanner.caching
100000
认证模块的代码片段如下(仅作参考)
Configuration configuration = HBaseConfiguration.create();
configuration.addResource("hbase-site.xml");
UserGroupInformation.setConfiguration(configuration);
UserGroupInformation.loginUserFromKeytab("principal", "keytab.path");
TableName tableName = TableName.valueOf("hbase.table.name"));
Connection connection = ConnectionFactory.createConnection(configuration);
HTable table = (HTable) connection.getTable(tableName);
7. 事后操作
因为批量加载操作会对原HFile文件进行多次拷贝,拆分等操作,会消耗大量的HDFS存储资源和物理机磁盘空间。 在数据合并完成并验证后,可以清理掉这些临时结果。此外如果在加载过程中出现了较多的自动Region切分,也可在此时重新将小Region进行合并。 最后在新集群上专门为数据迁移开启的YARN服务也可以停掉了,减少对HBase服务的影响。
原文:HBase数据迁移实战
本文来自网易云社区,经作者金川授权发布。
了解 网易云 :
网易云官网:https://www.163yun.com
云创大会0元抢购早鸟票:https://yc.163yun.com
云产品全面促销5折起:https://www.163yun.com/activity/promotion
你可能感兴趣的:(大数据,HBase,网易云)
Java的NIO提供了非阻塞I/O机制的包
铁松溜达py
前端 java 开发语言
Java的NIO(NewI/O)是一种提供了替代性、非阻塞I/O机制的包。它的引入主要是为了解决传统I/O机制在处理大量连接或大数据量时所带来的性能瓶颈和可扩展性问题。下面详细介绍NIO的一些关键概念和特性:1.通道(Channels):NIO中引入了通道的概念,它是连接程序与文件、套接字等I/O资源的虚拟管道。通道可以用于读取和写入数据,并且通道的实现可以支持非阻塞模式,使得一个线程可以管理多个
1. 初识spark
wlyang666
大数据之spark spark 大数据 分布式
背景:作为一名开发人员,用内存处理数据是每天都在做的事情。内存处理数据最大的优势就是方便,快捷,可以很快得到结果,但是内存总是有瓶颈的,不管你运行代码的机器有多大的内存,总是有更大规模的数据需要处理,而且随着单个机器内存扩容,硬件成本会指数级上升。在当今互联网行业,数据快速膨胀的时代,分布式计算来处理数据是大势所趋。本文通过介绍的是大数据领域优秀框架spark,打开分布式实时计算的大门1.spar
大数据存储引擎 NoSQL极简教程 An Introduction to Big Data: NoSQL
AI天才研究院
大数据AI人工智能 nosql 大数据 数据库 java 开发语言
本文路线图:NoSQL简介文档数据库键值数据库图数据库Here’stheroadmapforthisfourthpostonNoSQLdatabase:IntroductiontoNoSQL
从MySQL迁移到PostgreSQL的完整指南
m0_74823878
mysql postgresql 数据库
1.引言在现代数据库管理中,选择合适的数据库系统对业务的成功至关重要。随着企业数据量的增长和对性能要求的提高,许多公司开始考虑从MySQL迁移到PostgreSQL。这一迁移的主要原因包括以下几个方面:1.1性能和扩展性PostgreSQL以其高性能和优秀的扩展能力而闻名。它支持复杂的查询优化和并发控制,能够更高效地处理大规模数据。与MySQL相比,PostgreSQL在处理复杂查询和大数据集时表
Scala语言的安全开发
萧月霖
包罗万象 golang 开发语言 后端
Scala语言的安全开发引言在现代软件开发中,安全性是一个不可忽视的重要因素。特别是在处理敏感数据和用户信息时,确保代码的安全性尤为重要。Scala语言以其强大的功能和灵活性,在大数据处理和并发编程中受到了广泛的关注与应用。然而,Scala虽然在设计上考虑了类型安全和并发编程的特性,但程序员在开发中仍需要注意各种安全问题,以防止潜在的安全漏洞。本文将深入探讨在Scala语言开发中如何实现安全性保障
使用python实现Hadoop中MapReduce
qq_44801116
Python python hadoop mapreduce
Hadoop包含HDFS(分布式文件系统)、YARN(资源管理器)、MapReduce(编程模型)。一、三大组件的简介(1)HDFS(HadoopDistributedFileSystem):HDFS是Hadoop的分布式文件系统,它是将大规模数据分散存储在多个节点上的基础。主要负责数据的存储和管理,可以将大数据集分成多个数据块,并将数据块分配到不同的计算节点上存储,提高数据的可靠性和处理效率。旨
【大数据技术】编写Python代码实现词频统计(python+hadoop+mapreduce+yarn)
Want595
Python大数据采集与分析 大数据 python hadoop
编写Python代码实现词频统计(python+hadoop+mapreduce+yarn)搭建完全分布式高可用大数据集群(VMware+CentOS+FinalShell)搭建完全分布式高可用大数据集群(Hadoop+MapReduce+Yarn)本机PyCharm连接CentOS虚拟机在阅读本文前,请确保已经阅读过以上三篇文章,成功搭建了Hadoop+MapReduce+Yarn+Python
【硬刚大数据之面试篇】2021年从零到大数据专家面试篇之ClickHouse篇
王知无(import_bigdata)
欢迎关注博客主页:https://blog.csdn.net/u013411339欢迎点赞、收藏、留言,欢迎留言交流!本文由【王知无】原创,首发于CSDN博客!本文首发CSDN论坛,未经过官方和本人允许,严禁转载!本文是对《【硬刚大数据之学习路线篇】2021年从零到大数据专家的学习指南(全面升级版)》的面试部分补充。硬刚大数据系列文章链接:2021年从零到大数据专家的学习指南(全面升级版)2021
一次线程数超限导致的hive写入hbase作业失败分析
spring208208
大数据组件线上问题分析 大数据 hive hbase
1.集群配置操作系统:SuSe操作系统集群节点:100台相同配置的服务器单台:核心112Core,内存396G2.问题现象现象1:跑单个入库任务报错,批量提交任务后出现OOM异常执行12个hivesql,将数据写入hbase.hbase入库有近一半的任务报错。每次报错的任务不是同一个,hivesql任务分为2个阶段:第1个阶段是hive自处理阶段,底层是spark计算引擎。出现oom,无法开启新的
大模型技术对大数据生态链的全面革新
敏叔V587
大数据
大模型技术对大数据生态链的全面革新在数字化浪潮汹涌澎湃的当下,大数据和人工智能技术已成为推动各行业发展的关键力量。其中,大模型技术的崛起,正深刻地改变着大数据生态链的格局,为数据的处理、分析与应用带来了前所未有的变革。今天,就让我们一同深入探讨大模型技术对大数据生态链的多维度影响,并结合实际案例展开分析。一、大模型技术:重塑数据采集与整合(一)智能采集优化传统的数据采集往往依赖于预设规则和人工干预
智能运维分析决策系统:赋能数字化转型的新引擎
我的运维人生
运维 运维开发 技术共享
智能运维分析决策系统:赋能数字化转型的新引擎在数字化转型的浪潮中,企业对于高效、智能的运维管理需求日益迫切。传统的运维模式往往依赖于人工经验,难以应对大规模、复杂多变的IT环境。智能运维分析决策系统(AIOps,ArtificialIntelligenceforITOperations)应运而生,它利用大数据、机器学习、人工智能等技术,实现了运维的自动化、智能化,极大地提升了运维效率与质量,为企业
物联网架构之Hadoop
moluxiangfenglo
架构 hadoop 大数据
hadoop体系结构Hadoop是一个开源的分布式计算平台,主要用于存储和处理大规模数据集。其核心架构包括以下几个关键组件:1.HadoopDistributedFileSystem(HDFS)HDFS是Hadoop的分布式文件系统,用于存储大数据集。它具有以下特点:主从架构:包括一个NameNode(主节点)和多个DataNode(从节点)。数据块存储:将大文件分割成多个数据块,每个数据块通常大
突破X86和ARM架构,RISC-V成为第三势力?
weixin_34306593
嵌入式 人工智能 大数据
相对IntelX86在服务器CPU,Arm在移动通讯装置的嵌入式CPU成功建立生态系,RISC-V的生态系只能说是在起步阶段。以前,人们提到处理器IP内核,想到的就是英特尔的X86和ARM架构,它们几乎“垄断”了PC和移动处理器市场。如今RISC-V以开源、低耗能高效能、可模块化与指令数简介等为特色被视为突破Intel、Arm架构垄断市场的新选择。随着AI、物联网、大数据和云计算的高速发展,低成本
DeepSeek: 深度搜索与深度挖掘技术的前景与应用
DeepSeek是一个相对较新的术语,可能指的是一种深度搜索或深度挖掘技术,通常涉及到在大规模数据集中高效定位和提取有价值的信息。这种技术在大数据时代尤为重要,因为它能够帮助企业和研究人员从海量数据中提取出关键信息。这篇文章将深入探讨DeepSeek的背景、原理、应用以及未来发展。背景在进入信息化时代的背景下,数据的爆炸式增长为各行各业带来了前所未有的挑战和机遇。从社交媒体到物联网设备,每天都有大
数据驱动产品设计:把数据作为驱动力,为产品提供更有质感、更个性化的体验
AI天才研究院
Python实战 自然语言处理 人工智能 语言模型 编程实践 开发语言 架构设计
作者:禅与计算机程序设计艺术1.简介在过去的几年里,随着移动互联网、大数据、云计算等新兴技术的不断涌现,产品设计也在发生着革命性的变化。通过利用大数据的挖掘和分析能力、用户行为习惯、社交网络信息等多种维度的数据分析,人们对产品的洞察力和创意能力已然成为了一种全新的生产力。如何运用数据驱动产品设计方法,把数据作为驱动力,为产品提供更有质感、更个性化的体验,已经成为当下设计师面临的新课题。“数据驱动”
云计算:从基础架构原理到最佳实践之:云计算大数据分析与处理
AI天才研究院
大数据AI人工智能 大数据 人工智能 语言模型 Java Python 架构设计
作者:禅与计算机程序设计艺术文章目录1.简介2.云计算概述2.1云计算简介2.2云计算特点3.大数据的定义与特点3.1大数据定义3.2大数据特点4.大数据分类、存储和处理技术4.1大数据分类4.2大数据存储和处理技术5.Hadoop-Cloud组件选型5.1Hadoop安装5.1.1Hadoop下载5.1.2配置环境变量5.2配置Hadoop集群5.2.1配置Hadoopcore-site.xml
分布式计算在现代科技中的应用与发展趋势
智能计算研究中心
其他
内容概要分布式计算是一种将计算任务分散到多个计算节点上的技术,其基本理念是通过网络连接的多个独立机器共同协作来完成复杂的运算。其特点在于高度的可扩展性和容错性,使得对于大规模数据处理和计算需求有了更为灵活和高效的解决方案。在云计算领域,分布式计算提供了弹性的资源配置,使得用户可以根据需求动态调整所需的计算强度,从而有效降低成本。此外,大数据分析不断推动着分布式计算的发展,因为在海量数据中提取有价值
云计算与大数据——分布式计算的相关计算形式
萌新Pro
大数据
分布式计算的相关计算形式单机计算机单机计算是最简单的计算形式,即利用单台计算机(如PC)进行计算,此时计算机不与任何网络互连,因而只能使用本计算机系统内可被即时访问的所有资源。在最基本的单用户单机计算模式中,一台计算机在任何时刻只能被一个用户使用。用户在该系统上执行应用程序,不能访问其他计算机上的任何资源。在PC上使用的诸如文字处理程序或电子表格处理程序等应用就是单用户单机计算的计算形式。多用户也
Java 技术全栈深度探索:从基础到企业级应用实践
智界工具库
java 开发语言
文章简介:本文是一篇全面深入的Java课程文章,围绕众多关键技术领域展开。从RPC框架、注册中心等分布式核心组件,到数据中台、服务容错等企业级架构要点;从Spring生态剖析到电商、直播答题等多类型项目实战;涵盖容器云、监控、测试、CI&CD平台实践以及问题定位与安全分析等运维保障内容;还涉及Netty网络编程、X2C需求设计及大数据集群资源评估等。通过系统的讲解与案例剖析,助力读者深入理解Jav
2025最全计算机毕业设计选题推荐【前后端全栈方向】
大熊计算机毕设
计算机项目推荐 论文笔记
✅博主介绍:CSDN毕设辅导博主、CSDN认证Java领域优质创作者✅技术范围:主要包括Java、Vue、Python、爬虫、小程序、安卓app、大数据、机器学习等设计与开发。✅主要内容:免费功能设计、开题报告、任务书、功能实现、代码编写、论文编写和辅导、论文降重、答辩答疑辅导。文末有博主名片哦正文本文整理了30个涵盖前端Vue、后端Java或Python的全栈开发选题,适用于各种应用场景,帮助你
现代编程的影响
2501_90255623
生活
一、编程对技术创新的推动作用1.1引领前沿科技发展编程是人工智能、大数据、物联网、区块链等前沿科技的核心驱动力。通过编程,研发人员能够快速验证并迭代创新想法,推动这些领域的技术突破。例如,在人工智能领域,编程使得机器学习算法得以实现,从而创造出能够自主学习和适应环境的智能系统。1.2促进开源文化繁荣编程促进了开源文化的发展,使得全球范围内的开发者能够共享代码、知识和经验。开源项目不仅加速了技术创新
Lua语言的云计算
依瑾雅
包罗万象 golang 开发语言 后端
Lua语言在云计算中的应用引言随着信息技术的不断发展,云计算作为一种新兴的计算模式,已经逐渐改变了我们对计算资源的使用和管理方式。云计算为用户提供了灵活、高效、可扩展的计算服务,促使了大数据、人工智能等技术的发展。在众多编程语言中,Lua作为一门轻量级、高效且易于扩展的脚本语言,逐渐在云计算领域展现出了其独特的优势。本文将探讨Lua语言在云计算中的应用,深入挖掘其在云计算架构、开发和管理中的价值。
大数据相关开源项目汇总
万里浮云
大数据
调度与管理服务Azkaban是一款基于Java编写的任务调度系统任务调度,来自LinkedIn公司,用于管理他们的Hadoop批处理工作流。Azkaban根据工作的依赖性进行排序,提供友好的Web用户界面来维护和跟踪用户的工作流程。YARN是一种新的Hadoop资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,解决了旧MapReduce框架的性能瓶颈。它的基本思想是把资源
60款顶级大数据开源工具
La victoria
大数据
一、Hadoop相关工具1.HadoopApache的Hadoop项目已几乎与大数据划上了等号。它不断壮大起来,已成为一个完整的生态系统,众多开源工具面向高度扩展的分布式计算。支持的操作系统:Windows、Linux和OSX。相关链接:http://hadoop.apache.org2.Ambari作为Hadoop生态系统的一部分,这个Apache项目提供了基于Web的直观界面,可用于配置、管理
机器学习在金融领域的应用
AI天才研究院
大数据AI人工智能 AI大模型企业级应用开发实战 计算 计算科学 神经计算 深度学习 神经网络 大数据 人工智能 大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
机器学习在金融领域的应用1.背景介绍1.1金融行业面临的挑战1.1.1海量数据处理1.1.2实时风险监控1.1.3个性化服务需求1.2机器学习的兴起1.2.1大数据时代的到来1.2.2计算能力的提升1.2.3算法的不断创新2.核心概念与联系2.1机器学习的定义与分类2.1.1有监督学习2.1.2无监督学习2.1.3强化学习2.2机器学习与人工智能、深度学习的关系2.2.1人工智能的发展历程2.2.
盘点大数据生态圈,那些繁花似锦的开源项目
AI周红伟
大数据 深度学习
盘点大数据生态圈,那些繁花似锦的开源项目发表于12小时前|2466次阅读|来源CSDN|6条评论|作者仲浩大数据开源HadoopSparkwidth="22"height="16"src="http://hits.sinajs.cn/A1/weiboshare.html?url=http%3A%2F%2Fwww.csdn.net%2Farticle%2F2015-09-11%2F2825674
探秘高效大数据处理:揭秘开源项目【BigData】
温宝沫Morgan
探秘高效大数据处理:揭秘开源项目【BigData】databaseBlazegraphHighPerformanceGraphDatabase项目地址:https://gitcode.com/gh_mirrors/dat/database1、项目介绍在如今的数字化时代,数据已成为企业的重要资产。对于海量数据的处理和分析,我们常常需要依赖强大的工具来支撑。这就是我们要向您推荐的开源项目——BigDa
NVIDIA的算力支持
杭州大厂Java程序媛
计算机软件编程原理与应用实践 java python javascript kotlin golang 架构 人工智能
NVIDIA的算力支持关键词:NVIDIA,GPU,Turing架构,RTX,AI,AIoT,云计算,大数据,深度学习1.背景介绍NVIDIA作为全球领先的图形处理芯片制造商,近年来在人工智能领域也取得了显著的进展。NVIDIA的GPU(图形处理器)因其强大的并行计算能力,成为了深度学习和人工智能(AI)领域的主流硬件。NVIDIA的Turing架构引入了更强的张量计算能力,使得深度学习任务能够更
开源项目推荐:基于Lambda架构的大数据管道
柳旖岭
开源项目推荐:基于Lambda架构的大数据管道big-data-pipeline-lambda-archAfullbigdatapipeline(LambdaArchitecture)withSpark,Kafka,HDFSandCassandra.项目地址:https://gitcode.com/gh_mirrors/bi/big-data-pipeline-lambda-arch1.项目基础介
【LangChain编程:从入门到实践】代码实践
AI天才研究院
计算 大数据AI人工智能 计算科学 神经计算 深度学习 神经网络 大数据 人工智能 大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【LangChain编程:从入门到实践】代码实践1.背景介绍1.1人工智能的发展历程人工智能(ArtificialIntelligence,AI)是当代科技领域最具革命性和颠覆性的技术之一。自20世纪50年代诞生以来,AI经历了起伏跌宕的发展历程。在早期,AI主要集中于基于规则的系统和专家系统,试图模拟人类的推理过程。然而,随着大数据时代的到来和计算能力的飞速提升,机器学习和深度学习技术开始占据主
LeetCode[位运算] - #137 Single Number II
Cwind
java Algorithm LeetCode 题解 位运算
原题链接:#137 Single Number II
要求:
给定一个整型数组,其中除了一个元素之外,每个元素都出现三次。找出这个元素
注意:算法的时间复杂度应为O(n),最好不使用额外的内存空间
难度:中等
分析:
与#136类似,都是考察位运算。不过出现两次的可以使用异或运算的特性 n XOR n = 0, n XOR 0 = n,即某一
《JavaScript语言精粹》笔记
aijuans
JavaScript
0、JavaScript的简单数据类型包括数字、字符创、布尔值(true/false)、null和undefined值,其它值都是对象。
1、JavaScript只有一个数字类型,它在内部被表示为64位的浮点数。没有分离出整数,所以1和1.0的值相同。
2、NaN是一个数值,表示一个不能产生正常结果的运算结果。NaN不等于任何值,包括它本身。可以用函数isNaN(number)检测NaN,但是
你应该更新的Java知识之常用程序库
Kai_Ge
java
在很多人眼中,Java 已经是一门垂垂老矣的语言,但并不妨碍 Java 世界依然在前进。如果你曾离开 Java,云游于其它世界,或是每日只在遗留代码中挣扎,或许是时候抬起头,看看老 Java 中的新东西。
Guava
Guava[gwɑ:və],一句话,只要你做Java项目,就应该用Guava(Github)。
guava 是 Google 出品的一套 Java 核心库,在我看来,它甚至应该
HttpClient
120153216
httpclient
/**
* 可以传对象的请求转发,对象已流形式放入HTTP中
*/
public static Object doPost(Map<String,Object> parmMap,String url)
{
Object object = null;
HttpClient hc = new HttpClient();
String fullURL
Django model字段类型清单
2002wmj
django
Django 通过 models 实现数据库的创建、修改、删除等操作,本文为模型中一般常用的类型的清单,便于查询和使用: AutoField:一个自动递增的整型字段,添加记录时它会自动增长。你通常不需要直接使用这个字段;如果你不指定主键的话,系统会自动添加一个主键字段到你的model。(参阅自动主键字段) BooleanField:布尔字段,管理工具里会自动将其描述为checkbox。 Cha
在SQLSERVER中查找消耗CPU最多的SQL
357029540
SQL Server
返回消耗CPU数目最多的10条语句
SELECT TOP 10
total_worker_time/execution_count AS avg_cpu_cost, plan_handle,
execution_count,
(SELECT SUBSTRING(text, statement_start_of
Myeclipse项目无法部署,Undefined exploded archive location
7454103
eclipse MyEclipse
做个备忘!
错误信息为:
Undefined exploded archive location
原因:
在工程转移过程中,导致工程的配置文件出错;
解决方法:
 
GMT时间格式转换
adminjun
GMT 时间转换
普通的时间转换问题我这里就不再罗嗦了,我想大家应该都会那种低级的转换问题吧,现在我向大家总结一下如何转换GMT时间格式,这种格式的转换方法网上还不是很多,所以有必要总结一下,也算给有需要的朋友一个小小的帮助啦。
1、可以使用
SimpleDateFormat SimpleDateFormat
EEE-三位星期
d-天
MMM-月
yyyy-四位年
Oracle数据库新装连接串问题
aijuans
oracle数据库
割接新装了数据库,客户端登陆无问题,apache/cgi-bin程序有问题,sqlnet.log日志如下:
Fatal NI connect error 12170.
VERSION INFORMATION: TNS for Linux: Version 10.2.0.4.0 - Product
回顾java数组复制
ayaoxinchao
java 数组
在写这篇文章之前,也看了一些别人写的,基本上都是大同小异。文章是对java数组复制基础知识的回顾,算是作为学习笔记,供以后自己翻阅。首先,简单想一下这个问题:为什么要复制数组?我的个人理解:在我们在利用一个数组时,在每一次使用,我们都希望它的值是初始值。这时我们就要对数组进行复制,以达到原始数组值的安全性。java数组复制大致分为3种方式:①for循环方式 ②clone方式 ③arrayCopy方
java web会话监听并使用spring注入
bewithme
Java Web
在java web应用中,当你想在建立会话或移除会话时,让系统做某些事情,比如说,统计在线用户,每当有用户登录时,或退出时,那么可以用下面这个监听器来监听。
import java.util.ArrayList;
import java.ut
NoSQL数据库之Redis数据库管理(Redis的常用命令及高级应用)
bijian1013
redis 数据库 NoSQL
一 .Redis常用命令
Redis提供了丰富的命令对数据库和各种数据库类型进行操作,这些命令可以在Linux终端使用。
a.键值相关命令
b.服务器相关命令
1.键值相关命令
&
java枚举序列化问题
bingyingao
java 枚举 序列化
对象在网络中传输离不开序列化和反序列化。而如果序列化的对象中有枚举值就要特别注意一些发布兼容问题:
1.加一个枚举值
新机器代码读分布式缓存中老对象,没有问题,不会抛异常。
老机器代码读分布式缓存中新对像,反序列化会中断,所以在所有机器发布完成之前要避免出现新对象,或者提前让老机器拥有新增枚举的jar。
2.删一个枚举值
新机器代码读分布式缓存中老对象,反序列
【Spark七十八】Spark Kyro序列化
bit1129
spark
当使用SparkContext的saveAsObjectFile方法将对象序列化到文件,以及通过objectFile方法将对象从文件反序列出来的时候,Spark默认使用Java的序列化以及反序列化机制,通常情况下,这种序列化机制是很低效的,Spark支持使用Kyro作为对象的序列化和反序列化机制,序列化的速度比java更快,但是使用Kyro时要注意,Kyro目前还是有些bug。
Spark
Hybridizing OO and Functional Design
bookjovi
erlang haskell
推荐博文:
Tell Above, and Ask Below - Hybridizing OO and Functional Design
文章中把OO和FP讲的深入透彻,里面把smalltalk和haskell作为典型的两种编程范式代表语言,此点本人极为同意,smalltalk可以说是最能体现OO设计的面向对象语言,smalltalk的作者Alan kay也是OO的最早先驱,
Java-Collections Framework学习与总结-HashMap
BrokenDreams
Collections
开发中常常会用到这样一种数据结构,根据一个关键字,找到所需的信息。这个过程有点像查字典,拿到一个key,去字典表中查找对应的value。Java1.0版本提供了这样的类java.util.Dictionary(抽象类),基本上支持字典表的操作。后来引入了Map接口,更好的描述的这种数据结构。
&nb
读《研磨设计模式》-代码笔记-职责链模式-Chain Of Responsibility
bylijinnan
java 设计模式
声明: 本文只为方便我个人查阅和理解,详细的分析以及源代码请移步 原作者的博客http://chjavach.iteye.com/
/**
* 业务逻辑:项目经理只能处理500以下的费用申请,部门经理是1000,总经理不设限。简单起见,只同意“Tom”的申请
* bylijinnan
*/
abstract class Handler {
/*
Android中启动外部程序
cherishLC
android
1、启动外部程序
引用自:
http://blog.csdn.net/linxcool/article/details/7692374
//方法一
Intent intent=new Intent();
//包名 包名+类名(全路径)
intent.setClassName("com.linxcool", "com.linxcool.PlaneActi
summary_keep_rate
coollyj
SUM
BEGIN
/*DECLARE minDate varchar(20) ;
DECLARE maxDate varchar(20) ;*/
DECLARE stkDate varchar(20) ;
DECLARE done int default -1;
/* 游标中 注册服务器地址 */
DE
hadoop hdfs 添加数据目录出错
daizj
hadoop hdfs 扩容
由于原来配置的hadoop data目录快要用满了,故准备修改配置文件增加数据目录,以便扩容,但由于疏忽,把core-site.xml, hdfs-site.xml配置文件dfs.datanode.data.dir 配置项增加了配置目录,但未创建实际目录,重启datanode服务时,报如下错误:
2014-11-18 08:51:39,128 WARN org.apache.hadoop.h
grep 目录级联查找
dongwei_6688
grep
在Mac或者Linux下使用grep进行文件内容查找时,如果给定的目标搜索路径是当前目录,那么它默认只搜索当前目录下的文件,而不会搜索其下面子目录中的文件内容,如果想级联搜索下级目录,需要使用一个“-r”参数:
grep -n -r "GET" .
上面的命令将会找出当前目录“.”及当前目录中所有下级目录
yii 修改模块使用的布局文件
dcj3sjt126com
yii layouts
方法一:yii模块默认使用系统当前的主题布局文件,如果在主配置文件中配置了主题比如: 'theme'=>'mythm', 那么yii的模块就使用 protected/themes/mythm/views/layouts 下的布局文件; 如果未配置主题,那么 yii的模块就使用 protected/views/layouts 下的布局文件, 总之默认不是使用自身目录 pr
设计模式之单例模式
come_for_dream
设计模式 单例模式 懒汉式饿汉式 双重检验锁失败 无序写入
今天该来的面试还没来,这个店估计不会来电话了,安静下来写写博客也不错,没事翻了翻小易哥的博客甚至与大牛们之间的差距,基础知识不扎实建起来的楼再高也只能是危楼罢了,陈下心回归基础把以前学过的东西总结一下。
*********************************
8、数组
豆豆咖啡
二维数组 数组 一维数组
一、概念
数组是同一种类型数据的集合。其实数组就是一个容器。
二、好处
可以自动给数组中的元素从0开始编号,方便操作这些元素
三、格式
//一维数组
1,元素类型[] 变量名 = new 元素类型[元素的个数]
int[] arr =
Decode Ways
hcx2013
decode
A message containing letters from A-Z is being encoded to numbers using the following mapping:
'A' -> 1
'B' -> 2
...
'Z' -> 26
Given an encoded message containing digits, det
Spring4.1新特性——异步调度和事件机制的异常处理
jinnianshilongnian
spring 4.1
目录
Spring4.1新特性——综述
Spring4.1新特性——Spring核心部分及其他
Spring4.1新特性——Spring缓存框架增强
Spring4.1新特性——异步调用和事件机制的异常处理
Spring4.1新特性——数据库集成测试脚本初始化
Spring4.1新特性——Spring MVC增强
Spring4.1新特性——页面自动化测试框架Spring MVC T
squid3(高命中率)缓存服务器配置
liyonghui160com
系统:centos 5.x
需要的软件:squid-3.0.STABLE25.tar.gz
1.下载squid
wget http://www.squid-cache.org/Versions/v3/3.0/squid-3.0.STABLE25.tar.gz
tar zxf squid-3.0.STABLE25.tar.gz &&
避免Java应用中NullPointerException的技巧和最佳实践
pda158
java
1) 从已知的String对象中调用equals()和equalsIgnoreCase()方法,而非未知对象。 总是从已知的非空String对象中调用equals()方法。因为equals()方法是对称的,调用a.equals(b)和调用b.equals(a)是完全相同的,这也是为什么程序员对于对象a和b这么不上心。如果调用者是空指针,这种调用可能导致一个空指针异常
Object unk
如何在Swift语言中创建http请求
shoothao
http swift
概述:本文通过实例从同步和异步两种方式上回答了”如何在Swift语言中创建http请求“的问题。
如果你对Objective-C比较了解的话,对于如何创建http请求你一定驾轻就熟了,而新语言Swift与其相比只有语法上的区别。但是,对才接触到这个崭新平台的初学者来说,他们仍然想知道“如何在Swift语言中创建http请求?”。
在这里,我将作出一些建议来回答上述问题。常见的
Spring事务的传播方式
uule
spring事务
传播方式:
新建事务
required
required_new - 挂起当前
非事务方式运行
supports
&nbs