大数据计算技术秘史(上篇)
人工智能
在之前的文章《2024年,一个大数据从业者决定……》《存储技术背后的那些事儿》中,我们粗略地回顾了大数据领域的存储技术。在解决了「数据怎么存」之后,下一步就是解决「数据怎么用」的问题。其实在大数据技术兴起之前,对于用户来讲并没有存储和计算的区分,都是用一套数据库或数据仓库的产品来解决问题。而在数据量爆炸性增长后,情况就变得不一样了。单机系统无法存储如此之多的数据,先是过渡到了分库分表这类伪分布式技
Kafka痛点与Puslar介绍
weidajiangjiang
kafka痛点Puslar
ApacheKafka作为一款成熟的消费队列得到了很广泛地运用.但以2019年的角度来看,存在一些痛点.存储计算没有分离,难以扩容和缩容没有IO隔离,写高了读不动,读高了写不动没有多租户IO模型过于简单,面对大量topic时性能下降严重消费模型有限,无法利用部分业务可以接受消息无序的特点Puslar是一个非常优秀的开源系统,它的整体框架偏向于HBase的设计,在其上实现了流数据的处理和服务。从与K
Hadoop生态圈
陈超Terry的技术屋
生态圈1.HBase的数据存储在HDFS里2.MapReduce可以计算HBase里的数据,也可以计算HDFS里的数据3.Hive是数据分析数据引擎,也是MapReduce模型,支持SQL4.Pig也是一个数据分析引擎,不支持SQL,有自己的PigLatin数据5.Sqoop是数据采集工具,针对关系数据库6.Flume是针对文件等数据的采集7.Hadoop的HA通过Zookeeper来实现8.HU
HBase 进阶
魅美
笔记大数据基础hbase数据库大数据
参考来源:B站尚硅谷HBase2.x目录Master架构RegionServer架构写流程MemStoreFlush读流程HFile结构读流程合并读取数据优化StoreFileCompactionRegionSplit预分区(自定义分区)系统拆分Master架构Master详细架构1)Meta表格介绍:(警告:不要去改这个表)全称hbase:meta,只是在list命令中被过滤掉了,本质上和HBa
HbaseAPI
astudybear
hbase数据库database
hbaseAPI方法:API本质就是调用对象的方法去实现的。ddl的概念是对表的操作和对外面的大的操作,ddl都是去调用admin对象的方法实现的admin对象通过连接.getAdmin获取。dml的概念是对数据的操作和查询什么的,dml都是去调用Table对象的方法实现的,Table对象通过连接.getTable获取。步骤:①获取hbase的配置对象②创建连接对象将配置对象传参③如果是ddl的话
HBase API
魅美
大数据基础笔记hbase数据库大数据
参考来源:B站尚硅谷HBase2.x环境准备新建Maven项目后在pom.xml中添加依赖:注意:会报错javax.el包不存在,是一个测试用的依赖,不影响使用org.apache.hbasehbase-server2.4.11org.glassfishjavax.elorg.glassfishjavax.el3.0.1-b06创建连接根据官方API介绍,HBase的客户端连接由Connectio
Hbase - 自定义Rowkey规则
kikiki5
>在Flink中我们有时候需要分析数据1点到2点的范围,可是经过Region又比较慢,这时候我们就可以定制`TableInputFormat`来实现我们的需求了,我们还可以采用Flink的`DataSet`的方式读取,另外下面还有`Spark`读取的例子。##使用教程Md5Util.java```importorg.apache.commons.codec.binary.Hex;importjav
HBase——基础概念介绍
zhanglf1016
#HBasehbase数据库大数据
一、初识HBaseHBase是一个面向列式存储的分布式数据库,其设计思想来源于Google的BigTable论文。HBase底层存储基于HDFS实现,集群的管理基于ZooKeeper实现。HBase良好的分布式架构设计为海量数据的快速存储、随机访问提供了可能,基于数据副本机制和分区机制可以轻松实现在线扩容、缩容和数据容灾,是大数据领域中Key-Value数据结构存储最常用的数据库方案。HBase特
Hadoop搭建之 start-yarn.sh 报错
万里长江雪
javahadoophdfs大数据运维网络
在搭建伪分布式的Hadoop集群环境时,在配置基础环境了并成功开启了HDFS组件后,jps查看已运行的名称节点和数据节点进程,[hadoop@masterhadoop]$jps8994NameNode10396Jps9087DataNode9279SecondaryNameNode然后尝试开启YARN组件,但是报错:[hadoop@masterhadoop]$start-yarn.shstarti
Hbase - 自定义Rowkey规则
kikiki2
在Flink中我们有时候需要分析数据1点到2点的范围,可是经过Region又比较慢,这时候我们就可以定制TableInputFormat来实现我们的需求了,我们还可以采用Flink的DataSet的方式读取,另外下面还有Spark读取的例子。使用教程Md5Util.javaimportorg.apache.commons.codec.binary.Hex;importjava.security.M
Hadoop手把手逐级搭建 第二阶段: Hadoop完全分布式(full)
郑大能
前置步骤:1).第一阶段:Hadoop单机伪分布(single)0.步骤概述1).克隆4台虚拟机2).为完全分布式配置ssh免密3).将hadoop配置修改为完全分布式4).启动完全分布式集群5).在完全分布式集群上测试wordcount程序1.克隆4台虚拟机1.1使用hadoop0克隆4台虚拟机hadoop1,hadoop2,hadoop3,hadoop41.1.0克隆虚拟机hadoop11.1
大数据开发之Sqoop详细介绍
只是甲
备注:测试环境CDH6.3.1Sqoop1.4.7一.Sqoop概述ApacheSqoop(SQL-to-Hadoop)项目旨在协助RDBMS与Hadoop之间进行高效的大数据交流。用户可以在Sqoop的帮助下,轻松地把关系型数据库的数据导入到Hadoop与其相关的系统(如HBase和Hive)中;同时也可以把数据从Hadoop系统里抽取并导出到关系型数据库里。Sqoop是一个在结构化数据和Had
Ubuntu16.04下HBase安装笔记
bluexiii
基础准备JDKHadoopSSHServer下载HBasehttps://hbase.apache.org/tar-zxvfhbase-1.4.2-bin.tar.gzsudomvhbase-1.4.2/opt/hbase系统环境变量exportHBASE_MANAGES_ZK=trueexportHBASE_HOME=/opt/hbaseexportPATH=$PATH:/opt/hbase/b
HBase过滤器
橙汁啤酒厂
大数据hbasepython数据库
HBase过滤器Get和Scan都支持过滤器,这些类提供的接口不能对行键、列名和列值进行过滤,但过滤器可以实现。过滤器的接口为Filter。所有的过滤器都在服务器端生效,防止过滤掉的数据被传到客户端;用户可以在客户端代码实现过滤的功能,但会影响系统性能。1.表的数据hbase(main):022:0>scan'scores'ROWCOLUMN+CELL1column=courses:java,ti
HBase Shell操作命令
橙汁啤酒厂
大数据hbase数据库大数据zookeeperhadoop
一、general操作1.1获取帮助#引号不能省略help'status'1.2查询服务器状态1.statushbase(main):002:0>status1activemaster,0backupmasters,3servers,0dead,1.0000averageload1.3查询HBase版本versionhbase(main):003:0>version1.3.1,r930b9a555
学习笔记12-zookeeper
在知识的海洋里遨游
什么是zookeeper简介:ApacheZookeeper是一种用于分布式应用程序的高性能协调服务,提供一种集中式信息存储服务特点:数据存在内存中,类似文件系统的树形结构(文件和目录),高吞吐和低延迟,集群高可靠作用:基于zookeeper可以实现分布式统一配置中心,服务注册中心,分布式锁等功能1.zookeeper的应用案例Hbase:使用zookeeper进行master选举,服务间协调So
Hbase - 迁移数据[导出,导入]
kikiki5
>有没有这样一样情况,把一个集群中的某个表导到另一个群集中,或者hbase的表结构发生了更改,但是数据还要,比如预分区没做,导致某台RegionServer很吃紧,Hbase的导出导出都可以很快的完成这些操作。![](https://upload-images.jianshu.io/upload_images/9028759-4fb9aa8ca3777969.png?imageMogr2/auto
Hbase - 自定义Rowkey规则
大猪大猪
在Flink中我们有时候需要分析数据1点到2点的范围,可是经过Region又比较慢,这时候我们就可以定制TableInputFormat来实现我们的需求了,我们还可以采用Flink的DataSet的方式读取,另外下面还有Spark读取的例子。使用教程Md5Util.javaimportorg.apache.commons.codec.binary.Hex;importjava.security.M
zk01
矮肥
zookeeper基础ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Hadoop和Hbase的重要组件。提供的功能包括:命名服务、配置管理、集群管理、分布式锁、队列管理。zookeeper是由文件系统和通知机制组成官网提供的集群图Zookeeper由2n+1台servers组成,每个server都知道彼此的存在。每个server都维护的内存状态镜像以及持久化存储的事务日志和
Python爬虫之非关系型数据库存储#5
仲君Johnny
python爬虫逆向教程python爬虫nosql数据库网络爬虫
NoSQL,全称NotOnlySQL,意为不仅仅是SQL,泛指非关系型数据库。NoSQL是基于键值对的,而且不需要经过SQL层的解析,数据之间没有耦合性,性能非常高。非关系型数据库又可细分如下。键值存储数据库:代表有Redis、Voldemort和OracleBDB等。列存储数据库:代表有Cassandra、HBase和Riak等。文档型数据库:代表有CouchDB和MongoDB等。图形数据库:
-bash: export: =‘: 不是有效的标识符 -bash: export:
橙汁啤酒厂
linux操作时遇到的相关问题bash开发语言
问题:Xshell连接linux时出现以下错误:Lastlogin:SunFeb1114:45:022024-bash:export:`=':不是有效的标识符-bash:export:`/opt/hbase-1.3.1':不是有效的标识符-bash:export:`=':不是有效的标识符-bash:export:`.:/opt/hadoop-2.7.3//bin:/opt/jdk1.8.0_131
对股票分析时要注意哪些主要因素?
会飞的奇葩猪
股票 分析 云掌股吧
众所周知,对散户投资者来说,股票技术分析是应战股市的核心武器,想学好股票的技术分析一定要知道哪些是重点学习的,其实非常简单,我们只要记住三个要素:成交量、价格趋势、振荡指标。
一、成交量
大盘的成交量状态。成交量大说明市场的获利机会较多,成交量小说明市场的获利机会较少。当沪市的成交量超过150亿时是强市市场状态,运用技术找综合买点较准;
【Scala十八】视图界定与上下文界定
bit1129
scala
Context Bound,上下文界定,是Scala为隐式参数引入的一种语法糖,使得隐式转换的编码更加简洁。
隐式参数
首先引入一个泛型函数max,用于取a和b的最大值
def max[T](a: T, b: T) = {
if (a > b) a else b
}
因为T是未知类型,只有运行时才会代入真正的类型,因此调用a >
C语言的分支——Object-C程序设计阅读有感
darkblue086
applec框架cocoa
自从1972年贝尔实验室Dennis Ritchie开发了C语言,C语言已经有了很多版本和实现,从Borland到microsoft还是GNU、Apple都提供了不同时代的多种选择,我们知道C语言是基于Thompson开发的B语言的,Object-C是以SmallTalk-80为基础的。和C++不同的是,Object C并不是C的超集,因为有很多特性与C是不同的。
Object-C程序设计这本书
去除浏览器对表单值的记忆
周凡杨
html记忆autocompleteform浏览
&n
java的树形通讯录
g21121
java
最近用到企业通讯录,虽然以前也开发过,但是用的是jsf,拼成的树形,及其笨重和难维护。后来就想到直接生成json格式字符串,页面上也好展现。
// 首先取出每个部门的联系人
for (int i = 0; i < depList.size(); i++) {
List<Contacts> list = getContactList(depList.get(i
Nginx安装部署
510888780
nginxlinux
Nginx ("engine x") 是一个高性能的 HTTP 和 反向代理 服务器,也是一个 IMAP/POP3/SMTP 代理服务器。 Nginx 是由 Igor Sysoev 为俄罗斯访问量第二的 Rambler.ru 站点开发的,第一个公开版本0.1.0发布于2004年10月4日。其将源代码以类BSD许可证的形式发布,因它的稳定性、丰富的功能集、示例配置文件和低系统资源
java servelet异步处理请求
墙头上一根草
java异步返回servlet
servlet3.0以后支持异步处理请求,具体是使用AsyncContext ,包装httpservletRequest以及httpservletResponse具有异步的功能,
final AsyncContext ac = request.startAsync(request, response);
ac.s
我的spring学习笔记8-Spring中Bean的实例化
aijuans
Spring 3
在Spring中要实例化一个Bean有几种方法:
1、最常用的(普通方法)
<bean id="myBean" class="www.6e6.org.MyBean" />
使用这样方法,按Spring就会使用Bean的默认构造方法,也就是把没有参数的构造方法来建立Bean实例。
(有构造方法的下个文细说)
2、还
为Mysql创建最优的索引
annan211
mysql索引
索引对于良好的性能非常关键,尤其是当数据规模越来越大的时候,索引的对性能的影响越发重要。
索引经常会被误解甚至忽略,而且经常被糟糕的设计。
索引优化应该是对查询性能优化最有效的手段了,索引能够轻易将查询性能提高几个数量级,最优的索引会比
较好的索引性能要好2个数量级。
1 索引的类型
(1) B-Tree
不出意外,这里提到的索引都是指 B-
日期函数
百合不是茶
oraclesql日期函数查询
ORACLE日期时间函数大全
TO_DATE格式(以时间:2007-11-02 13:45:25为例)
Year:
yy two digits 两位年 显示值:07
yyy three digits 三位年 显示值:007
线程优先级
bijian1013
javathread多线程java多线程
多线程运行时需要定义线程运行的先后顺序。
线程优先级是用数字表示,数字越大线程优先级越高,取值在1到10,默认优先级为5。
实例:
package com.bijian.study;
/**
* 因为在代码段当中把线程B的优先级设置高于线程A,所以运行结果先执行线程B的run()方法后再执行线程A的run()方法
* 但在实际中,JAVA的优先级不准,强烈不建议用此方法来控制执
适配器模式和代理模式的区别
bijian1013
java设计模式
一.简介 适配器模式:适配器模式(英语:adapter pattern)有时候也称包装样式或者包装。将一个类的接口转接成用户所期待的。一个适配使得因接口不兼容而不能在一起工作的类工作在一起,做法是将类别自己的接口包裹在一个已存在的类中。 &nbs
【持久化框架MyBatis3三】MyBatis3 SQL映射配置文件
bit1129
Mybatis3
SQL映射配置文件一方面类似于Hibernate的映射配置文件,通过定义实体与关系表的列之间的对应关系。另一方面使用<select>,<insert>,<delete>,<update>元素定义增删改查的SQL语句,
这些元素包含三方面内容
1. 要执行的SQL语句
2. SQL语句的入参,比如查询条件
3. SQL语句的返回结果
oracle大数据表复制备份个人经验
bitcarter
oracle大表备份大表数据复制
前提:
数据库仓库A(就拿oracle11g为例)中有两个用户user1和user2,现在有user1中有表ldm_table1,且表ldm_table1有数据5千万以上,ldm_table1中的数据是从其他库B(数据源)中抽取过来的,前期业务理解不够或者需求有变,数据有变动需要重新从B中抽取数据到A库表ldm_table1中。
HTTP加速器varnish安装小记
ronin47
http varnish 加速
上午共享的那个varnish安装手册,个人看了下,有点不知所云,好吧~看来还是先安装玩玩!
苦逼公司服务器没法连外网,不能用什么wget或yum命令直接下载安装,每每看到别人博客贴出的在线安装代码时,总有一股羡慕嫉妒“恨”冒了出来。。。好吧,既然没法上外网,那只能麻烦点通过下载源码来编译安装了!
Varnish 3.0.4下载地址: http://repo.varnish-cache.org/
java-73-输入一个字符串,输出该字符串中对称的子字符串的最大长度
bylijinnan
java
public class LongestSymmtricalLength {
/*
* Q75题目:输入一个字符串,输出该字符串中对称的子字符串的最大长度。
* 比如输入字符串“google”,由于该字符串里最长的对称子字符串是“goog”,因此输出4。
*/
public static void main(String[] args) {
Str
学习编程的一点感想
Cb123456
编程感想Gis
写点感想,总结一些,也顺便激励一些自己.现在就是复习阶段,也做做项目.
本专业是GIS专业,当初觉得本专业太水,靠这个会活不下去的,所以就报了培训班。学习的时候,进入状态很慢,而且当初进去的时候,已经上到Java高级阶段了,所以.....,呵呵,之后有点感觉了,不过,还是不好好写代码,还眼高手低的,有
[能源与安全]美国与中国
comsci
能源
现在有一个局面:地球上的石油只剩下N桶,这些油只够让中国和美国这两个国家中的一个顺利过渡到宇宙时代,但是如果这两个国家为争夺这些石油而发生战争,其结果是两个国家都无法平稳过渡到宇宙时代。。。。而且在战争中,剩下的石油也会被快速消耗在战争中,结果是两败俱伤。。。
在这个大
SEMI-JOIN执行计划突然变成HASH JOIN了 的原因分析
cwqcwqmax9
oracle
甲说:
A B两个表总数据量都很大,在百万以上。
idx1 idx2字段表示是索引字段
A B 两表上都有
col1字段表示普通字段
select xxx from A
where A.idx1 between mmm and nnn
and exists (select 1 from B where B.idx2 =
SpringMVC-ajax返回值乱码解决方案
dashuaifu
AjaxspringMVCresponse中文乱码
SpringMVC-ajax返回值乱码解决方案
一:(自己总结,测试过可行)
ajax返回如果含有中文汉字,则使用:(如下例:)
@RequestMapping(value="/xxx.do") public @ResponseBody void getPunishReasonB
Linux系统中查看日志的常用命令
dcj3sjt126com
OS
因为在日常的工作中,出问题的时候查看日志是每个管理员的习惯,作为初学者,为了以后的需要,我今天将下面这些查看命令共享给各位
cat
tail -f
日 志 文 件 说 明
/var/log/message 系统启动后的信息和错误日志,是Red Hat Linux中最常用的日志之一
/var/log/secure 与安全相关的日志信息
/var/log/maillog 与邮件相关的日志信
[应用结构]应用
dcj3sjt126com
PHPyii2
应用主体
应用主体是管理 Yii 应用系统整体结构和生命周期的对象。 每个Yii应用系统只能包含一个应用主体,应用主体在 入口脚本中创建并能通过表达式 \Yii::$app 全局范围内访问。
补充: 当我们说"一个应用",它可能是一个应用主体对象,也可能是一个应用系统,是根据上下文来决定[译:中文为避免歧义,Application翻译为应
assertThat用法
eksliang
JUnitassertThat
junit4.0 assertThat用法
一般匹配符1、assertThat( testedNumber, allOf( greaterThan(8), lessThan(16) ) );
注释: allOf匹配符表明如果接下来的所有条件必须都成立测试才通过,相当于“与”(&&)
2、assertThat( testedNumber, anyOf( g
android点滴2
gundumw100
应用服务器android网络应用OSHTC
如何让Drawable绕着中心旋转?
Animation a = new RotateAnimation(0.0f, 360.0f,
Animation.RELATIVE_TO_SELF, 0.5f, Animation.RELATIVE_TO_SELF,0.5f);
a.setRepeatCount(-1);
a.setDuration(1000);
如何控制Andro
超简洁的CSS下拉菜单
ini
htmlWeb工作html5css
效果体验:http://hovertree.com/texiao/css/3.htmHTML文件:
<!DOCTYPE html>
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<title>简洁的HTML+CSS下拉菜单-HoverTree</title>
kafka consumer防止数据丢失
kane_xie
kafkaoffset commit
kafka最初是被LinkedIn设计用来处理log的分布式消息系统,因此它的着眼点不在数据的安全性(log偶尔丢几条无所谓),换句话说kafka并不能完全保证数据不丢失。
尽管kafka官网声称能够保证at-least-once,但如果consumer进程数小于partition_num,这个结论不一定成立。
考虑这样一个case,partiton_num=2
@Repository、@Service、@Controller 和 @Component
mhtbbx
DAOspringbeanprototype
@Repository、@Service、@Controller 和 @Component 将类标识为Bean
Spring 自 2.0 版本开始,陆续引入了一些注解用于简化 Spring 的开发。@Repository注解便属于最先引入的一批,它用于将数据访问层 (DAO 层 ) 的类标识为 Spring Bean。具体只需将该注解标注在 DAO类上即可。同时,为了让 Spring 能够扫描类
java 多线程高并发读写控制 误区
qifeifei
java thread
先看一下下面的错误代码,对写加了synchronized控制,保证了写的安全,但是问题在哪里呢?
public class testTh7 {
private String data;
public String read(){
System.out.println(Thread.currentThread().getName() + "read data "
mongodb replica set(副本集)设置步骤
tcrct
javamongodb
网上已经有一大堆的设置步骤的了,根据我遇到的问题,整理一下,如下:
首先先去下载一个mongodb最新版,目前最新版应该是2.6
cd /usr/local/bin
wget http://fastdl.mongodb.org/linux/mongodb-linux-x86_64-2.6.0.tgz
tar -zxvf mongodb-linux-x86_64-2.6.0.t
rust学习笔记
wudixiaotie
学习笔记
1.rust里绑定变量是let,默认绑定了的变量是不可更改的,所以如果想让变量可变就要加上mut。
let x = 1; let mut y = 2;
2.match 相当于erlang中的case,但是case的每一项后都是分号,但是rust的match却是逗号。
3.match 的每一项最后都要加逗号,但是最后一项不加也不会报错,所有结尾加逗号的用法都是类似。
4.每个语句结尾都要加分