GZGlenn

Mac 安装 hadoop+hive+hbase+spark

本人刚接触大数据，在调试安装的的过程中，有些bug没有记录，有些bug的处理方法也不太记得清了，如下述流程有误，欢迎批评指正

一、 hadoop

1. 安装JDK和Hadoop

mac自带jdk，用homebrew安装hadoop，注意brew安装的文件都在/usr/local/Cellar/下

brew install hadoop

2. 配置ssh免密码登录

ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa ``` 
cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

测试一下：ssh localhost

出现 ssh: connect to host localhost port 22: Connection refused

则到系统偏好设置，共享下，打开远程登录功能

3. 配置相关文件（伪分布形式）

(1) core-site.xml

<configuration>
  <property>
    <name>hadoop.tmp.dirname>
    <value>/Users/glenn/.hadoop_tmpvalue>
    <description>A base for other temporary directories.description>
  property>
 <property>
    <name>fs.default.namename>
    <value>hdfs://localhost:9000value>
  property>
 configuration>

注意，这里hadoop.tmp.dir对应了hadoop的文件系统路径，里面记录了namenode，datanode，mapred的相关信息，hdfs下的文件内容都在这里，默认情况下，它对应的是/tmp/{$user}，这是个随时会清空的路径，每次重启也会自动清空，这将会影响hdfs内容的存储，必须修改路径；

如果不修改，对应的bug现象是：jps找不到datanode 或 datanode等；一般这时候需要格式化hdfs，bin/hadoop namenode -format，多次之后，出现 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: Java.io.IOException:Incompatible namespaceIDs

(2) hdfs-site.xml

伪分布式不需要备份文件信息了

 <configuration>
   <property>
     <name>dfs.replicationname>
     <value>1value>
   property>
 configuration>

(3) mapred-site.xml

 <configuration>
   <property>
     <name>mapred.job.trackername>
     <value>localhost:9001value>
   property>
 configuration>

貌似参考了hadoop1.0版本的设置。。。需要配置yarn的请参考其他说明，如：
http://www.cnblogs.com/micrari/p/5716851.html

4. 配置环境(~/.bash_profile)

 HADOOP_HOME="/usr/local/Cellar/hadoop/2.8.0"
 PATH=$HADOOP_HOME/sbin:$PATH:                                                                                                              
 export HADOOP_OPTS="$HADOOP_OPTS -Djava.library.path=$HADOOP_HOME/lib/native"

 alias start-hadoop='$HADOOP_HOME/sbin/start-all.sh'
 alias stop-hadoop='$HADOOP_HOME/sbin/stop-all.sh'

5. 测试

格式化hdfs（参考）： bin/hadoop namenode -format

启动hadoop： start-hadoop

bug：“WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform… using builtin-java classes where applicable”

原因：hadoop的lib是32位的，系统64位，需要重新编译lib库，不管它也可以正常运行大部分功能

命令行检查： jps

Jps
SecondaryNameNode
ResourceManager
NodeManager
DataNode
NameNode

至少要出现datanode，resourceManager，namenode

浏览器查看：

ResourceManager：http://localhost:50070
JobTracker：http://localhost:8088
Node imformation：http://localhost:8042
DataNode：http://localhost:50075

6. bug

(1)hdfs.DFSClient: DataStreamer Exception: org.apache.hadoop
.ipc.RemoteException: java.io.IOException: … could only be replicated to 0 nodes, instead of 1 …

datanode启动异常

stop-hadoop
hadoop namenode -format

检查是不是hadoop.tmp.dir路径有问题

（2）It looks like you are making an HTTP request to a Hadoop IPC port. This is not the correct port for the web interface on this daemon

单节点hadoop，端口号不是9000，参考5中端口号

参考：http://www.jianshu.com/p/d19ce17234b7

二、 hive

1、hive简介

hive能将hdfs上的数据看作是数据库表的形式来处理，为此，它需要为数据形成表模式，这些信息存储在metastore数据库中，也就是说，它依赖数据库的管理模式，所以是需要为节点配置数据库的。

hive的metastore的配置有三种模式：

（1）内嵌metasore：每次只能有一个内嵌的Derby数据库可以访问某个磁盘的数据库文件，这是hive默认的配置形式

（2）本地metastore：支持多用户同时访问，但是metastore服务会和hive服务运行在同一个进程

（3）远程metastore：metastore服务和hive服务运行在不同进程，数据库可以置于防火墙之后

2、安装hive

brew：brew install hive

3、配置环境(~/.bash_profile)

HIVE_HOME="/usr/local/Cellar/hive/2.1.1"
PATH=$HIVE_HOME/binL$PATH:

4、配置metastore

这里采用本地metastore配置

(1) 安装mysql：brew install mysql

(2) 测试mysql：

mysql.server start

mysql_secure_installation

mysql -u root -p

(3) mysql下创建metastore和hive用户

mysql> CREATE DATABASE metastore;
mysql> USE metastore;
mysql> CREATE USER 'hiveuser'@'localhost' IDENTIFIED BY 'password';
mysql> GRANT SELECT,INSERT,UPDATE,DELETE,ALTER,CREATE ON metastore.* TO 'hiveuser'@'localhost';

这里创建了数据库metastore，本地用户hiveuser

(4) 下载mysql的jdbc：

curl -L 'http://www.mysql.com/get/Downloads/Connector-J/mysql-connector-java-5.1.22.tar.gz/from/http://mysql.he.net/

sudo cp mysql-connector-java-5.1.15/mysql-connector-java-5.1.22-bin.jar /usr/local/Cellar/hive/hive.version.no/libexec/lib/

5、配置hive

(1) hive-default.xml

直接cp hive-deafult.xml.template hive-default.xml

(2) hive-site.xml

                                                                                     
 
 <configuration>

 <property>
   <name>javax.jdo.option.ConnectionURLname>
   <value>jdbc:mysql://localhost/metastore?createDatabaseIfNotExist=truevalue>
 property>


 <property>
   <name>javax.jdo.option.ConnectionDriverNamename>
   <value>com.mysql.jdbc.Drivervalue>
 property>

 <property>
   <name>javax.jdo.option.ConnectionUserNamename>
   <value>hiveuservalue>
 property>

 <property>
   <name>javax.jdo.option.ConnectionPasswordname>
   <value>rootvalue>
 property>

 <property>
   <name>datanucleus.autoCreateSchemaname>
   <value>truevalue>
 property>

 <property>
   <name>datanucleus.fixedDatastorename>
   <value>truevalue>
 property>

 <property>
  <name>datanucleus.autoCreateTablesname>
  <value>Truevalue>
  property>

 <property>
  <name>hive.metastore.warehouse.dirname>
  
  <value>/user/hive/warehousevalue>
  <description>location of default database for the warehousedescription>                                                                 
 property>

 <property>  
    <name>hive.metastore.schema.verificationname>  
    <value>falsevalue>  
    <description>  
    Enforce metastore schema version consistency.  
    True: Verify that version information stored in metastore matches with one from Hive jars.  Also disable automatic  
    schema migration attempt. Users are required to manully migrate schema after Hive upgrade which ensures  
    proper metastore schema migration. (Default)  
    False: Warn if the version information stored in metastore doesn't match with one from in Hive jars.  
    description>  
 property>  
 configuration>

主要是配上javax.jdo.option.ConnectionURL，设置为刚刚创建的metastore，javax.jdo.option.ConnectionDriverName设置为jdbc的驱动，javax.jdo.option.ConnectionUserName设置为刚刚建立的用户hiveuser，hive.metastore.warehouse.dir设置hive内表对应的hdfs路径根目录

6、测试

hadoop开启：hadoop-start
hive开启： hive

SLF4J: Class path contains multiple SLF4J bindings.
SLF4J: Found binding in [jar:file:/usr/local/Cellar/hive/2.1.1/libexec/lib/log4j-slf4j-impl-2.4.1.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: Found binding in [jar:file:/usr/local/Cellar/hadoop/2.8.0/libexec/share/hadoop/common/lib/slf4j-log4j12-1.7.10.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation.
SLF4J: Actual binding is of type [org.apache.logging.slf4j.Log4jLoggerFactory]

Logging initialized using configuration in jar:file:/usr/local/Cellar/hive/2.1.1/libexec/lib/hive-common-2.1.1.jar!/hive-log4j2.properties Async: true
Hive-on-MR is deprecated in Hive 2 and may not be available in the future versions. Consider using a different execution engine (i.e. spark, tez) or using Hive 1.X releases.

7、 bug

（1） Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStore

没有关联上对应的metastore，这里可能是没有事先创建好db，mysql的服务又没有启动；也可能是忘记先开启hadoop；

（2）Version information not found

hive-site.xml中没有hive.metastore.schema.verification为false

（3）metastore_db cannot create

“ERROR Datastore.Schema (Log4JLogger.java:error(125)) - Failed initialising database.
Failed to create database ‘metastore_db’, see the next exception for details”

检查hive-site.xml路径；第一次启动，写权限不够，sudo hive即可（不确定第二条成不成立，不记得具体如何解决了）

参考：http://www.cnblogs.com/ToDoToTry/p/5349753.html

三、 hbase

1. 安装hbase

brew：brew install hbase

2. 配置参数

（1）hbase-env.sh

这里我主要打开了hbase自带的zookeeper，设置hadoop路径

export HBASE_MANAGES_ZK=true
export HBASE_CLASSPATH="/usr/local/Cellar/hadoop/2.8.0/libexec/etc/hadoop"

（2）hbase-site.xml

<configuration>
   <property>
     <name>hbase.rootdirname>
     <value>hdfs://localhost:9000/hbasevalue>
   property>
   <property>
     <name>hbase.zookeeper.property.clientPortname>
     <value>2181value>
   property>
   <property>
     <name>hbase.zookeeper.property.dataDirname>
     <value>/usr/local/var/zookeepervalue>
   property>
   <property>
     <name>hbase.zookeeper.dns.interfacename>
     <value>lo0value>
   property>
   <property>
     <name>hbase.regionserver.dns.interfacename>
     <value>lo0value>
   property>
   <property>
     <name>hbase.master.dns.interfacename>
     <value>lo0value>
   property>
   <property>
     <name>hbase.cluster.distributedname>
   <value>truevalue>
 property>
 <property>
     <name>dfs.replicationname>
     <value>1value>
 property>
 <property>
     <name>hbase.master.info.portname>
     <value>60010value>
 property>

 configuration>

这里主要是hbase.rootdir端口号要和hadoop的datanode保持一致，zookeeper采用系统默认的，hbase的端口号hbase.master.info.port改为60010

3. 配置环境（～／.bash_profile）

HBASE_HOME="/usr/local/Cellar/hbase/1.2.6"
PATH=$HBASE_HOME/bin:$PATH:

4. 测试

（1）shell下查看：hbase shell

（2）服务查看：start-hbase.sh，进入localhost:60010

5. bug

（1）hbase 控制台打不开

hbase 1.0 以后的版本，需要自己手动配置hbase端口，在文件 hbase-site.xml 中添加如下配置

<property>
    <name>hbase.master.info.portname>
    <value>60010value>
property>

四、 spark

1. 安装scala

brew：brew install scala

2. 下载spark

官网：http://spark.apache.org/downloads.html

3. 安装spark

把下载的包解压到 /usr/local/spark/

4. 配置spark

(1)

cp slaves.template slaves 
cp spark-env.sh.template spark-env.sh

(2) spark-env.sh

 export SCALA_HOME=/usr/loal/Cellar/scala/2.12.3 
 export SPARK_HOME=/usr/local/spark/spark-2.2.0-bin-hadoop2.7
 export HADOOP_HOME=/usr/local/Cellar/hadoop/2.8.0
 export JAVA_HOME=/Library/Java/JavaVirtualMachines/jdk1.8.0_121.jdk/Contents/Home
 export HADOOP_CONF_DIR=/usr/local/Cellar/hadoop/2.8.0/libexec/etc/hadoop
 export SPARK_WORKER_MEMORY=1g
 export SPARK_MASTER_IP=localhost
 export SPARK_WORKER_CORES=2
 export SPARK_LOCAL_IP=127.0.0.1
 export SPARK_MASTER_WEBUI_PORT=1080

5. 配置环境(~/.bash_profile)

SPARK_HOME=/usr/local/spark/spark-2.2.0-bin-hadoop2.7
PATH=$SPARK_HOME/bin:$PATH:
alias start-spark='sudo $SPARK_HOME/sbin/start-all.sh'
alias stop-spark='sudo $SPARK_HOME/sbin/stop-all.sh'

6. 测试

开启spark：start-spark
运行demo：

./bin/spark-submit --class org.apache.spark.examples.SparkPi --master local examples/jars/spark-examples_2.11-2.2.0.jar

shell测试：spark-shell

7. bug

(1)Java.NET.BindException: Cannot assign requested address: Service ‘sparkDriver’ failed after 16 retries (starting from 0)! Consider explicitly setting the appropriate port for the service ‘sparkDriver’ (for example spark.ui.port for SparkUI) to an available port or increasing spark.port.maxRetries.

根据提示，这里是端口号没设置上，检查spark-env.sh，是否有设置如下两个参数

 export SPARK_LOCAL_IP=127.0.0.1
 export SPARK_MASTER_WEBUI_PORT=1080

(2)Directory /usr/local/spark/spark-2.2.0-bin-hadoop2.7/metastore_db cannot be created.

该路径上创建db文件夹没有权限，用sudo spark-shell

(3)mac root@localhost’s password: localhost: Permission denied, please try again

如果忘记密码，则重设root密码：

sudo passwd root

否则可能远程登录服务没开启：

sudo launchctl load -w /System/Library/LaunchDaemons/ssh.plist

或者直接在系统偏好设置的共享里面打开远程登录

Google大数据架构技术栈剑海风云 Big Data 大数据架构 Google BigData
数据存储层ColossusColossus作为Google下一代GFS（GoogleFileSystem）。GFS本身存在一些不足单主瓶颈GFS依赖单个主节点进行元数据管理，随着数据量和访问请求的增长，出现了可扩展性瓶颈。想象一下，只有一位图书管理员管理着一个庞大的图书馆——最终，事情变得难以承受。元数据可扩展性有限主节点上的集中元数据存储无法有效扩展，影响了性能并妨碍了PB和EB级数据的管理。实
全面解析湖仓一体与大数据演进历程｜内含技术工具选型策略云智慧AIOps社区技术干货 big data 分布式运维数据湖 clickhouse
云智慧AIOps社区是由云智慧发起，针对运维业务场景，提供算法、算力、数据集整体的服务体系及智能运维业务场景的解决方案交流社区。该社区致力于传播AIOps技术，旨在与各行业客户、用户、研究者和开发者们共同解决智能运维行业技术难题，推动AIOps技术在企业中落地，建设健康共赢的AIOps开发者生态。大数据架构的演进历程对于大部分人来说，大数据架构所涉及的概念及术语繁多且复杂。如何将这些混乱的词汇转化
大数据架构体系(数据仓库) Shaw_Bigdata 技术学习分享数据仓库大数据
1、传统大数据架构优点缺点使用场景简单，易懂，对于BI系统来说，基本思想没有发生变化，变化的仅仅是技术选型，用大数据架构替换掉BI的组件1、没有BI下如此完备的Cube架构，虽然目前有kylin，但是kylin的局限性非常明显，远远没有BI下的Cube的灵活度和稳定度，因此对业务支撑的灵活度不够，2、存在大量报表，或者复杂的钻取的场景，需要太多的手工定制化3、同时该架构依旧以批处理为主，缺乏实时的
Hive和Hbase的各自适用场景 yoku酱
先放结论：Hbase和Hive在大数据架构中处在不同位置，Hbase主要解决实时数据查询问题，Hive主要解决数据处理和计算问题，一般是配合使用。一、区别：Hbase：Hadoopdatabase的简称，也就是基于Hadoop数据库，是一种NoSQL数据库，主要适用于海量明细数据（十亿、百亿）的随机实时查询，如日志明细、交易清单、轨迹行为等。Hive：Hive是Hadoop数据仓库，严格来说，不是
大数据架构简述流处理、批处理、交互式查询叫我老村长
我们将大数据处理按处理时间的跨度要求分为以下几类基于实时数据流的处理，通常的时间跨度在数百毫秒到数秒之间基于历史数据的交互式查询，通常时间跨度在数十秒到数分钟之间复杂的批量数据处理，通常的时间跨度在几分钟到数小时之间1.流处理流是一种数据传送技术，它把客户端数据变成一个稳定的流。正是由于数据传送呈现连续不停的形态，所以流引擎需要连续不断处理数据流处理的主要应用场景：金融领域和电信领域1.1Stom
Python+Web玩爆超炫酷页面誉天梦老师
开课啦！！！上课日期：7月17日上课时间：15：00-16：30主讲老师：樊老师课程介绍no.1老师简介老师简介：国内知名讲师、大数据架构师、多年来就职于国内一线知名互联网公司担当要职、有多年的开发经验、教学经验、带队经验、指导就业经验，专注于Python、Linux、前端、JavaEE及Java大数据。人生格言：没有教不会的学生，只有不会教的老师，我相信我会用我多年总结的秘制教学方法，让每位学员
系统架构设计师教程（十九）大数据架构设计理论与实践赫凯 #《系统架构设计师教程》系统架构大数据
大数据架构设计理论与实践19.1传统数据处理系统存在的问题19.2大数据处理系统架构分析19.2.1大数据处理系统面临挑战19.2.2大数据处理系统架构特征19.3Lambda架构19.3.1Lambda架构对大数据处理系统的理解19.3.2Lambda架构应用场景19.3.3Lambda架构介绍19.3.4Lambda架构的实现19.3.5Lambda架构优缺点19.3.6Lambda与其他架构
企业级大数据安全架构（六）数据授权和审计管理云掣YUNCHE 企业级大数据安全架构大数据安全架构安全
作者：楼高本节详细介绍企业级大数据架构中的第六部分，数据授权和审计管理1.Ranger简介ApacheRanger是一款被设计成全面掌管Hadoop生态系统的数据安全管理框架，为Hadoop生态系统众多组件提供一个统一的数据授权和管理界面，管理员只需要对接一个Ranger管理系统，就可以对整个Hadoop生态系统进行数据管理，数据授权和审计。2.安装Ranger和RangerKMS需要先创建ran
五年Java外包转型大数据架构大数据基础入门教程大数据大数据架构大数据开发
乔二爷(化名)是我学习群的元老，我们去年就认识，他是五年Java经验的老鸟。去年年底他刚开始学大数据的时候给我打过电话，咨询一些学习路线上的问题，那时刚转型大数据的我给了他几点不太成熟的建议，今年年初就成功转型了，并且从数据开发到现在的架构，实属牛逼。个人介绍我乔二爷，专科，坐标二线城市。14年8月毕业开始从事Java开发，月薪3800，在外地驻场两年多，17年初开始接触大数据，18年底开始系统学
字节跳动大数据架构面经（超详细答案总结） Python栈机面试职场和发展 python 开发语言程序人生
字节一面1面试官：简单的做个自我介绍吧面试官，您好！我叫xxx,xxxx年x月毕业于xxx学校，xx学历，目前就职于xxx公司xxx部门，职位为：大数据开发工程师，主要从事于xxx组件、平台的开发工作。工作以来，我先后参加了xxx项目、xxx项目以及xxx项目，积累了丰富的项目经验，同时，这x个项目都得到了领导的一致好评。我对Flink组件有着浓厚的兴趣，工作之余经常钻研技术、例如：Flink四大
HBase集群写入出现大量毛刺排查 KubeData 大数据技术大数据架构 hbase
大家好，我是K&D，一名10年以上大数据架构&研发经验从业者，目前主要从事云原生大数据方向设计，擅长云原生技术、数据架构、数据平台构建、大数据组件性能调优问题现象查看监控，业务请求量正常，但是server端毛刺严重近期在HBase集群中经常会收到写入延迟过高的相关告警信息，同时业务也反馈程序会有一些写入阻塞问题，查看监控图表，发现业务的写入请求是正常的，但是HBaseServer段出现了毛刺现象，
一文了解数据库vs数据仓库vs数据湖 KubeData 云原生大数据大数据技术数据库数据仓库大数据数据库架构
大家好，我是K&D，一名10年以上大数据架构&研发经验从业者，目前主要从事云原生大数据方向设计，擅长云原生技术、数据架构、数据平台构建、大数据组件性能调优以下是本文目录：什么是数据库？为什么会有数据仓库？拆解几个OLAP核心概念大数据技术架构演进过程什么是数据湖？数据库、数据仓库、数据湖：哪个更合适？什么是数据库？数据库这个概念相信大家其实都不太陌生，无论是做应用服务还是做App开发，或者说是大数
程序员如何构建自己的「护城河」 KubeData 个人成长职场和发展
大家好，我是K&D，一名10年以上大数据架构&研发经验从业者，目前主要从事云原生大数据方向设计，擅长云原生技术、数据架构、数据平台构建、大数据组件性能调优关注我，持续分享更多技术干货0.何为「护城河」前段时间，大家一直在讨论说在当下的时代，作为程序员来讲，我们的护城河是什么？下面我从十几年的从业经验来讲一讲，我所使用过的一些方式和方法，有些对我是有积极的促进作用，有些则没有任何效果，同时也尝试过不
【大数据】深入浅出 Apache Flink：架构、案例和优势 G皮T #Flink 大数据 flink 流处理批处理 pipeline 实时计算流批一体
深入浅出ApacheFlink：架构、案例和优势1.现代大数据架构1.1什么是批处理？1.2什么是流处理？2.ApacheFlink项目2.1处理无界和有界数据流2.2有界数据流2.3无界流3.ApacheFlink架构和关键组件3.1Flink架构3.2Flink生态3.2.1DataSetAPIs3.2.2DataStreamAPIs3.2.3ComplexEventProcessing（CE
netty（T-io）详解（包含4种io模型详解） Dark_Code netty T-io java java 开发语言
1、时代背景5G应用，多终端应用，物联网应用，小程序，工业互联，大数据应用等等大前端时代的到来，程序员不能只关注crud，因为以后的服务并发量只会越来越多。高并发架构师、大数据架构师或者说java高级工程师现在才能找到一份好工作。Netty（T-io），Redis、zookeeper、高性能http组件（Nginx）、java并发编程组件（JUC包）工作两年以后，必须熟练掌握。2、netty框架N
大数据架构师从入门到精通学习必看宝典看看山观观海架构美文
经常有初学者在博客和QQ问我，自己想往大数据方向发展，该学哪些技术，学习路线是什么样的，觉得大数据很火，就业很好，薪资很高。如果自己很迷茫，为了这些原因想往大数据方向发展，也可以，那么我就想问一下，你的专业是什么，对于计算机/软件，你的兴趣是什么？是计算机专业，对操作系统、硬件、网络、服务器感兴趣？是软件专业，对软件开发、编程、写代码感兴趣？还是数学、统计学专业，对数据和数字特别感兴趣。其实这就是
【大数据架构】OLAP实时分析引擎选型话数Science 大数据大数据架构
OLAP引擎面临的挑战常见OLAP引擎对比OLAP分析场景中，一般认为QPS达到1000+就算高并发，而不是像电商、抢红包等业务场景中，10W以上才算高并发，毕竟数据分析场景，数据海量，计算复杂，QPS能够达到1000已经非常不容易原理优势劣势ClickhouseClickhouse用C++实现，具备强劲的查询性能。比较适合内部BI报表型应用。不适合如数十万的广告主报表或者数百万的淘宝店主相关报表
【大数据架构】日志采集方案对比话数Science 大数据面试大数据面试架构
整体架构日志采集端FlumeFlume的设计宗旨是向Hadoop集群批量导入基于事件的海量数据。系统中最核心的角色是agent，Flume采集系统就是由一个个agent所连接起来形成。每一个agent相当于一个数据传递员，内部有三个组件：source:采集源，用于跟数据源对接，以获取数据sink：传送数据的目的地，用于往下一级agent或者最终存储系统传递数据channel：agent内部的数据传
深入理解奥运会大数据架构方案 TPEngineer sqoop 数据仓库大数据
背景某网作为某电视台在互联网上的大型门户入口，某一年成为某奥运会中国大陆地区的特权转播商，独家全程直播了某奥运会全部的赛事，积累了庞大稳定的用户群，这些用户在使用各类服务过程中产生了大量数据，对这些海量数据进行分析与挖掘，将会对节目的传播及商业模式变现起到重要的作用。该奥运期间需要对增量数据在当日概览和赛事回顾两个层面上进行分析。其中，当日概览模块需要秒级刷新直播在线人数、网站的综合浏览量、页面停
机器学习分布式架构小幸运Q
https://zhuanlan.zhihu.com/p/82116922https://zhuanlan.zhihu.com/p/81784947大数据架构1.批处理MapReduce无法应对实时不确定量的小样本处理，只能累积到一定数量再进行批处理。2.流计算（Storm，Spark，Flink）使用滑动窗口，在滑动窗口内的数据全部完成后再滑动到下一个时间窗口进行新一轮的数据处理，以分钟级别居多
7.大数据架构详解：从数据获取到深度学习 --- 批处理技术 enlyhua 大数据
定义：复杂的批量数据处理，通常的时间跨度在几分钟到数小时之间。7.1批处理技术的概念数据批处理，其最主要的应用场景就是传统的ETL过程。如电信领域的KPI,KQI计算。经过探针采集上来后，按照一定的规则转换成原始单据，根据业务需求，按周期(15分钟，60分钟，天)等粒度计算成业务单据。这一过程使用数据库来承担。传统的数据库遇到瓶颈后，就出现了MPP技术。google研究员另辟蹊径，从传统的函数式编
HBase 和 Hive 的差别是什么，各自适用在什么场景中？杰在天涯
转载自（爱我的程序人生）Hbase和Hive在大数据架构中处在不同位置，Hbase主要解决实时数据查询问题，Hive主要解决数据处理和计算问题，一般是配合使用。一、区别：Hbase：Hadoopdatabase的简称，也就是基于Hadoop数据库，是一种NoSQL数据库，主要适用于海量明细数据（十亿、百亿）的随机实时查询，如日志明细、交易清单、轨迹行为等。Hive：Hive是Hadoop数据仓库，
【漏洞复现】天融信TOPSEC安全管理系统远程命令执行漏洞新疆东坡肉漏洞复现安全 web安全网络安全
文章目录漏洞描述资产测绘漏洞复现漏洞描述`天融信TopSec安全管理系统，是基于大数据架构，采用多种技术手段收集各类探针设备安全数据，围绕资产、漏洞、攻击、威胁等安全要素进行全面分析，提供统一监测告警、集中策略管控、协同处置流程，实现客户等保合规、资产统一管理、风险一键阻断等应用价值。该系统存在存在远程命令执行漏洞，通过此漏洞，攻击者可进行文件写入等危险操作，威胁系统安全。`资产测绘FOFA：ti
天融信TOPSEC安全管理系统存在远程命令执行漏洞 3tefanie丶zhou 漏洞复现安全网络安全 web安全
文章目录产品简介漏洞概述指纹识别漏洞利用修复建议产品简介天融信TopSec安全管理系统，是基于大数据架构，采用多种技术手段收集各类探针设备安全数据，围绕资产、漏洞、攻击、威胁等安全要素进行全面分析，提供统一监测告警、集中策略管控、协同处置流程，实现客户等保合规、资产统一管理、风险一键阻断等。漏洞概述安全管理系统存在存在远程命令执行漏洞，通过此漏洞，攻击者可进行文件写入等危险操作，威胁系统安全。指纹
数据仓库架构-Lambda和Kappa 产品经理自我修养大数据
随着数据量的暴增和数据实时性要求越来越高，以及大数据技术的发展驱动企业不断升级迭代，数据仓库架构方面也在不断演进，分别经历了以下过程：早期经典数仓架构>离线大数据架构>Lambda>Kappa>混合架构。架构组成特点经典数仓架构关系型数据库（mysql、oracle）为主数据量小，实时性要求低离线大数据架构hive，spark为主数据量大，实时性要求低Lambdahive，spark负责存量，st
大数据架构Lambda、kappa、iota架构 lucklilili 大数据架构设计 big data 架构大数据
1、流式架构传统大数据架构优点：简单，易懂，对于BI系统来说，基本思想没有发生变化，变化的仅仅是技术选型，用大数据架构替换掉BI的组件。缺点：对于大数据来说，没有BI下如此完备的Cube架构，虽然目前有kylin，但是kylin的局限性非常明显，远远没有BI下的Cube的灵活度和稳定度，因此对业务支撑的灵活度不够，所以对于存在大量报表，或者复杂的钻取的场景，需要太多的手工定制化，同时该架构依旧以批
大数据技术4：Lambda和Kappa架构区别 Java架构何哥大数据治理 Lambda和Kappa区别 Lambda架构 Kappa架构
前言：在大数据处理领域，两种突出的数据架构已成为处理大量数据的流行选择：Lambda架构和Kappa架构。这些架构为实时处理和批处理提供了强大的技术解决方案，使组织能够从其数据中获得有价值的见解。随着互联网时代来临，数据量暴增，开始使用大数据工具来替代经典数仓中的传统工具。此时仅仅是工具的取代，架构上并没有根本的区别，可以把这个架构叫做离线大数据架构。后来随着业务实时性要求的不断提高，人们开始在离
大数据架构（一）背景和概念野生的狒狒大数据数据仓库 hive
一、背景1.岗位现状大数据在一线互联网已经爆发了好多年，2015年-2020年（国内互联网爆发期）那时候的大数据开发，刚毕业能写HiveSQL配置个离线任务、整个帆软报表都20K+起步。如果做到架构师，50K跑不掉。现在市场回归理性后：普通岗：大数据/数仓开发，实际上除超一线城市之外，尚存很多大型企业转型期信息化、互联网（物联网IOT）还在发展，数据还在爆发式增长，仍大有可为。精英岗/管理岗：大数
大数据架构（二）大数据发展史野生的狒狒数据仓库大数据数据挖掘
1.背景随着数据量的暴增和数据实时性要求越来越高，以及大数据技术的发展驱动企业不断升级迭代，传统数仓经历了以下发展过程：传统数仓架构->离线大数据架构->Lambda架构->Kappa架构->新一代实时数仓。（大部分网上文章最后一个时代竟然写的是Unifield混合架构，笔者非常不赞同，因为Unifield加了机器学习、IOTA架构加了物联网边缘计算的概念。这两者建议单独出来写架构。属于特殊业务场
6.大数据架构详解：从数据获取到深度学习 --- 交互式分析 enlyhua 大数据
6.1交互式分析的概念在数仓领域有个概念"即席查询"(AdhocQuery)，指的是用户在使用系统时，根据自己当时的需求定义查询。在大数据领域，扩展到InteractiveQuery(交互式查询)是最常见的一种，通常用于客户投诉处理，实时数据分析，在线查询等。具有如下特点：1.时延低(在数十秒在数分钟之间)2.查询条件复杂(多个维度)3.查询范围大(通常查询表记录在几十亿级别)4.返回结果小(几十
戴尔笔记本win8系统改装win7系统 sophia天雪 win7 戴尔改装系统 win8
戴尔win8 系统改装win7 系统详述第一步：使用U盘制作虚拟光驱： 1）下载安装UltraISO：注册码可以在网上搜索。 2）启动UltraISO，点击“文件”—》“打开”按钮，打开已经准备好的ISO镜像文
BeanUtils.copyProperties使用笔记 bylijinnan java
BeanUtils.copyProperties VS PropertyUtils.copyProperties 两者最大的区别是： BeanUtils.copyProperties会进行类型转换，而PropertyUtils.copyProperties不会。既然进行了类型转换，那BeanUtils.copyProperties的速度比不上PropertyUtils.copyProp
MyEclipse中文乱码问题 0624chenhong MyEclipse
一、设置新建常见文件的默认编码格式，也就是文件保存的格式。在不对MyEclipse进行设置的时候，默认保存文件的编码，一般跟简体中文操作系统（如windows2000，windowsXP）的编码一致，即GBK。在简体中文系统下，ANSI 编码代表 GBK编码;在日文操作系统下，ANSI 编码代表 JIS 编码。 Window-->Preferences-->General -
发送邮件不懂事的小屁孩 send email
import org.apache.commons.mail.EmailAttachment; import org.apache.commons.mail.EmailException; import org.apache.commons.mail.HtmlEmail; import org.apache.commons.mail.MultiPartEmail;
动画合集换个号韩国红果果 html css
动画指一种样式变为另一种样式 keyframes应当始终定义0 100 过程 1 transition 制作鼠标滑过图片时的放大效果 css .wrap{ width: 340px;height: 340px; position: absolute; top: 30%; left: 20%; overflow: hidden; bor
网络最常见的攻击方式竟然是SQL注入蓝儿唯美 sql注入
NTT研究表明，尽管SQL注入（SQLi）型攻击记录详尽且为人熟知，但目前网络应用程序仍然是SQLi攻击的重灾区。信息安全和风险管理公司NTTCom Security发布的《2015全球智能威胁风险报告》表明，目前黑客攻击网络应用程序方式中最流行的，要数SQLi攻击。报告对去年发生的60亿攻击行为进行分析，指出SQLi攻击是最常见的网络应用程序攻击方式。全球网络应用程序攻击中，SQLi攻击占
java笔记2 a-john java
类的封装： 1，java中，对象就是一个封装体。封装是把对象的属性和服务结合成一个独立的的单位。并尽可能隐藏对象的内部细节（尤其是私有数据） 2，目的：使对象以外的部分不能随意存取对象的内部数据（如属性），从而使软件错误能够局部化，减少差错和排错的难度。 3，简单来说，“隐藏属性、方法或实现细节的过程”称为——封装。 4，封装的特性： 4.1设置
[Andengine]Error：can't creat bitmap form path “gfx/xxx.xxx” aijuans 学习Android遇到的错误
最开始遇到这个错误是很早以前了，以前也没注意，只当是一个不理解的bug，因为所有的texture，textureregion都没有问题，但是就是提示错误。昨天和美工要图片，本来是要背景透明的png格式，可是她却给了我一个jpg的。说明了之后她说没法改，因为没有png这个保存选项。我就看了一下，和她要了psd的文件，还好我有一点
自己写的一个繁体到简体的转换程序 asialee java 转换繁体 filter 简体
今天调研一个任务，基于java的filter实现繁体到简体的转换，于是写了一个demo，给各位博友奉上，欢迎批评指正。实现的思路是重载request的调取参数的几个方法，然后做下转换。
android意图和意图监听器技术百合不是茶 android 显示意图隐式意图意图监听器
Intent是在activity之间传递数据;Intent的传递分为显示传递和隐式传递显式意图：调用Intent.setComponent() 或 Intent.setClassName() 或 Intent.setClass()方法明确指定了组件名的Intent为显式意图，显式意图明确指定了Intent应该传递给哪个组件。隐式意图;不指明调用的名称,根据设
spring3中新增的@value注解 bijian1013 java spring @Value
在spring 3.0中，可以通过使用@value，对一些如xxx.properties文件中的文件，进行键值对的注入，例子如下： 1.首先在applicationContext.xml中加入： <beans xmlns="http://www.springframework.
Jboss启用CXF日志 sunjing log jboss CXF
1. 在standalone.xml配置文件中添加system-properties： <system-properties> <property name="org.apache.cxf.logging.enabled" value=&
【Hadoop三】Centos7_x86_64部署Hadoop集群之编译Hadoop源代码 bit1129 centos
编译必需的软件 Firebugs3.0.0 Maven3.2.3 Ant JDK1.7.0_67 protobuf-2.5.0 Hadoop 2.5.2源码包 Firebugs3.0.0 http://sourceforge.jp/projects/sfnet_findbug
struts2验证框架的使用和扩展白糖_ 框架 xml bean struts 正则表达式
struts2能够对前台提交的表单数据进行输入有效性校验，通常有两种方式： 1、在Action类中通过validatexx方法验证，这种方式很简单，在此不再赘述； 2、通过编写xx-validation.xml文件执行表单验证，当用户提交表单请求后，struts会优先执行xml文件，如果校验不通过是不会让请求访问指定action的。本文介绍一下struts2通过xml文件进行校验的方法并说
记录-感悟 braveCS 感悟
再翻翻以前写的感悟，有时会发现自己很幼稚，也会让自己找回初心。 2015-1-11 1. 能在工作之余学习感兴趣的东西已经很幸福了； 2. 要改变自己，不能这样一直在原来区域，要突破安全区舒适区，才能提高自己，往好的方面发展； 3. 多反省多思考；要会用工具，而不是变成工具的奴隶； 4. 一天内集中一个定长时间段看最新资讯和偏流式博
编程之美-数组中最长递增子序列 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class LongestAccendingSubSequence { /** * 编程之美数组中最长递增子序列 * 书上的解法容易理解 * 另一方法书上没有提到的是，可以将数组排序（由小到大）得到新的数组， * 然后求排序后的数组与原数
读书笔记5 chengxuyuancsdn 重复提交 struts2的token验证
1、重复提交 2、struts2的token验证 3、用response返回xml时的注意 1、重复提交 (1)应用场景 (1-1)点击提交按钮两次。 (1-2)使用浏览器后退按钮重复之前的操作，导致重复提交表单。 (1-3)刷新页面 (1-4)使用浏览器历史记录重复提交表单。 (1-5)浏览器重复的 HTTP 请求。 (2)解决方法 (2-1)禁掉提交按钮 (2-2)
[时空与探索]全球联合进行第二次费城实验的可能性 comsci
二次世界大战前后,由爱因斯坦参加的一次在海军舰艇上进行的物理学实验 -费城实验至今给我们大家留下很多迷团..... 关于费城实验的详细过程,大家可以在网络上搜索一下,我这里就不详细描述了在这里,我的意思是,现在
easy connect 之 ORA-12154: TNS: 无法解析指定的连接标识符 daizj oracle ORA-12154
用easy connect连接出现“tns无法解析指定的连接标示符”的错误，如下： C:\Users\Administrator>sqlplus username/[email protected]:1521/orcl SQL*Plus: Release 10.2.0.1.0 – Production on 星期一 5月 21 18:16:20 2012 Copyright (c) 198
简单排序:归并排序 dieslrae 归并排序
public void mergeSort(int[] array){ int temp = array.length/2; if(temp == 0){ return; } int[] a = new int[temp]; int
C语言中字符串的\0和空格 dcj3sjt126com c
\0 为字符串结束符，比如说： abcd (空格)cdefg；存入数组时，空格作为一个字符占有一个字节的空间，我们
解决Composer国内速度慢的办法 dcj3sjt126com Composer
用法：有两种方式启用本镜像服务： 1 将以下配置信息添加到 Composer 的配置文件 config.json 中（系统全局配置）。见“例1” 2 将以下配置信息添加到你的项目的 composer.json 文件中（针对单个项目配置）。见“例2” 为了避免安装包的时候都要执行两次查询，切记要添加禁用 packagist 的设置，如下 1 2 3 4 5
高效可伸缩的结果缓存 shuizhaosi888 高效可伸缩的结果缓存
/** * 要执行的算法，返回结果v */ public interface Computable<A, V> { public V comput(final A arg); } /** * 用于缓存数据 */ public class Memoizer<A, V> implements Computable<A,
三点定位的算法 haoningabc c 算法
三点定位，已知a,b,c三个顶点的x,y坐标和三个点都z坐标的距离，la，lb,lc 求z点的坐标原理就是围绕a,b,c 三个点画圆，三个圆焦点的部分就是所求但是，由于三个点的距离可能不准，不一定会有结果，所以是三个圆环的焦点，环的宽度开始为0，没有取到则加1 运行 gcc -lm test.c test.c代码如下 #include "stdi
epoll使用详解 jimmee c linux 服务端编程 epoll
epoll - I/O event notification facility在linux的网络编程中，很长的时间都在使用select来做事件触发。在linux新的内核中，有了一种替换它的机制，就是epoll。相比于select，epoll最大的好处在于它不会随着监听fd数目的增长而降低效率。因为在内核中的select实现中，它是采用轮询来处理的，轮询的fd数目越多，自然耗时越多。并且，在linu
Hibernate对Enum的映射的基本使用方法 linzx0212 enum Hibernate
枚举 /** * 性别枚举 */ public enum Gender { MALE(0), FEMALE(1), OTHER(2); private Gender(int i) { this.i = i; } private int i; public int getI
第10章高级事件（下） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
孙子兵法 roadrunners 孙子兵法
始计第一孙子曰：兵者，国之大事，死生之地，存亡之道，不可不察也。故经之以五事，校之以计，而索其情：一曰道，二曰天，三曰地，四曰将，五曰法。道者，令民于上同意，可与之死，可与之生，而不危也；天者，阴阳、寒暑、时制也；地者，远近、险易、广狭、死生也；将者，智、信、仁、勇、严也；法者，曲制、官道、主用也。凡此五者，将莫不闻，知之者胜，不知之者不胜。故校之以计，而索其情，曰
MySQL双向复制 tomcat_oracle mysql
本文包括: 主机配置从机配置建立主-从复制建立双向复制背景按照以下简单的步骤: 参考一下：在机器A配置主机(192.168.1.30) 在机器B配置从机(192.168.1.29) 我们可以使用下面的步骤来实现这一点步骤1：机器A设置主机在主机中打开配置文件 ,
zoj 3822 Domination(dp) 阿尔萨斯 Mina
题目链接：zoj 3822 Domination 题目大意：给定一个N∗M的棋盘，每次任选一个位置放置一枚棋子，直到每行每列上都至少有一枚棋子，问放置棋子个数的期望。解题思路：大白书上概率那一张有一道类似的题目，但是因为时间比较久了，还是稍微想了一下。dp[i][j][k]表示i行j列上均有至少一枚棋子，并且消耗k步的概率（k≤i∗j）,因为放置在i+1~n上等价与放在i+1行上，同理