E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
大数据学习笔记
大数据学习笔记
(十)-Hive中的Storage format
1.Storageformat行存储:SEQUENCEFILE、TEXTFILE列存储:ORC、PARQUET、AVRO行列混合存储:RCFILE、2.行存储VS列存储行式存储:①一行数据一定在一个block里②一行数据类型混杂,不容易获得很好的压缩比③不能支持快速查询列式存储:①一行数据不一定在一个block里②查询时能够避免读取不必要的列③每一列存储数据类型相同,可以针对列选择压缩方式,能够达
狂暴棕熊
·
2017-12-13 21:03
大数据
大数据学习笔记
(九)-大数据中的压缩
1.常见压缩格式:gzip,bizp2,LZO,Snappy2.压缩技术使用原则:缩小体积则需要更多的CPU计算量,存储数据倾向于大压缩比的压缩技术,根据实际情况选择合适的压缩技术。3.压缩在大数据计算中的一个重要考量是压缩技术是否支持分割(split)bzip2支持,LZO创建索引后支持4.要让Hadoop支持压缩,需要对Hadoop源码进行编译查看是否支持压缩:hadoopchecknativ
狂暴棕熊
·
2017-12-13 14:09
大数据
大数据学习笔记
(七)-运行spark脚本【原创】
阅读更多在启动了hadoop和spark之后,就可以运行spark脚本环境,在其上可以运行scala脚本。1.cd$SPARK_HOME/bin2.master=spark://master.hadoop.zjportdns.gov.cn./spark-shell然后就可以运行脚本了scala>vala=sc.parallelize(1to9,3)a:org.apache.spark.rdd.RD
zhenggm
·
2017-04-06 14:00
spark
shell
scala
大数据学习笔记
(七)-运行spark脚本【原创】
阅读更多在启动了hadoop和spark之后,就可以运行spark脚本环境,在其上可以运行scala脚本。1.cd$SPARK_HOME/bin2.master=spark://master.hadoop.zjportdns.gov.cn./spark-shell然后就可以运行脚本了scala>vala=sc.parallelize(1to9,3)a:org.apache.spark.rdd.RD
zhenggm
·
2017-04-06 14:00
spark
shell
scala
大数据学习笔记
(七)-运行spark脚本【原创】
阅读更多在启动了hadoop和spark之后,就可以运行spark脚本环境,在其上可以运行scala脚本。1.cd$SPARK_HOME/bin2.master=spark://master.hadoop.zjportdns.gov.cn./spark-shell然后就可以运行脚本了scala>vala=sc.parallelize(1to9,3)a:org.apache.spark.rdd.RD
zhenggm
·
2017-04-06 14:00
spark
shell
scala
大数据学习笔记
(五)-spark demo 运行【原创】
阅读更多spark有四种运行模式:1)local模式(单机模式)2)standalone模式(伪分布模式)3)yarn-client模式(driver运行在客户端,可通过4040端口查看客户端运行状态,client全程参与调度)4)yarn-cluster模式(driver运行在服务端,需通过yarn-cluster的8088端口查看,client在提交完job之后就可以关闭了)切换到SPARK_
zhenggm
·
2017-02-21 19:00
spark
demo
运行
大数据学习笔记
(五)-spark demo 运行【原创】
阅读更多spark有四种运行模式:1)local模式(单机模式)2)standalone模式(伪分布模式)3)yarn-client模式(driver运行在客户端,可通过4040端口查看客户端运行状态,client全程参与调度)4)yarn-cluster模式(driver运行在服务端,需通过yarn-cluster的8088端口查看,client在提交完job之后就可以关闭了)切换到SPARK_
zhenggm
·
2017-02-21 19:00
spark
demo
运行
大数据学习笔记
(四)-spark 安装【原创】
阅读更多spark有三种部署方式:standalone,sparkonmesos和sparkonyarn.standalone用于开发;sparkonmesos官方推荐,mesos调度更强大;如何同时使用hadoop,那么sparkonyarn兼容更好。本文是在介绍第三种方式,需要先安装hadoop-2.7.3(略)。一、准备工作(scala&spark)1.1centOS6服务器3台master
zhenggm
·
2017-02-21 16:00
spark
安装
大数据学习笔记
(三)-hadoop demo 运行【原创】
阅读更多1.创建两个文本文件,作为测试数据mkdir-p/home/zhenggm/inputcd/home/zhenggm/inputecho"hellohadoopbyehadoop">f1echo"hellohadoopbyehadoop">f22.创建hdfs目录hadoopfs-mkdir-p/tmp/input3.拷贝文件到hdfs中hadoopfs-put/home/zhenggm/
zhenggm
·
2017-02-20 20:00
hadoop
例子
demo
大数据学习笔记
(三)-hadoop demo 运行【原创】
阅读更多1.创建两个文本文件,作为测试数据mkdir-p/home/zhenggm/inputcd/home/zhenggm/inputecho"hellohadoopbyehadoop">f1echo"hellohadoopbyehadoop">f22.创建hdfs目录hadoopfs-mkdir-p/tmp/input3.拷贝文件到hdfs中hadoopfs-put/home/zhenggm/
zhenggm
·
2017-02-20 20:00
hadoop
例子
demo
大数据学习笔记
(二)-hadoop安装【原创】
阅读更多Hadoop使用主/从(Master/Slave)架构,主要角色有NameNode,DataNode,secondaryNameNode,JobTracker,TaskTracker组成。其中NameNode,secondaryNameNode,JobTracker运行在Master节点上,DataNode和TaskTracker运行在Slave节点上。一、准备工作1.1centOS6服务
zhenggm
·
2017-02-20 16:00
hadoop
安装
大数据学习笔记
(一)【原创】
阅读更多新年,公司开始建设大数据中心项目,因此架构组需要对相关技术进行研究。原先对大数据相关技术已有耳闻,但是实际项目没用,很少去深入关注。这里先把一些技术的理解记一下:1.hadoop我的理解是一个大数据处理框架,包括了hdfs,hbase,yarn,hive,zookeeper等一堆技术,其中的处理算法是MapReduce.2.hdfs是海量分布式文件系统,一般hadoop批量任务都需要依赖h
zhenggm
·
2017-02-10 17:00
hadoop
spark
mapreduce
hive
yarn
大数据学习笔记
(三)-k-均值聚类&多维缩放找聚类
1.k-均值聚类因为前面的几种求聚类的算法,需要计算两两配对项的关系,在数据集大的时候,速度会很慢。所以我们要学习k-均值聚类算法思想:我们会事先知道需要聚类的数量。这儿假设我们需要n个聚类,那么我们先随机生成n个中心位置。然后利用聚类算法将各个数据项分配给最邻近的中心位置,然后移动中心位置到聚类的平均位置处,然后循环以上步骤,知道分配过程不再变化,那么算法结束。返回n个聚类。具体代码如下#k-均
Ypersistence
·
2016-12-14 21:17
大数据
大数据学习笔记
(二)-分级类聚&列类聚
下面用到的数据及代码:clickhere1.获取数据:来自100个博客里面的所有文章单词数目,这儿用的rss订阅源对文章数据进行获取,rss获取出来是xml文件格式,所以可以下载一个feedparser来对xml文档进行解析。关于怎么得到每篇博客的每个单词的统计情况,请自行查看generatefeedvector.py文件。不理解的地方欢迎交流。获取后得到的文件为blogdata.txt。2.分级
Ypersistence
·
2016-12-13 17:17
python
大数据
大数据学习笔记
-------------------(30)
第30章HBASE架构与安装30.1HBase架构在HBase中,表分割成区域并由区域服务器提供服务。区域被列族垂直划分为"Stores"。Stores保存为HDFS中的文件。下面显示的是HBase的架构。Note:术语"store"用于区域以解释存储结构HBase有三个主要组件:客服端库(ClientLibrary)、主服务器(MasterServer)、区域服务器(RegionServer)。
坏蛋是我
·
2016-11-02 16:29
大数据
大数据学习笔记
-------------------(28)
第28章HIVEQLHIVEQL(HIVEQueryLanguage:Hive查询语言)是一种查询语言,该语言为Hive处理并分析Metastore的结构数据。28.1查询语句(SELECT...WHERE)SELECT语句被用于检索表中的数据。WHERE子句的工作原理类似于条件。它用条件过滤数据并给出一个有限结果。内置的运算符和函数生成一个满足条件的表达式。SELECT查询语法如下:SELECT
坏蛋是我
·
2016-10-31 11:48
大数据
大数据学习笔记
-------------------(10)
第9章zookeeper安装在安装之前,确定安装的操作系统:ØLinux操作系统----------支持zookeeper的开发和部署。demo应用首先操作系统。ØWindows操作系统---------只支持开发ØMac操作系统----------------只支持开发ZooKeeper服务用Java创建并运行在JVM上。在安装zookeeper前需要配置JDK环境,要求版本在6之上,安装zoo
坏蛋是我
·
2016-09-28 12:33
大数据
大数据学习笔记
6·社会计算中的大数据(4)
上一篇介绍了LifeSpec项目,这个项目是关于用户理解和用户画像的。这篇是社会计算部分的最后一篇,关于用户连接和图隐私。用户连接与隐私保护用户连接与隐私保护有很强的相关性。上图中,左边有两个网络。对于用户连接,我们的目标是映射这两个网络和连接这些网络中的用户节点。然后,我们就能产生一个更大的网络。这样,用户就能够被连接在一起,我们就可以知道跨网络的用户信息。但是,如果从隐私的角度来看这个问题,把
xiang_freedom
·
2016-05-11 01:00
大数据
大数据学习笔记
·社会计算(3)
前两篇文章介绍了我们在用户移动规律的理解方面的研究工作,包括如何处理用户轨迹中的缺失数据以及如何为用户推荐感兴趣的位置。在这一部分,我将展示我们在用户特征研究方面的研究项目。LifeSpec首先,我想介绍我们近期开展的LifeSpec项目。这个项目的目标是利用社交网络中的用户数据来探索城市生活方式的方方面面。我们从多个社交网络收集了数据,包括街旁,微博,图书和电影评论网站豆瓣,以及著名的餐馆评论网
xiang_freedom
·
2016-05-05 21:52
大数据与机器学习
大数据
大数据学习笔记
5·社会计算中的大数据(3)
前两篇文章介绍了我们在用户移动规律的理解方面的研究工作,包括如何处理用户轨迹中的缺失数据以及如何为用户推荐感兴趣的位置。在这一部分,我将展示我们在用户特征研究方面的研究项目。LifeSpec首先,我想介绍我们近期开展的LifeSpec项目。这个项目的目标是利用社交网络中的用户数据来探索城市生活方式的方方面面。我们从多个社交网络收集了数据,包括街旁,微博,图书和电影评论网站豆瓣,以及著名的餐馆评论网
xiang_freedom
·
2016-05-05 21:00
大数据
大数据学习笔记
4·社会计算中的大数据(2)
本篇继续讨论对用户移动规律的理解:结合地理建模和矩阵分解来做兴趣点推荐。位置推荐是一类非常受欢迎的应用。在位置推荐中,我们需要理解用户的潜在兴趣并熟悉用户所处的环境。然后,我们就可以根据用户的兴趣和位置的属性发现用户可能感兴趣的地点。与普通推荐任务相比,地理位置在位置推荐中是改进推荐性能的一个重要因素。在前面一篇中,我们讨论了如何恢复用户行为数据用于移动规律的理解。我们发现,用户移动行为通常集中在
xiang_freedom
·
2016-04-30 01:00
大数据
大数据学习笔记
·社会计算(1)
背景信息什么是用户行为数据,用户行为数据是怎么积累的。为什么我们需要研究用户理解以及为什么用户理解这么重要。在第二部分,我会介绍我们最近关于移动规律理解应用的研究工作。例如,怎样处理用户轨迹中的数据缺失问题,怎么样为用户推荐有趣的地点。在最后一部分,我会展示我们近期在用户分析和隐私保护方面的研究项目。这张图展示了每分钟用户在一些网站上产生的数据量。用户数据是怎么样收集的二十多年之前,那时候普适计算
xiang_freedom
·
2016-04-28 02:26
大数据与机器学习
大数据
大数据学习笔记
3·社会计算中的大数据(1)
背景信息什么是用户行为数据,用户行为数据是怎么积累的。为什么我们需要研究用户理解以及为什么用户理解这么重要。在第二部分,我会介绍我们最近关于移动规律理解应用的研究工作。例如,怎样处理用户轨迹中的数据缺失问题,怎么样为用户推荐有趣的地点。在最后一部分,我会展示我们近期在用户分析和隐私保护方面的研究项目。这张图展示了每分钟用户在一些网站上产生的数据量。用户数据是怎么样收集的二十多年之前,那时候普适计算
xiang_freedom
·
2016-04-28 02:00
大数据
大数据学习笔记
2·互联网搜索中的大数据研究
大规模网络搜索的设计大规模搜索引擎的逻辑结构上图来自1998年Google两个创始人发表的论文。crawler:爬虫,从互联网上获取文档信息index:读取这些信息,并记住哪些单词出现在哪些文档中,称为索引search:使关键词查询成为可能,并对查询结果进行排序Google的独特性在于:使用anchortext描述目标文档,并利用文档之间的链接对文档的重要性排序,这就是PageRank。Googl
xiang_freedom
·
2016-04-24 18:00
大数据
大数据学习笔记
1·研究现状
什么是大数据如果逐字逐句来看两家公司对大数据的定义,你们会发现这两个定义非常相似,其中都提到了大量、高速和多样化的信息;关注发现、分析、洞见和决策制定。我想在某种意义上,在这个高度竞争的社会,创新意味着,如果你有某种洞见、想法和决定,它们不同于或者超前于有相同想法的人的洞见、想法和决定,即使只是超前一天,说一天可能有点夸张,就说一个月或者几年吧,那么你就有了独特的优势。这就是创新。大数据正是你实现
xiang_freedom
·
2016-04-22 19:00
大数据
云和
大数据学习笔记
云定义:把一堆it资源集成,按使用情况来计费;并行-》集群-》网格-》互联网分类及特征服务类型:saas(应用软件),paas(应用平台),iaas(基础设施)公有云,私有云各方角色视角(对终端用户-按需提供服务与能力,可快速按需扩容,技术无感知;云提供者-架构、模式、产品、运维;设计开发者:新观念、新模式、工作量)市面示例:iaas阿里云,橙云主机paas百度数据库saas云笔记,亚马逊服务,八
飞弹蛋
·
2016-04-12 11:00
大数据学习笔记
——Hadoop1.x基本概念和安装
Hadoop生态圈十分庞大,最近Spark又很火热并且速度也是Hadoop的百倍级别的,曾想就只看Spark吧,后来发现还是需要从基础打起,Spark是基于内存的,其没有存储系统,需要添加第三方分布式存储,而大多数Spark项目都安装在Hadoop上,因此学习Hadoop是必然的,学习Hadoop生态圈也是必须的。一、概念性知识1.概念Hadoop是一个开发和运行处理大规模数据的软件平台,是App
风水月
·
2016-02-01 14:34
大数据
大数据学习笔记
——Hadoop1.x基本概念和安装
Hadoop生态圈十分庞大,最近Spark又很火热并且速度也是Hadoop的百倍级别的,曾想就只看Spark吧,后来发现还是需要从基础打起,Spark是基于内存的,其没有存储系统,需要添加第三方分布式存储,而大多数Spark项目都安装在Hadoop上,因此学习Hadoop是必然的,学习Hadoop生态圈也是必须的。一、概念性知识1.概念Hadoop是一个开发和运行处理大规模数据的软件平台,是App
fengshuiyue
·
2016-02-01 14:00
hadoop
大数据
大数据学习笔记
3--HDFS扩展和mapreduce工作过程
HDFS配置:客户端中的配置参数可以覆盖服务端的参数。例如:副本数,切块大小HDFS文件存储:服务端存储block的实际大小,但是不适合存储小文件,小文件会占用namenode的元数据空间。对于小文件数据的优化,可以在上传之前先合并再上传。例如:压缩、文本文件合并HDFS扩展:hdfs支持restAPI,与平台无关jetty容器hdfs支持restcommand分布式任务传统方式:任务资源分发ja
jinyingone
·
2015-04-11 20:00
mapreduce
hdfs
大数据学习笔记
2--hdfs工作原理及源码分析
windows下配置hadoophadoop安装包解压,路径不要有特殊字符lib和bin直接解压出来的不可用,需要自己重新编译配置环境变量:HADOOP_HOME,path中添加:bin目录namenode整个文件系统的管理节点。它维护着整个文件系统的文件目录树,文件/目录的元信息和每个文件对应的数据块列表。接收用户的操作请求。响应客户端的请求,上传文件:client申请上传文件,namenode
jinyingone
·
2015-04-06 22:00
源码
hdfs
NameNode
大数据学习笔记
1--hadoop简介和入门
Hadoop简介:分布式、可扩展、可靠的、分布式计算框架。组件:common:公共组件hdfs:分布式文件系统yarn:运行环境mapreduce:mr计算模型生态系统:Ambari:操作界面avro:通用的序列化机制、与语言无关cassandra:数据库chukwa:数据收集系统hbase:分布式大表数据库hive:基于sql的分析系统matout:机器学习算法库pig:脚本语言spark:快速
程序小小望
·
2015-04-05 11:58
大数据
大数据学习笔记
1--hadoop简介和入门
Hadoop简介:分布式、可扩展、可靠的、分布式计算框架。组件:common:公共组件hdfs:分布式文件系统yarn:运行环境mapreduce:mr计算模型生态系统:Ambari:操作界面avro:通用的序列化机制、与语言无关cassandra:数据库chukwa:数据收集系统hbase:分布式大表数据库hive:基于sql的分析系统matout:机器学习算法库pig:脚本语言spark:快速
jinyingone
·
2015-04-05 11:00
hadoop
大数据
人民日报
上一页
1
2
3
4
5
6
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他