大数据笔记第3页

大数据笔记10：ZooKeeper入门

第10天——ZooKeeper入门一、ZooKeeper概述二、Zookeeper单机模式安装三、Zookeeper数据结构与指令一、ZooKeeper概述官网：http://zookeeper.apache.org/WhatisZooKeeper?ZooKeeperisacentralizedserviceformaintainingconfigurationinformation,naming

howard2005·2018-03-01 20:15

大数据笔记07：shell基础

第7天——shell基础一、常用shell命令二、shell脚本1、执行shell脚本2、test命令3、判断符号[]4、shellscript参数5、条件判断if..else...fi；case6、函数7、Script检查8、循环结构三、课件分发任务四、定时任务一、常用shell命令1、管道命令：|命令1|命令2命令1的输入作为命令2的输入2、grep命令3、find命令选项参数：-type,-

howard2005·2018-02-25 11:49

大数据笔记06：Linux常用命令总结

第6天——Linux常用命令总结一、目录操作命令二、文件操作命令三、文件内容操作命令四、归档及压缩命令五、设置时区（timezone-->tz）六、cal命令（calendar）七、bc命令（计算器）重要的快捷键：ctrl+u：快速删除当前光标处之前的所有字符和内容ctrl+k：快速删除从当前光标处到行尾的所有字符和内容ctrl+l：快速清空当前屏幕中的所有内容（类似于clear命令的作用）ctr

howard2005·2018-02-25 10:05

大数据笔记02：用户、用户组、文件系统和网络

第2天——用户、用户组、文件系统和网络一、用户身份与用户组记录的文件二、用户与用户组操作三、文件或目录权限操作四、磁盘与文件系统五、网络配置与操作一、用户身份与用户组记录的文件在Linux系统当中,默认情况下所有的系统上的账号信息都记录在/etc/passwd这个文件内(包括root用户)，而个人密码记录在/etc/shadow这个文件内。所有Linux的组名都记录在/etc/group内。这三个

howard2005·2018-02-24 20:10

大数据笔记01：Linux入门与基础

第1天——Linux入门与基础一、安装虚拟机二、Linux常用命令Linux操作系统是基于UNIX操作系统发展而来的一种克隆系统，它诞生于1991年的[Linux桌面]10月5日（这是第一次正式向外公布的时间）。以后借助于Internet网络，并通过全世界各地计算机爱好者的共同努力，已成为今天世界上使用最多的一种UNIX类操作系统，并且使用人数还在迅猛增长。为了学习方便，我们在虚拟机上安装Linu

howard2005·2018-02-24 16:27

【大数据笔记】白话详解Zookeeper的一致性

下面内容主要摘抄于>,红色高亮部分是本人添加的白话注释. Zookeeper是一种高性能、可扩展的服务。Zookeeper的读写速度非常快，并且读的速度要比写的速度更快。另外，在进行读操作的时候，ZooKeeper依然能够为旧的数据提供服务。这些都是由于ZooKeepe所提供的一致性保证，它具有如下特点：【Zookeeper提供的一致性是弱一致性,首先数据的复制有如下规则:zookeeper确保

舒润·2016-01-29 11:00

大数据笔记

1.大数据目前代名词spark，是一个快速的集群计算系统，它的功能之一是streaming，支持实时的数据流，把实时数据流按时间变为离散数据流discretizedstream，其中每一个离散集合RDDresilientdistributeddataset2.计算函数包括：flatMap:一对多，map:一对一,reduceByKey:根据key合并value3.spark的程序中，先建立计算公式

枪侠·2015-11-17 10:00

hadoop 大数据笔记

1、问题1 localhost: starting namenode, logging to /usr/local/hadoop/logs/hadoop-hadoop-na menode-ub

zhb8015·2015-06-19 17:00

【大数据笔记】白话详解Zookeeper的一致性

flyfoxs·2014-09-25 14:00

【大数据笔记】白话详解Zookeeper的一致性

下面内容主要摘抄于<<Hadoop实战>>,红色高亮部分是本人添加的白话注释. Zookeeper 是一种高性能、可扩展的服务。 Zookeeper 的读写速度非常快，并且读的速度要比写的速度更快。另外，在进行读操作的时候， ZooKeeper 依然能够为旧的数据提供服务。这些都是由于 ZooKeepe 所提供的一致性保证，它具

flyfoxs·2014-09-25 14:00

【大数据笔记】白话详解Zookeeper的一致性

下面内容主要摘抄于<<Hadoop实战>>,红色高亮部分是本人添加的白话注释. Zookeeper 是一种高性能、可扩展的服务。 Zookeeper 的读写速度非常快，并且读的速度要比写的速度更快。另外，在进行读操作的时候， ZooKeeper 依然能够为旧的数据提供服务。这些都是由于 ZooKeepe 所提供的一致性保证，它具

flyfoxs·2014-09-25 14:00

【大数据笔记】Hadoop通过动态代理实现RPC

flyfoxs·2014-09-12 20:00

【大数据笔记】Hadoop通过动态代理实现RPC

Hadoop所有的跨节点的通信都是通过RPC来通信的,RPC通信是需要创建Stub,一个好的RPC需要通过良好的设计确保了对上层调用的透明性.我们下面就通过Hadoop里面最常用的心跳(JobTrack和TaskTracker)来研究一下Hadoop的RPC机制.心跳函数的调用在方法:TaskTracker.transmitHeartBeat();在此方法中会调用下面的代码段.这个方法实际就不一个

flyfoxs·2014-09-12 20:00

【大数据笔记】--续谈WordCount的Bug

在之前的Blog [http://flyfoxs.iteye.com/blog/2110463] 中讨论了, hadoop在文件切割时,可能会把一个行数据切割成无意义的2块. 如果不做特别处理,这会造成数据的失真及处理错误. 经人指点,发现这个BUG不存在. Hadoop在分割文件后,后期读取中会通过一些规则来保证不会出现把一行数据分割成2行. 下面对这个后

flyfoxs·2014-09-09 22:00

【大数据笔记】--续谈WordCount的Bug

flyfoxs·2014-09-09 22:00

【大数据笔记】-解读hadoop命令

下面是hadoop发布版本, bin目录下面的hadoop命令的源码,hadoop命令支持好多种参数,一直记不住,想通过精度这部分代码,能记住部分参数. #!/usr/bin/env bash # Licensed to the Apache Software Foundation (ASF) under one or more # contributor license

flyfoxs·2014-09-03 22:00

【大数据笔记】-解读hadoop命令

flyfoxs·2014-09-03 22:00

【大数据笔记】--浅谈WordCount的Bug

最近精读Hadoop WordCount的示例,发现里面应该存在一个"可能的"Bug,现斗胆发出,希望有高人指点. Bug描述: WordCount数单词的时候,如果遇到大文件会对文件进行切分.但是切分是按照字节来进行的,完全有可能会将一个单词切分成2个单词,这样也就可能会创造2个不存在的单词. 相关代码: WordCount ma

flyfoxs·2014-08-28 16:00

【大数据笔记】--浅谈WordCount的Bug

flyfoxs·2014-08-28 16:00

【大数据笔记】--浅谈WordCount的Bug

最近精读Hadoop WordCount的示例,发现里面应该存在一个"可能的"Bug,现斗胆发出,希望有高人指点. Bug描述: WordCount数单词的时候,如果遇到大文件会对文件进行切分.但是切分是按照字节来进行的,完全有可能会将一个单词切分成2个单词,这样也就可能会创造2个不存在的单词. 相关代码: WordCount ma

flyfoxs·2014-08-28 16:00

【大数据笔记】--Hui无法连接Hbase (Cloudera默认安装)

错误提示:在通过Hui使用Hbase时,提示如下错误hbaseApiError:Couldnotconnecttolocalhost:9090 具体原因:TheHBaseBrowserapplication依赖HBaseThriftserver,但是CDH并没有默认的启用ThriftServerrole 解决办法:一句话描述:在Hui所对应的节点上,启用ThriftServerrole 具体步骤:

flyfoxs·2014-08-15 16:00

【大数据笔记】--Hui无法连接Hbase (Cloudera默认安装)

flyfoxs·2014-08-15 16:00

大数据笔记(一)

大数据特点-4个V巨大的数据量Volume集中储存/集中计算已经无法处理巨大的数据量新浪微博用户数2亿+，高峰每天几亿条仅一个百万家庭级别城市的智能电网每月可产生数十亿的智能电表数据2015年全球移动终端产生的数据量将达到6300PB非结构化数据无固定格式变化多Variety文本/图片/视频/文档等并发极高，增长速度很快Velocity海量数据的及时有效分析用户基数庞大/设备数量众多/实时海量/数

yangjun2·2013-01-17 13:00

推荐频道

大数据笔记

大数据笔记10：ZooKeeper入门

大数据笔记07：shell基础

大数据笔记06：Linux常用命令总结

大数据笔记02：用户、用户组、文件系统和网络

大数据笔记01：Linux入门与基础

【大数据笔记】白话详解Zookeeper的一致性

大数据笔记

hadoop 大数据笔记

【大数据笔记】白话详解Zookeeper的一致性

【大数据笔记】白话详解Zookeeper的一致性

【大数据笔记】白话详解Zookeeper的一致性

【大数据笔记】Hadoop通过动态代理实现RPC

【大数据笔记】Hadoop通过动态代理实现RPC

【大数据笔记】--续谈WordCount的Bug

【大数据笔记】--续谈WordCount的Bug

【大数据笔记】-解读hadoop命令

【大数据笔记】-解读hadoop命令

【大数据笔记】--浅谈WordCount的Bug

【大数据笔记】--浅谈WordCount的Bug

【大数据笔记】--浅谈WordCount的Bug

【大数据笔记】--Hui无法连接Hbase (Cloudera默认安装)

【大数据笔记】--Hui无法连接Hbase (Cloudera默认安装)

大数据笔记(一)