- Hadoop学习第三课(HDFS架构--读、写流程)
小小程序员呀~
数据库hadoop架构bigdata
1.块概念举例1:一桶水1000ml,瓶子的规格100ml=>需要10个瓶子装完一桶水1010ml,瓶子的规格100ml=>需要11个瓶子装完一桶水1010ml,瓶子的规格200ml=>需要6个瓶子装完块的大小规格,只要是需要存储,哪怕一点点,也是要占用一个块的块大小的参数:dfs.blocksize官方默认的大小为128M官网:https://hadoop.apache.org/docs/r3.
- Python大数据之Hadoop学习——day06_hive学习02
笨小孩124
大数据hadoop学习
一.hive内外表操作1.建表语法create[external]table[ifnotexists]表名(字段名字段类型,字段名字段类型,...)[partitionedby(分区字段名分区字段类型)]#分区表固定格式[clusteredby(分桶字段名)into桶个数buckets]#分桶表固定格式[sortedby(排序字段名asc|desc)][rowformatdelimitedfiel
- spark学习资料
Liam_ml
AdvancedApacheSpark-SameerFarooqui(Databricks)”(https://www.youtube.com/watch?v=7ooZ4S7Ay6Y)将几天的课程浓缩到了一天,质量非常好。Spark的文档:Overview-Spark1.6.1Documentation,这里面包含项目介绍,代码示例,配置,部署,调优等等,入门使用足够了。Sparkrepo:apa
- C# Hadoop学习笔记
第八个猴子
大数据
记录一下学习地址http://www.360doc.com/content/14/0607/22/3218170_384675141.shtml转载于:https://www.cnblogs.com/TF12138/p/4170558.html
- hadoop学习笔记
草琳情
hadoop学习笔记
下载安装伪分布式:1.国内源下载地址:https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/Indexof/apache/hadoop/commonhttps://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/https://mirrors.tuna.tsinghua.edu.cn/
- Hadoop分布式计算实验踩坑实录及小结
小童同学_
HIThadoop分布式ubuntujava
目录Hadoop分布式计算实验踩坑实录及小结踩坑实录Hadoop学习Hadoop简介HDFSSomeconceptsMapReduce主要配置文件集群搭建来源与引用Hadoop分布式计算实验踩坑实录及小结踩坑实录单机jdk配置Ubuntu下安装jdk11,不熟悉apt-get的默认目录及目录配置,直接在Oracle找了Linux的压缩包在虚拟机上解压,解压到指定目录后配一下java环境变量。/et
- Hudi学习 6:Hudi使用
hzp666
Hudihudi数据湖湖仓一体湖仓融合实时数仓
准备工作:1.安装hdfshttps://mp.csdn.net/mp_blog/creation/editor/1096891432.安装sparkspark学习4:spark安装_hzp666的博客-CSDN博客3.安装ScalaHudi学习6:安装和基本操作_hzp666的博客-CSDN博客spark-shell写入和读取hudi2.模拟数据插入hudi使用spark写入数据
- spark学习4:spark安装
hzp666
sparkspark大数据
1.下载spark安装包2.配置环境1.cd/bigdata/spark-3.0.1-bin-hadoop3.2/conf/2.4.添加动态库在hadoop-3.2.2/bin目录下添加hadoop.dll和winutils.exe文件,可以从https://github.com/cdarlint/winutils和https://github.com/steveloughran/winutils
- Hadoop:学习HDFS,看完这篇就够了!
爱写代码的July
大数据与云计算hadoop学习hdfs大数据云计算
HDFS(HadoopDistributedFileSystem)是ApacheHadoop生态系统中的分布式文件系统,用于存储和处理大规模数据集。由于其具有高容错性、高可靠性和高吞吐量等特点,因此广泛应用于大数据处理和分析场景。一认识Hadoop学习HDFS之前,让我们先来简单认识一下Hadoop是什么?Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,为用户提供了系统底层细节透
- 手把手教Hadoop环境搭建,学不会你咬我~
程序IT圈
hadoopjdklinuxcentoshdfs
之前后台小伙伴私信我想了解hadoop的单机环境安装,以方便用于hadoop学习,今天给大家安排上了,废话不多说,直接上干货。目录前置条件配置SSH免密登录Hadoop(HDFS)环境搭建Hadoop(YARN)环境搭建1、前置条件Hadoop的运行依赖JDK,需要预先安装,安装步骤见:1.1下载并解压在官网下载所需版本的JDK,这里我下载的版本为JDK1.8,下载后进行解压:[root@ jav
- pyspark学习-自定义udf
heiqizero
sparkspark
#demo1:frompyspark.sqlimportSparkSession,Rowif__name__=='__main__':spark=SparkSession.builder.getOrCreate()num=spark.sparkContext.parallelize([1,2,3,4,5]).map(lambdax:Row(num=x))numDF=spark.createData
- pyspark学习-spark.sql.functions normal函数
heiqizero
sparkspark
1.col#col(col)"""作用:返回一个基于已给列名的列信息场景:类似于dataframe格式中提取data["id"],能够进行计算参数: col:列名 返回: column:返回一个基于已给列名的列信息"""spark=SparkSession.builder.getOrCreate()data=spark.range(3)data.select(col("id").alias(
- [Spark] 如何设置Spark资源
LZhan
转自1.公众号[Spark学习技巧]如何设置Spark资源2.Spark性能优化篇一:资源调优Spark和YARN管理的两个主要资源:CPU和内存应用程序中每个SparkExecutor都具有相同的固定数量的核心和相同的固定堆大小。使用--executor-cores命令行参数或者通过设置spark.executor.cores属性指定核心数;使用--executor-memory命令行参数或者通
- pyspark学习-spark.sql.functions 聚合函数
heiqizero
sparkspark
https://spark.apache.org/docs/3.4.1/api/python/reference/pyspark.sql/functions.html1.approx_count_distinct和count_distinct#approx_count_distinct(col:ColumnOrName,rsd:Optionnal[float]=None)"""作用:返回列col的
- spark学习笔记:弹性分布式数据集RDD(Resilient Distributed Dataset)
黄道婆
bigdata
弹性分布式数据集RDD1.RDD概述1.1什么是RDDRDD(ResilientDistributedDataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将数据缓存在内存中,后续的查询能够重用这些数据,这极大地提升了查询速度。D
- Hadoop学习之路(七) MapReduce框架Partitioner分区
shine_rainbow
Partitioner分区的作用是什么?在进行MapReduce计算时,有时候需要把最终输出数据分到不同的文件中,比如按照省份划分的话,需要把同一省份的数据放到一个文件中;按照性别划分的话,需要把同一性别的数据放到一个文件中。我们知道最终的输出数据是来自于Reducer任务。那么如果要得到多个文件,意味着有相同数量的Reducer任务在运行。Reducer任务的数据来自于Mapper任务,也就是M
- pyspark学习_dataframe常用操作_02
heiqizero
sparkspark
#回顾01常用操作frompysparkimportSparkSession,DataFramespark=SparkSession.builder.getOrCreate()peopleDF=spark.read.json("people.json")peopleDF.printSchema()#显示DataFrame的模式信息peopleDF.show()#显示DataFrame的数据信息pe
- Spark学习笔记五:Spark资源调度和任务调度
开发者连小超
一、StageSpark任务会根据RDD之间的依赖关系,形成一个DAG有向无环图,DAG会提交给DAGScheduler,DAGScheduler会把DAG划分相互依赖的多个stage,划分stage的依据就是RDD之间的宽窄依赖。遇到宽依赖就划分stage,每个stage包含一个或多个task任务。然后将这些task以taskSet的形式提交给TaskScheduler运行。stage切割规则切
- pyspark学习_wordcount
heiqizero
sparksparkpython
#统计文件中每个字母出现次数#第一版rdd文件行类型:Aaron,OperatingSystem,100frompysparkimportSparkConf,SparkContextconf=SparkConf().setAppName("RddwordCount").setMaster("local[*]")sc=SparkContext(conf=conf)lines=sc.textFile(
- pyspark学习_RDD转为DataFrame
heiqizero
sparksparkpython
#方法1:反射机制推断RDD模式people.txtTom12Jack13Janny14frompyspark.sqlimportSparkSession,Rowspark=SparkSession.builder.getOrCreate()lines=spark.sparkContext.textFile("people.txt")people=lines.map(lambdax:x.split
- pyspark学习-RDD转换和动作
heiqizero
sparksparkpython
#RDD创建#1.parallelize方法:创建RDD,参数为list,返回RDDsc.parallelize(param:list)#demosc.parallelize(['tom','jack','black'])#2.textFile方法:读取文件,创建RDD,参数为hdfs文件地址或者本地文件地址,返回RDDsc.textFile(param:filepath)#demosc.text
- pyspark学习_dataframe常用操作_01
heiqizero
sparksparkpython
1.创建DataFrame本文使用DataFrame通过读取json文件获取数据,代码如下:frompyspark.sqlimportSparkSessionspark=SparkSeesion.builder.getOrCreate()#创建sparkSessionpeopleDF=spark.read.format("json").load("people.json")"""spark支持读取
- Spark学习(8)-SparkSQL的运行流程,Spark On Hive
技术闲聊DD
大数据hivespark学习
1.SparkSQL的运行流程1.1SparkRDD的执行流程回顾1.2SparkSQL的自动优化RDD的运行会完全按照开发者的代码执行,如果开发者水平有限,RDD的执行效率也会受到影响。而SparkSQL会对写完的代码,执行“自动优化”,以提升代码运行效率,避免开发者水平影响到代码执行效率。这是因为:RDD:内含数据类型不限格式和结构。DataFrame:100%是二维表结构,可以被针对Spar
- Apriori
BluthLeee
Apriori算法原理总结-刘建平FPTree算法原理总结-刘建平PrefixSpan算法原理总结-刘建平用Spark学习FPTree算法和PrefixSpan算法-刘建平
- 《Hadoop大数据技术原理与运用》知识点总结
呆小黎
大数据hadoop数据库分布式
Hadoop学习过程中的一些笔记参考书籍《Hadoop大数据技术原理与应用》清华大学出版社黑马程序员/编著1.什么是大数据?大数据的四个特征是什么?答:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合具有海量数据规模、快速数据流转、多样数据类型一级价值密度四大特征。2.另外,在Hadoop架构里面,元数据的含义是什么?答:文件的大小、位置、权限3.本书里面使用
- 第一章 大数据Hadoop学习笔记(一)
Thanks.
hadoop学习大数据
一、存储单位按顺序给出数据存储单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。一般TB、PB、EB为单位的数据为大数据。1Byte=8bit1K=1024Byte1MB=1024K1G=1024M1T=1024G1P=1024T二、大数据主要解决海量数据的采集、存储和分析计算问题。三、大数据特点(4V)Volume(大量)、Velocity(高速)、Var
- Hadoop学习之路(四)HDFS 读写流程详解
shine_rainbow
1.HDFS写操作1.1图解HDFS读过程hdfs写操作流程图.pngimage.png1.2数据写入过程详解1、使用HDFS提供的客户端Client,向远程的NameNode发起RPC请求;2、NameNode会检查要创建的文件是否已经存在,创建者是否有权限进行操作,成功则会为文件创建一个记录,否则会让客户端抛出异常;3、当客户端开始写入文件的时候,客户端会将文件切分为多个packets,并在内
- 【大数据进阶第三阶段之Hive学习笔记】Hive安装
伊达
Hive大数据大数据hive学习
1、环境准备安装hadoop以及zookeeper、mysql【大数据进阶第二阶段之Hadoop学习笔记】Hadoop运行环境搭建-CSDN博客《zookeeper的安装与配置》自行百度《Linux环境配置MySQL》自行百度2、下载安装CSDN下载:https://download.csdn.net/download/liguohuaty/88702104Hive官网下载:Downloads(a
- Spark学习之Spark Core
John Stones
sparkbigdatascala
什么是Spark?(官网:http://spark.apache.org)https://www.cnblogs.com/lq0310/p/9841647.html
- 【大数据】Spark学习笔记
pass night
学习笔记javaspark大数据sql
初识SparkSpark和HadoopHadoopSpark起源时间20052009起源地MapReduceUniversityofCaliforniaBerkeley数据处理引擎BatchBatch编程模型MapReduceResilientdistributedDatesets内存管理DiskBasedJVMManaged延迟高中吞吐量中高优化机制手动手动APILowlevelhighleve
- 戴尔笔记本win8系统改装win7系统
sophia天雪
win7戴尔改装系统win8
戴尔win8 系统改装win7 系统详述
第一步:使用U盘制作虚拟光驱:
1)下载安装UltraISO:注册码可以在网上搜索。
2)启动UltraISO,点击“文件”—》“打开”按钮,打开已经准备好的ISO镜像文
- BeanUtils.copyProperties使用笔记
bylijinnan
java
BeanUtils.copyProperties VS PropertyUtils.copyProperties
两者最大的区别是:
BeanUtils.copyProperties会进行类型转换,而PropertyUtils.copyProperties不会。
既然进行了类型转换,那BeanUtils.copyProperties的速度比不上PropertyUtils.copyProp
- MyEclipse中文乱码问题
0624chenhong
MyEclipse
一、设置新建常见文件的默认编码格式,也就是文件保存的格式。
在不对MyEclipse进行设置的时候,默认保存文件的编码,一般跟简体中文操作系统(如windows2000,windowsXP)的编码一致,即GBK。
在简体中文系统下,ANSI 编码代表 GBK编码;在日文操作系统下,ANSI 编码代表 JIS 编码。
Window-->Preferences-->General -
- 发送邮件
不懂事的小屁孩
send email
import org.apache.commons.mail.EmailAttachment;
import org.apache.commons.mail.EmailException;
import org.apache.commons.mail.HtmlEmail;
import org.apache.commons.mail.MultiPartEmail;
- 动画合集
换个号韩国红果果
htmlcss
动画 指一种样式变为另一种样式 keyframes应当始终定义0 100 过程
1 transition 制作鼠标滑过图片时的放大效果
css
.wrap{
width: 340px;height: 340px;
position: absolute;
top: 30%;
left: 20%;
overflow: hidden;
bor
- 网络最常见的攻击方式竟然是SQL注入
蓝儿唯美
sql注入
NTT研究表明,尽管SQL注入(SQLi)型攻击记录详尽且为人熟知,但目前网络应用程序仍然是SQLi攻击的重灾区。
信息安全和风险管理公司NTTCom Security发布的《2015全球智能威胁风险报告》表明,目前黑客攻击网络应用程序方式中最流行的,要数SQLi攻击。报告对去年发生的60亿攻击 行为进行分析,指出SQLi攻击是最常见的网络应用程序攻击方式。全球网络应用程序攻击中,SQLi攻击占
- java笔记2
a-john
java
类的封装:
1,java中,对象就是一个封装体。封装是把对象的属性和服务结合成一个独立的的单位。并尽可能隐藏对象的内部细节(尤其是私有数据)
2,目的:使对象以外的部分不能随意存取对象的内部数据(如属性),从而使软件错误能够局部化,减少差错和排错的难度。
3,简单来说,“隐藏属性、方法或实现细节的过程”称为——封装。
4,封装的特性:
4.1设置
- [Andengine]Error:can't creat bitmap form path “gfx/xxx.xxx”
aijuans
学习Android遇到的错误
最开始遇到这个错误是很早以前了,以前也没注意,只当是一个不理解的bug,因为所有的texture,textureregion都没有问题,但是就是提示错误。
昨天和美工要图片,本来是要背景透明的png格式,可是她却给了我一个jpg的。说明了之后她说没法改,因为没有png这个保存选项。
我就看了一下,和她要了psd的文件,还好我有一点
- 自己写的一个繁体到简体的转换程序
asialee
java转换繁体filter简体
今天调研一个任务,基于java的filter实现繁体到简体的转换,于是写了一个demo,给各位博友奉上,欢迎批评指正。
实现的思路是重载request的调取参数的几个方法,然后做下转换。
- android意图和意图监听器技术
百合不是茶
android显示意图隐式意图意图监听器
Intent是在activity之间传递数据;Intent的传递分为显示传递和隐式传递
显式意图:调用Intent.setComponent() 或 Intent.setClassName() 或 Intent.setClass()方法明确指定了组件名的Intent为显式意图,显式意图明确指定了Intent应该传递给哪个组件。
隐式意图;不指明调用的名称,根据设
- spring3中新增的@value注解
bijian1013
javaspring@Value
在spring 3.0中,可以通过使用@value,对一些如xxx.properties文件中的文件,进行键值对的注入,例子如下:
1.首先在applicationContext.xml中加入:
<beans xmlns="http://www.springframework.
- Jboss启用CXF日志
sunjing
logjbossCXF
1. 在standalone.xml配置文件中添加system-properties:
<system-properties> <property name="org.apache.cxf.logging.enabled" value=&
- 【Hadoop三】Centos7_x86_64部署Hadoop集群之编译Hadoop源代码
bit1129
centos
编译必需的软件
Firebugs3.0.0
Maven3.2.3
Ant
JDK1.7.0_67
protobuf-2.5.0
Hadoop 2.5.2源码包
Firebugs3.0.0
http://sourceforge.jp/projects/sfnet_findbug
- struts2验证框架的使用和扩展
白糖_
框架xmlbeanstruts正则表达式
struts2能够对前台提交的表单数据进行输入有效性校验,通常有两种方式:
1、在Action类中通过validatexx方法验证,这种方式很简单,在此不再赘述;
2、通过编写xx-validation.xml文件执行表单验证,当用户提交表单请求后,struts会优先执行xml文件,如果校验不通过是不会让请求访问指定action的。
本文介绍一下struts2通过xml文件进行校验的方法并说
- 记录-感悟
braveCS
感悟
再翻翻以前写的感悟,有时会发现自己很幼稚,也会让自己找回初心。
2015-1-11 1. 能在工作之余学习感兴趣的东西已经很幸福了;
2. 要改变自己,不能这样一直在原来区域,要突破安全区舒适区,才能提高自己,往好的方面发展;
3. 多反省多思考;要会用工具,而不是变成工具的奴隶;
4. 一天内集中一个定长时间段看最新资讯和偏流式博
- 编程之美-数组中最长递增子序列
bylijinnan
编程之美
import java.util.Arrays;
import java.util.Random;
public class LongestAccendingSubSequence {
/**
* 编程之美 数组中最长递增子序列
* 书上的解法容易理解
* 另一方法书上没有提到的是,可以将数组排序(由小到大)得到新的数组,
* 然后求排序后的数组与原数
- 读书笔记5
chengxuyuancsdn
重复提交struts2的token验证
1、重复提交
2、struts2的token验证
3、用response返回xml时的注意
1、重复提交
(1)应用场景
(1-1)点击提交按钮两次。
(1-2)使用浏览器后退按钮重复之前的操作,导致重复提交表单。
(1-3)刷新页面
(1-4)使用浏览器历史记录重复提交表单。
(1-5)浏览器重复的 HTTP 请求。
(2)解决方法
(2-1)禁掉提交按钮
(2-2)
- [时空与探索]全球联合进行第二次费城实验的可能性
comsci
二次世界大战前后,由爱因斯坦参加的一次在海军舰艇上进行的物理学实验 -费城实验
至今给我们大家留下很多迷团.....
关于费城实验的详细过程,大家可以在网络上搜索一下,我这里就不详细描述了
在这里,我的意思是,现在
- easy connect 之 ORA-12154: TNS: 无法解析指定的连接标识符
daizj
oracleORA-12154
用easy connect连接出现“tns无法解析指定的连接标示符”的错误,如下:
C:\Users\Administrator>sqlplus username/
[email protected]:1521/orcl
SQL*Plus: Release 10.2.0.1.0 – Production on 星期一 5月 21 18:16:20 2012
Copyright (c) 198
- 简单排序:归并排序
dieslrae
归并排序
public void mergeSort(int[] array){
int temp = array.length/2;
if(temp == 0){
return;
}
int[] a = new int[temp];
int
- C语言中字符串的\0和空格
dcj3sjt126com
c
\0 为字符串结束符,比如说:
abcd (空格)cdefg;
存入数组时,空格作为一个字符占有一个字节的空间,我们
- 解决Composer国内速度慢的办法
dcj3sjt126com
Composer
用法:
有两种方式启用本镜像服务:
1 将以下配置信息添加到 Composer 的配置文件 config.json 中(系统全局配置)。见“例1”
2 将以下配置信息添加到你的项目的 composer.json 文件中(针对单个项目配置)。见“例2”
为了避免安装包的时候都要执行两次查询,切记要添加禁用 packagist 的设置,如下 1 2 3 4 5
- 高效可伸缩的结果缓存
shuizhaosi888
高效可伸缩的结果缓存
/**
* 要执行的算法,返回结果v
*/
public interface Computable<A, V> {
public V comput(final A arg);
}
/**
* 用于缓存数据
*/
public class Memoizer<A, V> implements Computable<A,
- 三点定位的算法
haoningabc
c算法
三点定位,
已知a,b,c三个顶点的x,y坐标
和三个点都z坐标的距离,la,lb,lc
求z点的坐标
原理就是围绕a,b,c 三个点画圆,三个圆焦点的部分就是所求
但是,由于三个点的距离可能不准,不一定会有结果,
所以是三个圆环的焦点,环的宽度开始为0,没有取到则加1
运行
gcc -lm test.c
test.c代码如下
#include "stdi
- epoll使用详解
jimmee
clinux服务端编程epoll
epoll - I/O event notification facility在linux的网络编程中,很长的时间都在使用select来做事件触发。在linux新的内核中,有了一种替换它的机制,就是epoll。相比于select,epoll最大的好处在于它不会随着监听fd数目的增长而降低效率。因为在内核中的select实现中,它是采用轮询来处理的,轮询的fd数目越多,自然耗时越多。并且,在linu
- Hibernate对Enum的映射的基本使用方法
linzx0212
enumHibernate
枚举
/**
* 性别枚举
*/
public enum Gender {
MALE(0), FEMALE(1), OTHER(2);
private Gender(int i) {
this.i = i;
}
private int i;
public int getI
- 第10章 高级事件(下)
onestopweb
事件
index.html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/
- 孙子兵法
roadrunners
孙子兵法
始计第一
孙子曰:
兵者,国之大事,死生之地,存亡之道,不可不察也。
故经之以五事,校之以计,而索其情:一曰道,二曰天,三曰地,四曰将,五
曰法。道者,令民于上同意,可与之死,可与之生,而不危也;天者,阴阳、寒暑
、时制也;地者,远近、险易、广狭、死生也;将者,智、信、仁、勇、严也;法
者,曲制、官道、主用也。凡此五者,将莫不闻,知之者胜,不知之者不胜。故校
之以计,而索其情,曰
- MySQL双向复制
tomcat_oracle
mysql
本文包括:
主机配置
从机配置
建立主-从复制
建立双向复制
背景
按照以下简单的步骤:
参考一下:
在机器A配置主机(192.168.1.30)
在机器B配置从机(192.168.1.29)
我们可以使用下面的步骤来实现这一点
步骤1:机器A设置主机
在主机中打开配置文件 ,
- zoj 3822 Domination(dp)
阿尔萨斯
Mina
题目链接:zoj 3822 Domination
题目大意:给定一个N∗M的棋盘,每次任选一个位置放置一枚棋子,直到每行每列上都至少有一枚棋子,问放置棋子个数的期望。
解题思路:大白书上概率那一张有一道类似的题目,但是因为时间比较久了,还是稍微想了一下。dp[i][j][k]表示i行j列上均有至少一枚棋子,并且消耗k步的概率(k≤i∗j),因为放置在i+1~n上等价与放在i+1行上,同理