E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
textFile
【原创】大叔经验分享(7)创建hive表时格式如何选择
常用格式
textfile
需要定义分隔符,占用空间大,读写效率最低,非常容易发生冲突(分隔符)的一种格式,基本上只有需要导入数据的时候才会使用,比如导入csv文件;ROWFORMATDELIMITEDFIELDSTERMINATEDBY
weixin_30628801
·
2020-08-04 19:39
python docx修改word内容保留图片
='test_out.docx'file=docx.Document(path1)forparginfile.paragraphs:ifparg.text:parg.text="test"+parg.
textfile
.save
SUN_SU3
·
2020-08-04 19:23
文档处理
HIVE文件存储格式的测试比较
HIVE的三种文件格式:
TEXTFILE
、SEQUENCEFILE、RCFILE中,
TEXTFILE
和SEQUENCEFILE的存储格式都是基于行存储的,RCFILE是基于行列混合的思
iteye_13339
·
2020-08-04 14:55
HIVE
hive
文件格式
rcfile
sequencefile
源码走读篇之:spark读取
textfile
时是如何决定分区数的
前言:关于源码的文章,我自己其实也一直在有道云上有总结一些,犹豫平日里上班的缘故,着实没有太多的精力来写体系的写这些东西,但是,却着实觉得这些东西其实还是很重要的,特别是随着工作时间的渐长,越发觉得源码这个东西还是必须要看的,能带来很多的启发,我个人的体会是,每个工作阶段去解读都会有不一样的感受。我也不敢说去解读或者说让你彻底搞个明白,自己确实没有那个水平。我写博客一方面是为了自己日后回顾方便,另
hankl1990
·
2020-08-04 05:02
spark
spark重分区算子repartition和coalesce解析
首先,先说一下有多少种增加分区提高并行度的方法:1,
textFile
(path,numPartion=partitionNum)2,增加hdfs上的block数3,reduceByKeygroupByKeyshuffle
奔跑的乌班
·
2020-08-04 02:42
大数据
RunTime底层了解
具体应用:利用关联对象给分类添加属性遍历类的所有成员属性,动态修成其属性值(例如,修改
textFile
的占位文字颜色、字典转模型、自动归档解挡)交换方法的实现利用消息转发机制解决方法找不到的异常问题
一人前行
·
2020-08-03 19:22
OC学习小记
spark-2.0-从RDD到DataSet
1、加载文件valrdd=sparkContext.
textFile
("./data.txt")valds=sparkSes
07H_JH
·
2020-08-03 09:57
大数据框架
Spark 广播变量(broadcast)更新方法
Spark广播变量(broadcast)更新方法更新方法spark广播变量可以通过unpersist方法删除,然后重新广播valmap=sc.
textFile
("/test.txt").map(line
xueba207
·
2020-08-03 08:44
大数据
Spark
Spark错误集锦(一)——spark.SparkContext: Created broadcast 0 from
textFile
at WordCount.scala:16
Spark错误集锦(一)——spark.SparkContext:Createdbroadcast0fromtextFileatWordCount.scala:16yarn模式下运行spark提交任务:Exceptioninthread“main”java.lang.RuntimeException:Errorinconfiguringobjectatorg.apache.hadoop.util.
Scaler Wu
·
2020-08-03 08:40
spark
【机器学习】pyspark中RDD的若干操作
1,读取文件frompysparkimportSparkContextsc=SparkContext('local','pyspark')a,text=sc.
textFile
(“file:///d:/test.txt
huaibei_北
·
2020-08-03 06:22
机器学习算法
Python
机器学习
spark broadcast变量思考
方法1:valmap=sc.
textFile
("/test.txt").map(line=>{valarr=line.split(",")(arr(0),arr(2).toInt)}).distinctvarmapBC
回忆美好
·
2020-08-03 05:14
spark异常 Compression codec com.hadoop.compression.lzo.LzoCodec not found
1、场景描述:执行:scala>vallines=sc.
textFile
("/user/dev_yx/dpi/input/rule/keyWord.txt")scala>lines.count()Causedby
在路上_JD
·
2020-08-03 05:03
Spark
spark中
textFile
、groupByKey、collect、flatMap、map结合小案例(案例虽小,功能齐全)
1.通过
textFile
读取文件sc.
textFile
("E:\\spark-2.1.0\\spark-2.1.0\\README.md")2.通过flatMap、split分隔单词flatMap(_.
RiverCode
·
2020-08-02 22:53
Spark算子
Spark 2.0介绍:从RDD API迁移到DataSet API
1、加载文件RDDvalrdd=sparkContext.
textFile
("
李国冬
·
2020-08-02 20:32
Spark
Python difflib对比配置文件差异脚本
/usr/bin/pythonimportdifflibimportsystry:
textfile
1=sys.argv[1]#第一个配置文件路径参数
textfile
2=sys.argv[2]#第二个配置文件路径参数
SkTj
·
2020-08-01 10:44
Spark常用的4种读取和存储数据的格式 & 4种存储文件系统
Text文件、Json文件、Sequence文件和Object文件文件系统:linux本地文件系统、HDFS、HBase、MySQL数据库目录一、文件格式类1.Text文件(1)读取Text文件sc.
textFile
攻城狮Kevin
·
2020-08-01 07:41
Spark
用命令行的方式运行Spark平台的wordcount项目
只要运行以下命令即可,假设当前目录是$SPARK_HOMEMASTER=localbin/spark-shell“MASTER=local"就是表明当前运行在单机模式scala>valtextFile=sc.
textFile
汪子熙
·
2020-07-31 18:04
开源
Java
UITextFile文字局中方式
//文字局中//
textFile
.textAlignment=NSTextAlignmentCenter;//水平位置局中
textFile
.contentHorizontalAlignment=UIControlContentHorizontalAlignmentCenter
江湖人送外号D大爷
·
2020-07-31 10:45
使用Spark计算PV、UV
scala>valtextFile=sc.
textFile
("hdfs://localhost:9000/user/ro
sanfendi
·
2020-07-30 20:52
spark
spark编程指南
编程指南可以使容器并行化valdata=Array(1,2,3,4,5)valdistData=sc.parallelize(data)扩展数据集可以直接使用文本文件scala>valdistFile=sc.
textFile
pcz
·
2020-07-30 11:31
spark core 入门实战之一
sc.
textFile
("/home/hadoop/test/data/test1.txt").flatMap(_.split("")).map((_,1)).reduceByKey(_+_).collectsc
_Wanananan
·
2020-07-30 06:11
spark
本地连接hadoop集群问题汇总
SparkSession.builder().appName("SparkStatFormatData").master("*").getOrCreate()valdata=spark.sparkContext.
textFile
weixin_44641024
·
2020-07-30 05:57
hadoop
spark wordcount
scala版本valtextFile=sc.
textFile
("hdfs://...")valcounts=
textFile
.flatMap(line=>line.split("")).map(word
Mervyn_2014
·
2020-07-29 20:59
Spark-RDD持久化
(1)persist算子使用方法:varrdd=sc.
textFile
("test")rdd=rdd.persist(StorageLevel.MEMORY_ONLY)valcount=rdd.count
piziyang12138
·
2020-07-29 13:45
spark中的SparkContext实例的
textFile
使用的小技巧
网上很多例子,包括官网的例子,都是用
textFile
来加载一个文件创建RDD,类似sc.
textFile
("hdfs://n1:8020/user/hdfs/input")
textFile
的参数是一个path
xiao_jun_0820
·
2020-07-29 00:11
spark
Spark 常用案例
数据过滤清洗数据//
textFile
()加载数据valdata=sc.
textFile
("/spark/seven.txt")//filter过滤长度小于0,过滤不包含GET与POST的URLvalfiltered
Im_GaoYue
·
2020-07-28 21:29
selenium中遇到这种报错,怎么解决
mostrecentcalllast):File"D:/selenium/xuehu.py",line23,intext=browser.find_element_by_class_name("user-name").
textFile
"C
weixin_30739595
·
2020-07-28 17:21
QTCreator中EXE程序图标设置
然后在QTCreator中Ctrl+N或File-NewFileorProject,选择General中的
TextFile
,名称填写为.rc文件(如qtdemo.rc),在里面只用写一行:ID
Linux菜_鸟
·
2020-07-28 13:07
QT编程学习
大数据 - 第十二课 : idea实现wordcount程序
(关键概念)RDD操作,惰性求值/从本地文件系统中加载数据创建RDD读取文件:vallines=sc.
textFile
(“file:///home/cmj/student00/test/wordcount.txt
陈杉菜
·
2020-07-28 09:30
大数据开发
SparkRDD常用算子实践(附运行效果图)
创建RDD的方式有两种:1、通过sc.
textFile
(“/root/words.txt”)从文件系统中创
Magician~
·
2020-07-28 05:07
Spark
Big
Data
自学大数据之路
Scala编写Spark分组后排序取TOP n的代码
1892100292180190具体代码://两列数据deftop_1():Unit={valsc=TransformationOperation.getSc("groupByKey2Top")vallines=sc.
textFile
hlp4207
·
2020-07-27 23:33
spark
[Spark 进阶] -- Spark 如何在运行时读取 --files 添加的 README.md 文件?
files会把文件上传到hdfs的.sparkStagin/applicationId目录下,使用上面说的方法先获取到hdfs对应的这个目录,然后访问hdfs的这个文件,如下spark.read().
textFile
highfei2011
·
2020-07-27 23:46
Spark
spark
学习 sparksql 遇到的异常问题
问题描述:启动spark和zookeeper,在客户端以spark-shell--masterlocal[2]方式启动1.vallineRDD=sc.
textFile
("/person.txt").map
yala说
·
2020-07-27 21:20
大数据学习
RDD讲解:入门到深入
从案例分析在这份WordCount代码中,大致的思路如下:1.使用sc.
textFile
()方法读取HDFS中的文件,并生成一个RDD2.使用flatMap算子将读取到的每一行字符串打散成单词,并把每个单词变成新的行
北山璎珞
·
2020-07-27 19:46
Spark
CentOS 7.2 安装Hive和Hive使用札记
Hive原理图.pngHive常用文件格式类型
TEXTFILE
默认文件格式,建表时用户需要显示指定分隔符存储方式:行存储SequenceFile二进制键值对序列化文件格式存储方式:行存储列式存储格式RCFILE
溯水心生
·
2020-07-27 18:04
eclipse配置SVN和Maven插件
插件开发环境配置手册1、下载最新版本eclipseJAVAEE版本https://www.eclipse.org/downloads/2、启动eclipse,选择workspace,配置workspace的
textfile
晓宇码匠
·
2020-07-16 06:03
软件
spark写sql语句范例
SparkSession.builder().appName("createDF2").master("local").getOrCreate()valrdd=sparkSession.sparkContext.
textFile
H.U.C.小黑
·
2020-07-16 06:08
Spark
Spark(Python)学习(三)
RDD编程RDD编程指的是SparkCore编程RDD创建(1)通过文件系统加载数据来创建RDDSpark的SparkContext通过“.
textFile
()”读取数据,生成内存中的RDD。
雨山林稀
·
2020-07-16 06:23
Spark
Spark分区相关
在Linux启动spark-shell时,可以使用以下命令(两个线程):$spark-shell--masterlocal[2]使用sc.
textFile
(“path”)导入文件,然后可以使用以下命令查看分区数
Cheengvho
·
2020-07-16 03:46
Spark
Scala
HDFS
spark rdd 和 DF 转换
》DF有两种方式一、一、InferringtheSchemaUsingReflection将RDD[t]转为一个object,然后todfvalpeopleDF=spark.sparkContext.
textFile
lingzhi007
·
2020-07-16 02:46
spark
学习
Delphi7文件操作常用函数一
procedureTForm1.Button1Click(Sender:TObject);vartext:String;F1:
TextFile
;beginTryAssi
kimifdw
·
2020-07-16 01:32
Delphi
prometheus: exporter启动、抓取生命周期、向量匹配、路由(分组、去重、静匿)
--web.listen-address=":9100"--web.telemetry-path="/metrics"#默认的监听端口、metrics路径–no-collector.arp#禁用收集器
textfile
孔小发
·
2020-07-15 23:27
#
prometheus
Spark-shell实验1简单的shell操作
90Jim,Algorithm,60Jim,DataStructure,80……请根据给定的实验数据,在spark-shell中通过编程来计算以下内容:(1)该系总共有多少学生;vallines=sc.
textFile
aiduo3346
·
2020-07-15 20:55
spark 操作 spark-shell
读取HDFS上文件命令,spark.read.
textFile
("/user/ssy.097").countspark.read.wholeTextFilesSparkContext.wholeTextFiles
StayHungry2016
·
2020-07-15 18:28
技术知识
树形结构的处理——组合模式(三)
公司开发人员使用组合模式来进行杀毒软件的框架设计,其基本结构如图11-5所示:图11-5杀毒软件框架设计结构图在图11-5中,AbstractFile充当抽象构件类,Folder充当容器构件类,ImageFile、
TextFile
LoveLion
·
2020-07-15 18:27
设计模式
软件工程
软件教育
软件架构
spark shell提交
bigdata111~]#spark-shellSparkcontextavailableas'sc'(master=local[*],appid=local-1577740473039).scala>sc.
textFile
Jackson_MVP
·
2020-07-15 17:04
Spark
Hue中Sqoop导数报错Could not load db driver class: com.mysql.jdbc.Driver
前言在Hue上面测试一个很简单的Sqoopimport--connectjdbc:mysql://10.169.xx.xxx/test--usernameroot--passwordroot--as-
textfile
SunnyRivers
·
2020-07-15 16:16
大数据
Hue
Sqoop
jdbc
driver
报错
Jupyter Notebook基础知识总结
一、各个选项解释:在Notebook页面打开时,页面的右上角有一个News选项里面有四个选项⦁Python3⦁
TextFile
————文本文件类似于一个文本编辑器⦁Folder————文件夹⦁Terminal
ZYLin.
·
2020-07-15 16:32
07-hive的存储格式及hive的调优及FLUME的基本介绍
离线阶段第七天hive当中的存储格式数据的存储格式主要分为两大类,一类是行式存储,一类是列式存储行式存储:
TextFile
,SequenceFile。列式存储:Parquet,Orc。
Mr.King吧啦吧啦
·
2020-07-15 08:14
hadoop
hdfs
hive
flume
hive自定义行分隔符
首先交代一下背景:通过spring消费RMQ的数据写到hdfs,从一开始就预料到直接写
textfile
会有错行乱行的问题,所以一开始的方案是写parquet,经过验证后发现写parquet会有很多小文件
呵呵小短腿
·
2020-07-15 06:59
hive
上一页
5
6
7
8
9
10
11
12
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他