E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
emr
EMR
Spark-SQL性能极致优化揭秘 Native Codegen Framework
作者:周克勇,花名一锤,阿里巴巴计算平台事业部
EMR
团队技术专家,大数据领域技术爱好者,对Spark有浓厚兴趣和一定的了解,目前主要专注于
EMR
产品中开源计算引擎的优化工作。
weixin_45906054
·
2020-06-29 16:10
阿里云
EMR
计算速度提升2.2倍 连续两年打破大数据领域最难竞赛世界纪录!
值得一提的是,去年阿里云
EMR
首次打破该竞赛纪录,成为全球首个通过TPC认证的公共云产品。
weixin_45906054
·
2020-06-29 16:39
如何用Apache Spark和LightGBM构建机器学习模型来预测信用卡欺诈
编译:抚月,阿里巴巴计算平台事业部
EMR
高级工程师,ApacheHDFSCommitter,目前从事开源大数据存储和优化方面的工作。本文出现的所有链接,可点击文末“阅读原文”直达。
weixin_45906054
·
2020-06-29 16:39
Spark Packages寻宝(一):简单易用的数据准备工具Optimus
作者:李呈祥,花名司麟,阿里云智能
EMR
团队高级技术专家,ApacheHiveCommitter,ApacheFlinkCommitter,目前主要专注于
EMR
产品中开源计算引擎的优化工作。
weixin_45906054
·
2020-06-29 16:39
Data Lake 三剑客——Delta、Hudi、Iceberg 对比分析
作者:辛庸,阿里巴巴计算平台事业部
EMR
技术专家。ApacheHadoop,ApacheSparkcontributor。对Hadoop、Spark、Hive、Druid等大数据组件有深入研究。
weixin_45906054
·
2020-06-29 16:38
2019年Apache Spark技术交流社区原创文章回顾
感谢持续分享输出优质内容的阿里云
EMR
团队的王道远,余根茂,彭搏,郑锴,夏立,林武康,李呈祥,吴威,殳鑫鑫,宋军,关文选,孙大鹏,辛现银,江宇,陈强,陈龙,陶克路,姚舜扬,周克勇,苏昆辉;阿里云Tablestore
weixin_45906054
·
2020-06-29 16:07
平台集成LDAP
EMR
集群内部自带了LDAP服务,所以不需要在集成Openldap进行管理;Openldap安装和使用指南、可视化工具phpldapadm
ioyow
·
2020-06-29 07:23
医院信息化整体解决方案
章转载自公众号爱方案(ID:ifangan)打造全方位的、国际领先的智慧医院,建立先进的医院信息应用平台,实现临床信息系统、医院管理信息系统、PACS系统、LIS系统、HRP资源计划管理系统、智能卡系统、
EMR
精容数安RunStor
·
2020-06-29 04:43
阿里云
EMR
最佳实践和容灾
阿里云
EMR
(ElasticMapReduce)是一项Web服务,简化了大数据处理,提供的大数据框架可以让您轻松、高速、经济、安全、稳定地处理大数据,满足如日志分析、数据仓库、商业智能、机器学习、科学模拟等业务需求
weixin_34186950
·
2020-06-28 13:33
据阿里云
EMR
快速搭建数据平台(二)
2019独角兽企业重金招聘Python工程师标准>>>数据平台架构跌代及研发架构方案及版本跌代统计版0.0.1spark+redis+oss+sls相关接口测试用例和分析环境都已打通解析后内容,缓存内容,数据检查点:内存和本地或hadoop临时文件持续更新状态或数据累加汇总结果直接记redis常用中间结果数据集考虑存oss(redis备选简单集存储,因数据链接资源问题,不适用直接在nosql上做跌
weixin_34138139
·
2020-06-28 12:37
医院信息集成平台现状总结
定义以基础信息采集为核心,整合医院HIS、LIS、PACS、
EMR
、OA、HRP等医院内部的相关信息资源,面向临床、科研和集团化管理建立的网络化、实时化的运营与临床信息平台,平台运用消息引擎等数据传输技术和标准化的消息封装手段实现院内应用系统的互联互通
weixin_34133829
·
2020-06-28 12:58
开源大数据周刊-第57期
阿里云E-Mapreduce动态:ECM功能上线北京region,用户可以通过
EMR
-3.2.0版本创建新集群体验,ECM提供组件的配置修改/起停等操作资讯DigitalGlobe借助亚马逊AWSSnowmobile
Vincent8080
·
2020-06-28 10:11
EMR
Druid 探索(一)
EMRDruid探索(一)什么是Druid、Druid使用场景Druid是Metamarkets公司(一家为在线媒体或广告公司提供数据分析服务的公司)推出的一个分布式内存实时分析系统,用于解决如何在大规模数据集下进行快速的、交互式的查询和分析。现今有一些非常热的SQLonHadoop解决方案或者基于传统数据库技术的MPP方案,前者比如Hive、Impala、SparkSQL、Presto等,后者比
weixin_33781606
·
2020-06-28 05:51
大数据分析平台产品对比之MaxCompute(原ODPS)篇
之前尝试使用过一些国内外的云产品,特别是大数据分析型产品,例如:亚马逊的
EMR
、Redshift,Google的Bigquery以及阿里云的ODPS,现在更名为MaxCompute,https://www.aliyun.com
weixin_33682790
·
2020-06-28 03:28
Kylin安装,ambari hadoop平台,操作系统CentOS6.8
JDK1.8下载官网二进制包Binarydownload:forHBase1.x(includesHDP2.3/2.4,
EMR
5.0)-apache-kylin-2.0.0-bin-hbase1x.tar.gz
vivismilecs
·
2020-06-27 11:40
大数据平台
Hadoop - 企业级大数据管理平台CDH(介绍和准备工作)
当然是有原因,随着不断的学习了解,慢慢意识到之前做法存在很多缺陷,最终对比了比较成熟的解决方案
EMR
和CDH,最终选择了使用CDH来搭建大数据管理平台,那么我们就开始新的一趴,企业级大数据管理平台CDH
文振熙
·
2020-06-27 00:46
大数据
喵咪大数据
阿里云
EMR
spark streaming 消费kafka数据
先吐槽一下阿里云,简直了,为了一个简单demo,简直无语先是本身MQ的kafka有问题,然后3.30升级也无这方面文档提供,回到正题:本文主要讲讲述下再阿里云的
emr
中的sparkstreaming怎么连接阿里云的消息
DevinShuai
·
2020-06-26 09:45
spark
大神讲解Azkaban VS
EMR
-数据开发
AzkabanEMR-数据开发占用独立服务器,独立部署,独立运维集成在
EMR
中,不需要部署,不需要特运维代码文件打包成zip,手动上传代码文件手动上传到OSS一个项目下可以都多个工作流,但是必须在一个zip
qq_45098014
·
2020-06-26 03:53
阿里云
EMR
技术专家 “健身” 浅析Hive/Spark SQL读文件时的输入任务划分
Hive以及SparkSQL等大数据计算引擎为我们操作存储在HDFS上结构化数据提供了易于上手的SQL接口,大大降低了ETL等操作的门槛,也因此在实际生产中有着广泛的应用。SQL是非过程化语言,我们写SQL的时候并不能控制具体的执行过程,它们依赖执行引擎决定。而Hive和SparkSQL作为Map-Reduce模型的分布式执行引擎,其执行过程首先就涉及到如何将输入数据切分成一个个任务,分配给不同的
乔治大哥
·
2020-06-25 22:52
#
大数据
利用aws构建数据仓库(一):开通
emr
1.对于中、小型公司来说,如何处理公司与日增长的庞大数据是一个非常烦恼的问题。而本系列博客介绍了如何利用aws的大数据产品一步步构建低成本、可扩展以及易维护的数据仓库。2.AmazonEMR简介:AmazonEMR提供的托管Hadoop框架可以让您快速轻松、经济高效地在多个动态可扩展的AmazonEC2实例之间处理大量数据。您还可以运行其他常用的分布式框架(例如AmazonEMR中的ApacheS
刘坤元
·
2020-06-25 12:07
大数据
应用案例:SequoiaDB+Spark搭建医院临床知识库系统
不但有数字化医院管理信息系统(HIS)、影像存档和通信系统(PACS)、电子病历系统(
EMR
)和区域医疗卫生服务(GMIS)等成功实施与普及推广,而且随着日新月异的计算机技术和网络技术的革新,进一步为数字化医院带来新的交互渠道譬如
SequoiaDB巨杉数据库
·
2020-06-24 18:39
nosql
2019年Apache Spark技术交流社区原创文章回顾
感谢持续分享输出优质内容的阿里云
EMR
团队的王道远,余根茂,彭搏,郑锴,夏
开发者社区小百科
·
2020-06-24 09:09
大数据
hive集群数据迁移到
EMR
的Hbase集群
为响应公司上云规划,hbase集群需通过
EMR
搭建。hive集群是在IDC机房,和普通集群迁移相比,这涉及到跨机房、跨集群的数据迁移,以及hive表数据到hbase集群数据的转换。
W609392362
·
2020-06-22 07:16
运维篇
QQ音乐PB级ClickHouse实时数据平台架构演进之路
本文基于QQ音乐海量大数据实时分析场景,通过QQ音乐与腾讯云
EMR
产品深度合作的案例解读,还原一个不一样的大数据云端解决方案。
QcloudCommunity
·
2020-06-22 03:56
(阿里云
EMR
团队专场)
团队介绍阿里云智能事业群
EMR
是阿里巴巴计算平台事业部的开源大数据生态体系核心技术团队。
weixin_45906054
·
2020-06-21 13:54
Mrjob介绍 (hadoop with python)
什么是mrjob一个通过hadoop、
emr
的mapreduce编程接口(streamming),扩展出来的一个python的编程框架。
lifeiaidajia
·
2020-06-21 02:15
hadoop
python
[AWS][大数据][Hadoop] 使用
EMR
做大数据分析
实验包括:1.使用
EMR
创建Hadoop集群2.定义schema,创建示例表。3.通过HiveQL分析数据,并将分析结果保存到S3上4.下载已经分析结果数据。
栗子哥
·
2020-06-21 01:12
aws
大数据
hadoop
云数据库DaaS
腾讯云
EMR
大数据实时OLAP分析案例解析
本文基于QQ音乐海量大数据实时分析场景,通过QQ音乐与腾讯云
EMR
产品深度合作的案例解读,还原一个不一样的大数据云端解决方案。
腾讯云加社区
·
2020-06-04 01:32
大数据
数据可视化
数据分析
腾讯云
EMR
大数据实时OLAP分析案例解析
本文基于QQ音乐海量大数据实时分析场景,通过QQ音乐与腾讯云
EMR
产品深度合作的案例解读,还原一个不一样的大数据云端解决方案。
腾讯云+社区
·
2020-06-03 10:00
Apache Hudi又双叕被国内顶级云服务提供商集成了!
是的,最近国内云服务提供商腾讯云在其
EMR
-V2.2.0版本中优先集成了Hudi0.5.1版本作为其云上的数据湖解决方案对外提供服务ApacheHudi在HDFS的数据集上提供了插入更新和增量拉取的流原语
leesf
·
2020-05-09 13:00
Apache Hudi又双叕被国内顶级云服务提供商集成了!
是的,最近国内云服务提供商腾讯云在其
EMR
-V2.2.0版本中优先集成了Hudi0.5.1版本作为其云上的数据湖解决方案对外提供服务ApacheHudi在HDFS的数据集上提供了插入更新和增量拉取的流原语
leesf
·
2020-05-09 13:00
数据湖正在成为新的数据仓库
编译:诚历,阿里巴巴计算平台事业部
EMR
技术专家,ApacheSentryPMC,ApacheCommonsCommitter,目前从事开源大数据存储和优化方面的工作。
阿里云云栖号
·
2020-04-10 19:39
AWS
EMR
入门笔记
EMR
使用指南(包括HIVE、HBASE、Spark等指南):https://docs.aws.amazon.com/
emr
/latest/ReleaseGuide/
emr
-spark-docker.htmlEMR
Ocean
·
2020-04-06 18:34
mapreduce
懂IT不懂业务?懂业务不懂IT?来自信息科的苦恼,一招帮你解决掉!
医院信息化建设从蹒跚起步到如今而立之年,走过了从无到有、从小到大、从弱到强的风雨历程,发展出
EMR
、HIS、HRP、PACS、LIS、RIS等每家医院都必不可少的信息系统。
OMAHA君
·
2020-04-05 11:15
Create
EMR
?xmlversion="1.0"encoding="UTF-8"?project_name=$1uuid=cat/proc/sys/kernel/random/uuidcreateemrclustercluster_id_json=`awsemrcreate-cluster\--regionus-west-2\--name"${project_name}"\--release-labelemr-
清晨_cj
·
2020-04-02 15:44
阿里云
EMR
3.2 hbase/phoenix客户端BUG
错误现象:1.今早在
EMR
3.2的生产新集群上执行导出操作,hbaseorg.apache.hadoop.hbase.mapreduce.Exportsafeclound.tb_ammeter/backup
Saxon_323e
·
2020-03-18 13:27
Mac OSX上安装Hadoop
正式的线上环境会用多台机器搭建集群或者直接使用AWS的
EMR
。我希望尽可能的通过包管理安装软件,而不是手动下载安装。
Crazy_Data
·
2020-03-04 08:38
艺视中国 I 人可以漂浮,并且是一种自然状态?! 林春岩
如一粒尘埃漂浮在浩瀚的宇宙中从最古老的开端,变换的是风景不变的是放飞的情林春岩,1962年生于北京,80年代末毕业于西悉尼大学视觉艺术系,1986年后多次在广东美术馆、北京团城画廊、希尔顿饭店观景廊、亚悉尼
EMR
abed8da56879
·
2020-02-27 17:56
利用IPython Notebook配合Amazon
EMR
实现数据分析
利用IPythonNotebook配合AmazonEMR实现数据分析IPythonNotebook是一套基于Web的交互环境,允许大家将代码、代码执行、数学函数、富文档、绘图以及其它元素整合为单一文件。从后端层面看,IPythonNotebook会将此类信息保存为一个JSON文件。相较于传统REPL或者传统写入/上传/测试任务流程,Notebook的突出优势在于允许大家将交互式内容与图片及绘图相结
小兎崽
·
2020-02-22 11:39
利用IPython Notebook配合Amazon
EMR
实现数据分析
利用IPythonNotebook配合AmazonEMR实现数据分析IPythonNotebook是一套基于Web的交互环境,允许大家将代码、代码执行、数学函数、富文档、绘图以及其它元素整合为单一文件。从后端层面看,IPythonNotebook会将此类信息保存为一个JSON文件。相较于传统REPL或者传统写入/上传/测试任务流程,Notebook的突出优势在于允许大家将交互式内容与图片及绘图相结
hzyido
·
2020-02-22 00:49
你了解四大吗?我说的是不间断电源UPS品牌
网络能源原是美国艾默生电气公司(纽约证券交易所代码:
EMR
)旗下
飞瑞UPS电源
·
2020-02-14 22:11
为什么医疗行业需要完整的API管理系统?
这是由于例如政府采取了电子病历(
EMR
)平台、设备(X射线,MRI,CT等)对医疗记录进行数字化,以及无处不在的个人健康/健身监视器(智能穿戴设备如AppleWatch等)。
不会画画的作家
·
2020-02-09 18:11
临床AI:知识驱动 / 数据驱动?(原理图)
【医院
EMR
的AI分析】病历:大小随意,需在电脑运行;基于:临床仿真,不是深度学习。
学着放下
·
2020-02-02 06:40
Spark Operator浅析
本文作者:林武康(花名:知瑕),阿里巴巴计算平台事业部技术专家,ApacheHUEContributor,参与了多个开源项目的研发工作,对于分布式系统设计应用有较丰富的经验,目前主要专注于
EMR
数据开发相关的产品的研发工作
阿里云官网
·
2020-01-07 02:56
在阿里云
EMR
环境下部署Kylin
推荐理由:kylin官网目前支持的hive最高版本为1.2.1,而阿里云最低版本的hive也在2.X,因此直接按照官网是安装不成功的.下面这片文章非常好的总结了如何在阿里云
emr
机器上安装kylin,具有非常良好的指导作用
_呆瓜_
·
2019-12-27 01:46
Electromagnetic
电磁辐射2.电磁频谱3.可见光4.微波5.更多相关链接1.电磁辐射https://en.wikipedia.org/wiki/Electromagnetic_radiation物理学,电磁辐射(EM辐射或
EMR
osoft
·
2019-12-23 14:00
2018-05-16
阿里云
EMR
最佳实践和容灾阿里云
EMR
(ElasticMapReduce)是一项Web服务,简化了大数据处理,提供的大数据框架可以让您轻松、高速、经济、安全、稳定地处理大数据,满足如日志分析、数据仓库、
玲小喵
·
2019-12-15 04:03
CDH简介
发行版•ApacheHadoop•Cloudera’sDistributionIncludingApacheHadoop(CDH)•HortonworksDataPlatform(HDP)•MapR•
EMR
just_me1989
·
2019-12-12 11:49
【译】使用Spark SQL 运行大规模基因组工作流
编译:诚历,阿里巴巴计算平台事业部
EMR
技术专家,ApacheSentryPMC,ApacheCommonsCommitter,目前从事开源大数据存储和优化方面的工作。
阿里云官网
·
2019-12-11 22:54
使用Amazon
EMR
和Apache Hudi在S3上插入,更新,删除数据
将数据存储在AmazonS3中可带来很多好处,包括规模、可靠性、成本效率等方面。最重要的是,你可以利用AmazonEMR中的ApacheSpark,Hive和Presto之类的开源工具来处理和分析数据。尽管这些工具功能强大,但是在处理需要进行增量数据处理以及记录级别插入,更新和删除场景时,仍然非常具有挑战。与客户交谈时,我们发现有些场景需要处理对单条记录的增量更新,例如:遵守数据隐私法规,在该法规
ApacheHudi
·
2019-11-25 12:00
上一页
4
5
6
7
8
9
10
11
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他