Databricks 第7页

Spark生态之Spark-csv学习1之安装和简单的examples

https://github.com/xubo245/SparkLearning1.安装：（1）Spark-shell：$SPARK_HOME/bin/spark-shell--packagescom.databricks

bob601450868·2016-04-19 00:00

GraphFrames介绍

由Databricks、UCBerkeley以及MIT联合为ApacheSpark开发了一款图像处理类库，名为：GraphFrames，该类库是构建在DataFrame之上，它既能利用DataFrame

LW_GHY·2016-04-12 22:00

Spark 机器学习实践：Iris数据集的分类

--packagescom.databricks:spark-csv_2.11:1.4.0from pyspark.sql import SQLContext sqlContext = SQL

naughty·2016-04-12 12:00

一个SparkSQL作业的一生

Spark是时下很火的计算框架，由UCBerkeleyAMPLab研发，并由原班人马创建的Databricks负责商业化相关事务。

bluejoe2000·2016-04-06 20:00

Spark 深度学习的悖论实效

在过去三年，Databricks最聪明的工程师在研究一个秘密的项目。今天，我们揭秘DeepSpark，这是ApacheSpark一个重要的里程碑。

Er8cJiang·2016-04-02 23:00

Tuning-java-garbage-collection-for-spark-applications

原文链接：https://databricks.com/blog/2015/05/28/tuning-java-garbage-collection-for-spark-applications.html

wl044090432·2016-03-31 15:00

[译]剖析勇士如何成为新赛季夺冠热门：基于Spark GraphFrames的金州勇士传球网络分析

databricks最近发布了GraphFrames，这是一个用DataFrames封装图处理过程的Spark插件。我评估了网络分析并且利用丰富的NBA.com的数据对金州勇士的传球网络进行可视化。

HarryZhu·2016-03-31 00:00

程序员2016年4月：Spark核心技术与实践

2014年至2015年，Spark经历了高速发展，Databricks2015Spark调查报告显示：2014年9月至2015年9月，已经有超过600个Spark源码贡献者，而在此之前的12个月人数只有

csdn_csdn__AI·2016-03-28 16:18

Hive On Spark和SparkSQL

这是Spark官方Databricks的项目，Spark项目本身主推的SQL实现。HiveOnSpark比SparkSQL稍晚。

凌度·2016-03-27 11:00

Databricks整合Spark和TensorFlow用于深度学习模型

Databricks公司的TimHunter通过Spark演示了使用TensorFlow生成模型选项和一定规模的神经网络处理。

Dylan Raithel·2016-03-15 00:00

GraphFrames, Spark上的图计算库（英）

builtinacollaborationbetweenDatabricks,UCBerkeley'sAMPLab,andMIT.ByJosephBradley,TimHunter,AnkurDave*,XiangruiMeng,Databricks

openthings·2016-03-10 10:00

初识Spark 1.6.0

Spark发展背景Spark由加州大学伯克利分校AMP实验室(Algorithms,Machines,andPeopleLab)以Matei为主的小团队使用Scala语言所开发，后期成立spark商业公司databricks

安伦_Alan·2016-03-03 14:23

Hadoop/Spark生态圈里的新气象【转】

引申阅读： https://databricks.com/blog/2015/04/28/project-tungsten-bringing-spark-closer-to-bare-metal.htmlhttp

强子哥哥·2016-02-24 21:00

How Many Partitions Does An RDD Have

From https://databricks.gitbooks.io/databricks-spark-knowledge-base/content/performance_optimization/

代码浮生·2016-02-17 16:00

IBM美女工程师Holden Karau：寻找友善的人一起共事

Holden曾是Databricks的软件开发工程师，负责Spark和DatabricksCloud的后端开发。

图灵访谈·2016-02-16 00:00

大数据架构概览

图片：databricks.jpg下面是常见的技术简介：HBase：是一个分布式的、面向列的开源数据库。其设计理念源自谷歌的BigTable，用Java语言编写而成。

u011001084·2016-02-02 11:00

Spark 1.6发布：引入Dataset接口

今天，Databricks宣布发布Apache Spark 1.6!这也是开源社区开发的一个里程碑，2015年代码贡献者达到1000人，是2014一整年的两倍，见下图。

侠天·2016-01-05 00:00

为什么越来越多的公司在使用Spark Streaming

Databricks最近对1400多家Spark用户进行了一次调查，结果显示这些用户对SparkStreaming的使用率与2014年相比增长了56%，另外，有48%的受访者将SparkStreaming

孙镜涛·2016-01-04 00:00

为什么越来越多的公司在使用Spark Streaming

Databricks最近对1400多家Spark用户进行了一次调查，结果显示这些用户对SparkStreaming的使用率与2014年相比增长了56%，另外，有48%的受访者将SparkStreaming

孙镜涛·2016-01-04 00:00

Spark Streaming容错的改进和零数据丢失

作者：TathagataDas 译者：彭根禄本文来自Spark Streaming项目带头人 TathagataDas的博客文章，他现在就职于Databricks公司。

zhangxiong0301·2015-12-09 11:00

Collective的Spark ML经验分享：读者模型

本文来自Databricks的技术博客，EugeneZhulenev分享了自己在Collective公司从事机器学习和读者模型工作的经验。Collective公司有很

孙镜涛·2015-11-20 00:00

Collective的Spark ML经验分享：读者模型

本文来自Databricks的技术博客，EugeneZhulenev分享了自己在Collective公司从事机器学习和读者模型工作的经验。Collective公司有很

孙镜涛·2015-11-20 00:00

Collective的Spark ML经验分享：读者模型

本文来自Databricks的技术博客，EugeneZhulenev分享了自己在Collective公司从事机器学习和读者模型工作的经验。\\Collective公司

昵称4·2015-11-19 18:00

SparkSQL External Datasource简易使用之CSV

下载源码&编译： git clone https://github.com/databricks/spark-csv.git sbt/sbt assembly Maven

·2015-11-12 23:52

SparkSQL External Datasource简易使用之AVRO

下载源码&编译： git clone https://github.com/databricks/spark-avro.git sbt/sbt package Maven

·2015-11-12 23:51

《Apache Spark源码剖析》

Spark Contributor，Databricks工程师连城，华为大数据平台开发部部长陈亮，网易杭州研究院副院长汪源，TalkingData首席数据科学家张夏天联袂力荐1.本书全面、系统地介绍了

·2015-11-12 10:37

【深度】机器学习进化史：从线性模型到神经网络

【深度】机器学习进化史：从线性模型到神经网络 Reza Zadeh是斯坦福大学工程计算和数学研究所顾问教授，也是Databricks公司技术顾问，他主要专注于机器学习理论和应用，分布式计算，以及离散应用数学

·2015-11-01 10:53

Spark SQL 初探

经过一年的开发，在今年SparkSubmit2014上，Databricks宣布放弃Shark的开发，而转投SparkSQL，理由是Shark继承了Hive太多，优化出现了瓶颈，如图：今天把Spark最新的代码签了下来

m635674608·2015-10-28 14:00

Spark SQL小结

在2014年7月1日的SparkSummit上，Databricks宣布终止对Shark的开发，将重点放到SparkSQL上。

m635674608·2015-10-28 14:00

Databricks：2015 Spark调查报告（部分译文）

译者：摇摆少年梦原文地址：https://databricks.com/blog/2015/09/24/spark-survey-results-2015-are-now-available.htmlSANFRANCISCO

lovehuangjiaju·2015-09-27 10:00

Spark环境安装－快速

/spark-shell.sh官网快速启动的例子：http://spark.apache.org/docs/latest/官方高级应用的例子：https://databricks-training.s3

啊莫·2015-09-26 12:00

在 Databricks 可获得 Spark 1.5 预览版

我们兴奋地宣布,从今天开始,ApacheSpark1.5.0的预览数据砖是可用的。我们的用户现在可以选择提供集群与Spark1.5或先前的火花版本准备好几个点击。正式,Spark1.5预计将在数周内公布,和社区所做的QA测试的版本。鉴于火花的快节奏发展,我们觉得这是很重要的,使我们的用户尽快开发和利用新特性。与传统的本地软件部署,它可以需要几个月,甚至几年,从供应商收到软件更新。数据砖的云模型,我

stark_summer·2015-08-25 14:00

在 Databricks 可获得 Spark 1.5 预览版

我们兴奋地宣布,从今天开始,ApacheSpark1.5.0的预览数据砖是可用的。我们的用户现在可以选择提供集群与Spark1.5或先前的火花版本准备好几个点击。正式,Spark1.5预计将在数周内公布,和社区所做的QA测试的版本。鉴于火花的快节奏发展,我们觉得这是很重要的,使我们的用户尽快开发和利用新特性。与传统的本地软件部署,它可以需要几个月,甚至几年,从供应商收到软件更新。数据砖的云模型,我

Stark_Summer·2015-08-25 14:00

在 Databricks 可获得 Spark 1.5 预览版

Stark_Summer·2015-08-25 14:00

在 Databricks 可获得 Spark 1.5 预览版

Stark_Summer·2015-08-25 14:00

SparkSQL（Spark-1.4.0)实战系列（一）——DataFrames基础

主要内容本教程中所有例子跑在Spark-1.4.0集群上DataFrames简介DataFrame基本操作实战DataFrames简介本文部分内容译自https://databricks.com/blog

lovehuangjiaju·2015-07-15 23:00

Spark Streaming容错的改进和零数据丢失

【编者按】本文来自Spark Streaming项目带头人 TathagataDas的博客文章，他现在就职于Databricks公司。过去曾在UC Berke

TonyChai·2015-07-15 12:00

Spark 1.4为DataFrame新增的统计与数学函数

最近，Databricks的工程师撰写了博客，介绍了Spark1.4为DataFrame新增的统计与数学函数。

张逸·2015-06-08 00:00

Spark 1.4为DataFrame新增的统计与数学函数

最近，Databricks的工程师撰写了博客，介绍了Spark1.4为DataFrame新增的统计与数学函数。

张逸·2015-06-08 00:00

spark overview

1.sparkvshadoopPS:Databricks团队特别说明，为了和Hadoop对比，这次用于排序的Spark集群没有使用它们的内存缓存机制，他们也是用硬盘存储的中间结果！

ghostman_yue·2015-06-01 13:00

spark overview

ghostman_yue·2015-06-01 13:00

spark overview

ghostman_yue·2015-06-01 13:00

Tuning Java Garbage Collection for Spark Applicati

Usethecode Databricks20 toreceivea 20%discount

kuerant·2015-05-30 20:00

spark总体概况

Stark_Summer·2015-05-27 14:00

spark总体概况

1.sparkvshadoopPS:Databricks团队特别说明，为了和Hadoop对比，这次用于排序的Spark集群没有使用它们的内存缓存机制，他们也是用硬盘存储的中间结果！

stark_summer·2015-05-27 14:00

spark总体概况

1.sparkvshadoopPS:Databricks团队特别说明，为了和Hadoop对比，这次用于排序的Spark集群没有使用它们的内存缓存机制，他们也是用硬盘存储的中间结果！

Stark_Summer·2015-05-27 14:00

spark总体概况

Stark_Summer·2015-05-27 14:00

spark总体概况

1.sparkvshadoopPS:Databricks团队特别说明，为了和Hadoop对比，这次用于排序的Spark集群没有使用它们的内存缓存机制，他们也是用硬盘存储的中间结果！

Stark_Summer·2015-05-27 14:00

spark总体概况

1.sparkvshadoopPS:Databricks团队特别说明，为了和Hadoop对比，这次用于排序的Spark集群没有使用它们的内存缓存机制，他们也是用硬盘存储的中间结果！

stark_summer·2015-05-22 15:00

Spark GC 调优

参考databricks的TuningJavaGarbageCollectionforSparkApplications对我们的环境优化后，效果比较明显。

q79969786·2015-05-17 08:51

推荐频道

Databricks

Spark生态之Spark-csv学习1之安装和简单的examples

GraphFrames介绍

Spark 机器学习实践 ：Iris数据集的分类

一个SparkSQL作业的一生

Spark 深度学习的悖论实效

Tuning-java-garbage-collection-for-spark-applications

[译]剖析勇士如何成为新赛季夺冠热门：基于Spark GraphFrames的金州勇士传球网络分析

程序员2016年4月：Spark核心技术与实践

Hive On Spark和SparkSQL

Databricks整合Spark和TensorFlow用于深度学习模型

GraphFrames, Spark上的图计算库（英）

初识Spark 1.6.0

Hadoop/Spark生态圈里的新气象【转】

How Many Partitions Does An RDD Have

IBM美女工程师Holden Karau：寻找友善的人一起共事

大数据架构概览

Spark 1.6发布：引入Dataset接口

为什么越来越多的公司在使用Spark Streaming

为什么越来越多的公司在使用Spark Streaming

Spark Streaming容错的改进和零数据丢失

Collective的Spark ML经验分享：读者模型

Collective的Spark ML经验分享：读者模型

Collective的Spark ML经验分享：读者模型

SparkSQL External Datasource简易使用之CSV

SparkSQL External Datasource简易使用之AVRO

《Apache Spark源码剖析》

【深度】机器学习进化史：从线性模型到神经网络

Spark SQL 初探

Spark SQL小结

Databricks：2015 Spark调查报告（部分译文）

Spark环境安装－快速

在 Databricks 可获得 Spark 1.5 预览版

在 Databricks 可获得 Spark 1.5 预览版

在 Databricks 可获得 Spark 1.5 预览版

在 Databricks 可获得 Spark 1.5 预览版

SparkSQL（Spark-1.4.0)实战系列（一）——DataFrames基础

Spark Streaming容错的改进和零数据丢失

Spark 1.4为DataFrame新增的统计与数学函数

Spark 1.4为DataFrame新增的统计与数学函数

spark overview

spark overview

spark overview

Tuning Java Garbage Collection for Spark Applicati

spark总体概况

spark总体概况

spark总体概况

spark总体概况

spark总体概况

spark总体概况

Spark GC 调优

Spark 机器学习实践：Iris数据集的分类