SPar 第8页

《Spark机器学习》笔记——Spark高级文本处理技术（NLP、特征哈希、TF-IDF、朴素贝叶斯多分类、Word2Vec）

{Spar

土豆拍死马铃薯·2018-01-10 21:03

协同过滤的ALS算法

它已经集成到Spar

buptdavid·2018-01-04 14:36

12.13百度实习面试总结－风控体系产品技术部

写公式）wordembedding乘以tf-idf的权重，然后就问我word2vec是怎么实现的，具体推到过程，我就讲了讲之前看的paper的内容，但是很多都忘了…4.spark和hadoop的基本思想，spar

Johnson0722·2017-12-24 12:53

Spark 的transformation和action操作

）：Transformation属于延迟计算，当一个RDD转换成另一个RDD时并没有立即进行转换，仅仅是记住了数据集的逻辑操作Action（执行）：触发Spark作业的运行，真正触发转换算子的计算2.Spar

lin1270473045·2017-12-21 18:20

Hive on Spark源码分析

本地模式下，SparkContext与客户端运行在同一个JVM中；远程模式下，Spar

lcjasas·2017-12-18 15:37

Spark Streaming读取Kafka数据

1.Reveiver方式基于Receiver方式实现会利用Kakfa的高层消费API，和所有的其他Receivers一样，接受到的数据会保存到excutors中，然后由spar

明翼·2017-12-04 05:38

Spark-Streaming: 分析tomcat的日志

packageio.github.sparkstreamimportjava.io.FileInputStreamimportorg.apache.spark.SparkConfimportorg.apache.spar

yonggang_sun·2017-12-03 05:06

bigflow开源~破茧成蝶

BigflowPython能够将Pipeline映射成为不同分布式计算引擎上的计算任务，例如(Spar

苗栋栋·2017-11-03 11:53

Spark Java 分组排序取TopN

importorg.apache.spark.api.java.JavaPairRDD;importorg.apache.spark.api.java.JavaRDD;importorg.apache.spar

生命不息丶折腾不止·2017-10-18 21:59

Spark RDD 分区数详解

executor，由SparkSubmit进程生成指定数量的线程数来并发）：spark-shellspark.default.parallelism=1spark-shell--masterlocal[N]spar

小江_xiaojiang·2017-10-10 14:23

spark2.x由浅入深深到底系列七之python开发spark环境配置

python的版本是Python2.6+或者Python3.4+可以参考：http://jingyan.baidu.com/article/7908e85c78c743af491ad261.html二、下载spar

tangweiqun·2017-09-21 22:32

Ubuntu 16.04下Spark安装与开发环境搭建

安装之前确认已经安装了Java,可参见本人博客：http://blog.csdn.net/lengconglin/article/details/77016911这里注意版本对应问题，2.0以上都对应Scala2.11Spar

lengconglin·2017-09-05 09:07

Spark读文本将多行合并为一行

{Level,Logger}importorg.apache.spar

Dankfir·2017-08-25 16:52

spark学习-Spark Streaming-15-Spark Streaming初次理解

事实上，你还可以在数据流上使用Spar

九师兄-梁川川·2017-08-22 09:00

解决百度BMR的spark集群开启slaves结点的问题

但百度那边帮我们初始化了集群之后，我们默认以为开启了spar

Kwongtai·2017-08-13 17:55

Alluxio及其典型应用场景

二、典型应用场景1.计算层需要反复访问远程（比如在云端，或跨机房）的数据；2.计算层需要同时访问多个独立的持久化数据源（比如同时访问S3和HDFS中的数据）；3.多个独立的大数据应用（比如不同的Spar

an7800666·2017-08-09 11:00

Spark中RpcEnv和SparkEnv的区别

RpcEnv在Spark2.x版本之后就只有Netty的实现了，因此看一下RpcEnv和NettyRpcEnv的声明：private[spar

javartisan·2017-06-27 22:40

1.SparkRDD join案例

文件的读取，和RDD的JOIN操作，以及Schema,RDD和ROW之间的有趣关系；3.具体实例如下：importorg.apache.spark.SparkConfimportorg.apache.spar

AIgeeksu·2017-05-07 22:41

##[维度]系列漫谈数据仓库之维度建模

对应到具体工作中的话，它可以包含下面的这些内容：以Hadoop、Spar

葡萄喃喃呓语·2017-05-04 16:53

spark RDD算子（四）之创建键值对RDD mapToPair flatMapToPair

将每一行的第一个单词作为键，1作为value创建pairRDDscala版本scala是没有mapToPair函数的，scala版本只需要map就可以了scala>vallines=sc.textFile("F:\\spar

翟开顺·2017-04-19 00:27

spark client IM

基于开源jabber(XMPP)架设内部即时通讯服务的解决方案Sparkclient：：：http://www.igniterealtime.org/projects/spar

chittykent·2017-04-12 09:07

Spark-Core源码精读(11)、Stage的划分过程和Task数据本地性

图片来自Databricks的Spar

sun4lower·2017-03-12 22:09

内存计算--Spark

负载平衡、局部性（Cache）容错难：传统容错方法不适用（锁步法）大数据处理并行系统：编程模型、容错能力、性能与成本MapReduce：编程模型简单（Map&&Reduce），容错简单，成本低，性能较差Spar

Largehadron·2017-02-25 15:37

一个简单的sparkSQL案例

{Row,SQLContext}importorg.apache.spar

堡垒-93·2017-02-16 08:04

英格兰买菜及其它

SAINSBURY'S买的胡萝卜、桔子、西红柿；SPAR买的鸡蛋；TESCO买的鸡腿、面包。一家买不够，到另一家，直接提着里边装了采购的前一家或两家货物的带有前一家

斑斓糖衣·2017-02-14 06:23

IMF spark 正则表达式统计apache log 日志

importscala.Tuple3;importorg.apache.spark.SparkConf;importorg.apache.spark.api.java.JavaPairRDD;importorg.apache.spar

段智华·2017-01-12 18:21

Spark性能优化：开发调优篇

在美团•大众点评，已经有很多同学在各种项目中尝试使用Spar

过江小卒·2017-01-04 10:39

3个案例教你用Spark解决Map Reduce问题！

之前我们大圣众包小编也为大家整理过Spar

大圣众包平台·2016-12-09 11:46

Spark-2.x 编译构建及配置安装

ChaosJ·2016-10-24 14:36

Spark四大组件包括Spark Streaming、Spark SQL、Spark MLlib和Spark GraphX。

SparkSQL:SparkSQL可以通过JDBCAPI将Spar

山鹰的天空·2016-08-31 14:57

spark学习资料

article/details/38257749http://jerryshao.me/http://blog.csdn.net/gaoyanjie55/article/details/16870527spar

a1610770854·2016-06-30 12:00

大数据基础架构方案

导入数据存储采用hdfs,hbase等为数据存储的主体对于文本检索则采用es/solr等搜索技术分析后的结果数据可以采用关系型数据库存储数据分析采用spark,mapreduce,storm等计算框架分析批处理：spar

dreaper126·2016-06-07 00:48

Spark算子-RDD Action(saveAsNewAPIHadoopFile)

用法基本同saveAsHadoopFileimportorg.apache.spar

Mrknowledge·2016-05-16 11:00

Spark读取HBase内容_Java

sundujing·2016-05-12 18:00

【代码】稀疏矩阵的压缩存储与转置算法

size_t row = 0 ,size_t col = 0):_value(t), _row(row), _col(col){}};template class SpareMatrix{public:Spar

pawnsir·2016-05-11 14:15

第3课:通过案例对 spark streaming 透彻理解三板斧之三：spark streaming运行机制与架构

importorg.apache.spark.Spar

kaden·2016-05-09 20:52

Spark 定制版：002~Spark Streaming（二）

假如要构建一个强大的Spark应用程序，SparkStreaming是一个值得借鉴的参考，Spar

zisheng_wang_DATA·2016-05-07 01:00

第3课：SparkStreaming 透彻理解三板斧之三：解密SparkStreaming运行机制和架构进阶之Job和容错

我们在编写Spar

lhui798·2016-05-04 21:00

Spark性能优化指南——基础篇

在美团•大众点评，已经有很多同学在各种项目中尝试使用Spar

u010022051·2016-05-04 14:00

通过案例对SparkStreaming 透彻理解三板斧之二：解密SparkStreaming运行机制

之上的一个应用程序，如果要构建一个强大的spark应用程序，sparkstreaming是一个值得借鉴的参考，sparkstreaming涉及多个job交叉配合，里面涉及到了spark的所有的核心组件，如果对spar

荀道子·2016-05-02 10:00

一个SparkSQL作业的一生

因为Spar

bluejoe2000·2016-04-06 20:00

Spark的配置参数

Spark属性Spar

openthings·2016-03-17 17:00

Spark RDD API具体解释(一) Map和Reduce

Spar

mengfanrong·2016-03-05 11:00

spark streaming kafka example

._ importorg.apache.spar

tneduts·2016-03-02 19:00

Spark Sort-Based Shuffle内幕彻底解密(DT大数据梦工厂)

本课是从Spark初级人才成功升级为Spar

feiweihy·2016-02-20 12:10

大数据生态圈与IBM Platform Symphony架构设计

当面对这样的问题时，很多人可能会快速地回答：Hadoop、Hive、Hbase以及后来的Yarn（Hadoop二代）、Mesos、Spar

周建丁·2016-02-15 11:46

11.Spark之运行模式及原理

实际应用中，Spark应用程序的运行模式取决于传递给Spar

鞋底留个洞·2016-02-01 18:00

DT_大数据梦工厂第17课 RDD实战

以下是今天的项目实例及作业（用Scala写cogroup写一个实例）packagecom.dt.spark.coresimportorg.apache.spar

chinsun_1·2016-01-22 23:57

第13课Spark内核架构解密

本期内容：1 通过手动绘图的方式解密Spar

lhui798·2016-01-17 11:00

SparkMLlib之 logistic regression源码分析

最近在研究机器学习，使用的工具是spark，本文是针对spar最新的源码Spark1.6.0的MLlib中的 logisticregression,linearregression进行源码分析，其理论部分参考

ljy2013·2016-01-16 11:00

推荐频道

SPar