Spark SQL 数据源 API:Spark平台的统一数据接入 @网路冷眼
市民眼中的绿地为何没那么多?用大数据讲述城市意象 @市政厅官微
Fig部署Docker @Easy
HIVE的CTAS用法探究 @IT技术博客大学习
Docker为何会火? @湾区日报BayArea
@好东西传送门 出品, 过往目录见 http://bd.memect.com
订阅:给 [email protected] 发封空信, 标题: 订阅大数据日报 或点击 点我订阅
本期话题有:(点击椭圆标签可只看这一主题)
全部23 分析9 虚拟化6 应用3 数据库1 会议活动1 计算框架1 书籍1
计算框架 Spark
【Spark SQL 数据源 API:Spark平台的统一数据接入】自从Spark 1.0版本的Spark SQL问世以来,它最常见的用途之一就是作为从Spark平台上面获取数据的一个渠道。到了Spark 1.2 版本,我们已经迈出了下一步,让Spark的原生资源和更多的输入源进行整合集成。http://t.cn/Rwq4If2
应用 规划
我们可以从大数据中找到市民心中的城市意象。从城市建设用地指标上看,上海并不比东京的绿地率少多少,但在居民感受中,东京实在是比上海绿得太多太多了。【@澎湃新闻:市政厅|市民眼中的绿地为何没那么多?用大数据讲述城市意象】 http://t.cn/RwtZDfE
虚拟化 Docker 代码 容器
Fig:Fast, isolated development environments using Docker. http://t.cn/Rhcsp1y @luofei614 这个工具看起来不错…
IT技术博客大学习 原微博 2015-02-14 09:14
数据库
【HIVE的CTAS用法探究】 最近在使用ADM系统的时候遇到一个问题,ADM在自动将HIVE QL包装成CTAS之后,由于HIVE内部缺省使用’\\N’来存储NULL,这样就会产生一个问题,因为我们处理的很多结果数据是需要导出附... 详见:http://t.cn/zjCQf9L
湾区日报BayArea 原微博 2015-02-14 07:51
虚拟化 Docker 容器
Docker为何会火? http://t.cn/Rw5u72q 写得很好的文章。里面的一个观点很有意思:“The Docker product came from a non-threatening source, a small startup (DotCloud) that was able to broadly partner across the whole industry. ” #湾区日报#
应用 新闻
#每周数据新闻精选# 本期亮点:Vox网站的数据新闻理念、《纽约时报》的新尝试“The Upshot”,《爱尔兰时报》数据团队,还有《柏林晨报》最新交互设计。@数据新闻 @财新数据可视化实验室 http://t.cn/Rwci7yG
分析
[文章]《Career Spotlight: What I Do as a Data Scientist》http://t.cn/Rwt680s "Spend as much time learning analytics communication as learning models"。职业生涯亮点:聚焦数据科学家。
分析 机器学习
机器学习日报 2015-02-13 http://t.cn/RwtJ0l6 1) 世纪佳缘用户推荐系统的发展历史 2) 通过数据分析解读GDP系列文章 3) OpenCV进阶之路:神经网络识别车牌字符 4) New Directions in Recommender Systems 5) Andrej Karpathy的反击 可点击加长版16条 http://t.cn/RwtJjwp
西瓜大丸子汤 原微博 转发于2015-02-14 11:55
v2ex版 http://t.cn/RwtoTZr
分析 虚拟化 Docker 可视化 容器
大数据日报 2015-02-13 http://t.cn/RwtVqGE 1) 去硅谷当个大数据工程师,你要这么做 2) 可视化存储智能解决方案 3) CrowdFlower的2015年数据科学领域报告 4) 大数据中的百年社会学 5) awesome docker 可点击加长版32条 http://t.cn/RwtVfTu
分析 书籍
每日新书:《R数据分析——方法与案例详解(双色)》本书是一本R 语言和数据分析的入门教材,每个知识点尽量从实际的应用案例出发,以问题为导向,在解决问题中学习统计方法、R 语言的基本使用以及编程技巧。内容涵盖R 数据结构、抽样模拟、统计分析、假设检验、回归分析、统计绘图和R 包制作等内容。
Linuxeden开源社区 原微博 2015-02-14 08:24
【Node.js基金会成立,Joyent交出领导权】 Node.js 是一个基于Chrome JavaScript运行时建立、流行、开源、跨平台的运行时环境。近日,云计算服务商Joyent终于 宣布 成立Node.js的开源基金…http://t.cn/Rw5dr58
HackerNewsDaily 原微博 2015-02-14 05:30
虚拟化 Docker 容器
《App Container and Docker》原文:http://t.cn/Rw5Qx1u HN评论:http://t.cn/Rw5QQGS
更早的微博,有新精彩评论或被再次推荐
分析 丁士正
【怎么评价产品经理拿数据说话这回事?如何做数据分析?】丁士正 : 这几个月在一家为客户在Facebook上做广告的加拿大公司工作。简单说说他们对于数据的态度吧。这是一家小型Startup公司,总共不到20个人。其中4个人(包括我)是技术,剩下… http://t.cn/anzXrS(分享自 @知乎)
【TT大数据】一年一度的情(shi)人(shen)节就要来了,你的TT买好了吗?想知道什么品牌更受欢迎吗?超薄体贴、凸点螺纹和果味刺激哪个更受大家欢迎呢?下面由星图数据的小编带你探索TT中稀(mei)奇(you)古(xia)怪(xian)的大数据!
数据化管理 原微博 转发于2015-02-14 10:01
如果线上线下三七开的话,节前大概能卖出1亿多的安全套。我在想,今天晚上全国一共能消耗多少个TT呢?
分析
[文章]通过数据分析解读GDP系列文章,该系列包含三篇文章,第一篇GDP助推因素分析http://t.cn/Rwq1xnh和第二篇各国经济数据的蒙特卡洛k-means聚类分析http://t.cn/Rwq1OfA 已经放出,第三篇关于未来GDP增长趋势预测的文章还没放,基于数据分析的现代经济学典范,推荐阅读 云:http://t.cn/RwqBOdx
【空气质量分布式监测成功案例,云创存储已在全国部署了大量的空气传感器,今年之内将超过全国的总和】在江苏,为江苏省环保厅1831平台建设提供了技术支撑,实现了大数据技术与环保的高度结合。http://t.cn/Rwba1Yy @专注云计算 @何春银微想
分析 会议活动 活动 教育网站 课程
上海科技大学信息学院将于六月举办第一届ShanghaiTech Symposium on Data Science: http://t.cn/Rwql0MN届时国际国内关于数据处理的理论、计算、学习、与应用的顶尖学者(主要是中青年)将作20多场学术报告与多个关于Sparse、DNN、和Cloud等的短训课程。这将是一场真正的关于数据科学的豪门盛宴!
虚拟化 Docker 容器
【Java开发人员:如何穿过Docker现象这片“丛林”】今天我们来谈谈Java开发人员如何能够穿过Docker现象这片丛林,更容易了解使用这种热门新技术来简化开发流程的种种好处。我们在本文中将探讨你可以用Docker来完成什么以及如何认识Docker这项新兴技术。http://t.cn/Rwqf3KY @专注云计算
科学通报的一期大数据研究与应用http://t.cn/RwU4d5N 我们撰文《面向大社交数据的深度分析与挖掘》http://t.cn/RwU4d5p
裴智勇
【中国首个网络骗子地图上线】中国首个用大数据追踪网络诈骗的“中国网络骗子地图”9日正式上线,网民可以通过该地图实时发现所在地区的钓鱼网站等网络诈骗方式,从而提高警惕,避免上当受骗。http://t.cn/RwyvJxz
自动化网官方微博 原微博 转发于2015-02-14 10:59
<裴智勇:360将陆续对公众开放系列安全大数据可视化产品>360安全大数据平台负责人裴智勇表示,2015年,继“中国网络骗子地图”上线后,还将陆续对公众开放系列安全大数据可视化产品,让公众提高网络安全意识,同努力,以真正实现“网上无贼”,提升中国网民互联网上的安全感。#每周热博#
ArnetMiner 原微博 2015-02-11 00:28
分析 应用
[Call for Paper & Scholar data challenge] IEEE成立了大数据Transaction(IEEE Transaction on Big Data), 这期专刊是大科学数据挖掘竞赛,http://t.cn/RwyRDaI 欢迎投稿!专刊使用AMiner数据,专家发现、Profile抽取、学术预测、推荐。尽情发挥您的想象。@刘知远THU @西瓜大丸子汤 @李航博士
虚拟化 Docker 容器
唱衰Docker:http://t.cn/Rwwb1CJ
登州知府 原微博 转发于2015-02-14 09:54
reddit上的讨论:http://t.cn/RwtLWnn
分析
推荐这篇文章,分析了推荐系统中使用算法的误区,确实规则带来的好处简单有效。 当一个做推荐系统的部门开始重视【数据清理,数据标柱,效果评测,数据统计,数据分析】这些所谓的脏活累活,这样的推荐系统才会有救。http://t.cn/RvxC543