群内2018_5月讨论整理

归档至github

说明

以下内容来自群中出现的问题,大家讨论的结果

Q群:432600958

微信群:加微信w3aboutyun,附上about云铁粉

部分内容整理时,已经注明出处,但很多内容,较为零碎,也无暇整理,如有不妥,请联系我,谢谢。
五月一直在加班,整理的东西有限

如何从小白快速蜕变为大佬

时间

2018.05.03

内容

这是一些经验,主要有两点
1、 培养自己的阅读习惯
2、 提高对新技术的敏感力
文章末附了很多公众号

ref

Spark 读取本地文件

时间

2018.05.03

讨论内容

Spark 作为一个分布式系统,如果读取本地文件,则要求该文件在所有节点都存在,并且目录都要求一致。

  • 解决方法1:分发到所有节点(麻烦)
  • 解决方法2:将文件传到hdfs,读取hdfs路径
  • 解决方法3:使用addfile方法

扩展

Spark中函数addFile 和 addJar函数介绍

机器学习优化算法讨论 -- by 木东居士 ref

时间

2018.05.03

讨论内容

机器学习的算法其实比运筹算法要简单,更偏重应用场景,更多的时间在做特征工程

机器学习算法里基本都有用到二阶特性(牛顿法要求hessian矩阵),都是一阶的(如梯度下降)

大规模学习来说,障碍往往在于算法的计算能力不足,而不是数据不够,所以也可以说传统额统计学习方法都不适合大规模数据处理

在样本量比较多的时候,线性分类方法的劣势小很多,例如可以通过手工拆分/离散化特征来模拟非线性关系。而且有个经验是,在数据量大的时候,一些看起来粗暴无脑的方法反而有令人惊奇的效果。

SVM 计算复杂度O(n^2),存在两个超参数,只能通过穷举实验来求,计算时间要高于不少非线性分类器
随机森林 计算复杂度O(nlogn)

资源分享

时间

2018.05.08

内容

经典算法大全 密码 ce85

算法导论中文版.pdf 密码 2ygr

python资源分享 密码:ll7q

内容包括:《Python 2.7 Tutorial 中文版》《Python3程序开发指南(第二版)》《Python高级编程》《python核心笔记》《python核心编程第二版笔记》《Python技术手册(第2版)》《Python源码剖析》《quantsp研究计划书》《笨办法学Python》
by 小青年

工作感悟

时间

2018.05.12

内容

工作的意义

最近在思考一个问题,工作的意义,一份工作最终目的究竟不该是一份简单的工资,而是这个公司能赋予你的资源,另一个是这份资源的成果转换对于市场的冲击力,对人,对社会的贡献度,人终究是需要处理社会活动的。

职业背景和职业活动的限制,换句话说,工作本身是用来解决社会问题的,个人可能觉得只是天天码代码,做工作量,但它的成效简直太小了,一眼可以看到他的发展和未来。但如果说直面社会问题,去为解决问题而去选择走向,我个人理解人是会不去换不同的工作和行业,最终形成一套解决方案的,另一个角度,如果是为了盈利,这个解决方案的出发点一开始就是针对购买力的问题,你做的是服务和解决方案的路子。触手伸的越广,收益越大。

即使是办企业也一样,仔细去看每个企业的基本描述类似,但核心针对点不一样,不管是个人也好,企业也罢,需要求同存异,找出自己的突破点,这个时代不是靠努力,而是靠挖掘力,执行力。

by 道友 枫柚master

Spark persist(DISK_ONLY)产生的问题

时间

2018.05.30

内容

在Spark 的代码中增加persist(DISK_ONLY) 之后,会出现多个task failed,错误原因为container memoryOverhead

去掉persist(DISK_ONLY) 就不再报这个错误,没有task failed, 并且运行速度提升。
此外,对比每个stage的IO,发现DISK_ONLY的有部分stage的IO是去掉persist的两倍。

猜想原因

DISK_ONLY 是将不做序列化的对象直接存入DISK,这部分产生大量IO,会占用内存。

Spark中cache和persist的作用以及存储级别

Spark 代码优化

  • 使用更高效的数据结构 BitSet、OpenHashSet、OpenHashMap
  • inline
  • 一些汉字字符串,做维表映射之后,变成数字编号

Spark 高效数据结构

人工智能主要三块 大数据、NLP、CV

分布式发号器选择方案

  • UUID
  • DB
  • SnowFlake

你可能感兴趣的:(群内2018_5月讨论整理)