大数据的机会和挑战:从数据分析角度的讨论 读书笔记

1:论文链接: http://www.soft-computing.de/CIM_BD.pdf
2:该论文由4名作者分别从自己的领域来阐述对大数据目前的一个机遇和挑战的分析,在前面已经说了很多的,这不是一篇关于大数据的survey,而是分别从自己的研究角度来说一些问题。周志华老师从机器学习角度来说
3:周志华老师主要说了3个错误的认识、机会和挑战
  1. 第一个错误的认识“模型不在重要”,周老师给出了一幅图,来说明,模型在大数据中还是很重要的,很难说清楚简单的模型在大数据下效果也很好,复杂的模型在大数据下效果可能还是优于简单的模型的。
  2. 第二个错误的认识“发现数据中的相关性已经足够了”,这点很容易理解到,相关性不是因果性,举了个例子:比如一个地区的偷车贼和医院数量正相关,但是你不能靠减少医院数量来控制偷车贼的数量,要严格去研究数据,去发现他们的因果关系,这样才能好好地利用数据产生正确的分析、判断的依据。
  3. 第二个错误的认识“之前的老方法不再凑效”,周老师同样说了下,很多之前的老方法还是凑效的,可以改进,但是不能完全抛弃,比如多年前提到的并行运算等,现在还是很适用的
  4. 在机会和挑战中,我脑子中留到的不多,只有2句话比较印象深刻,第一句是:大数据对于机器学习的一个贡献就是让模型的过拟合现象减少,第二句是:大数据分析中的隐私问题比较重要。
4:从数据挖掘角度来看:
         大数据在数据挖掘方面 带来的方面是
  1. 并行计算和分布式架构
  2. 从流数据中进行学习(因为数据产生速度快,一直在产生速度,需要这种学习算法)
  3. 数据的多样性,对于数据挖掘也是个挑战,之前做的都是单一来源的数据。把多种的输入数据,整合到一个输入数据中。
  4. 把现有的传统方法在大数据上做benchemark

         挑战
  1. 要理解该数据的领域
  2. 发展新算法
  3. 集成各种算法有点在一起来mining data
  4. 要对数据进行分析和发现

你可能感兴趣的:(大数据的机会和挑战:从数据分析角度的讨论 读书笔记)