《数据挖掘与大数据分析》是学校为大二计科学生安排的一门前沿技术入门课程
这门课程在学长们那里有非常好的口碑 我也感觉这是很有意义的一门课程!
所以——
我开始每节课进行课堂笔记的记录并且查询一些课程相关的的知识点
一并记录在文章中
1.为了让自己更好地上好这门宝贵的课程
2.也是为了分享给大家 大家一起学习 互相监督~
对数据挖掘这方面感兴趣的小伙伴 快来一起学习嗷~
冲哦!
大数据是互联网的海量数据挖掘 需要分析的是趋势和发展
数据分析就是进行做出针对性的分析和诊断
数据挖掘更多是针对内部企业行业小众化的数据挖掘 主要发现的是问题和诊断
1.大数据(名词)指:
无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合
2.在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》 中大数据指:
不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。
3.大数据的5V特点(IBM提出):
Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)、Veracity(真实性)
1.数据分析(动词)是指:
用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。
2.在实用中,数据分析可帮助人们作出判断,以便采取适当行动。
3.数据分析的数学基础在20世纪早期就已确立,但直到计算机的出现才使得实际操作成为可能,并使得数据分析得以推广。
4.数据分析是数学与计算机科学相结合的产物。
1.数据挖掘(动词)一般是指:
从大量的数据中通过算法 搜索 隐藏于其中信息的过程。
2.数据挖掘又译为资料探勘、数据采矿。它是数据库知识发现(Knowledge-Discovery in Databases,简称:KDD)中的一个步骤。
3.数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。
1.大数据是范围比较广的数据分析和数据挖掘。
2.按照数据分析的流程来说,数据挖掘工作较数据分析工作靠前些,二者又有重合的地方。
——数据挖掘侧重数据的清洗和梳理,是初步阶段。
——数据分析则处于数据处理的末端,是最后阶段。
3.数据分析和数据挖掘的分界、概念比较模糊,(模糊的意思是二者很难区分。)
4.大数据概念更为广泛,是把创新的思维、信息技术、统计学等等技术的综合体。
每个人限于学术背景、技术背景,概述的都不一样。
理论知识学习 & 完成实验加深印象
如果对这个课题感兴趣的话 可以做一些研究 发表论文
老师笑着说——
计算机论文的大水坑 好多其他专业的朋友们都喜欢来发(shui)一发(shui)论文
容易出成果嘛
包括 数据挖掘 和 大数据分析 两个主要部分
介绍 数据挖掘的主要挖掘任务(关联规则挖掘、分类、聚类、噪声监测)
介绍经典算法(介绍大数据分析的常见方法、思想及工具)
面向学科前沿,系统讲述数据挖掘和大数据分析的关键技术
为学生打下坚实的数据挖掘基石。
即为实验练习环节
这部分将在实验完成后慢慢更新到专栏中~
剔除掉不正常的数据
eg:检测淘宝刷好评的——
在间隔时间很近的时候有大量好评 这个要剔除掉
这一过程 就是 数据预处理
认识众多社会人士的老师调侃道——
搞技术开发的人员在成都一个月拿3w就算蛮高的
但是如果 你理解了大数据的这些个原理 出去搞业务 一个月拿4、5w 一年还有6位数的提成 唉~(笑)
所以啊 我建议同学们往业务方向发展
轻松 工资也高
就是需要原理理解好一些 出差多一些
当然需要口才好一些嘿嘿 得把项目说下来才有提成嘛~~~
这里提到的业务人员 根据老师的介绍 和 我的理解
就是——
在团队中负责 向 各个公司推销自己团队的产品
“做PPT的”
先讲数据——用第三方数据证明产品优秀:据xxx调查 我们的产品被xxx新闻报道 balabala
再去介绍自己的产品——主观地来说产品有啥优点
emmmmm…
这么看来 还是要好好学这门课嘛
(老师露出阴谋得逞的笑容[doge])
为什么大数据技术兴起?
移动设备——大数据可以同时追踪所有的目标 包括我们所有人的移动设备
社交媒体和网络——我们所有人都在制造数据
传统模式——少量公司生成数据&&其他人使用数据
新型模式——所有人都在生成数据&&所有人都在使用数据
eg:现在甚至80多岁的老人都在使用微信 生成数据
机器学习主要研究数据收集好了之后用什么算法去进行处理。
这部分的内容我在查阅部分资料后 总结在了下面链接中
大数据与机器学习之间的关系
简单来说 就是把数据矿山通过数据挖掘 得到有用信息~
这部分的内容我在查阅部分资料后 总结在了下面链接中
数据挖掘可以做到什么 带给我们什么?