中级经济师经济基础部分考点梳理(11)

-写给报考中级经济师的小伙伴们

 

2022年10月25日 周二 深圳 晴1113/1000 

【主题】经济学常识

【字数】1349

(接昨天)

第23章“统计与统计数据”的第十个考点,也是这一章最后的1个考点。部分内容是2022年教材新增内容。


第十个考点:数据科学与大数据

1、数据科学的含义

数据科学是一门通过系统性研究获取与数据相关的知识体系的学科。


2、研究的对象

数据科学研究的是从“数据”集合成“信息”进而组织成“知识”的整个过程。包含对数据进行采集、存储、处理、分析、表现等一系列活动。数据科学研究对象是数据,研究目标是获得洞察力和理解力,通过对数据的分析来解释、预测、洞见和决策,为现实世界服务。


3、大数据具有“4V”特性

A、数据量大(Volume)

B、数据多样性(Variety)

结构化数据,可以用二维表结构实现表达的数据。如,ERP系统,教育一卡通。

非结构化数据,数据结构不规则或不完善,没有预定义的数据。如,文档、图表、报表、音频信息、地理位置等

半结构化数据,介于完全结构化数据和完全非结构化数据之间的数据。如,邮件,员工建立。

(注意:2022版教材没有出现结构、半结构和非结构的概念,之所以仍然分享在此,是估计题库内有该类题目)

C、价值密度低(Value),价值密度的高低与数据总量的大小成反比。在连续不间断的监控中,有用数据可能仅有1、2秒。

D、数据产生和处理速度快(Velocity),符合“1秒定律”。

以上4V是根据英文单词的首字母来定的。


4、数据挖掘

含义:是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐藏在其中但又有潜在价值信息和知识的过程。核心任务是对数据关系和特性进行探索。


含义包含4层:

A、数据源必须是真实的、大量的、有噪声的。

B、发现的是用户感兴趣的知识。

C、发现的知识是可接受、可理解、可运用的。

D、并不要求发现放之四海而皆准的知识,仅支持特定的发现问题。


5、数据挖掘以解决时间问题为出发点

融合了很多学科领域的知识,核心任务是对数据关系和特征进行探索。常见的数据挖掘方法可分为:监督学习、无监督学习、半监督学习。


A、监督学习

根据已有的数据集,训练出模型可以根据自变量数据得到因变量预测结果的过程。监督学习中有2大类典型任务。

1是分类。通过特征变量确定观察单位所属类别,因变量是分类变量。如,根据用户满意度、财务信息判断用户合约到期后是否会续约。


2是回归。通过特征变量确定观察单位因变量的取值,因变量是定量变量。如,根据钻石的克拉数、颜色、切割工艺等信息预测钻石的价格。

B、无监督学习

主要任务是探索数据之间的内在联系和结构。无监督学习中有2大类典型任务。

1是聚类。就是把一组数据按照相似性和差异性分为几个类别,使得同类型数据相似性尽可能大,不同类数据相似性尽可能小,跨类的数据关联性尽可能低。常用于客户细分、文本归类、结构分组、行为跟踪等。如,通过聚类分析将网购客户划分为互不相交的客户群,以便为不同的客户群推荐不同的目标商品。


2是降维。也称为特征提取,指在不损失过多的信息的前提下将N个相关的特征降为k个不相关的特征(k


C、半监督学习

监督学习与无监督学习相结合的一种学习方法。


至此,经济基础23章的全部考点分享完成。明天继续分享24章。

你可能感兴趣的:(中级经济师经济基础部分考点梳理(11))