数据驱动的复杂系统分析-1 课程扩展

文章目录

  • 1、新基建
  • 2、图灵测试
  • 3、sql语言
  • 4、专家系统
  • 5、数据(没想好起什么名字)
  • 6、监督学习/无监督学习
  • 7、建模流程
  • 8、滤波
  • !还未修改的内容

1、新基建

新基建:新型基础设施建设(简称:新基建),指以5G、人工智能、工业互联网、物联网为代表的新型基础设施,本质上是信息数字化的基础设施。

新基建分析文章:

来源:雷锋网 作者:刘琳
https://www.leiphone.com/news/202003/T4xAYAryGUBzq7PB.html

2、图灵测试

如果一个人(代号C)使用测试对象皆理解的语言去询问两个他不能看见的对象任意一串问题。对象为:一个是正常思维的人(代号B)、一个是机器(代号A)。如果经过若干询问以后,C不能得出实质的区别来分辨A与B的不同,则此机器A通过图灵测试。

图灵测试与人工智能文章:

https://www.microsoft.com/en-us/research/wp-content/uploads/2014/08/%E5%9B%BE%E7%81%B5%E6%B5%8B%E8%AF%95.pdf

图灵测试的核心想法是要求计算机在没有直接物理接触的情况下接受人类的 询问,并尽可能把自己伪装成人类。

3、sql语言

Structured Query Language:结构化查询语言,就是操作数据库的语言

4、专家系统

来源:https://hub.xkool.ai/index.php?app=weiba&mod=Index&act=postDetail&post_id=96*

来源:https://www.tutorialspoint.com/artificial_intelligence/artificial_intelligence_expert_systems.htm

专家系统内部可以简洁地描述为由两大部件组成:知识库(Knowledge Base)与推理机(Inference Engine)。
(1)它们代表和操纵的是知识而不是数据。
(2)它们使用试算解法程序而不是算法程序来解决问题。
(3)它们使用推论法而不是常规程序的重复过程来解决问题。

专家系统是一个程序,它使用源自专家知识的逻辑规则来回答问题或解决有关特定知识领域的问题。
数据驱动的复杂系统分析-1 课程扩展_第1张图片

5、数据(没想好起什么名字)

  • 数据data
    很多都是数据,不单单只数字。
    比如:表上数据 tableau data、音频数据、图像数据等

  • 标签label
    自变量叫做特征feature,因变量叫做标签label。
    变量是一组数据,包含特征和标签两个部分

  • 变量variable

  • 特征变量feature

  • 模型model
    模型是基于哪种理论构建数据和特征之间的关系

  • 参数/超参数

    参数:
    模型参数是模型内部的配置变量,其值可以根据数据进行估计。
    1、模型在进行预测时需要它们。
    2、它们的值定义了可使用的模型。
    3、他们是从数据估计或获悉的。
    4、它们通常不由编程者手动设置。
    5、他们通常被保存为学习模型的一部分。

    参数是机器学习算法的关键。它们通常由过去的训练数据中总结得出。

    超参数:
    模型超参数是模型外部的配置,其值无法从数据中估计。
    1、它们通常用于帮助估计模型参数。
    2、它们通常由人工指定。
    3、他们通常可以使用启发式设置。
    4、他们经常被调整为给定的预测建模问题。

    我们虽然无法知道给定问题的模型超参数的最佳值,但是我们可以使用经验法则,在其他问题上使用复制值,或通过反复试验来搜索最佳值。

    模型参数是根据数据自动估算的。但模型超参数是手动设置的,并且在过程中用于帮助估计模型参数。

    参数:可以拟合出来的
    超参数:没有合理的估计办法

  • 训练train

    训练和测试是机器学习特有的

  • 测试test

  • 预测predict

  • 评价指标measure

6、监督学习/无监督学习

  • 监督学习(Supervised Learning)

    监督学习所占比重最大。

    监督学习是通过已有的数据集(可简单理解为根据(x,y)得到回归方程,之后已知x便可以预测出y)得到一个最优模型,再利用这个模型将所有的输入映射为相应的输出,对输出进行简单的判断从而实现分类的目的,也就具有了对未知数据进行分类的能力。

    它从有标记的训练数据中推导出预测函数。

    而历史数据则属于监督的部分。

  • 无监督学习(Unsupervised Learning)

    简单讲,就是给你一组数据,然后不告诉你有关数据的任何正确答案。然后问你:“你能在这些数据中找到一些有趣的结构吗?” 这就是无监督学习问题。

    它与监督学习的不同之处,在于我们事先没有任何训练样本,而需要直接对数据进行建模。譬如聚类分析,把相似的数据聚在一起。

  • 半监督学习(Semi-Supervised Learning,SSL)

    半监督学习是模式识别和机器学习领域研究的重点问题,是监督学习与无监督学习相结合的一种学习方法。
    (使用效果存疑)

  • 强化学习(Reinforcement learning)

    数据集为(),即没有数据集,需要算法需要尝试还有探索,目标是优化整个探索过程使其得到尽可能高的reward。

    强化学习中,重要的是策略,即达到目标的正确动作的序列。不存在中间状态中最好动作这种概念。如果一个动作是好的策略的组成部分,那么该动作就是好的。这种情况下,机器学习程序就应当能够评估策略的好坏程度,并从以往好的动作序列中学习,以便能够产生策略。

    在强化学习背后的一个基本概念是一个称为回报函数的概念。

    当训练一只狗,每次狗做了一些你满意的事情,你就说一声“Good boy” 然后奖励它。每次狗做了something bad 你就说 "bad dog ",渐渐的,狗学会了做正确的事情来获取奖励。

    强化学习的关键是,找到一种方式来定义什么是正确的。如果定义正确的行为,和不好的行为,通过学习算法来获取更多的回报和更少的惩罚。

来源:https://blog.csdn.net/Baron_hbx/article/details/79177385

7、建模流程

数据驱动的复杂系统分析-1 课程扩展_第2张图片

8、滤波

用来处理不确定时间序列的

参考:https://vitu.ai/community/research/80911025309795456

!还未修改的内容

一个data science coordinate system通常在表数据和时间序列上做文章。

一个常用的数据建模流程:(是一个闭环)
数据驱动的复杂系统分析-1 课程扩展_第3张图片
初始情况分布:有一些极端的特征是不能要的。

数据预处理:其中的数据清洗在实践中非常重要。

特征工程:(非常重要,但很多书都不会讲)包括特征有效性分析、特征选择、特征组合与变换。

特征有效性分析:主要是对feature进行分析。
特征选择:人工的删掉一些东西。
特征的组合与变换:类似于回归里做交叉项,看看变量间有没有交互作用。(实际上要复杂的多,要对数据进行加列。)

交叉验证:
线性回归结果分析:
显著性检验:自变量和因变量之间会不会有显著的影响。不显著不代表没有影响,而是这个影响是没有意义的

R方,表示是紧的团结在周围,还是散的团结在周围,R方越大越可以很好的表现出线的趋势。R方要在0.5,0.6以上。

标准化系数,表示线的斜率,表示自变量对因变量的影响程度。

下一次课要展示广义线性模型,机器学习的人关心这个模型能否预测对,实用主义。

以交叉验证为代表,并且针对不同类型的问题有不同的指标。 背后的思路与统计学模型不太一样。

模型调优:调整超参数,一些宏观的设置看能不能让结果更好,一直试,如果结果好,模型就可以拿来用了。

如果中间出现问题,就可以用特征监控等方式。(但实际上很难用)

你可能感兴趣的:(数据驱动的复杂系统分析)