人工智能与用户画像

人工智能与用户画像

一、前言

本文初衷是想尽可能简单的介绍一下深度学习/机器学习训练的基本过程,然后以此为基点解剖分析用户画像技术。

尽管深度学习是一个比较复杂难懂的技术,但复杂的部分主要在于神经网络或者各类算法,对于其大概的框架,以及期间向量的流动还是很简单的。因此想尽可能简单的做一个科普介绍,但是写的过程中发现所涉及的点太多,写着写着就感觉写的比较啰嗦。希望有兴趣的人读完吧。

tip:本文资料来源于网络。如文中存在技术问题,欢迎指出。

二、人工智能

人工智能的研究领域十分丰富,其中包括计算机视觉、自然语言处理、推荐系统等。我们在电影中看到的人工智能多半在描述强人工智能,而这部分目前来说还是难以实现。目前人工智能的工作集中在弱人工智能部分,只需要让机器具备一定的感知和观察能力,并做到一定程度的理解和推理。弱人工智能目前取得如此突破,这主要归功于一种实现人工智能的方法——机器学习。

本部分意在说明深度学习和机器学习的基本原理,以便读者能够从技术方面正确看待深度学习和机器学习任务。

1.机器学习——一种实现人工智能的方法

机器学习最基本的做法,是使用算法来解析数据、从中学习,然后对真实世界中的事件做出决策和预测。与传统的为解决特定任务、硬编码的软件程序不同,机器学习是用大量的数据来“训练”,通过各种算法从数据中学习如何完成任务。

机器学习直接来源于早期的人工智能领域,传统的算法包括决策树、聚类、贝叶斯分类、支持向量机、EM、Adaboost等等。从学习方法上来分,机器学习算法可以分为监督学习(如分类问题)、无监督学习(如聚类问题)、半监督学习、集成学习、深度学习和强化学习。

2.深度学习——一种实现机器学习的技术

深度学习是用于建立、模拟人脑进行分析学习的神经网络,并模仿人脑的机制来解释数据的一种机器学习技术。

深度学习经典的神经网络模型有CNN、RNN,LSTM,Transform。

3.二者区别

本文档旨在理解用户画像中人工智能技术的使用,因此对于深度学习和机器学习下面不在做区分。目前来说对于大部分人工智能任务,深度学习的表现要优于机器学习。

但深度学习对数据的依赖性过大,不仅要求大量的高质量数据。同时还会存在过拟合和欠拟合现象,在实际场景中的应用可能与验证的效果相差颇多。

对于某个特定任务,不论是机器学习还是深度学习都分为输入层,处理层以及输出层三个层面,且内部都是较为复杂的数学逻辑。深度学习任务模块如下,数据经过向量化处理后,输入到处理层,处理层通过各种算法将向量带有的特征进行放大等操作,得到符合我们目的的特征向量。最后输出层对处理层得到的特征向量进行相应的解码,得到与我们的业务匹配的结果。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-vueWACEt-1629364824500)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\image-20210819142806406.png)]

但这样的过程只是单向的,所得到的结果可能效果并不好。因此我们需要使用一部分带有正确结果的数据进行验证,根据验证的结果来对我们的模型参数进行修改。这样进行验证的数据我们叫做验证集/测试集。通过多次的重复处理层的操作,我们得模型会在其中不断地调整参数,直至在验证集上的结果趋于稳定。这样的过程我们叫做模型训练。

深度学习/机器学习十分依赖于数据。一般来说我们在工作中将数据分成训练集,验证集,测试集。训练集数据用于进行训练模型,而验证集/测试集则用来对训练集训练出的模型进行验证。通过多次重复训练过程,不断调整参数,让模型的能力达到最优。

4.过拟合与欠拟合

深度学习/机器学习中,最终的模型结果会存在过拟合和欠拟合的现象。过拟合和欠拟合都指的是模型的泛化能力的问题。

过拟合:模型结果太依赖于训练数据。就是太过贴近于训练数据的特征了,在训练集上表现非常优秀,近乎完美的预测/区分了所有的数据,但是在新的测试集上却表现平平,不具泛化性,拿到新样本后没有办法去准确的判断。

欠拟合:模型结果不依赖于训练数据。欠拟合的情况下,模型在训练集表现差,在测试集表现同样会很差。

欠拟合和过拟合现象是深度学习常见的问题。这是技术层面的问题,技术方一般也不会让测试集上,测试结果太低的模型上线的。解决欠拟合和过拟合核心的方法是调整数据,一般可以通过数据增强的数据手段尽心改善,总的来说就是增大数据数量,提高数据质量,引入脏数据。除此之外,还可以通过一些优化算法进行解决。

三、用户画像

1.什么是用户画像

用户画像是近几年随着大数据推出的一个新词。主要核心在于对用户的一系列数据进行分析,最终给用户进行标签分类的工作。下图是电商行业用户画像的技术图。原始输入层是用户留在后台的这些数据,通过对这些数据进行建模,可以分解为事实层的这一类数据。经过技术手段处理后,我们在业务层面可以将用户进行分类。这就是用户画像的基本原理。

用户画像的标签选取工作是从业务层开始进行选取的。根据业务的需求,将客户制定成几类需要的类别(画像)。然后依次根据这些进行反推,看这些类别需要哪些数据指标进行支撑。最终选取出具体的后台指标,然后依次从下往上进行训练。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-VbeciKfa-1629364824502)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\image-20210819163353872.png)]

2.用户画像与深度学习

从技术的角度来看用户画像如下图所示,不同于简单的深度学习项目,用户画像中涉及的技术手段很多,同时可以选择的技术手段也很多。但总的来说符合“输入-处理-输出”的结果

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-KCBxULQp-1629364824505)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\image-20210819164132288.png)]

资料来源:

  1. https://blog.csdn.net/zzhhoubin/article/details/79727130
  2. https://www.zhihu.com/question/57770020
  3. 大数据在互联网金融用户画像中的应用研究_李梅茵
  4. 基于金融科技的证券业财富管理数字化转型研究_陈诗怡

uestion/57770020
3. 大数据在互联网金融用户画像中的应用研究_李梅茵
4. 基于金融科技的证券业财富管理数字化转型研究_陈诗怡

你可能感兴趣的:(人工智能,算法,大数据,机器学习,python)