短视频系统及大数据推荐机制

1.短视频成为风口的必要因素

三个商业维度决定了短视频已经成为主流，分别为网络流量趋势，信息高效传达，变现价值能力。这三个方面的分别为平台，用户，创作者满足了各取所需的形态，这是实际价值的存在点。
网络流量趋势顾名思义，则是网络平台的唯一KPI。网络平台拥有越多的活跃用户就越证明该平台的成功，每一个网络巨头无一例外都是利用自身的流量，获取市场的广告效益，所以平台只有拥有流量才会成为具有实际价值的平台。
信息高效传达则是针对用户而言，能够在网络平台上获取到自己需要的信息更高效的方式。无论是娱乐，财经，体育，知识，消费各方面的视频内容都是对网络1.0时代以图文为主的博客，新闻知识获取渠道的升级。视频的每一帧都可能涵盖成百上千字的文字内容，在这个数据爆炸的时代，提高获取内容成本是对用户的一次体验升级。
变现价值能力，这是对于创作者的努力创造优质内容的原动力。这三者的高效配合形成一个正向循环齿轮，这样蛋糕就会越做越大。
我个人认为一个优秀的短视频平台需要具备以下3个方面：
(1).视频的实时性，热点性，个性化推荐
(2).检索提取干货信息，作为更高效的搜索引擎
(3).有娱乐性，实用学习性，传播性

2.大数据推荐算法

2020年8月份科技部明确指出将基于数据分析的个性化服务推送服务技术列为限制出口名单，这必然会让大家联想到最近抖音海外版Tiktok的出售风波。因为推荐算法一般是根据海量app用户信息经过核心算法服务进行建模计算出来的。这里面包含大量用户隐私数据，核心算法技术积累，所以在目前初步人工智能时代，算法的重要程度在日益加重。

2.1机器学习初步认识

说到推荐算法则不得不说到机器学习，在抖音熱門推荐区推荐的视频都是通过对每个用户进行建模后根据权重进行个性化推送的，平台也会通过计算点赞概率影响排序顺序，然后推荐给用户。用数学来表示的话：

概率预测：F（点击 | 用户 ，视频，环境）

针对已知用户，视频和环境和未知行为，比如点击去预测它产生的概率，这就是推荐算法的核心。

2.2 推荐算法的核心

(1).特征X：用户，视频，环境
比如用户年龄就可以作为特征，根据不同年龄进行特定内容推送，越多的特征可以帮助更好的帮助我们去给他们挑选感兴趣的内容。更多的用户特征也可以从用户的手机型号，来自哪里，收藏内容标签，观看停留时间，兴趣标签；当然也可以从视频内容获取特征信息，视频标签，用户评论信息提取，视频类别，视频的平均点击率，弹幕内容，评论量，转发量；用户在什么样的环境中看到的视频，白天或者晚上，使用手机看到的还是电脑看到的。很多做推荐算法的工程师会花很多时间用在制作一些特征的工程，用机器去实现用户的标签或者视频内容的理解，这部分是构成了推荐算法很重要的一部分。等到我们的特征准备完毕，就可以作为我们的输入去送给我们的模型，也就是Fx函数。
(2).构建模型F（y|x）
目前主流市场上有2种模型，第一种是基于树的模型，就比如说决策树。在实际的推荐算法工程里，这个决策树模型可以制作得非常深，并且根据板块门类的划分也可能不止一颗树，可能是很多树构成，相关树之间通过关联主键进行连接，一起加权构成了一个决策树的森林，它们会合在一起去做一个推荐算法，模拟计算Fx函数。另一种模型是基于神经网络去做的一些数据的拟合。（模型见图1）

图1

第二种是基于人工神经网络（Artificial Neural Networks）简称连接模型（Connection Model），它是一种模仿动物神经网络行为的特征，进行分布式并行星系处理的算法数学模型。这种网络以考系统的复杂度，通过调整内部大量节点之间的相互关连的关系，从而达到处理信息的目的。神经网络是一种数据挖掘的方法，不仅可以使用与决策树大体相同的方式预测类别或分类，而且还能更好的确定属性之间的关联强度（模型见图2）。通常构建神经网络模型个人比较推荐RapidMiner，通过Excel或者DB导入各类不同属性的分类数据，比如医院里病人的血脂，体重，体温等各类指标数据，然后进行流程连接并设置条件，最终得出神经网络数据结果。

图2

图3

图4

图5

(3).制定目标Y
需要预测的位置行为Y指的就是推荐权重，通过一系列数据计算得出这类视频是否适合推荐给用户观看。

推荐分 = （点击率+播放率+评论率+转发率+收藏率+弹幕量......）* 各自权重

这也是很多短视频平台，一直以综合互动量为考核内容创作的最终指标。

2.3 机器学习中的数据集训练原理

机器学习算法其实就是普通算法的进化版。通过自动学习数据规律，让你的程序变得更聪明些。这里举一个生活中的案例说明这一点，某天你去买芒果，小贩摊了满满一车芒果，你一个个选好，拿给小贩称重，然后论斤付钱。自然，你的目标是那些最甜最成熟的芒果，那怎么选呢？你想起来，外婆说过，明黄色的比淡黄色的甜。你就设了条标准：只选明黄色的芒果。于是按颜色挑好、付钱、回家。

image.png

机器学习算法其实就是普通算法的进化版。通过自动学习数据规律，让程序变得更聪明些。那么如何让程序变得更聪明一些喃？则需要利用算法进行数据训练并在过程中对数据预测结果集进行效验。

机器学习中算法分类的学习方式汇总

根据数据类型的不同，对一个问题的建模有不同的方式。在机器学习或者人工智能领域，人们首先会考虑算法的学习方式。在机器学习领域，有几种主要的学习方式。将算法按照学习方式分类是一个不错的想法，这样可以让人们在建模和算法选择的时候考虑能根据输入数据来选择最合适的算法来获得最好的结果。

监督式学习：

在监督式学习下，输入数据被称为“训练数据”，每组训练数据有一个明确的标识或结果，如对防垃圾邮件系统中“垃圾邮件”“非垃圾邮件”，对手写数字识别中的“1“，”2“，”3“，”4“等。在建立预测模型的时候，监督式学习建立一个学习过程，将预测结果与“训练数据”的实际结果进行比较，不断的调整预测模型，直到模型的预测结果达到一个预期的准确率。监督式学习的常见应用场景如分类问题和回归问题。常见算法有逻辑回归（Logistic Regression）和反向传递神经网络（Back Propagation Neural Network）

非监督式学习：

在非监督式学习中，数据并不被特别标识，学习模型是为了推断出数据的一些内在结构。常见的应用场景包括关联规则的学习以及聚类等。常见算法包括Apriori算法以及k-Means算法。

半监督式学习：

在此学习方式下，输入数据部分被标识，部分没有被标识，这种学习模型可以用来进行预测，但是模型首先需要学习数据的内在结构以便合理的组织数据来进行预测。应用场景包括分类和回归，算法包括一些对常用监督式学习算法的延伸，这些算法首先试图对未标识数据进行建模，在此基础上再对标识的数据进行预测。如图论推理算法（Graph Inference）或者拉普拉斯支持向量机（Laplacian SVM.）等。

强化学习：

在这种学习模式下，输入数据作为对模型的反馈，不像监督模型那样，输入数据仅仅是作为一个检查模型对错的方式，在强化学习下，输入数据直接反馈到模型，模型必须对此立刻作出调整。常见的应用场景包括动态系统以及机器人控制等。常见算法包括Q-Learning以及时间差学习（Temporal difference learning）