buddha17

[置顶] 大数据分析技术方案

大数据分析技术方案

李万鸿

一.目标

现在已经进入大数据时代, 数据是无缝连接网络世界与物理世界的DNA。发现数据DNA、重组数据DNA是人类不断认识、探索、实践大数据的持续过程。大数据分析可以有效地促进营销,个性化医疗治病，帮助学生提高成绩,利于老师提高教学水平,还可以用于教学，许多产品可以用到大数据技术，如量化分析金融产品等。必须加强大数据技术的研究并实际应用.这里对目前最流行和最实用的用户画像技术进行讲解，并分析大数据分析的常用算法。原文有大量图片，完整文档见百度http://pan.baidu.com/s/1i4x57oD

二.用户画像

1. 定义

用户画像指根据用户的特性和行为数据建立标签，准确描述用户的特点，支持对用户的精准营销等活动。用户画像，即用户信息标签化，就是企业通过收集与分析消费者社会属性、生活习惯、消费行为等主要信息的数据之后，完美地抽象出一个用户的商业全貌作是企业应用大数据技术的基本方式。用户画像为企业提供了足够的信息基础，能够帮助企业快速找到精准用户群体以及用户需求等更为广泛的反馈信息。

大数据用户画像其实就是对现实用户做的一个数学模型，在整个数学模型中，其核心是，怎么描述业务知识体系，而这个业务知识体系就是本体论，本体论很复杂，我们找到了一个特别朴素的实现，就是标签。建好模型以后，要在业务的实践中去检验，并且不断完善，不断丰富这个模型，来达到利用比特流对人越来越精确的理解。用户画像不是一个数学游戏，不是一个技术问题，实际上是一个业务问题。因为最核心的是你去如何理解用户，了解你的用户。它是技术与业务最佳的结合点，也是一个现实跟数据的最佳实践。

一个画像样例：基于他这个人可以知道他所在的城市是在北京，男性，公司在百分点，喜欢的品类是男鞋、运动鞋，喜欢的品牌有耐克、阿迪达斯等等。每一个标签都有一个权重值。可以看到，耐克的权重值比阿迪达斯更高一些。

2用户画像方法

用户画像的焦点工作就是为用户打“标签”，而一个标签通常是人为规定的高度精炼的特征标识，如年龄、性别、地域、用户偏好等，最后将用户的所有标签综合来看，就可以勾勒出该用户的立体“画像”了。

具体来讲，当为用户画像时，需要以下四个阶段：

1.战略解读：企业选择构建用户画像平台，可以实现不同的战略目的，如提升产品服务质量、精准营销等。根据战略目的的不同，用户画像的构建也有所区别。因此首先需要明确用户画像平台的战略意义、平台建设目标和效果预期，进而有针对性的开展实施工作。

2.建模体系：对用户画像进行数据建模，结合客户实际的需求，找出相关的数据实体，以数据实体为中心规约数据维度类型和关联关系，形成符合客户实际情况的建模体系。

3.维度分解：以用户、商品、渠道三类数据实体为中心，进行数据维度分解和列举。根据相关性原则，选取和战略目的相关的数据维度，避免产生过多无用数据干扰分析过程。

4.应用流程：针对不同角色人员的需求（如市场、销售、研发等），设计各角色人员在用户画像工具中的使用功能和应用/操作流程。

用户画像平台的战略意义：

1.完善产品运营，提升用户体验：改变以往闭门造车的生产模式，通过事先调研用户需求，设计制造更适合用户的产品，提升用户体验。

2.对外服务，提升盈利：根据产品特点，找到目标用户，在用户偏好的渠道上与其交互，促成购买，实现精准运营和营销。

如何搭建用户画像平台？

公司应搭建一个用户画像平台，将本身拥有大量用户数据的数据平台和可视化数据工具平台连接起来，根据不同的用户交互场景，应用挖掘数据平台的价值，让研发生产，用户研究，市场营销等人员能够根据需要，随时自主地分析不同产品用户特征，快速洞察用户需求。该平台需要回答的核心问题是：

用户是谁?

用户需求是什么?

用户在哪里？

用户画像建模体系

完善的用户画像平台需要考虑周全的模型体系。通常来讲，构建用户画像平台所需的数据分成用户、商品、渠道三类实体。

1.用户：数据维度包括自然特征、兴趣特征、社会特征、消费特征。从数据特点上看，又可分为基本属性和衍生标签，基本属性包括年龄、性别、地域、收入等客观事实数据，衍生标签属于基本属性为依据，通过模型规则生成的附加判断数据。

2.商品：数据维度包括商品定位和商品属性。商品属性即商品的功能、颜色、能耗、价格等事实数据，商品定位即商品的风格和定位人群，需要和用户标签进行匹配。

3.渠道：渠道分为信息渠道和购买渠道。用户在信息渠道上获得资讯，在购买渠道上进行商品采购。不同类型的用户对渠道有不同的偏好，精准的选择对应的渠道才能提高效率和收益。

用户画像数据维度

针对每一类数据实体，进一步分解可落地的数据维度，形成字段集。

1.用户数据：

用户画像使用场景

场景一，按需设计：改变原有的先设计、再销售的传统模式，在研发新产品前，先基于产品期望定位，在用户画像平台中分析该用户群体的偏好，有针对性的设计产品，从而改变原先新产品高失败率的窘境，增强销售表现。比如，某公司想研发一款智能手表，面向28-35岁的年轻男性，通过在平台中进行分析，发现材质=“金属”、风格=“硬朗”、颜色=“黑色”/"深灰色"、价格区间=“中等”的偏好比重最大，那么就给新产品的设计提供了非常客观有效的决策依据。

场景二，精准营销：针对已有产品，寻找所偏好的精准人群分类，以及这些人群在信息渠道和购买渠道上的分布比例，来决定广告投放和活动开展的位置、内容等，实现精准营销。

用户画像平台技术方案

系统架构

从数据源到最终展现分成如下几层：

1.数据源：包括来自各个业务系统和媒介的分析数据源，其载体包括数据库、文件、大数据平台等。

2.数据建模：根据用户画像建模体系，配置数据模型。

3.数据集市：每个数据集市是基于一个主题做好轻量建模的细节数据，数据按照列存储的方式，被高效压缩，打好标签，存储在磁盘中。当需要计算时，采用内存计算来进行数据计算，并且每台机器节点会同时计算，最终会将结果送往可视化分析层做展现。

4.可视化分析：采用永洪敏捷可视化分析作为前端交互组件。无论是业务用户还是IT开发人员都可以通过主流浏览器来访问可视化分析系统，用户还可通过移动终端来访问系统。可视化分析系统提供系统监控，权限多级管理，多维数据分析，等等功能，还支持自服务式报表设计和数据分析。

可视化分析：敏捷可视化分析

3用户画像架构

百分点的画像标签体系包括：人口属性、上网特征、营销特征、内容偏好、兴趣偏好等。

以手机商品属性为例，包括品牌、品类、型号、上市时间、价格、颜色、网络、操作系统、分辨率、屏幕尺寸等等。

标签管理体系具有如下特性。

有多种标识方式对用户进行识别，这就像社会生活中的身份证号码一样，只不过换成了网络空间的手机号、Cookie、IMEI、Email、微博、微信账号等，在处理过程中，这些信息都是加密的，机器知道但人不知道。

百分点用户画像逻辑架构如下图所示，通过对电商、社区、移动应用、微博、微信等多种类别的数据源进行采集，然后对用户进行画像，最终在个性化推荐、用户洞察、精准营销等方面进行应用。百分点的数据源多且庞大，服务的客户超过了1500多家，覆盖行业超过了40多个。举例来说，一个网民，他在访问一个电商A，同时又访问了一个电商B，这两个电商本身的知识体系是不一样的。比如说这个用户他访问一双鞋，他在电商A上的品类可能是鞋-男鞋-运动鞋，在网站B上可能是运动-户外-男鞋，品类描述可能是不一样的。所以百分点打造了这么一个系统，叫商品画像系统。通过这个系统，所有的标签就有了一个标签规划，之后就可以去构建这个用户在全网的用户画像标签。用户画像只是一个起点，而不是一个结束。基于此，还可以打造一系列的服务，比如精准营销、个性化推荐等。

下图是用户画像的技术架构图。我们可以看到总共分为五层：第一是数据源；第二层是数据采集服务，百分点有一堆数据采集服务，包括我们的数据探头，能够对用户的行为进行一个实时采集；第三层是数据预处理，主要是结构化；第四层是商品画像，这一块都是我们的用户画像服务。我们可以看到用户画像是分两大块，实时处理更偏重于预测用户画像的需求，离线处理更偏重于用户的长期偏好；第五是统一的数据接口，还有就是集群，上面可以接入各种各样的应用。

下图是用户标签产出流程示例。

用户在互联网上的行为主要分为电商类、社交类和媒体类。每种行为差异很大，电商类行为包括浏览、搜索、添加购物车、收藏、支付等，而社交类则是点赞、转发、评论等。

接着下一步需要对页面标签进行抽取，在做这件事情之前需要训练模型，首先准备训练数据，通过标注和规则生成，再就是对于序列集做一个序列化处理。首先会得到一个弱模型，最终得到一个强模型，然后把自己的参数都保留下来。这个时候我们会加一个决策，如果说效果不太好的话，我们会进行下一轮的优化。当这个模型设置之后，我们就可以去做预测了。我们的预测总共分为四大块，包括输入、输入预处理、预测和产出。也就是说用户这个标签已经有了，这个标签对用户的信誉度是1还是0？这个时候就到了用户行为建模。用户行为建模的背后思想主要可以认为有两大块，成本越高行为权重越高，下单就比浏览更高一些，时间越近的行为权重越高，比如我今天看了一个手机，一定比我一周前看了一次电脑权重要高一些。我们可以按场景去分，首先是产生需求，再就是决策，然后是结束，百分点基于业务考虑，实行标签权重积累的机制。

这是我们的客户某航空公司的案例，项目目的是挖掘高价值旅客，希望通过分析旅客出行偏好优化运力资源。最终百分点帮他构建了5个标签大类，75个标签小类，数万个小标签，以下是当时的一些效果截图。

刚才讲的都是百分点已经做的事情，但是百分点做得还远远不够。接下来可能会在四大方面深入思考和实践：一是不同的场景，也就是说用户在家里和在办公环境下代表的偏好是不一样的；二是用户心理学特征，比如当一个用户看一件女装的时候，她这个时候是无聊去逛还是有目的的逛，反映在标签权重上是不一样的；三是让用户主动反馈反感点，我们强调了许多，一般都是在强调用户喜欢什么，但是用户不喜欢什么，我们做得还不够，我们应该让用户主动告诉我们他不喜欢什么，比如他不喜欢吃葱，他不喜欢吃羊肉串，这样我们预测的时候会准得多；四是用户的兴趣转移快速捕获，一开始我们使用的是一个半衰期的，而且按频率细分，我们是否可以按人去分？比如按访次去分？比如针对品类手机这个标签，对于手机发烧友，可能过了一年他依然会对手机比较感兴趣，但是对于像我这种，只有想购买的时候才去看，可能我两天不看，就表示这个兴趣已经衰减为零了。

4基于用户画像的精准营销

推荐系统的业务架构如下：

第一层是推荐业务活动层，把推荐结果展示给用户。

第二层是推荐算法层，包括用户画像推荐、情景推荐等。

第三层是索引层，对产品、用户数据建立索引，提高查询速度。

第四层是数据层，存储用户、产品及推荐基础数据如推荐模型。

1场景引擎：个性化的核心，判断用户处于哪个购物环节，有什么样的购物目标；

2规则引擎：业务的核心，结合用户、场景、算法输出数据和业务KPI，决定为用户推荐哪些内容；

3算法引擎：计算用户之间的相似度、商品之间的相似度、用户对商品的评分、用户分群、热门排行……，采用用户协同相关和商品协同相关算法，根据用户画像的数据进行推荐。

4展示引擎：将推荐内容以最佳的展示方式呈现在用户面前。

推荐主要是深挖用户潜在的购物兴趣或学习兴趣，在合适的时间推荐合适的商品，做到有的放矢，从而实现精准营销，提升转化率和效益。推荐的方法是，根据用户的短期兴趣采用用户意图引擎推荐商品，根据用户的长期兴趣采用用户画像引擎推荐商品，根据用户的潜在兴趣采用千人千面引擎基于用户协同相关算法推荐商品；根据合适的场景采用情景推荐引擎推荐商品，根据用户的购物周期采用反向推荐引擎推荐商品，根据最近热点和用户行为推荐商品。推荐可以用到许多方面，如：

根据用户和购买场景使用storm进行实时计算，给出推荐结果；对大量样本数据使用spark进行离线机器学习计算，产生模型，用于用户画像权重确定和实时计算。大规模批处理使用hadoop的mapReduce计算。对用户的搜索也可以使用用户画像和商品画像进行结果展示。用户的行为数据在变化，商品的信息也在变化，用户画像和商品画像需要定时进行修改，比如半个月或一个月。在hbase中对商品标签和用户标签等建有表保存数据，并根据这些数据用机器学习训练算法模型，模型结果保存在hbase，在具体推荐的时候取近一个月的数据带入模型进行计算，多种推荐结果根据规则计算后的到最佳的推荐结果，再用展示引擎显示给用户。计算的中间结果保存在hbase中。用户购买之后，商品和用户的标签要及时更新。通过用户画像精准营销可以把转化率提升30-500%。

用户画像的推荐算法：

用户画像的算法及其他算法都需要不断优化。

商品、用户的画像标签权重的计算公式如下：

主题标签的权重计算公式：

根据计算公式算出每个标签的weight。

5.推荐算法构建方法

1.计算权重系数ɑ

画像权重需要考虑时间、地点即网址、网页内容、事件即用户活动,如购买商品，下面是具体例子。

什么时间：时间包括两个重要信息，时间戳+时间长度。时间戳，为了标识用户行为的时间点，如，1395121950（精度到秒），1395121950.083612（精度到微秒），通常采用精度到秒的时间戳即可。因为微秒的时间戳精度并不可靠。浏览器时间精度，准确度最多也只能到毫秒。时间长度，为了标识用户在某一页面的停留时间。
什么地点：用户接触点，Touch Point。对于每个用户接触点。潜在包含了两层信息：网址 + 内容。
网址：每一个url链接（页面/屏幕），即定位了一个互联网页面地址，或者某个产品的特定页面。可以是PC上某电商网站的页面url，也可以是手机上的微博，微信等应用某个功能页面，某款产品应用的特定画面。如，长城红酒单品页，微信订阅号页面，某游戏的过关页。
内容：每个url网址（页面/屏幕）中的内容。可以是单品的相关信息：类别、品牌、描述、属性、网站信息等等。如，红酒，长城，干红，对于每个互联网接触点，其中网址决定了权重；内容决定了标签。

具体的权重计算公式是：

tag_tf为用户购买商品的成本，tag_action为用户活动，tag_attenuation为用户活动的时间也是衰减因子，n为用户购买商品所需要的时间。通过log和数据库的数据可以得到这些数据。

对画像权重的系数ɑ，需要采用逻辑回归的Cost Function进行计算。可以通过matlab来计算θ，确定一个标签的值，如价格{22,11,33，。。。}，然后带入公式进行计算。

逻辑回归的Cost Function可以表示为：

由于y只能等于0或1，所以可以将逻辑回归中的Cost function的两个公式合并，具体推导如下：

故逻辑回归的Cost function可简化为：

对于这个公式，这里稍微补充一点，注意中括号中的公式正是对逻辑回归进行最大似然估计中的最大似然函数，对于最大似然函数求最大值，从而得到参数(\theta\)的估计值。反过来，这里为了求一个合适的参数，需要最小化Cost function，也就是：

minθJ(θ)

而对于新的变量x来说，就是根据hθ(x)的公式输出结果：

与线性回归相似，这里我们采用梯度下降算法来学习参数θ，对于J(θ):

目标是最小化J(θ)，则梯度下降算法的如下：

对J(θ)求导后，梯度下降算法如下：

注意，这个算法和线性回归里的梯度下降算法几乎是一致的，除了hθ(x)的表示不同。

2．逻辑回归算法构建过程

根据用户的行为日志，建立用户的品牌偏好，并预测他们在将来一个月内对品牌下商品的购买行为。将这个问题转为一个二分类问题，可以采用现有的有监督的分类回归算法（逻辑回归、SVM、随机森林、GBRT）等，最后基于基本的算法模型进行模型融合。将训练集分为“购买过”跟“未购买过”两部分，分别训练，对预测集同样分为两部分，分别预测，最后两部分融合。

· 为了训练集和预测集的信息量差异，将不同时间尺度的训练集预测集分别训练预测，最后融合。

· 逻辑回归模型与树模型采用不一样的特征体系，使得融合效果更好。

解决步骤

· 构建特征

· 构建训练集和预测集

· 数据预处理

· 构建本地评估框架

· 模型融合

特征抽取

训练样本的基本形式是一对有交互的用户品牌对，我们对这样的用户品牌对提取特征。首先，从总的分类上分为用户的特征、品牌的特征、用户对这个品牌的特征；其次，考虑用户行为的周期性，从时间维度上分为最近一个星期、半个月、一个月等不同时间段的特征；然后，根据这次比赛给定的四种行为（点击、购买、收藏、购物车），从类型维度上去提取特征。在多维度考虑的基础上，主要提取的是点击数、天数、订单数这样的特征。

这次比赛的目的是由给定的数据去促进业务的提高，从数据到业务需要算法以及特征体系的驱动，在特征抽取的过程中，最本质的一点是要去让数据“贴合”业务，反过来就要求我们从业务指标出发提取特征。参照一些电商分析网站以及自己对业务的理解，诸如用户购买力、品牌购买成本、转化率、用户对品牌的忠诚度等等指标都可以从给定的数据集得以体现。典型的，比如如何衡量品牌的购买成本，可以使用购买该品牌的用户数、回头客的数量、平均每个回头客的回头次数等等来体现这个指标。

特征抽取的最后一部分主要是在之前特征体系的基础上做一些补充，主要有：

1. 比值类特征。主要是一些基本特征的相除，这个一般是具有直观含义的，比如用户购买某个品牌的次数除以用户总的购买次数，这可以体现这个品牌在用户整个购买行为中的地位。

2. 均值、方差类特征。主要是一些购买次数、活跃天数等统计值的平均值或方差，可以体现某些用户某些行为的平均水平或者波动情况。

3. 策略。Season1的时候更多的考虑通过策略来预测，Season2的时候把一部分策略转化为特征，比如最后一次购买之后的点击次数等。

模型训练

这次比赛我们团队主要使用并且起作用的模型有三个：逻辑回归、随机森林和GBRT，逻辑回归本质是一个线性模型，如果为了防止过拟合，可以添加正则化项；如果方便特征的筛选，可以使用逐步逻辑回归；逻辑回归在大数据量下精度会下降，可以通过添加大量的特征（比如哑变量的方式）来提高精度，这次比赛来看，跟随机森林和GBRT相比，逻辑回归单模型上存在天然的劣势。随机森林跟GBRT都是一种ensemble方法，随机森林是一种多棵决策树组合，最后bagging的方法；GBRT是一种boosting方法，每棵树学习的是上一棵树的残差。经过学习之后的LR分类器其实就是一组权值w0,w1,...,wm。

对于模型的训练我们团队主要有两点心得：

· 训练集和预测集的构造。我们通过前三个月提取特征，最后一个月标记来构造训练集；在预测的时候，我们使用四个月所有的行为构造预测集，跟训练集相比，时间尺度上不一样，但是这样会带来更多信息量、更多的用户品牌对，比三个月预测的效果好一些。在处理训练集和预测集时间尺度上不一致时，需要进行数据规格化处理，这里我们使用的是归一化方法（仅仅归一化时间尺度不一致的特征）。归一化方法对离群点比较敏感，这个过程中，需要对数据进行去噪，从而保证训练集跟预测集特征分布的一致性。去噪时，我们去除了异常点击量和异常购买量的用户品牌对。

· 健壮的本地测试。本地测试时，我们尝试过两种方法，一种是将原始的训练样本集划分，80%训练，20%用来本地测试，这种方法跟实际线上训练预测的关系不一样，并且训练集跟测试集的特征分布式一致的，很多问题不易察觉。另外一种方法，本地最后一个月有购买行为的用户品牌对用来测试，前三个月的数据按照线上训练预测的方式构造训练集跟预测集，这种方式时间跨度跟少一个月，但是正样本的数量以及跟线上实际情况很接近，我们主要使用这种方法来本地调参以及部分特征的调试。

首先需要获取最佳的评估参数，使得训练得到的LR模型可以获得最佳的分类效果。这个过程也可以看做是一个搜索的过程，即在一个LR模型的解空间内，如何查找一个与我们设计的LR模型最为匹配的解。为了达到能够获取对应的最佳LR模型，我们需要设计一种搜索策略，考虑按照什么样的准则去选择最优的模型。

如何选择最佳的LR模型，直观的想法就是通过预测模型的结果与真实值的匹配程度评价预测模型的好坏。在机器学习领域中，使用损失函数(loss function)或者代价函数(cost function)来计算预测结果与真实值得匹配程度。

选取了牛顿-拉斐森迭代算法以及L-BFGS算法作为LR模型的迭代算法。当学习算法迭代完成之后，我们可以获对应各个属性的权重。接下来的任务我们需要对现有属性与响应变量之间的显著性进行检验，针对已有的训练模型对应的属性集进行验证，删除显著性不符合阈值的特征。由于在构建风险函数的时候，使用了MLE方法，因此可以使用Wald Test对于计算得到的参数，进行显著性验证。在使用Wald Test之前，要确保期望值与评估值之间的差值符合正态分布。Wald统计变量的一般形式：

其中

表示评估值，表示期望值，表示评估值方差。在本次试验中我们将原假设设定为，即表示现有的属性与响应变量无相关性，因此本实验的Wald统计值可以表示为：

其中是实际估计的参数值，是的标准方差。由于Wald统计值对应卡方分布，因此可以利用卡方分布计算P值，如果P值大于指定的阈值，那么可以认为原假设成立，即该属性与响应变量是显著不相关，删除该变量，否则保存该变量。在实际的训练过程中，每次验证属性显著性的时候，只挑选P值最大与人为设定的阈值进行比较；如果选择的P值不大于阈值，那么模型训练完毕；否则删除选择的P值对应的属性，更新预测模型。重新学习更新后的预测模型，推测对应的权重值，然后再次对各个属性进行Wald Test验证。重复上面的过程，直到没有任何变量的Wald Test对应的P值都不大于人为设定的阈值为止。到此整个模型的训练过程结束。

可参考

三.常用算法

大数据有许多数据挖掘的经典算法，涉及到了决策分类，聚类，回归、链接挖掘，关联挖掘，模式挖掘等等方面。其中经典十大算法为：C4.5，K-Means，SVM，Apriori，EM，PageRank，AdaBoost，KNN，NB和CART。一般数据挖掘算法分为两种，有监督和无监督算法，其中有监督算法主要有逻辑回归、决策树、神经网络等，无监督学习主要包括聚类、最邻近距离、支持向量机等。一般需要综合运用多种算法进行分析，运用较多算法的有逻辑回归、SVM、K-Means、NLP自然语言理解等。

1.C4.5算法。C4.5算法与ID3算法一样，都是数学分类算法，C4.5算法是ID3算法的一个改进。ID3算法采用信息增益进行决策判断，而C4.5采用的是增益率。

详细介绍链接：http://blog.csdn.net/androidlushangderen/article/details/42395865

2.CART算法。CART算法的全称是分类回归树算法，他是一个二元分类，采用的是类似于熵的基尼指数作为分类决策，形成决策树后之后还要进行剪枝，我自己在实现整个算法的时候采用的是代价复杂度算法，

详细介绍链接：http://blog.csdn.net/androidlushangderen/article/details/42558235

2. KNN(K最近邻)算法。给定一些已经训练好的数据，输入一个新的测试数据点，计算包含于此测试数据点的最近的点的分类情况，哪个分类的类型占多数，则此

4. 测试点的分类与此相同，所以在这里,有的时候可以复制不同的分类点不同的权重。近的点的权重大点，远的点自然就小点。

详细介绍链接：http://blog.csdn.net/androidlushangderen/article/details/42613011

4.NaiveBayes(朴素贝叶斯)算法。朴素贝叶斯算法是贝叶斯算法里面一种比较简单的分类算法，用到了一个比较重要的贝叶斯定理，用一句简单的话概括就是条件概率的相互转换推导。

详细介绍链接：http://blog.csdn.net/androidlushangderen/article/details/42680161

5.SVM(支持向量机)算法。支持向量机算法是一种对线性和非线性数据进行分类的方法，非线性数据进行分类的时候可以通过核函数转为线性的情况再处理。其中的一个关键的步骤是搜索最大边缘超平面。

详细介绍链接：http://blog.csdn.net/androidlushangderen/article/details/42780439

6.EM(期望最大化)算法。期望最大化算法，可以拆分为2个算法，1个E-Step期望化步骤,和1个M-Step最大化步骤。他是一种算法框架，在每次计算结果之后，逼近统计模型参数的最大似然或最大后验估计。

详细介绍链接：http://blog.csdn.net/androidlushangderen/article/details/42921789

7.Apriori算法。Apriori算法是关联规则挖掘算法，通过连接和剪枝运算挖掘出频繁项集，然后根据频繁项集得到关联规则，关联规则的导出需要满足最小置信度的要求。

详细介绍链接：http://blog.csdn.net/androidlushangderen/article/details/43059211

8.FP-Tree(频繁模式树)算法。这个算法也有被称为FP-growth算法，这个算法克服了Apriori算法的产生过多侯选集的缺点，通过递归的产生频度模式树，然后对树进行挖掘，后面的过程与Apriori算法一致。

详细介绍链接：http://blog.csdn.net/androidlushangderen/article/details/43234309

9.PageRank(网页重要性/排名)算法。PageRank算法最早产生于Google,核心思想是通过网页的入链数作为一个网页好快的判定标准，如果1个网页内部包含了多个指向外部的链接，则PR值将会被均分，PageRank算法也会遭到Link Span攻击。

详细介绍链接：http://blog.csdn.net/androidlushangderen/article/details/43311943

10.HITS算法。HITS算法是另外一个链接算法，部分原理与PageRank算法是比较相似的，HITS算法引入了权威值和中心值的概念，HITS算法是受用户查询条件影响的，他一般用于小规模的数据链接分析，也更容易遭受到攻击。

详细介绍链接：http://blog.csdn.net/androidlushangderen/article/details/43311943

11.K-Means(K均值)算法。K-Means算法是聚类算法，k在在这里指的是分类的类型数，所以在开始设定的时候非常关键，算法的原理是首先假定k个分类点，然后根据欧式距离计算分类，然后去同分类的均值作为新的聚簇中心，循环操作直到收敛。

详细介绍链接：http://blog.csdn.net/androidlushangderen/article/details/43373159

12.BIRCH算法。BIRCH算法利用构建CF聚类特征树作为算法的核心，通过树的形式，BIRCH算法扫描数据库，在内存中建立一棵初始的CF-树，可以看做数据的多层压缩。

详细介绍链接：http://blog.csdn.net/androidlushangderen/article/details/43532111

13.AdaBoost算法。AdaBoost算法是一种提升算法，通过对数据的多次训练得到多个互补的分类器，然后组合多个分类器，构成一个更加准确的分类器。

详细介绍链接：http://blog.csdn.net/androidlushangderen/article/details/43635115

14.GSP算法。GSP算法是序列模式挖掘算法。GSP算法也是Apriori类算法，在算法的过程中也会进行连接和剪枝操作，不过在剪枝判断的时候还加上了一些时间上的约束等条件。

详细介绍链接：http://blog.csdn.net/androidlushangderen/article/details/43699083

15.PreFixSpan算法。PreFixSpan算法是另一个序列模式挖掘算法，在算法的过程中不会产生候选集，给定初始前缀模式，不断的通过后缀模式中的元素转到前缀模式中，而不断的递归挖掘下去。

详细介绍链接：http://blog.csdn.net/androidlushangderen/article/details/43766253

16.CBA(基于关联规则分类)算法。CBA算法是一种集成挖掘算法，因为他是建立在关联规则挖掘算法之上的，在已有的关联规则理论前提下，做分类判断，只是在算法的开始时对数据做处理，变成类似于事务的形式。

详细介绍链接：http://blog.csdn.net/androidlushangderen/article/details/43818787

17.RoughSets(粗糙集)算法。粗糙集理论是一个比较新颖的数据挖掘思想。这里使用的是用粗糙集进行属性约简的算法，通过上下近似集的判断删除无效的属性，进行规制的输出。

详细介绍链接：http://blog.csdn.net/androidlushangderen/article/details/43876001

18.gSpan算法。gSpan算法属于图挖掘算法领域。，主要用于频繁子图的挖掘，相较于其他的图算法，子图挖掘算法是他们的一个前提或基础算法。gSpan算法用到了DFS编码，和Edge五元组，最右路径子图扩展等概念，算法比较的抽象和复杂。

19神经网络算法。BP（Back Propagation）神经网络是1986年由Rumelhart和McCelland为首的科学家小组提出，是一种按误差逆传播算法训练的多层前馈网络，是目前应用最广泛的神经网络模型之一。BP网络能学习和存贮大量的输入-输出模式映射关系，而无需事前揭示描述这种映射关系的数学方程。它的学习规则是使用最速下降法，通过反向传播来不断调整网络的权值和阈值，使网络的误差平方和最小。BP神经网络模型拓扑结构包括输入层（input）、隐层(hidden layer)和输出层(output layer)。

20线性回归，logistic回归，泊松回归

算法类似性

根据算法的功能和形式的类似性，我们可以把算法分类，比如说基于树的算法，基于神经网络的算法等等。当然，机器学习的范围非常庞大，有些算法很难明确归类到某一类。而对于有些分类来说，同一分类的算法可以针对不同类型的问题。这里，我们尽量把常用的算法按照最容易理解的方式进行分类。

回归算法

回归算法是试图采用对误差的衡量来探索变量之间的关系的一类算法。回归算法是统计机器学习的利器。在机器学习领域，人们说起回归，有时候是指一类问题，有时候是指一类算法，这一点常常会使初学者有所困惑。常见的回归算法包括：最小二乘法（OrdinaryLeast Square），逻辑回归（LogisticRegression），逐步式回归（StepwiseRegression），多元自适应回归样条（MultivariateAdaptive Regression Splines）以及本地散点平滑估计（LocallyEstimated Scatterplot Smoothing）

基于实例的算法

基于实例的算法常常用来对决策问题建立模型，这样的模型常常先选取一批样本数据，然后根据某些近似性把新数据与样本数据进行比较。通过这种方式来寻找最佳的匹配。因此，基于实例的算法常常也被称为“赢家通吃”学习或者“基于记忆的学习”。常见的算法包括k-Nearest Neighbor(KNN), 学习矢量量化（LearningVector Quantization，LVQ），以及自组织映射算法（Self-OrganizingMap，SOM）

正则化方法

正则化方法是其他算法（通常是回归算法）的延伸，根据算法的复杂度对算法进行调整。正则化方法通常对简单模型予以奖励而对复杂算法予以惩罚。常见的算法包括：RidgeRegression，Least Absolute Shrinkage and Selection Operator（LASSO），以及弹性网络（ElasticNet）。

决策树学习

决策树算法根据数据的属性采用树状结构建立决策模型，决策树模型常常用来解决分类和回归问题。常见的算法包括：分类及回归树（ClassificationAnd Regression Tree，CART），ID3 (Iterative Dichotomiser 3)， C4.5，Chi-squared Automatic Interaction Detection(CHAID), Decision Stump,随机森林（RandomForest），多元自适应回归样条（MARS）以及梯度推进机（GradientBoosting Machine，GBM）

贝叶斯方法

贝叶斯方法算法是基于贝叶斯定理的一类算法，主要用来解决分类和回归问题。常见算法包括：朴素贝叶斯算法，平均单依赖估计（AveragedOne-Dependence Estimators，AODE），以及BayesianBelief Network（BBN）。

基于核的算法

基于核的算法中最著名的莫过于支持向量机（SVM）了。基于核的算法把输入数据映射到一个高阶的向量空间，在这些高阶向量空间里，有些分类或者回归问题能够更容易的解决。常见的基于核的算法包括：支持向量机（SupportVector Machine，SVM），径向基函数（RadialBasis Function，RBF)，以及线性判别分析（Linear Discriminate Analysis，LDA)等。SVM适用于数据量小、维度高、数据不相关的场景。

聚类算法

聚类，就像回归一样，有时候人们描述的是一类问题，有时候描述的是一类算法。聚类算法通常按照中心点或者分层的方式对输入数据进行归并。所以的聚类算法都试图找到数据的内在结构，以便按照最大的共同点将数据进行归类。常见的聚类算法包括k-Means算法以及期望最大化算法（ExpectationMaximization，EM）。

关联规则学习

关联规则学习通过寻找最能够解释数据变量之间关系的规则，来找出大量多元数据集中有用的关联规则。常见算法包括Apriori算法和Eclat算法等。

人工神经网络

人工神经网络算法模拟生物神经网络，是一类模式匹配算法。通常用于解决分类和回归问题。人工神经网络是机器学习的一个庞大的分支，有几百种不同的算法。（其中深度学习就是其中的一类算法，我们会单独讨论），重要的人工神经网络算法包括：感知器神经网络（PerceptronNeural Network）,反向传递（BackPropagation），Hopfield网络，自组织映射（Self-OrganizingMap, SOM）。学习矢量量化（LearningVector Quantization，LVQ）

深度学习

深度学习算法是对人工神经网络的发展。在近期赢得了很多关注，特别是百度也开始发力深度学习后，更是在国内引起了很多关注。在计算能力变得日益廉价的今天，深度学习试图建立大得多也复杂得多的神经网络。很多深度学习的算法是半监督式学习算法，用来处理存在少量未标识数据的大数据集。常见的深度学习算法包括：受限波尔兹曼机（RestrictedBoltzmann Machine，RBN）， DeepBelief Networks（DBN），卷积网络（ConvolutionalNetwork）,堆栈式自动编码器（StackedAuto-encoders）。

降低维度算法

像聚类算法一样，降低维度算法试图分析数据的内在结构，不过降低维度算法是以非监督学习的方式试图利用较少的信息来归纳或者解释数据。这类算法可以用于高维数据的可视化或者用来简化数据以便监督式学习使用。常见的算法包括：主成份分析（PrincipleComponent Analysis，PCA），偏最小二乘回归（PartialLeast Square Regression，PLS）， Sammon映射，多维尺度（Multi-DimensionalScaling, MDS）, 投影追踪（ProjectionPursuit）等。

集成算法

集成算法用一些相对较弱的学习模型独立地就同样的样本进行训练，然后把结果整合起来进行整体预测。集成算法的主要难点在于究竟集成哪些独立的较弱的学习模型以及如何把学习结果整合起来。这是一类非常强大的算法，同时也非常流行。常见的算法包括：Boosting，Bootstrapped Aggregation（Bagging），AdaBoost，堆叠泛化（StackedGeneralization，Blending），梯度推进机（GradientBoosting Machine, GBM），随机森林（RandomForest）。

原文有大量图片，完整文档见百度http://pan.baidu.com/s/1i4x57oD

你可能感兴趣的:([置顶] 大数据分析技术方案)

06选课支付模块之基于消息队列发送支付通知消息 echo 云清学成在线 java rabbitmq 消息队列支付通知学成在线
消息队列发送支付通知消息需求分析订单服务作为通用服务，在订单支付成功后需要将支付结果异步通知给其他对接的微服务，微服务收到支付结果根据订单的类型去更新自己的业务数据技术方案使用消息队列进行异步通知需要保证消息的可靠性即生产端将消息成功通知到服务端：消息发送到交换机-->由交换机发送到队列-->消费者监听队列，收到消息进行处理，参考文章02-使用Docker安装RabbitMQ-CSDN博客生产者确
详解：如何设计出健壮的秒杀系统？夜空_2cd3
作者：Yrion博客园：cnblogs.com/wyq178/p/11261711.html前言：秒杀系统相信很多人见过，比如京东或者淘宝的秒杀，小米手机的秒杀。那么秒杀系统的后台是如何实现的呢？我们如何设计一个秒杀系统呢？对于秒杀系统应该考虑哪些问题？如何设计出健壮的秒杀系统？本期我们就来探讨一下这个问题：image目录一：****秒杀系统应该考虑的问题二：****秒杀系统的设计和技术方案三：*
metaRTC/webRTC QOS 方案与实践 metaRTC metaRTC 解决方案 webrtc qos
概述质量服务(QOS/QualityofService)是指利用各种技术方案提高网络通信质量的技术，网络通信质量需要解决下面两个问题：网络问题：UDP/不稳定网络/弱网下的丢包/延时/乱序/抖动数据量问题：发送数据量超带宽负载和平滑发送拥塞控制是各种技术方案的数据基础，丢包恢复解决丢包问题，抗乱序抖动解决网络乱序抖动问题，流量控制解决平滑发送数据/数据超带宽负载/延时问题。拥塞控制(Congest
python基于django/flask的NBA球员大数据分析与可视化python+java+node.js QQ_511008285 python django flask java spring boot 数据分析
前端开发框架:vue.js数据库mysql版本不限后端语言框架支持：1java(SSM/springboot)-idea/eclipse2.Nodejs+Vue.js-vscode3.python(flask/django)--pycharm/vscode4.php(thinkphp/laravel)-hbuilderx数据库工具：Navicat/SQLyog等都可以本文针对NBA球员的大数据进行
【JAVA】数据脱敏技术（对称加密算法、非对称加密算法、哈希算法、消息认证码（MAC）算法、密钥交换算法）使用方法来一杯龙舌兰 Java java 开发语言数据脱敏技术加密算法 AES
文章目录数据脱敏的定义和目的数据脱敏的技术分类对称加密算法非对称加密算法哈希算法消息认证码（MAC）算法密钥交换算法数据脱敏的技术方案实现字符替换哈希算法（例如:SHA-3算法）消息认证码（MAC）算法(CMAC)消息认证码（MAC）算法(HMAC)对称/非对称加密实现方式（例如：AES加密算法）数据分段数据伪装更多相关内容可查看数据脱敏的定义和目的数据脱敏（DataMasking）是指对数据进行
2022-04-17 图灵基因
NatBiotech|组织中单细胞转录组的空间图谱原创图灵基因图灵基因2022-04-1707:03收录于话题#前沿生物大数据分析单细胞RNA测序（scRNA-seq）已经彻底改变了单细胞水平上的基因表达研究。最近，空间技术通过添加空间信息将转录组学提升到了一个新的水平。但是，它缺乏单细胞分辨率。现在，来自德克萨斯大学MD安德森癌症中心的一个小组开发了一种名为CellTrek的计算方法，将这两个数
2025毕业设计指南：如何用Hadoop构建超市进货推荐系统？大数据分析助力精准采购计算机编程指导师 Java实战集 Python实战集大数据实战集课程设计 hadoop 数据分析 spring boot java 进货 python
✍✍计算机编程指导师⭐⭐个人介绍：自己非常喜欢研究技术问题！专业做Java、Python、小程序、安卓、大数据、爬虫、Golang、大屏等实战项目。⛽⛽实战项目：有源码或者技术上的问题欢迎在评论区一起讨论交流！⚡⚡Java实战|SpringBoot/SSMPython实战项目|Django微信小程序/安卓实战项目大数据实战项目⚡⚡文末获取源码文章目录⚡⚡文末获取源码基于hadoop的超市进货推荐系
前端架构师的职责 acigt0531 前端 git ViewUI
前端架构师的职责没有文档的代码=放弃治疗作为前端架构师,首先要解决的问题就是让日益膨胀的代码可控,因此你需要梳理代码,建立架构,组织文档,管理架构的更新和维护,评审技术方案对架构的影响,核心模块的方案设计,重点项目的方案设计,CodeReview等.架构师和资深开发在工作职责上有着明确的界限,在一个没有架构师的团队,每一个资深开发或多或少都承担了一部分架构的工作,但都是破碎的,不成体系而且不统一,
大数据分析与安全分析 Zh&&Li 网络安全运维数据分析安全数据挖掘运维数据库
大数据分析一、大数据安全威胁与需求分析1.1大数据相关概念发展大数据：是指非传统的数据处理工具的数据集大数据特征：海量的数据规模、快速的数据流转、多样的数据类型和价值密度低等大数据的种类和来源非常多，包括结构化、半结构化和非结构化数据有关大数据的新兴网络信息技术应用不断出现，主要包括大规模数据分析处理、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和存储系统1.2大数据安全威胁分析“数
Python在金融大数据分析中的AI应用实战田野猫咪 python 金融数据分析
随着人工智能时代的到来，Python作为一种功能强大的编程语言，在金融领域的大数据分析中扮演着日益重要的角色。本文将探讨Python在金融领域的应用，重点介绍其在大数据分析方面的实际应用案例，涉及股票市场分析、投资组合优化、风险管理等方面，并提供相关的代码示例。引言随着金融市场数据规模的不断增长，金融机构和投资者们越来越依赖于大数据分析和人工智能技术来做出更准确、更智能的决策。Python作为一种
如何进行架构技术方案选型? 猫咪张系统架构设计 struts spring mvc jsf 架构设计 ejb
在架构设计时,通常面临的一个难题是,如何选择架构的技术方案.这也是各种项目都会碰到的问题.我们到底是选择C/S，B/S模式，如果选择C/S,那么到底是三层C/S还是两层，到底要不要分布式，B/S的展示层是自己写MVC，还是应用已有的开源的如SpringMVC，Struts2.0,JSF技术。总之，可选的确实是太多了。那么怎么去选择呢？这个问题确实有点难，但也有解决方法的。首先，我们需要研究我们项目
秒杀系统如何保证库存不超卖半桶水专家 Redis 编程理论 python redis 开发语言
在秒杀系统中，库存超卖是一个关键问题，需要通过多种技术手段来保证高并发情况下库存的正确性。以下是几种常见的解决库存超卖的技术方案及其具体实现方法。1.数据库乐观锁使用乐观锁可以防止多用户同时更新库存时导致超卖。乐观锁通常通过“版本号”机制来实现。实现步骤：在库存表中增加一个version字段。每次更新库存时，检查version是否与上次读取的一致，如果一致，则更新库存和version；如果不一致，
2023-06-09 6d4ff43fbc0b
摘抄随笔置顶自己的感受，先自爱再爱人。心理咨询师黄启团曾说：“任何一段糟糕的关系，其中都有你的一份功劳。因为我们在无意识中教会了别人如何对待自己。”你卑微讨好，会换来得寸进尺；你付出太满，只会换来别人的轻视。我就是这样的，经常多做一些自己的本不该做的事情。结果自己的事情做得比较晚比较慢一些，还被说做事情慢，人家都下班了你还在做自己的事情。还有你没有时间帮忙别人的时候，别人还认为是我该做的事情。你没
快手HBase在千亿级用户特征数据分析中的应用与实践王知无
声明：本文的原文是来自Hbase技术社区的一个PPT分享，个人做了整理和提炼。大家注意哈，这种会议PPT类的东西能学习到的更多的是技术方案和他人在实践过程中的经验。希望对大家有帮助。背景快手每天产生数百亿用户特征数据，分析师需要在跨30-90天的数千亿特征数据中，任意选择多维度组合(如:城市=北京&性别=男)，秒级分析用户行为。针对这一需求,快手基于HBase自主研发了支持bitmap转化、存储、
2021-10-15 图灵基因
Science|三篇背对背Science论文揭示肿瘤蛋白质相互作用图谱原创图灵基因图灵基因今天收录于话题#前沿生物大数据分析与科学界的许多其他成员一样，NevanKrogan博士去年将他的加州大学旧金山分校（UCSF）实验室转为研究COVID-19。结果是《Nature》杂志发表了一篇引人注目的文章，描述了SARS-CoV-2如何在感染过程中劫持和重新连接宿主。这一发现在很大程度上依赖于实验室最擅
Python基础（十二）：字典的详细讲解 m0_60707685 程序员 python 学习面试
感谢每一个认真阅读我文章的人，看着粉丝一路的上涨和关注，礼尚往来总是要有的：①2000多本Python电子书（主流和经典的书籍应该都有了）②Python标准库资料（最全中文版）③项目源码（四五十个有趣且经典的练手项目及源码）④Python基础入门、爬虫、web开发、大数据分析方面的视频（适合小白学习）⑤Python学习路线图（告别不入流的学习）网上学习资料一大堆，但如果学到的知识不成体系，遇到问题
【区块链 + 物联网】可信保密的海洋大数据分析平台 | FISCO BCOS应用案例 FISCO_BCOS 2023FISCO BCOS产业应用发展报告区块链物联网
海洋大数据蕴含着难以估量的巨大价值，可为气候、航海、生态、灾害等领域提供科学依据，是实施海洋强国战略、拉动海洋经济、打造海洋文化的重要基础。但是海洋大数据来源广泛，包括各个海洋检测站点、船只等不同主体，在进行统计分析、建模预测等多个使用环节时，需要融合多个机构的数据才能达到更精准更有参考价值的结果。在此背景下，广电运通公司联合上海海洋大学、微众银行，基于FISCOBCOS区块链技术以及和安全多方计
微信悬浮窗——信息流大战爱摄影的奥派
关于浮窗的改动体现在以下三点：首先，点击浮窗后文章页面直接缩小为圆形浮窗按钮，返回到上级菜单。而原置顶功能在置顶后仍然处在文章页面，返回微信首页才能看到置顶条。图片发自App其次，浮窗可以拖动改变位置，拖动到右下角红色区域就可以丢弃取消，同样，唤醒浮窗，也可以用同样的滑动手势来实现。图片发自App就像在微信聊天列表页面下拉唤醒小程序列表一样，在如此有限的界面中，腾讯用交互创新，建立新入口的能力，已
Python处理大数据，如何提高处理速度 RS& #python python 大数据 pandas
Python处理大数据，如何提高处理速度？一、利用大数据分析工具Dask：https://dask.org/Dask简介：Dask支持Pandas的DataFrame和NumpyArray的数据结构，并且既可在本地计算机上运行，也可以扩展到在集群上运行。Dask可支持pandas、Numpy、Sklearn、XGBoost、XArray、RAPIDS等等。原理及使用方法：https://blog.
基于Echarts+HTML5可视化数据大屏展示—新能源车联网综合大数据平台_新能源汽车大数据分析网站代码 2401_84181070 程序员 echarts html5 大数据
主要代码实现：主页HTML布局：新能源车联网综合大数据平台实时统计<divclass="info-text
浙江省某市监局 API 敏感数据保护与全链路数据安全管控实践原点安全数据安全
背景随着政务服务数字化转型的加速，政府信息化建设、大数据分析应用以及智慧监管建设等现代化、智能化转型持续推进，新的数据安全风险也暗藏其中。为加强公共数据安全体系建设，提升数据安全主动防御能力、监测预警能力、应急处置能力、协同治理能力，切实防范公共数据篡改、泄露、滥用。2023年，浙江省市网信办联合机要保密局、大数据局联合发布《政务信息系统安全自查对照表》，要求各部门开展数据安全自检自查工作。N市市
EI会议推荐-第二届大数据与数据挖掘国际会议（BDDM 2024） shiyuankeyan 数据挖掘大数据
第二届大数据与数据挖掘国际会议（BDDM2024）1、基本信息大会官网：http://www.icbddm.org/官方邮箱：[email protected]主办方：武汉纺织大学会议时间：2024年12月13日-12月15日会议地点：湖北武汉02征稿主题：包含（但不限于）以下领域：大数据：大数据分析、人工智能、大数据网络技术、大数据搜索算法和系统、分布式和点对点搜索、基于大数据的机器学习、大数据可视化
latex转word python_分分钟甩Word几条街，Python编辑公式竟可以如此简单 weixin_39553904 latex转word python
点击上方"Python人工智能技术"关注，星标或者置顶22点24分准时推送，第一时间送达来自：公众号机器之心|编辑：真经君Python人工智能技术(ID:coder_experience)第221次推文图源:百度上一篇：华科博士201万，西安交大本科生100万！华为「天才少年」校招薪资曝光正文用Word写PDE公式简直是找虐。我们在Word中编辑文本时，遇到超复杂的公式，想想就令人头大，一个不小心
基于Golang的云原生日志采集服务设计与实践程序员小乐运维 java 大数据 kubernetes 编程语言
点击上方"编程技术圈"关注,星标或置顶一起成长后台回复“大礼包”有惊喜礼包！每日英文Intheend,it'snottheyearsinyourlifethatcount.It’sthelifeinyouryears.人生到头来，你活了多少岁不算什么，重要的是，你是如何度过这些岁月的。每日掏心话但凡会错过，一定不是最好的。有时候不是不明白，而是明白了也无能为力，于是就保持了沉默。责编：乐乐|来自：
[写吧动态]5月14日笃定前行，超越自我 858df0fb6cd6
截止2021年5月14日24时，教育行走“一起写吧”群接龙文章共有25篇，来自全国各地的家人们坚持打卡256天，为你们的担当与付出点赞。通过仔细品读家人们的优秀作品，我推荐以下五篇优中选优的文章，给予置顶并点评，期待大家的仔细阅读，真诚地留言、评论、点赞。第一篇是云南普利辉老师的《好想给自己放两天假》。一次次的历练，一幕幕的交流，普老师不放弃才能学有所成，踊跃承担所以才能拔节成长。古人云：逝者如斯
2023年哪些副业兼职受青睐？氧惠佣金真的高
近日，专业兼职招聘平台兼职猫发布的一份疫情期间兼职用户研究报告显示，受疫情影响，用户对于兼职的需求整体在向线上偏移。而拥有“一技旁身”的职场人士，如老师、设计师、编辑等会更容易找到待遇更优的兼职岗位。据介绍，该报告数据来源通过兼职猫用户大数据分析及10万份用户调研问卷获得。据统计，疫情期间新注册用户年龄以22岁以下为主，占平台总用户的68%，其中18岁以下未成年人突增，占据平台用户的30.9%；从
NL2SQL技术方案系列(2)：全系列技术选型完整版：从通用技术选型(向量、图数据库)、大模型选择、Prompt工程、前沿技术方案展示汀、人工智能 LLM工业级落地实践 prompt 人工智能自然语言处理大模型 LLM NL2SQL Text2SQL
NL2SQL技术方案系列(2)：全系列技术选型完整版：从通用技术选型(向量、图数据库)、大模型选择、Prompt工程、前沿技术方案展示NL2SQL基础系列(1)：业界顶尖排行榜、权威测评数据集及LLM大模型（SpidervsBIRD）全面对比优劣分析[Text2SQL、Text2DSL]NL2SQL基础系列(2)：主流大模型与微调方法精选集，Text2SQL经典算法技术回顾七年发展脉络梳理NL2S
(游戏设计草稿) 《异界·召唤次元》穷人小水滴游戏人工智能 3D 开放世界角色扮演
注意:以下仅为初步构思,仅供参考.(由于目前AI算力的限制,下述技术方案,可能在5~10年之后,才能成熟普及使用)目录:1初步设计2技术特点3全AI4可能的商业模式1初步设计《异界·召唤次元》以召唤为主要玩法的游戏.文案:赛星人所在的宇宙,与别的平行宇宙发生了部分时空重叠.这种重叠并不稳定,需要有天赋的赛星人(叠加者)召唤来自别的宇宙的物体(动物).每个叠加者对不同的异界体具有不同的契合度,契合度
人工智能在现代科技中的应用和未来发展趋势。爱掉发的小龙人工智能 git
人工智能（AI）已经成为现代科技中的一个核心领域，广泛应用于各行各业，并且未来发展潜力巨大。以下是人工智能在现代科技中的主要应用以及未来的发展趋势。一、人工智能的应用领域医疗保健：疾病诊断：AI可以分析医学影像、基因数据等，帮助医生更快速地诊断疾病，如癌症筛查和心脏病预测。药物研发：通过模拟和大数据分析，AI加速了新药研发过程，缩短了药物上市时间。个性化治疗：AI能够根据患者的个人数据，推荐最适合
华为 HCIP-Datacom H12-821 题库 (1) 可惜已不在 HCIP 华为网络
有需要题库的可以看主页置顶需要题库的加Q裙V群仅进行学习交流1.MSTP有不同的端口角色，对此说法不正确的是：A、MSTP中除边缘端口外，其他端口角色都参与MSTP的计算过程B、MSTP同一端口在不同的生成树实例中可以担任不同的角色。C、MSTP域边缘端口是指位于MST域的边缘并连接其它MST域或SST的端口D、Backup端口作为根端口的备份，提供了从指定桥到根的另一条可切换路径答案：D解析：在
sql统计相同项个数并按名次显示朱辉辉33 java oracle
现在有如下这样一个表： A表 ID Name time ------------------------------ 0001 aaa 2006-11-18 0002 ccc 2006-11-18 0003 eee 2006-11-18 0004 aaa 2006-11-18 0005 eee 2006-11-18 0004 aaa 2006-11-18 0002 ccc 20
Android+Jquery Mobile学习系列-目录白糖_ JQuery Mobile
最近在研究学习基于Android的移动应用开发，准备给家里人做一个应用程序用用。向公司手机移动团队咨询了下，觉得使用Android的WebView上手最快，因为WebView等于是一个内置浏览器，可以基于html页面开发，不用去学习Android自带的七七八八的控件。然后加上Jquery mobile的样式渲染和事件等，就能非常方便的做动态应用了。从现在起，往后一段时间，我打算
如何给线程池命名 daysinsun 线程池
在系统运行后，在线程快照里总是看到线程池的名字为pool-xx，这样导致很不好定位，怎么给线程池一个有意义的名字呢。参照ThreadPoolExecutor类的ThreadFactory，自己实现ThreadFactory接口，重写newThread方法即可。参考代码如下： public class Named
IE 中"HTML Parsing Error:Unable to modify the parent container element before the 周凡杨 html 解析 error readyState
错误： IE 中"HTML Parsing Error:Unable to modify the parent container element before the child element is closed" 现象：同事之间几个IE 测试情况下，有的报这个错，有的不报。经查询资料后，可归纳以下原因。
java上传 g21121 java
我们在做web项目中通常会遇到上传文件的情况，用struts等框架的会直接用的自带的标签和组件，今天说的是利用servlet来完成上传。我们这里利用到commons-fileupload组件，相关jar包可以取apache官网下载：http://commons.apache.org/ 下面是servlet的代码： //定义一个磁盘文件工厂 DiskFileItemFactory fact
SpringMVC配置学习 510888780 spring mvc
spring MVC配置详解现在主流的Web MVC框架除了Struts这个主力外，其次就是Spring MVC了，因此这也是作为一名程序员需要掌握的主流框架，框架选择多了，应对多变的需求和业务时，可实行的方案自然就多了。不过要想灵活运用Spring MVC来应对大多数的Web开发，就必须要掌握它的配置及原理。　　一、Spring MVC环境搭建：（Spring 2.5.6 + Hi
spring mvc-jfreeChart 柱图(1) 布衣凌宇 jfreechart
第一步：下载jfreeChart包，注意是jfreeChart文件lib目录下的，jcommon-1.0.23.jar和jfreechart-1.0.19.jar两个包即可；第二步：配置web.xml; web.xml代码如下 <servlet> <servlet-name>jfreechart</servlet-nam
我的spring学习笔记13-容器扩展点之PropertyPlaceholderConfigurer aijuans Spring3
PropertyPlaceholderConfigurer是个bean工厂后置处理器的实现，也就是BeanFactoryPostProcessor接口的一个实现。关于BeanFactoryPostProcessor和BeanPostProcessor类似。我会在其他地方介绍。PropertyPlaceholderConfigurer可以将上下文（配置文件）中的属性值放在另一个单独的标准java P
java 线程池使用 Runnable&Callable&Future antlove java thread Runnable callable future
1. 创建线程池 ExecutorService executorService = Executors.newCachedThreadPool(); 2. 执行一次线程，调用Runnable接口实现 Future<?> future = executorService.submit(new DefaultRunnable()); System.out.prin
XML语法元素结构的总结百合不是茶 xml 树结构
1.XML介绍1969年 gml (主要目的是要在不同的机器进行通信的数据规范)1985年 sgml standard generralized markup language1993年 html(www网)1998年 xml extensible markup language
改变eclipse编码格式 bijian1013 eclipse 编码格式
1.改变整个工作空间的编码格式改变整个工作空间的编码格式，这样以后新建的文件也是新设置的编码格式。 Eclipse->window->preferences->General->workspace-
javascript中return的设计缺陷 bijian1013 JavaScript AngularJS
代码1： <script> var gisService = (function(window) { return { name:function () { alert(1); } }; })(this); gisService.name(); &l
【持久化框架MyBatis3八】Spring集成MyBatis3 bit1129 Mybatis3
pom.xml配置 Maven的pom中主要包括： MyBatis MyBatis-Spring Spring MySQL-Connector-Java Druid applicationContext.xml配置 <?xml version="1.0" encoding="UTF-8"?> &
java web项目启动时自动加载自定义properties文件 bitray java Web 监听器相对路径
创建一个类 public class ContextInitListener implements ServletContextListener 使得该类成为一个监听器。用于监听整个容器生命周期的，主要是初始化和销毁的。类创建后要在web.xml配置文件中增加一个简单的监听器配置，即刚才我们定义的类。 <listener> <des
用nginx区分文件大小做出不同响应 ronin47
昨晚和前21v的同事聊天，说到我离职后一些技术上的更新。其中有个给某大客户(游戏下载类)的特殊需求设计，因为文件大小差距很大——估计是大版本和补丁的区别——又走的是同一个域名，而squid在响应比较大的文件时，尤其是初次下载的时候，性能比较差，所以拆成两组服务器，squid服务于较小的文件，通过pull方式从peer层获取，nginx服务于较大的文件，通过push方式由peer层分发同步。外部发布
java-67-扑克牌的顺子.从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的.2-10为数字本身，A为1，J为11，Q为12，K为13，而大 bylijinnan java
package com.ljn.base; import java.util.Arrays; import java.util.Random; public class ContinuousPoker { /** * Q67 扑克牌的顺子从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的。 * 2-10为数字本身，A为1，J为1
翟鸿燊老师语录 ccii 翟鸿燊
一、国学应用智慧TAT之亮剑精神A 1. 角色就是人格就像你一回家的时候，你一进屋里面，你已经是儿子，是姑娘啦，给老爸老妈倒怀水吧，你还觉得你是老总呢？还拿派呢？就像今天一样，你们往这儿一坐，你们之间是什么，同学，是朋友。还有下属最忌讳的就是领导向他询问情况的时候，什么我不知道，我不清楚，该你知道的你凭什么不知道
[光速与宇宙]进行光速飞行的一些问题 comsci 问题
在人类整体进入宇宙时代，即将开展深空宇宙探索之前，我有几个猜想想告诉大家仅仅是猜想。。。未经官方证实 1：要在宇宙中进行光速飞行，必须首先获得宇宙中的航行通行证，而这个航行通行证并不是我们平常认为的那种带钢印的证书，是什么呢？下面我来告诉
oracle undo解析 cwqcwqmax9 oracle
oracle undo解析2012-09-24 09:02:01 我来说两句作者：虫师收藏我要投稿 Undo是干嘛用的？ &nb
java中各种集合的详细介绍 dashuaifu java 集合
一，java中各种集合的关系图 Collection 接口的接口对象的集合 ├ List 子接口 &n
卸载windows服务的方法 dcj3sjt126com windows service
卸载Windows服务的方法在Windows中，有一类程序称为服务，在操作系统内核加载完成后就开始加载。这里程序往往运行在操作系统的底层，因此资源占用比较大、执行效率比较高，比较有代表性的就是杀毒软件。但是一旦因为特殊原因不能正确卸载这些程序了，其加载在Windows内的服务就不容易删除了。即便是删除注册表中的相应项目，虽然不启动了，但是系统中仍然存在此项服务，只是没有加载而已。如果安装其他
Warning: The Copy Bundle Resources build phase contains this target's Info.plist dcj3sjt126com ios xcode
http://developer.apple.com/iphone/library/qa/qa2009/qa1649.html Excerpt: You are getting this warning because you probably added your Info.plist file to your Copy Bundle
2014之C++学习笔记（一） Etwo C++Etwo Etwo iterator 迭代器
已经有很长一段时间没有写博客了，可能大家已经淡忘了Etwo这个人的存在，这一年多以来，本人从事了AS的相关开发工作，但最近一段时间，AS在天朝的没落，相信有很多码农也都清楚，现在的页游基本上达到饱和，手机上的游戏基本被unity3D与cocos占据，AS基本没有容身之处。so。。。最近我并不打算直接转型
js跨越获取数据问题记录 haifengwuch jsonp json Ajax
js的跨越问题，普通的ajax无法获取服务器返回的值。第一种解决方案，通过getson，后台配合方式，实现。 Java后台代码： protected void doPost(HttpServletRequest req, HttpServletResponse resp) throws ServletException, IOException { String ca
蓝色jQuery导航条 ini JavaScript html jquery Web html5
效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/39.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery鼠标悬停上下滑动导航条 - 柯乐义<
linux部署jdk,tomcat,mysql kerryg jdk tomcat linux mysql
1、安装java环境jdk: 一般系统都会默认自带的JDK,但是不太好用，都会卸载了，然后重新安装。 1.1）、卸载：（rpm -qa :查询已经安装哪些软件包； rmp -q 软件包：查询指定包是否已
DOMContentLoaded VS onload VS onreadystatechange mutongwu jquery js
1. DOMContentLoaded 在页面html、script、style加载完毕即可触发，无需等待所有资源（image/iframe）加载完毕。（IE9+） 2. onload是最早支持的事件，要求所有资源加载完毕触发。 3. onreadystatechange 开始在IE引入，后来其它浏览器也有一定的实现。涉及以下 document , applet, embed, fra
sql批量插入数据 qifeifei 批量插入
hi，自己在做工程的时候，遇到批量插入数据的数据修复场景。我的思路是在插入前准备一个临时表，临时表的整理就看当时的选择条件了，临时表就是要插入的数据集，最后再批量插入到数据库中。 WITH tempT AS ( SELECT item_id AS combo_id, item_id, now() AS create_date FROM a
log4j打印日志文件如何实现相对路径到项目工程下 thinkfreer Web log4j 应用服务器日志
最近为了实现统计一个网站的访问量，记录用户的登录信息，以方便站长实时了解自己网站的访问情况，选择了Apache 的log4j,但是在选择相对路径那块卡主了，X度了好多方法(其实大多都是一样的内用，还一个字都不差的)，都没有能解决问题，无奈搞了2天终于解决了，与大家分享一下需求：用户登录该网站时，把用户的登录名,ip,时间。统计到一个txt文档里，以方便其他系统调用此txt。项目名
linux下mysql-5.6.23.tar.gz安装与配置笑我痴狂 mysql linux unix
1.卸载系统默认的mysql [root@localhost ~]# rpm -qa | grep mysql mysql-libs-5.1.66-2.el6_3.x86_64 mysql-devel-5.1.66-2.el6_3.x86_64 mysql-5.1.66-2.el6_3.x86_64 [root@localhost ~]# rpm -e mysql-libs-5.1