Altair澳汰尔

【数据分析】从零开始带你了解商业数据分析模型——线性回归模型

1 摘要

随着数据导向型决策、数据科学、大数据分析等话题日益火热，各行各业都开始关注数据分析这个课题。

**数字化转型成了很多企业在未来十年的重大举措。**企业如何利用现有庞大的数据辅助决策，以及通过数据分析帮助企业盈利或削减开支成了越来越多部门关注的难题。

除了上述提到的行业内部的业务理解，从业人士对数据科学技术细节的理解，对数据建模的落地实施也成了当下的难点。

Altair的数据分析师将持续推出一系列文章，旨在帮助非科班从业人士了解常见的商业数据分析模型。

内容涵盖模型的基本介绍、优劣势分析、常见使用案例，以及如何在具体平台中实施相应的模型。

此文为系列文章的第一篇，从大家最耳熟能详的线性回归模型开始说起，并以Altair Knowledge Studio™为平台，介绍线性回归在实际中如何应用，给大家在实战中贡献一点参考。

2 线性回归模型

2.1 什么是回归

在讨论线性回归之前，我们先用一些篇幅来讨论什么是回归模型。

作为最基础的机器学习算法，回归模型最早发表于1805年，用以研究行星轨道距离太阳的距离。

随着后续两百多年的发展，回归模型的族群逐渐壮大。现在常见的族员有线性回归，逻辑回归，多项式回归，岭回归，套索回归等等。

简而言之，当想要研究自变量与因变量之间的关系时，回归模型往往是我们的首选。

那么，什么又叫做自变量，什么又是因变量呢？

2.2 自变量与因变量

通常来说，自变量是指可以通过研究者主动操作而改变的因素或者条件，它可以视为使得因变量变化的原因。因变量是指会随着自变量变化，而变化的因素。

而模型则是通过自变量和因变量的历史数据，运用适当的统计算法所寻求出来的一套规律。通常在回归模型中，我们可以拥有多个自变量，但是因变量只能有一个。

这样的描述可能也不是特别清晰。不过没关系，我们可以通过下面的一个简单例子来辅助理解。

比如我们现在想要研究子女的身高和父母的身高是否存在一定的关系。我们想要寻找的关系，就是模型。父母的身高就是自变量，而子女的身高就是因变量。

2.3 一元线性回归

有了上述的基本介绍，我们接下来看看最简单的一种线性回归模型 – 一元线性回归模型，这里的一元指的是模型中只含有一个自变量。它的表达式可以写作：

为方便理解，大家可以将 y 视为子女的身高（单位是cm），x 视为父亲的身高（单位是cm）。其中的 w0 与 w1 叫做模型的参数，也是我们需要通过统计算法寻找的值。

大家可以将参数理解为权重。比如当 w1 = 0.05 时，我们可以认为，如果父亲的身高每增加一厘米，子女的身高就可能增加 0. 05 厘米。相应的，w0 则类似于子女的保底身高。

因为孩子的身高还会取决于现今的生活环境和营养水平等因素，该参数则涵盖了非遗传角度考量的绝大多数因素。

最后的 ε 则是代表了统计学中的不确定性。它代表的含义是：即便拥有同样遗传因素，在相同条件下生长的两个孩子的身高大概率也会是不同的。

接下来我们借助一个简单的案例来了解这个过程。假如我们已知了6对父亲与子女身高的数据如下（父亲的身高, 子女的身高）：

（160,162），（165,167），（170,168.5），（175,179），（180,182），（185,184）.

将这些数据画作散点图，并对其进行任意拟合。我们可以发现这些点可以拟合出无数条可能的模型结果，分别由每条线所对应的不同的 w0 和 w1 组成。

不同的线所对应的样本模型为：

也各有不同。

如果从这些拟合结果中选出最优的那个结果，成了我们接下来的讨论话题。

要知道哪一条结果模型拟合的最好，其中一个方法就是最小化预测出来的身高值和真实的身高值之差的平方和，数学表达式为：

比如说，我们得出了其中一条拟合模型为：y = 10.6 + 0.95 * x。我们用（160，162）这组数据举例。其中的真实值yi 就是162，我们的预测值

则是 10.6 + 0.95*160 = 162.6。这组数据的差值平方就是0.36。全部的六组数据计算完成后，我们就可以得出这个拟合模型的差值平方和为23.75。

类似的，我们可以计算出别的拟合模型的差值平方和。最后该数值最小的拟合模型既是我们所寻找的最佳方案。

2.4 多元线性回归

我们上面所展示的案例，在实际生活之中基本不可能出现。因为它过于简单也过于理想化。不过它足够帮助大家了解清楚线性回归的基本概念了。

多元线性回归可以视为简单的一元线性回归的补充。同样拿上述的例子说明，子女的身高很可能也取决于母亲的身高，当地的平均身高，子女青春期的锻炼程度等因素。如果数据允许的话，我们可以用一个多元线性回归表达式来概述这个模型：

多元线性回归表达式的意义和寻找最佳拟合的方法和一元线性回归类似，我在此也就不过多赘述了。

2.5 线性回归的优劣分析和模型假设

虽然线性回归是最常见的一种回归模型，也是绝大多数科班生接触到的第一个统计模型，但是这并不代表了所有问题都适合用线性回归来解决，也不代表了任何数据都可以直接输入到线性回归之中。

线性回归的优点非常直接：

i.模型建立速度快。因为它并不包含复杂的算法过程，所以就算我们有庞大的数据量，线性回归也能够很快的拟合出最佳参数；

ii. 可解释性高。我们可以明确的指出线性回归里面包含的自变量，以及通过参数的大小解释不同自变量和因变量之间的线性关系。这是很多复杂模型所无法做到的。

然而线性回归的缺点更加直接：它只适用于分析自变量和因变量之间的线性关系。所以它不是适用于非线性关系之间的解析，且它仅适合处理因变量是连续型/数值型变量的数据。

与此同时，为了运用线性回归模型，我们还应确保我们的历史数据符合以下的假设条件：

i. 随机扰动项 εi 与自变量 xi 之间不相关，即

ii. 随机扰动项服从平均值为0的正态分布且互不相关
iii. 自变量之间不存在完全共线性，也就是说没有精确的线性关系。

2.6 线性回归的商业实用案例

作为最常见的模型之一，各行各业之中都可以找到线性回归的身影。

比如在快消行业，我们想要去研究特定的市场活动，价格变化，促销活动，季节气候等因素对某一商品的销量影响；

比如在体育竞技行业，我们想去研究球队，地区，身体因素，教练因素，赞助商状况对一位运动员比赛得分的影响；

再比如在银行信用卡行业，我们想去研究学历，收入情况，家庭情况，年龄等因素对信用卡持有人是否能够准时还款的影响。

随着算法模型的发展，线性回归在日常商业中的应用案例逐渐减少，取而代之的是逻辑回归，支持向量机，深度学习，决策树，随机森林等模型。我们也会在后续的文章中对这些模型进行一一讲解。

希望大家能够借住线性回归模型打开对数据分析建模的兴趣。随着讲解的深入，最好还能够帮助大家在自己的行业里面解决现有的问题，完成数字化转型的重要一步。

3 如何在Altair Knowledge Studio平台应用线性回归

3.1 为什么选择Altair Knowledge Studio

绝大多数的数据分析项目都是遵照着CRISP-DM的行业标准流程（详情可见：《数据挖掘简介》）。

市面上常见的开源或商业数据分析软件大多需要从业人员掌握一定编程知识，且需要大量时间来编写代码并调试。

这里需要强调的就是Altair Knowledge Studio的强大之一在于无需编码，一切的操作都可以通过拖拽完成。

下面我会用一个例子来展示如果使用 Altair Knowledge Studio 来完成线性回归的建模操作。

这个例子从导入数据到最终模型预测大概需要10-15分钟的时间，操作简便，节约时间成本。

我们会用到的数据是一个有关鱼生长长度的数据集，其中包含了每条鱼的编号（index），年龄(age)，生长水温(temp)和最终它的生长长度(length)。

我们的目的是去研究鱼的长度与年龄和水温是否存在线性关系，以及存在怎样的的线性关系。

3.2 Altair Knowledge Studio线性回归

3.2.1 数据导入

数据在本地以 Excel 的格式存在，我们在 Connect 栏选择 Excel Import 节点，并双击点开。

选择本地数据的所在路径，并为引入目标数据集命名。选择软件自动识别数据是否包含字节名称。设置好之后请点击 next。

选择需要导入的字节。在这里，我们知道鱼的编码与鱼的长度是无关的，因此我们可以将这一列数据排除。

点击 Next，我们可以进一步确认每一个字节的数据类型，并且这里我们提供了预览该数据集的功能。

点击运行，我们就会看见一个绿色的，名为 fish的数据集自动生成了。

3.2.2 查看数据

双击 fish 数据集，我们可以看见在页面的最下方有很多不同的选项卡。它们涵盖了Altair Knowledge Studio数据画像功能的重要部分。

比如说，在 overview report 选项卡中，点击 calculate all，可计算出常见的统计指标。% of Missing Values 可以选择每个字节的缺失值比例。如下图所示，三个字节均没有缺失值：

又比如，correlations 选项卡中，可计算三个变量之间的相关系数，可以看一下 age、temp 与 length 的相关程度，便于后续选择模型。

如果您想了解更多选项卡的功能展示，请直接联系[email protected] 获取更多资料。

3.2.3 异常值检验

因为线性回归模型对异常值极度敏感，极大异常值或极小异常值均会对模型造成不可预知的影响。检测数据是否存在异常值是建立每个线性回归模型的必须操作。

在 Altair Knowledge Studio 中，我们可以通过 Outlier Detector 节点完成此操作。在 Profile 栏中拖出 Outlier Detector, 并单机选中 fish 连线到 Outlier Detector。

双击该功能节点，我们可以看见目标数据和设定结果数据名。这里大家可以看见，我们提供了多种计算距离的方法。

根据不同的数据类型，和大家都这些检验方法的熟悉程度，大家可以自行选择不同算法。这里为了演示，我们接受默认算法。

点击下一步，选择我们需要检测的字节。

选好变量后，如果点击Next 再点击Run。同样的，这里会自动生成一个结果数据集。点开它，我们会发现，该数据中不存在异常值。

3.2.4 数据分箱

做预测分析时，我们通常会将数据集分成训练集和测试集。我们会用训练集来生成我们的模型结果，随后再用测试集来检测我们模型结果的好坏。

这里，我们可以通过 Manipulate 栏中的 Partition 节点将原数据集随机抽取70%的样本作为训练集，30%的样本作为测试集。

将 fish 数据集与 partition 相连，双击点开，点击 add。可先添加训练集，完成后再次点击 add，添加测试集。完成后点击 run。会出现两个数据集。

分箱结果会如下图所示：

3.2.5 拟合线性回归模型

我们基于训练集拟合线性回归模型。在models栏中选择linear regression。将fish_train数据集与该模型相连。

并双击Linear Regression模型节点：

在 dependent variable 中选择我们的被解释变量。红框的部分可以进行重要变量的选择，按照解释变量对被解释变量的影响程度进行选择，可以将对被解释变量影响不显著的变量剔除。而且用逐步选择也可一定程度上缓解多重共线。

在 independent variable 中将解释变量选入，这里可以选择是否一定包含该变量。若没有，则会根据变量重要性选择。点击 run。双击点开linear regression，可查看回归报告。

在 output to view 中选择 currently selected sequence，可看模型最终拟合情况。读者也可在该栏中选择其他选项来看一下单变量的结果。

最终结果如下图：

该表可以看出模型的拟合情况，其中Generalized R^2=0.855，F值为82.845，认为模型拟合程度较好，被解释变量的85.5%都可由这两个解释变量来解释

这一张表是方差分析的表，同样可以看出结果还是不错的。

Independent Variable Statistics 中表示的是解释变量的情况，其中 Model Parameter 表示的是其回归系数，后面是对变量是否显著进行的检验。其中P值均小于0.05，我们认为年龄和温度对鱼的长度是有显著影响的。

多重共线性检验

Variance Inflation Factors 是方差膨胀因子（VIF），VIF 越大，显示共线性越严重。经验判断方法表明：当0

这里年龄和温度的VIF均小于10，认为该模型不存在多重共线性。

最终模型结果为：

3.2.6 交叉验证

由于我们训练集只有41条数据。建模数据量的严重不足会出现模型过拟合问题。

过拟合指的是被创建出来的模型，仅仅在训练数据中变现良好，如果用在未知数据上，结果可能会很差。

这个时候我们可以通过交叉验证看是否存在过拟合现象。

交叉验证可以理解为：我们将原始数据复制成多个重复的样本，随后针对每一个样本做出分箱操作，建模并验证模型准确性。

通过这个步骤，我们可以让原始数据里面的每个记录都有机会作为建立模型的数据，与此同时，我们可以让每个记录都有机会作为验证模型的数据。

在 Evaluate 模块中选择 Cross Validation，将 fish_train 数据集和 linear regression 模型一起连过去，会发现该选项变蓝，双击点开。

这里 K-Fold validation 指的是我们准备复制多少次重复的样本，实施多少次类似的操作。这里我们选择默认值五次。随后点击 Next。

这张表可以修改各字节的名字。这里我们选择不修改。点击Run：

做完上述步骤后会出现一个html的report。双击点开：

从下面的结果途中，我们可以看到这五次验证的似然估计的均方误差（MSE）。发现每一次的MSE差别很大，说明之前模型拟合的不好，可能出现了过拟合现象。

接下来我们可能需要重新回到数据本身和模型本身，去调整参数，去更正数据再次建立别的预测模型。

3.2.7 模型部署

假设我们已经找到了适合的模型，我们想要将模型结果落地，以供业务使用。Altair Knowledge Studio 主要提供了两种不同方案。

第一种是将模型的结果生成不同的代码。这些代码可以轻松的轻松的嵌入企业自身的IT系统中实现二次开发。我们可以从 Action 模块中选择 Generate Code 节点。

根据模型不同，企业自身的IT环境不同，我们可以最多从以下的代码中进行选择，常见的有Java，Python，SQL, PMML等。

第二种是，我们可以将新的数据导入到 Altair Knowledge Studio 平台中，并利用建立好的模型进行新数据打分。同样的，我们可以从 Action 模块中选择 Scoring 节点。

在结果数据集中，我们可以找到对每一个记录的模型预测值，以及相应的预测原因。

4 结语

目前暂定下一篇会写逻辑回归模型，如果大家对数据分析或者模型感兴趣，关于数据分析这一块大家还对什么内容感兴趣，欢迎在文后留言交流，也欢迎大家提出意见和建议。

扫描下方二维码
可以免费申请试用Altair Knowledge Works：

5 关于Altair Knowledge Works™

自 2018 年底进入中国市场以来，Altair 数据分析软件平台Altair Knowledge Works （前身为 Datawatch）一直致力于为用户提供易于访问和使用的数据平台，助力用户做出更创新、更明智的决策和洞见。

Altair Knowledge Works是一个完整的数据分析平台，涵盖数据准备、数据分析与预测以及数据可视化。

在以“数据”为中心的产品链或者解决方案中，Altair Knowledge Works 的各个产品都是以面向终端用户应用为宗旨。Knowledge Works与各主流数据库、数据应用，各种格式的数据文件、数据通信协议有直接的接口和支持。

遍布全球的100多个国家的上万家不同规模的单位或企业都使用Datawatch的产品与服务，其中包括《财富》100强中的93家。

长按扫码关注 Altair Knowledge Works
公司网址：www.altair.com.cn
商务咨询：[email protected]
技术咨询：[email protected]
试用链接：https://web.altair.com/zh/da-free-trial

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码说私域人工智能小程序
摘要：本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合，阐述了链动2+1模式、AI智能名片和S2B2C商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来了新的机遇，提升了用户信任感、拓展了营销渠道，并实现了线上线下的完美融合。一、引言随着互联网技术的不断发展，社区团购作为一种新兴的商业模式，在满足消费者日常需
消息中间件有哪些常见类型 xmh-sxh-1314 java
消息中间件根据其设计理念和用途，可以大致分为以下几种常见类型：点对点消息队列（Point-to-PointMessagingQueues）：在这种模型中，消息被发送到特定的队列中，消费者从队列中取出并处理消息。队列中的消息只能被一个消费者消费，消费后即被删除。常见的实现包括IBM的MQSeries、RabbitMQ的部分使用场景等。适用于任务分发、负载均衡等场景。发布/订阅消息模型（Pub/Sub
放下是一段成长的修行小莳玥
人来到这个世界上，只有两件事：生和死。一件事已经做完了，另一件你还急什么呢?是人，都有七情六欲。是心，都有喜怒哀乐，这些再正常不过了。别总抱怨自己活得累，过得辛苦。永远记住：舒坦是留给死人的。苦，才是生活；累，才是工作；变，才是命运；忍，才是历练；容，才是智慧；静，才是修养；舍，才会得到；做，才会拥有。人生，活得太清楚，才是最大的不明白。有些事，看得很清，却说不清；有些人，了解很深，却猜不透；有些
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
LLM 词汇表落难Coder LLMs NLP 大语言模型大模型 llama 人工智能
Contextwindow“上下文窗口”是指语言模型在生成新文本时能够回溯和参考的文本量。这不同于语言模型训练时所使用的大量数据集，而是代表了模型的“工作记忆”。较大的上下文窗口可以让模型理解和响应更复杂和更长的提示，而较小的上下文窗口可能会限制模型处理较长提示或在长时间对话中保持连贯性的能力。Fine-tuning微调是使用额外的数据进一步训练预训练语言模型的过程。这使得模型开始表示和模仿微调数
直返最高等级与直返APP：无需邀请码的返利新体验古楼
随着互联网的普及和电商的兴起，直返模式逐渐成为一种流行的商业模式。在这种模式下，消费者通过购买产品或服务，获得一定的返利，并可以分享给更多的人。其中，直返最高等级和直返APP是直返模式中的重要概念和工具。本文将详细介绍直返最高等级的概念、直返APP的使用以及与邀请码的关系。【高省】APP（高佣金领导者）是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，运行三年，稳定可靠。高省APP，
2023-04-17|篮球女孩长一木
1小学抑或初中阶段，在课外书了解到她的故事。“篮球女孩”。当时佩服她的顽强，也对生命多了一丝敬畏。今天刚好在公众号看到，长大后的“篮球女孩”。佩服之余又满是心疼。网络侵删祝那素未蒙面的女孩，未来一切顺遂。
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
如何部分格式化提示模板:LangChain中的高级技巧 nseejrukjhad langchain java 服务器 python
标题:如何部分格式化提示模板:LangChain中的高级技巧内容:如何部分格式化提示模板:LangChain中的高级技巧引言在使用大型语言模型(LLM)时,提示工程是一个关键环节。LangChain提供了强大的提示模板功能,让我们能更灵活地构建和管理提示。本文将介绍LangChain中一个高级特性-部分格式化提示模板,这个技巧可以让你的提示管理更加高效和灵活。什么是部分格式化提示模板?部分格式化提
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
【华为OD技术面试真题 - 技术面】-测试八股文真题题库（1）算法大师华为od 面试 python 算法前端
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.黑盒测试和白盒测试的区别2.假设我们公司现在开发一个类似于微信的软件1.0版本，现在要你测试这个功能：打开聊天窗口，输入文本，限制字数在200字以内。问你怎么提取测试点。功能测试性能测试安全性测试可用性测试跨平台兼容性测试网络环境测试3.接口测试的工具你了解哪些
数据仓库——维度表一致性墨染丶eye 背诵数据仓库
数据仓库基础笔记思维导图已经整理完毕，完整连接为：数据仓库基础知识笔记思维导图维度一致性问题从逻辑层面来看，当一系列星型模型共享一组公共维度时，所涉及的维度称为一致性维度。当维度表存在不一致时，短期的成功难以弥补长期的错误。维度时确保不同过程中信息集成起来实现横向钻取货活动的关键。造成横向钻取失败的原因维度结构的差别，因为维度的差别，分析工作涉及的领域从简单到复杂，但是都是通过复杂的报表来弥补设计
18、架构-可观测性之聚合度量大树~~ 架构 java python 后端架构
聚合度量聚合度量是指对系统运行时产生的各种指标数据进行收集、聚合和分析，以了解系统的健康状况和性能表现。聚合度量是可观测性的关键组成部分，通过对度量数据的分析，可以及时发现系统中的异常和瓶颈。以下是对聚合度量各个方面的详细解析，并结合具体的数据案例和技术支撑。指标收集收集系统运行时产生的各种指标数据是聚合度量的基础。常见的指标包括CPU使用率、内存使用率、请求处理时间、请求数、错误率等。以下是指标
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Xinference如何注册自定义模型玩人工智能的辣条哥人工智能 AI 大模型 Xinference
环境：Xinference问题描述：Xinference如何注册自定义模型解决方案：1.写个model_config.json，内容如下{"version":1,"context_length":2048,"model_name":"custom-llama-3","model_lang":["en","ch"],"model_ability":["generate","chat"],"model
厉国刚：新闻学与传播学到底有何区别微观大道
厉国刚：新闻学与传播学到底有何区别头几天，有人在知乎上问我：新闻学与传播学到底有何区别。他是一位想要跨专业考研的学生，对新闻传播学学科可谓了解甚少，甚至一头雾水，想要让我帮他解释解释。在研究生学硕层面，新闻传播学是一级学科，分成新闻学、传播学这两个二级学科。有些高校，还自设了广告学、出版发行学等其他二级学科，但从官方角度，新闻传播学一级学科下，正统的就是那两个二级学科。招生时，一般会按一级学科招，
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
ios GCD _Waiting_
1.GCD任务和队列学习GCD之前，先来了解GCD中两个核心概念：任务和队列。任务：就是执行操作的意思，换句话说就是你在线程中执行的那段代码。在GCD中是放在block中的。执行任务有两种方式：同步执行（sync）和异步执行（async）。两者的主要区别是：是否等待队列的任务执行结束，以及是否具备开启新线程的能力。同步执行（sync）：同步添加任务到指定的队列中，在添加的任务执行结束之前，会一直等
希望和悲伤都是照亮我们人生的一缕光山月映雪
我开始并不想读《云边有个小卖部》，但看到好几个学生就都在读这本书，为了了解学生的阅读实际，我就拿起这本书翻看起来。读了十几页，发现小说的语言中不时有一些粗俗的字眼，感觉自己读不下去了。小说一开始把云边镇风景写的特别的美好，我错判为脱离现实的鸳鸯蝴蝶派小说，对于人为制造的童话世界的人与物，我真的不太感兴趣，所以就没有再读了。有天在教室闲转，顺手又拿起了这本书看了起来，这次我才真的看进去了。这部小说除
网络编程基础记得开心一点啊网络
目录♫什么是网络编程♫Socket套接字♪什么是Socket套接字♪数据报套接字♪流套接字♫数据报套接字通信模型♪数据报套接字通讯模型♪DatagramSocket♪DatagramPacket♪实现UDP的服务端代码♪实现UDP的客户端代码♫流套接字通信模型♪流套接字通讯模型♪ServerSocket♪Socket♪实现TCP的服务端代码♪实现TCP的客户端代码♫什么是网络编程网络编程，指网络上
Spring中@Value注解，需要注意的地方无量 spring bean @Value xml
Spring 3以后,支持@Value注解的方式获取properties文件中的配置值，简化了读取配置文件的复杂操作 1、在applicationContext.xml文件(或引用文件中)中配置properties文件 <bean id="appProperty" class="org.springframework.beans.fac
mongoDB 分片开窍的石头 mongodb
mongoDB的分片。要mongos查询数据时候先查询configsvr看数据在那台shard上，configsvr上边放的是metar信息，指的是那条数据在那个片上。由此可以看出mongo在做分片的时候咱们至少要有一个configsvr,和两个以上的shard（片）信息。第一步启动两台以上的mongo服务 &nb
OVER(PARTITION BY)函数用法 0624chenhong oracle
这篇写得很好，引自 http://www.cnblogs.com/lanzi/archive/2010/10/26/1861338.html OVER(PARTITION BY)函数用法 2010年10月26日 OVER(PARTITION BY)函数介绍开窗函数 &nb
Android开发中，ADB server didn't ACK 解决方法一炮送你回车库 Android开发
首先通知：凡是安装360、豌豆荚、腾讯管家的全部卸载，然后再尝试。一直没搞明白这个问题咋出现的，但今天看到一个方法，搞定了！原来是豌豆荚占用了 5037 端口导致。参见原文章：一个豌豆荚引发的血案——关于ADB server didn't ACK的问题简单来讲，首先将Windows任务进程中的豌豆荚干掉，如果还是不行，再继续按下列步骤排查。 &nb
canvas中的像素绘制问题换个号韩国红果果 JavaScript canvas
pixl的绘制，1.如果绘制点正处于相邻像素交叉线，绘制x像素的线宽，则从交叉线分别向前向后绘制x/2个像素，如果x/2是整数，则刚好填满x个像素，如果是小数，则先把整数格填满，再去绘制剩下的小数部分，绘制时，是将小数部分的颜色用来除以一个像素的宽度，颜色会变淡。所以要用整数坐标来画的话（即绘制点正处于相邻像素交叉线时），线宽必须是2的整数倍。否则会出现不饱满的像素。 2.如果绘制点为一个像素的
编码乱码问题灵静志远 java jvm jsp 编码
1、JVM中单个字符占用的字节长度跟编码方式有关，而默认编码方式又跟平台是一一对应的或说平台决定了默认字符编码方式；2、对于单个字符：ISO-8859-1单字节编码，GBK双字节编码，UTF-8三字节编码；因此中文平台(中文平台默认字符集编码GBK)下一个中文字符占2个字节，而英文平台(英文平台默认字符集编码Cp1252(类似于ISO-8859-1))。 3、getBytes()、getByte
java 求几个月后的日期 darkranger calendar getinstance
Date plandate = planDate.toDate(); SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd"); Calendar cal = Calendar.getInstance(); cal.setTime(plandate); // 取得三个月后时间 cal.add(Calendar.M
数据库设计的三大范式（通俗易懂） aijuans 数据库复习
关系数据库中的关系必须满足一定的要求。满足不同程度要求的为不同范式。数据库的设计范式是数据库设计所需要满足的规范。只有理解数据库的设计范式，才能设计出高效率、优雅的数据库，否则可能会设计出错误的数据库. 目前，主要有六种范式：第一范式、第二范式、第三范式、BC范式、第四范式和第五范式。满足最低要求的叫第一范式，简称1NF。在第一范式基础上进一步满足一些要求的为第二范式，简称2NF。其余依此类推。
想学工作流怎么入手 atongyeye jbpm
工作流在工作中变得越来越重要，很多朋友想学工作流却不知如何入手。很多朋友习惯性的这看一点，那了解一点，既不系统，也容易半途而废。好比学武功，最好的办法是有一本武功秘籍。研究明白，则犹如打通任督二脉。系统学习工作流，很重要的一本书《JBPM工作流开发指南》。本人苦苦学习两个月，基本上可以解决大部分流程问题。整理一下学习思路，有兴趣的朋友可以参考下。 1 首先要
Context和SQLiteOpenHelper创建数据库百合不是茶 android Context创建数据库
一直以为安卓数据库的创建就是使用SQLiteOpenHelper创建,但是最近在android的一本书上看到了Context也可以创建数据库,下面我们一起分析这两种方式创建数据库的方式和区别,重点在SQLiteOpenHelper 一:SQLiteOpenHelper创建数据库: 1,SQLi
浅谈group by和distinct bijian1013 oracle 数据库 group by distinct
group by和distinct只了去重意义一样，但是group by应用范围更广泛些，如分组汇总或者从聚合函数里筛选数据等。譬如：统计每id数并且只显示数大于3 select id ,count(id) from ta
vi opertion 征客丶 mac opration vi
进入 command mode （命令行模式）按 esc 键再按 shift + 冒号注：以下命令中带 $ 【在命令行模式下进行】，不带 $ 【在非命令行模式下进行】一、文件操作 1.1、强制退出不保存 $ q! 1.2、保存 $ w 1.3、保存并退出 $ wq 1.4、刷新或重新加载已打开的文件 $ e 二、光标移动 2.1、跳到指定行数字
【Spark十四】深入Spark RDD第三部分RDD基本API bit1129 spark
对于K/V类型的RDD,如下操作是什么含义？ val rdd = sc.parallelize(List(("A",3),("C",6),("A",1),("B",5)) rdd.reduceByKey(_+_).collect reduceByKey在这里的操作，是把
java类加载机制 BlueSkator java 虚拟机
java类加载机制 1.java类加载器的树状结构引导类加载器 ^ | 扩展类加载器 ^ | 系统类加载器 java使用代理模式来完成类加载，java的类加载器也有类似于继承的关系，引导类是最顶层的加载器，它是所有类的根加载器，它负责加载java核心库。当一个类加载器接到装载类到虚拟机的请求时，通常会代理给父类加载器，若已经是根加载器了，就自己完成加载。虚拟机区分一个Cla
动态添加文本框 BreakingBad 文本框
<script> var num=1; function AddInput() { var str=""; str+="<input
读《研磨设计模式》-代码笔记-单例模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ public class Singleton { } /* * 懒汉模式。注意，getInstance如果在多线程环境中调用，需要加上synchronized，否则存在线程不安全问题 */ class LazySingleton
iOS应用打包发布常见问题 chenhbc ios iOS发布 iOS上传 iOS打包
这个月公司安排我一个人做iOS客户端开发，由于急着用，我先发布一个版本，由于第一次发布iOS应用，期间出了不少问题，记录于此。 1、使用Application Loader 发布时报错：Communication error.please use diagnostic mode to check connectivity.you need to have outbound acc
工作流复杂拓扑结构处理新思路 comsci 设计模式工作算法企业应用 OO
我们走的设计路线和国外的产品不太一样，不一样在哪里呢？国外的流程的设计思路是通过事先定义一整套规则(类似XPDL)来约束和控制流程图的复杂度(我对国外的产品了解不够多，仅仅是在有限的了解程度上面提出这样的看法)，从而避免在流程引擎中处理这些复杂的图的问题，而我们却没有通过事先定义这样的复杂的规则来约束和降低用户自定义流程图的灵活性，这样一来，在引擎和流程流转控制这一个层面就会遇到很
oracle 11g新特性Flashback data archive daizj oracle
1. 什么是flashback data archive Flashback data archive是oracle 11g中引入的一个新特性。Flashback archive是一个新的数据库对象，用于存储一个或多表的历史数据。Flashback archive是一个逻辑对象，概念上类似于表空间。实际上flashback archive可以看作是存储一个或多个表的所有事务变化的逻辑空间。
多叉树:2-3-4树 dieslrae 树
平衡树多叉树,每个节点最多有4个子节点和3个数据项,2,3,4的含义是指一个节点可能含有的子节点的个数,效率比红黑树稍差.一般不允许出现重复关键字值.2-3-4树有以下特征: 1、有一个数据项的节点总是有2个子节点(称为2-节点) 2、有两个数据项的节点总是有3个子节点(称为3-节
C语言学习七动态分配 malloc的使用 dcj3sjt126com c language malloc
/* 2013年3月15日15:16:24 malloc 就memory(内存) allocate(分配)的缩写本程序没有实际含义，只是理解使用 */ # include <stdio.h> # include <malloc.h> int main(void) { int i = 5; //分配了4个字节静态分配 int * p
Objective-C编码规范[译] dcj3sjt126com 代码规范
原文链接 : The official raywenderlich.com Objective-C style guide 原文作者 : raywenderlich.com Team 译文出自 : raywenderlich.com Objective-C编码规范译者 : Sam Lau
0.性能优化-目录 frank1234 性能优化
从今天开始笔者陆续发表一些性能测试相关的文章，主要是对自己前段时间学习的总结，由于水平有限，性能测试领域很深，本人理解的也比较浅，欢迎各位大咖批评指正。主要内容包括：一、性能测试指标吞吐量、TPS、响应时间、负载、可扩展性、PV、思考时间 http://frank1234.iteye.com/blog/2180305 二、性能测试策略生产环境相同基准测试预热等 htt
Java父类取得子类传递的泛型参数Class类型 happyqing java 泛型父类子类 Class
import java.lang.reflect.ParameterizedType; import java.lang.reflect.Type; import org.junit.Test; abstract class BaseDao<T> { public void getType() { //Class<E> clazz =
跟我学SpringMVC目录汇总贴、PDF下载、源码下载 jinnianshilongnian springMVC
----广告-------------------------------------------------------------- 网站核心商详页开发掌握Java技术，掌握并发/异步工具使用，熟悉spring、ibatis框架；掌握数据库技术，表设计和索引优化，分库分表/读写分离；了解缓存技术，熟练使用如Redis/Memcached等主流技术；了解Ngin
the HTTP rewrite module requires the PCRE library 流浪鱼 rewrite
./configure: error: the HTTP rewrite module requires the PCRE library. 模块依赖性Nginx需要依赖下面3个包 1. gzip 模块需要 zlib 库 ( 下载: http://www.zlib.net/ ) 2. rewrite 模块需要 pcre 库 ( 下载: http://www.pcre.org/ ) 3. s
第12章 Ajax（中） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Optimize query with Query Stripping in Web Intelligence blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Optimize+query+with+Query+Stripping+in+Web+Intelligence and a very straightfoward video http://www.sdn.sap.com/irj/scn/events?rid=/library/uuid/40ec3a0c-936
Java开发者写SQL时常犯的10个错误 tomcat_oracle java sql
1、不用PreparedStatements 　　有意思的是，在JDBC出现了许多年后的今天，这个错误依然出现在博客、论坛和邮件列表中，即便要记住和理解它是一件很简单的事。开发者不使用PreparedStatements的原因可能有如下几个：　　他们对PreparedStatements不了解　　他们认为使用PreparedStatements太慢了　　他们认为写Prepar
世纪互联与结盟有感阿尔萨斯
10月10日，世纪互联与（Foxcon）签约成立合资公司，有感。全球电子制造业巨头（全球500强企业）与世纪互联共同看好IDC、云计算等业务在中国的增长空间，双方迅速果断出手，在资本层面上达成合作，此举体现了全球电子制造业巨头对世纪互联IDC业务的欣赏与信任，另一方面反映出世纪互联目前良好的运营状况与广阔的发展前景。众所周知，精于电子产品制造（世界第一），对于世纪互联而言，能够与结盟

【数据分析】从零开始带你了解商业数据分析模型——线性回归模型

【数据分析】从零开始带你了解商业数据分析模型——线性回归模型

1 摘要

2 线性回归模型

2.1 什么是回归

2.2 自变量与因变量

2.3 一元线性回归

2.4 多元线性回归

2.5 线性回归的优劣分析和模型假设

2.6 线性回归的商业实用案例

3 如何在Altair Knowledge Studio平台应用线性回归

3.1 为什么选择Altair Knowledge Studio

3.2 Altair Knowledge Studio线性回归

3.2.1 数据导入

3.2.2 查看数据

3.2.3 异常值检验

3.2.4 数据分箱

3.2.5 拟合线性回归模型

3.2.6 交叉验证

3.2.7 模型部署

4 结语

5 关于Altair Knowledge Works™

你可能感兴趣的:(【数据分析】从零开始带你了解商业数据分析模型——线性回归模型)