EdmondSung

MA1 轻轻松松学统计分析（下）

分析：从蚕豆实验到6年销售数据

第二天，孩子乖乖地来找我，他说：“爸爸，今天我跟老师说了你的工作是做统计分析，老师听到后就发给我一些高年级的生物实验数据，希望帮他做些分析，看看两类实验结果有没有差异。你可以帮忙吗？”

蚕豆植物-双样本t-test

以下数据显示了某一化学物质在蚕豆10个剪枝植株和10个生根植株中的(比例)浓度。
有根:53 58 48 18 55 42 50 47 51 45
剪枝:36 33 40 43 25 38 41 46 34 29

我说:你可以同样用昨天学过的方法（如，柱状图）比较两组数。
孩子就按这个汇总了两个实验数据的分布，如下图所示：

我看了一下，说：“这个你应该也看得懂：上面那个实验数据有一个很明显的异常点——18。你应该要问老师，这个18是错误数据还是一个值得相信的数？如果18是不对的，很明显地，你能发现第一个实验中的平均浓度比下面高……”。当然，还有很多数据，并没有这么简单，我们就可以用一个叫“双样本t”的检验方式来比较两种数据是否有显著差异。但是如果有刚刚那种异常点，如直接用双样本 t 分析，因为第一组数据被那个18拉低了，结果很可能是两组没有显著差异。所以还是直接看数据的分布更实在。

我就给他总结一下：我们在统计学可以使用假设检验，其中包括双样本t检验比较,方差分析(ANOVA)等[详见附件A1,A2]，就是针对这类统计数据分析。但是针对这个实验的数据，你从统计图一眼就能看出有显著区分，就不需要再采用这些假设检验方法，因为采用那些技巧不会得出额外的信息。

我接着跟他说:有些时候统计数据不是连续数据，像学生成绩、浓度、高度等，而是分组数据。例如下面这些国外人种眼睛颜色与头发颜色的数据，这种数据我们就需要用列联表 (Contingency Table) 来看这两个分组的变量之间有没有关系。

头发和眼睛颜色的不同组合

592人的头发和眼睛颜色的不同组合：

B4表	Hair colour头发颜色
Eye colour眼睛颜色	Black黑	Brunette深褐	Red红	Blond金
Brown棕	68	119	26	7
Blue蓝	20	84	17	94
Hazel淡绿褐	15	54	14	10
Green绿	5	29	14	16

如果我们对上面 B4 表的数，加上每一行、每一列的总和，得出下面 B5 表，我们从每一列可看见，除了金发 (blond)那列例外，棕色(brown)眼睛的占大多（金发的大部分是蓝(blue)眼睛）。也看到金头发那列跟其他，如黑头发那列，分布不一样。比如我们看每行的话，也可以看到棕色眼睛跟蓝眼睛的数量差不多都是最多。但它们在金头发(blond)和黑头发(black)那列的分布就完全不同。统计分析的卡方检验[详见附件A3]也可以帮我们分析分组数据间有没有相关。但是像这类简单的4 X 4 数据表，只要计算出如B7表所示的列联表已经可以帮我们看到实际金发蓝眼睛数比预计多，反过来，实际金发棕眼睛数比预计少，卡方检验只告诉我们眼睛颜色与头发颜色之间有关，但其实我们在前面看B5 B7 已经知道，卡方检验没有带来额外有用信息。

实际(Obs.) 数量表:

B5表	Hair colour头发颜色
Eye colour眼睛颜色	Black黑	Brunette深褐	Red红	Blond金	Total
Brown棕	68	119	26	7	220
Blue蓝	20	84	17	94	215
Hazel淡绿褐	15	54	14	10	93
Green绿	5	29	14	16	64
Total	108	286	71	127	592

实际(Obs.) vs 预计(Exp.)列联表 Contingency Table:

B7表	Hair colour头发颜色
	Black黑		Brunette深褐		Red红		Blond金
Eye colour眼睛颜色	Obs.	Exp.	Obs.	Exp.	Obs.	Exp.	Obs.	Exp.	Total
Brown棕	68	40	119	106	26	26	7	47	220
Blue蓝	20	39	84	104	17	26	94	46	215
Hazel淡绿褐	15	17	54	45	14	11	10	20	93
Green绿	5	12	29	31	14	8	16	14	64
Total	108		286		71		127		592

销售数据——多元回归

表C.1显示了某原料六年来的销售额、每吨平均价格和广告支出的情况。找出销售额与单价、广告费之间的回归关系，并评价这些回归方程式。这些方程式能否表达价格水平和广告支出对销售的影响?你能想出另一种总结数据的方法吗?

表C.1	1979	1980	1981	1982	1983	1984	Average平均值
Sales销售( ￡million百万英镑),S	250	340	300	200	290	360	290
Price价格( ￡英镑),P	25	48	44	20	38	60	39
Advertising广告费( ￡’000 ),A	35	32	38	30	34	46	36

二元回归方程

你可以立马使用统计分析工具，求出二元回归方程 [详见附件A4]：
S = 4.26P - 1.48A + 176 , R2 =0.955

你觉得这条回归方程式有用吗？没用。
首先不应该只用六个点来求一条二元回归方程，数据不够，所以我们更要了解这种回归方程式的局限：这个例子也让我们可以看到两个相关因子产生的问题，例如：假设 P保持不变，增加 A， S应该会升，但以上的二元回归方程反而预测 S会下降。

所以- 1.48A（负数）不太合理，在二元回归中，因为因子之间相互影响，不能像单因子一元回归，可以这么简单地看参数正负。

应该怎么分析？
应从基本步骤开始，当X Y都是连续数据，可先用散点图画出X Y之间的关系。对 S 和 P 也画散点图，看关系；然后 S 和 A ；P 与 A 之间也要看。从这三个散点图可以看出S 和 P 有关系 A一直都比较稳定，但到最后一年，P和 A都升了很多， S 也升。

一元回归方程

得出 S与P的线性关系方程式：S = 140 + 3.84 P , R2 = 0.946

(R2越大代表这条线越能代表这些点，最高是1，代表这些点都在这条直线上面。)

同样对 S 与 A 做回归分析，但得出 R2 = 0.437 ，表示关系较弱。所以就不用 A，只利用 P 求回归方程。

也可以换个思路，用 V = S / P

得出 V与P的线性关系方程式：
V = 12.2 - 0.11 P , R2=0.932

回归分析的注意事项

注意：

我们可否利用以上回归方程来预测未来销售额？
不可以，尤其是如果广告预算有显著变化。因我们计算回归方程时，没有利用广告费建模。（总共才六组数据也太少）
问：下一步应如何完善回归分析？
答：要先了解公司的广告预算策略，例如，很多公司广告费是按销售的固定比例。但也可能因为怕销售额下降，增加广告预算。了解后，便可以加入其他影响因素（如，广告），然后再多收集数据并分析。

其他注意事项：

不能直接延伸，公式预测有适用范围
不应直接求公式，要先看看散点图关系

直线延伸 Extrapolation

上图是某业余长跑手的统计，可以看到跑20公里用130分钟，形成一条直线（每6分半一公里），但我们不能利用这条直线推论他跑30公里的时间是10公里的3倍，甚至全马（40KM）时间是10公里的4倍。因为后期会因为体力不足而越来越慢。肯定不是一条直线，估计应是弧线，但弧度多少必须有他到40公里的数据才能得知。

那么以前的历史数据就没有什么用吗？也不是，以往到20公里的数据可作为参考，只是不能简单当成直线延伸。

使用回归方程也一样，只能适用于有数据支持的范围。

4组数据的回归方程

有下面四组XY，每组11对数据，回归方程(甚至X或Y的平均偏差)都一样，但是如果我们把每组数据生成散点图看，便看出，除了第一组数据，其他三组都不能用直线回归分析。

以上是1973年统计学家发表的例子，所以我们不应盲目地输入一堆数字，一键求出回归方程,便以为得出回归方程式和相关指数便完事，必需先画出数据的散点图，看看两个变量的关系。

总结

上篇主要讲如何描述数据，这篇主要介绍数据分析，与解读(Interpret) , 例如：

分析方法	这篇实例
双样本t-test	蚕豆实验
卡方检验与列联表t	头发和眼睛颜色的不同组合
回归分析	原料销售

虽然计算机可以帮我们很快地分析数据，得出结论或者方程式，但也导致我们忽略了统计分析的根本：

先了解问题与背景，明确目标
确保收集数据的质量
初步数据分析

所以在我们对两组蚕豆实验（有根,剪枝）数据做t-test之前，应该先看看两组数据的分布图。
做卡方检验之前更重要是先利用列联表 (Contingency Table)，看看眼色与发色之间有什么关系。
做回归分析之前，必须先画散点图，看看两个变量之间的关系。

不要轻视上篇的数据描述性分析。

后记

去年一位小学生家长问：老师，你觉得小学生学编程有用吗？
答：小学生更重要是学数学，编程是辅助的工具。我是60后，初中时代还没有计算器，数学老师还给我们介绍他们那个时代怎么用计算尺(slide rule)来把两个数相乘。现代恰恰相反，问一个学生，1228+356 =？他立马就去打开手机计算器。在我那年代，都能直接用心算算出是 1584。统计分析也有同样的问题,正因为现在电脑软件太普遍，很多人一看见一堆数字，不先画图来看看分布，直接就套工具求方程式关系。从前面那些例子可以看到，这种只求方程式的思路很危险，因为很多假定可能不对，导致出来的结论错误、无效。

与项目经理一起分析敏捷迭代数据

十多年前，刚拿到六西格玛黑带，我会首先把数据输入电脑、用工具分析，看数据之间有什么关系。

现在，当客户从6至8个敏捷迭代项目中，收集了6 -8轮数据，首先我问他们数据是如何收集？是否可靠？然后会直接在白板上用水笔把各数据按每迭代，用不同颜色代表不同组，手画出每个项目的趋势，与他们项目经理一起讨论、判断，例如：数据范围是多少，是否稳定，需不需要细分...…

因数据量少，完全不需要用统计分析工具，大家一起看白板讨论效果更好。

美国软件工程顾问Gerald M WEINBERG 先生说过,“如果你的数据分析需要超过初中程度的话，你要想想这种分析是否有效？”

在CMMI高成熟度咨询时，常常有人问：我们在CMMI不是要求高层也用统计分析来管理吗？如何实现？
我这样解读：公司要做到高成熟度，不可能要求每个员工，包括高层都是六西格玛黑带、统计学博士。可能有些详细的分析需要很多统计的技巧，但是分析员最终要用一些老板听得懂的方式把那些结果分析出来，让他看得懂。但我看很多公司的统计分析员，只是沉迷于大数据，深度学习、AI等“高级”方法，以为无论什么数据，都可以使用统计分析，得出X-Y的关系方程式，反而忽略了一些基本道理:
如果你可以把你的分析结果跟你的孩子说得清，这种统计分析才算有效。

下篇分享统计分析如何用于软件开发管理，以数据说话，解决问题。

反馈

杭州高级经理：
这一篇很有意思，因为我是学经济的，统计学也是必修的一门学科，我在学习这门学科时，觉得是有点难度；但看了您写的这篇文章后觉得统计学其实还是蛮有乐趣，并且很实用，而且还可以运用到项目管理中去，让我大受启发！谢谢宋老师，每次学习您的文章，我总能学习到新的内容，受益匪浅

一位香港资深经理：
统计学真正发扬光大的时刻是二次大战，而应用得最多和可能最好的是在美国。当时美国利用留在本土的女性到工厂生产炮弹和子弹，他们利用统计学去测试每一批次生产的子弹质量，这是用来保障每粒子弹在枪膛中都能成为发射，不卡者、滑出、不爆等情况。同样的统计学方法就应用在生产管理上，相信这会对小孩引起兴趣。这也是提升和释放强大生产力。

杭州资深经理：
看了你的文章，我终于能理解您在我们CMMI5 的辅导和评估过程中反复强调的观念:

数据是用于分析的，一定要了解背景，基于什么目的，采集什么样的数据，做什么样的分析，用什么工具分析
并不是所有用工具跑出来的结果就是正确的，有些数据还是要经过人工筛选和处理，才有实际的意义
能用简单的方法，尽量不要把事情搞复杂 —— 这点特别受用

附件

A1: 2-sample T test

例：大学体育活动

假设:大学为男生提供的运动项目的平均数量大于为女生提供的，下面是随机抽样美国各大学为男女生提供的体育项目量，如果Alpha*=0.10，检验男女是否有显著差别。（假定，男女生数据的标准差都一样 δ1=δ2 = 3.3）

 * Alpha（显著性水平) 是指当零假定是真，但被拒绝的错误率。（也称为第I类错误） 

置信区间(Confidence interval) = 1 - alpha

Minitab

检验两个独立样本平均值之间是否有显著差异
零假设 - 两者没有显著差异

先看看两组的柱状图（minitab)：

统计-基本统计量-双样本T(2)

由于p值大于显著性水平，0.172> 0.05，所以不能拒绝零假设 - 两者没有显著差异。

A2: ANOVA

示例12-1每加仑汽油行驶

研究人员想看看三种不同类型的汽车:小型汽车（small）、轿车(sedans)和豪华汽车(luxury)在城市驾驶时的燃油经济性是否有差异。他随机抽样了四种小型汽车、五种轿车和三种豪华汽车。每加仑的英里数都都在下面列出。在α= 0.05时，检验三种平均值之间是否没有显著差异。[Source: US Environmental Protection Agency]

ANOVA 例子

1:零假设:三种不同类型的汽车:小型汽车、轿车和豪华汽车在城市驾驶时的燃油经济性平均值之间没有差异
2:也可用统计工具 Minitab 做 ANOVA分析，并算出P值=0.038 低于0.05 ，所以拒绝零假设，三类有显著差异

minitab

统计-方差分析-单因子（未堆叠存放）

A3: 卡方检验与列联表 Contingency table

一位研究人员希望了解医院和病人感染的数量之间是否有关系。我们随机抽取了3家医院，并报告了特定年份的感染人数。数据如下。

Hospital医院	Surgical site infections手术部位感染	Pneumonia infections肺炎感染	Bloodstream infections血行感染	Total合计
A	41 （50.30）	27 (27.81)	51 (40.89)	119
B	36（33.39）	3（18.46）	40（27.15）	79
C	169（162.31）	106（89.73）	109 （131.96）	384
Total	246	136	200	582

卡方检验例子

1:零假设:医院(Hospitals) 与感染种类(Infections) 之间没有相关

2：Degree of Freedom(DF)=(3-1)×(3-1)=4,从卡方参考列表,α=0.05对应的卡方关键值是9.488

3:首先使用以下公式计算每个列联表的预计值E(Expected Value)，得出E写在（）中

再用下面公式从预计值与实际值O(Observed value),计算卡方值：

4:得出卡方=30.7 ，比预估关键值（9.488）高，所以拒绝零假设，医院(Hospitals) 与感染种类(Infections) 之间相关

也可用统计工具 Minitab 得出卡方，算出P值低于0.05 ，所以拒绝零假设 :
统计-表格-卡方检验（工作表中双向表）

A4: Linear Regression

回归分析希望找出一条直线，它与每个点的距离的平方总和最小。

该如何做回归分析？

如果使用电脑程序，通过“最小二乘法”计算并绘制这条线。

计算相关系数R,使用下面的方程式。
通过使用方程式y=mx+b,确定斜率或线的y轴截距。

y截距是“最佳拟合线”穿过的在y轴上的点（在这一点，x=0）。
线的斜率（m）按照y的变化除以x的变化来计算（m=∆y/∆x）。斜率m也认作预测变量x的系数。
R2衡量回归方程能多好代表这些点，最理想状态， R2等于1，表示零误差，所有的点都在回归线上。

例10-1汽车租赁公司

以下为美国随机抽样六家汽车租赁公司最近一年的总收入（亿美元）。

解决方法

绘制散点图，如图10-2所示
确定是否存在关系。发现代理商拥有的汽车数量和公司的总收入之间似乎存在正线性关系。
代入公式，计算出R

结论：汽车租赁公司的汽车数量和它的年销售额之间有很强的正相关关系，也就是说，汽车租赁公司拥有的汽车越多，公司的年销售额就越多

也可以用 minitab

图形-散点图（回归分析）

也得出 R2 = 96.4% , 调整后 = 95.5%
Revenue (年销售额) = 0.396 + 0.106 x Cars (汽车数量)

References

1. GUTTAG, John V.: "Introduction to computation and programming using Python" MIT Press 2021
2. CHATFIELD, Chris : "Problem Solving: a statistician's guide 2/e" Chapman & Hall 1995
3. BLUMAN: Elementary Statistics 10/e

大模型RLHF强化学习笔记（一）：强化学习基础梳理Part1 Gravity! 大模型笔记大模型 LLM 算法机器学习强化学习人工智能
【如果笔记对你有帮助，欢迎关注&点赞&收藏，收到正反馈会加快更新！谢谢支持！】一、强化学习基础1.1Intro定义：强化学习是一种机器学习方法，需要智能体通过与环境交互学习最优策略基本要素：状态（State）：智能体在决策过程中需要考虑的所有相关信息（环境描述）动作（Action）：在环境中可以采取的行为策略（Policy）：定义了在给定状态下智能体应该选择哪个动作，目标是最大化智能体的长期累积奖
从零开始理解零样本学习：AI人工智能必学技术 AI天才研究院 Agentic AI 实战 AI人工智能与大数据 AI大模型企业级应用开发实战 ai
从零开始理解零样本学习：AI人工智能必学技术关键词：零样本学习、人工智能、机器学习、知识迁移、语义嵌入摘要：本文旨在全面深入地介绍零样本学习这一在人工智能领域具有重要意义的技术。首先阐述零样本学习的背景和基本概念，通过详细的解释和直观的示意图让读者建立起对零样本学习的初步认识。接着深入剖析其核心算法原理，结合Python代码进行详细说明，同时引入相关数学模型和公式并举例阐释。通过项目实战部分，带领
游戏研发高效利器：SVN资源动态项目管理解决方案还债大湿兄游戏项目管理
一、问题背景与解决方案传统资源分发痛点：人工打包耗时：平均每次版本发布需2小时版本隔离：不同团队无法同时使用多个版本资源冲突：美术/QA/策划资源版本不一致动态管理方案优势：二、系统核心流程//完整工作流控制器voidGameResourceManager::executeFullWorkflow(){//1.凭证验证if(!validateCredentials()){showError("认证
深入详解：决策树算法的概念、原理、实现与应用场景猿享天开算法决策树机器学习
深入详解：决策树算法的概念、原理、实现与应用场景决策树（DecisionTree）是机器学习中一种直观且广泛应用的监督学习算法，适用于分类和回归任务。其树形结构易于理解，特别适合初学者。本文将从概念、原理、实现到应用场景，全面讲解决策树，并通过流程图和可视化示例增强理解，通俗易懂，帮助小白快速掌握决策树算法相关知识。1.决策树的概念1.1什么是决策树？决策树通过一系列条件判断（决策节点）将输入数据
[Python]-基础篇1- 从零开始的Python入门指南踏雪无痕老爷子 Python python 开发语言
无论你是尚未接触编程的新手，还是想从其他语言转向Python的开发者，这篇文章都是你的入门课。一、Python是什么？Python是一种解释型、高级、通用型编程语言，以简洁明了、简单易用着称。它可以应用于网站开发、自动化脚本、数据分析、人工智能、系统操作等多种场景。二、如何安装Python步骤：访问Python官方网站选择目前最新的Python3.x版本下载Windows用户请务必勾选“AddPy
Python爬虫实战：全方位爬取知乎学习板块问答数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫学习开发语言 scrapy 游戏
1.项目背景与爬取目标知乎是中国最大的知识问答社区，聚集了大量高质量的学习资源和经验分享。爬取知乎“学习”板块的问答数据，可以为学习资料整理、舆情分析、推荐系统开发等提供数据支持。本项目目标：爬取“学习”话题下的热门问答列表抓取每个问答的标题、作者、回答内容、点赞数、评论数等详细信息实现动态加载内容的抓取，包含图片和富文本避免被反爬机制限制，保证数据采集稳定结合数据分析，为后续应用打基础2.知乎“
Python爬虫实战：爬取知乎问答与用户信息 Python爬虫项目 python 爬虫 php 数据分析开发语言开源
简介随着网络信息量的爆炸，如何有效获取有价值的内容，成为了数据分析、机器学习等领域的基础之一。爬虫作为数据采集的基本工具之一，常常被用来获取互联网上的公开数据。在这篇博客中，我们将结合最新的Python爬虫技术，详细讲解如何爬取知乎问答与用户信息。本文将会介绍：Python爬虫的基础知识知乎问答网页结构分析使用Python进行知乎数据爬取爬取知乎问答内容与用户信息如何处理和存储爬取的数据使用最新的
【机器学习&深度学习】反向传播机制
目录一、一句话定义二、类比理解三、为什重要？四、用生活例子解释：神经网络=烹饪机器人4.1第一步：尝一口（前向传播）4.2第二步：倒着推原因（反向传播）五、换成人工智能流程说一遍六、图示类比：找山顶（最优参数）七、总结一句人话八、PyTorch代码示例：亲眼看到每一层的梯度九、梯度=损失函数对参数的偏导数十、类比总结反向传播（Backpropagation）是神经网络中训练过程的核心机制，它就像“
Python 数据挖掘实战：关联规则与聚类分析，解锁数据价值的钥匙清水白石008 python Python题库 python 数据挖掘动画
Python数据挖掘实战：关联规则与聚类分析，解锁数据价值的钥匙引言在数字化浪潮席卷全球的今天，数据已成为企业和组织最重要的战略资产。海量数据蕴藏着巨大的价值，等待我们去挖掘和发现。数据挖掘(DataMining)，作为从海量数据中提取有价值知识和模式的关键技术，正日益受到各行各业的重视。它如同探矿者的火眼金睛，能够穿透数据的迷雾，发现隐藏在背后的规律和趋势，为商业决策、科学研究和社会发展提供强有
为什么90%企业的AI数据分析都失败了？奥威BI给出破局方案 qq_43696218 人工智能数据分析数据挖掘
一、引言：AI数据分析在数字化转型中的核心地位在当今企业全面数字化转型的背景下，‌AI数据分析已成为解锁业务增长潜力的关键钥匙。然而，市场上众多AI数据分析产品常陷入“伪需求场景”，看似前沿却难以真正落地。本文将深入探讨奥威BI如何通过其AI数据分析能力，突破伪需求，实现数据价值的最大化。二、AI数据分析：伪需求场景的挑战伪需求场景的定义与表现AI数据分析领域的伪需求场景，指的是那些表面创新实则难
BI+AI实战：我们如何用3秒完成车企供应链推演 qq_43696218 人工智能
一、BI+AI引领财务分析新纪元在财务数据分析领域，奥威BI+AI正以革命性的姿态颠覆传统。当金蝶、用友等工具仍深陷报表泥潭时，奥威BI+AI通过深度融合商业智能（BI）与人工智能（AI），实现了从滞后报表到实时洞察的飞跃。这不仅极大地提升了财务分析的效率，更为企业的战略决策提供了前所未有的精准支持。二、BI+AI的核心技术优势‌实时动态分析‌o奥威BI+AI摒弃了静态数据集，依托原始科目余额表实
Python编程：使用Opencv进行图像处理
【参考】https://github.com/opencv/opencv/tree/4.x/samples/pythonPython使用OpenCV进行图像处理OpenCV(OpenSourceComputerVisionLibrary)是一个开源的计算机视觉和机器学习软件库。下面将从基础到高阶介绍如何使用Python中的OpenCV进行图像处理。一、安装首先需要安装OpenCV库：pipinst
基于机器学习的智能文本分类技术研究与应用
在当今数字化时代，文本数据的爆炸式增长给信息管理和知识发现带来了巨大的挑战。从新闻文章、社交媒体帖子到企业文档和学术论文，海量的文本数据需要高效地分类和管理，以便用户能够快速找到所需信息。传统的文本分类方法主要依赖于人工规则和关键词匹配，这些方法不仅效率低下，而且难以应对复杂多变的文本内容。近年来，机器学习技术的快速发展为文本分类提供了一种高效、自动化的解决方案。一、机器学习在文本分类中的应用概述
《Python数据分析与挖掘实战》Chapter8中医证型关联规则挖掘笔记茫茫大地真干净机器学习 Python 数据挖掘
最近在学习《Python数据分析与挖掘实战》中的案例，写写自己的心得。代码分为两大部分：1.读取数据并进行聚类分析2.应用Apriori关联规则挖掘规律1.聚类部分函数分析：defprogrammer_1():datafile="C:/Users/longming/Desktop/chapter8/data/data.xls"processedfile="C:/Users/longming/Des
【机器学习与数据挖掘实战 | 医疗】案例18：基于Apriori算法的中医证型关联规则分析 Francek Chen 机器学习与数据挖掘实战机器学习数据挖掘 Apriori python 关联规则人工智能
【作者主页】FrancekChen【专栏介绍】⌈⌈⌈机器学习与数据挖掘实战⌋⌋⌋机器学习是人工智能的一个分支，专注于让计算机系统通过数据学习和改进。它利用统计和计算方法，使模型能够从数据中自动提取特征并做出预测或决策。数据挖掘则是从大型数据集中发现模式、关联和异常的过程，旨在提取有价值的信息和知识。机器学习为数据挖掘提供了强大的分析工具，而数据挖掘则是机器学习应用的重要领域，两者相辅相成，共同推动
Cursor MySQL MCP 完整操作配置指南 z日火开发分享 mcp cursor mysql
概述本指南帮助您在Windows环境下配置Cursor编辑器的MySQLMCP服务器，实现通过AI助手对数据库进行完整的增删改查操作。功能特性：✅自然语言数据库查询✅智能数据插入和更新✅安全的数据删除操作✅自动数据分析和报告生成快速配置1.环境检查#检查必要组件node--version#Node.js>=16mysql--version#MySQL5.7+cursor--version#Curs
AI助力基因数据分析：用Python玩转生命密码的秘密 Echo_Wish 前沿技术人工智能人工智能数据分析 python
AI助力基因数据分析：用Python玩转生命密码的秘密说到基因数据，听起来是不是感觉有点高大上？其实，基因数据分析正变得越来越“接地气”，而AI正是这条路上的神奇钥匙。今天，咱们就用Python聊聊如何利用AI技术做基因数据分析与建模，帮你破解生命的密码，找到疾病预测、个性化医疗的新路子。一、基因数据为何如此特别？基因组测序技术让我们能够获取人体细胞内数以百万计的DNA序列变异信息。但数据量巨大、
python做生物信息学分析_Python从零开始第五章生物信息学①提取差异基因吴敬欣 python做生物信息学分析
目前来说，做生物信息学的人越来越多，但是我觉得目前而言做生信的主要有三类人：老本行是做实验的，做生信可能是为了辅助研究或者是为了发paper(有非常多的临床生选择趟生信这波水)主要是做生信的，主要涵盖高通量测序数据分析，组学数据分析等等，专门从事生物学数据分析的这群人，其大部分也是本科生物狗作为强大的生力军，以调包写R，python为主。那么这群人就要熟悉看各种包的tutorial以及如何进行常规
用Python实现生信分析——功能预测详解写代码的M教授生信分析 python 开发语言
功能预测是生物信息学中的一项重要任务，通过分析基因或蛋白质序列的特征，推测它们的生物学功能。功能预测通常涉及多种方法，包括序列比对、基序识别、机器学习模型等。这些方法可以帮助科学家推断未知基因的功能，从而加速生物学研究的进展。1.功能预测的主要方法（1）同源性比对：通过将未知基因或蛋白质序列与数据库中的已知序列进行比对，识别出同源序列，并推测它们的功能。常用工具包括BLAST、HMMER等。（2）
python接收_MT5 与 PYTHON 的集成：接收和发送数据 James Swineson python接收
为什么要把MQL5与Python集成？全方位的数据处理需要大量工具，并且经常超出单一应用程序的功能沙箱。专用编程语言正在用于处理和分析数据，统计和机器学习。Python是数据处理的主要编程语言之一。一个非常有效的解决方案是利用语言的力量并包含函数库来开发交易系统。在两个或更多个程序之间实现交互存在众多不同的解决方案。套接字是最快速、最灵活的解决方案之一。网络套接字是计算机网络上进程间通信的端点。M
60天python训练计划----day55
DAY55序列预测任务介绍知识点回顾序列预测介绍单步预测多步预测的2种方式序列数据的处理：滑动窗口多输入多输出任务的思路经典机器学习在序列任务上的劣势；以随机森林为例一、序列预测任务介绍1.1序列预测是什么？我们之前接触到的结构化数据，它本身不具备顺序，我们认为每个样本之间独立无关，样本之间即使调换顺序，仍然不影响模型的训练。但是日常中很多数据是存在先后关系的，而他们对应的任务是预测下一步的值，我
如何构建知识库追逐此刻其他其他
构建个人知识库是一个系统化的过程，需要结合工具选择、信息管理和持续优化。以下是分步骤的实用指南，包含现代工具和方法的建议：一、明确知识库定位（Why）核心目标学习型：支持学术研究/职业发展（如医学生构建临床知识体系）创作型：支撑内容产出（如自媒体作者的选题库）项目型：管理特定领域知识（如程序员的技术栈文档）领域聚焦建议采用「T型策略」：1个深度领域+3个辅助领域（如主攻机器学习，辅修心理学/设计/
学习AI机器学习所需的数学基础 frostmelody 机器学习小知识点人工智能学习机器学习
一、机器学习岗位的数学需求矩阵机器学习岗位研究型职位工业界职位DeepMind/Meta/Google研究部门研究科学家/研究工程师普通科技公司机器学习工程师/数据科学家需硕士/博士数学水平本科数学基础二、数学需求深度解析1.研究型职位（需深度数学）学历要求：数学/物理/计算机/统计/工程本科基础硕士/博士优先（Kaggle调查显示博士占比高）薪资关联：学历与收入呈正相关2.工业界职位（基础数学）
数据与ChatBI
ChatBI的核心是让用户用自然语言（如“帮我看看这周的销售额走势”）直接获取数据分析结果，无需懂SQL或技术细节。整个过程就像AI“听懂”你的话、理解需求、生成查询、验证执行、并可视化展示结果。首先，ChatBI的系统架构图展示了整个流程的关键步骤。它从用户输入开始，经过多个AI模块处理，最终输出交互式报表。现在来一步步解析ChatBI的工作流程。1.语音/文字输入——解放双手的起点这是什么？一
基于ssm的创新创业项目管理系统 AI大模型应用之禅人工智能数学基础计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1创新创业项目管理的现状与挑战近年来，随着“大众创业、万众创新”的政策推动和社会氛围的日益浓厚，创新创业项目如雨后春笋般涌现。然而，项目的启动、执行、监控和评估等环节仍然面临着诸多挑战：信息分散，难以整合：项目信息分散在各个平台和部门，难以有效整合和共享，导致信息孤岛和沟通障碍。流程繁琐，效率低下：项目申报、审批、验收等流程繁琐，效率低下，浪费了大量的时间和精力。缺乏科学的评估体系
量子机器学习前沿：量子神经网络与混合量子-经典算法软考和人工智能学堂人工智能 #深度学习 Python开发经验量子计算
1.量子计算基础1.1量子比特与量子门importnumpyasnpfromqiskitimportQuantumCircuit,Aer,executefromqiskit.visualizationimportplot_histogram#单量子比特操作演示defsingle_qubit_demo():qc=QuantumCircuit(1)qc.h(0)#Hadamard门创建叠加态qc.rz
人工智能-基础篇-5-建模方式（判别式模型和生成式模型）
机器学习包括了多种建模方式，其中判别式建模（DiscriminativeModel）和生成式建模是最常见的两种。这两种建模方式都可以通过深度学习技术来实现，并用于创建不同类型的模型。简单来说：想要创建一个模型，依赖需求需要合适的建模方式来创建这个模型。通常建模方式主要分为两大类。一类是判别式模型，针对输入数据给出特定的输出。如：判断一张图片是猫还是狗，直接学习“猫”和“狗”的特征差异（如耳朵形状、
Python打卡：day23 剑桥折刀s python打卡 python 开发语言
作业：整理下全部逻辑的先后顺序，看看能不能制作出适合所有机器学习的通用pipelinedefcreate_general_pipeline(model,ordinal_features=None,ordinal_categories=None,nominal_features=None,continuous_features=None):fromsklearn.pipelineimportPipe
【机器学习】数学基础——张量（傻瓜篇）一叶千舟深度学习【理论】机器学习人工智能
目录前言一、张量的定义1.标量（0维张量）2.向量（1维张量）3.矩阵（2维张量）4.高阶张量（≥3维张量）二、张量的数学表示2.1张量表示法示例三、张量的运算3.1常见张量运算四、张量在深度学习中的应用4.1PyTorch示例：张量在神经网络中的运用五、总结：张量的多维世界延伸阅读前言在机器学习、深度学习以及物理学中，张量是一个至关重要的概念。无论是在人工智能领域的神经网络中，还是在高等数学、物
【机器学习实战】Datawhale夏令营2：深度学习回顾城主_全栈开发机器学习机器学习深度学习人工智能
#DataWhale夏令营#ai夏令营文章目录1.深度学习的定义1.1深度学习＆图神经网络1.2机器学习和深度学习的关系2.深度学习的训练流程2.1数学基础2.1.1梯度下降法基本原理数学表达步骤学习率α梯度下降的变体2.1.2神经网络与矩阵网络结构表示前向传播激活函数反向传播批处理卷积操作参数更新优化算法正则化初始化2.2激活函数Sigmoid函数:Tanh函数:ReLU函数(Rectified
多线程编程之join()方法周凡杨 java JOIN 多线程编程线程
现实生活中，有些工作是需要团队中成员依次完成的，这就涉及到了一个顺序问题。现在有T1、T2、T3三个工人，如何保证T2在T1执行完后执行，T3在T2执行完后执行？问题分析：首先问题中有三个实体，T1、T2、T3，因为是多线程编程，所以都要设计成线程类。关键是怎么保证线程能依次执行完呢？ Java实现过程如下： public class T1 implements Runnabl
java中switch的使用 bingyingao java enum break continue
java中的switch仅支持case条件仅支持int、enum两种类型。用enum的时候，不能直接写下列形式。 switch (timeType) { case ProdtransTimeTypeEnum.DAILY: break; default: br
hive having count 不能去重 daizj hive 去重 having count 计数
hive在使用having count()是，不支持去重计数 hive (default)> select imei from t_test_phonenum where ds=20150701 group by imei having count(distinct phone_num)>1 limit 10; FAILED: SemanticExcep
WebSphere对JSP的缓存周凡杨 WAS JSP 缓存
对于线网上的工程，更新JSP到WebSphere后，有时会出现修改的jsp没有起作用，特别是改变了某jsp的样式后，在页面中没看到效果，这主要就是由于websphere中缓存的缘故，这就要清除WebSphere中jsp缓存。要清除WebSphere中JSP的缓存，就要找到WAS安装后的根目录。现服务
设计模式总结朱辉辉33 java 设计模式
1.工厂模式 1.1 工厂方法模式 (由一个工厂类管理构造方法) 1.1.1普通工厂模式(一个工厂类中只有一个方法) 1.1.2多工厂模式(一个工厂类中有多个方法) 1.1.3静态工厂模式(将工厂类中的方法变成静态方法) &n
实例：供应商管理报表需求调研报告老A不折腾 finereport 报表系统报表软件信息化选型
引言随着企业集团的生产规模扩张，为支撑全球供应链管理，对于供应商的管理和采购过程的监控已经不局限于简单的交付以及价格的管理，目前采购及供应商管理各个环节的操作分别在不同的系统下进行，而各个数据源都独立存在，无法提供统一的数据支持；因此，为了实现对于数据分析以提供采购决策，建立报表体系成为必须。业务目标 1、通过报表为采购决策提供数据分析与支撑 2、对供应商进行综合评估以及管理，合理管理和
mysql 林鹤霄
转载源：http://blog.sina.com.cn/s/blog_4f925fc30100rx5l.html mysql -uroot -p ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: YES) [root@centos var]# service mysql
Linux下多线程堆栈查看工具(pstree、ps、pstack) aigo linux
原文：http://blog.csdn.net/yfkiss/article/details/6729364 1. pstree pstree以树结构显示进程$ pstree -p work | grep adsshd(22669)---bash(22670)---ad_preprocess(4551)-+-{ad_preprocess}(4552) &n
html input与textarea 值改变事件 alxw4616 JavaScript
// 文本输入框(input) 文本域(textarea)值改变事件 // onpropertychange(IE) oninput(w3c) $('input,textarea').on('propertychange input', function(event) { console.log($(this).val()) });
String类的基本用法百合不是茶 String
字符串的用法; // 根据字节数组创建字符串 byte[] by = { 'a', 'b', 'c', 'd' }; String newByteString = new String(by); 1,length() 获取字符串的长度 &nbs
JDK1.5 Semaphore实例 bijian1013 java thread java多线程 Semaphore
Semaphore类一个计数信号量。从概念上讲，信号量维护了一个许可集合。如有必要，在许可可用前会阻塞每一个 acquire()，然后再获取该许可。每个 release() 添加一个许可，从而可能释放一个正在阻塞的获取者。但是，不使用实际的许可对象，Semaphore 只对可用许可的号码进行计数，并采取相应的行动。 S
使用GZip来压缩传输量 bijian1013 java GZip
启动GZip压缩要用到一个开源的Filter：PJL Compressing Filter。这个Filter自1.5.0开始该工程开始构建于JDK5.0，因此在JDK1.4环境下只能使用1.4.6。 PJL Compressi
【Java范型三】Java范型详解之范型类型通配符 bit1129 java
定义如下一个简单的范型类， package com.tom.lang.generics; public class Generics<T> { private T value; public Generics(T value) { this.value = value; } }
【Hadoop十二】HDFS常用命令 bit1129 hadoop
1. 修改日志文件查看器 hdfs oev -i edits_0000000000000000081-0000000000000000089 -o edits.xml cat edits.xml 修改日志文件转储为xml格式的edits.xml文件，其中每条RECORD就是一个操作事务日志 2. fsimage查看HDFS中的块信息等 &nb
怎样区别nginx中rewrite时break和last ronin47
在使用nginx配置rewrite中经常会遇到有的地方用last并不能工作，换成break就可以，其中的原理是对于根目录的理解有所区别，按我的测试结果大致是这样的。 location / { proxy_pass http://test;
java-21.中兴面试题输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等于 m bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; public class CombinationToSum { /* 第21 题 2010 年中兴面试题编程求解：输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等
eclipse svn 帐号密码修改问题开窍的石头 eclipse SVN svn帐号密码修改
问题描述： Eclipse的SVN插件Subclipse做得很好，在svn操作方面提供了很强大丰富的功能。但到目前为止，该插件对svn用户的概念极为淡薄，不但不能方便地切换用户，而且一旦用户的帐号、密码保存之后，就无法再变更了。解决思路：删除subclipse记录的帐号、密码信息，重新输入
[电子商务]传统商务活动与互联网的结合 comsci 电子商务
某一个传统名牌产品，过去销售的地点就在某些特定的地区和阶层，现在进入互联网之后，用户的数量群突然扩大了无数倍，但是，这种产品潜在的劣势也被放大了无数倍，这种销售利润与经营风险同步放大的效应，在最近几年将会频繁出现。。。。如何避免销售量和利润率增加的
java 解析 properties-使用 Properties-可以指定配置文件路径 cuityang java properties
#mq xdr.mq.url=tcp://192.168.100.15:61618; import java.io.IOException; import java.util.Properties; public class Test { String conf = "log4j.properties"; private static final
Java核心问题集锦 darrenzhu java 基础核心难点
注意，这里的参考文章基本来自Effective Java和jdk源码 1)ConcurrentModificationException 当你用for each遍历一个list时，如果你在循环主体代码中修改list中的元素，将会得到这个Exception，解决的办法是： 1)用listIterator, 它支持在遍历的过程中修改元素， 2)不用listIterator, new一个
1分钟学会Markdown语法 dcj3sjt126com markdown
markdown 简明语法基本符号 *,-,+ 3个符号效果都一样，这3个符号被称为 Markdown符号空白行表示另起一个段落 `是表示inline代码，tab是用来标记代码段，分别对应html的code，pre标签换行单一段落( <p>) 用一个空白行连续两个空格会变成一个 <br> 连续3个符号，然后是空行
Gson使用二（GsonBuilder） eksliang json gson GsonBuilder
转载请出自出处：http://eksliang.iteye.com/blog/2175473 一.概述 GsonBuilder用来定制java跟json之间的转换格式二.基本使用实体测试类：温馨提示：默认情况下@Expose注解是不起作用的,除非你用GsonBuilder创建Gson的时候调用了GsonBuilder.excludeField
报ClassNotFoundException: Didn't find class "...Activity" on path: DexPathList gundumw100 android
有一个工程，本来运行是正常的，我想把它移植到另一台PC上，结果报： java.lang.RuntimeException: Unable to instantiate activity ComponentInfo{com.mobovip.bgr/com.mobovip.bgr.MainActivity}: java.lang.ClassNotFoundException: Didn't f
JavaWeb之JSP指令 ihuning javaweb
要点 JSP指令简介 page指令 include指令 JSP指令简介 JSP指令（directive）是为JSP引擎而设计的，它们并不直接产生任何可见输出，而只是告诉引擎如何处理JSP页面中的其余部分。 JSP指令的基本语法格式： <%@ 指令属性名="
mac上编译FFmpeg跑ios 啸笑天 ffmpeg
1、下载文件：https://github.com/libav/gas-preprocessor，复制gas-preprocessor.pl到/usr/local/bin/下，修改文件权限：chmod 777 /usr/local/bin/gas-preprocessor.pl 2、安装yasm-1.2.0 curl http://www.tortall.net/projects/yasm
sql mysql oracle中字符串连接 macroli oracle sql mysql SQL Server
有的时候，我们有需要将由不同栏位获得的资料串连在一起。每一种资料库都有提供方法来达到这个目的： MySQL: CONCAT() Oracle: CONCAT(), || SQL Server: + CONCAT() 的语法如下： Mysql 中 CONCAT(字串1, 字串2, 字串3, ...): 将字串1、字串2、字串3，等字串连在一起。请注意，Oracle的CON
Git fatal: unab SSL certificate problem: unable to get local issuer ce rtificate qiaolevip 学习永无止境每天进步一点点 git 纵观千象
// 报错如下： $ git pull origin master fatal: unable to access 'https://git.xxx.com/': SSL certificate problem: unable to get local issuer ce rtificate // 原因：由于git最新版默认使用ssl安全验证，但是我们是使用的git未设
windows命令行设置wifi surfingll windows wifi 笔记本wifi
还没有讨厌无线wifi的无尽广告么，还在耐心等待它慢慢启动么教你命令行设置笔记本电脑wifi： 1、开启wifi命令 netsh wlan set hostednetwork mode=allow ssid=surf8 key=bb123456 netsh wlan start hostednetwork pause 其中pause是等待输入，可以去掉 2、
Linux（Ubuntu）下安装sysv-rc-conf wmlJava linux ubuntu sysv-rc-conf
安装：sudo apt-get install sysv-rc-conf 使用：sudo sysv-rc-conf 操作界面十分简洁，你可以用鼠标点击，也可以用键盘方向键定位，用空格键选择，用Ctrl+N翻下一页，用Ctrl+P翻上一页，用Q退出。背景知识 sysv-rc-conf是一个强大的服务管理程序，群众的意见是sysv-rc-conf比chkconf
svn切换环境，重发布应用多了javaee标签前缀 zengshaotao javaee
更换了开发环境，从杭州，改变到了上海。svn的地址肯定要切换的，切换之前需要将原svn自带的.svn文件信息删除，可手动删除，也可通过废弃原来的svn位置提示删除.svn时删除。然后就是按照最新的svn地址和规范建立相关的目录信息，再将原来的纯代码信息上传到新的环境。然后再重新检出，这样每次修改后就可以看到哪些文件被修改过，这对于增量发布的规范特别有用。检出