AvenueCyy

数据挖掘：数据清洗——数据噪声处理

数据挖掘：数据清洗——数据噪声处理

一、什么是数据噪声？

数据噪声(Noise)：数据集中的干扰数据（对场景描述不准确的数据），即测量变量中的随机误差或方差。

二、噪声数据与离群点的区别

观测量(Measurement) = 真实数据(True Data) + 噪声 (Noise)：而离群点(Outlier)属于观测量，既有可能是真实数据产生的，也有可能是噪声带来的，但是总的来说是和大部分观测量之间有明显不同的观测值。

数据噪声与离群点有很多相同的地方。之间没有太过明确的定义，主要看应用的场景。如在信用卡诈骗中，我们通常会关注那些少量的异常数据，此时数据是具有探索意义的。而在一般的场景下，离群点和噪声都需要剔除，一般使用的方法也有很多相似之处，如3标准差去噪，dbscan去噪，孤立森林等。

三、产生原因

同异常值，也有机器因素和人为因素。这里不做过多说明。

四、处理的必要性

对模型训练有影响很多算法，不仅会增加数据量，也会加大计算量，增加计算机内存和计算开销，也会增大计算误差。特别是线性算法，都是通过迭代来获取最优解的，如果数据中含有大量的噪声数据，将会大大的影响数据的收敛速度，甚至对于训练生成模型的准确也会有很大的副作用。

五、处理方法

常见的噪声数据的处理方法：

人工检查
统计模型；
分箱；
聚类；
回归。

5.1 人工检查

根据业务和对数据本身的理解，人为的进行数据筛选。

5.2 统计模型

对于正态数据，利用3个标准差原则进行去噪，或使用四分位差进行去噪。
对于偏态数据用分箱则效果更好。

5.3 分箱

分箱方法是一种简单常用的预处理方法，通过考察相邻数据来确定最终值。所谓“分箱”，实际上就是按照属性值划分的子区间，如果一个属性值处于某个子区间范围内，就称把该属性值放进这个子区间所代表的“箱子”内。把待处理的数据（某列属性值）按照一定的规则放进一些箱子中，考察每一个箱子中的数据，采用某种方法分别对各个箱子中的数据进行处理。
在采用分箱技术时，需要确定的两个主要问题就是：

如何分箱
如何对每个箱子中的数据进行平滑处理。

分箱的方法有4种：等深分箱法、等宽分箱法、用户自定义区间法和最小熵法。

5.3.1 分箱方法

例：客户收入属性income排序后的值（人民币元）：800 1000 1200 1500 1500 1800 2000 2300 2500 2800 3000 3500 4000 4500 4800 5000。

5.3.1.1 统一权重

也称等深分箱法，将数据集按记录行数分箱，每箱具有相同的记录数，每箱记录数称为箱子的深度。这是最简单的一种分箱方法。每个箱子的深度(箱内数据的个数)统一。

统一权重：设定权重（箱子深度）为4，分箱后

箱1：800 1000 1200 1500

箱2：1500 1800 2000 2300

箱3：2500 2800 3000 3500

箱4：4000 4500 4800 5000

5.3.1.2 统一区间

也称等宽分箱法，使数据集在整个属性值的区间上平均分布，即每个箱的区间范围是一个常量，称为箱子宽度。

统一区间：设定区间范围（箱子宽度）为1000元人民币，分箱后

箱1：800 1000 1200 1500 1500 1800

箱2：2000 2300 2500 2800 3000

箱3：3500 4000 4500

箱4：4800 5000

5.3.1.3 用户自定义区间

用户可以根据需要自定义区间，当用户明确希望观察某些区间范围内的数据分布时，使用这种方法可以方便地帮助用户达到目的。
用户自定义：如将客户收入划分为1000元以下、1000-2000、2000-3000、3000-4000和4000元以上几组，分箱后

箱1：800

箱2：1000 1200 1500 1500 1800 2000

箱3：2300 2500 2800 3000

箱4：3500 4000

箱5：4500 4800 5000

5.3.1.4 最小熵法

熵是不确定性的度量，最大熵原理的意思就是说我们在对结果进行推测时，要承认我们的无知，所以要最大化不确定性，以得到最客观的结果。而对于最小熵原理，则是要最小化每个分箱内的不确定性。跟下面介绍的聚类方法不一样，这里的无监督模型，是为了更好的分组，进而进行数据平滑处理。而后面的聚类是直接把噪声数据删除。
链接：最小熵原理

5.3.2 数据平滑方法

数据平滑方法又可以细分为：平均值平滑、边界值平滑和按中值平滑。
排序后的数据：4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34。以下例子按照等深分箱处理。

5.3.2.1 平均值平滑

对同一箱值中的数据求平均值，用平均值替代该箱子中的所有数据。

5.3.2.2 边界值平滑

用距离较小的边界值替代箱中每一数据。

5.3.2.3 中值平滑

取箱子的中值，用来替代箱子中的所有数据。

5.4 聚类

可以通过如聚类如k-means来检测离群点。聚类将类似的值组织成群或“簇”。那些落在簇之外的值（孤立点），这些孤立点被视为噪声。同离群点的处理方式。
k均值聚类法将观测值聚为k类，但在聚类过程中需要保证分箱的有序性：第一个分箱中所有观测值都要小于第二个分箱中的观测值，第二个分箱中所有观测值都要小于第三个分箱中的观测值，等等。

5.5 回归

可以用一个函数拟合数据来光滑数据。这种技术称之为回归。即让数据适合一个函数来平滑数据，通过建立数学模型来预测下一个数值。通过，包括线性回归和非线性回归。

线性回归涉及找出拟合两个属性(或变量)的“最佳”直线，使得一个属性可以用来预测另一个。
多元线性回归是线性回归的扩充，其中涉及的属性多余两个，并且数据拟合到一个多维曲面。

六、利用Python进行数据离散化

pandas中的cut(),qcut()用来把一组数据分割成离散的区间。

6.1 使用pd.cut()

pd.cut()，按照数据值的大小（从最大值到最小值进行等距划分）进行划分。每个间隔段里的间隔区间都是相同的，统一区间。

pandas.cut(x, bins, right=True, labels=None, retbins=False, precision=3, include_lowest=False, duplicates='raise')

参数含义
补充：duplicates：是否允许重复区间。有两种选择：raise：不允许，drop：允许。
返回值
out：一个pandas.Categorical, Series或者ndarray类型的值，代表分区后x中的每个值在哪个bin（区间）中，如果指定了labels，则返回对应的label。
bins：分隔后的区间，当指定retbins为True时返回。

import numpy as np
import pandas as pd

ages = np.array([1,5,10,40,36,12,58,62,77,89,100,18,20,25,30,32]) #年龄数据

# 将ages平分成5个区间，等宽分箱
pd.cut(ages, 5)
[(0.901, 20.8], (0.901, 20.8], (0.901, 20.8], (20.8, 40.6], (20.8, 40.6], ..., (0.901, 20.8], (0.901, 20.8], (20.8, 40.6], (20.8, 40.6], (20.8, 40.6]]
Length: 16
Categories (5, interval[float64]): [(0.901, 20.8] < (20.8, 40.6] < (40.6, 60.4] < (60.4, 80.2] < (80.2, 100.0]]

#将ages平分成5个区间并指定labels
pd.cut(ages, 5, labels=[u"婴儿",u"青年",u"中年",u"壮年",u"老年"])
[婴儿, 婴儿, 婴儿, 青年, 青年, ..., 婴儿, 婴儿, 青年, 青年, 青年]
Length: 16
Categories (5, object): [婴儿 < 青年 < 中年 < 壮年 < 老年]

# 给ages指定区间进行分割
pd.cut(ages, [0,5,20,30,50,100], labels=[u"婴儿",u"青年",u"中年",u"壮年",u"老年"])
[婴儿, 婴儿, 青年, 壮年, 壮年, ..., 青年, 青年, 中年, 中年, 壮年]
Length: 16
Categories (5, object): [婴儿 < 青年 < 中年 < 壮年 < 老年]

#返回分割后的bins,令retbins=True即可
pd.cut(ages, [0,5,20,30,50,100], labels=[u"婴儿",u"青年",u"中年",u"壮年",u"老年"],retbins=True)
([婴儿, 婴儿, 青年, 壮年, 壮年, ..., 青年, 青年, 中年, 中年, 壮年]
 Length: 16
 Categories (5, object): [婴儿 < 青年 < 中年 < 壮年 < 老年],
 array([  0,   5,  20,  30,  50, 100]))

#只返回x中的数据在哪个bin,令labels=False即可
#第一个0表示1在第0个bin中。
pd.cut(ages, [0,5,20,30,50,100], labels=False)
array([0, 0, 1, 3, 3, 1, 4, 4, 4, 4, 4, 1, 1, 2, 2, 3], dtype=int64)

df_cut['data'] = ages
df_cut['data_分组'] = pd.cut(ages,5)
df_cut['data_标签分组'] = pd.cut(ages,5,labels=[u"婴儿",u"青年",u"中年",u"壮年",u"老年"])
df_cut['data_标签组别'] = pd.cut(ages, [0,5,20,30,50,100], labels=False)

6.2 使用pd.qcut()

pd.qcut()，按照数据出现频率百分比划分，比如要把数据分为四份，则四段分别是数据的0-25%，25%-50%，50%-75%，75%-100%，每个间隔段里的元素个数都是相同的，统一权重。

pd.qcut(x, q, labels=None, retbins=False, precision=3, duplicates='raise')

# 将ages平分成5个区间
pd.qcut(ages,5)
[(0.999, 12.0], (0.999, 12.0], (0.999, 12.0], (36.0, 62.0], (25.0, 36.0], ..., (12.0, 25.0], (12.0, 25.0], (12.0, 25.0], (25.0, 36.0], (25.0, 36.0]]
Length: 16
Categories (5, interval[float64]): [(0.999, 12.0] < (12.0, 25.0] < (25.0, 36.0] < (36.0, 62.0] < (62.0, 100.0]]

# 查看区间内的数据个数，等深分箱
pd.qcut(ages,5).value_counts()
(0.999, 12.0]    4
(12.0, 25.0]     3
(25.0, 36.0]     3
(36.0, 62.0]     3
(62.0, 100.0]    3
dtype: int64

#将ages平分成5个区间并指定labels
pd.qcut(ages,5,labels=[u"婴儿",u"青年",u"中年",u"壮年",u"老年"])
[婴儿, 婴儿, 婴儿, 壮年, 中年, ..., 青年, 青年, 青年, 中年, 中年]
Length: 16
Categories (5, object): [婴儿 < 青年 < 中年 < 壮年 < 老年]

#返回分割后的bins,令retbins=True即可
pd.qcut(ages,5,labels=[u"婴儿",u"青年",u"中年",u"壮年",u"老年"],retbins=True)
[婴儿, 婴儿, 婴儿, 壮年, 中年, ..., 青年, 青年, 青年, 中年, 中年]
([婴儿, 婴儿, 婴儿, 壮年, 中年, ..., 青年, 青年, 青年, 中年, 中年]
 Length: 16
 Categories (5, object): [婴儿 < 青年 < 中年 < 壮年 < 老年],
 array([  1.,  12.,  25.,  36.,  62., 100.]))
 
#只返回x中的数据在哪个bin,令labels=False即可
#第一个0表示1在第0个bin中。
pd.cut(ages, 5, labels=False)
array([0, 0, 0, 1, 1, 0, 2, 3, 3, 4, 4, 0, 0, 1, 1, 1], dtype=int64)

df_qcut = pd.DataFrame()
df_qcut['data'] = ages
df_qcut['data_分组'] = pd.qcut(ages,5)
df_qcut['data_标签分组'] = pd.qcut(ages,5,labels=[u"婴儿",u"青年",u"中年",u"壮年",u"老年"])
df_qcut['data_标签组别'] = pd.qcut(ages, 5, labels=False)

七、总结

噪声和离群点之间有一定的差别，而具体的处理要看应用场景是什么。
存在数据噪声，会增大数据量，影响模型运行速度，并对准确率造成影响。
处理方法有

人工检查
统计模型；
分箱；
聚类；
回归。

对于分箱，可先使用pandas中的cut()和qcut()，进行分箱，然后通过mean(),median()编写数据平滑的函数，作为替代值。具体哪种分箱方式，要看应用的场景。如年龄，等宽分箱比较合理。
聚类和回归可使用sklearn中的包实现。其中回归通过对数据拟合预测的方式，来甄别噪声数据。

八、参考文献

https://blog.csdn.net/M_WBCG/article/details/79117085
https://blog.csdn.net/poi10086/article/details/82497065
https://blog.csdn.net/qq_32572085/article/details/89704051
https://www.zhihu.com/question/37506766
https://www.cnblogs.com/nicetoseeyou/p/10655422.html
https://www.cnblogs.com/sench/p/10128216.html
https://www.cnblogs.com/nicetoseeyou/p/10655422.html

你可能感兴趣的:(数据挖掘)

Python精进系列： K-Means 聚类算法调用库函数和手动实现对比分析进一步有进一步的欢喜 Python 精进系列算法 python kmeans
一、引言在机器学习领域，聚类分析是一种重要的无监督学习方法，用于将数据集中的样本划分为不同的组或簇，使得同一簇内的样本具有较高的相似性，而不同簇之间的样本具有较大的差异性。K-Means聚类算法是最常用的聚类算法之一，它以其简单性和高效性在数据挖掘、图像分割、模式识别等领域得到了广泛应用。本文将详细介绍K-Means聚类算法，并分别给出调用现成函数和不调用任何现成函数实现K-Means聚类的代码示
《数据挖掘导论》第二章数据爱吃草莓的西瓜酱数据挖掘导论数据挖掘
第二章数据数据类型数据质量数据预处理相似度测量数据Collectionofdataobjectsandtheirattributes特征值数值型的或者描述性的（男/女-->0/1）特征和特征值之间的区别：相同的属性可能被赋予不同的特征值，如身高的单位可能是米或者英尺不同的属性可以映射到相同的值集，如ID是无界的，age有最大值和最小值1.特征的类型Nominal（标称）Examples:IDnum
数据挖掘技术介绍柒柒钏数据挖掘数据挖掘人工智能
数据挖掘技术介绍分类聚类关联规则挖掘预测异常检测特征选择与降维文本挖掘序列模式挖掘深度学习集成学习数据挖掘（DataMining）是一种从大量数据中提取有用信息和模式的技术，旨在从数据中发现隐藏的规律、趋势或关系，从而为决策提供支持。分类定义：是一种监督学习方法，用于将数据分为不同的类别。功能：根据已标记的训练数据，学习一个模型，用于预测新数据的类别。方法：决策树、支持向量机、神经网络、逻辑回归、
Python爬虫学习笔记_DAY_26_Python爬虫之requests库的安装与基本使用【Python爬虫】_requests库ip 苹果Android开发组程序员 python 爬虫学习
最后Python崛起并且风靡，因为优点多、应用领域广、被大牛们认可。学习Python门槛很低，但它的晋级路线很多，通过它你能进入机器学习、数据挖掘、大数据，CS等更加高级的领域。Python可以做网络应用，可以做科学计算，数据分析，可以做网络爬虫，可以做机器学习、自然语言处理、可以写游戏、可以做桌面应用…Python可以做的很多，你需要学好基础，再选择明确的方向。这里给大家分享一份全套的Pytho
DeepSeek在供热行业中的应用杨航 AI 人工智能深度学习 python 机器学习算法
目录引言1.1DeepSeek技术概述1.2供暖行业业务挑战1.3DeepSeek在供暖行业的应用前景DeepSeek技术基础2.1深度学习与机器学习2.2自然语言处理（NLP）2.3图像识别与处理2.4数据挖掘与分析供暖行业应用场景3.1设备监控与维护3.1.1设备状态监控3.1.2故障预测与诊断3.1.3维护计划优化3.2能源管理与优化3.2.1能耗数据分析3.2.2热负荷预测3.2.3节能优
kaggle竞赛（初识）薛定谔的码* 人工智能
PART0:Kaggle介绍Kaggle是什么？答案很简单Kaggle是数据挖掘比赛火起来的，以至于中国兴起了很多很多类似的比赛；Kaggle是一个数据科学竞赛的平台，很多公司会发布一些接近真实业务的问题，吸引爱好数据科学的人来一起解决。Kaggle提供了一个介于“完美”与真实之间的过渡，问题的定义基本良好，却夹着或多或少的难点，一般没有完全成熟的解决方案。在参赛过程中与论坛上的其他参赛者互动，能
数据挖掘导论Pangaea-Ning Tan 读书笔记——（第一，二，三章）小黄人的黄数据挖掘数据挖掘
《数据挖掘导论》Pang-NingTan，MichaelSteinbach，VipinKumar读书笔记，第一章绪论数据挖掘任务预测任务描述任务分类任务回归任务聚类分析关联分析异常检测章节导读数据挖掘数据处理第2章第3章分类第4章决策树过拟合性能评估等第5章
数据挖掘|关联分析与Apriori算法详解皖山文武数据挖掘商务智能数据挖掘关联分析 Apriori算法机器学习
数据挖掘|关联分析与Apriori算法1.关联分析2.关联规则相关概念2.1项目2.2事务2.3项目集2.4频繁项目集2.5支持度2.6置信度2.7提升度2.8强关联规则2.9关联规则的分类3.Apriori算法3.1Apriori算法的Python实现3.2基于mlxtend库的Apriori算法的Python实现1.关联分析关联规则分析（Association-rulesAnalysis）是数
关联规则算法：揭秘数据中的隐藏关系，从理论到实战秋声studio 机器学习算法详解关联规则算法数据挖掘 Apriori算法 FP-Growth算法大数据优化数据预处理增量式更新
引言在当今数据驱动的时代，如何从海量数据中挖掘出有价值的信息成为了各行各业的核心挑战。关联规则算法作为数据挖掘领域的重要工具，能够帮助我们发现数据中隐藏的关联关系，从而为决策提供支持。无论是电商平台的商品推荐，还是医疗领域的疾病诊断，关联规则算法都展现出了强大的应用潜力。本文将从基础概念出发，逐步深入探讨关联规则算法的核心原理、经典算法及其优化策略。无论你是数据挖掘的初学者，还是希望进一步了解关联
OLAP与OLTP：数据处理系统的两种核心架构思静鱼 #Mysql-数据库架构
文章目录OLAP和OLTP的主要区别OLAP常见数据库和OLTP常见数据库OLAP是英文OnlineAnalyticalProcessing的缩写，中文称为联机分析处理。它是一种基于多维数据模型的分析处理技术，用于从不同的角度进行数据挖掘和分析，以帮助用户快速发现数据之间的相关性和趋势。OLAP技术通常涉及到预计算、缓存和查询优化等方面的技术，可用于构建在线分析系统（OLAP系统）。该系统将大量的
数据分析在宇宙观测中的重要性 AI天才研究院计算 ChatGPT DeepSeek R1 &大数据AI人工智能大模型 java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
数据分析在宇宙观测中的重要性关键词：数据分析、宇宙观测、数据预处理、数据挖掘、数据可视化摘要：本文将探讨数据分析在宇宙观测中的重要性，从数据分析在宇宙观测中的应用背景、重要性、面临的挑战与机遇以及未来发展趋势等方面进行深入分析，旨在为读者提供一个全面而详细的了解。引言第1章:分析数据与宇宙观测的关联1.1.1数据分析在宇宙观测中的应用背景宇宙观测是研究宇宙的结构、演化、性质以及各种物理现象的科学。
k-Shape：高效准确的聚类方法优化算法侠Swarm-Opti 信号处理故障诊断聚类机器学习人工智能 matlab 数据挖掘
引言时间数据在许多学科中的扩散和无处不在，已经对时间序列的分析和挖掘产生了极大的兴趣。聚类是最流行的数据挖掘方法之一，不仅因为它的探索性，而且作为其他技术的预处理步骤或子程序。常用的有-means聚类算法。本文介绍了一种新的时间序列聚类算法k-Shape。k-Shape依赖于一个可扩展的迭代优化过程，它创建同质和良好分离的集群。作为距离度量，k-Shape使用标准化的交叉相关。基于距离度量的性质，
信号处理应用：电力系统中的信号处理_（9）.基于电力系统信号的数据挖掘技术 kkchenkx 信号处理技术仿真模拟信号处理数据挖掘人工智能
基于电力系统信号的数据挖掘技术1.引言电力系统中的信号处理是一个重要的研究领域，涉及电力系统的监测、故障诊断、状态评估等多个方面。随着大数据和人工智能技术的发展，数据挖掘技术在电力系统中的应用越来越广泛。本节将介绍如何利用数据挖掘技术对电力系统中的信号进行处理和分析，以提高系统的可靠性和效率。2.电力系统中的信号类型在电力系统中，信号可以分为多种类型，包括：电压信号：反映电力系统的电压水平，用于检
语义检索-BAAI Embedding语义向量模型深度解析[1-详细版]：预训练至精通、微调至卓越、评估至精准、融合提升模型鲁棒性汀、人工智能 LLM工业级落地实践 embedding langchain 人工智能智能问答 RAG 检索增强生成大模型
语义检索-BAAIEmbedding语义向量模型深度解析[1-详细版]：预训练至精通、微调至卓越、评估至精准、融合提升模型鲁棒性语义向量模型（EmbeddingModel）已经被广泛应用于搜索、推荐、数据挖掘等重要领域。在大模型时代，它更是用于解决幻觉问题、知识时效问题、超长文本问题等各种大模型本身制约或不足的必要技术。然而，当前中文世界的高质量语义向量模型仍比较稀缺，且很少开源。为加快解决大模型
知识图谱与金融——基于知识图谱的风险监控与决策支持 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介知识图谱(KG)是一种用来表示大量互相关联数据的多维网络结构，它通过三元组（subject-predicate-object）的方式来表述实体之间的关系。它经常被用在文本分析、数据挖掘、推荐系统等领域。而随着金融行业对海量信息数据的需求越来越高，知识图谱技术也越来越受到重视。实际上，知识图谱已经成为构建和处理金融知识的重要工具之一。本文将探讨知识图谱在金融中的应
数据挖掘实战-基于Catboost算法的艾滋病数据可视化与建模分析艾派森数据挖掘实战合集 python 人工智能数据挖掘信息可视化数据分析
‍♂️个人主页：@艾派森的个人主页✍作者简介：Python学习者希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+目录1.项目背景2.数据集介绍
【数据仓库与数据挖掘基础】第一章概论/基础知识精神病不行计算机不上班数据仓库与数据挖掘基础数据挖掘数据仓库
知识点复习：事务（关于事务的一些知识点可以点这里）一、数据仓库的一些基本的知识1.从数据库到数据仓库1.1数据库用于事务处理1.1.1定义：事务处理是指对数据库中数据的操作，这些操作通常包括插入、更新、删除和查询等。事务处理的核心是确保数据的一致性和完整性。事务的定义：事务是数据库操作的基本单位，包含一组逻辑上相关的操作。事务要么全部成功，要么全部失败。ACID特性：原子性（Atomicity）：
特征缩放：统一量纲，提高模型性能 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战计算计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
特征缩放：统一量纲，提高模型性能1.背景介绍在机器学习和数据挖掘领域，我们经常会遇到不同特征之间量纲差异很大的情况。比如，一个数据集中可能包含年龄（0-100）、收入（0-100000）、身高（150-200cm）等不同尺度的特征。这种量纲不统一会给许多机器学习算法（如梯度下降）带来问题，导致收敛速度慢、模型性能差等。特征缩放（FeatureScaling）就是一种用于解决这个问题的常用数据预处理
80| Python可视化篇 —— Matplotlib数据可视化小刘要努力。 Python教程系列专栏可视化数据分析 python
文章目录Matplotlib和数据可视化安装matplotlib绘制折线图绘制散点图绘制正弦曲线绘制直方图使用Pygal绘制矢量图3D图Matplotlib和数据可视化数据的处理、分析和可视化已经成为Python近年来最为重要的应用领域之一，其中数据的可视化指的是将数据呈现为漂亮的统计图表，然后进一步发现数据中包含的规律以及隐藏的信息。数据可视化又跟数据挖掘和大数据分析紧密相关，而这些领域以及当下
社会科学市场博弈和价格预测之时间序列挖掘（Datawhale AI 夏令营）会飞的Anthony 人工智能人工智能
深入理解赛题——探索性数据分析首先，我们先介绍一下什么是EDA：探索性数据分析（ExploratoryDataAnalysis,EDA）是一组数据分析技术，旨在总结其主要特征，通常通过可视化手段来实现。EDA的目标是通过数据的统计摘要和图形展示来发现数据的结构、异常值、模式、趋势、关系以及变量之间的相互作用。为什么进行EDA？在现在的数据挖掘类比赛中，模型和方法选择空间往往很小，同时存在不少自动机
企业数据挖掘平台×DeepSeek强强联合，多种应用场景适用泰迪智能科技01 DeepSeek 数据挖掘人工智能
企业数据挖掘建模平台简单易用，可提供代码方便定制，全面培训服务+丰富模型参考+专业建模人员支持服务。在科技飞速发展的今天，人工智能领域的每一次突破都如同投入湖面的巨石，激起层层波澜。DeepSeek作为大模型领域的璀璨新星，以其卓越的技术实力和创新的应用模式，成为了全球瞩目的焦点，也为高校教育、企业发展都带来了前所未有的机遇与变革。当数据挖掘平台×DeepSeek强强联合，又会碰撞出怎样的火花呢？
2024年Python最新蓝桥杯基础练习全解答案+解析共17题 python，三年经验Python开发面经总结 2401_84139963 程序员 python 学习面试
最后Python崛起并且风靡，因为优点多、应用领域广、被大牛们认可。学习Python门槛很低，但它的晋级路线很多，通过它你能进入机器学习、数据挖掘、大数据，CS等更加高级的领域。Python可以做网络应用，可以做科学计算，数据分析，可以做网络爬虫，可以做机器学习、自然语言处理、可以写游戏、可以做桌面应用…Python可以做的很多，你需要学好基础，再选择明确的方向。这里给大家分享一份全套的Pytho
【数据挖掘】Pandas之DataFrame dundunmm 数据挖掘机器学习数据挖掘大数据人工智能 pandas 机器学习
在Pandas中，DataFrame提供了丰富的数据操作功能，包括查询、编辑、分类和汇总。1.数据查询（Filtering&Querying）1.1按索引或列名查询importpandasaspddata={"ID":[101,102,103,104,105],"Name":["Alice","Bob","Charlie","David","Eva"],"Age":[25,30,35,40,28]
学生行为习惯画像可视分析平台 AI智能涌现深度研究 AI大模型应用入门实战与进阶 java python javascript kotlin golang 架构人工智能
学生行为习惯，画像分析，可视化，机器学习，数据挖掘，教育科技1.背景介绍随着教育信息化进程的不断加速，海量教育数据正在被生成和积累。这些数据蕴含着丰富的学生行为信息，例如学习时间、学习内容、学习方式、学习效果等。有效挖掘和分析这些数据，能够帮助教育工作者深入了解学生的学习习惯和行为模式，从而为个性化教学、精准指导和学习效果提升提供重要支撑。然而，传统的教育数据分析方法往往局限于简单的统计描述，难以
用python制作简单的小游戏,用python设计一个小游戏 w12130826 pygame python 开发语言人工智能
本篇文章给大家谈谈python编写小游戏详细教程，以及用python制作简单的小游戏，希望对各位有所帮助，不要忘了收藏本站喔。Python为什么能这么火热？Python相对于其他语言来说比较简单，即使是零基础的普通人也能很快的掌握，在其他方面比如，处于灰色界的爬虫，要VIP的视频，小说，歌，没有爬虫解决不了的；数据挖掘及分析，淘宝就是例子，想开个淘宝店，需要获取相关商品信息，这时数据分析就能解决等
python和java的优缺点-java有哪些python没有的优点? weixin_37988176
Java和Python都是目前最火的后台语言。Java的使用时间更久，更成熟，Python语言更年轻，更便捷。两者各有各的优势：Python的优势：1.学起来简单，开发效率高，同样的功能用Java开发可能需要写200条代码，但是用Python只需要30~50条;2.在大数据挖掘方面有突出优势，是大数据分析首选的编程语言，Python可以让开发人员轻松表达概念，程序员维护和更新代码库更容易;3.Py
基于hive的电信离线用户的行为分析系统赵谨言论文经验分享毕业设计
标题:基于hive的电信离线用户的行为分析系统内容:1.摘要随着电信行业的快速发展，用户行为数据呈现出海量、复杂的特点。为了深入了解用户行为模式，提升电信服务质量和精准营销能力，本研究旨在构建基于Hive的电信离线用户行为分析系统。通过收集电信用户的通话记录、上网行为、短信使用等多源数据，利用Hive数据仓库工具进行数据存储和处理，采用数据挖掘和机器学习算法对用户行为进行分析。实验结果表明，该系统
从数据中挖掘洞见：初探数据挖掘的艺术与科学 Echo_Wish 大数据数据挖掘人工智能
从数据中挖掘洞见：初探数据挖掘的艺术与科学在当今信息爆炸的时代，我们每天都被海量数据所包围。这些数据不仅记录了我们每天的生活轨迹，还蕴含着无数潜在的模式和洞见。作为大数据领域的自媒体创作者，我笔名Echo_Wish，在这篇文章中，我将带领大家初探数据挖掘的奥秘，揭示如何从数据中寻找隐藏的模式。什么是数据挖掘？数据挖掘（DataMining），顾名思义，就是从大量数据中“挖掘”出有价值的信息和模式。
数据分析学习目录且行且安~ 数据分析进阶之路 #数据分析目录数据分析
在未来5个月里，将会陪伴大家一起来学习关于数据分析的相关内容，包括从数据思维，数据工具（Excel，Mysql，Hive，Python），数据方法论，数据展示（Tableau,BI），数据挖掘、数据实战项目一整套的内容，同步会将可能用到的以及有用的知识点整理出来。内容会慢慢更新。如下为数据分析的整个目录一、数据分析思维与方法论1.1、从0-1搭建指标体系、用户标签体系1.1.1、指标体系搭建-专项
【数据挖掘】异构图与同构图 dundunmm 数据挖掘深度学习数据挖掘知识图谱人工智能
在图论（GraphTheory）中，异构图（HeterogeneousGraph）和同构图（HomogeneousGraph）是两种不同的图结构概念，它们的主要区别在于节点和边的类型是否单一。1.异构图（HeterogeneousGraph）定义：异构图是指节点类型和/或边类型不同的图，通常用于建模具有多种实体和关系的复杂系统。例如，在社交网络、知识图谱、生物网络等领域，数据往往包含多个类别的实体
继之前的线程循环加到窗口中运行 3213213333332132 java thread JFrame JPanel
之前写了有关java线程的循环执行和结束，因为想制作成exe文件，想把执行的效果加到窗口上，所以就结合了JFrame和JPanel写了这个程序，这里直接贴出代码，在窗口上运行的效果下面有附图。 package thread; import java.awt.Graphics; import java.text.SimpleDateFormat; import java.util
linux 常用命令 BlueSkator linux 命令
1.grep 相信这个命令可以说是大家最常用的命令之一了。尤其是查询生产环境的日志，这个命令绝对是必不可少的。但之前总是习惯于使用（grep -n 关键字文件名）查出关键字以及该关键字所在的行数，然后再用（sed -n '100,200p' 文件名），去查出该关键字之后的日志内容。但其实还有更简便的办法，就是用（grep -B n、-A n、-C n 关键
php heredoc原文档和nowdoc语法 dcj3sjt126com PHP heredoc nowdoc
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body> <?
overflow的属性周华华 JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
《我所了解的Java》——总体目录 g21121 java
准备用一年左右时间写一个系列的文章《我所了解的Java》，目录及内容会不断完善及调整。在编写相关内容时难免出现笔误、代码无法执行、名词理解错误等，请大家及时指出，我会第一时间更正。 &n
[简单]docx4j常用方法小结 53873039oycg docx
本代码基于docx4j-3.2.0，在office word 2007上测试通过。代码如下: import java.io.File; import java.io.FileInputStream; import ja
Spring配置学习云端月影 spring配置
首先来看一个标准的Spring配置文件 applicationContext.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&q
Java新手入门的30个基本概念三 aijuans java 新手 java 入门
17.Java中的每一个类都是从Object类扩展而来的。　　18.object类中的equal和toString方法。　　equal用于测试一个对象是否同另一个对象相等。　　toString返回一个代表该对象的字符串,几乎每一个类都会重载该方法,以便返回当前状态的正确表示.(toString 方法是一个很重要的方法)　　 19.通用编程:任何类类型的所有值都可以同object类性的变量来代替。　
《2008 IBM Rational 软件开发高峰论坛会议》小记 antonyup_2006 软件测试敏捷开发项目管理 IBM 活动
我一直想写些总结,用于交流和备忘,然都没提笔,今以一篇参加活动的感受小记开个头,呵呵! 其实参加《2008 IBM Rational 软件开发高峰论坛会议》是9月4号,那天刚好调休.但接着项目颇为忙,所以今天在中秋佳节的假期里整理了下. 参加这次活动是一个朋友给的一个邀请书,才知道有这样的一个活动,虽然现在项目暂时没用到IBM的解决方案,但觉的参与这样一个活动可以拓宽下视野和相关知识.
PL/SQL的过程编程,异常,声明变量,PL/SQL块百合不是茶 PL/SQL的过程编程异常 PL/SQL块声明变量
PL/SQL; 过程; 符号; 变量; PL/SQL块; 输出; 异常; PL/SQL 是过程语言(Procedural Language)与结构化查询语言(SQL)结合而成的编程语言PL/SQL 是对 SQL 的扩展,sql的执行时每次都要写操作
Mockito(三)--完整功能介绍 bijian1013 持续集成 mockito 单元测试
mockito官网：http://code.google.com/p/mockito/，打开documentation可以看到官方最新的文档资料。一.使用mockito验证行为 //首先要import Mockito import static org.mockito.Mockito.*; //mo
精通Oracle10编程SQL(8)使用复合数据类型 bijian1013 oracle 数据库 plsql
/* *使用复合数据类型 */ --PL/SQL记录 --定义PL/SQL记录 --自定义PL/SQL记录 DECLARE TYPE emp_record_type IS RECORD( name emp.ename%TYPE, salary emp.sal%TYPE, dno emp.deptno%TYPE ); emp_
【Linux常用命令一】grep命令 bit1129 Linux常用命令
grep命令格式 grep [option] pattern [file-list] grep命令用于在指定的文件(一个或者多个,file-list)中查找包含模式串(pattern)的行,[option]用于控制grep命令的查找方式。 pattern可以是普通字符串，也可以是正则表达式，当查找的字符串包含正则表达式字符或者特
mybatis3入门学习笔记白糖_ sql ibatis qq jdbc 配置管理
MyBatis 的前身就是iBatis，是一个数据持久层(ORM)框架。 MyBatis 是支持普通 SQL 查询，存储过程和高级映射的优秀持久层框架。MyBatis对JDBC进行了一次很浅的封装。以前也学过iBatis，因为MyBatis是iBatis的升级版本，最初以为改动应该不大，实际结果是MyBatis对配置文件进行了一些大的改动，使整个框架更加方便人性化。
Linux 命令神器：lsof 入门 ronin47 lsof
lsof是系统管理/安全的尤伯工具。我大多数时候用它来从系统获得与网络连接相关的信息，但那只是这个强大而又鲜为人知的应用的第一步。将这个工具称之为lsof真实名副其实，因为它是指“列出打开文件（lists openfiles）”。而有一点要切记，在Unix中一切（包括网络套接口）都是文件。有趣的是，lsof也是有着最多
java实现两个大数相加，可能存在溢出。 bylijinnan java实现
import java.math.BigInteger; import java.util.regex.Matcher; import java.util.regex.Pattern; public class BigIntegerAddition { /** * 题目：java实现两个大数相加，可能存在溢出。 * 如123456789 + 987654321
Kettle学习资料分享，附大神用Kettle的一套流程完成对整个数据库迁移方法 Kai_Ge Kettle
Kettle学习资料分享 Kettle 3.2 使用说明书目录概述..........................................................................................................................................7 1.Kettle 资源库管
[货币与金融]钢之炼金术士 comsci 金融
自古以来,都有一些人在从事炼金术的工作.........但是很少有成功的那么随着人类在理论物理和工程物理上面取得的一些突破性进展...... 炼金术这个古老
Toast原来也可以多样化 dai_lm android toast
Style 1：默认 Toast def = Toast.makeText(this, "default", Toast.LENGTH_SHORT); def.show(); Style 2：顶部显示 Toast top = Toast.makeText(this, "top", Toast.LENGTH_SHORT); t
java数据计算的几种解决方法3 datamachine java hadoop ibatis r-langue r
4、iBatis 简单敏捷因此强大的数据计算层。和Hibernate不同，它鼓励写SQL，所以学习成本最低。同时它用最小的代价实现了计算脚本和JAVA代码的解耦，只用20%的代价就实现了hibernate 80%的功能,没实现的20%是计算脚本和数据库的解耦。复杂计算环境是它的弱项，比如：分布式计算、复杂计算、非数据
向网页中插入透明Flash的方法和技巧 dcj3sjt126com html Web Flash
将 Flash 作品插入网页的时候，我们有时候会需要将它设为透明，有时候我们需要在Flash的背面插入一些漂亮的图片，搭配出漂亮的效果……下面我们介绍一些将Flash插入网页中的一些透明的设置技巧。　　一、Swf透明、无坐标控制　　首先教大家最简单的插入Flash的代码，透明，无坐标控制：　　注意wmode="transparent"是控制Flash是否透明
ios UICollectionView的使用 dcj3sjt126com
UICollectionView的使用有两种方法，一种是继承UICollectionViewController，这个Controller会自带一个UICollectionView；另外一种是作为一个视图放在普通的UIViewController里面。个人更喜欢第二种。下面采用第二种方式简单介绍一下UICollectionView的使用。 1.UIViewController实现委托，代码如
Eos平台java公共逻辑蕃薯耀 Eos平台java公共逻辑 Eos平台 java公共逻辑
Eos平台java公共逻辑 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月1日 17:20:4
SpringMVC4零配置--Web上下文配置【MvcConfig】 hanqunfeng springmvc4
与SpringSecurity的配置类似，spring同样为我们提供了一个实现类WebMvcConfigurationSupport和一个注解@EnableWebMvc以帮助我们减少bean的声明。 applicationContext-MvcConfig.xml  <
解决ie和其他浏览器poi下载excel文件名乱码 jackyrong Excel
使用poi,做传统的excel导出，然后想在浏览器中，让用户选择另存为，保存用户下载的xls文件，这个时候，可能的是在ie下出现乱码（ie,9,10,11),但在firefox,chrome下没乱码，因此必须综合判断，编写一个工具类： /** * * @Title: pro
挥洒泪水的青春 lampcy 编程生活程序员
2015年2月28日，我辞职了，离开了相处一年的触控，转过身--挥洒掉泪水，毅然来到了兄弟连，背负着许多的不解、质疑——”你一个零基础、脑子又不聪明的人，还敢跨行业，选择Unity3D？“，”真是不自量力••••••“，”真是初生牛犊不怕虎•••••“，••••••我只是淡淡一笑，拎着行李----坐上了通向挥洒泪水的青春之地——兄弟连！这就是我青春的分割线，不后悔，只会去用泪水浇灌——已经来到
稳增长之中国股市两点意见-----严控做空，建立涨跌停版停牌重组机制 nannan408
对于股市，我们国家的监管还是有点拼的，但始终拼不过飞流直下的恐慌，为什么呢？笔者首先支持股市的监管。对于股市越管越荡的现象，笔者认为首先是做空力量超过了股市自身的升力，并且对于跌停停牌重组的快速反应还没建立好，上市公司对于股价下跌没有很好的利好支撑。我们来看美国和香港是怎么应对股灾的。美国是靠禁止重要股票做空，在
动态设置iframe高度(iframe高度自适应) Rainbow702 JavaScript iframe contentDocument 高度自适应局部刷新
如果需要对画面中的部分区域作局部刷新，大家可能都会想到使用ajax。但有些情况下，须使用在页面中嵌入一个iframe来作局部刷新。对于使用iframe的情况，发现有一个问题，就是iframe中的页面的高度可能会很高，但是外面页面并不会被iframe内部页面给撑开，如下面的结构： <div id="content"> <div id=&quo
用Rapael做图表 tntxia rap
function drawReport(paper,attr,data){ var width = attr.width; var height = attr.height; var max = 0; &nbs
HTML5 bootstrap2网页兼容（支持IE10以下） xiaoluode html5 bootstrap
<!DOCTYPE html> <html> <head lang="zh-CN"> <meta charset="UTF-8"> <meta http-equiv="X-UA-Compatible" content="IE=edge">

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他