机器学习数据预处理代码汇总（最新更新20年3月1日）

1.描述性统计

2. 数据清洗

参考链接（感谢）

机器学习数据预处理代码汇总（最新更新20年3月1日）

1.描述性统计

2. 数据清洗

参考链接（感谢）

1.1 数据基本信息

1.2 数值计算

2.1 缺失值处理

2.2 异常值处理

2.3 非数值类型处理

2.4 时间序列

1.1 数据基本信息

1.2 数值计算

2.1 缺失值处理

2.2 异常值处理

2.3 非数值类型处理

2.4 时间序列

1.1.1 数据每个维度在计算机中的存储信息

1.1.2 数据的均值、标准差、分位点、最小值、最大值、方差

1.1.3 线性相关系数（皮尔森相关系数）

1.1.4 协方差矩阵

1.1.5 方差、中位数、众数

1.2.1 本列所有值累加、累乘

2.1.1 确定值填充

2.1.2 参考当前列其他值填充

2.1.3 删除行

2.1.4 拉格朗日插值法填充

2.2.1 根据确定条件筛选数据

2.2.2 根据正态分布3∂原则异常值检测

2.2.3 Z-score 异常值检测

2.2.4 基于MAD的Z-score 异常值检测

2.2.5 数据倾斜处理（偏度）

2.3.1 字符特征离散化（one-hot编码）

2.4.1 数据重采样

1.1.1 数据每个维度在计算机中的存储信息

1.1.2 数据的均值、标准差、分位点、最小值、最大值、方差

1.1.3 线性相关系数（皮尔森相关系数）

1.1.4 协方差矩阵

1.1.5 方差、中位数、众数

1.2.1 本列所有值累加、累乘

2.1.1 确定值填充

2.1.2 参考当前列其他值填充

2.1.3 删除行

2.1.4 拉格朗日插值法填充

2.2.1 根据确定条件筛选数据

2.2.2 根据正态分布3∂原则异常值检测

2.2.3 Z-score 异常值检测

2.2.4 基于MAD的Z-score 异常值检测

2.2.5 数据倾斜处理（偏度）

2.3.1 字符特征离散化（one-hot编码）

2.4.1 数据重采样

你可能感兴趣的:(人工智能,数据分析)

呆萌的代Ma

这篇博客用一个pandas的DataFrame类型的数据为例，字段名为了不与任何第三方库混淆，我们叫他 dataframe

这篇博客没有长篇大论，就是希望能够让大家直接复制代码，然后把dataframe变量改为自己的dataframe变量后立竿见影得到预期结果。

博客大多数的用例dataframe，运行 dataframe.head() 可以看到类似这样的样子，它源于真实数据：

	tbi_value	tsi	bci	bpi	bdi	bsi	mask
0	871.38	806.73	1523	854	782	768	0
1	875.55	807.63	1516	852	787	788	0
2	874.53	817.04	1515	858	798	810	0
3	874.61	817.56	1506	873	812	841	1
4	870.45	817.39	1503	889	824	864	1

import numpy as np
import pandas as pd

1.描述性统计

1.1 数据基本信息

1.1.1 数据每个维度在计算机中的存储信息

1.1.2 数据的均值、标准差、分位点、最小值、最大值、方差

1.1.3 线性相关系数（皮尔森相关系数）

1.1.4 协方差矩阵

1.1.5 方差、中位数、众数

1.2 数值计算

1.2.1 本列所有值累加、累乘

2. 数据清洗

2.1 缺失值处理

2.1.1 确定值填充

2.1.2 参考当前列其他值填充

2.1.3 删除行

2.1.4 拉格朗日插值法填充

2.2 异常值处理

2.2.1 根据确定条件筛选数据

2.2.2 根据正态分布3∂原则异常值检测

2.2.3 Z-score 异常值检测

2.2.4 基于MAD的Z-score 异常值检测

2.2.5 数据倾斜处理（偏度）

2.3 非数值类型处理

2.3.1 字符特征离散化（one-hot编码）

2.4 时间序列

2.4.1 数据重采样

参考链接（感谢）

dataframe.info()

可以看到下面这个输出：
  # 表示是DataFrame类
RangeIndex: 1647 entries, 0 to 1646    # 行的index的值域
Data columns (total 7 columns):        # 一共有多少列
tbi_value    1647 non-null float64     # 下面是每一列的描述， 列名称 | 多少个非空的值 | 值类型
tsi          1647 non-null float64
bci          1647 non-null int64
bpi          1647 non-null int64
bdi          1647 non-null int64
bsi          1647 non-null int64
mask         1647 non-null int32
dtypes: float64(2), int32(1), int64(4) # 这是统计每个类型的总个数
memory usage: 83.7 KB                  # 这是内存占用，83.7k只占了非常少

dataframe.describe()

可以看到下面这个输出：

	tbi_value	tsi	bci	bpi	bdi	bsi	mask
count	1647	1647	1647	1647	1647	1647	1647
mean	720.862125	645.353297	1683.73224	1022.375228	1016.361263	850.625987	0.477231
std	176.724807	129.814479	862.435869	373.262046	360.824353	220.219328	0.499633
min	328.8	391.14	161	282	295	247	0
25%	571.69	533.895	1104	727	751	694	0
50%	758.21	640.19	1544	984	966	873	0
75%	843.475	750.16	2198	1307	1204.5	989	1
max	1251.13	979.47	4329	2096	2337	1562	1

其中 mean表示平均值，std为标准差，25%，50%，75%都是四分位点的值。

dataframe.corr()

	tbi_value	tsi	bci	bpi	bdi	bsi	mask
tbi_value	1	0.852856	0.763435	0.736944	0.83917	0.841345	-0.052892
tsi	0.852856	1	0.473282	0.457007	0.535706	0.696586	-0.060913
bci	0.763435	0.473282	1	0.693459	0.91269	0.633547	-0.022511
bpi	0.736944	0.457007	0.693459	1	0.887674	0.820403	-0.005235
bdi	0.83917	0.535706	0.91269	0.887674	1	0.832272	-0.019859
bsi	0.841345	0.696586	0.633547	0.820403	0.832272	1	-0.036575
mask	-0.052892	-0.060913	-0.022511	-0.005235	-0.019859	-0.036575	1
max	1251.13	979.47	4329	2096	2337	1562	1

值域为【-1，1】，越靠近-1则是负相关，越靠近1则是正相关，越靠近0则越无关；

dataframe.cov()

	tbi_value	tsi	bci	bpi	bdi	bsi	mask
tbi_value	31231.65755	19565.75481	116358.0163	48612.2877	53511.05415	32743.63278	-4.670225
tsi	19565.75481	16851.79894	52987.08238	22144.1779	25092.58877	19913.7606	-3.950785
bci	116358.0163	52987.08238	743795.6287	223234.4268	284017.9467	120326.3567	-9.700207
bpi	48612.2877	22144.1779	223234.4268	139324.5554	119553.7344	67436.73277	-0.976263
bdi	53511.05415	25092.58877	284017.9467	119553.7344	130194.2139	66132.73362	-3.580166
bsi	32743.63278	19913.7606	120326.3567	67436.73277	66132.73362	48496.55262	-4.024317
mask	-4.670225	-3.950785	-9.700207	-0.976263	-3.580166	-4.024317	0.249633
max	1251.13	979.47	4329	2096	2337	1562	1

这里协方差：大于0，就是正相关；小于0，就是负相关；等于0，就是完全无关；

绝对值越大，表示相关性的程度也越大（关联性越强），财务管理中有句话叫“协方差越小风险越低”，就是意味着这个变量对大局影响很小。

方差：

dataframe.var()

中位数：

dataframe.median()

众数：

dataframe.mode()

	tbi_value	tsi	bci	bpi	bdi	bsi	mask
0	574.29	742.4	1613	727	598	899	0
1	NaN	NaN	1935	NaN	1090	944	NaN

这样的结果表示bci、bdi、bsi这两个指标有2个众数，而其他的都是1个众数

1.1.6 查看一列中不同数值的个数

len(dataframe['列名'].unique())

这样可以直接显示dataframe这一列的不同种类的数量的个数，如果想要更详细的信息，可以直接使用：

dataframe['列名'].unique()

累加：

dataframe.cumsum()

	tbi_value	tsi	bci	bpi	bdi	bsi	mask
0	871.38	806.73	1523	854	782	768	0
1	1746.93	1614.36	3039	1706	1569	1556	0
2	2621.46	2431.4	4554	2564	2367	2366	0
3	3496.07	3248.96	6060	3437	3179	3207	1
4	4366.52	4066.35	7563	4326	4003	4071	2
...	....	...	...	...	...	...	...
1642	1184476.07	1060500.7	2771523	1680054	1671110	1397796	783
1643	1185177.57	1061101.91	2771999	1680959	1671831	1398583	784
1644	1185871.16	1061700.62	2772420	1681881	1672543	1399372	785
1645	1186563.86	1062298.68	2772819	1682843	1673252	1400168	785
1646	1187259.92	1062896.88	2773107	1683852	1673947	1400981	786

看输出的信息，大家可以看到这是一层层累加下去，第n行的值就是原始数据第 n + (n-1) + (n-2) + ... + 1 行的值的总和。

累乘：

dataframe.cumprod()

与累加的输出类似，但累乘数值容易爆表，最后会输出 inf 表示已超出数据存储范围。

可以通过下面的代码得到缺失值的数量：

dataframe.isnull().sum()

也可通过简单的 .info() 来看缺失值的情况；

下面的代码可以得到 dataframe的缺失值占比情况：为0就表示没有缺失值

dataframe.isnull().sum()/len(dataframe)

缺失值在进行求和时，会被默认视为0

使用 0 填充缺失值：

dataframe.fillna(0,inplace=True)

也经常用这一列的平均值填充：

dataframe.fillna(dataframe.mean(),inplace=True)

dataframe.fillna(method='pad',inplace=True) #参考前面值

dataframe.fillna(method='bfill',inplace=True) #参考后面值

比如dataframe矩阵长这个样子：

	0	1	2
0	1	NaN	2
1	9	NaN	NaN
2	3	4	NaN
3	5	6	7

如果使用 dataframe.fillna(method='pad') 就可以得到：可以看到每列的缺失值都根据前面出现的值进行填充

	0	1	2
0	1	NaN	2
1	9	NaN	2
2	3	4	2
3	5	6	7

如果使用 dataframe.fillna(method='bfill') 就可以得到：同理，每列缺失值都根据它之后最先出现的值填充

	0	1	2
0	1	4	2
1	9	4	7
2	3	4	7
3	5	6	7

dataframe.dropna(axis = 0,inplace=True)

这个可以直接删除有缺失值的行。

如果把axis=1，则会删除列，不建议这样做，除非这个维度的缺失值非常严重。

如果希望整行都缺失才删除，可以使用：

dataframe.dropna(axis=0, how='all', inplace=True)

使用拉格朗日插值法可以迅速填充缺失值，但是当连续缺失5个以上的数据，拉格朗日插值法会出现非常大的误差：

def lagrange_fill(dataframe,colname,k=5):
    def ployinterp_column(s, n, k=5):
        y = s[list(range(n-k, n)) + list(range(n+1, n+1+k))] #取数
        y = y[y.notnull()] #剔除空值
        return lagrange(y.index, list(y))(n) #插值并返回插值结果
    for i,index in enumerate(dataframe[colname][dataframe[colname].isnull()==True].index):
        dataframe[colname][index] = ployinterp_column(dataframe[colname],i)# todo 返回当前数据的位置
    return dataframe

调用方法是：

df = lagrange_fill(df,'KMI')
# df为dataframe格式的数据，'KMI'为有缺失值的一列的名称

当出现明显不合理的值时，需要剔除掉这些异常值

dataframe= dataframe[ (dataframe['列名1'] < 800) & (dataframe['列名2'] > 600)]

上面的例子筛选出了 dataframe中列名1 指标 <800 且列名2 指标 >600 的数据

这个套路可以根据确定的条件无限筛选出想要的数据，注意每个独立的小条件都要有括号 '（）'

如果dataframe的某一列数据应该是呈现正态分布的，那么可以有如下筛选方案：

#.quantile(threshold)方法可以通过假定源数据服从正态分布，然后计算位于95%的点的值
#当 threshold = .95时：
# 95.449974的数据在平均数左右两个标准差的范围内
# 99.730020%的数据在平均数左右三个标准差的范围内
# 99.993666的数据在平均数左右三个标准差的范围内

def std_delete(dataframe,colname,threshold=.95):
    se = dataframe[colname]
    return dataframe[se < se.quantile(threshold)]

#剔除掉指定列名中存在异常值的那一行
dataframe = std_delete(dataframe , colname='列名')

如果threshold = .95筛选条件感觉不太合适，也可以使 threshold = .97 或是 .99 ，但如果.99还不行，那么就不能主观的认为是正态分布，应该做假设检验了，看看是不是其他分布。

zscore和3∂原则的计算思路相同，计算公式是：

其中 xi 是一个数据点，μ 是所有点 xi 的平均值，δ 是所有点 xi 的标准偏差。

def zscore_check(dataframe,colname,threshold=3):
    se = dataframe[colname]
    zscore = (se - se.mean()) / (se.std())
    return dataframe[zscore.abs() < threshold]

dataframe = zscore_check(dataframe,'列名')

threshold 一般为 2.5 ，3.0 ，3.5

MAD为（Mean Absolute Deviation，中位数绝对偏差），是单变量数据集中样本差异性的统计量，比标准差更有弹性，它的计算公式是：

在维基百科中有细致的推理过程：https://en.wikipedia.org/wiki/Median_absolute_deviation

根据推理，我们得到一个结果：MAD 约等于 0.6745*δ ，这个结论有利于编程，因此：

def zscore_mad_check(dataframe,colname,threshold=3.5):
    se = dataframe[colname]
    MAD = (se - se.median()).abs().median()
    zscore = ((se - se.median())* 0.6475 /MAD).abs()
    return dataframe[zscore < threshold]

dataframe= zscore_mad_check(dataframe,'列名')

同样的， threshold 一般设置为 2.5 3.0 3.5

使用下面的代码确认数据是否倾斜：

from scipy import stats

stats.mstats.skew(dataframe['列名']).data

如果值大于1，则证明存在倾斜；值越接近于0，越趋近于平缓，如果倾斜，则使用下面的代码处理：

dataframe['列名'] = np.log(dataframe['列名'])

也可以使用这段代码得到偏度大于1的列名,表示这些列需要额外注意:

def check_skew(dataframe):
    skew_attention = []
    for column in dataframe.columns:
        if (dataframe[column].dtype == 'int64') or (dataframe[column].dtype == 'float64'):
            skew = stats.mstats.skew(dataframe[column]).data
            if skew >= 1:
                skew_attention.append(column)
    return skew_attention

比如dataframe是这个样子：

	fc1	fc2	fc3
0	1	a	2
1	9	None	NaN
2	3	b	2
3	5	a	7
4	5	c	7

现在 fc2 需要整理一下（离散化）：

dataframe= pd.get_dummies(dataframe,dummy_na=True,columns=['fc2'])

原本是object类型，这样就可以很快的变成01类型加以区分，常用于有固定选项的特征中。

如果没有 “dummy_na = True”，dataframe中就不会有 “fc2_nan” 这一列；其他不变

也可以指定离散某一个数值型的特征：

# temp可以得到离散化 ‘fc1’ 这个特征的 dataframe
temp = pd.get_dummies(dataframe['fc1'],dummy_na=True)
# 把 dataframe与 temp 拼接起来并且删除已经被离散化的 ‘fc1’ 特征
dataframe= dataframe.join(temp).drop('fc1',axis = 1)

可以得到把 fc1 离散化的结果：

	fc2	fc3	fc1_1.0	fc1_3.0	fc1_5.0	fc1_9.0	fc1_nan
0	a	2	1	0	0	0	0
1	None	NaN	0	0	0	1	0
2	b	2	0	1	0	0	0
3	a	7	0	0	1	0	0
4	c	7	0	0	1	0

降采样：将时间线压缩

series.resample('M').sum()

这里'M'代表将时间变为以月份来记，之后的 .sum() 是对合并的数据的操作，也可以改为 .mean() 求均值。

升采样：将时间线拉长

series.resample('D').sum()

如果直接拉伸，会有很多NaN，因此升采样一般情况下需要考虑空值的填充

空值取前面的值：

series.resample('D').ffill()

空值取后面的值：

series.resample('D').bfill()

线性填充：

ts.resample('H').interpolate()

pandas api：https://pandas.pydata.org/pandas-docs/stable/reference/index.html

sklearn api：https://scikit-learn.org/stable/modules/classes.html

Python数据分析之pandas统计分析：https://blog.csdn.net/A632189007/article/details/76176985

数据预处理与特征选择：https://blog.csdn.net/u010089444/article/details/70053104

总结：数据清洗的一些总结：https://blog.csdn.net/MrLevo520/article/details/77573757

异常值检测方法汇总：https://segmentfault.com/a/1190000015926584

用Python做单变量数据集的异常点分析：https://my.oschina.net/taogang/blog/279402

Minitab 18 支持：https://support.minitab.com/zh-cn/minitab/18/

如果有错误 or 补充 or 代码解释 or 其他需求，请留言；

算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
基于Python的健身数据分析工具的搭建流程day1 weixin_45677320 python 开发语言数据挖掘爬虫
基于Python的健身数据分析工具的搭建流程分数据挖掘、数据存储和数据分析三个步骤。本文主要介绍利用Python实现健身数据分析工具的数据挖掘部分。第一步：加载库加载本文需要的库，如下代码所示。若库未安装，请按照python如何安装各种库（保姆级教程）_python安装库-CSDN博客https://blog.csdn.net/aobulaien001/article/details/133298
AI音乐模拟器：AIGC时代的智能音乐创作革命 lauo 人工智能 AIGC 开源前端机器人
AI音乐模拟器：AIGC时代的智能音乐创作革命引言：AIGC浪潮下的音乐创作新范式在数字化转型的浪潮中，人工智能生成内容（AIGC）正在重塑各个创意领域。音乐产业作为创意经济的重要组成部分，正经历着前所未有的变革。据最新市场研究数据显示，全球AI音乐市场规模预计将从2023年的5.8亿美元增长到2030年的26.8亿美元，年复合增长率高达24.3%。这一快速增长的市场背后，是AI音乐技术正在打破传
数据分析常用指标名词解释及计算公式走过冬季学习笔记数据分析大数据
数据分析中有大量常用指标，它们帮助我们量化业务表现、用户行为、产品健康度等。下面是一些核心指标的名词解释及计算方式，按常见类别分类：一、流量与用户规模指标页面浏览量名词解释：用户访问网站或应用时，每次加载或刷新一个页面就算一次PV。它衡量的是页面被打开的总次数。计算方式：PV=∑(所有页面被加载的次数)(通常由埋点或日志直接统计)独立访客数名词解释：在特定时间范围内（如一天、一周、一月），访问网站
视频分析：让AI看懂动态画面随机森林404 计算机视觉音视频人工智能 microsoft
引言：动态视觉理解的革命在数字信息爆炸的时代，视频已成为最主要的媒介形式。据统计，每分钟有超过500小时的视频内容被上传到YouTube平台，而全球互联网流量的82%来自视频数据传输。面对如此海量的视频内容，传统的人工处理方式已无法满足需求，这正是人工智能视频分析技术大显身手的舞台。视频分析技术赋予机器"看懂"动态画面的能力，使其能够自动理解、解释甚至预测视频中的内容，这一突破正在彻底改变我们与视
法律科技领域人工智能代理构建的十个经验教训，一位人工智能工程师通过构建、部署和维护智能代理的经验教训来优化法律工作流程的历程。知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 ai
目录介绍什么是代理人？为什么它对法律如此重要？法律技术中代理用例示例-合同审查代理-法律研究代理在LegalTech中使用代理的十个教训-教训1：即使代理很酷，它们也不能解决所有问题-教训2：选择最适合您用例的框架-教训3：能够快速迭代不同的模型-教训4：从简单开始，必要时扩展-教训5：使用跟踪解决方案；您将需要它-教训6：确保跟踪成本，代理循环可能很昂贵-教训7：将控制权交给最终用户（人在环路中
24GB GPU 中的 DeepSeek R1：Unsloth AI 针对 671B 参数模型进行动态量化知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 deepseek ollama
简介最初的DeepSeekR1是一个拥有6710亿个参数的语言模型，UnslothAI团队对其进行了动态量化，将模型大小减少了80%（从720GB减少到131GB），同时保持了强大的性能。当添加模型卸载功能时，该模型可以在24GBVRAM下以低令牌/秒的推理速度运行。推荐文章《本地构建AI智能分析助手之01快速安装，使用PandasAI和Ollama进行数据分析，用自然语言向你公司的数据提问为决策
Llama-Omni会说话的人工智能“语音到语音LLM” 利用低延迟、高质量语音转语音 AI 彻底改变对话方式（教程含源码）知识大胖 NVIDIA GPU和大语言模型开发教程 llama 人工智能 nvidia llm
介绍“单靠技术是不够的——技术与文科、人文学科的结合，才能产生让我们心花怒放的成果。”——史蒂夫·乔布斯近年来，人机交互领域发生了重大变化，尤其是随着ChatGPT、GPT-4等大型语言模型(LLM)的出现。虽然这些模型主要基于文本，但人们对语音交互的兴趣日益浓厚，以使人机对话更加无缝和自然。然而，实现语音交互而不受语音转文本处理中常见的延迟和错误的影响仍然是一个挑战。关键字：Llama-Omni
什么是热力学计算？它如何帮助人工智能发展？知识大胖 NVIDIA GPU和大语言模型开发教程人工智能量子计算
现代计算的基础是晶体管，这是一种微型电子开关，可以用它构建逻辑门，从而创建CPU或GPU等复杂的数字电路。随着技术的进步，晶体管变得越来越小。根据摩尔定律，集成电路中晶体管的数量大约每两年增加一倍。这种指数级增长使得计算技术呈指数级发展。然而，晶体管尺寸的缩小是有限度的。我们很快就会达到晶体管无法工作的阈值。此外，人工智能的进步使得对计算能力的需求比以往任何时候都更加迫切。根本问题是自然是随机的（
上海交大：工具增强推理agent
标题：SciMaster:TowardsGeneral-PurposeScientificAIAgentsPartI.X-MasterasFoundation-CanWeLeadonHumanity’sLastExam?来源：arXiv,2507.05241摘要人工智能代理的快速发展激发了利用它们加速科学发现的长期雄心。实现这一目标需要深入了解人类知识的前沿。因此，人类的最后一次考试（HLE）为评
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
AI人工智能浪潮中文心一言的独特优势
AI人工智能浪潮中文心一言的独特优势：为什么它是中国市场的“AI主力军”？关键词：文心一言,AI大模型,中文处理,多模态融合,产业落地,安全可控,百度ERNIE摘要：在全球AI大模型浪潮中，百度文心一言（ERNIEBot）凭借“懂中文、会多模态、能落地、守规矩”的四大核心优势，成为中国市场最具竞争力的AI产品之一。本文将用“超级大脑”的比喻，从中文理解、多模态能力、产业生态融合、安全可控性四个维度
正义的算法迷宫—人工智能重构司法体系的技术悖论与文明试炼
一、法庭的数字化迁徙当美国威斯康星州法院采纳COMPAS算法评估被告再犯风险，当中国"智慧法院"系统年处理1.2亿件案件，司法体系正经历从石柱法典到代码裁判的范式革命。这场转型的核心驱动力是司法效率与公正的永恒张力：美国重罪案件平均审理周期达18个月，中国基层法官年人均结案357件（是德国同行的6倍），而算法能在0.3秒内完成百万份文书比对。人工智能渗透司法引发三重裂变：证据分析从经验推断转向数据
Elasticsearch搜索引擎存储：从原理到实践的全景解析 Python×CATIA工业智造搜索引擎 elasticsearch 大数据
引言在大数据时代，数据规模呈指数级增长，传统数据库的模糊查询、实时分析能力逐渐成为瓶颈。Elasticsearch（简称ES）凭借其分布式架构、实时搜索和灵活的数据分析能力，成为企业级搜索与存储的核心引擎。截至2025年，ES在全球日志分析、电商搜索、实时监控等场景的市场占有率超过60%。本文将从存储架构、核心技术、应用场景及优化策略四个维度，深入解析Elasticsearch的设计哲学与实践价值
【python实战】不玩微博，一封邮件就能知道实时热榜，天秀吃瓜一条coding 从实战学python 人工智能 python linux 爬虫
❤️欢迎订阅《从实战学python》专栏，用python实现办公自动化、数据可视化、人工智能等各个方向的实战案例，有趣又有用！❤️更多精品专栏简介点这里有的人金玉其表败絮其中，有的人却若彩虹般绚烂，怦然心动前言哈喽，大家好，我是一条。在生活中我是一个不太喜欢逛娱乐平台的人，抖音、快手、微博我手机里都没装，甚至微信朋友圈都不看，但是自从开始写博客，有些热度不得不蹭。所以就有了这样一个需求，能不能让微
python-pandas数据分析+案例分析
文章目录前言一、汽车销售数据可视化分析1.各年度汽车总销量及环比，各车类、级别车辆销量及环比2.车辆销售规模及环比、不同价位车销量及环比3.各车系、厂商、品牌车销量及环比，市占率及变化趋势4.品牌、车类、车型、级别的各top销量二、地质灾害航空公司客户价值分析1.原始数据存在少量的缺失值和异常值前言一、汽车销售数据可视化分析1.各年度汽车总销量及环比，各车类、级别车辆销量及环比importnump
数据分析案例-电脑笔记本价格数据可视化分析3 艾派森数据分析信息可视化 python 数据分析数据挖掘电脑
‍♂️个人主页：@艾派森的个人主页✍作者简介：Python学习者希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+目录1.项目背景2.数据集介绍3.技术工具
用Python做数据分析之数据统计学掌门 Python 数据分析大数据 python 数据分析人工智能
接下来说说数据统计部分，这里主要介绍数据采样，标准差，协方差和相关系数的使用方法。1、数据采样Excel的数据分析功能中提供了数据抽样的功能，如下图所示。Python通过sample函数完成数据采样。2、数据抽样Sample是进行数据采样的函数，设置n的数量就可以了。函数自动返回参与的结果。1#简单的数据采样2df_inner.sample(n=3)3、简单随机采样Weights参数是采样的权重，
pandas销售数据分析
pandas销售数据分析数据保存在data目录消费者数据：customers.csv商品数据：products.csv交易数据：transactions.csvcustomers.csv数据结构：字段描述customer_id客户IDgender性别age年龄region地区membership_date会员日期products.csv数据结构：字段描述product_id产品IDcategory
MCP协议：AI时代的“万能插座”如何重构IT生态与未来
MCP协议：AI时代的“万能插座”如何重构IT生态与未来在人工智能技术爆炸式发展的浪潮中，一个名为ModelContextProtocol（MCP）的技术协议正以惊人的速度重塑IT行业的底层逻辑。2024年11月由Anthropic首次发布，MCP在短短半年内获得OpenAI、谷歌、亚马逊、阿里、腾讯等全球科技巨头的支持，被业内誉为AI时代的HTTP协议或USB-C接口，正在成为连接大模型与现实世
《算法备案全攻略：规范与流程引领数字时代新秩序》算法及大模型备案顾问刘老师算法备案深度学习 AIGC 语言模型算法人工智能
一、算法备案：开启合规新征程（一）备案规定的起源与发展2022年国家互联网信息办公室、工业和信息化部、公安部、国家市场监督管理总局联合发布《互联网信息服务算法推荐管理规定》，自2022年3月1日起施行。此后，相关规定不断完善和演进。如国家网信办于2022年8月、10月及2023年1月先后三次公布了《境内互联网信息服务算法备案清单》。同时，2022年发布的最高人民法院《关于规范和加强人工智能司法应用
C语言学生成绩管理系统<；自创>；(功能7有小错误,但可运行） han_xue_feng java
腾讯云加速企业和个人开发创新公开直播预告直播预告：07/18(周四)15:00-16:00随着人工智能与大模型的蓬勃发展，我们正步入一个由技微信实习第一天周五入职，早上早早来到了公司，发现好多人都没上班，到十点才陆陆续续有人来，办理完入职后，mentor中联夏令营遗憾没有入选不过hr的回复真的很好，辛苦啦#提前批简历挂麻了怎么办##机械制造投递记录#大数据开发的工作有点过于简单了吧sq大数据开发的
Python 实战人工智能数学基础：推荐系统应用 AI天才研究院 AI大模型企业级应用开发实战大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术文章目录1.背景介绍2.核心概念与联系2.1用户画像2.2相似性计算2.2.1基于物品的相似度2.2.2基于用户的相似度2.3协同过滤算法2.3.1基于用户的协同过滤算法2.3.2基于物品的协同过滤算法2.3.3基于上下文的协同过滤算法3.核心算法原理和具体操作步骤以及数学模型公式详细讲解3.1基于用户的协同过滤算法3.2基于物品的协同过滤算法3.3混合协同过滤算法3.
Python数据分析：从入门到精通
引言在当今数据驱动的时代，数据分析已成为企业和组织做出明智决策的关键。Python作为一种强大的编程语言，因其简洁性和丰富的数据分析库而成为数据科学领域的首选工具。无论你是初学者还是有一定经验的数据分析师，本指南都将带你从入门到精通Python数据分析，掌握必备技能和最佳实践。数据分析的重要性与Python的角色数据分析涉及收集、处理和解释数据，以揭示模式、趋势和见解。它有助于解决复杂问题，优化业
数据分析框架和方法 XiaoQiong.Zhang 人工智能
一、核心分析框架(TheBigPictureFrameworks)描述性分析(WhatHappened?)目的：了解过去发生了什么，描述现状，监控业务健康。核心工作：汇总、聚合、计算基础指标(KPI)，生成报表和仪表盘。常用方法/指标：计数/求和/平均值/中位数：DAU/MAU，总销售额，客单价等。比率：转化率，点击率，流失率，毛利率等。分布：用户活跃度分布、订单金额分布、地域分布等。常用于理解群
python基于Hadoop的NBA球员大数据分析与可视化系统
目录技术栈介绍具体实现截图系统设计研究方法：设计步骤设计流程核心代码部分展示研究方法详细视频演示试验方案论文大纲源码获取/详细视频演示技术栈介绍Django-SpringBoot-php-Node.js-flask本课题的研究方法和研究步骤基本合理，难度适中，本选题是学生所学专业知识的延续，符合学生专业发展方向，对于提高学生的基本知识和技能以及钻研能力有益。该学生能够在预定时间内完成该课题的设计。
Python桌面应用开发的未来——智能化工具与大模型赋能 IronwoodStag78
开发AI智能应用，就下载InsCodeAIIDE，一键接入DeepSeek-R1满血版大模型！标题：Python桌面应用开发的未来——智能化工具与大模型赋能随着人工智能技术的飞速发展，传统软件开发模式正在被重新定义。Python作为一门功能强大且灵活的语言，在桌面应用开发领域一直占据重要地位。然而，面对日益复杂的用户需求和快速变化的技术环境，如何提升开发效率、降低开发门槛，成为开发者亟需解决的问题
深度学习实战-使用TensorFlow与Keras构建智能模型程序员Gloria Python超入门 TensorFlow python
深度学习实战-使用TensorFlow与Keras构建智能模型深度学习已经成为现代人工智能的重要组成部分，而Python则是实现深度学习的主要编程语言之一。本文将探讨如何使用TensorFlow和Keras构建深度学习模型，包括必要的代码实例和详细的解析。1.深度学习简介深度学习是机器学习的一个分支，使用多层神经网络来学习和表示数据中的复杂模式。其广泛应用于图像识别、自然语言处理、推荐系统等领域。
AI产品经理需要了解的算法知识 AI劳模人工智能产品经理 AI产品经理 AI产品经理入门零基础入门产品经理算法语言模型
1、自然语言生成（NLG）自然语言生成（NaturalLanguageGeneration，简称NLG）是一种人工智能技术，它的目标是将计算机的数据、逻辑或算法产生的信息转换成人类可读的自然语言文本。换句话说，NLG能让机器“学会”写文章、报告、故事或者其他任何形式的文字，就像人类作家那样。这项技术使得机器能够理解复杂的数据并将其转化为易于理解的语言，以适应不同的受众和情境。应用实例：金融报告自动
矩阵求逆（JAVA）利用伴随矩阵 qiuwanchi 利用伴随矩阵求逆矩阵
package gaodai.matrix; import gaodai.determinant.DeterminantCalculation; import java.util.ArrayList; import java.util.List; import java.util.Scanner; /** * 矩阵求逆(利用伴随矩阵) * @author 邱万迟
单例（Singleton）模式 aoyouzi 单例模式 Singleton
3.1 概述如果要保证系统里一个类最多只能存在一个实例时，我们就需要单例模式。这种情况在我们应用中经常碰到，例如缓存池，数据库连接池，线程池，一些应用服务实例等。在多线程环境中，为了保证实例的唯一性其实并不简单，这章将和读者一起探讨如何实现单例模式。 3.2
[开源与自主研发]就算可以轻易获得外部技术支持,自己也必须研发 comsci 开源
现在国内有大量的信息技术产品，都是通过盗版，免费下载，开源，附送等方式从国外的开发者那里获得的。。。。。。虽然这种情况带来了国内信息产业的短暂繁荣，也促进了电子商务和互联网产业的快速发展，但是实际上，我们应该清醒的看到，这些产业的核心力量是被国外的
页面有两个frame,怎样点击一个的链接改变另一个的内容 Array_06 UI XHTML
<a src="地址" targets="这里写你要操作的Frame的名字" />搜索然后你点击连接以后你的新页面就会显示在你设置的Frame名字的框那里 targerts="",就是你要填写目标的显示页面位置 ===================== 例如： <frame src=&
Struts2实现单个/多个文件上传和下载 oloz 文件上传 struts
struts2单文件上传：步骤01:jsp页面  　　<form action="fileUplo
推荐10个在线logo设计网站 362217990 logo
在线设计Logo网站。 1、http://flickr.nosv.org（这个太简单） 2、http://www.logomaker.com/?source=1.5770.1 3、http://www.simwebsol.com/ImageTool 4、http://www.logogenerator.com/logo.php?nal=1&tpl_catlist[]=2 5、ht
jsp上传文件香水浓 jsp fileupload
1. jsp上传 Notice： 1. form表单 method 属性必须设置为 POST 方法，不能使用 GET 方法 2. form表单 enctype 属性需要设置为 multipart/form-data 3. form表单 action 属性需要设置为提交到后台处理文件上传的jsp文件地址或者servlet地址。例如 uploadFile.jsp 程序文件用来处理上传的文
我的架构经验系列文章 - 前端架构 agevs JavaScript Web 框架 UI jQuer
框架层面：近几年前端发展很快，前端之所以叫前端因为前端是已经可以独立成为一种职业了，js也不再是十年前的玩具了，以前富客户端RIA的应用可能会用flash/flex或是silverlight，现在可以使用js来完成大部分的功能，因此js作为一门前端的支撑语言也不仅仅是进行的简单的编码，越来越多框架性的东西出现了。越来越多的开发模式转变为后端只是吐json的数据源，而前端做所有UI的事情。MVCMV
android ksoap2 中把XML(DataSet) 当做参数传递 aijuans android
我的android app中需要发送webservice ，于是我使用了 ksop2 进行发送，在测试过程中不是很顺利,不能正常工作.我的web service 请求格式如下 [html] view plain copy <Envelope xmlns="http://schemas.
使用Spring进行统一日志管理 + 统一异常管理 baalwolf spring
统一日志和异常管理配置好后，SSH项目中，代码以往散落的log.info() 和 try..catch..finally 再也不见踪影！统一日志异常实现类： [java] view plain copy package com.pilelot.web.util; impor
Android SDK 国内镜像 BigBird2012 android sdk
一、镜像地址： 1、东软信息学院的 Android SDK 镜像，比配置代理下载快多了。配置地址， http://mirrors.neusoft.edu.cn/configurations.we#android 2、北京化工大学的： IPV4:ubuntu.buct.edu.cn IPV4:ubuntu.buct.cn IPV6:ubuntu.buct6.edu.cn
HTML无害化和Sanitize模块 bijian1013 JavaScript AngularJS Linky Sanitize
一.ng-bind-html、ng-bind-html-unsafe AngularJS非常注重安全方面的问题，它会尽一切可能把大多数攻击手段最小化。其中一个攻击手段是向你的web页面里注入不安全的HTML，然后利用它触发跨站攻击或者注入攻击。考虑这样一个例子，假设我们有一个变量存
[Maven学习笔记二]Maven命令 bit1129 maven
mvn compile compile编译命令将src/main/java和src/main/resources中的代码和配置文件编译到target/classes中，不会对src/test/java中的测试类进行编译 MVN编译使用 maven-resources-plugin:2.6:resources maven-compiler-plugin:2.5.1:compile &nbs
【Java命令二】jhat bit1129 Java命令
jhat用于分析使用jmap dump的文件，，可以将堆中的对象以html的形式显示出来，包括对象的数量，大小等等，并支持对象查询语言。 jhat默认开启监听端口7000的HTTP服务，jhat是Java Heap Analysis Tool的缩写 1. 用法： [hadoop@hadoop bin]$ jhat -help Usage: jhat [-stack <bool&g
JBoss 5.1.0 GA:Error installing to Instantiated: name=AttachmentStore state=Desc ronin47
进到类似目录 server/default/conf/bootstrap，打开文件 profile.xml找到： Xml代码<bean name="AttachmentStore" class="org.jboss.system.server.profileservice.repository.AbstractAtta
写给初学者的6条网页设计安全配色指南 brotherlamp UI ui自学 ui视频 ui教程 ui资料
网页设计中最基本的原则之一是，不管你花多长时间创造一个华丽的设计，其最终的角色都是这场秀中真正的明星——内容的衬托我仍然清楚地记得我最早的一次美术课，那时我还是一个小小的、对凡事都充满渴望的孩子，我摆放出一大堆漂亮的彩色颜料。我仍然记得当我第一次看到原色与另一种颜色混合变成第二种颜色时的那种兴奋，并且我想，既然两种颜色能创造出一种全新的美丽色彩，那所有颜色
有一个数组，每次从中间随机取一个，然后放回去，当所有的元素都被取过，返回总共的取的次数。写一个函数实现。复杂度是什么。 bylijinnan java 算法面试
import java.util.Random; import java.util.Set; import java.util.TreeSet; /** * http://weibo.com/1915548291/z7HtOF4sx * #面试题#有一个数组，每次从中间随机取一个，然后放回去，当所有的元素都被取过，返回总共的取的次数。 * 写一个函数实现。复杂度是什么
struts2获得request、session、application方式 chiangfai application
1、与Servlet API解耦的访问方式。 a.Struts2对HttpServletRequest、HttpSession、ServletContext进行了封装，构造了三个Map对象来替代这三种对象要获取这三个Map对象，使用ActionContext类。 -----> package pro.action; import java.util.Map; imp
改变python的默认语言设置 chenchao051 python
import sys sys.getdefaultencoding() 可以测试出默认语言，要改变的话，需要在python lib的site-packages文件夹下新建： sitecustomize.py，这个文件比较特殊，会在python启动时来加载，所以就可以在里面写上： import sys sys.setdefaultencoding('utf-8') &n
mysql导入数据load data infile用法 daizj mysql 导入数据
我们常常导入数据！mysql有一个高效导入方法，那就是load data infile 下面来看案例说明基本语法： load data [low_priority] [local] infile 'file_name txt' [replace | ignore] into table tbl_name [fields [terminated by't'] [OPTI
phpexcel导入excel表到数据库简单入门示例 dcj3sjt126com PHP Excel
跟导出相对应的，同一个数据表，也是将phpexcel类放在class目录下，将Excel表格中的内容读取出来放到数据库中 <?php error_reporting(E_ALL); set_time_limit(0); ?> <html> <head> <meta http-equiv="Content-Type"
22岁到72岁的男人对女人的要求 dcj3sjt126com
22岁男人对女人的要求是：一，美丽，二，性感，三，有份具品味的职业，四，极有耐性，善解人意，五，该聪明的时候聪明，六，作小鸟依人状时尽量自然，七，怎样穿都好看，八，懂得适当地撒娇，九，虽作惊喜反应，但看起来自然，十，上了床就是个无条件荡妇。 32岁的男人对女人的要求，略作修定，是：一，入得厨房，进得睡房，二，不必服侍皇太后，三，不介意浪漫蜡烛配盒饭，四，听多过说，五，不再傻笑，六，懂得独
Spring和HIbernate对DDM设计的支持 e200702084 DAO 设计模式 spring Hibernate 领域模型
A：数据访问对象 DAO和资源库在领域驱动设计中都很重要。DAO是关系型数据库和应用之间的契约。它封装了Web应用中的数据库CRUD操作细节。另一方面，资源库是一个独立的抽象，它与DAO进行交互，并提供到领域模型的“业务接口”。资源库使用领域的通用语言，处理所有必要的DAO，并使用领域理解的语言提供对领域模型的数据访问服务。
NoSql 数据库的特性比较 geeksun NoSQL
Redis 是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库，并提供多种语言的API。目前由VMware主持开发工作。 1. 数据模型作为Key-value型数据库，Redis也提供了键（Key）和值（Value）的映射关系。除了常规的数值或字符串，Redis的键值还可以是以下形式之一： Lists （列表） Sets
使用 Nginx Upload Module 实现上传文件功能 hongtoushizi nginx
转载自： http://www.tuicool.com/wx/aUrAzm 普通网站在实现文件上传功能的时候，一般是使用Python，Java等后端程序实现，比较麻烦。Nginx有一个Upload模块，可以非常简单的实现文件上传功能。此模块的原理是先把用户上传的文件保存到临时文件，然后在交由后台页面处理，并且把文件的原名，上传后的名称，文件类型，文件大小set到页面。下
spring-boot-web-ui及thymeleaf基本使用 jishiweili spring thymeleaf
视图控制层代码demo如下： @Controller @RequestMapping("/") public class MessageController { private final MessageRepository messageRepository; @Autowired public MessageController(Mes
数据源架构模式之活动记录 home198979 PHP 架构活动记录数据映射
hello!架构一、概念活动记录（Active Record）：一个对象，它包装数据库表或视图中某一行，封装数据库访问，并在这些数据上增加了领域逻辑。对象既有数据又有行为。活动记录使用直截了当的方法，把数据访问逻辑置于领域对象中。二、实现简单活动记录活动记录在php许多框架中都有应用，如cakephp。 <?php /** * 行数据入口类 *
Linux Shell脚本之自动修改IP pda158 linux centos Debian 脚本
作为一名 Linux SA，日常运维中很多地方都会用到脚本，而服务器的ip一般采用静态ip或者MAC绑定，当然后者比较操作起来相对繁琐，而前者我们可以设置主机名、ip信息、网关等配置。修改成特定的主机名在维护和管理方面也比较方便。如下脚本用途为：修改ip和主机名等相关信息，可以根据实际需求修改，举一反三！ #!/bin/sh #auto Change ip netmask ga
开发环境搭建独浮云 eclipse jdk tomcat
最近在开发过程中，经常出现MyEclipse内存溢出等错误，需要重启的情况，好麻烦。对于一般的JAVA+TOMCAT项目开发，其实没有必要使用重量级的MyEclipse，使用eclipse就足够了。尤其是开发机器硬件配置一般的人。 &n

fc2_nan