just_sort

Kaggle Getting Started房价预测竞赛

没怎么做过kaggle的题目，对机器学习的套路还不是非常熟悉，然后前段时间碰到了一个回归的问题，竟然不知道如何下手，Kaggle上有一个房价预测的基础回归问题，机器学习回归就从这里开始好了。
学习资料：https://www.kaggle.com/marsggbo/kaggle
$\quad$ 完整的机器学习算法解决房价预测需要处理以下几个问题：
1、理解问题：观察每个变量特征的意义以及对于问题的重要度
2、理解主要特征：也就是最终的目的变量—房价
3、基础的数据清洗：对一些缺失的，异常点和分类数据进行处理
4、测试假设
我也将按照这个步骤来解决这个问题

数据导入

#导入需要的模块
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

#用来绘图的，封装了matplot
#一旦导入了seaborn,matplotlib的作图风格会被覆盖为seaborn
import seaborn as sns
from scipy import stats
from scipy.stats import norm #生成正态分布的离散变量
from sklearn.preprocessing import StandardScaler #计算训练数据集的平均值和标准差,以便测试集使用相同的变换

#导入数据
data_train = pd.read_csv("/home/zxy/PycharmProjects/Kagglemarsggbo/data/train.csv")

# print(data_train)

观察特征变量和房价售价的关系

1. 分析"SalePrice"

print(data_train['SalePrice'].describe())

输出为：

count      1460.000000
mean     180921.195890
std       79442.502883
min       34900.000000
25%      129975.000000
50%      163000.000000
75%      214000.000000
max      755000.000000
Name: SalePrice, dtype: float64

可以看出，SalePrice变量没有无效和非数值的数据，然后作者还提供了一种图示化方法来展示salePrice

sns.distplot(data_train['SalePrice'])
plt.show()

可以看出房价是呈现正态分布的。同时作者还介绍了2个统计学的概念：峰度(Kurtosis)和偏度(Skewness)，其中峰度是描述某变量所有取值分布形态抖缓程度的统计量。它是和正太分布相比较的。
峰度

Kurtosis = 0 与正态分布的抖缓程度相同
Kurtosis > 0 比正态分布的高峰更加陡峭 — 尖顶峰
Kurtosis > 0 比正太分布的高峰来的平 — 平顶峰
计算公式：

峰度为0表示该总体数据分布与正态分布的陡缓程度相同。
峰度 >0表示该总体数据分布与正态分布相比较为陡峭，为尖顶峰。
峰度 <0表示该总体数据分布与正态分布相比较为平坦，为平顶峰。
峰度的绝对值数值越大表示其分布形态的陡缓程度与正态分布的差异程度越大。

偏度
6. Skewness = 0 分布形态与正太分布偏度相同
7. Skewness > 0 正偏差数值较大，为正偏或右偏。长尾巴拖在左边。
8. Skewness < 0 负偏差数值较大，为负偏或左偏。长尾巴拖在左边。
9. 计算公式：

偏度为0表示其数据分布形态与正态分布的偏斜程度相同。
偏度 >0表示其数据分布形态与正态分布相比为正偏或右偏，即有一条长尾巴拖在右边，数据右端有较多的极端值，数据均值右侧的离散程度强。
偏度 <0表示其数据分布形态与正态分布相比为负偏或左偏，即有一条长尾拖在左边，数据左端有较多的极端值，数据均值左侧的离散程度强。

打印出这两个值：

print("Skewness: %f" % data_train['SalePrice'].skew())
print("Kurtosis %f" % data_train['SalePrice'].kurt())

结合上面的图形容易看出，长尾巴确实拖在右边，而且高峰陡峭。

2. 验证特征是否满足需求

类别特征

1. CentralkAir中央空调

#CentralAir
var = 'CentralAir'
data = pd.concat([data_train['SalePrice'], data_train[var]], axis=1)
fig = sns.boxplot(x = var, y = 'SalePrice', data=data)
fig.axis(ymin=0, ymax=800000);
plt.show()

可以看出有中央空调的房价明显更高。

2. OverallQual总体评价

# OverallQual 总体评价
var = 'OverallQual'
data = pd.concat([data_train['SalePrice'], data_train[var]], axis=1)
fig = sns.boxplot(x = var, y = 'SalePrice', data=data)
fig.axis(ymin=0, ymax=800000)
plt.show()

3.YearBuilt 建造年份

# OverallQual 总体评价
# var = 'OverallQual'
# data = pd.concat([data_train['SalePrice'], data_train[var]], axis=1)
# fig = sns.boxplot(x = var, y = 'SalePrice', data=data)
# fig.axis(ymin=0, ymax=800000)
# plt.show()

#YearBuilt boxplot
var = 'YearBuilt'
data = pd.concat([data_train['SalePrice'], data_train[var]], axis=1)
data.plot.scatter(x=var, y="SalePrice", ylim=(0, 800000))
plt.show()

第一个箱线图看得不是很明显，所以用点图来表示，

可以看出，建造年份越晚，价格越高。

4. Neighborhood地段

#Neighborhood
var = 'Neighborhood'
data = pd.concat([data_train['SalePrice'], data_train[var]], axis=1)
f, ax = plt.subplots(figsize=(26,12))
fig = sns.boxplot(x=var, y="SalePrice", data=data)
fig.axis(ymin=0, ymax=800000)
plt.show()

Neighborhood地段

数值型特征

1. LotArea地表面积

#LotArea 地表面积
var = 'LotArea'
data = pd.concat([data_train['SalePrice'], data_train[var]], axis=1)
data.plot.scatter(x=var, y='SalePrice', ylim=(0,800000))
plt.show()

这个特征对房价的影响不大，所以不考虑

2. GrliveArea 生活面积

#GrliveArea 生活面积
var = 'GrLivArea'
data = pd.concat([data_train['SalePrice'], data_train[var]], axis=1)
data.plot.scatter(x = var, y = 'SalePrice', ylim=(0,800000))
plt.show()

可以看出生活面积对房价的影响比较大。

3.TotalBsmtSF 地下室总面积

#TotalBsmSF地下室总面积
var = 'TotalBsmtSF'
data = pd.concat([data_train['SalePrice'], data_train[var]], axis=1)
data.plot.scatter(x = var, y = 'SalePrice', ylim=(0, 800000))
plt.show()

可以看出这个变量和房价呈现线性关系，所以也是可以考虑的。

4. MiscVal 附加值

#MiscVal 附加值
var = 'MiscVal'
data = pd.concat([data_train['SalePrice'], data_train[var]], axis=1)
data.plot.scatter(x = var, y='SalePrice', ylim=(0, 800000))
plt.show()

可以看出附加值这个变量和房价没有关系，所以可以不考虑

5. GarageArea/GarageCars 车库

# GarageArea/GarageCars 车库
var = ['GarageArea', 'GarageCars']
for index in range(2):
    data = pd.concat([data_train['SalePrice'], data_train[var[index]]], axis=1)
    data.plot.scatter(x=var[index], y='SalePrice', ylim=(0, 800000))
plt.show()

从上面的图看出房价与车库面试和容量车辆数呈现线性关系，所以入选主特征。

3. 更加科学的分析依据

3.1 关系矩阵

$\quad$ 上面对特征变量的分析是比较模糊的，为了让我们更好的评估我们的变量是否对结果有用需要做到以下几点：

得到各个特征之间的关系矩阵
'SalePrice’的关系矩阵
绘制出最相关的特征之间的关系图

代码如下：

corrmat = data_train.corr() #相关系数矩阵
f, ax = plt.subplots(figsize=(20, 9))
sns.heatmap(corrmat, vmax=0.8, square=True)
plt.show()

从这个图我们可以直接看到，像素块越红表示相关性越大，所以我们可以看到与"SalePrice"相关性很强的有：

OverallQual 总体评价
YearBuilt 建造年份
TotalBsmSF：地下室面积
1stFlrSF：一楼面积
GrLiveArea: 生活区面积
'FullBath'：浴室
ToRmsAbvGrd:总房间数
GarageCars: 车库可容纳车辆数
GarageArea：车库面积
然后这个相关图里面有一些Trick，第一个是这些特征里面有一些特征是十分类似的，例如FGarageCars和GarageArea，TotaoBsmSF和1stFlrSF。第二个是上面出现的变量都是数值型的，像Neighborhood这种离散型数据没有参与到计算，下面会利用sklearn来对这些特征进行处理。

from sklearn import preprocessing
f_names = ['CentralAir', 'Neighborhood']
for x in f_names:
    label = preprocessing.LabelEncoder() #LabelEncoder就是对不连续的数字或者文本进行编号
    data_train[x] = label.fit_transform(data_train[x])
corrmat = data_train.corr()
f, ax = plt.subplots(figsize=(20, 9))
sns.heatmap(corrmat, vmax=0.8, square=True)
plt.show()

利用这个信息可以得到，CentralAir和Neighborhood这两个特征对房价的影响，所以后面将不予考虑。

3.2 房价关系矩阵

k = 10 #关系矩阵中将显示10个特征
cols = corrmat.nlargest(k, 'SalePrice')['SalePrice'].index
cm = np.corrcoef(data_train[cols].values.T) #相关系数,也可以看成协方差
sns.set(font_scale=1.25) #字体大小缩放比例？
# heatmap API:https://blog.csdn.net/cymy001/article/details/79576019
hm  = sns.heatmap(cm, cbar=True, annot=True,\
                  square=True, fmt='.2f', annot_kws={'size':10}, yticklabels=cols.values,\
                  xticklabels=cols.values)
labels = cols.values
plt.show()

分析得到我们需要考虑的特征值如下：GrLKivArea(生活面积),TotRmsAbvGrd(总房间数),FullBath(浴室数量),TotalBsmSF(地下室总面积),GarageCars(车库),YearBuilt(建造年份),QverallQual(总体评价)。

4. 数据模拟

#导入模型
from sklearn import preprocessing
from sklearn import linear_model, svm, gaussian_process
from sklearn.ensemble import RandomForestRegressor
from sklearn.cross_validation import train_test_split
import numpy as np

#导入数据
cols = ['OverallQual', 'GrLivArea', 'GarageCars', 'TotalBsmtSF', 'FullBath',
        'TotRmsAbvGrd', 'YearBuilt']
x = data_train[cols].values
y = data_train['SalePrice'].values
x_scaled = preprocessing.StandardScaler().fit_transform(x) #归一化数据
y_scaled = preprocessing.StandardScaler().fit_transform(y.reshape(-1, 1)) #归一化数据并且拉成一个列向量
X_train, X_test, y_train, y_test = train_test_split(x_scaled, y_scaled, test_size=0.33, random_state=42)

clfs = {
    'svm': svm.SVR(),
    'RandomForestRegressor':RandomForestRegressor(n_estimators=400),
    'BayesianRidge':linear_model.BayesianRidge()
}

for clf in clfs:
    try:
        clfs[clf].fit(X_train, y_train)
        y_pred = clfs[clf].predict(X_test)
        print(clf + " cost:" + str(np.sum(y_pred - y_test) / len(y_pred)))
    except Exception as e:
        print(clf + "Error:")
        print(str(e))

输出结果：

svm cost:-17.967306347608588
BayesianRidge cost:-17.19150469291163
RandomForestRegressor cost:-0.9689254868891797

可以看出随机深林的损失函数最小，所以采用随机深林对模型进行预测

5. 检验测试数据

import pandas as pd
from sklearn.ensemble import RandomForestRegressor
rfr = dst
data_test = pd.read_csv("/home/zxy/PycharmProjects/Kagglemarsggbo/data/test.csv")
print(data_test[cols].isnull().sum())

OverallQual     0
GrLivArea       0
GarageCars      1
TotalBsmtSF     1
FullBath        0
TotRmsAbvGrd    0
YearBuilt       0
dtype: int64

因为数据中存在缺失的值，所以不能直接predict，而且缺失值较少，所以直接用数据的均值来替代，所以接下来计算缺失值的均值即可。

cols2 = ['OverallQual', 'GrLivArea', 'FullBath', 'TotRmsAbvGrd', 'YearBuilt']
cars = data_test['GarageCars'].fillna(1.766118)
bsmt = data_test['TotalBsmtSF'].fillna(1046.117970)
data_test_x = pd.concat([data_test[cols2], cars, bsmt], axis=1)
print(data_test_x.isnull().sum())
x = data_test_x.values
y_ = rfr.predict(x)
print(y_)
print(y_.shape)
print(x.shape)

predictions = pd.DataFrame(y_, columns=['SalePrice'])
result = pd.concat([data_test['Id'], predictions], axis=1)

result.to_csv('./Predictions.csv', index=False)

至此，baseline就完成了，那么如何提高准确率呢？

提升准确率

机器学习模型之XGBoost参数记录

eta 默认值为0.3，每次迭代完成后更新权重的步长，也就是学习率。
min_child_weight 默认为1，代表最小叶子节点样本权重和，用于避免过拟合，当它的值较大时，可以避免模型学习到局部的特殊样本，但是如果这个值太高会导致欠拟合，需要使用CV来调整。
max_depth默认值为6，为树的最大深度，max_depth越大，模型会学到更具体更局部的样本，需要用CV函数来微调，典型值3-10.
max_leaf_nodes 树上最大的节点或叶子的数量，可以替代max_depth的作用，因为如果是二叉树，一个深度为n的树最多生成2^n个叶子。
gamma 在节点分裂时，只有分裂后损失函数的值下降了，才会分裂这个节点。Gamma指定了分裂所需要的最小损失函数下降值，这个值越大算法越保守。这个参数的值和损失函数息息相关，所以是需要调整的。
subsample. 控制对于每棵树随机采样的比例。减小这个参数的值，算法会更加保守，避免过拟合。但是如果这个参数的值设置得太小，会导致过拟合。典型值0.5-1
colsample_bytree默认值为1，用来控制每棵随机采样的列数的占比。典型值0.5-1.0
lambda默认值为1，权重的L2正则化，可以用于在很高维度下是的算法更快。
alpha，默认值为1，权重的L1正则化。
scale_pos_weight在各类样本十分不平衡时，把这个参数设置为一个正值，可以让算法更快的收敛。
objective,默认为reg::linear，这个参数定需要被最小化的损失函数。最常用的值为:binary:logistic二分类的逻辑回归，返回预测的概率。multi:softmax使用softmax的多分类器，返回预测的类别，这时需要多设一个参数为num_class（类别数），multi:softprob和multi:softmax参数一样，但是返回是的每个数据属于各个类别的概率。
eval_metric默认值取决于objective参数的取值。对于有效数据的度量方法，对于回归问题，默认值是rmse，对于分类问题默认值是error。典型值有rmse均方根误差 $\sqrt\frac{\sum_{i=1}^{N}x^2}{N}$ ，mae平均绝对误差 $\frac{\sum_{i=1}^{N}|x|}{N}$ ，logloss负对数似然函数值,error二分类错误率(阈值为0.5),merror多分类错误率,mlogloss多分类logloss损失函数,auc曲线包围面积。
seed 默认值为0的随机种子，记录下以便于复现模型。

机器学习模型之SVR参数记录

核函数的类型：一般有’rbf’, ‘linear’, ‘poly’, ‘sigmoid’。
C:惩罚因子。C表示有多么重视离群点，C越大越重视，越不想丢掉它们。C值越大时对误差分类的惩罚增大，C值小时对误差分类的惩罚减小。当C越大，趋近于无穷时，表示不允许分类误差的存在，margin越小，越容易过拟合；当C趋近于0时，表示我们不再关注分类是否正确，只要求margin越大，容易欠拟合。
gamma 是’rbf’, ‘poly’, 'sigmoid’的核系数且gamma的值必须大于0.随着gamma的增大，存在对于测试集分类效果差而对训练分类效果好的情况，并且容易泛化误差出现过拟合。

##机器学习模型之Lasso参数记录

alpha 它通过构造一个惩罚函数得到一个较为精炼的模型，使得它压缩一些系数，同时设定一些系数为零。因此保留了子集收缩的优点，是一种处理具有复共线性数据的有偏估计。
max_iter 最大迭代次数

机器学习模型之Ridge参数记录

-alpha 惩罚系数

机器学习模型之Kernel Ridge Regression

alpha: float或者list（当y是多目标矩阵时）
kernel: 核函数的类型包括
gamma：rbf，laplacian，poly，chi2，sigmoid核中的参数，使用其他核时无效
degree：poly核中的参数d，使用其他核时无效
coef0：poly和sigmoid核中的0参数的替代值，使用其他核时无效

机器学习模型之ElasticNet回归(弹性网回归)

alpha 惩罚系数
l1_ratio l1正则化惩罚比例

机器学习模型之贝叶斯线性回归模型

无参数

Python设置国内镜像教程 wh3933 python 开发语言
####引言Python是一种广泛使用的高级编程语言，用于各种编程任务，从简单的脚本到复杂的机器学习算法。在安装Python包时，通常需要从Python包索引（PyPI）下载。由于网络原因，直接从PyPI下载可能速度较慢，因此，使用国内的镜像源可以显著提高下载速度。本文将详细介绍如何在Python中设置国内镜像。####文章目的本篇文章旨在指导用户如何将Python的包管理工具`pip`的默认源切
Python与Dlib库实现人脸技术实战西域情歌
本文还有配套的精品资源，点击获取简介：本项目详细说明了如何使用Python结合Dlib库实现人脸检测、识别、数量检测和距离检测。利用Dlib提供的机器学习算法和计算机视觉功能，包括HOG特征检测、级联分类器、面部特征向量模型和关键点预测等，项目能够快速准确地在图像中检测和识别人脸。此外，还介绍了如何统计图像中的人脸数量以及如何计算人脸之间的距离。通过实际代码资源，开发者能够掌握实时人脸技术的应用，
机器学习算法_支持向量机
一、支持向量机支持向量机只能做二分类任务SVM全称支持向量机，即寻找到一个超平面使样本分成两类，且间隔最大硬间隔：如果样本线性可分，在所有样本分类都正确的情况下，寻找最大间隔；如果出现异常值或样本线性不可分，此时硬间隔无法实现软间隔：允许部分样本，在最大间隔之内，甚至在错误的一边，寻找最大间隔；目标是尽可能保持间隔宽阔和限制间隔违例之间寻找良好的平衡惩罚系数：通过惩罚系数来控制这个平衡，C值越小，
机器学习在智能金融风险评估中的应用：信用评分与欺诈检测 Blossom.118 机器学习与人工智能机器人机器学习人工智能 python 深度学习 sklearn 计算机视觉
在金融行业，风险评估是确保金融机构稳健运营的关键环节。随着大数据和机器学习技术的快速发展，金融机构开始探索如何利用机器学习算法来提高风险评估的准确性和效率。本文将探讨机器学习在智能金融风险评估中的应用，特别是信用评分和欺诈检测方面的最新进展，并分析其带来的机遇和挑战。一、智能金融风险评估中的信用评分（一）传统信用评分方法的局限性传统的信用评分主要依赖于人工规则和简单的统计模型，如逻辑回归。这些方法
面了字节跳动的数据挖掘岗，感觉真的很难。。。大模型爱好者社区机器学习深度学习面试宝典数据挖掘人工智能数据分析算法面试
节前，我们社群组织了一场技术&面试讨论会，邀请了一些互联网大厂同学、参加社招和校招面试的同学，针对新手如何入门机器学习算法、该如何备战、面试常考点分享等热门话题进行了深入的讨论。基于社群的讨论，今天我整理了一个同学的面试题，分享给大家，希望对后续找工作的有所帮助。喜欢记得点赞、收藏、关注。更多技术交流&面经学习，可以文末加入我们交流群。一面40min【编程题】有两种数据，分别是被转发的用户和转发的
【学习】《算法图解》第十二章学习笔记：K近邻算法程序员
前言《算法图解》第十二章介绍了一种简单而强大的机器学习算法——K近邻算法（K-NearestNeighbors，简称KNN）。这是一种基于实例的学习方法，也是机器学习领域中最基础、最直观的算法之一。本章不仅讲解了KNN的基本原理和实现方式，还探讨了特征提取、归一化等重要概念，为读者打开了机器学习的大门。本笔记将梳理KNN算法的核心思想、实现步骤以及应用场景。一、K近邻算法概述（一）基本思想K近邻算
AppML 案例简介沐知全栈开发开发语言
AppML案例简介引言AppML，全称为“应用程序机器学习”，是一种将机器学习技术与移动应用开发相结合的技术框架。它旨在简化移动应用的机器学习功能集成，使得开发者无需深入了解复杂的机器学习算法，即可将强大的AI功能引入他们的应用中。本文将简要介绍AppML的一些成功案例，展示其在不同领域的应用和价值。AppML案例一：健康监测应用案例概述：一款名为“HealthMate”的健康监测应用利用AppM
FP16、BF16、INT8、INT4精度模型加载所需显存以及硬件适配的分析 herosunly 大模型精度 BF16 硬件适配
大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。本文主要介绍了FP16、INT8、INT4精度模型加载占用显存大小的分析，希望对学习大
常见机器学习算法与应用场景计算机软件程序设计知识科普机器学习算法人工智能
当然可以。下面是对常见机器学习算法的全面详细阐述，包括每种算法的基本原理、特点以及典型应用场景。1.监督学习（SupervisedLearning）1.1线性回归（LinearRegression）原理：通过拟合一条直线来表示输入和输出之间的关系，适用于预测连续值输出。特点：简单易懂，计算速度快，但只能捕捉线性关系。应用场景：房价预测股票价格预测销售额预测1.2逻辑回归（LogisticRegre
**基于Python的数据分析与机器学习实战教程****一、引言**随着大数据时代的到来，数据处理和分析能力已经成为现代软件开发人员的必备技能之一。Python作为一种高效、简洁且功能丰富的编程语言， 2401_89451588 python 数据分析机器学习
基于Python的数据分析与机器学习实战教程一、引言随着大数据时代的到来，数据处理和分析能力已经成为现代软件开发人员的必备技能之一。Python作为一种高效、简洁且功能丰富的编程语言，在数据分析领域得到了广泛的应用。本文将介绍如何使用Python进行数据分析，并结合机器学习算法实现数据驱动的应用。二、Python基础首先，我们需要掌握Python的基本语法和常用的库。Python的语法简洁易懂，上
机器学习，支持向量机svm和决策树xgboost介绍 suixinm 支持向量机机器学习决策树
支持向量机(SVM)和XGBoost都是非常强大且应用广泛的机器学习算法，但它们基于不同的原理，各有其优势和劣势，适用于不同的场景。以下是两者的主要区别和优劣势对比：1.核心思想与模型类型:SVM:核心思想:找到一个最优的超平面（在特征空间中），将不同类别的样本分隔开，并且使得该超平面到两类样本中最近的样本点（支持向量）的距离（间隔）最大化。核心是几何间隔最大化。模型类型:单个模型（虽然是核方法，
【机器学习第四期（Python）】LightGBM 方法原理详解 WW、forever 机器学习原理及代码实现机器学习 python 人工智能
LightGBM概述一、LightGBM简介二、LightGBM原理详解⚙️核心原理LightGBM的主要特点三、LightGBM实现步骤（Python）可调参数推荐完整案例代码（回归任务+可视化）参考LightGBM是由微软开源的基于梯度提升框架（GBDT）的机器学习算法，专为高性能、高效率设计，适用于大规模数据处理任务。它在准确率、训练速度和资源使用上都优于传统GBDT实现（如XGBoost）
机器学习算法——神经网络1（神经元模型）
神经网络是由具有适应性的简单单元组成的广泛并行互连的网络，它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应。神经网络中最基本的成分是神经元（neuron）模型。即上述定义中的“简单单元”。在生物神经网络中，每个神经元与其他申请元相连，当它“兴奋”时，就会向相连的神经元发送化学物质，从而改变这些神经元内的电位；如果某神经元的电位超过一个“阈值”，那么它就会被激活，即“兴奋”起来，向其他神经
【机器学习算法】XGBoost原理
一、基本内容基本内容：GBDT的基础上，在损失函数上加入树模型复杂度的正则项与GBDT一样，也是使用新的弱学习器拟合残差（当前模型负梯度，残差方向）GBDT损失函数Loss=∑i=1NL(yi,yit)Loss=\sum_{i=1}^{N}L(y_i,y_i^{t})Loss=i=1∑NL(yi,yit)XGboost损失函数Loss=∑i=1SL(yi,yit)+∑j=1NΩ(fj))Loss=
大语言模型(LLM)量化基础知识(一) -派神- RAG NLP ChatGPT 语言模型人工智能自然语言处理
承接各类AI相关应用开发项目(包括但不限于大模型微调、RAG、AI智能体、NLP、机器学习算法、运筹优化算法、数据分析EDA等)!!!有意愿请私信!!!随着大型语言模型(LLM)的参数数量的增长,与其支持硬件（加速器内存）增长速度之间的差距越来越大，如下图所示：上图显示，从2017年到2022年，语言模型的大小显著增加：2017年：Transformer模型（0.05B参数）2018年：GPT（0
ICBDDM2025：大数据与数字化管理前沿峰会鸭鸭鸭进京赶烤学术会议大数据图像处理计算机视觉 AI编程人工智能机器人考研
在选择大学专业时，可以先从自身兴趣、能力和职业规划出发，初步确定几个感兴趣的领域。然后结合外部环境因素，如专业前景、教育资源和就业情况等，对这些专业进行深入的分析和比较。大数据专业：是一个热门且前沿的学科领域，它涉及到数据的收集、存储、处理、分析和应用等多个方面。课程设置基础课程数学基础：高等数学、线性代数、概率论与数理统计等。这些课程为大数据分析提供了必要的数学工具，例如线性代数在机器学习算法中
【PyCharm 使用技巧】PyCharm 基本功能详解 || 【Jupyter Notebook】如何进入其它盘，如D盘？H盘？|| 【机器学习】聚类算法详解及其应用 || 道路交通流量模拟预测追光者♂ Python从入门到人工智能工具技巧解决办法百题千解计划(项目实战案例）PyCharm使用技巧 Jupyter如何进入其它盘聚类算法练习 PyCharm详解时空交通流预测模拟
作者主页：追光者♂个人简介：在读计算机专业硕士研究生、CSDN-人工智能领域新星创作者、2022年CSDN博客之星人工智能领域TOP4、阿里云社区专家博主【无限进步，一起追光！】欢迎点赞收藏⭐留言本篇的目录一，是请看目录四——PyCharm基础设置回顾的续篇，继续记录讲解PyCharm的基本功能。目录二回顾了在使用Jupyter时的问题。目录三练习了机器学习算法中的聚类算法。目录一、再次了解PyC
XGBoost算法原理及Python实现法号清水算法 python 开发语言
一、概述 XGBoost是一种基于梯度提升框架的机器学习算法，它通过迭代地训练一系列决策树来构建模型。核心思想是通过不断地在已有模型的基础上，拟合负梯度方向的残差（真实值与预测值的差）来构建新的弱学习器，达到逐步优化模型的目的。 XGBoost在构建决策树时，利用了二阶导数信息。在损失函数的优化过程中，不仅考虑了一阶导数（梯度），还引入了二阶导数（海森矩阵），这使得算法能够更精确地找到损失函数
GBDT：梯度提升决策树——集成学习中的预测利器大千AI助手人工智能 Python #OTHER 决策树集成学习算法 GBDT 梯度提升人工智能机器学习
核心定位：一种通过串行集成弱学习器（决策树）、以梯度下降方式逐步逼近目标函数的机器学习算法，在结构化数据预测任务中表现出色。本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！一、GBDT是什么？全称：GradientBoostingDecisionTree（梯度提升决策树）本质：Boosting集成学
机器学习算法-逻辑回归模型在交通领域的应用是一个Bug 机器学习算法逻辑回归
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档逻辑回归模型在交通领域的应用：车流数量和平均速度之间的关系前言结果分析代码分析逻辑回归可视化：交通拥堵预测的动态建模过程一、交通数据生成与预处理二、逻辑回归核心算法实现三、动态可视化：决策边界的演变过程四、特征标准化与模型评估五、实验结果与模型解读六、拓展思考：逻辑回归的局限性结语：从代码到交通智能前言紧接上文的逻辑回归原理分析讲一讲
LeRobot: 让机械臂接入大模型小众AI AI开源人工智能 AI编程
HuggingFace推出的开源项目LeRobot引发了业界广泛关注。这一项目通过整合最先进的机器学习算法和便捷的开发工具链，为开发者提供了一个高效、易用的机器人AI开发平台，堪称机器人领域的“Transformer时刻”。LeRobot旨在为PyTorch中的真实机器人技术提供模型、数据集和工具。目标是降低机器人技术的准入门槛，以便每个人都可以从共享数据集和预训练模型中受益。LeRobot包含最
AI智能时代SEO优化，AISEO-人工智能搜索引擎优化 weixin_ggwwsscc 人工智能搜索引擎 deepseek AI seo
AI驱动的关键词精准匹配与语义理解传统的关键词排名规则主要依赖于关键词的字面匹配，即网站内容中出现的关键词与用户搜索词完全一致或高度相似时，才有可能获得较好的排名。然而，随着AI技术在搜索引擎中的广泛应用，这一局面正在发生深刻改变。如今的搜索引擎借助自然语言处理（NLP）和机器学习算法，能够深入理解用户搜索词背后的语义和意图，实现更精准的内容匹配。AI智能时代SEO优化，AISEO-人工智能搜索引
机器学习15-XGBoost 吹风看太阳机器学习机器人人工智能
XGBOOST学习笔记一、引言在机器学习的集成学习算法中，XGBoost（eXtremeGradientBoosting）凭借其高效性、可扩展性和卓越的性能，成为数据科学竞赛和工业界应用的热门选择。XGBoost本质上是一种基于梯度提升框架（GradientBoostingFramework）的机器学习算法，它通过不断拟合残差来构建多个弱学习器（通常是决策树），并将这些弱学习器进行累加，从而形成一
机器学习算法实战系列：异常检测全攻略——从统计方法到深度学习的异常发现技术全息架构师 AI 行业应用实战先锋机器学习算法深度学习
机器学习算法实战系列：异常检测全攻略——从统计方法到深度学习的异常发现技术引言“数据中的异常往往蕴含着最有价值的信息！从金融欺诈检测到工业设备故障预警，从网络安全到医疗诊断，异常检测技术正在守护着各个领域的安全底线。”异常检测是机器学习中极具挑战性又极具价值的领域，它旨在识别数据中与大多数实例显著不同的异常模式。本文将系统讲解异常检测的核心算法，从传统的统计方法到前沿的深度学习技术，通过金融反欺诈
【C语言练习】100. 使用C语言实现简单的自然语言理解算法视睿从零开始学习机器人 c语言算法开发语言排序算法
100.使用C语言实现简单的自然语言理解算法100.使用C语言实现简单的自然语言理解算法关键词匹配算法简介示例代码：简单的关键词匹配算法代码说明示例运行扩展功能其他方法基于规则的方法统计机器学习方法C语言中统计机器学习方法概述常见统计机器学习算法的C实现贝叶斯定理基础算法核心思想常见变体实现示例（Python）优缺点优化库与工具性能与注意事项有限状态自动机（FSA）深度学习接口调用混合方法100.
AI如何改变IT行业保持学习ing 人工智能
AI对IT行业的变革AI技术正在深刻影响IT行业的各个方面，从自动化运维到软件开发，再到数据分析和安全防护。以下是AI改变IT行业的主要方式：自动化运维（AIOps）AI驱动的运维工具可以实时监控系统性能，预测潜在故障并自动修复。机器学习算法分析日志数据，识别异常模式，减少人工干预。例如，AI可以预测服务器负载峰值，提前分配资源避免宕机。智能软件开发AI辅助编程工具如GitHubCopilot基于
机器学习算法_聚类KMeans算法 TY-2025 机器学习机器学习算法聚类
一、聚类算法分析1.概念概念：根据样本之间的相似性，将样本划分到不同的类别中；不同的相似度的计算方法，会得到不同的聚类结果，常见的相似度计算方法有欧氏距离法（无监督算法）聚类算法的目的是在没有先验知识的情况下，自动发现数据集中的内在结构和模式2.聚类算法分类（1）根据聚类颗粒度分类个数比较多的，细聚类；个数比较多的，粗聚类（2）根据实现方法分类K-means：按照质心分类层次聚类：对数据进行逐层划
图像处理与机器学习项目：特征提取、PCA与分类器评估 pk_xz123456 深度学习仿真模型算法图像处理机器学习人工智能
图像处理与机器学习项目：特征提取、PCA与分类器评估项目概述本项目将完成一个完整的图像处理与机器学习流程，包括数据探索、特征提取、主成分分析(PCA)、分类器实现和评估五个关键步骤。我们将使用Python的OpenCV、scikit-learn和scikit-image库来处理图像数据并实现机器学习算法。importnumpyasnpimportmatplotlib.pyplotaspltimpo
核方法、核技巧、核函数、核矩阵第六五签数学模型矩阵线性代数
核方法（KernelMethods）和核技巧（KernelTrick）是机器学习中处理非线性问题的强大理论框架和实践工具。核心目标：征服非线性许多机器学习算法（如感知机、支持向量机SVM、主成分分析PCA）本质上是寻找线性模式或线性决策边界（直线/平面/超平面）。然而，现实世界的数据往往是线性不可分的，这意味着在原始特征空间中，无法用一条直线（或超平面）完美地将不同类别的数据点分开，或者无法用线性
机器学习之集成学习算法文柏AI共享机器学习集成学习算法
集成学习算法一概述二Bagging方法2.1思想2.2代表算法2.3API三Boosting方法3.1AdaBoost3.1.1思想3.1.2API3.2GBDT3.2.1思想3.2.2API3.3XGBoost3.3.1思想3.3.2API机器学习算法很多,今天和大家聊一个很强悍的算法-集成学习算法,基本上是处理复杂问题的首选.话不多说,直奔主题.一概述集成学习（EnsembleLearning
jsonp 常用util方法 hw1287789687 jsonp jsonp常用方法 jsonp callback
jsonp 常用java方法 (1)以jsonp的形式返回:函数名(json字符串) /*** * 用于jsonp调用 * @param map : 用于构造json数据 * @param callback : 回调的javascript方法名 * @param filters : <code>SimpleBeanPropertyFilter theFilt
多线程场景 alafqq 多线程
0 能不能简单描述一下你在java web开发中需要用到多线程编程的场景？0 对多线程有些了解，但是不太清楚具体的应用场景，能简单说一下你遇到的多线程编程的场景吗？ Java多线程 2012年11月23日 15:41 Young9007 Young9007 4 0 0 4 Comment添加评论关注(2) 3个答案按时间排序按投票排序 0 0 最典型的如： 1、
Maven学习——修改Maven的本地仓库路径 Kai_Ge maven
安装Maven后我们会在用户目录下发现.m2 文件夹。默认情况下，该文件夹下放置了Maven本地仓库.m2/repository。所有的Maven构件(artifact)都被存储到该仓库中，以方便重用。但是windows用户的操作系统都安装在C盘，把Maven仓库放到C盘是很危险的，为此我们需要修改Maven的本地仓库路径。
placeholder的浏览器兼容 120153216 placeholder
【前言】自从html5引入placeholder后，问题就来了，不支持html5的浏览器也先有这样的效果，各种兼容，之前考虑，今天测试人员逮住不放，想了个解决办法，看样子还行，记录一下。【原理】不使用placeholder，而是模拟placeholder的效果，大概就是用focus和focusout效果。【代码】 <scrip
debian_用iso文件创建本地apt源 2002wmj Debian
1.将N个debian-506-amd64-DVD-N.iso存放于本地或其他媒介内，本例是放在本机/iso/目录下 2.创建N个挂载点目录如下： debian:~#mkdir –r /media/dvd1 debian:~#mkdir –r /media/dvd2 debian:~#mkdir –r /media/dvd3 …. debian:~#mkdir –r /media
SQLSERVER耗时最长的SQL 357029540 SQL Server
对于DBA来说，经常要知道存储过程的某些信息： 1. 执行了多少次 2. 执行的执行计划如何 3. 执行的平均读写如何 4. 执行平均需要多少时间列名 &
com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 7454103 eclipse
今天eclipse突然报了com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 错误，并且工程文件打不开了，在网上找了一下资料，然后按照方法操作了一遍，好了，解决方法如下：错误提示信息： An error has occurred.See error log for more details. Reason: com/genuitec/
用正则删除文本中的html标签 adminjun java html 正则表达式去掉html标签
使用文本编辑器录入文章存入数据中的文本是HTML标签格式，由于业务需要对HTML标签进行去除只保留纯净的文本内容，于是乎Java实现自动过滤。如下： public static String Html2Text(String inputString) { String htmlStr = inputString; // 含html标签的字符串 String textSt
嵌入式系统设计中常用总线和接口 aijuans linux 基础
嵌入式系统设计中常用总线和接口任何一个微处理器都要与一定数量的部件和外围设备连接，但如果将各部件和每一种外围设备都分别用一组线路与CPU直接连接，那么连线
Java函数调用方式——按值传递 ayaoxinchao java 按值传递对象基础数据类型
Java使用按值传递的函数调用方式，这往往使我感到迷惑。因为在基础数据类型和对象的传递上，我就会纠结于到底是按值传递，还是按引用传递。其实经过学习，Java在任何地方，都一直发挥着按值传递的本色。首先，让我们看一看基础数据类型是如何按值传递的。 public static void main(String[] args) { int a = 2;
ios音量线性下降 bewithme ios音量
直接上代码吧 //second 几秒内下降为0 - (void)reduceVolume:(int)second { KGVoicePlayer *player = [KGVoicePlayer defaultPlayer]; if (!_flag) { _tempVolume = player.volume;
与其怨它不如爱它 bijian1013 选择理想职业规划
抱怨工作是年轻人的常态，但爱工作才是积极的心态，与其怨它不如爱它。一般来说，在公司干了一两年后，不少年轻人容易产生怨言，除了具体的埋怨公司“扭门”，埋怨上司无能以外，也有许多人是因为根本不爱自已的那份工作，工作完全成了谋生的手段，跟自已的性格、专业、爱好都相差甚远。
一边时间不够用一边浪费时间 bingyingao 工作时间浪费
一方面感觉时间严重不够用，另一方面又在不停的浪费时间。每一个周末，晚上熬夜看电影到凌晨一点，早上起不来一直睡到10点钟，10点钟起床，吃饭后玩手机到下午一点。精神还是很差，下午像一直野鬼在城市里晃荡。为何不尝试晚上10点钟就睡，早上7点就起，时间完全是一样的，把看电影的时间换到早上，精神好，气色好，一天好状态。控制让自己周末早睡早起，你就成功了一半。有多少个工作
【Scala八】Scala核心二：隐式转换 bit1129 scala
Implicits work like this: if you call a method on a Scala object, and the Scala compiler does not see a definition for that method in the class definition for that object, the compiler will try to con
sudoku slover in Haskell (2) bookjovi haskell sudoku
继续精简haskell版的sudoku程序，稍微改了一下，这次用了8行，同时性能也提高了很多，对每个空格的所有解不是通过尝试算出来的，而是直接得出。 board = [0,3,4,1,7,0,5,0,0, 0,6,0,0,0,8,3,0,1, 7,0,0,3,0,0,0,0,6, 5,0,0,6,4,0,8,0,7,
Java-Collections Framework学习与总结-HashSet和LinkedHashSet BrokenDreams linkedhashset
本篇总结一下两个常用的集合类HashSet和LinkedHashSet。它们都实现了相同接口java.util.Set。Set表示一种元素无序且不可重复的集合；之前总结过的java.util.List表示一种元素可重复且有序
读《研磨设计模式》-代码笔记-备忘录模式-Memento bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; /* * 备忘录模式的功能是，在不破坏封装性的前提下，捕获一个对象的内部状态，并在对象之外保存这个状态，为以后的状态恢复作“备忘”
《RAW格式照片处理专业技法》笔记 cherishLC PS
注意，这不是教程！仅记录楼主之前不太了解的一、色彩（空间）管理作者建议采用ProRGB（色域最广），但camera raw中设为ProRGB，而PS中则在ProRGB的基础上，将gamma值设为了1.8（更符合人眼）注意：bridge、camera raw怎么设置显示、输出的颜色都是正确的（会读取文件内的颜色配置文件），但用PS输出jpg文件时，必须先用Edit->conv
使用 Git 下载 Spring 源码编译 for Eclipse crabdave eclipse
使用 Git 下载 Spring 源码编译 for Eclipse 1、安装gradle，下载 http://www.gradle.org/downloads 配置环境变量GRADLE_HOME，配置PATH %GRADLE_HOME%/bin，cmd，gradle -v 2、spring4 用jdk8 下载 https://jdk8.java.
mysql连接拒绝问题 daizj mysql 登录权限
mysql中在其它机器连接mysql服务器时报错问题汇总一、[running][email protected]:~$mysql -uroot -h 192.168.9.108 -p //带-p参数，在下一步进行密码输入 Enter password: //无字符串输入 ERROR 1045 (28000): Access
Google Chrome 为何打压 H.264 dsjt apple html5 chrome Google
Google 今天在 Chromium 官方博客宣布由于 H.264 编解码器并非开放标准，Chrome 将在几个月后正式停止对 H.264 视频解码的支持，全面采用开放的 WebM 和 Theora 格式。 Google 在博客上表示，自从 WebM 视频编解码器推出以后，在性能、厂商支持以及独立性方面已经取得了很大的进步，为了与 Chromium 现有支持的編解码器保持一致，Chrome
yii 获取控制器名和方法名 dcj3sjt126com yii framework
1. 获取控制器名在控制器中获取控制器名: $name = $this->getId(); 在视图中获取控制器名: $name = Yii::app()->controller->id; 2. 获取动作名在控制器beforeAction()回调函数中获取动作名: $name =
Android知识总结（二） come_for_dream android
明天要考试了，速速总结如下 1、Activity的启动模式 standard：每次调用Activity的时候都创建一个（可以有多个相同的实例，也允许多个相同Activity叠加。） singleTop：可以有多个实例，但是不允许多个相同Activity叠加。即，如果Ac
高洛峰收徒第二期：寻找未来的“技术大牛” ——折腾一年，奖励20万元 gcq511120594 工作项目管理
高洛峰，兄弟连IT教育合伙人、猿代码创始人、PHP培训第一人、《细说PHP》作者、软件开发工程师、《IT峰播》主创人、PHP讲师的鼻祖！首期现在的进程刚刚过半，徒弟们真的很棒，人品都没的说，团结互助，学习刻苦，工作认真积极，灵活上进。我几乎会把他们全部留下来，现在已有一多半安排了实际的工作，并取得了很好的成绩。等他们出徒之日，凭他们的能力一定能够拿到高薪，而且我还承诺过一个徒弟，当他拿到大学毕
linux expect heipark expect
1. 创建、编辑文件go.sh #!/usr/bin/expect spawn sudo su admin expect "*password*" { send "13456\r\n" } interact 2. 设置权限 chmod u+x go.sh 3.
Spring4.1新特性——静态资源处理增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
idea ubuntuxia 乱码 liyonghui160com
1.首先需要在windows字体目录下或者其它地方找到simsun.ttf 这个字体文件。 2.在ubuntu 下可以执行下面操作安装该字体： sudo mkdir /usr/share/fonts/truetype/simsun sudo cp simsun.ttf /usr/share/fonts/truetype/simsun fc-cache -f -v
改良程序的11技巧 pda158 技巧
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短永远永远不要把同一个变量用于多个不同的
300个涵盖IT各方面的免费资源（下）——工作与学习篇 shoothao 创业免费资源学习课程远程工作
工作与生产效率: A. 背景声音 Noisli:背景噪音与颜色生成器。 Noizio:环境声均衡器。 Defonic:世界上任何的声响都可混合成美丽的旋律。 Designers.mx:设计者为设计者所准备的播放列表。 Coffitivity:这里的声音就像咖啡馆里放的一样。 B. 避免注意力分散 Self Co
深入浅出RPC uule rpc
深入浅出RPC-浅出篇深入浅出RPC-深入篇 RPC Remote Procedure Call Protocol 远程过程调用协议它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在，如TCP或UDP，为通信程序之间携带信息数据。在OSI网络通信模型中，RPC跨越了传输层和应用层。RPC使得开发