終極龍閃

房价预测

主要步骤

1、观察大局
- 寻找数据
- 性能指标
2、获取数据
- 下载数据
- 加载数据
- 快速探索数据
- - 查看前五行
  - 数据集的简单描述
  - 对某一属性查看多少种分类
  - 数值属性的摘要
  - 绘制直方图
- 创建测试集
- - 纯随机抽样
  - 分层抽样
3、数据可视化
- 地理数据可视化
- 寻找相关性
- 添加不同属性的组合
4、数据准备
- 数据清理
- - 使用pandas
  - 使用sklearn
5、选择并训练模型
- 线性回归
- - 验错
  - 10折交叉验证
- 决策树
- - 验错
  - 10折交叉验证
- 随机森林
- - 验错
  - 10折交叉验证
6、微调模型
- 网格搜索
- 随机搜索
- 分析最佳模型以及误差
7、通过测试集评估
- 在测试集上评估最终模型
- 计算泛化误差的95%置信区间

1、观察大局

寻找数据

UCI
Kaggle

性能指标

均方根误差（RMSE）、平均绝对误差（MAE）
RMSE=sqrt（（（标签向量-预测的标签向量）^2）/实例总数）
MAE=abs（标签向量-预测的标签向量）/实例总数

2、获取数据

下载数据

GitHub
百度云：提取码:78jm

加载数据

使用pandas载入数据集
import pandas as pd

import pandas as pd
housing=pd.read_csv('D:/dataSets/housing.csv')

快速探索数据

绘图 import matplotlib.pyplot as plt
随机抽样 from sklearn.model_selection import train_test_split
分层抽样 from sklearn.model_selection import StratifiedShuffleSplit

查看前五行

print(housing.head())

数据集的简单描述

print(housing.info())

对某一属性查看多少种分类

print(housing['ocean_proximity'].value_counts())

数值属性的摘要

print(housing.describe())

空值会被省略，故total_bedroom的count是20433
std是标准差（方差的平方根，测量数值的离散程度）
longitude的值，25%小于-121.8（第25百分数或第一四分位数），50%小于-118.49（中位数），75%小于-118.01（第75百分数或第三四分位数）

绘制直方图

import matplotlib.pyplot as plt
housing.hist(bins=50, figsize=(15,10)) #bin表示有几条柱
plt.show()

创建测试集

纯随机抽样

def split_train_test(data,test_ratio):
    #随机排列组合，打乱index，返回长度为len(data)的一维数组
    shuffled_indices=np.random.permutation(len(data))
    #测试集的样本个数
    test_set_size=int(len(data)*test_ratio)
    #取前A%作为测试集
    test_indices=shuffled_indices[:test_set_size]
    #取剩下的(1-A%)作为训练集
    train_indices=shuffled_indices[test_set_size:]
    #返回训练集与测试集
    return data.iloc[train_indices],data.iloc[test_indices]
#数据集的20%（test_ratio）作为测试集：训练集16512条，测试集4128条
train_set,test_set=split_train_test(housing,0.2) 
print(train_set.head())

为了避免每次运行程序时产生不同的数据集，从而暴露整个完整的数据集，我们需要：
①在运行后即时保存测试集和训练集，随后的运行只是加载它。
②在调用np.random.permutation()之前设置一个随机数种子，如np.random.seed(42)，从而始终产生相同的随机索引。scikit-learn中提供了train_test_split() 函数，能够将数据集分成多个子集，也有random_state参数设置随机数生成种子。

from sklearn.model_selection import train_test_split
#与前面定义的函数几乎相同，但是多了几个额外特征
train_set,test_set=train_test_split(housing,test_size=0.2,random_state=42)
print(train_set.head())

分层抽样

定义：按规定的比例从不同层中抽取样本，从而得到的样本代表性更好，误差更小。每一层要有足够数量的实例，否则其重要程度可能会被错估。

（1）创建五个类别属性

#添加一列新属性：income_cat，希望确保在收入中位数上，测试集能够代表整个数据集中各种不同类型的收入
housing['income_cat']=pd.cut(housing["median_income"],bins=[0.,1.5,3.0,4.5,6.,np.inf],labels=[1,2,3,4,5])
#pd.cut()用来创建5个收入类别属性，1~5作为标签，
#0~1.5是类别1，1.5~3是类别2，以此类推
print(housing["income_cat"])
housing["income_cat"].hist()

（2）进行分层抽样

使用sklearn的StratifiedShuffleSplit 类

from sklearn.model_selection import StratifiedShuffleSplit 
#分层抽样，n_splits为数据分成train/test的对数
split=StratifiedShuffleSplit(n_splits=1,test_size=0.2,random_state=42)
#索引值列表train_index、test_index；loc函数表示读取某些行的数据，
#如test1.loc([[1,8,4],[0,1,0]])返回index为1、8、4，column为0、1、0的数据行
for train_index, test_index in split.split(housing,housing["income_cat"]):
    strat_train_set=housing.loc[train_index]
    strat_test_set=housing.loc[test_index]
#可以看到，测试集中收入类别的比例分布和整个数据集很接近
print(strat_test_set["income_cat"].value_counts()/len(strat_test_set))
print(housing["income_cat"].value_counts()/len(housing))

（3）分层抽样结束后删除income_cat属性，将数据恢复原样

drop函数：axis=1时为横轴，表现为列的减少，=0时为纵轴，表现为行的减少；
inplace默认为False，表示是否替换原数组

for set_ in(strat_train_set, strat_test_set): #删除income_cat属性
    set_.drop("income_cat",axis=1,inplace=True)

3、数据可视化

绘图 import matplotlib.pyplot as plt
计算皮尔逊r采用corr()方法
绘制每个数值属性相对于其他数值属性的相关性 from pandas.plotting import scatter_matrix

先把测试集放在一边，只能探索训练集

地理数据可视化

housing=strat_train_set.copy() #训练集副本，避免损害训练集
#散点图scatter，横坐标x，纵坐标y，alpha透明度（可清楚看到高密度数据点的位置），子图用legend
housing.plot(kind="scatter",x="longitude",y="latitude",alpha=0.1) #房子数量与经纬度的关系
#label图例，figsize图像尺寸，每个圆的半径s大小代表每个区域的人口数量，颜色c代表价格
#颜色表cmap采用jet，从低到高为蓝到红（gray_r为黑白）
housing.plot(kind="scatter",x="longitude",y="latitude",alpha=0.4,s=housing["population"]/50,label="population",figsize=(10,7),c="median_house_value",cmap=plt.get_cmap("jet"),colorbar=True) #房价、人口与经纬度的关系
plt.legend()

寻找相关性

#corr()计算出每对属性之间的标准相关系数（皮尔逊r）
corr_matrix=housing.corr() 
#每对属性之间的标准相关系数，-1~1，越接近1越正相关，越接近-1越负相关
print(corr_matrix["median_house_value"].sort_values(ascending=False)) 
#每个属性与房价中位数的相关性
housing.plot(kind="scatter",x="median_income",y="median_house_value",alpha=0.1) 
#查看房价中值和收入中值的相关性的散点图

由上图可以看到，二者相关性较强，点并不是很分散且明显呈上升趋势。

#绘制每个数值属性相对于其他数值属性的相关性
from pandas.plotting import scatter_matrix
attributes=["median_house_value","median_income","total_rooms","housing_median_age"]
scatter_matrix(housing[attributes],figsize=(12,8))

当pands绘制每个变量对于自身的图像，主对角线将都是直线，这样毫无意义。因此取而代之，显示了每个属性的直方图。

添加不同属性的组合

在给机器学习算法输入数据之前，不仅需要提前清理掉异常数据，同时也会发现不同属性之间的有趣联系。包括尝试各种属性的组合以及对它们进行转换处理 (例如取对数) 等。

#房间总数/家庭数
housing["rooms_per_household"]=housing["total_rooms"]/housing["households"]
#卧室总数/房间总数
housing["bedrooms_per_room"]=housing["total_bedrooms"]/housing["total_rooms"]
#每个家庭的人口数
housing["population_per_household"]=housing["population"]/housing["households"]
#查看相关矩阵
corr_matrix=housing.corr() 
#按相关性递减显示
print(corr_matrix["median_house_value"].sort_values(ascending=False))

4、数据准备

处理部分缺失值：DataFrame的dropna()、drop()、fillna()方法
转换流水线：

再次拷贝strat_train_set，回到干净的数据集，然后将预测器和标签分开

#这里drop会创建一个数据副本但是不影响strat_train_set
housing =strat_train_set.drop("median_house_value",axis=1)
housing_labels=strat_train_set["median_house_value"].copy()

数据清理

前面我们注意到total_bedrooms属性有部分值缺失，我们有三种方法解决：
①放弃这些区域
②放弃整个属性
③用某个值填充（0、平均数、中位数等）

from sklearn.impute import SimpleImputer
imputer使用fit()将imputer实例适配到训练数据，再用transform()将缺失值替换成中位数值
from sklearn.preprocessing import OneHotEncoder
独热编码，类别与自己相等时为1，其余为0。因此返回一个稀疏矩阵
from sklearn.preprocessing import OrdinalEncoder
在这里可以将类别从文本转到数字，一定情况下，两个相近的值说明二者更为相似。这里显然不适合用这方法
from sklearn.base import BaseEstimator, TransformerMixin
自定义转换器，这里用了一个简单的转换器类，来添加前面提到过的组合属性
from sklearn.pipeline import Pipeline
转换流水线
from sklearn.preprocessing import StandardScaler
估算器，配合流水线
from sklearn.compose import ColumnTransformer
分别处理类别列和数值列

使用pandas

housing.dropna(subset=["total_bedrooms"])    #option1
housing.drop("total_bedrooms",axis=1)        #option2
#计算出训练集的中位数然后用它填充缺失值
medians=housing["total_bedrooms"].medians()  #option3
housing["total_bedrooms"].fillna(median,inplace=True)

使用sklearn

from sklearn.impute import SimpleImputer
from sklearn.preprocessing import OneHotEncoder
from sklearn.preprocessing import OrdinalEncoder
from sklearn.base import BaseEstimator, TransformerMixin
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.compose import ColumnTransformer
housing_num=housing.drop("ocean_proximity",axis=1) #取数据集的数字部分
#双中括号：单列聚合时输出带有列标签，多列聚合时无区别
housing_cat=housing[["ocean_proximity"]] #取数据集的文本部分（ocean列数据）
cat_encoder=OneHotEncoder()
housing_cat_1hot=cat_encoder.fit_transform(housing_cat)

rooms_ix,bedrooms_ix, population_ix,households_ix = 3, 4, 5, 6
class CombinedAttributesAdder(BaseEstimator, TransformerMixin):
    def __init__ (self, add_bedrooms_per_room = True): # no *args or **kargs
        self.add_bedrooms_per_room = add_bedrooms_per_room
    def fit(self, X, y=None):
        return self# nothing else to do
    def transform(self, X):
        rooms_per_household = X[:, rooms_ix] / X[:, households_ix]
        population_per_household = X[:, population_ix] / X[:, households_ix]
        if self.add_bedrooms_per_room:
            bedrooms_per_room = X[: , bedrooms_ix] / X[ :, rooms_ix]
            return np.c_[X, rooms_per_household, population_per_household ,bedrooms_per_room ]
        else:
            return np.c_[X, rooms_per_household, population_per_household]
num_pipeline =Pipeline([('imputer',SimpleImputer(strategy="median")),('attribs_adder',CombinedAttributesAdder()),('std_scaler',StandardScaler())])

num_attribs=list(housing_num)
cat_attribs=["ocean_proximity"]
full_pipeline=ColumnTransformer([("num",num_pipeline,num_attribs),("cat",OneHotEncoder(),cat_attribs)])
housing_prepared=full_pipeline.fit_transform(housing)
print(housing_prepared)

流水线返回的是numpy数组。若想转回pandasDataFrame，可以做以下操作：

a=np.append(num_attribs,["rooms_per_household","population_per_household","bedrooms_per_room"])
##cat_encoder.categories_返回独热编码的每一个column
a=np.append(a,cat_encoder.categories_) 
##返回的numpy数组转回pandas
test=pd.DataFrame(housing_prepared,columns=a) 
print(test)

pandas转numpy：housing.values 即可

5、选择并训练模型

线性回归：from sklearn.linear_model import LinearRegression
决策树：from sklearn.tree import DecisionTreeRegressor
对模型验错：from sklearn.metrics import mean_squared_error
交叉验证法：from sklearn.model_selection import cross_val_score

线性回归

from sklearn.linear_model import LinearRegression
lin_reg=LinearRegression()
lin_reg.fit(housing_prepared,housing_labels)#训练线性回归模型

some_data=housing.iloc[:5]#取前五个数据
some_labels=housing_labels.iloc[:5]#去前五个结果
some_data_prepared=full_pipeline.transform(some_data)#流水线处理前五行数据
print("predictions:",lin_reg.predict(some_data_prepared))#预测
print("labels:",list(some_labels))

验错

from sklearn.metrics import mean_squared_error#用这个模型对整个训练集验错
housing_predictions=lin_reg.predict(housing_prepared)#预测值
lin_mse=mean_squared_error(housing_labels,housing_predictions)
lin_rmse=np.sqrt(lin_mse)
print(lin_rmse)

10折交叉验证

lin_scores=cross_val_score(lin_reg,housing_prepared,housing_labels,scoring="neg_mean_squared_error",cv=10)
lin_rmse_scores=np.sqrt(-lin_scores)#10折交叉验证线性回归
display_scores(lin_rmse_scores)

决策树


from sklearn.tree import DecisionTreeRegressor
tree_reg=DecisionTreeRegressor() #决策树
tree_reg.fit(housing_prepared,housing_labels) #训练决策树模型

验错


housing_predictions=tree_reg.predict(housing_prepared)
tree_mse=mean_squared_error(housing_labels,housing_predictions)
tree_rmse=np.sqrt(tree_mse)
print(tree_mse) #训练集评估无错误，可能过拟合

10折交叉验证

from sklearn.model_selection import cross_val_score #交叉验证法
tree_scores=cross_val_score(tree_reg,housing_prepared,housing_labels,scoring="neg_mean_squared_error",cv=10)
tree_rmse_scores=np.sqrt(-tree_scores) #10折交叉验证决策树
print(tree_rmse_scores)

def display_scores(scores):
    print("scores:",scores)#十次评估分数的数组
    print("mean:",scores.mean())#评分
    print("standard deviation:",scores.std())#上下浮动
display_scores(tree_rmse_scores)#严重过拟合

随机森林

from sklearn.ensemble import RandomForestRegressor
forest_reg=RandomForestRegressor()
forest_reg.fit(housing_prepared,housing_labels)

housing_predictions=forest_reg.predict(housing_prepared)

验错

forest_mse=mean_squared_error(housing_labels,housing_predictions)
forest_rmse=np.sqrt(forest_mse)
print(forest_rmse)

10折交叉验证

forest_scores=cross_val_score(forest_reg,housing_prepared,housing_labels,scoring="neg_mean_squared_error",cv=10)
forest_rmse_scores=np.sqrt(-forest_scores)#10折交叉验证决策树
display_scores(forest_rmse_scores)

6、微调模型

网格搜索

from sklearn.model_selection import GridSearchCV
param_grid=[
        {'n_estimators':[3,10,30],'max_features':[2,4,6,8]},
        {'bootstrap':[False],'n_estimators':[3,10],'max_features':[2,3,4]}
    ]
forest_reg=RandomForestRegressor()
grid_search=GridSearchCV(forest_reg,param_grid,cv=5,
                         scoring='neg_mean_squared_error',
                         return_train_score=True)
grid_search.fit(housing_prepared,housing_labels)
print(grid_search.best_params_)
print(grid_search.best_estimator_)
cvres=grid_search.cv_results_
for mean_score,params in zip(cvres["mean_test_score"],cvres["params"]):
    print(np.sqrt(-mean_score),params)

随机搜索

当超参数的搜索范围较大时，通常优先选择RandomizedSearchCV。
它不会尝试所有可能的组合，而是在每次迭代中选择一个随机值作为超参数。

分析最佳模型以及误差

Random-ForestRegressor可以指出每个属性的相对重要程度

a=[1,2,3]
b=[4,5,6]
zip(a,b)=[(1,4),(2,5),(3,6)]

feature_importances=grid_search.best_estimator_.feature_importances_
print(feature_importances)
extra_attribs=["rooms_per_hhold","pop_per.hhold","bedrooms_per_room"]
cat_encoder=full_pipeline.named_transformers_["cat"]
cat_one_hot_attribs=list(cat_encoder.categories_[0])
attributes=num_attribs+extra_attribs+cat_one_hot_attribs
print(sorted(zip(feature_importances,attributes),reverse=True))

7、通过测试集评估

在测试集上评估最终模型

final_model=grid_search.best_estimator_

x_test=strat_test_set.drop("median_house_value",axis=1)
y_test=strat_test_set["median_house_value"].copy()

x_test_prepared=full_pipeline.transform(x_test)
final_predictions=final_model.predict(x_test_prepared)

final_mse=mean_squared_error(y_test,final_predictions)
final_rmse=np.sqrt(final_mse)
print(final_rmse)

泛化误差显然比一开始的线性回归小很多了

计算泛化误差的95%置信区间

from scipy import stats
confidence=0.95
squared_errors=(final_predictions-y_test)**2
print(np.sqrt(stats.t.interval(confidence,len(squared_errors)-1,
                         loc=squared_errors.mean(),
                         scale=stats.sem(squared_errors))))

泛化误差有95%的可能性落在这个区域内：

【CUDA-BEVFusion】tool/build_trt_engine.sh 文件解读 old_power 计算机视觉计算机视觉深度学习
build_trt_engine.sh#configuretheenvironment.tool/environment.shif["$ConfigurationStatus"!="Success"];thenecho"Exitduetoconfigurefailure."exitfi#tensorrtversion#version=`trtexec|grep-m1TensorRT|sed-n"s
【AI日志分析】基于机器学习的异常检测：告别传统规则的智能进阶人工智能机器学习深度学习
摘要随着系统规模的扩大和复杂性增加，传统基于规则的日志分析方法难以识别隐藏的复杂异常模式。本文将介绍基于机器学习的日志异常检测技术，包括模型选择、特征工程及实现步骤。通过具体的代码示例与图表，展示如何高效检测异常日志，并提供应用场景与优化策略。引言日志是系统运行状态的关键数据来源，但面对海量日志数据，传统规则式分析显得力不从心。机器学习能够根据日志的历史数据和行为模式，通过训练模型检测异常情况，不
大模型密度定律：AI代码生成器将迎来爆发式增长？前端
近年来，人工智能（AI）技术飞速发展，尤其是在代码生成领域，涌现出许多强大的AI代码生成器。清华大学刘知远团队近期提出的“大模型密度定律”，为我们理解AI技术的发展速度提供了新的视角，也预示着AI代码生成技术的未来发展趋势。该定律指出，模型能力密度每3.3个月翻倍，这将如何改变我们对AI发展的认知，并对AI代码生成器产生怎样的影响呢？让我们深入探讨。大模型密度定律：能力密度与指数级增长“大模型密度
Exa CEO惊人预测：前端工程师三年内消失？数学家700天后失业？AI代码生成器时代来临！前端
Exa公司CEO威廉·布里克近日做出了一个惊人的预测：前端工程师将在三年内消失，而数学家则只有700天的时间！这个预测的背后，是英伟达千万美元投资以及对AI技术突破的深刻观察。那么，这个大胆的预测究竟有多少可信度呢？AI代码生成器等工具的兴起，又将如何重塑前端开发和数学领域？让我们深入探讨。AI对前端开发的颠覆性影响布里克的预测并非空穴来风。近年来，AI在代码生成领域的进步日新月异。例如，Scri
2024实力进阶：百度智能云千帆AppBuilder年度盘点
2024，AI浪潮奔涌，百度智能云千帆AppBuilder持续升级，以AI原生之力，革新企业级大模型应用开发范式，重塑行业生态！企业级RAG实现重大突破，支持无限存储，高并发秒速响应，且能实现随业务弹性扩缩容。此外RAG支持一键联网，无缝连接百度搜索、文库、百科等全网最新资源，资讯获取实时更新，全面且精准。多语言RAG为企业开拓全球市场保驾护航；强图表解析功能让报告与报表分析更精准高效。企业级Ag
AI代码生成器赋能：提升软件开发效率的自动化测试策略前端
在当今竞争激烈的职业环境中，持续提升自身技能和工作效率至关重要。对于软件开发者而言，掌握高效的开发方法和工具，直接关系到职业发展前景和个人竞争力。而自动化测试作为提升软件开发效率的关键环节，正日益受到重视。本文将深入探讨如何利用先进的AI代码生成器等工具，提升自动化测试效率，从而助力个人职业发展。自动化测试的挑战与机遇传统的软件开发流程中，测试环节往往占据大量时间和人力资源。编写和维护测试代码耗时
销售易CRM 2024年市场表现分析及2025年展望程序员算法机器学习
在2024年，腾讯旗下销售易CRM作为国内领先的企业级SaaS服务提供商，在多个维度都取得了显著进展。让我们从几个关键方面来分析其表现并展望2025年的发展方向。产品创新与技术升级2024年，销售易在AI赋能方面投入大量资源，推出了智能销售助手功能，通过AI技术辅助销售团队进行客户画像分析、商机预测等工作。其私有化部署方案得到进一步优化，满足了更多大型企业的数据安全需求。移动端应用的用户体验也获得
NocoBase 本周更新汇总：改进文件存储扩展
汇总一周产品更新日志，最新发布可以前往我们的博客查看。NocoBase目前更新包括的版本更新包括三个分支：main，next和develop。main：截止目前最稳定的版本，推荐安装此版本。next：包含即将发布的新功能，经过初步测试的版本，可能存在部分已知或未知问题。主要面向测试用户,用于收集反馈和进一步优化功能。适合愿意提前体验新功能并提供反馈的测试用户。develop：开发中的版本，包含最新
NocoBase 本周更新汇总：支持自定义用户资料的表单
汇总一周产品更新日志，最新发布可以前往我们的博客查看。NocoBase目前更新包括的版本更新包括三个分支：main，next和develop。main：截止目前最稳定的版本，推荐安装此版本。next：包含即将发布的新功能，经过初步测试的版本，可能存在部分已知或未知问题。主要面向测试用户,用于收集反馈和进一步优化功能。适合愿意提前体验新功能并提供反馈的测试用户。develop：开发中的版本，包含最新
无@RequestBody获取数据为null 爱恰鸡米花学习 java
知识点参考：https://blog.csdn.net/justry_deng/article/details/80972817/今天在做一个post提交数据时，发现后台接收到的数据总为null，这是vue前端代码submitForm(formName){this.ruleForm.pic='/img/singerPic/666.jpg';const_this=this;this.$refs[fo
面向 Data+AI 的统一数据目录探索 | Data Infra NO.22 回顾（含资料发布）数据库
随着生成式人工智能（GenerativeAI）的崛起，从图像生成、自然语言处理到个性化推荐系统，生成式AI技术正迅速改变着各行各业的面貌。而在这场变革背后，数据的管理和治理显得尤为重要。对于企业来说，数据不仅是基础资源，更是构建AI应用和增强业务能力的关键。ApacheGravitino（incubating）与Databend作为数据领域两个知名的开源项目，正通过各自的创新技术和实践，为数据管理
Go微服务十二 Go使用nacos 注册服务，服务发现太阳上的雨天微服务 go 微服务 nacos
创作不易感谢支持。一条主写Go和PHP的小菜鸟。平常有时间喜欢自己写点东西，如有不对的地方，欢迎大佬指点。个人博客：太阳上的雨天地址：http://blog.caixiaoxin.cn善于分享，希望有助他人.非常感谢各位大佬的关注和支持Go使用阿里nacos管理服务注册和发现，思路Demo连接nacosfuncInitNacos()*nacosRF{//return&nacosRF{}d:=&na
springboot初始化数据库+druid解密
1.yaml配置数据库连接配置#数据源配置spring.datasource.username=beebotlarkspring.datasource.password=WDShxRWTLSuKM6ucPN4E8hi0YWglium26wJVKitxRpzN2sopztgZpvgi4YFnuPXrAiLPMjuzgYK13we5SEwIHQ==spring.datasource.url=local
大模型密度定律：AI代码生成器将迎来爆发式增长？前端
近年来，人工智能（AI）技术飞速发展，尤其是在代码生成领域，涌现出许多强大的AI代码生成器。清华大学刘知远团队近期提出的“大模型密度定律”，为我们理解AI技术的发展速度提供了新的视角，也预示着AI代码生成技术的未来发展趋势。该定律指出，模型能力密度每3.3个月翻倍，这将如何改变我们对AI发展的认知，并对AI代码生成器产生怎样的影响呢？让我们深入探讨。大模型密度定律：能力密度与指数级增长“大模型密度
深度求索DeepSeek V2.5-1210发布：强大的AI代码生成器，开启联网搜索新纪元前端
深度求索团队近日发布了AI代码生成器DeepSeekV2.5系列的最终版本——DeepSeekV2.5-1210，并正式上线了备受期待的联网搜索功能。这标志着DeepSeekV2系列发展历程的一个重要里程碑，也为AI大模型在代码生成和信息检索领域树立了新的标杆。此次更新不仅带来了模型能力的全面提升，更重要的是开启了AI与实时信息互联的新篇章。DeepSeekV2.5-1210的核心改进：Post-
Github配置SSH连接方式 nk南枫 github ssh
1.检查是否有SSH密钥使用以下命令检查是否有一个SSH密钥。如果没有，需要生成一个新的密钥ls-al~/.ssh如果有看到类似id_rsa和id_rsa.pub的文件，说明已经有SSH密钥了，可以直接跳转到第3步2.生成新的SSH密钥使用以下命令生成一个新的SSH密钥ssh-keygen-trsa-b4096-C"[email protected]"在提示输入文件保存位置时，按回车键使
QAT与PTQ模型量化方法的区别 old_power 计算机视觉模型量化深度学习计算机视觉
QAT（QuantizationAwareTraining）和PTQ（PostTrainingQuantization）是两种常见的模型量化方法，用于减少深度学习模型的计算和存储开销，同时尽量保持模型的性能。1.QAT（QuantizationAwareTraining）定义：QAT是在模型训练过程中引入量化操作，使模型在训练时就能感知到量化带来的影响，从而更好地适应量化后的精度损失。流程：在训练
打造你的第一个AI Agent：从需求分析到架构设计技术出海录人工智能 AI ai agent
前面几篇文章，我们讨论了AIAgent的概念和技术选型。今天，我想和大家分享如何从零开始打造一个AIAgent。我会用一个实际的项目案例，带大家走一遍完整的开发流程。项目背景事情要从一个月前说起。那天我正在整理自己的笔记库，突然发现一个痛点：我的笔记散落在各个工具里（Notion、飞书、本地Markdown），想找一个知识点经常要翻好几个地方。于是我就想：能不能做一个AI助手，帮我管理和查询这些笔
python+ollama本地大模型批量识别PDF，总结摘要以及关键词并输出EXCEL。月野难浔丶 python pdf 开发语言
现在市场上有很多PDF文件的识别，转化，等等。有些业务可能需要总结摘要和关键词等等一系列的操作。然而随着AI的兴起，本地大模型的部署，这些成为一种很方便的方法，接下来我将为各位介绍我所使用的方法。本篇文章旨在自动化处理PDF文档，提取并清理文本数据，然后使用一种大型模型生成摘要和关键词。最后，处理结果会被整理并输出到Excel文件中，便于后续分析和查看。人工智能（AI）是一种模拟人类智能的科技，它
Ubuntu11.04 64位搭建android开发环境 zgjxwl Android Android Ubuntu11.04 64
1、安装Ubuntu11.0464位版本名称：ubuntu-11.04-desktop-amd64.iso下载地址：http://kuai.xunlei.com/d/TfV8AwK-CQC7xDtSf6e具体Ubuntu的安装不详细说了，大家可以自行google通过VmWare安装。2、安装jdk1.7下载地址：http://www.oracle.com/technetwork/java/java
使用Cursor调试Python代码的详细步骤 shine_du python java 开发语言 cursor
以下是使用Cursor调试Python代码的详细步骤：一、准备Python代码首先，确保你已经在Cursor中创建了一个Python项目并编写了要调试的Python代码。例如，以下是一段简单的Python代码示例，我们将对其进行调试：defcalculate_sum(numbers):total=0fornumberinnumbers:total+=numberreturntotaldefmain
多Agent框架之-CrewAI-人工智能代理团队的未来 WorkAgent 人工智能 ai langchain
CrewAI-aroleplayingAIAgentsgit地址：https://github.com/joaomdmoura/crewai#why-crewailangchain地址：CrewAIUnleashed:FutureofAIAgentTeamsAgent具有与另一个Agent联系的能力，以委派工作或提出问题。任务可以使用特定的代理工具覆盖，这些工具应该被使用，同时还可以指定特定的代理
利用LangChain实现网页内容爬取并总结 WorkAgent python langchain ai 人工智能
背景利用LangChain中load_summarize_chain实现网页内容爬取并总结。亮点：网页内容过长，导致超过LLM的token限制，使用LangChain中load_summarize_chain实现。Map-reduce思想：先对长文本进行切分map阶段-对每段进行summaryreduce-对每个map再进行总结实现长文本内容总结案例实现：背景：想查找某个产品的生产厂商，需要先去网
DIY台式机并安装Win10+Debian双系统秋天的妖风 debian windows 程序人生 linux
缘起做为软件开发者，之前一直使用MacBook系列，在公司用MacBookProM1，在家用使用自己的2018款MacBookAir。公司的电脑比较新配置也比较高，做开发使用还算顺利。但是家里的电脑在做开发的时候，打开IDE就已经有点卡顿了，在编程的时候，提示功能更是严重延迟，跟不上手速，于是有了更新电脑的想法。由于MacBook天然对开发友好，还是想用MacBook，但是现在MacBook越来越
Python百度搜索引擎API使用手册宫和举Esmeralda
Python百度搜索引擎API使用手册python-baidusearch自己手写的百度搜索接口的封装，pip安装，支持命令行执行。BaiduSearchunofficialAPIforPythonwithnoexternaldependencies项目地址:https://gitcode.com/gh_mirrors/py/python-baidusearch概览本文档将详细介绍如何安装与使用p
RabbitMQ系列-异常处理 M_Joes_18 RabbitMQ RabbitMQ系列 EXCEPTION
1.当AcknowledgeMode=AUTO时@Bean(value="myRabbitListenerContainer")publicSimpleMessageListenerContainersimpleMessageListenerContainer(ConnectionFactoryconnectionFactory){SimpleMessageListenerContainercon
feign调用跳过HTTPS的SSL证书校验配置详解秋分的秋刀鱼 Java 网络编程 ssl https 网络 java
一、问题抛出如果不配置跳过SSL证书校验，当Feign客户端尝试连接到一个使用自签名证书的服务器时，可能会抛出类似以下的异常：javax.net.ssl.SSLHandshakeException:sun.security.validator.ValidatorException:PKIXpathbuildingfailed:sun.security.provider.certpath.SunCe
Python Baidu Search API：轻松实现百度搜索的强大工具任凝俭
PythonBaiduSearchAPI：轻松实现百度搜索的强大工具python-baidusearch自己手写的百度搜索接口的封装，pip安装，支持命令行执行。BaiduSearchunofficialAPIforPythonwithnoexternaldependencies项目地址:https://gitcode.com/gh_mirrors/py/python-baidusearch项目介
vivo OriginOS 5公测适配计划公布，有你的手机吗？芥子沫移动开发智能手机 Vivo Origin5
2025年了，OriginOS5已经发布，X100和Fold3的小伙伴已经用上了，相对上一版本还是有很多期待的，风格是越来越果里果气了。一、新特性1、强化消息通知原子通知->原子岛原子岛：类似于苹果的灵动岛，可以在锁屏状态下，实时看到重要信息，比如外卖，快递，航班，打车，外卖等信息服务，点开可以切换为二级卡片，再次点击可以进入该应用页面。2、重构AI转身各种助手语音升级，Jovi语音”→“蓝心小V
程序员转行做什么好：数据分析师、AI大模型工程师、产品经理和云计算工程师？雪碧没气阿人工智能产品经理云计算大模型训练 LLM AI大模型程序员
程序员转行做什么好先给结论再说理由：数据分析师、AI大模型工程师、产品经理和云计算工程师。这些领域不仅因应了当前技术发展的趋势，也为程序员提供了转型的广阔舞台和职业发展的新机遇。一起来看看吧！数据分析师：数据驱动决策的关键程序员转行时，应考虑当前市场上的热门行业和岗位需求。例如，AI大模型工程师、数据分析师、前端开发工程师、全栈开发工程师等都是当前市场上需求量较大的职位。就拿数据分析师来说，因其在
多线程编程之理财周凡杨 java 多线程生产者消费者理财
现实生活中，我们一边工作，一边消费，正常情况下会把多余的钱存起来，比如存到余额宝，还可以多挣点钱，现在就有这个情况：我每月可以发工资20000万元（暂定每月的1号），每月消费5000（租房+生活费）元（暂定每月的1号），其中租金是大头占90%，交房租的方式可以选择（一月一交，两月一交、三月一交），理财：1万元存余额宝一天可以赚1元钱，
[Zookeeper学习笔记之三]Zookeeper会话超时机制 bit1129 zookeeper
首先，会话超时是由Zookeeper服务端通知客户端会话已经超时，客户端不能自行决定会话已经超时，不过客户端可以通过调用Zookeeper.close()主动的发起会话结束请求，如下的代码输出内容 Created /zoo-739160015 CONNECTEDCONNECTED .............CONNECTEDCONNECTED CONNECTEDCLOSEDCLOSED
SecureCRT快捷键 daizj secureCRT 快捷键
ctrl + a : 移动光标到行首ctrl + e ：移动光标到行尾crtl + b: 光标前移1个字符crtl + f: 光标后移1个字符crtl + h : 删除光标之前的一个字符ctrl + d ：删除光标之后的一个字符crtl + k ：删除光标到行尾所有字符crtl + u : 删除光标至行首所有字符crtl + w: 删除光标至行首
Java 子类与父类这间的转换周凡杨 java 父类与子类的转换
最近同事调的一个服务报错，查看后是日期之间转换出的问题。代码里是把 java.sql.Date 类型的对象强制转换为 java.sql.Timestamp 类型的对象。报java.lang.ClassCastException。代码：
可视化swing界面编辑朱辉辉33 eclipse swing
今天发现了一个WindowBuilder插件，功能好强大，啊哈哈，从此告别手动编辑swing界面代码，直接像VB那样编辑界面，代码会自动生成。首先在Eclipse中点击help，选择Install New Software,然后在Work with中输入WindowBui
web报表工具FineReport常用函数的用法总结（文本函数）老A不折腾 finereport web报表工具报表软件 java报表
文本函数 CHAR CHAR(number):根据指定数字返回对应的字符。CHAR函数可将计算机其他类型的数字代码转换为字符。 Number:用于指定字符的数字，介于1Number:用于指定字符的数字，介于165535之间（包括1和65535）。示例: CHAR(88)等于“X”。 CHAR(45)等于“-”。 CODE CODE(text):计算文本串中第一个字
mysql安装出错林鹤霄 mysql安装
[root@localhost ~]# rpm -ivh MySQL-server-5.5.24-1.linux2.6.x86_64.rpm Preparing... #####################
linux下编译libuv aigo libuv
下载最新版本的libuv源码，解压后执行： ./autogen.sh 这时会提醒找不到automake命令，通过一下命令执行安装（redhat系用yum，Debian系用apt-get）： # yum -y install automake # yum -y install libtool 如果提示错误：make: *** No targe
中国行政区数据及三级联动菜单 alxw4616
近期做项目需要三级联动菜单,上网查了半天竟然没有发现一个能直接用的! 呵呵,都要自己填数据....我了个去这东西麻烦就麻烦的数据上. 哎,自己没办法动手写吧. 现将这些数据共享出了,以方便大家.嗯,代码也可以直接使用文件说明 lib\area.sql -- 县及县以上行政区划分代码（截止2013年8月31日)来源：国家统计局发布时间：2014-01-17 15:0
哈夫曼加密文件百合不是茶哈夫曼压缩哈夫曼加密二叉树
在上一篇介绍过哈夫曼编码的基础知识,下面就直接介绍使用哈夫曼编码怎么来做文件加密或者压缩与解压的软件,对于新手来是有点难度的,主要还是要理清楚步骤; 加密步骤: 1,统计文件中字节出现的次数,作为权值 2,创建节点和哈夫曼树 3,得到每个子节点01串 4,使用哈夫曼编码表示每个字节
JDK1.5 Cyclicbarrier实例 bijian1013 java thread java多线程 Cyclicbarrier
CyclicBarrier类一个同步辅助类，它允许一组线程互相等待，直到到达某个公共屏障点 (common barrier point)。在涉及一组固定大小的线程的程序中，这些线程必须不时地互相等待，此时 CyclicBarrier 很有用。因为该 barrier 在释放等待线程后可以重用，所以称它为循环的 barrier。 CyclicBarrier支持一个可选的 Runnable 命令，
九项重要的职业规划 bijian1013 工作学习
一. 学习的步伐不停止古人说，活到老，学到老。终身学习应该是您的座右铭。世界在不断变化，每个人都在寻找各自的事业途径。您只有保证了足够的技能储
【Java范型四】范型方法 bit1129 java
范型参数不仅仅可以用于类型的声明上，例如 package com.tom.lang.generics; import java.util.List; public class Generics<T> { private T value; public Generics(T value) { this.value =
【Hadoop十三】HDFS Java API基本操作 bit1129 hadoop
package com.examples.hadoop; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataInputStream; import org.apache.hadoop.fs.FileStatus; import org.apache.hadoo
ua实现split字符串分隔 ronin47 lua split
LUA并不象其它许多"大而全"的语言那样，包括很多功能，比如网络通讯、图形界面等。但是LUA可以很容易地被扩展：由宿主语言(通常是C或 C++)提供这些功能，LUA可以使用它们，就像是本来就内置的功能一样。LUA只包括一个精简的核心和最基本的库。这使得LUA体积小、启动速度快，从而适合嵌入在别的程序里。因此在lua中并没有其他语言那样多的系统函数。习惯了其他语言的字符串分割函
java-从先序遍历和中序遍历重建二叉树 bylijinnan java
public class BuildTreePreOrderInOrder { /** * Build Binary Tree from PreOrder and InOrder * _______7______ / \ __10__ ___2 / \ / 4
openfire开发指南《连接和登陆》开窍的石头 openfire 开发指南 smack
第一步官网下载smack.jar包下载地址：http://www.igniterealtime.org/downloads/index.jsp#smack 第二步把smack里边的jar导入你新建的java项目中开始编写smack连接openfire代码 p
[移动通讯]手机后盖应该按需要能够随时开启 comsci 移动
看到新的手机，很多由金属材质做的外壳，内存和闪存容量越来越大，CPU速度越来越快，对于这些改进，我们非常高兴，也非常欢迎但是，对于手机的新设计，有几点我们也要注意第一：手机的后盖应该能够被用户自行取下来，手机的电池的可更换性应该是必须保留的设计,
20款国外知名的php开源cms系统 cuiyadll cms
内容管理系统，简称CMS，是一种简易的发布和管理新闻的程序。用户可以在后端管理系统中发布，编辑和删除文章，即使您不需要懂得HTML和其他脚本语言，这就是CMS的优点。在这里我决定介绍20款目前国外市面上最流行的开源的PHP内容管理系统，以便没有PHP知识的读者也可以通过国外内容管理系统建立自己的网站。 1. Wordpress WordPress的是一个功能强大且易于使用的内容管
Java生成全局唯一标识符 darrenzhu java uuid unique identifier id
How to generate a globally unique identifier in Java http://stackoverflow.com/questions/21536572/generate-unique-id-in-java-to-label-groups-of-related-entries-in-a-log http://stackoverflow
php安装模块检测是否已安装过, 使用的SQL语句 dcj3sjt126com sql
SHOW [FULL] TABLES [FROM db_name] [LIKE 'pattern'] SHOW TABLES列举了给定数据库中的非TEMPORARY表。您也可以使用mysqlshow db_name命令得到此清单。本命令也列举数据库中的其它视图。支持FULL修改符，这样SHOW FULL TABLES就可以显示第二个输出列。对于一个表，第二列的值为BASE T
5天学会一种 web 开发框架 dcj3sjt126com Web 框架 framework
web framework层出不穷，特别是ruby/python,各有10+个,php/java也是一大堆根据我自己的经验写了一个to do list,按照这个清单，一条一条的学习，事半功倍，很快就能掌握一共25条，即便很磨蹭，2小时也能搞定一条，25*2=50。只需要50小时就能掌握任意一种web框架各类web框架大同小异:现代web开发框架的6大元素，把握主线，就不会迷路建议把本文
Gson使用三(Map集合的处理,一对多处理) eksliang json gson Gson map Gson 集合处理
转载请出自出处：http://eksliang.iteye.com/blog/2175532 一、概述 Map保存的是键值对的形式，Json的格式也是键值对的，所以正常情况下，map跟json之间的转换应当是理所当然的事情。二、Map参考实例 package com.ickes.json; import java.lang.refl
cordova实现“再点击一次退出”效果 gundumw100 android
基本的写法如下： document.addEventListener("deviceready", onDeviceReady, false); function onDeviceReady() { //navigator.splashscreen.hide(); document.addEventListener("b
openldap configuration leaning note iwindyforest configuration
hostname // to display the computer name hostname <changed name> // to change go to: /etc/sysconfig/network, add/modify HOSTNAME=NEWNAME to change permenately dont forget to change /etc/hosts
Nullability and Objective-C 啸笑天 Objective-C
https://developer.apple.com/swift/blog/?id=25 http://www.cocoachina.com/ios/20150601/11989.html http://blog.csdn.net/zhangao0086/article/details/44409913 http://blog.sunnyxx
jsp中实现参数隐藏的两种方法 macroli JavaScript jsp
在一个JSP页面有一个链接，//确定是一个链接?点击弹出一个页面，需要传给这个页面一些参数。//正常的方法是设置弹出页面的src="***.do?p1=aaa&p2=bbb&p3=ccc"//确定目标URL是Action来处理?但是这样会在页面上看到传过来的参数，可能会不安全。要求实现src="***.do"，参数通过其他方法传！//////
Bootstrap A标签关闭modal并打开新的链接解决方案 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
Bootstrap里面的js modal控件使用起来很方便，关闭也很简单。只需添加标签 data-dismiss="modal" 即可。可是偏偏有时候需要a标签既要关闭modal，有要打开新的链接，尝试多种方法未果。只好使用原始js来控制。 <a href="#/group-buy" class="btn bt
二维数组在Java和C中的区别流淚的芥末 java c 二维数组数组
Java代码： public class test03 { public static void main(String[] args) { int[][] a = {{1},{2,3},{4,5,6}}; System.out.println(a[0][1]); } } 运行结果： Exception in thread "mai
systemctl命令用法 wmlJava linux systemctl
对比表，以 apache / httpd 为例任务旧指令新指令使某服务自动启动 chkconfig --level 3 httpd on systemctl enable httpd.service 使某服务不自动启动 chkconfig --level 3 httpd off systemctl disable httpd.service 检查服务状态 service h

房价预测

主要步骤

1、观察大局

寻找数据

性能指标

2、获取数据

下载数据

加载数据

快速探索数据

查看前五行

数据集的简单描述

对某一属性查看多少种分类

数值属性的摘要

绘制直方图

创建测试集

纯随机抽样

分层抽样

3、数据可视化

地理数据可视化

寻找相关性

添加不同属性的组合

4、数据准备

数据清理

使用pandas

使用sklearn

5、选择并训练模型

线性回归

验错

10折交叉验证

决策树

验错

10折交叉验证

随机森林

验错

10折交叉验证

6、微调模型

网格搜索

随机搜索

分析最佳模型以及误差

7、通过测试集评估

在测试集上评估最终模型

计算泛化误差的95%置信区间

你可能感兴趣的:(AI)