风风tzp

kaggle新手赛泰坦尼克之灾

kaggle泰坦尼克之灾比赛经验分享

本人从新手开始学习数据挖掘一段时间，然后选择了这个kaggle新手赛泰坦尼克之灾来锻炼思路以及步骤。

参加kaggle比赛的思路流程步骤，网络上有很多大神写的教程都不错，可以参考知乎大神一篇文章：

https://zhuanlan.zhihu.com/p/26820998

此次比赛的过程参考了https://zhuanlan.zhihu.com/p/30538352这篇文章的部分代码以及思路。

整个代码过程步骤:

一.导入数据包与数据集

二.数据分析

1.总体预览:了解每列数据的含义,数据的格式等。

2.数据初步分析,使用统计学与绘图:初步了解数据之间的相关性,为构造特征工程以及模型建立做准备。

三.特征工程

1.根据业务,常识,以及第二步的数据分析构造特征工程。

2.将特征转换为模型可以辨别的类型(如处理缺失值,处理文本进行等) 。

四.模型选择

1.根据目标函数确定学习类型,是无监督学习还是监督学习,是分类问题还是回归问题等。

2.比较各个模型的分数,然后取效果较好的模型作为基础模型。

3.经过多个模型的测试以及模型融合测试，目前得分最高的事随机森林。

五.修改特征和模型参数

1.可以通过添加或者修改特征,提高模型的上限。

2.通过修改模型的参数,是模型逼近上限。

一.导入数据包与数据集

# 导入相关数据包
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline

train = pd.read_csv("train.csv")
test = pd.read_csv("test.csv")

二.数据分析

1.总体预览：了解每列数据的含义,数据的格式等

train.head(5)

	PassengerId	Survived	Pclass	Name	Sex	Age	SibSp	Ticket	Fare	Cabin	Embarked
0	1	0	3	Braund, Mr. Owen Harris	male	22.0	1	A/5 21171	7.2500	NaN	S
1	2	1	1	Cumings, Mrs. John Bradley (Florence Briggs Th...	female	38.0	1	PC 17599	71.2833	C85	C
2	3	1	3	Heikkinen, Miss. Laina	female	26.0	0	STON/O2. 3101282	7.9250	NaN	S
3	4	1	1	Futrelle, Mrs. Jacques Heath (Lily May Peel)	female	35.0	1	113803	53.1000	C123	S
4	5	0	3	Allen, Mr. William Henry	male	35.0	0	373450	8.0500	NaN	S

#返回每列列名,该列非nan值个数,以及该列类型
train.info()


RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
PassengerId    891 non-null int64
Survived       891 non-null int64
Pclass         891 non-null int64
Name           891 non-null object
Sex            891 non-null object
Age            714 non-null float64
SibSp          891 non-null int64
Parch          891 non-null int64
Ticket         891 non-null object
Fare           891 non-null float64
Cabin          204 non-null object
Embarked       889 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 83.6+ KB

test.info()


RangeIndex: 418 entries, 0 to 417
Data columns (total 11 columns):
PassengerId    418 non-null int64
Pclass         418 non-null int64
Name           418 non-null object
Sex            418 non-null object
Age            332 non-null float64
SibSp          418 non-null int64
Parch          418 non-null int64
Ticket         418 non-null object
Fare           417 non-null float64
Cabin          91 non-null object
Embarked       418 non-null object
dtypes: float64(2), int64(4), object(5)
memory usage: 36.0+ KB

#返回数值型变量的统计量
train.describe()

	PassengerId	Survived	Pclass	Age	SibSp	Parch	Fare
count	891.000000	891.000000	891.000000	714.000000	891.000000	891.000000	891.000000
mean	446.000000	0.383838	2.308642	29.699118	0.523008	0.381594	32.204208
std	257.353842	0.486592	0.836071	14.526497	1.102743	0.806057	49.693429
min	1.000000	0.000000	1.000000	0.420000	0.000000	0.000000	0.000000
25%	223.500000	0.000000	2.000000	20.125000	0.000000	0.000000	7.910400
50%	446.000000	0.000000	3.000000	28.000000	0.000000	0.000000	14.454200
75%	668.500000	1.000000	3.000000	38.000000	1.000000	0.000000	31.000000
max	891.000000	1.000000	3.000000	80.000000	8.000000	6.000000	512.329200

2..数据初步分析,使用统计学与绘图：初步了解数据之间的相关性,为构造特征工程以及模型建立做准备

#存活人数
train['Survived'].value_counts()

0    549
1    342
Name: Survived, dtype: int64

1)数值型数据协方差,corr()函数

来个总览,快速了解个数据的相关性

#相关性协方差表,corr()函数,返回结果接近0说明无相关性,大于0说明是正相关,小于0是负相关.
train_corr = train.drop('PassengerId',axis=1).corr()
train_corr

	Survived	Pclass	Age	SibSp	Parch	Fare
Survived	1.000000	-0.338481	-0.077221	-0.035322	0.081629	0.257307
Pclass	-0.338481	1.000000	-0.369226	0.083081	0.018443	-0.549500
Age	-0.077221	-0.369226	1.000000	-0.308247	-0.189119	0.096067
SibSp	-0.035322	0.083081	-0.308247	1.000000	0.414838	0.159651
Parch	0.081629	0.018443	-0.189119	0.414838	1.000000	0.216225
Fare	0.257307	-0.549500	0.096067	0.159651	0.216225	1.000000

#画出相关性热力图
a = plt.subplots(figsize=(15,9))#调整画布大小
a = sns.heatmap(train_corr, vmin=-1, vmax=1 , annot=True , square=True)#画热力图

2)各个数据与结果的关系

进一步探索分析各个数据与结果的关系

①Pclass,乘客等级,1是最高级

结果分析:可以看出Survived和Pclass在Pclass=1的时候有较强的相关性（>0.5），所以最终模型中包含该特征。

train.groupby(['Pclass'])['Pclass','Survived'].mean()

	Pclass	Survived
Pclass
1	1.0	0.629630
2	2.0	0.472826
3	3.0	0.242363

train[['Pclass','Survived']].groupby(['Pclass']).mean().plot.bar()

②Sex,性别

结果分析:女性有更高的活下来的概率（74%）,保留该特征

train.groupby(['Sex'])['Sex','Survived'].mean()

	Survived
Sex
female	0.742038
male	0.188908

train.groupby(['Sex'])['Sex','Survived'].mean().plot.bar()

③SibSp and Parch 兄妹配偶数/父母子女数

结果分析:这些特征与特定的值没有相关性不明显，最好是由这些独立的特征派生出一个新特征或者一组新特征

train[['SibSp','Survived']].groupby(['SibSp']).mean()

	Survived
SibSp
0	0.345395
1	0.535885
2	0.464286
3	0.250000
4	0.166667
5	0.000000
8	0.000000

train[['Parch','Survived']].groupby(['Parch']).mean()

	Survived
Parch
0	0.343658
1	0.550847
2	0.500000
3	0.600000
4	0.000000
5	0.200000
6	0.000000

④Age年龄与生存情况的分析.

结果分析:由图,可以看到年龄是影响生存情况的.

但是年龄是有大部分缺失值的,缺失值需要进行处理,可以使用填充或者模型预测.

g = sns.FacetGrid(train, col='Survived')
g.map(plt.hist, 'Age', bins=20)

⑤Embarked登港港口与生存情况的分析

结果分析:C地的生存率更高,这个也应该保留为模型特征.

sns.countplot('Embarked',hue='Survived',data=train)

⑥其他因素

*在数据的Name项中包含了对该乘客的称呼，如Mr、Miss等，这些信息包含了乘客的年龄、性别、也有可能包含社会地位，如Dr、Lady、Major、Master等称呼。这一项不方便用图表展示，但是在特征工程中，我们会将其提取出来,然后放到模型中。

*剩余因素还有船票价格、船舱号和船票号，这三个因素都可能会影响乘客在船中的位置从而影响逃生顺序，但是因为这三个因素与生存之间看不出明显规律，所以在后期模型融合时，将这些因素交给模型来决定其重要性。

三.特征工程

#先将数据集合并,一起做特征工程(注意,标准化的时候需要分开处理)
#先将test补齐,然后通过pd.apped()合并
test['Survived'] = 0
train_test = train.append(test)

①Pclass,乘客等级,1是最高级

两种方式:一是该特征不做处理,可以直接保留.二是再处理:也进行分列处理(比较那种方式模型效果更好,就选那种)

train_test = pd.get_dummies(train_test,columns=['Pclass'])

②Sex,性别¶

无缺失值,直接分列

train_test = pd.get_dummies(train_test,columns=["Sex"])

③SibSp and Parch 兄妹配偶数/父母子女数

第一次直接保留:这两个都影响生存率,且都是数值型,先直接保存.

第二次进行两项求和,并进行分列处理.(兄妹配偶数和父母子女数都是认识人的数量,所以总数可能也会更好)(模型结果提高到了)

#这是剑豪模型后回来添加的新特征,模型的分数最终有所提高了.
train_test['SibSp_Parch'] = train_test['SibSp'] + train_test['Parch']

train_test = pd.get_dummies(train_test,columns = ['SibSp','Parch','SibSp_Parch'])

④Embarked

数据有极少量(3个)缺失值,但是在分列的时候,缺失值的所有列可以均为0,所以可以考虑不填充.

另外,也可以考虑用测试集众数来填充.先找出众数,再采用df.fillna()方法

train_test = pd.get_dummies(train_test,columns=["Embarked"])

⑤ Name

在数据的Name项中包含了对该乘客的称呼,将这些关键吃提取出来,然后做分列处理.

#从名字中提取出称呼： df['Name].str.extract()是提取函数,配合正则一起使用
train_test['Name'] = train_test['Name'].str.extract('.+,(.+)').str.extract( '^(.+?)\.').str.strip()

#分列处理
train_test = pd.get_dummies(train_test,columns=['Name'])

⑥ Fare

该特征有缺失值,先找出缺失值的那调数据,然后用平均数填充

#从上面的分析,发现该特征train集无miss值,test有一个缺失值,先查看
train_test.loc[train_test["Fare"].isnull()]

	Age	Cabin	Fare	PassengerId	Survived	Ticket	Pclass_1	Pclass_2	Pclass_3	Sex_female	...	Name_Master	Name_Miss	Name_Mlle	Name_Mme	Name_Mr	Name_Mrs	Name_Ms	Name_Rev	Name_Sir	Name_the Countess
152	60.5	NaN	NaN	1044	0	3701	0	0	1	0	...	0	0	0	0	1	0	0	0	0	0

1 rows × 56 columns

#票价与pclass和Embarked有关,所以用train分组后的平均数填充
train.groupby(by=["Pclass","Embarked"]).Fare.mean()

Pclass  Embarked
1       C           104.718529
        Q            90.000000
        S            70.364862
2       C            25.358335
        Q            12.350000
        S            20.327439
3       C            11.214083
        Q            11.183393
        S            14.644083
Name: Fare, dtype: float64

#用pclass=3和Embarked=S的平均数14.644083来填充
train_test["Fare"].fillna(14.435422,inplace=True)

⑦ Ticket

该列和名字做类似的处理,先提取,然后分列

#将Ticket提取字符列
#str.isnumeric()  如果S中只有数字字符，则返回True，否则返回False
train_test['Ticket_Letter'] = train_test['Ticket'].str.split().str[0]
train_test['Ticket_Letter'] = train_test['Ticket_Letter'].apply(lambda x:np.nan if x.isnumeric() else x)
train_test.drop('Ticket',inplace=True,axis=1)

#分列,此时nan值可以不做处理
train_test = pd.get_dummies(train_test,columns=['Ticket_Letter'],drop_first=True)

⑧ Age

1.该列有大量缺失值,考虑用一个回归模型进行填充.

2.在模型修改的时候,考虑到年龄缺失值可能影响死亡情况,用年龄是否缺失值来构造新特征

"""这是模型就好后回来增加的新特征
考虑年龄缺失值可能影响死亡情况,数据表明,年龄缺失的死亡率为0.19."""
train_test.loc[train_test["Age"].isnull()]['Survived'].mean()

0.19771863117870722

# 所以用年龄是否缺失值来构造新特征
train_test.loc[train_test["Age"].isnull() ,"age_nan"] = 1
train_test.loc[train_test["Age"].notnull() ,"age_nan"] = 0
train_test = pd.get_dummies(train_test,columns=['age_nan'])

利用其他组特征量，采用机器学习算法来预测Age

train_test.info()


Int64Index: 1309 entries, 0 to 417
Columns: 106 entries, Age to age_nan_1.0
dtypes: float64(2), int64(2), object(1), uint8(101)
memory usage: 190.5+ KB

#创建没有['Age','Survived']的数据集
missing_age = train_test.drop(['Survived','Cabin'],axis=1)
#将Age完整的项作为训练集、将Age缺失的项作为测试集。
missing_age_train = missing_age[missing_age['Age'].notnull()]
missing_age_test = missing_age[missing_age['Age'].isnull()]

#构建训练集合预测集的X和Y值
missing_age_X_train = missing_age_train.drop(['Age'], axis=1)
missing_age_Y_train = missing_age_train['Age']
missing_age_X_test = missing_age_test.drop(['Age'], axis=1)

# 先将数据标准化
from sklearn.preprocessing import StandardScaler
ss = StandardScaler()
#用测试集训练并标准化
ss.fit(missing_age_X_train)
missing_age_X_train = ss.transform(missing_age_X_train)
missing_age_X_test = ss.transform(missing_age_X_test)

#使用贝叶斯预测年龄
from sklearn import linear_model
lin = linear_model.BayesianRidge()

lin.fit(missing_age_X_train,missing_age_Y_train)

BayesianRidge(alpha_1=1e-06, alpha_2=1e-06, compute_score=False, copy_X=True,
       fit_intercept=True, lambda_1=1e-06, lambda_2=1e-06, n_iter=300,
       normalize=False, tol=0.001, verbose=False)

#预测出age的缺失值
lin.predict(missing_age_X_test)

array([ 33.79979117,  33.75859289,  31.67228356,  28.41364403,
        24.66050474,  29.66967991,  44.45789533,  24.65742239,
        28.40803166,  28.40891319,  29.66164374,  31.3705937 ,
        24.64896353,  25.95865778,  41.46548379,  42.87561316,
         6.63095616,  29.64317549,  29.64359818,  24.62946614,
        25.66934785,  29.63344755,  29.6290774 ,  29.62492095,
        22.26780038,  29.61878554,  33.72702453,  15.5532334 ,
        27.01969883,  29.59545735,  29.60183929,  14.66014478,
        39.93319373,  44.05891082,   4.17501946,  23.56059929,
        29.95011409,  41.48494829,  34.54633645,  33.68754987,
        24.56381105,  32.67136786,  31.2262681 ,  29.56027871,
        13.05742841,  20.30699344,  16.76547646,  22.13801761,
        29.54092078,  46.35140852,  33.65145875,  24.52659209,
        41.31544808,  24.52095285,  33.52879552,  41.27556191,
        42.74534678,  41.29645909,  24.50629084,  31.19244924,
        28.58351897,  31.26097505,  31.43021325,  32.60200524,
        22.05348449,  45.4581116 ,  29.49711926,  30.3464056 ,
        41.29536325,  28.22867706,  24.47440992,  24.47384599,
        31.19126597,  31.47606499,  24.46794403,  43.85217837,
        29.46948699,  33.57914344,  12.95592215,  29.45482498,
        33.56060096,  33.4521019 ,  32.70768404,  28.19575004,
        19.83528429,  33.55671957,  30.29903601,  29.43703807,
        27.05780557,  31.1763865 ,  42.14703871,  33.53923794,
        29.42535971,  33.42221394,  33.53400267,  29.41685757,
        41.33420691,  33.41375509,  12.91306395,  27.03581255,
        28.19544426,  29.42648092,  24.39160534,  41.15332596,
        25.4302442 ,  33.61146162,  28.13393788,  28.1328369 ,
        45.1095858 ,  28.12888944,  26.84358435,  29.42489805,
        29.73612009,  33.48729978,  43.87599544,  33.48228165,
        25.40092017,  19.61378254,  28.10802426,  24.35233967,
        28.95219952,  28.108492  ,  27.26293915,  19.70539217,
        24.43743505,  28.09107968,  29.34711555,  41.20116543,
        28.70349085,  21.92880192,  33.45239369,  33.44326406,
        40.91239812,  26.92704781,  29.63438557,  31.8530644 ,
        29.31948329,  24.30773252,  29.31609975,  29.30912368,
        42.02836664,  33.30491781,  24.29447916,  29.60675331,
        24.28230628,   6.2677893 ,  41.03828553,  33.44276812,
        24.26541544,  33.27221024,  29.26985801,  29.26929408,
        41.0440057 ,  29.29970699,  43.8882372 ,  31.01878563,
        27.99239303,  33.36047413,  33.3592663 ,  19.30283225,
        33.3525792 ,  23.21547799,  42.48354757,  40.809764  ,
        33.32772327,  29.53118754,  33.3311501 ,  27.9591484 ,
        29.21501617,  39.73282207,  32.30763708,  40.91082652,
        27.94392247,  23.1754394 ,  29.206812  ,  29.19090869,
        10.12100929,  29.17793845,  46.93032277,  25.46691632,
        22.47801107,  20.04165207,  29.47253947,  40.91365839,
        33.26911849,  31.99833836,  26.75223147,  40.11450198,
        29.14170609,  29.13677202,  37.31666922,  25.47303959,
        28.02234755,  29.13148772,  29.13211939,  33.23810269,
        33.23528307,  29.12789937,  24.11060323,  27.85539627,
        30.776257  ,  33.22569636,  21.66550499,  42.32564773,
        25.39467842,  41.01640204,  40.85331856,  27.8449895 ,
        24.08267729,  29.08592657,  42.85078751,  31.62016391,
        27.82831811,  33.19242487,  23.05363189,  40.8255508 ,
        32.32743543,  24.10981361,  32.95047908,  28.42660432,
        24.05203107,  29.061065  ,  26.46930931,  24.04500126,
        33.16505534,  29.04649112,   1.06942323,  28.63524817,
        29.01218768,  33.15125844,  29.0341379 ,  40.6169021 ,
        29.0054206 ,  19.91082177,  33.14279958,  21.61751604,
        27.77133494,  24.01398545,  28.38558969,  27.76346688,
        30.76697789,  43.57515215,  27.76121119,  25.31578477,
        31.85563638,  24.00157913,  29.00558093,  27.73862737,
         9.6997989 ,  32.04695998,   9.68091966,  28.98215071,
        33.09373822,  35.2886818 ,  25.31460326,  33.0813319 ,
        32.2651062 ,  30.57270108,  23.94274424,  23.94180322,
        40.50743888,  28.94997204,   5.97550654])

#利用loc将预测值填入数据集
train_test.loc[(train_test['Age'].isnull()), 'Age'] = lin.predict(missing_age_X_test)

⑨ Cabin

cabin项缺失太多，只能将有无Cain首字母进行分类,缺失值为一类,作为特征值进行建模,也可以考虑直接舍去该特征

#直接舍去该特征 train_test.drop('Cabin',axis=1,inplace=True)

#cabin项缺失太多，只能将有无Cain首字母进行分类,缺失值为一类,作为特征值进行建模
train_test['Cabin'] = train_test['Cabin'].apply(lambda x:str(x)[0] if pd.notnull(x) else x)
train_test = pd.get_dummies(train_test,columns=['Cabin'])

⑩ 特征工程处理完了,划分数据集

train_data = train_test[:891]
test_data = train_test[891:]
train_data_X = train_data.drop(['Survived'],axis=1)
train_data_Y = train_data['Survived']
test_data_X = test_data.drop(['Survived'],axis=1)

四建立模型

数据标准化

1.线性模型需要用标准化的数据建模,而树类模型不需要标准化的数据。

2.处理标准化的时候,注意将测试集的数据transform到test集上。

3.我们这次用的所及森林算法，所以这个步骤可以不用。

from sklearn.preprocessing import StandardScaler
ss2 = StandardScaler()
ss2.fit(train_data_X)
train_data_X_sd = ss2.transform(train_data_X)
test_data_X_sd = ss2.transform(test_data_X)

开始建模

1.可选单个模型模型有随机森林,逻辑回归,svm,xgboost,gbdt等.

2.也可以将多个模型组合起来,进行模型融合,比如voting,stacking等方法

3.好的特征决定模型上限,好的模型和参数可以无线逼近上限.

4.我测试了多种模型,模型结果最高的随机森林,最高有0.8.

随机森林

from sklearn.ensemble import RandomForestClassifier

rf = RandomForestClassifier(n_estimators=150,min_samples_leaf=2,max_depth=6,oob_score=True)

rf.fit(train_data_X,train_data_Y)

rf.oob_score_

test["Survived"] = rf.predict(test_data_X)
RF = test[['PassengerId','Survived']].set_index('PassengerId')
RF.to_csv('RF1.csv')

随机森林是随机选取特征进行建模的,所以每次的结果可能都有点小差异，

如果分数足够好,可以将该模型保存起来,下次直接调出来使用 from sklearn.externals import joblib 这个包进行保存。

到此，该项目以及完成了。第一次做比赛，第一次写博客，如有错误，欢迎指出！

win7下python3.6通过pip安装scipy报错的解决办法青松一夏 python
一、问题描述通过pip方式安装了numpy和sklearn，但是sklearn需要依赖于scipy，但当通过pip方式安装scipy时，报错：numpy.distutils.system_info.NotFoundError:nolapack/blasresourcesfound按照网上的教程，并没有找到真正的解决办法，后来我是通过如下方式解决的。二、我的解决方案（1）首先卸载numpypipun
计算机专业毕业设计题目推荐（新颖选题）本科计算机科学专业相关毕业设计选题大全✅ 会写代码的羊毕设选题课程设计计算机网络毕设选题毕设系统毕设题目计算机科学专业
文章目录前言最新毕设选题（建议收藏起来）本科计算机科学专业相关的毕业设计选题毕设作品推荐前言2025全新毕业设计项目博主介绍：✌全网粉丝10W+,CSDN全栈领域优质创作者，博客之星、掘金/华为云/阿里云等平台优质作者。技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、大数据、机器学习等设计与开发。主要内容：免费功能设计
Linux安装Anaconda和Jupyter 硬水果糖人工智能 Linux linux jupyter 运维
一、了解Anaconda和Jupyter引言：Anaconda是一个流行的开源数据科学平台，广泛用于数据分析、机器学习、人工智能等领域。它是一个集成了大量科学计算和数据科学工具的Python和R编程语言环境。Anaconda的主要目标是简化数据科学和机器学习的开发流程，提供一个易于安装和管理的环境。而预装了大量常用的Python和R库，这些库涵盖了数据科学的各个方面，包括：数据分析：Pandas、
ChatGPT、DeepSeek、GIS与Python机器学习强强联合！地质灾害风险评估、易发性分析、信息化建库及灾后重建 WangYan2022 DeepSeek ChatGPT 地下水地质灾害 DeepSeek ChatGPT GIS 灾后重建
在地质灾害频繁肆虐的当下，精准开展风险评价刻不容缓。如今，一门极具创新性的教程震撼登场，它将ChatGPT、DeepSeek等前沿技术与GIS、Python以及机器学习深度交融，为学员打造出前所未有的学习体验，助力大家在地质灾害风险评价领域强势突围，一路领先。前沿技术融合，铸就智能学习核心动力教程最闪耀的亮点之一，便是大胆引入了ChatGPT和DeepSeek技术。它们恰似无所不能的“数据魔法师”
Hessian 矩阵是什么 ZhangJiQun&MXP 教学 2021 AI python 2024大模型以及算力矩阵线性代数算法人工智能机器学习
Hessian矩阵是什么目录Hessian矩阵是什么Hessian矩阵的性质及举例说明**1.对称性****2.正定性决定极值类型****特征值为2（正），因此原点(0,0)(0,0)(0,0)是极小值点。****3.牛顿法中的应用****4.特征值与曲率方向****5.机器学习中的实际意义**一、定义与公式二、实例分析Hessian矩阵是多元函数二阶偏导数构成的方阵，用于分析函数局部曲率、判断极
LoRA中黑塞矩阵、Fisher信息矩阵是什么 ZhangJiQun&MXP 教学 2021 论文 2024大模型以及算力矩阵机器学习人工智能 transformer 深度学习算法线性代数
LoRA中黑塞矩阵、Fisher信息矩阵是什么1.三者的核心概念黑塞矩阵（Hessian）二阶导数矩阵，用于优化问题中判断函数的凸性（如牛顿法），或计算参数更新方向（如拟牛顿法）。Fisher信息矩阵（FisherInformationMatrix,FIM）统计学中衡量参数估计的不确定性，反映数据中包含的关于参数的信息量。在机器学习中常用于自然梯度下降（NaturalGradientDescent
神经网络基础之正则化硬水果糖人工智能神经网络人工智能机器学习
引言：正则化（Regularization）是机器学习中一种用于防止模型过拟合技术。核心思想是通过在模型损失函数中添加一个惩罚项（PenaltyTerm），对模型的复杂度进行约束，从而提升模型在新数据上的泛化能力。一、正则化目的防止过拟合：当模型过于复杂（例如神经网络层数过多、参数过多）时，容易在训练数据上“记忆”噪声或细节，导致在测试数据上表现差。简化模型：正则化通过限制模型参数的大小或数量，迫
决策树算法全解析：从零基础到Titanic实战，一文搞定机器学习经典模型吴师兄大模型 0基础实现机器学习入门到精通算法机器学习决策树人工智能深度学习编程开发语言
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
图像处理篇---图像预处理 Ronin-Lotus 图像处理篇深度学习篇程序代码篇图像处理人工智能 opencv python 深度学习计算机视觉
文章目录前言一、通用目的1.1数据标准化目的实现1.2噪声抑制目的实现高斯滤波中值滤波双边滤波1.3尺寸统一化目的实现1.4数据增强目的实现1.5特征增强目的实现：边缘检测直方图均衡化锐化二、分领域预处理2.1传统机器学习（如SVM、随机森林）2.1.1特点2.1.2预处理重点灰度化二值化形态学操作特征工程2.2深度学习（如CNN、Transformer）2.2.1特点2.2.2预处理重点通道顺序
【大模型科普】AIGC技术发展与应用实践（一文读懂AIGC）人工智能
【专栏介绍】⌈⌈⌈人工智能与大模型应用⌋⌋⌋人工智能（AI）通过算法模拟人类智能，利用机器学习、深度学习等技术驱动医疗、金融等领域的智能化。大模型是千亿参数的深度神经网络（如ChatGPT），经海量数据训练后能完成文本生成、图像创作等复杂任务，显著提升效率，但面临算力消耗、数据偏见等挑战。当前正加速与教育、科研融合，未来需平衡技术创新与伦理风险，推动可持续发展。文章目录一、AIGC概述（一）什么是
【产品小白】什么是AI产品经理百事不可口y 产品经理的一步一步人工智能产品经理学习产品运营内容运营用户运营
一、AI产品经理的定义与角色定位AI产品经理是人工智能技术与商业应用之间的核心桥梁，负责将复杂的AI技术转化为满足市场需求的产品。需同时具备技术理解力、商业洞察力和用户思维，既要参与算法选型与数据建模，又要定义产品功能与市场策略，是贯穿产品全生命周期的关键角色。与传统互联网产品经理相比，AI产品经理的独特之处在于：技术深度参与：需理解机器学习、自然语言处理（NLP）、计算机视觉等技术原理，并参与数
数据增强：扩充数据集提升模型泛化能力 AI天才研究院计算 AI大模型企业级应用开发实战 ChatGPT 计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1.数据增强的重要性在机器学习领域，模型的泛化能力至关重要。一个泛化能力强的模型能够在未见数据上表现良好，而过拟合的模型则会在训练数据上表现出色，但在新数据上表现糟糕。数据增强是一种有效提升模型泛化能力的技术，它通过对现有数据进行各种变换，人为地扩充数据集，从而增加训练数据的数量和多样性。1.2.数据增强的应用场景数据增强广泛应用于各种机器学习任务中，包括：图像识别:对图像进行旋转
数据增强：扩充数据集，提升模型的鲁棒性 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 LLM大模型落地实战指南计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
数据增强：扩充数据集，提升模型的鲁棒性1.背景介绍1.1数据集的重要性在机器学习和深度学习领域中,数据集是训练模型的基础。高质量的数据集对于构建准确、鲁棒的模型至关重要。然而,在现实世界中,获取大量高质量的数据通常是一个巨大的挑战。数据采集过程耗时耗力,而且成本高昂。此外,某些领域的数据存在隐私和安全问题,难以获取。1.2数据集不足的挑战当数据集规模有限时,模型很容易过拟合,无法很好地推广到新的、
使用TensorFlow、OpenCV和Pygame实现图像处理与游戏开发 UwoiGit tensorflow opencv pygame
在本篇文章中，我们将介绍如何结合使用TensorFlow、OpenCV和Pygame来进行图像处理和游戏开发。这三个工具在机器学习、计算机视觉和游戏开发领域都非常流行，并且它们的结合可以提供强大的功能和无限的创造力。我们将逐步介绍如何安装和配置这些工具，并提供相关的源代码示例。安装TensorFlowTensorFlow是一个基于数据流图的开源机器学习框架，提供了丰富的工具和库来构建和训练各种深度
机器学习之KMeans算法知舟不叙机器学习算法 kmeans
文章目录引言1.KMeans算法简介2.KMeans算法的数学原理3.KMeans算法的步骤3.1初始化簇中心3.2分配数据点3.3更新簇中心3.4停止条件4.KMeans算法的优缺点4.1优点4.2缺点5.KMeans算法的应用场景5.1图像分割5.2市场细分5.3文档聚类5.4异常检测6.Python实现KMeans算法7.总结引言KMeans算法是机器学习中最经典的无监督学习算法之一，广泛应
机器学习流程—数据预处理清洗不二人生机器学习机器学习人工智能数据预处理
文章目录机器学习流程—数据预处理清洗定义问题数据预处理数据加载与展示重复数据处理数据类型空值处理无关特征删除数据分布删除异常值生成标签和特征数据分割机器学习流程—数据预处理清洗数据处理是将数据从给定形式转换为更可用和更理想的形式的任务，即使其更有意义、信息更丰富。使用机器学习算法、数学建模和统计知识，整个过程可以自动化。这个完整过程的输出可以是任何所需的形式，如图形、视频、图表、表格、图像等等，具
Apache Storm：实时数据处理的闪电战 Aaron_945 Java apache storm 大数据
文章目录ApacheStorm原理拓扑结构数据流处理容错机制官网链接基础使用安装与配置编写拓扑提交与运行高级使用状态管理窗口操作多语言支持优点高吞吐量低延迟可扩展性容错性总结ApacheStorm是一个开源的分布式实时计算系统，它允许你以极高的吞吐量处理无界数据流。Storm被广泛用于实时分析、在线机器学习、连续计算等多种场景。本文将深入探讨ApacheStorm的原理、基础使用、高级特性及其优点
Python 机器学习基础之学习基础环境搭建仙魁XAN Python 机器学习基础+实战案例 python 学习开发语言机器学习 machine learning
Python机器学习基础之学习基础环境搭建目录Python机器学习基础之学习基础环境搭建一、简单介绍二、什么是机器学习三、python环境的搭建1、Python安装包下载2、这里以下载Python3.10.9为例3、安装Python3.10.94、检验python是否安装成功，win+R快捷打开运行，输入cmd，打开cmd四、Pycharm环境搭建1、下载Pycharm安装包2、安装Pycharm
【机器学习】主成分分析法（PCA）若兰幽竹机器学习机器学习信息可视化人工智能
【机器学习】主成分分析法（PCA）一、摘要二、主成分分析的基本概念三、主成分分析的数学模型五、主成分分析法目标函数公式推导（`梯度上升法`求解目标函数）六、梯度上升法求解目标函数第一个主成分七、求解前n个主成分及PCA在数据预处理中的处理步骤（后续实现）一、摘要本文主要讲述了主成分分析法（PCA）的原理和应用。PCA通过选择最重要的特征，将高维数据映射到低维空间，同时保持数据间的关系，实现降维和去
深入探索 PyTorch 在语音识别中的应用 Zoro｜ PyTorch Deep Learning 机器学习 pytorch 语音识别人工智能
深入探索PyTorch在语音识别中的应用在本篇博客中，我将分享如何使用PyTorch进行语音识别任务，重点围绕环境配置、数据预处理、特征提取、模型设计以及模型比较展开。本文基于最近一次机器学习作业（HW2）的任务内容，任务目标是对语音信号进行逐帧音素预测，从而完成多类别分类任务。一、介绍任务背景任务目标：利用深度神经网络对语音信号进行逐帧音素预测。音素定义：音素是语音中能够区分单词的最小语音单位。
MNIST数据集&手写数字识别 Zoro｜ keras tensorflow 人工智能机器学习
TensorFlow是一个开源的机器学习框架，由Google开发并发布。它提供了一种基于数据流图的编程模型，用于构建和训练机器学习模型。TensorFlow的核心概念是张量（Tensor）和流图（Graph）。张量是TensorFlow中的基本数据单位，可以理解为多维数组，可以是标量、向量、矩阵或更高维度的数组。流图是由一系列操作（Operation）和张量组成的。操作定义了计算和转换张量的方式。
OpenLSD是一个自适应开源数据集，旨在支持逻辑综合中的多种机器学习任务。数据集
2024-11-14，由中国科学院计算技术研究所、鹏城实验室和北京大学等联合创建OpenLSD数据集，目的为逻辑综合过程中的机器学习任务提供一个自适应的数据集生成框架。该数据集的核心研究问题是如何在逻辑综合的三个基本步骤——布尔表示、逻辑优化和技术映射中，通过机器学习方法提升效率和质量。一、研究背景：逻辑综合是电子设计自动化（EDA）流程中的关键环节，它负责将高级设计规范转化为门级网络列表。近年来
【Python】测试数据生成工具 --- Faker pythonfaker数据分析
Faker库介绍Faker是一个强大的库，能够帮助开发者和测试人员生成大量的假数据，但这些数据看起来却非常真实。它支持生成多种类型的数据，如姓名、地址、公司名称、电子邮件等，甚至能够根据不同国家的特定文化生成相应的数据。Faker的应用不仅限于测试，它还广泛应用于数据分析、机器学习训练集的准备以及任何需要大量样本数据的场景。Faker安装前提：已安装python、pip安装命令如下：pipinst
深度学习框架PyTorch——从入门到精通（4）数据转换 Fansv587 Torch框架学习深度学习 pytorch 人工智能 python 经验分享
转换（Transforms）很多时候，数据并不总是以训练机器学习算法所需的最终处理形式出现。所以我们需要使用变换对数据进行一些处理，使其适合训练。所有TorchVision数据集都有两个参数——transform来修改特征，target_transform来修改标签——接受包含转换逻辑的可调用项。torchvision.transform模块提供了几个开箱即用的转换。FashionMNIST数据集
机器学习线性回归学习心得_线性回归为机器学习的初学者解释 weixin_26750481 机器学习 python 人工智能逻辑回归深度学习
机器学习线性回归学习心得Datasciencewiththekindofpoweritgivesyoutoanalyzeeachandeverybitofdatayouhaveatyourdisposal,tomakesmart&intelligentbusinessdecisions,isbecomingamust-havetooltounderstandandimplementinyouror
统计机器学习 (Statistical Machine Learning) 原理与代码实例讲解 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
统计机器学习(StatisticalMachineLearning)原理与代码实例讲解1.背景介绍统计机器学习是现代人工智能和数据科学的核心领域之一。它结合了统计学和计算机科学的理论与方法，通过数据驱动的方式来构建预测模型和决策系统。统计机器学习不仅在学术研究中占据重要地位，还在工业界有广泛应用，如推荐系统、图像识别、自然语言处理等。2.核心概念与联系2.1统计学与机器学习的关系统计学关注数据的收
【python 机器学习】sklearn数据集的使用人才程序员 python 机器学习 sklearn 人工智能深度学习神经网络目标检测
文章目录sklearn数据集的使用1.`sklearn`内置数据集2.导入`sklearn`数据集3.加载和使用Iris数据集3.1加载数据3.2查看数据3.3使用数据集进行分类任务4.加载和使用Digits数据集4.1加载数据4.2查看数据4.3使用数据集进行分类任务5.加载和使用BreastCancer数据集5.1加载数据5.2查看数据5.3使用数据集进行分类任务6.总结sklearn数据集的
消融实验（Ablation Study） xwhking 深度学习机器学习深度学习消融实验
消融实验（AblationStudy）定义：消融实验是一种科学研究方法，通过逐步移除模型、算法或系统中的某个组件（如模块、层、特征、数据等），观察其对整体性能的影响，从而验证该组件的必要性和有效性。其名称来源于医学领域的“消融术”（切除部分组织以研究功能），在计算机视觉、机器学习和深度学习中被广泛用于分析模型设计。为什么要做消融实验？1.验证组件的有效性核心目的：确认模型中某个设计（如注意力机制、
【Conda与Pip的完美融合】在Conda环境中优雅使用pip指南 2401_85702623 conda pip python
标题：【Conda与Pip的完美融合】在Conda环境中优雅使用pip指南Conda是一个强大的包管理器和环境管理器，广泛用于Python社区，尤其是在数据科学和机器学习领域。尽管Conda本身可以处理大多数包的安装和管理，但有时我们可能仍需使用pip来安装特定的Python包。本文将详细解释如何在Conda环境中使用pip，包括配置、安装包、环境管理等，确保您可以充分利用这两个工具的优势。1.C
量子计算+AI：未来AI Agent的计算范式 AI天才研究院计算 ChatGPT DeepSeek RL 强化学习 agent agi 推理模型智能驾驶
量子计算+AI：未来AIAgent的计算范式关键词：量子计算，人工智能，AIAgent，量子算法，量子机器学习，量子优化，量子数据处理摘要：量子计算和人工智能（AI）的结合正在改变AIAgent的计算范式。通过量子计算的超强算力和独特性质，AIAgent在数据处理、算法优化和决策能力方面展现出巨大潜力。本文将详细探讨量子计算与AI结合的核心概念、算法原理、系统架构，并通过实际案例展示量子AIAge
HttpClient 4.3与4.3版本以下版本比较 spjich java httpclient
网上利用java发送http请求的代码很多，一搜一大把，有的利用的是java.net.*下的HttpURLConnection，有的用httpclient，而且发送的代码也分门别类。今天我们主要来说的是利用httpclient发送请求。 httpclient又可分为 httpclient3.x httpclient4.x到httpclient4.3以下 httpclient4.3
Essential Studio Enterprise Edition 2015 v1新功能体验 Axiba .net
概述：Essential Studio已全线升级至2015 v1版本了！新版本为JavaScript和ASP.NET MVC添加了新的文件资源管理器控件，还有其他一些控件功能升级，精彩不容错过，让我们一起来看看吧！ syncfusion公司是世界领先的Windows开发组件提供商，该公司正式对外发布Essential Studio Enterprise Edition 2015 v1版本。新版本
[宇宙与天文]微波背景辐射值与地球温度 comsci 背景
宇宙这个庞大,无边无际的空间是否存在某种确定的,变化的温度呢? 如果宇宙微波背景辐射值是表示宇宙空间温度的参数之一,那么测量这些数值,并观测周围的恒星能量输出值,我们是否获得地球的长期气候变化的情况呢? &nbs
lvs-server 男人50 server
#!/bin/bash # # LVS script for VS/DR # #./etc/rc.d/init.d/functions # VIP=10.10.6.252 RIP1=10.10.6.101 RIP2=10.10.6.13 PORT=80 case $1 in start) /sbin/ifconfig eth2:0 $VIP broadca
java的WebCollector爬虫框架 oloz 爬虫
WebCollector主页： https://github.com/CrawlScript/WebCollector 下载：webcollector-版本号-bin.zip将解压后文件夹中的所有jar包添加到工程既可。接下来看demo package org.spider.myspider; import cn.edu.hfut.dmic.webcollector.cra
jQuery append 与 after 的区别小猪猪08
1、after函数定义和用法： after() 方法在被选元素后插入指定的内容。语法： $(selector).after(content) 实例： <html> <head> <script type="text/javascript" src="/jquery/jquery.js"></scr
mysql知识充电香水浓 mysql
索引索引是在存储引擎中实现的，因此每种存储引擎的索引都不一定完全相同，并且每种存储引擎也不一定支持所有索引类型。根据存储引擎定义每个表的最大索引数和最大索引长度。所有存储引擎支持每个表至少16个索引，总索引长度至少为256字节。大多数存储引擎有更高的限制。MYSQL中索引的存储类型有两种：BTREE和HASH，具体和表的存储引擎相关； MYISAM和InnoDB存储引擎
我的架构经验系列文章索引 agevs 架构
下面是一些个人架构上的总结，本来想只在公司内部进行共享的，因此内容写的口语化一点，也没什么图示，所有内容没有查任何资料是脑子里面的东西吐出来的因此可能会不准确不全，希望抛砖引玉，大家互相讨论。要注意，我这些文章是一个总体的架构经验不针对具体的语言和平台，因此也不一定是适用所有的语言和平台的。（内容是前几天写的，现附上索引）前端架构 http://www.
Android so lib库远程http下载和动态注册 aijuans andorid
一、背景在开发Android应用程序的实现，有时候需要引入第三方so lib库，但第三方so库比较大，例如开源第三方播放组件ffmpeg库, 如果直接打包的apk包里面, 整个应用程序会大很多.经过查阅资料和实验，发现通过远程下载so文件，然后再动态注册so文件时可行的。主要需要解决下载so文件存放位置以及文件读写权限问题。二、主要
linux中svn配置出错 conf/svnserve.conf:12: Option expected 解决方法 baalwolf option
在客户端访问subversion版本库时出现这个错误： svnserve.conf:12: Option expected 为什么会出现这个错误呢，就是因为subversion读取配置文件svnserve.conf时，无法识别有前置空格的配置文件，如### This file controls the configuration of the svnserve daemon, if you##
MongoDB的连接池和连接管理 BigCat2013 mongodb
在关系型数据库中，我们总是需要关闭使用的数据库连接，不然大量的创建连接会导致资源的浪费甚至于数据库宕机。这篇文章主要想解释一下mongoDB的连接池以及连接管理机制，如果正对此有疑惑的朋友可以看一下。通常我们习惯于new 一个connection并且通常在finally语句中调用connection的close()方法将其关闭。正巧，mongoDB中当我们new一个Mongo的时候，会发现它也
AngularJS使用Socket.IO bijian1013 JavaScript AngularJS Socket.IO
目前，web应用普遍被要求是实时web应用，即服务端的数据更新之后，应用能立即更新。以前使用的技术（例如polling）存在一些局限性，而且有时我们需要在客户端打开一个socket，然后进行通信。 Socket.IO(http://socket.io/)是一个非常优秀的库，它可以帮你实
[Maven学习笔记四]Maven依赖特性 bit1129 maven
三个模块为了说明问题，以用户登陆小web应用为例。通常一个web应用分为三个模块，模型和数据持久化层user-core, 业务逻辑层user-service以及web展现层user-web， user-service依赖于user-core user-web依赖于user-core和user-service 依赖作用范围 Maven的dependency定义
【Akka一】Akka入门 bit1129 akka
什么是Akka Message-Driven Runtime is the Foundation to Reactive Applications In Akka, your business logic is driven through message-based communication patterns that are independent of physical locatio
zabbix_api之perl语言写法 ronin47 zabbix_api之perl
zabbix_api网上比较多的写法是python或curl。上次我用java－－http://bossr.iteye.com/blog/2195679，这次用perl。for example: #!/usr/bin/perl use 5.010 ; use strict ; use warnings ; use JSON :: RPC :: Client ; use
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ brotherlamp linux运维工程师 linux运维工程师教程 linux运维工程师视频 linux运维工程师资料 linux运维工程师自学
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ ----------------------------------------------------- 兄弟连Linux运维工程师课堂实录-计算机基础-1-课程体系介绍1 链接：http://pan.baidu.com/s/1i3GQtGL 密码：bl65 兄弟连Lin
bitmap求哈密顿距离-给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y( bylijinnan java
import java.util.Random; /** * 题目： * 给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y(y1,y2,y3,y4,y5)， * 使得他们的哈密顿距离（d=|x1-y1| + |x2-y2| + |x3-y3| + |x4-y4| + |x5-y5|）最大
map的三种遍历方法 chicony map
package com.test; import java.util.Collection; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Set; public class TestMap { public static v
Linux安装mysql的一些坑 chenchao051 linux
1、mysql不建议在root用户下运行 2、出现服务启动不了，111错误，注意要用chown来赋予权限，我在root用户下装的mysql，我就把usr/share/mysql/mysql.server复制到/etc/init.d/mysqld, (同时把my-huge.cnf复制/etc/my.cnf) chown -R cc /etc/init.d/mysql
Sublime Text 3 配置 daizj 配置 Sublime Text
Sublime Text 3 配置解释(默认){// 设置主题文件“color_scheme”: “Packages/Color Scheme – Default/Monokai.tmTheme”,// 设置字体和大小“font_face”: “Consolas”,“font_size”: 12,// 字体选项：no_bold不显示粗体字，no_italic不显示斜体字，no_antialias和
MySQL server has gone away 问题的解决方法 dcj3sjt126com SQL Server
MySQL server has gone away 问题解决方法，需要的朋友可以参考下。应用程序（比如PHP）长时间的执行批量的MYSQL语句。执行一个SQL，但SQL语句过大或者语句中含有BLOB或者longblob字段。比如，图片数据的处理。都容易引起MySQL server has gone away。今天遇到类似的情景，MySQL只是冷冷的说：MySQL server h
javascript/dom:固定居中效果 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&
使用 Spring 2.5 注释驱动的 IoC 功能 e200702084 spring bean 配置管理 IOC Office
使用 Spring 2.5 注释驱动的 IoC 功能 developerWorks 文档选项将打印机的版面设置成横向打印模式打印本页将此页作为电子邮件发送将此页作为电子邮件发送级别：初级陈雄华 ([email protected]), 技术总监, 宝宝淘网络科技有限公司 2008 年 2 月 28 日 &nb
MongoDB常用操作命令 geeksun mongodb
1. 基本操作 db.AddUser(username,password) 添加用户 db.auth(usrename,password) 设置数据库连接验证 db.cloneDataBase(fromhost)
php写守护进程（Daemon） hongtoushizi PHP
转载自： http://blog.csdn.net/tengzhaorong/article/details/9764655 守护进程（Daemon）是运行在后台的一种特殊进程。它独立于控制终端并且周期性地执行某种任务或等待处理某些发生的事件。守护进程是一种很有用的进程。php也可以实现守护进程的功能。 1、基本概念 &nbs
spring整合mybatis,关于注入Dao对象出错问题 jonsvien DAO spring bean mybatis prototype
今天在公司测试功能时发现一问题：先进行代码说明： 1，controller配置了Scope="prototype"（表明每一次请求都是原子型） @resource/@autowired service对象都可以（两种注解都可以）。 2，service 配置了Scope="prototype"（表明每一次请求都是原子型）
对象关系行为模式之标识映射 home198979 PHP 架构企业应用对象关系标识映射
HELLO!架构一、概念 identity Map:通过在映射中保存每个已经加载的对象，确保每个对象只加载一次，当要访问对象的时候，通过映射来查找它们。其实在数据源架构模式之数据映射器代码中有提及到标识映射，Mapper类的getFromMap方法就是实现标识映射的实现。二、为什么要使用标识映射？在数据源架构模式之数据映射器中 //c
Linux下hosts文件详解 pda158 linux
　1、主机名：　　无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。　　公网：IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。　　局域网：每台机器都有一个主机名，用于主机与主机之间的便于区分，就可以为每台机器设置主机
nginx配置文件粗解 spjich java nginx
#运行用户#user nobody;#启动进程,通常设置成和cpu的数量相等worker_processes 2;#全局错误日志及PID文件#error_log logs/error.log;#error_log logs/error.log notice;#error_log logs/error.log inf
数学函数 w54653520 java
public class S { // 传入两个整数，进行比较，返回两个数中的最大值的方法。 public int get( int num1, int nu

kaggle新手赛泰坦尼克之灾

kaggle泰坦尼克之灾比赛经验分享

一.导入数据包与数据集

二.数据分析

1.总体预览：了解每列数据的含义,数据的格式等

2..数据初步分析,使用统计学与绘图：初步了解数据之间的相关性,为构造特征工程以及模型建立做准备

1)数值型数据协方差,corr()函数

2)各个数据与结果的关系

①Pclass,乘客等级,1是最高级

②Sex,性别

③SibSp and Parch 兄妹配偶数/父母子女数

④Age年龄与生存情况的分析.

⑤Embarked登港港口与生存情况的分析

三.特征工程

①Pclass,乘客等级,1是最高级

②Sex,性别¶

③SibSp and Parch 兄妹配偶数/父母子女数

④Embarked

⑤ Name

⑥ Fare

⑦ Ticket

⑧ Age

利用其他组特征量，采用机器学习算法来预测Age

⑨ Cabin

#直接舍去该特征 train_test.drop('Cabin',axis=1,inplace=True)

⑩ 特征工程处理完了,划分数据集

四 建立模型

数据标准化

开始建模

随机森林

如果分数足够好,可以将该模型保存起来,下次直接调出来使用 from sklearn.externals import joblib 这个包进行保存。

到此，该项目以及完成了。第一次做比赛，第一次写博客，如有错误，欢迎指出！

你可能感兴趣的:(机器学习,sklearn)

四建立模型