心灵在路上

泰坦尼克号乘客获救预测(进阶)

泰坦尼克号乘客生存预测详细流程

数据挖掘流程：
数据特征分为：连续值和离散值
缺失值填充
特征相关性的热度图

特征工程和数据清洗

年龄特征：
Family_size：家庭总人数

机器学习建模
交叉验证！
超参数整定

数据挖掘流程：

（一）数据读取：

读取数据，并进行展示
统计数据各项指标
明确数据规模与要完成任务
（二）特征理解分析
单特征分析，逐个变量分析其对结果的影响
多变量统计分析，综合考虑多种情况影响
统计绘图得出结论
（三）数据清洗与预处理
对缺失值进行填充
特征标准化/归一化
筛选有价值的特征
分析特征之间的相关性
（四）建立模型
特征数据与标签准备
数据集切分
多种建模算法对比
集成策略等方案改进

import numpy as np 
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
plt.style.use('fivethirtyeight')
import warnings
warnings.filterwarnings('ignore')
%matplotlib inline

数据读取

data=pd.read_csv('train.csv')
data.head()

查看有没有缺失值

data.isnull().sum() #checking for total null values

整体看看数据啥规模

data.describe()

不是要预测这大船的获救情况嘛，先看看获救比例咋样

f,ax=plt.subplots(1,2,figsize=(18,8))
data['Survived'].value_counts().plot.pie(explode=[0,0.1],autopct='%1.1f%%',ax=ax[0],shadow=True)
ax[0].set_title('Survived')
ax[0].set_ylabel('')
sns.countplot('Survived',data=data,ax=ax[1])
ax[1].set_title('Survived')
plt.show()

显然，这次事故中没有多少乘客幸免于难。

在训练集的891名乘客中，只有大约350人幸存下来，只有38.4%的机组人员在空难中幸存下来。我们需要从数据中挖掘出更多的信息，看看哪些类别的乘客幸存下来，哪些没有。

我们将尝试使用数据集的不同特性来检查生存率。比如性别，年龄，登船地点等，但是首先我们得来理解下数据中的特征！

数据特征分为：连续值和离散值

离散值：性别（男，女）登船地点（S,Q,C）
连续值：年龄，船票价格

data.groupby(['Sex','Survived'])['Survived'].count()

f,ax=plt.subplots(1,2,figsize=(18,8))
data[['Sex','Survived']].groupby(['Sex']).mean().plot.bar(ax=ax[0])
ax[0].set_title('Survived vs Sex')
sns.countplot('Sex',hue='Survived',data=data,ax=ax[1])
ax[1].set_title('Sex:Survived vs Dead')
plt.show()

这看起来很有趣。船上的男人比女人多得多。不过，挽救的女性人数几乎是男性的两倍。生存率为一个女人在船上是75%左右，而男性在18-19%左右。（让妇女和儿童先走，虽然电影忘得差不多了，这句话还记着。。。确实是这样的）

Pclass --> 船舱等级跟获救情况的关系

pd.crosstab(data.Pclass,data.Survived,margins=True).style.background_gradient(cmap='summer_r')#交叉表

f,ax=plt.subplots(1,2,figsize=(18,8))
data['Pclass'].value_counts().plot.bar(color=['#CD7F32','#FFDF00','#D3D3D3'],ax=ax[0])
ax[0].set_title('Number Of Passengers By Pclass')
ax[0].set_ylabel('Count')
sns.countplot('Pclass',hue='Survived',data=data,ax=ax[1])
ax[1].set_title('Pclass:Survived vs Dead')
plt.show()

人们说金钱不能买到一切。但我们可以清楚地看到，船舱等级为1的被给予很高的优先级而救援。尽管数量在pClass 3乘客高了很多，仍然存活数从他们是非常低的，大约25%。

对于pClass1来说存活是63%左右，而pclass2大约是48%。所以金钱和地位很重要。这样一个物欲横流的世界。

那这些又和性别有关吗？接下来我们再来看看船舱等级和性别对结果的影响

pd.crosstab([data.Sex,data.Survived],data.Pclass,margins=True).style.background_gradient(cmap='summer_r')

sns.factorplot('Pclass','Survived',hue='Sex',data=data)
plt.show()

我们用factorplot这个图，看起来更直观一些。

我们可以很容易地推断，从pclass1女性生存是95-96%，如94人中只有3的女性从pclass1没获救。

显而易见的是，不论pClass，女性优先考虑。

看来Pclass也是一个重要的特征。让我们分析其他特征

Age–> 连续值特征对结果的影响

f,ax=plt.subplots(1,2,figsize=(18,8))
sns.violinplot("Pclass","Age", hue="Survived", data=data,split=True,ax=ax[0])
ax[0].set_title('Pclass and Age vs Survived')
ax[0].set_yticks(range(0,110,10))
sns.violinplot("Sex","Age", hue="Survived", data=data,split=True,ax=ax[1])
ax[1].set_title('Sex and Age vs Survived')
ax[1].set_yticks(range(0,110,10))
plt.show()

结果：¶ 1）10岁以下儿童的存活率随passenegers数量增加。

2）生存为20-50岁获救几率更高一些。

3）对男性来说，随着年龄的增长，存活率降低。

缺失值填充

平均值
经验值
回归模型预测
剔除掉

正如我们前面看到的，年龄特征有177个空值。为了替换这些缺失值，我们可以给它们分配数据集的平均年龄。

但问题是，有许多不同年龄的人。最好的办法是找到一个合适的年龄段！

我们可以检查名字特征。根据这个特征，我们可以看到名字有像先生或夫人这样的称呼，这样我们就可以把先生和夫人的平均值分配给各自的组。

data['Initial']=0
for i in data:
    data['Initial']=data.Name.str.extract('([A-Za-z]+)\.')

好了，这里我们使用正则表达式：[A-Za-z] +）来提取信息

pd.crosstab(data.Initial,data.Sex).T.style.background_gradient(cmap='summer_r')

data['Initial'].replace(['Mlle','Mme','Ms','Dr','Major','Lady','Countess','Jonkheer','Col','Rev','Capt','Sir','Don'],['Miss','Miss','Miss','Mr','Mr','Mrs','Mrs','Other','Other','Other','Mr','Mr','Mr'],inplace=True)

data.groupby('Initial')['Age'].mean()

填充缺失值

## 使用每组的均值来进行填充
data.loc[(data.Age.isnull())&(data.Initial=='Mr'),'Age']=33
data.loc[(data.Age.isnull())&(data.Initial=='Mrs'),'Age']=36
data.loc[(data.Age.isnull())&(data.Initial=='Master'),'Age']=5
data.loc[(data.Age.isnull())&(data.Initial=='Miss'),'Age']=22
data.loc[(data.Age.isnull())&(data.Initial=='Other'),'Age']=46

f,ax=plt.subplots(1,2,figsize=(20,10))
data[data['Survived']==0].Age.plot.hist(ax=ax[0],bins=20,edgecolor='black',color='red')
ax[0].set_title('Survived= 0')
x1=list(range(0,85,5))
ax[0].set_xticks(x1)
data[data['Survived']==1].Age.plot.hist(ax=ax[1],color='green',bins=20,edgecolor='black')
ax[1].set_title('Survived= 1')
x2=list(range(0,85,5))
ax[1].set_xticks(x2)
plt.show()

观察:

1）幼儿（年龄在5岁以下）获救的还是蛮多的（妇女和儿童优先政策）。

2）最老的乘客得救了（80年）。

3）死亡人数最高的是30-40岁年龄组。

sns.factorplot('Pclass','Survived',col='Initial',data=data)
plt.show()

特征之间的相关性

sns.heatmap(data.corr(),annot=True,cmap='RdYlGn',linewidths=0.2) #data.corr()-->correlation matrix
fig=plt.gcf()
fig.set_size_inches(10,8)
plt.show()

特征相关性的热度图

首先要注意的是，只有数值特征进行比较

正相关：如果特征A的增加导致特征b的增加，那么它们呈正相关。值1表示完全正相关。

负相关：如果特征A的增加导致特征b的减少，则呈负相关。值-1表示完全负相关。

现在让我们说两个特性是高度或完全相关的，所以一个增加导致另一个增加。这意味着两个特征都包含高度相似的信息，并且信息很少或没有变化。这样的特征对我们来说是没有价值的！

那么你认为我们应该同时使用它们吗？。在制作或训练模型时，我们应该尽量减少冗余特性，因为它减少了训练时间和许多优点。

现在，从上面的图，我们可以看到，特征不显著相关。

特征工程和数据清洗

当我们得到一个具有特征的数据集时，是不是所有的特性都很重要？可能有许多冗余的特征应该被消除，我们还可以通过观察或从其他特征中提取信息来获得或添加新特性。

年龄特征：

正如我前面提到的，年龄是连续的特征，在机器学习模型中存在连续变量的问题。

如果我说通过性别来组织或安排体育运动，我们可以很容易地把他们分成男女分开。

如果我说按他们的年龄分组，你会怎么做？如果有30个人，可能有30个年龄值。

我们需要对连续值进行离散化来分组。

好的，乘客的最大年龄是80岁。所以我们将范围从0-80成5箱。所以80/5＝16。

data['Age_band']=0
data.loc[data['Age']<=16,'Age_band']=0
data.loc[(data['Age']>16)&(data['Age']<=32),'Age_band']=1
data.loc[(data['Age']>32)&(data['Age']<=48),'Age_band']=2
data.loc[(data['Age']>48)&(data['Age']<=64),'Age_band']=3
data.loc[data['Age']>64,'Age_band']=4
data.head(2)

data['Age_band'].value_counts().to_frame().style.background_gradient(cmap='summer')

sns.factorplot('Age_band','Survived',data=data,col='Pclass')
plt.show()

生存率随年龄的增加而减少，不论Pclass。

Family_size：家庭总人数

data['Family_Size']=0
data['Family_Size']=data['Parch']+data['SibSp']#family size
data['Alone']=0
data.loc[data.Family_Size==0,'Alone']=1#Alone

f,ax=plt.subplots(1,2,figsize=(18,6))
sns.factorplot('Family_Size','Survived',data=data,ax=ax[0])
ax[0].set_title('Family_Size vs Survived')
sns.factorplot('Alone','Survived',data=data,ax=ax[1])
ax[1].set_title('Alone vs Survived')
plt.close(2)
plt.close(3)
plt.show()

family_size = 0意味着passeneger是孤独的。显然，如果你是单独或family_size = 0，那么生存的机会很低。家庭规模4以上，机会也减少。这看起来也是模型的一个重要特性。

将字符串值转换为数字因为我们不能把字符串一个机器学习模型

data['Sex'].replace(['male','female'],[0,1],inplace=True)
data['Embarked'].replace(['S','C','Q'],[0,1,2],inplace=True)
data['Initial'].replace(['Mr','Mrs','Miss','Master','Other'],[0,1,2,3,4],inplace=True)

去掉不必要的特征

名称>我们不需要name特性，因为它不能转换成任何分类值

年龄——>我们有age_band特征，所以不需要这个

票号–>这是任意的字符串，不能被归类

票价——>我们有fare_cat特征，所以不需要

船仓号——>这个也不要没啥含义

passengerid -->不能被归类

data.drop(['Name','Age','Ticket','Fare','Cabin','Fare_Range','PassengerId'],axis=1,inplace=True)
sns.heatmap(data.corr(),annot=True,cmap='RdYlGn',linewidths=0.2,annot_kws={'size':20})
fig=plt.gcf()
fig.set_size_inches(18,15)
plt.xticks(fontsize=14)
plt.yticks(fontsize=14)
plt.show()

现在以上的相关图，我们可以看到一些正相关的特征。他们中的一些人sibsp和family_size和干燥family_size和一些负面的孤独和family_size。

机器学习建模

现在我们将使用一些很好的分类算法来预测乘客是否能生存下来：

1）logistic回归

2）支持向量机（线性和径向）

3）随机森林

4）k-近邻

5）朴素贝叶斯

6）决策树

7）神经网络


from sklearn.linear_model import LogisticRegression 
from sklearn import svm 
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.naive_bayes import GaussianNB 
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn import metrics 
from sklearn.metrics import confusion_matrix

train,test=train_test_split(data,test_size=0.3,random_state=0,stratify=data['Survived'])
train_X=train[train.columns[1:]]
train_Y=train[train.columns[:1]]
test_X=test[test.columns[1:]]
test_Y=test[test.columns[:1]]
X=data[data.columns[1:]]
Y=data['Survived']

SVM

model=svm.SVC(kernel='rbf',C=1,gamma=0.1)
model.fit(train_X,train_Y)
prediction1=model.predict(test_X)
print('Accuracy for rbf SVM is ',metrics.accuracy_score(prediction1,test_Y))

linear-SVM

model=svm.SVC(kernel='linear',C=0.1,gamma=0.1)
model.fit(train_X,train_Y)
prediction2=model.predict(test_X)
print('Accuracy for linear SVM is',metrics.accuracy_score(prediction2,test_Y))

Logistic Regression

model = LogisticRegression()
model.fit(train_X,train_Y)
prediction3=model.predict(test_X)
print('The accuracy of the Logistic Regression is',metrics.accuracy_score(prediction3,test_Y))

Decision Tree

model=DecisionTreeClassifier()
model.fit(train_X,train_Y)
prediction4=model.predict(test_X)
print('The accuracy of the Decision Tree is',metrics.accuracy_score(prediction4,test_Y))

KNN

model=KNeighborsClassifier() 
model.fit(train_X,train_Y)
prediction5=model.predict(test_X)
print('The accuracy of the KNN is',metrics.accuracy_score(prediction5,test_Y))

现在的精度为KNN模型的变化，我们改变n_neighbours值属性。默认值是5。让我们检查的精度在n_neighbours不同时的结果。

a_index=list(range(1,11))
a=pd.Series()
x=[0,1,2,3,4,5,6,7,8,9,10]
for i in list(range(1,11)):
    model=KNeighborsClassifier(n_neighbors=i) 
    model.fit(train_X,train_Y)
    prediction=model.predict(test_X)
    a=a.append(pd.Series(metrics.accuracy_score(prediction,test_Y)))
plt.plot(a_index, a)
plt.xticks(x)
fig=plt.gcf()
fig.set_size_inches(12,6)
plt.show()
print('Accuracies for different values of n are:',a.values,'with the max value as ',a.values.max())

model=GaussianNB()
model.fit(train_X,train_Y)
prediction6=model.predict(test_X)
print('The accuracy of the NaiveBayes is',metrics.accuracy_score(prediction6,test_Y))

模型的精度并不是决定分类器效果的唯一因素。假设分类器在训练数据上进行训练，需要在测试集上进行测试才有效果

现在这个分类器的精确度很高，但是我们可以确认所有的新测试集都是90%吗？答案是否定的，因为我们不能确定分类器在不同数据源上的结果。当训练和测试数据发生变化时，精确度也会改变。它可能会增加或减少。

为了克服这一点，得到一个广义模型，我们使用交叉验证。

交叉验证！

一个测试集看起来不太够呀，多轮求均值是一个好的策略！

1）的交叉验证的工作原理是首先将数据集分成k-subsets。

2）假设我们将数据集划分为（k＝5）部分。我们预留1个部分进行测试，并对这4个部分进行训练。

3）我们通过在每次迭代中改变测试部分并在其他部分中训练算法来继续这个过程。然后对衡量结果求平均值，得到算法的平均精度。

这就是所谓的交叉验证。

from sklearn.model_selection import KFold #for K-fold cross validation
from sklearn.model_selection import cross_val_score #score evaluation
from sklearn.model_selection import cross_val_predict #prediction
kfold = KFold(n_splits=10, random_state=22) # k=10, split the data into 10 equal parts
xyz=[]
accuracy=[]
std=[]
classifiers=['Linear Svm','Radial Svm','Logistic Regression','KNN','Decision Tree','Naive Bayes','Random Forest']
models=[svm.SVC(kernel='linear'),svm.SVC(kernel='rbf'),LogisticRegression(),KNeighborsClassifier(n_neighbors=9),DecisionTreeClassifier(),GaussianNB(),RandomForestClassifier(n_estimators=100)]
for i in models:
    model = i
    cv_result = cross_val_score(model,X,Y, cv = kfold,scoring = "accuracy")
    cv_result=cv_result
    xyz.append(cv_result.mean())
    std.append(cv_result.std())
    accuracy.append(cv_result)
new_models_dataframe2=pd.DataFrame({'CV Mean':xyz,'Std':std},index=classifiers)       
new_models_dataframe2

plt.subplots(figsize=(12,6))
box=pd.DataFrame(accuracy,index=[classifiers])
box.T.boxplot()

new_models_dataframe2['CV Mean'].plot.barh(width=0.8)
plt.title('Average CV Mean Accuracy')
fig=plt.gcf()
fig.set_size_inches(8,5)
plt.show()

f,ax=plt.subplots(3,3,figsize=(12,10))
y_pred = cross_val_predict(svm.SVC(kernel='rbf'),X,Y,cv=10)
sns.heatmap(confusion_matrix(Y,y_pred),ax=ax[0,0],annot=True,fmt='2.0f')
ax[0,0].set_title('Matrix for rbf-SVM')
y_pred = cross_val_predict(svm.SVC(kernel='linear'),X,Y,cv=10)
sns.heatmap(confusion_matrix(Y,y_pred),ax=ax[0,1],annot=True,fmt='2.0f')
ax[0,1].set_title('Matrix for Linear-SVM')
y_pred = cross_val_predict(KNeighborsClassifier(n_neighbors=9),X,Y,cv=10)
sns.heatmap(confusion_matrix(Y,y_pred),ax=ax[0,2],annot=True,fmt='2.0f')
ax[0,2].set_title('Matrix for KNN')
y_pred = cross_val_predict(RandomForestClassifier(n_estimators=100),X,Y,cv=10)
sns.heatmap(confusion_matrix(Y,y_pred),ax=ax[1,0],annot=True,fmt='2.0f')
ax[1,0].set_title('Matrix for Random-Forests')
y_pred = cross_val_predict(LogisticRegression(),X,Y,cv=10)
sns.heatmap(confusion_matrix(Y,y_pred),ax=ax[1,1],annot=True,fmt='2.0f')
ax[1,1].set_title('Matrix for Logistic Regression')
y_pred = cross_val_predict(DecisionTreeClassifier(),X,Y,cv=10)
sns.heatmap(confusion_matrix(Y,y_pred),ax=ax[1,2],annot=True,fmt='2.0f')
ax[1,2].set_title('Matrix for Decision Tree')
y_pred = cross_val_predict(GaussianNB(),X,Y,cv=10)
sns.heatmap(confusion_matrix(Y,y_pred),ax=ax[2,0],annot=True,fmt='2.0f')
ax[2,0].set_title('Matrix for Naive Bayes')
plt.subplots_adjust(hspace=0.2,wspace=0.2)
plt.show()

解释混淆矩阵：来看第一个图

1）预测的正确率为491（死亡）+ 247（存活），平均CV准确率为（491+247）/ 891＝82.8%。

2）58和95都是咱们弄错了的。

超参数整定

机器学习模型就像一个黑盒子。这个黑盒有一些默认参数值，我们可以调整或更改以获得更好的模型。比如支持向量机模型中的C和γ，我们称之为超参数，他们对结果可能产生非常大的影响。

from sklearn.model_selection import GridSearchCV
C=[0.05,0.1,0.2,0.3,0.25,0.4,0.5,0.6,0.7,0.8,0.9,1]
gamma=[0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1.0]
kernel=['rbf','linear']
hyper={'kernel':kernel,'C':C,'gamma':gamma}
gd=GridSearchCV(estimator=svm.SVC(),param_grid=hyper,verbose=True)
gd.fit(X,Y)
print(gd.best_score_)
print(gd.best_estimator_)

Random Forests

n_estimators=range(100,1000,100)
hyper={'n_estimators':n_estimators}
gd=GridSearchCV(estimator=RandomForestClassifier(random_state=0),param_grid=hyper,verbose=True)
gd.fit(X,Y)
print(gd.best_score_)
print(gd.best_estimator_)

RBF支持向量机的最佳得分为82.82%，C＝0.5，γ＝0.1。RandomForest，成绩是81.8%

你可能感兴趣的:(数据分析实践)

【TOGAF系列】TOGAF核心概念第三章东临碣石82 架构
3.1TOGAF标准是什么？TOGAF标准是一个架构框架。它提供了帮助接受、生产、使用和维护企业架构的方法和工具。它基于由最佳实践和一组可重用的现有架构资产支持的迭代过程模型。3.2TOGAF标准背景下的架构是什么？ISO/IEC/IEEE42010:2011将“架构”定义为：系统在其环境中的基本概念或属性，体现在其元素、关系以及设计和演化的原则中。TOGAF标准包含到不严格遵守ISO/IEC/I
Python读取通达信日线数据（.day文件）逝去的紫枫 Python python
Python读取通达信日线数据（.day文件）1.day文件位置2.day文件内容的构成3.Python代码识别day文件4.将识别结果输出为csv文件5.最终结果展示在金融数据分析中，通达信软件提供的数据文件（如日线数据文件.day）是非常宝贵的资源。本文将详细介绍如何使用Python读取和解析这些文件，并将解析结果输出为CSV文件，以便进行进一步的数据分析和处理。1.day文件位置通达信日线数
自学记录：用鸿蒙API 13 开发一个专业的进度条与二维码组件 harmonyos-next
这篇文章，我会结合自己的学习故事，讲解如何使用API13的全新能力，打造一个进度条和二维码展示组件，并以实际开发项目作为成果展示。我的学习路线：从文档到实践如果正在看的同学如果你不了解鸿蒙，那么我简单说一下，鸿蒙目前需要使用ArkUI配合ArkTS进行开发。它们不仅支持声明式开发，还通过DSL(领域专用语言)的设计，使代码更高效、模块化。于是，我们从以下几点展开学习：了解进度条与二维码组件的能力\
Python读取通达信一分钟K线数据（.lc1文件）逝去的紫枫 Python python
Python读取通达信一分钟K线数据（.lc1文件）1.lc1文件位置2.lc1文件内容的构成3.Python代码识别lc1文件4.将识别结果输出为csv文件5.最终结果展示在金融数据分析中，通达信软件提供的数据文件（如1分钟K线数据文件.lc1）是非常宝贵的资源。本文将详细介绍如何使用Python读取和解析这些文件，并将解析结果输出为CSV文件，以便进行进一步的数据分析和处理。1.lc1文件位置
法律行业内部知识库的案例研究知识库知识库管理知识库软件
在法律行业中，信息的管理和检索至关重要。随着法律文件和案例的日益增多，传统的文件管理方式已经无法满足现代法律实践的需求。因此，构建一个高效的内部知识库成为了法律行业的迫切需求。本文将通过案例研究的方式，探讨法律行业内部知识库的构建、应用及其带来的变革。知识库的定义与重要性知识库是一个系统，它允许组织存储、管理和检索其知识资产。在法律行业，这些资产包括法律文件、案例分析、法律意见、合同模板等。一个有
搭建个人AI知识库：RAG与本地模型实践指南 ai开发知识库
引言你是否想过拥有一个私人订制的AI助手，能够随时为你提供最个性化的信息？本文将带你一步步搭建一个基于本地模型和RAG技术的个人知识库。搭建本地模型环境os:archlinux内存:32gcpu:6核12线程python:3.12.7docker27.3.1+docker-compose向量库:milvus2.4.13+attu2.4(客户端)ollamapacman-Sollamasystemc
Python 爬虫入门教程：从零构建你的第一个网络爬虫 m0_74825223 面试学习路线阿里巴巴 python 爬虫开发语言
网络爬虫是一种自动化程序，用于从网站抓取数据。Python凭借其丰富的库和简单的语法，是构建网络爬虫的理想语言。本文将带你从零开始学习Python爬虫的基本知识，并实现一个简单的爬虫项目。1.什么是网络爬虫？网络爬虫（WebCrawler）是一种通过网络协议（如HTTP/HTTPS）获取网页内容，并提取其中有用信息的程序。常见的爬虫用途包括：收集商品价格和评价。抓取新闻或博客内容。统计数据分析。爬
Python数据分析与程序设计-番外：在vscode中使用Jupyter Notebook 想当糕手 python 数据分析 vscode jupyter
前言在系列文章的第二篇中，我们介绍了使用“if__name__=="__main__":”来模拟c语言中的main函数+封装测试函数的方法来提高代码可读性。当然，这并不是最佳的选择，本篇博客为您将介绍更为高效便捷的工具，希望能对你有所帮助！关于JupyterNotebookJupyterNotebook是一个开源的Web应用程序，它允许你创建和共享包含实时代码、方程、可视化和解释性文本的文档。它是
智能体（AI Agent）全解析：概念、原理至应用深度探索网安猫叔人工智能语言模型自然语言处理 AIGC 机器学习
一、智能体概念的深度剖析1.1智能体（Agent）的本质智能体，作为人工智能领域的一颗璀璨明珠，是那些能够主动感知周遭环境、自主决策并付诸实践的系统实体。它们不仅拥有自主性、交互性、反应灵敏及高度适应性等鲜明特征，更在复杂多变的情境中展现出卓越的自我管理与任务执行能力。智能体的诞生，标志着人工智能技术从机械式的规则遵循迈向了更为灵活、智能的自主决策新时代。智能体的核心精髓在于其内置的学习与决策引擎
《利用python进行数据分析》——3.1数据结构和序列——元组、列表、字典、集合——读书笔记 pillow_L python数据分析
第3章Python的数据结构、函数和文件3.1数据结构和序列Python中常见的数据结构可以统称为容器。序列（如列表和元组）、映射（如字典）以及集合（set）是三类主要的容器。1.元组——tuple元组是一个固定长度，不可改变的Python序列对象。元组与列表一样，也是一种序列，唯一不同的是元组不能被修改（字符串其实也有这种特点）元组Tuple，一经初始化，就不能修改，没有列表List中的appe
自建 MongoDB 实战 | MongoDB 文档查询新钛云服 mongodb 数据库 nosql
新钛云服已累计为您分享703篇技术干货专题介绍：八篇文章，近五万字。自建MongoDB实践系列文章，为您阐述日常工作中常用的NoSQL产品——MongoDB运维相关的日常实战。主要涉及到：·MongoDB的安装及基本使用（点击进入）·MongoDB文档查询（本期内容）·MongoDB复制集的介绍及搭建（后续更新）·MongoDB分片集群的介绍及搭建（后续更新）·MongoDB的备份及恢复（后续更新
Numpy基础01（Jupyter基本用法/Ndarray创建与基本操作） XYX的Blog 数据分析与可视化 numpy jupyter
内容一：Jupyter开发环境IPython是一个增强型的Python交互式解释器，提供了自动补全、命令历史、魔法命令等功能。它支持与操作系统命令交互、内联绘图和多语言扩展，并可与JupyterNotebook集成，适用于数据分析和科学计算。IPython还支持远程访问、包管理和插件扩展，是一个功能强大且灵活的开发工具。JupyterNotebook是IPython的开发环境。1.1Jupyter
机器学习：scikit-learn 和 Jupyter Notebook（推荐初学者使用google colab） wyc9999ww 机器学习 scikit-learn jupyter 人工智能 python
对于初学者来说，scikit-learn是一个理想的机器学习入门工具。不仅提供了丰富的算法和功能，还通过一致的API设计，确保能够快速上手并进行各种机器学习任务。通过使用scikit-learn，可以专注于理解和实践机器学习的核心概念，而不必过多担心底层实现细节。所以scikit-learn能轻松实现从数据预处理到模型训练和评估的完整流程。此外在推荐一个适合初学者的深度学习平台工具googleco
服务器性能监控与优化系统：实战指南与代码案例我的运维人生服务器运维运维开发技术共享
服务器性能监控与优化系统：实战指南与代码案例在现代IT基础设施中，服务器性能监控与优化是确保业务连续性和高效运行的关键环节。通过实时监控和调优，能够及时发现并解决潜在的性能瓶颈，从而提升用户体验和系统稳定性。本文将详细介绍服务器性能监控与优化系统的实践方法，并通过具体代码案例进行说明。一、性能监控的重要性性能监控是服务器管理的核心任务之一，通过实时监控关键性能指标（如CPU使用率、内存使用率、磁盘
持续集成（Continuous Integration, CI）荔枝寄 ci/cd
在当今的软件开发世界中，持续集成（ContinuousIntegration,CI）和持续部署（ContinuousDeployment,CD）已经成为不可或缺的一部分。CI/CD实践使得开发者能够频繁地将代码更改合并到共享仓库中，并自动构建、测试和部署这些更改，从而确保了软件产品的高质量和快速迭代。鸿蒙系统作为一款面向万物互联时代的智能终端操作系统，同样支持CI/CD工作流，为开发者提供了强大的
飞轮科技荣获中国电信星海大数据最佳合作伙伴奖！
近日，由中国电信集团数据发展中心主办的数据要素合作论坛在广州召开。大会以“数聚共生·智启未来”为主题，旨在展示数据要素应用成果，探索数据要素创新实践。与会期间，为了感谢2024年生态合作伙伴对中国电信数据业务发展工作的支持，会议举行了“星海大数据·最佳合作伙伴奖”颁奖仪式。飞轮科技凭借其在数据分析领域的卓越表现与深厚实力，获得这一殊荣。作为中国电信的长期合作伙伴，飞轮科技持续致力于为中国电信提供先
ITIL 4给ITSM建设带来哪些指导性意义区块链大数据运维自动化网络
ITIL4自2019年发布以来，对IT服务管理产生了巨大影响，其中作为ITIL4的关键内容，其指导原则体现了ITIL和服务管理的核心，支持所有类型和所有级别的成功实践和有效决策。今天我们就来对这些指导原则进行解释和分析。什么是指导原则最常见、最简单的使用方式，在作业里的脚本执行、文件分发步骤中使用。指导原则是用于组织开展IT服务管理所采用的顶层方向，适合不同组织的具体场景和需求。如一个组织的原则是
C语言的网络编程 AI向前看包罗万象 golang 开发语言后端
C语言的网络编程引言随着互联网的发展，网络编程逐渐成为计算机科学和软件工程领域中一个重要的研究方向与应用实践。C语言作为一种高效、灵活的编程语言，广泛应用于系统编程和网络编程中。网络编程涉及到的知识面较广，包括网络协议、套接字编程、数据传输等方面。本文将深入探讨C语言的网络编程，帮助读者了解基本概念、相关技术及应用实例。网络编程基础1.网络协议在进行网络编程之前，了解网络协议是非常重要的。网络协议
Python语言的编程范式 AI向前看包罗万象 golang 开发语言后端
Python语言的编程范式Python是一种广泛使用的高级编程语言，它因其简单易读的语法和强大的功能而受到程序员的喜爱。自1991年由荷兰人GuidolvanRossum首次发布以来，Python的发展迅速，其应用范围涵盖了Web开发、数据分析、人工智能、科学计算、自动化等多个领域。本文将深入探讨Python的编程范式，帮助读者更好地理解该语言的特性和优势。1.什么是编程范式编程范式是对程序设计风
JVM学习指南(40)-Java调优工具介绍俞兆鹏 JVM学习指南 JVM
文章目录引言JVM调优工具概览工具详细解析JConsoleVisualVMMATJProfiler调优工具的选择与使用最佳实践与技巧总结引言在Java开发中，JVM（Java虚拟机）调优是一个至关重要的环节。它不仅关系到应用的性能，还直接影响到系统的稳定性和资源利用率。随着应用规模的扩大和业务需求的增加，合理地对JVM进行调优变得尤为重要。调优工具作为辅助我们进行性能优化的利器，能够帮助我们更直观
软考系统架构设计师系列知识点之面向服务架构设计理论与实践（5）蓝天居士系统架构设计师软考系统架构
接前一篇文章：软考系统架构设计师系列知识点之面向服务架构设计理论与实践（4）所属章节：第15章.面向服务架构设计理论与实践第2节SOA的发展历史15.2SOA的发展历史15.2.3SOA的微服务化发展随着互联网技术的快速发展，为适应日益增长的用户访问量和产品的快速更新迭代，应用系统架构也经历了从简到繁、从单体架构到SOA架构再到微服务架构的演进过程。这导致了SOA架构向更细粒度、更通用化程度发展，
TypeScript语言的软件工程编程小筑包罗万象 golang 开发语言后端
TypeScript语言的软件工程实践引言在现代软件工程中，编程语言的选择对项目的成功至关重要。近年来，JavaScript凭借其在Web开发中的广泛应用取得了巨大成功。然而，随着Web应用程序的复杂性不断增加，开发者渐渐发现纯JavaScript在可维护性、类型安全性和开发效率方面的不足。为了解决这些问题，TypeScript应运而生。TypeScript是一种由微软开发的开源语言，它在Java
云原生周刊：K8s 生产环境架构设计及成本分析 KubeSphere 云原生 k8s 容器平台 kubesphere 云计算
开源项目推荐KubeZoneNetKubeZoneNet旨在帮助监控和优化Kubernetes集群中的跨可用区（Cross-Zone）网络流量。这个项目提供了一种简便的方式来跟踪和分析Kubernetes集群中跨不同可用区的通信，帮助用户优化集群的网络架构、提高资源利用效率并减少网络延迟。通过实时监控和数据分析，KubeZoneNet能有效地识别跨可用区的网络瓶颈，并提供改进建议，以支持Kuber
【设计模式】——装饰器模式（Decorator Pattern） J^T 设计模式 C/C++设计模式装饰器模式 c++系统架构
目录引言一、装饰器模式的基本概念核心思想装饰器模式的架构UML图应用场景二、装饰器模式的优点与缺点优点缺点三、C++实现装饰器模式1.定义抽象组件2.实现具体组件3.定义装饰器基类4.实现具体装饰器5.客户端使用四、总结引言在软件开发中，设计模式是解决常见问题的最佳实践。装饰器模式（DecoratorPattern），又称为包装器模式（WrapperPattern），是一种结构型设计模式，它允许在
Erlang语言研究综述 weixin_34233856 java shell 数据结构与算法
2019独角兽企业重金招聘Python工程师标准>>>摘要:本文前半部分主要是关于Erlang编程语言相关的内容；着重就一般学习编程语言的一般的关注点来阐述了Erlang编程语言的基本语法点，主要包括：Erlang的变量、Erlang的数据类型、Erlang的语句和Erlang编程语言的函数与模块四个方面；本文的后半部分主要就Erlang语言的并行化编程的实践：Erlang的并行化编程与Erlan
使用AI API生成生动比喻句的实践指南 wd48564awd 人工智能 python
技术背景介绍在日常交流和表达中，比喻句能够使文字更生动、更具感染力。与其费力地构思，不如利用AIAPI来快速生成生动的比喻句。在这篇文章中，我们将探讨如何使用AIAPI来生成形象的比喻句。核心原理解析AI文本生成技术，尤其是基于大型语言模型的API，如Anthropic的Claude或OpenAI的GPT，以其理解和生成自然语言文本的能力，能够根据输入提示生成富有创意和感染力的比喻句。这是通过学习
Spring 核心技术解析【纯干货版】- VIII：Spring 数据访问模块 Spring-Tx 模块精讲 m0_74824517 面试学习路线阿里巴巴 spring 数据库 java
在企业级开发中，事务管理是保障数据一致性和完整性的重要手段。Spring作为Java生态中广泛使用的框架，其事务管理模块（Spring-Tx）不仅提供了强大的功能，还极大地简化了开发者在不同技术栈中的事务处理工作。无论是编程式事务，还是声明式事务，Spring都以其灵活性和易用性满足了各种场景需求。本篇文章将从理论到实践，深入解析Spring-Tx模块的核心技术与使用方式，并通过代码示例帮助您更高
高级 Java 并发：模式和最佳实践小蜗牛慢慢爬行 java 开发语言
并发性是现代软件开发的基石，它使应用程序能够同时执行多个任务并高效利用系统资源。Java是一种多功能且功能强大的编程语言，它已经发展到包含强大的并发支持，使开发人员能够创建高性能、可扩展的应用程序。本文深入介绍了Java中的高级并发模式和最佳实践，使开发人员能够掌握应对复杂并发挑战和优化其应用程序的知识。1.Java并发基础知识基本并发概念Java中的并发性首先要了解基本构建块：线程和Runnab
亮相AICon，火山引擎边缘云揭秘边缘AI Agent探索与实践边缘计算智能硬件ai开发
12月13-14日，AICon全球人工智能开发与应用大会在北京成功举办。火山引擎边缘智能技术负责人谢皓受邀出席大会，以《AIAgent在边缘云的探索与实践》为主题，与全球AI领域的资深专家，共同深入探讨大模型落地、具身智能、多模态大模型、AIAgent等前沿技术如何推动行业变革、引领未来发展。火山引擎边缘智能技术负责人谢皓指出，随着AI时代的到来，边缘智能由传统的物联网、智慧物联，逐渐演变成智能体
多查询分析中的并发处理实践 FADxafs python
在进行查询分析时，某些技术可能会生成多个查询。在这种情况下，我们需要记得执行所有查询并合并结果。本文将通过一个简单的示例（使用模拟数据）展示如何实现这一点。技术背景介绍在数据分析和信息检索领域，查询分析技术能够帮助我们生成和优化查询以提高搜索效率。然而，当同时生成多个查询时，处理这些查询并有效地合并结果就显得尤为重要。本次我们将使用langchain库来演示如何处理多查询情况。核心原理解析通过生成
Spring4.1新特性——综述 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Schema与数据类型优化 annan211 数据结构 mysql
目前商城的数据库设计真是一塌糊涂，表堆叠让人不忍直视，无脑的架构师，说了也不听。在数据库设计之初，就应该仔细揣摩可能会有哪些查询，有没有更复杂的查询，而不是仅仅突出很表面的业务需求，这样做会让你的数据库性能成倍提高，当然，丑陋的架构师是不会这样去考虑问题的。选择优化的数据类型 1 更小的通常更好更小的数据类型通常更快，因为他们占用更少的磁盘、内存和cpu缓存，
第一节 HTML概要学习 chenke html Web css
第一节 HTML概要学习 1. 什么是HTML HTML是英文Hyper Text Mark-up Language(超文本标记语言)的缩写，它规定了自己的语法规则，用来表示比“文本”更丰富的意义，比如图片，表格，链接等。浏览器（IE,FireFox等）软件知道HTML语言的语法，可以用来查看HTML文档。目前互联网上的绝大部分网页都是使用HTML编写的。打开记事本输入一下内
MyEclipse里部分习惯的更改 Array_06 eclipse
继续补充中---------------------- 1.更改自己合适快捷键windows-->prefences-->java-->editor-->Content Assist--> Activation triggers for java的右侧“.”就可以改变常用的快捷键选中 Text
近一个月的面试总结 cugfy 面试
本文是在学习中的总结，欢迎转载但请注明出处：http://blog.csdn.net/pistolove/article/details/46753275 前言打算换个工作，近一个月面试了不少的公司，下面将一些面试经验和思考分享给大家。另外校招也快要开始了，为在校的学生提供一些经验供参考，希望都能找到满意的工作。
HTML5一个小迷宫游戏 357029540 html5
通过《HTML5游戏开发》摘抄了一个小迷宫游戏，感觉还不错，可以画画，写字，把摘抄的代码放上来分享下，喜欢的同学可以拿来玩玩！ <html> <head> <title>创建运行迷宫</title> <script type="text/javascript"
10步教你上传githib数据张亚雄 git
官方的教学还有其他博客里教的都是给懂的人说得，对已我们这样对我大菜鸟只能这么来锻炼，下面先不玩什么深奥的，先暂时用着10步干净利索。等玩顺溜了再用其他的方法。操作过程（查看本目录下有哪些文件NO.1）ls （跳转到子目录NO.2）cd+空格+目录（继续NO.3）ls （匹配到子目录NO.4）cd+ 目录首写字母+tab键+（首写字母“直到你所用文件根就不再按TAB键了”）（查看文件
MongoDB常用操作命令大全 adminjun mongodb 操作命令
成功启动MongoDB后，再打开一个命令行窗口输入mongo，就可以进行数据库的一些操作。输入help可以看到基本操作命令，只是MongoDB没有创建数据库的命令，但有类似的命令如：如果你想创建一个“myTest”的数据库，先运行use myTest命令，之后就做一些操作（如：db.createCollection('user')）,这样就可以创建一个名叫“myTest”的数据库。一
bat调用jar包并传入多个参数 aijuans
下面的主程序是通过eclipse写的： 1.在Main函数接收bat文件传递的参数（String[] args）如： String ip =args[0]; String user=args[1]; &nbs
Java中对类的主动引用和被动引用 ayaoxinchao java 主动引用对类的引用被动引用类初始化
在Java代码中，有些类看上去初始化了，但其实没有。例如定义一定长度某一类型的数组，看上去数组中所有的元素已经被初始化，实际上一个都没有。对于类的初始化，虚拟机规范严格规定了只有对该类进行主动引用时，才会触发。而除此之外的所有引用方式称之为对类的被动引用，不会触发类的初始化。虚拟机规范严格地规定了有且仅有四种情况是对类的主动引用，即必须立即对类进行初始化。四种情况如下：1.遇到ne
导出数据库提示 outfile disabled BigBird2012 mysql
在windows控制台下，登陆mysql，备份数据库： mysql>mysqldump -u root -p test test > D:\test.sql 使用命令 mysqldump 格式如下： mysqldump -u root -p *** DBNAME > E:\\test.sql。注意：执行该命令的时候不要进入mysql的控制台再使用，这样会报
Javascript 中的 && 和 || bijian1013 JavaScript &&||
准备两个对象用于下面的讨论 var alice = { name: "alice", toString: function () { return this.name; } } var smith = { name: "smith",
[Zookeeper学习笔记之四]Zookeeper Client Library会话重建 bit1129 zookeeper
为了说明问题，先来看个简单的示例代码： package com.tom.zookeeper.book; import com.tom.Host; import org.apache.zookeeper.WatchedEvent; import org.apache.zookeeper.ZooKeeper; import org.apache.zookeeper.Wat
【Scala十一】Scala核心五：case模式匹配 bit1129 scala
package spark.examples.scala.grammars.caseclasses object CaseClass_Test00 { def simpleMatch(arg: Any) = arg match { case v: Int => "This is an Int" case v: (Int, String)
运维的一些面试题 yuxianhua linux
1、Linux挂载Winodws共享文件夹 mount -t cifs //1.1.1.254/ok /var/tmp/share/ -o username=administrator,password=yourpass 或 mount -t cifs -o username=xxx,password=xxxx //1.1.1.1/a /win
Java lang包-Boolean BrokenDreams boolean
Boolean类是Java中基本类型boolean的包装类。这个类比较简单，直接看源代码吧。 public final class Boolean implements java.io.Serializable,
读《研磨设计模式》-代码笔记-命令模式-Command bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.List; /** * GOF 在《设计模式》一书中阐述命令模式的意图：“将一个请求封装
matlab下GPU编程笔记 cherishLC matlab
不多说，直接上代码 gpuDevice % 查看系统中的gpu,,其中的DeviceSupported会给出matlab支持的GPU个数。 g=gpuDevice(1); %会清空 GPU 1中的所有数据,,将GPU1 设为当前GPU reset(g) %也可以清空GPU中数据。 a=1; a=gpuArray(a); %将a从CPU移到GPU中 onGP
SVN安装过程 crabdave SVN
SVN安装过程 subversion-1.6.12 ./configure --prefix=/usr/local/subversion --with-apxs=/usr/local/apache2/bin/apxs --with-apr=/usr/local/apr --with-apr-util=/usr/local/apr --with-openssl=/
sql　行列转换 daizj sql 行列转换行转列列转行
行转列的思想是通过case when 来实现列转行的思想是通过union all 来实现下面具体例子：假设有张学生成绩表(tb)如下: Name Subject Result 张三语文　　74 张三数学　　83 张三物理　　93 李四语文　　74 李四数学　　84 李四物理　　94 */ /* 想变成姓名 &
MySQL--主从配置 dcj3sjt126com mysql
linux下的mysql主从配置：说明：由于MySQL不同版本之间的(二进制日志)binlog格式可能会不一样，因此最好的搭配组合是Master的MySQL版本和Slave的版本相同或者更低， Master的版本肯定不能高于Slave版本。（版本向下兼容） mysql1 : 192.168.100.1 //master mysq
关于yii 数据库添加新字段之后model类的修改 dcj3sjt126com Model
rules: array('新字段','safe','on'=>'search') 1、array('新字段', 'safe')//这个如果是要用户输入的话，要加一下， 2、array('新字段', 'numerical'),//如果是数字的话 3、array('新字段', 'length', 'max'=>100),//如果是文本 1、2、3适当的最少要加一条，新字段才会被
sublime text3 中文乱码解决 dyy_gusi Sublime Text
sublime text3中文乱码解决原因：缺少转换为UTF-8的插件目的：安装ConvertToUTF8插件包第一步：安装能自动安装插件的插件，百度“Codecs33”，然后按照步骤可以得到以下一段代码： import urllib.request,os,hashlib; h = 'eb2297e1a458f27d836c04bb0cbaf282' + 'd0e7a30980927
概念了解：CGI，FastCGI，PHP-CGI与PHP-FPM geeksun PHP
CGI CGI全称是“公共网关接口”(Common Gateway Interface)，HTTP服务器与你的或其它机器上的程序进行“交谈”的一种工具，其程序须运行在网络服务器上。 CGI可以用任何一种语言编写，只要这种语言具有标准输入、输出和环境变量。如php,perl,tcl等。 FastCGI FastCGI像是一个常驻(long-live)型的CGI，它可以一直执行着，只要激活后，不
Git push 报错 "error: failed to push some refs to " 解决 hongtoushizi git
Git push 报错 "error: failed to push some refs to " . 此问题出现的原因是：由于远程仓库中代码版本与本地不一致冲突导致的。由于我在第一次git pull --rebase 代码后，准备push的时候，有别人往线上又提交了代码。所以出现此问题。解决方案： 1： git pull 2：
第四章 Lua模块开发 jinnianshilongnian nginx lua
在实际开发中，不可能把所有代码写到一个大而全的lua文件中，需要进行分模块开发；而且模块化是高性能Lua应用的关键。使用require第一次导入模块后，所有Nginx 进程全局共享模块的数据和代码，每个Worker进程需要时会得到此模块的一个副本（Copy-On-Write），即模块可以认为是每Worker进程共享而不是每Nginx Server共享；另外注意之前我们使用init_by_lua中初
java.lang.reflect.Proxy liyonghui160com
1.简介 Proxy 提供用于创建动态代理类和实例的静态方法（1）动态代理类的属性代理类是公共的、最终的，而不是抽象的未指定代理类的非限定名称。但是，以字符串 "$Proxy" 开头的类名空间应该为代理类保留代理类扩展 java.lang.reflect.Proxy 代理类会按同一顺序准确地实现其创建时指定的接口
Java中getResourceAsStream的用法 pda158 java
1.Java中的getResourceAsStream有以下几种： 1. Class.getResourceAsStream(String path) ： path 不以’/'开头时默认是从此类所在的包下取资源，以’/'开头则是从ClassPath根下获取。其只是通过path构造一个绝对路径，最终还是由ClassLoader获取资源。　　2. Class.getClassLoader.get
spring 包官方下载地址（非maven） sinnk spring
SPRING官方网站改版后，建议都是通过 Maven和Gradle下载，对不使用Maven和Gradle开发项目的，下载就非常麻烦，下给出Spring Framework jar官方直接下载路径: http://repo.springsource.org/libs-release-local/org/springframework/spring/ s
Oracle学习笔记(7) 开发PLSQL子程序和包 vipbooks oracle sql 编程
哈哈，清明节放假回去了一下，真是太好了，回家的感觉真好啊！现在又开始出差之旅了，又好久没有来了，今天继续Oracle的学习！这是第七章的学习笔记，学习完第六章的动态SQL之后，开始要学习子程序和包的使用了……，希望大家能多给俺一些支持啊！编程时使用的工具是PLSQL