Rinnki

[Kaggle竞赛]利用RandomForest进行Titanic乘客生存预测

参加了Kaggle的Getting Started Competition体验一下参赛流程。在此记录一下赛题思路和Python实现代码。

题目信息

赛题原址：Titanic: Machine Learning from Disaster
Kaggle-Getting Started Prediction Competition
Titanic: Machine Learning from Disaster
It is your job to predict if a passenger survived the sinking of the Titanic or not.
For each in the test set, you must predict a 0 or 1 value for the variable.

1 数据概况

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

csv_data = pd.read_csv("C:\\Users\\rinnki\\Desktop\\train.csv")
df_train=pd.DataFrame(csv_data)#转换成dataframe格式
print(df_train.head)

#瞧瞧训练集里存活和死亡比例再看看缺失值情况
df_train_pclass = df_train.groupby('Pclass')
countF1Sum = df_train_pclass['Survived'].count()
countF1T = pd.DataFrame(countF1Sum)
print(df_train.isnull().sum())

缺失值情况如下：

[891 rows x 12 columns]>
PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

可知Age内有部分缺失，可稍后考虑填充方式。Cabin缺失值较多，可以考虑舍弃该特征或者从其中提取信息使用。Embarked缺失值很少，可以考虑使用众数填充。
接下来再来看看数据中各特征对应的存活情况，写个出图的函数：

def quickBarh(string_name):
    df_train1 = df_train.groupby(string_name)
    countF1E = df_train1['Survived'].apply(pd.value_counts)
    countF1S = countF1E.unstack() #unstack方法救命
    #print(countF1S)
    countF1S.plot.barh(stacked=True, alpha=0.5) #为了方便直接用pandas的barh方法了

查看一下无需复杂缺失值处理和特征提取的数据分布，如‘Pclass’、‘Sex’、‘SibSp’、‘Parch’和‘Embarked’。

quickBarh('Pclass')
quickBarh('Sex')
quickBarh('SibSp')
quickBarh('Parch')
quickBarh('Embarked')

舱位应该和泰坦尼克号乘客存活有很大关系，可以看到训练集中各舱乘客数3>1>2，但存活比例1>2>3，与电影情节一致，舱位高的客人可能有优先权逃离并且较早获得沉船的消息。

性别应该也和乘客存活有很大关系，虽然训练集中男性乘客较多，但女性存活比例大，有可能是男性遵循传统让女士先上救生艇或是带孩子的女士优先逃离。

看起来是兄弟姐妹越少存活比例越大。

看起来是亲族越少存活比例越高。

登舱人数S>C>Q,存活人数S>C>Q,存活比例C>S>Q。

接下来处理一些需要提取特征或者填充缺失值的特征来观看它们的数据分布。

Name：
姓名乍一看上去对结果没什么影响，但其实里边蕴含着乘客的身份信息,提取这些信息也是feature engineering的一步，就像Kaggle官方给的hint一样：‘We can at least extract the title from the name,reduce them all to Mrs,Miss, Mr and Master.’

def substrings_in_string(big_string, substrings):
    for substring in substrings:
        if big_string.find(substring) != -1:
            return substring
    print(big_string)
    return np.nan   #没有头衔的乘客就返回nan
title_list=['Mrs', 'Mr', 'Master', 'Miss', 'Major', 'Rev',
                    'Dr', 'Ms', 'Mlle','Col', 'Capt', 'Mme', 'Countess',
                    'Don', 'Jonkheer'] #这些个就是我们要提取的身份信息了
#新建一列显示乘客头衔身份的特征
df_train['Title']=df_train['Name'].map(lambda x: substrings_in_string(x, title_list))
 
#replacing all titles with mr, mrs, miss, master--统一拼写/等级同化
def replace_titles(x):
    title=x['Title']
    if title in ['Don', 'Major', 'Capt', 'Jonkheer', 'Rev', 'Col']:
        return 'Mr'
    elif title in ['Countess', 'Mme']:
        return 'Mrs'
    elif title in ['Mlle', 'Ms']:
        return 'Miss'
    elif title =='Dr':
        if x['Sex']=='Male':
            return 'Mr'
        else:
            return 'Mrs'
    else:
        return title
df_train['Title'] = df_train.apply(replace_titles, axis=1) #更新头衔列

quickBarh('Title')

头衔为Mr.的乘客人数最多，但可以看出Mrs和Miss的存活比例明显高于其他头衔。

年龄：
Age这个特征有较多缺失值，考虑填补年龄的方法会比较好。接下来以如下填补原则进行缺失值填充：统计title为Mrs, Miss, Mr, Master, nan，而Age不为空的乘客的平均年龄，以对应title将年龄补上。
进行完缺失值填充之后，将其分段作图初步查看年龄分布及存活情况。

def replaceNanAge(x):
    title = x['Title']
    Age = x['Age']
    df_train1 = df_train.dropna(subset=['Age'])
    #print(df_train1.isnull().sum())
    df_train_titleM = df_train1.groupby('Title')['Age'].mean()
    #print(df_train_titleM)
    df_AgeUse = pd.DataFrame(df_train_titleM)
    #print(df_AgeUse)
    if Age == np.nan:
        if title == 'Mr':
            return df_AgeUse['Age'][2]
        elif title == 'Mrs':
            return df_AgeUse['Age'][3]
        elif title == 'Miss':
            return df_AgeUse['Age'][1]
        elif title =='Master':
            return df_AgeUse['Age'][0]
        else:
            return df_AgeUse['Age']['nan'] #但大家都有头衔
    else:
        return Age
        
df_train['Age'] = df_train.apply(replaceNanAge,axis=1)
    
age_groups = pd.cut(df_train['Age'], bins=5)
df_trainA = df_train.groupby(age_groups)
countF1A = df_trainA['Survived'].apply(pd.value_counts)
countF1AA = countF1A.unstack() 
countF1AA.plot.barh(stacked=True, alpha=0.5)

随意分了下组，可以看出青壮年的存活率高，年迈的老者存活率极低，有可能是老人身体不灵活无法登上救生艇，或者老人的身体无法承受冰冷的海水等不到救援船的到来。而儿童或少年的存活率并没有非常高，可以预想：尽管儿童优先登上救生艇，但儿童身体较弱且仅由保姆陪伴登船的幼儿依旧可能被遗弃。

费用：
在此先将费用分段粗略查看分布

fare_groups = pd.cut(df_train['Fare'], bins=[0,20,50,100,np.inf])
df_trainB = df_train.groupby(fare_groups)
countF1B = df_trainB['Survived'].apply(pd.value_counts)
countF1BB = countF1B.unstack() 
countF1BB.plot.barh(stacked=True, alpha=0.5)

但考虑到存在团体票和家庭票的情况，仅利用已知的费用数据分组并不能获得很好的分布，稍后再特征工程的处理中可以考虑进行团体票和家庭票的判断，并将船费分摊到个人身上，得到新特征“每个人的船费”。

舱号：
缺失值有687个，不可能修补了，且舱号乱需信息提取。拥有Cabin号的里边有很少的2、3等，基本都是1等舱。本文在此放弃此特征。
提取信息代码如下：

#Turning cabin number into Deck
cabin_list = ['A', 'B', 'C', 'D', 'E', 'F', 'T', 'G', 'Unknown']
df_train['Deck']=df_train['Cabin'].map(lambda x: substrings_in_string(x, cabin_list))
subCabin = df_train.dropna(subset=['Cabin'])

2 特征工程+变量处理

先将官方给的两个文件分别导入，一个是训练集，一个是待预测的预测集。

#读入文件
csv_data1 = pd.read_csv("C:\\Users\\rinnki\\Desktop\\train.csv")
csv_data2 = pd.read_csv("C:\\Users\\rinnki\\Desktop\\test.csv")
df_train=pd.DataFrame(csv_data1)#转换成dataframe格式
df_test=pd.DataFrame(csv_data2)
df_combined = df_train.append(df_test)
PassengerId = df_test['PassengerId']
print(df_train.isnull().sum())
print(df_test.isnull().sum())
#在数据格式转换的时候将训练集和预测集放在一起处理，但是特征选取和训练的时候就分开训练集来。

接下来开始数据的转换与处理，Scikit-learn要求数据均为numeric型，所以需要将非数字型的原始数据转换为数字型numeric。而变量有如下两种：
（1）Qualitative Variable——定性变量，观测的个体只能归属于几种互不相容类别中的一种时，这样的观测数据称为定性变量。
处理方式有dummies()和factorize()。虚拟变量 ( Dummy Variables) 又称虚设变量，用以反映质的属性的一个人工变量，是量化了的质变量，通常取值为0或1，dummies()方法会将定性变量转换为多个虚拟变量，每个类别都用0、1表示。有多个变量出现时，可以使用factorize( )创建一些数字来表示类别变量，这种映射最后只生成一个特征，不像dummies那样生成多个特征。
（2）Quantitative Variable——定量变量：也就是通常所说的连续量，是由测量或计数、统计所得到的量，这些变量具有数值特征，称为定量变量。
处理方式有scaling和binning。scaling即归一化，把数据变成(０，１)或者（1,1）之间的小数，把数据映射到0～1范围之内处理，更加便捷快速，这是因为归一化/标准化后可以加快梯度下降的求解速度，即提升模型的收敛速度。binning即分箱，就是将连续变量离散化。将数据分成几块（几类）进行处理，在将数据bining化后，将数据factorize或者做dummies处理。

在处理数据时，测试集需要与训练集进行相同处理。这里重开了一个文件所以特征处理的部分函数需要再重新定义一下，可能与前文有重复部分，代码如下：

#Part2 特征工程 Feature Engineering
#接下来开始数据预处理和数据形式转换
"""
feature1：pClass(2)
原数据形式为int这里给它label化再dummy就好，毕竟代表类别不能直接用实数。
"""

# 建立PClass Fare Category,分出舱内高低票价
def pclass_fare_category(df, pclass1_mean_fare, pclass2_mean_fare, pclass3_mean_fare):
    if df['Pclass'] == 1:
        if df['Fare'] <= pclass1_mean_fare:
            return 'Pclass1_Low'
        else:
            return 'Pclass1_High'
    elif df['Pclass'] == 2:
        if df['Fare'] <= pclass2_mean_fare:
            return 'Pclass2_Low'
        else:
            return 'Pclass2_High'
    elif df['Pclass'] == 3:
        if df['Fare'] <= pclass3_mean_fare:
            return 'Pclass3_Low'
        else:
            return 'Pclass3_High'

Pclass_mean_fare = df_combined['Fare'].groupby(by=df_combined['Pclass']).mean()#这里的Pclass是int64型的不能unstack（）
Pclass1_MF = Pclass_mean_fare.get([1]).values[0]
Pclass2_MF = Pclass_mean_fare.get([2]).values[0]
Pclass3_MF = Pclass_mean_fare.get([3]).values[0]
df_combined['Pclass_Fare_Category'] = df_combined.apply(pclass_fare_category, args=(Pclass1_MF, Pclass2_MF, Pclass3_MF), axis=1)
pclassQ = pd.get_dummies(df_combined['Pclass_Fare_Category'])
df_combined['Pclass1_Low'],df_combined['Pclass1_High'] = pclassQ['Pclass1_Low'],pclassQ['Pclass1_High']
df_combined['Pclass2_Low'],df_combined['Pclass2_High'] = pclassQ['Pclass2_Low'],pclassQ['Pclass2_High']
df_combined['Pclass3_Low'],df_combined['Pclass3_High'] = pclassQ['Pclass3_Low'],pclassQ['Pclass3_High']

df_combined['Pclass'] = pd.factorize(df_combined['Pclass'])[0]


"""
feature2：Sex
"""
sexQ= pd.get_dummies(df_combined['Sex'])
df_combined['Female'],df_combined['Male'] = sexQ['female'],sexQ['male']
df_combined['Sex'] = pd.factorize(df_combined['Sex'])[0]


"""
feature3：Name/Title(1)
dummy处理
"""
def substrings_in_string(big_string, substrings):
    for substring in substrings:
        if big_string.find(substring) != -1:
            return substring
    print(big_string)
    return np.nan   #没有头衔的乘客就返回nan
title_list=['Mrs', 'Mr', 'Master', 'Miss', 'Major', 'Rev',
                    'Dr', 'Ms', 'Mlle','Col', 'Capt', 'Mme', 'Countess',
                    'Don', 'Jonkheer'] #这些个就是我们要提取的身份信息了
#新建一列显示乘客头衔身份的特征
df_combined['Title']=df_combined['Name'].map(lambda x: substrings_in_string(x, title_list))
 
#replacing all titles with mr, mrs, miss, master--统一拼写/等级同化
def replace_titles(x):
    title=x['Title']
    if title in ['Don', 'Major', 'Capt', 'Jonkheer', 'Rev', 'Col']:
        return 'Mr'
    elif title in ['Countess', 'Mme']:
        return 'Mrs'
    elif title in ['Mlle', 'Ms']:
        return 'Miss'
    elif title =='Dr':
        if x['Sex']=='Male':
            return 'Mr'
        else:
            return 'Mrs'
    else:
        return title
df_combined['Title'] = df_combined.apply(replace_titles, axis=1) #更新头衔列

TitleQ  = pd.get_dummies(df_combined['Title'])
df_combined['Mrs'], df_combined['Mr'], df_combined['Miss'], df_combined['Master'] = TitleQ['Mrs'],TitleQ['Mr'],TitleQ['Miss'],TitleQ['Master']



"""
feature4：Age
填补原则：统计title为Mrs, Miss, Mr, Master, nan，而Age不为空的乘客的平均年龄，以对应title将年龄补上。
做归一化处理
"""
def replaceNanAge(x):
    title = x['Title']
    Age = x['Age']
    df_train1 = df_combined.dropna(subset=['Age'])
    #print(df_train1.isnull().sum())
    df_train_titleM = df_train1.groupby('Title')['Age'].mean()
    #print(df_train_titleM)
    df_AgeUse = pd.DataFrame(df_train_titleM)
    #print(df_AgeUse)
    if pd.isnull(Age):       #不知道为什么Age.isnull()就不行但是pd就行
        if title == 'Mr':
            return df_AgeUse['Age'][2]
        elif title == 'Mrs':
            return df_AgeUse['Age'][3]
        elif title == 'Miss':
            return df_AgeUse['Age'][1]
        elif title =='Master':
            return df_AgeUse['Age'][0]
        else:
            return df_AgeUse['Age']['nan'] #但大家都有头衔
    else:
        return Age
        
df_combined['Age'] = df_combined.apply(replaceNanAge,axis=1)
    
from sklearn import preprocessing

assert np.size(df_combined['Age']) == 1309
# StandardScaler will subtract the mean from each value then scale to the unit variance
scaler = preprocessing.StandardScaler()
df_combined['AgeS'] = scaler.fit_transform(df_combined['Age'].values.reshape(-1, 1))



"""
feature5：FamilySize=SibSp+Parch
"""
#Creating new family_size column
df_combined['Family_Size']=df_combined['SibSp']+df_combined['Parch']
df_combined.drop(['SibSp','Parch'], axis=1,inplace=True)

"""
feature6：Ticket
看看有没有票号一样的，那就是团体票或者家庭票的顾客啦。
----1列
"""
ticket_count = pd.DataFrame(df_combined.groupby('Ticket').count())
#print(ticket_count.columns.values)
def groupCheck(x):
    ticket = x['Ticket']
    return ticket_count['Age'][ticket]
df_combined['Group_Size'] = df_combined.apply(groupCheck,axis=1)
print(df_combined.head())
print(df_combined.groupby('Group_Size').count())

"""
feature8：Fare
对Fare进行Binning分块离散化处理
"""
#缺失值处理
df_combined['Fare'] = df_combined[['Fare']].fillna(df_combined.groupby('Pclass').transform(np.mean))
def SplitFare(x):
    fare = x['Fare']
    Family_Size = x['Family_Size']
    Group_Size = x['Group_Size']
    if Family_Size == 0:
        if Group_Size != 0:
            return fare/(Group_Size)
        else:  
            return fare #独行者是这样的
    else:
        return fare/(Family_Size+1)

df_combined['Fare_Per_Person']=df_combined.apply(SplitFare,axis=1)


# Divide all fares into quartiles
df_combined['FareB'] = pd.qcut(df_combined['Fare_Per_Person'], 5) #出现频率，即所有点5等分，画出区间
df_combined['FareBid'] = pd.factorize(df_combined['FareB'])[0] #factorize的第二个元素是数据类型，取第一个元素为类别
fareBQ = pd.get_dummies(df_combined['FareBid']).rename(columns=lambda x: 'Fare_' + str(x))
#print(fareBQ.columns.values)
df_combined['Fare0'],df_combined['Fare1'] = fareBQ['Fare_0'],fareBQ['Fare_1']
df_combined['Fare2'],df_combined['Fare3'],df_combined['Fare4'] = fareBQ['Fare_2'],fareBQ['Fare_3'],fareBQ['Fare_4']    
df_combined.drop(['FareB','Fare','FareBid','Fare_Per_Person'], axis=1, inplace=True)
    
"""
feature10：Embarked
"""
df_combined['Embarked'].fillna(df_combined['Embarked'].mode().iloc[0], inplace=True)
embarkedQ  = pd.get_dummies(df_combined['Embarked'])
df_combined['S'], df_combined['C'],df_combined['Q'] = embarkedQ['S'],embarkedQ['C'],embarkedQ['Q']
df_combined.drop(['Embarked'], axis=1,inplace=True)
print(df_combined.head())

至此为止训练用和预测用的Dataframe转换建立完毕。

3 训练+预测

#整理并备份一下当前df
df_combined_backup = df_combined
df_test0 = df_combined[891:]
PassengerId = df_test0['PassengerId'].values
df_combined.drop(['PassengerId', 'Embarked', 'Sex', 'Name', 'Title', 'FareBid','FareB', 'Pclass_Fare_Category', 
                'Cabin', 'Age','Ticket','Fare_Per_Person'],axis=1,inplace=True)
    
#将数据集分为训练集和测试集
df_train1 = df_combined[:891]
df_test1 = df_combined[891:]
trainX = df_train1.drop(['Survived'],axis=1)
trainY = df_train['Survived']
testX = df_test1.drop(['Survived'],axis=1)
x_train = trainX.values # Creates an array of the train data
x_test = testX.values # Creats an array of the test data
y_train = trainY.values

from sklearn.ensemble import RandomForestClassifier
random_forest = RandomForestClassifier(oob_score=True, n_estimators=1000)
random_forest.fit(x_train, y_train)
predictions = random_forest.predict(x_test)
Submission = pd.DataFrame({'PassengerId': PassengerId, 'Survived': predictions})
Submission.to_csv('C:\\Users\\rinnki\\Desktop\\Submission.csv',index=False,sep=',')

这里先非常简单地拿随机森林训练+预测了一下，出了个结果文件，提交到Kaggle看看预测结果，当前得分76.076%。

这个结果很一般，可以看到榜上有许多预测准确率很高的选手，甚至有很多得分为100%的，但本题特征提取和模型建立都十分自由，预测结果的受随机因素的影响也很大。模型还有许多地方可以优化和修改，以后有时间的话会将相关内容补充至本文。

参考文章

[1]Kaggle_Titanic生存预测_Koala_Tree
[2]机器学习入门——逻辑回归之kaggle泰坦尼克号竞赛
[3]机器学习实战之Kaggle_Titanic预测

python笔记：高级特性-迭代 zyckhuntoria python foundation
目录一、判断是否为迭代对象二、对dict进行迭代的三种情况2.1对dict中的key进行迭代2.2对dict中的value进行迭代2.3对dict中的key,value进行迭代三、对字符串进行迭代四、对list进行迭代五、练习迭代iterable（顺便一提..iterature文学）一、判断是否为迭代对象使用collections模块的Ierable类型进行判断，方法如下fromcollectio
Python----数据结构----链表----双向链表一盏偏灯 Python学习数据结构链表算法 python
Python学习之路，点击有全套Python笔记双向链表一种更复杂的链表是“双向链表”或“双面链表”。每个节点有两个链接：一个指向前一个节点，当此节点为第一个节点时，指向空值；而另一个指向下一个节点，当此节点为最后一个节点时，指向空值。步骤：is_empty()链表是否为空length()链表长度travel()遍历链表add(item)链表头部添加append(item)链表尾部添加insert
attrs学习一个哲哲哲 java 服务器 javascript
转载自：Python面向对象编程OOP(四)写类神器：attrs-阿尔法的Python笔记-SegmentFault思否使用attrs解放双手大家好，这一期我想和大家分享一个OOP编程的高效神器：attrs库首先我们来介绍下attrs这个库，其官方的介绍如下：attrs是这样的一个Python工具包，它能将你从繁综复杂的实现上解脱出来，享受编写Python类的快乐。它的目标就是在不减慢你编程速度的
pythontkinter键盘_Python笔记之Tkinter(Key键盘事件) weixin_39787594 pythontkinter键盘
一、目标学习Tkinter制作窗体软件的基础，触发键盘事件。响应特殊按键事件左shift按键响应右shift按键响应F2按键相应，F3,F4.....回车按键相应退格删除键相应二、试验平台windows7,python3.7三、直接上代码importtkinterfromtkinterimportttkdefxFunc1(event):print(f"事件触发键盘输入:{event.char},对
python笔记：format output 鬼上身的秋天
#printstringprint('thisiswhat:%s'%('Nicetest'))#printintegerprint('thefruitis%dyuan'%(100))#printfloatprint('thefruitis%.3fyuan'%(100))#printplacehoderprint('thefruitnameis%10s,weightis%5dkg,priceis%5
蓝桥杯算法之排序算法炼丹代师算法专栏 python 蓝桥杯
提示：本系列博客是对bilibili算法课程《算法很美》的python笔记总结，其中吸收不少优秀博主的原创博客，由于本人总结未附上对应的博客地址，若发现本文博客内容与您发表的博客内容吻合，请您联系作者，给您添加引用地址。bilibili课程地址蓝桥杯算法之排序前言1.冒泡排序1）原理介绍2）代码实例2.选择排序1）原理介绍2）代码实例总结前言排序算法虽然已经内置在python函数，但其排序原理的学
Python笔记之 collections.deque双端队列一起种梧桐吧 Python笔记列表队列 python
deque简介deque是一个双端列表,如果要经常从两端操作数据,选择deque就比较好,如果要实现随机访问,还是建议使用列表list.collections.deque官方说明文档操作简介append()append(x)Addxtotherightsideofthedeque.importcollectionsmydeque=collections.deque(range(3),maxlen=
python入门教程jupyter_Jupyter Notebooks的安装和使用介绍 weixin_39953618
最近又开始重新学习Python，学习中使用到了一款编辑器JupyterNotebooks，非常想安利给初学python的同学。注：本文内容仅针对windows环境下安装和配置JupyterNotebooks。1.JupyterNotebooks简介国际惯例还是来一段官方的介绍：Notebooks其实就像是你的python笔记本一样，不仅可以运行书写的python代码，同时还支持markdown格式
python笔记（3）(re库和pandas库) Techer_Y 笔记
参考链接：Python正则表达式|菜鸟教程(runoob.com)1、re库，python正则表达式正则表达式是一个特殊的字符序列它能帮助你检查一个字符串是否与某种模式匹配。re模块使python语言拥有全部的正则表达式功能。re.match尝试从字符串起始位置匹配一个模式，如果不是起始位置匹配成功的话，match()就返回none。re.match(pattern,string,flags=0)
Python笔记 Lucky_1129 笔记 python 笔记
Python笔记1.Python数组和列表的区别1.创建方式不同列表可以直接创建，数组需要引用numpy包2.存储对象不同列表可以存储任何的对象，包括数字，字符串，数组，字典等等数组只能存储单一的数据类型3.运算方式不同数组可以进行四则运算，列表只能使用加号进行拼接，拼接之后形成一个新的列表4.运算效率不同array数组是为了精确便捷的处理庞大的类似的数据而产生的，他的存储效率要比列表快着很多2.
Python笔记1.2（open、logging、os、shutil、glob、decode、encode、pickle、tqdm） qq742234984 python 笔记数据库
Python笔记1.1（datetime、argparse、sys、overwrite、eval、json、os、zfill、endswith、traceback、深浅拷贝）Python笔记2（函数参数、面向对象、装饰器、高级函数、捕获异常、dir）Python笔记1.214、withopen()asfile和open()参数详解15、logging日志的等级logging.basicConfig
Python笔记#边学边记笔记#文件和异常月吟荧静笔记 python
一、从文件读取数据1.1读取整个文件pi.digits.txt3.141592653589793238462643383279file_reader.pywithopen("pi_digit.txt")asfile_0:contents=file_0.read()print(contents)3.141592653589793238462643383279withopen("pi_digit.tx
python笔记(一)获取当前目录路径和文件（抄录） z-pan python
一、获取当前路径1、使用sys.argv[0]importsysprintsys.argv[0]#输出#本地路径2、os模块importosprintos.getcwd()#获取当前工作目录路径printos.path.abspath('.')#获取当前工作目录路径printos.path.abspath('test.txt')#获取当前目录文件下的工作目录路径printos.path.abspa
Python笔记#边学边记笔记#字典姜姜465 python 笔记
一、使用字典1.1访问字典中的值字典使用花括号；键与值之间用冒号连接；各个键-值对之间用逗号分隔。alien_0={"color":"green","point":5}print(alien_0["color"])print(alien_0["point"])green51.2添加键-值对alien_0={"color":"green","point":5}print(alien_0)alien_
Python笔记6----数组 weixin_34293911 python 数据结构与算法 c/c++
1、Python中的数组形式：用list和tuple等数据结构表示数组一维数组：list=[1,2,3,4]二维数组：list=[[1,2,3],[4,5,6],[7,8,9]]用array模块：array模块需要加载，而且运用的较少通过array函数创建数组（数组中的元素可以不是同一种类型），array.array('B',range(5))>>array('B',[1,2,3,4,5])提供a
【代码随想录python笔记整理】第一课 · A+B 问题1 南星六月雪 Python 刷题笔记笔记 python
前言:本笔记仅仅只是对内容的整理和自行消化，并不是完整内容，如有侵权，联系立删。一、数据类型Python中有一些常见数据类型，包括数字类型，布尔类型，字符串类型。其中，数字类型又分为整数类型和浮点数类型。整数类型-1、0、1浮点数类型3.14布尔类型True=1；False=0字符串类型'Hello'、"Helllo"二、输入输出1、输入：输入采用input()函数，再将变量与其建立联系。在inp
【Python笔记】向量：@classmethod与 @staticmethod。零基础万物皆可.C Python笔记 python
类成员比较@classmethod与@staticmethod共同点：两个都是装饰器，装饰的成员函数可以通过类名.方法名(…)来调用区别：最显著的特点是classmethod需要传递一个参数cls，而staticmethod不需要。因此可以访问、修改类的属性，类的方法，实例化对象等，避免硬编码；而staticmethod不行，classmethod可以判断出自己是通过基类被调用，还是通过某个子类被
python学习笔记08_赋值运算、逻辑运算、表达式、短路原则 flamingocc
python笔记081.赋值运算符num+=1等价于num=num+1num-=1等价于num=num-1num*=1等价于num=num*1num/=1等价于num=num/1num//2等价于num=num//2num%=2等价于num/2的余数num**2等价于num=num*num2.逻辑运算符逻辑运算符包含：not、and、or2.1and的用法：(且、并且)写法：条件1and条件2eg
2.25python笔记高阶编程 13351
@[TOC](2.25学堂在线python学习笔记高阶编程)#高阶编程1.利用二分法查找一个字符是否在某个字符串当中基线条件：当s=''时，返回False当len(s)=1且s==char时返回True当len(s)>1且s[mid]>char时，返回isIn(char,s[:mid])否则当s[mid]1:ifs[mid]>char:print(s)returnisIn(char,s[:mid]
Python笔记五之正则表达式后端python正则表达式
本文首发于公众号：Hunter后端原文链接：Python笔记五之正则表达式这一篇笔记介绍在Python里使用正则表达式。正则表达式，RegularExpression，可用于在一个目标字符串里对于指定模式的字符进行查找、替换、分割等操作。比如，判断某个字符串里是否都是数字，或者是否包含指定字符串，又或者更直接的例子是判断电话号码或者邮箱是否合法等。这一篇笔记里，我们将先介绍一个正则表达式的函数，并
python笔记——jieba库 Toby不写代码 python学习 python
文章目录一.概述二.jieba库使用三.实例一.概述1.jieba库概述jieba库是一个重要的第三方中文分词函数库，不是安装包自带的，需要通过pip指令安装pip3installjieba二.jieba库使用1.库函数jieba.cut(s)——精确模式，返回一个可迭代数据类型jieba.cut(s,cut_all=True)——全模式，输出文本s中可能的单词jieba.cut_for_sear
[韩顺平]python笔记超级用户 root Python python 笔记开发语言
AI工程师、运维工程师python排名逐年上升，为什么？python对大数据分析、人工智能中关键的机器学习、深度学习都提供有力的支持Python支持最庞大的代码库，功能超强数据分析：numpy/pandas/os机器学习：tensorflow/scikit-learn/theano爬虫：urllib/reques/bs4/scrapy网页开发：Django/falsk/web运维：saltstac
一文教会你，Python数据如何存储学Python的小瑜
转载自志斌的Python笔记3月28日今天呢，小瑜专门写一篇关于数据存储的文章，让大家清楚的了解数据存储的方式，以及在什么情况下，使用什么存储方式。本文将分三个方面来介绍数据存储:1.文件存储、2.关系型数据库存储、3.非关系型数据库存储。废话少说，让我们直接来看正文吧！一、文件存储1.1TXT文本将数据存储到TXT文本的操作十分简单，在之前文章已经简单介绍过，而且TXT文本基本兼容任何平台，但是
Python笔记——绘制雷达图没昔
代码#雷达图frompyechartsimportoptionsasoptsfrompyecharts.chartsimportPage,Radar#两组数据的对比v1=[[4300,10000,28000,35000,50000,19000]]v2=[[5000,14000,28000,31000,42000,21000]]#返回Radar图表对象数据处理完整之后通过雷达对象进行转换defrad
Delphi 程序直接调用 Python 的函数 pcplayer python 开发语言
在本系列的第一篇博客文章：Delphi程序员初学Python笔记-CSDN博客在这篇文章里面，我提到，一个Python的函数，我用Delphi无法直接调用它，所以我对它做了一个Python的包装。原因是，那是我第一次学习使用Python4Delphi这个控件。那时候要执行Python代码，我只会使用PythonEngine1.ExecStrings(Python代码)这样的方式。这样做，就是在De
python小结张叁疯_
本周整理了python学习笔记复习旧的，顺便整理新的，笔记分享在了有道云链接如下阿龙的python笔记都是基础知识，希望在今后能成体系，根据案例学python
大学python笔记整理_python 笔记整理余虹的眼大学python笔记整理
Pythonisdigit()方法检测字符串是否只由数字组成。Pythonint()函数用于将一个字符串或数字转换为整型。判断字符、列表、元组等的长度或项目个数：Pythonlen()。enumerate()函数用于将一个可遍历的数据对象(如列表、元组或字符串)组合为一个索引序列，同时列出数据和数据下标，一般用在for循环当中。(把下标取出来)python中单引号和双引号使用完全相同。文件操作：内
Python笔记（十） Lzehui python 笔记
文件编码概念编码就是一种规则集合，记录了内容和二进制间进行相互转换的逻辑编码有许多种，我们最常用的是UTF—8编码文件的读取对文件进行操作的基本步骤，大概可以分为三步1、打开文件2、读写文件3、关闭文件注意：可以只打开和关闭文件，不进行任何读写open（）打开函数在Python，使用open函数，可以打开一个已经存在的文件，或者创建一个新文件，语法如下open(name,mode,encoding
Python笔记（八） Lzehui python 开发语言
数据容器：dict（字典、映射）字典的定义字典的定义，同样使用{}，不过存储的元素是一个个的：键值对，如下语法： #定义字典字面量 {key：value,key:value,……,key:value} #定义字典字面量 mt_dict={key：value,key:value,……,key:value} #定义空字典 my_dict={} #空字典定义方式1 my_dict={} #空字典
Python笔记（三） Lzehui python 笔记数据库
while循环的基础应用语法：while条件：条件满足时，做的事情 i=0 whilei<100: print("循环100次") i+=11.while的条件需要得到布尔类型，True表示继续循环，False表示结束循环2.需要设置循环终止的条件，如i+=1配合i<100，就能保证100次后停止，否则将无限循环3.空格缩进，冒号和if判断一样，都需要设置while循环的嵌套使用基础语法：wh
Spring4.1新特性——综述 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Schema与数据类型优化 annan211 数据结构 mysql
目前商城的数据库设计真是一塌糊涂，表堆叠让人不忍直视，无脑的架构师，说了也不听。在数据库设计之初，就应该仔细揣摩可能会有哪些查询，有没有更复杂的查询，而不是仅仅突出很表面的业务需求，这样做会让你的数据库性能成倍提高，当然，丑陋的架构师是不会这样去考虑问题的。选择优化的数据类型 1 更小的通常更好更小的数据类型通常更快，因为他们占用更少的磁盘、内存和cpu缓存，
第一节 HTML概要学习 chenke html Web css
第一节 HTML概要学习 1. 什么是HTML HTML是英文Hyper Text Mark-up Language(超文本标记语言)的缩写，它规定了自己的语法规则，用来表示比“文本”更丰富的意义，比如图片，表格，链接等。浏览器（IE,FireFox等）软件知道HTML语言的语法，可以用来查看HTML文档。目前互联网上的绝大部分网页都是使用HTML编写的。打开记事本输入一下内
MyEclipse里部分习惯的更改 Array_06 eclipse
继续补充中---------------------- 1.更改自己合适快捷键windows-->prefences-->java-->editor-->Content Assist--> Activation triggers for java的右侧“.”就可以改变常用的快捷键选中 Text
近一个月的面试总结 cugfy 面试
本文是在学习中的总结，欢迎转载但请注明出处：http://blog.csdn.net/pistolove/article/details/46753275 前言打算换个工作，近一个月面试了不少的公司，下面将一些面试经验和思考分享给大家。另外校招也快要开始了，为在校的学生提供一些经验供参考，希望都能找到满意的工作。
HTML5一个小迷宫游戏 357029540 html5
通过《HTML5游戏开发》摘抄了一个小迷宫游戏，感觉还不错，可以画画，写字，把摘抄的代码放上来分享下，喜欢的同学可以拿来玩玩！ <html> <head> <title>创建运行迷宫</title> <script type="text/javascript"
10步教你上传githib数据张亚雄 git
官方的教学还有其他博客里教的都是给懂的人说得，对已我们这样对我大菜鸟只能这么来锻炼，下面先不玩什么深奥的，先暂时用着10步干净利索。等玩顺溜了再用其他的方法。操作过程（查看本目录下有哪些文件NO.1）ls （跳转到子目录NO.2）cd+空格+目录（继续NO.3）ls （匹配到子目录NO.4）cd+ 目录首写字母+tab键+（首写字母“直到你所用文件根就不再按TAB键了”）（查看文件
MongoDB常用操作命令大全 adminjun mongodb 操作命令
成功启动MongoDB后，再打开一个命令行窗口输入mongo，就可以进行数据库的一些操作。输入help可以看到基本操作命令，只是MongoDB没有创建数据库的命令，但有类似的命令如：如果你想创建一个“myTest”的数据库，先运行use myTest命令，之后就做一些操作（如：db.createCollection('user')）,这样就可以创建一个名叫“myTest”的数据库。一
bat调用jar包并传入多个参数 aijuans
下面的主程序是通过eclipse写的： 1.在Main函数接收bat文件传递的参数（String[] args）如： String ip =args[0]; String user=args[1]; &nbs
Java中对类的主动引用和被动引用 ayaoxinchao java 主动引用对类的引用被动引用类初始化
在Java代码中，有些类看上去初始化了，但其实没有。例如定义一定长度某一类型的数组，看上去数组中所有的元素已经被初始化，实际上一个都没有。对于类的初始化，虚拟机规范严格规定了只有对该类进行主动引用时，才会触发。而除此之外的所有引用方式称之为对类的被动引用，不会触发类的初始化。虚拟机规范严格地规定了有且仅有四种情况是对类的主动引用，即必须立即对类进行初始化。四种情况如下：1.遇到ne
导出数据库提示 outfile disabled BigBird2012 mysql
在windows控制台下，登陆mysql，备份数据库： mysql>mysqldump -u root -p test test > D:\test.sql 使用命令 mysqldump 格式如下： mysqldump -u root -p *** DBNAME > E:\\test.sql。注意：执行该命令的时候不要进入mysql的控制台再使用，这样会报
Javascript 中的 && 和 || bijian1013 JavaScript &&||
准备两个对象用于下面的讨论 var alice = { name: "alice", toString: function () { return this.name; } } var smith = { name: "smith",
[Zookeeper学习笔记之四]Zookeeper Client Library会话重建 bit1129 zookeeper
为了说明问题，先来看个简单的示例代码： package com.tom.zookeeper.book; import com.tom.Host; import org.apache.zookeeper.WatchedEvent; import org.apache.zookeeper.ZooKeeper; import org.apache.zookeeper.Wat
【Scala十一】Scala核心五：case模式匹配 bit1129 scala
package spark.examples.scala.grammars.caseclasses object CaseClass_Test00 { def simpleMatch(arg: Any) = arg match { case v: Int => "This is an Int" case v: (Int, String)
运维的一些面试题 yuxianhua linux
1、Linux挂载Winodws共享文件夹 mount -t cifs //1.1.1.254/ok /var/tmp/share/ -o username=administrator,password=yourpass 或 mount -t cifs -o username=xxx,password=xxxx //1.1.1.1/a /win
Java lang包-Boolean BrokenDreams boolean
Boolean类是Java中基本类型boolean的包装类。这个类比较简单，直接看源代码吧。 public final class Boolean implements java.io.Serializable,
读《研磨设计模式》-代码笔记-命令模式-Command bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.List; /** * GOF 在《设计模式》一书中阐述命令模式的意图：“将一个请求封装
matlab下GPU编程笔记 cherishLC matlab
不多说，直接上代码 gpuDevice % 查看系统中的gpu,,其中的DeviceSupported会给出matlab支持的GPU个数。 g=gpuDevice(1); %会清空 GPU 1中的所有数据,,将GPU1 设为当前GPU reset(g) %也可以清空GPU中数据。 a=1; a=gpuArray(a); %将a从CPU移到GPU中 onGP
SVN安装过程 crabdave SVN
SVN安装过程 subversion-1.6.12 ./configure --prefix=/usr/local/subversion --with-apxs=/usr/local/apache2/bin/apxs --with-apr=/usr/local/apr --with-apr-util=/usr/local/apr --with-openssl=/
sql　行列转换 daizj sql 行列转换行转列列转行
行转列的思想是通过case when 来实现列转行的思想是通过union all 来实现下面具体例子：假设有张学生成绩表(tb)如下: Name Subject Result 张三语文　　74 张三数学　　83 张三物理　　93 李四语文　　74 李四数学　　84 李四物理　　94 */ /* 想变成姓名 &
MySQL--主从配置 dcj3sjt126com mysql
linux下的mysql主从配置：说明：由于MySQL不同版本之间的(二进制日志)binlog格式可能会不一样，因此最好的搭配组合是Master的MySQL版本和Slave的版本相同或者更低， Master的版本肯定不能高于Slave版本。（版本向下兼容） mysql1 : 192.168.100.1 //master mysq
关于yii 数据库添加新字段之后model类的修改 dcj3sjt126com Model
rules: array('新字段','safe','on'=>'search') 1、array('新字段', 'safe')//这个如果是要用户输入的话，要加一下， 2、array('新字段', 'numerical'),//如果是数字的话 3、array('新字段', 'length', 'max'=>100),//如果是文本 1、2、3适当的最少要加一条，新字段才会被
sublime text3 中文乱码解决 dyy_gusi Sublime Text
sublime text3中文乱码解决原因：缺少转换为UTF-8的插件目的：安装ConvertToUTF8插件包第一步：安装能自动安装插件的插件，百度“Codecs33”，然后按照步骤可以得到以下一段代码： import urllib.request,os,hashlib; h = 'eb2297e1a458f27d836c04bb0cbaf282' + 'd0e7a30980927
概念了解：CGI，FastCGI，PHP-CGI与PHP-FPM geeksun PHP
CGI CGI全称是“公共网关接口”(Common Gateway Interface)，HTTP服务器与你的或其它机器上的程序进行“交谈”的一种工具，其程序须运行在网络服务器上。 CGI可以用任何一种语言编写，只要这种语言具有标准输入、输出和环境变量。如php,perl,tcl等。 FastCGI FastCGI像是一个常驻(long-live)型的CGI，它可以一直执行着，只要激活后，不
Git push 报错 "error: failed to push some refs to " 解决 hongtoushizi git
Git push 报错 "error: failed to push some refs to " . 此问题出现的原因是：由于远程仓库中代码版本与本地不一致冲突导致的。由于我在第一次git pull --rebase 代码后，准备push的时候，有别人往线上又提交了代码。所以出现此问题。解决方案： 1： git pull 2：
第四章 Lua模块开发 jinnianshilongnian nginx lua
在实际开发中，不可能把所有代码写到一个大而全的lua文件中，需要进行分模块开发；而且模块化是高性能Lua应用的关键。使用require第一次导入模块后，所有Nginx 进程全局共享模块的数据和代码，每个Worker进程需要时会得到此模块的一个副本（Copy-On-Write），即模块可以认为是每Worker进程共享而不是每Nginx Server共享；另外注意之前我们使用init_by_lua中初
java.lang.reflect.Proxy liyonghui160com
1.简介 Proxy 提供用于创建动态代理类和实例的静态方法（1）动态代理类的属性代理类是公共的、最终的，而不是抽象的未指定代理类的非限定名称。但是，以字符串 "$Proxy" 开头的类名空间应该为代理类保留代理类扩展 java.lang.reflect.Proxy 代理类会按同一顺序准确地实现其创建时指定的接口
Java中getResourceAsStream的用法 pda158 java
1.Java中的getResourceAsStream有以下几种： 1. Class.getResourceAsStream(String path) ： path 不以’/'开头时默认是从此类所在的包下取资源，以’/'开头则是从ClassPath根下获取。其只是通过path构造一个绝对路径，最终还是由ClassLoader获取资源。　　2. Class.getClassLoader.get
spring 包官方下载地址（非maven） sinnk spring
SPRING官方网站改版后，建议都是通过 Maven和Gradle下载，对不使用Maven和Gradle开发项目的，下载就非常麻烦，下给出Spring Framework jar官方直接下载路径: http://repo.springsource.org/libs-release-local/org/springframework/spring/ s
Oracle学习笔记(7) 开发PLSQL子程序和包 vipbooks oracle sql 编程
哈哈，清明节放假回去了一下，真是太好了，回家的感觉真好啊！现在又开始出差之旅了，又好久没有来了，今天继续Oracle的学习！这是第七章的学习笔记，学习完第六章的动态SQL之后，开始要学习子程序和包的使用了……，希望大家能多给俺一些支持啊！编程时使用的工具是PLSQL