东流-beyond the label

kaggle新手题--Titanic

文章目录

- - Titanic - Machine Learning from Disaster
  - - Description:
    - Evaluation:
    - Data
    - - ariable Notes
  - 运行环境
  - EDA
  - - 数据概览
    - 数据分布
    - 缺失值处理
    - 类别型特征转换
    - 相关性分析
  - 数据处理方案
  - 数据标准化
  - 模型构建
  - 测试集预测
  - 改进
  - 完整代码

Titanic - Machine Learning from Disaster

Description:

In this challenge, we ask you to build a predictive model that answers the question: “what sorts of people were more likely to survive?” using passenger data (ie name, age, gender, socio-economic class, etc).

Evaluation:

Start here! Predict survival on the Titanic and get familiar with ML basics
Goal
It is your job to predict if a passenger survived the sinking of the Titanic or not.
For each in the test set, you must predict a 0 or 1 value for the variable.
Metric
Your score is the percentage of passengers you correctly predict. This is known as accuracy.

Data

PassengerId => 乘客ID
Pclass => 客舱等级(1/2/3等舱位)
Name => 乘客姓名
Sex => 性别
Age => 年龄
SibSp => 兄弟姐妹数/配偶数
Parch => 父母数/子女数
Ticket => 船票编号
Fare => 船票价格
Cabin => 客舱号
Embarked => 登船港口

ariable Notes

pclass: A proxy for socio-economic status (SES)
1st = Upper
2nd = Middle
3rd = Lower

age: Age is fractional if less than 1. If the age is estimated, is it in the form of xx.5

sibsp: The dataset defines family relations in this way…
Sibling = brother, sister, stepbrother, stepsister
Spouse = husband, wife (mistresses and fiancés were ignored)

parch: The dataset defines family relations in this way…
Parent = mother, father
Child = daughter, son, stepdaughter, stepson
Some children travelled only with a nanny, therefore parch=0 for them.

运行环境

运行环境：python3.5.6 + jupyter notebook；
可视化工具 matplotlib，seaborn，tableau；
数据分析,模型构建 pandas sklearn

EDA

运行环境：jupyter

数据概览

import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

#读取数据
train_data = pd.read_cdv("trian.csv")

#查看数据基本信息
#数据规模 数据缺失情况 特征类型
train_data.info()

#PassengerId 没有贡献，drop
train_data.drop(columns='PassengerId',inplace=True)

Analysis:
Name, Sex, Ticket, Cabin, Embarked为object型（其中sex，Embarked为标签类离散数据，所以后续需要做类别数据的转换），其他的特征都是数值型.
Age，Embarked存在少量缺失值（考虑多种填充方法对比效果），Cabin缺失严重可以考虑直接删除（其实乘客所在船舱和存活的关系还是挺大的，例如位置靠近碰撞区域，肯定生存几率比较小，但是缺失实在太严重了）
（Name，以及Ticket涉及文本，暂时不作处理）

# describe()方法可以通过最小最大值以及分位值帮助初步观察数值型特征的数值分布情况，如偏离，异常值，逻辑缺失值等。
# 可以看出Fare 最大值偏离严重，且存在0值，按常理Fare不应该为0，进一步查看数据。
train_data.describe()

# 观察发现这些乘客有船票，所以认为这些0值其实是缺失值，替换为np.nan
train_data[train_data['Fare']==0].head()

train_data['Fare'].replace(0,np.nan,inplace=True)

# 进一步查看特征的数值分布，看看是否存在偏离值，异常值
# 筛选掉类别特征和非数值特征
# 可以看出特征fare存在大量离群值 后续可以针对离群值做处理 但是需要考虑不同价位存在可能
for col in train_data.columns:
    if train_data[col].dtypes!='object' and train_data[col].unique().shape[0]>10:
        plt.figure()
        sns.boxplot(y=train_data[col])

# 本题是分类预测问题，所以先关注训练集中给出的类别比例分布
# 大约2/3为类别0, 1/3为类别1, 没有出现严重的类别失衡, 可以不考虑采样
# 同时类别0占比66%，所以之后的预测结果应该要高于66%才有效果
plt.figure()
sns.countplot(train_data['Survived'])
plt.show()

数据分布

# 各数值特征和label(Survived)之间的关系
for col in train_data.columns:
    plt.figure()
    # 连续型数值 Age Fare
    if train_data[col].dtypes!='object' and train_data[col].unique().shape[0]>10:
        sns.distplot(train_data[col].dropna()[train_data['Survived']==0],hist=True,label='0')
        sns.distplot(train_data[col].dropna()[train_data['Survived']==1],hist=True,label='1')
    # 类别值 <10过滤掉Name Ticket Cabin
    elif train_data[col].unique().shape[0]<10:
        sns.countplot(train_data[col],hue=train_data['Survived'])
    plt.show()

Pclass=1,Pclass=2存活率明显高于Pclass=3

female存活率明显高于male

乘客年龄分布

SibSp=0的乘客最多，但是存活率最高的是SibSp=1,SibSp=2的乘客

Parch和SibSp呈现出相同的特性

Fare特征中部分高价的船票的存在使得数据分布右偏

Embarked=C，Embarked=Q存活率明显大于Embarked=S

通过之前可视化可以发现male和female的幸存率完全不同，为了进一步探索sex，age，fare和存活率之间的关系，绘制下图(tableau绘制)：
其中年龄按10分段，Fare按50分段统计存活率，并且加上了Sex维度比较男女差异

可以发现幼儿以及妇人的存活率明显较高，船票费用在0-50区间的存活率只有0.3。数据特征不多，可以考虑增加Age和Fare的分桶特征。

缺失值处理

# 1.Cabin列缺失值过多，暂时清除,Name,Ticket包含文本数据，暂时认为和姓名,ticket无关，后续可进一步处理
train_data.drop(columns=['Cabin', 'Name', 'Ticket'],inplace=True)

# 查看存在缺失的位置 train_data[train_data[col].isnull()]
# Age Nan 暂时用 median 填充，Embarked 用第四种类别 A 替代 Nan
# 缺失值处理的方式多种多样，后续可进一步处理
values = {
     'Age': train_data['Age'].median(), 'Embarked': 'A'}
train_data.fillna(value=values,inplace=True)

类别型特征转换

LableEncoder 和 OneHotEncoder：

# 数据处理
# 暂时将离散型值转换为数值Categorical
# 可以尝试不同的转换方法作对比
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
train_data['Embarked']  = le.fit_transform(train_data['Embarked'])
train_data['Sex']  = le.fit_transform(train_data['Sex'])

数据处理方案

类别型特征（Sex，Embarked）转换：LableEncoder or OneHotEncoder

# LableEncoder
from sklearn.preprocessing import LabelEncoder
def labelEncoding():
	le = LabelEncoder()
	train_data['Embarked']  = le.fit_transform(train_data['Embarked'])
	train_data['Sex']  = le.fit_transform(train_data['Sex'])

# OneHotEncoder 需要考虑到训练集和测试集单独encoding后的特征数可能不一样
def oneHotEncoding():
    dum = pd.get_dummies(train_data[['Sex','Embarked']],)
    data = pd.concat([train_data.drop(columns=['Sex','Embarked']), dum],axis=1)
    return data

缺失值（Age 714 non-null，Embarked 889 non-null）填充：
缺失值填充方案：Embarked 889 non-null 只缺失两个，查看一下缺失的行，可以发现缺失的两行是幸存者，结合前面Embarked特征的幸存者分布，C类是幸存率最高的，所以我们手动填充Embarked缺失值为C；

values = {
     'Embarked': 'C'}
train_data.fillna(value=values,inplace=True)

Age 714 non-null :Age的缺失值相对较多，手工填充太麻烦，考虑简单有效的中值填充，以及sklearn的KNNImputer方法。

sklearn.impute.KNNImputer¶
class sklearn.impute.KNNImputer(*, missing_values=nan, n_neighbors=5, weights=‘uniform’, metric=‘nan_euclidean’, copy=True, add_indicator=False)[source]
Imputation for completing missing values using k-Nearest Neighbors.
Each sample’s missing values are imputed using the mean value from n_neighbors nearest neighbors found in the training set. Two samples are close if the features that neither is missing are close.

values = {
     'Age': train_data['Age'].median()}
train_data.fillna(value=values,inplace=True)

from sklearn.impute import KNNImputer
imputer = KNNImputer()
train_data[['Pclass','Age','SibSp','Fare']] = imputer.fit_transform(train_data[['Pclass','Age','SibSp','Fare']])

特征工程

# 增加特征
# AgeBin FareBin 家庭成员
train_data['AgeBin'] = pd.cut(train_data['Age'].astype(int), 5)
train_data['FareBin'] = pd.cut(train_data['Fare'].astype(int), 25)
train_data['Fnums'] = train_data['SibSp'] + train_data['Parch'] + 1

数据标准化

X=train_data.drop(columns=['Survived'])
y=train_data['Survived']
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler().fit(X)
X = scaler.transform(X)

模型构建

本题为分类预测问题，选用以下模型（不涉及调参）：

sklearn.linear_model.LogisticRegression
sklearn.linear_model.RidgeClassifier
sklearn.linear_model.SGDClassifier
sklearn.naive_bayes.GaussianNB
sklearn.neighbors.KNeighborsClassifier
sklearn.svm.LinearSVC
sklearn.svm.SVC
sklearn.tree.DecisionTreeClassifier
sklearn.ensemble.AdaBoostClassifier
sklearn.ensemble.BaggingClassifier
sklearn.ensemble.GradientBoostingClassifier
sklearn.ensemble.RandomForestClassifier
sklearn.ensemble.StackingClassifier
sklearn.ensemble.VotingClassifier
XGBClassifier
因为训练集的数据较小，所以采用交叉验证的方式构建模型。
这里用到sklearn的cross_validate方法

cross_validate官方文档

import warnings
#忽略警告
warnings.filterwarnings("ignore")

from sklearn.naive_bayes import GaussianNB
from sklearn.neighbors import KNeighborsClassifier
from svm import LinearSVC
from svm import SVC
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import AdaBoostClassifier,BaggingClassifier,GradientBoostingClassifier,RandomForestClassifier,StackingClassifier,VotingClassifier

from sklearn.model_selection import cross_validate

from sklearn.linear_model import LogisticRegression,RidgeClassifier,SGDClassifier
LR = LogisticRegression()
cv_results = cross_validate(LR, X, y, cv=10)
print(cv_results['test_score'].mean())

RC = RidgeClassifier()
cv_results = cross_validate(RC, X, y, cv=10)
print(cv_results['test_score'].mean())

SGD = SGDClassifier()
cv_results = cross_validate(SGD, X, y, cv=10)
print(cv_results['test_score'].mean())

0.7957428214731586
0.7934956304619225
0.7698751560549313

from sklearn.naive_bayes import GaussianNB
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier

GNB = GaussianNB()
cv_results = cross_validate(GNB, X, y, cv=10)
print(cv_results['test_score'].mean())

KNN = KNeighborsClassifier()
cv_results = cross_validate(KNN, X, y, cv=10)
print(cv_results['test_score'].mean())

DTC = DecisionTreeClassifier()
cv_results = cross_validate(DTC, X, y, cv=10)
print(cv_results['test_score'].mean())

0.7867915106117354
0.8002621722846441
0.7789637952559301

from sklearn.svm import LinearSVC
from sklearn.svm import SVC

LSVC = LinearSVC()
cv_results = cross_validate(LSVC , X, y, cv=10)
print(cv_results['test_score'].mean())

SVC = SVC()
cv_results = cross_validate(SVC , X, y, cv=10)
print(cv_results['test_score'].mean())

0.7912484394506867
0.8260674157303372

from sklearn.ensemble import AdaBoostClassifier,BaggingClassifier,GradientBoostingClassifier,RandomForestClassifier

ABC = AdaBoostClassifier()
cv_results = cross_validate(ABC , X, y, cv=10)
print(cv_results['test_score'].mean())

BC = BaggingClassifier()
cv_results = cross_validate(BC , X, y, cv=10)
print(cv_results['test_score'].mean())

GBC = GradientBoostingClassifier()
cv_results = cross_validate(GBC , X, y, cv=10)
print(cv_results['test_score'].mean())

RFC = RandomForestClassifier()
cv_results = cross_validate(RFC , X, y, cv=10)
print(cv_results['test_score'].mean())

0.813732833957553
0.8115106117353308
0.8328089887640449
0.8204993757802747

# Stacking和Voting是需要提供基分类器的，基于前面的分类表现，这里选择RFC，LR，KNN，SVC作为基分类器，并且将SVC作为Stacking的最后的分类器。
from sklearn.ensemble import StackingClassifier,VotingClassifier
estimators = [
    ('RFC', RFC),
    ('LR', LR),
    ("KNN",KNN),
    ("SVC",SVC)
]

SC = StackingClassifier(estimators=estimators, final_estimator=SVC)
cv_results = cross_validate(SC , X, y, cv=10)
print(cv_results['test_score'].mean())

VC = VotingClassifier(estimators=estimators)
cv_results = cross_validate(VC , X, y, cv=10)
print(cv_results['test_score'].mean())

0.8260549313358302
0.8226841448189763

测试集预测

读取测试集，查看基本信息，发现Age和Fare存在缺失值，所以除了要额外处理Fare的缺失值，其余的操作和train_data一致

#读取测试数据
test_data = pd.read_csv('test.csv')
PassengerId = test_data['PassengerId']

# 删除无关列
test_data.drop(columns=['PassengerId','Cabin', 'Name', 'Ticket'],inplace=True)

# 缺失值处理 中值或者KNNImputer
values = {
     'Embarked': 'C'}
test_data.fillna(value=values,inplace=True)
imputer = KNNImputer()
test_data[['Age','Fare']] = imputer.fit_transform(test_data[['Age','Fare']])

#将离散型值转换为数值Categorical
def labelEncoding():
	le = LabelEncoder()
	test_data['Embarked']  = le.fit_transform(test_data['Embarked'])
	test_data['Sex']  = le.fit_transform(test_data['Sex'])
labelEncoding()

# 标准化
scaler = StandardScaler()
test_data = scaler.fit_transform(test_data)

GBC = GradientBoostingClassifier().fit(X,y)
test_y = GBC.predict(test_data)
predict = pd.DataFrame()
predict['PassengerId'] = PassengerId
predict['Survived'] = test_y
predict.to_csv('predic.csv',index=False)

提交答案查看结果
比训练集真是差了挺多。
部分：
GBClassifier
KNN

StackingClassifier

SVC

改进

受别人的code启示，发现其实Name大有文章，其中的前缀，决定了乘客的身份，而乘客的身份和存活率是存在很大关系的，比如乘客是船长，他存活的可能性基本为零了…提取name特征中的prefix，统计不同类别下存活率。果然。

所以加入新特征，prefix，并作特征转换。

# 新增特征
train_data['prefix'] =  train_data['Name'].apply(lambda x :  x.strip().split(',')[1].strip().split('.')[0])

还是有进步的

完整代码

https://github.com/wang-hui-shan/titanic

【Python】edge文件转csv文件海轰Pro 唯有努力 Python python 开发语言
目录简介问题场景解决方案结语简介Hello！非常感谢您阅读海轰的文章，倘若文中有错误的地方，欢迎您指出～ଘ(੭ˊᵕˋ)੭昵称：海轰标签：程序猿｜C++选手｜学生简介：因C语言结识编程，随后转入计算机专业，获得过国家奖学金，有幸在竞赛中拿过一些国奖、省奖…已保研学习经验：扎实基础+多做笔记+多敲代码+多思考+学好英语！唯有努力本文仅记录自己感兴趣的内容问题场景存在一个类型为edge的文件需要转化为格
centos安装python3 XMYX-0 centos linux python
目录介绍安装依赖下载python安装包安装python建立软连接python3加入PATH变量验证python3安装的一些库psutil模块安装源码安装psutilpip安装windows上安装IPy的安装dns模块安装疑难杂症解决python上下键无法使用的问题安装pip以及setuptools安装pip测试：其他安装node以及pm2介绍Python是一种广泛应用的编程语言，原由荷兰国家数学与
python把列表插入列表 Zoert
python相关学习资料：https://edu.51cto.com/video/4102.htmlhttps://edu.51cto.com/video/1158.htmlhttps://edu.51cto.com/video/4645.htmlPython中列表的嵌套与操作在Python编程中，列表（List）是一种非常重要的数据结构，它不仅可以存储数据，还可以进行各种操作，如插入、删除、排序
python列表同时添加多个元素_如何将两个列表中的元素一起添加(how do i add elements from two lists together)... weixin_39627481
如何将两个列表中的元素一起添加(howdoiaddelementsfromtwoliststogether)我有两个这样的列表：l_1n-values...List不是专业的，所以专业级别没有多大意义。只有Array是专门的。classPoly[T](valcoef:List[T]){def+(op:Poly[T])(implicitadder:(T,T)=>T)=newPoly(Poly.com
【Python】Python之列表List添加插入元素 mjiansun Python
本文代码上下文person_dev_group=["徐强","倍总","航神"]第一种方式：append（）方法说明：list的实例方法append（），会在list的尾部添加一个元素person_dev_group.append("大森")第二种方式：insert（）方法，指定下标说明：index值可以为正数、也可以为负数，超出list范围的index值，将在list的头部或者尾部插入元素per
Centos7在线快速安装python3 ascarl2010 Linux系统运维 linux python
首先安装依赖包：yum-yinstallgcczlib-develbzip2-developenssl-develncurses-develsqlite-develreadline-develtk-devellibffi-develxz-devel使用国内镜像源下载Python源码（以Python3.8.12为例）：wgethttps://mirrors.huaweicloud.com/pytho
python打印对角线相连的菱形米酒馆 PYTHON python 开发语言
【开发该软件的操作系统】：windows10【软件开发环境/开发工具】：PyCharm【编程语言】：Python【开发目的】：这是老师布置的作业啦~供初学者参考学习【开发者】：江西农业大学2020级大二学生代码实现：输入菱形边长，打印对角线相连的菱形。代码如下：#打印对角线相连的菱形n=int(input('请输入菱形每边星星个数，n='))m=t=2*n-1#双重赋值,m和t为行数whilem>
【Python】高效的Web自动化测试利器—Python+Playwright快速上手自动化实战指南墩墩分墩 Python python 自动化测试 playwright 爬虫 UI自动化
文章目录前言一.playwright是什么二.python引入playwright1.安装2.playwright命令行参数3.playwrightcodegen自动生成代码4.Chrome和Chromium有什么关系？三.基本概念1.无头浏览器（HeadlessBrowser）2.同步和异步模式操作playwright2.1.同步（Sync）模式同步方式代码模板2.2.异步（Async）模式异步
【Python】记录生产编程小tips(字符串处理、列表删除、字典、csv、excel操作)持续更新墩墩分墩 Python python 开发语言字符串操作时间转换列表删除
文章目录一.for循环删除列表元素1.删除list元素方法2.直接删除往往结果与期望不一致3.循环删除元素的正确方法：方法1：while循环+i减方法2：使用copy方法3：倒叙遍历二.字符串处理库三.dict字典1.dict运用2.循环删除dict的键值对1.使用for循环和del语句2.使用字典推导式（创建新字典）3.使用popitem()方法（在Python3.7+中有序）4.使用items
centos下安装python3详细教程_centos python m0_60635321 2024年程序员学习 centos python linux
yum-yinstalllibffi-devel#安装pipyuminstallpython-pip*####4.用pip装wgetpipinstallwget*####5.用wget下载python3的源码包（评论区网友提供了淘宝镜像，替换了官网下载python3，提高下载速度）wgethttp://npm.taobao.org/mirrors/python/3.7.5/Python-3.7.5
Edge-TTS：Python中的微软Edge在线文本转语音服务葛佩蔷
Edge-TTS：Python中的微软Edge在线文本转语音服务edge-ttsUseMicrosoftEdge'sonlinetext-to-speechservicefromPythonWITHOUTneedingMicrosoftEdgeorWindowsoranAPIkey项目地址:https://gitcode.com/gh_mirrors/ed/edge-tts项目基础介绍和主要编程语
Python语法总结彧侠脚本处理 Python
Python作为一种解释型的脚本语言，无论从自动化运维、大数据处理还是人工智能都得到了广泛的应用，而且它好理解、易学习、上手快的特点也使它成为了当下最火热的开发语言之一。下面就对Python语言中的各种语法做一个总结，以备后用数据类型一、整数二、浮点数三、字符串四、布尔值五、空值print语句注释什么是变量比如：定义字符串raw字符串与多行字符串Unicode字符串字符串还有一个编码问题。整数和浮
python算法毕业设计开题答疑 DD项目分享家毕业设计 python 毕设
文章目录0简介1如何选题2最新软件工程毕设选题3最后0简介丹成学长，搜集分享最新的软件工程业专业毕设选题，难度适中，适合作为毕业设计，大家参考。学长整理的题目标准：相对容易工作量达标题目新颖选题指导,项目分享：见文末1如何选题最近非常多的学弟学妹问学长关于选题的问题，所以今天学长来教大家如何进行毕业设计选题！毕业设计的选题尤为重要，选好题目是最终完成毕业设计的第一步。因为题目的选择跟之后的设计实现
Python Turtle艺术绘画赏析与编程自由徜徉碧海蓝天 python 开发语言爬虫编程
PythonTurtle是一个强大的绘图库，通过简单的命令和指令，可以在屏幕上绘制出各种图形和艺术作品。本文将介绍PythonTurtle艺术绘画的一些技巧和示例代码，帮助您了解如何使用PythonTurtle库来创作独特的艺术作品。在开始之前，确保您已经安装了Python和Turtle库。如果您还没有安装，可以通过Python的官方网站下载并安装Python，然后在命令行中使用以下命令安装Tur
大学生python编程小游戏,python初学者小项目 2301_81895949 java 前端服务器人工智能
大家好，本文将围绕大学生python编程小游戏展开说明，python初学者小项目是一个很多人都想弄明白的事情，想搞清楚python做简单的项目需要先了解以下几个事情。开发教程目录前前言——是大佬就别进来看了，远古项目，写的很菜前言——学会项目开发项目开发的意义和重要性如何去开发一个项目(理论)开发前期准备(了解业务)项目设计项目需求讨论项目开发规划项目资源的准备源代码的编写开发后期处理正文——开发
华为OD机试E卷 --英文输入法--24年OD统一考试（Java & JS & Python & C & C++）飞码创造者最新华为OD机试题库2024 华为od java javascript c语言 python
文章目录题目描述输入描述输出描述用例JS算法源码Java算法源码python算法源码c算法源码c++算法源码题目描述主管期望你来实现英文输入法单词联想功能。需求如下：•依据用户输入的单词前缀，从已输入的英文语句中联想出用户想输入的单词，按字典序输出联想到的单词序列，•如果联想不到，请输出用户输入的单词前缀。注意：英文单词联想时，区分大小写缩略形式如”don’t”，判定为两个单词，”don”和”t”
python+ollama本地大模型批量识别PDF，总结摘要以及关键词并输出EXCEL。月野难浔丶 python pdf 开发语言
现在市场上有很多PDF文件的识别，转化，等等。有些业务可能需要总结摘要和关键词等等一系列的操作。然而随着AI的兴起，本地大模型的部署，这些成为一种很方便的方法，接下来我将为各位介绍我所使用的方法。本篇文章旨在自动化处理PDF文档，提取并清理文本数据，然后使用一种大型模型生成摘要和关键词。最后，处理结果会被整理并输出到Excel文件中，便于后续分析和查看。人工智能（AI）是一种模拟人类智能的科技，它
python edge_tts（文本转音频) Oscar_0208 python 音视频
1.安装插件edge-ttspipinstalledge-tts2.文本转音频""":paramvoice:指定声音名称:paramcontent:文本内容:paramaudioFile:音频输出文件:paramvttFile:字幕输出文件"""asyncdefcreate_tts_mp3(voice:str,content:str,audioFile:str,vttFile:str)->None
Python 编译Edge-TTS（edge_tts）转MP3工具浩读语音朗读 edge-tts python edge 自然语言处理前端
Python编译Edge-TTS利用PIPEdge-tts库来实现Azure神经网络自然语音转MP3，这应该是微软给老百姓们一个共享前沿科技大餐。（edge_tts）找了网上的很多源代，现在利用现有公开的代码混编译一个个人的学习工具。代码仅供学习研究。fromtkinterimport*fromtkinter.filedialogimport*fromtkinter.messageboximpor
使用Cursor调试Python代码的详细步骤 shine_du python java 开发语言 cursor
以下是使用Cursor调试Python代码的详细步骤：一、准备Python代码首先，确保你已经在Cursor中创建了一个Python项目并编写了要调试的Python代码。例如，以下是一段简单的Python代码示例，我们将对其进行调试：defcalculate_sum(numbers):total=0fornumberinnumbers:total+=numberreturntotaldefmain
Python 字符串基本操作 iFulling Python python
字符串基本操作一、字符串拼接+-二、获取字符串的长度-len()三、字符串截取（切片运算）四、字符串分隔-split()五、字符串合并-join()六、检索子串出现次数-count()七、检索子串出现位置1、find()2、index()八、检查是否以指定子串开头-startswith()九、检查是否以指定子串结尾-endswith()十、字符串替换-replace()十一、字符串大小写转换一、字
【Python学习笔记】简单调用百度API应用白马银枪素征袍 python python 百度开发语言
#本文一切代码及理论均来自于郑秋生、夏敏捷二位老师主编《Python项目案例发从入门到实践》一书，本人仅做微改。创作本文的目的仅为总结本人的学习过程和成果，借此巩固。可能存在许多疏漏之处，还请各位同道多多批评指正。今天学的是调用百度API一个章节，百度大家都熟悉，现如今中国最大的互联网企业之一，坐拥大量曾经的“爆款”，甚至拥有堪称第一代中国现象级软件的“百度贴吧”，创造了无数出圈梗，几乎是一代人的
python中文版软件下载-Python IDLE(Python集成开发环境)v3.7中文版编程大乐趣
PythonIDLE是一款汉化版的Python集成开发环境，是一款专门用于各类非商业Python开发的选择，不过一般下载正版的python后，IDLE会自动安装，软件涵盖了语法加亮、段落缩进、基本文本编辑、TABLE键控制、调试程序等功能，这款PythonIDLE是汉化版的，将idlelib.zip解压后替换Python安装目录下的Lib文件夹中的idlelib文件夹即可替代Python原版的ID
高斯混合模型（GMM）：用“高斯家族”描绘数据的“模样” ningaiiii 机器学习与深度学习机器学习人工智能
高斯混合模型（GMM）：用“高斯家族”描绘数据的“模样”1.引言高斯混合模型（GaussianMixtureModel,GMM）是一种基于概率密度的生成式模型。它的核心思想是用多个“高斯分布”（即正态分布）的加权组合来描述数据的分布。GMM就像是一个“画家”，用不同的“高斯画笔”描绘出数据的“模样”，特别适合处理复杂的分类任务。2.算法原理2.1模型结构GMM的核心组成包括：混合权重：每个高斯分量
Python百度搜索引擎API使用手册宫和举Esmeralda
Python百度搜索引擎API使用手册python-baidusearch自己手写的百度搜索接口的封装，pip安装，支持命令行执行。BaiduSearchunofficialAPIforPythonwithnoexternaldependencies项目地址:https://gitcode.com/gh_mirrors/py/python-baidusearch概览本文档将详细介绍如何安装与使用p
Django 详解飞滕人生TYF django sqlite 数据库
Django是一个高级的PythonWeb框架，用于快速开发安全且可维护的Web应用。它遵循“Djangoforperfectionistswithdeadlines”（为有期限的完美主义者设计）的理念，提供了一套完整的工具包，帮助开发者快速构建Web应用。1.Django基础概念1.1什么是Django？Django是一个基于Python的全栈Web框架，具备如下特点：MVC架构（在Django
Python Baidu Search API：轻松实现百度搜索的强大工具任凝俭
PythonBaiduSearchAPI：轻松实现百度搜索的强大工具python-baidusearch自己手写的百度搜索接口的封装，pip安装，支持命令行执行。BaiduSearchunofficialAPIforPythonwithnoexternaldependencies项目地址:https://gitcode.com/gh_mirrors/py/python-baidusearch项目介
简单分享下python打包手机app的apk 小软件大世界 python 开发语言
Python把python程序打包成apk的完整步骤1.引言在移动应用市场蓬勃发展的今天，开发人员常常需要将自己的Python程序打包成APK文件，以便在Android设备上运行。本文将详细介绍将Python程序打包成APK的完整步骤。2.准备工作在开始打包前，我们需要先安装以下几个工具：AndroidStudio：用于构建和打包APK文件；PythonforAndroid：用于将Python程序
《人工智能新质生产力：GDP增长的未来引擎，究竟能贡献多少？》人工智能深度学习
在当今科技飞速发展的时代，人工智能作为新质生产力的代表，正以前所未有的态势冲击着全球经济格局，其对GDP增长的贡献率备受关注。从全球视角来看，诸多研究和专家观点都对人工智能的经济贡献给出了积极预测。普华永道曾在2017年发布报告指出，到2030年，人工智能的发展将带动全球GDP增长14％，相当于15.7万亿美元。莫干山研究院学术委员会主任朱嘉明认为，当前人工智能对全球GDP的平均影响约为0.1%，
chatgpt赋能python：Python怎么打包成APK vacvefito ChatGpt python chatgpt 开发语言计算机
Python怎么打包成APK如果你是一位有10年Python编程经验的工程师，并且想要将自己的Python应用程序打包成APK，那么你来对地方了。本文将会介绍如何使用Python来打包成APK，以及在不同平台上的一些注意事项。在阅读本文之后，你应该可以顺利地将自己的Python应用程序打包成APK了。什么是Python的APKAPK是AndroidPackage的缩写，它是Android系统中的一
项目中枚举与注解的结合使用飞翔的马甲 java enum annotation
前言：版本兼容，一直是迭代开发头疼的事，最近新版本加上了支持新题型，如果新创建一份问卷包含了新题型，那旧版本客户端就不支持，如果新创建的问卷不包含新题型，那么新旧客户端都支持。这里面我们通过给问卷类型枚举增加自定义注解的方式完成。顺便巩固下枚举与注解。一、枚举 1.在创建枚举类的时候，该类已继承java.lang.Enum类，所以自定义枚举类无法继承别的类，但可以实现接口。
【Scala十七】Scala核心十一：下划线_的用法 bit1129 scala
下划线_在Scala中广泛应用，_的基本含义是作为占位符使用。_在使用时是出问题非常多的地方，本文将不断完善_的使用场景以及所表达的含义 1. 在高阶函数中使用 scala> val list = List(-3,8,7,9) list: List[Int] = List(-3, 8, 7, 9) scala> list.filter(_ > 7) r
web缓存基础：术语、http报头和缓存策略 dalan_123 Web
对于很多人来说，去访问某一个站点，若是该站点能够提供智能化的内容缓存来提高用户体验，那么最终该站点的访问者将络绎不绝。缓存或者对之前的请求临时存储，是http协议实现中最核心的内容分发策略之一。分发路径中的组件均可以缓存内容来加速后续的请求，这是受控于对该内容所声明的缓存策略。接下来将讨web内容缓存策略的基本概念，具体包括如如何选择缓存策略以保证互联网范围内的缓存能够正确处理的您的内容，并谈论下
crontab 问题周凡杨 linux crontab unix
一： 0481-079 Reached a symbol that is not expected. 背景： */5 * * * * /usr/IBMIHS/rsync.sh
让tomcat支持2级域名共享session g21121 session
tomcat默认情况下是不支持2级域名共享session的，所有有些情况下登陆后从主域名跳转到子域名会发生链接session不相同的情况，但是只需修改几处配置就可以了。打开tomcat下conf下context.xml文件找到Context标签,修改为如下内容如果你的域名是www.test.com <Context sessionCookiePath="/path&q
web报表工具FineReport常用函数的用法总结（数学和三角函数）老A不折腾 Web finereport 总结
ABS ABS(number):返回指定数字的绝对值。绝对值是指没有正负符号的数值。 Number:需要求出绝对值的任意实数。示例: ABS(-1.5)等于1.5。 ABS(0)等于0。 ABS(2.5)等于2.5。 ACOS ACOS(number):返回指定数值的反余弦值。反余弦值为一个角度，返回角度以弧度形式表示。 Number:需要返回角
linux 启动java进程 sh文件墙头上一根草 linux shell jar
#!/bin/bash #初始化服务器的进程PId变量 user_pid=0; robot_pid=0; loadlort_pid=0; gateway_pid=0; ######### #检查相关服务器是否启动成功 #说明： #使用JDK自带的JPS命令及grep命令组合，准确查找pid #jps 加 l 参数，表示显示java的完整包路径 #使用awk，分割出pid
我的spring学习笔记5-如何使用ApplicationContext替换BeanFactory aijuans Spring 3 系列
如何使用ApplicationContext替换BeanFactory？ package onlyfun.caterpillar.device; import org.springframework.beans.factory.BeanFactory; import org.springframework.beans.factory.xml.XmlBeanFactory; import
Linux 内存使用方法详细解析 annan211 linux 内存 Linux内存解析
来源 http://blog.jobbole.com/45748/ 我是一名程序员，那么我在这里以一个程序员的角度来讲解Linux内存的使用。一提到内存管理，我们头脑中闪出的两个概念，就是虚拟内存，与物理内存。这两个概念主要来自于linux内核的支持。 Linux在内存管理上份为两级，一级是线性区，类似于00c73000-00c88000，对应于虚拟内存，它实际上不占用
数据库的单表查询常用命令及使用方法(-) 百合不是茶 oracle 函数单表查询
创建数据库; --建表 create table bloguser(username varchar2(20),userage number(10),usersex char(2)); 创建bloguser表,里面有三个字段 &nbs
多线程基础知识 bijian1013 java 多线程 thread java多线程
一．进程和线程进程就是一个在内存中独立运行的程序，有自己的地址空间。如正在运行的写字板程序就是一个进程。 “多任务”：指操作系统能同时运行多个进程（程序）。如WINDOWS系统可以同时运行写字板程序、画图程序、WORD、Eclipse等。线程：是进程内部单一的一个顺序控制流。线程和进程 a. 每个进程都有独立的
fastjson简单使用实例 bijian1013 fastjson
一.简介阿里巴巴fastjson是一个Java语言编写的高性能功能完善的JSON库。它采用一种“假定有序快速匹配”的算法，把JSON Parse的性能提升到极致，是目前Java语言中最快的JSON库；包括“序列化”和“反序列化”两部分，它具备如下特征：
【RPC框架Burlap】Spring集成Burlap bit1129 spring
Burlap和Hessian同属于codehaus的RPC调用框架，但是Burlap已经几年不更新，所以Spring在4.0里已经将Burlap的支持置为Deprecated,所以在选择RPC框架时，不应该考虑Burlap了。这篇文章还是记录下Burlap的用法吧，主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成
【Mahout一】基于Mahout 命令参数含义 bit1129 Mahout
1. mahout seqdirectory $ mahout seqdirectory --input (-i) input Path to job input directory(原始文本文件). --output (-o) output The directory pathna
linux使用flock文件锁解决脚本重复执行问题 ronin47 linux lock　重复执行
linux的crontab命令，可以定时执行操作，最小周期是每分钟执行一次。关于crontab实现每秒执行可参考我之前的文章《linux crontab 实现每秒执行》现在有个问题，如果设定了任务每分钟执行一次，但有可能一分钟内任务并没有执行完成，这时系统会再执行任务。导致两个相同的任务在执行。例如： <? // test .php
java-74-数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 bylijinnan java
public class OcuppyMoreThanHalf { /** * Q74 数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 * two solutions: * 1.O(n) * see <beauty of coding>--每次删除两个不同的数字，不改变数组的特性 * 2.O(nlogn) * 排序。中间
linux 系统相关命令 candiio linux
系统参数 cat /proc/cpuinfo cpu相关参数 cat /proc/meminfo 内存相关参数 cat /proc/loadavg 负载情况性能参数 1）top M：按内存使用排序 P：按CPU占用排序 1：显示各CPU的使用情况 k：kill进程 o：更多排序规则回车：刷新数据 2）ulimit ulimit -a：显示本用户的系统限制参
[经营与资产]保持独立性和稳定性对于软件开发的重要意义 comsci 软件开发
一个软件的架构从诞生到成熟，中间要经过很多次的修正和改造如果在这个过程中，外界的其它行业的资本不断的介入这种软件架构的升级过程中那么软件开发者原有的设计思想和开发路线
在CentOS5.5上编译OpenJDK6 Cwind linux OpenJDK
几番周折终于在自己的CentOS5.5上编译成功了OpenJDK6，将编译过程和遇到的问题作一简要记录，备查。 0. OpenJDK介绍 OpenJDK是Sun（现Oracle）公司发布的基于GPL许可的Java平台的实现。其优点： 1、它的核心代码与同时期Sun（-> Oracle）的产品版基本上是一样的，血统纯正，不用担心性能问题，也基本上没什么兼容性问题；（代码上最主要的差异是
java乱码问题 dashuaifu java乱码问题 js中文乱码
swfupload上传文件参数值为中文传递到后台接收中文乱码在js中用setPostParams（{"tag" : encodeURI( document.getElementByIdx_x("filetag").value，"utf-8")}）; 然后在servlet中String t
cygwin很多命令显示command not found的解决办法 dcj3sjt126com cygwin
cygwin很多命令显示command not found的解决办法修改cygwin.BAT文件如下 @echo off D: set CYGWIN=tty notitle glob set PATH=%PATH%;d:\cygwin\bin;d:\cygwin\sbin;d:\cygwin\usr\bin;d:\cygwin\usr\sbin;d:\cygwin\us
[介绍]从 Yii 1.1 升级 dcj3sjt126com PHP yii2
2.0 版框架是完全重写的，在 1.1 和 2.0 两个版本之间存在相当多差异。因此从 1.1 版升级并不像小版本间的跨越那么简单，通过本指南你将会了解两个版本间主要的不同之处。如果你之前没有用过 Yii 1.1，可以跳过本章，直接从"入门篇"开始读起。请注意，Yii 2.0 引入了很多本章并没有涉及到的新功能。强烈建议你通读整部权威指南来了解所有新特性。这样有可能会发
Linux SSH免登录配置总结 eksliang ssh-keygen Linux SSH免登录认证 Linux SSH互信
转载请出自出处：http://eksliang.iteye.com/blog/2187265 一、原理我们使用ssh-keygen在ServerA上生成私钥跟公钥，将生成的公钥拷贝到远程机器ServerB上后,就可以使用ssh命令无需密码登录到另外一台机器ServerB上。生成公钥与私钥有两种加密方式，第一种是
手势滑动销毁Activity gundumw100 android
老是效仿ios，做android的真悲催！有需求：需要手势滑动销毁一个Activity 怎么办尼？自己写？不用~，网上先问一下百度。结果： http://blog.csdn.net/xiaanming/article/details/20934541 首先将你需要的Activity继承SwipeBackActivity，它会在你的布局根目录新增一层SwipeBackLay
JavaScript变换表格边框颜色 ini JavaScript html Web html5 css
效果查看：http://hovertree.com/texiao/js/2.htm代码如下，保存到HTML文件也可以查看效果： <html> <head> <meta charset="utf-8"> <title>表格边框变换颜色代码-何问起</title> </head> <body&
Kafka Rest : Confluent kane_xie kafka REST confluent
最近拿到一个kafka rest的需求，但kafka暂时还没有提供rest api（应该是有在开发中，毕竟rest这么火），上网搜了一下，找到一个Confluent Platform，本文简单介绍一下安装。这里插一句，给大家推荐一个九尾搜索，原名叫谷粉SOSO，不想fanqiang谷歌的可以用这个。以前在外企用谷歌用习惯了，出来之后用度娘搜技术问题，那匹配度简直感人。环境声明：Ubu
Calender不是单例 men4661273 单例 Calender
在我们使用Calender的时候，使用过Calendar.getInstance()来获取一个日期类的对象，这种方式跟单例的获取方式一样，那么它到底是不是单例呢，如果是单例的话，一个对象修改内容之后，另外一个线程中的数据不久乱套了吗？从试验以及源码中可以得出，Calendar不是单例。测试： Calendar c1 =
线程内存和主内存之间联系 qifeifei java thread
1， java多线程共享主内存中变量的时候，一共会经过几个阶段， lock:将主内存中的变量锁定，为一个线程所独占。 unclock:将lock加的锁定解除，此时其它的线程可以有机会访问此变量。 read:将主内存中的变量值读到工作内存当中。 load:将read读取的值保存到工作内存中的变量副本中。
schedule和scheduleAtFixedRate tangqi609567707 java timer schedule
原文地址：http://blog.csdn.net/weidan1121/article/details/527307 import java.util.Timer;import java.util.TimerTask;import java.util.Date; /** * @author vincent */public class TimerTest {
erlang 部署 wudixiaotie erlang
1.如果在启动节点的时候报这个错： {"init terminating in do_boot",{'cannot load',elf_format,get_files}} 则需要在reltool.config中加入 {app, hipe, [{incl_cond, exclude}]}, 2.当generate时，遇到： ERROR