旅途中的宽~

【Python | 机器学习】Python中进行特征重要性分析的9个常用方法（含源代码）

文章目录

一、为什么特征重要性分析很重要?
二、特征重要性分析方法
- 2.1 排列重要性 PermutationImportance
- 2.2 内置特征重要性(coef_或feature_importances_)
- 2.3 Leave-one-out
- 2.4 相关性分析
- 2.5 递归特征消除 Recursive Feature Elimination
- 2.6 XGBoost特性重要性
- 2.7 主成分分析 PCA
- 2.8 方差分析 ANOVA
- 2.9 卡方检验
三、为什么不同的方法会检测到不同的特征?
四、选择特征重要性分析方法的一些最佳实践

特征重要性分析用于了解每个特征(变量或输入)对于做出预测的有用性或价值。目标是确定对模型输出影响最大的最重要的特征，它是机器学习中经常使用的一种方法。

一、为什么特征重要性分析很重要?

特征重要性分析在数据科学和机器学习中扮演着重要的角色，具有以下重要性：

理解数据：特征重要性分析有助于理解数据集中每个特征对目标变量的影响程度。这有助于识别哪些特征在解决问题时可能是关键的，哪些可能是次要的。

特征选择：在建模过程中，特征重要性分析可用于选择最相关的特征，以减少模型的复杂性和提高模型的泛化能力。通过消除不相关或冗余的特征，可以改善模型的性能，减少过拟合的风险。

模型解释性：特征重要性分析有助于解释模型的预测结果。它可以告诉我们哪些特征对于模型的某个预测是最重要的，这对于业务决策和解释模型的工作原理非常有帮助。

异常检测：通过分析特征重要性，可以识别出与预期模式不符的异常数据点。这些异常数据可能是数据质量问题或需要特殊处理的情况，例如欺诈检测或故障检测。

特征工程：特征重要性分析可以为特征工程提供指导。它可以帮助数据科学家和机器学习工程师选择最相关的特征，或者启发他们创建新的特征来提高模型性能。

优化模型：了解特征的重要性可以帮助优化模型的超参数选择，例如决策树中的树的深度或随机森林中的树的数量。这可以提高模型的性能并减少计算成本。

监测模型稳定性：特征重要性的变化可以用于监测模型的稳定性。如果模型的重要特征发生变化，可能意味着数据分布或问题本身发生了变化，需要进一步的调查。

如果有一个包含数十个甚至数百个特征的数据集，每个特征都可能对你的机器学习模型的性能有所贡献。但是并不是所有的特征都是一样的。有些可能是冗余的或不相关的，这会增加建模的复杂性并可能导致过拟合。

特征重要性分析可以识别并关注最具信息量的特征，从而带来以下几个优势:

改进的模型性能
减少过度拟合
更快的训练和推理
增强的可解释性

下面我们深入了解在Python中的一些特性重要性分析的方法。

二、特征重要性分析方法

2.1 排列重要性 PermutationImportance

该方法会随机排列每个特征的值，然后监控模型性能下降的程度。如果获得了更大的下降意味着特征更重要：

 from sklearn.datasets import load_breast_cancer
 from sklearn.ensemble import RandomForestClassifier
 from sklearn.inspection import permutation_importance
 from sklearn.model_selection import train_test_split
 import matplotlib.pyplot as plt
 
 cancer = load_breast_cancer()
 
 X_train, X_test, y_train, y_test = train_test_split(cancer.data, cancer.target, random_state=1)
 
 rf = RandomForestClassifier(n_estimators=100, random_state=1)
 rf.fit(X_train, y_train)
 
 baseline = rf.score(X_test, y_test)
 result = permutation_importance(rf, X_test, y_test, n_repeats=10, random_state=1, scoring='accuracy')
 
 importances = result.importances_mean
 
 # Visualize permutation importances
 plt.bar(range(len(importances)), importances)
 plt.xlabel('Feature Index')
 plt.ylabel('Permutation Importance')
 plt.show()

2.2 内置特征重要性(coef_或feature_importances_)

一些模型，如线性回归和随机森林，可以直接输出特征重要性分数。这些显示了每个特征对最终预测的贡献。

 from sklearn.datasets import load_breast_cancer
 from sklearn.ensemble import RandomForestClassifier
 
 X, y = load_breast_cancer(return_X_y=True)
 
 rf = RandomForestClassifier(n_estimators=100, random_state=1)
 rf.fit(X, y)
 
 importances = rf.feature_importances_
 
 # Plot importances
 plt.bar(range(X.shape[1]), importances)
 plt.xlabel('Feature Index')
 plt.ylabel('Feature Importance')
 plt.show()

2.3 Leave-one-out

迭代地每次删除一个特征并评估准确性。

 from sklearn.datasets import load_breast_cancer
 from sklearn.model_selection import train_test_split
 from sklearn.ensemble import RandomForestClassifier
 from sklearn.metrics import accuracy_score
 import matplotlib.pyplot as plt
 import numpy as np
 
 # Load sample data
 X, y = load_breast_cancer(return_X_y=True)
 
 # Split data into train and test sets
 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=1)
 
 # Train a random forest model
 rf = RandomForestClassifier(n_estimators=100, random_state=1)
 rf.fit(X_train, y_train)
 
 # Get baseline accuracy on test data
 base_acc = accuracy_score(y_test, rf.predict(X_test))
 
 # Initialize empty list to store importances
 importances = []
 
 # Iterate over all columns and remove one at a time
 for i in range(X_train.shape[1]):
    X_temp = np.delete(X_train, i, axis=1)
    rf.fit(X_temp, y_train)
    acc = accuracy_score(y_test, rf.predict(np.delete(X_test, i, axis=1)))
    importances.append(base_acc - acc)
     
 # Plot importance scores    
 plt.bar(range(len(importances)), importances)
 plt.show()

2.4 相关性分析

计算各特征与目标变量之间的相关性。相关性越高的特征越重要。

 import pandas as pd
 from sklearn.datasets import load_breast_cancer
 
 X, y = load_breast_cancer(return_X_y=True)
 df = pd.DataFrame(X, columns=range(30))
 df['y'] = y
 
 correlations = df.corrwith(df.y).abs()
 correlations.sort_values(ascending=False, inplace=True)
 
 correlations.plot.bar()

2.5 递归特征消除 Recursive Feature Elimination

递归地删除特征并查看它如何影响模型性能。删除时会导致更大下降的特征更重要。

 from sklearn.ensemble import RandomForestClassifier
 from sklearn.feature_selection import RFE
 import pandas as pd
 from sklearn.datasets import load_breast_cancer
 import matplotlib.pyplot as plt
 
 X, y = load_breast_cancer(return_X_y=True)
 df = pd.DataFrame(X, columns=range(30))
 df['y'] = y
 
 rf = RandomForestClassifier()
 
 rfe = RFE(rf, n_features_to_select=10)
 rfe.fit(X, y)
 
 print(rfe.ranking_)

输出结果为：

输出为[6 4 11 12 7 11 18 21 8 16 10 3 15 14 19 17 20 13 11 11 12 9 11 5 11]

2.6 XGBoost特性重要性

计算一个特性用于跨所有树拆分数据的次数。更多的分裂意味着更重要。

 import xgboost as xgb
 import pandas as pd
 from sklearn.datasets import load_breast_cancer
 import matplotlib.pyplot as plt
 
 X, y = load_breast_cancer(return_X_y=True)
 df = pd.DataFrame(X, columns=range(30))
 df['y'] = y
 
 model = xgb.XGBClassifier()
 model.fit(X, y)
 
 importances = model.feature_importances_
 importances = pd.Series(importances, index=range(X.shape[1]))
 importances.plot.bar()

2.7 主成分分析 PCA

对特征进行主成分分析，并查看每个主成分的解释方差比。在前几个组件上具有较高负载的特性更为重要。

 from sklearn.decomposition import PCA
 import pandas as pd
 from sklearn.datasets import load_breast_cancer
 import matplotlib.pyplot as plt
 
 X, y = load_breast_cancer(return_X_y=True)
 df = pd.DataFrame(X, columns=range(30))
 df['y'] = y
 
 pca = PCA()
 pca.fit(X)
 
 plt.bar(range(pca.n_components_), pca.explained_variance_ratio_)
 plt.xlabel('PCA components')
 plt.ylabel('Explained Variance')

2.8 方差分析 ANOVA

使用f_classif()获得每个特征的方差分析f值。f值越高，表明特征与目标的相关性越强。

 from sklearn.feature_selection import f_classif
 import pandas as pd
 from sklearn.datasets import load_breast_cancer
 import matplotlib.pyplot as plt
 
 X, y = load_breast_cancer(return_X_y=True)
 df = pd.DataFrame(X, columns=range(30))
 df['y'] = y
 
 fval = f_classif(X, y)
 fval = pd.Series(fval[0], index=range(X.shape[1]))
 fval.plot.bar()

2.9 卡方检验

使用chi2()获得每个特征的卡方统计信息。得分越高的特征越有可能独立于目标。

 from sklearn.feature_selection import chi2
 import pandas as pd
 from sklearn.datasets import load_breast_cancer
 import matplotlib.pyplot as plt
 
 X, y = load_breast_cancer(return_X_y=True)
 df = pd.DataFrame(X, columns=range(30))
 df['y'] = y
 
 chi_scores = chi2(X, y)
 chi_scores = pd.Series(chi_scores[0], index=range(X.shape[1]))
 chi_scores.plot.bar()

三、为什么不同的方法会检测到不同的特征?

不同的特征重要性方法有时可以识别出不同的特征是最重要的，这是因为：

1、他们用不同的方式衡量重要性:

有的使用不同特特征进行预测，监控精度下降

像XGBOOST或者回国模型使用内置重要性来进行特征的重要性排列

而PCA着眼于方差解释

2、不同模型有不同模型的方法：

线性模型倾向于线性关系、树模型倾向于接近根的特征

3、交互作用:

有的方法可以获取特征之间的相互左右，而有一些则不行，这就会导致结果的差异

3、不稳定:

使用不同的数据子集，重要性值可能在同一方法的不同运行中有所不同，这是因为数据差异决定的

4、Hyperparameters:

通过调整超参数，如PCA组件或树深度，也会影响结果

所以不同的假设、偏差、数据处理和方法的可变性意味着它们并不总是在最重要的特征上保持一致。

四、选择特征重要性分析方法的一些最佳实践

尝试多种方法以获得更健壮的视图
聚合结果的集成方法
更多地关注相对顺序，而不是绝对值
差异并不一定意味着有问题，检查差异的原因会对数据和模型有更深入的了解

你可能感兴趣的:(Python3常用到的函数总结,机器学习系列文章,机器学习,python,人工智能,特征)

洛谷P1004（方格取数[NOIP 2000 提高组]）题解 1≈∞ 算法题解
题目大意：在一个N×N的方格中，从左上角到右下角走两次，每次只能向下或向右走，取过的数会变成0，求两次路径取数的最大总和。首先，我们需要理解问题。两次路径都要走，并且第一次走过的格子第二次就不能再取了。所以需要找到两条路径，使得它们经过的格子的数值之和最大，并且路径不能重复取数。或者，或者说，即使路径交叉也没关系，但同一个格子只能被取一次。比如，如果两条路径都经过同一个格子，那么这个格子的数只能被
MySQL 数据库作发布系统的存储，一天五万条以上的增量，预计运维三年,怎么优化？思维导图代码示例（java 架构) 用心去追梦数据库 mysql 运维
对于一个每天有五万条以上增量、预计运维三年的MySQL发布系统，优化和规划是非常重要的。这不仅涉及到数据库本身的性能优化，还包括架构设计、硬件选择、监控与维护等多个方面。以下是一些建议和策略：优化策略数据库架构设计分库分表（Sharding）：将数据分散到多个数据库或表中，减轻单个实例的压力。读写分离：使用主从复制，将读操作分流到从服务器上，减少主服务器负载。缓存机制：利用Redis或Memcac
matlab编写的不平衡磁拉力方程 �时过境迁，物是人非 matlab 开发语言
用matlab编写的不平衡磁拉力方程，可以用来做转子动力学仿真资源文件列表jie.zip,514pangjialai.zip,421ump_fangcheng.m,1793
CSS实现一张简易的贺卡 StarPlatinum2 简单的CSS程序 css 前端
效果当你把鼠标移至贺卡上时，贺卡会缓慢打开。代码如下Document*{margin:0;padding:0;box-sizing:border-box;}body{display:flex;justify-content:center;align-items:center;width:100vw;height:100vh;background:#2e3c50;}.card{width:300px
梯度累加（结合DDP）梯度检查点糖葫芦君 LLM 算法人工智能大模型深度学习
梯度累加目的梯度累积是一种训练神经网络的技术，主要用于在内存有限的情况下处理较大的批量大小（batchsize）。通常，较大的批量可以提高训练的稳定性和效率，但受限于GPU或TPU的内存，无法一次性加载大批量数据。梯度累积通过多次前向传播和反向传播累积梯度，然后一次性更新模型参数，从而模拟大批量训练的效果。总结：显存限制：GPU/TPU显存有限，无法一次性加载大批量数据。训练稳定性：大批量训练通常
1985-2023 年各省、地级市数字经济专利数据经管数据集数据分析
数据来源：CNRDS数据库包括Excel数据文件+字段说明书+数据库说明书具体字段：Province[省份]-省份Pftn[地市]-地市Year[会计年度]-会计年度Noderiafty[当年申请的数字经济相关发明数量]-当年申请的数字经济相关发明数量，单位：个Noderiaity[当年授权的数字经济相关发明数量]-当年授权的数字经济相关发明数量，单位：个Noderumap[当年申请的数字经济相关
【DeepSeek最好的内容】清华大学《DeepSeek：从入门到精通》pdf免费下载数维学长986 pdf DeepSeck
清华大学的DeepSeek从入门到精通全PDF共104页，从0到1讲解deepseek技术原理，各种场景全覆盖------------------------------>点击获取电子pdf
if constexpr 与常量表达式: 编译时的“如果“【仓鼠学CPP17】仓鼠圆啊元 cpp17 c++macos 面试 visual studio code 学习
前言if，条件语句，可以说是众所周知的东西了。但在cpp-17里，又推出了一个“ifconstexpr”，同样是表示比较。两者区别在于：if是在运行时比较，而ifconstexpr，是在编译器里比较。一个程序，编译只要一遍，实际运行则可能会跑很多次，因此，在对于一些能在编译器里所确定的内容，使用ifconstexpr是一个好主意！当然，大部分内容是不会就在编译器的时候就确定的，因此，其使用有局限性
面试题-Vue2和Vue3的区别奶糖肥晨 vue3 vue vue.js javascript 前端
文章目录1.响应式系统2.组合式API(CompositionAPI)3.Fragment(碎片)4.Teleport(传送门)5.性能改进6.移除或改变的功能7.构建工具8.TypeScript支持Vue2和Vue3之间存在许多重要的区别，这些区别涵盖了性能、API设计、组合式API（CompositionAPI）、响应式系统以及构建工具等方面。以下是一些关键的区别，并附带代码示例来加以说明。1
支持向量机（Support Vector Machine，SVM）不易撞的网名支持向量机算法机器学习
支持向量机（SupportVectorMachine，简称SVM）是一种监督学习模型，主要用于分类和回归分析。SVM的基本思想是寻找一个决策边界或超平面，使得两类样本之间的间隔最大化。这个间隔被定义为支持向量到超平面的最短距离，而支持向量就是那些恰好位于间隔边缘上的训练样本点。线性可分情况下的SVM假设我们有一组训练数据(x1,y1),(x2,y2),…,(xn,yn)(x_1,y_1),(x_2
＞ vue-standard@0.1.0 serve ＞ vue-cli-service serve ‘vue-cli-service‘ 不是内部或外部命令，也不是可运行的程序或批处理文件。 Merlyn10 vue.js 前端
出现'vue-cli-service'不是内部或外部命令错误通常意味着vue-cli-service没有被正确安装或者没有被添加到系统的PATH中。vue-cli-service是VueCLI提供的一个开发依赖，它应该在项目的node_modules/.bin目录下。要解决这个问题，请尝试以下步骤：确保依赖已安装：在项目根目录下运行以下命令来安装项目的依赖：npminstall或者如果你使用的是Y
核货宝：支持二次开发的移动订货系统分享核货宝订货系统移动订货系统开源订货系统批发订货商城移动订货系统
在快节奏的商业环境中，企业对高效、便捷的订货管理系统需求日益迫切。核货宝移动订货系统凭借其强大的功能和灵活的二次开发特性，成为众多企业优化订货流程、提升业务效率的得力助手。一、进销存管理（一）功能内容库存管理：对库存进行全方位实时监控，涵盖库存数量、库存成本以及库存位置等信息。系统支持库存盘点功能，定期或不定期对库存进行盘点，确保账实相符。当库存发生变动时，如商品入库、出库，系统自动更新库存数据。
Tensorflow2.x框架-神经网络八股扩展-acc曲线与loss曲线诗雨时
loss/loss可视化，可视化出准确率上升、损失函数下降的过程博主微信公众号（左）、Python+智能大数据+AI学习交流群（右）：欢迎关注和加群，大家一起学习交流，共同进步！目录摘要一、acc曲线与loss曲线二、完整代码摘要loss/loss可视化，可视化出准确率上升、损失函数下降的过程一、acc曲线与loss曲线history=model.fit(训练集数据,训练集标签,batch_siz
python安装pyaudio_我不能在我的python上安装pyaudio？怎么做？ weixin_39613385 python安装pyaudio
我有一台windows10pc，我想安装pyaudio，以便与chatterbot一起使用，chatterbot支持，我尝试了两种不同的安装pyaudio的方法。方法是在命令提示符下编写python-mpipinstallPyAudio结果是：C:\Users\Waaberi>python-mpipinstallPyAudioCollectingPyAudioUsingcachedhttps://
时序差分(TD)算法: waski 强化学习人工智能机器学习
TD算法：小猴子每走1步，看一下这个路口的V值，还有获得的奖励r；回到原来的路口，把刚刚看到的V值和奖励r进行运算，估算出V值。和蒙地卡罗(MC)不同：TD算法只需要走N步。就可以开始回溯更新。和蒙地卡罗(MC)一样：小猴需要先走N步，每经过一个状态，把奖励记录下来。然后开始回溯。那么，状态的V值怎么算呢？其实和蒙地卡罗一样，我们就假设N步之后，就到达了最终状态了。假设“最终状态”上我们之前没有走
在PyAudio模块中安装时出错潮易 python
在PyAudio模块中安装时出错首先，你需要确保你的电脑上已经安装了Python和pip。然后，你可以使用以下命令来安装PyAudio模块：```bashpipinstallPyAudio```如果上述命令无法安装，你可能需要安装一些额外的库。在Ubuntu系统中，你需要先安装一些依赖库，然后再尝试安装PyAudio。你可以使用以下命令来安装这些依赖库：```bashsudoapt-getinst
DeepSeek强化学习（Reinforcement Learning）基础与实践 Evaporator Core 强化学习 #DeepSeek快速入门人工智能 python 数据库 tornado 强化学习 deepseek
引言强化学习（ReinforcementLearning,RL）是机器学习的一个重要分支，专注于训练智能体（Agent）在环境中通过试错来学习最优策略。与监督学习和无监督学习不同，强化学习通过奖励信号来指导智能体的行为，使其能够在复杂的环境中做出决策。DeepSeek提供了强大的工具和API，帮助我们高效地构建和训练强化学习模型。本文将详细介绍如何使用DeepSeek进行强化学习的基础与实践，并通
《震撼！“懂哥” 独特形象，世间难寻第二人！》故障抖机灵大师科普与知识分享深度剖析电脑 windows 运维生活
懂哥系列文章深度揭秘：公司“懂哥”的独特外貌形象在我们公司，“懂哥”的名号那可是无人不知、无人不晓，早已如雷贯耳。此前，大家没少听闻他那些令人忍俊不禁、啼笑皆非的趣事，想必不少人都对这位堪称“传奇”的人物的外貌形象充满了好奇。今天，就带大家全方位领略一下“懂哥”那别具一格、独树一帜的造型风采。一、独特的身姿体态“懂哥”身高刚过170cm，但他习惯性地微微驼背，这个姿势实在是太独特了，就好像他真真切
探索 IMA：搭建个人知识库的得力助手东锋1.3 开发与应用 ima 个人知识库知识库
现在好多人都在尝试用DeepSeek做本地部署，各种详细的部署教程也争先恐后的出现。教程虽好，但对于一般的人来讲操作还是存在一定的难度，比如说对硬件的要求高，部署的过程较为复杂。前段时间我关注到腾讯推出的一款叫ima的应用，恰好能跳过这些繁琐的过程，只需要下载客户端，就能轻松搭建自己的知识库。如果大家对上传到知识库中的数据资料没有什么隐私或保密的顾虑，可以尝试一些ima来搭建自己的知识库。在安装i
npm : 无法加载文件 D:\Program Files\nodejs\npm.ps1，因为在此系统上禁止运行脚本海纳老吴问题解决 npm 前端 node.js
安装npm时出现如下提示：出现这个错误信息，是系统禁止执行PowerShell的脚本。出现的原因是，系统默认的执行策略是Restricted（默认设置），限制执行，所以会出现如上提示。解决方法：以管理员身份运行PowerShell;修改PowerShell策略：并运行以下命令来修改执行策略：Set-ExecutionPolicyRemoteSigned这将允许运行由本地计算机创建的脚本。选择Y提示
团体程序设计天梯赛-练习集——L1-052 2018我们要赢 SY师弟 GPLT天梯赛算法 c语言数据结构 c++PTA GPLT 团体程序设计天梯赛
前言这个题看题目有点年代感了，2018是有啥大事来着吗？像一颗海草海草，随风飘摇哈哈哈，下面看看题目L1-0522018我们要赢2018年天梯赛的注册邀请码是“2018wmyy”，意思就是“2018我们要赢”。本题就请你用汉语拼音输出这句话。输入格式：本题没有输入。输出格式：在第一行中输出：“2018”；第二行中输出：“wo3men2yao4ying2!”。输入样例：无输出样例：2018wo3me
GCC 和 G++的基本使用 cuber膜拜汇编 gnu c++
GCC和G++命令GCC和G++命令GCC（GNUC编译器）基本用法常用选项示例G++（GNUC++编译器）基本用法常用选项示例GCC与G++的区别选择使用GCC还是G++C++编译流程1.预处理（Preprocessing）2.编译（Compilation）3.汇编（Assembly）4.链接（Linking）综合示例头文件搜索路径1.引号包含的头文件(`"add.h"`)搜索路径示例2.尖括号
架构演进史三花学编程架构架构 java 微服务
软件架构是软件工程的基石，它不仅影响着系统的性能、可维护性和可扩展性，也直接关系到开发团队的效率和项目的成功。随着技术的不断发展和业务需求的变化，软件架构经历了多个阶段的演进。本文将详细探讨这些阶段及其背后的驱动因素。1.单体架构时代1.1定义与特点单体架构是指将所有功能模块打包在一个独立的应用程序中。早期的计算机应用程序大多采用这种架构，所有的代码、数据和资源都集中在一个地方。1.2优点简单性：
python-leetcode 43.二叉搜索树中第K小的元素 SylviaW08 leetcode 算法职场和发展
题目：给定一个二叉搜索树的根节点root,和一个整数k,请设计算法，查找其中第K小的元素（从1开始计数）方法一：中序遍历叉搜索树具有如下性质：结点的左子树只包含小于当前结点的数。结点的右子树只包含大于当前结点的数。所有左子树和右子树自身必须也是二叉搜索树二叉树的中序遍历即按照访问左子树——根结点——右子树的方式遍历二叉树；在访问其左子树和右子树时，我们也按照同样的方式遍历；直到遍历完整棵树。因为二
力扣hot100——分割回文子串 + 回溯算法总结（算法代码模板） 01_ 力扣hot100 算法 leetcode 回溯算法
给你一个字符串s，请你将s分割成一些子串，使每个子串都是回文串。返回s所有可能的分割方案。解法思路：切割一个a之后，在ab中再去切割第二段.....classSolution{public:vector>res;//最终结果vectorpath;//当前结果vector>partition(strings){backtracking(s,0);returnres;}voidbacktracking
python-leetcode 22.相交链表 SylviaW08 leetcode-python leetcode 算法职场和发展
题目：给两个单链表的头节点heada和headb,请找出并返回两个单链表相交的起始节点。如果两个链表不存在相较节点，返回null。两个链表在C1开始相交。intersectval:相交的起始节点的值，如果不存在相交节点，这一值为0listA:第一个链表listB:第二个链表skipA:在listA从头节点开始，跳到交叉节点的节点数skipB:在listB从头节点开始跳到交叉节点的节点数方法一：哈希
跟着小K开始零基础Python量化分析之旅 1: 初入量化江湖 —— Python与量化的第一次邂逅山海青风 python 量化分析
第一章：初入量化江湖——Python与量化的第一次邂逅故事情境在一个热闹的理财交流群里，小K偶然听到有人提起“量化投资”。那一刻，他心中燃起了一种莫名的好奇与憧憬：“量化投资究竟是什么？我真的能用代码来炒股吗？”然而，面对这一连串新奇的名词，小K感到有些茫然，一头雾水。就在他犹豫不决的时候，一位神秘的前辈私信他：“想要在量化江湖中闯出一片天地，首先得打好基础。先从搞定Python和学习如何读取股票
从零开始玩转TensorFlow：小明的机器学习故事 3 山海青风 #机器学习机器学习 tensorflow 人工智能
下面是一篇以小明为主角，尝试用TensorFlow预测校园活动参与率的学习故事。我们会在故事情境中穿插对线性回归和逻辑回归的原理介绍，并附带必要的代码示例，帮助你从零基础理解并动手实践。文章结尾还有简要的分析总结。小明的第一次机器学习实验场景：预测校园活动的参与率小明最近加入了学生会，负责策划校园活动。每次活动都需要准备场地、宣传物料和餐饮，但经常会出现场地过小或准备物资不足等问题。为了让活动准备
跟着小K开始零基础Python量化分析之旅 2: 初试身手 —— Python基础与神秘股票清单山海青风 python
第二章：初试身手——Python基础与神秘股票清单在这一章中，我们将跟随小K的脚步，开启Python的初探之旅。小K刚刚踏入量化投资的世界，就收到了前辈神秘发送的一份文件——“神秘股票清单.csv”。前辈告诉他，只有牢牢掌握Python的基础语法，才能游刃有余地处理金融数据，进一步深入量化分析的奥秘。接下来，就让我们一起体验小K如何用Python完成这个第一个小任务，从而收获满满的成就感吧！故事情
跟着小K开始零基础Python量化分析之旅 3: 初探数据世界 —— Pandas与数据清洗的武林秘笈山海青风 python
第三章：初探数据世界——Pandas与数据清洗的武林秘笈在量化江湖中，数据正如武林秘籍中的内功心法，必须先打好基础，才能施展后续高深武技。小K这次获得了一份历史股票交易数据，但初看之下却是一团乱麻：缺失值、重复记录、日期格式不统一……前辈笑着说：“兄弟，若想踏入量化之路，先要学会如何把这‘脏数据’炼成一手干净的‘真气’！”下面，就跟随小K的脚步，逐步揭开数据清洗的秘密，掌握Pandas的基本功法，
强大的销售团队背后竟然是大数据分析的身影蓝儿唯美数据分析
Mark Roberge是HubSpot的首席财务官，在招聘销售职位时使用了大量数据分析。但是科技并没有挤走直觉。大家都知道数理学家实际上已经渗透到了各行各业。这些热衷数据的人们通过处理数据理解商业流程的各个方面，以重组弱点，增强优势。 Mark Roberge是美国HubSpot公司的首席财务官，HubSpot公司在构架集客营销现象方面出过一份力——因此他也是一位数理学家。他使用数据分析
Haproxy+Keepalived高可用双机单活 bylijinnan 负载均衡 keepalived haproxy 高可用
我们的应用MyApp不支持集群，但要求双机单活（两台机器：master和slave）： 1.正常情况下，只有master启动MyApp并提供服务 2.当master发生故障时，slave自动启动本机的MyApp，同时虚拟IP漂移至slave，保持对外提供服务的IP和端口不变 F5据说也能满足上面的需求，但F5的通常用法都是双机双活，单活的话还没研究过服务器资源 10.7
eclipse编辑器中文乱码问题解决 0624chenhong eclipse乱码
使用Eclipse编辑文件经常出现中文乱码或者文件中有中文不能保存的问题，Eclipse提供了灵活的设置文件编码格式的选项，我们可以通过设置编码格式解决乱码问题。在Eclipse可以从几个层面设置编码格式：Workspace、Project、Content Type、File 本文以Eclipse 3.3（英文）为例加以说明： 1. 设置Workspace的编码格式： Windows-&g
基础篇--resources资源不懂事的小屁孩 android
最近一直在做java开发，偶尔敲点android代码，突然发现有些基础给忘记了，今天用半天时间温顾一下resources的资源。 String.xml 字符串资源涉及国际化问题 http://www.2cto.com/kf/201302/190394.html string-array
接上篇补上window平台自动上传证书文件的批处理问卷酷的飞上天空 window
@echo off : host=服务器证书域名或ip，需要和部署时服务器的域名或ip一致 ou=公司名称, o=公司名称 set host=localhost set ou=localhost set o=localhost set password=123456 set validity=3650 set salias=s
企业物联网大潮涌动：如何做好准备？蓝儿唯美企业
物联网的可能性也许是无限的。要找出架构师可以做好准备的领域然后利用日益连接的世界。尽管物联网（IoT）还很新，企业架构师现在也应该为一个连接更加紧密的未来做好计划，而不是跟上闸门被打开后的集成挑战。“问题不在于物联网正在进入哪些领域，而是哪些地方物联网没有在企业推进，” Gartner研究总监Mike Walker说。 Gartner预测到2020年物联网设备安装量将达260亿，这些设备在全
spring学习——数据库（mybatis持久化框架配置） a-john mybatis
Spring提供了一组数据访问框架，集成了多种数据访问技术。无论是JDBC，iBATIS(mybatis)还是Hibernate，Spring都能够帮助消除持久化代码中单调枯燥的数据访问逻辑。可以依赖Spring来处理底层的数据访问。 mybatis是一种Spring持久化框架，要使用mybatis，就要做好相应的配置： 1，配置数据源。有很多数据源可以选择，如：DBCP，JDBC，aliba
Java静态代理、动态代理实例 aijuans Java静态代理
采用Java代理模式，代理类通过调用委托类对象的方法，来提供特定的服务。委托类需要实现一个业务接口，代理类返回委托类的实例接口对象。按照代理类的创建时期，可以分为：静态代理和动态代理。所谓静态代理：　指程序员创建好代理类，编译时直接生成代理类的字节码文件。所谓动态代理：　在程序运行时，通过反射机制动态生成代理类。一、静态代理类实例： 1、Serivce.ja
Struts1与Struts2的12点区别 asia007 Struts1与Struts2
1) 在Action实现类方面的对比：Struts 1要求Action类继承一个抽象基类；Struts 1的一个具体问题是使用抽象类编程而不是接口。Struts 2 Action类可以实现一个Action接口，也可以实现其他接口，使可选和定制的服务成为可能。Struts 2提供一个ActionSupport基类去实现常用的接口。即使Action接口不是必须实现的，只有一个包含execute方法的P
初学者要多看看帮助文档不要用js来写Jquery的代码百合不是茶 jquery js
解析json数据的时候需要将解析的数据写到文本框中, 出现了用js来写Jquery代码的问题; 1, JQuery的赋值有问题代码如下: data.username 表示的是: 网易 $("#use
经理怎么和员工搞好关系和信任 bijian1013 团队项目管理管理
产品经理应该有坚实的专业基础，这里的基础包括产品方向和产品策略的把握，包括设计，也包括对技术的理解和见识，对运营和市场的敏感，以及良好的沟通和协作能力。换言之，既然是产品经理，整个产品的方方面面都应该能摸得出门道。这也不懂那也不懂，如何让人信服？如何让自己懂？就是不断学习，不仅仅从书本中，更从平时和各种角色的沟通
如何为rich:tree不同类型节点设置右键菜单 sunjing contextMenu tree Richfaces
组合使用target和targetSelector就可以啦，如下： <rich:tree id="ruleTree" value="#{treeAction.ruleTree}" var="node" nodeType="#{node.type}" selectionChangeListener=&qu
【Redis二】Redis2.8.17搭建主从复制环境 bit1129 redis
开始使用Redis2.8.17 Redis第一篇在Redis2.4.5上搭建主从复制环境，对它的主从复制的工作机制，真正的惊呆了。不知道Redis2.8.17的主从复制机制是怎样的，Redis到了2.4.5这个版本，主从复制还做成那样，Impossible is nothing! 本篇把主从复制环境再搭一遍看看效果，这次在Unbuntu上用官方支持的版本。 Ubuntu上安装Red
JSONObject转换JSON--将Date转换为指定格式白糖_ JSONObject
项目中，经常会用JSONObject插件将JavaBean或List<JavaBean>转换为JSON格式的字符串，而JavaBean的属性有时候会有java.util.Date这个类型的时间对象，这时JSONObject默认会将Date属性转换成这样的格式： {"nanos":0,"time":-27076233600000,
JavaScript语言精粹读书笔记 braveCS JavaScript
【经典用法】： //①定义新方法 Function .prototype.method=function(name, func){ this.prototype[name]=func; return this; } //②给Object增加一个create方法，这个方法创建一个使用原对
编程之美-找符合条件的整数用字符串来表示大整数避免溢出 bylijinnan 编程之美
import java.util.LinkedList; public class FindInteger { /** * 编程之美找符合条件的整数用字符串来表示大整数避免溢出 * 题目：任意给定一个正整数N，求一个最小的正整数M(M>1)，使得N*M的十进制表示形式里只含有1和0 * * 假设当前正在搜索由0，1组成的K位十进制数
读书笔记 chengxuyuancsdn 读书笔记
1、Struts访问资源 2、把静态参数传递给一个动作 3、<result>type属性 4、s:iterator、s:if c:forEach 5、StringBuilder和StringBuffer 6、spring配置拦截器 1、访问资源 (1)通过ServletActionContext对象和实现ServletContextAware,ServletReque
[通讯与电力]光网城市建设的一些问题 comsci 问题
信号防护的问题,前面已经说过了,这里要说光网交换机与市电保障的关系我们过去用的ADSL线路,因为是电话线,在小区和街道电力中断的情况下,只要在家里用笔记本电脑+蓄电池,连接ADSL,同样可以上网........
oracle 空间RESUMABLE daizj oracle 空间不足 RESUMABLE 错误挂起
空间RESUMABLE操作转 Oracle从9i开始引入这个功能，当出现空间不足等相关的错误时，Oracle可以不是马上返回错误信息，并回滚当前的操作，而是将操作挂起，直到挂起时间超过RESUMABLE TIMEOUT，或者空间不足的错误被解决。这一篇简单介绍空间RESUMABLE的例子。第一次碰到这个特性是在一次安装9i数据库的过程中，在利用D
重构第一次写的线程池 dieslrae 线程池 python
最近没有什么学习欲望,修改之前的线程池的计划一直搁置,这几天比较闲,还是做了一次重构,由之前的2个类拆分为现在的4个类. 1、首先是工作线程类:TaskThread,此类为一个工作线程,用于完成一个工作任务,提供等待(wait),继续(proceed),绑定任务(bindTask)等方法 #!/usr/bin/env python # -*- coding:utf8 -*-
C语言学习六指针 dcj3sjt126com c
初识指针，简单示例程序： /* 指针就是地址，地址就是指针地址就是内存单元的编号指针变量是存放地址的变量指针和指针变量是两个不同的概念但是要注意：通常我们叙述时会把指针变量简称为指针，实际它们含义并不一样 */ # include <stdio.h> int main(void) { int * p; // p是变量的名字， int *
yii2 beforeSave afterSave beforeDelete dcj3sjt126com delete
public function afterSave($insert, $changedAttributes) { parent::afterSave($insert, $changedAttributes); if($insert) { //这里是新增数据 } else { //这里是更新数据 } }
timertask shuizhaosi888 timertask
java.util.Timer timer = new java.util.Timer(true); // true 说明这个timer以daemon方式运行（优先级低， // 程序结束timer也自动结束），注意，javax.swing // 包中也有一个Timer类，如果import中用到swing包， // 要注意名字的冲突。 TimerTask task = new
Spring Security（13）——session管理 234390216 session Spring Security 攻击保护超时
session管理目录 1.1 检测session超时 1.2 concurrency-control 1.3 session 固定攻击保护
公司项目NODEJS实践0.3[ mongo / session ...] 逐行分析JS源代码 mongodb session nodejs
http://www.upopen.cn 一、前言书接上回，我们搭建了WEB服务端路由、模板等功能，完成了register 通过ajax与后端的通信，今天主要完成数据与mongodb的存取，实现注册 / 登录 /
pojo.vo.po.domain区别 LiaoJuncai java VO POJO javabean domain
　　POJO = "Plain Old Java Object"，是MartinFowler等发明的一个术语，用来表示普通的Java对象，不是JavaBean, EntityBean 或者 SessionBean。POJO不但当任何特殊的角色，也不实现任何特殊的Java框架的接口如，EJB， JDBC等等。　　　　即POJO是一个简单的普通的Java对象，它包含业务逻辑
Windows Error Code OhMyCC windows
0 操作成功完成. 1 功能错误. 2 系统找不到指定的文件. 3 系统找不到指定的路径. 4 系统无法打开文件. 5 拒绝访问. 6 句柄无效. 7 存储控制块被损坏. 8 存储空间不足, 无法处理此命令. 9 存储控制块地址无效. 10 环境错误. 11 试图加载格式错误的程序. 12 访问码无效. 13 数据无效. 14 存储器不足, 无法完成此操作. 15 系
在storm集群环境下发布Topology roadrunners 集群 storm topology spout bolt
storm的topology设计和开发就略过了。本章主要来说说如何在storm的集群环境中，通过storm的管理命令来发布和管理集群中的topology。 1、打包打包插件是使用maven提供的maven-shade-plugin，详细见maven-shade-plugin。 <plugin> <groupId>org.apache.maven.
为什么不允许代码里出现“魔数” tomcat_oracle java
　　在一个新项目中，我最先做的事情之一，就是建立使用诸如Checkstyle和Findbugs之类工具的准则。目的是制定一些代码规范，以及避免通过静态代码分析就能够检测到的bug。　　迟早会有人给出案例说这样太离谱了。其中的一个案例是Checkstyle的魔数检查。它会对任何没有定义常量就使用的数字字面量给出警告，除了-1、0、1和2。　　很多开发者在这个检查方面都有问题，这可以从结果
zoj 3511 Cake Robbery(线段树) 阿尔萨斯线段树
题目链接：zoj 3511 Cake Robbery 题目大意：就是有一个N边形的蛋糕，切M刀，从中挑选一块边数最多的，保证没有两条边重叠。解题思路：有多少个顶点即为有多少条边，所以直接按照切刀切掉点的个数排序，然后用线段树维护剩下的还有哪些点。 #include <cstdio> #include <cstring> #include <vector&

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他