Python数据科学

数据探索很麻烦？推荐一款史上最强大的特征分析可视化工具：yellowbrick

作者：xiaoyu

微信公众号：Python数据科学

知乎：python数据分析师

前言

玩过建模的朋友都知道，在建立模型之前有很长的一段特征工程工作要做，而在特征工程的过程中，探索性数据分析又是必不可少的一部分，因为如果我们要对各个特征进行细致的分析，那么必然会进行一些可视化以辅助我们来做选择和判断。
可视化的工具有很多，但是能够针对特征探索性分析而进行专门可视化的不多，今天给大家介绍一款功能十分强大的工具：yellowbrick，希望通过这个工具的辅助可以节省更多探索的时间，快速掌握特征信息。

功能

雷达 RadViz
RadViz雷达图是一种多变量数据可视化算法，它围绕圆周均匀地分布每个特征，并且标准化了每个特征值。一般数据科学家使用此方法来检测类之间的关联。例如，是否有机会从特征集中学习一些东西或是否有太多的噪音？

# Load the classification data set
data = load_data("occupancy")

# Specify the features of interest and the classes of the target
features = ["temperature", "relative humidity", "light", "C02", "humidity"]
classes = ["unoccupied", "occupied"]

# Extract the instances and target
X = data[features]
y = data.occupancy

# Import the visualizer
from yellowbrick.features import RadViz

# Instantiate the visualizer
visualizer = RadViz(classes=classes, features=features)

visualizer.fit(X, y)      # Fit the data to the visualizer
visualizer.transform(X)   # Transform the data
visualizer.poof()         # Draw/show/poof the data

从上面雷达图可以看出5个维度中，温度对于目标类的影响是比较大的。

一维排序 Rank 1D

特征的一维排序利用排名算法，仅考虑单个特征，默认情况下使用Shapiro-Wilk算法来评估与特征相关的实例分布的正态性，然后绘制一个条形图，显示每个特征的相对等级。

from yellowbrick.features import Rank1D

# Instantiate the 1D visualizer with the Sharpiro ranking algorithm
visualizer = Rank1D(features=features, algorithm='shapiro')

visualizer.fit(X, y)                # Fit the data to the visualizer
visualizer.transform(X)             # Transform the data
visualizer.poof()                   # Draw/show/poof the data

PCA Projection

PCA分解可视化利用主成分分析将高维数据分解为二维或三维，以便可以在散点图中绘制每个实例。PCA的使用意味着可以沿主要变化轴分析投影数据集，并且可以解释该数据集以确定是否可以利用球面距离度量。

双重图 Biplot

PCA投影可以增强到双点，其点是投影实例，其矢量表示高维空间中数据的结构。通过使用proj_features = True标志，数据集中每个要素的向量将在散点图上以该要素的最大方差方向绘制。这些结构可用于分析特征对分解的重要性或查找相关方差的特征以供进一步分析。

# Load the classification data set
data = load_data('concrete')

# Specify the features of interest and the target
target = "strength"
features = [
    'cement', 'slag', 'ash', 'water', 'splast', 'coarse', 'fine', 'age'
]

# Extract the instance data and the target
X = data[features]
y = data[target]

visualizer = PCADecomposition(scale=True, proj_features=True)
visualizer.fit_transform(X, y)
visualizer.poof()

特征重要性 Feature Importance

特征工程过程涉及选择生成有效模型所需的最小特征，因为模型包含的特征越多，它就越复杂（数据越稀疏），因此模型对方差的误差越敏感。消除特征的常用方法是描述它们对模型的相对重要性，然后消除弱特征或特征组合并重新评估以确定模型在交叉验证期间是否更好。
在scikit-learn中，Decision Tree模型和树的集合（如Random Forest，Gradient Boosting和AdaBoost）在拟合时提供feature_importances_属性。Yellowbrick FeatureImportances可视化工具利用此属性对相对重要性进行排名和绘制。

import matplotlib.pyplot as plt

from sklearn.ensemble import GradientBoostingClassifier

from yellowbrick.features.importances import FeatureImportances

# Create a new matplotlib figure
fig = plt.figure()
ax = fig.add_subplot()

viz = FeatureImportances(GradientBoostingClassifier(), ax=ax)
viz.fit(X, y)
viz.poof()

递归特征消除 Recursive Feature Elimination

递归特征消除（RFE）是一种特征选择方法，它训练模型并删除最弱的特征（或多个特征），直到达到指定数量的特征。特征按模型的coef_或feature_importances_属性排序，并通过递归消除每个循环的少量特征，RFE尝试消除模型中可能存在的依赖性和共线性。
RFE需要保留指定数量的特征，但事先通常不知道有多少特征有效。为了找到最佳数量的特征，交叉验证与RFE一起用于对不同的特征子集进行评分，并选择最佳评分特征集合。RFECV可视化绘制模型中的特征数量以及它们的交叉验证测试分数和可变性，并可视化所选数量的特征。

from sklearn.svm import SVC
from sklearn.datasets import make_classification

from yellowbrick.features import RFECV

# Create a dataset with only 3 informative features
X, y = make_classification(
    n_samples=1000, n_features=25, n_informative=3, n_redundant=2,
    n_repeated=0, n_classes=8, n_clusters_per_class=1, random_state=0
)

# Create RFECV visualizer with linear SVM classifier
viz = RFECV(SVC(kernel='linear', C=1))
viz.fit(X, y)
viz.poof()

该图显示了理想的RFECV曲线，当捕获三个信息特征时，曲线跳跃到极好的准确度，然后随着非信息特征被添加到模型中，精度逐渐降低。阴影区域表示交叉验证的可变性，一个标准偏差高于和低于曲线绘制的平均精度得分。
下面是一个真实数据集，我们可以看到RFECV对信用违约二元分类器的影响。

from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import StratifiedKFold

df = load_data('credit')

target = 'default'
features = [col for col in data.columns if col != target]

X = data[features]
y = data[target]

cv = StratifiedKFold(5)
oz = RFECV(RandomForestClassifier(), cv=cv, scoring='f1_weighted')

oz.fit(X, y)
oz.poof()

在这个例子中，我们可以看到选择了19个特征，尽管在大约5个特征之后模型的f1分数似乎没有太大改善。选择要消除的特征在确定每个递归的结果中起着重要作用；修改步骤参数以在每个步骤中消除多个特征可能有助于尽早消除最差特征，增强其余特征（并且还可用于加速具有大量特征的数据集的特征消除）。

残差图 Residuals Plot

在回归模型的上下文中，残差是目标变量（y）的观测值与预测值（ŷ）之间的差异，例如，预测的错误。残差图显示垂直轴上的残差与水平轴上的因变量之间的差异，允许检测目标中可能容易出错或多或少的误差的区域。

from sklearn.linear_model import Ridge
from yellowbrick.regressor import ResidualsPlot

# Instantiate the linear model and visualizer
ridge = Ridge()
visualizer = ResidualsPlot(ridge)

visualizer.fit(X_train, y_train)  # Fit the training data to the model
visualizer.score(X_test, y_test)  # Evaluate the model on the test data
visualizer.poof()                 # Draw/show/poof the data

正则化 Alpha Selection

正则化旨在惩罚模型复杂性，因此α越高，模型越复杂，由于方差（过度拟合）而减少误差。另一方面，太高的Alpha会因偏差（欠调）而增加误差。因此，重要的是选择最佳α，以便在两个方向上最小化误差。 AlphaSelection Visualizer演示了不同的α值如何影响线性模型正则化过程中的模型选择。一般而言，α增加了正则化的影响，例如，如果alpha为零，则没有正则化，α越高，正则化参数对最终模型的影响越大。

import numpy as np

from sklearn.linear_model import LassoCV
from yellowbrick.regressor import AlphaSelection

# Create a list of alphas to cross-validate against
alphas = np.logspace(-10, 1, 400)

# Instantiate the linear model and visualizer
model = LassoCV(alphas=alphas)
visualizer = AlphaSelection(model)

visualizer.fit(X, y)
g = visualizer.poof()

分类预测误差 Class Prediction Error

类预测误差图提供了一种快速了解分类器在预测正确类别方面有多好的方法。

from sklearn.ensemble import RandomForestClassifier

from yellowbrick.classifier import ClassPredictionError

# Instantiate the classification model and visualizer
visualizer = ClassPredictionError(
    RandomForestClassifier(), classes=classes
)

# Fit the training data to the visualizer
visualizer.fit(X_train, y_train)

# Evaluate the model on the test data
visualizer.score(X_test, y_test)

# Draw visualization
g = visualizer.poof()

当然也同时有分类评估指标的可视化，包括混淆矩阵、AUC/ROC、召回率/精准率等等。

二分类辨别阈值 Discrimination Threshold

关于二元分类器的辨别阈值的精度，召回，f1分数和queue rate的可视化。辨别阈值是在阴性类别上选择正类别的概率或分数。通常，将其设置为50％，但可以调整阈值以增加或降低对误报或其他应用因素的敏感度。

from sklearn.linear_model import LogisticRegression
from yellowbrick.classifier import DiscriminationThreshold

# Instantiate the classification model and visualizer
logistic = LogisticRegression()
visualizer = DiscriminationThreshold(logistic)

visualizer.fit(X, y)  # Fit the training data to the visualizer
visualizer.poof()     # Draw/show/poof the data

聚类肘部法则 Elbow Method

KElbowVisualizer实现了“肘部”法则，通过使模型具有K的一系列值来帮助数据科学家选择最佳簇数。如果折线图类似于手臂，那么“肘”（拐点）就是曲线）是一个很好的迹象，表明基础模型最适合那一点。

在下面的示例中，KElbowVisualizer在具有8个随机点集的样本二维数据集上适合KMeans模型，以获得4到11的K值范围。当模型适合8个聚类时，我们可以在图中看到“肘部”，在这种情况下，我们知道它是最佳数字。

from sklearn.datasets import make_blobs

# Create synthetic dataset with 8 random clusters
X, y = make_blobs(centers=8, n_features=12, shuffle=True, random_state=42)

from sklearn.cluster import KMeans
from yellowbrick.cluster import KElbowVisualizer

# Instantiate the clustering model and visualizer
model = KMeans()
visualizer = KElbowVisualizer(model, k=(4,12))

visualizer.fit(X)    # Fit the data to the visualizer
visualizer.poof()    # Draw/show/poof the data

集群间距离图 Intercluster Distance Maps

集群间距离地图以2维方式显示集群中心的嵌入，并保留与其他中心的距离。例如。中心越靠近可视化，它们就越接近原始特征空间。根据评分指标调整集群的大小。默认情况下，它们按内部数据的多少，例如属于每个中心的实例数。这给出了集群的相对重要性。但请注意，由于两个聚类在2D空间中重叠，因此并不意味着它们在原始特征空间中重叠。

from sklearn.datasets import make_blobs

# Make 12 blobs dataset
X, y = make_blobs(centers=12, n_samples=1000, n_features=16, shuffle=True)

from sklearn.cluster import KMeans
from yellowbrick.cluster import InterclusterDistance

# Instantiate the clustering model and visualizer
visualizer = InterclusterDistance(KMeans(9))

visualizer.fit(X) # Fit the training data to the visualizer
visualizer.poof() # Draw/show/poof the data

模型选择-学习曲线 Learning Curve

学习曲线基于不同数量的训练样本，检验模型训练分数与交叉验证测试分数的关系。这种可视化通常用来表达两件事：

1. 模型会不会随着数据量增多而效果变好

2. 模型对偏差和方差哪个更加敏感

下面是利用yellowbrick生成的学习曲线可视化图。该学习曲线对于分类、回归和聚类都可以适用。

模型选择-验证曲线 Validation Curve

模型验证用于确定模型对其已经过训练的数据的有效性以及它对新输入的泛化程度。为了测量模型的性能，我们首先将数据集拆分为训练和测试，将模型拟合到训练数据上并在保留的测试数据上进行评分。

为了最大化分数，必须选择模型的超参数，以便最好地允许模型在指定的特征空间中操作。大多数模型都有多个超参数，选择这些参数组合的最佳方法是使用网格搜索。然而，绘制单个超参数对训练和测试数据的影响有时是有用的，以确定模型是否对某些超参数值不适合或过度拟合。

import numpy as np

from sklearn.tree import DecisionTreeRegressor
from yellowbrick.model_selection import ValidationCurve

# Load a regression dataset
data = load_data('energy')

# Specify features of interest and the target
targets = ["heating load", "cooling load"]
features = [col for col in data.columns if col not in targets]

# Extract the instances and target
X = data[features]
y = data[targets[0]]

viz = ValidationCurve(
    DecisionTreeRegressor(), param_name="max_depth",
    param_range=np.arange(1, 11), cv=10, scoring="r2"
)

# Fit and poof the visualizer
viz.fit(X, y)
viz.poof()

总结

个人认为yellowbrick这个工具非常好，一是因为解决了特征工程和建模过程中的可视化问题，极大地简化了操作；二是通过各种可视化也可以补充自己对建模的一些盲区。

本篇仅展示了建模中部分可视化功能，详细的完整功能请参考：

https://www.scikit-yb.org/en/latest/index.html

推荐阅读

还记得当年你是如何接触Python的吗？

贫穷限制想象：数据解析3460家上市公司高管年薪

向Excel说再见，神级编辑器统一表格与Python

创建 Python 虚拟环境venv bdawn python python 开发语言虚拟环境 venv pip activate 3.3
创建Python虚拟环境是一个很好的实践，可以帮助我们管理项目的依赖项，避免不同项目之间的冲突。以下是使用venv模块创建Python虚拟环境的详细步骤：使用venv模块创建虚拟环境venv是Python自带的模块，从Python3.3开始可用。以下是具体步骤：1.创建虚拟环境假设你要在当前目录下创建一个名为myenv的虚拟环境，可以使用以下命令：python-mvenvmyenvpython：确
python网络爬虫selenium(1) 2401_84009529 程序员 python 爬虫 selenium
pipinstallselenium以Chrom浏览器为例，安装相应版本的chromdriver驱动程序，并添加为环境变量安装链接：安装chromdriver2.常用属性和方法===============================================================================fromseleniumimportwebdriverimport
用Python爬虫获取微博热搜词：数据抓取、分析与可视化全流程 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 selenium
引言微博作为中国最受欢迎的社交平台之一，每时每刻都在更新着海量的内容。其中，微博热搜词反映了用户关注的热点话题、社会事件及潮流趋势。对于数据分析、情感分析以及趋势预测等领域，获取微博热搜数据是一个非常有价值的任务。在本篇博客中，我们将详细介绍如何使用Python爬虫技术获取微博的热搜词，并进行数据分析和可视化。通过全流程的讲解，帮助你了解如何通过爬虫技术抓取并分析微博热搜词数据。一、爬虫技术概述与
【Python】深入探讨Python中的单例模式：元类与装饰器实现方式分析与代码示例蒙娜丽宁 Python杂谈 python 单例模式开发语言
《PythonOpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界单例模式（SingletonPattern）是一种常见的设计模式，它确保一个类只有一个实例，并提供一个全局访问点。在Python中，实现单例模式的方式多种多样，包括基于装饰器、元类和模块级别的单例实现。本文将详细探讨这些实现方式，并通过大量代码示例进行演
Python的Tkinter模块 Cc_zhH GUI开发 python
大纲Tkinte组件在Python的Tkinter模块中，有许多组件可用于构建图形用户界面。下面是一些常用的Tkinter组件，并将它们以表格形式展示，同时提供简要的说明。组件名称描述用途Tk主窗口类，用于创建应用程序的主窗口。创建应用程序的主界面。Frame容器组件，用于组织其他组件。组织界面布局，将相关组件组合在一起。Button按钮组件，用于触发事件。创建用户交互的按钮。Label标签组件，
Python编程练习题及解析（49题） Selina .a python教程 python 开发语言算法
1.打印Hello,World!题目：打印字符串"Hello,World!"。解析：print("Hello,World!")2.计算两个数的和题目：计算两个数a和b的和。解析：a=5b=3print(a+b)3.判断奇偶性题目：判断一个数是否为偶数。解析：num=4ifnum%2==0:print(f"{num}是偶数")else:print(f"{num}是奇数")4.列表反转题目：反转一个列
python etree模块所有函数详解_09.XML处理之etree模块 weixin_39878401 python etree模块所有函数详解
本主题主要说明python的xml处理标准模块xml.etree的使用。xml.etree模块包含4个子模块，其中cElementTree是ElementTree的别名，已经不推荐使用。本主题主要包含内容：1.ElementInclude模块使用2.ElementPath模块使用3.ElementTree模块使用一、etree模块帮助importxml.etreehelp(xml.etree)He
自动化办公python脚本_Python自动化办公 weixin_39834281 自动化办公python脚本
在公司购买的OA系统上，很多功能都是软件商开发好的，如果有什么自定义的需求，也很难实现。现实情况下需要将一个工单的各类信息汇总整理为一份Excel，看似简单的需求，却需要在OA系统上反复点击多次，人工汇总。本章我们看看如何使用Python爬虫帮同事解决这个问题的。点击工单号之后才可以看到更多信息一、技术路线requests_html二、环境准备fromrequests_htmlimportHTML
东南大学研究生-数值分析上机题（2023）Python 6 常微分方程数值解法天空的蓝耀 python
常微分方程初值问题数值解6.1题目编制RK4方法的通用程序；编制AB4方法的通用程序（由RK4提供初值）；编制AB4-AM4预测校正方法通用程序（由RK4提供初值）；编制带改进的AB4-AM4预测校正方法通用程序（由RK4提供初值）；对于初值问题{y′=−x2y2,0≤x≤1.5,y(0)=3\begin{cases}y'=-x^{2}y^{2},&0\leqx\leq1.5,\\y(0)=3&\
东南大学研究生-数值分析上机题（2023）Python 1 绪论天空的蓝耀 python
舍入误差与有效数1.1题目设SN=∑j=2N1j2−1S_N=\sum\limits_{j=2}^{N}\displaystyle\frac{1}{j^2-1}SN=j=2∑Nj2−11其精确值为12(23−1N−1N+1)\displaystyle\frac{1}{2}\left(\frac{2}{3}-\frac{1}{N}-\frac{1}{N+1}\right)21(32−N1−N+11)
【人工智能 | 大数据】基于人工智能的大数据分析方法用心去追梦人工智能大数据数据分析
基于人工智能（AI）的大数据分析方法是指利用机器学习、深度学习和其他AI技术来分析和处理大规模数据集。这些方法能够自动识别模式、提取有用信息，并做出预测或决策，从而帮助企业和组织更好地理解市场趋势、客户行为以及其他关键因素。以下是几种主要的基于AI的大数据分析方法：机器学习模型：通过训练算法让计算机从历史数据中学习并做出预测或分类。常见的机器学习技术包括监督学习（如回归分析、支持向量机）、非监督学
hive电影数据分析系统 Springboot协同过滤-余弦函数推荐系统爬虫2万+数据大屏数据展示 + [手把手视频教程和开发文档] QQ-1305637939 毕业设计大数据毕设计算机毕业设计 hive spring boot 爬虫
hive电影数据分析Springboot协同过滤-余弦函数推荐系统爬虫2万+数据大屏数据展示+[手把手视频教程和开发文档]【功能介绍】1.java爬取【豆瓣电影】网站中电影数据,保存为data.csv文件,数据量2万+2.data.csv上传到hadoop集群环境3.MR数据清洗data.csv4.Hive汇总处理,将Hive处理的结果数据保存到本地Mysql数据库中5.Springboot+Vu
hadoop电影数据分析系统 Springboot协同过滤-余弦函数推荐系统爬虫2万+数据大屏数据展示 + [手把手视频教程和开发文档] QQ-1305637939 计算机毕业设计毕业设计大数据毕设 hadoop spring boot 爬虫
全套视频教程全套开发文档hadoop电影数据分析系统Springboot协同过滤-余弦函数推荐系统爬虫2万+数据大屏数据展示【Hadoop项目】1.java爬取【豆瓣电影】网站中电影数据,保存为data.csv文件,数据量2万+2.data.csv上传到hadoop集群环境3.data.csv数据清洗4.MR数据汇总处理,将Reduce的结果数据保存到本地Mysql数据库中5.Springboot
spark电影数据分析系统 Springboot协同过滤-余弦函数推荐系统爬虫2万+数据大屏数据展示 + [手把手视频教程和开发文档] QQ-1305637939 毕业设计大数据毕设计算机毕业设计 spark spring boot 爬虫大数据电影推荐电影分析
spark电影数据分析系统Springboot协同过滤-余弦函数推荐系统爬虫2万+数据大屏数据展示+[手把手视频教程和开发文档【功能介绍】1.java爬取【豆瓣电影】网站中电影数据,保存为data.csv文件,数据量2万+2.data.csv上传到hadoop集群环境3.MR数据清洗data.csv4.Spark汇总处理,将Spark处理的结果数据保存到本地Mysql数据库中5.Springboo
hadoop图书数据分析系统 Springboot协同过滤-余弦函数推荐系统爬虫1万+数据大屏数据展示 + [手把手视频教程和开发文档] QQ-1305637939 毕业设计大数据毕设图书数据分析 hadoop spring boot 爬虫
hadoop图书数据分析系统Springboot协同过滤-余弦函数推荐系统爬虫1万+数据大屏数据展示+[手把手视频教程和开发文档]【亮点功能】1.Springboot+Vue+Element-UI+Mysql前后端分离2.Echarts图表统计数据,直观展示数据情况3.发表评论后，用户可以回复评论,回复的评论可以被再次回复,一级评论可以添加图片附件4.爬虫图书数据1万+5.推荐图书列表展示,推荐图
Python正则表达式详解程序员老华正则表达式 python 开发语言深度学习数据分析
正则表达式是一个很强大的字符串处理工具，几乎任何关于字符串的操作都可以使用正则表达式来完成，作为一个爬虫工作者，每天和字符串打交道，正则表达式更是不可或缺的技能，正则表达式的在不同的语言中使用方式可能不一样，不过只要学会了任意一门语言的正则表达式用法，其他语言中大部分也只是换了个函数的名称而已，本质都是一样的。下面，我来介绍一下python中的正则表达式是怎么使用的。首先，python中的正则表达
Python爬虫工具BeautifulSoup使用详解闲人陈二狗 python 爬虫 beautifulsoup
目录一、模块简介二、方法利用1、安装beautifulsoup2、引入模块3、选择解析器解析指定内容三、具体利用1、获取拥有指定属性的标签2、获取标签的属性值3、获取标签中的内容4、stripped_strings四、输出1、格式化输出prettify()2、get_text()一、模块简介BeautifulSoup是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换
用Python 实现简易多人聊天软件（类似于QQ原型） kouweizhu python
一、设计思路：通过引入socket模块，threading模块，生成服务器端和客户端代码，分别打包成两个EXE文件，将服务器EXE运行于服务器端（可以在阿里云申请试用的云服务器）实现简单的多人聊天室功能。二、客户端：客户端代码思路：主线程：1)连接服务器2）开一个线程，接收消息3）循环给服务器发消息子线程：不断接收消息fromsocketimport*importthreadings=socket
Python·Jupyter Notebook各种使用方法 dujiahei Python基础课程 python jupyter 开发语言
转自：Python·JupyterNotebook各种使用方法-简书一、JupyterNoteBook的安装1.1新版本Anaconda自带Jupyter目前，最新版本的Anaconda是自带JupyterNoteBook的，不需要再单独安装1.2老版本Anacodna需自己安装JupyterJupyterNotebook安装的官方网站安装JupyterNotebook的先决条件：已经安装了pyt
Python 发展趋势：与 Rust 深度融合、更易于编写 Web 应用 Python猫 rust python 开发语言后端
大家好，我是猫哥，好久不见！2022年末的时候，我不可避免地阳了，借着身体不舒服就停更了，接踵而至的是元旦和春节假期，又给自己放了假，连年终总结也鸽了，一懈怠就到了2月中旬……现在是我家娃出生的第三个月，全家人大部分的时间和精力都在他身上，结果是幸福与疲累共存。新生儿是那么的可爱，又是那么的“吵闹”，影响着我们的情绪和生活节奏。这三个月的基调跟过去的日子完全不同，它是新一年的开始，是未来日子的底色
Python自动化|几秒提取成千上百个Excel指定数据,你学废了吗？ Python子木_ Python学习 Python入门 python 大数据 python入门 python学习 python基础 python教程 python教学
在数据密集的工作环境中,我们经常需要从多个Excel文件中提取指定的数据.这种重复性的工作不仅枯燥,还非常耗时.今天,我将分享如何使用Python实现从成千上万个Excel文件中自动提取数据的方法,让你几秒钟完成5000分钟的工作,彻底告别枯燥重复工作.这里插播一条粉丝福利，如果你正在学习Python或者有计划学习Python，想要突破自我，对未来十分迷茫的，可以点击这里获取最新的Python学习
基于MATLAB机器学习、深度学习实践技术应用梦想的初衷~ 机器学习人工智能 matlab 机器学习深度学习
近年来，MATLAB在机器学习和深度学习领域的发展取得了显著成就。其强大的计算能力和灵活的编程环境使其成为科研人员和工程师的首选工具。在无人驾驶汽车、医学影像智能诊疗、ImageNet竞赛等热门领域，MATLAB提供了丰富的算法库和工具箱，极大地推动了人工智能技术的应用和创新。原文链接https://mp.weixin.qq.com/s?__biz=Mzg2NDYxNjMyNA==&mid=224
如何使用 Python 进行文件读写操作？ python
大家好，我是V哥。今天的内容来介绍Python中进行文件读写操作的方法，这在学习Python时是必不可少的技术点，希望可以帮助到正在学习python的小伙伴。以下是Python中进行文件读写操作的基本方法：一、文件读取：#打开文件withopen('example.txt','r')asfile:#读取文件的全部内容content=file.read()print(content)#将文件指针重置
《CPython Internals》阅读笔记：p285-p328 python
《CPythonInternals》学习第15天，p285-p328总结，总计44页。一、技术总结1.shallowcomparisonp285,InObjectsobject.c,thebaseimplementationoftheobjecttypeiswritteninpureCcode.Therearesomeconcreteimplementationsofbasiclogic,like
Python增强办公效率的11个实用代码段，零基础入门到精通，收藏这一篇就够了 Python_chichi 互联网程序员网络安全 python java 大数据
引言在日常工作中，许多任务可以通过编程自动化来提高效率。本文将介绍一些实用的Python脚本，用于批量创建文件夹、重命名文件、处理Excel数据、合并PDF文件等。这些工具能显著减少重复性工作，提升工作效率。1.快速生成批量文件夹工作中经常需要创建多个文件夹来分类存储不同类型的文件。手动创建不仅耗时还容易出错。利用Python可以快速生成批量文件夹。importosdefcreate_folder
大数据组件之Azkaban简介努力的小星星大数据 linux 运维数据结构
一、Azkaban介绍1.1背景一个完整的大数据分析系统，必然由很多任务单元(如数据收集、数据清洗、数据存储、数据分析等)组成，所有的任务单元及其之间的依赖关系组成了复杂的工作流。复杂的工作流管理涉及到很多问题：如何定时调度某个任务？如何在某个任务执行完成后再去执行另一个任务？如何在任务失败时候发出预警？......面对这些问题，工作流调度系统应运而生。Azkaban就是其中之一。1.2功能Azk
分析-MQ消息队列中间件-在IM即时通讯系统的用途酱油瓶啤酒杯中间件分布式队列 kafka
MQ消息队列在IM即时通讯的用途1）用户聊天消息的离线存储环节：因为IM消息的发送属于高吞吐场景，直接操作DB可能会让DB崩溃，所有离线消息在落地入库前，可以先扔到MQ消息队列中，再由单独部署的消费者来有节奏地存储到DB中；２)用户的行为数据收集环节：因为用户的聊天消息和指令等，可以用于大数据分析，而且基于国家监管要求也是必须要存储一段时间的，所以此类数据的收集同样可以用于MQ消息队列，再由单独部
降维算法：主成分分析一个人在码代码的章鱼数学建模机器学习概率论
主成分分析一种常用的数据分析技术，主要用于数据降维，在众多领域如统计学、机器学习、信号处理等都有广泛应用。主成分分析是一种通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量（即主成分）的方法。这些主成分按照方差从大到小排列，方差越大，包含的原始数据信息越多。通常会选取前几个方差较大的主成分，以达到在尽量保留原始数据信息的前提下降低数据维度的目的。它通过将多个指标转换为少数几个主成分,
Python爬虫天气预报（小白入门）(1) 2401_84009993 程序员 python 爬虫开发语言
首先来到目标数据的网页http://www.weather.com.cn/weather40d/101280701.shtml中国天气网我们可以看到，我们需要的天气数据都是放在图表上的，在切换月份的时候，发现只有部分页面刷新了，就是天气数据的那块，而URL没有变化。这是因为网页前端使用了JS异步加载的技术，更新时不用加载整个页面，从而提升了网页的加载速度。对于这种非静态页面，我们在请求数据时，就不
Python 一行命令部署http、ftp服务程序员
Python一行命令部署http服务[TOC]具体操作命令如下这个比nginx相对来说更加简单，可以用于部署特殊场景时如银行等部署时，各种权限控制，内网之间可以分发部署包。首先进入需要访问下载对应目录root@raspberrypi:~$cdtmpfile如果Python版本为2.x，输入命令python-mSimpleHTTPServer80如果Python版本为3.x，输入命令python-m
Java序列化进阶篇 g21121 java序列化
1.transient 类一旦实现了Serializable 接口即被声明为可序列化，然而某些情况下并不是所有的属性都需要序列化，想要人为的去阻止这些属性被序列化，就需要用到transient 关键字。
escape()、encodeURI()、encodeURIComponent()区别详解 aigo JavaScript Web
原文：http://blog.sina.com.cn/s/blog_4586764e0101khi0.html JavaScript中有三个可以对字符串编码的函数，分别是： escape,encodeURI,encodeURIComponent，相应3个解码函数：,decodeURI,decodeURIComponent 。下面简单介绍一下它们的区别 1 escape()函
ArcgisEngine实现对地图的放大、缩小和平移 Cb123456 添加矢量数据对地图的放大、缩小和平移 Engine
ArcgisEngine实现对地图的放大、缩小和平移: 个人觉得是平移，不过网上的都是漫游，通俗的说就是把一个地图对象从一边拉到另一边而已。就看人说话吧. 具体实现: 一、引入命名空间 using ESRI.ArcGIS.Geometry; using ESRI.ArcGIS.Controls; 二、代码实现.
Java集合框架概述天子之骄 Java集合框架概述
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
旗正4.0页面跳转传值问题何必如此 java jsp
跳转和成功提示 a) 成功字段非空forward 成功字段非空forward，不会弹出成功字段，为jsp转发，页面能超链接传值,传输变量时需要拼接。接拼接方式list.jsp?test="+strweightUnit+"或list.jsp?test="+weightUnit+&qu
全网唯一:移动互联网服务器端开发课程 cocos2d-x小菜 web开发移动开发移动端开发移动互联程序员
移动互联网时代来了！ App市场爆发式增长为Web开发程序员带来新一轮机遇，近两年新增创业者，几乎全部选择了移动互联网项目！传统互联网企业中超过98%的门户网站已经或者正在从单一的网站入口转向PC、手机、Pad、智能电视等多端全平台兼容体系。据统计，AppStore中超过85%的App项目都选择了PHP作为后端程
Log4J通用配置|注意问题笔记 7454103 DAO apache tomcat log4j Web
关于日志的等级那些去百度就知道了！这几天要搭个新框架配置了日志记下来！做个备忘！ #这里定义能显示到的最低级别,若定义到INFO级别,则看不到DEBUG级别的信息了~! log4j.rootLogger=INFO,allLog # DAO层 log记录到dao.log 控制台和总日志文件 log4j.logger.DAO=INFO,dao,C
SQLServer TCP/IP 连接失败问题 ---SQL Server Configuration Manager darkranger sql c windows SQL Server XP
当你安装完之后,连接数据库的时候可能会发现你的TCP/IP 没有启动.. 发现需要启动客户端协议 : TCP/IP 需要打开 SQL Server Configuration Manager... 却发现无法打开 SQL Server Configuration Manager..?? 解决方法: C:\WINDOWS\system32目录搜索framedyn.
[置顶] 做有中国特色的程序员 aijuans 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有些技术书读得可
document.domain 跨域问题 avords document
document.domain用来得到当前网页的域名。比如在地址栏里输入：javascript:alert(document.domain); //www.315ta.com我们也可以给document.domain属性赋值，不过是有限制的，你只能赋成当前的域名或者基础域名。比如：javascript:alert(document.domain = "315ta.com");
关于管理软件的一些思考 houxinyou 管理
工作好多看年了,一直在做管理软件,不知道是我最开始做的时候产生了一些惯性的思维,还是现在接触的管理软件水平有所下降.换过好多年公司,越来越感觉现在的管理软件做的越来越乱. 在我看来,管理软件不论是以前的结构化编程,还是现在的面向对象编程,不管是CS模式,还是BS模式.模块的划分是很重要的.当然,模块的划分有很多种方式.我只是以我自己的划分方式来说一下. 做为管理软件,就像现在讲究MVC这
NoSQL数据库之Redis数据库管理(String类型和hash类型) bijian1013 redis 数据库 NoSQL
一.Redis的数据类型 1.String类型及操作 String是最简单的类型，一个key对应一个value，string类型是二进制安全的。Redis的string可以包含任何数据，比如jpg图片或者序列化的对象。 Set方法：设置key对应的值为string类型的value
Tomcat 一些技巧征客丶 java tomcat dos
以下操作都是在windows 环境下一、Tomcat 启动时配置 JAVA_HOME 在 tomcat 安装目录，bin 文件夹下的 catalina.bat 或 setclasspath.bat 中添加 set JAVA_HOME=JAVA 安装目录 set JRE_HOME=JAVA 安装目录/jre 即可；二、查看Tomcat 版本在 tomcat 安装目
【Spark七十二】Spark的日志配置 bit1129 spark
在测试Spark Streaming时，大量的日志显示到控制台，影响了Spark Streaming程序代码的输出结果的查看(代码中通过println将输出打印到控制台上)，可以通过修改Spark的日志配置的方式，不让Spark Streaming把它的日志显示在console 在Spark的conf目录下，把log4j.properties.template修改为log4j.p
Haskell版冒泡排序 bookjovi 冒泡排序 haskell
面试的时候问的比较多的算法题要么是binary search，要么是冒泡排序，真的不想用写C写冒泡排序了，贴上个Haskell版的，思维简单，代码简单，下次谁要是再要我用C写冒泡排序，直接上个haskell版的，让他自己去理解吧。 sort [] = [] sort [x] = [x] sort (x:x1:xs) | x>x1 = x1:so
java 路径配置文件读取 bro_feng java
这几天做一个项目，关于路径做如下笔记，有需要供参考。取工程内的文件，一般都要用相对路径，这个自然不用多说。在src统计目录建配置文件目录res,在res中放入配置文件。读取文件使用方式： 1. MyTest.class.getResourceAsStream("/res/xx.properties") 2. properties.load(MyTest.
读《研磨设计模式》-代码笔记-简单工厂模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 个人理解：简单工厂模式就是IOC; * 客户端要用到某一对象，本来是由客户创建的，现在改成由工厂创建，客户直接取就好了 */ interface IProduct {
SVN与JIRA的关联 chenyu19891124 SVN
SVN与JIRA的关联一直都没能装成功，今天凝聚心思花了一天时间整合好了。下面是自己整理的步骤：一、搭建好SVN环境，尤其是要把SVN的服务注册成系统服务二、装好JIRA，自己用是jira-4.3.4破解版三、下载SVN与JIRA的插件并解压，然后拷贝插件包下lib包里的三个jar，放到Atlassian\JIRA 4.3.4\atlassian-jira\WEB-INF\lib下，再
JWFDv0.96 最新设计思路 comsci 数据结构算法工作企业应用公告
随着工作流技术的发展，工作流产品的应用范围也不断的在扩展，开始进入了像金融行业(我已经看到国有四大商业银行的工作流产品招标公告了)，实时生产控制和其它比较重要的工程领域，而
vi 保存复制内容格式粘贴 daizj vi 粘贴复制保存原格式不变形
vi是linux中非常好用的文本编辑工具，功能强大无比，但对于复制带有缩进格式的内容时，粘贴的时候内容错位很严重，不会按照复制时的格式排版，vi能不能在粘贴时，按复制进的格式进行粘贴呢？答案是肯定的，vi有一个很强大的命令可以实现此功能。在命令模式输入:set paste，则进入paste模式，这样再进行粘贴时
shell脚本运行时报错误：/bin/bash^M: bad interpreter 的解决办法 dongwei_6688 shell脚本
出现原因：windows上写的脚本，直接拷贝到linux系统上运行由于格式不兼容导致解决办法： 1. 比如文件名为myshell.sh，vim myshell.sh 2. 执行vim中的命令 : set ff?查看文件格式，如果显示fileformat=dos，证明文件格式有问题 3. 执行vim中的命令 :set fileformat=unix 将文件格式改过来就可以了，然后:w
高一上学期难记忆单词 dcj3sjt126com word english
honest 诚实的；正直的 argue 争论 classical 古典的 hammer 锤子 share 分享；共有 sorrow 悲哀；悲痛 adventure 冒险 error 错误；差错 closet 壁橱；储藏室 pronounce 发音；宣告 repeat 重做；重复 majority 大多数；大半 native 本国的，本地的，本国
hibernate查询返回DTO对象，DTO封装了多个pojo对象的属性 frankco POJO hibernate查询 DTO
DTO-数据传输对象；pojo-最纯粹的java对象与数据库中的表一一对应。简单讲：DTO起到业务数据的传递作用，pojo则与持久层数据库打交道。有时候我们需要查询返回DTO对象，因为DTO
Partition List hcx2013 partition
Given a linked list and a value x, partition it such that all nodes less than x come before nodes greater than or equal to x. You should preserve the original relative order of th
Spring MVC测试框架详解——客户端测试 jinnianshilongnian
上一篇《Spring MVC测试框架详解——服务端测试》已经介绍了服务端测试，接下来再看看如果测试Rest客户端，对于客户端测试以前经常使用的方法是启动一个内嵌的jetty/tomcat容器，然后发送真实的请求到相应的控制器；这种方式的缺点就是速度慢；自Spring 3.2开始提供了对RestTemplate的模拟服务器测试方式，也就是说使用RestTemplate测试时无须启动服务器，而是模拟一
关于推荐个人观点 liyonghui160com 推荐系统关于推荐个人观点
回想起来，我也做推荐了3年多了，最近公司做了调整招聘了很多算法工程师，以为需要多么高大上的算法才能搭建起来的，从实践中走过来，我只想说【不是这样的】第一次接触推荐系统是在四年前入职的时候，那时候，机器学习和大数据都是没有的概念，什么大数据处理开源软件根本不存在，我们用多台计算机web程序记录用户行为，用.net的w
不间断旋转的动画 pangyulei 动画
CABasicAnimation* rotationAnimation; rotationAnimation = [CABasicAnimation animationWithKeyPath:@"transform.rotation.z"]; rotationAnimation.toValue = [NSNumber numberWithFloat: M
自定义annotation sha1064616837 java enum annotation reflect
对象有的属性在页面上可编辑，有的属性在页面只可读，以前都是我们在页面上写死的，时间一久有时候会混乱，此处通过自定义annotation在类属性中定义。越来越发现Java的Annotation真心很强大，可以帮我们省去很多代码，让代码看上去简洁。下面这个例子主要用到了 1.自定义annotation：@interface，以及几个配合着自定义注解使用的几个注解 2.简单的反射 3.枚举
Spring 源码 up2pu spring
1.Spring源代码 https://github.com/SpringSource/spring-framework/branches/3.2.x 注：兼容svn检出 2.运行脚本 import-into-eclipse.bat 注：需要设置JAVA_HOME为jdk 1.7 build.gradle compileJava { sourceCompatibilit
利用word分词来计算文本相似度 yangshangchuan word word分词文本相似度余弦相似度简单共有词
word分词提供了多种文本相似度计算方式：方式一：余弦相似度，通过计算两个向量的夹角余弦值来评估他们的相似度实现类：org.apdplat.word.analysis.CosineTextSimilarity 用法如下： String text1 = "我爱购物"; String text2 = "我爱读书"; String text3 =