数据分析v

用可视化探索数据特征的N种姿势

数据可视化是指以图形或表格的形式显示信息。成功的可视化需要将数据或信息转换成可视的形式，以便能够借此分析或报告数据的特征和数据项或属性之间的关系。可视化的目标是形成可视化信息的人工解释和信息的意境模型。

导入相关模块

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import yfinance as yf
yf.pdr_override()

导入数据

symbol = 'TCEHY'
start = '2015-01-01'
end = '2021-03-31'
# 获取数据
dataset = yf.download(symbol,start,end)
# 查看列
dataset.head()

特征构造

dataset['Increase/Decrease'] = np.where(dataset['Volume'].shift(-1) > dataset['Volume'],1,0)
dataset['Buy_Sell_on_Open'] = np.where(dataset['Open'].shift(-1) > dataset['Open'],1,-1)
dataset['Buy_Sell'] = np.where(dataset['Adj Close'].shift(-1) > dataset['Adj Close'],1,-1)
dataset['Return'] = dataset['Adj Close'].pct_change()
dataset = dataset.dropna()
dataset['Class'] = np.where(dataset['Return'].shift(-1) > dataset['Return'],'Increase','Decrease')

pct_change()
表示当前元素与先前元素的相差百分比，当指定periods=n，表示当前元素与先前n个元素的相差百分比。

探索性数分析几种方法

print("Exploratory Data Analysis")
print("Dataset information") 
print(dataset.info(memory_usage='deep',verbose=False))
print(dataset.info())
print("Data type:")
print(dataset.dtypes)
print("Check unique values without NaN")
print(dataset.nunique())
print("Data shape:")
print(dataset.shape)
print("Data columns Names:")
print(dataset.columns)
print("Check for NaNs:")
print(dataset.isnull().values.any())
print("How many NaN it has in each columns?")
print(dataset.isnull().sum())
print("Data Statistics Summary:")
print(dataset.describe())

描述性统计

>>> dataset.describe().T

可视化探索数据特征

获取特征与标签

X = dataset[['Open','High','Low','Adj Close']]
Y = dataset.index

折线图探索趋势

plt.figure(figsize=(10,8))
plt.plot(X)
plt.title('Stock Line Chart')
plt.legend(X)

散点图探索相关性

散点图使用数据对象两个属性对值作为x和y坐标轴，每个数据对象都作为平面上对一个点绘制。

plt.figure(figsize=(10,8))
plt.scatter(dataset['High'], dataset['Low'])
plt.title("High vs. Low", fontsize=20)
plt.xlabel("High", fontsize=20)
plt.ylabel("Low", fontsize=20)

直方图探索分布

直方图是数值数据分布的精确图形表示。直方图通过将可能的值分散到箱中，并显示落入每个箱中到对象数，显示属性值到分布。

对于分类属性，每个值在一个箱中，如果值过多，则使用某种方法将值合并。对于连续属性，将值域划分成箱（通常是等宽）并对每个箱中对值计数。

一旦有了每个箱对计数，就可以构造条形图，每个箱用一个条形表示，并且每个条形对面积正比于落在对应区间对值对个数。如果所有对区间都是等宽对，则所有对条形对宽度相同，并且条形对高度正比于落在对应箱中值对个数。

matplotlib直方图

plt.figure(figsize=(10,8))
plt.hist(dataset['Adj Close'], bins = 50)
plt.xlabel("Adj Close")
plt.ylabel("Frequency")

Seaborn直方图

sns.distplot(X['Return'],
          # 不显示核密度估计图
             kde = False)

条形图探索大小

条形图（bar chart），也称为柱状图，是一种以长方形的长度为变量的统计图表，长方形的长度与它所对应的变量数值呈一定比例。

plt.figure(figsize=(10,8))
labels = ['Open','High','Low','Adj Close']
y_positions = range(len(labels))
plt.bar(y_positions, X.iloc[0])
plt.xticks(y_positions, labels)
plt.ylabel("Price")
plt.title("Prices Columns")

饼图探索比例

饼图直接以图形的方式直观形象地显示各个组成部分所占比例。

饼图类似于直方图，但通常用于具有相对较少的值的分类属性。饼图使用圆但相对面积显示不同值对相对频率，而不是像直方图那样使用条形图对面积或高度。

sizes = X.iloc[0]
labels = ['Open','High','Low','Adj Close']
plt.figure(figsize=(10,8))
patches,l_text,p_text=plt.pie(sizes, 
            labels = labels, 
            autopct = "%.2f")
#改变文本的大小
#方法是把每一个text遍历。调用set_size方法设置它的属性
for t in l_text:
    t.set_size(30)
for t in p_text:
    t.set_size(20)
plt.axes().set_aspect("equal")

计数直方图探索类别间计数差

>>> sns.countplot(x="Class", 
                  data=dataset)
>>> dataset.loc[:,'Class'].value_counts()
Decrease    790
Increase    781
Name: Class, dtype: int64

热力图探索相关性

数据分析中常用热力图做相关性分析。使用热力图表达会更加的明显地看出数据表里多个特征两两的相似度。下图表达相关性颜色越红的相关性越大，颜色越青的相关性越小。

sns.set_style('white')
cmap = sns.diverging_palette(220, 10, as_cmap=True)
plt.figure(figsize=(8, 6))
sns.heatmap(dataset.iloc[:dataset.shape[0]].corr(), 
            annot = True, 
            cmap = cmap)

几种多子图图形

密度图探索分布

密度图是可视化连续型随机变量分布的利器，分布曲线上的每一个点都是概率密度，分布曲线下的每一段面积都是特定情况的概率。

dataset.plot(kind='density', 
             subplots=True, 
             layout=(5,5), 
             sharex=False, 
             figsize=(15,10))

盒须图探索离散分布

箱形图Box plot又称为盒须图、盒式图、盒状图或箱线图，是一种用作显示一组数据分散情况资料的统计图。因型状如箱子而得名。

箱形图最大的优点就是不受异常值的影响，可以以一种相对稳定的方式描述数据的离散分布情况。

# 盒须图
dataset.plot(kind='box', 
             subplots=True, 
             layout=(5,5), 
             sharex=False, 
             sharey=False, 
             figsize=(10,10))

直方图

直方图是一种对数据分布情况的图形表示，是一种二维统计图表，它的两个坐标分别是统计样本和该样本对应的某个属性的度量，以长条图（bar）的形式具体表现。因为直方图的长度及宽度很适合用来表现数量上的变化，所以较容易解读差异小的数值。

分组数据字段（统计结果）映射到横轴的位置，频数字段（统计结果）映射到矩形的高度，分类数据可以设置颜色增强分类的区分度。

方法一

使用DataFrame的plot方法绘制图像会按照数据的每一列绘制一条曲线，默认按照列columns的名称在适当的位置展示图例，比matplotlib绘制节省时间，且DataFrame格式的数据更规范，方便向量化及计算。

dataset.plot(kind='hist', 
             subplots=True, 
             layout=(4,4), 
             sharex=False, 
             sharey=False,
             figsize=(10,10))

方法二

DataFrame.hist函数在DataFrame中的每个系列上调用matplotlib.pyplot.hist()，每列产生一个直方图。

dataset.hist(figsize=(10,10))
plt.show()

折线图

dataset.plot(kind='line', 
             subplots=True, 
             layout=(5,5), 
             sharex=False, 
             sharey=False, 
             figsize=(15,10))
plt.show()

pairplot探索特征间的关系

当你需要对多维数据集进行可视化时，最终都要使用矩阵图pair plot。如果想画出所有变量中任意两个变量之间的图形，用矩阵图探索多维数据不同维度间的相关性非常有效。

sns.pairplot(dataset, 
             diag_kind='kde', 
             size=2.4)

几种可交互图形

plotly二维可交互图

plotly和经典Matplotlib最大的不同是plotly可以生成交互式的数据图表。Matplotlib生成的图示静态的图，而plotly是动态的图，具体方式是plotly可以生成一个html网页，该网页基于js支持数据交互（点击、缩放、拖拽）等等交互操作。

import plotly
import chart_studio
import chart_studio.plotly as py
import plotly.graph_objs as go
chart_studio.tools.set_credentials_file(
        username='QuantPython',
        api_key='bWmf0mKJlNViBrOjDQbE')
trace = go.Candlestick(x=dataset.index,
                       open=dataset.Open,
                       high=dataset.High,
                       low=dataset.Low,
                       close=dataset.Close)
data = [trace]
py.iplot(data, filename='simple_candlestick')

plotly三维可交互图

x = dataset['Low']
y = dataset['High']
z = dataset['Adj Close']
trace1 = go.Scatter3d(
    x=x,
    y=y,
    z=z,
    mode='markers',
    marker=dict(
        size=12,
        color=z,                # 将颜色设置为所需值的数组/列表
        colorscale='YlGnBu',   
        opacity=0.8))

data = [trace1]
layout = go.Layout(margin=dict(
            l=0,r=0,
            b=0,t=0))
fig = go.Figure(data=data, layout=layout)
py.iplot(fig, filename='3d-scatter-colorscale')

bokeh二维可交互图

bokeh是一款针对现代Web浏览器呈现功能的交互式可视化库。bokeh通过Python(或其他语言)以快速简单的方式为超大型或流式数据集提供高性能交互的漂亮而且结构简单的多功能图形。

from bokeh.io import show, output_notebook
from bokeh.plotting import figure
output_notebook()
# 创建一个带有标题和轴标签的新折线图
p = figure(plot_width=400, plot_height=400)
p.line(dataset.index, dataset['Adj Close'])
# show出结果
show(p)

# 创建一个带有标签的空白图形
p = figure(plot_width = 600, plot_height = 600, 
           title = 'Stock Prices',
           x_axis_label = 'X', y_axis_label = 'Y')

# 示例数据
squares_x = dataset['Open']
squares_y = dataset['Adj Close']
circles_x = dataset['Low']
circles_y = dataset['High']

# 添加正方形
p.square(squares_x, squares_y, size = 12, color = 'navy', alpha = 0.6)
# 添加环形
p.circle(circles_x, circles_y, size = 12, color = 'red')

# 设置输出方式
output_notebook()
show(p)

几种三维绘图方法

Matplotlib创建Axes3D主要有两种方式，一种是利用关键字projection='3d'来实现，另一种则是通过从mpl_toolkits.mplot3d导入对象Axes3D来实现，目的都是生成具有三维格式的对象Axes3D。

#方法一，利用关键字
from matplotlib import pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
#定义坐标轴
fig = plt.figure()
ax1 = plt.axes(projection='3d')
#ax = fig.add_subplot(111,projection='3d')
#这种方法也可以画多个子图
#方法二，利用三维轴方法
from matplotlib import pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
#定义图像和三维格式坐标轴
fig=plt.figure()
ax2 = Axes3D(fig)

使用%matplotlib notebook使得3d图变得可交互。

# 三维散乱点数据
zdata = dataset['Adj Close']
xdata = dataset['Low']
ydata = dataset['High']
# 可以使用ax.plot3D和ax.scatter3D函数创建3d图
ax.scatter3D(xdata, ydata, zdata, c=zdata, cmap='Greens')

为三维图设置样式

x = dataset['Low']
y = dataset['High']
z = dataset['Adj Close']

# 创建画布
fig = plt.figure(figsize=(10,8))
ax = fig.add_subplot(111, projection='3d')
# 绘制3d图
pnt3d=ax.scatter(x,y,z,c=z)
cbar=plt.colorbar(pnt3d)

ax.set_title('3d Plot')
ax.set_xlabel('Low')
ax.set_ylabel('High')
ax.set_zlabel('Adj Close')
plt.show()

多个三维散点图

# 创建3d画布
fig =plt.figure(figsize=(10,8))
ax = fig.add_subplot(111, projection='3d')
n = 100

# 绘制散点图
for c, m, zl, zh in [('r', 'o', -50, -25), ('b', '^', -30, -5)]:
    x = dataset['Low']
    y = dataset['High']
    z = dataset['Adj Close']
    ax.scatter(x, y, z, c=c, marker=m)

ax.set_xlabel('Low')
ax.set_ylabel('High')
ax.set_zlabel('Adj Close')

plt.show()

`plot_trisurf`绘制3d三角形图

x = dataset['Low']
y = dataset['High']
z = dataset['Adj Close']
# 创建画布
fig =plt.figure(figsize=(10,8))
ax = fig.gca(projection='3d')

# 绘制3d三角形图
ax.plot_trisurf(x, y, z, cmap='autumn', linewidth=0.2)
plt.show()

ax.set_xlabel('Low')
ax.set_ylabel('High')
ax.set_zlabel('Adj Close')

plt.show()

# Class 是一个分类型变量
# 将其转换为数字
df_dummies = pd.get_dummies(dataset['Class'])
del df_dummies[df_dummies.columns[-1]]
df_new = pd.concat([dataset, df_dummies], axis=1)
del df_new['Class']
df_new = df_new.rename(columns={"Decrease":"Increase_Decrease"})
df_new.head()

探索特征顺序

features = dataset[['Open', 'High', 'Low', 'Volume', 
                    'Increase/Decrease', 'Buy_Sell_on_Open', 
                    'Buy_Sell', 'Return']]

X = features
y = dataset['Adj Close']

本文使用Yellowbrick来做特征排序。Yellowbrick是一个机器学习可视化库，主要依赖于sklearn机器学习库，能够提供多种机器学习算法的可视化，主要包括特征可视化，分类可视化，回归可视化，回归可视化，聚类可视化，模型选择可视化，目标可视化，文字可视化。

Yellowbrick API是专门为与scikit-learn配合使用而专门设计的。因此只需使用与scikit-learn模型相同的工作流程，导入可视化工具，实例化它，调用可视化工具的fit()方法，然后为了渲染可视化效果，调用可视化工具的show()方法。

一维显示

from yellowbrick.features import Rank1D

# 用Sharpiro排序算法实例化1D可视化器
visualizer = Rank1D(algorithm='shapiro')
visualizer.fit(X, y)
# 可视化器训练数据
visualizer.transform(X)
# Draw/show/poof数据
visualizer.poof()

二维显示

作为特征选择的一部分，希望识别彼此具有线性关系的特征，可能会在模型中引入协方差并破坏OLS（指导移除特征或使用正则化）。可以使用 Rank Features visualizer 计算所有特征对之间的 Pearson相关性。

from yellowbrick.features import Rank2D
# 用协方差排序算法实例化可视化工具
visualizer = Rank2D(algorithm='covariance')
visualizer.fit(X, y)
visualizer.transform(X)        
visualizer.poof()

以上结果显示了特征对之间的皮尔逊相关性，这样网格中的每个像元都代表了两个特征，这些特征在x和y轴上按顺序标识，并且颜色显示了相关性的大小。皮尔逊相关系数为1.0表示变量对之间存在强的正线性关系，值-1.0表示强的负线性关系（零值表示无关系）。因此，可以寻找深红色和深蓝色框以进一步识别。

在此图表中，我们看到这些特征High与Volume具有很强的相关性。使用直接数据可视化JointPlotVisualizer检查这些关系。

from yellowbrick.features import JointPlotVisualizer
visualizer = JointPlotVisualizer(columns=['High', 'Volume'])
visualizer.fit_transform(X, y)
visualizer.show()

探索特征重要性

基于Lasso回归模型

from sklearn.linear_model import Lasso
from yellowbrick.features import FeatureImportances

# 创建一个新的画布
fig = plt.figure()
ax = fig.add_subplot()
# 特征标题大小写，用于更好地显示和创建可视化工具的特性
labels = list(map(lambda s: s.title(), features))
viz = FeatureImportances(
          Lasso(), 
          ax=ax, 
          labels=labels, 
          relative=False)
viz.fit(X, y)
viz.poof()

基于梯度提升分类器

from sklearn.ensemble import GradientBoostingClassifier
from yellowbrick.features import FeatureImportances
# 数据不能是连续型
X = dataset[['Increase/Decrease', 'Buy_Sell_on_Open', 'Buy_Sell']]
y = dataset['Buy_Sell']
# 创建一个新的画布
fig = plt.figure()
ax = fig.add_subplot()
# 特征重要性
viz = FeatureImportances(GradientBoostingClassifier(), ax=ax)
viz.fit(X, y)
viz.poof()

探索分类变量

X = dataset[['Open', 'High', 'Low', 'Volume', 'Increase/Decrease', 'Buy_Sell_on_Open', 'Buy_Sell', 'Return']]
Y = dataset['Adj Close']
X.dtypes

Open                 float64
High                 float64
Low                  float64
Volume                 int64
Increase/Decrease      int32
Buy_Sell_on_Open       int32
Buy_Sell               int32
Return               float64
dtype: object

选择float数值型变量

dataset_float = dataset.select_dtypes(include=['float']).copy()
dataset_float.head()

选择int型变量

dataset_int = dataset.select_dtypes(include=['int']).copy()
dataset_int.head()

选择object型变量

dataset_object = dataset.select_dtypes(include=['object']).copy()
dataset_object.head()

	Class
Date
2015-01-02	Increase
2015-01-05	Increase
2015-01-06	Increase
2015-01-07	Decrease
2015-01-08	Decrease

几种饼图

Increase = dataset_object[dataset_object=='Increase'].count().sum().astype(float)
Decrease = dataset_object[dataset_object=='Decrease'].count().sum().astype(float)

new_dataset_object = [Increase, Decrease]
labels = ['Increase', 'Decrease']
colors = ['g', 'r']
# 只"explode"第二个饼片
explode = (0, 0.1)  
fig1, ax1 = plt.subplots()
ax1.pie(new_dataset_object, 
        explode=explode, 
        labels=labels, 
        autopct='%1.1f%%',
        shadow=True, 
        startangle=90)

# 相等的长宽比确保饼图以圆的形式绘制
ax1.axis('equal')  
plt.tight_layout()
plt.show()

饼图设置样式

new_dataset_object = [Increase, Decrease]
labels = ['Increase', 'Decrease']
colors = ['#99ff99','#ff9999']

fig1, ax1 = plt.subplots()
patches, texts, autotexts = ax1.pie(
      new_dataset_object,
      colors = colors,
      labels=labels,
      autopct='%1.1f%%',
      startangle=90)
for text in texts:
    text.set_color('grey')
for autotext in autotexts:
    autotext.set_color('grey')
ax1.axis('equal')  
plt.tight_layout()
plt.show()

环状饼图

new_dataset_object = [Increase, Decrease]
labels = ['Increase', 'Decrease']
colors = ['#99ff99','#ff9999']
explode = (0.05,0.05)
plt.pie(new_dataset_object, 
        colors = colors, 
        labels=labels, 
        autopct='%1.1f%%', 
        startangle=90, 
        pctdistance=0.85, 
        explode = explode)
# 画环状图
centre_circle = plt.Circle((0,0),0.70,fc='white')
fig = plt.gcf()
fig.gca().add_artist(centre_circle)
ax1.axis('equal')  
plt.tight_layout()
plt.show()

转自：数据STUDIO 公众号；

END

合作请加QQ：365242293

数据分析（ID : ecshujufenxi ）互联网科技与数据圈自己的微信，也是WeMedia自媒体联盟成员之一，WeMedia联盟覆盖5000万人群。

你可能感兴趣的:(可视化,python,机器学习,数据分析,数据可视化)

python 自动化数据提取之正则表达式_python 正则提取(2) m0_60607245 程序员 python 学习面试
一、Python所有方向的学习路线Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照下面的知识点去找对应的学习资源，保证自己学得较为全面。二、Python必备开发工具工具都帮大家整理好了，安装就可直接上手！三、最新Python学习笔记当我学到一定基础，有自己的理解能力的时候，会去阅读一些前辈整理的书籍或者手写的笔记资料，这些笔记详细记载了他们对一些技术点的理
GUI编程（window系统→Linux系统）诚信爱国敬业友善心得 linux python gui
最近有个项目需要将windows系统的程序往Linux系统上面移植，由于之前程序没有考虑过多平台兼容的问题，导致部分功能不可用以下是对近期遇到的问题的总结，以及相应的解决方案和经验分享。1.Python模块安装与管理在Linux系统中，安装和管理Python模块时可能会遇到权限问题或依赖冲突。安装模块：使用pip安装模块时，建议使用--user选项，避免需要管理员权限：bash复制pipinsta
spring boot基于知识图谱的阿克苏市旅游管理系统python-计算机毕业设计 QQ1963288475 spring boot 知识图谱旅游 python vue.js django flask
目录功能和技术介绍具体实现截图开发核心技术：开发环境开发步骤编译运行核心代码部分展示系统设计详细视频演示可行性论证软件测试源码获取功能和技术介绍该系统基于浏览器的方式进行访问，采用springboot集成快速开发框架，前端使用vue方式，基于es5的语法，开发工具IntelliJIDEAx64，因为该开发工具，内嵌了Tomcat服务运行机制，可不用单独下载Tomcatserver服务器。由于考虑到
淘宝/天猫店铺订单数据导出、销售报表设计与数据分析指南不会玩技术的技术girl API 数据分析人工智能数据库
在电商运营中，订单数据是店铺运营的核心资产之一。通过对订单数据的导出、整理和分析，商家可以更好地了解销售情况、优化运营策略、提升客户满意度，并制定科学的业务决策。本文将详细介绍淘宝/天猫店铺订单数据的导出方法、销售报表的设计思路以及数据分析的实用技巧，帮助电商从业者高效管理店铺数据。一、订单数据导出（一）手动导出订单数据淘宝和天猫平台提供了手动导出订单的功能，适用于数据量较小或临时性需求的场景。商
Python从0到100（三十九）：数据提取之正则（文末免费送书）是Dream呀 python mysql 开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
安心联车辆管理系统在汽车金融领域的应用安心联-车辆监控管理系统汽车金融人工智能
安心联车辆管理系统在汽车金融领域的应用主要体现在通过智能化监控与数据分析技术，提升金融风控能力、优化资产管理和降低运营风险。以下从核心功能、技术赋能和实际场景三个方面展开分析：一、核心功能适配金融场景车辆资产动态监控实时定位与电子围栏：系统基于北斗/GPS双模定位技术，可实时追踪车辆位置，并设置电子围栏限制车辆行驶区域。若车辆驶出授权范围（如贷款合同约定的使用区域），系统立即触发报警并留存轨迹证据
清华大学第四发《DeepSeek+DeepResearch 让科研像聊天一样简单》人工智能
当下科研领域，传统模式急需改变，清华大学第四版《DeepSeek+DeepResearch：让科研像聊天一样简单》全文一共86页，以下是文档的关键内容总结：一、智能组合优势DeepSeek与DeepResearch构建先进技术体系，有强大模型运算、智能数据处理和友好交互界面。模型在数据处理速度、精准度和泛化能力上远超传统模型。数据采集渠道广、处理快，能读取多种格式文件。数据分析深入，可视化直观，还
Python学习心得两大编程思想 lifegoesonwjl python 开发语言 pycharm 前端 c语言
一、两大编程思想：1.面向过程：功能上的封装典型代表：C语言2.面向对象：属性和行为上的封装典型代表：Python、Java二、面向过程与面向对象的异同点：1.区别：面向过程：事物比较简单，可用线性的思维去解决面向对象：事务比较复杂，使用简单的线性思维无法解决2.共同点：（1）面向过程和面向对象都是解决实际问题的一种思维方式；（2）二者相辅相成，并不是对立的；（3）解决复杂问题，通过面向对象方式便
Linux升级Anacodna并配置jupyterLab 伪_装环境部署 linux 服务器 Anaconda python jupyter
在使用Anaconda的过程中，随着项目和需求的发展，可能需要升级Anaconda的Base环境中的Python版本。本文将详细介绍如何安全地进行升级，包括步骤、代码示例与最终流程图。升级Python一、环境准备在进行任何升级之前，建议先检查当前的Python版本以及各个库的兼容性。我们可以通过以下命令检查当前的Python版本：condainfo你会看到类似以下的输出，其中包含了当前Python
【Linux】删除Conda虚拟环境不是伍壹 Linux linux conda 运维
1、查看当前系统的conda虚拟环境condainfo--envscondaenvlist2、创建虚拟的环境condacreate-n（你的环境名字）python=（你需要的版本号，如（3.7,3.8,3.10））3、查看安装了哪些包condalist4、删除虚拟环境condaremove-nname--all5、删除虚拟环境中的包condaremove--name$（需要删除的环境名字）$（需要
动态规划之背包问题--python版本我是小码搬运工 #python基础动态规划背包问题 python版本
动态规划之背包问题–python版本问题已知一个最大量的背包，给定一组给定固定价值和固定体积的物品，求在不超过最大值的前提下，能放入背包中的最大总价值。解题思路该问题是典型的动态规划问题，分为三种不同的类型（0-1背包问题、完全背包和多重背包问题）解题关键–状态转移表达式：B(k,C)=max(B(k−1,C),B(k−1,C−ci)+vi)B(k,C)=max(B(k-1,C),B(k-1,C-
（九万字）面向2025年BOSS直聘人工智能算法工程师高频面试题解析快撑死的鱼人工智能回归 python pytorch
面向2025年BOSS直聘人工智能算法工程师高频面试题解析1.机器学习（ML）理论解析机器学习是让计算机从数据中学习规律的一套方法论，包含监督学习、无监督学习和强化学习等范式。在监督学习中，给定带标签的数据，算法尝试学习从输入到输出的映射关系；无监督学习则在缺乏标签的情况下挖掘数据内在结构；强化学习则让智能体通过与环境交互、依据奖赏反馈来改进策略(Q-learning-Wikipedia)。机器学
Centos7 搭建 Jupyter + Nginx 服务某龙兄 python nginx linux centos
JupyterNotebook（此前被称为IPythonnotebook）是一个交互式笔记本，支持运行40多种编程语言。JupyterNotebook的本质是一个Web应用程序，便于创建和共享文学化程序文档，支持实时代码，数学方程，可视化和markdown。用途包括：数据清理和转换，数值模拟，统计建模，机器学习等等。本文讲述如何搭建Jupyter+Nginx服务,仅供学习与交流，请勿用于商业用途一
人工智能与机器学习入门：基尼系数（Gini Index）和基于熵（Entropy）基尼系数基于熵机器学习入门
在决策树应用一文中，在构建决策分类树应用决策算法时，介绍了基尼系数（GiniIndex）和基于熵（Entropy）两种算法。本文通过实例来更加深入的介绍一下这两个算法。仍然以简单的数据为例：id喜欢颜色是否有喉结身高性别1绿否165女2蓝是170男3粉否172女4绿是175男基尼系数分别对喜欢颜色是否有喉结求基尼系数如下：喜欢的颜色id喜欢颜色性别1绿女2蓝男3粉女4绿男对于姓别女分类而言，数据如
智能化工作流：探索顶尖工作流管理软件的核心优势团队协作工具
工作流管理软件是一种用于规划、执行和监控业务流程的软件应用程序。以下是关于工作流管理软件的详细介绍：一、定义与功能工作流管理软件旨在帮助团队和企业优化工作流程，提高工作效率。它通常包括任务分配、进度追踪、团队协作、自动化流程、数据分析等功能。通过这类软件，企业可以更好地管理内部流程，确保任务的顺利进行，并实时监控项目的进展情况。二、主要软件推荐板栗看板：可视化管理与团队协作的利器核心功能：板栗看板
动态规划之背包问题的Python实现名侦探debug Python 数据结构 python 数据结构动态规划求解
目录1.问题描述2.动态规划之网格法3.python实现1.问题描述题目来源于《算法图解》第9章练习题9.2，如下图所示。对于背包问题，通常的做法有列举法、贪婪算法和动态规划（1）列举法：列举出所有的可能情况，再选择最优解，但当情况很多时，这种算法复杂度很高（2）贪婪算法：在容量允许范围内，每次都拿剩余物品中价值最高的，贪婪算法能够快速解决复杂度很高的问题，但通常得到的是次优解，但就对这个题目而言
总结10个Python赚钱的接单平台兼职月入5000+ begefefsef 面试学习路线阿里巴巴 android 前端后端
前言“如果说当下什么编程语言最靠谱或者比较适合搞副业？”答案肯定100%是：Pythonpython是所有语法中最简单易上手的语言，不需要特别的的英语词汇量，逻辑思维也不需要很差就能上手。而且学会了之后就能编写代码爬取各种数据，制作各种图表，提升工作效率。而且还能利用业余时间接点私活，一个月轻松收入过万不是问题，这样的生活他不香吗？今天就给大家盘点几个基本入门接私活的资源，让你轻松学python，
大学生学完python靠几个接单网站兼职，实现经济独立「已注销」 python 开发语言
大学生学完python靠几个接单网站兼职，实现经济独立程序员就是当今时代的手艺人，程序员可以通过个人的技术来谋生。而在工作之余接私单可以作为一种创富的途径，受到程序员的广泛认可。说句实在话，现在这个时代，很多人仅靠主业顶多维持基本生活，想让自己、家人生活好一点很难。我接的私活并不算多，加起来也就几万左右，只能算一半，我想把一些经验分享出来，毕竟现在生活都不容易，能赚一点是一点。一、程序员接活、新手
Conda 常用命令全解析 melck conda
在Windows系统中，Conda是一款功能强大的包管理和环境管理工具，尤其对于数据分析、科学计算等场景有着重要的作用。本文将详细介绍Conda在Windows系统中的常用命令，帮助你高效地管理虚拟环境和软件包。一、环境管理命令1.1查看Conda版本conda--version该命令用于确认Conda是否成功安装以及查看其版本号。这对于确保Conda的兼容性和功能性非常重要。1.2创建新环境co
Python wifi 安装手机app yichengace python
目的当测试机数量越来越多时，测试包的安装会成为一个问题，用wifi安装来解决这个问题，并且用脚本语言来批量控制思路思路就是py调用pc端的adb命令，向手机发送请求，无线是因为，如果未来测试机越来越多，一台电脑的usb接口数量肯定不够准备工具python，adb，pycharm，测试用app，这里选择qq（https://qd.myapp.com/myapp/qqteam/AndroidQQ/mo
深度学习之目标检测的常用标注工具铭瑾熙人工智能机器学习深度学习深度学习目标检测目标跟踪
1LabelImgLabelImg是一款开源的图像标注工具，标签可用于分类和目标检测，它是用Python编写的，并使用Qt作为其图形界面，简单好用。注释以PASCALVOC格式保存为XML文件，这是ImageNet使用的格式。此外，它还支持COCO数据集格式。2labelmelabelme是一款开源的图像/视频标注工具，标签可用于目标检测、分割和分类。灵感是来自于MIT开源的一款标注工具Label
Python 舆论风向分析爬虫：全流程数据获取、清洗与情感剖析西攻城狮北 python 爬虫开发语言实战案例
引言在当今信息爆炸的时代，互联网上充斥着海量的用户言论和观点。了解舆论风向对于企业、政府机构以及研究者等具有重要的意义，可以帮助他们及时把握公众情绪、调整策略与决策。Python作为一种强大的编程语言，在数据爬取与分析方面具有得天独厚的优势，能够助力我们高效地实现舆情监测与深入剖析。一、环境搭建与目标确定1.环境搭建为了顺利完成爬虫与数据分析任务，首先需要确保你的开发环境已经安装了以下Python
PyCharm 集成 DeepSeek：本地运行 or API 直连？打造你的 AI 编程神器！ AI云极【AI智能系列】pycharm 人工智能 ide deepseek
在AI赋能编程的时代，如何让AI辅助写代码，提升开发效率？DeepSeek作为一款开源、强大、免费的AI编程助手，结合PyCharm，能够大幅提升Python编程体验。今天，我们就来详细讲解如何在PyCharm中接入DeepSeek，无论你想使用本地部署的DeepSeek，还是官方API版本，都能轻松实现！为什么选择DeepSeek+PyCharm？DeepSeekR1采用6710亿参数的MoE（
Python3.5源码分析-sys模块及site模块导入小屋子大侠 python Python分析 python源码
Python3源码分析本文环境python3.5.2。参考书籍>python官网Python3的sys模块初始化根据分析完成builtins初始化后，继续分析sys模块的初始化，继续分析_Py_InitializeEx_Private函数的执行，void_Py_InitializeEx_Private(intinstall_sigs,intinstall_importlib){...sysmod=
产品架构图怎么画？看这篇就够了！小天才学习机打游戏 caffe 人工智能深度学习 AI编程金融 prompt 机器学习
1.什么是产品架构图?产品是由不同的业务功能单元组成的，功能单元之间又有一定逻辑关系，将这些功能单元和它们的逻辑关系以可视化形式展现出来就是产品架构图，这张图最重要的作用就是在产品规划阶段帮助各方快速建立这个产品画像。立项评审时这个图必不可少，产品最后做出来长么样，大家就对着这张图yy了田所以如何画出一张各方(领导、研发、测试)都看得懂的产品架构图就很考验功力。2.怎么画?产品架构图一般由上至下分
【CUDA】Pytorch_Extensions joker D888 深度学习 pytorch python cuda c++深度学习
【CUDA】Pytorch_Extensions为什么要开发CUDA扩展？当我们在PyTorch中实现自定义算子时，通常有两种选择：使用纯Python实现（简单但效率低）使用C++/CUDA扩展（高效但需要编译）对于计算密集型的操作（如神经网络中的自定义激活函数），使用CUDA扩展可以获得接近硬件极限的性能。本文将以实现一个多项式激活函数x²+x+1为例，展示完整的开发流程。完整CUDA扩展代码解
Labelbox：引领AI与人类协作的未来魏兴雄Milburn
Labelbox：引领AI与人类协作的未来labelbox-pythonLabelboxPythonClient项目地址:https://gitcode.com/gh_mirrors/la/labelbox-python项目介绍Labelbox是一款专为企业和学术研究社区设计的开源工具，旨在简化数据标注、生成高质量的人类反馈数据、评估和提升模型性能，并通过无缝结合AI与人类工作流程来自动化任务。无
基于python使用scanpy分析单细胞转录组数据探序基因单细胞分析 python 开发语言
探序基因肿瘤研究院整理相关后缀的格式介绍：.h5ad：是一种用于存储单细胞数据的文件格式，可以通过anndata库在Python中处理.loom：高效的数据存储格式（.loom文件），使得用户可以轻松地存储、查询和分析大规模的单细胞数据集。Loompy的设计目标是提供一个快速、灵活且易于使用的工具，以支持生物信息学家和研究人员在单细胞水平上进行数据分析。python的单细胞转录组数据结构说明：da
TCP 握手数据包分析 inquisiter tcp/ip 网络 linux
一、客户端数据分析：spu@spu:~/code/pcap$tcpdump-rclient_all.pcap-Xreadingfromfileclient_all.pcap,link-typeEN10MB(Ethernet)17:58:56.346748IP192.168.1.178.55814>192.168.1.117.socks:Flags[S],seq2615205588,win64240
本地搭建小型 DeepSeek 并进行微调非著名架构师大模型知识文档智能硬件人工智能大数据大模型 deepseek
本文将指导您在本地搭建一个小型的DeepSeek模型，并进行微调，以处理您的特定数据。1.环境准备Python3.7或更高版本PyTorch1.8或更高版本CUDA(可选，用于GPU加速)Git2.克隆DeepSeek仓库bash复制gitclonehttps://github.com/deepseek-ai/deepseek.gitcddeepseek3.安装依赖bash复制pipinstall
java责任链模式 3213213333332132 java 责任链模式村民告县长
责任链模式，通常就是一个请求从最低级开始往上层层的请求，当在某一层满足条件时，请求将被处理，当请求到最高层仍未满足时，则请求不会被处理。就是一个请求在这个链条的责任范围内，会被相应的处理，如果超出链条的责任范围外，请求不会被相应的处理。下面代码模拟这样的效果：创建一个政府抽象类,方便所有的具体政府部门继承它。 package 责任链模式; /** *
linux、mysql、nginx、tomcat 性能参数优化 ronin47
一、linux 系统内核参数 /etc/sysctl.conf文件常用参数 net.core.netdev_max_backlog = 32768 #允许送到队列的数据包的最大数目 net.core.rmem_max = 8388608 #SOCKET读缓存区大小 net.core.wmem_max = 8388608 #SOCKET写缓存区大
php命令行界面 dcj3sjt126com PHP cli
常用选项 php -v php -i PHP安装的有关信息 php -h 访问帮助文件 php -m 列出编译到当前PHP安装的所有模块执行一段代码 php -r 'echo "hello, world!";' php -r 'echo "Hello, World!\n";' php -r '$ts = filemtime("
Filter&Session 171815164 session
Filter HttpServletRequest requ = (HttpServletRequest) req; HttpSession session = requ.getSession(); if (session.getAttribute("admin") == null) { PrintWriter out = res.ge
连接池与Spring,Hibernate结合 g21121 Hibernate
前几篇关于Java连接池的介绍都是基于Java应用的，而我们常用的场景是与Spring和ORM框架结合，下面就利用实例学习一下这方面的配置。 1.下载相关内容： &nb
[简单]mybatis判断数字类型 53873039oycg mybatis
昨天同事反馈mybatis保存不了int类型的属性,一直报错，错误信息如下: Caused by: java.lang.NumberFormatException: For input string: "null" at sun.mis
项目启动时或者启动后ava.lang.OutOfMemoryError: PermGen space 程序员是怎么炼成的 eclipse jvm tomcat catalina.sh eclipse.ini
在启动比较大的项目时，因为存在大量的jsp页面，所以在编译的时候会生成很多的.class文件，.class文件是都会被加载到jvm的方法区中，如果要加载的class文件很多，就会出现方法区溢出异常 java.lang.OutOfMemoryError: PermGen space. 解决办法是点击eclipse里的tomcat，在
我的crm小结 aijuans crm
各种原因吧，crm今天才完了。主要是接触了几个新技术： Struts2、poi、ibatis这几个都是以前的项目中用过的。 Jsf、tapestry是这次新接触的，都是界面层的框架，用起来也不难。思路和struts不太一样，传说比较简单方便。不过个人感觉还是struts用着顺手啊，当然springmvc也很顺手，不知道是因为习惯还是什么。jsf和tapestry应用的时候需要知道他们的标签、主
spring里配置使用hibernate的二级缓存几步 antonyup_2006 java spring Hibernate xml cache
．在spring的配置文件中 applicationContent.xml，hibernate部分加入 xml 代码 <prop key="hibernate.cache.provider_class">org.hibernate.cache.EhCacheProvider</prop> <prop key="hi
JAVA基础面试题百合不是茶抽象实现接口 String类接口继承抽象类继承实体类自定义异常
/* * 栈（stack）：主要保存基本类型（或者叫内置类型）（char、byte、short、 *int、long、 float、double、boolean）和对象的引用，数据可以共享，速度仅次于 * 寄存器（register），快于堆。堆（heap）：用于存储对象。 */ &
让sqlmap文件 "继承" 起来 bijian1013 java ibatis sqlmap
多个项目中使用ibatis , 和数据库表对应的 sqlmap文件（增删改查等基本语句)，dao, pojo 都是由工具自动生成的, 现在将这些自动生成的文件放在一个单独的工程中，其它项目工程中通过jar包来引用，并通过"继承"为基础的sqlmap文件，dao,pojo 添加新的方法来满足项
精通Oracle10编程SQL(13)开发触发器 bijian1013 oracle 数据库 plsql
/* *开发触发器 */ --得到日期是周几 select to_char(sysdate+4,'DY','nls_date_language=AMERICAN') from dual; select to_char(sysdate,'DY','nls_date_language=AMERICAN') from dual; --建立BEFORE语句触发器 CREATE O
【EhCache三】EhCache查询 bit1129 ehcache
本文介绍EhCache查询缓存中数据，EhCache提供了类似Hibernate的查询API，可以按照给定的条件进行查询。要对EhCache进行查询，需要在ehcache.xml中设定要查询的属性数据准备 @Before public void setUp() { //加载EhCache配置文件 Inpu
CXF框架入门实例白糖_ spring Web 框架 webservice servlet
CXF是apache旗下的开源框架，由Celtix + XFire这两门经典的框架合成，是一套非常流行的web service框架。它提供了JAX-WS的全面支持，并且可以根据实际项目的需要，采用代码优先（Code First）或者 WSDL 优先（WSDL First）来轻松地实现 Web Services 的发布和使用，同时它能与spring进行完美结合。在apache cxf官网提供
angular.equals boyitech AngularJS AngularJS API AnguarJS 中文API angular.equals
angular.equals 描述: 比较两个值或者两个对象是不是相等。还支持值的类型，正则表达式和数组的比较。两个值或对象被认为是相等的前提条件是以下的情况至少能满足一项：两个值或者对象能通过=== （恒等）的比较两个值或者对象是同样类型，并且他们的属性都能通过angular
java-腾讯暑期实习生-输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A[0]*A[1]*...*A[i-1]*A[i+1] bylijinnan java
这道题的具体思路请参看何海涛的微博：http://weibo.com/zhedahht import java.math.BigInteger; import java.util.Arrays; public class CreateBFromATencent { /** * 题目：输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A
FastDFS 的安装和配置修订版 Chen.H linux fastDFS 分布式文件系统
FastDFS Home:http://code.google.com/p/fastdfs/ 1. 安装 http://code.google.com/p/fastdfs/wiki/Setup http://hi.baidu.com/leolance/blog/item/3c273327978ae55f93580703.html 安装libevent (对libevent的版本要求为1.4.
[强人工智能]拓扑扫描与自适应构造器 comsci 人工智能
当我们面对一个有限拓扑网络的时候,在对已知的拓扑结构进行分析之后,发现在连通点之后,还存在若干个子网络,且这些网络的结构是未知的,数据库中并未存在这些网络的拓扑结构数据....这个时候,我们该怎么办呢? 那么,现在我们必须设计新的模块和代码包来处理上面的问题
oracle merge into的用法 daizj oracle sql merget into
Oracle中merge into的使用 http://blog.csdn.net/yuzhic/article/details/1896878 http://blog.csdn.net/macle2010/article/details/5980965 该命令使用一条语句从一个或者多个数据源中完成对表的更新和插入数据. ORACLE 9i 中，使用此命令必须同时指定UPDATE 和INSE
不适合使用Hadoop的场景 datamachine hadoop
转自：http://dev.yesky.com/296/35381296.shtml。　　Hadoop通常被认定是能够帮助你解决所有问题的唯一方案。当人们提到“大数据”或是“数据分析”等相关问题的时候，会听到脱口而出的回答：Hadoop! 实际上Hadoop被设计和建造出来，是用来解决一系列特定问题的。对某些问题来说，Hadoop至多算是一个不好的选择，对另一些问题来说，选择Ha
YII findAll的用法 dcj3sjt126com yii
看文档比较糊涂，其实挺简单的： $predictions=Prediction::model()->findAll("uid=:uid",array(":uid"=>10)); 第一个参数是选择条件：”uid=10″。其中:uid是一个占位符，在后面的array(“:uid”=>10)对齐进行了赋值；更完善的查询需要
vim 常用 NERDTree 快捷键 dcj3sjt126com vim
下面给大家整理了一些vim NERDTree的常用快捷键了，这里几乎包括了所有的快捷键了，希望文章对各位会带来帮助。切换工作台和目录 ctrl + w + h 光标 focus 左侧树形目录ctrl + w + l 光标 focus 右侧文件显示窗口ctrl + w + w 光标自动在左右侧窗口切换ctrl + w + r 移动当前窗口的布局位置 o 在已有窗口中打开文件、目录或书签，并跳
Java把目录下的文件打印出来蕃薯耀列出目录下的文件文件夹下面的文件目录下的文件
Java把目录下的文件打印出来 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月11日 11:02:
linux远程桌面----VNCServer与rdesktop hanqunfeng Desktop
windows远程桌面到linux，需要在linux上安装vncserver，并开启vnc服务，同时需要在windows下使用vnc-viewer访问Linux。vncserver同时支持linux远程桌面到linux。 linux远程桌面到windows，需要在linux上安装rdesktop，同时开启windows的远程桌面访问。下面分别介绍，以windo
guava中的join和split功能 jackyrong java
guava库中，包含了很好的join和split的功能，例子如下： 1）将LIST转换为使用字符串连接的字符串 List<String> names = Lists.newArrayList("John", "Jane", "Adam", "Tom");
Web开发技术十年发展历程 lampcy android Web 浏览器 html5
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
架构师之mima-----------------mina的非NIO控制IOBuffer(说得比较好) nannan408 buffer
1.前言。如题。 2.代码。 IoService IoService是一个接口，有两种实现：IoAcceptor和IoConnector；其中IoAcceptor是针对Server端的实现，IoConnector是针对Client端的实现；IoService的职责包括： 1、监听器管理 2、IoHandler 3、IoSession
ORA-00054:resource busy and acquire with NOWAIT specified Everyday都不同 oracle session Lock
[Oracle] 今天对一个数据量很大的表进行操作时，出现如题所示的异常。此时表明数据库的事务处于“忙”的状态，而且被lock了，所以必须先关闭占用的session。 step1，查看被lock的session： select t2.username, t2.sid, t2.serial#, t2.logon_time from v$locked_obj
javascript学习笔记 tntxia JavaScript
javascript里面有6种基本类型的值:number、string、boolean、object、function和undefined。number：就是数字值，包括整数、小数、NaN、正负无穷。string:字符串类型、单双引号引起来的内容。boolean:true、false object:表示所有的javascript对象，不用多说function:我们熟悉的方法，也就是
Java enum的用法详解 xieke90 enum 枚举
Java中枚举实现的分析：示例： public static enum SEVERITY{ INFO,WARN,ERROR } enum很像特殊的class，实际上enum声明定义的类型就是一个类。而这些类都是类库中Enum类的子类 (java.l