Atom_QQ2022313691

《机器学习实战》加利福尼亚州房屋价格数据结构与可视化

小试牛刀

刚买到《机器学习实战》这本书，爱不释手。但是里面在调试第二章的第一处代码的时候就出现了问题，所以将一些调试结果与对其理解写在下面。

一、导入数据

由于网站的数据难以下载，数据 $c s v$ 文件已经被我保存下来，百度网盘链接：https://pan.baidu.com/s/18g57CsRp5_3hYEYzjK69Vw，提取码：cg1f
数据下载下来后，在桌面创建一个文件夹，将 $c s v$ 文件放入其中，另外新建一个记事本，后缀改为 $. p y$ 文件，打开即可进行操作。这就是数据文件的前几行。

大致来看这个数据集的描述特征：longitude（纬度），latitude（经度），housing_median_age（房屋中位使用年限），total_rooms（总房间数），total_bedrooms（总卧室数），population（人口），households（家庭），median_income（平均收入），median_house_value（房屋均价），ocean_proximity（邻近海么）。翻译水平有限O_O，大致看懂了什么意思就行，一共是 $20640$ 行数据。

二、快速查看数据结构

2.1 查看数据文件形式

以下操作均在 $P y t h o n C o n s o l e$ 下进行。

import pandas as pd
def load_housing_data(): #导入房屋数据并且返回一个pd对象
    housing_data = 'housing.csv'
    data = pd.read_csv(housing_data)
    return data
  
housing = load_housing_data()
housing.head()#调取数据前五行

   longitude  latitude  ...  median_house_value  ocean_proximity
0    -122.23     37.88  ...              452600         NEAR BAY
1    -122.22     37.86  ...              358500         NEAR BAY
2    -122.24     37.85  ...              352100         NEAR BAY
3    -122.25     37.85  ...              341300         NEAR BAY
4    -122.25     37.85  ...              342200         NEAR BAY

这里读取数据可能会出现读取不完全的情况。

longitude latitude … median_house_value ocean_proximity
0 -122.23 37.88 … 452600 NEAR BAY
1 -122.22 37.86 … 358500 NEAR BAY
2 -122.24 37.85 … 352100 NEAR BAY
3 -122.25 37.85 … 341300 NEAR BAY
4 -122.25 37.85 … 342200 NEAR BAY

在命令行里重新加入这两句就可以输出完全了。

pd.set_option('display.max_columns', None)#显示所有列
pd.set_option('display.max_rows', None)#显示所有行

2.2 查看数据空值数量

通过info()方法可以快速获取数据集的简单描述，特别是总行数，每个属性的类型和非空值的数量。

housing.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20640 entries, 0 to 20639
Data columns (total 10 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   longitude           20640 non-null  float64
 1   latitude            20640 non-null  float64
 2   housing_median_age  20640 non-null  int64  
 3   total_rooms         20640 non-null  int64  
 4   total_bedrooms      20433 non-null  float64
 5   population          20640 non-null  int64  
 6   households          20640 non-null  int64  
 7   median_income       20640 non-null  float64
 8   median_house_value  20640 non-null  int64  
 9   ocean_proximity     20640 non-null  object 
dtypes: float64(4), int64(5), object(1)
memory usage: 1.6+ MB

我们可以看到total_bedrooms中Non-NULL Count数量为 $20433$ ，翻一翻数据文件的确存在几个空数据。

2.3 查看数据分类情况

在整个数据文件中，我们会发现除了最后一列为object属性外，其余属性均为int64，float64，那么现在我们想查看一下这个object其中到底有什么属性，后面绿色的数字是指属性出现的次数。

housing["ocean_proximity"].value_counts() #ocean_proximity为属性标签

<1H OCEAN     9136
INLAND        6551
NEAR OCEAN    2658
NEAR BAY      2290

2.4 数值属性的摘要

这里有数量，平均值，标准差，最小值，四分之一中位数等，不做过多解释了。

housing.describe()

       total_bedrooms    population    households  median_income  median_house_value  
count    20433.000000  20640.000000  20640.000000   20640.000000   20640.000000  
mean       537.870553   1425.476744    499.539680       3.870671   206855.816909  
std        421.385070   1132.462122    382.329753       1.899822   115395.615874  
min          1.000000      3.000000      1.000000       0.499900     14999.000000  
25%        296.000000    787.000000    280.000000       2.563400   119600.000000  
50%        435.000000   1166.000000    409.000000       3.534800    179700.000000  
75%        647.000000   1725.000000    605.000000       4.743250   264725.000000  
max       6445.000000  35682.000000   6082.000000      15.000100   500001.000000

2.5 直方图展示

关于hist()函数
函数功能：在x轴上绘制定量数据的分布特征（用于连续数据，而柱状图用于离散数据）
这个可以体现数据的分布情况，画的图还不错

import matplotlib.pyplot as plt
housing.hist(bins=50,figsize=(20,15))
plt.show()

三、创建测试集

3.1 创建测试集

创建测试集非常简单：只需要随机选择一些实例，通常是数据集的 $20$ %，然后将他们放在一边：

import numpy as np
def split_train_test(data,test_ratio):
    shuffled_indices=np.random.permutation(len(data))#
    test_set_size=int(len(data)*test_ratio)#
    test_indices=shuffled_indices[test_set_size]#
    train_indices=shuffled_indices[test_set_size:]#
    return data.iloc[train_indices],data.iloc[test_indices]#

train_set,test_set=split_train_test(housing,0.2)
print(len(train_set),"train + ",len(test_set),"test")

16512 train +  4128 test

np.random.permutitation()每次会产生不同的顺序集，再运行一遍又会产生不同数据集。这是创建测试集需要避免的。常见的解决方法是每个实例都是用一个标识符（identifier）来决定是否进入测试集（假定每个实例都有一个唯一且不变的标识符）。实现方式如下：

import numpy as np
import hashlib
def test_set_check(identifier,test_ratio,hash):
    return hash(np.int64(identifier)).digest()[-1]<256*test_ratio

def split_train_test_by_id(data,test_ratio,id_column,hash=hashlib.md5):
    ids = data[id_column]
    in_test_set=ids.apply(lambda id_:test_set_check(id_,test_ratio,hash))
    return data.loc[~in_test_set],data.loc[in_test_set]

housing_with_id = housing.reset_index()#使用行索引作为ID
train_set,test_set=split_train_test_by_id(housing_with_id,0.2,"index")

>>> train_set
       index  longitude  ...  median_house_value  ocean_proximity
0          0    -122.23  ...              452600         NEAR BAY
1          1    -122.22  ...              358500         NEAR BAY
2          2    -122.24  ...              352100         NEAR BAY
3          3    -122.25  ...              341300         NEAR BAY
6          6    -122.25  ...              299200         NEAR BAY
...      ...        ...  ...                 ...              ...
20634  20634    -121.56  ...              116800           INLAND
20635  20635    -121.09  ...               78100           INLAND
20636  20636    -121.21  ...               77100           INLAND
20638  20638    -121.32  ...               84700           INLAND
20639  20639    -121.24  ...               89400           INLAND

>>> test_set
       index  longitude  ...  median_house_value  ocean_proximity
4          4    -122.25  ...              342200         NEAR BAY
5          5    -122.25  ...              269700         NEAR BAY
11        11    -122.26  ...              241800         NEAR BAY
20        20    -122.27  ...              147500         NEAR BAY
23        23    -122.27  ...               99700         NEAR BAY
...      ...        ...  ...                 ...              ...
20619  20619    -121.56  ...               99100           INLAND
20625  20625    -121.52  ...               72000           INLAND
20632  20632    -121.45  ...              115600           INLAND
20633  20633    -121.53  ...               98300           INLAND
20637  20637    -121.22  ...               92300           INLAND

如果使用行索引作为唯一标识符，你需要确保在数据集的末尾添加新数据，并且不会删除任何行，如果不能保证这点，那么可以尝试使用某个最稳定的特征来创建唯一标识符。例如，一个地区的经纬度肯定几百万年都不会变，所以可以将它们组合成如下的 $I D$ ：

housing_with_id["id"] = housing["longitude"] *1000+housing["latitude"]
train_set,test_set=split_train_test_by_id(housing_with_id,0.2,"id")

>>> train_set
      index  longitude  ...  ocean_proximity         id
0          0    -122.23  ...         NEAR BAY -122192.12
1          1    -122.22  ...         NEAR BAY -122182.14
2          2    -122.24  ...         NEAR BAY -122202.15
3          3    -122.25  ...         NEAR BAY -122212.15
4          4    -122.25  ...         NEAR BAY -122212.15
...      ...        ...  ...              ...        ...
20634  20634    -121.56  ...           INLAND -121520.73
20635  20635    -121.09  ...           INLAND -121050.52
20637  20637    -121.22  ...           INLAND -121180.57
20638  20638    -121.32  ...           INLAND -121280.57
20639  20639    -121.24  ...           INLAND -121200.63

>>> test_set
       index  longitude  ...  ocean_proximity         id
8          8    -122.26  ...         NEAR BAY -122222.16
10        10    -122.26  ...         NEAR BAY -122222.15
11        11    -122.26  ...         NEAR BAY -122222.15
12        12    -122.26  ...         NEAR BAY -122222.15
13        13    -122.26  ...         NEAR BAY -122222.16
...      ...        ...  ...              ...        ...
20620  20620    -121.48  ...           INLAND -121440.95
20623  20623    -121.37  ...           INLAND -121330.97
20628  20628    -121.48  ...           INLAND -121440.90
20633  20633    -121.53  ...           INLAND -121490.81
20636  20636    -121.21  ...           INLAND -121170.51

Scikit-Learn提供了一些函数，可以通过多种方式将数据集分成多个子集。

from sklearn.model_selection import train_test_split
train_set,test_set=train_test_split(housing,test_size=0.2,random_state=42)

>>> train_set
       longitude  latitude  ...  median_house_value  ocean_proximity
14196    -117.03     32.71  ...              103000       NEAR OCEAN
8267     -118.16     33.77  ...              382100       NEAR OCEAN
17445    -120.48     34.66  ...              172600       NEAR OCEAN
14265    -117.11     32.69  ...               93400       NEAR OCEAN
2271     -119.80     36.78  ...               96500           INLAND
...          ...       ...  ...                 ...              ...
11284    -117.96     33.78  ...              229200        <1H OCEAN
11964    -117.43     34.02  ...               97800           INLAND
5390     -118.38     34.03  ...              222100        <1H OCEAN
860      -121.96     37.58  ...              283500        <1H OCEAN
15795    -122.42     37.77  ...              325000         NEAR BAY

>>> test_set
       longitude  latitude  ...  median_house_value  ocean_proximity
20046    -119.01     36.06  ...               47700           INLAND
3024     -119.46     35.14  ...               45800           INLAND
15663    -122.44     37.80  ...              500001         NEAR BAY
20484    -118.72     34.28  ...              218600        <1H OCEAN
9814     -121.93     36.62  ...              278000       NEAR OCEAN
...          ...       ...  ...                 ...              ...
15362    -117.22     33.36  ...              263300        <1H OCEAN
16623    -120.83     35.36  ...              266800       NEAR OCEAN
18086    -122.05     37.31  ...              500001        <1H OCEAN
2144     -119.76     36.77  ...               72300           INLAND
3665     -118.37     34.22  ...              151500        <1H OCEAN

3.2 测试集分层

将收入中位数除以 $1.5$ ，然后使用 $c e i l$ 进行取整（得到离散类别），最后将所有大于5的类别合并为类别5

housing["income_cat"] = np.ceil(housing["median_income"]/1.5)
housing["income_cat"].where(housing["income_cat"]<5,5.0,inplace=True)

>>> housing["income_cat"]
0        5.0
1        5.0
2        5.0
3        4.0
4        3.0
        ... 
20635    2.0
20636    2.0
20637    2.0
20638    2.0
20639    2.0
Name: income_cat, Length: 20640, dtype: float64

3.3分层抽样

现在，可以根据收入类别进行分层抽样了，使用 $S c i k i t - L e a r n 的 S t r a t i f i e d - S h u f f l e S p l i t$ 类：

from sklearn.model_selection import StratifiedShuffleSplit
split = StratifiedShuffleSplit(n_splits=1,test_size=0.2,random_state=42)
for train_index,test_index in split.split(housing,housing["income_cat"]):
    strat_train_set = housing.loc[train_index]
    strat_test_set = housing.loc[test_index]

可以看看所有住房数据根据收入类别的比例分布

>>> housing["income_cat"].value_counts()/len(housing)

3.0    0.350581
2.0    0.318847
4.0    0.176308
5.0    0.114438
1.0    0.039826
Name: income_cat, dtype: float64

现在可以删除Income_cat属性，将数据恢复原样了

for set in(strat_train_set,strat_test_set):
    set.drop(["income_cat"],axis=1,inplace=True)

以上就是测试集生成部分。

四、数据可视化

这步操作其实就是提取经纬度到x，y列表并用散点显示出来。

housing.plot(kind='scatter',x='longitude',y='latitude')

这一步添加了一个参数 $a l p h a$ ，书上给出的解释是可以更清楚的看出高密度数据点的位置

housing.plot(kind='scatter',x='longitude',y='latitude',alpha=0.1)

效果还不错，可以再试一试 $a l p h a = 0.01 ， 0.5$ 时的参数，就差不多了解这个参数是什么意思了。

housing.plot(kind='scatter',x='longitude',y='latitude',alpha=0.4,s=housing['population']/100,
			label='population',c='median_house_value',cmap=plt.get_cmap("jet"),colorbar=True)

怎么可以这么漂亮，哇！

plot()参数说明

$s = h o u s i n g [^{'} p o p u l a t i o n^{'}] / 100$ 这个就是散点的大小，没错了，人口越多的地方散点越大，很形象。
$l a b e l =^{'} p o p u l a t i o n^{'}$ ，标签，不解释也知道，看图右上角
$c$ 颜色代表价格
$c m a p$ 使用一个名叫 $j e t$ 的与预定义价格表，这里其实除了 $j e t$ 还有挺多的， $r a i n b o w$ ， $R d Y l B u$ 都可以试一试。https://matplotlib.org/examples/color/colormaps_reference.html官方文档里面有详细的参数说明。

五、寻找相关性

可以使用corr()方法计算每对属性之间的标准相关系数（皮尔逊相关系数）

corr_matrix=housing.corr()

                    longitude  latitude  ...  median_income  median_house_value
longitude            1.000000 -0.924664  ...      -0.015176           -0.045967
latitude            -0.924664  1.000000  ...      -0.079809           -0.144160
housing_median_age  -0.108197  0.011173  ...      -0.119034            0.105623
total_rooms          0.044568 -0.036100  ...       0.198050            0.134153
total_bedrooms       0.069608 -0.066983  ...      -0.007723            0.049686
population           0.099773 -0.108785  ...       0.004834           -0.024650
households           0.055310 -0.071035  ...       0.013033            0.065843
median_income       -0.015176 -0.079809  ...       1.000000            0.688075
median_house_value  -0.045967 -0.144160  ...       0.688075            1.000000
[9 rows x 9 columns]

查看每个属性与房屋中位数的相关性分别是多少：

>>> corr_matrix["median_house_value"].sort_values(ascending=False)

median_house_value    1.000000
median_income         0.688075
total_rooms           0.134153
housing_median_age    0.105623
households            0.065843
total_bedrooms        0.049686
population           -0.024650
longitude            -0.045967
latitude             -0.144160
Name: median_house_value, dtype: float64

下面来试验一下：预测房价中位数和收入中位数的相关性散点图

housing.plot(kind='scatter',x='median_income',y='median_house_value',alpha=0.1)

内容来自《机器学习实战这本书》，用作学习。

pycharm——djiango之数据迁移，终端操作 Pop– python
首先在pycharm中找到terminal(终端)，输入指令：pythonmanage.pymakemigrations之后你会看到如下图：这表示创建成功。接着输入指令：pythonmanage.pymigrate就能看到好多ok，你在数据库中也能看到很多表你可以在终端打开数据库查看表，也可以使用客户端的可视化界面查看，还可以在pycharm中右边的database里边打开查看，如下图：之后你就可
python 百度云api_Python使用百度API上传文件到百度网盘代码分享 weixin_39775577 python 百度云api
#coding:UTF-8importurllibimporturllib2__author__='Administrator'fromposter.encodeimportmultipart_encodefromposter.streaminghttpimportregister_openersregister_openers()defupload(fileName):"""通过百度开发者API
因果推理与因果学习原理与代码实战案例讲解 AI天才研究院 AI大模型企业级应用开发实战 Agentic AI 实战 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
因果推理与因果学习原理与代码实战案例讲解作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：因果关系发现、因果推断、因果学习、机器学习、统计方法1.背景介绍1.1问题的由来在现实世界的数据分析中，我们经常面临这样的挑战：从观察数据中识别出潜在的原因与效果之间的关联，并理解这些关联背后的实际机制。传统的预测建模关注于基于输入变量对输出变量进行预测，
信息检索简介——文本处理、搜索引擎、数据挖掘、机器学习、推荐系统等 AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介2005年8月17日至9月3日在美国加利福尼亚州伯克莱纳举行了SIGIR国际会议（中文全称“计算机信息retrieval国际会议”），这是信息检索领域的顶级会议之一。该会议由ACM主办，主题涵盖了包括文本处理、搜索引擎、数据挖掘、机器学习、推荐系统等多个热门方向。此次会议是第一次将信息检索作为一个学科，并取得重大突破。本文试图对SIGIR进行一个完整的介绍，阐述
Flask入门基础1 浅清陌 Flask flask python 后端
1Flask简介Flask诞生于2010年，是Arminronacher（阿明·罗纳彻）用Python语言基于Werkzeug工具箱编写的轻量级Web开发框架。Flask本身相当于一个内核，其他几乎所有的功能都要用到扩展（邮件扩展Flask-Mail，用户认证Flask-Login，数据库Flask-SQLAlchemy），都需要用第三方的扩展来实现。比如可以用Flask扩展加入ORM、窗体验证工
C++封装python调用库技术大白 c++开发语言
传结构体中间用空字符串问题使用callback传输结构体，中间出现\0字符，使用std::vector类型voidPyProcessInterface::ProcessContent(constchar*buff,UINT32size,boolfromSelf){if(callback){std::vectordataVec(buff,buff+size);callback(std::move(d
R 语言简介：数据分析与统计的强大工具 Mikhail_G python 数据分析大数据 r语言开发语言
大家好!在如今这个数据驱动的时代，数据分析与统计分析对于各个领域都变得至关重要。而R语言，作为一款专为数据分析和统计而设计的编程语言，以其强大的功能和灵活性，成为了众多数据分析师、研究人员以及统计学家的首选工具之一。什么是R语言?R是一种开源的编程语言和软件环境，主要用于统计计算、数据分析、图形表示以及机器学习等领域。它是由RossIhaka和RobertGentleman于1995年开发的，之后
22种创新思路！今年必将是特征选择爆发的一年小唯啊小唯人工智能注意力机制特征选择
2025深度学习发论文&模型涨点之——特征选择特征选择是机器学习和数据挖掘领域中一个非常重要的步骤。它指的是从原始特征集合中挑选出对目标变量有较强预测能力的特征子集。在实际的数据集中，往往包含众多特征，但并非所有特征都对模型的性能有正面影响。例如在房价预测任务中，原始特征可能包括房屋的面积、房间数量、所在小区、周边配套设施等众多内容。通过特征选择，可以剔除一些无关的或者冗余的特征，比如可能存在的重
量化价值投资入门：Fama-French三因子模型详解与实战应用量化价值投资入门到精通 ai
量化价值投资入门：Fama-French三因子模型详解与实战应用关键词：量化投资、Fama-French三因子模型、价值投资、因子投资、资产定价、Python实现、投资组合管理摘要：本文深入解析Fama-French三因子模型的理论基础、数学原理和实际应用。作为现代金融学最重要的资产定价模型之一，三因子模型通过市场因子、规模因子和价值因子解释股票收益差异。我们将从模型起源开始，详细讲解其数学表达和
Python操作百度网盘指南 weixin_47233946 编程 python 开发语言
##介绍百度网盘是中国流行的云存储服务，通过API可以实现自动化操作。本指南介绍如何使用Python操作百度网盘，包括上传、下载、管理文件等功能。##准备工作###1.获取百度网盘开发者权限1.访问[百度开发者中心](https://pan.baidu.com/union/home)2.注册开发者账号并创建应用3.获取API密钥（AppKey和SecretKey）###2.安装必要的Python库
python读取sas数据集_SASpy模块，利用Python操作SAS
SASpy模块打通了Python与SAS之间的连接。有了SASpy模块，我们就能够在Python中操控SAS。本文将首先介绍SASpy模块的一些基本方法，最后通过一个聚类分析的例子，来展示如何在Python中调用SAS的机器学习过程，以及对聚类结果的可视化。SASpy模块特点1、需要Python3.X及以上，SAS9.4及以上，需要Java环境；2、无论是本地SAS还是远程服务器上的SAS，都可以
Java核心技术卷I：基础知识千灵域 java 读书笔记 java
第一章Java程序设计概述太简单了，直接略过。1.2Java“白皮书”的关键术语简单性：指相对于C++简单（指针、多重继承等），但设计者也并没有试图清楚C++中所有不适当的特性面向对象：java与C++主要不同在于多重集成，以及接口概念网络技能健壮性安全性体系结构中立可移植性解释性：过去Java解释器可以在任何移植了解释器的机器上执行java字节码，现在使用即使编译器将字节码再翻译成机器码高性能多
从数据抓取到分析：用Python爬虫获取、清洗与可视化数据程序员威哥 python 爬虫 c++
在数据科学领域，数据的获取、清洗与分析是整个数据处理过程中的关键步骤。随着互联网上数据的不断增多，使用Python爬虫抓取网站数据并进行分析已成为数据科学家和分析师的常见任务。本篇文章将通过具体的实例，展示如何使用Python从零开始抓取数据，清洗数据，并进行数据分析和可视化。1.数据抓取：用Python爬虫获取网页数据1.1选择爬虫工具Python提供了多个强大的爬虫框架和库，常用的工具包括：r
Python基础（吃洋葱小游戏） aaiier python pygame 开发语言
下面我将为你设计一个"吃洋葱小游戏"的Python实现方案，使用Pygame库开发。这个游戏模拟吃洋葱的过程，玩家需要收集不同种类的洋葱以获得高分，同时避免吃到辣椒。吃洋葱小游戏-Python实现方案1.游戏设计概念游戏目标：玩家控制角色吃掉尽可能多的洋葱获得高分核心机制：洋葱从屏幕上方随机下落玩家左右移动角色接住洋葱不同洋葱有不同分值（普通洋葱+10，红洋葱+20，紫洋葱+50）辣椒会扣减生命值
模拟工作队列 - 华为OD机试真题(JavaScript卷) 什码情况算法面试 javascript 数据结构华为od
华为OD机试题库《C++》限时优惠9.9华为OD机试题库《Python》限时优惠9.9华为OD机试题库《JavaScript》限时优惠9.9针对刷题难，效率慢，我们提供一对一算法辅导，针对个人情况定制化的提高计划（全称1V1效率更高）。看不懂有疑问需要答疑辅导欢迎私VX：code5bug题目描述让我们来模拟一个工作队列的运作，有一个任务提交者和若干任务执行者，执行者从1开始编号。提交者会在给定的时
数据分类 - 华为OD机试真题(JavaScript 题解) 什码情况华为od javascript 开发语言数据结构算法机试
华为OD机试题库《C++》限时优惠9.9华为OD机试题库《Python》限时优惠9.9华为OD机试题库《JavaScript》限时优惠9.9针对刷题难，效率慢，我们提供一对一算法辅导，针对个人情况定制化的提高计划（全称1V1效率更高）。看不懂有疑问需要答疑辅导欢迎私VX：code5bug题目描述对一个数据a进行分类，分类方法为：此数据a（四个字节大小）的四个字节相加对一个给定的值b取模，如果得到的
odrive软件的版本 m0_55305757 stm32 电机嵌入式硬件 odrive
odrive软件的版本0.4.0通信方面引入一个fibre变复杂了（节点还是手工生成的），cpp程序开始变多了。（sensorless我看到变成独立文件了）pythontool开始使用pip安装形式。0.5.0开始支持spi的encoder，as5047之类0.5.1据说之后的版本controlloop开始变化0.5.2开始应该是大修改了//RequiredtouseOC4forADCtrigge
说说自己Python 代码优化实践 chilavert318 大数据 linux 运维 python
今年上半年在外省做一个大数据相关的项目，在review项目组成员的代码时，发现一段处理大数据集的模块存在明显性能瓶颈：10万条数据的清洗流程耗时近20分钟，CPU占用率却始终在30%以下。深入分析后发现，看似简洁的Python代码背后，隐藏着诸多可以优化的细节——这并非个例，我们的程序在追求代码可读性时，往往忽略了Python特有的性能陷阱。今天抽点时间，从我实践中的代码就python开发，从内存
ROS学习笔记5：常用API和模块导入
前言本人ROS小白，利用寒假时间学习ROS，在此以笔记的方式记录自己每天的学习过程。争取写满15篇(5/15)。环境：Ubuntu20.04、ROS1：noetic环境配置：严格按照下方学习链接的教程配置，基本一次成功。学习链接：【Autolabor初级教程】ROS机器人入门对应链接文档：ROS机器人入门课程《ROS理论与实践》笔记绝大部分代码使用Python语言编写。本期关键词：初始化，话题服务
Qt：QCustomPlot库简介十秒耿直拆包选手 C and C++Qt and Pyside QCustomPlot学习 qt c++QCustomPlot
QCustomPlot是一个基于Qt框架的轻量级C++绘图库，专为高效绘制二维图表（如曲线图、柱状图、金融图表等）而设计。相比QtCharts模块，它以高性能和高度可定制性著称，尤其适合需要实时数据可视化的科学计算、工业监控和金融分析场景。核心特性概览特性说明轻量高效仅需2个头文件+1个源码文件，零外部依赖实时性能优化处理百万级数据点，支持OpenGL加速多图层系统支持无限图层叠加，独立坐标系交互
一个简单测试Deepseek吞吐量的脚本,国内环境可跑谢平康深度学习 pytorch 人工智能
一个简单测试Deepseek吞吐量的脚本,这里用DeepSeek-R1-Distill-Qwen-32B,支持单卡409024G可跑,具体看你的硬件情况做调整,理论支持所有的模型,看你需要,可以修改模型名称,重点是pip使用国内的源,模型下载用阿里的ModelScope,无障碍下载,使用.最后可以生成一个txt与html报表.前提是你安装了python与python-venv,你可以不用venv来
OpenCV图像添加水印
一、前言在数字图像处理中，为图片添加水印是一项常见且重要的技术。无论是版权保护、品牌宣传还是防止未经授权的使用，水印都能发挥重要作用。OpenCV作为一款强大的计算机视觉库，提供了丰富的功能来实现各种水印效果。本教程将详细介绍如何使用OpenCV为图像添加文字水印和图片水印。二、环境准备在开始之前，请确保已安装以下环境：Python3.xOpenCV库（可通过pipinstallopencv-py
串行工作室：实时数据可视化工具，让嵌入设备数据一目了然！
在当今快速发展的技术世界中，如何高效处理嵌入式设备数据是许多开发者面临的重大挑战。本文将为大家介绍一个名为SerialStudio的工具，通过它，你可以实现嵌入式设备数据的可视化，无论是在教育、业余项目还是专业开发中，它都是一个不可多得的得力助手。SerialStudio简介SerialStudio是一款开放核心的跨平台遥测仪表板和实时数据可视化工具，它能够通过串口、蓝牙低能耗（BLE）、MQTT
Ast解析Python代码示例 X1A0RAN python 开发语言
#-*-coding:utf-8-*-#@Desc:Ast代码解析示例importastclassCodeParse():def__init__(self):self.visited_nodes=set()#解析装饰器defparse_decorator(self,decorator):returnast.dump(decorator)#解析函数defparse_func(self,node,st
Python编程实战：爬虫与数据可视化的全过程草莓味儿柠檬
本文还有配套的精品资源，点击获取简介：本项目通过Python编程实现网络数据爬取和数据可视化，适合初学者深入了解Python。我们将涵盖基础语法、网络爬虫技术、数据处理、可视化技术、文件操作和错误处理等关键知识点，最终完成从爬取各省降水量数据到可视化展示的全过程。1.Python基础语法使用Python作为一门流行的编程语言，因其简洁和易读性被广泛应用于网络爬虫、数据处理和可视化等领域。本章将帮助
GESP认证C++编程真题解析 | GESP202409 三级单选题和判断题热爱编程的通信人历年GESP CSP-J CSP-S真题解析 c++开发语言
欢迎大家订阅我的专栏：算法题解：C++与Python实现！本专栏旨在帮助大家从基础到进阶，逐步提升编程能力，助力信息学竞赛备战！专栏特色1.经典算法练习：根据信息学竞赛大纲，精心挑选经典算法题目，提供清晰的代码实现与详细指导，帮助您夯实算法基础。2.系统化学习路径：按照算法类别和难度分级，从基础到进阶，循序渐进，帮助您全面提升编程能力与算法思维。适合人群：准备参加蓝桥杯、GESP、CSP-J、CS
LeetCode 学习day3 不喜勿喷小小小新人12123 leetcode 学习算法 python
题目：给定一个数组prices，它的第i个元素prices[i]表示一支给定股票第i天的价格。你只能选择某一天买入这只股票，并选择在未来的某一个不同的日子卖出该股票。设计一个算法来计算你所能获取的最大利润。返回你可以从这笔交易中获取的最大利润。如果你不能获取任何利润，返回0。（LeetCode121.买卖股票的最佳时机）问题分析：简而言之为求最大差Python代码：importnumpyasnpc
基于python的公众号文章爬取思路（总结版）大数据小学僧 python 开发语言爬虫微信公众平台
目录一、技术方案分类1.接口直连模式（推荐）2.网页解析模式3.第三方API模式二、核心技术栈三、爬虫实现步骤1.接口直连模式（微信公众平台API）2.网页解析模式（搜狗微信搜索）3.第三方API模式（如清博大数据）四、可视化界面实现五、数据存储方案六、高级技巧七、注意事项八、推荐工具链一、技术方案分类1.接口直连模式（推荐）2.网页解析模式3.第三方API模式二、核心技术栈三、爬虫实现步骤1.接
python-拆解sklearn中决策树 weixin_41177022 scikit-learn 决策树 python 机器学习编程
获取树结构实体对scikit-learn中DecisionTreeClassifier/Regressor的实例调用.tree_属性可以得到树结构。参考sklearn的决策树的官方说明sklearn.tree.DecisionTreeClassifier（不过里面说的help(sklearn.tree._tree.Tree)似乎不管用）获取决策树基本信息node总数可以用model.tree_.n
Java爬虫实战指南：按关键字搜索京东商品爬虫程序猿 java 爬虫开发语言
在电商领域，快速获取商品信息对于市场分析、选品上架、库存管理和价格策略制定等方面至关重要。京东作为国内领先的电商平台之一，提供了丰富的商品数据。虽然京东开放平台提供了官方API来获取商品信息，但有时使用爬虫技术来抓取数据也是一种有效的手段。本文将介绍如何利用Java按关键字搜索京东商品，并提供详细的代码示例。一、准备工作（一）Java开发环境确保你的Java开发环境已经安装了以下必要的库：Jsou
log4j对象改变日志级别 3213213333332132 java log4j level log4j对象名称日志级别
log4j对象改变日志级别可批量的改变所有级别，或是根据条件改变日志级别。 log4j配置文件： log4j.rootLogger=ERROR,FILE,CONSOLE,EXECPTION #log4j.appender.FILE=org.apache.log4j.RollingFileAppender log4j.appender.FILE=org.apache.l
elk+redis 搭建nginx日志分析平台 ronin47 elasticsearch kibana logstash
elk+redis 搭建nginx日志分析平台 logstash,elasticsearch,kibana 怎么进行nginx的日志分析呢？首先，架构方面，nginx是有日志文件的，它的每个请求的状态等都有日志文件进行记录。其次，需要有个队列，redis的l
Yii2设置时区 dcj3sjt126com PHP timezone yii2
时区这东西，在开发的时候，你说重要吧，也还好，毕竟没它也能正常运行，你说不重要吧，那就纠结了。特别是linux系统，都TMD差上几小时，你能不痛苦吗？win还好一点。有一些常规方法，是大家目前都在采用的1、php.ini中的设置，这个就不谈了，2、程序中公用文件里设置，date_default_timezone_set一下时区3、或者。。。自己写时间处理函数，在遇到时间的时候，用这个函数处理（比较
js实现前台动态添加文本框，后台获取文本框内容 171815164 文本框
<%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://w
持续集成工具 g21121 持续集成
持续集成是什么？我们为什么需要持续集成？持续集成带来的好处是什么？什么样的项目需要持续集成？... 持续集成(Continuous integration ,简称CI)，所谓集成可以理解为将互相依赖的工程或模块合并成一个能单独运行
数据结构哈希表(hash)总结永夜-极光数据结构
1.什么是hash 来源于百度百科: Hash，一般翻译做“散列”，也有直接音译为“哈希”的，就是把任意长度的输入，通过散列算法，变换成固定长度的输出，该输出就是散列值。这种转换是一种压缩映射，也就是，散列值的空间通常远小于输入的空间，不同的输入可能会散列成相同的输出，所以不可能从散列值来唯一的确定输入值。简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。
乱七八糟程序员是怎么炼成的
eclipse中的jvm字节码查看插件地址： http://andrei.gmxhome.de/eclipse/ 安装该地址的outline 插件后重启，打开window下的view下的bytecode视图 http://andrei.gmxhome.de/eclipse/ jvm博客： http://yunshen0909.iteye.com/blog/2
职场人伤害了“上司” 怎样弥补 aijuans 职场
由于工作中的失误，或者平时不注意自己的言行“伤害”、“得罪”了自己的上司，怎么办呢？　　在职业生涯中这种问题尽量不要发生。下面提供了一些解决问题的建议：　　一、利用一些轻松的场合表示对他的尊重　　即使是开明的上司也很注重自己的权威，都希望得到下属的尊重，所以当你与上司冲突后，最好让不愉快成为过去，你不妨在一些轻松的场合，比如会餐、联谊活动等，向上司问个好，敬下酒，表示你对对方的尊重，
深入浅出url编码 antonyup_2006 应用服务器浏览器 servlet weblogic IE
出处：http://blog.csdn.net/yzhz 杨争 http://blog.csdn.net/yzhz/archive/2007/07/03/1676796.aspx 一、问题：编码问题是JAVA初学者在web开发过程中经常会遇到问题，网上也有大量相关的
建表后创建表的约束关系和增加表的字段百合不是茶标的约束关系增加表的字段
下面所有的操作都是在表建立后操作的,主要目的就是熟悉sql的约束,约束语句的万能公式 1,增加字段(student表中增加姓名字段) alter table 增加字段的表名 add 增加的字段名增加字段的数据类型 alter table student add name varchar2(10); &nb
Uploadify 3.2 参数属性、事件、方法函数详解 bijian1013 JavaScript uploadify
一.属性属性名称默认值说明 auto true 设置为true当选择文件后就直接上传了，为false需要点击上传按钮才上传。 buttonClass ” 按钮样式 buttonCursor ‘hand’ 鼠标指针悬停在按钮上的样子 buttonImage null 浏览按钮的图片的路
精通Oracle10编程SQL(16)使用LOB对象 bijian1013 oracle 数据库 plsql
/* *使用LOB对象 */ --LOB(Large Object)是专门用于处理大对象的一种数据类型，其所存放的数据长度可以达到4G字节 --CLOB/NCLOB用于存储大批量字符数据，BLOB用于存储大批量二进制数据，而BFILE则存储着指向OS文件的指针 /* *综合实例 */ --建立表空间 --#指定区尺寸为128k,如不指定，区尺寸默认为64k CR
【Resin一】Resin服务器部署web应用 bit1129 resin
工作中，在Resin服务器上部署web应用，通常有如下三种方式：配置多个web-app 配置多个http id 为每个应用配置一个propeties、xml以及sh脚本文件配置多个web-app 在resin.xml中,可以为一个host配置多个web-app <cluster id="app&q
red5简介及基础知识白糖_ 基础
简介 Red5的主要功能和Macromedia公司的FMS类似，提供基于Flash的流媒体服务的一款基于Java的开源流媒体服务器。它由Java语言编写，使用RTMP作为流媒体传输协议，这与FMS完全兼容。它具有流化FLV、MP3文件，实时录制客户端流为FLV文件，共享对象，实时视频播放、Remoting等功能。用Red5替换FMS后,客户端不用更改可正
angular.fromJson boyitech AngularJS AngularJS 官方API AngularJS API
angular.fromJson 描述: 把Json字符串转为对象使用方法: angular.fromJson(json); 参数详解: Param Type Details json string JSON 字符串返回值: 对象, 数组, 字符串或者是一个数字示例: <!DOCTYPE HTML> <h
java-颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I bylijinnan java
public class ReverseWords { /** * 题目：颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I.词以空格分隔。 * 要求： * 1.实现速度最快,移动最少 * 2.不能使用String的方法如split,indexOf等等。 * 解答：两次翻转。 */ publ
web实时通讯 Chen.H Web 浏览器 socket 脚本
关于web实时通讯，做一些监控软件。由web服务器组件从消息服务器订阅实时数据，并建立消息服务器到所述web服务器之间的连接，web浏览器利用从所述web服务器下载到web页面的客户端代理与web服务器组件之间的socket连接，建立web浏览器与web服务器之间的持久连接；利用所述客户端代理与web浏览器页面之间的信息交互实现页面本地更新，建立一条从消息服务器到web浏览器页面之间的消息通路
[基因与生物]远古生物的基因可以嫁接到现代生物基因组中吗? comsci 生物
大家仅仅把我说的事情当作一个IT行业的笑话来听吧..没有其它更多的意思如果我们把大自然看成是一位伟大的程序员,专门为地球上的生态系统编制基因代码,并创造出各种不同的生物来,那么6500万年前的程序员开发的代码,是否兼容现代派的程序员的代码和架构呢?
oracle 外部表 daizj oracle 外部表 external tables
oracle外部表是只允许只读访问，不能进行DML操作，不能创建索引，可以对外部表进行的查询，连接，排序，创建视图和创建同义词操作。 you can select, join, or sort external table data. You can also create views and synonyms for external tables. Ho
aop相关的概念及配置 daysinsun AOP
切面(Aspect): 通常在目标方法执行前后需要执行的方法（如事务、日志、权限），这些方法我们封装到一个类里面，这个类就叫切面。连接点（joinpoint） spring里面的连接点指需要切入的方法，通常这个joinpoint可以作为一个参数传入到切面的方法里面（非常有用的一个东西）。通知（Advice）通知就是切面里面方法的具体实现，分为前置、后置、最终、异常环
初一上学期难记忆单词背诵第二课 dcj3sjt126com english word
middle 中间的，中级的 well 喔，那么；好吧 phone 电话，电话机 policeman 警察 ask 问 take 拿到；带到 address 地址 glad 高兴的，乐意的 why 为什么 China 中国 family 家庭 grandmother (外)祖母 grandfather (外)祖父 wife 妻子 husband 丈夫 da
Linux日志分析常用命令 dcj3sjt126com linux log
1.查看文件内容 cat -n 显示行号 2.分页显示 more Enter 显示下一行空格显示下一页 F 显示下一屏 B 显示上一屏 less /get 查询"get"字符串并高亮显示 3.显示文件尾 tail -f 不退出持续显示 -n 显示文件最后n行 4.显示头文件 head -n 显示文件开始n行 5.内容排序 sort -n 按照
JSONP 原理分析 fantasy2005 JavaScript jsonp jsonp 跨域
转自 http://www.nowamagic.net/librarys/veda/detail/224 JavaScript是一种在Web开发中经常使用的前端动态脚本技术。在JavaScript中，有一个很重要的安全性限制，被称为“Same-Origin Policy”（同源策略）。这一策略对于JavaScript代码能够访问的页面内容做了很重要的限制，即JavaScript只能访问与包含它的
使用connect by进行级联查询 234390216 oracle 查询父子 Connect by 级联
使用connect by进行级联查询 connect by可以用于级联查询，常用于对具有树状结构的记录查询某一节点的所有子孙节点或所有祖辈节点。来看一个示例，现假设我们拥有一个菜单表t_menu，其中只有三个字段：
一个不错的能将HTML表格导出为excel,pdf等的jquery插件 jackyrong jquery插件
发现一个老外写的不错的jquery插件，可以实现将HTML 表格导出为excel,pdf等格式，地址在： https://github.com/kayalshri/ 下面看个例子，实现导出表格到excel,pdf <html> <head> <title>Export html table to excel an
UI设计中我们为什么需要设计动效 lampcy UI UI设计
关于Unity3D中的Shader的知识首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，
如何禁止页面缓存 nannan408 html jsp cache
禁止页面使用缓存~ ------------------------------------------------ jsp:页面no cache： response.setHeader("Pragma","No-cache"); response.setHeader("Cache-Control","no-cach
以代码的方式管理quartz定时任务的暂停、重启、删除、添加等 Everyday都不同定时任务管理 spring-quartz
【前言】在项目的管理功能中，对定时任务的管理有时会很常见。因为我们不能指望只在配置文件中配置好定时任务就行了，因为如果要控制定时任务的 “暂停” 呢？暂停之后又要在某个时间点 “重启” 该定时任务呢？或者说直接 “删除” 该定时任务呢？要改变某定时任务的触发时间呢？ “添加” 一个定时任务对于系统的使用者而言，是不太现实的，因为一个定时任务的处理逻辑他是不
EXT实例 tntxia ext
（1）增加一个按钮 JSP: <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); Stri
数学学习在计算机研究领域的作用和重要性 xjnine Math
最近一直有师弟师妹和朋友问我数学和研究的关系，研一要去学什么数学课。毕竟在清华，衡量一个研究生最重要的指标之一就是paper,而没有数学，是肯定上不了世界顶级的期刊和会议的，这在计算机学界尤其重要！你会发现，不论哪个领域有价值的东西，都一定离不开数学！在这样一个信息时代，当google已经让世界没有秘密的时候，一种卓越的数学思维，绝对可以成为你的核心竞争力. 无奈本人实在见地

《机器学习实战》加利福尼亚州房屋价格 数据结构与可视化