超级虚空

【数据清理与特征工程】2-数据清理

文章目录

2-0 基本概念
2-1 转化数据类型
- 案例
- - Customer Number
  - Percent Growth
  - 2016&2017
  - Jan Units
  - Month-day-year
  - Active
- 练习
- 练习
2-2 处理重复数据
- 基础知识
- 项目案例
2-3 处理缺失数据
- - 问题1：为什么有缺失值？
  - - 缺失值产生的原因
    - 缺失值类型
    - - 完全随机缺失 (MCAR)
      - 随机丢失 (MAR)
      - 不随机丢失 (NMAR)
  - 问题2：如何分析缺失值？
  - 问题3：缺失值需要处理吗？
  - 问题4：缺失值如何填充？
  - - 使用值填充
    - 最近邻样本填充
    - 使用模型预测
- 基础知识
- 项目案例
2-4 处理离群数据
- 项目案例

2-0 基本概念

import pandas as pd

# 数据下载地址：https://aistudio.baidu.com/aistudio/projectdetail/4359784
df = pd.read_csv("data/pm2.csv")
df.sample(10)

	RANK	CITY_ID	CITY_NAME	Exposed days
42	47	610	嘉峪关	49
134	147	98	辽阳	100
104	116	91	锦州	88
36	41	487	阳江	47
31	36	495	揭阳	45
238	261	377	漯河	197
192	215	204	宿迁	140
220	243	252	阜阳	172
158	180	544	广元	119
110	122	478	肇庆	89

df.info()


RangeIndex: 264 entries, 0 to 263
Data columns (total 4 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   RANK          264 non-null    int64 
 1   CITY_ID       264 non-null    int64 
 2   CITY_NAME     264 non-null    object
 3   Exposed days  264 non-null    int64 
dtypes: int64(3), object(1)
memory usage: 8.4+ KB

数据一共264行4列，其中不存在缺失值，

2-1 转化数据类型

注意下面的代码，我们未定义数据类型时默认为object

df = pd.DataFrame([{'col1':'a', 'col2':'1'},
                   {'col1':'b', 'col2':'2'}])
df.dtypes

col1    object
col2    object
dtype: object

现在来改变数据类型，使用astype函数

df['col2-int'] = df['col2'].astype(int)    # ①
df

	col1	col2	col2-int
0	a	1	1
1	b	2	2

现在我们成功将数据类型设置为int了

df.dtypes

col1        object
col2        object
col2-int     int32
dtype: object

考虑另一种情况，将不同数据类型看作一个数据类型

s = pd.Series(['1', '2', '4.7', 'pandas', '10'])
try:
    s.astype(float)
except ValueError:
    print("ValueError")

ValueError

发现不能将 string 转化为 float

我们可以忽略错误并转换，得到 object
或者使用to_numeric函数，强制转换

#
# s.astype(float, errors='ignore')
pd.to_numeric(s, errors='coerce')

0     1.0
1     2.0
2     4.7
3     NaN
4    10.0
dtype: float64

案例

import pandas as pd

df = pd.read_csv('data/sales_types.csv')  # 教材中数据集文件名称为sales_data_types.csv，此处为适应平台要求稍作修改
df.info()


RangeIndex: 5 entries, 0 to 4
Data columns (total 10 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Customer Number  5 non-null      float64
 1   Customer Name    5 non-null      object 
 2   2016             5 non-null      object 
 3   2017             5 non-null      object 
 4   Percent Growth   5 non-null      object 
 5   Jan Units        5 non-null      object 
 6   Month            5 non-null      int64  
 7   Day              5 non-null      int64  
 8   Year             5 non-null      int64  
 9   Active           5 non-null      object 
dtypes: float64(1), int64(3), object(6)
memory usage: 528.0+ bytes

df

	Customer Number	Customer Name	2016	2017	Percent Growth	Jan Units	Month	Day	Year	Active
0	10002.0	Quest Industries	$125,000.00	$162500.00	30.00%	500	1	10	2015	Y
1	552278.0	Smith Plumbing	$920,000.00	$101,2000.00	10.00%	700	6	15	2014	Y
2	23477.0	ACME Industrial	$50,000.00	$62500.00	25.00%	125	3	29	2016	Y
3	24900.0	Brekke LTD	$350,000.00	$490000.00	4.00%	75	10	27	2015	Y
4	651029.0	Harbor Co	$15,000.00	$12750.00	-15.00%	Closed	2	2	2014	N

分析数据发现有几个 object 对象没有数据类型

Customer Number

应该是ID之类的

df['Customer Number'] = df['Customer Number'].astype(int).astype(str)

Percent Growth

df['Percent Growth'] = df['Percent Growth'].apply(lambda x: float(x.replace("%", "")) / 100)

2016&2017

def cvt_money(val):
    new_value = val.replace("$","").replace(",","")  # ②
    return float(new_value)
df['2016'] = df['2016'].apply(cvt_money)
df['2017'] = df['2017'].apply(cvt_money)

Jan Units

df['Jan Units'] = pd.to_numeric(df['Jan Units'], errors='coerce')

Month-day-year

df['date'] = pd.to_datetime(df[['Month', 'Day', 'Year']])

df['date']

0   2015-01-10
1   2014-06-15
2   2016-03-29
3   2015-10-27
4   2014-02-02
Name: date, dtype: datetime64[ns]

Active

import numpy as np
df['Active'] = np.where(df['Active']=='Y', 1, 0)

df

	Customer Number	Customer Name	2016	2017	Percent Growth	Jan Units	Month	Day	Year	Active	date
0	10002	Quest Industries	125000.0	162500.0	0.30	500.0	1	10	2015	1	2015-01-10
1	552278	Smith Plumbing	920000.0	1012000.0	0.10	700.0	6	15	2014	1	2014-06-15
2	23477	ACME Industrial	50000.0	62500.0	0.25	125.0	3	29	2016	1	2016-03-29
3	24900	Brekke LTD	350000.0	490000.0	0.04	75.0	10	27	2015	1	2015-10-27
4	651029	Harbor Co	15000.0	12750.0	-0.15	NaN	2	2	2014	0	2014-02-02

练习

movies = pd.read_csv("data/movies.csv", index_col=0)
movies

	上映日期	片名	类型	制片国家/地区	想看	ID	导演	主演
0	05月31日	哥斯拉2：怪兽之王	动作 / 科幻 / 冒险	美国	40734人	25890017	迈克尔·道赫蒂	维拉·法米加\|米莉·波比·布朗\|章子怡\|莎莉·霍金斯\|布莱德利·惠特福德\|查尔斯·丹斯\|凯尔...
1	05月31日	尺八·一声一世	纪录片 / 音乐	中国大陆	5305人	27185648	聿馨	佐藤康夫\|小凑昭尚\|蔡鸿文\|徐浩鹏\|海山\|三桥贵风\|星梵竹\|三冢幸彦\|梁文道\|陆川\|龚琳娜
2	05月31日	卡拉斯：为爱而声	纪录片	法国	2047人	27089205	汤姆·沃尔夫	玛丽亚·卡拉斯\|维托里奥·德·西卡\|亚里士多德·奥纳西斯\|皮埃尔·保罗·帕索里尼\|奥马尔·沙...
3	05月31日	托马斯大电影之世界探险记	儿童 / 动画	英国	972人	30236340	大卫·斯特登	蒂娜·德赛\|约瑟夫·梅\|泰莉莎·加拉赫\|凯瑞·莎勒\|约翰·哈斯勒\|大卫·麦金\|金宝·张\|彼得...
4	05月31日	花儿与歌声	剧情 / 儿童 / 家庭	中国大陆	136人	33393269	王蕾	魏歆惠\|刘晨毅\|王润泽\|曹一诺\|周琳翌\|周北辰\|曹德祥\|郑陈皓淼
...	...	...	...	...	...	...	...	...
91	2020年01月25日	囧妈	剧情 / 喜剧	中国大陆	6987人	30306570	徐峥	徐峥\|王祖蓝\|彭昱畅\|潘虹
92	2020年01月25日	中国女排	剧情	中国大陆 / 香港	2671人	30128916	陈可辛	巩俐
93	2020年01月25日	大红包	喜剧 / 爱情	中国大陆	20人	33457717	李克龙	包贝尔\|李成敏\|许君聪\|王小利\|廖蔚蔚
94	2020年06月21日	六月的秘密	剧情 / 悬疑 / 音乐	中国大陆 / 美国	542人	30216731	王暘	郭富城\|苗苗\|吴建飞
95	2020年10月01日	黑色假面	剧情 / 悬疑	中国大陆	3957人	26986136	NaN	NaN

96 rows × 8 columns

movies.info()


Int64Index: 96 entries, 0 to 95
Data columns (total 8 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   上映日期     96 non-null     object
 1   片名       96 non-null     object
 2   类型       96 non-null     object
 3   制片国家/地区  96 non-null     object
 4   想看       96 non-null     object
 5   ID       96 non-null     int64 
 6   导演       93 non-null     object
 7   主演       88 non-null     object
dtypes: int64(1), object(7)
memory usage: 6.8+ KB

movies['想看'] = movies['想看'].apply(lambda x: int(x.replace('人', "")))

练习

movies = pd.read_csv("data/movies.csv", index_col=0)
movies

movies.info()

movies['想看'] = movies['想看'].apply(lambda x: int(x.replace('人', "")))

2-2 处理重复数据

import pandas as pd
d = {'Name':['Newton', 'Galilei', 'Einstein', 'Feynman', 'Newton', 'Maxwell', 'Galilei'],
             'Age':[26, 30, 28, 28, 26, 39, 40],
             'Score':[90, 80, 90, 100, 90, 70, 90]}
df = pd.DataFrame(d,columns=['Name','Age','Score'])
df

基础知识

使用duplicated判断是不是重复的数据

df.duplicated()

df.drop_duplicates()

df.drop_duplicates('Age', keep='last')

df[df.duplicated()].count() / df.count()

项目案例

cpi = pd.read_excel("data/cpi.xls")
cpi.columns = cpi.iloc[1]    
cpi = cpi[2:]    
cpi.drop([11, 12], axis=0, inplace=True)    
cpi['cpi_index'] = ['总体消费', '食品烟酒', '衣着', '居住', '生活服务', '交通通信', '教育娱乐', '医保', '其他']
cpi.drop(['指标'], axis=1, inplace=True)    
cpi.reset_index(drop=True, inplace=True)    
cpi.columns.rename('', inplace=True)    
cpi

dup_ratio = []
for column in cpi.columns:
    col = cpi[column]
    ratio = col[col.duplicated()].count() / col.count()
    dup_ratio.append(round(ratio, 2))
dup_ratio

dr = pd.Series(dup_ratio, index=cpi.columns)
dr

2-3 处理缺失数据

在进行数据挖掘的过程中，理解和清洗数据是最耗费时间的事情。你应该知道数据是如何产生的，哪些特征对业务有影响，只有这样你才能给出最好的数据结果。

在本文中，我们将介绍缺失值的产生原因和缺失值具体的处理方法。

问题1：为什么有缺失值？

现实世界中的数据在大多数情况下都有很多缺失的数据。每个值丢失的原因可能不同。可能有数据丢失或损坏，或者也可能有特定原因。

缺失值产生的原因

数据丢失背后的一些可能原因（产生过程、传输过程、存储过程）：

人们不会在数据收集调查中提供有关某些问题的信息。
数据是从各种可用的过去记录中积累的，而不是直接积累的。
数据收集过程中的不准确也会导致数据丢失。

缺失值类型

数据丢失的原因多种多样，但整体可以将它们分为三个主要组：完全随机丢失、随机丢失、不随机丢失。

完全随机缺失 (MCAR)

现象：缺失的数据不遵循任何特定模式，它们只是随机的。
特点：不可能用其余的变量数据来预测这些值，数据的缺失与其余变量无关或独立。
案例：如在数据收集过程中，由于粗心大意丢失了特定样本

随机丢失 (MAR)

现象：数据在特定子集中丢失
特点：可以借助其他功能来预测数据是否存在/不存在，无法自己预测丢失的数据。
案例：如在数据收集过程中，有一些默认选项，可以不做填写

不随机丢失 (NMAR)

现象：确实的数据遵循某种模式，且与数据样本相关。
特点：删除行/列、插补等常用方法将不起作用，缺失的数据与字段相关。
案例：如在数据收集中，采集者根据字段来选择填写某些字段。

问题2：如何分析缺失值？

在Pandas中可以很方便的使用isnull函数来计算是否包含缺失值。

missing_values=train.isnull().sum()

同时也可以使用missingno库来查看缺失值的分布规律：

bar：统计每列缺失值的次数
matrix：统计缺失值和行数分布规律
heatmap：统计列缺失值的相关性
dendrogram：统计列确实的组合性

问题3：缺失值需要处理吗？

处理缺失值可以从两个角度考虑：

从数据角度：如果某列的缺失比例大于某一阈值（如大于90%），则可以考虑剔除列；类似的对行的角度也可以这样操作。
从模型角度：如果使用树模型则不用考虑处理，其他模型则需要进行填充或者剔除。

问题4：缺失值如何填充？

使用值填充

使用特殊值填充是最简单的填充方法，主要的优势是速度，可能会带来一定的噪音。

数值列：中位数、中位数、特殊值
类别列：众数、特殊值

使用模型预测

数据样本各列之间存在联系，此时可以从列与列的关系完成缺失值填充。

使用回归/分类模型预测列：使用其他列作为特征，待填充列作为标签；
使用自编码器预测缺失值：使用缺失数据作为输入，完整数据作为标签，完成自监督训练。

df = pd.DataFrame({"one":[10, 11, 12], 'two':[np.nan, 21, 22], "three":[30, np.nan, 33]})
df

df = pd.DataFrame({'ColA':[1, np.nan, np.nan, 4, 5, 6, 7], 'ColB':[1, 1, 1, 1, 2, 2, 2]})
df['ColA'].fillna(method='ffill')

df['ColA'].fillna(method='bfill')

%matplotlib inline
import pandas as pd
import matplotlib.pyplot as plt

df = pd.read_csv("/home/aistudio/data/data20510/experiment.csv", index_col=0)

fig, ax = plt.subplots()
ax.scatter(df['alpha'], df['belta'])

基础知识

使用duplicated判断是不是重复的数据

df.duplicated()

0    False
1    False
2    False
3    False
4     True
5    False
6    False
dtype: bool

df.drop_duplicates()

	Name	Age	Score
0	Newton	26	90
1	Galilei	30	80
2	Einstein	28	90
3	Feynman	28	100
5	Maxwell	39	70
6	Galilei	40	90

df.drop_duplicates('Age', keep='last')

	Name	Age	Score
1	Galilei	30	80
3	Feynman	28	100
4	Newton	26	90
5	Maxwell	39	70
6	Galilei	40	90

df[df.duplicated()].count() / df.count()

Name     0.142857
Age      0.142857
Score    0.142857
dtype: float64

项目案例

cpi = pd.read_excel("data/cpi.xls")
cpi.columns = cpi.iloc[1]    
cpi = cpi[2:]    
cpi.drop([11, 12], axis=0, inplace=True)    
cpi['cpi_index'] = ['总体消费', '食品烟酒', '衣着', '居住', '生活服务', '交通通信', '教育娱乐', '医保', '其他']
cpi.drop(['指标'], axis=1, inplace=True)    
cpi.reset_index(drop=True, inplace=True)    
cpi.columns.rename('', inplace=True)    
cpi

	2019年3月	2019年2月	2019年1月	2018年12月	2018年11月	2018年10月	2018年9月	2018年8月	2018年7月	2018年6月	2018年5月	2018年4月	cpi_index
0	102.3	101.5	101.7	101.9	102.2	102.5	102.5	102.3	102.1	101.9	101.8	101.8	总体消费
1	103.5	101.2	102	102.4	102.5	102.9	103	101.9	101	100.8	100.7	101.1	食品烟酒
2	102	102	101.6	101.5	101.4	101.4	101.2	101.3	101.2	101.1	101.1	101.1	衣着
3	102.1	102.2	102.1	102.2	102.4	102.5	102.6	102.5	102.4	102.3	102.2	102.2	居住
4	101.2	101.3	101.5	101.4	101.5	101.5	101.6	101.6	101.6	101.5	101.5	101.5	生活服务
5	100.1	98.8	98.7	99.3	101.6	103.2	102.8	102.7	103	102.4	101.8	101.1	交通通信
6	102.4	102.4	102.9	102.3	102.5	102.5	102.2	102.6	102.3	101.8	101.9	102	教育娱乐
7	102.7	102.8	102.7	102.5	102.6	102.6	102.7	104.3	104.6	105	105.1	105.2	医保
8	101.9	102	102.3	101.6	101.5	101.3	100.7	101.2	101.2	100.9	101	100.9	其他

dup_ratio = []
for column in cpi.columns:
    col = cpi[column]
    ratio = col[col.duplicated()].count() / col.count()
    dup_ratio.append(round(ratio, 2))
dup_ratio

[0.0, 0.11, 0.0, 0.0, 0.22, 0.22, 0.0, 0.0, 0.11, 0.0, 0.11, 0.22, 0.0]

dr = pd.Series(dup_ratio, index=cpi.columns)
dr

2019年3月      0.00
2019年2月      0.11
2019年1月      0.00
2018年12月     0.00
2018年11月     0.22
2018年10月     0.22
2018年9月      0.00
2018年8月      0.00
2018年7月      0.11
2018年6月      0.00
2018年5月      0.11
2018年4月      0.22
cpi_index    0.00
dtype: float64

df = pd.DataFrame({"one":[10, 11, 12], 'two':[np.nan, 21, 22], "three":[30, np.nan, 33]})
df

	one	two	three
0	10	NaN	30.0
1	11	21.0	NaN
2	12	22.0	33.0

df = pd.DataFrame({'ColA':[1, np.nan, np.nan, 4, 5, 6, 7], 'ColB':[1, 1, 1, 1, 2, 2, 2]})
df['ColA'].fillna(method='ffill')

0    1.0
1    1.0
2    1.0
3    4.0
4    5.0
5    6.0
6    7.0
Name: ColA, dtype: float64

2-4 处理离群数据

%matplotlib inline
import pandas as pd
import matplotlib.pyplot as plt

df = pd.read_csv("data//experiment.csv", index_col=0)

fig, ax = plt.subplots()
ax.scatter(df['alpha'], df['belta'])

# https://github.com/mwaskom/seaborn-data.git
# 如果报错，请去官网下载并解压到 seaborn-data文件夹下，一般目录为 C:\Users\23859\seaborn-data
import seaborn as sns
sns.set(style="whitegrid")

tips = sns.load_dataset("tips")    #加载数据集
tips.sample(5)

	total_bill	tip	sex	smoker	day	time	size
84	15.98	2.03	Male	No	Thur	Lunch	2
119	24.08	2.92	Female	No	Thur	Lunch	4
168	10.59	1.61	Female	Yes	Sat	Dinner	2
209	12.76	2.23	Female	Yes	Sat	Dinner	2
138	16.00	2.00	Male	Yes	Thur	Lunch	2

画出箱线图，发现存在离散值

sns.boxplot(x="day", y="tip", data=tips, palette="Set3")

ax = sns.boxplot(x="day", y="tip", data=tips)
ax = sns.swarmplot(x="day", y="tip", data=tips, color=".25")

d:\CS\Apps\anaconda\anaconda3\envs\ai\lib\site-packages\seaborn\categorical.py:1296: UserWarning: 6.5% of the points cannot be placed; you may want to decrease the size of the markers or use stripplot.
  warnings.warn(msg, UserWarning)
d:\CS\Apps\anaconda\anaconda3\envs\ai\lib\site-packages\seaborn\categorical.py:1296: UserWarning: 5.7% of the points cannot be placed; you may want to decrease the size of the markers or use stripplot.
  warnings.warn(msg, UserWarning)

项目案例

让我们看看著名的波士顿房价

# 加载数据集
from sklearn.datasets import load_boston
import pandas as pd
boston = load_boston()
x = boston.data
y = boston.target
columns = boston.feature_names

#为了操作方便，将数据集转化为DataFrame类型
boston_df = pd.DataFrame(boston.data)    
boston_df.columns = columns
boston_df.head()

d:\CS\Apps\anaconda\anaconda3\envs\ai\lib\site-packages\sklearn\utils\deprecation.py:87: FutureWarning: Function load_boston is deprecated; `load_boston` is deprecated in 1.0 and will be removed in 1.2.

    The Boston housing prices dataset has an ethical problem. You can refer to
    the documentation of this function for further details.

    The scikit-learn maintainers therefore strongly discourage the use of this
    dataset unless the purpose of the code is to study and educate about
    ethical issues in data science and machine learning.

    In this special case, you can fetch the dataset from the original
    source::

        import pandas as pd
        import numpy as np

        data_url = "http://lib.stat.cmu.edu/datasets/boston"
        raw_df = pd.read_csv(data_url, sep="\s+", skiprows=22, header=None)
        data = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]])
        target = raw_df.values[1::2, 2]

    Alternative datasets include the California housing dataset (i.e.
    :func:`~sklearn.datasets.fetch_california_housing`) and the Ames housing
    dataset. You can load the datasets as follows::

        from sklearn.datasets import fetch_california_housing
        housing = fetch_california_housing()

    for the California housing dataset and::

        from sklearn.datasets import fetch_openml
        housing = fetch_openml(name="house_prices", as_frame=True)

    for the Ames housing dataset.
    
  warnings.warn(msg, category=FutureWarning)

	CRIM	ZN	INDUS	NOX	RM	AGE	DIS	RAD	TAX	PTRATIO	B	LSTAT
0	0.00632	18.0	2.31	0.538	6.575	65.2	4.0900	1.0	296.0	15.3	396.90	4.98
1	0.02731	0.0	7.07	0.469	6.421	78.9	4.9671	2.0	242.0	17.8	396.90	9.14
2	0.02729	0.0	7.07	0.469	7.185	61.1	4.9671	2.0	242.0	17.8	392.83	4.03
3	0.03237	0.0	2.18	0.458	6.998	45.8	6.0622	3.0	222.0	18.7	394.63	2.94
4	0.06905	0.0	2.18	0.458	7.147	54.2	6.0622	3.0	222.0	18.7	396.90	5.33

boston_df.info()


RangeIndex: 506 entries, 0 to 505
Data columns (total 13 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   CRIM     506 non-null    float64
 1   ZN       506 non-null    float64
 2   INDUS    506 non-null    float64
 3   CHAS     506 non-null    float64
 4   NOX      506 non-null    float64
 5   RM       506 non-null    float64
 6   AGE      506 non-null    float64
 7   DIS      506 non-null    float64
 8   RAD      506 non-null    float64
 9   TAX      506 non-null    float64
 10  PTRATIO  506 non-null    float64
 11  B        506 non-null    float64
 12  LSTAT    506 non-null    float64
dtypes: float64(13)
memory usage: 51.5 KB

percentlier = boston_df.quantile([0, 0.25, 0.5, 0.75, 1], axis=0)    # ①
IQR = percentlier.iloc[3] - percentlier.iloc[1]
IQR

CRIM         3.595038
ZN          12.500000
INDUS       12.910000
CHAS         0.000000
NOX          0.175000
RM           0.738000
AGE         49.050000
DIS          3.088250
RAD         20.000000
TAX        387.000000
PTRATIO      2.800000
B           20.847500
LSTAT       10.005000
dtype: float64

Q1 = percentlier.iloc[1]    #下四分位
Q3 = percentlier.iloc[3]    #上四分位
(boston_df < (Q1 - 1.5 * IQR)).any()    # ②

CRIM       False
ZN         False
INDUS      False
CHAS       False
NOX        False
RM          True
AGE        False
DIS        False
RAD        False
TAX        False
PTRATIO     True
B           True
LSTAT      False
dtype: bool

(boston_df > (Q3 + 1.5 * IQR)).any()

CRIM        True
ZN          True
INDUS      False
CHAS        True
NOX        False
RM          True
AGE        False
DIS         True
RAD        False
TAX        False
PTRATIO    False
B          False
LSTAT       True
dtype: bool

boston_df_out = boston_df[~((boston_df < (Q1 - 1.5 * IQR)) |(boston_df > (Q3 + 1.5 * IQR))).any(axis=1)]
boston_df_out.shape

(274, 13)

# 计算z值
from scipy import stats    #统计专用模块
import numpy as np
rm = boston_df['RM']
z = np.abs(stats.zscore(rm))    # ③
st = boston_df['RM'].std()    # ④
st

0.7026171434153237

threshold = 3 * st   #阈值，不是“阀值”
print(np.where(z > threshold))    # ⑤

(array([ 97,  98, 162, 163, 166, 180, 186, 195, 203, 204, 224, 225, 226,
       232, 233, 253, 257, 262, 267, 280, 283, 364, 365, 367, 374, 384,
       386, 406, 412, 414], dtype=int64),)

rm_in = rm[(z < threshold)]    # ⑥
rm_in.shape

(476,)

你可能感兴趣的:(数据准备和特征工程,python,pandas,数据分析)

Scikit-learn：机器学习的「万能工具箱」科技林总 DeepSeek学AI 人工智能
——三行代码构建AI模型的全栈指南**###**一、诞生背景：让机器学习从实验室走向大众****2010年前的AI困境**：-学术界模型难以工程化-算法实现碎片化（MATLAB/C++主导）-企业应用门槛极高>**破局者**：DavidCournapeau发起*Scikit-learn*项目，**统一算法接口**+**Python简易语法**=机器学习民主化革命---###**二、设计哲学：一致性
如何看待机器学习方法在超分子化学领域的日渐流行？ cda2024 机器学习人工智能
大家好，今天咱们来聊聊一个既时髦又接地气的话题：如何看待机器学习方法在超分子化学领域的日渐流行？想象一下，你是一位超分子化学家，正忙于设计一种新型的分子结构，这个结构需要具备特定的功能。传统的方法是通过反复实验和理论计算来优化这个结构，但过程可能非常耗时且复杂。而现在，借助机器学习，你可以更快、更准确地找到最优解。这就是为什么机器学习在超分子化学领域变得越来越受欢迎的原因之一。一、超分子化学是什么
助力您发SCI 机器学习（ML）在材料领域应用专题 YEcenfei 分子动力学催化材料机器学习人工智能 python
第一天机器学习在材料与化学常见的方法理论内容1.机器学习概述2.材料与化学中的常见机器学习方法3.应用前沿实操内容Python基础1.开发环境搭建2.变量和数据类型3.列表4.if语句5.字典6.For和while循环实操内容Python基础（续）1.函数2.类和对象3.模块Python科学数据处理1.NumPy2.Pandas3.Matplotlib第二天机器学习材料与化学应用<
Edge-TTS在广电系统中的语音合成技术的创新应用
Edge-TTS在广电系统中的语音合成技术的创新应用作者：本人是一名县级融媒体中心的工程师，多年来一直坚持学习、提升自己。喜欢Python编程、人工智能、网络安全等多领域的技术。摘要随着人工智能技术的快速发展，文字转语音(Text-to-Speech,TTS)系统已成为多种应用的重要组成部分，尤其在广播电视领域。本文介绍了一种基于Edge-TTS大模型的文字转语音工具，该工具结合了现代文本处理和语
数据库的查询爱吃草莓的土拨鼠️ 数据库
一.单表查询1.简单数据查询a.显示指定字段列：使用“*”显示全部字段列；列出字段名显示指定字段列。b.显示字段列别名：使用AS关键字为字段指定别名，方便理解。c.显示计算的列值：通过算术运算符(+-*/%)对字段进行计算，得到新的列值。d.消除重复行：使用DISTINCT参数消除查询结果中的重复行。e.限制行数：利用LIMIT控制返回的行数，可指定偏移量和行数。f.排序：ORDERBY子句按指定
掌握软件工程领域持续集成的部署流程
掌握软件工程领域持续集成的部署流程关键词：持续集成、自动化构建、版本控制、单元测试、持续交付、DevOps、流水线摘要：本文通过面包工厂的生动比喻，揭示持续集成的核心原理。我们将构建一条"代码加工流水线"，用真实的Jenkins配置案例展示从代码提交到自动化部署的全过程，并探讨现代软件开发中持续集成带来的革命性变化。背景介绍目的和范围本文面向初入软件行业的开发者，系统讲解持续集成（Continuo
小柿子影视安卓版，跨平台开发的技术挑战与解决方案 2501_92530989 音视频百度经验分享其他
在移动应用开发的浪潮中，视频类App因其对性能、用户体验、跨平台兼容性要求高，成为开发者面临的重点技术难题之一。本文将结合实际案例，分析一个典型的视频类项目“小柿子”的跨平台开发过程中的关键技术点。一、背景介绍“小柿子影视”是一款轻量级视频播放App，专注于提供清爽的界面和流畅的播放体验。该项目同时支持小柿子安卓与小柿子iOS两个平台，目标用户覆盖广泛。因此，跨平台开发策略、播放器内核选择、缓存机
Node.js-fs模块会飞的鱼先生 node.js vim 编辑器
文件写入异步写入文件(fs.writeFile())//语法:fs.writeFile(file,data[,options],callback)//参数：文件路径、数据、选项（可选）、回调函数（err）constfs=require('fs');fs.writeFile('file.txt','HelloNode.js',function(err){if(err)throwerr;console
Serverless架构下的持续交付实践软件工程实践软件工程最佳实践 AI软件构建大数据系统架构 serverless 架构运维 ai
Serverless架构下的持续交付实践关键词：Serverless架构、持续交付、DevOps、无服务器计算、自动化部署摘要：本文深入探讨了Serverless架构下的持续交付实践。首先介绍了Serverless架构和持续交付的背景知识，接着解释了相关核心概念及其关系，详细阐述了核心算法原理与操作步骤，通过数学模型加深理解，结合实际项目案例展示了代码实现与解读，探讨了实际应用场景，推荐了相关工具
深入解析 Cookie、LocalStorage 和 SessionStorage 浪裡遊杂文前端服务器后端信息与通信 tcp/ip 交互
浏览器数据存储三剑客：深入解析Cookie、LocalStorage和SessionStorage在现代Web应用开发中，经常需要在用户的浏览器端存储数据，以实现用户状态管理、个性化设置、离线功能等。浏览器为此提供了几种主要的客户端存储机制，其中Cookie、LocalStorage和SessionStorage是最常用且核心的三种。虽然它们都用于在浏览器端存储数据，但它们在设计目的、生命周期、作
9-STM32的ADC采样和DAM配置水果里面有苹果嵌入式软件 stm32 单片机嵌入式硬件
STM32的ADC采样和DAM配置Adc_Init();//ADC初始化My_DMA_Config(DMA1_Channel1,(u32)&ADC1->DR,(u32)&ADC1_Value,ADC_CHANNEL_NUM*ADC_C_VAL_TIMES);//配置DMA通道DMA_Cmd(DMA1_Channel1,ENABLE);//启动DMA通道ADC_SoftwareStartConvCm
联咏NT98567高度集成边缘IPC应用SoC规格特性 weixin_Todd_Wong2010 边缘计算人工智能计算机视觉 python c++神经网络
联咏NT98567MQG是一款高度集成的SoC，具有高图像质量、低比特率和低功耗的特点，适用于电池应用，目标是2Mp至5Mp/8Mp边缘IP摄像头应用。该SoC集成了双核ARMCortexA7CPU、新一代ISP、H.265/H.264视频压缩编解码器、视频处理引擎（VPE）用于双传感器拼接和鱼眼去畸变、高性能硬件DLA模块、图形引擎、显示控制器、以太网PHY、USB2.0主机/设备、音频编解码器
海思Hi3519DV500方案1200万无人机吊舱套板 weixin_Todd_Wong2010 嵌入式硬件 AI 前端边缘计算图像处理
海思Hi3519DV500方案1200万无人机吊舱套板Hi3519DV500是一颗面向行业市场推出的超高清智能网络摄像头SoC。该芯片最高支持四路sensor输入，支持最高4K@30fps的ISP图像处理能力，支持2FWDR、多级降噪、六轴防抖、全景拼接、多光谱融合等多种传统图像增强和处理算法，支持通过AI算法对输入图像进行实时降躁等处理，为用户提供了卓越的图像处理能力，集成了高效的神经网络推理引
飞算 JavaAI 2.0.0和 AI 编程技术设计的 120 章 Java 系统教程 AI编程员 001AI传统＆编程语言 002AI编程工具汇总 003AI编程作品汇总开发语言深度学习 pillow AI编程人工智能
以下是基于飞算JavaAI2.0.0和AI编程技术设计的120章Java系统教程，涵盖从基础到高阶、理论到实践的全栈知识体系，结合经典案例与企业级项目实战，适合零基础到架构师的学习路径：第一部分：基础入门（第1-30章）Java开发环境配置JDK21+IntelliJIDEA+飞算AI插件安装第一个AI生成的HelloWorld程序基础语法与AI辅助编程数据类型、变量、运算符飞算AI：自动生成算法
100G QSFP28双纤单波光模块的高性价比解决方案易天ETU 光模块信息与通信网络 5G 数据中心互联万兆光模块单波100G光模块 QSFP28光模块
我们都知道传统的100G光模块采用的都是4路25G的光学通道并行或波分复用进行传输的，目前市场上主流的光模块主要是100GSR4/CWDM4/PSM4/LR4/ZR4等。而我们今天为大家介绍的100G单波光模块，使用的是单波长100GPAM4调制技术，可以更好的降低生产成本和获得更高的传输效率。一、传统100G光模块和100G单波光模块的区别对比传统的100G光模块采用的是4x25GNRZ技术。使
掌握编程：数字时代的必备技能 afsdfewasdf AI编程
编程在现代社会的必要性学习编程在当今数字化时代具有显著优势。随着科技发展，编程技能已成为许多行业的基础需求，从软件开发到数据分析，甚至传统行业也在逐步依赖技术解决方案。掌握编程能力可以提升个人竞争力，开拓职业机会。就业市场需求旺盛技术岗位如软件工程师、数据科学家、人工智能专家等持续增长。非技术岗位如市场营销、金融分析也要求基础编程知识处理自动化任务或数据分析。掌握编程技能能显著提高薪资水平和职业发
Aop和Ioc有什么关系？（面试简洁版）乞讨不是罪过面试 java 职场和发展
AOP（面向切面编程）和IoC（控制反转）是Spring框架的两大核心，它们既独立又协作，共同实现松耦合、可扩展的架构设计。以下是它们的核心关系基础关系1.IoC是基石：Spring通过IoC容器（如ApplicationContext）统一管理所有Bean（包括普通业务Bean和AOP代理对象）。没有IoC，AOP无法自动生效。2.AOP是增强：AOP基于IoC管理的Bean，通过动态代理（JD
SR触发器为什么能够消抖马职音人嵌入式硬件
SR触发器（Set-Reset触发器）能够用于**消抖（Debounce）**，主要是因为它的双稳态特性和对输入信号的锁定能力。机械开关（如按键、拨动开关）在闭合或断开时，由于金属触点的弹性，会在短时间内产生多次快速通断（即“抖动”），导致信号出现多个脉冲。SR触发器可以通过其逻辑特性消除这些抖动，确保输出稳定的电平信号。---##**SR触发器消抖的原理**###**1.SR触发器的基本特性**
浏览器存储机制解析：Cookie vs localStorage vs sessionStorage neon1204 计算机｜网络计算机网络缓存
全面对比：cookie、localStorage和sessionStorage1.Cookie核心作用：用于浏览器和服务器通信（如身份验证）存储大小：最多4KB生命周期：可设置过期时间（通过Expires或Max-Age）未设置则随浏览器会话结束失效访问方式：读/写：document.cookie（字符串形式）修改需手动字符串拼接通信特性：每次HTTP请求自动携带（通过请求头）增加网络负担安全相关
电赛DEEPSEEK 马职音人嵌入式硬件 stm32 学习单片机 HAL库
以下是针对竞赛题目的深度优化方案，重点解决频率接近时的滤波难题和相位测量精度问题：以下是使用NIMultisim14.3实现本项目的详细解决方案：一、基础要求实现方案（模块化设计）1.双频信号发生电路电路结构：[信号源1]XFG1（1kHz）->[电压跟随器U1A]->[加法器U2A][信号源2]XFG2（10kHz）->[电压跟随器U1B]->[加法器U2A]关键参数设置：元件清单：-运算放大器
如何修改Python安装路径壹只小小码农 python 学习开发语言
在安装软件时，很多人都会发现默认的安装路径不是他们想要的，于是就想要修改安装路径。那么如何修改安装路径呢？本文将从多个角度为大家进行分析。一、在安装向导中更改一般情况下，我们在安装软件时会看到安装向导，其中会有一个“安装路径”选项，我们可以在这里手动更改安装路径。不同软件的安装向导可能略有不同，但是一般都会有这个选项。二、使用修改器有些软件虽然没有提供修改安装路径的选项，但是我们可以使用一些修改器
基于 Kintex UltraScale 系列 2 路 QSFP+40G 光纤 PCIe 数据传输卡 / 光纤适配器（5GByte/s 带宽KU060光纤 PCIe 数据传输卡） F_white 数据中心视频与图像采集处理机器视觉
PCIE732是一款基于PCIE总线架构的高性能数据传输卡，板卡具有1个PCIex8主机接口、2个QSFP+40G光纤接口，可以实现2路QSFP+40G光纤的数据实时采集、传输。板卡采用Xilinx的高性能KintexUltraScale系列FPGA作为实时处理器，板载2组独立的72位DDR4SDRAM大容量缓存。板卡具有1个RJ45千兆以太网口以及若干IO信号。一般应用于基于服务器的雷
golang游戏开发学习笔记-开发一个简单的2D游戏(基础篇）
2.人物运动图（只展示第一帧）2.方块纹理图将资源准备完成之后，就能开始代码的开发了五.开始实现！1.资源管理在上一篇文章中我们将纹理和着色器分别封装成了两个类，这里我们创建一个资源管理类对这两个类进行管理，由于golang中是没有静态变量的，需要用包内变量对其进行模拟shader.gopackageresourceimport(“github.com/go-gl/gl/v4.1-core/gl”
element plus封装表单组件和跨组件的表单校验 2302_79447558 vue.js elementui javascript
最基础的表单组件封装在做项目的时候,刚开始并没有想到要做表单校验,项目又有超级多的表单要生成,所以最开始想到高度封装一个表单组件,通过参数来生成表单,并进行传值等操作下面展示了部分代码(远程搜索感觉还挺有意思的,所以保留下来了){ele.remoteFunc(ele,queryString)}"default-first-option:loading="ele.loading">import{re
Unity纹理的性能优化东邪丶游戏开发图形学/渲染 unity 性能优化游戏引擎纹理贴图
https://developer.unity.cn/projects/6482ba86edbc2a116e4f27c1在Unity的储存方式大部分的纹理，Unity都会保存两份像素数据的副本：GPU内存：对应的数据对象为RenderTexture，是渲染所需的数据CPU内存：对应的数据对象为Texture，属于可选数据，又被成为可读纹理，用于读取/写入/控制像素数据在Unity不同位置的像素数据
next-hexagonal-starter：前端六边形架构的简约实践翟珊兰
next-hexagonal-starter：前端六边形架构的简约实践next-hexagonal-starter项目地址:https://gitcode.com/gh_mirrors/ne/next-hexagonal-starter项目介绍在软件开发中，六边形架构（HexagonalArchitecture）是一种设计模式，它通过将应用程序的业务逻辑与外部关注点（如UI、数据库、框架等）解耦，
钉钉小程序框架引入 Pinia 状态管理
上一篇文章描述了如何使用其他手段实现路由守卫文章地址：钉钉小程序开发中实现路由守卫拦截-CSDN博客本文将深入探讨如何在基于这些技术栈的小程序项目中引入状态管理插件一、了解PiniaPinia是一个全新的Vue状态管理库，旨在替代Vuex成为Vue3应用程序中的首选状态管理解决方案。它提供了更加简洁的API和更好的TypeScript支持。通过结合使用UniApp、Vue3、TypeScript和
非结构化数据真“野”？聊聊AI处理它时踩过的那些坑 Echo_Wish Python 进阶人工智能
非结构化数据真“野”？聊聊AI处理它时踩过的那些坑在AI圈子里有一句“老话”：真正的世界，是非结构化的。图像、音频、视频、文本、传感器原始数据……这些在数据库里没个字段、没个主键的家伙，占据了全世界80%以上的数据量。咱们都喜欢说“数据是新时代的石油”，但很少人说：非结构化数据，就是粘稠未提炼的原油——处理它，才是最累的活。这篇文章，我不想跟你讲那些“炫技”的论文和模型，而是从一个一线AI工程师的
Kotlin编程语言的锡阿卡德项目：深度解析与实战应用黄浴
本文还有配套的精品资源，点击获取简介：本项目围绕"锡阿卡德"这一与Kotlin编程语言相关的概念，探索了其可能指代的一个编程项目、框架或应用。Kotlin作为一种现代编程语言，其设计目标包括提升开发效率、安全性及互操作性。它结合了函数式和面向对象的编程特性，并与Java兼容。文章探讨了Kotlin的核心知识点，例如变量声明、数据类、空安全、扩展函数、高阶函数、协程、泛型、接口、类型别名以及Anko
vue-28（服务器端渲染（SSR）简介及其优势）清幽竹客 VUE vue.js javascript
服务器端渲染（SSR）简介及其优势服务器端渲染（SSR）是现代网络应用的关键技术，特别是使用Vue.js等框架构建的应用。它通过在服务器上渲染初始应用状态来弥补传统单页应用（SPA）的局限性，从而提升性能、SEO和用户体验。本课程将全面介绍SSR，包括其优势以及与客户端渲染的对比。我们将为后续课程中使用Nuxt.js奠定基础，这是一个强大的框架，简化了Vue.js的SSR实现。理解服务器端渲染（S
jdk tomcat 环境变量配置 Array_06 java jdk tomcat
Win7 下如何配置java环境变量 1。准备jdk包，win7系统，tomcat安装包（均上网下载即可） 2。进行对jdk的安装，尽量为默认路径（但要记住啊！！以防以后配置用。。。） 3。分别配置高级环境变量。电脑-->右击属性-->高级环境变量-->环境变量。分别配置 : path &nbs
Spring调SDK包报java.lang.NoSuchFieldError错误 bijian1013 java spring
在工作中调另一个系统的SDK包，出现如下java.lang.NoSuchFieldError错误。 org.springframework.web.util.NestedServletException: Handler processing failed; nested exception is java.l
LeetCode[位运算] - #136 数组中的单一数 Cwind java 题解位运算 LeetCode Algorithm
原题链接：#136 Single Number 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现两次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：题目限定了线性的时间复杂度，同时不使用额外的空间，即要求只遍历数组一遍得出结果。由于异或运算 n XOR n = 0, n XOR 0 = n，故将数组中的每个元素进
qq登陆界面开发 15700786134 qq
今天我们来开发一个qq登陆界面，首先写一个界面程序，一个界面首先是一个Frame对象，即是一个窗体。然后在这个窗体上放置其他组件。代码如下： public class First { public void initul(){ jf=ne
Linux的程序包管理器RPM 被触发 linux
在早期我们使用源代码的方式来安装软件时，都需要先把源程序代码编译成可执行的二进制安装程序，然后进行安装。这就意味着每次安装软件都需要经过预处理-->编译-->汇编-->链接-->生成安装文件--> 安装，这个复杂而艰辛的过程。为简化安装步骤，便于广大用户的安装部署程序，程序提供商就在特定的系统上面编译好相关程序的安装文件并进行打包，提供给大家下载，我们只需要根据自己的
socket通信遇到EOFException 肆无忌惮_ EOFException
java.io.EOFException at java.io.ObjectInputStream$PeekInputStream.readFully(ObjectInputStream.java:2281) at java.io.ObjectInputStream$BlockDataInputStream.readShort(ObjectInputStream.java:
基于spring的web项目定时操作知了ing java Web
废话不多说，直接上代码，很简单配置一下项目启动就行 1，web.xml <?xml version="1.0" encoding="UTF-8"?> <web-app xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="h
树形结构的数据库表Schema设计矮蛋蛋 schema
原文地址： http://blog.csdn.net/MONKEY_D_MENG/article/details/6647488 程序设计过程中，我们常常用树形结构来表征某些数据的关联关系，如企业上下级部门、栏目结构、商品分类等等，通常而言，这些树状结构需要借助于数据库完成持久化。然而目前的各种基于关系的数据库，都是以二维表的形式记录存储数据信息，
maven将jar包和源码一起打包到本地仓库 alleni123 maven
http://stackoverflow.com/questions/4031987/how-to-upload-sources-to-local-maven-repository <project> ... <build> <plugins> <plugin> <groupI
java IO操作与 File 获取文件或文件夹的大小，可读，等属性！！！百合不是茶
类 File File是指文件和目录路径名的抽象表示形式。 1，何为文件：标准文件（txt doc mp3...）目录文件（文件夹）虚拟内存文件 2，File类中有可以创建文件的 createNewFile（）方法,在创建新文件的时候需要try{} catch(）{}因为可能会抛出异常；也有可以判断文件是否是一个标准文件的方法isFile();这些防抖都
Spring注入有继承关系的类（2） bijian1013 java spring
被注入类的父类有相应的属性，Spring可以直接注入相应的属性，如下所例：1.AClass类 package com.bijian.spring.test4; public class AClass { private String a; private String b; public String getA() { retu
30岁转型期你能否成为成功人士 bijian1013 成长励志
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
【Velocity四】Velocity与Java互操作 bit1129 velocity
Velocity出现的目的用于简化基于MVC的web应用开发，用于替代JSP标签技术，那么Velocity如何访问Java代码.本篇继续以Velocity三http://bit1129.iteye.com/blog/2106142中的例子为基础， POJO package com.tom.servlets; public
【Hive十一】Hive数据倾斜优化 bit1129 hive
什么是Hive数据倾斜问题操作：join,group by,count distinct 现象：任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成；查看未完成的子任务，可以看到本地读写数据量积累非常大，通常超过10GB可以认定为发生数据倾斜。原因：key分布不均匀倾斜度衡量：平均记录数超过50w且
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua csrf
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-3.求子数组的最大和 bylijinnan java
package beautyOfCoding; public class MaxSubArraySum { /** * 3.求子数组的最大和题目描述：输入一个整形数组，数组里有正数也有负数。数组中连续的一个或多个整数组成一个子数组，每个子数组都有一个和。求所有子数组的和的最大值。要求时间复杂度为O(n)。例如输入的数组为1, -2, 3, 10, -4,
Netty源码学习-FileRegion bylijinnan java netty
今天看org.jboss.netty.example.http.file.HttpStaticFileServerHandler.java 可以直接往channel里面写入一个FileRegion对象，而不需要相应的encoder： //pipeline（没有诸如“FileRegionEncoder”的handler）： public ChannelPipeline ge
使用ZeroClipboard解决跨浏览器复制到剪贴板的问题 cngolon 跨浏览器复制到粘贴板 Zero Clipboard
Zero Clipboard的实现原理 Zero Clipboard 利用透明的Flash让其漂浮在复制按钮之上，这样其实点击的不是按钮而是 Flash ，这样将需要的内容传入Flash，再通过Flash的复制功能把传入的内容复制到剪贴板。 Zero Clipboard的安装方法首先需要下载 Zero Clipboard的压缩包，解压后把文件夹中两个文件：ZeroClipboard.js
单例模式 cuishikuan 单例模式
第一种（懒汉，线程不安全）： public class Singleton { 2 private static Singleton instance; 3 pri
spring+websocket的使用 dalan_123
一、spring配置文件 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3.or
细节问题：ZEROFILL的用法范围。 dcj3sjt126com mysql
1、zerofill把月份中的一位数字比如1，2，3等加前导0 mysql> CREATE TABLE t1 (year YEAR(4), month INT(2) UNSIGNED ZEROFILL, -> day
Android开发10——Activity的跳转与传值 dcj3sjt126com Android开发
Activity跳转与传值，主要是通过Intent类，Intent的作用是激活组件和附带数据。一、Activity跳转方法一Intent intent = new Intent(A.this, B.class); startActivity(intent) 方法二Intent intent = new Intent();intent.setCla
jdbc 得到表结构、主键 eksliang jdbc 得到表结构、主键
转自博客：http://blog.csdn.net/ocean1010/article/details/7266042 假设有个con DatabaseMetaData dbmd = con.getMetaData(); rs = dbmd.getColumns(con.getCatalog(), schema, tableName, null); rs.getSt
Android 应用程序开关GPS gqdy365 android
要在应用程序中操作GPS开关需要权限： <uses-permission android:name="android.permission.WRITE_SECURE_SETTINGS" /> 但在配置文件中添加此权限之后会报错，无法再eclipse里面正常编译，怎么办？ 1、方法一：将项目放到Android源码中编译； 2、方法二：网上有人说cl
Windows上调试MapReduce zhiquanliu mapreduce
1.下载hadoop2x-eclipse-plugin https://github.com/winghc/hadoop2x-eclipse-plugin.git 把 hadoop2.6.0-eclipse-plugin.jar 放到eclipse plugin 目录中。 2.下载 hadoop2.6_x64_.zip http://dl.iteye.com/topics/download/d2b
如何看待一些知名博客推广软文的行为？ justjavac 博客
本文来自我在知乎上的一个回答：http://www.zhihu.com/question/23431810/answer/24588621 互联网上的两种典型心态：当初求种像条狗，如今撸完嫌人丑当初搜贴像条犬，如今读完嫌人软你为啥感觉不舒服呢？难道非得要作者把自己的劳动成果免费给你用，你才舒服？就如同 Google 关闭了 Gooled Reader，那是
sql优化总结 macroli sql
为了是自己对sql优化有更好的原则性，在这里做一下总结，个人原则如有不对请多多指教。谢谢！要知道一个简单的sql语句执行效率，就要有查看方式，一遍更好的进行优化。一、简单的统计语句执行时间 declare @d datetime ---定义一个datetime的变量set @d=getdate() ---获取查询语句开始前的时间select user_id
Linux Oracle中常遇到的一些问题及命令总结超声波 oracle linux
1.linux更改主机名 (1)#hostname oracledb　　　　临时修改主机名 (2) vi /etc/sysconfig/network 　　修改hostname (3) vi /etc/hosts　　　　　　　　修改IP对应的主机名 2.linux重启oracle实例及监听的各种方法（注意操作的顺序应该是先监听，后数据库实例） &nbs
hive函数大全及使用示例 superlxw1234 hadoop hive函数
具体说明及示例参见附件文档。文档目录：目录一、关系运算： 4 1. 等值比较: = 4 2. 不等值比较: <> 4 3. 小于比较: < 4 4. 小于等于比较: <= 4 5. 大于比较: > 5 6. 大于等于比较: >= 5 7. 空值判断: IS NULL 5
Spring 4.2新特性-使用@Order调整配置类加载顺序 wiselyman spring 4
4.1 @Order Spring 4.2 利用@Order控制配置类的加载顺序 4.2 演示两个演示bean package com.wisely.spring4_2.order; public class Demo1Service { } package com.wisely.spring4_2.order; public class

【数据清理与特征工程】2-数据清理

文章目录

2-0 基本概念

2-1 转化数据类型

案例

Customer Number

Percent Growth

2016&2017

Jan Units

Month-day-year

Active

练习

练习

2-2 处理重复数据

基础知识

项目案例

2-3 处理缺失数据

问题1：为什么有缺失值？

缺失值产生的原因

缺失值类型

完全随机缺失 (MCAR)

随机丢失 (MAR)

不随机丢失 (NMAR)

问题2：如何分析缺失值？

问题3：缺失值需要处理吗？

问题4：缺失值如何填充？

使用值填充

最近邻样本填充

使用模型预测

基础知识

项目案例

2-4 处理离群数据

项目案例

你可能感兴趣的:(数据准备和特征工程,python,pandas,数据分析)