ah4526

用python进行数据清理（上）

数据清理是从数据集、表或数据库中检测和纠正(或删除)损坏或不准确的记录的过程，指的是识别数据中不完整、不正确、不准确或不相关的部分，然后进行替换、修改或删除不干净或者粗糙的数据。

为了使它更简单，我们用Python创建了这个新的完整的分步指南。你将学习如何寻找和清洁的技术:

数据缺失
数据不规则（异常值）
非必要的数据（如重复值）
非一致的数据

在本指南中，我们使用了来自Kaggle的俄罗斯住房数据集。这个项目的目标是预测俄罗斯的房价波动。我们不清理整个数据集，但将显示它的例子。

在进入清理过程之前，让我们简要地看一下数据。

# import packages
import pandas as pd
import numpy as np
import seaborn as sns

import matplotlib.pyplot as plt
import matplotlib.mlab as mlab
import matplotlib
plt.style.use('ggplot')
from matplotlib.pyplot import figure

%matplotlib inline
matplotlib.rcParams['figure.figsize'] = (12,8)

pd.options.mode.chained_assignment = None



# read the data
df = pd.read_csv('train.csv')

# shape and data types of the data (30471, 292)
print(df.shape)
print(df.dtypes)

# 打印数字列int/float
df_numeric = df.select_dtypes(include=[np.number])
numeric_cols = df_numeric.columns.values
print(numeric_cols)

# 打印非数字列object
df_non_numeric = df.select_dtypes(exclude=[np.number])
non_numeric_cols = df_non_numeric.columns.values
print(non_numeric_cols)

运行结果

(30471, 292)
id                                         int64
timestamp                                 object
full_sq                                    int64
life_sq                                  float64
floor                                    float64
max_floor                                float64
material                                 float64
build_year                               float64
num_room                                 float64
kitch_sq                                 float64
state                                    float64
product_type                              object
sub_area                                  object
area_m                                   float64
raion_popul                                int64
green_zone_part                          float64
indust_part                              float64
children_preschool                         int64
preschool_quota                          float64
preschool_education_centers_raion          int64
children_school                            int64
school_quota                             float64
school_education_centers_raion             int64
school_education_centers_top_20_raion      int64
hospital_beds_raion                      float64
healthcare_centers_raion                   int64
university_top_20_raion                    int64
sport_objects_raion                        int64
additional_education_raion                 int64
culture_objects_top_25                    object
                                          ...   
big_church_count_3000                      int64
church_count_3000                          int64
mosque_count_3000                          int64
leisure_count_3000                         int64
sport_count_3000                           int64
market_count_3000                          int64
green_part_5000                          float64
prom_part_5000                           float64
office_count_5000                          int64
office_sqm_5000                            int64
trc_count_5000                             int64
trc_sqm_5000                               int64
cafe_count_5000                            int64
cafe_sum_5000_min_price_avg              float64
cafe_sum_5000_max_price_avg              float64
cafe_avg_price_5000                      float64
cafe_count_5000_na_price                   int64
cafe_count_5000_price_500                  int64
cafe_count_5000_price_1000                 int64
cafe_count_5000_price_1500                 int64
cafe_count_5000_price_2500                 int64
cafe_count_5000_price_4000                 int64
cafe_count_5000_price_high                 int64
big_church_count_5000                      int64
church_count_5000                          int64
mosque_count_5000                          int64
leisure_count_5000                         int64
sport_count_5000                           int64
market_count_5000                          int64
price_doc                                  int64
Length: 292, dtype: object
['id' 'full_sq' 'life_sq' 'floor' 'max_floor' 'material' 'build_year'
 'num_room' 'kitch_sq' 'state' 'area_m' 'raion_popul' 'green_zone_part'
 'indust_part' 'children_preschool' 'preschool_quota'
 'preschool_education_centers_raion' 'children_school' 'school_quota'
 'school_education_centers_raion' 'school_education_centers_top_20_raion'
 'hospital_beds_raion' 'healthcare_centers_raion'
 'university_top_20_raion' 'sport_objects_raion'
 'additional_education_raion' 'culture_objects_top_25_raion'
 'shopping_centers_raion' 'office_raion' 'full_all' 'male_f' 'female_f'
 'young_all' 'young_male' 'young_female' 'work_all' 'work_male'
 'work_female' 'ekder_all' 'ekder_male' 'ekder_female' '0_6_all'
 '0_6_male' '0_6_female' '7_14_all' '7_14_male' '7_14_female' '0_17_all'
 '0_17_male' '0_17_female' '16_29_all' '16_29_male' '16_29_female'
 '0_13_all' '0_13_male' '0_13_female'
 'raion_build_count_with_material_info' 'build_count_block'
 'build_count_wood' 'build_count_frame' 'build_count_brick'
 'build_count_monolith' 'build_count_panel' 'build_count_foam'
 'build_count_slag' 'build_count_mix'
 'raion_build_count_with_builddate_info' 'build_count_before_1920'
 'build_count_1921-1945' 'build_count_1946-1970' 'build_count_1971-1995'
 'build_count_after_1995' 'ID_metro' 'metro_min_avto' 'metro_km_avto'
 'metro_min_walk' 'metro_km_walk' 'kindergarten_km' 'school_km' 'park_km'
 'green_zone_km' 'industrial_km' 'water_treatment_km' 'cemetery_km'
 'incineration_km' 'railroad_station_walk_km' 'railroad_station_walk_min'
 'ID_railroad_station_walk' 'railroad_station_avto_km'
 'railroad_station_avto_min' 'ID_railroad_station_avto'
 'public_transport_station_km' 'public_transport_station_min_walk'
 'water_km' 'mkad_km' 'ttk_km' 'sadovoe_km' 'bulvar_ring_km' 'kremlin_km'
 'big_road1_km' 'ID_big_road1' 'big_road2_km' 'ID_big_road2' 'railroad_km'
 'zd_vokzaly_avto_km' 'ID_railroad_terminal' 'bus_terminal_avto_km'
 'ID_bus_terminal' 'oil_chemistry_km' 'nuclear_reactor_km' 'radiation_km'
 'power_transmission_line_km' 'thermal_power_plant_km' 'ts_km'
 'big_market_km' 'market_shop_km' 'fitness_km' 'swim_pool_km'
 'ice_rink_km' 'stadium_km' 'basketball_km' 'hospice_morgue_km'
 'detention_facility_km' 'public_healthcare_km' 'university_km'
 'workplaces_km' 'shopping_centers_km' 'office_km'
 'additional_education_km' 'preschool_km' 'big_church_km'
 'church_synagogue_km' 'mosque_km' 'theater_km' 'museum_km'
 'exhibition_km' 'catering_km' 'green_part_500' 'prom_part_500'
 'office_count_500' 'office_sqm_500' 'trc_count_500' 'trc_sqm_500'
 'cafe_count_500' 'cafe_sum_500_min_price_avg'
 'cafe_sum_500_max_price_avg' 'cafe_avg_price_500'
 'cafe_count_500_na_price' 'cafe_count_500_price_500'
 'cafe_count_500_price_1000' 'cafe_count_500_price_1500'
 'cafe_count_500_price_2500' 'cafe_count_500_price_4000'
 'cafe_count_500_price_high' 'big_church_count_500' 'church_count_500'
 'mosque_count_500' 'leisure_count_500' 'sport_count_500'
 'market_count_500' 'green_part_1000' 'prom_part_1000' 'office_count_1000'
 'office_sqm_1000' 'trc_count_1000' 'trc_sqm_1000' 'cafe_count_1000'
 'cafe_sum_1000_min_price_avg' 'cafe_sum_1000_max_price_avg'
 'cafe_avg_price_1000' 'cafe_count_1000_na_price'
 'cafe_count_1000_price_500' 'cafe_count_1000_price_1000'
 'cafe_count_1000_price_1500' 'cafe_count_1000_price_2500'
 'cafe_count_1000_price_4000' 'cafe_count_1000_price_high'
 'big_church_count_1000' 'church_count_1000' 'mosque_count_1000'
 'leisure_count_1000' 'sport_count_1000' 'market_count_1000'
 'green_part_1500' 'prom_part_1500' 'office_count_1500' 'office_sqm_1500'
 'trc_count_1500' 'trc_sqm_1500' 'cafe_count_1500'
 'cafe_sum_1500_min_price_avg' 'cafe_sum_1500_max_price_avg'
 'cafe_avg_price_1500' 'cafe_count_1500_na_price'
 'cafe_count_1500_price_500' 'cafe_count_1500_price_1000'
 'cafe_count_1500_price_1500' 'cafe_count_1500_price_2500'
 'cafe_count_1500_price_4000' 'cafe_count_1500_price_high'
 'big_church_count_1500' 'church_count_1500' 'mosque_count_1500'
 'leisure_count_1500' 'sport_count_1500' 'market_count_1500'
 'green_part_2000' 'prom_part_2000' 'office_count_2000' 'office_sqm_2000'
 'trc_count_2000' 'trc_sqm_2000' 'cafe_count_2000'
 'cafe_sum_2000_min_price_avg' 'cafe_sum_2000_max_price_avg'
 'cafe_avg_price_2000' 'cafe_count_2000_na_price'
 'cafe_count_2000_price_500' 'cafe_count_2000_price_1000'
 'cafe_count_2000_price_1500' 'cafe_count_2000_price_2500'
 'cafe_count_2000_price_4000' 'cafe_count_2000_price_high'
 'big_church_count_2000' 'church_count_2000' 'mosque_count_2000'
 'leisure_count_2000' 'sport_count_2000' 'market_count_2000'
 'green_part_3000' 'prom_part_3000' 'office_count_3000' 'office_sqm_3000'
 'trc_count_3000' 'trc_sqm_3000' 'cafe_count_3000'
 'cafe_sum_3000_min_price_avg' 'cafe_sum_3000_max_price_avg'
 'cafe_avg_price_3000' 'cafe_count_3000_na_price'
 'cafe_count_3000_price_500' 'cafe_count_3000_price_1000'
 'cafe_count_3000_price_1500' 'cafe_count_3000_price_2500'
 'cafe_count_3000_price_4000' 'cafe_count_3000_price_high'
 'big_church_count_3000' 'church_count_3000' 'mosque_count_3000'
 'leisure_count_3000' 'sport_count_3000' 'market_count_3000'
 'green_part_5000' 'prom_part_5000' 'office_count_5000' 'office_sqm_5000'
 'trc_count_5000' 'trc_sqm_5000' 'cafe_count_5000'
 'cafe_sum_5000_min_price_avg' 'cafe_sum_5000_max_price_avg'
 'cafe_avg_price_5000' 'cafe_count_5000_na_price'
 'cafe_count_5000_price_500' 'cafe_count_5000_price_1000'
 'cafe_count_5000_price_1500' 'cafe_count_5000_price_2500'
 'cafe_count_5000_price_4000' 'cafe_count_5000_price_high'
 'big_church_count_5000' 'church_count_5000' 'mosque_count_5000'
 'leisure_count_5000' 'sport_count_5000' 'market_count_5000' 'price_doc']
['timestamp' 'product_type' 'sub_area' 'culture_objects_top_25'
 'thermal_power_plant_raion' 'incineration_raion' 'oil_chemistry_raion'
 'radiation_raion' 'railroad_terminal_raion' 'big_market_raion'
 'nuclear_reactor_raion' 'detention_facility_raion' 'water_1line'
 'big_road1_1line' 'railroad_1line' 'ecology']

从这些结果中，我们了解到数据集有30471行和292列。我们还确定特征是数值变量还是分类变量。这些都是有用的信息。
现在，我们可以浏览“脏”数据类型的检查表并逐个修复它们。

1.数据缺失

丢失数据可视化

处理丢失的数据/值是数据清理中最棘手但最常见的部分之一。虽然许多模型可以处理数据的其他问题，但是大多数模型不接受丢失的数据。

我们将介绍三种技术，以进一步了解数据集中丢失的数据。

1.缺失数据的热图

当特征数量较少时，我们可以通过heatmap来可视化缺失的数据。

cols = df.columns[:30] # first 30 columns
colours = ['#000099', '#ffff00'] # specify the colours - yellow is missing. blue is not missing.
sns.heatmap(df[cols].isnull(), cmap=sns.color_palette(colours))
plt.show()

下面的图表展示了前30个特性中缺失的数据模式。横轴为特征名称;纵轴表示观测值/行数;黄色表示缺少的数据，蓝色表示没缺少的数据。

train.csv文件截图如下：

即NA代表黄色。

2.缺失数据百分比表

当数据集中有许多特性时，我们可以列出每个特性的缺失数据百分比。

for col in df.columns:
    pct_missing = np.mean(df[col].isnull())
    print('{} - {}%'.format(col, round(pct_missing*100)))

这将生成一个列表，在下面的列表中显示每个特性缺失值的百分比。
具体来说，我们看到life_sq功能有21%的缺失，而地板只有1%的缺失。这个列表是一个有用的总结，可以补充热图可视化。

3.丢失数据直方图

当我们有很多特征时，丢失数据直方图也是一种技术。
为了了解更多关于观测中缺失值模式的信息，我们可以通过直方图将其可视化。

for col in df.columns:
    missing = df[col].isnull()
    num_missing = np.sum(missing)
    
    if num_missing > 0:  
        print('created missing indicator for: {}'.format(col))
        df['{}_ismissing'.format(col)] = missing


# then based on the indicator, plot the histogram of missing values
ismissing_cols = [col for col in df.columns if 'ismissing' in col]
df['num_missing'] = df[ismissing_cols].sum(axis=1)

df['num_missing'].value_counts().reset_index().sort_values(by='index').plot.bar(x='index', y='num_missing')

这个直方图有助于识别30,471个观察值中缺失的值。

例如，有6000多个没有缺失值的观测值，而有一个缺失值的观测值接近4000个。

对于缺失数据的处理方法

对于处理缺失的数据，没有一致的解决方案。我们必须研究特定的特性和数据集，以确定处理它们的最佳方式。
下面介绍四种最常见的处理丢失数据的方法。但是，如果情况比通常更复杂，我们需要创造性地使用更复杂的方法，比如缺失数据建模。

1.删除观察值

在统计学中，这种方法称为列表删除技术。在这个解决方案中，只要整个观察值包含一个丢失的值，我们就删除它。只有当我们确信丢失的数据不能提供信息时，我们才执行此操作。否则，我们应该考虑其他的解决方案。还可以使用其他标准来删除观察结果。

例如，从缺失的数据柱状图中，我们注意到只有少量的观察数据总共丢失了35个以上的特征。我们可以创建一个新的数据集df_less_missing_rows，删除包含35个以上缺失特性的观察数据。

ind_missing = df[df['num_missing'] > 35].index
df_less_missing_rows = df.drop(ind_missing, axis=0)

2.删除特征值

与解决方案1类似，我们只在确信该特性没有提供有用信息时才这样做。例如，在缺失数据百分比列表中，我们注意到hospital_beds_raion有47%的高缺失值百分比。我们可能会删除该特征。

cols_to_drop = ['hospital_beds_raion']
df_less_hos_beds_raion = df.drop(cols_to_drop, axis=1)

3.估算缺失值

当特征是一个数值变量时，我们可以进行缺失数据的归并。我们将缺失的值替换为未缺失的相同特征数据的平均值或中值。

当特征是一个分类变量时，我们可以通过模式(最频繁的值)来估算缺失的数据。

以life_sq为例，我们可以用它的中值来代替这个特性的缺失值。

med = df['life_sq'].median()
print(med)
df['life_sq'] = df['life_sq'].fillna(med)

此外，我们可以对所有的数值特征同时应用相同的归算策略。
即所有数据的缺失值用平均值代替。

df_numeric = df.select_dtypes(include=[np.number])
numeric_cols = df_numeric.columns.values

for col in numeric_cols:
    missing = df[col].isnull()
    num_missing = np.sum(missing)
    
    if num_missing > 0:  # 仅对具有缺失值的列进行估算。
        print('imputing missing values for: {}'.format(col))
        df['{}_ismissing'.format(col)] = missing
        med = df[col].median()
        df[col] = df[col].fillna(med)

对于非数据类型的缺失值，我们利用该特征中的最频繁值特征代替。

df_non_numeric = df.select_dtypes(exclude=[np.number])
non_numeric_cols = df_non_numeric.columns.values

for col in non_numeric_cols:
    missing = df[col].isnull()
    num_missing = np.sum(missing)
    
    if num_missing > 0:  # only do the imputation for the columns that have missing values.
        print('imputing missing values for: {}'.format(col))
        df['{}_ismissing'.format(col)] = missing
        
        top = df[col].describe()['top'] # impute with the most frequent value.
        df[col] = df[col].fillna(top)

4.替换缺失值

对于分类特性，我们可以添加一个值为“MISSING”的新类别。对于数值特征，我们可以用一个特定的值来代替它，比如-999。
通过这种方式，我们仍然保留了丢失的值作为有价值的信息。

df['sub_area'] = df['sub_area'].fillna('_MISSING_')


# numeric
df['life_sq'] = df['life_sq'].fillna(-999)

2.不规则的数据(异常值)

离群值是与其他观测结果有显著区别的数据。它们可能是真正的异常值或错误。

根据特征是数值型的还是分类型的，我们可以使用不同的技术来研究其分布以检测离群值。

1.柱状图/箱线图

当特征是数值型时，我们可以使用直方图和箱形图来检测离群值。
下面是特征life_sq的直方图。

df['life_sq'].hist(bins=100)

为了更深入地研究这个特性，让我们做一个方框图。

df.boxplot(column=['life_sq'])

在这个图中，我们可以看到这个特征有超过7000的离群值。

2.描述统计

此外，对于数值特性，异常值可能太明显，以至于箱形图无法将它们可视化。相反，我们可以看看它们的描述性统计。

例如，对于特性life_sq，我们可以看到最大值是7478，而该特征中75%的数只有43。故7478值是一个离群值。

3.长条图

当特征是分类的。我们可以用柱状图来了解它的种类和分布。
例如，特征生态具有合理的分布。但是如果有一个类别只有一个值叫做“other”，那么它就是一个离群值。

df['ecology'].value_counts().plot.bar()

4.其他技术

许多其他技术也可以发现离群值，比如散点图、z分数和聚类。

虽然异常值不难检测，但我们必须确定正确的解决方案来处理它们。它高度依赖于数据集和项目目标。
处理异常值的方法在某种程度上类似于丢失的数据。我们要么放弃，要么调整，要么保留它们。我们可以返回到遗漏的数据部分以获得可能的解决方案。

3.不必要的数据

在为丢失的数据和异常值做了这么多工作之后，让我们看看不必要的数据，这更简单。
所有输入模型的数据都应该服务于项目的目的。不必要的数据是当数据没有增加价值的时候。由于不同的原因，我们涵盖了三种主要的不必要的数据类型。

不必要数据的类型1：不提供信息/重复

有时，一个特性是无信息性的，因为它有太多行是相同的值。

我们可以创建一个具有相同值的高百分比的特性列表。
例如，我们在下面指定以显示超过95%观察值的相同值（false/no/0）的特性。

num_rows = len(df.index)#观察值个数
low_information_cols = [] #

for col in df.columns:
    cnts = df[col].value_counts(dropna=False)#no
    top_pct = (cnts/num_rows).iloc[0]
    
    if top_pct > 0.95:
        low_information_cols.append(col)
        print('{0}: {1:.5f}%'.format(col, top_pct*100))
        print(cnts)
        print()

我们可以逐个研究这些变量，看看它们是否提供了有用的信息。

我们需要了解重复特征背后的原因。当它们真的不能提供信息时，我们可以把它们扔掉。

不必要数据的类型2:不相关

同样，数据需要为项目提供有价值的信息。如果特性与我们试图在项目中解决的问题不相关，那么它们就是不相关的。

我们需要浏览特性来识别不相关的特性。
例如，一个记录多伦多气温的功能并不能提供任何有用的洞见来预测俄罗斯的房价。

当特性不能满足项目目标时，我们可以删除该特征。

不必要数据的类型3：重复的数据

重复数据是指相同观测数据的副本存在。

当观察到的所有特征值都相同时，这种重复就会发生。很容易找到。
我们首先删除数据集中的唯一标识符id。然后我们通过删除重复项来创建一个名为df_dedupped的数据集。我们比较两个数据集(df和df_dedupped)的形状，以找出重复的行数。

类型1：基于特征

df_dedupped = df.drop('id', axis=1).drop_duplicates()

# there were duplicate rows
print(df.shape)
print(df_dedupped.shape)

类型2：基于关键特征

有时，基于一组惟一标识符删除重复的数据会更好。
例如，在相同的面积、相同的价格和相同的构建年份中，两个事务同时发生的几率接近于零。
我们可以设置一组关键特性作为事务的惟一标识符。我们包括时间戳、full_sq、life_sq、楼层、build_year、num_room、price_doc。我们检查是否有重复的基础上。

key = ['timestamp', 'full_sq', 'life_sq', 'floor', 'build_year', 'num_room', 'price_doc']

df.fillna(-999).groupby(key)['id'].count().sort_values(ascending=False).head(20)

我们可以根据关键特性删除这些重复项。

key = ['timestamp', 'full_sq', 'life_sq', 'floor', 'build_year', 'num_room', 'price_doc']
df_dedupped2 = df.drop_duplicates(subset=key)

print(df.shape)
print(df_dedupped2.shape)

4.非一致的数据

让数据集遵循特定的标准来适应模型也是非常重要的。我们需要用不同的方式来探究数据，找出不一致的数据。很多时候，这取决于观察和经验。没有设置代码来运行和修复它们。

不一致的类型1:大小写

在分类值中使用大小写不一致是一个常见的错误。因为Python中的分析是区分大小写的，所以它可能会导致问题。

让我们看看sub_area特性。

df['sub_area'].value_counts(dropna=False)

它存储不同区域的名称，并且看起来非常标准化。

但有时在同一功能中存在大小写使用不一致的情况。“Poselenie Sosenskoe”和“Poselenie sosenskeo”可以指同一个区域。

为了避免这种情况，我们可以将所有的字母放在小写字母(或大写字母)中。

df['sub_area_lower'] = df['sub_area'].str.lower()
df['sub_area_lower'].value_counts(dropna=False)

不一致的类型2:格式

我们需要执行的另一个标准化是数据格式。一个例子是将特性从字符串转换为DateTime格式。

特性时间戳是字符串格式的，而它表示日期。

我们可以使用下面的代码转换它并提取日期或时间值。在此之后，可以更容易地分析按年或按月划分的事务量组。

df['timestamp_dt'] = pd.to_datetime(df['timestamp'], format='%Y-%m-%d')
df['year'] = df['timestamp_dt'].dt.year
df['month'] = df['timestamp_dt'].dt.month
df['weekday'] = df['timestamp_dt'].dt.weekday

print(df['year'].value_counts(dropna=False))
print()
print(df['month'].value_counts(dropna=False))

不一致类型3:分类值

不一致的分类值是我们最后讨论的不一致类型。分类特征的值是有限的。有时可能会因为拼写错误等原因而产生其他值。

我们需要观察这个特性来找出这种不一致性。让我们用一个例子来说明这一点。
我们在下面创建一个新的数据集，因为我们在不动产数据集中没有这样的问题。

例如，city的值被错误地输入为“torontoo”和“tronto”。但是它们都指向正确的值“toronto”。
识别它们的一个简单方法是模糊逻辑(或编辑距离)。它度量我们需要多少字母(距离)来更改一个值的拼写以匹配另一个值。

我们知道，类别应该只有“多伦多”、“温哥华”、“蒙特利尔”和“卡尔加里”四个值。我们计算所有值与单词“toronto”(和“vancouver”)之间的距离。我们可以看到，可能是拼写错误的单词与正确的单词之间的距离更小。因为它们只相差几个字母。

from nltk.metrics import edit_distance

df_city_ex = pd.DataFrame(data={
     'city': ['torontoo', 'toronto', 'tronto', 'vancouver', 'vancover', 'vancouvr', 'montreal', 'calgary']})


df_city_ex['city_distance_toronto'] = df_city_ex['city'].map(lambda x: edit_distance(x, 'toronto'))
df_city_ex['city_distance_vancouver'] = df_city_ex['city'].map(lambda x: edit_distance(x, 'vancouver'))
df_city_ex

我们可以设置条件将这些拼写转换为正确的值。例如，下面的代码将距离“toronto”两个字母以内的所有值设置为“toronto”。

msk = df_city_ex['city_distance_toronto'] <= 2
df_city_ex.loc[msk, 'city'] = 'toronto'

msk = df_city_ex['city_distance_vancouver'] <= 2
df_city_ex.loc[msk, 'city'] = 'vancouver'

df_city_ex

不一致类型4:地址

地址功能可能会让我们很多人头疼。因为在数据库中输入数据的人通常不遵循标准格式。

我们可以通过查看来找到混乱的地址数据。即使有时我们不能发现任何问题，我们仍然可以运行代码来标准化它们。
由于隐私原因，我们的数据集中没有地址列。因此，我们创建了一个新的数据集df_add_ex，它具有特征地址。

df_add_ex = pd.DataFrame(['123 MAIN St Apartment 15', '123 Main Street Apt 12   ', '543 FirSt Av', '  876 FIRst Ave.'], columns=['address'])
df_add_ex

正如我们所看到的，地址功能相当混乱。

我们运行以下代码进行小写字母、删除空白、删除句点和标准化改写。

df_add_ex['address_std'] = df_add_ex['address'].str.lower()
df_add_ex['address_std'] = df_add_ex['address_std'].str.strip() # remove leading and trailing whitespace.
df_add_ex['address_std'] = df_add_ex['address_std'].str.replace('\\.', '') # remove period.
df_add_ex['address_std'] = df_add_ex['address_std'].str.replace('\\bstreet\\b', 'st') # replace street with st.
df_add_ex['address_std'] = df_add_ex['address_std'].str.replace('\\bapartment\\b', 'apt') # replace apartment with apt.
df_add_ex['address_std'] = df_add_ex['address_std'].str.replace('\\bav\\b', 'ave') # replace apartment with apt.

df_add_ex

复现文献：

Data Cleaning in Python: the Ultimate Guide (2020)

你可能感兴趣的:(数据处理)

Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
ARMV8体系结构简介：概述简单同学 ARMV8体系结构 ARMV8
1.前言本文主要概括的介绍ARMV8体系结构定义了哪些内容，概括的说：ARM体系结构定义了PE的行为，不会定义具体的实现ARM体系结构也定义了debug体系结构和trace体系结构ARM体系结构采用RISC指令集（1）长度一致的寄存器；（2）load/store架构，数据处理操作只能对寄存器内容进行处理，不会直接对内存的内容进行处理；（3）简单寻址方式，load/store地址来源于寄存器或指令域
Python数据分析与可视化 jun778895 python 数据分析开发语言
Python数据分析与可视化是一个涉及数据处理、分析和以图形化方式展示数据的过程，它对于数据科学家、分析师以及任何需要从数据中提取洞察力的专业人员来说至关重要。以下将详细探讨Python在数据分析与可视化方面的应用，包括常用的库、数据处理流程、可视化技巧以及实际应用案例。一、Python数据分析与可视化的重要性数据可视化是将数据以图形或图像的形式表示出来，以便人们能够更直观地理解数据背后的信息和规
华为云分布式缓存服务DCS 8月新特性发布华为云PaaS服务小智华为云分布式缓存
分布式缓存服务（DistributedCacheService，简称DCS）是华为云提供的一款兼容Redis的高速内存数据处理引擎，为您提供即开即用、安全可靠、弹性扩容、便捷管理的在线分布式缓存能力，满足用户高并发及数据快速访问的业务诉求。此次为大家带来DCS8月的特性更新内容，一起来看看吧！
【Golang】使用 Golang 语言和 excelize 库将数据写入Excel 不爱洗脚的小滕 golang excel 开发语言
文章目录前言一、Excelize简介二、代码实现1.获取依赖2.示例代码三、总结前言在数据处理和分析中，Excel作为一种常见的电子表格格式，被广泛应用于各种场景。然而，如何在Go语言中有效地处理Excel文件呢？在这篇博客中，我将介绍如何使用Go语言和excelize库将数据写入Excel文件。一、Excelize简介Excelize是一个用于读取和写入MicrosoftExcel™(XLSX)
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
ruby和python哪个好学 hakesashou python基础知识 ruby python 开发语言
Ruby和python都挺好学的。建议学习Python，语法的话，Python相对更简洁。而且Python应用场合更广泛，运维、网站开发、数据处理、科学研究都可以。Ruby和Python十分相似，有很多共同点，但也有一些不同之外，以下是Python和Ruby的对比：1、Python和Ruby都是面向对象的语言，都是动态和灵活的。二者的主要区别在于他们解决问题的方式。Ruby提供了不同的方法，而Py
Python round函数详解寒秋丶 Python 自动化测试性能测试 python 开发语言测试开发软件开发软件测试自动化测试性能测试
大家好，在Python编程中，经常需要对数字进行舍入操作。无论是在金融领域的货币计算，还是科学计算中的数据处理，都可能需要使用到四舍五入功能。为了满足这一需求，Python提供了一个内置函数round()，它能够方便地对数字进行舍入操作。在本文中，将深入探讨Python中round()函数的用法和特性。将从基本语法开始，逐步深入，讨论该函数在不同情况下的行为，以及如何在实际编程中灵活运用。无论您是
Python办公自动化案例（二）：对比两个Excel数据内容并标出不同衍生星球 python excel 高阶办公办公自动化
案例：对比两个word文档并找出不同。在数据处理和分析的日常工作中，我们经常需要比较两个Excel文件的差异。这可能是为了验证数据的一致性、检查数据的准确性，或者在版本控制中追踪更改。手动比较这些文件不仅耗时，而且容易出错。幸运的是，Python的openpyxl库提供了一种自动化这一过程的方法。步骤1：安装openpyxl在命令行中输入以下命令来安装pipinstallopenpyxl步骤2:编
外卖霸王餐返利外卖会员卡小程序开发闹小艾 good506070 微信小程序小程序
外卖霸王餐返利外卖会员卡小程序开发"社交电商赋能下的外卖返利小程序"是专为商家与用户双赢而设计的创新平台。以下是其开发方案的详细步骤：一、需求梳理：首先，我们需要明确小程序的核心功能和特色。包括设定活动类型、返利策略，以及用户体验友好的界面设计。二、技术决策：技术选型是关键。我们采用小程序的开发框架，利用JavaScript作为前端开发语言，并结合微信提供的API进行后端接口调用与数据处理。三、账
【python版】示波器输出的csv文件（时间与电压数据）如何转换为频率与幅值【方法②】 cxylay python python 开发语言示波器 csv文件频谱频域时域
要将示波器输出的CSV文件中包含的时间与电压数据转换为频率与幅值数据，你可以按照以下步骤进行处理。这里假设你的数据是一个周期性信号，可以通过傅里叶变换来实现这种转换。1、准备数据①导入CSV文件首先，使用Python、Excel或任何数据处理工具导入你的CSV文件。CSV文件中应该有两列数据，分别为时间（time）和电压（voltage）。②检查数据确保时间列的单位是一致的（例如秒），电压列是以伏
GIS数据处理软件：地理信息与遥感领域的智慧引擎 GeoSaaS 地理信息智慧城市数据库人工智能大数据 gis
在地理信息与遥感技术的广阔天地间，数据处理软件如同一座桥接驳岸的智慧引擎，将海量的原始数据转化为决策的金矿，推动着城市规划、环境保护、灾害管理、资源开发等领域的深度变革。本文将深入解析其核心功能、技术前沿、应用实例及未来展望，探析数据处理软件如何为地理信息与遥感技术插上智慧的翅膀。数据处理软件的核心技术与功能矩阵数据清洗与格式转换：自动去除冗余杂乱码、异常值，格式标准化数据，确保后续处理的准确性与
边缘计算网关在机床数据采集中的应用-天拓四方各自安好吧边缘计算人工智能
随着工业4.0和智能制造的快速发展，机床作为制造业的核心设备，其数据采集与分析对于提升生产效率、保证产品质量、优化加工过程具有重要意义。传统的数据采集方式存在数据传输速度慢、实时性差、数据处理能力有限等问题。为了解决这些问题，边缘计算网关在机床数据采集领域的应用逐渐受到关注。本文将详细探讨边缘计算网关在机床数据采集中的应用，并分析其带来的优势。一、边缘计算网关概述边缘计算网关是一种集成了数据采集、
Java基于spring boot的国产电影数据分析与可视化python+java+node.js QQ_511008285 java spring boot 数据分析 python django vue.js flask
前端开发框架:vue.js数据库mysql版本不限后端语言框架支持：1java(SSM/springboot)-idea/eclipse2.Nodejs+Vue.js-vscode3.python(flask/django)--pycharm/vscode4.php(thinkphp/laravel)-hbuilderx数据库工具：Navicat/SQLyog等都可以该系统使用进行大数据处理和
python 编译器spyder 安装_离线安装spyder的Python环境 weixin_39552037 python 编译器spyder 安装
一、介绍：要求在不联网、无法使用anaconda的情况下，在一台离线的win7设备上配置Spyder的python的开发环境，用于提高数据处理效率，且安装方法在win732位和64位的各种设备上均可流畅安装。二、问题难点总结：1.离线安装Python的第三方函数库Python在联网情况下安装第三方包很容易，但离线安装操作比较复杂，如某第三方库a，联网状态下仅一行代码pipinstalla，然而离线
Python库之Numpy的简介、安装、使用方法详细攻略 shadowtalon Python python numpy 开发语言
Python库之Numpy的简介、安装、使用方法详细攻略引言在Python的数据处理和科学计算领域，Numpy库无疑是最核心的库之一。它提供了高性能的多维数组对象和一系列用于操作这些数组的工具。本篇文章将详细介绍Numpy的基本概念、安装方法以及如何使用Numpy进行数据处理。一、Numpy简介1.1什么是NumpyNumpy（NumericalPython）是一个开源的Python科学计算库，它
智能合约系统DAPP开发 I592O929783 智能合约区块链
智能合约系统DAPP（去中心化应用）的开发是一个复杂且综合性的过程，它结合了区块链技术、智能合约编程、前端开发以及安全性等多方面的知识和技能。以下是对智能合约系统DAPP开发过程的详细概述：一、需求分析明确应用场景：首先，需要明确DAPP的应用场景，如金融、游戏、社交等。功能需求：确定DAPP需要实现的具体功能，包括数据处理、用户交互等。用户群体：了解目标用户群体的需求和习惯，以便更好地设计DAP
边缘计算在现代数据中心的应用 666IDCaaa 边缘计算人工智能
当今数字化时代，数据中心扮演着至关重要的角色，而边缘计算的出现为现代数据中心带来了新的机遇和挑战。一、边缘计算的概念与特点边缘计算是一种将计算和数据存储靠近数据源或用户的分布式计算模式。与传统的集中式云计算相比，边缘计算具有以下特点：低延迟：由于数据处理在靠近数据源的地方进行，减少了数据传输的距离和时间，从而实现了更低的延迟。这对于实时性要求高的应用，如工业自动化、自动驾驶、虚拟现实等至关重要。高
分布式消息队列Kafka 叶域大数据分布式 kafka scala spark
分布式消息队列Kafka简介：Kafka是一个分布式消息队列系统，用于处理实时数据流。消息按照主题（Topic）进行分类存储，发送消息的实体称为Producer，接收消息的实体称为Consumer。Kafka集群由多个Kafka实例（Server）组成，每个实例称为Broker。主要用途：广泛应用于构建实时数据管道和流应用程序，适用于需要高吞吐量和低延迟的数据处理场景依赖：Kafka集群和消费者依
Java中的大数据处理框架对比分析省赚客app开发者 java 开发语言
Java中的大数据处理框架对比分析大家好，我是微赚淘客系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！今天，我们将深入探讨Java中常用的大数据处理框架，并对它们进行对比分析。大数据处理框架是现代数据驱动应用的核心，它们帮助企业处理和分析海量数据，以提取有价值的信息。本文将重点介绍ApacheHadoop、ApacheSpark、ApacheFlink和ApacheStorm这四种流行的
第五届核磁机器学习班（训练营：2023.6.5~6.17）茗创科技
茗创科技专注于脑科学数据处理，涵盖（EEG/ERP,fMRI,结构像,DTI,ASL,FNIRS）等，欢迎留言讨论及转发推荐，也欢迎了解茗创科技的脑电课程，数据处理服务及脑科学工作站销售业务，可添加我们的工程师（微信号MCKJ-zhouyi或17373158786）咨询。★课程简介★基于血氧水平依赖的功能磁共振成像(fMRI)技术,利用其数据构建的功能性脑网络后,发现脑并不是一个单纯对外界刺激进行
Java 学习路线：语言、框架、中间件与数据库高危型 java
Java是一门功能强大、应用广泛的编程语言，适用于企业级应用、Web开发、大数据处理、Android开发等各种场景。这里为大家介绍了一下我认为较为合适的学习路线一、Java基础1.1Java语言基础1.1.1安装JDK和IDE安装JDK：下载JDK：访问Oracle官网，下载最新的JavaDevelopmentKit（JDK）。安装JDK：按照操作系统要求安装JDK并配置环境变量。Windows上
揭秘OozieBundle：架构组件与核心概念光剑书架上的书计算大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
揭秘OozieBundle：架构、组件与核心概念1.背景介绍在大数据领域，数据处理工作流程通常由多个复杂的作业组成,这些作业之间存在着依赖关系。ApacheOozie作为一个工作流调度系统,可以有效管理这些复杂的工作流程。OozieBundle是Oozie提供的一种特殊的工作流程,用于协调和控制多个相关的工作流程。OozieBundle的主要目的是将多个相关的工作流程组织在一起,并根据它们之间的依
【IC】芯片金属层（Metal Layer）守月满空山雪照窗 IC 信息与通信
芯片的金属层（MetalLayer）是指集成电路芯片内部用于信号传输和电源分配的导电层。这些金属层通常是由铝、铜或其他导电材料制成，通过在芯片的不同部分之间布线，实现电路功能。以下是对芯片金属层的详细介绍：金属层的作用信号传输：金属层用于在芯片内传输电信号，将各个功能单元连接起来，实现逻辑运算和数据处理。电源分配：提供芯片内各个功能单元的电源和接地，确保电路的正常工作。散热：金属层可以帮助芯片散热
【Python】写入Pandas DataFrame到CSV文件 civilpy python pandas 开发语言
基本原理Pandas是一个强大的Python数据分析库，它提供了许多用于数据处理和分析的功能。在处理数据时，我们经常需要将数据保存到文件中，以便后续使用或分享。CSV（Comma-SeparatedValues，逗号分隔值）文件是一种常见的数据交换格式，它以纯文本形式存储表格数据，每行表示一个数据记录，列之间用逗号分隔。DataFrame是Pandas中用于存储表格数据的主要数据结构。它类似于Ex
网关智能电表是什么？什么是网关智能电表？ BZWL_BZWL 自动化运维数据库能源网络
一、网关智能电表概述1.定义网关智能电表是一种集成了通信网关功能的智能计量设备，用于监测和记录电力消耗数据，并通过内置或外接的通信模块将这些数据传输到远程服务器或管理系统中。这种电表不仅能够实现传统电表的基本功能，还能够提供更加丰富的数据管理和分析功能。2.工作原理网关智能电表的核心部件包括计量单元、数据处理单元以及通信模块。计量单元负责实时采集电流、电压等电气参数，并计算出实际的用电量。数据处理
js数组方法map和filter 人间废料记 javascript javascript 前端
目录.map()方法概念语法注意使用场景.filter()方法概念语法注意使用场景.map()和.filter()的区别和联系.map()方法概念.map()函数是JavaScript数组结构中很实用的一个方法之一。可以将map()方法视为经过一个循环并在回调函数中编写语句（格式化、数据处理）以构造一个新数组。用来创建新数组、修改其内容并保持原始数组不变的通用方法。当出现需要修改现有数组的内容并将
C语言开发一个简单的产品入库操作系统鹿屿二向箔 c语言算法开发语言
编写一个简单的产品入库操作系统是一个涉及文件操作、用户输入和数据处理的项目。以下是一个基本的C语言示例，它展示了如何创建一个简单的产品入库系统。这个系统将允许用户添加产品信息，并将其存储在文件中。功能描述添加产品信息（产品ID、名称、数量）。将产品信息保存到文件中。从文件中读取并显示所有产品信息。示例代码#include#include#includetypedefstruct{intid;cha
apache 安装linux windows 墙头上一根草 apache inux windows
linux安装Apache 有两种方式一种是手动安装通过二进制的文件进行安装，另外一种就是通过yum 安装，此中安装方式，需要物理机联网。以下分别介绍两种的安装方式通过二进制文件安装Apache需要的软件有apr,apr-util,pcre 1，安装 apr 下载地址：htt
fill_parent、wrap_content和match_parent的区别 Cb123456 match_parent fill_parent
fill_parent、wrap_content和match_parent的区别: 1）fill_parent 设置一个构件的布局为fill_parent将强制性地使构件扩展，以填充布局单元内尽可能多的空间。这跟Windows控件的dockstyle属性大体一致。设置一个顶部布局或控件为fill_parent将强制性让它布满整个屏幕。 2） wrap_conte
网页自适应设计天子之骄 html css 响应式设计页面自适应
网页自适应设计网页对浏览器窗口的自适应支持变得越来越重要了。自适应响应设计更是异常火爆。再加上移动端的崛起，更是如日中天。以前为了适应不同屏幕分布率和浏览器窗口的扩大和缩小，需要设计几套css样式，用js脚本判断窗口大小，选择加载。结构臃肿，加载负担较大。现笔者经过一定时间的学习，有所心得，故分享于此，加强交流，共同进步。同时希望对大家有所
[sql server] 分组取最大最小常用sql 一炮送你回车库 SQL Server
--分组取最大最小常用sql--测试环境if OBJECT_ID('tb') is not null drop table tb;gocreate table tb( col1 int, col2 int, Fcount int)insert into tbselect 11,20,1 union allselect 11,22,1 union allselect 1
ImageIO写图片输出到硬盘 3213213333332132 java image
package awt; import java.awt.Color; import java.awt.Font; import java.awt.Graphics; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imagei
自己的String动态数组宝剑锋梅花香 java 动态数组数组
数组还是好说，学过一两门编程语言的就知道，需要注意的是数组声明时需要把大小给它定下来，比如声明一个字符串类型的数组：String str[]=new String[10]; 但是问题就来了，每次都是大小确定的数组，我需要数组大小不固定随时变化怎么办呢？动态数组就这样应运而生，龙哥给我们讲的是自己用代码写动态数组，并非用的ArrayList 看看字符
pinyin4j工具类 darkranger .net
pinyin4j工具类Java工具类 2010-04-24 00:47:00 阅读69 评论0 字号：大中小引入pinyin4j-2.5.0.jar包: pinyin4j是一个功能强悍的汉语拼音工具包，主要是从汉语获取各种格式和需求的拼音，功能强悍，下面看看如何使用pinyin4j。本人以前用AscII编码提取工具，效果不理想，现在用pinyin4j简单实现了一个。功能还不是很完美，
StarUML学习笔记----基本概念 aijuans UML建模
介绍StarUML的基本概念，这些都是有效运用StarUML?所需要的。包括对模型、视图、图、项目、单元、方法、框架、模型块及其差异以及UML轮廓。模型、视与图（Model, View and Diagram） &
Activiti最终总结 avords Activiti id 工作流
1、流程定义ID：ProcessDefinitionId，当定义一个流程就会产生。 2、流程实例ID：ProcessInstanceId，当开始一个具体的流程时就会产生，也就是不同的流程实例ID可能有相同的流程定义ID。 3、TaskId，每一个userTask都会有一个Id这个是存在于流程实例上的。 4、TaskDefinitionKey和（ActivityImpl activityId
从省市区多重级联想到的，react和jquery的差别 bee1314 jquery UI react
在我们的前端项目里经常会用到级联的select，比如省市区这样。通常这种级联大多是动态的。比如先加载了省，点击省加载市，点击市加载区。然后数据通常ajax返回。如果没有数据则说明到了叶子节点。针对这种场景，如果我们使用jquery来实现，要考虑很多的问题，数据部分，以及大量的dom操作。比如这个页面上显示了某个区，这时候我切换省，要把市重新初始化数据，然后区域的部分要从页面
Eclipse快捷键大全 bijian1013 java eclipse 快捷键
Ctrl+1 快速修复(最经典的快捷键,就不用多说了)Ctrl+D: 删除当前行 Ctrl+Alt+↓ 复制当前行到下一行(复制增加)Ctrl+Alt+↑ 复制当前行到上一行(复制增加)Alt+↓ 当前行和下面一行交互位置(特别实用,可以省去先剪切,再粘贴了)Alt+↑ 当前行和上面一行交互位置(同上)Alt+← 前一个编辑的页面Alt+→ 下一个编辑的页面(当然是针对上面那条来说了)Alt+En
js 笔记函数征客丶 JavaScript
一、函数的使用 1.1、定义函数变量 var vName = funcation(params){ } 1.2、函数的调用函数变量的调用： vName(params); 函数定义时自发调用：(function(params){})(params); 1.3、函数中变量赋值 var a = 'a'; var ff
【Scala四】分析Spark源代码总结的Scala语法二 bit1129 scala
1. Some操作在下面的代码中，使用了Some操作：if (self.partitioner == Some(partitioner))，那么Some(partitioner)表示什么含义？首先partitioner是方法combineByKey传入的变量， Some的文档说明： /** Class `Some[A]` represents existin
java 匿名内部类 BlueSkator java匿名内部类
组合优先于继承 Java的匿名类，就是提供了一个快捷方便的手段，令继承关系可以方便地变成组合关系继承只有一个时候才能用，当你要求子类的实例可以替代父类实例的位置时才可以用继承。在Java中内部类主要分为成员内部类、局部内部类、匿名内部类、静态内部类。内部类不是很好理解，但说白了其实也就是一个类中还包含着另外一个类如同一个人是由大脑、肢体、器官等身体结果组成，而内部类相
盗版win装在MAC有害发热，苹果的东西不值得买，win应该不用 ljy325 游戏 apple windows XP OS
Mac mini 型号: MC270CH-A RMB:5,688 Apple 对windows的产品支持不好,有以下问题: 1.装完了xp,发现机身很热虽然没有运行任何程序！貌似显卡跑游戏发热一样，按照那样的发热量,那部机子损耗很大,使用寿命受到严重的影响! 2.反观安装了Mac os的展示机，发热量很小，运行了1天温度也没有那么高 &nbs
读《研磨设计模式》-代码笔记-生成器模式-Builder bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 生成器模式的意图在于将一个复杂的构建与其表示相分离，使得同样的构建过程可以创建不同的表示（GoF） * 个人理解： * 构建一个复杂的对象，对于创建者（Builder）来说，一是要有数据来源(rawData)，二是要返回构
JIRA与SVN插件安装 chenyu19891124 SVN jira
JIRA安装好后提交代码并要显示在JIRA上，这得需要用SVN的插件才能看见开发人员提交的代码。 1.下载svn与jira插件安装包，解压后在安装包(atlassian-jira-subversion-plugin-0.10.1) 2.解压出来的包里下的lib文件夹下的jar拷贝到(C:\Program Files\Atlassian\JIRA 4.3.4\atlassian-jira\WEB
常用数学思想方法 comsci 工作
对于搞工程和技术的朋友来讲，在工作中常常遇到一些实际问题，而采用常规的思维方式无法很好的解决这些问题，那么这个时候我们就需要用数学语言和数学工具，而使用数学工具的前提却是用数学思想的方法来描述问题。。下面转帖几种常用的数学思想方法，仅供学习和参考函数思想　　把某一数学问题用函数表示出来，并且利用函数探究这个问题的一般规律。这是最基本、最常用的数学方法
pl/sql集合类型 daizj oracle 集合 type pl/sql
--集合类型 /* 单行单列的数据，使用标量变量单行多列数据，使用记录单列多行数据，使用集合（。。。） *集合：类似于数组也就是。pl/sql集合类型包括索引表（pl/sql table）、嵌套表（Nested Table）、变长数组（VARRAY）等 */ /* --集合方法 &n
[Ofbiz]ofbiz初用 dinguangx 电商 ofbiz
从github下载最新的ofbiz（截止2015-7-13），从源码进行ofbiz的试用 1. 加载测试库 ofbiz内置derby，通过下面的命令初始化测试库 ./ant load-demo (与load-seed有一些区别) 2. 启动内置tomcat ./ant start 或 ./startofbiz.sh 或 java -jar ofbiz.jar &
结构体中最后一个元素是长度为0的数组 dcj3sjt126com c gcc
在Linux源代码中，有很多的结构体最后都定义了一个元素个数为0个的数组，如/usr/include/linux/if_pppox.h中有这样一个结构体： struct pppoe_tag { __u16 tag_type; __u16 tag_len; &n
Linux cp 实现强行覆盖 dcj3sjt126com linux
发现在Fedora 10 /ubutun 里面用cp -fr src dest，即使加了-f也是不能强行覆盖的，这时怎么回事的呢？一两个文件还好说，就输几个yes吧，但是要是n多文件怎么办，那还不输死人呢？下面提供三种解决办法。方法一我们输入alias命令，看看系统给cp起了一个什么别名。 [root@localhost ~]# aliasalias cp=’cp -i’a
Memcached(一)、HelloWorld frank1234 memcached
一、简介高性能的架构离不开缓存，分布式缓存中的佼佼者当属memcached，它通过客户端将不同的key hash到不同的memcached服务器中，而获取的时候也到相同的服务器中获取，由于不需要做集群同步，也就省去了集群间同步的开销和延迟，所以它相对于ehcache等缓存来说能更好的支持分布式应用，具有更强的横向伸缩能力。二、客户端选择一个memcached客户端，我这里用的是memc
Search in Rotated Sorted Array II hcx2013 search
Follow up for "Search in Rotated Sorted Array":What if duplicates are allowed? Would this affect the run-time complexity? How and why? Write a function to determine if a given ta
Spring4新特性——更好的Java泛型操作API jinnianshilongnian spring4 generic type
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装JDK liuxingguome centos
1、行卸载原来的： [root@localhost opt]# rpm -qa | grep java tzdata-java-2014g-1.el6.noarch java-1.7.0-openjdk-1.7.0.65-2.5.1.2.el6_5.x86_64 java-1.6.0-openjdk-1.6.0.0-11.1.13.4.el6.x86_64 [root@localhost
二分搜索专题2-在有序二维数组中搜索一个元素 OpenMind 二维数组算法二分搜索
1,设二维数组p的每行每列都按照下标递增的顺序递增。用数学语言描述如下：p满足 (1),对任意的x1，x2，y，如果x1<x2,则p(x1,y)<p(x2,y); (2),对任意的x，y1,y2, 如果y1<y2,则p(x,y1)<p(x,y2); 2,问题：给定满足1的数组p和一个整数k，求是否存在x0,y0使得p(x0,y0)=k? 3,算法分析： (
java 随机数 Math与Random SaraWon java Math Random
今天需要在程序中产生随机数，知道有两种方法可以使用，但是使用Math和Random的区别还不是特别清楚，看到一篇文章是关于的，觉得写的还挺不错的，原文地址是 http://www.oschina.net/question/157182_45274?sort=default&p=1#answers 产生1到10之间的随机数的两种实现方式： //Math Math.roun
oracle创建表空间 tugn oracle
create temporary tablespace TXSJ_TEMP tempfile 'E:\Oracle\oradata\TXSJ_TEMP.dbf' size 32m autoextend on next 32m maxsize 2048m extent m
使用Java8实现自己的个性化搜索引擎 yangshangchuan java superword 搜索引擎 java8 全文检索
需要对249本软件著作实现句子级别全文检索，这些著作均为PDF文件，不使用现有的框架如lucene，自己实现的方法如下： 1、从PDF文件中提取文本，这里的重点是如何最大可能地还原文本。提取之后的文本，一个句子一行保存为文本文件。 2、将所有文本文件合并为一个单一的文本文件，这样，每一个句子就有一个唯一行号。 3、对每一行文本进行分词，建立倒排表，倒排表的格式为：词=包含该词的总行数N=行号