布客飞龙

数据科学的原理与技巧四、数据清理

四、数据清理

原文：DS-100/textbook/notebooks/ch04

译者：飞龙

协议：CC BY-NC-SA 4.0

自豪地采用谷歌翻译

数据以多种格式出现，并且在分析的实用性方面差别很大。尽管我们希望，我们所有的数据都以表格的形式出现，并且每个数值的记录都一致和准确，但实际上，我们必须仔细检查数据，找出最终可能导致错误结论的潜在问题。

术语“数据清理”是指梳理数据，并决定如何解决不一致和缺失值的过程。我们将讨论数据集中发现的常见问题，以及解决这些问题的方法。

数据清理存在固有的局限性。例如，没有任何数据清理能够解决带偏差的采样过程。在着手进行有时很长的数据清理过程之前，我们必须保证，我们的数据是准确收集的，尽可能没有偏差。只有这样，我们才能调查数据本身，并使用数据清理来解决数据格式或输入过程中的问题。

我们将通过处理伯克利市警察数据集，介绍数据清理技术。

调查伯克利警察数据

我们将使用伯克利警察局的公开数据集，来演示数据清理技术。我们已经下载了服务呼叫数据集和截停数据集。

我们可以使用带有-lh标志的ls shell 命令，来查看这些文件的更多详细信息：

!ls -lh data/

total 13936
-rw-r--r--@ 1 sam  staff   979K Aug 29 14:41 Berkeley_PD_-_Calls_for_Service.csv
-rw-r--r--@ 1 sam  staff    81B Aug 29 14:28 cvdow.csv
-rw-r--r--@ 1 sam  staff   5.8M Aug 29 14:41 stops.json

上面的命令显示了数据文件及其文件大小。这是特别有用的，因为我们现在知道这些文件足够小，可以加载到内存中。作为一个经验法则，将文件加载到内存中，内存大约占计算机总内存容量的四分之一，通常是安全的。例如，如果一台电脑有 4GB 的 RAM ，我们应该可以在pandas中加载 1GB 的 CSV 文件。为了处理更大的数据集，我们需要额外的计算工具，我们将在本书后面介绍。

注意在ls之前使用感叹号。这告诉 Jupyter 下一行代码是 shell 命令，而不是 Python 表达式。我们可以使用!在 Jupyter 中运行任何可用的 shell 命令：

# The `wc` shell command shows us how many lines each file has.
# We can see that the `stops.json` file has the most lines (29852).
!wc -l data/*

   16497 data/Berkeley_PD_-_Calls_for_Service.csv
       8 data/cvdow.csv
   29852 data/stops.json
   46357 total

理解数据生成

在数据清理或处理之前，我们将陈述你应该向所有数据集询问的重要问题。这些问题与数据的生成方式有关，因此数据清理通常无法解决这里出现的问题。

数据包含什么内容？服务呼叫数据的网站指出，该数据集描述了“过去 180 天内的犯罪事件（而非犯罪报告）”。进一步阅读表明“并非所有警务服务的呼叫都包含在内（例如动物咬伤）”。

截停数据的网站指出，该数据集包含自 2015 年 1 月 26 日起的所有“车辆截停（包括自行车）和行人截停（最多五人）”的数据。

数据是普查吗？这取决于我们感兴趣的人群。例如，如果我们感兴趣的是，过去 180 天内的犯罪事件的服务呼叫，那么呼叫数据集就是一个普查。但是，如果我们感兴趣的是，过去 10 年内的服务呼叫，数据集显然不是普查。由于数据收集开始于 2015 年 1 月 26 日，我们可以对截停数据集做出类似的猜测。

如果数据构成一个样本，它是概率样本吗？如果我们正在调查一个时间段，数据没有它的条目，那么数据不会形成概率样本，因为在数据收集过程中没有涉及随机性 - 我们有一定时间段的所有数据，但其他时间段没有数据。

这些数据对我们的结论有何限制？虽然我们会在数据处理的每一步都提出这个问题，但我们已经可以看到，我们的数据带有重要的限制。最重要的限制是，我们不能对我们的数据集未涵盖的时间段进行无偏估计。

清理呼叫数据集

现在我们来清理呼叫数据集。head shell 命令打印文件的前五行。

!head data/Berkeley_PD_-_Calls_for_Service.csv

CASENO,OFFENSE,EVENTDT,EVENTTM,CVLEGEND,CVDOW,InDbDate,Block_Location,BLKADDR,City,State
17091420,BURGLARY AUTO,07/23/2017 12:00:00 AM,06:00,BURGLARY - VEHICLE,0,08/29/2017 08:28:05 AM,"2500 LE CONTE AVE
Berkeley, CA
(37.876965, -122.260544)",2500 LE CONTE AVE,Berkeley,CA
17020462,THEFT FROM PERSON,04/13/2017 12:00:00 AM,08:45,LARCENY,4,08/29/2017 08:28:00 AM,"2200 SHATTUCK AVE
Berkeley, CA
(37.869363, -122.268028)",2200 SHATTUCK AVE,Berkeley,CA
17050275,BURGLARY AUTO,08/24/2017 12:00:00 AM,18:30,BURGLARY - VEHICLE,4,08/29/2017 08:28:06 AM,"200 UNIVERSITY AVE
Berkeley, CA
(37.865491, -122.310065)",200 UNIVERSITY AVE,Berkeley,CA

它似乎是逗号分隔值（CSV）文件，尽管很难判断整个文件是否格式正确。我们可以使用pd.read_csv将文件读取为DataFrame。如果pd.read_csv产生错误，我们将不得不更进一步并手动解决格式问题。幸运的是，pd.read_csv成功返回一个DataFrame：

calls = pd.read_csv('data/Berkeley_PD_-_Calls_for_Service.csv')
calls

CASENO	OFFENSE	EVENTDT	EVENTTM	…	Block_Location	BLKADDR	City	State
0	17091420	BURGLARY AUTO	07/23/2017 12:00:00 AM	06:00	…	2500 LE CONTE AVE\nBerkeley, CA\n(37.876965, -…	2500 LE CONTE AVE	Berkeley
1	17020462	THEFT FROM PERSON	04/13/2017 12:00:00 AM	08:45	…	2200 SHATTUCK AVE\nBerkeley, CA\n(37.869363, -…	2200 SHATTUCK AVE	Berkeley
2	17050275	BURGLARY AUTO	08/24/2017 12:00:00 AM	18:30	…	200 UNIVERSITY AVE\nBerkeley, CA\n(37.865491, …	200 UNIVERSITY AVE	Berkeley
…	…	…	…	…	…	…	…	…
5505	17018126	DISTURBANCE	04/01/2017 12:00:00 AM	12:22	…	1600 FAIRVIEW ST\nBerkeley, CA\n(37.850001, -1…	1600 FAIRVIEW ST	Berkeley
5506	17090665	THEFT MISD. (UNDER $950)	04/01/2017 12:00:00 AM	12:00	…	2000 DELAWARE ST\nBerkeley, CA\n(37.874489, -1…	2000 DELAWARE ST	Berkeley
5507	17049700	SEXUAL ASSAULT MISD.	08/22/2017 12:00:00 AM	20:02	…	2400 TELEGRAPH AVE\nBerkeley, CA\n(37.866761, …	2400 TELEGRAPH AVE	Berkeley

5508 行 × 11 列

我们可以定义一个函数来显示数据的不同片段，然后与之交互：

def df_interact(df):
    '''
    Outputs sliders that show rows and columns of df
    '''
    def peek(row=0, col=0):
        return df.iloc[row:row + 5, col:col + 6]
    interact(peek, row=(0, len(df), 5), col=(0, len(df.columns) - 6))
    print('({} rows, {} columns) total'.format(df.shape[0], df.shape[1]))

df_interact(calls)
# (5508 rows, 11 columns) total

根据上面的输出结果，生成的DataFrame看起来很合理，因为列的名称正确，每列中的数据看起来都是一致的。每列包含哪些数据？我们可以查看数据集网站：

列	描述	类型
CASENO	案件编号	数字
OFFENSE	案件类型	纯文本
EVENTDT	事件的发生日期	日期时间
EVENTTM	事件的发生时间	纯文本
CVLEGEND	事件描述	纯文本
CVDOW	时间的发生星期	数字
InDbDate	数据集的上传日期	日期时间
Block_Location	事件的街区级别的地址	地点
BLKADDR		纯文本
City		纯文本
State		纯文本

数据表面上看起来很容易处理。但是，在开始数据分析之前，我们必须回答以下问题：

数据集中是否存在缺失值？这个问题很重要，因为缺失值可能代表许多不同的事情。例如，遗漏的地址可能意味着删除了地点来保护隐私，或者某些受访者选择不回答调查问题，或录制设备损坏。
是否有已填写的缺失值（例如 999 岁，未知年龄，或上午 12:00 为未知日期）？如果我们忽略它们，它们显然将影响分析。
数据的哪些部分是由人类输入的？我们将很快看到，人类输入的数据充满了不一致和错误拼写。
虽然要通过更多检查，但这三种检查方法在很多情况下都足够了。查看 Quartz 的不良数据指南，来获取更完整的检查列表。

是否存在缺失值？

pandas中这是一个简单的检查：

# True if row contains at least one null value
null_rows = calls.isnull().any(axis=1)
calls[null_rows]

CASENO	OFFENSE	EVENTDT	EVENTTM	…	Block_Location	BLKADDR	City	State
116	17014831	BURGLARY AUTO	03/16/2017 12:00:00 AM	22:00	…	Berkeley, CA\n(37.869058, -122.270455)	NaN	Berkeley
478	17042511	BURGLARY AUTO	07/20/2017 12:00:00 AM	16:00	…	Berkeley, CA\n(37.869058, -122.270455)	NaN	Berkeley
486	17022572	VEHICLE STOLEN	04/22/2017 12:00:00 AM	21:00	…	Berkeley, CA\n(37.869058, -122.270455)	NaN	Berkeley
…	…	…	…	…	…	…	…	…
4945	17091287	VANDALISM	07/01/2017 12:00:00 AM	08:00	…	Berkeley, CA\n(37.869058, -122.270455)	NaN	Berkeley
4947	17038382	BURGLARY RESIDENTIAL	06/30/2017 12:00:00 AM	15:00	…	Berkeley, CA\n(37.869058, -122.270455)	NaN	Berkeley
5167	17091632	VANDALISM	08/15/2017 12:00:00 AM	23:30	…	Berkeley, CA\n(37.869058, -122.270455)	NaN	Berkeley

27 行 × 11 列

看起来BLKADDR中有 27 个呼叫没有地址记录。不幸的是，对于地点的记录方式，数据描述并不十分清楚。我们知道，所有这些呼叫都是由于伯克利的事件，因此我们可以认为，这些呼叫的地址最初是在伯克利的某个地方。

有没有已填充的缺失值？

从上面的缺失值检查中，我们可以看到，如果位置缺失，Block_Location列会记录Berkeley, CA。

另外，通过查看呼叫表，我们发现EVENTDT列日期正确，但所有时间都记录了上午 12 点。相反，时间在EVENTTM列中。

# Show the first 7 rows of the table again for reference
calls.head(7)

CASENO	OFFENSE	EVENTDT	EVENTTM	…	Block_Location	BLKADDR	City	State
0	17091420	BURGLARY AUTO	07/23/2017 12:00:00 AM	06:00	…	2500 LE CONTE AVE\nBerkeley, CA\n(37.876965, -…	2500 LE CONTE AVE	Berkeley
1	17020462	THEFT FROM PERSON	04/13/2017 12:00:00 AM	08:45	…	2200 SHATTUCK AVE\nBerkeley, CA\n(37.869363, -…	2200 SHATTUCK AVE	Berkeley
2	17050275	BURGLARY AUTO	08/24/2017 12:00:00 AM	18:30	…	200 UNIVERSITY AVE\nBerkeley, CA\n(37.865491, …	200 UNIVERSITY AVE	Berkeley
3	17019145	GUN/WEAPON	04/06/2017 12:00:00 AM	17:30	…	1900 SEVENTH ST\nBerkeley, CA\n(37.869318, -12…	1900 SEVENTH ST	Berkeley
4	17044993	VEHICLE STOLEN	08/01/2017 12:00:00 AM	18:00	…	100 PARKSIDE DR\nBerkeley, CA\n(37.854247, -12…	100 PARKSIDE DR	Berkeley
5	17037319	BURGLARY RESIDENTIAL	06/28/2017 12:00:00 AM	12:00	…	1500 PRINCE ST\nBerkeley, CA\n(37.851503, -122…	1500 PRINCE ST	Berkeley
6	17030791	BURGLARY RESIDENTIAL	05/30/2017 12:00:00 AM	08:45	…	300 MENLO PL\nBerkeley, CA\n	300 MENLO PL	Berkeley

7 行 × 11 列

作为数据清理步骤，我们希望合并EVENTDT和EVENTTM列，在一个字段中记录日期和时间。如果我们定义一个函数，接受DF并返回新的DF，我们可以稍后使用pd.pipe一次性应用所有转换。

def combine_event_datetimes(calls):
    combined = pd.to_datetime(
        # Combine date and time strings
        calls['EVENTDT'].str[:10] + ' ' + calls['EVENTTM'],
        infer_datetime_format=True,
    )
    return calls.assign(EVENTDTTM=combined)

# To peek at the result without mutating the calls DF:
calls.pipe(combine_event_datetimes).head(2)

CASENO	OFFENSE	EVENTDT	EVENTTM	…	BLKADDR	City	State	EVENTDTTM
0	17091420	BURGLARY AUTO	07/23/2017 12:00:00 AM	06:00	…	2500 LE CONTE AVE	Berkeley	CA
1	17020462	THEFT FROM PERSON	04/13/2017 12:00:00 AM	08:45	…	2200 SHATTUCK AVE	Berkeley	CA

2 行 × 12 列

数据的哪些部分是由人类输入的？

看起来，大多数数据列是机器记录的，包括日期，时间，星期和事件位置。

另外，OFFENSE和CVLEGEND列看起来包含一致的值。我们可以检查每列中的唯一值，来查看是否有任何拼写错误：

calls['OFFENSE'].unique()
'''
array(['BURGLARY AUTO', 'THEFT FROM PERSON', 'GUN/WEAPON',
       'VEHICLE STOLEN', 'BURGLARY RESIDENTIAL', 'VANDALISM',
       'DISTURBANCE', 'THEFT MISD. (UNDER $950)', 'THEFT FROM AUTO',
       'DOMESTIC VIOLENCE', 'THEFT FELONY (OVER $950)', 'ALCOHOL OFFENSE',
       'MISSING JUVENILE', 'ROBBERY', 'IDENTITY THEFT',
       'ASSAULT/BATTERY MISD.', '2ND RESPONSE', 'BRANDISHING',
       'MISSING ADULT', 'NARCOTICS', 'FRAUD/FORGERY',
       'ASSAULT/BATTERY FEL.', 'BURGLARY COMMERCIAL', 'MUNICIPAL CODE',
       'ARSON', 'SEXUAL ASSAULT FEL.', 'VEHICLE RECOVERED',
       'SEXUAL ASSAULT MISD.', 'KIDNAPPING', 'VICE', 'HOMICIDE'], dtype=object)
'''

calls['CVLEGEND'].unique()
'''
array(['BURGLARY - VEHICLE', 'LARCENY', 'WEAPONS OFFENSE',
       'MOTOR VEHICLE THEFT', 'BURGLARY - RESIDENTIAL', 'VANDALISM',
       'DISORDERLY CONDUCT', 'LARCENY - FROM VEHICLE', 'FAMILY OFFENSE',
       'LIQUOR LAW VIOLATION', 'MISSING PERSON', 'ROBBERY', 'FRAUD',
       'ASSAULT', 'NOISE VIOLATION', 'DRUG VIOLATION',
       'BURGLARY - COMMERCIAL', 'ALL OTHER OFFENSES', 'ARSON', 'SEX CRIME',
       'RECOVERED VEHICLE', 'KIDNAPPING', 'HOMICIDE'], dtype=object)
'''

由于这些列中的每个值似乎都拼写正确，因此我们不必对这些列执行任何更正。

我们还检查了BLKADDR列的不一致性，发现有时记录了地址（例如2500LE CONTE AVE），但有时记录十字路口（例如ALLSTON WAY & FIFTH ST）。这表明人类输入了这些数据，而这一栏很难用于分析。幸运的是，我们可以使用事件的经纬度而不是街道地址。

calls['BLKADDR'][[0, 5001]]
'''
0            2500 LE CONTE AVE
5001    ALLSTON WAY & FIFTH ST
Name: BLKADDR, dtype: object
'''

最后的接触

这个数据集似乎几乎可用于分析。 Block_Location列似乎包含记录地址，纬度和经度的字符串。我们将要分割经纬度以便使用。

def split_lat_lon(calls):
    return calls.join(
        calls['Block_Location']
        # Get coords from string
        .str.split('\n').str[2]
        # Remove parens from coords
        .str[1:-1]
        # Split latitude and longitude
        .str.split(', ', expand=True)
        .rename(columns={0: 'Latitude', 1: 'Longitude'})
    )

calls.pipe(split_lat_lon).head(2)

CASENO	OFFENSE	EVENTDT	EVENTTM	…	City	State	Latitude	Longitude
0	17091420	BURGLARY AUTO	07/23/2017 12:00:00 AM	06:00	…	Berkeley	CA	37.876965
1	17020462	THEFT FROM PERSON	04/13/2017 12:00:00 AM	08:45	…	Berkeley	CA	37.869363

2 行 × 13 列

然后，我们可以将星期序号与星期进行匹配：

# This DF contains the day for each 数字 in CVDOW
day_of_week = pd.read_csv('data/cvdow.csv')
day_of_week

CVDOW	Day
0	0
1	1
2	2
3	3
4	4
5	5
6	6

def match_weekday(calls):
    return calls.merge(day_of_week, on='CVDOW')
calls.pipe(match_weekday).head(2)

CASENO	OFFENSE	EVENTDT	EVENTTM	…	BLKADDR	City	State	Day
0	17091420	BURGLARY AUTO	07/23/2017 12:00:00 AM	06:00	…	2500 LE CONTE AVE	Berkeley	CA
1	17038302	BURGLARY AUTO	07/02/2017 12:00:00 AM	22:00	…	BOWDITCH STREET & CHANNING WAY	Berkeley	CA

2 行 × 12 列

我们将删除我们不再需要的列：

def drop_unneeded_cols(calls):
    return calls.drop(columns=['CVDOW', 'InDbDate', 'Block_Location', 'City',
                               'State', 'EVENTDT', 'EVENTTM'])

最后，我们让calls DF 穿过我们定义的所有函数的管道：

calls_final = (calls.pipe(combine_event_datetimes)
               .pipe(split_lat_lon)
               .pipe(match_weekday)
               .pipe(drop_unneeded_cols))
df_interact(calls_final)

户籍数据集现在可用于进一步的数据分析。在下一节中，我们将清理截停数据集。

# HIDDEN
# Save data to CSV for other chapters
# calls_final.to_csv('../ch5/data/calls.csv', index=False)

清理截停数据集

截停数据集记录警察截停的行人和车辆。让我们准备进一步分析。

我们可以使用head命令来显示文件的前几行。

!head data/stops.json

{
  "meta" : {
    "view" : {
      "id" : "6e9j-pj9p",
      "name" : "Berkeley PD - Stop Data",
      "attribution" : "Berkeley Police Department",
      "averageRating" : 0,
      "category" : "Public Safety",
      "createdAt" : 1444171604,
      "description" : "This data was extracted from the Department’s Public Safety Server and covers the data beginning January 26, 2015.  On January 26, 2015 the department began collecting data pursuant to General Order B-4 (issued December 31, 2014).  Under that order, officers were required to provide certain data after making all vehicle detentions (including bicycles) and pedestrian detentions (up to five persons).  This data set lists stops by police in the categories of traffic, suspicious vehicle, pedestrian and bicycle stops.  Incident number, date and time, location and disposition codes are also listed in this data.\r\n\r\nAddress data has been changed from a specific address, where applicable, and listed as the block where the incident occurred.  Disposition codes were entered by officers who made the stop.  These codes included the person(s) race, gender, age (range), reason for the stop, enforcement action taken, and whether or not a search was conducted.\r\n\r\nThe officers of the Berkeley Police Department are prohibited from biased based policing, which is defined as any police-initiated action that relies on the race, ethnicity, or national origin rather than the behavior of an individual or information that leads the police to a particular individual who has been identified as being engaged in criminal activity.",

stops.json文件显然不是 CSV 文件。在这种情况下，该文件包含 JSON（JavaScript 对象表示法）格式的数据，这是一种常用的数据格式，其中数据记录为字典格式。 Python 的json模块使得该文件可以简单地读取为字典。

import json

# Note that this could cause our computer to run out of memory if the file
# is large. In this case, we've verified that the file is small enough to
# read in beforehand.
with open('data/stops.json') as f:
    stops_dict = json.load(f)

stops_dict.keys()
# dict_keys(['meta', 'data'])

请注意，stops_dict是一个 Python 字典，因此显示它将在笔记本中显示整个数据集。这可能会导致浏览器崩溃，所以我们只显示上面的字典键。为了查看数据而不会导致浏览器崩溃，我们可以将字典打印为一个字符串，并仅输出字符串的一些首字符。

from pprint import pformat

def print_dict(dictionary, num_chars=1000):
    print(pformat(dictionary)[:num_chars])

print_dict(stops_dict['meta'])
'''
{'view': {'attribution': 'Berkeley Police Department',
          'averageRating': 0,
          'category': 'Public Safety',
          'columns': [{'dataTypeName': 'meta_data',
                       'fieldName': ':sid',
                       'flags': ['hidden'],
                       'format': {},
                       'id': -1,
                       'name': 'sid',
                       'position': 0,
                       'renderTypeName': 'meta_data'},
                      {'dataTypeName': 'meta_data',
                       'fieldName': ':id',
                       'flags': ['hidden'],
                       'format': {},
                       'id': -1,
                       'name': 'id',
                       'position': 0,
                       'renderTypeName': 'meta_data'},
                      {'dataTypeName': 'meta_data',
                       'fieldName': ':position',
                       'flags': ['hidden'],
                       'format': {},
'''

print_dict(stops_dict['data'], num_chars=300)
'''
[[1,
  '29A1B912-A0A9-4431-ADC9-FB375809C32E',
  1,
  1444146408,
  '932858',
  1444146408,
  '932858',
  None,
  '2015-00004825',
  '2015-01-26T00:10:00',
  'SAN PABLO AVE / MARIN AVE',
  'T',
  'M',
  None,
  None],
 [2,
  '1644D161-1113-4C4F-BB2E-BF780E7AE73E',
  2,
  1444146408,
  '932858',
  14
'''

我们可以推断，字典中的'meta'键包含数据及其列的描述，'data'包含数据行的列表。我们可以使用这些信息来初始化DataFrame。

# Load the data from JSON and assign column titles
stops = pd.DataFrame(
    stops_dict['data'],
    columns=[c['name'] for c in stops_dict['meta']['view']['columns']])

stops

sid	id	position	created_at	…	Incident Type	Dispositions	Location - Latitude	Location - Longitude
0	1	29A1B912-A0A9-4431-ADC9-FB375809C32E	1	1444146408	…	T	M	None
1	2	1644D161-1113-4C4F-BB2E-BF780E7AE73E	2	1444146408	…	T	M	None
2	3	5338ABAB-1C96-488D-B55F-6A47AC505872	3	1444146408	…	T	M	None
…	…	…	…	…	…	…	…	…
29205	31079	C2B606ED-7872-4B0B-BC9B-4EF45149F34B	31079	1496269085	…	T	BM2TWN;	None
29206	31080	8FADF18D-7FE9-441D-8709-7BFEABDACA7A	31080	1496269085	…	T	HM4TCS;	37.8698757000001
29207	31081	F60BD2A4-8C47-4BE7-B1C6-4934BE9DF838	31081	1496269085	…	1194	AR;	37.867207539

29208 行 × 15 列

# Prints column names
stops.columns
'''
Index(['sid', 'id', 'position', 'created_at', 'created_meta', 'updated_at',
       'updated_meta', 'meta', 'Incident Number', 'Call Date/Time', 'Location',
       'Incident Type', 'Dispositions', 'Location - Latitude',
       'Location - Longitude'],
      dtype='object')
'''

该网站包含以下列的文档：

列	描述	类型
Incident 数字	计算机辅助调度（CAD）程序创建的事件数量	纯文本
Call Date/Time	事件/截停的日期和时间	日期时间
Location	事件/截停的一般位置	纯文本
Incident Type	这是在 CAD 程序中创建的发生事件的类型。代码表示交通截停（`T`），可疑车辆截停（`1196`），行人截停（`1194`）和自行车截停（`1194B`）。	纯文本
Dispositions	按如下顺序组织：第一个字符为种族，如下所示：`A`（亚洲），`B`（黑人），`H`（西班牙裔），`O`（其他），`W`（白人）；第二个字符为性别，如下所示：`F`（女性），`M`（男性）；第三个字符为年龄范围，如下：`1`（小于 18），`2`（18-29），`3`（30-39），`4`（大于 40）；第四个字符为原因，如下：`I`（调查），`T`（交通），`R`（合理怀疑），`K`（说教/假释），`W`（通缉）；第五个字符为执行，如下：`A`（逮捕），`C`（引用），`O`（其他），`W`（警告）；第六个字符为车辆搜索，如下：`S`（搜索），`N`（无搜索）。也可能出现其他处置，它们是：`P` - 主要案件报告，`M` - 仅 MDT，`AR` - 仅逮捕报告（未提交案件报告），`IN` - 事故报告，`FC` - 穿卡区，`CO` - 碰撞调查报告，`MH` - 紧急情况精神评估，`TOW` - 扣押车辆，0 或 00000 - 官员截停了超过五人。	纯文本
Location - Latitude	呼叫的一般纬度。此数据仅在 2017 年 1 月之后上传。	数字
Location - Longitude	呼叫的一般经度。此数据仅在 2017 年 1 月之后上传。	数字

请注意，网站不包含截停表的前 8 列的说明。由于这些列似乎包含我们在此次分析中不感兴趣的元数据，因此我们从表中删除它们。

columns_to_drop = ['sid', 'id', 'position', 'created_at', 'created_meta',
                   'updated_at', 'updated_meta', 'meta']

# This function takes in a DF and returns a DF so we can use it for .pipe
def drop_unneeded_cols(stops):
    return stops.drop(columns=columns_to_drop)

stops.pipe(drop_unneeded_cols)

Incident Number	Call Date/Time	Location	Incident Type	Dispositions	Location - Latitude	Location - Longitude
0	2015-00004825	2015-01-26T00:10:00	SAN PABLO AVE / MARIN AVE	T	M	None
1	2015-00004829	2015-01-26T00:50:00	SAN PABLO AVE / CHANNING WAY	T	M	None
2	2015-00004831	2015-01-26T01:03:00	UNIVERSITY AVE / NINTH ST	T	M	None
…	…	…	…	…	…	…
29205	2017-00024245	2017-04-30T22:59:26	UNIVERSITY AVE/6TH ST	T	BM2TWN;	None
29206	2017-00024250	2017-04-30T23:19:27	UNIVERSITY AVE / WEST ST	T	HM4TCS;	37.8698757000001
29207	2017-00024254	2017-04-30T23:38:34	CHANNING WAY / BOWDITCH ST	1194	AR;	37.867207539

29208 行 × 7 列

与呼叫数据集一样，我们将回答截停数据集的以下三个问题：

数据集中是否存在缺失值？
是否有已填写的缺失值（例如 999 岁，未知年龄或上午 12:00 为未知日期）？
数据的哪些部分是由人类输入的？

是否存在缺失值？

我们可以清楚地看到，有很多缺失的纬度和经度。数据描述指出，这两列仅在 2017 年 1 月之后填写。

# True if row contains at least one null value
null_rows = stops.isnull().any(axis=1)

stops[null_rows]

Incident Number	Call Date/Time	Location	Incident Type	Dispositions	Location - Latitude	Location - Longitude
0	2015-00004825	2015-01-26T00:10:00	SAN PABLO AVE / MARIN AVE	T	M	None
1	2015-00004829	2015-01-26T00:50:00	SAN PABLO AVE / CHANNING WAY	T	M	None
2	2015-00004831	2015-01-26T01:03:00	UNIVERSITY AVE / NINTH ST	T	M	None
…	…	…	…	…	…	…
29078	2017-00023764	2017-04-29T01:59:36	2180 M L KING JR WAY	1194	BM4IWN;	None
29180	2017-00024132	2017-04-30T12:54:23	6TH/UNI	1194	M;	None
29205	2017-00024245	2017-04-30T22:59:26	UNIVERSITY AVE/6TH ST	T	BM2TWN;	None

25067 行 × 7 列

我们可以检查其他列的缺失值：

# True if row contains at least one null value without checking
# the latitude and longitude columns
null_rows = stops.iloc[:, :-2].isnull().any(axis=1)

df_interact(stops[null_rows])
# (63 rows, 7 columns) total

通过浏览上面的表格，我们可以看到所有其他缺失值在Dispositions列中。不幸的是，我们从数据描述中并不知道，为什么这些值可能会缺失。由于原始表格中，与 25,000 行相比，只有 63 个缺失值，因此我们可以继续进行分析，同时注意这些缺失值可能会影响结果。

有没有已填写的缺失值？

看起来，没有为我们填充之前的缺失值。与呼叫数据集不同，它的日期和时间位于不同列中，截停数据集中的Call Date/Time列包含了日期和时间。

数据的哪些部分是由人类输入的？

与呼叫数据集一样，该数据集中的大部分列看起来都是由机器记录的，或者是人类选择的类别（例如事件类型）。

但是，Location列的输入值不一致。果然，我们在数据中发现了一些输入错误：

stops['Location'].value_counts()
'''
2200 BLOCK SHATTUCK AVE            229
37.8693028530001~-122.272234021    213
UNIVERSITY AVE / SAN PABLO AVE     202
                                  ... 
VALLEY ST / DWIGHT WAY               1
COLLEGE AVE / SIXTY-THIRD ST         1
GRIZZLY PEAK BLVD / MARIN AVE        1
Name: Location, Length: 6393, dtype: int64
'''

真是一团糟！有时看起来输入了地址，有时是十字路口，其他时候是经纬度。不幸的是，我们没有非常完整的经纬度数据来代替这一列。如果我们想将位置用于未来的分析，我们可能必须手动清理此列。

我们也可以检查Dispositions列：

dispositions = stops['Dispositions'].value_counts()

# Outputs a slider to pan through the unique Dispositions in
# order of how often they appear
interact(lambda row=0: dispositions.iloc[row:row+7],
         row=(0, len(dispositions), 7))
# >

Dispositions列也不一致。例如，一些处置以空格开始，一些以分号结束，另一些包含多个条目。值的多样性表明，该字段包含人类输入的值，应谨慎对待。

# Strange values...
dispositions.iloc[[0, 20, 30, 266, 1027]]
'''
M           1683
M;           238
 M           176
HF4TWN;       14
 OM4KWS        1
Name: Dispositions, dtype: int64
'''

另外，最常见的处置是M，它不是Dispositions列中允许的第一个字符。这可能意味着，该列的格式会随时间而变化，或者允许官员输入处置，它不匹配数据描述中的格式。无论如何，该列将很难处理。

我们可以采取一些简单的步骤来清理处置列，方法是删除前导和尾后空格，删除尾后分号并用逗号替换剩余的分号。

def clean_dispositions(stops):
    cleaned = (stops['Dispositions']
               .str.strip()
               .str.rstrip(';')
               .str.replace(';', ','))
    return stops.assign(Dispositions=cleaned)

和以前一样，我们现在可以使stops DF 由管道穿过我们定义的清理函数：

stops_final = (stops
               .pipe(drop_unneeded_cols)
               .pipe(clean_dispositions))
df_interact(stops_final)
# (29208 rows, 7 columns) total

总结

这两个数据集表明，数据清理往往既困难又乏味。清理 100% 的数据通常需要很长时间，但不清理数据会导致错误的结论；我们必须衡量我们的选择，并在每次遇到新数据集时达到平衡。

数据清理过程中做出的决定，会影响所有未来的分析。例如，我们选择不清理截停数据集的Location列，因此我们应该谨慎对待该列。在数据清理过程中做出的每一项决定，都应仔细记录以供日后参考，最好在笔记本上，以便代码和解释出现在一起。

# HIDDEN
# Save data to CSV for other chapters
# stops_final.to_csv('../ch5/data/stops.csv', index=False)

你可能感兴趣的:(数据科学)

Python数据分析与可视化 jun778895 python 数据分析开发语言
Python数据分析与可视化是一个涉及数据处理、分析和以图形化方式展示数据的过程，它对于数据科学家、分析师以及任何需要从数据中提取洞察力的专业人员来说至关重要。以下将详细探讨Python在数据分析与可视化方面的应用，包括常用的库、数据处理流程、可视化技巧以及实际应用案例。一、Python数据分析与可视化的重要性数据可视化是将数据以图形或图像的形式表示出来，以便人们能够更直观地理解数据背后的信息和规
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
Python 初学者入门必知： Anaconda是什么？有什么作用？怎么使用？懒大王爱吃狼 Python基础 python 开发语言 python基础 python学习 anaconda anaconda安装 python教程
初学者在学习Python时，经常看到的一个名字是Anaconda。究竟什么是Anaconda，为什么它如此受欢迎？在这篇文章中，我们将探讨Anaconda，了解Anaconda的从安装到使用的。Anaconda是一个免费开源的Python和R编程发行版，包含上千个适用于数据科学和机器学习的包。同时，配备了Spyder和Jupyternotebook等工具，初学者可以使用它们来学习Python，使用
python卡方检验计算pvalue值_Python数据科学：卡方检验 CodeWhiz
之前已经介绍的变量分析：①相关分析：一个连续变量与一个连续变量间的关系。②双样本t检验：一个二分分类变量与一个连续变量间的关系。③方差分析：一个多分类分类变量与一个连续变量间的关系。本次介绍：卡方检验：一个二分分类变量或多分类分类变量与一个二分分类变量间的关系。如果其中一个变量的分布随着另一个变量的水平不同而发生变化时，那么两个分类变量就有关系。卡方检验并不能展现出两个分类变量相关性的强弱，只能展
Pandas教程：详解Pandas数据清洗旦莫 Python Pandas python pandas 数据分析
目录1.引言2.Pandas基础2.1安装与导入2.2创建一个复杂的DataFrame3.数据清洗流程3.1处理缺失值3.1.1删除缺失值3.1.2填充缺失值3.2数据去重3.3数据类型转换4.数据处理与变换4.1添加与删除列4.2数据排序5.数据分组与聚合6.其他数据清洗方法6.1字符串处理6.2时间序列处理6.3数据类型转换1.引言数据清洗是数据科学和数据分析中的一个重要步骤，旨在提升数据的质
大数据领域的深度分析——AI是在帮助开发者还是取代他们？阳爱铭大数据与数据中台技术沉淀大数据人工智能后端数据库架构数据库开发 etl工程师 chatgpt
在大数据领域，生成式人工智能（AIGC）的应用正在迅速扩展，改变了数据科学家和开发者的工作方式。本文将从大数据的专业视角，探讨AI工具在这一领域的作用，以及它们是如何帮助开发者而非取代他们的。1.大数据领域的AI工具现状在大数据领域，AI工具已经取得了显著进展，以下是几款主要的AI工具及其功能和实际应用：ApacheSpark+MLlib：ApacheSpark是一个开源的分布式计算系统，广泛用于
AI学习者的Python快速入门指南 AI科研视界人工智能 python chatgpt
Python已成为AI和数据科学的事实标准编程语言。尽管存在无需编码的解决方案，但学习编程仍然是构建完全定制化AI项目或产品的必要途径。在本文中，我将分享一个Python入门快速指南，帮助初学者进行AI开发。我会先介绍基础知识，然后分享一个带有示例代码的具体实例。图片来自Canva。Python是一种编程语言，也就是说，它是给计算机下达我们无法或不愿亲自执行的精确指令的一种方式[1]。这在自动化特
python基础学习 agente python python 学习开发语言
第一章标识符1、python被称为胶水语言，可以跟各个代码能一块儿使用爬虫、数据分析web全栈开发、数据科学方向、人工智能的机械学习和深度学习、自动化运维、爬虫、办公自动化python是跨平台的，python是解释型语言，不需要编译，python是面向对象的语言1、print()#print()可以输出数字、字符串、含有运算符的表达式#print()可以将内容输出到显示器、文件#print()输出
Holoviews 创建复杂的可视化布局步入烟尘 Python超入门指南全册 Holoviews python
如何使用Holoviews创建复杂的可视化布局在数据科学和数据可视化领域，Holoviews是一个非常强大的Python库，它可以帮助我们轻松地创建各种复杂的可视化布局。Holoviews提供了一个高层次的接口，使得创建交互式和静态可视化变得简单而直观。本文将介绍如何使用Holoviews来创建复杂的可视化布局，让你的数据以最直观的方式展现出来。安装Holoviews首先，确保你已经安装了Holo
程式语言区分白总Server html python java c++开发语言
程序语言有很多种，每种都有其特定的用途和特点。以下是一些广泛使用的编程语言：1.Python：易于学习，广泛用于数据科学、机器学习、网络开发、自动化等领域。2.Java：广泛应用于企业级应用、安卓开发、大型系统开发等。3.C：一种基础语言，广泛用于系统编程、嵌入式开发、操作系统等领域。4.C++：C语言的扩展，支持面向对象编程，用于游戏开发、高性能应用等。5.JavaScript：主要用于网页前端
双峰高斯分布蒙特卡洛模并画pdf和cdf图 tpHRlIi pdf
双峰高斯分布蒙特卡洛模并画pdf和cdf图可设置双峰组合分布中不同正态参数的分布比例，也可以对多个组合进行计算matlab代码，备注清楚，更改为自己需要的分布比例与参数即可双峰高斯分布蒙特卡洛模并画pdf和cdf图在现代数据科学中，探究数据的分布状态是非常重要的。而在实际应用场景中，数据不一定总是符合单一的分布模型。双峰高斯分布是一种较为常见的数据分布模型，它适用于许多实际场景，比如人口年龄分布、
【数据获取与读取】JSON & CSV yogurt=b 数据分析 json python
数据分析流程获取数据-读取数据-评估数据-清洗数据-整理数据-分析数据-可视化数据公开数据集飞桨（百度旗下深度学习平台）数据集：https:/aistudio.baidu.com/aistudio/datasetoverview天池（阿里云旗下开发者竞赛平台）:https:/tianchiaiyun.com/dataset/和鲸社区（数据科学开源社区）数据集：htps://www.heywhale
Python中的matplotlib库安装教程：多种方法详解代码前哨站 python matplotlib 开发语言
在数据可视化的世界里，matplotlib是一个非常重要的工具库。它提供了一整套绘图功能，帮助我们将数据可视化为图表。无论你是数据科学家、工程师，还是只是在数据处理领域有所涉猎，掌握matplotlib的安装方法都能让你的工作更加高效。本文将详细介绍几种在Python中安装matplotlib的方法。方法一：使用pip安装pip是Python包管理工具，使用它安装matplotlib非常简单。以下
【conda】完整指南：如何配置 Conda 环境与镜像源丶2136 conda conda
目录1.Conda配置概述2.配置镜像源2.1查找合适的镜像源2.2配置镜像源2.3优先级设置3.环境管理3.1设置默认环境路径3.2默认环境3.3环境清理3.4自定义命令4.其他常用配置选项4.1配置日志级别4.2缓存设置4.3自动更新总结conda是一个功能强大的包和环境管理工具，广泛用于数据科学、机器学习和科学计算领域。为了最大化利用conda，了解其配置选项至关重要。本文将深入探讨cond
顶级的python入门教程！小白到大师，从这篇教程开始！马大哈（Python） python pycharm 开发语言学习青少年编程
1.为什么要学习Python？学习Python的原因有很多，以下是几个主要的原因：广泛应用：Python被广泛应用于Web开发、数据科学、人工智能、机器学习、自动化运维、网络爬虫、科学计算、游戏开发等多个领域。掌握Python意味着你可以在这些领域中找到丰富的职业机会。入门简单：Python的语法简洁明了，易于学习和理解，对于编程初学者来说非常友好。它的代码风格一致，可读性强，有助于培养良好的编程
python指南之Pandas和Matplotlib进行数据清洗步入烟尘 Python超入门指南全册 Matplotlib matplotlib 开发语言 python
使用Pandas和Matplotlib进行数据清洗与可视化在数据科学领域，数据清洗和可视化是构建数据驱动解决方案的重要步骤。本文将详细介绍如何使用Pandas进行数据清洗，并结合Matplotlib进行可视化。通过实际代码示例，我们将处理一个包含缺失值、不一致格式和噪声数据的示例数据集，最终将其转换为可视化友好的形式。1.准备工作在开始之前，我们需要安装必要的Python库。如果尚未安装，可以使用
【Rust光年纪】从心理学计算到机器学习：Rust语言数据科学库全方位解读！ friklogff Rust光年纪机器学习 rust 人工智能
Rust语言的数据科学和机器学习库大揭秘：核心功能、使用指南一网打尽！前言随着数据科学和机器学习在各个领域的广泛应用，使用高效、稳定的编程语言来实现这些功能变得尤为重要。Rust语言作为一种安全且高性能的系统编程语言，正逐渐成为数据科学和机器学习领域的热门选择。本文将介绍几个优秀的Rust库，它们分别用于心理学计算、统计分析、数据科学和机器学习，让我们一同探索它们的核心功能、使用场景和API概览。
Python大数据：深入探索Hadoop库的使用 t0_54coder Python基础入门教程大数据 python hadoop
在大数据的世界中，Python和Hadoop结合使用，为处理庞大数据集提供了强大的工具。本文将详细探讨如何在Python中使用Hadoop，特别是通过实例来展示这一过程。1.简介Hadoop是一个用于分布式处理大量数据的开源框架。尽管Hadoop主要用Java编写，但通过HadoopStreaming，Python程序员也可以利用其强大的数据处理能力。Python在数据科学中的流行，加上Hadoo
Python与R的完美协作：深入解析subprocess模块调用R脚本的参数传递机制十步杀一人_千里不留行 python r语言 microsoft
在数据科学和机器学习领域，Python和R经常需要协同工作。作为一名数据科学家，掌握这两种语言的交互技巧至关重要。今天，我们将深入探讨使用Python的subprocess模块调用R脚本时的参数传递机制，揭示其中的细节和潜在陷阱。两种参数传递方式的解析方法一：直接传递参数这种方法直接在subprocess.run()函数中传递参数：result1=subprocess.run([rscript_p
企业大规模部署机器学习模型的困境 AI前线
作者|JustinGage译者|Sambodhi编辑|VincentAI前线出品｜ID：ai-frontAI前线导语：“尽管人工智能正在被广泛应用，但大规模部署基于AI的产品如此之难，不过，一些新技术正被寄以厚望改变这一现状。基石风投合伙公司研究人工智能、机器学习的分析师、美国纽约大学的前数据科学家JustinGage不久前写了一篇文章[1]，为我们讲述了机器学习的部署和建模的不同之处，以及在公司
R语言基础学习 weixin_55475210 r语言学习开发语言
R与RStudioR语言是数据科学和统计分析的语言，适合数据分析和数据可视化。R是开源的，拥有丰富的包（packages），可以与优化软件进行交互。RStudio提供了R语言的集成开发环境，支持代码编辑、运行、调试等功能。下载R：CRAN下载RStudio：RStudioDownloadRStudio界面基本操作保存/打开代码文件使用.R扩展名。保存/打开环境文件使用.Rdata扩展名。快捷键操作
数据科学简讯 2023-03-24 数科每日
头条GitHubCopilotXCopilot即将推出新的对话界面、GPT-4升级、错误修复建议、文档编写和自动拉取请求。这些发布是GitHub成为开发者工具包强国目标的下一步。谷歌和微软的聊天机器人在错误信息的对决中相互引用根据TheVerge上的一篇评论文章，微软、谷歌和OpenAI等大型科技公司仓促推出AI聊天机器人有可能破坏网络的信息生态系统。作者举了一个例子，微软的Bing聊天机器人错误
Python读取Excel数据 shiming8879 python excel 开发语言
在处理Excel数据时，Python提供了多种强大的库来读取、处理以及分析这些数据。最常用的库之一是pandas，它建立在numpy、matplotlib和scipy等库之上，为数据分析和操作提供了高级的、易于使用的数据结构和数据分析工具。另一个流行的库是openpyxl，它专门用于读写Excel2010xlsx/xlsm/xltx/xltm文件。一、引言在数据科学、机器学习、财务分析等多个领域，
看demo学算法之 k-means 小琳ai 算法 kmeans 机器学习
大家好，这里是小琳AI课堂！今天我们要继续深入探讨k-means算法，这是一种在数据科学和机器学习中非常流行的聚类方法。✨k-means的四大步骤随机启动：先随便挑k个数据点当老大（簇中心）。分配小弟：每个数据点看看离哪个老大最近，然后加入那个团队。老大换人：每个团队重新算算中心位置，换个新老大。重复搞事：一直重复分配小弟和换老大的步骤，直到老大们换得差不多了或者到了预定的次数。k-means的闪
布隆过滤器 guangzhi0633 面试职场和发展
揭秘数据筛选的神秘利器在浩瀚的数据海洋中，如何快速、准确地找到我们需要的信息？这不仅是数据科学家的难题，也是每一个与数据打交道的人面临的挑战。今天，让我们一起走进布隆过滤器（BloomFilter）的世界，看看这个被誉为“筛选神器”的技术如何帮助我们在海量数据中淘金。布隆过滤器的奥秘想象一下，你手中有一个巨大的筛子，它不仅能过滤掉无用的沙子，还能智能地保留下珍贵的金粒。布隆过滤器就是这样的“智慧筛
《R数据科学》第十一章练习题 sizhishizi R r语言开发语言数据分析
美国民主党、共和党和中间派的人数比例是如何随时间而变化的？>gss_cat%>%mutate(partyid=fct_collapse(partyid,#利用fct_collapse函数对因子水平进行同党派类别合并。other=c('NOanswer',"Don'tknow","Otherparty"),rep=c("Strongrepublican","Notstrrepublican"),in
Python：解锁高效编程与数据分析的钥匙我的运维人生 python 数据分析开发语言运维开发技术共享
Python：解锁高效编程与数据分析的钥匙在当今快速发展的信息技术时代，Python作为一种高级编程语言，凭借其简洁的语法、强大的库支持和广泛的应用场景，在数据科学、机器学习、Web开发等多个领域大放异彩。本文将深入探讨Python的核心优势，并通过实际代码案例展示其在数据处理和分析方面的强大能力。Python的核心优势简洁易读：Python以其简洁明了的语法著称，这使得初学者能够快速上手，同时也
Azure和Transformers的详细解释漫天飞舞的雪花 azure microsoft python
AzureAI是微软提供的人工智能(AI)解决方案的集合，旨在帮助开发人员、数据科学家和企业轻松构建和部署智能应用程序。以下是对AzureAI各个方面的详细解释：AzureAI主要组件AzureCognitiveServices（认知服务）：计算视觉：包括图像识别、物体检测、人脸识别以及图像标注等。语音服务：包括语音识别、语音合成、说话人识别和语音翻译等。语言理解服务：包括文本分析、语言翻译、情感
Streamlit来开发一个趣味应用 WangLinXX 学习服务器前端 linux
Streamlit来开发一个趣味应用。Streamlit是一个用于构建数据科学应用的Python库，它可以帮助你通过简单的代码快速构建交互式应用程序。下面是一个简单的示例，展示如何使用Streamlit开发一个“猜数字”的游戏应用：importstreamlitasstimportrandomdefguess_number():number=random.randint(1,100)st.writ
【conda 】完美掌控 Conda 配置：高级设置与实用技巧丶2136 conda conda
目录一、`conda`配置文件详细设置1.基本设置2.高级配置3.其他配置选项二、实用命令1.更新`conda`配置2.显示当前配置3.添加和删除频道三、解决常见问题1.包冲突2.网络问题3.包缓存问题总结在数据科学和开发工作中，conda已成为不可或缺的工具。它不仅简化了包和环境的管理，还提供了多种高级配置选项，帮助用户更好地控制其工作环境。本文将深入探讨conda的高级配置选项，并提供实用的命
LeetCode[Math] - #66 Plus One Cwind java LeetCode 题解 Algorithm Math
原题链接：#66 Plus One 要求：给定一个用数字数组表示的非负整数，如num1 = {1, 2, 3, 9}, num2 = {9, 9}等，给这个数加上1。注意： 1. 数字的较高位存在数组的头上，即num1表示数字1239 2. 每一位（数组中的每个元素）的取值范围为0~9 难度：简单分析：题目比较简单，只须从数组
JQuery中$.ajax()方法参数详解 AILIKES JavaScript jsonp jquery Ajax json
url: 要求为String类型的参数，（默认为当前页地址）发送请求的地址。 type: 要求为String类型的参数，请求方式（post或get）默认为get。注意其他http请求方法，例如put和 delete也可以使用，但仅部分浏览器支持。 timeout: 要求为Number类型的参数，设置请求超时时间（毫秒）。此设置将覆盖$.ajaxSetup()方法的全局
JConsole & JVisualVM远程监视Webphere服务器JVM Kai_Ge JVisualVM JConsole Webphere
JConsole是JDK里自带的一个工具，可以监测Java程序运行时所有对象的申请、释放等动作，将内存管理的所有信息进行统计、分析、可视化。我们可以根据这些信息判断程序是否有内存泄漏问题。　　使用JConsole工具来分析WAS的JVM问题，需要进行相关的配置。　　首先我们看WAS服务器端的配置. 　　1、登录was控制台https://10.4.119.18
自定义annotation 120153216 annotation
Java annotation 自定义注释@interface的用法一、什么是注释说起注释，得先提一提什么是元数据(metadata)。所谓元数据就是数据的数据。也就是说，元数据是描述数据的。就象数据表中的字段一样，每个字段描述了这个字段下的数据的含义。而J2SE5.0中提供的注释就是java源代码的元数据，也就是说注释是描述java源
CentOS 5/6.X 使用 EPEL YUM源 2002wmj centos
CentOS 6.X 安装使用EPEL YUM源1. 查看操作系统版本[root@node1 ~]# uname -a Linux node1.test.com 2.6.32-358.el6.x86_64 #1 SMP Fri Feb 22 00:31:26 UTC 2013 x86_64 x86_64 x86_64 GNU/Linux [root@node1 ~]#
在SQLSERVER中查找缺失和无用的索引SQL 357029540 SQL Server
--缺失的索引 SELECT avg_total_user_cost * avg_user_impact * ( user_scans + user_seeks ) AS PossibleImprovement , last_user_seek ,
Spring3 MVC 笔记（二） —json+rest优化 7454103 Spring3 MVC
接上次的 spring mvc 注解的一些详细信息！其实也是一些个人的学习笔记呵呵！
替换“\”的时候报错Unexpected internal error near index 1 \ ^ adminjun java “\替换”
发现还是有些东西没有刻子脑子里,,过段时间就没什么概念了,所以贴出来...以免再忘... 在拆分字符串时遇到通过 \ 来拆分，可是用所以想通过转义 \\ 来拆分的时候会报异常 public class Main { /*
POJ 1035 Spell checker(哈希表) aijuans 暴力求解--哈希表
/* 题意：输入字典，然后输入单词，判断字典中是否出现过该单词，或者是否进行删除、添加、替换操作，如果是，则输出对应的字典中的单词要求按照输入时候的排名输出题解：建立两个哈希表。一个存储字典和输入字典中单词的排名，一个进行最后输出的判重 */ #include <iostream> //#define using namespace std; const int HASH =
通过原型实现javascript Array的去重、最大值和最小值 ayaoxinchao JavaScript array prototype
用原型函数（prototype）可以定义一些很方便的自定义函数，实现各种自定义功能。本次主要是实现了Array的去重、获取最大值和最小值。实现代码如下： <script type="text/javascript"> Array.prototype.unique = function() { var a = {}; var le
UIWebView实现https双向认证请求 bewithme UIWebView https Objective-C
什么是HTTPS双向认证我已在先前的博文 ASIHTTPRequest实现https双向认证请求中有讲述，不理解的读者可以先复习一下。本文是用UIWebView来实现对需要客户端证书验证的服务请求，网上有些文章中有涉及到此内容，但都只言片语，没有讲完全，更没有完整的代码，让人困扰不已。但是此知
NoSQL数据库之Redis数据库管理(Redis高级应用之事务处理、持久化操作、pub_sub、虚拟内存) bijian1013 redis 数据库 NoSQL
3.事务处理 Redis对事务的支持目前不比较简单。Redis只能保证一个client发起的事务中的命令可以连续的执行，而中间不会插入其他client的命令。当一个client在一个连接中发出multi命令时，这个连接会进入一个事务上下文，该连接后续的命令不会立即执行，而是先放到一个队列中，当执行exec命令时，redis会顺序的执行队列中
各数据库分页sql备忘 bingyingao oracle sql 分页
ORACLE 下面这个效率很低 SELECT * FROM ( SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_FS_RETURN order by id desc) A ) WHERE RN <20; 下面这个效率很高 SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_
【Scala七】Scala核心一：函数 bit1129 scala
1. 如果函数体只有一行代码，则可以不用写{},比如 def print(x: Int) = println(x) 一行上的多条语句用分号隔开，则只有第一句属于方法体，例如 def printWithValue(x: Int) : String= println(x); "ABC" 上面的代码报错，因为，printWithValue的方法
了解GHC的factorial编译过程 bookjovi haskell
GHC相对其他主流语言的编译器或解释器还是比较复杂的，一部分原因是haskell本身的设计就不易于实现compiler，如lazy特性，static typed，类型推导等。关于GHC的内部实现有篇文章说的挺好，这里，文中在RTS一节中详细说了haskell的concurrent实现，里面提到了green thread，如果熟悉Go语言的话就会发现，ghc的concurrent实现和Go有点类
Java-Collections Framework学习与总结-LinkedHashMap BrokenDreams LinkedHashMap
前面总结了java.util.HashMap，了解了其内部由散列表实现，每个桶内是一个单向链表。那有没有双向链表的实现呢？双向链表的实现会具备什么特性呢？来看一下HashMap的一个子类——java.util.LinkedHashMap。
读《研磨设计模式》-代码笔记-抽象工厂模式-Abstract Factory bylijinnan abstract
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * Abstract Factory Pattern * 抽象工厂模式的目的是： * 通过在抽象工厂里面定义一组产品接口，方便地切换“产品簇” * 这些接口是相关或者相依赖的
压暗面部高光 cherishLC PS
方法一、压暗高光&重新着色当皮肤很油又使用闪光灯时，很容易在面部形成高光区域。下面讲一下我今天处理高光区域的心得：皮肤可以分为纹理和色彩两个属性。其中纹理主要由亮度通道（Lab模式的L通道）决定，色彩则由a、b通道确定。处理思路为在保持高光区域纹理的情况下，对高光区域着色。具体步骤为：降低高光区域的整体的亮度，再进行着色。如果想简化步骤，可以只进行着色（参看下面的步骤1
Java VisualVM监控远程JVM crabdave visualvm
Java VisualVM监控远程JVM JDK1.6开始自带的VisualVM就是不错的监控工具. 这个工具就在JAVA_HOME\bin\目录下的jvisualvm.exe, 双击这个文件就能看到界面通过JMX连接远程机器, 需要经过下面的配置: 1. 修改远程机器JDK配置文件 (我这里远程机器是linux).
Saiku去掉登录模块 daizj saiku 登录 olap BI
1、修改applicationContext-saiku-webapp.xml <security:intercept-url pattern="/rest/**" access="IS_AUTHENTICATED_ANONYMOUSLY" /> <security:intercept-url pattern=&qu
浅析 Flex中的Focus dsjt html Flex Flash
关键字：focus、 setFocus、 IFocusManager、KeyboardEvent 焦点、设置焦点、获得焦点、键盘事件一、无焦点的困扰——组件监听不到键盘事件原因：只有获得焦点的组件（确切说是InteractiveObject）才能监听到键盘事件的目标阶段；键盘事件（flash.events.KeyboardEvent）参与冒泡阶段，所以焦点组件的父项（以及它爸
Yii全局函数使用 dcj3sjt126com yii
由于YII致力于完美的整合第三方库，它并没有定义任何全局函数。yii中的每一个应用都需要全类别和对象范围。例如，Yii::app()->user;Yii::app()->params['name'];等等。我们可以自行设定全局函数，使得代码看起来更加简洁易用。(原文地址) 我们可以保存在globals.php在protected目录下。然后，在入口脚本index.php的，我们包括在
设计模式之单例模式二（解决无序写入的问题） come_for_dream 单例模式 volatile 乱序执行双重检验锁
在上篇文章中我们使用了双重检验锁的方式避免懒汉式单例模式下由于多线程造成的实例被多次创建的问题，但是因为由于JVM为了使得处理器内部的运算单元能充分利用，处理器可能会对输入代码进行乱序执行（Out Of Order Execute）优化，处理器会在计算之后将乱序执行的结果进行重组，保证该
程序员从初级到高级的蜕变 gcq511120594 框架工作 PHP android html5
软件开发是一个奇怪的行业，市场远远供不应求。这是一个已经存在多年的问题，而且随着时间的流逝，愈演愈烈。我们严重缺乏能够满足需求的人才。这个行业相当年轻。大多数软件项目是失败的。几乎所有的项目都会超出预算。我们解决问题的最佳指导方针可以归结为——“用一些通用方法去解决问题，当然这些方法常常不管用，于是，唯一能做的就是不断地尝试，逐个看看是否奏效”。现在我们把淫浸代码时间超过3年的开发人员称为
Reverse Linked List hcx2013 list
Reverse a singly linked list. /** * Definition for singly-linked list. * public class ListNode { * int val; * ListNode next; * ListNode(int x) { val = x; } * } */ p
Spring4.1新特性——数据库集成测试 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
C# Ajax上传图片同时生成微缩图(附Demo) liyonghui160com
1.Ajax无刷新上传图片,详情请阅我的这篇文章。（jquery + c# ashx） 2.C#位图处理 System.Drawing。 3.最新demo支持IE7,IE8,Fir
Java list三种遍历方法性能比较 pda158 java
从c/c++语言转向java开发，学习java语言list遍历的三种方法，顺便测试各种遍历方法的性能，测试方法为在ArrayList中插入1千万条记录，然后遍历ArrayList，发现了一个奇怪的现象，测试代码例如以下： package com.hisense.tiger.list; import java.util.ArrayList; import java.util.Iterator;
300个涵盖IT各方面的免费资源（上）——商业与市场篇 shoothao seo 商业与市场 IT资源免费资源
A.网站模板+logo+服务器主机+发票生成 HTML5 UP:响应式的HTML5和CSS3网站模板。 Bootswatch:免费的Bootstrap主题。 Templated:收集了845个免费的CSS和HTML5网站模板。 Wordpress.org|Wordpress.com:可免费创建你的新网站。 Strikingly:关注领域中免费无限的移动优
localStorage、sessionStorage uule localStorage
W3School 例子 HTML5 提供了两种在客户端存储数据的新方法： localStorage - 没有时间限制的数据存储 sessionStorage - 针对一个 session 的数据存储之前，这些都是由 cookie 完成的。但是 cookie 不适合大量数据的存储，因为它们由每个对服务器的请求来传递，这使得 cookie 速度很慢而且效率也不

数据科学的原理与技巧 四、数据清理

四、数据清理

调查伯克利警察数据

理解数据生成

清理呼叫数据集

是否存在缺失值？

有没有已填充的缺失值？

数据的哪些部分是由人类输入的？

最后的接触

清理截停数据集

是否存在缺失值？

有没有已填写的缺失值？

数据的哪些部分是由人类输入的？

总结

你可能感兴趣的:(数据科学)

数据科学的原理与技巧四、数据清理