夜景黑色调

利用python进行数据分析第二版学习笔记

行话：

数据规整（Munge/Munging/Wrangling）指的是将非结构化和（或）散乱数据处理为结构化或整洁形式的整个过程。这几个词已经悄悄成为当今数据黑客们的行话了。Munge这个词跟Lunge押韵。
伪码（Pseudocode）算法或过程的“代码式”描述，而这些代码本身并不是实际有效的源代码。
语法糖（Syntactic sugar）这是一种编程语法，它并不会带来新的特性，但却能使代码更易读、更易写。

Python的对象通常都有属性（其它存储在对象内部的Python对象）和方法（对象的附属函数可以访问对象的内部数据）。可以用 obj.attribute_name 访问属性和方法：

你可以用continue使for循环提前，跳过剩下的部分。看下面这个例子，将一个列表中的整数相加，跳过None：

sequence = [1, 2, None, 4, None, 5]
total = 0
for value in sequence:
if value is None:
continue
total += value

可以用 break 跳出for循环。下面的代码将各元素相加，直到遇到5：

sequence = [1, 2, 0, 4, 6, 5, 2, 1]
total_until_5 = 0
for value in sequence:
if value == 5:
break
total_until_5 += value

break只中断for循环的最内层，其余的for循环仍会运行：

While循环

while循环指定了条件和代码，当条件为False或用break退出循环，代码才会退出：

三元表达式

Python中的三元表达式可以将if-else语句放到一行里。语法如下：

value = true-expr if condition else false-expr

和if-else一样，只有一个表达式会被执行。因此，三元表达式中的if和else可以包含大量的计算，但只有True的分支会被执行。因此，三元表达式中的if和else可以包含大量的计算，但只有True的分支会被执行。

虽然使用三元表达式可以压缩代码，但会降低代码可读性。

第 3 章 Python 的数据结构、函数和文件

数据的结构和序列

元组，列表，字典，集合
用tuple可以将任意序列或迭代器转换成元组：

In [1]: tuple([4,0.2])
Out[1]: (4, 0.2)

In [2]: tuple(["string"])
Out[2]: ('string',)

In [3]: tuple("string")
Out[3]: ('s', 't', 'r', 'i', 'n', 'g')

拆分元组

如果你想将元组赋值给类似元组的变量，Python会试图拆分等号右边的值：
使用这个功能，你可以很容易地替换变量的名字，其它语言可能是这样：

tmp = a
a = b
b = tmp

In [4]: a,b = 1,2

In [5]: a
Out[5]: 1

In [6]: b
Out[6]: 2

In [7]: b,a = a,b

In [8]: a
Out[8]: 2

In [9]: b
Out[9]: 1

变量拆分常用来迭代元组或列表序列：

In [10]: seq = [(1, 2, 3), (4, 5, 6), (7, 8, 9)]

In [11]: for a, b, c in seq:
    ...:     print('a={0}, b={1}, c={2}'.format(a, b, c))
    ...:
a=1, b=2, c=3
a=4, b=5, c=6
a=7, b=8, c=9

另一个常见用法是从函数返回多个值。后面会详解。
Python最近新增了更多高级的元组拆分功能，允许从元组的开头“摘取”几个元素。它使用了特殊的语法 *rest ，这也用在函数签名中以抓取任意长度列表的位置参数：

In [29]: values = 1, 2, 3, 4, 5
In [30]: a, b, *rest = values
In [31]: a, b
Out[31]: (1, 2)
In [32]: rest
Out[32]: [3, 4, 5]

rest 的部分是想要舍弃的部分，rest的名字不重要。作为惯用写法，许多Python
程序员会将不需要的变量使用下划线：

In [33]: a, b, *_ = values

tuple方法：
因为元组的大小和内容不能修改，它的实例方法都很轻量。其中一个很有用的就是 count （也适用于列表），它可以统计某个值得出现频率：

In [34]: a = (1, 2, 2, 2, 3, 4, 2)
In [35]: a.count(2)
Out[35]: 4

列表

可以用append在列表末尾添加元素

In [45]: b_list.append('dwarf')
In [46]: b_list
Out[46]: ['foo', 'peekaboo', 'baz', 'dwarf']

在列表中检查是否存在某个值远比字典和集合速度慢，因为Python是线性搜索列表中的值，但在字典和集合中，在同样的时间内还可以检查其它项（基于哈希表）。

排序

你可以用 sort 函数将一个列表原地排序（不创建新的对象）：

In [61]: a = [7, 2, 5, 1, 3]
In [62]: a.sort()
In [63]: a
Out[63]: [1, 2, 3, 5, 7]

另还有二级排序key

一个聪明的方法是使用 -1 ，它可以将列表或元组颠倒过来：

In [82]: seq[::-1]
Out[82]: [1, 0, 6, 5, 3, 6, 3, 2, 7]

序列函数

Python有一些有用的序列函数。
enumerate函数
迭代一个序列时，你可能想跟踪当前项的序号

for i, value in enumerate(collection):
# do something with value

sorted函数
sorted 函数可以从任意序列的元素返回一个新的排好序的列表：

In [87]: sorted([7, 1, 2, 6, 0, 3, 2])
Out[87]: [0, 1, 2, 2, 3, 6, 7]
In [88]: sorted('horse race')
Out[88]: [' ', 'a', 'c', 'e', 'e', 'h', 'o', 'r', 'r', 's']

zip函数
zip 可以将多个列表、元组或其它序列成对组合成一个元组列表：

In [89]: seq1 = ['foo', 'bar', 'baz']
In [90]: seq2 = ['one', 'two', 'three']
In [91]: zipped = zip(seq1, seq2)
In [92]: list(zipped)
Out[92]: [('foo', 'one'), ('bar', 'two'), ('baz', 'three')]

zip 可以处理任意多的序列，元素的个数取决于最短的序列：

In [93]: seq3 = [False, True]
In [94]: list(zip(seq1, seq2, seq3))
Out[94]: [('foo', 'one', False), ('bar', 'two', True)]

zip 的常见用法之一是同时迭代多个序列，可能结合 enumerate 使用：

In [95]: for i, (a, b) in enumerate(zip(seq1, seq2)):
....: print('{0}: {1}, {2}'.format(i, a, b))
....:
0: foo, one
1: bar, two
2: baz, three

给出一个“被压缩的”序列， zip 可以被用来解压序列。也可以当作把行的列表转换
为列的列表。这个方法看起来有点神奇：

In [96]: pitchers = [('Nolan', 'Ryan'), ('Roger', 'Clemens'),
....: ('Schilling', 'Curt')]
In [97]: first_names, last_names = zip(*pitchers)
In [98]: first_names
Out[98]: ('Nolan', 'Roger', 'Schilling')
In [99]: last_names
Out[99]: ('Ryan', 'Clemens', 'Curt')

reversed函数
reversed 可以从后向前迭代一个序列：

In [100]: list(reversed(range(10)))
Out[100]: [9, 8, 7, 6, 5, 4, 3, 2, 1, 0]

要记住 reversed 是一个生成器（后面详细介绍），只有实体化（即列表或for循环）之后才能创建翻转的序列。

字典

字典可能是Python最为重要的数据结构。它更为常见的名字是哈希映射或关联数组。它是键值对的大小可变集合，键和值都是Python对象。创建字典的方法之一是使用尖括号，用冒号分隔键和值：
默认值
下面的逻辑很常见：

if key in some_dict:
value = some_dict[key]
else:
value = default_value

因此，dict的方法get和pop可以取默认值进行返回，上面的if-else语句可以简写成下面

value = some_dict.get(key, default_value)

get默认会返回None，如果不存在键，pop会抛出一个例外。关于设定值，常见的情况是在字典的值是属于其它集合，如列表。例如，你可以通过首字母，将一个列表中的单词分类：

In [123]: words = ['apple', 'bat', 'bar', 'atom', 'book']
In [124]: by_letter = {
     }
In [125]: for word in words:
.....: letter = word[0]
.....: if letter not in by_letter:
.....: by_letter[letter] = [word]
.....: else:
.....: by_letter[letter].append(word)
.....:
In [126]: by_letter
Out[126]: {
     'a': ['apple', 'atom'], 'b': ['bat', 'bar', 'book']}

setdefault 方法就正是干这个的。前面的for循环可以改写为：

for word in words:
letter = word[0]
by_letter.setdefault(letter, []).append(word)

collections 模块有一个很有用的类， defaultdict ，它可以进一步简化上面。传递类型或函数以生成每个位置的默认值：

from collections import defaultdict
by_letter = defaultdict(list)
for word in words:
by_letter[word[0]].append(word)

有效的键类型
字典的值可以是任意Python对象，而键通常是不可变的标量类型（整数、浮点型、字符串）或元组（元组中的对象必须是不可变的）。这被称为“可哈希性”。可以用 hash 函数检测一个对象是否是可哈希的（可被用作字典的键）：

In [127]: hash('string')
Out[127]: 5023931463650008331
In [128]: hash((1, 2, (2, 3)))
Out[128]: 1097636502276347782
In [129]: hash((1, 2, [2, 3])) # fails because lists are mutable
----------------------------------------------------------------
-----------
TypeError Traceback (most recent
call last)
<ipython-input-129-800cd14ba8be> in <module>()
----> 1 hash((1, 2, [2, 3])) # fails because lists are mutable
TypeError: unhashable type: 'list'

要用列表当做键，一种方法是将列表转化为元组，只要内部元素可以被哈希，它也
就可以被哈希：

In [130]: d = {
     }
In [131]: d[tuple([1, 2, 3])] = 5
In [132]: d
Out[132]: {
     (1, 2, 3): 5}

列表、集合和字典推导式
列表推导式是Python最受喜爱的特性之一。它允许用户方便的从一个集合过滤元素，形成列表，在传递参数的过程中还可以修改元素。形式如下：

[expr for val in collection if condition]

In [154]: strings = ['a', 'as', 'bat', 'car', 'dove', 'python']
In [155]: [x.upper() for x in strings if len(x) > 2]
Out[155]: ['BAT', 'CAR', 'DOVE', 'PYTHON']

用相似的方法，还可以推导集合和字典。字典的推导式如下所示：

dict_comp = {
     key-expr : value-expr for value in collection if condition}

集合的推导式与列表很像，只不过用的是尖括号：

set_comp = {
     expr for value in collection if condition}

与列表推导式类似，集合与字典的推导也很方便，而且使代码的读写都很容易。来看前面的字符串列表。假如我们只想要字符串的长度，用集合推导式的方法非常方便：

In [156]: unique_lengths = {
     len(x) for x in strings}
In [157]: unique_lengths
Out[157]: {
     1, 2, 3, 4, 6}

map 函数可以进一步简化：

In [158]: set(map(len, strings))
Out[158]: {
     1, 2, 3, 4, 6}

函数

def my_function(x, y, z=1.5): # x,y:位置参数，z：关键字参数（关键字参数通常用于指定默认值或可选参数）
	if z > 1:
		return z * (x + y)
	else:
		return z / (x + y)

生成器

能以一种一致的方式对序列进行迭代（比如列表中的对象或文件中的行）是Python的一个重要特点。这是通过一种叫做迭代器协议（iterator protocol，它是一种使对象可迭代的通用方式）的方式实现的，一个原生的使对象可迭代的方法。比如说，对字典进行迭代可以得到其所有的键：

In [180]: some_dict = {
     'a': 1, 'b': 2, 'c': 3}
In [181]: for key in some_dict:
.....: print(key)
a
b
c

迭代器是一种特殊对象，它可以在诸如for循环之类的上下文中向Python解释器输送对象。大部分能接受列表之类的对象的方法也都可以接受任何可迭代对象。比如min、max、sum等内置方法以及list、tuple等类型构造器：

In [182]: dict_iterator = iter(some_dict)
In [183]: dict_iterator
Out[183]: <dict_keyiterator at 0x7fbbd5a9f908>

In [184]: list(dict_iterator)
Out[184]: ['a', 'b', 'c']

生成器（generator）是构造新的可迭代对象的一种简单方式。一般的函数执行之后只会返回单个值，而生成器则是以延迟的方式返回一个值序列，即每返回一个值之后暂停，直到下一个值被请求时再继续。要创建一个生成器，只需将函数中的return替换为yeild即可：

def squares(n=10):
print('Generating squares from 1 to {0}'.format(n ** 2))
for i in range(1, n + 1):
yield i ** 2

调用该生成器时，没有任何代码会被立即执行：

In [186]: gen = squares()
In [187]: gen
Out[187]: <generator object squares at 0x7fbbd5ab4570>

直到你从该生成器中请求元素时，它才会开始执行其代码：

In [188]: for x in gen:
.....: print(x, end=' ')
Generating squares from 1 to 100
1 4 9 16 25 36 49 64 81 100

生成器表达式

另一种更简洁的构造生成器的方法是使用生成器表达式（generator expression）。这是一种类似于列表、字典、集合推导式的生成器。其创建方式为，把列表推导式两端的方括号改成圆括号：

In [189]: gen = (x ** 2 for x in range(100))
In [190]: gen
Out[190]: <generator object <genexpr> at 0x7fbbd5ab29e8>

它跟下面这个冗长得多的生成器是完全等价的：

def _make_gen():
for x in range(100):
yield x ** 2
gen = _make_gen()

生成器表达式也可以取代列表推导式，作为函数参数：

In [191]: sum(x ** 2 for x in range(100))
Out[191]: 328350
In [192]: dict((i, i **2) for i in range(5))
Out[192]: {
     0: 0, 1: 1, 2: 4, 3: 9, 4: 16}

itertools模块

标准库itertools模块中有一组用于许多常见数据算法的生成器。例如，groupby可以接受任何序列和一个函数。它根据函数的返回值对序列中的连续元素进行分组。下面是一个例子：

In [193]: import itertools
In [194]: first_letter = lambda x: x[0]
In [195]: names = ['Alan', 'Adam', 'Wes', 'Will', 'Albert', 'Ste
ven']
In [196]: for letter, names in itertools.groupby(names, first_le
tter):
.....: print(letter, list(names)) # names is a generator
A ['Alan', 'Adam']
W ['Wes', 'Will']
A ['Albert']
S ['Steven']

错误和异常处理

f = open(path, 'w')
try:
write_to_file(f)
except:
print('Failed')
else:
print('Succeeded')
finally:
f.close()

文件和操作系统

默认情况下，文件是以只读模式（‘r’）打开的

In [207]: path = 'examples/segismundo.txt'
In [208]: f = open(path)
In [209]: lines = [x.rstrip() for x in open(path)]
In [211]: f.close()

用with语句可以可以更容易地清理打开的文件：

In [212]: with open(path) as f:
.....: lines = [x.rstrip() for x in f]

这样可以在退出代码块时，自动关闭文件。
如果输入f =open(path,‘w’)，就会有一个新文件被创建在examples/segismundo.txt，并覆盖掉该位置原来的任何数据。另外有一个x文件模
式，它可以创建可写的文件，但是如果文件路径存在，就无法创建。表3-3列出了所有的读/写模式。

Numpy基础：数组和矢量计算

对于大部分数据分析应用而言，我最关注的功能主要集中在：
1）用于数据整理和清理、子集构造和过滤、转换等快速的矢量化数组运算；
2）常用的数组算法，如排序、唯一化、集合运算等；
3）高效的描述统计和数据聚合/摘要运算；
4）用于异构数据集的合并/连接运算的数据对齐和关系型数据运算；
5）将条件逻辑表述为数组表达式（而不是带有if-elif-else分支的循环）；
6）数据的分组运算（聚合、转换、函数应用等）。
NumPy之于数值计算特别重要的原因之一，是因为它可以高效处理大数组的数据。这是因为：
1）NumPy是在一个连续的内存块中存储数据，独立于其他Python内置对象。NumPy的C语言编写的算法库可以操作内存，而不必进行类型检查或其它前期工作。比起Python的内置序列，NumPy数组使用的内存少；
2）NumPy可以在整个数组上执行复杂的计算，而不需要Python的for循环。

要搞明白具体的性能差距，考察一个包含一百万整数的数组，和一个等价的Python列表：

In [7]: import numpy as np
In [8]: my_arr = np.arange(1000000)
In [9]: my_list = list(range(1000000))

各个序列分别乘以2：

In [10]: %time for _ in range(10): my_arr2 = my_arr * 2
CPU times: user 20 ms, sys: 50 ms, total: 70 ms
Wall time: 72.4 ms
In [11]: %time for _ in range(10): my_list2 = [x * 2 for x in my
_list]
CPU times: user 760 ms, sys: 290 ms, total: 1.05 s
Wall time: 1.05 s

基于NumPy的算法要比纯Python快10到100倍（甚至更快），并且使用的内存更少。

NumPy最重要的一个特点就是其N维数组对象（即ndarray），该对象是一个快速而灵活的大数据集容器。你可以利用这种数组对整块数据执行一些数学运算，其语法跟标量元素之间的运算一样。

笔记：当你在本书中看到“数组”、“NumPy数组”、"ndarray"时，基本上都指的是同一样东西，即ndarray对象

ndarray是一个通用的同构数据多维容器，也就是说，其中的所有元素必须是相同类型的。每个数组都有一个shape（一个表示各维度大小的元组）和一个dtype（一个用于说明数组数据类型的对象）：

In [17]: data.shape
Out[17]: (2, 3)
In [18]: data.dtype
Out[18]: dtype('float64')

创建数组最简单的办法就是使用array函数。它接受一切序列型的对象（包括其他数组），然后产生一个新的含有传入数据的NumPy数组。以一个列表的转换为例：

In [19]: data1 = [6, 7.5, 8, 0, 1]
In [20]: arr1 = np.array(data1)
In [21]: arr1
Out[21]: array([ 6. , 7.5, 8. , 0. , 1. ])

arange是Python内置函数range的数组版

In [32]: np.arange(15)
Out[32]: array([ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11,
12, 13, 14])

表4-1列出了一些数组创建函数。由于NumPy关注的是数值计算，因此，如果没有特别指定，数据类型基本都是float64（浮点数）。

NumPy数组的运算

数组很重要，因为它使你不用编写循环即可对数据执行批量运算。NumPy用户称其为矢量化（vectorization）。大小相等的数组之间的任何算术运算都会将运算应用到元素级：
不同大小的数组之间的运算叫做广播（broadcasting）

如上所示，当你将一个标量值赋值给一个切片时（如arr[5:8]=12），该值会自动传播（也就说后面将会讲到的“广播”）到整个选区。跟列表最重要的区别在于，数组切片是原始数组的视图。这意味着数据不会被复制，视图上的任何修改都会直接反映到源数组上。

如果你刚开始接触NumPy，可能会对此感到惊讶（尤其是当你曾经用过其他热衷于复制数组数据的编程语言）。由于NumPy的设计目的处理大数据，所以你可以想象一下，假如NumPy坚持要将数据复制来复制去的话会产生何等的性能和内存问题。

注意：如果你想要得到的是ndarray切片的一份副本而非视图，就需要明确地进行复制操作，例如 arr[5:8].copy()

图4-1说明了二维数组的索引方式。轴0作为行，轴1作为列。

利用数组进行数据处理

NumPy数组使你可以将许多种数据处理任务表述为简洁的数组表达式（否则需要编写循环）。用数组表达式代替循环的做法，通常被称为矢量化。一般来说，矢量化数组运算要比等价的纯Python方式快上一两个数量级（甚至更多），尤其是各种数值计算。在后面内容中（见附录A）我将介绍广播，这是一种针对矢量化计算的强大手段。

Pandas入门

要使用pandas，你首先就得熟悉它的两个主要数据结构：Series和DataFrame。虽然它们并不能解决所有问题，但它们为大多数应用提供了一种可靠的、易于使用的基础。

Series

Series是一种类似于一维数组的对象，它由一组数据（各种NumPy数据类型）以及一组与之相关的数据标签（即索引）组成。仅由一组数据即可产生最简单的Series：

In [11]: obj = pd.Series([4, 7, -5, 3])
In [12]: obj
Out[12]:
0 4
1 7
2 -5
3 3
dtype: int64

Series的字符串表现形式为：索引在左边，值在右边。由于我们没有为数据指定索引，于是会自动创建一个0到N-1（N为数据的长度）的整数型索引。你可以通过Series 的values和index属性获取其数组表示形式和索引对象

通常，我们希望所创建的Series带有一个可以对各个数据点进行标记的索引：

In [15]: obj2 = pd.Series([4, 7, -5, 3], index=['d', 'b', 'a', '
c'])
In [16]: obj2
Out[16]:
d 4
b 7
a -5
c 3
dtype: int64
In [17]: obj2.index
Out[17]: Index(['d', 'b', 'a', 'c'], dtype='object')

还可以将Series看成是一个定长的有序字典，因为它是索引值到数据值的一个映射。它可以用在许多原本需要字典参数的函数中：

In [24]: 'b' in obj2
Out[24]: True
In [25]: 'e' in obj2
Out[25]: False

对于许多应用而言，Series最重要的一个功能是，它会根据运算的索引标签自动对齐数据：

DataFrame

DataFrame是一个表格型的数据结构，它含有一组有序的列，每列可以是不同的值类型（数值、字符串、布尔值等）。DataFrame既有行索引也有列索引，它可以被看做由Series组成的字典（共用同一个索引）。DataFrame中的数据是以一个或多个二维块存放的（而不是列表、字典或别的一维数据结构）。有关DataFrame内部的技术细节远远超出了本书所讨论的范围

建DataFrame的办法有很多，最常用的一种是直接传入一个由等长列表或NumPy数组组成的字典：

通过类似字典标记的方式或属性的方式，可以将DataFrame的列获取为一个Series：

In [51]: frame2['state']
Out[51]:
one Ohio
two Ohio
three Ohio
four Nevada
five Nevada
six Nevada
Name: state, dtype: object

In [52]: frame2.year
Out[52]:
one 2000
two 2001
three 2002
four 2001
five 2002
six 2003
Name: year, dtype: int64

基本功能

重新索引

pandas对象的一个重要方法是reindex，其作用是创建一个新对象，它的数据符合新的索引

借助DataFrame，reindex可以修改（行）索引和列。只传递一个序列时，会重新索引结果的行：

In [98]: frame = pd.DataFrame(np.arange(9).reshape((3, 3)),
....: index=['a', 'c', 'd'],
....: columns=['Ohio', 'Texas', 'Califor
nia'])
In [99]: frame
Out[99]:
Ohio Texas California
a 0 1 2
c 3 4 5
d 6 7 8
In [100]: frame2 = frame.reindex(['a', 'b', 'c', 'd'])
In [101]: frame2
Out[101]:
Ohio Texas California
a 0.0 1.0 2.0
b NaN NaN NaN
c 3.0 4.0 5.0
d 6.0 7.0 8.0

列可以用columns关键字重新索引：

In [102]: states = ['Texas', 'Utah', 'California']
In [103]: frame.reindex(columns=states)
Out[103]:
Texas Utah California
a 1 NaN 2
c 4 NaN 5
d 7 NaN 8

丢弃指定轴上的项
丢弃某条轴上的一个或多个项很简单，只要有一个索引数组或列表即可。由于需要执行一些数据整理和集合逻辑，所以drop方法返回的是一个在指定轴上删除了指定值的新对象：

对于DataFrame，可以删除任意轴上的索引值。为了演示，先新建一个DataFrame例子：

In [110]: data = pd.DataFrame(np.arange(16).reshape((4, 4)),
.....: index=['Ohio', 'Colorado', 'Utah',
'New York'],
.....: columns=['one', 'two', 'three', 'f
our'])
In [111]: data
Out[111]:
one two three four
Ohio 0 1 2 3
Colorado 4 5 6 7
Utah 8 9 10 11
New York 12 13 14 15

用标签序列调用drop会从行标签（axis 0）删除值：

通过传递axis=1或axis='columns’可以删除列的值：

许多函数，如drop，会修改Series或DataFrame的大小或形状，可以就地修改对象，不会返回新的对象：

In [115]: obj.drop('c', inplace=True)
In [116]: obj
Out[116]:
a 0.0
b 1.0
d 3.0
e 4.0
dtype: float64

小心使用inplace，它会销毁所有被删除的数据。

索引、选取和过滤

Series索引（obj[…]）的工作方式类似于NumPy数组的索引，只不过Series的索引值不只是整数。下面是几个例子：

In [117]: obj = pd.Series(np.arange(4.), index=['a', 'b', 'c', 'd'])
In [118]: obj
Out[118]:
a 0.0
b 1.0
c 2.0
d 3.0

**需要注意点的是：**利用标签的切片运算与普通的Python切片运算不同，其末端是包含的：

In [125]: obj['b':'c']
Out[125]:
b 1.0
c 2.0
dtype: float64

用切片可以对Series的相应部分进行设置：

In [126]: obj['b':'c'] = 5
In [127]: obj
Out[127]:
a 0.0
b 5.0
c 5.0
d 3.0
dtype: float64

用一个值或序列对DataFrame进行索引其实就是获取一个或多个列：

In [128]: data = pd.DataFrame(np.arange(16).reshape((4, 4)),
.....: index=['Ohio', 'Colorado', 'Utah','New York'],
.....: columns=['one', 'two', 'three', 'four'])
In [129]: data
Out[129]:
one two three four
Ohio 0 1 2 3
Colorado 4 5 6 7
Utah 8 9 10 11
New York 12 13 14 15
In [130]: data['two']
Out[130]:
Ohio 1
Colorado 5
Utah 9
New York 13
Name: two, dtype: int64
In [131]: data[['three', 'one']]
Out[131]:
three one
Ohio 2 0
Colorado 6 4
Utah 10 8
New York 14 12

In [132]: data[:2]
Out[132]:
one two three four
Ohio 0 1 2 3
Colorado 4 5 6 7
In [133]: data[data['three'] > 5]
Out[133]:
one two three four
Colorado 4 5 6 7
Utah 8 9 10 11
New York 12 13 14 15

用loc和iloc进行选取
对于DataFrame的行的标签索引，我引入了特殊的标签运算符loc和iloc。它们可以让你用类似NumPy的标记，使用轴标签（loc）或整数索引（iloc），从DataFrame选择行和列的子集。

你可能感兴趣的:(数据分析与挖掘建模实战,python)

华为OD机试E卷 --字符串化繁为简 --24年OD统一考试（Java & JS & Python & C & C++）飞码创造者最新华为OD机试题库2024 华为od java javascript c语言 python
文章目录题目描述输入描述输出描述用例题目解析JS算法源码Java算法源码python算法源码c++算法源码题目描述给定一个输入字符串，字符串只可能由英文字母(az、AZ)和左右小括号(、)组成当字符里存在小括号时，小括号是成对的，可以有一个或多个小括号对，小括号对不会嵌套，小括号对内可以包含1个或多个英文字母也可以不包含英文字母。当小括号对内包含多个英文字母时，这些字母之间是相互等效的关系，而且等
Python数据分析之共享单车及建模探索(CLV建模、可视化) weixin_46205203 笔记 python 数据分析数据建模
Python数据分析之共享单车及建模探索(CLV建模、可视化)开发环境4.3【开发平台及环境】Windons10教育版Python3.7IntelliJIDEA2018.2.1/PyCharmGoogeChrome数据清洗分析模块pandas，numpy可视化模块matplotlib上期原创：Python数据分析之智联招聘职位分析完整项目（数据爬取,数据分析,数据可视化）链接:https://bl
python中!ls -r_光学现象的Python实现 weixin_39838798 python中!ls -r
“Youwillseelightinthedarkness。Youwillmakesomesenseofthis.”“你终将于黑暗中触摸白昼，它将如影般随行。”如果说20世纪是电子的世界，那么21世纪就是光学的舞台。光学和光子学无处不在：智能手机和计算设备上的显示方式，互联网中承载信息的光纤，先进的精密制造，大量的生物医学应用终端，全光衍射神经网络等。对光学的深入理解为每一个学习物理和工程的同学带
xgboost在spark集群使用指南一颗小草333 算法 mapreduce spark 数据挖掘
简介XGBoost是一个优化的分布式梯度增强库，具有高效、灵活和可移植性。在梯度增强框架下实现了机器学习算法。XGBoost提供了一种并行树增强(也称为GBDT、GBM)，可以快速、准确地解决许多数据科学问题。相同的代码在主要的分布式环境(Hadoop、SGE、MPI)上运行，可以解决数十亿个示例的训练问题。xgb相对于gbt所做的改进：1.2.3.XGBoost可以使用R、python、java
python实战项目27：boss直聘招聘数据可视化分析 wp_tao Python副业接单实战项目信息可视化 python 数据分析
boss直聘招聘数据可视化分析一、数据预处理二、数据可视化三、完整代码一、数据预处理在上一篇博客中，笔者已经详细介绍了使用selenium爬取南昌市web前端工程师的招聘岗位数据，数据格式如下：这里主要对薪水列进行处理，为方便处理，将日薪和周薪的数据删除，将带有13薪和14薪的数据也删除，计算出最低薪资、最高薪资和平均薪资三列。数据预处理代码如下：importpandasaspddf=pd.rea
Python 3 中使用 SMTP 发送邮件：高级技巧与应用三带俩王 python 网络服务器
在现代的软件开发和自动化流程中，发送电子邮件是一项常见的任务。Python3提供了强大的工具来实现这一功能，特别是通过使用SMTP（SimpleMailTransferProtocol）协议。本文将深入探讨Python3中使用SMTP发送邮件的高级用法，展示其在不同场景下的灵活性和强大功能。一、SMTP简介SMTP是一种用于发送电子邮件的协议。它允许客户端（如Python程序）与邮件服务器进行通信
Python 在股票分析中的高级应用：挖掘金融数据的深度洞察三带俩王 python 金融开发语言
在当今的金融世界中，股票分析是投资者和金融从业者必备的技能。Python作为一种强大且灵活的编程语言，为股票分析提供了丰富的工具和技术。本文将深入探讨使用Python进行股票分析的高级用法，涵盖从数据获取与清洗、高级分析指标计算到机器学习和深度学习在股票分析中的应用等多个方面。一、数据获取与预处理：构建坚实的分析基础1.数据来源与获取直接从证券交易所获取数据：许多证券交易所提供了数据接口，例如，上
Python 中的complex(real[, imag])函数：高级用法与强大功能三带俩王 python 开发语言算法
在Python中，complex(real[,imag])函数是一个用于创建复数的强大工具。复数在数学、物理学、工程学等领域中有着广泛的应用，而Python的complex类型为我们提供了便捷的方式来处理复数。本文将深入探讨complex(real[,imag])函数的高级用法，展示其在不同场景下的强大功能。一、复数的基本概念复数是由实数和虚数组成的数，通常表示为a+bj的形式，其中a和b是实数，
DTD - XML 构建模块 kekexi1i xml 算法
XML和HTML文档的主要的构建模块是元素标签。XML文档构建模块所有的XML文档（以及HTML文档）均由以下简单的构建模块构成：元素属性实体PCDATACDATA元素元素是XML以及HTML文档的主要构建模块。HTML元素的例子是"body"和"table"。XML元素的例子是"note"和"message"。元素可包含文本、其他元素或者是空的。空的HTML元素的例子是"hr"、"br"以及"i
C#面试题（初级篇），详细讲解，帮助你深刻理解，拒绝背话术！ Dr.勿忘 C#游戏开发面试 c#游戏引擎 unity 面试开发语言
拒绝背话术，帮助你深刻理解其原理，真正做到实战时游刃有余！适用于Unity游戏开发、C#语言相关面试等相关学习。此为C#初级篇，不久将更新后续篇目。1.const和readonly有什么区别？1、初始化位置不同。const必须在声明的同时赋值；readonly即可以在声明处赋值，也可以构造⽅法⾥赋值。2、修饰对象不同。const可以修饰类的字段，也可以修饰局部变量；readonly只能修饰类的字段
python 利用 ddddocr包 ocr识别图片码风_流沙 python工具备忘录 python ocr 开发语言
ddddocr是一个轻量级的OCR（光学字符识别）库，适用于识别图片中的文字，包括验证码等图像文本。要使用ddddocr进行图片验证码的识别，可以按照以下步骤进行：1.安装ddddocr包首先，你需要安装ddddocr包。你可以使用pip安装：pipinstallddddocr2.使用ddddocr进行OCR识别importddddocr#创建OCR对象ocr=ddddocr.DdddOcr()#
计算机毕业设计之基于PythonBOSS直聘招聘数据可视化系统的设计与实现 wx—bishe58 信息可视化数据分析数据挖掘 rnn 人工智能课程设计 python
本文主要介绍了基于PythonBOSS直聘招聘数据可视化系统的设计与实现。随着互联网的普及，BOSS直聘招聘网站成为了企业和求职者的重要交流平台。然而，大量的招聘信息给用户带来了信息过载的问题。为了解决这一问题，本文提出了一种基于PythonBOSS直聘招聘数据可视化系统的设计与实现方法。首先，本文采用爬虫技术收集了拉勾BOSS直聘招聘网站上的大量招聘信息。然后，利用爬虫优化算法对爬取到的数据进行
Python 中的异常处理：try except Exception as e 三带俩王 python
在Python编程中，异常处理是一项至关重要的技能，它可以帮助我们提高程序的稳定性和可靠性。其中，tryexceptExceptionase语句是一种常见的异常处理方式。在这篇博客中，我们将深入探讨这个语句的要点和高级用法。一、异常处理的重要性在编程过程中，错误是不可避免的。这些错误可能是由于用户输入错误、文件不存在、网络连接问题等原因引起的。如果我们不处理这些错误，程序可能会崩溃，导致数据丢失或
python中的CSV模块一粒微尘_1 Python基础 python 开发语言后端
1、查询CSV模块中都有哪些函数和功能？①通过dir()函数查询CSV模块都有哪些函数importcsvforiindir(csv):print(i)②搜索CSV模块的官方教程’https://docs.python.org/3.6/library/csv.html‘③搜索中文教材’https://yiyibooks.cn/xx/python_352/library/csv.html#module
python爱心代码高级 youyouxiong python 开发语言
在Python中，绘制爱心图案可以通过多种方式实现，包括使用turtle模块、matplotlib库或者PIL库。以下是一些使用这些库绘制爱心的高级方法：使用turtle模块绘制动画爱心importturtleimportmathdefdraw_heart(t,size):""“绘制爱心的函数”""t.begin_fill()a=2*math.pit.circle(size,a/2)t.circl
Python李峋同款跳动的爱心代码（可写字版）雪碧没气阿 python 数据库开发语言 ide webstorm 爬虫
一年前小编曾用python编写过跳动的爱心代码，不知道有多少小伙伴们已经学会了呢，最近小编在用c语言和java编写跳动的爱心的时候，发现之前用python编写跳动的爱心时没有添加文字，这不，小编立马翻出之前的代码一顿操作，给大家带来了更新后的爱心，快来看看趴~（附详细分析哦）环境PythonPyCharm跳动的爱心运行结果完整程序importtkinterastkimporttkinter.mes
Apache Airflow 2.1.2：开源工作流管理系统的全面指南銀河鐵道的企鵝
本文还有配套的精品资源，点击获取简介：ApacheAirflow2.1.2是一个开源的工作流管理系统，用于编排、调度和监控复杂的业务逻辑。它基于DAG（有向无环图）概念，通过Python代码定义任务的Operator，定义任务的执行顺序和条件。该版本提供了任务调度、监控、错误处理、插件扩展和多环境管理等核心功能。解压后包含许可证文件、文档和源代码目录等，且介绍了安装和运行步骤。Airflow适用于
python无法启动此程序因为_(python shell怎么用)为啥我按照python安装教程，总说无法启动此程序，因为计算机中丢失？... weixin_39540023 python无法启动此程序因为
python3.8遍历整个列表？你打印的是colorprint(color)不对应该是magician为啥我按照python安装教程，总说无法启动此程序，因为计算机中丢失？这是你windows操作文件丢失的，和python无关。首先去网上搜索下载api-ms-win-crt-process-l1-1-0.dll文件载完毕后，把dll文件放到C:\Windows\System32下即可。如果下载的d
举例说明Python的CSV模块 weixin_30556161 python
举例说明Python的CSV模块byGaryJia—上次修改时间:2007-11-3017:28文章标签pythonzope举几个例子来介绍一下，Python的CSV模块的使用方法，包括，reader,writer,DictReader,DictWriter.register_dialect一直非常喜欢python的csv模块，简单易用，经常在项目中使用，现在举几个例子说明一下。reader(cs
Python爬虫实战：解析京东商品信息（附部分源码）是有头发的程序猿 API API接口 python 爬虫开发语言
在信息爆炸的今天，网络爬虫（WebScraping）作为一种自动获取网页内容的技术，已经成为数据采集的重要手段。Python，因其简洁的语法和强大的库支持，成为编写爬虫的首选语言之一。本文将通过一个实战案例，展示如何使用Python编写爬虫，以京东商品页面为例，解析商品信息。环境准备在开始编写爬虫之前，需要准备以下环境和工具：Python3.x网络请求库：requestsHTML解析库：Beaut
90、Python Web抓取与数据爬虫：技巧、实践与道德规范多多的编程笔记 python 前端爬虫
Python开发：学习Web抓取和数据爬虫大家好，今天我将向大家介绍Python的Web抓取和数据爬虫技术，主要包括BeautifulSoup和Scrapy两个库。在此之前，请大家先思考一个问题：为什么我们需要Web抓取和数据爬虫？为什么需要Web抓取和数据爬虫？在互联网时代，数据量呈爆炸式增长，但并不是所有数据都易于获取。很多时候，我们需要从网站上获取数据，这就需要用到Web抓取和数据爬虫技术。
目标检测算法以及常用库概述 YOLO大师目标检测算法人工智能
YOLO目标检测创新改进与实战案例专栏专栏目录：YOLO有效改进系列及项目实战目录包含卷积，主干注意力，检测头等创新机制以及各种目标检测分割项目实战案例专栏链接:YOLO基础解析+创新改进+实战案例目标检测是在图像中发现并识别物体的过程，它是深度学习和图像处理领域的重要成果之一。在创建物体定位时，识别物体时，常见的一种方法是使用边界框。这种方法具有很高的通用，可以训练目标检测模型来识别和检测多个特
《CPython Internals》阅读笔记：p360-p377 python
《CPythonInternals》学习第20天，p360-p377总结，总计18页。一、技术总结1.seaborn可视化工具。2.dtrace(1)安装sudoapt-getinstallsystemtap-sdt-dev(2)编译./configure--with-dtracemakecleanmake3.snakeviz适用于cProfile的可视化工具。二、英语总结(生词：0)无。关于英语
基于CNN+Transformer混合模型实现交通流量时序预测(PyTorch版) 矩阵猫咪 cnn transformer pytorch 卷积神经网络深度学习
前言系列专栏:【深度学习：算法项目实战】✨︎涉及医疗健康、财经金融、商业零售、食品饮料、运动健身、交通运输、环境科学、社交媒体以及文本和图像处理等诸多领域，讨论了各种复杂的深度神经网络思想，如卷积神经网络、循环神经网络、生成对抗网络、门控循环单元、长短期记忆、自然语言处理、深度强化学习、大型语言模型和迁移学习。随着城市化进程的加速，交通流量预测成为城市交通管理与规划中的关键任务。准确的交通流量预测
【python】csv模块 m 宽 python python 开发语言
importcsv#用列表方式写入withopen("test.csv","w",newline="")asf:#注意，执行newline=""那么数据会自动换行,如果不指定，那么会多换一行writer=csv.writer(f)writer.writerow(["symbol","date","close"])writer.writerow(["rb2101","20200907","3736"
解决Python中libhdfs.so的共享库找不到的问题 code_welike python 开发语言 Python
解决Python中libhdfs.so的共享库找不到的问题在Python开发过程中，有时会遇到导入共享库时出现"ImportError:Cannotfindthesharedlibrary:libhdfs.so"的错误。这个错误通常发生在使用Python访问Hadoop分布式文件系统（HadoopDistributedFileSystem，简称HDFS）时，由于缺少libhdfs.so共享库文件而
The application can not locate Python39.dll (126) chengyunkuan python python 运维 windows
TheapplicationcannotlocatePython39.dll(126)描述：利用pyinstaller打包带pywinauto项目报如下错误：TheapplicationcannotlocatePython39.dll(126)（我这是利用pyinstaller打包带pywinauto项目出现的。）解决办法：将pywinauto库，换成0.6.5版本。pipinstallpywin
【2024最新】python第三方库的概述——功能、特点西西很呆 python 开发语言源代码管理编辑器计算机网络 scrapy pandas
文章目录一、网络请求与爬虫Requests：Scrapy：BeautifulSoup：二、数据处理与分析NumPy：Pandas：SQLAlchemy：SciPy：matplotlib：Seaborn：三、Web开发Flask：Django：四、图像处理Pillow（PILFork）：OpenCV-Python：五、游戏开发Pygame：Pyglet：六、自然语言处理NLTK（NaturalLan
使用python调用JIRA6 进行OAuth1认证获取AccessToken yaoshengting python #jira python
Jira配置应用程序链接1)创建应用程序链接登录JIRA管理后台。转到Administration>Applications>ApplicationLinks。在输入框中输入外部应用程序的URL（例如GitLab或自定义应用），然后点击Createnewlink。2)配置ConsumerKey和PublicKey在创建应用链接的过程中：ConsumerKey：自定义一个唯一的字符串标识应用程序（例
【python】2024年最新——爱心代码高级西西很呆 python 开发语言编辑器计算机网络源代码管理 matplotlib numpy
文章目录一、字符爱心（简单）思路代码示例二、图案爱心（普通）思路代码示例三、炫酷的爱心（高级）思路代码示例总结一、字符爱心（简单）思路这个代码定义了一个名为print_heart的函数，该函数包含了一个字符串列表，每个字符串代表爱心形状的一部分。然后，通过遍历这个列表并打印每一行，我们在控制台上得到了一个简单的爱心形状。代码示例#定义爱心形状的字符打印函数defprint_heart():hear
Java实现的基于模板的网页结构化信息精准抽取组件：HtmlExtractor yangshangchuan 信息抽取 HtmlExtractor 精准抽取信息采集
HtmlExtractor是一个Java实现的基于模板的网页结构化信息精准抽取组件，本身并不包含爬虫功能，但可被爬虫或其他程序调用以便更精准地对网页结构化信息进行抽取。 HtmlExtractor是为大规模分布式环境设计的，采用主从架构，主节点负责维护抽取规则，从节点向主节点请求抽取规则，当抽取规则发生变化，主节点主动通知从节点，从而能实现抽取规则变化之后的实时动态生效。如
java编程思想 -- 多态百合不是茶 java 多态详解
一: 向上转型和向下转型面向对象中的转型只会发生在有继承关系的子类和父类中（接口的实现也包括在这里）。父类：人子类：男人向上转型： Person p = new Man() ; //向上转型不需要强制类型转化向下转型： Man man =
[自动数据处理]稳扎稳打,逐步形成自有ADP系统体系 comsci dp
对于国内的IT行业来讲,虽然我们已经有了"两弹一星",在局部领域形成了自己独有的技术特征,并初步摆脱了国外的控制...但是前面的路还很长.... 首先是我们的自动数据处理系统还无法处理很多高级工程...中等规模的拓扑分析系统也没有完成,更加复杂的
storm 自定义日志文件商人shang storm cluster logback
Storm中的日志级级别默认为INFO，并且，日志文件是根据worker号来进行区分的，这样，同一个log文件中的信息不一定是一个业务的，这样就会有以下两个需求出现： 1. 想要进行一些调试信息的输出 2. 调试信息或者业务日志信息想要输出到一些固定的文件中不要怕，不要烦恼，其实Storm已经提供了这样的支持，可以通过自定义logback 下的 cluster.xml 来输
Extjs3 SpringMVC使用 @RequestBody 标签问题记录 21jhf
springMVC使用 @RequestBody(required = false) UserVO userInfo 传递json对象数据，往往会出现http 415，400,500等错误，总结一下需要使用ajax提交json数据才行，ajax提交使用proxy，参数为jsonData，不能为params；另外，需要设置Content-type属性为json，代码如下：（由于使用了父类aaa
一些排错方法文强chu 方法
1、java.lang.IllegalStateException: Class invariant violation at org.apache.log4j.LogManager.getLoggerRepository(LogManager.java:199)at org.apache.log4j.LogManager.getLogger(LogManager.java:228) at o
Swing中文件恢复我觉得很难小桔子 swing
我那个草了！老大怎么回事，怎么做项目评估的？只会说相信你可以做的，试一下，有的是时间！用java开发一个图文处理工具，类似word，任意位置插入、拖动、删除图片以及文本等。文本框、流程图等，数据保存数据库，其余可保存pdf格式。ok,姐姐千辛万苦，
php 文件操作 aichenglong PHP 读取文件写入文件
1 写入文件 @$fp=fopen("$DOCUMENT_ROOT/order.txt", "ab"); if(!$fp){ echo "open file error" ; exit; } $outputstring="date:"." \t tire:".$tire."
MySQL的btree索引和hash索引的区别 AILIKES 数据结构 mysql 算法
Hash 索引结构的特殊性，其检索效率非常高，索引的检索可以一次定位，不像B-Tree 索引需要从根节点到枝节点，最后才能访问到页节点这样多次的IO访问，所以 Hash 索引的查询效率要远高于 B-Tree 索引。可能很多人又有疑问了，既然 Hash 索引的效率要比 B-Tree 高很多，为什么大家不都用 Hash 索引而还要使用 B-Tree 索引呢
JAVA的抽象--- 接口 --实现百合不是茶
抽象接口实现接口 //抽象类 ,方法 //定义一个公共抽象的类 ,并在类中定义一个抽象的方法体抽象的定义使用abstract abstract class A 定义一个抽象类例如： //定义一个基类 public abstract class A{ //抽象类不能用来实例化，只能用来继承 //
JS变量作用域实例 bijian1013 作用域
<script> var scope='hello'; function a(){ console.log(scope); //undefined var scope='world'; console.log(scope); //world console.log(b);
TDD实践（二） bijian1013 java TDD
实践题目：分解质因数 Step1：单元测试： package com.bijian.study.factor.test; import java.util.Arrays; import junit.framework.Assert; import org.junit.Before; import org.junit.Test; import com.bijian.
[MongoDB学习笔记一]MongoDB主从复制 bit1129 mongodb
MongoDB称为分布式数据库，主要原因是1.基于副本集的数据备份， 2.基于切片的数据扩容。副本集解决数据的读写性能问题，切片解决了MongoDB的数据扩容问题。事实上，MongoDB提供了主从复制和副本复制两种备份方式，在MongoDB的主从复制和副本复制集群环境中，只有一台作为主服务器，另外一台或者多台服务器作为从服务器。本文介绍MongoDB的主从复制模式，需要指明
【HBase五】Java API操作HBase bit1129 hbase
import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.HColumnDescriptor; import org.apache.ha
python调用zabbix api接口实时展示数据 ronin47
zabbix api接口来进行展示。经过思考之后，计划获取如下内容： 1、获得认证密钥 2、获取zabbix所有的主机组 3、获取单个组下的所有主机 4、获取某个主机下的所有监控项
jsp取得绝对路径 byalias 绝对路径
在JavaWeb开发中，常使用绝对路径的方式来引入JavaScript和CSS文件，这样可以避免因为目录变动导致引入文件找不到的情况，常用的做法如下：一、使用${pageContext.request.contextPath} 　　代码” ${pageContext.request.contextPath}”的作用是取出部署的应用程序名，这样不管如何部署，所用路径都是正确的。
Java定时任务调度：用ExecutorService取代Timer bylijinnan java
《Java并发编程实战》一书提到的用ExecutorService取代Java Timer有几个理由，我认为其中最重要的理由是：如果TimerTask抛出未检查的异常，Timer将会产生无法预料的行为。Timer线程并不捕获异常，所以 TimerTask抛出的未检查的异常会终止timer线程。这种情况下，Timer也不会再重新恢复线程的执行了;它错误的认为整个Timer都被取消了。此时，已经被
SQL 优化原则 chicony sql
一、问题的提出　在应用系统开发初期，由于开发数据库数据比较少，对于查询SQL语句，复杂视图的的编写等体会不出SQL语句各种写法的性能优劣，但是如果将应用系统提交实际应用后，随着数据库中数据的增加，系统的响应速度就成为目前系统需要解决的最主要的问题之一。系统优化中一个很重要的方面就是SQL语句的优化。对于海量数据，劣质SQL语句和优质SQL语句之间的速度差别可以达到上百倍，可见对于一个系统
java 线程弹球小游戏 CrazyMizzz java 游戏
最近java学到线程，于是做了一个线程弹球的小游戏，不过还没完善这里是提纲 1.线程弹球游戏实现 1.实现界面需要使用哪些API类 JFrame JPanel JButton FlowLayout Graphics2D Thread Color ActionListener ActionEvent MouseListener Mouse
hadoop jps出现process information unavailable提示解决办法 daizj hadoop jps
hadoop jps出现process information unavailable提示解决办法 jps时出现如下信息： 3019 -- process information unavailable3053 -- process information unavailable2985 -- process information unavailable2917 --
PHP图片水印缩放类实现 dcj3sjt126com PHP
<?php class Image{ private $path; function __construct($path='./'){ $this->path=rtrim($path,'/').'/'; } //水印函数，参数：背景图，水印图，位置，前缀,TMD透明度 public function water($b,$l,$pos
IOS控件学习：UILabel常用属性与用法 dcj3sjt126com ios UILabel
参考网站： http://shijue.me/show_text/521c396a8ddf876566000007 http://www.tuicool.com/articles/zquENb http://blog.csdn.net/a451493485/article/details/9454695 http://wiki.eoe.cn/page/iOS_pptl_artile_281
完全手动建立maven骨架 eksliang java eclipse Web
建一个 JAVA 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=App [-Dversion=0.0.1-SNAPSHOT] [-Dpackaging=jar] 建一个 web 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=web-a
配置清单 gengzg 配置
1、修改grub启动的内核版本 vi /boot/grub/grub.conf 将default 0改为1 拷贝mt7601Usta.ko到/lib文件夹拷贝RT2870STA.dat到 /etc/Wireless/RT2870STA/文件夹拷贝wifiscan到bin文件夹，chmod 775 /bin/wifiscan 拷贝wifiget.sh到bin文件夹，chm
Windows端口被占用处理方法 huqiji windows
以下文章主要以80端口号为例，如果想知道其他的端口号也可以使用该方法..........................1、在windows下如何查看80端口占用情况?是被哪个进程占用?如何终止等. 这里主要是用到windows下的DOS工具,点击"开始"--"运行",输入&
开源ckplayer 网页播放器，跨平台(html5, mobile)，flv, f4v, mp4, rtmp协议. webm, ogg, m3u8 ！天梯梦 mobile
CKplayer，其全称为超酷flv播放器，它是一款用于网页上播放视频的软件，支持的格式有：http协议上的flv,f4v,mp4格式，同时支持rtmp视频流格式播放，此播放器的特点在于用户可以自己定义播放器的风格，诸如播放/暂停按钮，静音按钮，全屏按钮都是以外部图片接口形式调用，用户根据自己的需要制作出播放器风格所需要使用的各个按钮图片然后替换掉原始风格里相应的图片就可以制作出自己的风格了，
简单工厂设计模式 hm4123660 java 工厂设计模式简单工厂模式
简单工厂模式（Simple Factory Pattern）属于类的创新型模式，又叫静态工厂方法模式。是通过专门定义一个类来负责创建其他类的实例，被创建的实例通常都具有共同的父类。简单工厂模式是由一个工厂对象决定创建出哪一种产品类的实例。简单工厂模式是工厂模式家族中最简单实用的模式，可以理解为是不同工厂模式的一个特殊实现。
maven笔记 zhb8015 maven
跳过测试阶段： mvn package -DskipTests 临时性跳过测试代码的编译： mvn package -Dmaven.test.skip=true maven.test.skip同时控制maven-compiler-plugin和maven-surefire-plugin两个插件的行为，即跳过编译，又跳过测试。指定测试类 mvn test
非mapreduce生成Hfile，然后导入hbase当中 Stark_Summer map hbase reduce Hfile path实例
最近一个群友的boss让研究hbase，让hbase的入库速度达到5w+/s，这可愁死了，4台个人电脑组成的集群，多线程入库调了好久，速度也才1w左右，都没有达到理想的那种速度，然后就想到了这种方式，但是网上多是用mapreduce来实现入库，而现在的需求是实时入库，不生成文件了，所以就只能自己用代码实现了，但是网上查了很多资料都没有查到，最后在一个网友的指引下，看了源码，最后找到了生成Hfile
jsp web tomcat 编码问题王新春 tomcat jsp pageEncode
今天配置jsp项目在tomcat上，windows上正常，而linux上显示乱码，最后定位原因为tomcat 的server.xml 文件的配置，添加 URIEncoding 属性： <Connector port="8080" protocol="HTTP/1.1" connectionTi