jolingcome

python用pandas数据加载、存储与文件格式

数据加载、存储与文件格式
pandas提供了一些用于将表格型数据读取为DataFrame对象的函数。其中read_csv和read_talbe用得最多
pandas中的解析函数：
函数说明
read_csv 从文件、URL、文件型对象中加载带分隔符的数据，默认分隔符为逗号
read_table 从文件、URL、文件型对象中加载带分隔符的数据。默认分隔符为制表符("\t")
read_fwf 读取定宽列格式数据(也就是说，没有分隔符)
read_clipboard 读取剪贴板中的数据，可以看做read_table的剪贴板版。在将网页转换为表格时很有用

pandas代码性能有化：https://python.freelycode.com/contribution/detail/1083

下面介绍一下这些函数在将文本数据转换为DataFrame时所用到的一些技术。这些函数的选项可以划分为以下几个大类：
（1）索引：将一个或多个列当做返回的DataFrame处理，以及是否从文件、用户获取列名
（2）类型推断和数据转换：包括用户定义值的转换、缺失值标记列表等。（类型推断是这些函数中最重要的功能之一）
（3）日期解析：包括组合功能，比如将分散在多个列中的日期时间信息组合成结果中的单个列。
（4）迭代：支持对大文件进行逐块迭代。

（5）不规整数据问题：跳过一些行、页脚、注释或其他一些不重要的东西(比如成千上万个逗号隔开的数值数据)

1. 读写文本格式的数据：

（1）由于该文件以逗号分隔，所以我们可以使用read_csv将其读入一个DataFrame:

import pandas as pd
import numpy as np

#'ex1.csv'的内容如下：
# a,b,c,d,message
# 1,2,3,4,hello
# 5,6,7,8,world
# 9,10,11,12,foo
df=pd.read_csv('ex1.csv')
print df
#输出结果如下：
#    a   b   c   d message
# 0  1   2   3   4   hello
# 1  5   6   7   8   world
# 2  9  10  11  12     foo

（2）我们也可以用read_table,只不过需要指定分隔符而己：

df=pd.read_table('ex1.csv',sep=',')
print df
#输出结果如下：
#    a   b   c   d message
# 0  1   2   3   4   hello
# 1  5   6   7   8   world
# 2  9  10  11  12     foo

(3)读入文件可以让pandas为其分配默认的列名，也可以自己定义列名：

print pd.read_csv('ex1.csv',header=None)
#输出结果如下：
#    0   1   2   3        4
# 0  a   b   c   d  message
# 1  1   2   3   4    hello
# 2  5   6   7   8    world
# 3  9  10  11  12      foo
print pd.read_csv('ex1.csv',names=['a','b','c','d','message'])
#输出结果如下：
#    a   b   c   d  message
# 0  a   b   c   d  message
# 1  1   2   3   4    hello
# 2  5   6   7   8    world
# 3  9  10  11  12      foo

（4）假如希望将message列做成DataFrame的索引，也可以明确表示要将该列放到索引4的位置上，也可以通过index_col参数指定"message"

names=['a','b','c','d','message']
print pd.read_csv('ex1.csv',names=names)
#输出结果如下：
#    a   b   c   d  message
# 0  a   b   c   d  message
# 1  1   2   3   4    hello
# 2  5   6   7   8    world
# 3  9  10  11  12      foo
print pd.read_csv('ex1.csv',names=names,index_col='message')
#输出结果如下：
#          a   b   c   d
# message
# message  a   b   c   d
# hello    1   2   3   4
# world    5   6   7   8
# foo      9  10  11  12

（5）如果希望将多个列做成一个层次化索引，只需传入由列编号或列名组成的列表即可：

#'csv_mindex.csv'的内容如下：
# key1,key2,value1,value2
# one,a,1,2
# one,b,3,4
# one,c,5,6
# one,d,7,8
# two,a,9,10
# two,b,11,12
# two,c,13,14
# two,d,15,16
parsed=pd.read_csv('csv_mindex.csv',index_col=['key1','key2']) #index_col表示为行索引
print parsed
#            value1  value2
# key1 key2
# one  a          1       2
#      b          3       4
#      c          5       6
#      d          7       8
# two  a          9      10
#      b         11      12
#      c         13      14
#      d         15      16

（6）有些表示可能不是用固定的分隔符去分隔字段的(比如空白符或其它字符串)。对于这些情况，可以编写一个正则表达式来作为read_table

# 的分隔符。看下面的文本文件
#'ex3.txt'的内容如下
#         A        B       C,
# aaa -0.264438 -1.026059 -0.619500
# bbb 0.9283898 0.3928928 -0.032388
# ccc -0.264327 -0.386313 -0.217601
# ddd -0.878218 -0.348238 1.1004919
print list(open('ex3.txt'))
#输出结果如下：
# ['        A        B       C,\n',
#  'aaa -0.264438 -1.026059 -0.619500\n',
#  'bbb 0.9283898 0.3928928 -0.032388\n',
#  'ccc -0.264327 -0.386313 -0.217601\n',
#  'ddd -0.878218 -0.348238 1.1004919']
#该文件各个字段由数量不定的空白符分隔，则可以用正则表达式\s+表示：
#正则表达式：\s表示空白符，\S非空白符，+表示后面会一直匹配下去。即\s+会匹配多个空格符
result=pd.read_table('ex3.txt',sep='\s+')
print result
#输出结果如下：
#             A         B        C,
# aaa -0.264438 -1.026059 -0.619500
# bbb  0.928390  0.392893 -0.032388
# ccc -0.264327 -0.386313 -0.217601
# ddd -0.878218 -0.348238  1.100492
#注意：这里由于列名比数据行的数量少(即A,B,C三个列名，但是列的数据是4列)，所以read_table推断第一列应该是DataFrame的索引。

（7）skiprows跳过文件的一些行，可以帮助处理各种各样的异形文件格式

#'ex4.csv'的内容如下：
##hey!
# a,b,c,d,message
# #just wanted to make thins more difficult for u
# # who reads CSV files with computers,anyway?
# 1,2,3,4,hello
# 5,6,7,8,world
# 9,10,11,12,foo
print pd.read_csv('ex4.txt',skiprows=[0,2,3])
#输出结果如下：
#    a   b   c   d message
# 0  1   2   3   4   hello
# 1  5   6   7   8   world
# 2  9  10  11  12     foo

（8）缺失值处理是文件解析任务中的一个重要组成部分。缺失数据经常是要么没有(空字符串)，要么用某个标记值表示。

#默认情况下，pandas会用一组经常出现的标记值进行识别，如NA,-1.#IND以及NULL等。
#'ex5.csv'的内容如下：
# something,a,b,c,d,message
# one,1,2,3,4,NA
# two,5,6,,8,world
# three,9,10,11,12,foo
result=pd.read_csv('ex5.csv')
print result
#输出结果如下：
#   something  a   b     c   d message
# 0       one  1   2   3.0   4     NaN
# 1       two  5   6   NaN   8   world
# 2     three  9  10  11.0  12     foo
print pd.isnull(result)  #查看为缺失值
#输出结果如下：
#    something      a      b      c      d  message
# 0      False  False  False  False  False     True
# 1      False  False  False   True  False    False
# 2      False  False  False  False  False    False

(9) na_values可以接受一组用于表示缺失值的字符串：

result=pd.read_csv('ex5.csv',na_values=['NULL'])
print result
#输出结果如下：
#   something  a   b     c   d message
# 0       one  1   2   3.0   4     NaN
# 1       two  5   6   NaN   8   world
# 2     three  9  10  11.0  12     foo

(10) 可以用一个字典为各列指定不同的NA标记值

sentinels={'message':['foo','NA'],'something':['two']}  #将message列中的foo标成NA,something的two也标成NA
print pd.read_csv('ex5.csv',na_values=sentinels)
#输出结果如下：
#   something  a   b     c   d message
# 0       one  1   2   3.0   4     NaN
# 1       NaN  5   6   NaN   8   world
# 2     three  9  10  11.0  12     NaN

read_csv/read_table函数的参数：

参数				说明
path			表示文件系统位置、url、文件型对象的字符串
sep或delimiter	用于对行各字段进行拆分的字符序列或正则表达式
header			用作列名的行号。默认为0(第一行)，如果没有header行就应该设置为None
index_col		用作行索引的列编号或列名。可以是单个名称/数字或多个名称/数字组成的列表(层次化索引)
names			用于结果的列名列表，结合header=None
skiprows		需要忽略的行数(从文件开始处算起)，或需要跳过的行号列表(从0开始)
na_values		一组用于替换NA的值
comment			用于将注释信息从行尾拆分出去的字符(一个或多个)
parse_dates		尝试将数据解析为日期，默认为False.如果为True,则尝试解析所有列。此外，还可以指定需要解析的一组
				列号或列名。如果列表的元素为列表或元组，就会将多个列组合到一起再进行日期解析工作(例如，日期/时间
				分别位于两个列中)
keep_date_col	如果连接多列解析日期，则保持参与连接的列。默认为False.
converters		由列号/列名跟函数之间的映射关系组成的字典。例如，{‘foo’:f}会对foo列的所有值应用函数f
dayfirst		当解析有歧义的日期时，将其看做国际格式(例如：7/6/2012->June,7,2012).默认为False
date_parser		用于解析日期的函数
nrows			需要读取的行数(从文件开始处算起)
iterator		返回一个TextParser以便逐块读取文件
chunksize		文件块的大小(用于迭代)
skip_footer		需要忽略的行数(从文件末尾处算起)
verbose			打印各种解析器输出信息，比如“非数值列中缺失值的数量”等
encoding		用于unicode的文本编码格式。
squeeze			如果数据经解析后仅含一列，则返回Series
thousands		千分位分隔符，如“，”或“。”

逐块读取文本文件:

在处理很大文件时，或找出大文件中的参数集以便于后续处理时，你可能只想读取文件的一小部分或逐块对文件进行迭代。

import pandas as pd
import numpy as np
from pandas import Series,DataFrame


#'ex6.csv'的内容如下：
# 
# Int64Index:10000 entries, 0 to 9999
# Data columns:
# one     10000    non-null       values
# two     10000    non-null       values
# three     10000    non-null       values
# four     10000    non-null       values
# key     10000    non-null       values
# dtypes: float64(4),object(1)
print pd.read_csv('ex6.csv',nrows=5)  #nrows=5取前6行，下标从0开始

#要逐块读取文件，需要设置chunksize(行数)
chunker=pd.read_csv('ex6.csv',chunksize=1000)
print chunker
#输出结果如下：
# 

#read_csv所返回的这个TextParser对象使你可以根据chunksize对文件进行逐块迭代。比如说：
#我们可以迭代处理ex6.csv,将值计数聚合到"key"列中。
tot=Series([])
for piece in chunker:
    tot=tot.add(piece['key'].value_counts(),fill_value=0) #value_counts计算个数，fill_value为空时填充0
tot=tot.order(ascending=False) #此版本Series没有有order,可以换成sort_value
# tot=tot.sort_value(ascending=False)
print tot  #报key错误

将数据写到文本格式：

数据也可以被输出为分隔符格式文本

data=pd.read_csv('ex5.csv')
#输出结果如下：
print data
#输出结果如下：
#   something  a   b     c   d message
# 0       one  1   2   3.0   4     NaN
# 1       two  5   6   NaN   8   world
# 2     three  9  10  11.0  12     foo

DataFrame的to_csv方法:

（1）数据写入：to_csv,利用DataFrame的to_csv方法，我们可以将数据写到一个以逗号分隔的文件中

print data.to_csv('out.csv')
#out.csv的内容如下：
# ,something,a,b,c,d,message
# 0,one,1,2,3.0,4,
# 1,two,5,6,,8,world
# 2,three,9,10,11.0,12,foo

（2）当然也可以使用其他分隔符(由于这里直接写到sys.stdout控制台，所以仅仅是打印出文本结果而己)

print data.to_csv(sys.stdout,sep='|')
#输出结果如下：
# None
# |something|a|b|c|d|message
# 0|one|1|2|3.0|4|
# 1|two|5|6||8|world
# 2|three|9|10|11.0|12|foo
# None

（3）缺失值在输出结果中会被表示为空字符串，若希望将其表示为别的标记值用na_sep='NULL'

print data.to_csv(sys.stdout,na_rep='NULL')
#输出结果如下：
# ,something,a,b,c,d,message
# 0,one,1,2,3.0,4,NULL
# 1,two,5,6,NULL,8,world
# 2,three,9,10,11.0,12,foo
# None

（4）如果没有设置其它选项，则会写出行和列的标签。当然，它们也都可以被禁用：index=False,header=False

print data.to_csv(sys.stdout,index=False,header=False) #行标签index,列标签header
#输出结果如下：
# one,1,2,3.0,4,
# two,5,6,,8,world
# three,9,10,11.0,12,foo
# None

（5）还可以只写出一部分的列，并以你指定的顺序排序:index=False,columns=[]

print data.to_csv(sys.stdout,index=False,columns=['a','b','c'])
#输出结果如下：
# a,b,c
# 1,2,3.0
# 5,6,
# 9,10,11.0
# None

Series的to_csv方法：

（1）Series的to_csv方法，将Series写入到.csv文件中

dates=pd.date_range('1/1/2000',periods=7) #date_range可以生成时间序列，periods=7表示可以生成7个时间序列，从2000/1/1开始
print dates
#输出结果如下：
# DatetimeIndex(['2000-01-01', '2000-01-02', '2000-01-03', '2000-01-04',
#                '2000-01-05', '2000-01-06', '2000-01-07'],
#               dtype='datetime64[ns]', freq='D')
ts=Series(np.arange(7),index=dates) #index行索引用dates
ts.to_csv('tseries.csv')
#tseries.csv的内容如下:
# 2000-01-01,0
# 2000-01-02,1
# 2000-01-03,2
# 2000-01-04,3
# 2000-01-05,4
# 2000-01-06,5
# 2000-01-07,6

（2）read_csv也可以将csv文件读取为Series(Series.read_csv,而DataFrame则用pd.read_csv),但还有一个更为方更的from_csv方法

print Series.from_csv('tseries.csv',parse_dates=True)
#输出结果如下：
# 2000-01-01    0
# 2000-01-02    1
# 2000-01-03    2
# 2000-01-04    3
# 2000-01-05    4
# 2000-01-06    5
# 2000-01-07    6
# dtype: int64

from_csv和read_csv中参数整理如下：

pandas.read_csv参数整理
 
读取CSV（逗号分割）文件到DataFrame
也支持文件的部分导入和选择迭代
更多帮助参见：http://pandas.pydata.org/pandas-docs/stable/io.html
参数：
filepath_or_buffer : str，pathlib。str, pathlib.Path, py._path.local.LocalPath or any object with a read() method (such as a file handle or StringIO)
可以是URL，可用URL类型包括：http, ftp, s3和文件。对于多文件正在准备中
本地文件读取实例：://localhost/path/to/table.csv
 
sep : str, default ‘,’
指定分隔符。如果不指定参数，则会尝试使用逗号分隔。分隔符长于一个字符并且不是‘\s+’,将使用python的语法分析器。并且忽略数据中的逗号。正则表达式例子：'\r\t'
 
delimiter : str, default None
定界符，备选分隔符（如果指定该参数，则sep参数失效）
 
delim_whitespace : boolean, default False.
指定空格(例如’ ‘或者’ ‘)是否作为分隔符使用，等效于设定sep='\s+'。如果这个参数设定为Ture那么delimiter 参数失效。
在新版本0.18.1支持
 
header : int or list of ints, default ‘infer’
指定行数用来作为列名，数据开始行数。如果文件中没有列名，则默认为0，否则设置为None。如果明确设定header=0 就会替换掉原来存在列名。header参数可以是一个list例如：[0,1,3]，这个list表示将文件中的这些行作为列标题（意味着每一列有多个标题），介于中间的行将被忽略掉（例如本例中的2；本例中的数据1,2,4行将被作为多级标题出现，第3行数据将被丢弃，dataframe的数据从第5行开始。）。
注意：如果skip_blank_lines=True 那么header参数忽略注释行和空行，所以header=0表示第一行数据而不是文件的第一行。
 
names : array-like, default None
用于结果的列名列表，如果数据文件中没有列标题行，就需要执行header=None。默认列表中不能出现重复，除非设定参数mangle_dupe_cols=True。
 
index_col : int or sequence or False, default None
用作行索引的列编号或者列名，如果给定一个序列则有多个行索引。
如果文件不规则，行尾有分隔符，则可以设定index_col=False 来是的pandas不适用第一列作为行索引。
 
usecols : array-like, default None
返回一个数据子集，该列表中的值必须可以对应到文件中的位置（数字可以对应到指定的列）或者是字符传为文件中的列名。例如：usecols有效参数可能是 [0,1,2]或者是 [‘foo’, ‘bar’, ‘baz’]。使用这个参数可以加快加载速度并降低内存消耗。
 
as_recarray : boolean, default False
不赞成使用：该参数会在未来版本移除。请使用pd.read_csv(...).to_records()替代。
返回一个Numpy的recarray来替代DataFrame。如果该参数设定为True。将会优先squeeze参数使用。并且行索引将不再可用，索引列也将被忽略。
 
squeeze : boolean, default False
如果文件值包含一列，则返回一个Series
 
prefix : str, default None
在没有列标题时，给列添加前缀。例如：添加‘X’ 成为 X0, X1, ...
 
mangle_dupe_cols : boolean, default True
重复的列，将‘X’...’X’表示为‘X.0’...’X.N’。如果设定为false则会将所有重名列覆盖。
 
dtype : Type name or dict of column -> type, default None
每列数据的数据类型。例如 {‘a’: np.float64, ‘b’: np.int32}
 
engine : {‘c’, ‘python’}, optional
Parser engine to use. The C engine is faster while the python engine is currently more feature-complete.
使用的分析引擎。可以选择C或者是python。C引擎快但是Python引擎功能更加完备。
 
converters : dict, default None
列转换函数的字典。key可以是列名或者列的序号。
 
true_values : list, default None
Values to consider as True
 
false_values : list, default None
Values to consider as False
 
skipinitialspace : boolean, default False
忽略分隔符后的空白（默认为False，即不忽略）.
 
skiprows : list-like or integer, default None
需要忽略的行数（从文件开始处算起），或需要跳过的行号列表（从0开始）。
 
skipfooter : int, default 0
从文件尾部开始忽略。 (c引擎不支持)
 
skip_footer : int, default 0
不推荐使用：建议使用skipfooter ，功能一样。
 
nrows : int, default None
需要读取的行数（从文件头开始算起）。
 
na_values : scalar, str, list-like, or dict, default None
一组用于替换NA/NaN的值。如果传参，需要制定特定列的空值。默认为‘1.#IND’, ‘1.#QNAN’, ‘N/A’, ‘NA’, ‘NULL’, ‘NaN’, ‘nan’`.
 
keep_default_na : bool, default True
如果指定na_values参数，并且keep_default_na=False，那么默认的NaN将被覆盖，否则添加。
 
na_filter : boolean, default True
是否检查丢失值（空字符串或者是空值）。对于大文件来说数据集中没有空值，设定na_filter=False可以提升读取速度。
 
verbose : boolean, default False
是否打印各种解析器的输出信息，例如：“非数值列中缺失值的数量”等。
 
skip_blank_lines : boolean, default True
如果为True，则跳过空行；否则记为NaN。
 
parse_dates : boolean or list of ints or names or list of lists or dict, default False
boolean. True -> 解析索引
list of ints or names. e.g. If [1, 2, 3] -> 解析1,2,3列的值作为独立的日期列；
list of lists. e.g. If [[1, 3]] -> 合并1,3列作为一个日期列使用
dict, e.g. {‘foo’ : [1, 3]} -> 将1,3列合并，并给合并后的列起名为"foo"
 
infer_datetime_format : boolean, default False
如果设定为True并且parse_dates 可用，那么pandas将尝试转换为日期类型，如果可以转换，转换方法并解析。在某些情况下会快5~10倍。
 
keep_date_col : boolean, default False
如果连接多列解析日期，则保持参与连接的列。默认为False。
 
date_parser : function, default None
用于解析日期的函数，默认使用dateutil.parser.parser来做转换。Pandas尝试使用三种不同的方式解析，如果遇到问题则使用下一种方式。
1.使用一个或者多个arrays（由parse_dates指定）作为参数；
2.连接指定多列字符串作为一个列作为参数；
3.每行调用一次date_parser函数来解析一个或者多个字符串（由parse_dates指定）作为参数。
 
dayfirst : boolean, default False
DD/MM格式的日期类型
 
iterator : boolean, default False
返回一个TextFileReader 对象，以便逐块处理文件。
 
chunksize : int, default None
文件块的大小， See IO Tools docs for more informationon iterator and chunksize.
 
compression : {‘infer’, ‘gzip’, ‘bz2’, ‘zip’, ‘xz’, None}, default ‘infer’
直接使用磁盘上的压缩文件。如果使用infer参数，则使用 gzip, bz2, zip或者解压文件名中以‘.gz’, ‘.bz2’, ‘.zip’, or ‘xz’这些为后缀的文件，否则不解压。如果使用zip，那么ZIP包中国必须只包含一个文件。设置为None则不解压。
新版本0.18.1版本支持zip和xz解压
 
thousands : str, default None
千分位分割符，如“，”或者“."
 
decimal : str, default ‘.’
字符中的小数点 (例如：欧洲数据使用’，‘).
 
float_precision : string, default None
Specifies which converter the C engine should use for floating-point values. The options are None for the ordinary converter, high for the high-precision converter, and round_trip for the round-trip converter.
指定
 
lineterminator : str (length 1), default None
行分割符，只在C解析器下使用。
 
quotechar : str (length 1), optional
引号，用作标识开始和解释的字符，引号内的分割符将被忽略。
 
quoting : int or csv.QUOTE_* instance, default 0
控制csv中的引号常量。可选 QUOTE_MINIMAL (0), QUOTE_ALL (1), QUOTE_NONNUMERIC (2) or QUOTE_NONE (3)
 
doublequote : boolean, default True
双引号，当单引号已经被定义，并且quoting 参数不是QUOTE_NONE的时候，使用双引号表示引号内的元素作为一个元素使用。
 
escapechar : str (length 1), default None
当quoting 为QUOTE_NONE时，指定一个字符使的不受分隔符限值。
 
comment : str, default None
标识着多余的行不被解析。如果该字符出现在行首，这一行将被全部忽略。这个参数只能是一个字符，空行（就像skip_blank_lines=True）注释行被header和skiprows忽略一样。例如如果指定comment='#' 解析‘#empty\na,b,c\n1,2,3’ 以header=0 那么返回结果将是以’a,b,c'作为header。
 
encoding : str, default None
指定字符集类型，通常指定为'utf-8'. List of Python standard encodings
 
dialect : str or csv.Dialect instance, default None
如果没有指定特定的语言，如果sep大于一个字符则忽略。具体查看csv.Dialect 文档
 
tupleize_cols : boolean, default False
Leave a list of tuples on columns as is (default is to convert to a Multi Index on the columns)
 
error_bad_lines : boolean, default True
如果一行包含太多的列，那么默认不会返回DataFrame ，如果设置成false，那么会将改行剔除（只能在C解析器下使用）。
 
warn_bad_lines : boolean, default True
如果error_bad_lines =False，并且warn_bad_lines =True 那么所有的“bad lines”将会被输出（只能在C解析器下使用）。
 
low_memory : boolean, default True
分块加载到内存，再低内存消耗中解析。但是可能出现类型混淆。确保类型不被混淆需要设置为False。或者使用dtype 参数指定类型。注意使用chunksize 或者iterator 参数分块读入会将整个文件读入到一个Dataframe，而忽略类型（只能在C解析器中有效）
 
buffer_lines : int, default None
不推荐使用，这个参数将会在未来版本移除，因为他的值在解析器中不推荐使用
 
compact_ints : boolean, default False
不推荐使用，这个参数将会在未来版本移除
如果设置compact_ints=True ，那么任何有整数类型构成的列将被按照最小的整数类型存储，是否有符号将取决于use_unsigned 参数
 
use_unsigned : boolean, default False
不推荐使用：这个参数将会在未来版本移除
如果整数列被压缩(i.e. compact_ints=True)，指定被压缩的列是有符号还是无符号的。
memory_map : boolean, default False
如果使用的文件在内存内，那么直接map文件使用。使用这种方式可以避免文件再次进行IO操作。

手工处理分隔符格式：csv python内置函数使用

大部分存储在磁盘上的表格型数据都能用pandas.read_table进行加载。然而有进还是需要手工处理。
由于接收到含有畸形行的文件而使read_table出毛病的情况并不少见。
对于任何单字符分隔符文件，可以直接使用python内置的csv模块。将任意己打开的文件或文件型的对象传给csv.reader

import csv
f=open('ex7.csv')
reader=csv.reader(f)
print reader
#输出结果是一个对象：<_csv.reader object at 0x10d7c7600>
for line in reader:
    print line
#对这个reader进行迭代将会为每行产生一个元组
#输出结果如下：
# ['a', 'b', 'c']
# ['1', '2', '3']
# ['1', '2', '3', '4']

为了使数据格式合乎要求，你需要对其做些调整

lines=list(csv.reader(open('ex7.csv')))
print lines
#输出结果如下：
# [['a', 'b', 'c'], ['1', '2', '3'], ['1', '2', '3', '4']]
print lines[0],lines[1]
header,values=lines[0],lines[1:]
print zip(*values) #zip(iterable),将对象中对应的元素打包成一个个元组。a=[1,2,3] b=[2,4,5] zip(a,b)=[(1,2),(2,4),(3,5)]
#输出结果如下：
# [('1', '1'), ('2', '2'), ('3', '3')]
data_dict={h:v for h, v in zip(header,zip(*values))}
print data_dict
#输出结果如下：结果得到的是列表，不是元组
# {'a': ('1', '1'), 'c': ('3', '3'), 'b': ('2', '2')}

CSV文件的形式有很多。只需定义csv.Dialect的一个子类即可定义出新格式(如专门的分隔符、字符串引用约定、行结束符等)

class my_dialect(csv.Dialect):
    lineterminator = '\n'
    delimiter = ';'
    quotechar = '"'
    quoting = 0
reader=csv.reader(f,dialect=my_dialect)
print reader
#输出结果如下：
# <_csv.reader object at 0x10628a6e0>
with open('mydata.csv','w')as f:
    writer=csv.writer(f,dialect=my_dialect)
    writer.writerow(('one','two','three'))
    writer.writerow(('1','2','3'))
    writer.writerow(('1', '2', '3'))
#打开mydata.csv内容如下：
# one;two;three
# 1;2;3
# 1;2;3

各个csv语句的参数也可以用关键字的形式提供给csv.reader,无需定义子类：

reader=csv.reader(f,delimiter='|')

csv.writer用于手工输出分隔符文件，它接受一个己打开且可写的文件对象以及跟csv.reader相同的那些语句和选项：

#csv.writer先创建一个write对象，然后用writerow写入,可以一行行写入，也可以字典写入
headers = ['Symbol', 'Price', 'Date', 'Time', 'Change', 'Volume']
rows = [{'Symbol':'AA', 'Price':39.48, 'Date':'6/11/2007',
        'Time':'9:36am', 'Change':-0.18, 'Volume':181800},
        {'Symbol':'AIG', 'Price': 71.38, 'Date':'6/11/2007',
        'Time':'9:36am', 'Change':-0.15, 'Volume': 195500},
        {'Symbol':'AXP', 'Price': 62.58, 'Date':'6/11/2007',
        'Time':'9:36am', 'Change':-0.46, 'Volume': 935000},
        ]
with open('stock.csv','w') as f:
    writer=csv.DictWriter(f,headers)
    writer.writeheader()
    writer.writerows(rows)
#stock.csv的结果如下：
# Symbol,Price,Date,Time,Change,Volume
# AA,39.48,6/11/2007,9:36am,-0.18,181800
# AIG,71.38,6/11/2007,9:36am,-0.15,195500
# AXP,62.58,6/11/2007,9:36am,-0.46,935000

csv产生的数据都是字符串类型的，它不会做任何其它类型的转换，如果你需要做这样的类型转换，必须自己手动去实现：

#下面是一个在csv数据上执行其他类型转换的例子：
col_types=[str,float,str,str,float,int]
with open('stock.csv') as f:
    f_csv=csv.reader(f)
    headers=next(f_csv)
    print headers
    #输出结果如下
    # ['Symbol', 'Price', 'Date', 'Time', 'Change', 'Volume']
    for row in f_csv:
        rows=tuple(convert(value) for convert,value in zip(col_types,row))
        print rows
#输出结果如下：
# ('AA', 39.48, '6/11/2007', '9:36am', -0.18, 181800)
# ('AIG', 71.38, '6/11/2007', '9:36am', -0.15, 195500)
# ('AXP', 62.58, '6/11/2007', '9:36am', -0.46, 935000)
#下面是一个转换字典中特定字段的例子：
field_types = [ ('Price', float),
                ('Change', float),
                ('Volume', int) ]
with open('stock.csv') as f:
    for row in csv.DictReader(f): #row指的是每一行
        print row
        row.update((key,coversion(row[key]))
                   for key,coversion in field_types)
        #key:price conversion：float,row.update(key)如果key在row中找到，则conversion(row[key])的值,
        # row[key]是指这个key的value值
        print row
#输出如下：第一行是第一个print row输出，下面一个才是转换后的print row的输出
# {'Symbol': 'AA', 'Volume': '181800', 'Time': '9:36am', 'Date': '6/11/2007', 'Price': '39.48', 'Change': '-0.18'}
# {'Symbol': 'AA', 'Volume': 181800, 'Time': '9:36am', 'Date': '6/11/2007', 'Price': 39.48, 'Change': -0.18}

csv 参数选项如下：

参数             说明
delimiter	    用于分隔字段的单字符字符串。默认为“，”
lineterminator	用于写操作的行结束符，默认为“\r\n”
quotechar		用于带有特殊字符(如分隔符)的字段的引用符号。默认为“"”
quoting			引用约定。可选值包括csv.quote_all(引用所有字段)，
				csv.quote_minimal(只引用带有诸如分隔符之类特殊字符的字段)默认为quote_minimal
skipinitialspace 忽略分隔符后面的空白符。默认False
doublequote		 如何处理字段内的引用符号。如果为True,则双写。
escapechar		 用于对分隔符进行转义的字符串。默认禁用

总结：

 （1）对于那些使用复杂分隔符或多字符分隔符的文件，csv模块就无能为力了。在这种情况下，就只能用字符串split方法或正则表达式方法re.split
进行拆分和其它整理工作了。
（2）最后，如果你读取CSV数据的目的是做数据分析和统计的话，
你可能需要看一看 Pandas 包。Pandas 包含了一个非常方便的函数叫 pandas.read_csv() ，
它可以加载CSV数据到一个 DataFrame 对象中去。 然后利用这个对象你就可以生成各种形式的统计、过滤数据以及执行其他高级操作了

json格式的读取与写入：

通过json.loads可将json字符串转换成python形式,即从磁盘中读取

import pandas as pd
import numpy as np
from pandas import Series,DataFrame
import sys
import json

obj="""
{"name":"Wes",
"places_lived":["United States","Spain","Germany"],
"pet":null,
"siblings":[{"name":"Scott","age":25,"pet":"Zuko"},
                {"name":"Katie","age":33,"pet":"Cisco"}]
                }
"""
result=json.loads(obj)
print result
#输出结果如下：
{u'pet': None, u'siblings':
    [{u'pet': u'Zuko', u'age': 25, u'name': u'Scott'},
     {u'pet': u'Cisco', u'age': 33, u'name': u'Katie'}],
 u'name': u'Wes', u'places_lived': [u'United States', u'Spain', u'Germany']}

相反json.dumps则将python对象转换成JSON格式。即写入

asjson=json.dumps(result)
print asjson  #输出结果与上面的result一样的json格式

将(一个或一组)json对象转换为DataFrame或其它便于分析的数据结构就由你决定了。
最简单方便的方式是：向DataFrame构造器传入一组Json对象，并选取数据字段的子集(即可以选一部分字段，也可以全部选定)

siblings=DataFrame(result['siblings'],columns=['name','age']) #选取result中的'siblings',列选取name,age两列
print siblings
#输出的结果如下：
#     name  age
# 0  Scott   25
# 1  Katie   33

XML和HTML:Web信息收集

python有许多可以读写HTML和xml格式数据的库。lxml就是其中之一，它可以高效地解析大件。
lxml有多个编程接口。首先我们要用lxml.html处理HTML,然后再用lxml.objectify做一些XML处理。

HTML文件处理：

许多网站都将数据放到HTML表格中以便在浏览器中查看，但不能以一种更易于机器阅读的格式(如Json、HTML或XML)进行下载

（1）首先，找到你希望获取数据的URL,利用urllib2将其打开，然后用lxml解析得到的数据流。

import pandas as pd
import numpy as np
from pandas import Series,DataFrame
import sys
import json

from urllib2 import urlopen
from lxml.html import parse
from lxml import objectify

parsed=parse(urlopen('http://finance.yahoo.com/q/op?s=AAPL+Options'))
doc=parsed.getroot() #通过这个对象可以获取特定类型的所有HTML标签(tag)
#获取HTML中的链接是a标签的，可使用findall方法
links=doc.findall('.//a')  #得到所有a标签的对象，以列表形式显示
print links[15:20]
#输出结果如下：输出的是Html元素对象
# [,
# ,
# ,
# ,
# ]

（2）要得到URL和链接文本，必须使用各对象的get方法(针对URL)和text_content方法(针对显示文本)

lnk=links[15]
print lnk #显示的是下标为28的a标签的元素对象
print lnk.get('href') #用get方法得到以"href"的URL
#输出结果如下：/quote/AAPL180601P00145000?p=AAPL180601P00145000
print lnk.text_content()
#输出结果如下：AAPL180601P00145000
#使用下面这条列表推导式可获取文档中的全部URL
urls=[lnk.get('href') for lnk in doc.findall('.//a')]
print urls
#输出结果如下：
# ['https://finance.yahoo.com/', '#Navigation', '#market-summary', '#Main', '#Aside',
#  'https://mail.yahoo.com/?.intl=us&.lang=en-US&.partner=none&.src=finance', '/quote/AAPL?p=AAPL',
#  '/quote/AAPL/key-statistics?p=AAPL', '/quote/AAPL/profile?p=AAPL', '/quote/AAPL/financials?p=AAPL',]

（3）表格：从文档中找出正确表格，有些网站会给目标表格加上一个id属性。下面是两个分别放置看涨数据和跌数据的表格。

每个表格都有标题行。tr是表格中的行，th表头单元格，td数据单元格

tables=doc.findall('.//table')
print tables
#输出结果如下：是表格对象
# [, ]
calls=tables[0]
print calls #输出的是对象

#每个表格都有标题行。tr是表格中的行，th表头单元格，td数据单元格
#先取出标题行
rows=calls.findall('.//tr')
print rows #输出结果：也是行的元素对象如

#写一个函数：可以根据传入的参数得到相关表格中的数据
def _unpack(row,kind='td'):
    elts=row.findall('.//%s' % kind)
    return [val.text_content() for val in elts]
print _unpack(rows[1]) #取数据单元格中的数据值
#输出结果如下：取rows[1]即第2行的数据
# ['AAPL180608C00130000', '2018-05-04 11:45PM EDT', '130.00', '36.90', '53.40', '54.70', '0.00', '-', '1', '1', '0.00%']
print _unpack(rows[1],kind='th') #取表头单元格的值，即列的标题
#输出结果：['Strike','Symbol','Last','Chg','Bid','Ask']

(4)把所有步骤结合起来，将数据转换为一个DataFrame。由于数值型数据仍然是字符串格式，所以我们希望将部分弄转换为浮点数格式。

虽然可以手工实现该功能，但是pandas就有一个TextParser类可以自动类型转换(read_csv和其它解析函数其实在内部都用到了它)

from pandas.io.parsers import TextParser
def parse_option_data(table):
    rows=table.findall('.//tr')
    header=_unpack(rows[0],kind='th')
    data=[_unpack(r) for r in rows[1:]]
    return TextParser(data,names=header).get_chunk()

aa=parse_option_data(table=tables)
print DataFrame(aa)

利用lxml.objectify解析xml：可具体看另一篇专门介绍xml解析文件

aa.xml的内容如下：



    
        1181251680
        040000008200E000
        1181572063
        
        
        1800
        Bring pizza home
    
    
        1234360800
        1800
        Check MS Office website for updates
        
        604f4792-eb89-478b-a14f-dd34d3cc6c21-1234360800
        dismissed

def parseXML(xmlFile):
    """
    Parse the xml
    :param xmlFile:
    :return:
    """
    f=open(xmlFile) #1.先打开文件
    xml=f.read() #2.读取文件内容
    f.close()

    tree=etree.parse(StringIO(xml)) #3.用etree.parse解析xml文件的树结构
    context=etree.iterparse(StringIO(xml)) #4.etree.iterparse迭代解析xml文件的内容
    for action,elem in context:
        if not elem.text:
            text="None"
        else:
            text=elem.text
        print elem.tag+"=>"+text
if __name__=="__main__":
    parseXML("aa.xml")

def parseXML(xmlFile):
    """
    Parse the xml
    :param xmlFile:
    :return:
    """
    f=open(xmlFile)
    xml=f.read()
    f.close()

    tree=etree.parse(StringIO(xml))
    context=etree.iterparse(StringIO(xml))
    for action,elem in context:
        if not elem.text:
            text="None"
        else:
            text=elem.text
        print elem.tag+"=>"+text
if __name__=="__main__":
    parseXML("aa.xml")
#输出结果如下：
# begin = > 1181251680
# uid = > 040000008200E000
# alarmTime = > 1181572063
# state = > None
# location = > None
# duration = > 1800
# subject = > Bring
# pizza
# home
# appointment = >
# 
# begin = > 1234360800
# duration = > 1800
# subject = > Check
# MS
# Office
# website
# for updates
#     location = > None
# uid = > 604
# f4792 - eb89 - 478
# b - a14f - dd34d3cc6c21 - 1234360800
# state = > dismissed
# appointment = >
# 
# zAppointments = >

2.二进制数据格式：写入与读取

（1）使用python内置的pickle序列化读取和存储数据

实现数据的二进制格式存储最简单的办法之一是使用python内置的pickle序列化。
为了使用方便，pandas对象都有一个用于将数据以pickle形式保存到磁盘上的to_pickle方法。

相反，从磁盘上读取read_pickle。

import pandas as pd
import numpy as np
from pandas import Series,DataFrame


#二进制数据格式保存
frame=pd.read_csv('ex1.csv')
print frame
#输出结果如下：
#    a   b   c   d message
# 0  1   2   3   4   hello
# 1  5   6   7   8   world
# 2  9  10  11  12     foo

（1）可用to_pickle保存到磁盘
frame.to_pickle('frame_pickle')

(2）还有一个也很好用的pickle函数pandas.load将数据读回到python,load也没有了，现在是read_pickle读取数据
# pd.load('frame_pickle') #load已经不能用了，现在是read_pickle
print pd.read_pickle('frame_pickle')

警告：pickle仅建议用于短期存储格式。其原因是很难保证格式永远是稳定的。

今天的pickle的对象无法被后续版本的库unpickle出来。

（2）使用HDF5格式实现高效读写磁盘上以二进制格式存储的科学数据。

HDF5支持多种压缩器的即时压缩，能更高效地存储重复模式数据，对于那些非常大的无法直接放入内存的数据集，

HDF5就是不错的选择，因为它可以高效地分块读写。

python中的HDF5库有两个接口(即PyTables和h5py),h5py提供了一种直接而高级的HDF5 API访问接口，

而PyTables则抽象了HDF5的许多细节以提供多种灵活的数据容器、表索引、查询功能以及对核外计算技术的某些支持。

import pandas as pd
import numpy as np
from pandas import Series,DataFrame
import matplotlib.pyplot as plt
import tables

#二进制数据格式保存
frame=pd.read_csv('ex1.csv')
print frame
#输出结果如下：
#    a   b   c   d message
# 0  1   2   3   4   hello
# 1  5   6   7   8   world
# 2  9  10  11  12     foo

#两个函数用于生成数据
random_state = np.random.RandomState(1999)

def make_random_cluster_points(n_samples, random_state=random_state):
    mu_options = np.array([(-1, -1), (1, 1), (1, -1), (-1, 1)])
    sigma = 0.2
    mu_choices = random_state.randint(0, len(mu_options), size=n_samples)
    means = mu_options[mu_choices]
    return means + np.random.randn(n_samples, 2) * sigma, mu_choices

def plot_clusters(data, clusters, name):
    plt.figure()
    colors = ["#9b59b6", "#3498db", "#e74c3c", "#2ecc71"]
    for i in np.unique(clusters):
        plt.scatter(data[clusters==i, 0], data[clusters==i, 1], color=colors[i])
    plt.axis('off')
    plt.title('Plot from %s' % name)

#（1）数据写入到磁盘:open_file(文件名,'w'),create_array()
data, clusters = make_random_cluster_points(10000)
plot_clusters(data, clusters, "data in memory")
# plt.show() #画图展示
#PyTables存储数据到磁盘
sample_data,sample_clusters=make_random_cluster_points(10000)  #调用函数生成数据
hdf5_path="my_data.hdf5" #写入的文件名
hdf5_file=tables.open_file(hdf5_path,mode='w')
data_storage=hdf5_file.create_array(hdf5_file.root,'data',sample_data)
#hdf5_file.root即"/",data为创建array文件名相当于"/data",data里存储的是sample_data的数据.data像文件名
clusters_storage=hdf5_file.create_array(hdf5_file.root,'clusters',sample_clusters)
hdf5_file.close()

#（2）数据的读取:open_file(文件名,'r'),hdf5_file.root.data[:]
hdf5_path="my_data.hdf5"
read_hdf5_file=tables.open_file(hdf5_path,mode='r')
hdf5_data=read_hdf5_file.root.data[:] #读取read_hdf5_file根目录下的数据名称为data的全部数据
hdf5_clusters=read_hdf5_file.root.clusters[:] #读取read_hdf5_file根目录下的数据名称为clusters的全部数据
read_hdf5_file.close()

plot_clusters(hdf5_data,hdf5_clusters,"PyTables Array")
plt.show()

注意：HDF5不是数据库。它最适合用作”一次写多次读“的数据集。虽然数据可以在任何时候被添加到文件中，
但如果同时发生多个写操作，文件就可能会被破坏。

（3）读取Microsoft Excel文件

pandas的ExcelFile类文件读取存储在Excel中表格型数据。由于ExcelFile用到了（python读取excel表格的包）xlrd
和openpyxl包，所以先得安装它们才行。

# 读取excel文件：
xls_file=pd.ExcelFile('data.xls')
#存放在某个工作表中的数据可以通过parse读取到DataFrame中
table=xls_file.parse('Sheet1')

3.使用HTML和Web API：request包中的get来读取数据

import pandas as pd
import numpy as np
from pandas import Series,DataFrame
import matplotlib.pyplot as plt
import tables

import requests
import json

# url='https://twitter.com/search?q=python+pandas'
url='https://twitter.com/search?q=python%20pandas&src=typd'
resp=requests.get(url)
print resp.text


data=json.loads(resp.text) #将resp转化成json格式
print data
print data.keys()

#用一个列表定义出感兴趣的tweet字段，然后将results列表传给DataFrame:
tweet_fields=['created_at','from_user','id','text']
tweets=DataFrame(data['result'],columns=tweet_fields)
print tweets.ix[7]

4.使用数据库

sqlite3数据库：读取数据库数据

import pandas as pd
import numpy as np
from pandas import Series,DataFrame
import matplotlib.pyplot as plt
import tables

import requests
import json
import sqlite3

（1）数据连接
query="""
CREATE TABLE test
(a VARCHAR (20),b VARCHAR (20),
c REAL, d INTEGER );

"""
con=sqlite3.connect(':memory:')
con.execute(query)
con.commit()

（2）插入数据
data=[('Atlanta','Georgia',1.25,6),
      ('Tallahassee','Florida',2.6,3),
      ('Sacramento','California',1.7,5)]
stmt='INSERT INTO test VALUES(?,?,?,?)'
con.executemany(stmt,data)
con.commit()
#查询数据，即读取数据库数据
cursor=con.execute('select * from test')
rows=cursor.fetchall()
print rows
#输出结果如下：sqlite3取出的是列表
[(u'Atlanta', u'Georgia', 1.25, 6),
 (u'Tallahassee', u'Florida', 2.6, 3),
 (u'Sacramento', u'California', 1.7, 5)]

（3）可以将这个元组列表传给DataFrame的构造器，但还需要列名(位于游标的description属性中)
print cursor.description
#输出结果如下：
(('a', None, None, None, None, None, None),
 ('b', None, None, None, None, None, None),
 ('c', None, None, None, None, None, None),
 ('d', None, None, None, None, None, None))
（4）转换为DataFrame
result=DataFrame(rows,columns=zip(*cursor.description)[0])
print result
#输出结果如下：
#              a           b     c  d
# 0      Atlanta     Georgia  1.25  6
# 1  Tallahassee     Florida  2.60  3
# 2   Sacramento  California  1.70  5

（5）上面的方法每查一次就得写一次，pandas有一个可以简化该过程的read_sql函数(位于pandas.io.sql模块)。
# 只需传入select语句和连接对象即可。
import pandas.io.sql as sql
# print sql.read_sql('select * from test',con)
#或者直接用pd.read_sql不用先引入sql也一样的
df= pd.read_sql('select * from test',con)
#输出结果如下：
#              a           b     c  d
# 0      Atlanta     Georgia  1.25  6
# 1  Tallahassee     Florida  2.60  3
# 2   Sacramento  California  1.70  5
aa=DataFrame(df)
print aa

mysql数据库：读取数据库数据

#读取mysql中的数据
import pymysql
import configparser
config =configparser
(1)连接数据库
db=pymysql.connect("localhost","root",
                 "root","imooc")
cursor=db.cursor() #使用游标创建一个游标对象

（2）使用execute()方法执行sql查询
cursor.execute("select * from test1")
data=cursor.fetchall()
print data
#输出结果如下：4条数据，mysql取出的形式是元组
# ((1, 'tang seng', 79, 'xi tian qu jing', '11783213,131313133,78271783918'),
#  (2, 'zhu ba jie', 61, 'xi tian qu jing', '787138912,83918933'),
#  (3, 'sun wu kong', 91, 'ji tian da sheng', '1378219389,17898932183,1841898344,1989839898'),
#  (4, 'sha seng', 71, 'xi tian qu jing', '1649281938,15089328109'))
#
（3）列名信息在cursor.description中，及列的其它信息也在
print cursor.description #
#查看结果如下：
# ((u'id', 3, None, 11, 11, 0, 0),
#  (u'user_name', 253, None, 20, 20, 0, 1),
#  (u'score', 3, None, 2, 2, 0, 1),
#  (u'over', 253, None, 40, 40, 0, 1),
#  (u'mobile', 253, None, 100, 100, 0, 1))
print type(zip(*cursor.description)[0])
（4）将data放入DataFrame中，pandas必须是list才可以转化为DataFrame,而此处的Data是元组，故先转化为list才可以用
result=DataFrame(list(data),columns=zip(*cursor.description)[0])
print result
#输出结果如下：
#    id    user_name  score              over  \
# 0   1    tang seng     79   xi tian qu jing
# 1   2   zhu ba jie     61   xi tian qu jing
# 2   3  sun wu kong     91  ji tian da sheng
# 3   4     sha seng     71   xi tian qu jing
#
#                                          mobile
# 0                11783213,131313133,78271783918
# 1                            787138912,83918933
# 2  1378219389,17898932183,1841898344,1989839898
# 3                        1649281938,15089328109

（5）可以用read_sql一次性获取：
import pandas.io.sql as sql
result=sql.read_sql('select * from test1',db)
print result
#输出结果如下：
#    id   user_name    score              over  \
# 0   1    tang seng     79   xi tian qu jing
# 1   2   zhu ba jie     61   xi tian qu jing
# 2   3  sun wu kong     91  ji tian da sheng
# 3   4     sha seng     71   xi tian qu jing
#
#                                          mobile
# 0                11783213,131313133,78271783918
# 1                            787138912,83918933
# 2  1378219389,17898932183,1841898344,1989839898
# 3                        1649281938,15089328109
db.close()

注意：(1)DataFrame接受转换的是list形式：sqlit3用fetchall取出的是列表，所以可以直接放在DataFrame中，
        而mysql取出来的是元组，故要先转化成list.

mongoDB数据库：读取数据库数据

NoSQL数据库有许多不同的形式。有些是简单的字典式键值对存储，另一些则是基于文档的(其中的基本单元是字典型的对象)。

from pandas import Series,DataFrame
import pymongo
import datetime


# import configparser
# config =configparser
 (1)mongodb数据库的连接
con=pymongo.MongoClient('localhost',port=27017)
（2）创建数据库
# tweets=con.test_database
 (3)创建集合：一组文件存储在mongodb中，相当于数据库的各个表
# collection=tweets.test_collection
post = {"author": "Mike",
         "text": "My first blog post!",
         "tags": ["mongodb", "python", "pymongo"],
         "date": datetime.datetime.utcnow()}
(4)插入文件
posts=tweets.posts
post_id=posts.insert_one(post).inserted_id
（5）查询相关的数据
import pprint
pprint.pprint(posts.find_one({"author":"Mike"}))
(6)字典放入DataFrame中
p=DataFrame(post,columns=post.keys())
print p

你可能感兴趣的:(机器学习/大数据)

AI人工智能软件开发方案：开启智能时代的创新钥匙广州硅基技术官方人工智能
一、引言：AI浪潮下的软件开发新机遇近年来，人工智能（AI）技术的迅猛发展如同一股汹涌澎湃的浪潮，席卷了全球各个领域。从最初的概念提出到如今的广泛应用，AI历经了漫长的发展历程，终于迎来了属于它的黄金时代。回首过去，AI的发展并非一帆风顺，早期由于计算能力和算法的限制，经历了多次起伏。但随着大数据、云计算、机器学习、深度学习等技术的不断突破，AI迎来了爆发式增长。如今，AI已经深入到人们生活和工作
【机器学习】算法分类 CH3_CH2_CHO 什么？！是机器学习！！机器学习算法有监督学习无监督学习半监督学习强化学习
1、有监督学习1.1定义使用带标签的数据训练模型。有监督学习是机器学习中最常见的一种类型，它利用已知的输入特征和对应的输出标签来训练模型，使模型能够学习到特征与标签之间的映射关系。在训练过程中，模型会不断地调整自身的参数，以最小化预测值与真实标签之间的误差，从而提高预测的准确性。1.2回归问题1.2.1目标预测连续值。回归问题的目标是预测一个连续的数值结果，模型的输出是一个实数值。1.2.2解释回
Angular中`trackBy`函数的独特性与性能优化 t0_54program 编程问题解决手册 angular.js 前端 javascript 个人开发
在Angular项目中，优化性能是每一个开发者都需要考虑的问题。特别是在处理大数据量或动态变化的列表时，Angular的trackBy函数成为了我们手中的利器。然而，当我们面对多个列表使用相同trackBy函数时，可能会产生一些疑问：如果这些列表中的项有相同的ID，是否会影响Angular的变更检测？本文将详细探讨trackBy函数在这种情境下的表现及其带来的性能优化。trackBy函数简介tra
使用 Baseten 部署和运行机器学习模型的指南 shuoac 机器学习人工智能 python
随着机器学习模型在各个行业中的广泛应用，如何高效地部署和运行这些模型成为一个关键问题。本文将介绍如何使用Baseten平台来部署和服务机器学习模型。Baseten是LangChain生态系统中的一个重要提供者，它提供了所需的基础设施来高效地运行模型。无论是开源模型如Llama2和Mistral，还是专有或经过微调的模型，Baseten都能在专用GPU上运行。技术背景介绍Baseten提供了一种不同
石油储运生产 2D 可视化，组态应用赋能工业智慧发展智慧园区智慧城市 big data 人工智能大数据物联网网络
当前，国际油价低位徘徊导致各国石油化工行业投资大幅缩减，石油化工建设行业竞争环境日趋严峻，施工企业的利润空间也被不断压缩。内外交困的环境下，促使企业采取更有效的管理手段来提高效率和降低成本。石油工业大数据具有无限潜力与价值，将大数据与数据挖掘技术应用其中，不仅可以提升石油行业工业化水平，而且对其智慧化发展起到强有力的推动作用。图扑软件-构建先进2D和3D可视化所需要的一切图扑软件采用自主研发的HT
机器学习——分类、回归、聚类、LASSO回归、Ridge回归（自用）代码的建筑师模型学习模型训练机器学习机器学习分类回归正则化项 LASSO Ridge 朴素
纠正自己的误区：机器学习是一个大范围，并不是一个小的方向，比如：线性回归预测、卷积神经网络和强化学都是机器学习算法在不同场景的应用。机器学习最为关键的是要有数据，也就是数据集名词解释：数据集中的一行叫一条样本或者实例，列名称为特征或者属性。样本的数量称为数据量，特征的数量称为特征维度机器学习常用库：Numpy和sklearn朴素的意思是特征的各条件都是相互独立的机器学习（模型、策略、算法）损失函数
量化交易系统中如何处理机器学习模型的训练和部署？ openwin_top 量化交易系统开发机器学习人工智能量化交易
microPythonPython最小内核源码解析NI-motion运动控制c语言示例代码解析python编程示例系列python编程示例系列二python的Web神器Streamlit如何应聘高薪职位量化交易系统中，机器学习模型的训练和部署需要遵循一套严密的流程，以确保模型的可靠性、性能和安全性。以下是详细描述以及相关的示例：1.数据收集和预处理数据收集在量化交易中，数据是最重要的资产。收集的数
人民日报报道，华为云赋能智能制造助力图扑软件构造数字孪生场景智慧园区华为人工智能物联网
2021年12月22日，《人民日报》头版头条刊登了《华为云赋能智能制造，助力图扑软件构造数字孪生场景》一文，聚焦数据可视化建设发展。报道指出，数字经济发展的背后，是大数据时趋势下各地区积极贯彻国家数字经济发展战略的时代精神;高效便捷管控的背后，是云端平台各大企业的互助共赢;高质精准2D、3D数据可视图的背后，是专注于数据可视化Web组态开发的厦门图扑软件科技有限公司。并对厦门图扑软件科技有限公司进
华为云赋能智能制造，助力图扑软件构造数字孪生场景 36Kr网科技华为云制造 big data
出行手机查看交通方案、物业管理的智能可视勘察管控、疫情地图提前预知危害……这些曾经存在于科幻片中的高科技场景一一在现代生活得到了应用与普及，其背后的数据可视化应用，正贯穿于当今大数据时代的各行各业，成为人们洞察数据内涵的有力工具，推动数字经济发展驶入“快车道”。数字经济发展的背后，是大数据时趋势下各地区积极贯彻国家数字经济发展战略的时代精神；高效便捷管控的背后，是云端平台各大企业的互助共赢；高质精
【Spark】查询优化中分区（Partitioning）和分桶（Bucketing）是什么关系？什么时候应当分区，什么时候应当分桶？ petrel2015 spark 大数据分布式数据库
在学习Spark的过程中，分区和分桶乍一看很像，都能为了计算加速，但是仔细一想，一查还是有些差异的，甚至说差异很大。那么具体有什么差异点，有什么相同点。我做出了如下的整理，供大家参考，欢迎指正。相同点分区（Partitioning）和分桶（Bucketing）在很多方面具有相似性，它们都是用于优化大数据查询性能的技术数据划分的目的：优化查询性能分区和分桶的核心目标是通过将数据分割成更小的逻辑单元来
【深度学习与大模型基础】第7章-特征分解与奇异值分解 lynn-66 深度学习与大模型基础算法机器学习人工智能
一、特征分解特征分解（EigenDecomposition）是线性代数中的一种重要方法，广泛应用于计算机行业的多个领域，如机器学习、图像处理和数据分析等。特征分解将一个方阵分解为特征值和特征向量的形式，帮助我们理解矩阵的结构和性质。1.特征分解的定义对于一个n×n的方阵A，如果存在一个非零向量v和一个标量λ，使得：则称λ为矩阵A的特征值，v为对应的特征向量。特征分解将矩阵A分解为：其中：Q是由特征
【论文阅读】Persistent Homology Captures the Generalization of Neural Networks Without A Validation Set 开心星人论文阅读论文阅读
将神经网络表征为加权的无环图，直接根据模型的权重矩阵构造PD。计算相邻batch的权重矩阵PD之间的距离。比较同调收敛性与神经网络的验证精度变化趋势摘要机器学习从业者通常通过监控模型的某些指标来估计其泛化误差，并在训练数值收敛之前停止训练，以防止过拟合。通常，这种误差度量或任务相关的指标是通过一个验证集（holdoutset）来计算的。因为这些数据没有直接用于更新模型参数，通常假设模型在验证集上的
震惊！ “深度学习”都在学习什么扉间798 深度学习学习人工智能
常见的机器学习分类算法俗话说三个臭皮匠胜过诸葛亮这里面集成学习就是将单一的算法弱弱结合算法融合用投票给特征值加权重AdaBoost集成学习算法通过迭代训练一系列弱分类器，给予分类错误样本更高权重，使得后续弱分类器更关注这些样本，然后将这些弱分类器线性组合成强分类器，提高整体分类性能。（一）投票机制投票是一种直观且常用的算法融合策略。在多分类问题中，假设有多个分类器对同一数据进行分类判断。每个分类器
【论文阅读】Availability Attacks Create Shortcuts 开心星人论文阅读论文阅读
还得重复读这一篇论文，有些地方理解不够透彻可用性攻击通过在训练数据中添加难以察觉的扰动，使数据无法被机器学习算法利用，从而防止数据被未经授权地使用。例如，一家私人公司未经用户同意就收集了超过30亿张人脸图像，用于构建商业人脸识别模型。为解决这些担忧，许多数据投毒攻击被提出，以防止数据被未经授权的深度模型学习。它们通过在训练数据中添加难以察觉的扰动，使模型无法从数据中学习太多信息，从而导致模型在未见
机器学习 Day01人工智能概述山北雨夜漫步机器学习人工智能
1.什么样的程序适合在gpu上运行计算密集型的程序：此类程序主要运算集中在寄存器，寄存器读写速度快，而GPU拥有强大的计算能力，能高效处理大量的寄存器运算，因此适合在GPU上运行。像科学计算中的数值模拟、密码破解等场景的程序，都属于计算密集型，在GPU上运行可大幅提升运算速度。易于并行的程序：GPU采用SIMD架构，有众多核心，同一时间每个核心适合做相同的事。易于并行的程序能充分利用GPU这一特性
机器学习：让计算机学会思考的艺术平凡而伟大. 机器学习机器学习人工智能
目录什么是机器学习？机器学习的基本步骤常见的机器学习算法机器学习的实际应用如何入门机器学习？结语在当今数字化时代，机器学习（MachineLearning,ML）已经成为一个炙手可热的话题。从推荐系统到自动驾驶汽车，再到语音助手，机器学习的应用无处不在。然而，对于许多人来说，机器学习仍然是一个神秘而复杂的领域。本文将用通俗易懂的语言，带你走进机器学习的世界，了解它的基本原理和应用。什么是机器学习？
机器学习中的 K-均值聚类算法及其优缺点平凡而伟大. 机器学习机器学习算法均值算法
K-均值聚类是一种常用的无监督学习算法，用于将数据集中的样本分成K个簇。其基本原理是将所有样本点划分到K个簇使得簇内样本点之间的距离尽可能接近，而不同簇之间的距离尽可能远。算法流程如下：随机选择K个样本点作为初始的聚类中心。将每个样本点分配到与其最近的聚类中心所在的簇。更新每个簇的聚类中心为该簇所有样本点的平均值。重复第2步和第3步，直到聚类中心不再变化或者达到最大迭代次数。优点：简单且易于实现。
一文讲清楚深度学习和机器学习平凡而伟大. 机器学习人工智能深度学习机器学习人工智能
目录1.定义机器学习（MachineLearning,ML）深度学习（DeepLearning,DL）2.工作原理机器学习深度学习3.应用场景机器学习深度学习4.主要区别5.为什么选择深度学习？6.总结深度学习和机器学习是人工智能（AI）领域中两个密切相关但有所区别的概念。要清楚地解释它们之间的关系，我们可以从定义、工作原理、应用场景以及两者的主要区别等方面进行探讨。1.定义机器学习（Machin
机器学习knnlearn1 XW-ABAP 机器学习机器学习人工智能
importmatplotlib.pyplotaspltimportnumpyasnpimportoperator#定义一个函数用于创建数据集defcreateDataSet():#定义特征矩阵，每个元素是一个二维坐标点，代表不同策略数据点的坐标group=np.array([[20,3],[15,5],[18,1],[5,17],[2,15],[3,20]])#定义每个数据点对应的标签，用于区分
基于 MySQL 和 Spring Boot 的在线论坛管理系统设计与实现城南|阿洋-计算机从小白到大神 mysql spring boot 数据库
markdownCopy✌全网粉丝20W+,csdn特邀作者、博客专家、CSDN[新星计划]导师、java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、pyhton、机器学习技术领域和毕业项目实战✌哈喽兄弟们，好久不见哦～最近整理了一下之前写过的一些小项目/毕业设计。发现还是有很多存货的，想一想既然放在电脑里面也吃灰，那么还不如分享出去，没准还可以帮助到
零基础入门机器学习：用Scikit-learn实现鸢尾花分类藍海琴泉机器学习 scikit-learn 分类
适合人群：机器学习新手|数据分析爱好者|需快速展示案例的学生一、引言：为什么要学这个案例？目的：明确机器学习解决什么问题，建立学习信心。机器学习定义：让计算机从数据中自动学习规律（如分类鸢尾花品种）。为什么选鸢尾花数据集：数据量小、特征明确，适合教学演示。Scikit-learn优势：提供现成算法和工具，无需从头写数学公式。二、环境准备：5分钟快速上手目的：搭建可运行的代码环境，避免卡在工具安装环
机器学习--DBSCAN聚类算法详解 2201_75491841 机器学习算法聚类人工智能
目录引言1.什么是DBSCAN聚类？2.DBSCAN聚类算法的原理3.DBSCAN算法的核心概念3.1邻域（Neighborhood）3.2核心点（CorePoint）3.3直接密度可达（DirectlyDensity-Reachable）3.4密度可达（Density-Reachable）3.5密度相连（Density-Connected）4.DBSCAN算法的步骤5.DBSCAN算法的优缺点5
【机器学习】机器学习工程实战-第3章数据收集和准备腊肉芥末果机器学习工程实战机器学习人工智能
上一章：第2章项目开始前文章目录3.1关于数据的问题3.1.1数据是否可获得3.1.2数据是否相当大3.1.3数据是否可用3.1.4数据是否可理解3.1.5数据是否可靠3.2数据的常见问题3.2.1高成本3.2.2质量差3.2.3噪声（noise）3.2.4偏差（bias）3.2.5预测能力低（lowpredictivepower）3.2.6过时的样本3.2.7离群值3.2.8数据泄露/目标泄漏3
机器学习实战第一章机器学习基础 LuoY、 Machine Learning 机器学习算法人工智能
第一章机器学习1.1何谓机器学习1.2关键术语1.3机器学习的主要任务1.4如何选择合适的算法1.5开发机器学习应用程序的步骤1.6Python语言的优势1.1何谓机器学习 1、简单地说，机器学习就是把无序的数据转换成有用的信息； 2、机器学习能让我们自数据集中受启发，我们会利用计算机来彰显数据背后的真实含义； 3、机器学习横跨计算机科学、工程技术和统计学等多个学科，需要多学科的
数据挖掘实战-基于机器学习的垃圾邮件检测模型艾派森数据挖掘实战合集数据挖掘机器学习人工智能 python
‍♂️个人主页：@艾派森的个人主页✍作者简介：Python学习者希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+目录1.项目背景2.数据集介绍
集成学习（随机森林） herry57 数学建模大数据随机森林集成学习
目录一、集成学习概念二、Bagging集成原理三、随机森林四、例子（商品分类）一、集成学习概念集成学习通过建⽴⼏个模型来解决单⼀预测问题。它的⼯作原理是⽣成多个分类器/模型，各⾃独⽴地学习和作出预测。这些预测最后结合成组合预测，因此优于任何⼀个单分类的做出预测。只要单分类器的表现不太差，集成学习的结果总是要好于单分类器的二、Bagging集成原理分类圆形和长方形三、随机森林在机器学习中，随机森林是
【机器学习】朴素贝叶斯入门：从零到垃圾邮件过滤实战吴师兄大模型 0基础实现机器学习入门到精通机器学习人工智能朴素贝叶斯深度学习 pytorch sklearn 开发语言
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
【机器学习】机器学习工程实战-第2章项目开始前腊肉芥末果机器学习工程实战机器学习人工智能
上一章：第1章概述文章目录2.1机器学习项目的优先级排序2.1.1机器学习的影响2.1.2机器学习的成本2.2估计机器学习项目的复杂度2.2.1未知因素2.2.2简化问题2.2.3非线性进展2.3确定机器学习项目的目标2.3.1模型能做什么2.3.2成功模型的属性2.4构建机器学习团队2.4.1两种文化2.4.2机器学习团队的成员2.5机器学习项目为何失败2.5.1缺乏有经验的人才2.5.2缺乏领
机器学习怎么做特征工程全栈你个大西瓜人工智能机器学习人工智能特征工程数据预处理特征变换特征降维特征构造
一、特征工程通俗解释特征工程就像厨师做菜前的食材处理：原始数据是“生肉和蔬菜”，特征工程是“切块、腌制、调料搭配”，目的是让机器学习模型（食客）更容易消化吸收，做出更好预测（品尝美味）。二、为什么要做特征工程？数据质量差：原始数据常有缺失、噪声、不一致问题（如年龄列混入“未知”）。模型限制：算法无法直接理解原始数据（如文本、日期需要数值化）。提升效果：好特征能显著提升模型性能（准确率提升10%~5
【机器学习】机器学习四大分类藓类少女机器学习机器学习分类人工智能
机器学习的方法主要可以分为四大类，根据学习方式和数据标注情况进行分类：1.监督学习（SupervisedLearning）特点：有标注数据（即训练数据有明确的输入(X)和输出(Y)）。学习目标是找到一个映射(f(X)\approxY)。适用于分类和回归问题。主要算法：分类（Classification）：逻辑回归（LogisticRegression）支持向量机（SVM）朴素贝叶斯（NaïveBa
解线性方程组 qiuwanchi
package gaodai.matrix; import java.util.ArrayList; import java.util.List; import java.util.Scanner; public class Test { public static void main(String[] args) { Scanner scanner = new Sc
在mysql内部存储代码 annan211 性能 mysql 存储过程触发器
在mysql内部存储代码在mysql内部存储代码，既有优点也有缺点，而且有人倡导有人反对。先看优点： 1 她在服务器内部执行，离数据最近，另外在服务器上执行还可以节省带宽和网络延迟。 2 这是一种代码重用。可以方便的统一业务规则，保证某些行为的一致性，所以也可以提供一定的安全性。 3 可以简化代码的维护和版本更新。 4 可以帮助提升安全，比如提供更细
Android使用Asynchronous Http Client完成登录保存cookie的问题 hotsunshine android
Asynchronous Http Client是android中非常好的异步请求工具除了异步之外还有很多封装比如json的处理，cookie的处理引用 Persistent Cookie Storage with PersistentCookieStore This library also includes a PersistentCookieStore whi
java面试题 Array_06 java 面试
java面试题第一，谈谈final, finally, finalize的区别。 final-修饰符（关键字）如果一个类被声明为final，意味着它不能再派生出新的子类，不能作为父类被继承。因此一个类不能既被声明为 abstract的，又被声明为final的。将变量或方法声明为final，可以保证它们在使用中不被改变。被声明为final的变量必须在声明时给定初值，而在以后的引用中只能
网站加速 oloz 网站加速
前序:本人菜鸟，此文研究总结来源于互联网上的资料，大牛请勿喷！本人虚心学习，多指教. 1、减小网页体积的大小，尽量采用div+css模式，尽量避免复杂的页面结构，能简约就简约。 2、采用Gzip对网页进行压缩； GZIP最早由Jean-loup Gailly和Mark Adler创建，用于UNⅨ系统的文件压缩。我们在Linux中经常会用到后缀为.gz
正确书写单例模式随意而生 java 设计模式单例
　　单例模式算是设计模式中最容易理解，也是最容易手写代码的模式了吧。但是其中的坑却不少，所以也常作为面试题来考。本文主要对几种单例写法的整理，并分析其优缺点。很多都是一些老生常谈的问题，但如果你不知道如何创建一个线程安全的单例，不知道什么是双检锁，那这篇文章可能会帮助到你。　　懒汉式，线程不安全　　当被问到要实现一个单例模式时，很多人的第一反应是写出如下的代码，包括教科书上也是这样
单例模式香水浓 java
懒汉调用getInstance方法时实例化 public class Singleton { private static Singleton instance; private Singleton() {} public static synchronized Singleton getInstance() { if(null == ins
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" AdyZhang apache http server
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" 每次到这一步都很小心防它的端口冲突问题，结果，特意留出来的80端口就是不能用，烦。解决方法确保几处： 1、停止IIS启动 2、把端口80改成其它（譬如90，800，，，什么数字都好） 3、防火墙(关掉试试) 在运行处输入 cmd 回车，转到apa
如何在android 文件选择器中选择多个图片或者视频？ aijuans android
我的android app有这样的需求，在进行照片和视频上传的时候，需要一次性的从照片/视频库选择多条进行上传但是android原生态的sdk中，只能一个一个的进行选择和上传。我想知道是否有其他的android上传库可以解决这个问题，提供一个多选的功能，可以使checkbox之类的，一次选择多个处理方法官方的图片选择器(但是不支持所有版本的androi，只支持API Level
mysql中查询生日提醒的日期相关的sql baalwolf mysql
SELECT sysid,user_name,birthday,listid,userhead_50,CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')),CURDATE(), dayofyear( CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')))-dayofyear(
MongoDB索引文件破坏后导致查询错误的问题 BigBird2012 mongodb
问题描述： MongoDB在非正常情况下关闭时，可能会导致索引文件破坏，造成数据在更新时没有反映到索引上。解决方案：使用脚本，重建MongoDB所有表的索引。 var names = db.getCollectionNames(); for( var i in names ){ var name = names[i]; print(name);
Javascript Promise bijian1013 JavaScript Promise
Parse JavaScript SDK现在提供了支持大多数异步方法的兼容jquery的Promises模式，那么这意味着什么呢，读完下文你就了解了。一.认识Promises “Promises”代表着在javascript程序里下一个伟大的范式，但是理解他们为什么如此伟大不是件简
[Zookeeper学习笔记九]Zookeeper源代码分析之Zookeeper构造过程 bit1129 zookeeper
Zookeeper重载了几个构造函数，其中构造者可以提供参数最多，可定制性最多的构造函数是 public ZooKeeper(String connectString, int sessionTimeout, Watcher watcher, long sessionId, byte[] sessionPasswd, boolea
【Java命令三】jstack bit1129 jstack
jstack是用于获得当前运行的Java程序所有的线程的运行情况(thread dump），不同于jmap用于获得memory dump [hadoop@hadoop sbin]$ jstack Usage: jstack [-l] <pid> (to connect to running process) jstack -F
jboss 5.1启停脚本　动静分离部署 ronin47
以前启动jboss，往各种xml配置文件，现只要运行一句脚本即可。start nohup sh /**/run.sh -c servicename -b ip -g clustername -u broatcast jboss.messaging.ServerPeerID=int -Djboss.service.binding.set=p
UI之如何打磨设计能力? brotherlamp UI ui教程 ui自学 ui资料 ui视频
在越来越拥挤的初创企业世界里，视觉设计的重要性往往可以与杀手级用户体验比肩。在许多情况下，尤其对于 Web 初创企业而言，这两者都是不可或缺的。前不久我们在《右脑革命：别学编程了，学艺术吧》中也曾发出过重视设计的呼吁。如何才能提高初创企业的设计能力呢?以下是 9 位创始人的体会。 1.找到自己的方式如果你是设计师，要想提高技能可以去设计博客和展示好设计的网站如D-lists或
三色旗算法 bylijinnan java 算法
import java.util.Arrays; /** 问题：假设有一条绳子，上面有红、白、蓝三种颜色的旗子，起初绳子上的旗子颜色并没有顺序，您希望将之分类，并排列为蓝、白、红的顺序，要如何移动次数才会最少，注意您只能在绳子上进行这个动作，而且一次只能调换两个旗子。网上的解法大多类似：在一条绳子上移动，在程式中也就意味只能使用一个阵列，而不使用其它的阵列来
警告:No configuration found for the specified action: \'s chiangfai configuration
1.index.jsp页面form标签未指定namespace属性。  <%@taglib prefix="s" uri="/struts-tags"%> ... <s:form action="submit" method="post"&g
redis -- hash_max_zipmap_entries设置过大有问题 chenchao051 redis hash
使用redis时为了使用hash追求更高的内存使用率，我们一般都用hash结构，并且有时候会把hash_max_zipmap_entries这个值设置的很大，很多资料也推荐设置到1000，默认设置为了512，但是这里有个坑 #define ZIPMAP_BIGLEN 254 #define ZIPMAP_END 255 /* Return th
select into outfile access deny问题 daizj mysql txt 导出数据到文件
本文转自：http://hatemysql.com/2010/06/29/select-into-outfile-access-deny%E9%97%AE%E9%A2%98/ 为应用建立了rnd的帐号，专门为他们查询线上数据库用的，当然，只有他们上了生产网络以后才能连上数据库，安全方面我们还是很注意的，呵呵。授权的语句如下： grant select on armory.* to rn
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
<?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('This example should only be run from a Web Brows
美国电影超短200句 dcj3sjt126com 电影
1. I see．我明白了。2. I quit! 我不干了!3. Let go! 放手!4. Me too．我也是。5. My god! 天哪!6. No way! 不行!7. Come on．来吧(赶快)8. Hold on．等一等。9. I agree。我同意。10. Not bad．还不错。11. Not yet．还没。12. See you．再见。13. Shut up!
Java访问远程服务 dyy_gusi httpclient webservice get post
随着webService的崛起，我们开始中会越来越多的使用到访问远程webService服务。当然对于不同的webService框架一般都有自己的client包供使用，但是如果使用webService框架自己的client包，那么必然需要在自己的代码中引入它的包，如果同时调运了多个不同框架的webService，那么就需要同时引入多个不同的clien
Maven的settings.xml配置 geeksun settings.xml
settings.xml是Maven的配置文件，下面解释一下其中的配置含义： settings.xml存在于两个地方： 1.安装的地方：$M2_HOME/conf/settings.xml 2.用户的目录：${user.home}/.m2/settings.xml 前者又被叫做全局配置，后者被称为用户配置。如果两者都存在，它们的内容将被合并，并且用户范围的settings.xml优先。
ubuntu的init与系统服务设置 hongtoushizi ubuntu
转载自： http://iysm.net/?p=178 init Init是位于/sbin/init的一个程序，它是在linux下，在系统启动过程中，初始化所有的设备驱动程序和数据结构等之后，由内核启动的一个用户级程序，并由此init程序进而完成系统的启动过程。 ubuntu与传统的linux略有不同，使用upstart完成系统的启动，但表面上仍维持init程序的形式。运行
跟我学Nginx+Lua开发目录贴 jinnianshilongnian nginx lua
使用Nginx+Lua开发近一年的时间，学习和实践了一些Nginx+Lua开发的架构，为了让更多人使用Nginx+Lua架构开发，利用春节期间总结了一份基本的学习教程，希望对大家有用。也欢迎谈探讨学习一些经验。目录第一章安装Nginx+Lua开发环境第二章 Nginx+Lua开发入门第三章 Redis/SSDB+Twemproxy安装与使用第四章 L
php位运算符注意事项 home198979 位运算 PHP &
$a = $b = $c = 0; $a & $b = 1; $b | $c = 1 问a,b,c最终为多少? 当看到这题时，我犯了一个低级错误，误以为位运算符会改变变量的值。所以得出结果是1 1 0 但是位运算符是不会改变变量的值的，例如： $a=1;$b=2; $a&$b; 这样a,b的值不会有任何改变
Linux shell数组建立和使用技巧 pda158 linux
1.数组定义　　[chengmo@centos5 ~]$ a=(1 2 3 4 5) 　　[chengmo@centos5 ~]$ echo $a 　　1 　　一对括号表示是数组，数组元素用“空格”符号分割开。　　 2.数组读取与赋值　　得到长度：　　[chengmo@centos5 ~]$ echo ${#a[@]} 　　5 　　用${#数组名[@或
hotspot源码(JDK7) ol_beta java HotSpot jvm
源码结构图，方便理解： ├─agent Serviceab
Oracle基本事务和ForAll执行批量DML练习 vipbooks oracle sql
基本事务的使用：从账户一的余额中转100到账户二的余额中去，如果账户二不存在或账户一中的余额不足100则整笔交易回滚 select * from account; -- 创建一张账户表 create table account( -- 账户ID id number(3) not null, -- 账户名称 nam