第01章 Pandas基础
第02章 DataFrame基础运算
第03章创建和持久化DataFrame
第04章开始数据分析
第05章探索性数据分析
第06章选取数据子集
第07章过滤行
第08章索引对齐

3.1 创建DataFrame

使用平行的列表创建DataFrame

>>> import pandas as pd
>>> import numpy as np
>>> fname = ["Paul", "John", "Richard", "George"]
>>> lname = ["McCartney", "Lennon", "Starkey", "Harrison"]
>>> birth = [1942, 1940, 1940, 1943]

创建字典：

>>> people = {"first": fname, "last": lname, "birth": birth}

用该字典创建DataFrame：

>>> beatles = pd.DataFrame(people)
>>> beatles
     first       last  birth
0     Paul  McCartney   1942
1     John     Lennon   1940
2  Richard    Starkey   1940
3   George   Harrison   1943

原理

当调用DataFrame构造器时，Pandas会创建一个RangeIndex对象：

>>> beatles.index
RangeIndex(start=0, stop=4, step=1)

重新指定索引：

>>> pd.DataFrame(people, index=["a", "b", "c", "d"])
     first       last  birth
a     Paul  McCartney   1942
b     John     Lennon   1940
c  Richard    Starkey   1940
d   George   Harrison   1943

还可以用字典构成的列表构建DataFrame：

>>> pd.DataFrame(
...     [
...         {
...             "first": "Paul",
...             "last": "McCartney",
...             "birth": 1942,
...         },
...         {
...             "first": "John",
...             "last": "Lennon",
...             "birth": 1940,
...         },
...         {
...             "first": "Richard",
...             "last": "Starkey",
...             "birth": 1940,
...         },
...         {
...             "first": "George",
...             "last": "Harrison",
...             "birth": 1943,
...         },
...     ]
... )
   birth    first       last
0   1942     Paul  McCartney
1   1940     John     Lennon
2   1940  Richard    Starkey
3   1943   George   Harrison

使用columns参数指定列的顺序：

>>> pd.DataFrame(
...     [
...         {
...             "first": "Paul",
...             "last": "McCartney",
...             "birth": 1942,
...         },
...         {
...             "first": "John",
...             "last": "Lennon",
...             "birth": 1940,
...         },
...         {
...             "first": "Richard",
...             "last": "Starkey",
...             "birth": 1940,
...         },
...         {
...             "first": "George",
...             "last": "Harrison",
...             "birth": 1943,
...         },
...     ],
...     columns=["last", "first", "birth"],
... )
        last    first  birth
0  McCartney     Paul   1942
1     Lennon     John   1940
2    Starkey  Richard   1940
3   Harrison   George   1943

3.2 写入CSV

将DataFrame写入CSV文件：

使用.to_csv方法将DataFrame写入CSV文件：

>>> beatles
     first       last  birth
0     Paul  McCartney   1942
1     John     Lennon   1940
2  Richard    Starkey   1940
3   George   Harrison   1943
>>> from io import StringIO
>>> fout = StringIO()
>>> beatles.to_csv(fout)  # 使用文件名

查看文件内容：

>>> print(fout.getvalue())
,first,last,birth
0,Paul,McCartney,1942
1,John,Lennon,1940
2,Richard,Starkey,1940
3,George,Harrison,1943

如果读取刚刚保存的CSV，会读入列名为Unnamed: 0的冗余列：

>>> _ = fout.seek(0)
>>> pd.read_csv(fout)
   Unnamed: 0    first       last  birth
0           0     Paul  McCartney   1942
1           1     John     Lennon   1940
2           2  Richard    Starkey   1940
3           3   George   Harrison   1943

使用index_col参数，可以指定列：

>>> _ = fout.seek(0)
>>> pd.read_csv(fout, index_col=0)
     first       last  birth
0     Paul  McCartney   1942
1     John     Lennon   1940
2  Richard    Starkey   1940
3   George   Harrison   1943

如果存CSV文件时，不想保存行索引，可以将index参数设为False：

>>> fout = StringIO()
>>> beatles.to_csv(fout, index=False)
>>> print(fout.getvalue())
first,last,birth
Paul,McCartney,1942
John,Lennon,1940
Richard,Starkey,1940
George,Harrison,1943

3.3 读取大CSV文件

Pandas是在内存中处理文件的，通常来讲，内存的大小需要是文件大小的3至10倍。

这里使用的是diamonds数据集。使用nrows参数读取1000行数据。

>>> diamonds = pd.read_csv("data/diamonds.csv", nrows=1000)
>>> diamonds
     carat      cut color clarity  ...  price     x     y     z
0     0.23    Ideal     E     SI2  ...    326  3.95  3.98  2.43
1     0.21  Premium     E     SI1  ...    326  3.89  3.84  2.31
2     0.23     Good     E     VS1  ...    327  4.05  4.07  2.31
3     0.29  Premium     I     VS2  ...    334  4.20  4.23  2.63
4     0.31     Good     J     SI2  ...    335  4.34  4.35  2.75
..     ...      ...   ...     ...  ...    ...   ...   ...   ...
995   0.54    Ideal     D    VVS2  ...   2897  5.30  5.34  3.26
996   0.72    Ideal     E     SI1  ...   2897  5.69  5.74  3.57
997   0.72     Good     F     VS1  ...   2897  5.82  5.89  3.48
998   0.74  Premium     D     VS2  ...   2897  5.81  5.77  3.58
999   1.12  Premium     J     SI2  ...   2898  6.68  6.61  4.03

使用.info方法查看消耗的内存量：

>>> diamonds.info()

RangeIndex: 1000 entries, 0 to 999
Data columns (total 10 columns):
carat      1000 non-null float64
cut        1000 non-null object
color      1000 non-null object
clarity    1000 non-null object
depth      1000 non-null float64
table      1000 non-null float64
price      1000 non-null int64
x          1000 non-null float64
y          1000 non-null float64
z          1000 non-null float64
dtypes: float64(6), int64(1), object(3)
memory usage: 78.2+ KB

可以看到1000行数据使用了78.2KB内存。如果有10亿行数据，则要占用78GB的内存。

使用dtype参数，设置读取的数值类型：

>>> diamonds2 = pd.read_csv(
...     "data/diamonds.csv",
...     nrows=1000,
...     dtype={
...         "carat": np.float32,
...         "depth": np.float32,
...         "table": np.float32,
...         "x": np.float32,
...         "y": np.float32,
...         "z": np.float32,
...         "price": np.int16,
...     },
... )
>>> diamonds2.info()

RangeIndex: 1000 entries, 0 to 999
Data columns (total 10 columns):
carat      1000 non-null float32
cut        1000 non-null object
color      1000 non-null object
clarity    1000 non-null object
depth      1000 non-null float32
table      1000 non-null float32
price      1000 non-null int16
x          1000 non-null float32
y          1000 non-null float32
z          1000 non-null float32
dtypes: float32(6), int16(1), object(3)
memory usage: 49.0+ KB

改变了数值类型，对比下新的DataFrame和原先的DataFrame：

>>> diamonds.describe()
             carat        depth  ...            y            z
count  1000.000000  1000.000000  ...  1000.000000  1000.000000
mean      0.689280    61.722800  ...     5.599180     3.457530
std       0.195291     1.758879  ...     0.611974     0.389819
min       0.200000    53.000000  ...     3.750000     2.270000
25%       0.700000    60.900000  ...     5.630000     3.450000
50%       0.710000    61.800000  ...     5.760000     3.550000
75%       0.790000    62.600000  ...     5.910000     3.640000
max       1.270000    69.500000  ...     7.050000     4.330000
>>> diamonds2.describe()
             carat        depth  ...            y            z
count  1000.000000  1000.000000  ...  1000.000000  1000.000000
mean      0.689453    61.718750  ...     5.601562     3.457031
std       0.195312     1.759766  ...     0.611816     0.389648
min       0.199951    53.000000  ...     3.750000     2.269531
25%       0.700195    60.906250  ...     5.628906     3.449219
50%       0.709961    61.812500  ...     5.761719     3.550781
75%       0.790039    62.593750  ...     5.910156     3.640625
max       1.269531    69.500000  ...     7.050781     4.328125

可以看到通过改变数据类型，节省了38%的内存。

使用dtype参数，将数据类型改为category。使用.value_counts先统计数据个数：

>>> diamonds2.cut.value_counts(
Ideal       333
Premium     290
Very Good   226
Good         89
Fair         62
Name: cut, dtype: int64
>>> diamonds2.color.value_counts()
E    240
F    226
G    139
D    129
H    125
I     95
J     46
Name: color, dtype: int64
>>> diamonds2.clarity.value_counts()
SI1     306
VS2     218
VS1     159
SI2     154
VVS2     62
VVS1     58
I1       29
IF       14
Name: clarity, dtype: int64

因为是低基数，将其转换为category，可以节省约37%的内存：

>>> diamonds3 = pd.read_csv(
...     "data/diamonds.csv",
...     nrows=1000,
...      dtype={
...        "carat": np.float32,
...         "depth": np.float32,
...         "table": np.float32,
...         "x": np.float32,
...         "y": np.float32,
...         "z": np.float32,
...         "price": np.int16,
...         "cut": "category",
...         "color": "category",
...         "clarity": "category",
...     },
... )
>>> diamonds3.info()

RangeIndex: 1000 entries, 0 to 999
Data columns (total 10 columns):
carat      1000 non-null float32
cut        1000 non-null category
color      1000 non-null category
clarity    1000 non-null category
depth      1000 non-null float32
table      1000 non-null float32
price      1000 non-null int16
x          1000 non-null float32
y          1000 non-null float32
z          1000 non-null float32
dtypes: category(3), float32(6), int16(1)
memory usage: 29.4 KB

使用参数usecols，可以指定加载哪些列。这里忽略了x、y、z三列：

>>> cols = [
...     "carat",
...     "cut",
...     "color",
...     "clarity",
...     "depth",
...     "table",
...     "price",
... ]
>>> diamonds4 = pd.read_csv(
...     "data/diamonds.csv",
...     nrows=1000,
...     dtype={
...         "carat": np.float32,
...        "depth": np.float32,
...         "table": np.float32,
...         "price": np.int16,
...         "cut": "category",
...         "color": "category",
...         "clarity": "category",
...     },
...     usecols=cols,
... )
>>> diamonds4.info()

RangeIndex: 1000 entries, 0 to 999
Data columns (total 7 columns):
carat      1000 non-null float32
cut        1000 non-null category
color      1000 non-null category
clarity    1000 non-null category
depth      1000 non-null float32
table      1000 non-null float32
price      1000 non-null int16
dtypes: category(3), float32(3), int16(1)
memory usage: 17.7 KB

现在使用的内存只有原始的21%。

如果每次只处理数据的一部分，可以使用chunksize参数：

>>> cols = [
...     "carat",
...     "cut",
...     "color",
...     "clarity",
...     "depth",
...     "table",
...     "price",
... ]
>>> diamonds_iter = pd.read_csv(
...     "data/diamonds.csv",
...     nrows=1000,
...     dtype={
...         "carat": np.float32,
...         "depth": np.float32,
...         "table": np.float32,
...         "price": np.int16,
...         "cut": "category",
...         "color": "category",
...         "clarity": "category",
...     },
...     usecols=cols,
...     chunksize=200,
... )
>>> def process(df):
...     return f"processed {df.size} items"
>>> for chunk in diamonds_iter:
...     process(chunk)

因为CSV文件不保存数据类型，Pandas需要推断每列的数据类型是什么。如果一列的值都是整数，并且没有缺失值，则Pandas将其认定为int64。如果一列是数值类型，但不是整数，或存在缺失值，Pandas使用的是float64。这两种数据类型占用的内存比较大。例如，如果所有数都在200以下，你可以使用一个小的数据类型，比如np.int16（或np.int8，如果都是正数）。

如果某列都是非数值类型，Pandas会将其转换为object类型。object类型占用内存很多，因为它是将数据以Python字符串存储的，将类型改为category，可以大大节省空间，因为它对每个字符串只存储一次。

如果价格使用int8，会导致丢失信息。你可以使用NumPy的iinfo函数列出NumPy整数类型的范围：

>>> np.iinfo(np.int8)
iinfo(min=-128, max=127, dtype=int8)

使用.finfo可以查看浮点数类型的范围：

>>> np.finfo(np.float16)
finfo(resolution=0.001, min=-6.55040e+04,
      max=6.55040e+04, dtype=float16)

还可以用.memory_usage方法查询DataFrame或Series使用了多少字节。注意，其中是包含行索引的。另外，传入deep=True，可以查询带有对象类型的Series的内存用量：

>>> diamonds.price.memory_usage()
8080
>>> diamonds.price.memory_usage(index=False)
8000
>>> diamonds.cut.memory_usage()
8080
>>> diamonds.cut.memory_usage(deep=True)
63413

一旦确定了数据类型，可以将其以二进制并带有数据类型的形式保存下来，比如Feather格式，Pandas使用的是pyarrow库。

>>> diamonds4.to_feather("d.arr")
>>> diamonds5 = pd.read_feather("d.arr")

另一种方法是使用Parquet格式。

>>> diamonds4.to_parquet("/tmp/d.pqt")

3.4 使用Excel文件

需要安装xlwt或openpyxl来写入XLSX文件。

使用.to_excel方法，进行存储：

>>> beatles.to_excel("beat.xls")
>>> beatles.to_excel("beat.xlsx")

《Pandas 1.x Cookbook · 第二版》第03章创建和持久化DataFrame_第1张图片

使用read_excel读取Excel文件：

>>> beat2 = pd.read_excel("/tmp/beat.xls")
>>> beat2
   Unnamed: 0    first       last  birth
0           0     Paul  McCartney   1942
1           1     John     Lennon   1940
2           2  Richard    Starkey   1940
3           3   George   Harrison   1943

用参数index_col，指定行索引：

>>> beat2 = pd.read_excel("/tmp/beat.xls", index_col=0)
>>> beat2
     first       last  birth
0     Paul  McCartney   1942
1     John     Lennon   1940
2  Richard    Starkey   1940
3   George   Harrison   1943

Excel保存了数据类型：

>>> beat2.dtypes
first    object
last     object
birth     int64
dtype: object

使用sheet_name参数命名表单：

>>> xl_writer = pd.ExcelWriter("beat2.xlsx")
>>> beatles.to_excel(xl_writer, sheet_name="All")
>>> beatles[beatles.birth < 1941].to_excel(
...     xl_writer, sheet_name="1940"
... )
>>> xl_writer.save()

这个Excel文件包含两个表单，一个名字是All，一个名字是1940。

3.5 使用ZIP文件

如果CSV文件是ZIP文件中的唯一文件，可以直接使用read_csv函数：

>>> autos = pd.read_csv("data/vehicles.csv.zip")
>>> autos
       barrels08  barrelsA08  ...  phevHwy  phevComb
0      15.695714         0.0  ...        0         0
1      29.964545         0.0  ...        0         0
2      12.207778         0.0  ...        0         0
3      29.964545         0.0  ...        0         0
4      17.347895         0.0  ...        0         0
...          ...         ...  ...      ...       ...
41139  14.982273         0.0  ...        0         0
41140  14.330870         0.0  ...        0         0
41141  15.695714         0.0  ...        0         0
41142  15.695714         0.0  ...        0         0
41143  18.311667         0.0  ...        0         0
>>> autos.modifiedOn.dtype
dtype('O')

因为CSV文件中包含日期的列，它是字符串。可以在使用read_csv时使用parse_dates加载文件，另一种方法是加载文件后用to_datetime方法解析：

>>> autos= pd.read_csv(
...     "data/vehicles.csv.zip", parse_dates=["modifiedOn"]
... )
>>> autos.modifiedOn
0       2013-01-0...
1       2013-01-0...
2       2013-01-0...
3       2013-01-0...
4       2013-01-0...
            ...     
41139   2013-01-0...
41140   2013-01-0...
41141   2013-01-0...
41142   2013-01-0...
41143   2013-01-0...
Name: modifiedOn, Length: 41144, dtype: datetime64[ns, tzlocal()]

>>> autos.modifiedOn
0        Tue Jan 01 00:00:00 EST 2013
1        Tue Jan 01 00:00:00 EST 2013
2        Tue Jan 01 00:00:00 EST 2013
3        Tue Jan 01 00:00:00 EST 2013
4        Tue Jan 01 00:00:00 EST 2013
                     ...
39096    Tue Jan 01 00:00:00 EST 2013
39097    Tue Jan 01 00:00:00 EST 2013
39098    Tue Jan 01 00:00:00 EST 2013
39099    Tue Jan 01 00:00:00 EST 2013
39100    Tue Jan 01 00:00:00 EST 2013
Name: modifiedOn, Length: 39101, dtype: object
>>> pd.to_datetime(autos.modifiedOn)
0       2013-01-01
1       2013-01-01
2       2013-01-01
3       2013-01-01
4       2013-01-01
           ...
39096   2013-01-01
39097   2013-01-01
39098   2013-01-01
39099   2013-01-01
39100   2013-01-01
Name: modifiedOn, Length: 39101, dtype: datetime64[ns]

如果ZIP文件中有多个文件，可以使用zipfile模块。因为数据集第二行中包含问题，将其存入kag_questions。

>>> import zipfile
>>> with zipfile.ZipFile(
...     "data/kaggle-survey-2018.zip"
... ) as z:
...     print("\n".join(z.namelist()))
...     kag = pd.read_csv(
...         z.open("multipleChoiceResponses.csv")
...     )
...     kag_questions = kag.iloc[0]
...     survey = kag.iloc[1:]
multipleChoiceResponses.csv
freeFormResponses.csv
SurveySchema.csv
>>> survey.head(2).T
1          2
Time from...          710        434
Q1                 Female       Male
Q1_OTHER_...           -1         -1
Q2                  45-49      30-34
Q3            United S...  Indonesia
...                   ...        ...
Q50_Part_5            NaN        NaN
Q50_Part_6            NaN        NaN
Q50_Part_7            NaN        NaN
Q50_Part_8            NaN        NaN
Q50_OTHER...           -1         -1

如果压缩文件中只有一个文件，则read_csv方法还可以读取GZIP、BZ2和XZ文件。

3.6 使用数据库

创建SQLite数据库，存储Beatles信息：

>>> import sqlite3
>>> con = sqlite3.connect("data/beat.db")
>>> with con:
...     cur = con.cursor()
...     cur.execute("""DROP TABLE Band""")
...     cur.execute(
...         """CREATE TABLE Band(id INTEGER PRIMARY KEY,
...         fname TEXT, lname TEXT, birthyear INT)"""
...     )
...     cur.execute(
...         """INSERT INTO Band VALUES(
...         0, 'Paul', 'McCartney', 1942)"""
...     )
...     cur.execute(
...         """INSERT INTO Band VALUES(
...         1, 'John', 'Lennon', 1940)"""
...     )
...     _ = con.commit()

从DataFrame读取数据库，这里使用的是SQLAlchemy：

>>> import sqlalchemy as sa
>>> engine = sa.create_engine(
...     "sqlite:///data/beat.db", echo=True
... )
>>> sa_connection = engine.connect()
>>> beat = pd.read_sql(
...     "Band", sa_connection, index_col="id"
... )
>>> beat
   fname      lname  birthyear
id                            
0   Paul  McCartney       1942
1   John     Lennon       1940

使用SQL语句读取数据。可以使用SQLite或SQLAlchemy连接：

>>> sql = """SELECT fname, birthyear from Band"""
>>> fnames = pd.read_sql(sql, con)
>>> fnames
  fname  birthyear
0  Paul       1942
1  John       1940

3.7 读取JSON

JSON数据的编码和加载：

>>> import json
>>> encoded = json.dumps(people)
>>> encoded
'{"first": ["Paul", "John", "Richard", "George"], "last": ["McCartney", "Lennon", "Starkey", "Harrison"], "birth": [1942, 1940, 1940, 1943]}'
>>> json.loads(encoded)
{'first': ['Paull', 'John', 'Richard', 'George'], 'last': ['McCartney', 'Lennon', 'Starkey', 'Harrison'], 'birth': [1942, 1940, 1940, 1943]}

使用.read_json读取json数据，使用字典中的键名作为列名。

>>> beatles = pd.read_json(encoded)
>>> beatles
     first       last  birth
0     Paul  McCartney   1942
1     John     Lennon   1940
2  Richard    Starkey   1940
3   George   Harrison   1943

读取JSON时，Pandas支持一些特定的方式：

columns —— （默认）将列名映射为列中的值的列表；
records —— 行的列表。每行是一个字典，一行映射到一个值；
split —— columns映射到列名，index映射到行索引值，data映射到每行数据组成的列表；
index —— 将索引映射到行，每行是一个列映射到值的字典；
values —— 数据行构成的列表（每行也是列表）。不包含列和行索引的值；
table —— 将schema映射到DataFrame的纲要，data映射为字典的列表。

参考下面的代码：

>>> records = beatles.to_json(orient="records")
>>> records
'[{"first":"Paul","last":"McCartney","birth":1942},{"first":"John","last":"Lennon","birth":1940},{"first":"Richard","last":"Starkey","birth":1940},{"first":"George","last":"Harrison","birth":1943}]'
>>> pd.read_json(records, orient="records")
   birth    first       last
0   1942     Paul  McCartney
1   1940     John     Lennon
2   1940  Richard    Starkey
3   1943   George   Harrison
>>> split = beatles.to_json(orient="split")
>>> split
'{"columns":["first","last","birth"],"index":[0,1,2,3],"data":[["Paul","McCartney",1942],["John","Lennon",1940],["Richard","Starkey",1940],["George","Harrison",1943]]}'
>>> pd.read_json(split, orient="split")
     first       last  birth
0     Paul  McCartney   1942
1     John     Lennon   1940
2  Richard    Starkey   1940
3   George   Harrison   1943
>>> index = beatles.to_json(orient="index")
>>> index
'{"0":{"first":"Paul","last":"McCartney","birth":1942},"1":{"first":"John","last":"Lennon","birth":1940},"2":{"first":"Richard","last":"Starkey","birth":1940},"3":{"first":"George","last":"Harrison","birth":1943}}'
>>> pd.read_json(index, orient="index")
   birth    first       last
0   1942     Paul  McCartney
1   1940     John     Lennon
2   1940  Richard    Starkey
3   1943   George   Harrison
>>> values = beatles.to_json(orient="values")
>>> values
'[["Paul","McCartney",1942],["John","Lennon",1940],["Richard","Starkey",1940],["George","Harrison",1943]]'
>>> pd.read_json(values, orient="values")
         0          1     2
0     Paul  McCartney  1942
1     John     Lennon  1940
2  Richard    Starkey  1940
3   George   Harrison  1943
>>> (
...     pd.read_json(values, orient="values").rename(
...         columns=dict(
...             enumerate(["first", "last", "birth"])
...         )
...     )
... )
     first       last  birth
0     Paul  McCartney   1942
1     John     Lennon   1940
2  Richard    Starkey   1940
3   George   Harrison   1943
>>> table = beatles.to_json(orient="table")
>>> table
'{"schema": {"fields":[{"name":"index","type":"integer"},{"name":"first","type":"string"},{"name":"last","type":"string"},{"name":"birth","type":"integer"}],"primaryKey":["index"],"pandas_version":"0.20.0"}, "data": [{"index":0,"first":"Paul","last":"McCartney","birth":1942},{"index":1,"first":"John","last":"Lennon","birth":1940},{"index":2,"first":"Richard","last":"Starkey","birth":1940},{"index":3,"first":"George","last":"Harrison","birth":1943}]}'
>>> pd.read_json(table, orient="table")
     first       last  birth
0     Paul  McCartney   1942
1     John     Lennon   1940
2  Richard    Starkey   1940
3   George   Harrison   1943

如果要将数据转换为字典，可以使用.to_dict方法，方便添加数据：

>>> output = beat.to_dict()
>>> output
{'fname': {0: 'Paul', 1: 'John'}, 'lname': {0: 'McCartney', 1: 'Lennon'}, 'birthyear': {0: 1942, 1: 1940}}
>>> output["version"] = "0.4.1"
>>> json.dumps(output)
'{"fname": {"0": "Paul", "1": "John"}, "lname": {"0": "McCartney", "1": "Lennon"}, "birthyear": {"0": 1942, "1": 1940}, "version": "0.4.1"}'

3.8 读取HTML表格

可以使用Pandas读取HTML中的表格：

《Pandas 1.x Cookbook · 第二版》第03章创建和持久化DataFrame_第2张图片

Wikipedia中的表格

# 译者注：en.wikipedia.org 需要科学上网
>>> url = 'https://en.wikipedia.org/wiki/The_Beatles_discography'
>>> dfs = pd.read_html(url)
>>> len(dfs)
51

一共读取了51个df，检查一下第一个：

>>> dfs[0]
  The Beatles discography The Beatles discography.1
0  The Beat...             The Beat...
1  Studio a...                      23
2  Live albums                       5
3  Compilat...                      53
4  Video al...                      15
5  Music vi...                      64
6          EPs                      21
7      Singles                      63
8     Mash-ups                       2
9     Box sets                      15

.read_html有一个match参数，可以是字符串或正则表达式。还有一个attrs参数，用于定位HTML标签。

检查下HTML的table元素：

将release列分别存入release_date 和label两列：
>>> res = (
...     df.pipe(
...         lambda df_: df_[
...             ~df_.Title.str.startswith("Released")
...         ]
...     )
...     .assign(
...         release_date=lambda df_: pd.to_datetime(
...             df_.Release.str.extract(
...                 r"Released: (.*) Label"
...             )[0].str.replace(r"\[E\]", "")
...         ),
...         label=lambda df_: df_.Release.str.extract(
...             r"Label: (.*)"
...         ),
...     )
...     .loc[
...         :,
...         [
...             "Title",
...             "UK",
...             "AUS",
...             "CAN",
...             "FRA",
...             "GER",
...             "NOR",
...             "US",
...             "release_date",
...             "label",
...         ],
...     ]
... )
>>> res
          Title   UK  ... release_date        label
0   Please P...    1  ...   1963-03-22  Parlopho...
1   With the...    1  ...   1963-11-22  Parlopho...
2   Introduc...  NaN  ...   1964-01-10  Vee-Jay ...
3   Meet the...  NaN  ...   1964-01-20  Capitol ...
4   Twist an...  NaN  ...   1964-02-03  Capitol ...
..          ...  ...  ...          ...          ...
21  Magical ...   31  ...   1967-11-27  Parlopho...
22  The Beat...    1  ...   1968-11-22        Apple
23  Yellow S...    3  ...   1969-01-13  Apple (U...
24   Abbey Road    1  ...   1969-09-26        Apple
25    Let It Be    1  ...   1970-05-08        Apple
更多
直接读取线上的csv文件：
>>> url = https://github.com/mattharrison/datasets/blob/master/data/anscombes.csv
>>> dfs = pd.read_html(url, attrs={"class": "csv-data"})
>>> len(dfs)
1
>>> dfs[0]
    Unnamed: 0 quadrant     x     y
0          NaN        I  10.0  8.04
1          NaN        I  14.0  9.96
2          NaN        I   6.0  7.24
3          NaN        I   9.0  8.81
4          NaN        I   4.0  4.26
..         ...      ...   ...   ...
39         NaN       IV   8.0  6.58
40         NaN       IV   8.0  7.91
41         NaN       IV   8.0  8.47
42         NaN       IV   8.0  5.25
43         NaN       IV   8.0  6.89
第01章 Pandas基础
 第02章 DataFrame基础运算
 第03章 创建和持久化DataFrame
 第04章 开始数据分析
 第05章 探索性数据分析
 第06章 选取数据子集
 第07章 过滤行
 第08章 索引对齐

                    
                        
                        
                             
                        
                        
                        
                            
                        
                        
                        
                            
                        
                    
                

        你可能感兴趣的:(《Pandas 1.x Cookbook · 第二版》第03章 创建和持久化DataFrame)
        
            
                
                    排序指标
                        

                        排序指标MAP（平均准确率指标）AP@K=∑k=1KP(k)∗rel(k)∑kKrel(k)AP@K=\frac{\sum_{k=1}^{K}P(k)*rel(k)}{\sum_{k}^{K}rel(k)}AP@K=∑kKrel(k)∑k=1KP(k)∗rel(k)其中，rel(k)rel(k)rel(k)表示第k个元素是否与查询元素相关，相关为1，不想管为0。P(k)表示前k个结果的准确率。MA
                    
                    基于Spring Boot的网络购物商城的设计与实现
                        代论文网课招代理
springboot后端java
                        目录摘要：IAbstract：II第1章系统分析11.1系统概述11.2系统可行性分析11.2.1技术可行性分析11.2.2经济可行性分析11.2.3社会可行性分析11.3需求分析21.2.1业务角色分析21.2.2用例分析3第2章系统设计42.1功能模块设计42.2功能流程设计52.2.1商品加入购物车流程52.2.2用户下单流程62.3数据库设计72.3.1数据库E-R设计72.3.2数据表设
                    
                    第 5 部分 - 关系与超链接 API
                        
pythondjango
                        目前我们API中的关系是通过使用主键来表示的。在教程的这一部分中，我们将通过使用超链接来代替主键，从而提高API的内聚性和可发现性。为我们的API根创建一个端点现在我们已经有了"snippets"和"users"的端点，但我们没有一个单一的API入口点。为了创建一个入口点，我们将使用一个普通的基于函数的视图以及我们之前介绍的@api_view装饰器。在你的snippets/views.py中添加：
                    
                    第 3 部分 - 类视图
                        
pythondjango
                        我们也可以使用类视图，而不是基于函数的视图来编写API视图。我们会看到，这是一种强大的模式，允许我们重用通用功能，并有助于我们保持代码的简洁性。我们将从重构views.py中的根视图为类视图开始。fromsnippets.modelsimportSnippetfromsnippets.serializersimportSnippetSerializerfromdjango.httpimportHt
                    
                    第 4 部分 - 认证与权限
                        
pythondjango
                        目前我们的API对于谁能编辑或删除代码片段没有任何限制。我们希望实现更高级的行为以确保：代码片段始终与创建者相关联。只有经过身份验证的用户才能创建片段。只有片段的创建者才能更新或删除它。未经过身份验证的请求应具有完全的只读访问权限。向模型中添加信息我们将在Snippet模型类中做一些更改。首先，让我们添加几个字段。其中的一个字段将用于表示创建代码片段的用户。另一个字段将用于存储代码的高亮HTML表
                    
                    第 2 部分 - 请求与响应
                        
pythondjango
                        从这里开始，我们将深入介绍REST框架的核心内容。首先，让我们来了解一下几个基础且重要的构建模块。请求对象REST框架引入了一个Request对象，它扩展了普通的HttpRequest，并提供了更灵活的请求解析功能。Request对象的核心功能是request.data属性，它类似于request.POST，但在处理WebAPI时更为实用。request.POST#仅处理表单数据。仅适用于'POS
                    
                    【赵渝强老师】OceanBase数据库从零开始：Oracle模式
                        

                        这里我们来介绍一下新上线的课程《OceanBase数据库从零开始：Oracle模式》，本门课程共11章，视频讲解如下：https://www.bilibili.com/video/BV1r4NCzHEka/?aid=114720556191...下面详细介绍一下每一章的主要内容：第01章-OceanBase的体系架构本章主要介绍OceanBase分布式数据库集群的体系架构，包括：OBServer节
                    
                    【LangGraph】langgraph.store.base 模块：定义持久化键值存储的核心模块
                        彬彬侠
LangGraphLangGraphstorebase
                        有条理的详细介绍langgraph.store.base模块langgraph.store.base模块是LangGraph框架中用于定义持久化键值存储的核心模块，提供了标准化的接口和数据结构，以支持状态管理和长时记忆存储。它是LangGraph的重要组成部分，特别适合构建复杂、状态化的多代理应用。本文将从背景、功能、主要组件、使用方法、实际应用及注意事项等方面，详细介绍该模块，帮助开发者理解其设
                    
                    第27篇：SELinux安全增强机制深度解析与OpenEuler实践指南
                        

                        SELinux安全增强机制深度解析与OpenEuler实践指南一、SELinux核心概念与安全体系架构1.1访问控制机制演进与SELinux定位在计算机系统安全领域，访问控制机制经历了从简单到复杂的发展历程。传统的自主访问控制（DAC）以文件所有者权限为核心，如Linux中的UID/GID权限体系，允许所有者自由分配权限，但这种机制在面对多用户复杂环境时存在安全隐患——一旦用户账户被入侵，攻击者可
                    
                    从Python到数据结构：为什么这是每个自学者必经的进阶之路
                        流水煮香茗
python数据结构mooc
                        当你熟练掌握Python语法后，下一步应该学什么？答案是数据结构。本文将深入分析为什么数据结构是编程进阶的关键，以及如何选择合适的学习资源。一、Python学会了，然后呢？如果你正在读这篇文章，很可能你已经：用Python写过小工具，能解决工作和生活中的一些小需求做过数据分析，会用pandas处理Excel表格但是，当你想要进一步提升时，却发现了一些困惑：困惑1：代码能跑，但总觉得"不够优雅"你的
                    
                    我的世界1.20.1forge模组开发进阶教程——序列化（1）
                        lemon_sjdk
java我的世界mcforge模组开发序列化
                        mc的序列化在《Minecraft》（MC）中，序列化指将游戏数据（如方块、实体、玩家状态等）转换为可存储或传输的格式。这是游戏运行、存档保存和网络通信的关键技术。以下是Minecraft中常见的序列化方式及其用途：一、序列化在Minecraft中的作用存档数据持久化将玩家建筑、地图、物品栏等数据保存到硬盘（如.minecraft/saves中的区域文件）。网络传输服务器与客户端同步方块更新、实体
                    
                    【第二章:机器学习与神经网络概述】03.类算法理论与实践-(3)决策树分类器
                        IT古董
人工智能课程机器学习算法神经网络
                        第二章:机器学习与神经网络概述第三部分：类算法理论与实践第三节：决策树分类器内容：信息增益、剪枝技术、过拟合与泛化能力。决策树是一种常用于分类和回归的树状结构模型，它通过一系列特征判断进行决策，有良好的可解释性。一、基本概念节点（Node）：表示特征判断条件边（Branch）：表示特征判断的结果路径叶子节点（Leaf）：表示分类结果二、划分准则：信息增益（InformationGain）信息增益衡
                    
                    第 3 章：神经网络如何学习
                        鱼摆摆拜拜
神经网络学习人工智能
                        第3章：神经网络如何学习在第二章中，我们详细了解了神经网络的静态结构：由神经元组成的层，以及连接它们的权重和偏置。现在，我们将进入整个教程最核心的部分：神经网络是如何从数据中"学习"的？这个学习过程是一个动态的、不断调整自身参数以求更佳预测的过程。我们将通过四个关键概念来揭示这个秘密：前向传播(ForwardPropagation)：数据如何通过网络产生一个预测？损失函数(LossFunction
                    
                    redis的持久化
                        2401_85327573
redis数据库缓存
                        Redis的持久化机制是其重要特性之一，允许将内存中的数据保存到磁盘，以防止数据丢失或支持系统重启后数据恢复；Redis提供两种主要持久化方式：RDB（快照）和AOF（追加日志）。1.Redis持久化机制(1)RDB（快照）RDB持久化通过定期将内存中的数据集快照保存到磁盘上的二进制文件。-工作原理：-Redis在满足特定条件（如时间间隔或操作次数）时，触发快照操作。-优点：-文件紧凑，适合备份和
                    
                    如何在编辑器wangEditor中完美复制粘贴WORD内容？
                        M_Snow
编辑器wordumeditor粘贴wordueditor粘贴wordueditor复制wordueditor上传word图片ueditor导入word
                        要求：开源，免费，技术支持编辑器：wangEditor前端：vue2,vue3,vue-cli,html5后端：java,jsp,springboot,asp.net,php,asp,.netcore,.netmvc,.netform群体：学生,个人用户,外包,自由职业者,中小型网站,博客,场景：数字门户,数字中台,站群,内网，外网，信创国产化环境，web截屏行业：医疗，教育，建筑，政府，党政，国
                    
                    网页版wangEditor如何实现WORD图片的高效粘贴？
                        M_Snow
wordumeditor粘贴wordueditor粘贴wordueditor复制wordueditor上传word图片ueditor导入wordueditor导入pdf
                        要求：开源，免费，技术支持编辑器：wangEditor前端：vue2,vue3,vue-cli,html5后端：java,jsp,springboot,asp.net,php,asp,.netcore,.netmvc,.netform群体：学生,个人用户,外包,自由职业者,中小型网站,博客,场景：数字门户,数字中台,站群,内网，外网，信创国产化环境，web截屏行业：医疗，教育，建筑，政府，党政，国
                    
                    汇川变频器模拟量输入控制速度/pid控制
                        m0_51648467
变频器
                        用DI1和DI2控制电机正反转启停，用AI2（模拟量0-20ma）控制电机转速F4-33=十位2----曲线2F0-03=3AI2为主频率设定通道(J9跳线为电流0mA~20mA输入)F4-18=0F4-19=0F4-20=10F4-21=100%F0-02设置为1（用端子控制变频器的启动、停止。），通过MF.K键可实现端子与操作面板的切换F1参数根据电机铭牌参数设置：F1-00电机类型选择1：变
                    
                    【头歌】MapReduce基础实战 答案
                        Seven_Two2
头歌大数据实验答案c#开发语言
                        本专栏已收集大数据所有答案第1关：成绩统计编程要求使用MapReduce计算班级每个学生的最好成绩，输入文件路径为/user/test/input，请将计算后的结果输出到/user/test/output/目录下。答案：需要先在命令行启动HDFS#命令行start-dfs.sh再在代码文件中写入以下代码#代码文件importjava.io.IOException;importjava.util.S
                    
                    YOLOv8模型在RDK5开发板上的部署指南：.pt到.bin转换与优化实践
                        pk_xz123456
python算法仿真模型YOLO人工智能rnn深度学习开发语言lstm
                        以下是针对在RDK5开发板（基于NVIDIAJetsonOrin平台）部署YOLOv8模型的详细技术指南，涵盖从模型转换、优化到部署的全流程：YOLOv8模型在RDK5开发板上的部署指南：.pt到.bin转换与优化实践——基于TensorRT的高性能嵌入式部署方案第一章：技术背景与核心概念1.1RDK5开发板硬件架构NVIDIAJetsonOrinNX核心参数：1024-coreAmpereGPU
                    
                    【学习】《算法图解》第七章学习笔记：树
                        
程序员
                        前言在前面的章节中，我们学习了数组、链表、散列表等基本数据结构，以及一些基础算法。本章将介绍一种非常重要的数据结构——树(Tree)，特别是二叉搜索树(BinarySearchTree)。树结构在计算机科学中应用广泛，从文件系统到数据库再到人工智能，都能看到树的身影。《算法图解》第七章深入浅出地介绍了树的基本概念、实现和应用，帮助读者理解这一关键数据结构。一、树的基本概念（一）什么是树树是一种分层
                    
                    【python】pip 国内镜像源
                        叶阿猪
pythonpythonpip开发语言
                        使用pip下载安装python第三方库的时候，经常会很慢，甚至报错。如下：pip._vendor.urllib3.exceptions.ReadTimeoutError:HTTPSConnectionPool(host='f而使用Python的镜像源（也称为国内安装源或PyPI镜像源）可以提高Python包（如numpy、pandas等）的安装速度和稳定性。Python的镜像源是在国内设置的代理服
                    
                    Java 数组的创建、取值、赋值
                        Y1_again_0_again
Javajava开发语言
                        一、一维数组1.1什么是一维数组一维数组是指仅包含一个维度的数据集合，类似于Excel表格中的单行数据，例如{1,2,3}。1.2在元素已知的情况下创建一维数组语法格式：数据类型[]数组名={值1,值2,值3,...};元素访问：通过数组下标获取元素，格式为数组名[数组下标]。需要注意的是，数组下标从0开始计数，即a[0]表示数组a的第一个元素，依此类推。示例1：创建一个整型一维数组，并输出其第1
                    
                    JVM调优实战 Day 9：JVM堆转储分析
                        在未来等你
JVM调优实战JVMJava性能优化调优虚拟机
                        【JVM调优实战Day9】JVM堆转储分析文章内容开篇：Day9——JVM堆转储分析的核心价值在“JVM调优实战”系列的第9天，我们聚焦于JVM堆转储分析（HeapDumpAnalysis）。这是JVM性能诊断和内存问题排查的重要手段之一，尤其适用于解决内存泄漏、内存溢出、对象分布异常等问题。本节将详细介绍堆转储的基本概念、生成方式、分析工具及实际应用案例。通过本节的学习，读者可以掌握如何利用jm
                    
                    Docker 从入门到精通：运维工程师的容器化生存指南
                        大模型大数据攻城狮
运维docker容器k8s运维面试dockerfile虚拟化
                        目录第1章：Docker是什么？为什么它能改变运维的游戏规则？第2章：Docker安装与环境准备第3章：Docker常用命令入门第4章：Dockerfile的初探第5章：Docker网络的那些事儿第6章：数据持久化：让容器数据不“失忆”第7章：DockerCompose：多容器的“交响乐指挥家”第8章：进阶命令与运维技巧第9章：Docker与CI/CD：让部署快如闪电第10章：容器监控：让你的Do
                    
                    【数据挖掘】分类算法学习—ID3
                        会的全对٩(ˊᗜˋ*)و
数据挖掘数据挖掘分类学习经验分享ID3
                        分类算法学习—ID3ID3（IterativeDichotomiser3）是一种经典的决策树学习算法，由RossQuinlan于1986年提出，主要用于处理离散特征的分类问题。其核心思想是通过信息增益选择最优特征进行节点分裂，递归构建决策树。要求：理解并掌握ID3算法，理解算法的原理，能够实现算法，并对给定的数据集进行分类，分析个人参股的情况代码实现：importpandasaspdimportn
                    
                    电脑上温度符号℃摄氏度怎么打?
                        l550725541
生活技巧
                        摄氏度的含义是指在1标准大气压下，纯净的冰水混合物的温度为0摄氏度，水的沸点为100摄氏度，用符号℃表示，是世界上使用较为广泛的温标之一。那么电脑上温度符号℃摄氏度怎么打？1.将电脑的输入切换为拼音输入法（搜狗拼音、百度拼音或者QQ拼音都可以）；2.输入『摄氏度』的中文拼音『sheshidu』，选择第5项，即可打出『℃』.
                    
                    事件驱动架构（EDA）：不止是代码，更是现代运维的灵魂
                        运维开发王义杰
系统运维系统架构aws架构运维
                        今天我们来聊一个在云原生时代越来越火热的概念——事件驱动架构（Event-DrivenArchitecture,EDA）。大家可能在浏览AWSEventBridge、ApacheKafka或RabbitMQ的文档时遇到过它。起初，可能会觉得这只是软件工程师在设计微服务时用到的一种模式。但如果我们深入思考就会发现，EDA的精髓早已渗透到现代系统运维的方方面面，甚至可以说，它是一种构建和管理高韧性、高
                    
                    无路可逃java攻略_《生化危机2：重制版》幽灵生还者无路可逃流程攻略
                        捡钱花
无路可逃java攻略
                        《生化危机2：重制版》的幽灵生还者DLC中，当玩家通关了前面的三章之后就能解锁第四章——无路可逃，这个关卡需要解决100个丧尸，难度十分之高，下面小编就为大家带来一篇“lu_mkⅡ”分享的幽灵生还者无路可逃流程攻略。幽灵生还者无路可逃流程攻略1、打到40波和85波各为一个分水岭。2、先说40波40店门口会出现第一个火焰喷射器的背包丧尸，也是头40个敌人熬出头的时候，前期子弹不合理安排或者运气不好丧
                    
                    恐怖黎明 决定版 中文 免安 离线运行版
                        与凌风000
恐怖黎明决定版
                        最低配置:操作系统*:WindowsXP/WindowsVista/Windows7/Windows8/Windows10处理器:x86兼容2.3GHz或更快的处理器（英特尔第2代酷睿i系列或同等产品）内存:2GB内存显卡:512MBNVIDIAGeForce6800系列或ATIRadeonX800系列或更高DirectX版本：9.0摄氏度存储空间:需要5GB可用空间声卡:兼容DirectX9.0
                    
                    Html5播放器禁止拖动播放器进度条（教学场景）
                        

                        禁用视频课程进度条的拖动功能，主要是为了强制学员按照课程设计的顺序观看内容，防止跳过关键知识点，从而保证学习效果和课程的完整性。这在以下几种教育场景中尤为常见和有意义。演示地址：禁用拖动视频进度条01.防止应试作弊：在一些需要观看视频才能解锁下一章节或完成测试的场景中，禁用拖动能确保学员真正观看了教学内容，而不是仅仅为了完成任务而快进。02.强制观看基础知识：对于那些知识点层层递进的课程（例如编程
                    
                                java短路运算符和逻辑运算符的区别
                                    3213213333332132
java基础
                                    
/*
		 * 逻辑运算符——不论是什么条件都要执行左右两边代码
		 * 短路运算符——我认为在底层就是利用物理电路的“并联”和“串联”实现的
		 * 原理很简单，并联电路代表短路或（||），串联电路代表短路与（&&）。
		 * 
		 * 并联电路两个开关只要有一个开关闭合，电路就会通。
		 * 类似于短路或（||），只要有其中一个为true（开关闭合）是
                                
                                Java异常那些不得不说的事
                                    白糖_
javaexception
                                    一、在finally块中做数据回收操作 
比如数据库连接都是很宝贵的，所以最好在finally中关闭连接。 
JDBCAgent jdbc = new JDBCAgent();
try{
jdbc.excute("select * from ctp_log");
}catch(SQLException e){
...
}finally{
jdbc.close();

                                
                                utf-8与utf-8(无BOM)的区别
                                    dcj3sjt126com
PHP
                                    BOM——Byte Order Mark，就是字节序标记       在UCS 编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符，它的编码是FEFF。而FFFE在UCS中是不存在的字符，所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前，先传输 字符"ZERO WIDTH NO-BREAK SPACE"。这样如
                                
                                JAVA Annotation之定义篇
                                    周凡杨
java注解annotation入门注释
                                        Annotation: 译为注释或注解 
An annotation, in the Java computer programming language, is a form of syntactic metadata that can be added to Java source code. Classes, methods, variables, pa
                                
                                tomcat的多域名、虚拟主机配置
                                    g21121
tomcat
                                    众所周知apache可以配置多域名和虚拟主机，而且配置起来比较简单，但是项目用到的是tomcat，配来配去总是不成功。查了些资料才总算可以，下面就跟大家分享下经验。 
很多朋友搜索的内容基本是告诉我们这么配置： 
在Engine标签下增面积Host标签，如下： 
<Host name="www.site1.com"  appBase="webapps"
                                
                                Linux SSH 错误解析（Capistrano 的cap 访问错误 Permission ）
                                    510888780
linuxcapistrano
                                     
1.ssh -v [email protected] 出现 
Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password). 
错误 
 
运行状况如下： 
 
 
OpenSSH_5.3p1, OpenSSL 1.0.1e-fips 11 Feb 2013
debug1: Reading configuratio
                                
                                log4j的用法
                                    Harry642
javalog4j
                                    一、前言：     log4j 是一个开放源码项目，是广泛使用的以Java编写的日志记录包。由于log4j出色的表现，     当时在log4j完成时，log4j开发组织曾建议sun在jdk1.4中用log4j取代jdk1.4 的日志工具类，但当时jdk1.4已接近完成，所以sun拒绝使用log4j，当在java开发中
                                
                                mysql、sqlserver、oracle分页，java分页统一接口实现
                                    aijuans
oraclejave
                                      
定义：pageStart 起始页，pageEnd 终止页,pageSize页面容量 
oracle分页： 
　　　　select * from ( select mytable.*,rownum num from (实际传的SQL) where rownum<=pageEnd) where num>=pageStart 
sqlServer分页： 
 
                                
                                Hessian 简单例子
                                    antlove
javaWebservicehessian
                                    hello.hessian.MyCar.java 
package hessian.pojo;

import java.io.Serializable;


public class MyCar implements Serializable {

    private static final long serialVersionUID = 473690540190845543
                                
                                数据库对象的同义词和序列
                                    百合不是茶
sql序列同义词ORACLE权限
                                    回顾简单的数据库权限等命令; 
解锁用户和锁定用户
alter user scott account lock/unlock;
//system下查看系统中的用户
select * dba_users;

//创建用户名和密码
create user wj identified by wj;
identified by 
//授予连接权和建表权
grant connect to 
                                
                                使用Powermock和mockito测试静态方法
                                    bijian1013
持续集成单元测试mockitoPowermock
                                            实例： 
package com.bijian.study;

import static org.junit.Assert.assertEquals;

import java.io.IOException;

import org.junit.Before;
import org.junit.Test;
import or
                                
                                精通Oracle10编程SQL(6)访问ORACLE
                                    bijian1013
oracle数据库plsql
                                    /*
 *访问ORACLE
*/

--检索单行数据
--使用标量变量接收数据
DECLARE
  v_ename emp.ename%TYPE;
  v_sal emp.sal%TYPE;
BEGIN
  select ename,sal into v_ename,v_sal
  from emp where empno=&no;
  dbms_output.pu
                                
                                【Nginx四】Nginx作为HTTP负载均衡服务器
                                    bit1129
nginx
                                     Nginx的另一个常用的功能是作为负载均衡服务器。一个典型的web应用系统，通过负载均衡服务器，可以使得应用有多台后端服务器来响应客户端的请求。一个应用配置多台后端服务器，可以带来很多好处： 
  负载均衡的好处 
 
 增加可用资源 
 增加吞吐量 
 加快响应速度，降低延时 
 出错的重试验机制 
 Nginx主要支持三种均衡算法： 
 
 round-robin 
 l
                                
                                jquery-validation备忘
                                    白糖_
jquerycssF#Firebug
                                    留点学习jquery validation总结的代码： 
  
function checkForm(){
	validator = $("#commentForm").validate({// #formId为需要进行验证的表单ID
		errorElement :"span",// 使用"div"标签标记错误， 默认:&
                                
                                solr限制admin界面访问（端口限制和http授权限制）
                                    ronin47
限定Ip访问
                                    solr的管理界面可以帮助我们做很多事情，但是把solr程序放到公网之后就要限制对admin的访问了。 
可以通过tomcat的http基本授权来做限制，也可以通过iptables防火墙来限制。 
我们先看如何通过tomcat配置http授权限制。 
第一步： 在tomcat的conf/tomcat-users.xml文件中添加管理用户，比如： 
<userusername="ad
                                
                                多线程-用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1
                                    bylijinnan
java多线程
                                    

public class IncDecThread {

	private int j=10;
	
	/*
	 * 题目:用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1
	 * 两个问题：
	 * 1、线程同步--synchronized
	 * 2、线程之间如何共享同一个j变量--内部类
	 */
	public static 
                                
                                买房历程
                                    cfyme

                                      
  
2015-06-21: 万科未来城，看房子 
  
2015-06-26: 办理贷款手续，贷款73万，贷款利率5.65=5.3675 
  
2015-06-27: 房子首付,签完合同 
  
2015-06-28，央行宣布降息 0.25，就2天的时间差啊，没赶上。 
  
首付，老婆找他的小姐妹接了5万，另外几个朋友借了1-
                                
                                [军事与科技]制造大型太空战舰的前奏
                                    comsci
制造
                                     
 
       天气热了........空调和电扇要准备好.......... 
 
       最近,世界形势日趋复杂化,战争的阴影开始覆盖全世界.......... 
 
 
       所以,我们不得不关
                                
                                dateformat
                                    dai_lm
DateFormat
                                    
"Symbol  Meaning             Presentation   Ex."
"------  -------             ------------   ----"
"G       era designator      (Text)         AD"
"y       year
                                
                                Hadoop如何实现关联计算
                                    datamachine
mapreducehadoop关联计算
                                        选择Hadoop，低成本和高扩展性是主要原因，但但它的开发效率实在无法让人满意。 
    以关联计算为例。 
    假设：HDFS上有2个文件，分别是客户信息和订单信息，customerID是它们之间的关联字段。如何进行关联计算，以便将客户名称添加到订单列表中？ 
  &nbs
                                
                                用户模型中修改用户信息时，密码是如何处理的
                                    dcj3sjt126com
yii
                                    当我添加或修改用户记录的时候对于处理确认密码我遇到了一些麻烦，所有我想分享一下我是怎么处理的。 
场景是使用的基本的那些(系统自带)，你需要有一个数据表(user)并且表中有一个密码字段(password),它使用 sha1、md5或其他加密方式加密用户密码。 
面是它的工作流程: 当创建用户的时候密码需要加密并且保存，但当修改用户记录时如果使用同样的场景我们最终就会把用户加密过的密码再次加密，这
                                
                                中文 iOS/Mac 开发博客列表
                                    dcj3sjt126com
Blog
                                      
本博客列表会不断更新维护，如果有推荐的博客，请到此处提交博客信息。 
本博客列表涉及的文章内容支持 定制化Google搜索，特别感谢 JeOam 提供并帮助更新。 
本博客列表也提供同步更新的OPML文件（下载OPML文件），可供导入到例如feedly等第三方定阅工具中，特别感谢 lcepy 提供自动转换脚本。这里有导入教程。   
                                
                                js去除空格，去除左右两端的空格
                                    蕃薯耀
去除左右两端的空格js去掉所有空格js去除空格
                                    js去除空格，去除左右两端的空格 
>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>&g
                                
                                SpringMVC4零配置--web.xml
                                    hanqunfeng
springmvc4
                                    servlet3.0+规范后，允许servlet，filter，listener不必声明在web.xml中，而是以硬编码的方式存在，实现容器的零配置。 
ServletContainerInitializer：启动容器时负责加载相关配置 
package javax.servlet;
import java.util.Set;
public interface ServletContainer
                                
                                《开源框架那些事儿21》：巧借力与借巧力
                                    j2eetop
框架UI
                                    同样做前端UI，为什么有人花了一点力气，就可以做好？而有的人费尽全力，仍然错误百出？我们可以先看看几个故事。 
故事1：巧借力，乌鸦也可以吃核桃 
有一个盛产核桃的村子，每年秋末冬初，成群的乌鸦总会来到这里，到果园里捡拾那些被果农们遗落的核桃。 
核桃仁虽然美味，但是外壳那么坚硬，乌鸦怎么才能吃到呢？原来乌鸦先把核桃叼起，然后飞到高高的树枝上，再将核桃摔下去，核桃落到坚硬的地面上，被撞破了，于是，
                                
                                JQuery EasyUI 验证扩展
                                    可怜的猫
jqueryeasyui验证
                                      最近项目中用到了前端框架-- EasyUI，在做校验的时候会涉及到很多需要自定义的内容，现把常用的验证方式总结出来，留待后用。 
  以下内容只需要在公用js中添加即可。 
  使用类似于如下： 
 <input class="easyui-textbox" name="mobile" id="mobile&
                                
                                架构师之httpurlconnection----------读取和发送(流读取效率通用类)
                                    nannan408

                                    1.前言. 
   如题. 
2.代码. 
 

/* 
 * Copyright (c) 2015, S.F. Express Inc. All rights reserved.
 */
package com.test.test.test.send;

import java.io.IOException;
import java.io.InputStream
                                
                                Jquery性能优化
                                    r361251
JavaScriptjquery
                                    一、注意定义jQuery变量的时候添加var关键字 
这个不仅仅是jQuery，所有javascript开发过程中，都需要注意，请一定不要定义成如下： 
$loading = $('#loading'); //这个是全局定义，不知道哪里位置倒霉引用了相同的变量名，就会郁闷至死的 
二、请使用一个var来定义变量 
如果你使用多个变量的话，请如下方式定义： 
. 代码如下: 
 
var page 
                                
                                在eclipse项目中使用maven管理依赖
                                    tjj006
eclipsemaven
                                    概览: 
 
 如何导入maven项目至eclipse中 
 
 
 建立自有Maven  Java类库服务器 
 
 
 建立符合maven代码库标准的自定义类库 
 
Maven在管理Java类库方面有巨大的优势，像白衣所说就是非常“环保”。 
我们平时用IDE开发都是把所需要的类库一股脑的全丢到项目目录下，然后全部添加到ide的构建路径中，如果用了SVN/CVS，这样会很容易就 把
                                
                                中国天气网省市级联页面
                                    x125858805
级联
                                    1、页面及级联js 
<%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%>
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
&l
                                
                
            
        
    

    
        
            按字母分类：
            ABCDEFGHIJKLMNOPQRSTUVWXYZ其他
        
    

    
        
            首页 -
            关于我们 -
            站内搜索 -
            Sitemap -
            侵权投诉
        
        版权所有 IT知识库 CopyRight © 2000-2050 E-COM-NET.COM , All Rights Reserved.

        
    

  List of studio albums,^[A] with selected chart positions and certifications
  
  
    
      Title
      
      Release
       ...
 
 虽然没有属性，但可以使用字符串List of studio albums来匹配，缺失值na_values用"—"表示： 
 >>> url = https://en.wikipedia.org/wiki/The_Beatles_discography
>>> dfs = pd.read_html(
...     url, match="List of studio albums", na_values="—"
... )
>>> len(dfs)
1
>>> dfs[0].columns
Int64Index([0, 1, 2, 3, 4, 5, 6, 7, 8, 9], dtype='int64')
 
 使用前两行作为列名，但还是很乱： 
 >>> url = https://en.wikipedia.org/wiki/The_Beatles_discography
>>> dfs = pd.read_html(
...     url,
...     match="List of studio albums",
...     na_values="—",
...     header=[0, 1],
... )
>>> len(dfs)
1
>>> dfs[0]
          Title      Release  ... Peak chart positions Certifications
          Title      Release  ...             US[8][9] Certifications
0   Please P...  Released...  ...          NaN          BPI: Gol...
1   With the...  Released...  ...          NaN          BPI: Gol...
2   Introduc...  Released...  ...            2          RIAA: Pl...
3   Meet the...  Released...  ...            1          MC: Plat...
4   Twist an...  Released...  ...          NaN          MC: 3× P...
..          ...          ...  ...          ...                  ...
22  The Beat...  Released...  ...            1          BPI: 2× ...
23  Yellow S...  Released...  ...            2          BPI: Gol...
24   Abbey Road  Released...  ...            1          BPI: 2× ...
25    Let It Be  Released...  ...            1          BPI: Gol...
26  "—" deno...  "—" deno...  ...  "—" deno...          "—" deno...
>>> dfs[0].columns
MultiIndex(levels=[['Certifications', 'Peak chart positions', 'Release', 'Title'], ['AUS[3]', 'CAN[4]', 'Certifications', 'FRA[5]', 'GER[6]', 'NOR[7]', 'Release', 'Title', 'UK[1][2]', 'US[8][9]']],
  codes=[[3, 2, 1, 1, 1, 1, 1, 1, 1, 0], [7, 6, 8, 0, 1, 3, 4, 5, 9, 2]])
 
 对于这种情况，最容易的方法是更新列索引： 
 >>> df = dfs[0]
>>> df.columns = [
...     "Title",
...     "Release",
...     "UK",
...     "AUS",
...     "CAN",
...     "FRA",
...     "GER",
...     "NOR",
...     "US",
...     "Certifications",
... ]
>>> df
          Title      Release  ...           US Certifications
0   Please P...  Released...  ...          NaN  BPI: Gol...
1   With the...  Released...  ...          NaN  BPI: Gol...
2   Introduc...  Released...  ...            2  RIAA: Pl...
3   Meet the...  Released...  ...            1  MC: Plat...
4   Twist an...  Released...  ...          NaN  MC: 3× P...
..          ...          ...  ...          ...          ...
22  The Beat...  Released...  ...            1  BPI: 2× ...
23  Yellow S...  Released...  ...            2  BPI: Gol...
24   Abbey Road  Released...  ...            1  BPI: 2× ...
25    Let It Be  Released...  ...            1  BPI: Gol...
26  "—" deno...  "—" deno...  ...  "—" deno...  "—" deno...
 
 继续清理Release这列，在HTML中，代码是这样的： 
 
  A Hard Day's Night

《Pandas 1.x Cookbook · 第二版》第03章 创建和持久化DataFrame