林桂鑫

pandas 如何把时间转成index_Pandas教程：初学者入门必备，很全面，很详细！

Pandas教程：初学者入门必备，很全面，很详解！mp.weixin.qq.com

pandas 如何把时间转成index_Pandas教程：初学者入门必备，很全面，很详细！_第2张图片

学习Panda一些最重要的特性，用于对数据进行探索、清洗、转换、可视化以及从数据中学习。

Pandas库是当今使用Python进行工作的数据科学家和分析师所使用的最重要的工具。强大的机器学习和迷人的可视化工具可能会吸引大家关注，但是，Pandas是大多数数据项目的基础。

[pandas]源自术语“panel data”，这是计量经济学中用于描述数据集的术语，这些数据集是对一些个体在多个时间段内的观察结果。—维基百科

如果你正考虑将数据科学视为一种职业，那么当务之急就是要做的第一件事就是学习Pandas。在本文中，我们将介绍有关Pandas的基本信息，包括如何安装，如何使用以及如何与其他常见的Python数据分析包（例如matplotlib和scikit-learn）一起使用。

Pandas是用来干什么的？

Pandas有很多用途，把它不能做的事情列出来，而不是它能做的事情，也许是有意义的。此工具实际上是你数据的家。通过Pandas，您可以通过清理，转换和分析数据来了解数据。例如，假设您要浏览计算机上以CSV格式存储的数据集。Pandas将从CSV中提取数据到一个DataFrame（基本上是一个表）中，然后让您执行以下操作：

计算统计数据并回答有关数据的问题，例如

每列的平均值，中位数，最大值或最小值是多少？
A列与B列相关吗？
C列中的数据分布是什么样的？

通过执行一些操作来清除数据，例如删除缺失值并按某些条件过滤行或列在Matplotlib的帮助下可视化数据。绘制条形图，线条，直方图，气泡等。将清理后的转换数据存储回CSV，其他文件或数据库 Pandas 10大应用领域，哪些行业在使用Pandas？mp.weixin.qq.com

pandas 如何把时间转成index_Pandas教程：初学者入门必备，很全面，很详细！_第3张图片

在进入建模或复杂的可视化之前，您需要对数据集的性质有充分的了解，而Pandas是实现此目的的最佳途径。

pandas 如何把时间转成index_Pandas教程：初学者入门必备，很全面，很详细！_第4张图片

Pandas如何算得上数据科学工具包？

Pandas不仅是数据科学工具包的重要组成部分，而且与该包中的其它库一起使用。

Pandas基于Numpy库构建，这意味着NumPy的许多结构都在Pandas中被使用或复制。Pandas中的数据通常用于SciPy中的统计分析，Matplotlib中的绘图功能以及Scikit-learn中的机器学习算法。

Jupyter Notebook提供了一个使用Pandas进行数据探索和建模的良好环境，但是Pandas也可以轻松地用于文本编辑器中。Jupyter Notebooks使我们能够在特定的单元格中执行代码，而不是运行整个文件。使用大型数据集和复杂转换时，这可以节省大量时间。Notebook还提供了一种简便的方法来可视化Pandas的数据框和图表。

Pandas的基本功能–数据科学家使用的4个主要功能mp.weixin.qq.com

pandas 如何把时间转成index_Pandas教程：初学者入门必备，很全面，很详细！_第5张图片

你应该什么时候使用Pandas？

如果您没有使用Python进行编码的经验，那么您应该避免学习Pandas，直到您开始学习为止。您不必一定是软件工程师，但是您应该擅长Python编程的基础知识，例如列表，元组，字典，函数和迭代。另外，由于上述相似之处，我还建议您熟悉NumPy。

此外，对于那些希望进行数据科学训练营或其他一些加速数据科学教育计划的人，强烈建议您在开始该程序之前先自己学习Pandas。

即使集中训练可以教您Pandas，但事先具备更好的技能意味着您将能够最大限度地利用时间来学习和掌握更复杂的材料。

Pandas第一步

安装并导入

Pandas是易于安装的软件包。打开您的终端程序（对于Mac用户）或命令行（对于PC用户），然后使用以下任一命令进行安装：

conda install pandas

或者

pip install pandas

或者，如果您当前正在Jupyter笔记本中查看本文，则可以运行以下单元格：

!pip install pandas

在开处“！”，表示在终端一样运行单元格。要导入Pandas，我们通常使用较短的名称来导入Pandas，因为它使用了很多：

import pandas as pd

现在介绍Pandas的基本构成。

pandas库的核心部分: Series和DataFrames

Pandas的主要两个组成部分是Series和DataFrame。Series本质上是一列，而DataFrame是由Series集合组成的多维表。

15个Pandas最佳特性，是什么让Pandas如何特别？mp.weixin.qq.com

pandas 如何把时间转成index_Pandas教程：初学者入门必备，很全面，很详细！_第6张图片

pandas 如何把时间转成index_Pandas教程：初学者入门必备，很全面，很详细！_第7张图片

DataFrame和Series非常相似，因为您可以对一个进行许多操作，而对另一个进行其他操作，例如填充空值和计算均值。当我们开始使用以下数据进行工作时，您将看到这两个核心组件的用法。

JupyterLab最全详解，如果你还在使用Notebook，那你就out了！mp.weixin.qq.com

pandas 如何把时间转成index_Pandas教程：初学者入门必备，很全面，很详细！_第8张图片

从头开始创建DataFrames

在Python中创建DataFrames是一个很好的知识，并且在测试您在pandas文档中发现的新方法和函数时非常有用。

有很多方法可以从头开始创建DataFrame，但是一个不错的选择是只使用一个简单的dict。

假设我们有一个卖苹果和橙子的水果摊。我们希望每个水果都有一列，每个客户购买都有一行。要将其组织为pandas字典，我们可以执行以下操作：

data = {
    'apples': [3, 2, 0, 1], 
    'oranges': [0, 3, 7, 2]
}

然后将其传递给pandas DataFrame构造函数：

purchases = pd.DataFrame(data)
purchases

pandas 如何把时间转成index_Pandas教程：初学者入门必备，很全面，很详细！_第9张图片

这是怎么回事呢？

数据中的每个（键，值）对都对应于结果DataFrame中的一列。

该数据框的索引是在创建时以数字0-3的形式提供给我们的，但是在初始化数据框时也可以创建自己的索引。让我们以客户名称作为索引：

purchases = pd.DataFrame(data, index=['June', 'Robert', 'Lily', 'David'])
purchases

pandas 如何把时间转成index_Pandas教程：初学者入门必备，很全面，很详细！_第10张图片

因此，现在我们可以使用客户名称来查找客户的订单：

>>> purchases.loc['June']
apples     3
oranges    0
Name: June, dtype: int64

稍后将有更多关于从DataFrame定位和提取数据的信息，但是现在您应该能够使用任何随机数据创建一个DataFrame进行学习。

让我们继续学习一些从其他各种来源快速创建DataFrame的方法。

如何读取数据

将各种文件格式的数据加载到DataFrame中非常简单。在以下示例中，我们将继续使用苹果和橘子数据，但这一次它来自各种文件。

史上最全的Python基础语法知识清单mp.weixin.qq.com

pandas 如何把时间转成index_Pandas教程：初学者入门必备，很全面，很详细！_第11张图片

从CSV读取数据

使用CSV文件，您只需要一行即可加载数据：

df = pd.read_csv('purchases.csv')
df

pandas 如何把时间转成index_Pandas教程：初学者入门必备，很全面，很详细！_第12张图片

CSV没有像DataFrames这样的索引，因此我们需要做的只是在读取时指定index_col：

df = pd.read_csv('purchases.csv', index_col=0)
df

pandas 如何把时间转成index_Pandas教程：初学者入门必备，很全面，很详细！_第13张图片

在这里，我们将索引设置为零列。

您会发现大多数CSV都不会包含索引列，因此通常您不必担心此步骤。

从JSON读取数据

如果您有一个JSON文件-本质上是一个存储的Python字典-Pandas可以轻松读取它：

df = pd.read_json('purchases.json')
df

pandas 如何把时间转成index_Pandas教程：初学者入门必备，很全面，很详细！_第14张图片

请注意，这一次我们的索引正确地伴随了我们，因为使用JSON允许索引通过嵌套工作。随时在记事本中打开data_file.json，以了解其工作原理。

Pandas会尝试通过分析JSON的结构来弄清楚如何创建DataFrame，有时它做得不好。通常，您需要根据结构来设置orient关键字参数，因此请查看有关该参数的read_json文档，以查看所使用的方向。

使用Scrapy，帮你快速抓取网页数据(代码可下载)！mp.weixin.qq.com

pandas 如何把时间转成index_Pandas教程：初学者入门必备，很全面，很详细！_第15张图片

从SQL数据库读取数据

如果您要使用SQL数据库中的数据，则需要先使用适当的Python库建立连接，然后将查询传递给Pandas。在这里，我们将使用SQLite进行演示。首先，我们需要安装pysqlite3，因此请在您的终端中运行以下命令：pip安装pysqlite3或者，如果您在笔记本电脑中，请运行此单元格：

!pip install pysqlite3

sqlite3用于创建与数据库的连接，然后我们可以将其用于通过SELECT查询生成DataFrame。因此，首先我们将连接到SQLite数据库文件：

import sqlite3
con = sqlite3.connect("database.db")

SQL提示

如果您在PostgreSQL，MySQL或某些其他SQL Server中具有数据，则需要获取正确的Python库来建立连接。例如，psycopg2（链接）是建立与PostgreSQL连接的常用库。此外，您将连接到数据库URI，而不是像我们在SQLite上所做的那样连接到文件。

在此SQLite数据库中，我们有一个名为purchase的表，并且索引位于名为“ index”的列中。通过传递SELECT查询和我们的骗局，我们可以从购买表中读取：

df = pd.read_sql_query("SELECT * FROM purchases", con)
df

pandas 如何把时间转成index_Pandas教程：初学者入门必备，很全面，很详细！_第16张图片

就像CSV一样，我们可以传递index_col ='index'，但是我们也可以事后设置索引：

df = df.set_index('index')
df

pandas 如何把时间转成index_Pandas教程：初学者入门必备，很全面，很详细！_第17张图片

实际上，我们可以随时在任何使用任何列的DataFrame上使用set_index()函数。为Series和DataFrames建立索引是一项非常常见的任务，同时，创建的不同方法是值得记住的。

转换回CSV，JSON或SQL

因此，在完成清理数据的大量工作之后，您现在就可以将其保存为您选择的文件了。与我们读取数据的方式类似，pandas提供了直观的命令来保存数据：

df.to_csv('new_purchases.csv')
df.to_json('new_purchases.json')
df.to_sql('new_purchases', con)

当我们保存JSON和CSV文件时，我们需要输入到这些函数中的是带有所需文件扩展名的所需文件名。使用SQL，我们不会创建新文件，而是使用之前的con变量将新表插入数据库。让我们继续导入一些真实世界的数据，并详细介绍一些您将经常使用的操作。

最重要的DataFrame操作

DataFrame具有数百种对任何分析都至关重要的方法和其他操作。作为初学者，您应该知道执行数据简单转换的操作以及提供基本统计分析的操作。让我们加载IMDB电影数据集以开始：

movies_df = pd.read_csv("IMDB-Movie-Data.csv", index_col="Title")

我们正在从CSV加载此数据集，并指定电影标题作为索引。

查看数据

打开新数据集时，要做的第一件事是打印出几行以作为可视参考。我们使用.head()完成此操作：

movies_df.head()

pandas 如何把时间转成index_Pandas教程：初学者入门必备，很全面，很详细！_第18张图片

.head()默认情况下输出DataFrame的前五行，但是我们也可以传递一个数字：例如movie_df.head(10)将输出前十行。

要查看最后五行，请使用.tail()。tail()也接受一个数字，在这种情况下，我们打印底部的两行：

movies_df.tail(2)

pandas 如何把时间转成index_Pandas教程：初学者入门必备，很全面，很详细！_第19张图片

通常，当我们加载数据集时，我们希望查看前五行左右，以了解其背后的内容。在这里，我们可以看到每一列的名称，索引以及每一行中值的示例。您会注意到，DataFrame中的索引是“标题”列，您可以通过“标题”一词比其他列略低些来判断。

获取有关您的数据的信息

.info()应该是加载数据后运行的第一个命令之一：

>>> movies_df.info()

Index: 1000 entries, Guardians of the Galaxy to Nine Lives
Data columns (total 11 columns):
Rank                  1000 non-null int64
Genre                 1000 non-null object
Description           1000 non-null object
Director              1000 non-null object
Actors                1000 non-null object
Year                  1000 non-null int64
Runtime (Minutes)     1000 non-null int64
Rating                1000 non-null float64
Votes                 1000 non-null int64
Revenue (Millions)    872 non-null float64
Metascore             936 non-null float64
dtypes: float64(3), int64(4), object(4)
memory usage: 93.8+ KB

.info()提供有关数据集的基本详细信息，例如行和列的数量，非空值的数量，每列中的数据类型以及DataFrame使用的内存量。

请注意，在电影数据集中，“收入”和“ Metascore”列中有一些明显的缺失值。我们将稍等一下。快速查看数据类型实际上非常有用。假设您刚刚导入了一些JSON，并且整数被记录为字符串。您需要进行一些算术运算，并找到“不受支持的操作数”异常，因为您无法使用字符串进行数学运算。调用.info()会很快指出您认为所有整数的列实际上都是字符串对象。

另一个快速而有用的属性是.shape，它仅输出(行, 列)的元组：

>>> movies_df.shape
(1000, 11)

请注意，.shape没有括号，并且是格式(行, 列) 的简单元组。因此，我们的影片DataFrame中有1000行和11列。清理和转换数据时，您将需要进行很多调整。例如，您可能根据某些条件过滤了一些行，然后想要快速知道删除了多少行。

处理重复项

该数据集没有重复的行，但是确保您没有汇总重复的行始终很重要。为了演示，让我们简单地通过将影片DataFrame附加到自身上来使其加倍：

>>> temp_df = movies_df.append(movies_df)
>>> temp_df.shapev
(2000, 11)

使用append()将返回一个副本，而不会影响原始DataFrame。我们正在临时捕获此副本，因此我们不使用实际数据。通知呼叫.shape很快证明我们的DataFrame行已加倍。现在我们可以尝试删除重复项：

>>> temp_df = temp_df.drop_duplicates()
>>> temp_df.shape
(1000, 11)

就像append()一样，drop_duplicates()方法也将返回DataFrame的副本，但是这次删除了重复项。调用.shape确认我们回到了原始数据集的1000行。像本例中那样，继续将DataFrames分配给相同的变量有点冗长。因此，pandas的许多方法都具有inplace关键字参数。使用inplace = True将在适当位置修改DataFrame对象：

temp_df.drop_duplicates(inplace=True)

现在，我们的temp_df将自动具有转换后的数据。

drop_duplicates()的另一个重要参数是keep，它具有三个可能的选项：

first ：（默认）删除除第一个匹配项外的重复项。
last：除去最后一次出现的重复项。
False：删除所有重复项。

由于我们在上一个示例中没有定义保留方式，因此默认情况下将其设置为first。这意味着如果两行相同，则Pandas会掉落第二行并保留第一行。使用last具有相反的效果：删除第一行。另一方面，keep会删除所有重复项。如果两行相同，则都将被丢弃。观察temp_df发生了什么：

>>> temp_df = movies_df.append(movies_df)  # make a new copy
>>> temp_df.drop_duplicates(inplace=True, keep=False)
>>> temp_df.shape
(0, 11)

由于所有行都是重复的，因此keep = False丢弃了所有行，导致剩下零行。如果您想知道为什么要这样做，原因之一是它允许您查找数据集中的所有重复项。当下面显示条件选择时，您将看到如何执行此操作。

列清理

很多时候，数据集会有冗长的列名，包括符号，大写和小写单词，空格和错别字。为了使按列名选择数据更加容易，我们可以花一些时间清理它们的名称。以下是打印数据集的列名称的方法：

>>> movies_df.columns
Index(['Rank', 'Genre', 'Description', 'Director', 'Actors', 'Year',       'Runtime (Minutes)', 'Rating', 'Votes', 'Revenue (Millions)',       'Metascore'],
      dtype='object')

如果希望通过简单的复制和粘贴来重命名列，.columns不仅会派上用场，而且当您需要了解为什么按列选择数据时为什么会收到“Key Error”时，.columns也很有用。

我们可以使用.rename()方法通过dict重命名某些或所有列。我们不需要括号，所以让我们重命名它们：

>>> movies_df.rename(columns={
        'Runtime (Minutes)': 'Runtime', 
        'Revenue (Millions)': 'Revenue_millions'
    }, inplace=True)
>>> movies_df.columns
Index(['Rank', 'Genre', 'Description', 'Director', 'Actors', 'Year', 'Runtime',
       'Rating', 'Votes', 'Revenue_millions', 'Metascore'],
      dtype='object')

这很好。但是，如果我们要小写所有名称怎么办？除了使用.rename()之外，我们还可以像这样为列设置名称列表：

>>> movies_df.columns = ['rank', 'genre', 'description', 'director', 'actors', 'year', 'runtime', 
                     'rating', 'votes', 'revenue_millions', 'metascore']
>>> movies_df.columns
Index(['rank', 'genre', 'description', 'director', 'actors', 'year', 'runtime',
       'rating', 'votes', 'revenue_millions', 'metascore'],
      dtype='object')

但这是太多的工作。不仅可以手动重命名每列，我们还可以进行列表理解：

>>> movies_df.columns = [col.lower() for col in movies_df]
>>> movies_df.columns
Index(['rank', 'genre', 'description', 'director', 'actors', 'year', 'runtime',
       'rating', 'votes', 'revenue_millions', 'metascore'],
      dtype='object')

列表（和字典）理解通常在使用Pandas处理数据时会派上用场。如果您将使用数据集一段时间，则最好进行小写转换，删除特殊字符并用下划线替换空格。

如何处理缺失值

浏览数据时，您很可能会遇到缺失或空值，它们实际上是不存在的值的占位符。最常见的是，您会看到Python的None或NumPy的np.nan，在某些情况下，每种处理方式都不同。

处理空值有两种选择：

移除到包含空值的行或列
用非空值替换空值，这种技术被称为插补

让我们计算数据集每一列中的空值总数。第一步是检查DataFrame中的哪些单元格为空：

movies_df.isnull()

pandas 如何把时间转成index_Pandas教程：初学者入门必备，很全面，很详细！_第20张图片

请注意，isnull()返回一个DataFrame，其中每个单元格为True或False，具体取决于该单元格的null状态。要计算每列中的空值数量，我们使用聚合函数求和：

>>> movies_df.isnull().sum()
rank                  0
genre                 0
description           0
director              0
actors                0
year                  0
runtime               0
rating                0
votes                 0
revenue_millions    128
metascore            64
dtype: int64

.isnull()本身并不是很有用，通常与其他方法( 例如sum())结合使用。

现在我们可以看到，我们的数据的Revenue_millions缺少128个值，而metascore缺少64个值。

删除空值

数据科学家和分析师经常会遇到丢弃或插补空值的难题，这是一项需要对您的数据及其上下文有深入了解的决定。总体而言，仅在缺少少量数据的情况下才建议删除空数据。

删除空值非常简单：

movies_df.dropna()

此操作将删除至少具有单个null值的任何行，但它将返回一个新的DataFrame而不会更改原始的DataFrame。您也可以在此方法中指定inplace = True。

因此，对于我们的数据集，此操作将删除128个行（其中Revenue_millions为null）和64个行（其中metascore为null）。这显然是一种浪费，因为在那些删除的行的其他列中都有非常好的数据。这就是为什么我们接下来要考虑归因的原因。

除了删除行之外，还可以通过设置axis = 1来删除具有空值的列：

movies_df.dropna(axis=1)

在我们的数据集中，此操作将删除Revenue_millions和metascore列。

判断
axis= 1参数是什么？

现在还不清楚轴的来源以及为什么需要将其设为1才能影响列。要查看原因，只需查看.shape

>>> movies_df.shape
（1000，11）

如上所述，这是一个表示DataFrame形状的元组，即1000行11列。请注意，行位于该元组的索引零，列位于该元组的索引一。这就是为什么axis = 1影响列的原因。这来自NumPy，是为什么学习NumPy值得您花时间的一个很好的例子。

插补

插补是一种传统的特征工程技术，用于保留具有空值的有价值的数据。在某些情况下，删除具有空值的每一行会从数据集中删除太大的块，因此我们可以使用另一个值（通常是该列的均值或中位数）来估算该空值。让我们看一下在Revenue_millions列中估算缺少的值。首先，我们将该列提取到其自己的变量中：

revenue = movies_df['revenue_millions']

使用方括号是我们在DataFrame中选择列的一般方式。如果您还记得我们从头开始创建DataFrame的时候，那么dict的键最终将作为列名。现在，当我们选择DataFrame的列时，就像在访问Python字典一样，我们使用方括号。revenue现在包含一个Series：

>>> revenue.head()
Title
Guardians of the Galaxy    333.13
Prometheus                 126.46
Split                      138.12
Sing                       270.32
Suicide Squad              325.02
Name: revenue_millions, dtype: float64

格式与DataFrame略有不同，但是我们仍然拥有Title索引。我们将使用均值估算收入的缺失值。这是平均值：

>>> revenue_mean = revenue.mean()
>>> revenue_mean
82.95637614678897

用均值，让我们使用fillna()填充空值：

revenue.fillna(revenue_mean, inplace=True)

现在，我们将收入的所有空值替换为该列的平均值。注意，通过使用inplace = True，我们实际上已经影响了原始的movie_df：

>>> movies_df.isnull().sum()
rank                 0
genre                0
description          0
director             0
actors               0
year                 0
runtime              0
rating               0
votes                0
revenue_millions     0
metascore           64
dtype: int64

像这样用相同的值插入整列是一个基本示例。尝试由Genre或Director进行更细化的插补是一个更好的主意。

例如，您将找到每个genre产生的收益的平均值，并使用该genre的平均值推算每个genre中的空值。现在让我们看一下检查和理解数据集的更多方法。

了解您的变量

在整个DataFrame上使用describe()，我们可以得出连续变量分布的摘要：

movies_df.describe()

pandas 如何把时间转成index_Pandas教程：初学者入门必备，很全面，很详细！_第21张图片

在考虑用于可视化表示数据的绘图类型时，了解哪些数字是连续的也是很方便的。

.describe()也可以用于分类变量，以获取行数，类别的唯一计数，顶层类别和顶层类别的频率：

>>> movies_df['genre'].describe()
count                        1000
unique                        207
top       Action,Adventure,Sci-Fi
freq                           50
Name: genre, dtype: object

这告诉我们，genre列有207个唯一值，最高值是Action/Adventure/Sci-Fi, 显示了50次（频率）。.value_counts()可以告诉我们列中所有值的频率：

>>> movies_df['genre'].value_counts().head(10)
Action,Adventure,Sci-Fi       50
Drama                         48
Comedy,Drama,Romance          35
Comedy                        32
Drama,Romance                 31
Action,Adventure,Fantasy      27
Comedy,Drama                  27
Animation,Adventure,Comedy    27
Comedy,Romance                26
Crime,Drama,Thriller          24
Name: genre, dtype: int64

连续变量之间的关系

通过使用相关方法.corr()，我们可以生成每个连续变量之间的关系：

movies_df.corr()

pandas 如何把时间转成index_Pandas教程：初学者入门必备，很全面，很详细！_第22张图片

相关表是数据集中双变量关系的数字表示。正数表示正相关-一个上升，另一个上升-负数表示反相关-一个上升，另一个下降。1.0表示完美的相关性。

因此，在第一行第一列中，我们看到rank与自身之间具有完美的相关性，这是显而易见的。另一方面，votes与Revenue_Millions之间的相关性是0.6。更有趣一点。当您考虑到结果或因变量并且想要查看与结果的增加或减少最相关的功能时，检查双变量关系会很方便。您可以用散点图直观地表示双变量关系（见下图部分）。现在让我们更多地了解如何操作DataFrames。

数据切片，选择，提取

到目前为止，我们只专注于数据的一些基本摘要。我们已经学习了使用单括号进行简单列提取的方法，并使用fillna()在列中估算了空值。以下是切片，选择和提取的其他方法，您需要不断使用它们。

重要的是要注意，尽管许多方法是相同的，但DataFrame和Series具有不同的属性，因此您必须确保知道使用的是哪种类型，否则将收到属性错误。

让我们先来看一下使用列。按列，您已经了解了如何使用方括号提取列，如下所示：

>>> genre_col = movies_df['genre']
>>> type(genre_col)
pandas.core.series.Series

这将返回一个Series。要将列提取为DataFrame，您需要传递一个列名的列表。在我们的例子中，这只是一列：

>>> genre_col = movies_df[['genre']]
>>> type(genre_col)
pandas.core.frame.DataFrame

由于它只是一个列表，因此添加另一个列名很容易：

subset = movies_df[['genre', 'rating']]
subset.head()

pandas 如何把时间转成index_Pandas教程：初学者入门必备，很全面，很详细！_第23张图片

现在我们来看按行获取数据。

按行

对于行，我们有两个选择：

.loc-按名称查找
.iloc-通过数字索引定位

请记住，我们仍按电影标题来索引，因此要使用.loc，我们给它指定电影的标题：

>>> prom = movies_df.loc["Prometheus"]
>>> prom
rank                                                                2
genre                                        Adventure,Mystery,Sci-Fi
description         Following clues to the origin of mankind, a te...
director                                                 Ridley Scott
actors              Noomi Rapace, Logan Marshall-Green, Michael Fa...
year                                                             2012
runtime                                                           124
rating                                                              7
votes                                                          485820
revenue_millions                                               126.46
metascore                                                          65
Name: Prometheus, dtype: object

另一方面，使用iloc，我们为它提供Prometheus的数值索引：

prom = movies_df.iloc[1]

loc和iloc可以认为类似于Python列表切片。为了进一步说明这一点，让我们选择多行。您将如何处理清单？在Python中，只需用方括号进行切片，例如example_list [1：4]。在熊猫中，其工作方式相同：

movie_subset = movies_df.loc['Prometheus':'Sing']
movie_subset = movies_df.iloc[1:4]
movie_subset

pandas 如何把时间转成index_Pandas教程：初学者入门必备，很全面，很详细！_第24张图片

使用.loc和.iloc选择多行之间的一个重要区别是.loc将电影Sing包含在结果中，但是当使用.iloc时，我们得到的行是1：4，但索引4（自杀小队）的电影却没有包括在内。.iloc的切片遵循与列表切片相同的规则，不包括末尾索引处的对象。

条件选择

我们已经讨论了如何选择列和行，但是如果要进行条件选择怎么办？

例如，如果我们要筛选电影数据帧以仅显示由Ridley Scott执导的电影或评级大于或等于8.0的电影怎么办？

为此，我们从DataFrame中获取一列，然后对其应用布尔条件。这是布尔条件的示例：

>>> condition = (movies_df['director'] == "Ridley Scott")
>>> condition.head()
Title
Guardians of the Galaxy    False
Prometheus                  True
Split                      False
Sing                       False
Suicide Squad              False
Name: director, dtype: bool

与isnull()相似，这将返回一系列“真”和“假”值：对于由雷德利·斯科特执导的电影而言为“真”，对于不由他执导的电影而言为“假”。

我们想要过滤掉所有非雷德利·斯科特（Ridley Scott）执导的电影，换句话说，我们不想要假电影。要返回条件为True的行，我们必须将此操作传递到DataFrame中：

movies_df[movies_df['director'] == "Ridley Scott"]

pandas 如何把时间转成index_Pandas教程：初学者入门必备，很全面，很详细！_第25张图片

您可以通过阅读以下内容来熟悉这些条件：选择movies_df导演等于里德利·斯科特的movies_df。让我们通过按等级过滤DataFrame来查看使用数值的条件选择：

movies_df[movies_df['rating'] >= 8.6].head(3)

pandas 如何把时间转成index_Pandas教程：初学者入门必备，很全面，很详细！_第26张图片

我们可以通过使用逻辑运算符来制作一些更丰富的条件。| 为"或",＆为“与”。让我们过滤数据框以仅显示Christopher Nolan或Ridley Scott的电影：

movies_df[(movies_df['director'] == 'Christopher Nolan') | (movies_df['director'] == 'Ridley Scott')].head()

pandas 如何把时间转成index_Pandas教程：初学者入门必备，很全面，很详细！_第27张图片

我们需要确保用括号将评估分组，以便Python知道如何评估条件。使用isin()方法，我们可以使它更简洁：

movies_df[movies_df['director'].isin(['Christopher Nolan', 'Ridley Scott'])].head()

pandas 如何把时间转成index_Pandas教程：初学者入门必备，很全面，很详细！_第28张图片

假设我们希望在2005年至2010年之间发行的所有电影的评级都高于8.0，但收入却低于25％。这就是我们可以做的所有事情：

movies_df[
    ((movies_df['year'] >= 2005) & (movies_df['year'] <= 2010))
    & (movies_df['rating'] > 8.0)
    & (movies_df['revenue_millions'] < movies_df['revenue_millions'].quantile(0.25))
]

pandas 如何把时间转成index_Pandas教程：初学者入门必备，很全面，很详细！_第29张图片

如果您回想起使用.describe()时收入的第25个百分位数大约是17.4，则可以通过使用float值为0.25的Quantile()方法直接访问此值。所以在这里，我们只有四部符合该标准的电影。

使用函数

可以像使用列表那样遍历DataFrame或Series，但是这样做（特别是在大型数据集上）非常慢。一种有效的替代方法是将函数套用到数据集。例如，我们可以使用一个函数将8.0或更高版本的电影转换为字符串值“好”，其余转换为“坏”，然后使用此转换后的值创建一个新列。首先，我们将创建一个函数，该函数在给予评级时确定其好坏：

def rating_function(x):
    if x >= 8.0:
        return "good"
    else:
        return "bad"

现在，我们要通过此函数发送整个评分列，这是apply()的作用：

movies_df["rating_category"] = movies_df["rating"].apply(rating_function)
movies_df.head(2)

pandas 如何把时间转成index_Pandas教程：初学者入门必备，很全面，很详细！_第30张图片

.apply()方法将rating列中的每个值都通过rating_function传递，然后返回一个新的Series。然后将此系列分配给一个新的列，称为“ rating_category”。您还可以使用匿名函数。此lambda函数可达到与rating_function相同的结果：

movies_df["rating_category"] = movies_df["rating"].apply(lambda x: 'good' if x >= 8.0 else 'bad')
movies_df.head(2)

pandas 如何把时间转成index_Pandas教程：初学者入门必备，很全面，很详细！_第31张图片

总的来说，使用apply()比手动在行上迭代要快得多，因为Pandas正在利用矢量化。

向量化：一种计算机编程样式，其中将运算应用于整个数组而不是单个元素

— Wikipedia

在自然语言处理（NLP）工作期间，大量使用了apply()是一个很好的例子。您需要将各种文本清除功能应用于字符串以为机器学习做准备。

简单作图

Pandas的另一个优点是它与Matplotlib集成在一起，因此您可以直接从DataFrames和Series中进行绘制。首先，我们需要导入Matplotlib（pip install matplotlib）：

import matplotlib.pyplot as plt
plt.rcParams.update({'font.size': 20, 'figure.figsize': (10, 8)}) # set

现在我们可以开始了。绘图不会涉及很多内容，但足以轻松浏览您的数据。

绘图提示

对于分类变量，请使用“条形图” *和“箱线图”。
对于连续变量，请使用直方图，散点图，折线图和箱线图。

让我们绘制评级和收入之间的关系。我们需要做的就是在movies_df上调用.plot()，其中包含有关如何构建情节的一些信息：

movies_df.plot(kind='scatter', x='rating', y='revenue_millions', title='Revenue (millions) vs Rating');

pandas 如何把时间转成index_Pandas教程：初学者入门必备，很全面，很详细！_第32张图片

分号是什么？这不是语法错误，只是在Jupyter笔记本中进行绘图时隐藏

输出的一种方法。

如果要基于单个列绘制简单的直方图，则可以在列上调用plot：

movies_df['rating'].plot(kind='hist', title='Rating');

pandas 如何把时间转成index_Pandas教程：初学者入门必备，很全面，很详细！_第33张图片

您还记得本教程开始时的.describe（）示例吗？好吧，四分位间距的图形表示称为Boxplot。让我们回想一下describe（）在评级列上为我们提供的内容：

>>> movies_df['rating'].describe()
count    1000.000000
mean        6.723200
std         0.945429
min         1.900000
25%         6.200000
50%         6.800000
75%         7.400000
max         9.000000
Name: rating, dtype: float64

使用箱线图，我们可以可视化此数据：

movies_df['rating'].plot(kind="box");

pandas 如何把时间转成index_Pandas教程：初学者入门必备，很全面，很详细！_第34张图片

通过组合分类数据和连续数据，我们可以创建收入的箱线图，并按上面创建的评级类别进行分组：

movies_df.boxplot(column='revenue_millions', by='rating_category');

pandas 如何把时间转成index_Pandas教程：初学者入门必备，很全面，很详细！_第35张图片

那是与Pandas一起绘图的一般想法。有太多图要提及，因此绝对可以在这里查看plot()文档，以获取有关其功能的更多信息。

总结

在Python中使用Pandas探索，清理，转换和可视化数据是数据科学的一项基本技能。作为数据科学家，仅清理争吵的数据是您工作的80％。经过一些项目和一些实践之后，您应该对大多数基础知识都比较了解了。

你可能感兴趣的:(pandas,如何把时间转成index)

情绪觉察日记第37天露露_e800
今天是家庭关系规划师的第二阶最后一天，慧萍老师帮我做了个案，帮我处理了埋在心底好多年的一份恐惧，并给了我深深的力量！这几天出来学习，爸妈过来婆家帮我带小孩，妈妈出于爱帮我收拾东西，并跟我先生和婆婆产生矛盾，妈妈觉得他们没有照顾好我…。今晚回家见到妈妈，我很欣赏她并赞扬她，妈妈说今晚要跟我睡我说好，当我们俩躺在床上准备睡觉的时候，我握着妈妈的手对她说:妈妈这几天辛苦你了，你看你多利害把我们的家收拾得
关于沟通这件事，项目经理不需要每次都面对面进行流程大师兄
很多项目经理都会遇到这样的问题，项目中由于事情太多，根本没有足够的时间去召开会议，那在这种情况下如何去有效地管理项目中的利益相关者？当然，不建议电子邮件也不需要开会的话，建议可以采取下面几种方式来形成有效的沟通，这几种方式可以帮助你努力的通过各种办法来保持和各方面的联系。项目经理首先要问自己几个问题，项目中哪些利益相关者是必须要进行沟通的？可以列出项目中所有的利益相关者清单，同时也整理出项目中哪些
2020-01-25 晴岚85
郑海燕坚持分享590天2020.1.24在生活中只存在两个问题。一个问题是：你知道想要达成的目标是什么，但却不知道如何才能达成；另一个问题是：你不知道你的目标是什么。前一个是行动的问题，后一个是结果的问题。通过制定具体的下一步行动，可以解决不知道如何开始行动的问题。而通过去想象结果，对结果做预估，可以解决找不着目标的问题。对于所有吸引我们注意力，想要完成的任务，你可以先想象一下，预期的结果究竟是什
【iOS】MVC设计模式 Magnetic_h ios mvc 设计模式 objective-c 学习 ui
MVC前言如何设计一个程序的结构，这是一门专门的学问，叫做"架构模式"（architecturalpattern），属于编程的方法论。MVC模式就是架构模式的一种。它是Apple官方推荐的App开发架构，也是一般开发者最先遇到、最经典的架构。MVC各层controller层Controller/ViewController/VC（控制器）负责协调Model和View，处理大部分逻辑它将数据从Mod
地推话术，如何应对地推过程中家长的拒绝校师学
相信校长们在做地推的时候经常遇到这种情况：市场专员反馈家长不接单，咨询师反馈难以邀约这些家长上门，校区地推疲软，招生难。为什么？仅从地推层面分析，一方面因为家长受到的信息轰炸越来越多，对信息越来越“免疫”；而另一方面地推人员的专业能力和营销话术没有提高，无法应对家长的拒绝，对有意向的家长也不知如何跟进，眼睁睁看着家长走远；对于家长的疑问，更不知道如何有技巧地回答，机会白白流失。由于回答没技巧和专业
C语言如何定义宏函数？小九格物 c语言
在C语言中，宏函数是通过预处理器定义的，它在编译之前替换代码中的宏调用。宏函数可以模拟函数的行为，但它们不是真正的函数，因为它们在编译时不会进行类型检查，也不会分配存储空间。宏函数的定义通常使用#define指令，后面跟着宏的名称和参数列表，以及宏展开后的代码。宏函数的定义方式：1.基本宏函数：这是最简单的宏函数形式，它直接定义一个表达式。#defineSQUARE(x)((x)*(x))2.带参
微服务下功能权限与数据权限的设计与实现 nbsaas-boot 微服务 java 架构
在微服务架构下，系统的功能权限和数据权限控制显得尤为重要。随着系统规模的扩大和微服务数量的增加，如何保证不同用户和服务之间的访问权限准确、细粒度地控制，成为设计安全策略的关键。本文将讨论如何在微服务体系中设计和实现功能权限与数据权限控制。1.功能权限与数据权限的定义功能权限：指用户或系统角色对特定功能的访问权限。通常是某个用户角色能否执行某个操作，比如查看订单、创建订单、修改用户资料等。数据权限：
2021年12月19日，春蕾教育集团团建活动感受——黄晓丹黄错错加油
感受:1.从陌生到熟悉的过程。游戏环节让我们在轻松的氛围中得到了锻炼，也增长了不少知识。2.游戏过程中，我们贡献的是个人力量，展现的是团队的力量。它磨合的往往不止是工作的熟悉，更是观念上契合度的贴近。3.这和工作是一样的道理。在各自的岗位上，每个人摆正自己的位置、各司其职充分发挥才能，并团结一致劲往一处使，才能实现最大的成功。新知:1.团队精神需要不断地创新。过去，人们把创新看作是冒风险，现在人们
《投行人生》读书笔记小蘑菇的树洞
《投行人生》----作者詹姆斯-A-朗德摩根斯坦利副主席40年的职业洞见-很短小精悍的篇幅，比较适合初入职场的新人。第一部分成功的职业生涯需要规划1.情商归为适应能力分享与协作同理心适应能力，更多的是自我意识，你有能力识别自己的情并分辨这些情绪如何影响你的思想和行为。2.对于初入职场的人的建议，细节，截止日期和数据很重要截止日期，一种有效的方法是请老板为你所有的任务进行优先级排序。和老板喝咖啡的好
LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
如何在 Fork 的 GitHub 项目中保留自己的修改并同步上游更新？github_fork_update iBaoxing github
如何在Fork的GitHub项目中保留自己的修改并同步上游更新？在GitHub上Fork了一个项目后，你可能会对项目进行一些修改，同时原作者也在不断更新。如果想要在保留自己修改的基础上，同步原作者的最新更新，很多人会不知所措。本文将详细讲解如何在不丢失自己改动的情况下，将上游仓库的更新合并到自己的仓库中。问题描述假设你在GitHub上Fork了一个项目，并基于该项目做了一些修改，随后你发现原作者对
扫地机类清洁产品之直流无刷电机控制悟空胆好小清洁服务机器人单片机人工智能
扫地机类清洁产品之直流无刷电机控制1.1前言扫地机产品有很多的电机控制，滚刷电机1个，边刷电机1-2个，清水泵电机，风机一个，部分中高端产品支持抹布功能，也就是存在抹布盘电机，还有追觅科沃斯石头等边刷抬升电机，滚刷抬升电机等的，这些电机有直流有刷电机，直接无刷电机，步进电机，电磁阀，挪动泵等不同类型。电机的原理，驱动控制方式也不行。接下来一段时间的几个文章会作个专题分析分享。直流有刷电机会自动持续
店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码说私域人工智能小程序
摘要：本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合，阐述了链动2+1模式、AI智能名片和S2B2C商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来了新的机遇，提升了用户信任感、拓展了营销渠道，并实现了线上线下的完美融合。一、引言随着互联网技术的不断发展，社区团购作为一种新兴的商业模式，在满足消费者日常需
2021-08-26 影幽
在生活中，女人与男人的感悟往往有所不同。人生最大的舞台就是生活，大幕随时都可能拉开，关键是你愿不愿意表演都无法躲避。在生活中，遇事不要急躁，不要急于下结论，尤其生气时不要做决断，要学会换位思考，大事化小小事化了，把复杂的事情尽量简单处理，千万不要把简单的事情复杂化。永远不要扭曲，别人善意，无药可救。昨天是张过期的支票，明天是张信用卡，只有今天才是现金，要善加利用！执着的攀登者不必去与别人比较自己的
html 中如何使用 uniapp 的部分方法某公司摸鱼前端 html uni-app 前端
示例代码：Documentconsole.log(window);效果展示：好了，现在就可以uni.使用相关的方法了
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
腾讯云技术深度探索：构建高效云原生微服务架构我的运维人生云原生架构腾讯云运维开发技术共享
腾讯云技术深度探索：构建高效云原生微服务架构在当今快速发展的技术环境中，云原生技术已成为企业数字化转型的关键驱动力。腾讯云作为行业领先的云服务提供商，不断推出创新的产品和技术，助力企业构建高效、可扩展的云原生微服务架构。本文将深入探讨腾讯云在微服务领域的最新进展，并通过一个实际案例展示如何在腾讯云平台上构建云原生应用。腾讯云微服务架构概览腾讯云微服务架构基于云原生理念，旨在帮助企业快速实现应用的容
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
直抒《紫罗兰永恒花园外传》雷姆的黑色童话
没看过《紫罗兰永恒花园》的我莫名的看完了《紫罗兰永恒花园外传》，又莫名的被故事中的姐妹之情狠狠地感动了的一把。感动何在：困苦中相依为命的姐妹二人被迫分离，用一个人的自由换取另一个人的幸福。之后，虽相隔不知几许依旧心心念念彼此牵挂。这种深深的姐妹情谊就是令我为之动容的所在。贝拉和泰勒分别影片开始，海天之间一个孩童凭栏眺望，手中拿着折旧的信纸。镜头一转，挑灯伏案的薇尔莉特正在打字机前奋笔疾书。这些片段
相信相信的力量孙丽_cdb3
孙丽中级十期坚持分享第345天有一个特别有哲理的故事：有一只老鹰下了蛋，这个蛋，不知怎的就滚到了鸡窝里去了，鸡也下了一窝蛋，然后鸡妈妈把这些蛋全都浮出来了，孵出来之后等小鸡长大一点了，就觉得鹰蛋孵出来的那只小鹰怪模怪样，这些小鸡都嘲笑它，真难看，真笨，丑死了，那只小鹰觉得自己真是谁也不像，真是不好看，后来鸡妈妈也不喜欢他，我怎么生出你这样的孩子来了？真烦人，后来这群小鸡和小鹰一起生活，有一天，老鹰
从鸡肉高汤到记忆的魔法再到有效提示的艺术步子哥人工智能
还记得小时候那些天马行空的白日梦吗？也许只要按下键盘上的某个神奇组合，电脑就会发出滴滴的声响，一个隐藏的世界突然在你眼前展开，让你获得超凡的能力，摆脱平凡的生活。这听起来像是玩过太多电子游戏的幻想，但实际上，间隔重复系统给人的感觉惊人地相似。在最佳状态下，这些系统就像魔法一样神奇。本文将以一个看似平凡的鸡肉高汤食谱为例，深入浅出地探讨如何编写有效的间隔重复提示，让你像掌握烹饪技巧一样轻松地掌握记忆
linux中sdl的使用教程,sdl使用入门 Melissa Corvinus linux中sdl的使用教程
本文通过一个简单示例讲解SDL的基本使用流程。示例中展示一个窗口，窗口里面有个随机颜色快随机移动。当我们鼠标点击关闭按钮时间窗口关闭。基本步骤如下：1.初始化SDL并创建一个窗口。SDL_Init()初始化SDL_CreateWindow()创建窗口2.纹理渲染存储RGB和存储纹理的区别：比如一个从左到右由红色渐变到蓝色的矩形，用存储RGB的话就需要把矩形中每个点的具体颜色值存储下来；而纹理只是一
今日囧事唯愿岁月可回首
今天晚上，房东打来电话说晚上过来取个东西。晚上到家后，洗了一下水果，把卧室的空调打开，在卧室的阳台叠衣服。不一会儿，听见了敲门声，老公和丫头出去开门，果然是房东来了。由于我在叠衣服，床上比较乱，老公随手就把卧室门带上了。我赶紧把衣服收在柜子里，一拧门，好吧，打不开。听见外面热热闹闹的，我喊老公帮我开门，开了几次都开不开。丫头说：妈妈，你先在里面休息一会，我们正在找钥匙。听见外面房东拿了自己东西，老
今天我破防了 sin信仰
今天本来是大年初一，新年的第一天，应该是高高兴兴的一天，但是我怎么也高兴不起来。具体原因很简单，原本计划年后去县城找了一份会计的工作，被公公婆婆否定了，我心里立马就不舒服了，但是当时刚好肚子疼，我去了厕所，等我上完厕所，公公由于喝了酒还在那里和婆婆唠叨个没完。然后我就在心情极度压抑的情况下把午饭吃完的碗筷和锅给刷了。边刷碗筷和锅，边在那里难受，感觉自己在这个家里真的是过的憋屈死了，公婆不让我去上班
LLM 词汇表落难Coder LLMs NLP 大语言模型大模型 llama 人工智能
Contextwindow“上下文窗口”是指语言模型在生成新文本时能够回溯和参考的文本量。这不同于语言模型训练时所使用的大量数据集，而是代表了模型的“工作记忆”。较大的上下文窗口可以让模型理解和响应更复杂和更长的提示，而较小的上下文窗口可能会限制模型处理较长提示或在长时间对话中保持连贯性的能力。Fine-tuning微调是使用额外的数据进一步训练预训练语言模型的过程。这使得模型开始表示和模仿微调数
我的黑历史袖手围观有来有去
孩子同学与我们一起共进晚餐，俩孩子加我三个人。小同学是一个大方率性礼貌的小孩，我们也都非常喜欢。好了，回到正题上来让我把这个故事讲完。俩孩子都喜欢吃鱼，所以就发生了小孩子之间常会发生的事。我狠狠的盯了我家孩子，孩子表情有些狼狈。和孩子单独一起的时候，见她尚未释怀，并谴责我不该狠盯她，让她没面子。也许是她触动了我的童年往事吧。由此，一狠心，给她讲了一段埋藏心里极深的黑历史：我奶奶有四个儿子，四个儿子
509. 斐波那契数(每日一题) lzyprime
lzyprime博客(github)创建时间：2021.01.04qq及邮箱：2383518170leetcode笔记题目描述斐波那契数，通常用F(n)表示，形成的序列称为斐波那契数列。该数列由0和1开始，后面的每一项数字都是前面两项数字的和。也就是：F(0)=0，F(1)=1F(n)=F(n-1)+F(n-2)，其中n>1给你n，请计算F(n)。示例1：输入：2输出：1解释：F(2)=F(1)+
2020.11.19 隆非凡
日精进，今日体验：在维修过程中遇到的问题，把源头找到，在进行下一步开始。不要停留在一个点上，合理调整心态，把当下事做好。
关于提高复杂业务逻辑代码可读性的思考编程经验分享开发经验 java 数据库开发语言
目录前言需求场景常规写法拆分方法领域对象总结前言实际工作中大部分时间都是在写业务逻辑，一般都是三层架构，表示层（Controller）接收客户端请求，并对入参做检验，业务逻辑层（Service）负责处理业务逻辑，一般开发都是在这一层中写具体的业务逻辑。数据访问层（Dao）是直接和数据库交互的，用于查数据给业务逻辑层，或者是将业务逻辑层处理后的数据写入数据库。简单的增删改查接口不用多说，基本上写好一
Java实现的基于模板的网页结构化信息精准抽取组件：HtmlExtractor yangshangchuan 信息抽取 HtmlExtractor 精准抽取信息采集
HtmlExtractor是一个Java实现的基于模板的网页结构化信息精准抽取组件，本身并不包含爬虫功能，但可被爬虫或其他程序调用以便更精准地对网页结构化信息进行抽取。 HtmlExtractor是为大规模分布式环境设计的，采用主从架构，主节点负责维护抽取规则，从节点向主节点请求抽取规则，当抽取规则发生变化，主节点主动通知从节点，从而能实现抽取规则变化之后的实时动态生效。如
java编程思想 -- 多态百合不是茶 java 多态详解
一: 向上转型和向下转型面向对象中的转型只会发生在有继承关系的子类和父类中（接口的实现也包括在这里）。父类：人子类：男人向上转型： Person p = new Man() ; //向上转型不需要强制类型转化向下转型： Man man =
[自动数据处理]稳扎稳打,逐步形成自有ADP系统体系 comsci dp
对于国内的IT行业来讲,虽然我们已经有了"两弹一星",在局部领域形成了自己独有的技术特征,并初步摆脱了国外的控制...但是前面的路还很长.... 首先是我们的自动数据处理系统还无法处理很多高级工程...中等规模的拓扑分析系统也没有完成,更加复杂的
storm 自定义日志文件商人shang storm cluster logback
Storm中的日志级级别默认为INFO，并且，日志文件是根据worker号来进行区分的，这样，同一个log文件中的信息不一定是一个业务的，这样就会有以下两个需求出现： 1. 想要进行一些调试信息的输出 2. 调试信息或者业务日志信息想要输出到一些固定的文件中不要怕，不要烦恼，其实Storm已经提供了这样的支持，可以通过自定义logback 下的 cluster.xml 来输
Extjs3 SpringMVC使用 @RequestBody 标签问题记录 21jhf
springMVC使用 @RequestBody(required = false) UserVO userInfo 传递json对象数据，往往会出现http 415，400,500等错误，总结一下需要使用ajax提交json数据才行，ajax提交使用proxy，参数为jsonData，不能为params；另外，需要设置Content-type属性为json，代码如下：（由于使用了父类aaa
一些排错方法文强chu 方法
1、java.lang.IllegalStateException: Class invariant violation at org.apache.log4j.LogManager.getLoggerRepository(LogManager.java:199)at org.apache.log4j.LogManager.getLogger(LogManager.java:228) at o
Swing中文件恢复我觉得很难小桔子 swing
我那个草了！老大怎么回事，怎么做项目评估的？只会说相信你可以做的，试一下，有的是时间！用java开发一个图文处理工具，类似word，任意位置插入、拖动、删除图片以及文本等。文本框、流程图等，数据保存数据库，其余可保存pdf格式。ok,姐姐千辛万苦，
php 文件操作 aichenglong PHP 读取文件写入文件
1 写入文件 @$fp=fopen("$DOCUMENT_ROOT/order.txt", "ab"); if(!$fp){ echo "open file error" ; exit; } $outputstring="date:"." \t tire:".$tire."
MySQL的btree索引和hash索引的区别 AILIKES 数据结构 mysql 算法
Hash 索引结构的特殊性，其检索效率非常高，索引的检索可以一次定位，不像B-Tree 索引需要从根节点到枝节点，最后才能访问到页节点这样多次的IO访问，所以 Hash 索引的查询效率要远高于 B-Tree 索引。可能很多人又有疑问了，既然 Hash 索引的效率要比 B-Tree 高很多，为什么大家不都用 Hash 索引而还要使用 B-Tree 索引呢
JAVA的抽象--- 接口 --实现百合不是茶
抽象接口实现接口 //抽象类 ,方法 //定义一个公共抽象的类 ,并在类中定义一个抽象的方法体抽象的定义使用abstract abstract class A 定义一个抽象类例如： //定义一个基类 public abstract class A{ //抽象类不能用来实例化，只能用来继承 //
JS变量作用域实例 bijian1013 作用域
<script> var scope='hello'; function a(){ console.log(scope); //undefined var scope='world'; console.log(scope); //world console.log(b);
TDD实践（二） bijian1013 java TDD
实践题目：分解质因数 Step1：单元测试： package com.bijian.study.factor.test; import java.util.Arrays; import junit.framework.Assert; import org.junit.Before; import org.junit.Test; import com.bijian.
[MongoDB学习笔记一]MongoDB主从复制 bit1129 mongodb
MongoDB称为分布式数据库，主要原因是1.基于副本集的数据备份， 2.基于切片的数据扩容。副本集解决数据的读写性能问题，切片解决了MongoDB的数据扩容问题。事实上，MongoDB提供了主从复制和副本复制两种备份方式，在MongoDB的主从复制和副本复制集群环境中，只有一台作为主服务器，另外一台或者多台服务器作为从服务器。本文介绍MongoDB的主从复制模式，需要指明
【HBase五】Java API操作HBase bit1129 hbase
import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.HColumnDescriptor; import org.apache.ha
python调用zabbix api接口实时展示数据 ronin47
zabbix api接口来进行展示。经过思考之后，计划获取如下内容： 1、获得认证密钥 2、获取zabbix所有的主机组 3、获取单个组下的所有主机 4、获取某个主机下的所有监控项
jsp取得绝对路径 byalias 绝对路径
在JavaWeb开发中，常使用绝对路径的方式来引入JavaScript和CSS文件，这样可以避免因为目录变动导致引入文件找不到的情况，常用的做法如下：一、使用${pageContext.request.contextPath} 　　代码” ${pageContext.request.contextPath}”的作用是取出部署的应用程序名，这样不管如何部署，所用路径都是正确的。
Java定时任务调度：用ExecutorService取代Timer bylijinnan java
《Java并发编程实战》一书提到的用ExecutorService取代Java Timer有几个理由，我认为其中最重要的理由是：如果TimerTask抛出未检查的异常，Timer将会产生无法预料的行为。Timer线程并不捕获异常，所以 TimerTask抛出的未检查的异常会终止timer线程。这种情况下，Timer也不会再重新恢复线程的执行了;它错误的认为整个Timer都被取消了。此时，已经被
SQL 优化原则 chicony sql
一、问题的提出　在应用系统开发初期，由于开发数据库数据比较少，对于查询SQL语句，复杂视图的的编写等体会不出SQL语句各种写法的性能优劣，但是如果将应用系统提交实际应用后，随着数据库中数据的增加，系统的响应速度就成为目前系统需要解决的最主要的问题之一。系统优化中一个很重要的方面就是SQL语句的优化。对于海量数据，劣质SQL语句和优质SQL语句之间的速度差别可以达到上百倍，可见对于一个系统
java 线程弹球小游戏 CrazyMizzz java 游戏
最近java学到线程，于是做了一个线程弹球的小游戏，不过还没完善这里是提纲 1.线程弹球游戏实现 1.实现界面需要使用哪些API类 JFrame JPanel JButton FlowLayout Graphics2D Thread Color ActionListener ActionEvent MouseListener Mouse
hadoop jps出现process information unavailable提示解决办法 daizj hadoop jps
hadoop jps出现process information unavailable提示解决办法 jps时出现如下信息： 3019 -- process information unavailable3053 -- process information unavailable2985 -- process information unavailable2917 --
PHP图片水印缩放类实现 dcj3sjt126com PHP
<?php class Image{ private $path; function __construct($path='./'){ $this->path=rtrim($path,'/').'/'; } //水印函数，参数：背景图，水印图，位置，前缀,TMD透明度 public function water($b,$l,$pos
IOS控件学习：UILabel常用属性与用法 dcj3sjt126com ios UILabel
参考网站： http://shijue.me/show_text/521c396a8ddf876566000007 http://www.tuicool.com/articles/zquENb http://blog.csdn.net/a451493485/article/details/9454695 http://wiki.eoe.cn/page/iOS_pptl_artile_281
完全手动建立maven骨架 eksliang java eclipse Web
建一个 JAVA 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=App [-Dversion=0.0.1-SNAPSHOT] [-Dpackaging=jar] 建一个 web 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=web-a
配置清单 gengzg 配置
1、修改grub启动的内核版本 vi /boot/grub/grub.conf 将default 0改为1 拷贝mt7601Usta.ko到/lib文件夹拷贝RT2870STA.dat到 /etc/Wireless/RT2870STA/文件夹拷贝wifiscan到bin文件夹，chmod 775 /bin/wifiscan 拷贝wifiget.sh到bin文件夹，chm
Windows端口被占用处理方法 huqiji windows
以下文章主要以80端口号为例，如果想知道其他的端口号也可以使用该方法..........................1、在windows下如何查看80端口占用情况?是被哪个进程占用?如何终止等. 这里主要是用到windows下的DOS工具,点击"开始"--"运行",输入&
开源ckplayer 网页播放器，跨平台(html5, mobile)，flv, f4v, mp4, rtmp协议. webm, ogg, m3u8 ！天梯梦 mobile
CKplayer，其全称为超酷flv播放器，它是一款用于网页上播放视频的软件，支持的格式有：http协议上的flv,f4v,mp4格式，同时支持rtmp视频流格式播放，此播放器的特点在于用户可以自己定义播放器的风格，诸如播放/暂停按钮，静音按钮，全屏按钮都是以外部图片接口形式调用，用户根据自己的需要制作出播放器风格所需要使用的各个按钮图片然后替换掉原始风格里相应的图片就可以制作出自己的风格了，
简单工厂设计模式 hm4123660 java 工厂设计模式简单工厂模式
简单工厂模式（Simple Factory Pattern）属于类的创新型模式，又叫静态工厂方法模式。是通过专门定义一个类来负责创建其他类的实例，被创建的实例通常都具有共同的父类。简单工厂模式是由一个工厂对象决定创建出哪一种产品类的实例。简单工厂模式是工厂模式家族中最简单实用的模式，可以理解为是不同工厂模式的一个特殊实现。
maven笔记 zhb8015 maven
跳过测试阶段： mvn package -DskipTests 临时性跳过测试代码的编译： mvn package -Dmaven.test.skip=true maven.test.skip同时控制maven-compiler-plugin和maven-surefire-plugin两个插件的行为，即跳过编译，又跳过测试。指定测试类 mvn test
非mapreduce生成Hfile，然后导入hbase当中 Stark_Summer map hbase reduce Hfile path实例
最近一个群友的boss让研究hbase，让hbase的入库速度达到5w+/s，这可愁死了，4台个人电脑组成的集群，多线程入库调了好久，速度也才1w左右，都没有达到理想的那种速度，然后就想到了这种方式，但是网上多是用mapreduce来实现入库，而现在的需求是实时入库，不生成文件了，所以就只能自己用代码实现了，但是网上查了很多资料都没有查到，最后在一个网友的指引下，看了源码，最后找到了生成Hfile
jsp web tomcat 编码问题王新春 tomcat jsp pageEncode
今天配置jsp项目在tomcat上，windows上正常，而linux上显示乱码，最后定位原因为tomcat 的server.xml 文件的配置，添加 URIEncoding 属性： <Connector port="8080" protocol="HTTP/1.1" connectionTi