周建丁

构建数据科学档案：机器学习项目

原文：Building a data science portfolio: Machine learning project
作者：Vik Paruchuri，开发者，数据科学家，Dataquest.io创始人
翻译：Alvin 校审：KK4SBB
责编：周建丁（[email protected]）

下文仅是一系列关于如何建立数据科学档案（Data Science Portfolio）的文章的一部分。如果你喜欢此篇文章，并且想得到该系列最新的连载文章，可以在页面的底部选择订阅。

大数据企业在评估新员工的时候会越来越重视他们的档案。原因之一就是档案是判断某人在现实世界的技能的最佳方式。但好的消息是此档案完全在你的的掌控范围内，如果你做了一定的工作，你将得到一份企业青睐的好档案。

建立优质数据档案的第一步是确定需要展示哪些技能。如下是企业想在你的数据档案里看到的一些基本技能：

沟通的能力。
与他人合作的能力。
技术的程度。
解释能力的相关数据。
动力和主观能动性。

任何一个优秀的档案是由多个项目组成，每个项目至少包括上述的一到两点。此文是一系列关于如何建立数据科学档案的文章的一部分。在文章中将会讲述到如何在你的数据档案中添加第二个项目，而且将会阐述如何构建一个端对端的机器学习项目。在文章最后，你将会拥有一个通过数据展现你的水平和技术能力的项目。如果你感兴趣一定不能错过此篇文章。

端对端的项目

作为一个数据科学的科学家，有时候你会被要求得出一个数据集并且要描述他。在这种情况下，良好的交流过程和连贯的思路变得很重要。比如一些工具例如“Jupyter 记事本”（Jupyter notebook），这个工具在我们这之前的文章中使用过，对我们的帮助很大。这里想说的是，我们期待的成果是一个能总结你的发现成果的演示或者文档。

然而有些时候，你会被要求创建一个具有操作价值的项目。这个具有操作价值的项目直接影响公司的日常运作，并且使用的时间和操作的人数都会很大。这样的任务可能是用来“创建一个算法来预测我们的客户的流失率”或者“创建一个可以自动标识我们的文章的模型”。在这只能过情况下，叙述故事跟技术能力相比，就显得不是那么重要了。你需要构建并且了解一个数据集，然后创建一组可以处理数据的脚本程序。重要的是这些脚本运行要很快并且尽可能少的使用例如内存的系统资源。常见的是这些脚本程序将运行不止一次，所以需要交付的是实实在在的程序代码而不是一个流程演示。同时这些交付项目往往是需要纳入业务流程的范畴，甚至可能是面向用户的。

构建端对端项目的主要要素如下：

理解上下文。
研究数据并找出其中细微的差别。
创建一个结构良好的项目，所以此项目才能轻松地集成到操作流程里。
编写高性能的，运行速度快的，并使用最少系统资源的代码。
记录你的程序安装和使用情况，好的记录会反应你的代码质量的好坏，从而方便代码的复用。

为了有效创建这种类型的项目，我们需要操作多个文件。使用文本编辑器比如Atom，或者集成开发环境比如强烈推荐PyCharm。这些工具可以方便你在文件之间切换并且编辑不同类型的文件，比如markdown文件，Python文件，csv文件等等。还有构建你的项目，所以版本控制变得非常容易操作，同时可以上传到可协作编码工具例如Github。

这个项目的Github页面

在这篇文章中，我们将使用我们的编辑工具，比如Pandas和scikit-learn。我们将广泛的利用Pandas的数据框，它可以很容易地阅读和操作Python上的数据表格。

寻找优秀的数据集

一个好的端对端数据集项目是很难找到。这就要求数据量需要足够的大，这样才能使得存储器和系统性能发挥作用。它还可能需要在操作上非常有用，例如，在这个数据集中包含录取标准，毕业率数据，并且毕业后的未来收益对于一个美国大学都是将是一个值得称赞的巨大数据档案。但是，当你在考虑这个数据集时，你会清楚地发现它没有足够的差别以建立一个良好的端对端项目。例如，你可以告诉别人他的潜在的未来收益，如果他们去了一个特殊的大学，但是这将没有足够的差别来快速表明其技术水平。你也可以判别是否具有较高入学标准的院校会拥有更多薪资的毕业生，这将比运营更具有故事性。

当你拥有比千兆字节还要多的数据时，这些内存和性能的限制往往会发挥作用，同时当你需要预测一些事情的时候，其中涉及的运行算法是要超过数据集本身的。

良好的操作数据使你能够创建一组转换数据的脚本程序，并且即时地回答问题。一个很好的例子就是关于股票价格的数据集。你将能够预测第二天的价格，并将最新的数据反馈给后台作为交易的结果。这将有利于你进行交易甚至可能从中盈利。这不仅仅是讲述一个故事，而是从中获利。

这里有一些能够找到这样的数据集的好地方：

/r/datasets，一个拥有数百个有趣的数据集的版块。
Google Public Datasets，可以通过谷歌的BigQuery得到的公共数据集。
Awesome datasets，一个托管在Github上的数据集列表。

在查看这些数据集的时候，想想有人会问到跟此数据集相关的问题，并且如果这些问题都是一次性的（“住房价格和标准普尔500指数有什么关联？”）或者是（“你能预测股市吗？”）。这里的关键是找到正在进行的，并需要相同的代码在多次运行的问题中输入不同的数据。

对于这篇文章的目的而言，我们将看看Fannie Mae贷款数据，Fannie Mae是美国政府赞助的企业，用来从其他贷款人手中购买按揭贷款。然后，它捆绑了这些贷款作为抵押贷款放入证券和转售他人。这使得贷款人有更多的按揭贷款，并且在市场上创造更多的流动性。这在理论上会产生更多的购房交易和更好地贷款条件。虽然从借款人的角度来看，事情保持大致相同。

Fannie Mae发布了两种类型的数据，一种是获得贷款的数据另一种是贷款表现的数据。在理想情况下，有人从贷款人借钱，然后偿还贷款，直到余额为零。然而，一些借贷人错过了多次付款的机会，这可能会导致他们丧失抵押品的赎回权。当抵押品的赎回权丧失的时候，房子就会被银行没收，因为他们无法按时还款。Fannie Mae错过了对支付贷款的跟踪和哪些贷款被取消了赎回权。此数据每季度出版一次，并且落后当前数据一年，在撰写本文时所用的最新的数据集止于2015年第一季度。

这些由Fannie Mae出版的采集数据，包含借贷人的信息，比如，信用分数，贷款和家庭的信息，收入信息。当贷款放出后，每季度公布这些信息，包括借款人的取消抵押品赎回权的状态和任何的支付信息。这些贷款可能会包含十几行的情况数据。好消息是这些收获的数据告诉你Fannie Mae 目前正在控制贷款，并且这些数据包含了一系列贷款状态的最新信息。其中一个最新的状态可能告诉我们贷款在一些季度会取消抵押品赎回权。

一栋取消抵押品赎回权的在售房屋

选择一个角度

这里有几个我们可以探索的Fannie Mae的数据：

尝试在其抵债之后再预测房子的销售价格。
预测借款人的付款记录。
弄清楚在数据采集期间每笔贷款的得分。

重要的是要坚持一个角度，如果试图把重点放在太多的事情上将很难一下子做出一个高效的项目，而且选择那些有足够差别的角度也同样重要。这里有几个没有过多差别的角度的例子：

哪些银行向Fannie Mae出售贷款的止赎是最多的。
搞清楚借款人的信用分数的趋势。
探索哪些类型的房屋经常性的止赎。
探索贷款金额和取消抵押品赎回权的销售价格之间的关系。

以上的所有角度都是有意义的，如果我们都集中在叙述环节将会是很大的任务，但并没有为此任务做出相应的配合。

随着Fannie Mae的数据集，我们将尝试预测是否贷款将被止赎仅使用被收购的贷款信息。实际上，我们将创建任何抵押贷款，这将告诉我们如果Fannie Mae应当买它还是不能买。这将为我们提供一个很好的基础来构建，并且也是一块很大的档案。

了解数据

让我们来简单看一下一个原始的数据文件，下面是从2012年第一季度所采集的数据的前几行：

100000853384|R|OTHER|4.625|280000|360|02/2012|04/2012|31|31|1|23|801|N|C|SF|1|I|CA|945||FRM|
100003735682|R|SUNTRUST MORTGAGE INC.|3.99|466000|360|01/2012|03/2012|80|80|2|30|794|N|P|SF|1|P|MD|208||FRM|788
100006367485|C|PHH MORTGAGE CORPORATION|4|229000|360|02/2012|04/2012|67|67|2|36|802|N|R|SF|1|P|CA|959||FRM|794

下面是2012年第一季度业绩数据的前几行：

100000853384|03/01/2012|OTHER|4.625||0|360|359|03/2042|41860|0|N||||||||||||||||
100000853384|04/01/2012||4.625||1|359|358|03/2042|41860|0|N||||||||||||||||
100000853384|05/01/2012||4.625||2|358|357|03/2042|41860|0|N||||||||||||||||

在早早开始编码之前，有些时候这些都是很重要的，而且需要真正理解数据。这是在业务项目中更重要的，因为我们无法交互式的探索数据，它可以是很难察觉到的细微差别，除非我们能找到它们的上一层。在这种情况下，第一个步骤就是读取Fannie Mae网站上的资源：

概括
有用的术语表
常见问题解答
收购事项及性能文件
数据采集文件的样品
性能采集文件的样品

在浏览这些文件之后，我们知道了一些有助于我们的关键事实：

这里有从从2000年至今获取文件和每个季度业绩的文件，数据有一年的延迟，所以写这篇文章的数据引用自最新的2015年的数据。
该文件是文本格式，用附号(|) 作为分隔符。
该文件没有标题，但我们有表格知道每一列代表的是什么。
总之，该文件包含2200万个贷款数据。
因为性能文件包含以前的年度获得的贷款数据，所以前几年的贷款收购将有更多的性能数据（即在2015年获得的贷款将不会有太大的历史业绩记录）。

当我们弄清楚如何构建我们的项目和处理的数据信息时，这些小细节会为我们节约大量的时间。

构建项目

在我们下载和探索数据之前，有必要思考如何构建项目的结构。当构建端对端的项目时，我们的主要目标是：

创建一个可行的解决方案。
使用一个能快速运行并且使用最少资源的解决方案。
让他人能轻松的在你的成果基础上进行扩展。
让别人能够容易理解你的代码。
尽可能的精简代码。

为了实现这些目标，我们需要调整我们的项目。一个结构良好的项目拥有如下几点原则：

隔离数据文件和代码文件。
隔离生成的数据和原始数据。
拥有一个README.md文件能告诉用户部署和使用项目。
拥有一个requirements.txt文件列出了运行项目所需的所有包。
拥有一个settings.py文件包含在其他文件中使用的设置信息，
- 例如，如果你正在多个Python脚本中阅读相同的文件，把他们全部导入设置并集中得到它们的名字是非常有用的。
拥有一个.gitignore文件能防止大型或机密的文件被窃取。
将任务的每个步骤可单独执行的文件，
- 例如，我们可以让一个文件拥有创建功能，另一个文件用来进行预测读数。
存储中间值。
- 例如，一个脚本输出的文件可以被下一个脚本读取。这使得我们能够在数据处理流程中无需重新计算。

我们的文件结构是这样的：

loan-prediction
├── data
├── processed
├── .gitignore
├── README.md
├── requirements.txt
├── settings.py

创建初始文件

首先，我们需要建立一个贷款预测的文件夹。在这个文件夹里，我们需要做一个数据文件夹和进程文件夹，前一个将存储我们的原始数据，而后一个将存储任何的中间计算值。

接下来，我们将创建一个.gitignore文件，此文件用来确认某些文件被忽略的git信息，而不会上传到Github上。此类文件的一个很好的例子是由OSX的每个文件夹中创建的.DS_Store文件。在这里对于.gitignore文件是一个很好的开端。我们还需要忽略数据文件，因为它们是非常大的，而且Fannie Mae的条款禁止我们重新分配数据，所以我们需要在文件的末尾添加两行：

data
processed

这里有此项目的一个.gitignore文件的示例。

接下来，我们需要创建README.md文件，这将帮助人们了解这个项目。.MD表示给文件是markdown格式。Markdown格式能让你编写纯文本，而且即使你想添加一些花哨的格式也可以支持。这里有markdown格式的指南。如果你上传了一个名为README.md的文件到Github，Github将自动处理markdown格式，并展示给任何对此项目感兴趣的人。下面是一个例子。

现在，我们只需要把一个简单的描述添加到README.md文件里：

Loan Prediction
-----------------------

Predict whether or not loans acquired by Fannie Mae will go into foreclosure.  Fannie Mae acquires loans from other lenders as a way of inducing them to lend more.  Fannie Mae releases data on the loans it has acquired and their performance afterwards [here](http://www.fanniemae.com/portal/funding-the-market/data/loan-performance-data.html).

现在，我们可以创建一个名叫equirements.txt的文件，这个文件会帮助其他人容易的部署我们的项目。我们还不知道将会使用哪些库，这里还有一个很好的开头：

pandas
matplotlib
scikit-learn
numpy
ipython
scipy

以上的库中最常用的Python数据分析任务，其基本预测我们会用到其中大多数的库。下面是该项目的例子要求的文件。

在创建requirements.txt文件之后，你应当安装软件包。在这篇文章中，我们将使用Python3，如果您尚未安装Python，您应该考虑使用Python，以上列出Python的安装程序以及还会安装的所有软件包。

最后，我们可以只是创建一个空白的settings.py文件，因为我们没有为项目做任何设置。

获取数据

一旦有了项目的原始框架，我们就可以得到原始的数据。

Fannie Mae在采集数据方面有一些限制，所以你需要注册一个账户，你可以在这里找到下载页面。创建账户后，你就可以根据需要下载尽可能少或尽可能多的贷款数据文件了。该文件是zip格式，解压后体积会相当大。

对于这个帖子的目的在于，我们已经下载了从2012年第一季度到2015年第一季度的数据。然后，我们将需要解压所有的文件，解压文件或，删除原来的.zip文件。最后，贷款预测文件夹应该是这个样子的：

loan-prediction
├── data
│ ├── Acquisition_2012Q1.txt
│ ├── Acquisition_2012Q2.txt
│ ├── Performance_2012Q1.txt
│ ├── Performance_2012Q2.txt
│ └── ...
├── processed
├── .gitignore
├── README.md
├── requirements.txt
├── settings.py

下载数据后，就可以使用头部和尾部的shell命令来查看文件中的行信息了。你将不需要列明查看信息，这样做有助于生成pdf格式。

在数据中进行读取

这里有两个问题，是我们的数据难以正确使用：

此收购和性能的数据涵盖多个独立的文件。
每个文件都丢失了头信息。

在我们开始用数据工作之前，我们需要得到如下步骤，我们有一个文件用来获取数据，一个文件用来获取性能数据。每个文件都只需要包含我们关心的列信息和适当的标题。这里的一个问题是性能数据相当大，所以我们尝试削减一些列。

第一步是在settings.py中添加一些变量，这其中将包含我们的原始数据和处理的数据。我们还将添加一些其他的设置，这对后面是有益的：

DATA_DIR = "data"
PROCESSED_DIR = "processed"
MINIMUM_TRACKING_QUARTERS = 4
TARGET = "foreclosure_status"
NON_PREDICTORS = [TARGET, "id"]
CV_FOLDS = 3

把路径存入settings.py文件将会把他们放在一个集中的地方，使他们能够容易的更改。当多个文件指向的是相同的变量时，它更容易吧它们放在一个集中的地方，当你想改变他们的时候可以在每个文件夹中进行编辑。下面是一个settings.py文件的示例。

第二步是创建一个名为assemble.py的文件用来聚集所有成果到两个文件中。当我们运行Python的assemble.py文件时，我们将会处理两个目录里的数据文件。

然后，我们将开始在assemble.py文件中编写代码。我们首先需要定义每个文件的头信息，所以我们需要查看pdf中的列名和创建每次采集和性能的文件中的列信息：

HEADERS = {
  "Acquisition": [
  "id",
  "channel",
  "seller",
  "interest_rate",
  "balance",
  "loan_term",
  "origination_date",
  "first_payment_date",
  "ltv",
  "cltv",
  "borrower_count",
  "dti",
  "borrower_credit_score",
  "first_time_homebuyer",
  "loan_purpose",
  "property_type",
  "unit_count",
  "occupancy_status",
  "property_state",
  "zip",
  "insurance_percentage",
  "product_type",
  "co_borrower_credit_score"
  ],
  "Performance": [
  "id",
  "reporting_period",
  "servicer_name",
  "interest_rate",
  "balance",
  "loan_age",
  "months_to_maturity",
  "maturity_date",
  "msa",
  "delinquency_status",
  "modification_flag",
  "zero_balance_code",
  "zero_balance_date",
  "last_paid_installment_date",
  "foreclosure_date",
  "disposition_date",
  "foreclosure_costs",
  "property_repair_costs",
  "recovery_costs",
  "misc_costs",
  "tax_costs",
  "sale_proceeds",
  "credit_enhancement_proceeds",
  "repurchase_proceeds",
  "other_foreclosure_proceeds",
  "non_interest_bearing_balance",
  "principal_forgiveness_balance"
  ]
}

下一步是定义我们希望保留的列。由于所以我们关于贷款的信息在现有基础上衡量其跟以往的关系，我们可以抛弃很多的性能数据列。我们需要所以采集数据的列，不过因为我们要最大限度地提高被收购贷款的有关信息（毕竟，我们预测如果贷款将永远自安倍取消赎回权或不使用的情况下收购）。丢弃列将帮助我们节省硬盘空间和内存，同时还加快了我们的代码。

SELECT = {
  "Acquisition": HEADERS["Acquisition"],
  "Performance": [
  "id",
  "foreclosure_date"
  ]
}

下一步，我们将编写一个用来连接数据集的函数。代码如下：

导入一些需要的库包括设置。
定义一个函数串连，
- 即获取数据目录中所有文件的名称；
- 循环每个文件;
  - 比如如果该文件不是正确的类型则忽略（不是我们想要的前缀开头），
  - 将文件读入到DataFrame通过使用Pandas read_csv方法；
    - 设置分隔符“|”使得所有的字段被正确读入；
    - 该数据没有标题行，所以设置头为空来表明这一点；
    - 从HEADERS字典中获取正确的值来设置名称，这些都将是我们的数据框的列名；
    - 在DataFrame中仅选择我们添加到select里的列名；
    - 将所有的数据帧串联在一起；写入级联数据帧返回一个文件。

import os
import settings
import pandas as pd

def concatenate(prefix="Acquisition"):
    files = os.listdir(settings.DATA_DIR)
    full = []
    for f in files:
        if not f.startswith(prefix):
            continue

        data = pd.read_csv(os.path.join(settings.DATA_DIR, f), sep="|", header=None, names=HEADERS[prefix], index_col=False)
        data = data[SELECT[prefix]]
        full.append(data)

    full = pd.concat(full, axis=0)

    full.to_csv(os.path.join(settings.PROCESSED_DIR, "{}.txt".format(prefix)), sep="|", header=SELECT[prefix], index=False)

我们可以调用上述的方法两次通过参数采集和性能来连接所有的获得和性能文件在一起。代码如下：

只有当脚本是通过命令行调用执行Python的assemble.py文件。
串联所有的文件，并生成两个文件
- processed/Acquisition.txt
- processed/Performance.txt

if __name__ == "__main__":
    concatenate("Acquisition")
    concatenate("Performance")

我们现在已经有了一个良好的，划分的assemble.py文件，易于执行，而且容易创建。通过分解问题转化为这样的结果，我们可以很容易的建立我们的项目。而不是一个凌乱的脚本，我们定义脚本之间的传递，使他们有相互完全独立的数据。当你在操作较大的项目时，这是一个很好的主意，因为这使得它更容易改变各个部分，而无需对项目不重要部分得到意想不到的结果。

一旦我们完成了assemble.py脚本，我们就可以运行Python的assemble.py文件了，在这里你可以找到完整的assemble.py文件。
这会在处理目录中生成两个文件：

loan-prediction
├── data
│ ├── Acquisition_2012Q1.txt
│ ├── Acquisition_2012Q2.txt
│ ├── Performance_2012Q1.txt
│ ├── Performance_2012Q2.txt
│ └── ...
├── processed
│ ├── Acquisition.txt
│ ├── Performance.txt
├── .gitignore
├── assemble.py
├── README.md
├── requirements.txt
├── settings.py

在性能数据中计算值

下一步我们将从processed/Performance.txt文件中计算一些数值。所有我们想做的是预测财产是否被法拍。为了搞清楚这一点，我们只需要检查与贷款相关的性能数据中是否曾经有一个foreclosure_date。如果没有foreclosure_date，则该属性从未被法拍。为了避免在我们的样本中，包含很少有表现的历史贷款，我们还需要在每笔贷款的高性能文件中存储许多行计数。这将让我们从训练数据中筛选出没有太多表现的历史贷款。

思考贷款数据和性能数据的一个方法：

image here

正如你在上面看到的，在获取数据的每一行可以和性能数据的多行有联系。在性能数据上，foreclosure_date将出现在当止赎发生四分之一的时候，因此它应该在这段时间之前是空白的。一些贷款从未拍卖，所以所有的性能数据和与它们相关的行具有foreclosure_date空白。

我们需要计算foreclosure_status，这是一个布尔值，表示一个特定贷款的id是否曾经封死，并且performance_count是行中每个贷款ID的性能数据的数目。

有几种方法可以计算出我们想要的总量：

我们可以读取所有的性能数据，然后在数据帧上使用Pandas的groupby方法来计算出与每个贷款ID相关联的行的数目，并且如果foreclosure_date是从不为空的id。
- 这种方法的好处是，它很容易从语法的角度来实现。
- 缺点是，阅读所有129236094线路中的数据会占用大量的内存，并极其缓慢。
我们可以读出素有毒性能数据，然后对采集框应用中找到每个id的计数。
- 好处是，该数据集不需要被加载到内存中，所以它是非常快速和高效的存储器。
- 不足之处是，它会增长概念的落实，而且我们需要手动去解析行数据。

加载所有的数据需要相当多的存储空间，所以让我们选上面的第三个选择。所有我们需要做的是通过性能数据所有行的迭代，同时将每个贷款id的字典计数。在字典中，仿佛foreclosure_date是有史以来不是没有，沃尔玛·我们会继续跟踪出现在性能数据里的id。这将为我们提供foreclosure_status和performance_count。

我们将创建一个名为annotate.py的新文件，并添加代码，使我们能够计算这些值。在下面代码中，我们将：

导入所需的库
定义一个名为count_performance_rows的方法。
- Open processed/Performance.txt文件，这并不读取文件到内存中，而是打开一个可用于按行文件中的行读取文件处理程序。
- 在文件中的每一行进行循环，使用拆分行分隔符“|”，检查贷款id如果不在计数字典里，如果不是添加其到计数，对于给定的贷款id我们是在一个包含它的行递增性能计数器里，如果日期不为空，那么我们知道贷款被法拍，所以设置止赎状态正确。

import os
import settings
import pandas as pd

def count_performance_rows():
  counts = {}
  with open(os.path.join(settings.PROCESSED_DIR, "Performance.txt"), 'r') as f:
  for i, line in enumerate(f):
  if i == 0:
  # Skip header row
  continue
  loan_id, date = line.split("|")
  loan_id = int(loan_id)
  if loan_id not in counts:
  counts[loan_id] = {
  "foreclosure_status": False,
  "performance_count": 0
  }
  counts[loan_id]["performance_count"] += 1
  if len(date.strip()) > 0:
  counts[loan_id]["foreclosure_status"] = True
  return counts

获取值

一旦我们创建了计数字典，我们可以做一个功能，将来自贷款id和一个关键的字典值提取出来：

def get_performance_summary_value(loan_id, key, counts):
  value = counts.get(loan_id, {
  "foreclosure_status": False,
  "performance_count": 0
  })
  return value[key]

上述功能将从计数字典中返回适当的值，并且将使我们能够分配foreclosure_status值和performance_count值到获取数据的每一行。在字典的get方法返回，如果没有找到键的默认值，因此这有利于我们，如果密钥没有在字典中的计数不存在则返回合理的默认值。

注释数据

我们已经增加了一些功能在annotate.py中，但现在我们可以进入文件内部。我们需要将采集的数据转换成可以在一个机器学习算法使用的训练数据集。这涉及到几件事情：

将所有的列变为数字
填写任何遗漏的值
指定performance_count和foreclosure_status到每一行
删除那些没有很多表现的历史的行（性能计数很低）

我们几个列是字符串，其不给机器学习算法是有用的。但是，他们实际上是分类变量，在这里有几个不同的类别代码，例如R，S等。我们可以通过分配一个编号以每个类别标注这些列转换为数字：

image here

转换列这种方式将使我们能够在我们的机器学习算法中使用它们。某些列还包含日期（第一次付款日期和起始日期）。我们可以拆分这些日期到每2列：

image here

在下面的代码中，我们改变了收购数据。我们将定义一个函数：

创建一个foreclosure_status列从数据字典中获取收购止赎状态。
创建一个performance_count列从数据字典中获取收购的业绩。
从以下各字符串列转换成整数列：
- channel
- seller
- first_time_homebuyer
- loan_purpose
- property_type
- occupancy_status
- property_state
- product_type
转换first_payment_date和origination_date。
- 以分隔符拆分列
- 分配分割列表一个月列的第一部分
- 分配分割列表一年列的第二部分
- 删除这一列
- 最终，我们拥有first_payment_month，first_payment_year，origination_month和origination_year。
- 任何收购缺省值填充-1.

def annotate(acquisition, counts):
  acquisition["foreclosure_status"] = acquisition["id"].apply(lambda x: get_performance_summary_value(x, "foreclosure_status", counts))
  acquisition["performance_count"] = acquisition["id"].apply(lambda x: get_performance_summary_value(x, "performance_count", counts))
  for column in [
  "channel",
  "seller",
  "first_time_homebuyer",
  "loan_purpose",
  "property_type",
  "occupancy_status",
  "property_state",
  "product_type"
  ]:
  acquisition[column] = acquisition[column].astype('category').cat.codes

  for start in ["first_payment", "origination"]:
  column = "{}_date".format(start)
  acquisition["{}_year".format(start)] = pd.to_numeric(acquisition[column].str.split('/').str.get(1))
  acquisition["{}_month".format(start)] = pd.to_numeric(acquisition[column].str.split('/').str.get(0))
  del acquisition[column]

  acquisition = acquisition.fillna(-1)
  acquisition = acquisition[acquisition["performance_count"] > settings.MINIMUM_TRACKING_QUARTERS]
  return acquisition

聚合所有的事情

我们差不多准备拉都在一起，我们只需要多一点的代码添加到annotate.py。在下面的代码中，我们：

定义一个函数在采集数据的读取。
定义一个函数来写入处理的数据到处理/ train.csv
如果该文件是在命令行中，像蟒蛇annotate.py叫：
- 阅读在采集数据。
- 计算计数的性能数据，并将它们分配给计数。
- 注释采集数据帧。
- 写在收购数据帧到train.csv。

def read():
  acquisition = pd.read_csv(os.path.join(settings.PROCESSED_DIR, "Acquisition.txt"), sep="|")
  return acquisition

def write(acquisition):
  acquisition.to_csv(os.path.join(settings.PROCESSED_DIR, "train.csv"), index=False)

if __name__ == "__main__":
  acquisition = read()
  counts = count_performance_rows()
  acquisition = annotate(acquisition, counts)
  write(acquisition)

一旦你完成更新文件，一定要与蟒蛇annotate.py运行它，生成train.csv文件。你可以在这里找到完整的annotate.py文件。

该文件夹现在应该是这样的：

loan-prediction
├── data
│ ├── Acquisition_2012Q1.txt
│ ├── Acquisition_2012Q2.txt
│ ├── Performance_2012Q1.txt
│ ├── Performance_2012Q2.txt
│ └── ...
├── processed
│ ├── Acquisition.txt
│ ├── Performance.txt
│ ├── train.csv
├── .gitignore
├── annotate.py
├── assemble.py
├── README.md
├── requirements.txt
├── settings.py

发现错误度量标准

我们正在与我们的生成训练数据集，而现在我们只需要做的最后一步，生成预测完成。我们需要找出一个错误的指标，以及我们如何要评估我们的数据。在这种情况下，有更多的贷款未比都封死了，所以典型精度措施并没有太大的意义。

如果我们在训练中读取数据，并检查计数的foreclosure_status列，这里就是我们得到：

import pandas as pd
import settings

train = pd.read_csv(os.path.join(settings.PROCESSED_DIR, "train.csv"))
train["foreclosure_status"].value_counts()

False 4635982
True 1585
Name: foreclosure_status, dtype: int64

既然这么几个贷款的抵债了，只需检查中正确预测将意味着我们可以作出这样的预测为False每一行，仍然得到了非常高精度的机器学习模型标签的百分比。相反，我们将要使用的度量，是以类不平衡考虑，并确保我们准确预测丧失抵押品赎回权。我们不希望太多假阳性，在那里我们作出预测，一个贷款将封死上，即使它不会，或过多的假阴性，在那里我们预测贷款不会被封死，但它是。这两个，假阴性是房利美更昂贵，因为他们购买的贷款他们可能无法收回投资的地方。

我们将定义假阴性率，其中模型预测没有丧失抵押品赎回权，但贷款数量的贷款实际上是法拍，通过实际上取消抵押品赎回权的贷款总额数除以。这是典型的“未接”实际取消抵押品赎回权的比例。这里有一个图：

image here

在上面的图中，1该笔贷款预测为没有被封死，但它实际上是。如果我们把这个由实际上的，2抵债贷款的数量，我们得到的假阴性率，50％。我们将以此作为我们的误差度量，因此，我们可以评估我们的模型的性能。

设置机器学习的分类

我们将使用交叉验证做出预测。将我们的数据分成3组。然后，我们将做到以下几点：

训练组1和2的模型，并使用该模型，使为3组的预测。
训练组1和3中的模型，并使用该模型，使2组的预测。
训练2和3组模型，并利用该模型，使第1组的预测。

它拆分成组这种方式意味着我们使用我们正在做的预测为相同的数据永远不会训练模式。这就避免了过度拟合。如果我们过度拟合，我们会得到一个错误的低假阴性率，这使得它很难提高我们的算法还是在现实世界中使用它。

Scikit-learn有一个名为cross_val_predict函数，将可以很容易进行交叉验证。

我们还需要选择一个要使用的算法进行预测。我们需要一个分类，可以做二分类。目标变量，foreclosure_status只有两个值，真假。

我们将使用logistic回归，因为它可以很好地用于二分类，运行速度非常快，并且使用较少的内存。这是由于算法如何工作 - 而非建造几十棵，像一个随机森林，或做昂贵的转换，如支持向量机，回归有涉及较少的矩阵运算少得多的步骤。

我们可以使用在实施logistic回归分类算法Scikit-learn。我们需要关注的唯一事情就是每个类的权重。如果我们同样加权类，算法将预测假的每一行，因为它试图最大限度地减少错误。然而，我们关心更多关于取消抵押品赎回权比我们有关未止赎贷款。因此，我们将通过均衡的逻辑回归类的class_weight关键字参数，以获得算法，加权取消抵押品赎回权更多地考虑在每个类的计数差异。这将确保该算法不适合每一行预测假，而是针对预测或者类犯错误同样处罚。

预测

现在，我们有预赛出的方式，我们已经准备好做出预测。我们将创建一个新的文件名为predict.py将使用我们在上一步中创建的文件train.csv。以下的代码：

导入所需的库。
创建一个名为cross_validate该函数：
创建一个逻辑回归分类用正确的关键字参数。
创建一个我们要用来训练模型，删除ID和foreclosure_status列的列表。
在整个运行列车数据帧交叉验证。
返回预测。

import os
import settings
import pandas as pd
from sklearn import cross_validation
from sklearn.linear_model import LogisticRegression
from sklearn import metrics

def cross_validate(train):
  clf = LogisticRegression(random_state=1, class_weight="balanced")

  predictors = train.columns.tolist()
  predictors = [p for p in predictors if p not in settings.NON_PREDICTORS]

  predictions = cross_validation.cross_val_predict(clf, train[predictors], train[settings.TARGET], cv=settings.CV_FOLDS)
  return predictions

预知错误

现在，我们只需要编写一些函数来计算错误。代码如下：

创建一个名为compute_error的函数：
- 使用scikit-learn 来计算一个简单的精确度得分（预测百分比与实际foreclosure_status的值相匹配）。
创建一个调用compute_false_negatives的函数：
- 为方便起见，在数据框架里结合目标值和预测值。
- 发现假阴性率。
  - 发现在模型预测中未取消抵押品赎回权的贷款数量。
  - 将不取消抵押品赎回权的贷款总数进行划分。

把这些全部放在一起

现在，我们只要把这些函数一起放进predict.py里。下面的代码将会：

读取数据集。
计算交叉验证预测。
计算上述3项误差指标。
打印错误指标。

def read():
    train = pd.read_csv(os.path.join(settings.PROCESSED_DIR, "train.csv"))
    return train

if __name__ == "__main__":
    train = read()
    predictions = cross_validate(train)
    error = compute_error(train[settings.TARGET], predictions)
    fn = compute_false_negatives(train[settings.TARGET], predictions)
    fp = compute_false_positives(train[settings.TARGET], predictions)
    print("Accuracy Score: {}".format(error))
    print("False Negatives: {}".format(fn))
    print("False Positives: {}".format(fp))

一旦你添加了代码，你就可以运行Python predict.py生成预测结果。一切运行都表明，我们的假阴性率是0.26，这意味我们错过了他们预测的26％的赎回贷款。这是一个良好的开端，但这用了大量的改进！

你可以在这里找到完整的predict.py文件。

您的文件树现在看起来应该是这样的：

loan-prediction
├── data
│   ├── Acquisition_2012Q1.txt
│   ├── Acquisition_2012Q2.txt
│   ├── Performance_2012Q1.txt
│   ├── Performance_2012Q2.txt
│   └── ...
├── processed
│   ├── Acquisition.txt
│   ├── Performance.txt
│   ├── train.csv
├── .gitignore
├── annotate.py
├── assemble.py
├── predict.py
├── README.md
├── requirements.txt
├── settings.py

写一个README文件

现在，我们已经完成了我们的端对端项目，我们只需要编写一个README.md文件，以便其他人知道我们做了什么，以及如何复制它。一个典型的README.md项目文件应该包括以下几个部分：

该项目的高度概括，以及目标是什么。
哪里可以下载到任何需要的数据或资料。
安装说明。
- 如何安装的要求。
使用说明。
- 如何运行项目。
- 每个步骤结束后，你会看到什么样的结果。
如何为项目做出贡献。
- 接下来用于扩展该项目的好的步骤：

这里是该项目的一个样本README.md文件。

接下来要做的事

恭喜，你已经完成了端对端的机器学习项目！你可以在这里找到一个完整的项目实例。将你完成的项目上传至Github是个好主意，这样其他人就可以看到这是你个人文件夹的一部分。

这个数据仍然还有相当多的角度可以去探索。从广义上讲，我们可以将它们分割成3类 -扩展项目，并使其更加准确，寻找其他栏目进行预测，并探索数据。以下是一些建议：

往annotate.py 里添加更多特性。
在predict.py里转换算法。
比我们在这篇文章中更多的尝试使用来自Fannie Ma的数据。
在未来数据的预测里添加一个方法。我们写的代码在添加更多的数据后仍然是可以工作的，因此我们可以添加更多的过去或未来的数据。
如果银行应出具的原贷款发生了问题，尝试看是否可以预测（或者如果Fannie Mae已经获得了贷款）。
- 从train中删除任何银行在那是不知道的贷款条款。
  - 当Fannie Mae购买贷款时会知道一些条款，但不是在此之前。
- 作出预测。
探索看看是否能预测除了foreclosure_status之外更多的栏目。
- 你可以预测上市时间时物品的价值是多少吗？
探索性能更新之间的细微差别。
- 你可以预测借款人将有多少次推迟支付吗？
- 你能映射出典型贷款的生命周期吗？
按洲到洲或者邮编到邮编的方式映射数据。
- 你能发现其他有趣的模式吗？

CCAI 2016中国人工智能大会将于8月26-27日在京举行，AAAI主席，多位院士，MIT、微软、大疆、百度、滴滴专家领衔全球技术领袖和产业先锋打造国内人工智能前沿平台，6+重磅大主题报告，4大专题论坛，1000+高质量参会嘉宾，探讨人机交互、机器学习、模式识别及产业实战。门票限时六折优倒计时第二天。

你可能感兴趣的:(python,pandas,scikit,数据科学,机器学习)

python读取sas数据集_SASpy模块，利用Python操作SAS
SASpy模块打通了Python与SAS之间的连接。有了SASpy模块，我们就能够在Python中操控SAS。本文将首先介绍SASpy模块的一些基本方法，最后通过一个聚类分析的例子，来展示如何在Python中调用SAS的机器学习过程，以及对聚类结果的可视化。SASpy模块特点1、需要Python3.X及以上，SAS9.4及以上，需要Java环境；2、无论是本地SAS还是远程服务器上的SAS，都可以
从数据抓取到分析：用Python爬虫获取、清洗与可视化数据程序员威哥 python 爬虫 c++
在数据科学领域，数据的获取、清洗与分析是整个数据处理过程中的关键步骤。随着互联网上数据的不断增多，使用Python爬虫抓取网站数据并进行分析已成为数据科学家和分析师的常见任务。本篇文章将通过具体的实例，展示如何使用Python从零开始抓取数据，清洗数据，并进行数据分析和可视化。1.数据抓取：用Python爬虫获取网页数据1.1选择爬虫工具Python提供了多个强大的爬虫框架和库，常用的工具包括：r
Python基础（吃洋葱小游戏） aaiier python pygame 开发语言
下面我将为你设计一个"吃洋葱小游戏"的Python实现方案，使用Pygame库开发。这个游戏模拟吃洋葱的过程，玩家需要收集不同种类的洋葱以获得高分，同时避免吃到辣椒。吃洋葱小游戏-Python实现方案1.游戏设计概念游戏目标：玩家控制角色吃掉尽可能多的洋葱获得高分核心机制：洋葱从屏幕上方随机下落玩家左右移动角色接住洋葱不同洋葱有不同分值（普通洋葱+10，红洋葱+20，紫洋葱+50）辣椒会扣减生命值
模拟工作队列 - 华为OD机试真题(JavaScript卷) 什码情况算法面试 javascript 数据结构华为od
华为OD机试题库《C++》限时优惠9.9华为OD机试题库《Python》限时优惠9.9华为OD机试题库《JavaScript》限时优惠9.9针对刷题难，效率慢，我们提供一对一算法辅导，针对个人情况定制化的提高计划（全称1V1效率更高）。看不懂有疑问需要答疑辅导欢迎私VX：code5bug题目描述让我们来模拟一个工作队列的运作，有一个任务提交者和若干任务执行者，执行者从1开始编号。提交者会在给定的时
数据分类 - 华为OD机试真题(JavaScript 题解) 什码情况华为od javascript 开发语言数据结构算法机试
华为OD机试题库《C++》限时优惠9.9华为OD机试题库《Python》限时优惠9.9华为OD机试题库《JavaScript》限时优惠9.9针对刷题难，效率慢，我们提供一对一算法辅导，针对个人情况定制化的提高计划（全称1V1效率更高）。看不懂有疑问需要答疑辅导欢迎私VX：code5bug题目描述对一个数据a进行分类，分类方法为：此数据a（四个字节大小）的四个字节相加对一个给定的值b取模，如果得到的
odrive软件的版本 m0_55305757 stm32 电机嵌入式硬件 odrive
odrive软件的版本0.4.0通信方面引入一个fibre变复杂了（节点还是手工生成的），cpp程序开始变多了。（sensorless我看到变成独立文件了）pythontool开始使用pip安装形式。0.5.0开始支持spi的encoder，as5047之类0.5.1据说之后的版本controlloop开始变化0.5.2开始应该是大修改了//RequiredtouseOC4forADCtrigge
说说自己Python 代码优化实践 chilavert318 大数据 linux 运维 python
今年上半年在外省做一个大数据相关的项目，在review项目组成员的代码时，发现一段处理大数据集的模块存在明显性能瓶颈：10万条数据的清洗流程耗时近20分钟，CPU占用率却始终在30%以下。深入分析后发现，看似简洁的Python代码背后，隐藏着诸多可以优化的细节——这并非个例，我们的程序在追求代码可读性时，往往忽略了Python特有的性能陷阱。今天抽点时间，从我实践中的代码就python开发，从内存
ROS学习笔记5：常用API和模块导入
前言本人ROS小白，利用寒假时间学习ROS，在此以笔记的方式记录自己每天的学习过程。争取写满15篇(5/15)。环境：Ubuntu20.04、ROS1：noetic环境配置：严格按照下方学习链接的教程配置，基本一次成功。学习链接：【Autolabor初级教程】ROS机器人入门对应链接文档：ROS机器人入门课程《ROS理论与实践》笔记绝大部分代码使用Python语言编写。本期关键词：初始化，话题服务
一个简单测试Deepseek吞吐量的脚本,国内环境可跑谢平康深度学习 pytorch 人工智能
一个简单测试Deepseek吞吐量的脚本,这里用DeepSeek-R1-Distill-Qwen-32B,支持单卡409024G可跑,具体看你的硬件情况做调整,理论支持所有的模型,看你需要,可以修改模型名称,重点是pip使用国内的源,模型下载用阿里的ModelScope,无障碍下载,使用.最后可以生成一个txt与html报表.前提是你安装了python与python-venv,你可以不用venv来
OpenCV图像添加水印
一、前言在数字图像处理中，为图片添加水印是一项常见且重要的技术。无论是版权保护、品牌宣传还是防止未经授权的使用，水印都能发挥重要作用。OpenCV作为一款强大的计算机视觉库，提供了丰富的功能来实现各种水印效果。本教程将详细介绍如何使用OpenCV为图像添加文字水印和图片水印。二、环境准备在开始之前，请确保已安装以下环境：Python3.xOpenCV库（可通过pipinstallopencv-py
Ast解析Python代码示例 X1A0RAN python 开发语言
#-*-coding:utf-8-*-#@Desc:Ast代码解析示例importastclassCodeParse():def__init__(self):self.visited_nodes=set()#解析装饰器defparse_decorator(self,decorator):returnast.dump(decorator)#解析函数defparse_func(self,node,st
Python编程实战：爬虫与数据可视化的全过程草莓味儿柠檬
本文还有配套的精品资源，点击获取简介：本项目通过Python编程实现网络数据爬取和数据可视化，适合初学者深入了解Python。我们将涵盖基础语法、网络爬虫技术、数据处理、可视化技术、文件操作和错误处理等关键知识点，最终完成从爬取各省降水量数据到可视化展示的全过程。1.Python基础语法使用Python作为一门流行的编程语言，因其简洁和易读性被广泛应用于网络爬虫、数据处理和可视化等领域。本章将帮助
GESP认证C++编程真题解析 | GESP202409 三级单选题和判断题热爱编程的通信人历年GESP CSP-J CSP-S真题解析 c++开发语言
欢迎大家订阅我的专栏：算法题解：C++与Python实现！本专栏旨在帮助大家从基础到进阶，逐步提升编程能力，助力信息学竞赛备战！专栏特色1.经典算法练习：根据信息学竞赛大纲，精心挑选经典算法题目，提供清晰的代码实现与详细指导，帮助您夯实算法基础。2.系统化学习路径：按照算法类别和难度分级，从基础到进阶，循序渐进，帮助您全面提升编程能力与算法思维。适合人群：准备参加蓝桥杯、GESP、CSP-J、CS
LeetCode 学习day3 不喜勿喷小小小新人12123 leetcode 学习算法 python
题目：给定一个数组prices，它的第i个元素prices[i]表示一支给定股票第i天的价格。你只能选择某一天买入这只股票，并选择在未来的某一个不同的日子卖出该股票。设计一个算法来计算你所能获取的最大利润。返回你可以从这笔交易中获取的最大利润。如果你不能获取任何利润，返回0。（LeetCode121.买卖股票的最佳时机）问题分析：简而言之为求最大差Python代码：importnumpyasnpc
基于python的公众号文章爬取思路（总结版）大数据小学僧 python 开发语言爬虫微信公众平台
目录一、技术方案分类1.接口直连模式（推荐）2.网页解析模式3.第三方API模式二、核心技术栈三、爬虫实现步骤1.接口直连模式（微信公众平台API）2.网页解析模式（搜狗微信搜索）3.第三方API模式（如清博大数据）四、可视化界面实现五、数据存储方案六、高级技巧七、注意事项八、推荐工具链一、技术方案分类1.接口直连模式（推荐）2.网页解析模式3.第三方API模式二、核心技术栈三、爬虫实现步骤1.接
python-拆解sklearn中决策树 weixin_41177022 scikit-learn 决策树 python 机器学习编程
获取树结构实体对scikit-learn中DecisionTreeClassifier/Regressor的实例调用.tree_属性可以得到树结构。参考sklearn的决策树的官方说明sklearn.tree.DecisionTreeClassifier（不过里面说的help(sklearn.tree._tree.Tree)似乎不管用）获取决策树基本信息node总数可以用model.tree_.n
从决策树到随机森林：Python机器学习里的“树形家族“深度实战与原理拆解小张在编程机器学习决策树随机森林
引言在机器学习的算法森林中，有一对"树形兄弟"始终占据着C位——决策树像个逻辑清晰的"老教授"，用可视化的树状结构把复杂决策过程拆解成"是/否"的简单判断；而它的进阶版随机森林更像一支"精英军团"，通过多棵决策树的"投票表决"，在准确性与抗过拟合能力上实现了质的飞跃。无论是医疗诊断中的疾病预测，还是金融风控里的违约判别，这对组合都用强大的适应性证明着自己的"算法常青树"地位。今天，我们就从原理到实
python abc模块_Python -- abc module weixin_39727743 python abc模块
1.ABC模块作用Python本身不提供抽象类和接口机制，想要实现抽象类，可以借助abc模块。ABC是AbstractBaseClass的缩写，是用来定义抽象类的，具体的介绍请参考PEP3119。2.模块中的类和函数介绍abc.ABCMeta，用来生成抽象基础类的元类。由它生成的类可以被直接继承。register首先注册一个abc的虚拟子类fromabcimportABCMetaclassMyAB
git的author和commiter的修改 weixin_34161032 git 开发工具 python
2019独角兽企业重金招聘Python工程师标准>>>git的author和commiter的修改.git的文件夹，进去，就会看到有一个config文件,编辑,加上===========================================[user]#设置用户名name=xxx#设置用户的邮箱[email protected],=========================
python abc模块
面向对象的设计中，抽象类，接口这些必不可少的东西，在python中是如何提现的呢？python作为一个动态语言，没有强类型的检查，而是以鸭子类型的方式提现，在执行的时候python不严格要求你必须是继承指定的父类而来，只要在调用的时候你有相应的方法和属性就可以了，长的像鸭子你就是鸭子。也正是基于python这样的特性，python中没有interface的概念，有说interface并不是普遍存在
Python collections.abc模块介绍 qq_27390023 python 开发语言
collections.abc是Python标准库中的一个模块，提供了一系列抽象基类（AbstractBaseClasses,ABCs），用于定义和检查容器类型（如序列、映射、集合等）的接口。这些抽象基类为常见的数据结构提供了统一的接口和行为规范，使得开发者可以更方便地实现和使用这些数据结构。1.collections.abc的作用collections.abc模块的主要作用是提供一组抽象基类，用
python abc 模块小公鸡卡哇伊呀~ python
abc：abstractbaseclass抽象基类，用法例子：fromabcimportABCMeta,abstractmethodclassAnimal(metaclass=ABCMeta):defwalk(self):print("Walking...")@abstractmethoddefnum_legs(self):passclassDog(Animal):def__init__(self
【Python】abc 模块：定义抽象基类（Abstract Base Classes）的工具彬彬侠 Python基础 python abc ABCMeta abstractmethod
Python的abc模块（AbstractBaseClasses，抽象基类）是标准库中用于定义抽象基类的工具，旨在为面向对象编程提供一种标准化的方式来定义接口、强制子类实现特定方法，并支持类型检查。abc模块特别适合需要明确接口定义的场景，例如框架开发、插件系统或大型项目。本文详细介绍abc模块的定义、核心组件、使用方法、实际应用场景、注意事项以及与元类的关系。1.什么是abc模块？abc模块是P
深入详解：随机森林算法——概念、原理、实现与应用场景猿享天开算法随机森林机器学习
深入详解：随机森林算法——概念、原理、实现与应用场景随机森林（RandomForest,RF）是一种经典的集成学习算法，广泛应用于机器学习任务。本文将通过图文结合的方式，全面解析随机森林的核心原理、实现细节和应用实践，帮助读者建立系统认知。1.核心概念与直观理解1.1什么是随机森林？随机森林是一种基于决策树的集成学习算法，通过构建多棵决策树进行协同预测。其核心思想是"三个臭皮匠，顶个诸葛亮"——多
PYTHON从入门到实践9-类和实例
#【1】面向对象编程classStudent(object):#可以帮属性值绑定到对象上，self相当于JAVA的thisdef__init__(self,name,age):self.name=nameself.age=agedefspeak(self):print(self.name,'说：老师好')if__name__=='__main__':new_student1=Student('球球
Python | 期末复习具体知识点(hbut 邵光普）我推是大富翁 python python
Python复习具体知识点1、表达式not3or6的值:在Python中，not3or6这个表达式的含义可以分解为以下步骤来理解：not3：not是一个逻辑运算符，用于对一个布尔值进行取反。但在这里，它作用于一个整数值3。在Python中，任何非零数值都被视为True，因此not3会被转换为False。Falseor6：接下来，or运算符会检查其左侧的值。如果左侧为False（或任何被视为Fals
从Python到数据结构：为什么这是每个自学者必经的进阶之路流水煮香茗 python 数据结构 mooc
当你熟练掌握Python语法后，下一步应该学什么？答案是数据结构。本文将深入分析为什么数据结构是编程进阶的关键，以及如何选择合适的学习资源。一、Python学会了，然后呢？如果你正在读这篇文章，很可能你已经：用Python写过小工具，能解决工作和生活中的一些小需求做过数据分析，会用pandas处理Excel表格但是，当你想要进一步提升时，却发现了一些困惑：困惑1：代码能跑，但总觉得"不够优雅"你的
python ks值计算_风控模型中的K-S理解以及python实现 weixin_39747293 python ks值计算
笔者在工作中计算单变量的ks值时，发现几个分布不同的变量好y计算的ks值相同，凭借统计直觉，发现一定存在问题，笔者从数据和计算ks代码两个方向进行排除。最后定位到计算使用stats.ks_2samp()函数计算ks值时，如果变量存在缺失值，计算得到ks值有误，下面笔者就来好好梳理一下ks值的前世今生。ks检验介绍笔者刚入门机器学习开始做的例子就是金融场景下风控模型。那时评价模型的好坏就用传统的机器
庙算兵棋推演AI开发初探（支线-AI平台注意及tips）超自然祈祷智能决策人工智能
总是停留在stage阶段一的问题输出回放数据，在显示中发现一动不动，发现stage字段一直是1部署阶段……解决方法：代码层面需要有type=333的行为告诉引擎部署完毕。pip卸载重装兵棋引擎这个我每次关机后都得重新来一遍，很讨厌（经过试验，此举会重新复制一个.engine_config到python包的目录）删除某文件确定发出了部署命令还没效果，看看你的用户根目录(root或者用户名)下有没有.
**双生“基尼”**：跨越世纪的术语撞车与学科分野
在学术的宇宙中，“基尼”（Gini）这个名字如同一个奇特的星标，闪耀在两个看似毫不相关的领域：衡量社会贫富差距的经济学与驱动人工智能的机器学习。然而，当人们在这两个领域都遇到“基尼指数”或“基尼系数”时，困惑油然而生——它们为何如此不同？又为何共享同一个名字？这不是某个“傻逼”的随意命名，而是一场跨越学科与世纪的“术语交通事故”，其背后是学术传承与概念抽象的交织。本文由「大千AI助手」原创发布，专
java封装继承多态等麦田的设计者 java eclipse jvm c encapsulatopn
最近一段时间看了很多的视频却忘记总结了，现在只能想到什么写什么了，希望能起到一个回忆巩固的作用。 1、final关键字译为：最终的 &
F5与集群的区别 bijian1013 weblogic 集群 F5
http请求配置不是通过集群，而是F5；集群是weblogic容器的，如果是ejb接口是通过集群。 F5同集群的差别，主要还是会话复制的问题，F5一把是分发http请求用的，因为http都是无状态的服务，无需关注会话问题，类似
LeetCode[Math] - #7 Reverse Integer Cwind java 题解 Math LeetCode Algorithm
原题链接：#7 Reverse Integer 要求：按位反转输入的数字例1：输入 x = 123, 返回 321 例2：输入 x = -123, 返回 -321 难度：简单分析：对于一般情况，首先保存输入数字的符号，然后每次取输入的末位（x%10）作为输出的高位（result = result*10 + x%10）即可。但
BufferedOutputStream 周凡杨
首先说一下这个大批量，是指有上千万的数据量。例子：有一张短信历史表，其数据有上千万条数据，要进行数据备份到文本文件，就是执行如下SQL然后将结果集写入到文件中！ select t.msisd
linux下模拟按键输入和鼠标被触发 linux
查看/dev/input/eventX是什么类型的事件， cat /proc/bus/input/devices 设备有着自己特殊的按键键码，我需要将一些标准的按键，比如0－9，X－Z等模拟成标准按键，比如KEY_0,KEY-Z等，所以需要用到按键模拟，具体方法就是操作/dev/input/event1文件，向它写入个input_event结构体就可以模拟按键的输入了。 linux/in
ContentProvider初体验肆无忌惮_ ContentProvider
ContentProvider在安卓开发中非常重要。与Activity，Service，BroadcastReceiver并称安卓组件四大天王。在android中的作用是用来对外共享数据。因为安卓程序的数据库文件存放在data/data/packagename里面，这里面的文件默认都是私有的，别的程序无法访问。如果QQ游戏想访问手机QQ的帐号信息一键登录，那么就需要使用内容提供者COnte
关于Spring MVC项目（maven）中通过fileupload上传文件 843977358 mybatis spring mvc 修改头像上传文件 upload
Spring MVC 中通过fileupload上传文件，其中项目使用maven管理。 1.上传文件首先需要的是导入相关支持jar包：commons-fileupload.jar,commons-io.jar 因为我是用的maven管理项目，所以要在pom文件中配置（每个人的jar包位置根据实际情况定） <!-- 文件上传 start by zhangyd-c --&g
使用svnkit api，纯java操作svn，实现svn提交，更新等操作 aigo svnkit
原文：http://blog.csdn.net/hardwin/article/details/7963318 import java.io.File; import org.apache.log4j.Logger; import org.tmatesoft.svn.core.SVNCommitInfo; import org.tmateso
对比浏览器，casperjs，httpclient的Header信息 alleni123 爬虫 crawler header
@Override protected void doGet(HttpServletRequest req, HttpServletResponse res) throws ServletException, IOException { String type=req.getParameter("type"); Enumeration es=re
java.io操作 DataInputStream和DataOutputStream基本数据流百合不是茶 java 流
1，java中如果不保存整个对象，只保存类中的属性，那么我们可以使用本篇文章中的方法，如果要保存整个对象先将类实例化后面的文章将详细写到 2，DataInputStream 是java.io包中一个数据输入流允许应用程序以与机器无关方式从底层输入流中读取基本 Java 数据类型。应用程序可以使用数据输出流写入稍后由数据输入流读取的数据。
车辆保险理赔案例 bijian1013 车险
理赔案例：一货运车，运输公司为车辆购买了机动车商业险和交强险，也买了安全生产责任险，运输一车烟花爆竹，在行驶途中发生爆炸，出现车毁、货损、司机亡、炸死一路人、炸毁一间民宅等惨剧，针对这几种情况，该如何赔付。赔付建议和方案：客户所买交强险在这里不起作用，因为交强险的赔付前提是：“机动车发生道路交通意外事故”；如果是交通意外事故引发的爆炸，则优先适用交强险条款进行赔付，不足的部分由商业
学习Spring必学的Java基础知识(5)—注解 bijian1013 java spring
文章来源：http://www.iteye.com/topic/1123823，整理在我的博客有两个目的：一个是原文确实很不错，通俗易懂，督促自已将博主的这一系列关于Spring文章都学完；另一个原因是为免原文被博主删除，在此记录，方便以后查找阅读。有必要对
【Struts2一】Struts2 Hello World bit1129 Hello world
Struts2 Hello World应用的基本步骤创建Struts2的Hello World应用，包括如下几步： 1.配置web.xml 2.创建Action 3.创建struts.xml，配置Action 4.启动web server，通过浏览器访问配置web.xml <?xml version="1.0" encoding="
【Avro二】Avro RPC框架 bit1129 rpc
1. Avro RPC简介 1.1. RPC RPC逻辑上分为二层，一是传输层，负责网络通信；二是协议层，将数据按照一定协议格式打包和解包从序列化方式来看，Apache Thrift 和Google的Protocol Buffers和Avro应该是属于同一个级别的框架，都能跨语言，性能优秀，数据精简，但是Avro的动态模式（不用生成代码，而且性能很好）这个特点让人非常喜欢，比较适合R
lua　set get cookie ronin47 lua cookie
lua: local access_token = ngx.var.cookie_SGAccessToken if access_token then ngx.header["Set-Cookie"] = "SGAccessToken="..access_token.."; path=/;Max-Age=3000" end
java-打印不大于N的质数 bylijinnan java
public class PrimeNumber { /** * 寻找不大于N的质数 */ public static void main(String[] args) { int n=100; PrimeNumber pn=new PrimeNumber(); pn.printPrimeNumber(n); System.out.print
Spring源码学习-PropertyPlaceholderHelper bylijinnan java spring
今天在看Spring 3.0.0.RELEASE的源码，发现PropertyPlaceholderHelper的一个bug 当时觉得奇怪，上网一搜，果然是个bug，不过早就有人发现了，且已经修复：详见： http://forum.spring.io/forum/spring-projects/container/88107-propertyplaceholderhelper-bug
[逻辑与拓扑]布尔逻辑与拓扑结构的结合会产生什么? comsci 拓扑
如果我们已经在一个工作流的节点中嵌入了可以进行逻辑推理的代码,那么成百上千个这样的节点如果组成一个拓扑网络,而这个网络是可以自动遍历的,非线性的拓扑计算模型和节点内部的布尔逻辑处理的结合,会产生什么样的结果呢? 是否可以形成一种新的模糊语言识别和处理模型呢? 大家有兴趣可以试试,用软件搞这些有个好处,就是花钱比较少,就算不成
ITEYE 都换百度推广了 cuisuqiang Google AdSense 百度推广广告外快
以前ITEYE的广告都是谷歌的Google AdSense，现在都换成百度推广了。为什么个人博客设置里面还是Google AdSense呢？都知道Google AdSense不好申请，这在ITEYE上也不是讨论了一两天了，强烈建议ITEYE换掉Google AdSense。至少，用一个好申请的吧。什么时候能从ITEYE上来点外快，哪怕少点
新浪微博技术架构分析 dalan_123 新浪微博架构
新浪微博在短短一年时间内从零发展到五千万用户，我们的基层架构也发展了几个版本。第一版就是是非常快的，我们可以非常快的实现我们的模块。我们看一下技术特点，微博这个产品从架构上来分析，它需要解决的是发表和订阅的问题。我们第一版采用的是推的消息模式，假如说我们一个明星用户他有10万个粉丝，那就是说用户发表一条微博的时候，我们把这个微博消息攒成10万份，这样就是很简单了，第一版的架构实际上就是这两行字。第
玩转ARP攻击 dcj3sjt126com r
我写这片文章只是想让你明白深刻理解某一协议的好处。高手免看。如果有人利用这片文章所做的一切事情，盖不负责。网上关于ARP的资料已经很多了，就不用我都说了。用某一位高手的话来说，“我们能做的事情很多，唯一受限制的是我们的创造力和想象力”。 ARP也是如此。以下讨论的机子有一个要攻击的机子：10.5.4.178 硬件地址：52:54:4C:98
PHP编码规范 dcj3sjt126com 编码规范
一、文件格式 1. 对于只含有 php 代码的文件，我们将在文件结尾处忽略掉 "?>" 。这是为了防止多余的空格或者其它字符影响到代码。例如：<?php$foo = 'foo';2. 缩进应该能够反映出代码的逻辑结果，尽量使用四个空格，禁止使用制表符TAB，因为这样能够保证有跨客户端编程器软件的灵活性。例
linux 脱机管理（nohup） eksliang linux nohup nohup
脱机管理 nohup 转载请出自出处：http://eksliang.iteye.com/blog/2166699 nohup可以让你在脱机或者注销系统后，还能够让工作继续进行。他的语法如下 nohup [命令与参数] --在终端机前台工作 nohup [命令与参数] & --在终端机后台工作但是这个命令需要注意的是，nohup并不支持bash的内置命令，所
BusinessObjects Enterprise Java SDK greemranqq java BO SAP Crystal Reports
最近项目用到oracle_ADF 从SAP/BO 上调用水晶报表，资料比较少，我做一个简单的分享，给和我一样的新手提供更多的便利。首先，我是尝试用JAVA JSP 去访问的。官方API：http://devlibrary.businessobjects.com/BusinessObjectsxi/en/en/BOE_SDK/boesdk_ja
系统负载剧变下的管控策略 iamzhongyong 高并发
假如目前的系统有100台机器，能够支撑每天1亿的点击量（这个就简单比喻一下），然后系统流量剧变了要，我如何应对，系统有那些策略可以处理，这里总结了一下之前的一些做法。 1、水平扩展这个最容易理解，加机器，这样的话对于系统刚刚开始的伸缩性设计要求比较高，能够非常灵活的添加机器，来应对流量的变化。 2、系统分组假如系统服务的业务不同，有优先级高的，有优先级低的，那就让不同的业务调用提前分组
BitTorrent DHT 协议中文翻译 justjavac bit
前言做了一个磁力链接和BT种子的搜索引擎 {Magnet & Torrent}，因此把 DHT 协议重新看了一遍。 BEP: 5Title: DHT ProtocolVersion: 3dec52cb3ae103ce22358e3894b31cad47a6f22bLast-Modified: Tue Apr 2 16:51:45 2013 -070
Ubuntu下Java环境的搭建 macroli java 工作 ubuntu
配置命令：　　$sudo apt-get install ubuntu-restricted-extras 　　再运行如下命令：　　$sudo apt-get install sun-java6-jdk 　　待安装完毕后选择默认Java. 　　$sudo update- alternatives --config java 　　安装过程提示选择，输入“2”即可，然后按回车键确定。
js字符串转日期（兼容IE所有版本） qiaolevip TO Date String IE
/** * 字符串转时间（yyyy-MM-dd HH:mm:ss） * result （分钟） */ stringToDate : function(fDate){ var fullDate = fDate.split(" ")[0].split("-"); var fullTime = fDate.split("
【数据挖掘学习】关联规则算法Apriori的学习与SQL简单实现购物篮分析 superlxw1234 sql 数据挖掘关联规则
关联规则挖掘用于寻找给定数据集中项之间的有趣的关联或相关关系。关联规则揭示了数据项间的未知的依赖关系，根据所挖掘的关联关系，可以从一个数据对象的信息来推断另一个数据对象的信息。例如购物篮分析。牛奶 ⇒ 面包 [支持度：3%，置信度：40%] 支持度3%：意味3%顾客同时购买牛奶和面包。置信度40%：意味购买牛奶的顾客40%也购买面包。规则的支持度和置信度是两个规则兴
Spring 5.0 的系统需求，期待你的反馈 wiselyman spring
Spring 5.0将在2016年发布。Spring5.0将支持JDK 9。 Spring 5.0的特性计划还在工作中，请保持关注，所以作者希望从使用者得到关于Spring 5.0系统需求方面的反馈。