Jack__CJ

巧妙的构建你的数据科学作品集！

导读	Lightbot数据科学公司在决定雇佣时越来越关注你在数据科学方面的作品集Portfolio。这其中的一个原因是，这样的作品集是判断某人的实际技能的最好的方法。好消息是构建这样的作品集完全要看你自己。只要你在这方面付出了努力，你一定可以取得让这些公司钦佩的作品集。

构建高质量的作品集的第一步就是知道需要什么技能。公司想要在数据科学方面拥有的、他们希望你能够运用的主要技能有：

沟通能力
协作能力
技术能力
数据推理能力
动机和主动性

任何好的作品集都由多个项目表现出来，其中每个都能够表现出以上一到两点。这是本系列的第三篇，本系列我们主要讲包括如何打造面面俱到的数据科学作品集。在这一篇中，我们主要涵盖了如何构建组成你的作品集的第二个项目，以及如何创建一个端对端的机器学习项目。在最后，我们将拥有一个展示你的数据推理能力和技术能力的项目。如果你想看一下的话，这里有一个完整的例子。

一个端到端的项目

作为一个数据科学家，有时候你会拿到一个数据集并被问如何用它来讲故事。在这个时候，沟通就是非常重要的，你需要用它来完成这个事情。像我们在前一篇文章中用过的，类似 Jupyter notebook 这样的工具，将对你非常有帮助。在这里你能找到一些可以用的报告或者总结文档。

不管怎样，有时候你会被要求创建一个具有操作价值的项目。具有操作价值的项目将直接影响到公司的日常业务，它会使用不止一次，经常是许多人使用。这个任务可能像这样 “创建一个算法来预测周转率”或者“创建一个模型来自动对我们的文章打标签”。在这种情况下，技术能力比讲故事更重要。你必须能够得到一个数据集，并且理解它，然后创建脚本处理该数据。这个脚本要运行的很快，占用系统资源很小。通常它可能要运行很多次，脚本的可使用性也很重要，并不仅仅是一个演示版。可使用性是指整合进操作流程，并且甚至是是面向用户的。

端对端项目的主要组成部分:

理解背景
浏览数据并找出细微差别
创建结构化项目，那样比较容易整合进操作流程
运行速度快、占用系统资源小的高性能代码
写好安装和使用文档以便其他人用

为了有效的创建这种类型的项目，我们可能需要处理多个文件。强烈推荐使用 Atom 这样的文本编辑器或者 PyCharm 这样的 IDE。这些工具允许你在文件间跳转，编辑不同类型的文件，例如 markdown 文件，Python 文件，和 csv 文件等等。结构化你的项目还利于版本控制，并上传一个类似 Github 这样的协作开发工具上也很有用。

Github 上的这个项目

在这一节中我们将使用 Pandas 和 scikit-learn 这样的库，我们还将大量用到 Pandas DataFrames，它使得 python 读取和处理表格数据更加方便。

找到好的数据集

为一个端到端的作品集项目的找到好的数据集很难。在内存和性能的限制下，数据集需要尽量的大。它还需要是实际有用的。例如，这个数据集，它包含有美国院校的录取标准、毕业率以及毕业以后的收入，是个很好的可以讲故事的数据集。但是，不管你如何看待这个数据，很显然它不适合创建端到端的项目。比如，你能告诉人们他们去了这些大学以后的未来收入，但是这个快速检索却并不足够呈现出你的技术能力。你还能找出院校的招生标准和更高的收入相关，但是这更像是常理而不是你的技术结论。

这里还有内存和性能约束的问题，比如你有几千兆的数据，而且当你需要找到一些差异时，就需要对数据集一遍遍运行算法。

一个好的可操作的数据集可以让你构建一系列脚本来转换数据、动态地回答问题。一个很好的例子是股票价格数据集，当股市关闭时，就会给算法提供新的数据。这可以让你预测明天的股价，甚至预测收益。这不是讲故事，它带来的是真金白银。

一些找到数据集的好地方：

/r/datasets – 有上百的有趣数据的 subreddit（Reddit 是国外一个社交新闻站点，subreddit 指该论坛下的各不同版块）。
Google Public Datasets – 通过 Google BigQuery 使用的公开数据集。
Awesome datasets – 一个数据集列表，放在 Github 上。

当你查看这些数据集时，想一下人们想要在这些数据集中得到什么答案，哪怕这些问题只想过一次（“房价是如何与标准普尔 500 指数关联的?”），或者更进一步（“你能预测股市吗?”）。这里的关键是更进一步地找出问题，并且用相同的代码在不同输入（不同的数据）上运行多次。

对于本文的目标，我们来看一下房利美Fannie Mae贷款数据。房利美是一家在美国的政府赞助的企业抵押贷款公司，它从其他银行购买按揭贷款，然后捆绑这些贷款为贷款证券来转卖它们。这使得贷款机构可以提供更多的抵押贷款，在市场上创造更多的流动性。这在理论上会带来更多的住房和更好的贷款期限。从借款人的角度来说，它们大体上差不多，话虽这样说。

房利美发布了两种类型的数据 – 它获得的贷款的数据，和贷款偿还情况的数据。在理想的情况下，有人向贷款人借钱，然后还款直到还清。不管怎样，有些人多次不还，从而丧失了抵押品赎回权。抵押品赎回权是指没钱还了被银行把房子给收走了。房利美会追踪谁没还钱，并且哪个贷款需要收回抵押的房屋（取消赎回权）。每个季度会发布此数据，发布的是滞后一年的数据。当前可用是 2015 年第一季度数据。

“贷款数据”是由房利美发布的贷款发放的数据，它包含借款人的信息、信用评分，和他们的家庭贷款信息。“执行数据”，贷款发放后的每一个季度公布，包含借贷人的还款信息和是否丧失抵押品赎回权的状态，一个“贷款数据”的“执行数据”可能有十几行。可以这样理解，“贷款数据”告诉你房利美所控制的贷款，“执行数据”包含该贷款一系列的状态更新。其中一个状态更新可以告诉我们一笔贷款在某个季度被取消赎回权了。

一个没有及时还贷的房子就这样的被卖了

选择一个角度

这里有几个我们可以去分析房利美数据集的方向。我们可以：

预测房屋的销售价格。
预测借款人还款历史。
在获得贷款时为每一笔贷款打分。

最重要的事情是坚持单一的角度。同时关注太多的事情很难做出效果。选择一个有着足够细节的角度也很重要。下面的角度就没有太多细节：

找出哪些银行将贷款出售给房利美的多数被取消赎回权。
计算贷款人的信用评分趋势。
找到哪些类型的家庭没有偿还贷款的能力。
找到贷款金额和抵押品价格之间的关系。

上面的想法非常有趣，如果我们关注于讲故事，那是一个不错的角度，但是不是很适合一个操作性项目。

在房利美数据集中，我们将仅使用申请贷款时有的那些信息来预测贷款是否将来会被取消赎回权。实际上, 我们将为每一笔贷款建立“分数”来告诉房利美买还是不买。这将给我们打下良好的基础，并将组成这个漂亮的作品集的一部分。

理解数据

我们来简单看一下原始数据文件。下面是 2012 年 1 季度前几行的贷款数据：

100000853384|R|OTHER|4.625|280000|360|02/2012|04/2012|31|31|1|23|801|N|C|SF|1|I|CA|945||FRM|
100003735682|R|SUNTRUST MORTGAGE INC.|3.99|466000|360|01/2012|03/2012|80|80|2|30|794|N|P|SF|1|P|MD|208||FRM|788
100006367485|C|PHH MORTGAGE CORPORATION|4|229000|360|02/2012|04/2012|67|67|2|36|802|N|R|SF|1|P|CA|959||FRM|794

下面是 2012 年 1 季度的前几行执行数据：

100000853384|03/01/2012|OTHER|4.625||0|360|359|03/2042|41860|0|N||||||||||||||||
100000853384|04/01/2012||4.625||1|359|358|03/2042|41860|0|N||||||||||||||||
100000853384|05/01/2012||4.625||2|358|357|03/2042|41860|0|N||||||||||||||||

在开始编码之前，花些时间真正理解数据是值得的。这对于操作性项目优为重要，因为我们没有交互式探索数据，将很难察觉到细微的差别，除非我们在前期发现他们。在这种情况下，第一个步骤是阅读房利美站点的资料：

概述
有用的术语表
常见问答
贷款和执行文件中的列
贷款数据文件样本
执行数据文件样本

在看完这些文件后后，我们了解到一些能帮助我们的关键点：

从 2000 年到现在，每季度都有一个贷款和执行文件，因数据是滞后一年的，所以到目前为止最新数据是 2015 年的。
这些文件是文本格式的，采用管道符号进行分割。
这些文件是没有表头的，但我们有个文件列明了各列的名称。
所有一起，文件包含 2200 万个贷款的数据。
由于执行数据的文件包含过去几年获得的贷款的信息，在早些年获得的贷款将有更多的执行数据（即在 2014 获得的贷款没有多少历史执行数据）。

这些小小的信息将会为我们节省很多时间，因为这样我们就知道如何构造我们的项目和利用这些数据了。

构造项目

在我们开始下载和探索数据之前，先想一想将如何构造项目是很重要的。当建立端到端项目时，我们的主要目标是：

创建一个可行解决方案
有一个快速运行且占用最小资源的解决方案
容易可扩展
写容易理解的代码
写尽量少的代码

为了实现这些目标，需要对我们的项目进行良好的构造。一个结构良好的项目遵循几个原则：

分离数据文件和代码文件
从原始数据中分离生成的数据。
有一个 README.md 文件帮助人们安装和使用该项目。
有一个 requirements.txt 文件列明项目运行所需的所有包。
有一个单独的settings.py 文件列明其它文件中使用的所有的设置
- 例如，如果从多个 Python脚本读取同一个文件，让它们全部import 设置并从一个集中的地方获得文件名是有用的。
有一个.gitignore文件，防止大的或密码文件被提交。
分解任务中每一步可以单独执行的步骤到单独的文件中。
- 例如，我们将有一个文件用于读取数据，一个用于创建特征，一个用于做出预测。
保存中间结果，例如，一个脚本可以输出下一个脚本可读取的文件。
- 这使我们无需重新计算就可以在数据处理流程中进行更改。

我们的文件结构大体如下：

loan-prediction
├── data
├── processed
├── .gitignore
├── README.md
├── requirements.txt
├── settings.py

创建初始文件

首先，我们需要创建一个 loan-prediction 文件夹，在此文件夹下面，再创建一个 data 文件夹和一个 processed 文件夹。data 文件夹存放原始数据，processed文件夹存放所有的中间计算结果。

其次，创建gitignore 文件，gitignore 文件将保证某些文件被 git 忽略而不会被推送至 GitHub。关于这个文件的一个好的例子是由 OSX 在每一个文件夹都会创建的DS_Store 文件，gitignore 文件一个很好的范本在这里。我们还想忽略数据文件，因为它们实在是太大了，同时房利美的条文禁止我们重新分发该数据文件，所以我们应该在我们的文件后面添加以下 2 行：

data
processed

这里是该项目的一个关于 .gitignore 文件的例子。

再次，我们需要创建 README.md 文件，它将帮助人们理解该项目。后缀 .md 表示这个文件采用 markdown 格式。Markdown 使你能够写纯文本文件，同时还可以添加你想要的神奇的格式。这里是关于 markdown 的导引。如果你上传一个叫 README.md 的文件至 Github，Github 会自动处理该 markdown，同时展示给浏览该项目的人。例子在这里。

至此，我们仅需在 README.md 文件中添加简单的描述：

Loan Prediction
-----------------------

Predict whether or not loans acquired by Fannie Mae will go into foreclosure.  Fannie Mae acquires loans from other lenders as a way of inducing them to lend more.  Fannie Mae releases data on the loans it has acquired and their performance afterwards [here](http://www.fanniemae.com/portal/funding-the-market/data/loan-performance-data.html).

现在，我们可以创建 requirements.txt 文件了。这会帮助其它人可以很方便地安装我们的项目。我们还不知道我们将会具体用到哪些库，但是以下几个库是需要的：

pandas
matplotlib
scikit-learn
numpy
ipython
scipy

以上几个是在 python 数据分析任务中最常用到的库。可以认为我们将会用到大部分这些库。这里是该项目 requirements.txt 文件的一个例子。

创建 requirements.txt 文件之后，你应该安装这些包了。我们将会使用 python3。如果你没有安装 python，你应该考虑使用 Anaconda，它是一个 python 安装程序，同时安装了上面列出的所有包。

最后，我们可以建立一个空白的 settings.py 文件，因为我们的项目还没有任何设置。

获取数据

一旦我们有了项目的基本架构，我们就可以去获得原始数据。

房利美对获取数据有一些限制，所以你需要去注册一个账户。在创建完账户之后，你可以找到在这里的下载页面，你可以按照你所需要的下载或多或少的贷款数据文件。文件格式是 zip，在解压后当然是非常大的。

为了达到我们这个文章的目的，我们将要下载从 2012 年 1 季度到 2015 年 1 季度的所有数据。接着我们需要解压所有的文件。解压过后，删掉原来的 .zip 格式的文件。最后，loan-prediction 文件夹看起来应该像下面的一样：

loan-prediction
├── data
│   ├── Acquisition_2012Q1.txt
│   ├── Acquisition_2012Q2.txt
│   ├── Performance_2012Q1.txt
│   ├── Performance_2012Q2.txt
│   └── ...
├── processed
├── .gitignore
├── README.md
├── requirements.txt
├── settings.py

在下载完数据后，你可以在 shell 命令行中使用 head 和 tail 命令去查看文件中的行数据，你看到任何的不需要的数据列了吗？在做这件事的同时查阅列名称的 pdf 文件可能有帮助。

读入数据

有两个问题让我们的数据难以现在就使用：

贷款数据和执行数据被分割在多个文件中
每个文件都缺少列名标题

在我们开始使用数据之前，我们需要首先明白我们要在哪里去存一个贷款数据的文件，同时到哪里去存储一个执行数据的文件。每个文件仅仅需要包括我们关注的那些数据列，同时拥有正确的列名标题。这里有一个小问题是执行数据非常大，因此我们需要尝试去修剪一些数据列。

第一步是向settings.py 文件中增加一些变量，这个文件中同时也包括了我们原始数据的存放路径和处理出的数据存放路径。我们同时也将添加其他一些可能在接下来会用到的设置数据：

DATA_DIR = "data"
PROCESSED_DIR = "processed"
MINIMUM_TRACKING_QUARTERS = 4
TARGET = "foreclosure_status"
NON_PREDICTORS = [TARGET, "id"]
CV_FOLDS = 3

把路径设置在

settings.py

中使它们放在一个集中的地方，同时使其修改更加的容易。当在多个文件中用到相同的变量时，你想改变它的话，把他们放在一个地方比分散放在每一个文件时更加容易。这里的是一个这个工程的示例 settings.py 文件

第二步是创建一个文件名为assemble.py，它将所有的数据分为 2 个文件。当我们运行Python assemble.py，我们在处理数据文件的目录会获得 2 个数据文件。

接下来我们开始写 assemble.py 文件中的代码。首先我们需要为每个文件定义相应的列名标题，因此我们需要查看列名称的 pdf 文件，同时创建在每一个贷款数据和执行数据的文件的数据列的列表：

HEADERS = {
    "Acquisition": [
        "id",
        "channel",
        "seller",
        "interest_rate",
        "balance",
        "loan_term",
        "origination_date",
        "first_payment_date",
        "ltv",
        "cltv",
        "borrower_count",
        "dti",
        "borrower_credit_score",
        "first_time_homebuyer",
        "loan_purpose",
        "property_type",
        "unit_count",
        "occupancy_status",
        "property_state",
        "zip",
        "insurance_percentage",
        "product_type",
        "co_borrower_credit_score"
    ],
    "Performance": [
        "id",
        "reporting_period",
        "servicer_name",
        "interest_rate",
        "balance",
        "loan_age",
        "months_to_maturity",
        "maturity_date",
        "msa",
        "delinquency_status",
        "modification_flag",
        "zero_balance_code",
        "zero_balance_date",
        "last_paid_installment_date",
        "foreclosure_date",
        "disposition_date",
        "foreclosure_costs",
        "property_repair_costs",
        "recovery_costs",
        "misc_costs",
        "tax_costs",
        "sale_proceeds",
        "credit_enhancement_proceeds",
        "repurchase_proceeds",
        "other_foreclosure_proceeds",
        "non_interest_bearing_balance",
        "principal_forgiveness_balance"
    ]
}

接下来一步是定义我们想要保留的数据列。因为我们要预测一个贷款是否会被撤回，我们可以丢弃执行数据中的许多列。我们将需要保留贷款数据中的所有数据列，因为我们需要尽量多的了解贷款发放时的信息（毕竟我们是在预测贷款发放时这笔贷款将来是否会被撤回）。丢弃数据列将会使我们节省下内存和硬盘空间，同时也会加速我们的代码。

SELECT = {
    "Acquisition": HEADERS["Acquisition"],
    "Performance": [
        "id",
        "foreclosure_date"
    ]
}

下一步，我们将编写一个函数来连接数据集。下面的代码将：

引用一些需要的库，包括 settings。
定义一个函数

concatenate

，目的是：
- 获取到所有 ata 目录中的文件名。
- 遍历每个文件。
  - 如果文件不是正确的格式 (不是以我们需要的格式作为开头)，我们将忽略它。
  - 通过使用 Pandas 的 read_csv 函数及正确的设置把文件读入一个 DataFrame。
    - 设置分隔符为｜，以便所有的字段能被正确读出。
    - 数据没有标题行，因此设置 header 为None 来进行标示。
    - 从 HEADERS 字典中设置正确的标题名称 – 这将会是我们的 DataFrame 中的数据列名称。
    - 仅选择我们加在 SELECT中的 DataFrame 的列。
把所有的 DataFrame 共同连接在一起。
把已经连接好的 DataFrame 写回一个文件。

import os
import settings
import pandas as pd

def concatenate(prefix="Acquisition"):
    files = os.listdir(settings.DATA_DIR)
    full = []
    for f in files:
        if not f.startswith(prefix):
            continue

        data = pd.read_csv(os.path.join(settings.DATA_DIR, f), sep="|", header=None, names=HEADERS[prefix], index_col=False)
        data = data[SELECT[prefix]]
        full.append(data)

    full = pd.concat(full, axis=0)

    full.to_csv(os.path.join(settings.PROCESSED_DIR, "{}.txt".format(prefix)), sep="|", header=SELECT[prefix], index=False)

我们可以通过调用上面的函数，通过传递的参数

Acquisition

和

Performance

两次以将所有的贷款和执行文件连接在一起。下面的代码将：

仅在命令行中运行 python assemble.py 时执行。
将所有的数据连接在一起，并且产生 2 个文件：
- processed/Acquisition.txt
- processed/Performance.txt

if __name__ == "__main__": concatenate("Acquisition") concatenate("Performance")

我们现在拥有了一个漂亮的，划分过的assemble.py文件，它很容易执行，也容易建立。通过像这样把问题分解为一块一块的，我们构建工程就会变的容易许多。不用一个可以做所有工作的凌乱脚本，我们定义的数据将会在多个脚本间传递，同时使脚本间完全的彼此隔离。当你正在一个大的项目中工作时，这样做是一个好的想法，因为这样可以更加容易修改其中的某一部分而不会引起其他项目中不关联部分产生预料之外的结果。

一旦我们完成 assemble.py 脚本文件，我们可以运行 python assemble.py 命令。你可以在这里查看完整的assemble.py 文件。

这将会在 processed 目录下产生 2 个文件：

loan-prediction
├── data
│   ├── Acquisition_2012Q1.txt
│   ├── Acquisition_2012Q2.txt
│   ├── Performance_2012Q1.txt
│   ├── Performance_2012Q2.txt
│   └── ...
├── processed
│   ├── Acquisition.txt
│   ├── Performance.txt
├── .gitignore
├── assemble.py
├── README.md
├── requirements.txt
├── settings.py

计算来自执行数据的值

接下来我们会计算来自 processed/Performance.txt 中的值。我们要做的就是推测这些资产是否被取消赎回权。如果能够计算出来，我们只要看一下关联到贷款的执行数据的参数 foreclosure_date 就可以了。如果这个参数的值是 None，那么这些资产肯定没有收回。为了避免我们的样例中只有少量的执行数据，我们会为每个贷款计算出执行数据文件中的行数。这样我们就能够从我们的训练数据中筛选出贷款数据，排除了一些执行数据。

下面是我认为贷款数据和执行数据的关系：

在上面的表格中，贷款数据中的每一行数据都关联到执行数据中的多行数据。在执行数据中，在取消赎回权的时候 foreclosure_date 就会出现在该季度，而之前它是空的。一些贷款还没有被取消赎回权，所以与执行数据中的贷款数据有关的行在 foreclosure_date 列都是空格。

我们需要计算 foreclosure_status 的值，它的值是布尔类型，可以表示一个特殊的贷款数据id 是否被取消赎回权过，还有一个参数 performance_count ，它记录了执行数据中每个贷款 id 出现的行数。

计算这些行数有多种不同的方法：

我们能够读取所有的执行数据，然后我们用 Pandas 的 groupby 方法在 DataFrame 中计算出与每个贷款id 有关的行的行数，然后就可以查看贷款 id 的 foreclosure_date 值是否为 None 。
- 这种方法的优点是从语法上来说容易执行。
- 它的缺点需要读取所有的 129236094 行数据，这样就会占用大量内存，并且运行起来极慢。
我们可以读取所有的执行数据，然后在贷款 DataFrame 上使用 apply 去计算每个贷款id　出现的次数。
- 这种方法的优点是容易理解。
- 缺点是需要读取所有的 129236094 行数据。这样会占用大量内存，并且运行起来极慢。
我们可以在迭代访问执行数据中的每一行数据，而且会建立一个单独的计数字典。
- 这种方法的优点是数据不需要被加载到内存中，所以运行起来会很快且不需要占用内存。
- 缺点是这样的话理解和执行上可能有点耗费时间，我们需要对每一行数据进行语法分析。

加载所有的数据会非常耗费内存，所以我们采用第三种方法。我们要做的就是迭代执行数据中的每一行数据，然后为每一个贷款id 在字典中保留一个计数。在这个字典中，我们会计算出贷款 id 在执行数据中出现的次数，而且看看foreclosure_date 是否是 None。我们可以查看 foreclosure_status 和performance_count的值。

我们会新建一个 annotate.py 文件，文件中的代码可以计算这些值。我们会使用下面的代码：

导入需要的库
定义一个函数

count_performance_rows

。
- 打开 processed/Performance.txt 文件。这不是在内存中读取文件而是打开了一个文件标识符，这个标识符可以用来以行为单位读取文件。
- 迭代文件的每一行数据。
- 使用分隔符|分开每行的不同数据。
- 检查 loan_id 是否在计数字典中。
  - 如果不存在，把它加进去。
- loan_id 的 performance_count 参数自增 1 次，因为我们这次迭代也包含其中。
- 如果 date 不是 None ，我们就会知道贷款被取消赎回权了，然后为foreclosure_status` 设置合适的值。

import os
import settings
import pandas as pd

def count_performance_rows():
    counts = {}
    with open(os.path.join(settings.PROCESSED_DIR, "Performance.txt"), 'r') as f:
        for i, line in enumerate(f):
            if i == 0:
                # Skip header row
                continue
            loan_id, date = line.split("|")
            loan_id = int(loan_id)
            if loan_id not in counts:
                counts[loan_id] = {
                    "foreclosure_status": False,
                    "performance_count": 0
                }
            counts[loan_id]["performance_count"] += 1
            if len(date.strip()) > 0:
                counts[loan_id]["foreclosure_status"] = True
    return counts

获取值

只要我们创建了计数字典，我们就可以使用一个函数通过一个 loan_id 和一个 key 从字典中提取到需要的参数的值：

def get_performance_summary_value(loan_id, key, counts):
    value = counts.get(loan_id, {
        "foreclosure_status": False,
        "performance_count": 0
    })
    return value[key]

上面的函数会从 counts 字典中返回合适的值，我们也能够为贷款数据中的每一行赋一个 foreclosure_status 值和一个 performance_count 值。如果键不存在，字典的 get 方法会返回一个默认值，所以在字典中不存在键的时候我们就可以得到一个可知的默认值。

转换数据

我们已经在 annotate.py 中添加了一些功能，现在我们来看一看数据文件。我们需要将贷款到的数据转换到训练数据集来进行机器学习算法的训练。这涉及到以下几件事情:

转换所有列为数字。
填充缺失值。
为每一行分配 performance_count 和 foreclosure_status。
移除出现执行数据很少的行（performance_count 计数低）。

我们有几个列是文本类型的，看起来对于机器学习算法来说并不是很有用。然而，它们实际上是分类变量，其中有很多不同的类别代码，例如R，s 等等. 我们可以把这些类别标签转换为数值：

通过这种方法转换的列我们可以应用到机器学习算法中。

还有一些包含日期的列 (first_payment_date 和 origination_date）。我们可以将这些日期放到两个列中：

在下面的代码中，我们将转换贷款数据。我们将定义一个函数如下：

在 acquisition 中创建 foreclosure_status 列，并从 counts 字典中得到值。
在 acquisition 中创建 performance_count 列，并从counts 字典中得到值。
将下面的列从字符串转换为整数：
- channel
- seller
- first_time_homebuyer
- loan_purpose
- property_type
- occupancy_status
- property_state
- product_type
将 first_payment_date 和 origination_date 分别转换为两列：
- 通过斜杠分离列。
- 将第一部分分离成 month 列。
- 将第二部分分离成 year 列。
- 删除该列。
- 最后，我们得到 first_payment_month、first_payment_year、rigination_month>和 origination_year。
所有缺失值填充为-1。

def annotate(acquisition, counts):
    acquisition["foreclosure_status"] = acquisition["id"].apply(lambda x: get_performance_summary_value(x, "foreclosure_status", counts))
    acquisition["performance_count"] = acquisition["id"].apply(lambda x: get_performance_summary_value(x, "performance_count", counts))
    for column in [
        "channel",
        "seller",
        "first_time_homebuyer",
        "loan_purpose",
        "property_type",
        "occupancy_status",
        "property_state",
        "product_type"
    ]:
        acquisition[column] = acquisition[column].astype('category').cat.codes

    for start in ["first_payment", "origination"]:
        column = "{}_date".format(start)
        acquisition["{}_year".format(start)] = pd.to_numeric(acquisition[column].str.split('/').str.get(1))
        acquisition["{}_month".format(start)] = pd.to_numeric(acquisition[column].str.split('/').str.get(0))
        del acquisition[column]

    acquisition = acquisition.fillna(-1)
    acquisition = acquisition[acquisition["performance_count"] > settings.MINIMUM_TRACKING_QUARTERS]
    return acquisition

聚合到一起

我们差不多准备就绪了，我们只需要再在annotate.py 添加一点点代码。在下面代码中，我们将：

定义一个函数来读取贷款的数据。
定义一个函数来写入处理过的数据到 processed/train.csv。
如果该文件在命令行以

python annotate.py

的方式运行：
- 读取贷款数据。
- 计算执行数据的计数，并将其赋予 counts。
- 转换 acquisition DataFrame。
- 将acquisition DataFrame 写入到 train.csv。

def read():
    acquisition = pd.read_csv(os.path.join(settings.PROCESSED_DIR, "Acquisition.txt"), sep="|")
    return acquisition

def write(acquisition):
    acquisition.to_csv(os.path.join(settings.PROCESSED_DIR, "train.csv"), index=False)

if __name__ == "__main__":
    acquisition = read()
    counts = count_performance_rows()
    acquisition = annotate(acquisition, counts)
    write(acquisition)

修改完成以后，确保运行python annotate.py 来生成 train.csv 文件。你可以在这里找到完整的 annotate.py 文件。

现在文件夹看起来应该像这样：

loan-prediction
├── data
│   ├── Acquisition_2012Q1.txt
│   ├── Acquisition_2012Q2.txt
│   ├── Performance_2012Q1.txt
│   ├── Performance_2012Q2.txt
│   └── ...
├── processed
│   ├── Acquisition.txt
│   ├── Performance.txt
│   ├── train.csv
├── .gitignore
├── annotate.py
├── assemble.py
├── README.md
├── requirements.txt
├── settings.py

找到误差标准

我们已经完成了训练数据表的生成，现在我们需要最后一步，生成预测。我们需要找到误差的标准，以及该如何评估我们的数据。在这种情况下，因为有很多的贷款没有被取消赎回权，所以根本不可能做到精确的计算。

我们需要读取训练数据，并且计算 foreclosure_status列的计数，我们将得到如下信息：

import pandas as pd
import settings

train = pd.read_csv(os.path.join(settings.PROCESSED_DIR, "train.csv"))
train["foreclosure_status"].value_counts()

False    4635982
True        1585
Name: foreclosure_status, dtype: int64

因为只有很少的贷款被取消赎回权，只需要检查正确预测的标签的百分比就意味着我们可以创建一个机器学习模型，来为每一行预测 False，并能取得很高的精确度。相反，我们想要使用一个度量来考虑分类的不平衡，确保我们可以准确预测。我们要避免太多的误报率（预测贷款被取消赎回权，但是实际没有），也要避免太多的漏报率（预测贷款没有别取消赎回权，但是实际被取消了）。对于这两个来说，漏报率对于房利美来说成本更高，因为他们买的贷款可能是他们无法收回投资的贷款。

所以我们将定义一个漏报率，就是模型预测没有取消赎回权但是实际上取消了，这个数除以总的取消赎回权数。这是“缺失的”实际取消赎回权百分比的模型。下面看这个图表：

通过上面的图表，有 1 个贷款预测不会取消赎回权，但是实际上取消了。如果我们将这个数除以实际取消赎回权的总数 2，我们将得到漏报率 50%。我们将使用这个误差标准，因此我们可以评估一下模型的行为。

设置机器学习分类器

我们使用交叉验证预测。通过交叉验证法，我们将数据分为3组。按照下面的方法来做：

用组 1 和组 2 训练模型，然后用该模型来预测组 3
用组 1 和组 3 训练模型，然后用该模型来预测组 2
用组 2 和组 3 训练模型，然后用该模型来预测组 1

将它们分割到不同的组，这意味着我们永远不会用相同的数据来为其预测训练模型。这样就避免了过拟合。如果过拟合，我们将错误地拉低了漏报率，这使得我们难以改进算法或者应用到现实生活中。

Scikit-learn 有一个叫做 crossvalpredict ，它可以帮助我们理解交叉算法.

我们还需要一种算法来帮我们预测。我们还需要一个分类器来做二元分类。目标变量 foreclosure_status 只有两个值，True 和False。

这里我们用逻辑回归算法，因为它能很好的进行二元分类，并且运行很快，占用内存很小。我们来说一下它是如何工作的：不使用像随机森林一样多树结构，也不像支持向量机一样做复杂的转换，逻辑回归算法涉及更少的步骤和更少的矩阵。

我们可以使用 scikit-learn 实现的逻辑回归分类器算法。我们唯一需要注意的是每个类的权重。如果我们使用等权重的类，算法将会预测每行都为false，因为它总是试图最小化误差。不管怎样，我们重视有多少贷款要被取消赎回权而不是有多少不能被取消。因此，我们给逻辑回归类的 class_weight 关键字传递balanced参数，让算法可以为不同 counts 的每个类考虑不同的取消赎回权的权重。这将使我们的算法不会为每一行都预测false，而是两个类的误差水平一致。

做出预测

既然完成了前期准备，我们可以开始准备做出预测了。我将创建一个名为predict.py 的新文件，它会使用我们在最后一步创建的 train.csv 文件。下面的代码：

导入所需的库
创建一个名为cross_validate 的函数：
- 使用正确的关键词参数创建逻辑回归分类器
- 创建用于训练模型的数据列的列表，移除 id 和 foreclosure_status 列
- 交叉验证 train DataFrame
- 返回预测结果

import os
import settings
import pandas as pd
from sklearn import cross_validation
from sklearn.linear_model import LogisticRegression
from sklearn import metrics

def cross_validate(train):
    clf = LogisticRegression(random_state=1, class_weight="balanced")

    predictors = train.columns.tolist()
    predictors = [p for p in predictors if p not in settings.NON_PREDICTORS]

    predictions = cross_validation.cross_val_predict(clf, train[predictors], train[settings.TARGET], cv=settings.CV_FOLDS)
    return predictions

预测误差

现在，我们仅仅需要写一些函数来计算误差。下面的代码：

创建函数compute_error：
- 使用 scikit-learn 计算一个简单的精确分数（与实际 foreclosure_status 值匹配的预测百分比）
创建函数 compute_false_negatives：
- 为了方便，将目标和预测结果合并到一个 DataFrame
- 查找漏报率
  - 找到原本应被预测模型取消赎回权，但实际没有取消的贷款数目
  - 除以没被取消赎回权的贷款总数目

def compute_error(target, predictions):
    return metrics.accuracy_score(target, predictions)

def compute_false_negatives(target, predictions):
    df = pd.DataFrame({"target": target, "predictions": predictions})
    return df[(df["target"] == 1) & (df["predictions"] == 0)].shape[0] / (df[(df["target"] == 1)].shape[0] + 1)

def compute_false_positives(target, predictions):
    df = pd.DataFrame({"target": target, "predictions": predictions})
    return df[(df["target"] == 0) & (df["predictions"] == 1)].shape[0] / (df[(df["target"] == 0)].shape[0] + 1)

聚合到一起

现在，我们可以把函数都放在

predict.py。下面的代码：

读取数据集
计算交叉验证预测
计算上面的 3 个误差
打印误差

def read():
    train = pd.read_csv(os.path.join(settings.PROCESSED_DIR, "train.csv"))
    return train

if __name__ == "__main__":
    train = read()
    predictions = cross_validate(train)
    error = compute_error(train[settings.TARGET], predictions)
    fn = compute_false_negatives(train[settings.TARGET], predictions)
    fp = compute_false_positives(train[settings.TARGET], predictions)
    print("Accuracy Score: {}".format(error))
    print("False Negatives: {}".format(fn))
    print("False Positives: {}".format(fp))

一旦你添加完代码，你可以运行 python predict.py 来产生预测结果。运行结果向我们展示漏报率为26，这意味着我们没能预测 26% 的取消贷款。这是一个好的开始，但仍有很多改善的地方！

你可以在这里找到完整的 predict.py 文件。

你的文件树现在看起来像下面这样：

loan-prediction
├── data
│   ├── Acquisition_2012Q1.txt
│   ├── Acquisition_2012Q2.txt
│   ├── Performance_2012Q1.txt
│   ├── Performance_2012Q2.txt
│   └── ...
├── processed
│   ├── Acquisition.txt
│   ├── Performance.txt
│   ├── train.csv
├── .gitignore
├── annotate.py
├── assemble.py
├── predict.py
├── README.md
├── requirements.txt
├── settings.py

撰写

既然我们完成了端到端的项目，那么我们可以撰写 README.md 文件了，这样其他人便可以知道我们做的事，以及如何复制它。一个项目典型的 README.md 应该包括这些部分：

一个高水准的项目概览，并介绍项目目的
任何必需的数据和材料的下载地址
安装命令
- 如何安装要求依赖
使用命令
- 如何运行项目
- 每一步之后会看到的结果
如何为这个项目作贡献
- 扩展项目的下一步计划

这里是这个项目的一个 README.md 样例。

下一步

恭喜你完成了端到端的机器学习项目！你可以在这里找到一个完整的示例项目。一旦你完成了项目，把它上传到 Github 是一个不错的主意，这样其他人也可以看到你的文件夹的部分项目。

这里仍有一些留待探索数据的角度。总的来说，我们可以把它们分割为 3 类：扩展这个项目并使它更加精确，发现其他可以预测的列，并探索数据。这是其中一些想法：

在 annotate.py 中生成更多的特性
切换 predict.py 中的算法
尝试使用比我们发表在这里的更多的房利美数据
添加对未来数据进行预测的方法。如果我们添加更多数据，我们所写的代码仍然可以起作用，这样我们可以添加更多过去和未来的数据。
尝试看看是否你能预测一个银行原本是否应该发放贷款（相对地，房利美是否应该获得贷款）
- 移除 train 中银行在发放贷款时间的不知道的任何列
  - 当房利美购买贷款时，一些列是已知的，但之前是不知道的
- 做出预测
探索是否你可以预测除了 foreclosure_status 的其他列
- 你可以预测在销售时资产值是多少？
探索探索执行数据更新之间的细微差别
- 你能否预测借款人会逾期还款多少次?
- 你能否标出的典型贷款周期?
将数据按州或邮政编码标出
- 你看到一些有趣的模式了吗?

如果你建立了任何有趣的东西,请在评论中让我们知道!

如果你喜欢这篇文章，或许你也会喜欢阅读“构建你的数据科学作品集”系列的其他文章：

用数据讲故事
如何搭建一个数据科学博客
构建一个可以帮你找到工作的数据科学作品集的关键
找到数据科学用的数据集的 17 个地方

本文地址: http://www.linuxprobe.com/science-portfolio.html

免费提供最新Linux技术教程书籍，为开源技术爱好者努力做得更多更好：http://www.linuxprobe.com/

你可能感兴趣的:(Linux)

current宏及Linux进程栈的底层实现 Leon_George linux 运维
1.current宏的实现#ifndef__ASSEMBLY__structtask_struct;//用于在编译时候声明一个perCPU变量，该变量被放在一个特殊的段中，原型为DECLARE_PER_CPU(type,name)，主要作用是为处理器创建一个type类型，名为name的变量。DECLARE_PER_CPU(structtask_struct*,current_task);stati
linux grep命令蓝菱 linux linux grep 正则表达式
转自http://www.cnblogs.com/end/archive/2012/02/21/2360965.htm1.作用Linux系统中grep命令是一种强大的文本搜索工具，它能使用正则表达式搜索文本，并把匹配的行打印出来。grep全称是GlobalRegularExpressionPrint，表示全局正则表达式版本，它的使用权限是所有用户。2.格式grep[options]3.主要参数[o
prometheus使用alertmanager实现报警功能平凡似水的人生监控系列运维 linux 监控类
前言在运维工作中，最重要的事情就是监控，监控中最重要的就是报警功能，这样可以使我们收到告警之后及时处理，以免事态发展到无可挽回的地步，下面就给大家分享一下prometheus中的告警如何实现吧。一、安装altermanager1、解压安装包tarzxfalertmanager-0.21.0.linux-amd64.tar.gz-C/data/#查看是否安装成功cd/data/alertmanage
Android 和 Linux 之间关联和区别测试也是会开发的 android linux 运维
1.核心：基于Linux内核底层依赖：Android的核心系统服务（如进程管理、内存管理、硬件驱动等）依赖于Linux内核。Android使用Linux内核的修改版本（如AndroidCommonKernel），并针对移动设备的特性（电源管理、低内存优化等）进行了定制。开源协议：Linux内核采用GPL协议，因此Android对内核的修改必须开源（厂商发布的Android设备内核代码需公开）。2.
QT-LINUX-Bluetooth蓝牙开发大象荒野嵌入式QT开发笔记 qt
BlueToothAPIQT-BlueToothApiQtBluetooth6.8.2官方提供的蓝牙API不支持linux。D-Bus的API实现蓝牙确保系统中安装了BlueZ（版本需≥5.56），并且Qt已正确安装并配置了D-Bus支持。默默看了下自己的版本.....D-BUS的API也不支持。在D-Bus中，org目录是D-Bus对象路径（ObjectPath）的一部分，用于唯一标识系统中的对
hdc工具安装、常用命令及使用技巧 MardaWang HarmonyOS NEXT harmonyos 华为
介绍：hdc（OpenHarmonyDeviceConnector）是为开发人员提供的用于设备连接调试的命令行工具，该工具需支持部署在Windows/Linux/Mac等系统上与OpenHarmony设备（或模拟器）进行连接调试通信。简单来讲，hdc是OpenHarmony提供的用于开发人员调试硬件、应用的命令行工具，用在电脑与开发板之间的交互。hdc适用于OpenHarmony应用、硬件开发及测
Java 环境配置与 JAR 文件问题解决全攻略不羁。。杂记丨每天亿点小知识 java jar 开发语言
目录一、Java环境配置指南1.Windows系统配置步骤1.1下载安装JDK1.2配置环境变量2.Linux/macOS系统配置2.1终端命令配置二、JAR文件问题诊断与修复1.检查JAR文件完整性1.1命令行验证1.2哈希值校验2.依赖库管理方案2.1Maven依赖配置示例2.2命令行指定依赖三、常见问题解决方案1.环境变量不生效处理1.1清除系统缓存1.2路径优先级调整2.旧版本残留处理2.
Linux常见的敏感目录 306Safe linux php apache
渗透过程中，我们可能会碰到一些任意文件读取，以下是Linux下的常见的敏感目录，可以使用burp进行爆破。/apache/apache/conf/httpd.conf/apache/apache2/conf/httpd.conf/apache/php/php.ini/bin/php.ini/etc/anacrontab/etc/apache/apache.conf/etc/apache/httpd
linux 编译QT atom,QT5 编译使用TagLib weixin_39551611 linux 编译QT atom
需要使用TagLib读取媒体信息,记录下编译过程使用的文件,使用Taglib库版本1.6.3QT版本5.12.3x32MinGWCMAKE版本3.9.0使用CMAKE配置TagLIbtagLib解压后如下:image配置环境变量选择mingw的bin路径,如下图image.png打开Cmake,在Cmake中选择对应目录如下图是我的选择,基于taglib的解压目录image.png之后点击Conf
VS Code 在Linux下IDE开发C++的HelloWorld leon_zeng0 c++VScode linux ide c/c++helloworld
用VisualStudioCode在Linux(Ubuntu)下构造c++的集成开发环境，编辑，编译和调试运行一个简单程序HelloWorld。想达到上面目标，搜索到以下文章，学习验证而成本文日记。链接是：https://code.visualstudio.com/docs/cpp/config-linux前期准备运行环境是ubuntu16.0，先安装好VisualStudioCode(VSCod
Linux内核srio驱动,Zynq—Linux移植学习笔记（十四）：RapidIO驱动开发 weixin_39942572 Linux内核srio驱动
#defineDRIVER_NAME"xiic-rio"#defineSRIO_ZYNQ_BASEADDR0x40000000#defineSRIO_ZYNQ_NODE_BASEADDR0x10100#defineSRIO_ZYNQ_MAX_HOPCOUNT13structxiic_rio{structmutexlock;u8*data;};/*Weneedglobalvarriableforma
《Linux设备驱动开发详解（第3版）》第12章 Linux块设备驱动请向我看齐嵌入式 linux 驱动开发运维
12.1块设备驱动概述块设备以块为单位进行数据传输，通常支持随机访问，如硬盘、U盘等。块设备驱动负责管理这些设备的I/O操作，为内核和用户空间提供统一的接口。这部分通常以理论讲解为主，代码示例较少。12.2块设备的I/O栈块设备的I/O栈涉及多个层次，从用户空间的系统调用开始，经过VFS（虚拟文件系统）、通用块层，最终到达块设备驱动层。这部分也是理论性较强，直接的代码示例较少。12.3通用块层通用
Linux驱动开发实战之SRIO驱动（二）基于Tsi721驱动 niuTaylor SRIO驱动实战 linux 驱动开发运维 SRIO
常用驱动介绍在RapidIO系统中，TSI721是一款常用的RapidIO交换芯片，其驱动程序和相关模块负责管理和优化数据传输，包括DMA（直接内存访问）操作。以下是您提到的各个模块的作用概述：rapidio.ko:这是RapidIO核心模块，为RapidIO子系统提供基础支持。它负责管理RapidIO设备、维护RapidIO网络拓扑结构，以及处理RapidIO协议的底层细节。rio_cm.ko:
Linux驱动开发实战之SRIO驱动（一） niuTaylor linux 驱动开发 c语言开发语言
活动发起人@小虚竹想对你说：这是一个以写作博客为目的的创作活动，旨在鼓励大学生博主们挖掘自己的创作潜能，展现自己的写作才华。如果你是一位热爱写作的、想要展现自己创作才华的小伙伴，那么，快来参加吧！我们一起发掘写作的魅力，书写出属于我们的故事。我们诚挚邀请你参加为期14天的创作挑战赛！提醒：在发布作品前，请将不需要的内容删除。LinuxSRIO驱动开发终极指南：从基础到实战一、SRIO协议基础SRI
Linux---fork函数和exec函数凉冰难消一腔热血 Linux linux
这里主要介绍Unix/Linux中进程创建，fork()函数和exec()函数。这里先介绍一下什么是进程：进程是正在执行的程序的一个实例。每个实例都有自己的地址空间和执行状态。当操作系统给内核数据结构添加了适当的信息并分配了运行程序代码所需要的资源时，程序就成了进程。一个进程有一个地址空间（它可以访问的内存）和至少一个称为线程的控制流。进程的变量既可以进程生命周期中始终存在（静态存储），也可以在执
linux防火墙多个多个ip配置,网络中多网卡和多ip中的高可用没伞请奔跑i linux防火墙多个多个ip配置
一、虚拟网卡实现一个网卡多个地址1、单个网卡实现多个ipv4地址，只需要在该网卡的配置文件的目录新增网卡配置文件即可。进入网卡"eth0"的目录下2、新增网卡配置文件"ifcfg-eth0:0"和"ifcfg-eth0:1"3、关掉NetworkManager服务4、重启网卡，让系统重读配置网卡配置文件5、使用ifconfig命令查看在线的网卡ip地址二、多网卡bond，mode11、首先在虚拟机
Linux信号：一场内核与用户空间的暗战芯作者 DD：日记 linux
在Linux系统的黑暗森林中，每个进程都是小心翼翼的猎人。当一束神秘的信号光划过天际，内核瞬间变身信号调度大师，在进程的生死簿上书写着命运。这场跨越用户空间与内核态的博弈，远比表面看到的更加惊心动魄。一、信号诞生的量子纠缠当Ctrl+C的闪电划破终端的宁静，内核的tty驱动层率先捕捉到这个量子扰动。键盘中断处理程序像精密的外科手术刀，准确地将SIGINT信号注入当前前台进程的task_struct
linux,ubuntu下source、sh、bash、./执行脚本的区别初识-CV linux Ubuntu Ubuntu source sh bash ./
ubuntu下source、sh、bash、./执行脚本的区别source命令用法sourceFileName作用:在当前bash环境下读取并执行FileName中的命令。该filename文件可以无"执行权限"注:该命令通常用命令“.”来替代。如:source.bash_profile..bash_profile两者等效。source(或点)命令通常用于重新执行刚修改的初始化文档。source命
云服务器linux下配置springboot项目启动、停止、重启脚本努力的Andy 脚本 linux 运维服务器
目录为什么要配置启动脚本？配置脚本一、选择一个文件夹新建一个XXX.sh文件（xxx可以命名为项目名称，新建.sh.conf等文件用到的是vi指令）二、进入如下页面，按下键盘i键进入insert模式三、insert如下配置（只需修改APP_NAME内容为自己想要启动的jar包）四、脚本代码解释：linux下脚本测试1、启动测试2、查看状态3、停止测试4、重启测试为什么要配置启动脚本？一般情况下我们
springboot 项目linux启停脚本 lovecode2011 linux 运维服务器
shutdown.shjps-lvm|grepxxx|awk'{print$1}'|xargskill-15xxx-进程号或项目名称(或名称关键字)startup.shls|grep"xxx"|grep-iv"bak"|tail-n1|xargs-n1-l{}nohupjava-jar{}-Dspring.config.location=/xxx/xxx/config/application-de
编写脚本在Linux下启动、停止SpringBoot工程流烟默系统运维 Linux全面入门 linux spring boot shell
【1】启动命令nohupjava-jaryour-application.jar>/dev/null2>&1&>/dev/null2>&1：这条命令将标准输出和标准错误都重定向到/dev/null，这意味着它们不会输出到控制台或任何文件。这样做是因为我们希望所有日志都由Logback处理并写入到配置文件中指定的日志文件里。然而，如果你想要保留控制台输出（例如，对于调试目的），你可以省略这部分重定向
mysql总结 tianyunlinger 大数据 mysql 数据库
MySQL基础1.数据库基本介绍数据库定义：用于存储数据的仓库，通过SQL语句操作。数据库作用：存储应用程序中的数据，便于管理和查询。数据库分类：关系型数据库（如MySQL、Oracle、DB2）和非关系型数据库（如Redis、HBase）。关系型数据库：通过E-R图描述数据之间的关系，支持复杂查询。2.MySQL在Linux中的安装安装前准备：配置防火墙、创建统一的管理目录（如/export/s
Linux中的yum和vim工具使用总结 yi个名字 linux vim 运维
在Linux系统管理和文本编辑中，yum和vim是两个非常重要的工具。yum作为包管理器帮助我们轻松安装和管理软件，而vim则是一个功能强大的文本编辑器。下面我将对这两个工具进行详细介绍。一、YUM包管理器1.YUM简介YUM(YellowdogUpdaterModified)是一个在Fedora、CentOS和RedHat等基于RPM的Linux发行版中的开源命令行包管理工具。它允许用户自动下载
GitHub霸榜神器！NextChat领衔DeepSeek全栈开发范式大禹智库《向量数据库指南》《实战AI智能体》机器学习 RAG AI智能体人工智能 Manus deepseek NextChat
一、项目概况与生态定位NextChat（原ChatGPT-Next-Web）是GitHub上斩获81.2K星标的现象级开源项目，定位为"轻量级AI助手终端"，支持DeepSeek、Claude、GPT-4、Gemini等20+主流大模型。其核心价值在于以5MB超小客户端实现跨平台（Windows/Mac/Linux/iOS/Android）无缝衔接，同时提供云端一键部署方案，成为个人用户与企业私有
基于kylin-v10安装docker 神奇侠2024 redis kylin 大数据 docker
1、下载地址Indexoflinux/static/stable/x86_64/2、下载docker-24.0.5.tgz.tar版本3、上传服务器解压tarxvfdocker-24.0.5.tgz.tar4、解压的docker拷贝或移动到/usr/bin/目录下cpdocker/*/usr/bin/5、编写docker.service文件加入Linux服务当中并开启守护进程vi/etc/syst
网页编辑器能否满足Word公式与图片的直接复制粘贴？ 2501_90699800 编辑器 word umeditor粘贴word ueditor粘贴word ueditor复制word ueditor上传word图片 ueditor导入word
要求：开源，免费，技术支持编辑器：百度ueditor前端：vue2,vue3,vue-cli,react,html5用户体验：Ctrl+V快捷键操作功能：导入Word,导入Excel,导入PPT(PowerPoint),导入PDF,复制粘贴word,导入微信公众号内容,web截屏平台：Windows,macOS,Linux,RedHat,CentOS,Ubuntu,中标麒麟,银河麒麟,统信UOS,
Centos7_安装爱喝兽奶 Linux基础 linux ubuntu centos
一.Linux哲学思想一切都是一个文件（包括硬件）小型，单一用途的程序链接程序，共同完成复杂的任务避免令人困惑的用户界面配置数据存储在文本中二.Linux生产主流版本Linux各种版本CentOS各版本介绍https://zh.wikipedia.org/wiki/CentOSRHEL各版本介绍https://zh.wikipedia.org/wiki/Red_Hat_Enterprise_Lin
Linux学习1_Linux命令及英文全称 Wang_Zhenwei —Linux 转载 linux
LinuxCommandreferences(命令全称，方便记忆)aliasCreateyourownnameforacommandarchprintmachinearchitectureashashcommandinterpreter(shell)awk(gawk)patternscanningandprocessinglanguagebasenameRemovedirectoryandsuff
docker-compose笔记 Re_Virtual docker docker 笔记容器
docker目前docker官网已经无法登录，但是还可以从清华镜像站（https://mirrors.tuna.tsinghua.edu.cn/docker-ce/）下载。使用方法可以参考早期文章《docker笔记》docker-compose可以从Github下载不同版本的二进制文件，例如docker-compose-linux-x86_64。下载完成后，将二进制文件复制入路径，例如/usr/l
Linux vim mode | raw / cooked 斐夷所非 Linux vim mode
注：机翻，未校。vimterminal“raw”modeVim终端“raw”模式1.原始模式与已处理模式的区别Weknowvimputstheterminalin“raw”modewhereitreceiveskeystrokesastheyaretyped,opposedto“cooked”modewherethecommandisnotprocessedfullyunlesstheend-us
Spring4.1新特性——Spring MVC增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
mysql 性能查询优化 annan211 java sql 优化 mysql 应用服务器
1 时间到底花在哪了？ mysql在执行查询的时候需要执行一系列的子任务，这些子任务包含了整个查询周期最重要的阶段，这其中包含了大量为了检索数据列到存储引擎的调用以及调用后的数据处理，包括排序、分组等。在完成这些任务的时候，查询需要在不同的地方花费时间，包括网络、cpu计算、生成统计信息和执行计划、锁等待等。尤其是向底层存储引擎检索数据的调用操作。这些调用需要在内存操
windows系统配置 cherishLC windows
删除Hiberfil.sys ：使用命令powercfg -h off 关闭休眠功能即可： http://jingyan.baidu.com/article/f3ad7d0fc0992e09c2345b51.html 类似的还有pagefile.sys msconfig 配置启动项 shutdown 定时关机 ipconfig 查看网络配置 ipconfig /flushdns
人体的排毒时间 Array_06 工作
======================== || 人体的排毒时间是什么时候？|| ======================== 转载于： http://zhidao.baidu.com/link?url=ibaGlicVslAQhVdWWVevU4TMjhiKaNBWCpZ1NS6igCQ78EkNJZFsEjCjl3T5EdXU9SaPg04bh8MbY1bR
ZooKeeper cugfy zookeeper
Zookeeper是一个高性能，分布式的，开源分布式应用协调服务。它提供了简单原始的功能，分布式应用可以基于它实现更高级的服务，比如同步，配置管理，集群管理，名空间。它被设计为易于编程，使用文件系统目录树作为数据模型。服务端跑在java上，提供java和C的客户端API。 Zookeeper是Google的Chubby一个开源的实现，是高有效和可靠的协同工作系统，Zookeeper能够用来lea
网络爬虫的乱码处理随意而生爬虫网络
下边简单总结下关于网络爬虫的乱码处理。注意，这里不仅是中文乱码，还包括一些如日文、韩文、俄文、藏文之类的乱码处理，因为他们的解决方式是一致的，故在此统一说明。网络爬虫，有两种选择，一是选择nutch、hetriex，二是自写爬虫，两者在处理乱码时，原理是一致的，但前者处理乱码时，要看懂源码后进行修改才可以，所以要废劲一些；而后者更自由方便，可以在编码处理
Xcode常用快捷键张亚雄 xcode
一、总结的常用命令：隐藏xcode command+h 退出xcode command+q 关闭窗口 command+w 关闭所有窗口 command+option+w 关闭当前
mongoDB索引操作 adminjun mongodb 索引
一、索引基础： MongoDB的索引几乎与传统的关系型数据库一模一样，这其中也包括一些基本的优化技巧。下面是创建索引的命令： > db.test.ensureIndex({"username":1}) 可以通过下面的名称查看索引是否已经成功建立： &nbs
成都软件园实习那些话 aijuans 成都软件园实习
无聊之中，翻了一下日志，发现上一篇经历是很久以前的事了，悔过~~ 　　断断续续离开了学校快一年了，习惯了那里一天天的幼稚、成长的环境，到这里有点与世隔绝的感觉。不过还好，那是刚到这里时的想法，现在感觉在这挺好，不管怎么样，最要感谢的还是老师能给这么好的一次催化成长的机会，在这里确实看到了好多好多能想到或想不到的东西。　　都说在外面和学校相比最明显的差距就是与人相处比较困难，因为在外面每个人都
Linux下FTP服务器安装及配置 ayaoxinchao linux FTP服务器 vsftp
检测是否安装了FTP [root@localhost ~]# rpm -q vsftpd 如果未安装：package vsftpd is not installed 安装了则显示：vsftpd-2.0.5-28.el5累死的版本信息安装FTP 运行yum install vsftpd命令，如[root@localhost ~]# yum install vsf
使用mongo-java-driver获取文档id和查找文档 BigBird2012 driver
注：本文所有代码都使用的mongo-java-driver实现。在MongoDB中，一个集合（collection）在概念上就类似我们SQL数据库中的表（Table），这个集合包含了一系列文档（document）。一个DBObject对象表示我们想添加到集合（collection）中的一个文档（document），MongoDB会自动为我们创建的每个文档添加一个id，这个id在
JSONObject以及json串 bijian1013 json JSONObject
一.JAR包简介要使程序可以运行必须引入JSON-lib包，JSON-lib包同时依赖于以下的JAR包： 1.commons-lang-2.0.jar 2.commons-beanutils-1.7.0.jar 3.commons-collections-3.1.jar &n
[Zookeeper学习笔记之三]Zookeeper实例创建和会话建立的异步特性 bit1129 zookeeper
为了说明问题，看个简单的代码， import org.apache.zookeeper.*; import java.io.IOException; import java.util.concurrent.CountDownLatch; import java.util.concurrent.ThreadLocal
【Scala十二】Scala核心六：Trait bit1129 scala
Traits are a fundamental unit of code reuse in Scala. A trait encapsulates method and field definitions, which can then be reused by mixing them into classes. Unlike class inheritance, in which each c
weblogic version 10.3破解 ronin47 weblogic
版本：WebLogic Server 10.3 说明：%DOMAIN_HOME%：指WebLogic Server 域(Domain）目录例如我的做测试的域的根目录 DOMAIN_HOME=D:/Weblogic/Middleware/user_projects/domains/base_domain 1.为了保证操作安全，备份%DOMAIN_HOME%/security/Defa
求第n个斐波那契数 BrokenDreams
今天看到群友发的一个问题：写一个小程序打印第n个斐波那契数。自己试了下，搞了好久。。。基础要加强了。 &nbs
读《研磨设计模式》-代码笔记-访问者模式-Visitor bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; interface IVisitor { //第二次分派，Visitor调用Element void visitConcret
MatConvNet的excise 3改为网络配置文件形式 cherishLC matlab
MatConvNet为vlFeat作者写的matlab下的卷积神经网络工具包，可以使用GPU。主页： http://www.vlfeat.org/matconvnet/ 教程： http://www.robots.ox.ac.uk/~vgg/practicals/cnn/index.html 注意：需要下载新版的MatConvNet替换掉教程中工具包中的matconvnet： http
ZK Timeout再讨论 chenchao051 zookeeper timeout hbase
http://crazyjvm.iteye.com/blog/1693757 文中提到相关超时问题，但是又出现了一个问题，我把min和max都设置成了180000，但是仍然出现了以下的异常信息： Client session timed out, have not heard from server in 154339ms for sessionid 0x13a3f7732340003
CASE WHEN 用法介绍 daizj sql group by case when
CASE WHEN 用法介绍 1. CASE WHEN 表达式有两种形式 --简单Case函数 CASE sex WHEN '1' THEN '男' WHEN '2' THEN '女' ELSE '其他' END --Case搜索函数 CASE WHEN sex = '1' THEN
PHP技巧汇总:提高PHP性能的53个技巧 dcj3sjt126com PHP
PHP技巧汇总:提高PHP性能的53个技巧　　用单引号代替双引号来包含字符串，这样做会更快一些。因为PHP会在双引号包围的字符串中搜寻变量，　　单引号则不会，注意：只有echo能这么做，它是一种可以把多个字符串当作参数的函数译注：　　PHP手册中说echo是语言结构，不是真正的函数，故把函数加上了双引号)。　　1、如果能将类的方法定义成static，就尽量定义成static，它的速度会提升将近4倍
Yii框架中CGridView的使用方法以及详细示例 dcj3sjt126com yii
CGridView显示一个数据项的列表中的一个表。表中的每一行代表一个数据项的数据,和一个列通常代表一个属性的物品(一些列可能对应于复杂的表达式的属性或静态文本)。　　CGridView既支持排序和分页的数据项。排序和分页可以在AJAX模式或正常的页面请求。使用CGridView的一个好处是,当用户浏览器禁用JavaScript,排序和分页自动退化普通页面请求和仍然正常运行。实例代码如下：
Maven项目打包成可执行Jar文件 dyy_gusi assembly
Maven项目打包成可执行Jar文件在使用Maven完成项目以后，如果是需要打包成可执行的Jar文件，我们通过eclipse的导出很麻烦，还得指定入口文件的位置，还得说明依赖的jar包，既然都使用Maven了，很重要的一个目的就是让这些繁琐的操作简单。我们可以通过插件完成这项工作，使用assembly插件。具体使用方式如下： 1、在项目中加入插件的依赖： <plugin>
php常见错误 geeksun PHP
1. kevent() reported that connect() failed (61: Connection refused) while connecting to upstream, client: 127.0.0.1, server: localhost, request: "GET / HTTP/1.1", upstream: "fastc
修改linux的用户名 hongtoushizi linux change password
Change Linux Username 更改Linux用户名，需要修改4个系统的文件： /etc/passwd /etc/shadow /etc/group /etc/gshadow 古老/传统的方法是使用vi去直接修改，但是这有安全隐患（具体可自己搜一下），所以后来改成使用这些命令去代替： vipw vipw -s vigr vigr -s 具体的操作顺
第五章常用Lua开发库1-redis、mysql、http客户端 jinnianshilongnian nginx lua
对于开发来说需要有好的生态开发库来辅助我们快速开发，而Lua中也有大多数我们需要的第三方开发库如Redis、Memcached、Mysql、Http客户端、JSON、模板引擎等。一些常见的Lua库可以在github上搜索，https://github.com/search?utf8=%E2%9C%93&q=lua+resty。 Redis客户端 lua-resty-r
zkClient 监控机制实现 liyonghui160com zkClient 监控机制实现
直接使用zk的api实现业务功能比较繁琐。因为要处理session loss，session expire等异常，在发生这些异常后进行重连。又因为ZK的watcher是一次性的，如果要基于wather实现发布/订阅模式，还要自己包装一下，将一次性订阅包装成持久订阅。另外如果要使用抽象级别更高的功能，比如分布式锁，leader选举
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句 pda158 mysql
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句：　　方法一：SELECT table_name, column_name from information_schema.columns WHERE column_name LIKE 'Name'; 　　方法二：SELECT column_name from information_schema.colum
程序员对英语的依赖 Smile.zeng 英语程序猿
1、程序员最基本的技能，至少要能写得出代码，当我们还在为建立类的时候思考用什么单词发牢骚的时候，英语与别人的差距就直接表现出来咯。 2、程序员最起码能认识开发工具里的英语单词，不然怎么知道使用这些开发工具。 3、进阶一点，就是能读懂别人的代码，有利于我们学习人家的思路和技术。 4、写的程序至少能有一定的可读性，至少要人别人能懂吧... 以上一些问题，充分说明了英语对程序猿的重要性。骚年
Oracle学习笔记(8) 使用PLSQL编写触发器 vipbooks oracle sql 编程活动 Access
时间过得真快啊，转眼就到了Oracle学习笔记的最后个章节了，通过前面七章的学习大家应该对Oracle编程有了一定了了解了吧，这东东如果一段时间不用很快就会忘记了，所以我会把自己学习过的东西做好详细的笔记，用到的时候可以随时查找，马上上手！希望这些笔记能对大家有些帮助！这是第八章的学习笔记，学习完第七章的子程序和包之后