风度78

【机器学习】数据挖掘实战：金融贷款分类模型和时间序列分析

今天给大家带来一个企业级数据挖掘实战项目，金融贷款分类模型和时间序列分析，文章较长，建议收藏！

如果本文对你有所帮助，记得文末点赞和在看，也可分享给你需要的朋友～

项目背景

银行和其他金融贷款机构经常需要查看贷款申请人的信用历史、经济状况和其他因素，以确定贷款资格，但这些因素之间的关系通常不是明确定义的，但在本质上可以得到启发的。通常情况下，公司近况，如其近期的兴衰，也被作为决定其财务稳定性的考虑因素。因为这些因素考虑不当，或者被忽略了。这很可能会导致对公司拖欠贷款可能性的判断错误。

因此，我们可以使用有效的分类和时间序列分析，生成一个好的模型，不仅会更精确，而且会大大降低在解决这个问题上的成本效益。有了这个目标，我们将分析数据，并用来自其他集合的数据来补充它，并通过创建分类策略和分析模型所采取的步骤，试图理解与公司财务状况相关度最高的静态因素。

目标变量和预测变量

我们总共使用了42个特征来确定最终分类器中的目标，目标本身是由SVM分类器输出和ARIMA时间序列分析得到的复合变量。

使用的最重要的预测变量是：Accounts Payable, Capital Expenditures, Additional Income Expense Items, Accounts Receivable and After Tax Return on Equity（应付帐款、资本支出、额外收入费用项目、应收帐款和税后权益回报）。

目标变量是公司股票价格在两年内的变化百分比和公司在未来4年内破产的可能性的总和。

问题陈述

识别各种静态特征，这些特征负责确定公司的增长趋势，从而确定其获得贷款的资格。

模型的类型

这些数据集包括申请破产的公司的数据、纽约证券交易所组织的6年股票趋势和这些公司的财务数据。我们在破产公司数据集上尝试了多种模型，包括决策树、线性模型和Logistic回归，并得出基于AUC值的支持向量机最适合于该数据集的结论。

采用ARIMA时间序列方法对股票走势进行了分析。使用这些值将一个复合标签添加到金融数据集中，最后在这个数据集上使用随机森林分类器来解决上述问题。因为不同公司的数据存在大量的特征和大的方差，随机森林模型对数据的拟合最好，提供了最好的整体精度。

评价方法

评估数据的任务分4个步骤完成

数据清理

由于我们操作的数据来自不同来源的多个数据集，因此数据清理是确保这些数据集的数据表示一致所必需的一项主要操作。

破产预测

申请破产的公司的数据集不包含非破产公司的财务特征数据，因此我们没有一个可以用来直接训练模型的数据集。为了解决这个问题，我们使用了来自纽约证券交易所上市公司的更大金融数据集的前几年的数据，并将其添加到这个数据集中，以确保该数据集符合通用规则。然后我们在这个数据集上训练了一个SVM，并验证其AUC得分约为0.75。

时间序列分析

公司股票价格数据包含纽交所上市的约500家公司的每日收盘价。该数据被按比例缩小，以包含每周平均股价。由于时间序列对不同的公司会有不同的表现，因此有必要分别为每个公司建模。

不出所料，在某些情况下数据显示了强烈的趋势和季节性，必须通过数据集的差分来删除趋势和季节性，然后执行ARIMA模型。根据ACF和PACF绘图分析和手工试验，选择的p值和q值分别为2和1。在建模时，平均绝对误差为~0.05，这表明时间序列分析是相当准确的。

用预测数据增强初始数据集

包含纽约证券交易所上市公司财务信息的数据集用预测破产价值和两年内各自股票价格变化百分比的复合标签进行了增强。这个标签是连续的，我们将它四舍五入到小数点后一位，然后乘以10得到一个整数。这个标签用于训练随机森林分类器，以确定模型认为对预测公司的增长趋势最重要的特征。对特征进行分析并找出特征与标签之间的相关关系。

随机森林分类器本身的分析是通过观察产生的混淆矩阵来评估的。由于标签是多类的，而不是二分类的，因此不能绘制ROC曲线来评价模型结果。然而马修斯相关系数却可以很好地衡量置信度。

假设 / 限制

1、破产预测是机器学习研究的一个重要课题。关于这个话题有几篇研究论文，其中几篇使用了神经网络和先进的机器学习技术来更加精确可靠地预测破产的可能性。我们发现一些属性在这些模型中被普遍使用，因此并假设这些属性与公司破产的概率高度相关。

当然，如此决策另一个重要原因是，因为本次项目无法获得包含更多破产公司财务数据的公共数据集。因此，我们只使用这些相关度最高的特征来训练预测器，这是一个极其简单的破产预测模型。

2、发现 ACF 和 PACF 图非常模糊，并且不足以帮助确定 AR 和 MA 参数值。因此，我们尝试了一些值，并假设 (2,1) 组合最能预测数据。

3、增强步骤包括合并二进制预测破产值和连续平均时间序列预测。我们假设这是一个很好的指标，可以判断公司是上升还是下降，因此，向公司提供贷款是否安全。

类范围问题

使用多种分类策略并对时间序列进行建模后，可以通过增加特征和数据点的数量来进一步进行这种分析，以实现更好的破产预测，以及调整时间序列模型的 AR 和 MA 参数。

鉴于当前的分析，我们发现了与目标变量相关的多个特征，这种分析有助于补充组织的传统启发式知识。银行和其他金融贷款机构的信息存储可以使用这种分析来更多地关注这些特征，这是通过代表性或推论分析可能无法实现的。

原始提案的变化及其原因：我们最初的提议包含一个策略，即只使用破产预测器来为金融数据集提供标签。然而，经过仔细分析，我们发现它不能作为公司整体地位的一个足够全面的指标。因此，我们决定通过对公司股票趋势的时间序列分析来增强它，这将是组织增长/下降的更好指标。

代码

导入相关模块

import numpy as np
import pandas as pd
import re
import warnings
from matplotlib import pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn import preprocessing as pp
from sklearn import svm
from sklearn.ensemble import RandomForestClassifier
from sklearn import metrics
from statsmodels.stats.stattools import durbin_watson
from statsmodels.graphics.tsaplots import plot_acf, plot_pacf
from statsmodels.tsa import arima_model
from statsmodels.graphics.api import qqplot
warnings.filterwarnings('ignore')

数据预处理

定义了几个函数，这里包括数据清洗、时间解析、稳定性检测。

def cleanColumnName(column):
    #删除列名中的符号
    column = re.sub('\W+',' ', column.strip())
    #删除列名末尾的所有空格
    column = column.strip() 
    # 用'_'替换单词之间的空格
    return column.lower().replace(" ","_")                         

def dateParse(dates):
    return pd.datetime.strptime(dates, '%Y-%m-%d')

def test_stationarity(ticker, timeseries):
    # 确定滑动窗口统计
    rolmean = timeseries.rolling(window=7, center=False).mean()
    rolstd = timeseries.rolling(window=7, center=False).std()

    #绘制滑动窗口统计图:
    orig = plt.plot(timeseries, color='blue',label='Original')
    mean = plt.plot(rolmean, color='red', label='Rolling Mean')
    std = plt.plot(rolstd, color='black', label = 'Rolling Std')
    plt.legend(loc='best')
    plt.title(ticker)
    plt.show(block=False)
    
    # 自相关的durbin_watson统计
    dftest = durbin_watson(timeseries)
    print(ticker)
    print("Durbin-Watson statistic for "+ticker+": ",dftest)

数据清洗

从数据集中删除不必要的列。这完全是启发式的，因为我们完全根据自己对这些列的意义的理解来删除它们。

# 读取数据
bankrupt_companies = pd.read_csv("public_company_bankruptcy_cases.csv")
companies_stock_prices = pd.read_csv("prices-split-adjusted.csv", 
                                     parse_dates=True, 
                                     usecols=["date","symbol","close"], 
                                     date_parser=dateParse)
nyse_data = pd.read_csv("fundamentals.csv", index_col='Unnamed: 0')

bankrupt_companies.drop(["DISTRICT", "STATE", "COMPANY NAME"], 
                        axis=1, inplace=True)
nyse_data.drop(["Deferred Asset Charges","Deferred Liability Charges",
                "Depreciation","Earnings Before Tax","Effect of Exchange Rate",
                "Equity Earnings/Loss Unconsolidated Subsidiary","Goodwill",
                "Income Tax","Intangible Assets","Interest Expense","Liabilities",
                "Minority Interest","Misc. Stocks","Net Cash Flow-Operating",
                "Net Cash Flows-Financing","Net Cash Flows-Investing",
                "Net Income Adjustments","Net Income Applicable to Common Shareholders",
                "Net Income-Cont. Operations","Operating Income","Operating Margin",
                "Other Assets","Other Current Assets","Other Current Liabilities",
                "Other Financing Activities","Other Investing Activities",
                "Other Liabilities","Other Operating Activities","Other Operating Items",
                "Pre-Tax Margin","Pre-Tax ROE","Research and Development",
                "Total Current Assets","Total Current Liabilities",
                "Total Liabilities & Equity","Treasury Stock", "For Year"], 
               axis=1, inplace=True)

# 数据清理，使列名格式一致
bankrupt_companies.columns = map(cleanColumnName, bankrupt_companies.columns)
bankrupt_companies.columns = ["total_assets", "total_liabilities"]
companies_stock_prices.columns = map(cleanColumnName, companies_stock_prices.columns)
nyse_data.columns = map(cleanColumnName, nyse_data.columns)

nyse_data.head()

缺失值处理

从各自的数据集中删除NaN值。

bankrupt_companies.dropna(axis=0, subset=['total_assets', 'total_liabilities'],
                          inplace=True)

nyse_data.dropna(axis=1, how='any', inplace=True)
nyse_data.dropna(axis=0, how='any', inplace=True)

companies_stock_prices.dropna(axis=0, how='any', inplace=True)

训练SVM作为破产预测器

创建包含2013年未破产公司数据的新dataframe。

nyse_2013 = nyse_data.loc[nyse_data['period_ending'].str.contains("2013"),
                          ["total_assets", "total_liabilities"]]

nyse_2013 = nyse_2013.sample(
      n=bankrupt_companies.shape[0],
      replace=False)

随机抽样该数据集，以获得一个数据帧，其中包含与其他数据集中破产公司数量相同的非破产公司的数据。

nyse_2013.set_index([[x for x in range(bankrupt_companies.index[-1]+1, 
    bankrupt_companies.index[-1]+nyse_2013.shape[0]+1)]],
    inplace=True)

手动将列“bankrupt”添加到要用作标签的数据集。

bankrupt_companies["stability"] = 0
nyse_2013["stability"] = 1

合并破产数据和非破产数据，生成一个可用于训练分类器的数据。

merged_bankruptcy_dataset = pd.concat(
            [bankrupt_companies, nyse_2013])

# 缩放数据以确保资产和负债在相同的范围内

scaler = pp.MinMaxScaler()
scaler.fit(merged_bankruptcy_dataset[["total_assets", "total_liabilities"]])
merged_bankruptcy_dataset[["total_assets", "total_liabilities"]] = scaler.transform(merged_bankruptcy_dataset[["total_assets", "total_liabilities"]])

将合并的数据集随机分割为训练数据集和测试数据集，用于训练决策树。

train_bankruptcy_data, test_bankruptcy_data, 
train_bankruptcy_target, test_bankruptcy_target = train_test_split(
         merged_bankruptcy_dataset.iloc[:,0:-1], 
                merged_bankruptcy_dataset.iloc[:,-1],
                test_size=0.25 )

在训练数据上训练支持向量机。

Svm_model = svm.LinearSVC()
Svm_model.fit(train_bankruptcy_data, train_bankruptcy_target)

print(train_bankruptcy_data.shape, 
      Svm_model.score(train_bankruptcy_data, train_bankruptcy_target))
print(test_bankruptcy_data.shape, 
      Svm_model.score(test_bankruptcy_data, test_bankruptcy_target))

((190, 2), 0.83157894736842108)
((64, 2), 0.8125)

计算和绘制ROC和面积下曲线，以了解分类器的准确性

FPR, TPR, _ = metrics.roc_curve(test_bankruptcy_target, Svm_model.predict(test_bankruptcy_data))
auc = metrics.auc(FPR, TPR)

plt.plot(FPR, TPR, 'b', label = 'AUC for SVM = %0.2f' %auc)
plt.title("AUC For SVM Model")
plt.legend(loc='best')
plt.plot([0,1], [0,1], 'r--')
plt.xlabel('FPR')
plt.ylabel('TPR')
plt.show()

只保留所有公司去年的数据。我们将只考虑最新的数据，并在原始数据集中添加破产的预测值。

nyse_data.drop_duplicates(subset='ticker_symbol', keep='last', inplace=True)

nyse_data["stability"] = Svm_model.predict(scaler.transform(nyse_data[["total_assets",
                     "total_liabilities"]]))
print("Companies predicted to go bankrupt over a 4 year period: ",
      len(nyse_data.loc[nyse_data["stability"] != 1, "ticker_symbol"]))

Companies predicted to go bankrupt 
over a 4 year period:  114

时间序列分析

companies_stock_prices["date"] = pd.to_datetime(companies_stock_prices["date"],
        format="%Y-%m-%d")
companies_stock_prices.dropna(axis=0, 
                    how='any', 
                    inplace=True)

# 按股票代码排序
companies_stock_prices.sort_values(by=["symbol", "date"], inplace=True)

假设每个公司的股票趋势是不同的，我们需要为每个公司建模不同的时间序列，方法是将每个公司的数据以单独的键存储在字典中。字典存储每个公司的每周股票价格，将每个公司的数据添加到字典中的单独键中，这样就可以对每个公司分别进行时间序列分析。

weekly_stock_prices = {}            

for i in np.unique(companies_stock_prices["symbol"].values):
    weekly_stock_prices[i] = companies_stock_prices.loc[
    companies_stock_prices["symbol"] == i, :].copy()
    weekly_stock_prices[i] = weekly_stock_prices[i].reset_index(drop=True)

通过每周只保留一天的数据，将每日库存数据转换为每周。因为大约有450家公司，所以只显示前10个地块，而且绘制所有地块需要大量时间。趋势和季节性可以假定存在于所有这些。

count = 0
for i in weekly_stock_prices:
    weekly_mean = weekly_stock_prices[i]["close"].rolling(window=5, center=False).mean()[4:]
    # 通过每周只保留一天的数据，将每日库存数据转换为每周
    weekly_stock_prices[i] = weekly_stock_prices[i].loc[weekly_stock_prices[i].index % 5 == 0, :]
    weekly_stock_prices[i]["close"] = weekly_mean
    weekly_stock_prices[i].index = weekly_stock_prices[i]["date"]
    weekly_stock_prices[i].drop(["symbol", "date"], axis=1, inplace=True)
    weekly_stock_prices[i].dropna(axis=0, how='any', inplace=True)
    
    count += 1    
  if count <= 10:
        test_stationarity(i, weekly_stock_prices[i])

AGN
('Durbin-Watson statistic for AGN: ',
array([ 0.00106633]))

EOG
('Durbin-Watson statistic for EOG: ',
array([ 0.00104565]))

CPB
('Durbin-Watson statistic for CPB: ',
array([ 0.00042048]))

EVHC
('Durbin-Watson statistic for EVHC: ', array([ 0.00806171]))

IDXX
('Durbin-Watson statistic for IDXX: ',
array([ 0.00094586]))

QRVO
('Durbin-Watson statistic for QRVO: ',
array([ 0.00290384]))

JWN
('Durbin-Watson statistic for JWN: ',
array([ 0.00088175]))

JBHT
('Durbin-Watson statistic for JBHT: ',
array([ 0.00059562]))

TAP
('Durbin-Watson statistic for TAP: ',
array([ 0.00062282]))

VRTX
('Durbin-Watson statistic for VRTX: ',
array([ 0.00270465]))

正如可以预期的那样，股票价格数据显示了一个很容易看到的趋势，而且在许多情况下，更仔细的检查也会显示出季节性的存在。低的Durbin-Watson统计值是高正自相关的证据，这也是可以理解的，因为股票价格依赖于以前的值。因此，要对该数据进行ARIMA分析，首先需要对其进行操作，以得到一个平稳的数据。

# 对数据进行平稳处理
count = 0
weekly_stock_prices_log = {}
for i in weekly_stock_prices:
    # 对数据进行差分来去除数据中的趋势和季节性
    weekly_stock_prices_log[i] = weekly_stock_prices[i].copy()
    weekly_stock_prices_log[i]["first_difference"] = weekly_stock_prices_log[i]["close"] - weekly_stock_prices_log[i]["close"].shift(1)
    weekly_stock_prices_log[i]["seasonal_first_difference"] = weekly_stock_prices_log[i]["first_difference"] - weekly_stock_prices_log[i]["first_difference"].shift(12)

    count += 1
    if count <=10:
        test_stationarity(i, weekly_stock_prices_log[i]["seasonal_first_difference"].dropna(inplace=False))

AGN
('Durbin-Watson statistic for AGN: ', 
1.8408166958817405)

EOG
('Durbin-Watson statistic for EOG: ', 
1.6299518594407623)

CPB
('Durbin-Watson statistic for CPB: ', 
1.5454599084578173)

EVHC
('Durbin-Watson statistic for EVHC: ', 
1.4213426917002945)

IDXX
('Durbin-Watson statistic for IDXX: ', 
1.7448077126902013)

QRVO
('Durbin-Watson statistic for QRVO: ', 
1.3805906045088099)

JWN
('Durbin-Watson statistic for JWN: ', 
1.6385737145457053)

JBHT
('Durbin-Watson statistic for JBHT: ', 
1.6966894515415203)

TAP
('Durbin-Watson statistic for TAP: ', 
1.8412354264794373)

VRTX
('Durbin-Watson statistic for VRTX: ', 
1.6067817382582221)

现在从结果可以看出，这已经失去了先前所具有的趋势和季节性。Durbin-Watson统计量也显示了一个值~2，因此我们可以得出残差是平稳的，可以继续对其进行分析操作。

# 通过绘制ACF和PACF图来确定自回归和移动平均参数。
count = 0
for i in weekly_stock_prices_log:
    fig = plt.figure(figsize=(12,5))
    ax1 = fig.add_subplot(121)
    plot_acf(weekly_stock_prices_log[i]["seasonal_first_difference"].iloc[13:], 
             lags=50, title="Autocorrelation for "+i, ax=ax1)
    ax2 = fig.add_subplot(122)
    plot_pacf(weekly_stock_prices_log[i]["seasonal_first_difference"].iloc[13:], 
              lags=50, title="Partial Autocorrelation for "+i, ax=ax2)
    count += 1
    if count == 5:
        break
plt.show()

ACF和PACF图显示在滞后1时出现峰值。然而，这些图本身并不是决定性的，因为没有一个可以说是指数下降的，当然，也显示了一些异常值。使用不同p和q值的试验在(2,1)处显示出显著更好的结果。

对所有公司进行ACF-PACF分析是不可能的，因此对于SVD不收敛于(2,1)的实例，使用了(1,0)的回退值。

count = 0
stock_predictions = {}
for i in weekly_stock_prices_log:
    # 将可用数据分割为训练，使用剩余的数据点进行准确性检查
    split_point = len(weekly_stock_prices_log[i]) - 20
    # 从数据集的最后日期到2018-12-31的周数加117
    num_of_predictions = len(weekly_stock_prices_log[i]) + 117
    training = weekly_stock_prices_log[i][0:split_point]
    model = {}
    # 首先尝试使用p=2, q=1建模，如果失败，使用p=1, q=0
    try:
        model = arima_model.ARMA(training["close"], order=(2,1)).fit()
    except:
        model = arima_model.ARMA(training["close"], order=(1,0)).fit()
    
    # 在dataframe中添加预测值，以便于进一步的操作。
    daterange = pd.date_range(training.index[0], periods=num_of_predictions, freq = 'W-MON').tolist()
    stock_predictions[i] = pd.DataFrame(columns=["date", "prediction"])
    stock_predictions[i]["date"] = daterange
    stock_predictions[i]["prediction"] = model.predict(start=0, end=num_of_predictions)
    stock_predictions[i].set_index("date", inplace=True)
    # 绘制QQPlot来检查残差是否均匀分布
    if count < 5:
        resid = model.resid
        print("For "+i+": ",stats.normaltest(resid))
        qqplot(resid, line='q', fit=True)
        plt.show()
        count += 1

('For AGN: ', 
NormaltestResult(statistic=472.93123930305205, 
pvalue=2.0150518495630914e-103))

('For EOG: ', 
NormaltestResult(statistic=120.49648362661878, 
pvalue=6.8315780758386102e-27))

('For CPB: ', 
NormaltestResult(statistic=339.86796767404019, 
pvalue=1.579823361925116e-74))

('For EVHC: ', 
NormaltestResult(statistic=69.17501926644907, 
pvalue=9.5243516902465695e-16))

('For IDXX: ', 
NormaltestResult(statistic=360.2101109972532,
pvalue=6.0446092870173276e-79))

上面这些图显示了合理的平等分布，因此我们可以得出结论，残差分析是适当的。

时间序列模型分析。

count = 0
for i in weekly_stock_prices_log:
    # 将实际值与预测值进行对比
    weekly_stock_prices_log[i]["close"].plot()
    stock_predictions[i]["prediction"].plot()
    plt.show()
    
    # 计算验证数据点的平均绝对误差和平均预测误差
    split_point = len(weekly_stock_prices_log[i]) - 20
    forecastedValues = stock_predictions[i]["prediction"].iloc[split_point : len(weekly_stock_prices_log[i])]
    actualValues = weekly_stock_prices_log[i]["close"].iloc[split_point:]
    mfe = actualValues.subtract(forecastedValues).mean()
    mae = (abs(mfe)/forecastedValues).mean()
    display("Mean Absolute Error for "+i+": "+str(mae))
    display("Mean Forecast Error for "+i+": "+str(mfe))
    print "-----"*50
    count += 1
    if count > 10:
        break

'Mean Absolute Error for AGN: 0.00193187347291'
'Mean Forecast Error for AGN: 0.481341889454'

-------------------------------------------------

'Mean Absolute Error for EOG: 0.0798100720231'
'Mean Forecast Error for EOG: 6.73902186871'

-------------------------------------------------

'Mean Absolute Error for CPB: 0.00893546704868'
'Mean Forecast Error for CPB: 0.54092487694'

-------------------------------------------------

'Mean Absolute Error for EVHC: 0.143090575838'
'Mean Forecast Error for EVHC: -3.51053172619'

-------------------------------------------------

'Mean Absolute Error for IDXX: 0.0264690184111'
'Mean Forecast Error for IDXX: 2.85600695121'

-------------------------------------------------

'Mean Absolute Error for QRVO: 0.100785079934'
'Mean Forecast Error for QRVO: -5.95620693487'

-------------------------------------------------

'Mean Absolute Error for JWN: 0.158397127455'
'Mean Forecast Error for JWN: 6.89272442754'

-------------------------------------------------

'Mean Absolute Error for JBHT: 0.0206382415512''Mean Forecast Error for JBHT: 1.66385893237'-------------------------------------------------

'Mean Absolute Error for TAP: 0.0115749676383'
'Mean Forecast Error for TAP: 1.14684278635'

-------------------------------------------------

'Mean Absolute Error for VRTX: 0.0246045992625'
'Mean Forecast Error for VRTX: 2.4170609498'

-------------------------------------------------

'Mean Absolute Error for BWA: 0.0334229670671'
'Mean Forecast Error for BWA: 1.09813003018'

-------------------------------------------------

平均绝对误差值约等于0表明时间序列模型具有良好的预测精度。

使用预测数据增强初始数据集

创建新的列来存储预测的股票价格，计算一个百分比度量来估计公司股票的上涨或下跌，进而估计组织的增长，以便在所有组织中保持一个公平的范围。

nyse_data["stock_pred"] = np.nan
for i in stock_predictions:
    perc=(stock_predictions[i]["prediction"].tail(105).mean() - stock_predictions[i]["prediction"].tail(105)[0])/stock_predictions[i]["prediction"].tail(105)[0]
    nyse_data.loc[nyse_data["ticker_symbol"] == i, "stock_pred"] = perc

将预计的破产价值加到预计的股价中，生成一个能有效代表公司成长或衰退的复合标签。从数据集中删除不必要的和非数字列，以方便建模。

nyse_data["stock_pred"] += nyse_data["stability"]

nyse_data.drop(["period_ending", "stability", "ticker_symbol"], axis=1, inplace=True)
nyse_data.dropna(axis=0, subset=["stock_pred"], inplace=True)

缩放数据集的特性。

nyse_data_scaled = nyse_data.iloc[:,0:-1]
scaler = pp.StandardScaler()
nyse_data_scaled[nyse_data_scaled.columns] = scaler.fit_transform(nyse_data_scaled[nyse_data_scaled.columns])

将目标变量缩放到值-1和1之间，四舍五入到最近的第十位，并乘以10，以生成一个非连续的多值标签。

scaler = pp.MinMaxScaler(feature_range=(-1,1))
nyse_data_target_scaled = scaler.fit_transform(nyse_data.iloc[:,-1].reshape(-1,1)).round(decimals=1) * 10

将增强数据集分割为训练集和测试集，用于训练分类器。

train_data, test_data, train_target, test_target = train_test_split(nyse_data_scaled, nyse_data_target_scaled, test_size=0.25)

训练随机森林分类器。

RF = RandomForestClassifier()
RF.fit(train_data, train_target)

model_predictions = RF.predict(test_data)

print("Training:-->",train_data.shape, RF.score(train_data, train_target))
print("Testing:-->",test_data.shape, RF.score(test_data, test_target))

('Training:-->', (334, 34), 0.98502994011976053)
('Testing:-->', (112, 34), 0.7410714285714286)

分析随机森林模型发现的特征，使其与增强标签高度相关。观察数值相关性。

top_features = np.argsort(RF.feature_importances_[-5:])
top_features = np.append(top_features, -1)
display(nyse_data.iloc[:, top_features].corr())

生成一个混淆矩阵并计算Matthews相关系数作为训练的随机森林分类器的评估指标。

display("CONFUSION MATRIX: ",metrics.confusion_matrix(test_target, model_predictions))
display("MATTHEWS CORRELATION CO-EFFICIENT", metrics.matthews_corrcoef(test_target, model_predictions))

'CONFUSION MATRIX: '

array([[ 1,  4,  0,  0,  0,  0,  0,  0,  0],
       [ 2, 17,  0,  0,  0,  0,  0,  0,  0],
       [ 1,  1,  0,  0,  0,  0,  0,  0,  0],
       [ 0,  1,  0,  0,  0,  0,  0,  0,  0],
       [ 0,  0,  0,  0,  0,  4,  0,  0,  0],
       [ 0,  0,  0,  0,  0, 64,  3,  0,  0],
       [ 0,  1,  0,  0,  0,  7,  1,  0,  0],
       [ 0,  0,  0,  0,  0,  3,  1,  0,  0],
       [ 0,  0,  0,  0,  0,  0,  1,  0,  0]])
       
'MATTHEWS CORRELATION CO-EFFICIENT'
0.53348354519442676

往期精彩回顾




适合初学者入门人工智能的路线及资料下载机器学习及深度学习笔记等资料打印机器学习在线手册深度学习笔记专辑《统计学习方法》的代码复现专辑
AI基础下载黄海广老师《机器学习课程》视频课黄海广老师《机器学习课程》711页完整版课件

本站qq群955171419，加入微信群请扫码：

你可能感兴趣的:(python,机器学习,人工智能,数据分析,深度学习)

如何使用 Python 进行文件读写操作？大G哥 python 前端 linux 数据库开发语言
大家好，我是V哥。今天的内容来介绍Python中进行文件读写操作的方法，这在学习Python时是必不可少的技术点，希望可以帮助到正在学习python的小伙伴。以下是Python中进行文件读写操作的基本方法：一、文件读取：#打开文件withopen('example.txt','r')asfile:#读取文件的全部内容content=file.read()print(content)#将文件指针重置
进入大模型时代，你真的准备好了吗？鹏哥聊AI 人工智能
前言-PREFACE近期OpenAIo1系列模型发布，在面对复杂问题和专业领域上，有了大幅长足进步，对于博士水平的物理问题，GPT-4o只能得不及格的59.5分，而o1直接干到92.8分，虽然主要是科学、编码和数学模型专业能力方面的提升，还没达到人工智能的通用人工智能AGI和超级人工智能水平，但带来冲击力和震撼还是挺强的，试想一下，拥有一个Openo1的模型，就相当于在数学、物理、编码等方面有博士
使用SolarChat实现中英韩翻译的实战指南 azzxcvhj python
在这篇文章中，我们将探索如何利用SolarChat这一强大的聊天模型来实现中英韩翻译功能。SolarChat是一个方便的语言模型接口，能够帮助我们将自然语言处理任务集成到项目中。本文将详细介绍这个模型的核心原理，并通过示例代码展示如何使用它进行翻译。技术背景介绍随着人工智能的发展，语言模型在各种自然语言处理任务中扮演了重要角色。特别是在翻译、对话生成等领域，先进的语言模型如SolarChat为我们
python数据处理的全流程若木胡 tools python 开发语言
Python数据处理全流程一、数据收集（一）从文件中读取数据读取文本文件CSV文件（逗号分隔值）CSV文件是一种常见的简单数据存储格式，使用逗号来分隔数据值。Python中的csv模块可以方便地读取和写入CSV文件。例如，读取一个简单的CSV文件，其中包含姓名和年龄两列数据：importcsvdata=[]withopen('example.csv','r')asfile:reader=csv.r
自动检测和机器审核系统实现 ╰つ゛木槿 java easyui javascript python java 自然语言处理
目录一、自动检测和机器审核实现步骤1.文本预处理步骤细节：2.关键词检测步骤细节：3.情感分析与情境理解步骤细节：4.机器学习模型训练步骤细节：5.深度学习模型步骤细节：6.多模态审查步骤细节：7.用户行为分析与违规预测步骤细节：总结二、常用的分词工具1.jieba2.THULAC3.HanLP4.SnowNLP5.LAC（LexicalAnalysisofChinese）6.PyLDAvis（结
Python的输入函数input() 蜗牛_Chenpangzi Python学习笔记总集 python 字符串编程语言
前言此篇文章是我在B站学习时所做的笔记，部分为亲自动手演示过的，方便复习用。此篇文章仅供学习参考。提示：以下是本篇文章正文内容，下面案例可供参考input函数input函数的基本使用#输入函数inputpresent=input('大圣想要什么礼物呢?')print(present,
python multiprocessing模块_Python multiprocessing模块 weixin_39646084 python
一、简介python多线程有个讨厌的限制，全局解释器锁(globalinterpreterlock)，这个锁的意思是任一时间只能有一个线程使用解释器，跟单cpu跑多个程序一个意思，大家都是轮着用的，这叫“并发”，不是“并行”。手册上的解释是为了保证对象模型的正确性！这个锁造成的困扰是如果有一个计算密集型的线程占着cpu，其他的线程都得等着....，试想你的多个线程中有这么一个线程，得多悲剧，多线程
python自动化扫描，多线程枚举获取wifi信息，让你走在任何一个地方都能上网代码讲故事深耕技术之源 python 自动化扫描无线网络网络连接
python自动化扫描，多线程枚举获取wifi信息，让你走在任何一个地方都能上网。无线网络在无线局域网的范畴是指“无线相容性认证”，实质上是一种商业认证，同时也是一种无线联网技术，以前通过网线连接电脑，而Wi-Fi则是通过无线电波来连网；常见的就是一个无线路由器，那么在这个无线路由器的电波覆盖的有效范围都可以采用Wi-Fi连接方式进行联网，如果无线路由器连接了一条ADSL线路或者别的上网线路，则又
【分享】一个查看无线网络密钥的小方法（查看 WiFi密码，热点密码）| 区块链面试题：区块链技术中，如何保证交易的匿名性和隐私性？| 公钥加密，数字签名，零知识证明追光者♂ 工具技巧解决办法百题千解计划(项目实战案例）网络 wlan 热点密码 WiFi密码区块链面试 WiFi
“你不是我，你不会懂。”作者主页：追光者♂个人简介：[1]计算机专业硕士研究生[2]2023年城市之星领跑者TOP1(哈尔滨)[3]2022年度博客之星人工智能领域TOP4[4]阿里云社区特邀专家博主[5]CSDN-人工智能领域优质创作者无限进步，一起追光！！！感谢大家点赞收藏⭐留言！！！目录一、基础回顾步骤1、win+R:cmd，进入Dos命令窗口
潇洒郎： Python获取设备已连接的所有WIFi账号和密码潇洒郎 Python学习 python WiFi账号和密码
Python获取设备已连接的所有WIFi账号和密码如果你忘记了密码，可以使用这个脚本获取，不要使用非法用途哦！#coding=utf8#User:Administrator#Date:2024/11/5#Time:13:02importsubprocessimportjsondefsub_cmd(cmd):res=subprocess.getoutput(cmd)returnresdefget_a
一.组合数据类型：列表 muxue178 python 开发语言
1.下标下标从零开始name_list=['python','php','java']print(name_list)print(name_list[0])print(name_list[2])运行结果['python','php','java']pythonjava2.查找函数index()count()len()1.index()name_list=['zhangsan','lisi','wa
第19篇：python高级编程进阶：使用Flask进行Web开发猿享天开 python从入门到精通 python 开发语言
第19篇：python高级编程进阶：使用Flask进行Web开发内容简介在第18篇文章中，我们介绍了Web开发的基础知识，并使用Flask框架构建了一个简单的Web应用。本篇文章将深入探讨Flask的高级功能，涵盖模板引擎（Jinja2）、表单处理、数据库集成以及用户认证等主题。通过系统的讲解和实战案例，您将掌握构建功能更为丰富和复杂的Web应用所需的技能。目录Flask的深入使用Flask扩展蓝
第18篇：python高级编程进阶：Web开发基础详解猿享天开 python从入门到精通 python 开发语言
第18篇：Web开发基础内容简介本篇文章将为您介绍Web开发基础的核心概念和实用技能。您将了解Web开发的基本概念和流程，掌握HTTP协议的基础知识，学习如何使用Flask框架构建简单的Web应用，并深入理解路由与视图函数的工作原理。通过丰富的代码示例和实战案例，您将能够快速入门Web开发，搭建自己的第一个Web应用。目录Web开发概述什么是Web开发前端与后端开发Web开发的技术栈HTTP协议基
大数据学习（七）Python3操作livy（使用pylivy模块）猪笨是念来过倒大数据大数据 python
Livy是一个用于与Spark交互的开源REST接口。pylivy是Livy的Python客户端，可以在Spark集群上轻松实现远程代码执行。安装$pipinstall-Ulivy请注意，pylivy需要Python3.6或更高版本。用法所述LivySession类的主界面提供由pylivy：from
python multiprocessing iteye_20379 python
importmultiprocessingimportmathdeffactorize_naive(n):"""Anaivefactorizationmethod.Takeinteger'n',returnlistoffactors."""ifn=n:factors.append(n)returnfactorselifp>2:#Advanceinstepsof2overoddnumbersp+=2
Python进阶—高级语法 Echo.py Python基础语法 python 开发语言
目录文章目录目录1、在==和is之间选择2、元组的相对不可变性3、字典中的键映射多个值4、Linux5、python中字典的key要求6、编码7、进制之间的转换8、关系运算符(时间处理)9、时间处理模块❶常用时间处理方法❷转化为13位时间戳10、三元运算符11、成员运算符12、For循环机制13、变量的分类14、闭包(函数的嵌套)15、函数(方法)的执行流程16、匿名函数17、Django和Fla
对本地部署的ChatGLM模型进行API调用 BBluster LLM python 开发语言语言模型
ChatGLM作为一个小参数模型，给予了我们在本地部署LLM的条件，接下来我将展示如何使用python对本地部署的ChatGLM模型进行API调用对于如何部署本地ChatGLM模型我们可以访问本地化部署大语言模型ChatGLM接下来我首先分享api调用的测试代码：importtimeimportrequests#测试GPU运行是否成功deftest_function_1():importtorch
Traceback包【持续更新】 BBluster python python
Traceback包简介traceback是Python标准库中的一个模块，它提供了一组用于提取、格式化和打印程序执行过程中的堆栈跟踪信息的工具。当程序发生异常且未被捕获时，Python会自动生成一个堆栈跟踪，显示出错的位置和调用栈。这有助于开发者理解和调试程序中出现的问题。主要功能当程序发生异常时，traceback模块可以用来捕获和格式化相关的堆栈信息。这有助于开发者快速定位问题所在。格式化的
Python timeit的使用 egzosn python 开发语言
假设您要测量代码段的执行时间。你是做什么？直到现在，我就像大多数人一样会做以下事情：登录后复制#导入时间start_time=time.time()"""某些代码"""end_time=time.time()print(f“执行时间为：{end_time-start_time}”)1.2.3.4.5.现在说我们要比较两个不同函数的执行时间，然后：登录后复制#导入时间deffunction_1(*参
Python多进程 multiprocessing 培之编程语言 python 机器学习开发语言
在大数据时代，Python已经成为最受追捧的语言。在本文中，让我们专注于Python的一个特定方面，它使其成为最强大的编程语言之一——Multi-Processing。在阅读本文之前，我建议您阅读我之前关于Python中的线程的文章，因为它可以为当前文章提供更好的上下文。多进程是什么？假设你是一名小学生，你的作业是让1200对数字相乘，这让你感到麻木。假设您能够在3秒内将一对数字相乘。那么总共需要
Python 并发 multiprocessing-Process lainegates python Python multiprocess
＊multiprocessing支持子进程、通信和共享数据、执行不同形式的同步。＊Process创建进程的类：Process([group[,target[,name[,args[,kwargs]]]]])，target表示调用对象，args表示调用对象的位置参数元组。kwargs表示调用对象的字典。Name为别名。Group实质上不使用。方法有：is_alive()、.join([timeout
python+playwright自动化测试(四)：元素操作(键盘鼠标事件)、文件上传觅远 python 自动化测试爬虫 python 自动化
目录鼠标事件悬停移动按键点击滚轮操作拖拽键盘事件输入文本内容type输入内容fill输入内容按键操作press文件上传下拉选/单选框/复选框滚动条操作鼠标事件悬停page.get_by_text('设置',exact=True).nth(1).hover()移动page.mouse.move(x=33,y=50)按键#点击操作可设置button参数，选择点击键["left","middle","r
Flask --（2）Flask 框架的诞生 feiyy404 flask
Flask诞生于2010年，是Arminronacher（人名）用Python语言基于Werkzeug工具箱编写的轻量级Web开发框架。Flask本身相当于一个内核，其他几乎所有的功能都要用到扩展（邮件扩展Flask-Mail，用户认证Flask-Login），都需要用第三方的扩展来实现。比如可以用Flask-extension加入ORM、窗体验证工具，文件上传、身份验证等。Flask没有默认使用
LangServe：快速部署和运行LangChain的实用指南 AWsggdrg langchain python
LangServe：快速部署和运行LangChain的实用指南在AI应用开发领域，LangServe为开发者提供了便利的方式，将LangChain的运行单元和链路部署为RESTAPI。本文将通过技术解析和实战示例，带您深入了解LangServe的强大功能和应用场景。1.技术背景介绍LangServe是一个基于Python的库，整合了FastAPI和Pydantic技术，用于将LangChain的运
华为OD机试E卷 --矩形相交的面积--24年OD统一考试（Java & JS & Python & C & C++）飞码创造者最新华为OD机试题库2024 华为od java javascript python js c语言
文章目录题目描述输入描述输出描述用例题目解析JS算法源码Java算法源码python算法源码题目描述给出3组点坐标(x，y,w,h)，-1000
第17篇：python进阶：详解数据分析与处理猿享天开 python从入门到精通 python 开发语言
第17篇：数据分析与处理内容简介本篇文章将深入探讨数据分析与处理在Python中的应用。您将学习如何使用pandas库进行数据清洗与分析，掌握matplotlib和seaborn库进行数据可视化，以及处理大型数据集的技巧。通过丰富的代码示例和实战案例，您将能够高效地进行数据处理、分析和可视化，为数据驱动的决策提供有力支持。目录数据分析与处理概述什么是数据分析与处理数据分析的流程使用pandas进行
深入解析 Python Flask: 架构、应用与实现实例汪子熙 Python python flask 架构
Flask是Python生态圈中的一个重要Web框架。它之所以被广泛使用，得益于其轻量、模块化和易于扩展的特点。本文将通过逐步解析PythonFlask的定义、架构、典型应用场景、核心功能模块，以及通过具体实例来展示如何使用Flask构建一个完整的Web应用。每个章节都将带领你深入理解Flask的各个方面，从而为你掌握这门强大工具提供坚实的理论和实践基础。什么是Flask？Flask是一个基于Py
千万年薪招揽AI大牛！罗福莉加盟小米，将如何改变其大模型战略？前端
近年来，人工智能(AI)领域发展迅速，其中大模型技术的突破更是引领着新一轮科技浪潮。AI代码生成器作为AI技术的重要应用，也正逐渐改变着软件开发的模式。1月18日，一则重磅消息震惊业界：DeepSeek开源大模型DeepSeek-V2的关键开发者之一罗福莉将加入小米，并可能领导小米大模型团队，年薪高达千万级别。这一举动不仅体现了小米对AI大模型技术的重视，也预示着小米在大模型领域的战略布局将迎来新
Python异步: 什么时候使用异步？后端python
从广义上讲，Asyncio是新的、流行的、讨论广泛的和令人兴奋的。然而，对于何时应该在项目中采用它存在很多困惑。我们什么时候应该在Python中使用asyncio？在Python中使用Asyncio的原因在Python项目中使用asyncio可能有3个原因：使用asyncio以便在您的程序中采用协程。使用asyncio以使用异步编程范例。使用asyncio以使用非阻塞I/O。1.1.使用协程我们可
Python 常用运维模块之OS模块篇阿俊仔（摸鱼版） python学习系列 python 运维开发语言云服务器
Python常用运维模块之OS模块篇OS模块获取当前工作目录更改当前工作目录返回当前目录路径返回上一级目录路径递归生成目录路径删除目录创建目录删除目录列出特定目录下文件和子目录删除某个特定文件重命名某个文件获取某个文件/目录的信息输出目录路径分隔符输出文件行终止符输出用于分隔文件路径的字符串输出当前操作系统的名称获取当前系统的环境变量判断是否有权限执行操作修改文件的权限修改文件的属主和属组创建软连
mysql主从数据同步林鹤霄 mysql主从数据同步
配置mysql5.5主从服务器(转) 教程开始：一、安装MySQL 说明：在两台MySQL服务器192.168.21.169和192.168.21.168上分别进行如下操作，安装MySQL 5.5.22 二、配置MySQL主服务器（192.168.21.169）mysql -uroot -p &nb
oracle学习笔记 caoyong oracle
1、ORACLE的安装 a>、ORACLE的版本 8i,9i : i是internet 10g,11g : grid (网格) 12c : cloud (云计算) b>、10g不支持win7 &
数据库，SQL零基础入门天子之骄 sql 数据库入门基本术语
数据库，SQL零基础入门做网站肯定离不开数据库，本人之前没怎么具体接触SQL，这几天起早贪黑得各种入门，恶补脑洞。一些具体的知识点，可以让小白不再迷茫的术语，拿来与大家分享。数据库，永久数据的一个或多个大型结构化集合，通常与更新和查询数据的软件相关
pom.xml 一炮送你回车库 pom.xml
1、一级元素dependencies是可以被子项目继承的 2、一级元素dependencyManagement是定义该项目群里jar包版本号的，通常和一级元素properties一起使用，既然有继承，也肯定有一级元素modules来定义子元素 3、父项目里的一级元素<modules> <module>lcas-admin-war</module> <
sql查地区省市县 3213213333332132 sql mysql
-- db_yhm_city SELECT * FROM db_yhm_city WHERE class_parent_id = 1 -- 海南 class_id = 9 港、奥、台 class_id = 33、34、35 SELECT * FROM db_yhm_city WHERE class_parent_id =169 SELECT d1.cla
关于监听器那些让人头疼的事宝剑锋梅花香画图板监听器鼠标监听器
本人初学JAVA，对于界面开发我只能说有点蛋疼，用JAVA来做界面的话确实需要一定的耐心（不使用插件，就算使用插件的话也没好多少）既然Java提供了界面开发，老师又要求做，只能硬着头皮上啦。但是监听器还真是个难懂的地方，我是上了几次课才略微搞懂了些。
JAVA的遍历MAP darkranger map
Java Map遍历方式的选择 1. 阐述　　对于Java中Map的遍历方式，很多文章都推荐使用entrySet，认为其比keySet的效率高很多。理由是：entrySet方法一次拿到所有key和value的集合；而keySet拿到的只是key的集合，针对每个key，都要去Map中额外查找一次value，从而降低了总体效率。那么实际情况如何呢？　　为了解遍历性能的真实差距，包括在遍历ke
POJ 2312 Battle City 优先多列+bfs aijuans 搜索
来源：http://poj.org/problem?id=2312 题意：题目背景就是小时候玩的坦克大战，求从起点到终点最少需要多少步。已知S和R是不能走得，E是空的，可以走，B是砖，只有打掉后才可以通过。思路：很容易看出来这是一道广搜的题目，但是因为走E和走B所需要的时间不一样，因此不能用普通的队列存点。因为对于走B来说，要先打掉砖才能通过，所以我们可以理解为走B需要两步，而走E是指需要1
Hibernate与Jpa的关系，终于弄懂 avords java Hibernate 数据库 jpa
我知道Jpa是一种规范，而Hibernate是它的一种实现。除了Hibernate，还有EclipseLink(曾经的toplink)，OpenJPA等可供选择，所以使用Jpa的一个好处是，可以更换实现而不必改动太多代码。在play中定义Model时，使用的是jpa的annotations，比如javax.persistence.Entity, Table, Column, OneToMany
酸爽的console.log bee1314 console
在前端的开发中，console.log那是开发必备啊，简直直观。通过写小函数，组合大功能。更容易测试。但是在打版本时，就要删除console.log，打完版本进入开发状态又要添加，真不够爽。重复劳动太多。所以可以做些简单地封装，方便开发和上线。 /** * log.js hufeng * The safe wrapper for `console.xxx` functions *
哈佛教授：穷人和过于忙碌的人有一个共同思维特质 bijian1013 时间管理励志人生穷人过于忙碌
一个跨学科团队今年完成了一项对资源稀缺状况下人的思维方式的研究，结论是：穷人和过于忙碌的人有一个共同思维特质，即注意力被稀缺资源过分占据，引起认知和判断力的全面下降。这项研究是心理学、行为经济学和政策研究学者协作的典范。　　这个研究源于穆来纳森对自己拖延症的憎恨。他7岁从印度移民美国，很快就如鱼得水，哈佛毕业
other operate 征客丶 OS osx
一、Mac Finder 设置排序方式，预览栏在显示－》查看显示选项中二、有时预览显示时，卡死在那，有可能是一些临时文件夹被删除了，如：/private/tmp[有待验证] -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一
【Scala五】分析Spark源代码总结的Scala语法三 bit1129 scala
1. If语句作为表达式 val properties = if (jobIdToActiveJob.contains(jobId)) { jobIdToActiveJob(stage.jobId).properties } else { // this stage will be assigned to "default" po
ZooKeeper 入门 BlueSkator 中间件 zk
ZooKeeper是一个高可用的分布式数据管理与系统协调框架。基于对Paxos算法的实现，使该框架保证了分布式环境中数据的强一致性，也正是基于这样的特性，使得ZooKeeper解决很多分布式问题。网上对ZK的应用场景也有不少介绍，本文将结合作者身边的项目例子，系统地对ZK的应用场景进行一个分门归类的介绍。值得注意的是，ZK并非天生就是为这些应用场景设计的，都是后来众多开发者根据其框架的特性，利
MySQL取得当前时间的函数是什么格式化日期的函数是什么 BreakingBad mysql Date
取得当前时间用 now() 就行。在数据库中格式化时间用DATE_FORMA T(date, format) . 根据格式串format 格式化日期或日期和时间值date，返回结果串。可用DATE_FORMAT( ) 来格式化DATE 或DATETIME 值，以便得到所希望的格式。根据format字符串格式化date值: %S, %s 两位数字形式的秒（ 00,01,
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
4_JAVA+Oracle面试题(有答案) chenke oracle
基础测试题卷面上不能出现任何的涂写文字，所有的答案要求写在答题纸上，考卷不得带走。选择题 1、 What will happen when you attempt to compile and run the following code? （3） public class Static { static { int x = 5; // 在static内有效 } st
新一代工作流系统设计目标 comsci 工作算法脚本
用户只需要给工作流系统制定若干个需求，流程系统根据需求，并结合事先输入的组织机构和权限结构，调用若干算法，在流程展示版面上面显示出系统自动生成的流程图，然后由用户根据实际情况对该流程图进行微调，直到满意为止，流程在运行过程中，系统和用户可以根据情况对流程进行实时的调整，包括拓扑结构的调整，权限的调整，内置脚本的调整。。。。。在这个设计中，最难的地方是系统根据什么来生成流
oracle 行链接与行迁移 daizj oracle 行迁移
表里的一行对于一个数据块太大的情况有二种(一行在一个数据块里放不下) 第一种情况: INSERT的时候，INSERT时候行的大小就超一个块的大小。Oracle把这行的数据存储在一连串的数据块里(Oracle Stores the data for the row in a chain of data blocks)，这种情况称为行链接(Row Chain)，一般不可避免(除非使用更大的数据
[JShop]开源电子商务系统jshop的系统缓存实现 dinguangx jshop 电子商务
前言 jeeshop中通过SystemManager管理了大量的缓存数据，来提升系统的性能，但这些缓存数据全部都是存放于内存中的，无法满足特定场景的数据更新（如集群环境）。JShop对jeeshop的缓存机制进行了扩展，提供CacheProvider来辅助SystemManager管理这些缓存数据，通过CacheProvider,可以把缓存存放在内存,ehcache,redis，memcache
初三全学年难记忆单词 dcj3sjt126com english word
several 儿子；若干 shelf 架子 knowledge 知识；学问 librarian 图书管理员 abroad 到国外，在国外 surf 冲浪 wave 浪；波浪 twice 两次；两倍 describe 描写；叙述 especially 特别；尤其 attract 吸引 prize 奖品；奖赏 competition 比赛；竞争 event 大事；事件 O
sphinx实践 dcj3sjt126com sphinx
安装参考地址:http://briansnelson.com/How_to_install_Sphinx_on_Centos_Server yum install sphinx 如果失败的话使用下面的方式安装 wget http://sphinxsearch.com/files/sphinx-2.2.9-1.rhel6.x86_64.rpm yum loca
JPA之JPQL（三） frank1234 orm jpa JPQL
1 什么是JPQL JPQL是Java Persistence Query Language的简称，可以看成是JPA中的HQL， JPQL支持各种复杂查询。 2 检索单个对象 @Test public void querySingleObject1() { Query query = em.createQuery("sele
Remove Duplicates from Sorted Array II hcx2013 remove
Follow up for "Remove Duplicates":What if duplicates are allowed at most twice? For example,Given sorted array nums = [1,1,1,2,2,3], Your function should return length
Spring4新特性——Groovy Bean定义DSL jinnianshilongnian spring 4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装Mysql5.5 liuxingguome centos
CentOS下以RPM方式安装MySQL5.5 首先卸载系统自带Mysql： yum remove mysql mysql-server mysql-libs compat-mysql51 rm -rf /var/lib/mysql rm /etc/my.cnf 查看是否还有mysql软件： rpm -qa|grep mysql 去http://dev.mysql.c
第14章工具函数（下） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
POJ 1050 SaraWon 二维数组子矩阵最大和
POJ ACM第1050题的详细描述，请参照 http://acm.pku.edu.cn/JudgeOnline/problem?id=1050 题目意思：给定包含有正负整型的二维数组，找出所有子矩阵的和的最大值。如二维数组 0 -2 -7 0 9 2 -6 2 -4 1 -4 1 -1 8 0 -2 中和最大的子矩阵是 9 2 -4 1 -1 8 且最大和是15
Java8全新打造，英语学习supertool yangshangchuan java superword 闭包 java8 函数式编程
superword是一个Java实现的英文单词分析软件，主要研究英语单词音近形似转化规律、前缀后缀规律、词之间的相似性规律等等。Clean code、Fluent style、Java8 feature: Lambdas, Streams and Functional-style Programming。升学考试、工作求职、充电提高，都少不了英语的身影，英语对我们来说实在太重要