Avasla

银行贷款预测模型项目（Loan Prediction)（上）

项目背景

在房贷审批流程中，银行需要考虑贷款申请人的各种信息，比如家庭情况、经济情况、房子情况等等，经过综合分析这些因素后决定是否要贷款给申请人，即审批通过还是拒绝。

在大部分情况下，只需要一些基本的信息便可以大致判断申请人是否符合放贷资格。银行希望希望能够根据客户提供的详细信息（在线上填写申请表格），自动化贷款资格审批流程，并且将结果实时反馈给客户。

问题：贷款申请否通过？
这是一个生活中非常常见的二分类问题，基本上所有的银行每天都在处理这个问题，如果可以将这个过程自动化，便可一大大减少人力和时间成本。

建立假设（Hypothesis Generation）

很多项目流程都忽略了这一步，但是建立基本的假设更便于之后确定处理和分析数据资料的方向、范围。针对项目的问题：贷款申请是通过还是拒绝？ 需要考虑是什么因素对贷款有影响。这里，因变量（Y）是贷款；自变量（X）是各种对贷款有影响的因素。

这里按照我们的对于放贷的理解，作出几点假设：
1）工资：工资越高，贷款更容易通过；
2）贷款期限和金额：贷款期限越短、金额越少的越容易通过；
3）EMI：monthly incom 还贷额占月收入比例,占比越低越容易通过；
4）贷款历史：已偿清之前贷款的申请人，贷款通过的机率更大。

数据探索性分析 EDA

1. 了解数据（Understand the Data）

#导入模块包
import pandas as pd 
import numpy as np                     # For mathematical calculations 
import seaborn as sns                  # For data visualization 
import matplotlib.pyplot as plt        # For plotting graphs 
%matplotlib inline 
import warnings                        # To ignore any warnings warnings.filterwarnings("ignore")

#读取数据
#Reading Data
train=pd.read_csv('train_ctrUa4K.csv')
test=pd.read_csv('test-file.csv')

#make a copy
train_original = train.copy()
test_original=test.copy()

#查看两个数据集有什么数据特征
print(train.columns)  #check the columns:Train.data has 'Loan_Status'
print(test.columns) 

# Print data types for each variable train.dtypes
print(train.dtypes)

print(train.shape)
print(test.shape)  #We have 614 rows and 13 columns in the train dataset and 367 rows and 12 columns in test dataset.

训练集Train 一共有614行，13列； Test测试集是367行，12列。其中，训练集中每一列内容如下：

特征名称	数据格式	特征含义
Loan_ID	object	贷款ID
Gender	object	性别
Married	object	婚姻情况
Dependents	object	赡养人数
Education	object	教育情况
Self_Employed	object	是否自雇人士
ApplicantIncome	int64	申请人收入
CoapplicantIncome	float64	共同申请人收入
LoanAmount	float64	贷款金额
Loan_Amount_Term	float64	贷款期限
Credit_History	float64	信用记录
Property_Area	object	所在区域
Loan_Status	object	贷款状况

2. 单变量分析（Univariate Analysis）

2.1 目标变量

首先需要了解目标变量，贷款情况（通过还是拒绝）。由于这是个分类变量，因此分析方法采取计算频率、百分比和柱状图。

#univariate Analysis
print(train['Loan_Status'].value_counts())
# Normalize can be set to True to print proportions instead of number
print(train['Loan_Status'].value_counts(normalize=True))
train['Loan_Status'].value_counts().plot.bar()

422个申请人，约70%的贷款申请都是通过的。

2.2 自变量（Independent Variable）

了解完目标变量，我们接着分析其他的数据特征。
数据特征可以分成三类：分类特征、序数特征、数值特征：
关于各类数值的分析方法,可参考另一个笔记关于EDA的总结

2.2.1 分类特征（Categorical Features)

#Independent Variable (Categorical)
plt.figure(1)
plt.subplot(221)
train['Gender'].value_counts(normalize=True).plot.bar(figsize=(10,8), title= 'Gender')
plt.subplot(222)
train['Married'].value_counts(normalize=True).plot.bar(title= 'Married')
plt.subplot(223)
train['Self_Employed'].value_counts(normalize=True).plot.bar(title= 'Self_Employed')
plt.subplot(224)
train['Credit_History'].value_counts(normalize=True).plot.bar(title= 'Credit_History')
plt.show()

-四个分类特征的柱状图可见：

近80%的申请人是男性，
大约65%的申请人是已婚；
15%是自雇人士
85%的申请人有信用记录。

2.2.2 序数特征（Ordinal features:）

序数特征是分类特征中有一定顺序/规律的特征，比如教育程度，家庭人数等，所在区域等。

#ordinary 
plt.figure(1)
plt.subplot(131)
train['Dependents'].value_counts(normalize=True).plot.bar(figsize=(20,5), title= 'Dependents')
plt.subplot(132)
train['Education'].value_counts(normalize=True).plot.bar(title= 'Education')
plt.subplot(133)
train['Property_Area'].value_counts(normalize=True).plot.bar(title= 'Property_Area')
plt.show()

train['Loan_Amount_Term'].value_counts(normalize=True).plot.bar(figsize=(10,5), title= 'Loan_Amount_Term)

大部分的申请人赡养人数为0，即没有需要他们提供生活资金的人；
大约80%的申请人是大学毕业生；
绝大部分的申请贷款的房产位于自半城市地区；
80%的贷款期限都是30年，不足10%的是15年。

2.2.3 数值特征

在案例中，有三个重要的数值型变量特征：申请人收入ApplicantIncome, 共同申请人收入CoapplicantIncome, 贷款金额LoanAmount；可以使用直方图和箱型图分析数值特征的分布情况。

# Numerical Variable （这只列一个ApplicantIncome，另外两个（CoapplicantIncome, LoanAmount）也是一样的。
plt.figure(1) 
plt.subplot(121) 
sns.distplot(train['ApplicantIncome']); 
plt.subplot(122) 
train['ApplicantIncome'].plot.box(figsize=(16,5)) 
plt.show()

申请人收入ApplicantIncome:
从直方图可以看到整体分布是左偏的，并不符合正态分布，因此需要在后面一步中对数据做处理。
共同申请人收入CoapplicantIncome: 大部分共同申请的的收入在0-5000之间；和上面申请人收入的分布类似，也不是正态分布的，并且也有很多离散值。
贷款金额（Loan Amount): 贷款金额的分布接近于正太分布，但也有非常多的离散值。

3. 双/多变量分析（Bivariate Analysis)

回顾我们之前的假设：

高收入的申请人更高几率通过。
贷款金额越少越容易通过；
贷款期限越短越容易。

多变量分析方法可以根据特征的类型区分：数值特征之间、分类特征之间、分类特征和数值特征。

我们的目标是探索各种因素对目标变量（Loan_Status）的影响，在2.单变量分析里，我们了解了各类特征的基本情况，在多变量分析里，我们将这些特征和目标变量组合起来分析

3.1 分类特征&目标变量

使用堆积柱状图，直接将结果用百分比展示，查看各个分类特征对目标变量（Loan_Status）的影响。

#Target V & categorical V
Gender=pd.crosstab(train['Gender'],train['Loan_Status'])
Gender.div(Gender.sum(1).astype(float),axis=0).plot(kind='bar',stacked=True,figsize=(4,4))

已婚的申请人更容易获得通过；
赡养人数为1 或者3个以上的申请人，贷款通过率相似；
自雇和非自雇的申请人通过率相似；
有信用历史的人更容易获得贷款；
在半城市化区域的放贷申请，比农村和城市地区更容易通过；
大学毕业的申请人的通过率比没有毕业的要高。

3.2 数值特征&目标变量

对于数值型变量，最常用的分析方法是使用分类（Bin），比如将收入划分为低、中、高、超高四个类别，再画堆积图具体分析。这里分析的数值特征有：申请人/共同申请人的收入；贷款金额

申请人收入

#mean
train.groupby('Loan_Status')['ApplicantIncome'].mean().plot.bar()

从平均数上看，贷款被拒绝和通过的申请人的平均收入一致，
单看平均数还不能证明申请人的收入并不影响贷款结果，需要进一步用BIN分析。

#bin
bins=[0,2500,4000,6000,81000]
group=['Low','Average','High','Very High']
train['Income_bin']=pd.cut(train['ApplicantIncome'],bins,labels=group)

Income_bin=pd.crosstab(train['Income_bin'],train['Loan_Status'])
Income_bin.div(Income_bin.sum(1).astype(float),axis=0).plot(kind='bar',stacked=True)
plt.xlabel('ApplicantIncome')
P = plt.ylabel('Percentage')

这里将收入分成了低、平均、高和非常高四类，可以发现四类的通过率都是一致的，意味着申请的收入并不影响贷款审批，这与我们之前的假设：’收入越高越容果通过‘不一致。

共同申请人收入（coapplicant Income ）

同样的方法，将共同申请人的收入分成高中低三类。这里可以发现，共同申请人收入越低，反而更容易通过。这里与我们的经验常识不符。
这可能是因为许多申请人并没有共同申请人（共同申请人为0）所以在审批流程中，这些案例无需考虑共同申请人的收入。

因此，我们在这里引进一个新的特征（汇总收入），将申请人和共同申请人的收入加总，作为一个新的变量。

汇总收入（Total_Income)

# combine the Applicant Income and Coapplicant Income 
#and see the combined effect of Total Income on the Loan_Status.
train['Total_Income']=train['ApplicantIncome']+train['CoapplicantIncome']

引入新特征（汇总收入）之后，我们可以看到，相比平均、高和非常高三列，第一列‘低’明显通过率更低，被拒绝的可能性接近60%。总收入越低，贷款被拒绝的可能性越高。

贷款金额

使用相同的手段将贷款金额分成三组，图片展示的结果也和我们之前的假设一致，金额低的贷款更容易通过。第三列的蓝色部分（被拒绝）更高。

3.3 相关性

为了进一步比较各类特征的相关性，可以画热力图表示特征之间的相关性。由于很多模型（比如回归模型），只能处理数字，所以需要将文字类型的特征描述转换成数字：

首先，需要将有3个以上不同类别的特征，改成只有三个类别，并将转换成数值型；其次，需要把目标变量（Loan_status)的两个类别，转换成0和1。

train=train.drop(['Income_bin','Coapplicant_Income_bin','LoanAmount_bin','Total_Income_bin','Total_Income'],axis=1)

train['Dependents'].replace('3+',3,inplace=True)
test['Dependents'].replace('3+',3,inplace=True)
train['Loan_Status'].replace('N',0,inplace=True)
train['Loan_Status'].replace('Y',1,inplace=True)

#heat map
matrix=train.corr()
f, ax=plt.subplots(figsize=(9, 6))
sns.heatmap(matrix,vmax=.8,square=True,cmap='BuPu')

参考右边图例，颜色越深代表相关系数越接高。
相关性最高的变量是（申请人收入-贷款金额）和（贷款历史-贷款情况）
贷款金额与共同申请人的收入也具有一定的相关性

4.处理缺失值和异常值

4.1缺失值处理

列出所有特征缺失值个数
插补缺失值：
- 数值型变量特征使用中位数或者平均值
- 分类变量用众数插补
检查数据集是否还有缺失值

# 1. list out
print(train.isnull().sum())

性别、婚姻情况、亲属、是否自雇认识，贷款金额，贷款期限和贷款历史，这些特征都有缺失值。

# 2. fill the missing values:
train['Gender'].fillna(train['Gender'].mode()[0],inplace=True)
train['Married'].fillna(train['Married'].mode()[0],inplace=True)
train['Dependents'].fillna(train['Dependents'].mode()[0],inplace=True)
train['Self_Employed'].fillna(train['Self_Employed'].mode()[0],inplace=True)
train['Credit_History'].fillna(train['Credit_History'].mode()[0],inplace=True)

#  fill the missing values in Loan_Amount_Term
#print(train['Loan_Amount_Term'].value_counts()) #查看各种数据的次数统计
train['Loan_Amount_Term'].fillna(train['Loan_Amount_Term'].mode()[0], inplace=True)

# Numerical variable, use mean or median to impute the missing values.
train['LoanAmount'].fillna(train['LoanAmount'].median(), inplace=True)

根据每个特征的具体情况，采用不同的方法处理缺失值。

众数mode()
中位数 median()
平均数 mean()

# 3. check
train.isnull().sum()

#using the method to replace the test.file
test['Gender'].fillna(train['Gender'].mode()[0],inplace=True)
test['Married'].fillna(train['Married'].mode()[0],inplace=True)
test['Dependents'].fillna(train['Dependents'].mode()[0],inplace=True)
test['Self_Employed'].fillna(train['Self_Employed'].mode()[0],inplace=True)
test['Credit_History'].fillna(train['Credit_History'].mode()[0],inplace=True)
test['Loan_Amount_Term'].fillna(train['Loan_Amount_Term'].mode()[0],inplace=True)
test['LoanAmount'].fillna(train['LoanAmount'].median(),inplace=True)

最后检查是否处理完所有缺失值，同时测试集的缺失值也要用同样方法处理.

4.2 离散值处理

根据之前的分析，案例中的数值特征有非常大的离散值，导致整体分布偏斜。最基本的解决方法是用对数log。对数变换几乎对小的数值没什么影响，但可以将大的数值降低。经过对数变换后，就可以得到一个正态分布图。

####Outliner
train['LoanAmount_log']=np.log(train['LoanAmount'])
train['LoanAmount_log'].hist(bins=20)
test['LoanAmount_log']=np.log(test['LoanAmount'])

数据集经过分析和预处理，接下来就可以开始特征工程和建立模型。下篇链接

参考链接：Loan Prediction Practice Problem

3月TIOBE编程语言排行：Python稳居榜首，C++和Java市场份额稳步上升朱公子的Note 编程语言 python c++java TIOBE编程语言排行
TIOBE编程语言排行榜是一个基于全球程序员数量、课程数量和第三方供应商数量的指标，旨在反映编程语言的流行度。根据TIOBEIndex，它每月更新一次，计算方法基于搜索引擎（如Google、Bing、Wikipedia等）的查询结果，涵盖专业开发者的兴趣和需求。需要注意的是，TIOBE指数不代表“最佳”编程语言或代码量最多的语言，而是反映语言在开发者社区中的热度。2025年3月的排行榜特别提到Py
PyTorch模型训练实战指南：掌握动态图特性与工业级部署技巧 lmtealily pytorch 人工智能 python
前言在深度学习领域，PyTorch凭借其动态计算图、高效的自动微分系统及高度Pythonic的设计哲学，已成为学术界与工业界的主流框架。其即时执行模式大幅简化了模型调试流程，而灵活的模块化设计则为复杂模型的构建提供了坚实基础。然而，从实验原型到工业级部署的全链路实践中，开发者仍需系统性掌握框架核心特性与工程化技巧。本文以实战为导向，深入剖析PyTorch动态图机制与自动微分原理，详解从数据预处理、
Python第六章03：列表的常用操作苹果.Python.八宝粥 python windows 开发语言
#列表的常用操作"""如:定义、下标索引获取数据、插入元素、删除元素、清空列表、修改元素、统计修改元素个数在Python中，如果将函数定义为class的成员，那么函数称为方法函数：defadd(x,y):returnx+y方法：classStudent:defadd(self,x,y):returnx+y方法和函数的功能一样，可以传入参数，有返回值，方法调用使用格式不同：函数的使用：num=add
Python第六章01：列表（lsit）定义语法苹果.Python.八宝粥 python 开发语言
#列表（list）的定义语法#基本语法：#字面量：#[元素1，元素2，元素3，元素4，......]#定义变量#变量名称=[元素1，元素2，元素3，元素4，......]#定义空列表#变量名称=[]#变量名称=list[]#列表内的每一个数据，称之为元素#1.以[]作为标识#2.列表内每一个元素直接用，逗号隔开#3.列表可以一次存储多个数据，且可以为不同的数据类型，支持嵌套。#定义一个列表my_l
ESG证书：AI预测未来十年职场人的黄金入场券 ESG学习圈 pandas python django
当ChatGPT开始撰写ESG报告，当机器学习模型精准预测企业碳排放轨迹，一场由AI驱动的ESG革命正在颠覆传统可持续发展领域。根据彭博新能源财经预测，到2030年全球ESG资产管理规模将突破50万亿美元，而AI技术将成为撬动这个万亿级市场的核心杠杆。一、AI透视下的ESG黄金时代在微软开发的AI模型ESG-NOW系统中，通过分析全球4300家上市公司近十年的环境数据，成功预测2025年新能源行业
31天Python入门——第5天:循环那些事儿安然无虞 Python手把手教程 python 开发语言后端
你好，我是安然无虞。文章目录1.while循环1.1while循环的嵌套1.2补充学习:print函数2.for循环2.1range函数2.2for循环2.3continue和break以及return2.4for循环的嵌套3.补充学习3.1enumerate函数3.2zip函数3.3不要在遍历列表的过程中删除元素循环是编程语言常见的一种流程控制所谓循环就是反复的执行一段代码我们人类语言要让别人反
「Python数据分析」Pandas基础，筛选数据利器：布尔索引奕澄羽邦 python 数据分析 pandas
我们在处理数据的时候，数据筛选是一个重要的过程。利用布尔索引，我们可以选择需要的数据区间。布尔索引，是利用各种不等式，以及与或非操作，来对数据区间进行选择。在pandas中，与操作，对应的是&这个符号，表示选取两个数据集重合的部分。或操作，对应的是|这个符号，表示选择两个数据集中，只要在一个数据集中出现的部分。非操作，对应的是~这个符号，表示选取一个数据集中，相反的部分。我们下面通过具体的例子，来
【数学建模】灰色关联分析模型详解与应用烟锁池塘柳0 数学建模数学建模算法
灰色关联分析模型详解与应用文章目录灰色关联分析模型详解与应用引言灰色系统理论简介灰色关联分析基本原理灰色关联分析计算步骤1.确定分析序列2.数据无量纲化处理3.计算关联系数4.计算关联度灰色关联分析应用实例实例：某企业生产效率影响因素分析灰色关联分析在各领域的应用灰色关联分析的Python实现灰色关联分析的局限性结论引言在数据分析领域，我们经常面临样本量少、信息不完全、数据不确定性高的情况。传统的
数据分析_python进行数据筛选1_行筛选 Monkey*王 python 数据分析 pandas
以titanic的训练数据为例进行展示，为了简化取前十行为例首先导入模块，导入数据importpandasaspdimportnumpyasnpdf=pd.read_csv(r"C:\Users\admin\Desktop\train.csv")df=df.head(10)df.index=['a','b','c','d','e','f','g','h','i','g']筛选单行1.利用df[行索
Python的那些事第四十六篇：基于属性的测试库hypothesis研究暮雨哀尘 Python的那些事 python 开发语言属性测试库 hypothesis 执行流程构建
一、引言（一）研究背景随着软件系统复杂性的不断增加，软件测试在确保软件质量方面的重要性愈发凸显。传统测试方法在面对大规模、复杂软件系统时，往往存在测试用例设计不全面、测试执行效率低下等问题。基于属性的测试作为一种新兴的测试方法，通过定义软件系统的属性来指导测试用例的设计与执行，为解决上述问题提供了新的思路。（二）研究意义本研究旨在深入探讨基于属性的测试库的构建与应用，以提高软件测试的效率和质量，降
【Dive Into Stable Diffusion v3.5】1：开源项目正式发布——深入探索SDv3.5模型全参/LoRA/RLHF训练 Donvink 大模型 #AIGC stable diffusion AIGC 人工智能机器学习深度学习
目录1引言2项目简介3快速上手3.1下载代码3.2环境配置3.3项目结构3.4下载模型与数据集3.5运行指令3.6核心参数说明3.6.1通用参数3.6.2优化器/学习率3.6.3数据相关4结语1引言在人工智能和机器学习领域，生成模型的应用越来越广泛。StableDiffusion作为其中的佼佼者，因其强大的图像生成能力而备受关注。今天，我的开源项目DiveIntoStableDiffusionv3
3月20日复盘四万二千正式复盘 python 前端机器学习
挑战全栈第八天！今天更新Python中的迭代器和生成器，以及函数式编程的内容。8.3super().init()super().__init__()是Python中用于调用父类（基类）构造函数的一种方式。它通常用于子类的构造函数中，以确保父类的构造函数被正确调用和初始化。这在继承（inheritance）中尤为重要，因为父类的初始化代码可能包含设置实例变量或执行其他重要的初始化任务。classPa
Python + Qt Designer构建多界面GUI应用程序：Python如何调用多个界面文件懒大王爱吃狼 python python qt 命令模式 mysql 数据库 Python基础开发语言
引言QtDesigner是一个用户友好的图形用户界面设计工具，它可以帮助开发人员通过拖放的方式快速创建界面。在实际开发中，往往需要设计多个界面文件，并在Python代码中进行统一管理和使用。本文将介绍如何在Python中使用QtDesigner设计好的多个界面文件的常用方法。方法一：单独加载并显示如果界面文件相对独立，并且没有复杂的依赖关系，可以考虑单独加载并显示每个界面文件。fromPyQt5i
【科大讯飞笔试题汇总】2024-04-21-科大讯飞春招笔试题-三语言题解(CPP/Python/Java) 春秋招笔试突围最新互联网春秋招试题合集 python java 开发语言春招笔试互联网大厂笔试题
大家好这里是KK爱Coding，一枚热爱算法的程序员✨本系列打算持续跟新科大讯飞近期的春秋招笔试题汇总～ACM银牌|多次AK大厂笔试｜编程一对一辅导感谢大家的订阅➕和喜欢KK这边最近正在收集近一年互联网各厂的笔试题汇总，如果有需要的小伙伴可以关注后私信一下KK领取，会在飞书进行同步的跟新，5月1日之前限时免费领取哦，后续会由ACM银牌团队持续维护~。文章目录01.硬币最少组合问题问题描述输入格式输
Pycharm python解释器 unsupported python 3.1 解决大表哥在曾母暗沙 Python PyCharm python pycharm ide 解释器模式
Pycharm环境unsupportedpython3.1解决1.问题重现2.原因分析3.解决方法1.问题重现之前使用Pycharm2024.1.1的时候，环境配置的Python3.11.9，现在改成使用Pycharm2020.2.2，结果Python解释器显示“unsupportedpython3.1”，如下图：2.原因分析因为Pycharm2020.2.2支持的Python最高版本就是Pyth
知识库在意图识别中扮演着**数据支撑**和**语义理解辅助**的双重角色 PersistDZ 大数据与AI 人工智能
知识库在意图识别中扮演着数据支撑和语义理解辅助的双重角色，而训练智能客服的意图识别Agent需要结合知识库的结构化数据与机器学习技术。以下是详细解析：一、知识库在意图识别中的作用1.提供标注数据意图标签定义：知识库中存储了预先定义的意图分类体系（如“订单查询”“退换货”“投诉”等），为模型提供明确的训练目标。标注样本：知识库包含大量用户对话历史及其对应的意图标签，是训练监督学习模型的核心数据源。2
申请 Let's Encrypt 的免费 TLS 证书实现网站的 https 访问 python
因为这个使用apt安装的python第三方包的版本为什么这么滞后？原因，所以我不是用sudo把证书弄到系统路径，而是选择到普通用户路径下面╭─pon@aliyun2core2GB~/certbot╰─➤tree.├──config│ ├──accounts│ │ └──acme-v02.api.letsencrypt.org│ │ └──directory│ │ └──9401598
python面试题详解 __wishing__ python
十道经典面试题（python）1.一行代码实现累加1-100之和print(sum(range(1,101)))输出结果：5050分析：利用sum函数进行累加。range控制序列。2.一行代码实现列表去重#声明需要去重的列表list1=[1,1,2,2,3,3,4,4]list1=list(set(list1))</
LangChain入门：使用Python和通义千问打造免费的Qwen大模型聊天机器人南七小僧人工智能网站开发 AI技术产品经理服务器数据库 windows
前言LangChain是一个用于开发由大型语言模型（LargeLanguageModels，简称LLMs）驱动的应用程序的框架。它提供了一个灵活的框架，使得开发者可以构建具有上下文感知能力和推理能力的应用程序，这些应用程序可以利用公司的数据和APIs。这个框架由几个部分组成。LangChain库：Python和JavaScript库。包含了各种组件的接口和集成，一个基本的运行时，用于将这些组件组合
pygmsh 项目常见问题解决方案葛雨禹
pygmsh项目常见问题解决方案pygmsh:spider_web:GmshforPython项目地址:https://gitcode.com/gh_mirrors/py/pygmsh1.项目基础介绍和主要编程语言项目名称:pygmsh项目简介:pygmsh是一个结合了Gmsh和Python的开源项目。它通过提供Gmsh的Python接口，简化了复杂几何体的创建过程。pygmsh提供了许多有用的抽
Flink 通过 Chunjun Oracle LogMiner 实时读取 Oracle 变更日志并写入 Doris 的方案 roman_日积跬步-终至千里 #flink 实战 flink oracle 大数据
文章目录一、技术背景二、关键技术1、OracleLogMiner2、Chunjun的LogMiner关键流程3、修复ChunjunOracleLogMiner问题一、技术背景在大数据实时同步场景中，需要将Oracle数据库的变更数据（CDC）采集并写入ApacheDoris，以支持数据分析、BI报表、实时数据仓库等应用。本方案基于Flink+Chunjun，通过OracleLogMiner解析Re
python之gmsh划分网格老歌老听老掉牙 python有限元分析 python 开发语言 gmsh 划分网格
Gmsh（GeometryModelingandMeshingSuite）是一个开源的三维有限元网格生成器，它集成了内置的CAD引擎和后处理器。Gmsh的设计目标是提供一个快速、轻量级且用户友好的网格工具，同时具备参数化输入和高级可视化能力。Gmsh围绕几何（geometry）、网格（mesh）、求解器（solver）和后处理（post-processing）四个模块构建，用户可以通过图形用户界面
已解决：python多线程使用TensorRT输出为零？附tensorrt推理代码李卓璐算法实战 python 开发语言
我是多个不同类型的模型多线程调用报错。设备：cuda12.1,cudnn8.9.2,tensorrt8.6.11.问题tensorrt的推理没输出？？？有输入：想要的输出：原因：多进程时,每进程应单独调用importpycuda.driverascuda和cuda.init()，完成初始化CUDA驱动，并需要使用self.cfx.push()和self.cfx.pop()管理CUDA上下文，以保证
Python 的 ultralytics 库详解白.夜人工智能
ultralytics是一个专注于计算机视觉任务的Python库，尤其以YOLO（YouOnlyLookOnce）系列模型为核心，提供了简单易用的接口，支持目标检测、实例分割、姿态估计等任务。本文将详细介绍ultralytics库的功能、安装方法、核心模块以及使用示例。1.ultralytics库简介ultralytics库由Ultralytics团队开发，旨在为YOLO系列模型提供高效、灵活且易
输入某年某月某日，判断这一天是这一年的第几天python 发现文化fu python python
题目：输入某年某月某日，判断这一天是这一年的第几天python输入某年某月某日，判断这一天是这一年的第几天python思路：*判断闰年能被4整除但不能被100整除，年份能被400整除#方法1sum=0if(year%4==0andyear%100!=0)oryear%400==0:feb=29else:feb=28month_day=[0,31,feb,31,30,31,30,31,31,30,3
python练习3：输入某年某月某日，判断这一天是这一年的第几天？柯.姐姐 python
#输入某年某月某日，判断这一天是这一年的第几天？list=[0,31,59,90,120,151,181,212,243,273,304,334]year=int(input('请输入年份：'))month=int(input('请输入月份：'))day=int(input('请输入天：'))ifmonth>0andmonth2:result=result+1print("这是第%d天"%resu
初学python100例-案例4 计算一年第几天多种不同解法少儿编程案例讲解小兔子编程初学python100例 python学习 python100例 python计算天数 python算法 python案例
题目输入某年某月某日，判断这一天是这一年的第几天？解法1程序分析1、以5月2日为例，应该先把前四个月的加起来，2、然后再加上2天即本年的第几天，3、特殊情况，闰年且输入月份大于2时需考虑多加一天：4、闰年1、年份能被4整除；2、年份若是100的整数倍的话需被400整除，否则是平年。程序源代码：year=int(input('year:\n'))month=int(input('month:\n')
Python 的类中，self 是一个特殊的参数可可乐不加冰知识学习专栏 python 开发语言
在Python的类中，self是一个特殊的参数，它代表类的实例本身。self是方法的第一个参数，用于访问实例的属性和方法。下面我将从多个角度解释self的含义、作用以及如何使用它。1.self表示类的实例本身在Python中，当你创建一个类的实例时，实际上是在内存中创建了一个对象。self参数代表的就是这个对象本身。通过self，你可以在类的方法中访问和修改实例的属性。2.为什么需要self？se
Trae AI 上新 SSHremote：服务器 Python 接口日志排查实战指南芯作者 DD：日记人工智能深度学习机器学习
在当今的软件开发中，服务器端的稳定性和可靠性至关重要。然而，生产环境中的问题往往难以预测，尤其是接口返回502错误却无日志记录的情况，更是让开发者头疼不已。幸运的是，字节跳动推出的AI原生IDE——Trae，近期上线的SSHremote功能，为远程服务器日志排查提供了全新的解决方案。本文将结合实战案例，深入探讨如何利用TraeAI的SSHremote功能高效排查Python接口日志问题，并分享创新
Python入门程序练习004：输入某年某月某日，判断这一天是这一年的第几天？若北辰 Python实战练习
【程序4】题目：输入某年某月某日，判断这一天是这一年的第几天？1.程序分析：其实这一题的难度不在于编程，而在于对闰年有没有一些基本的认识，相信很多人都知道闰年，但是又不太清楚具体怎么判断闰年。在下面两个条件中只要满足一个即是闰年：1、能被4整除但是不能被一百整除2、能被四百整除。为了方便记忆，总结为：四年一闰,百年不闰,四百年再闰那么判断出闰年和平年（除了闰年其他都是平年）之后呢，其实只要记住：闰
矩阵求逆（JAVA）利用伴随矩阵 qiuwanchi 利用伴随矩阵求逆矩阵
package gaodai.matrix; import gaodai.determinant.DeterminantCalculation; import java.util.ArrayList; import java.util.List; import java.util.Scanner; /** * 矩阵求逆(利用伴随矩阵) * @author 邱万迟
单例（Singleton）模式 aoyouzi 单例模式 Singleton
3.1 概述如果要保证系统里一个类最多只能存在一个实例时，我们就需要单例模式。这种情况在我们应用中经常碰到，例如缓存池，数据库连接池，线程池，一些应用服务实例等。在多线程环境中，为了保证实例的唯一性其实并不简单，这章将和读者一起探讨如何实现单例模式。 3.2
[开源与自主研发]就算可以轻易获得外部技术支持,自己也必须研发 comsci 开源
现在国内有大量的信息技术产品，都是通过盗版，免费下载，开源，附送等方式从国外的开发者那里获得的。。。。。。虽然这种情况带来了国内信息产业的短暂繁荣，也促进了电子商务和互联网产业的快速发展，但是实际上，我们应该清醒的看到，这些产业的核心力量是被国外的
页面有两个frame,怎样点击一个的链接改变另一个的内容 Array_06 UI XHTML
<a src="地址" targets="这里写你要操作的Frame的名字" />搜索然后你点击连接以后你的新页面就会显示在你设置的Frame名字的框那里 targerts="",就是你要填写目标的显示页面位置 ===================== 例如： <frame src=&
Struts2实现单个/多个文件上传和下载 oloz 文件上传 struts
struts2单文件上传：步骤01:jsp页面  　　<form action="fileUplo
推荐10个在线logo设计网站 362217990 logo
在线设计Logo网站。 1、http://flickr.nosv.org（这个太简单） 2、http://www.logomaker.com/?source=1.5770.1 3、http://www.simwebsol.com/ImageTool 4、http://www.logogenerator.com/logo.php?nal=1&tpl_catlist[]=2 5、ht
jsp上传文件香水浓 jsp fileupload
1. jsp上传 Notice： 1. form表单 method 属性必须设置为 POST 方法，不能使用 GET 方法 2. form表单 enctype 属性需要设置为 multipart/form-data 3. form表单 action 属性需要设置为提交到后台处理文件上传的jsp文件地址或者servlet地址。例如 uploadFile.jsp 程序文件用来处理上传的文
我的架构经验系列文章 - 前端架构 agevs JavaScript Web 框架 UI jQuer
框架层面：近几年前端发展很快，前端之所以叫前端因为前端是已经可以独立成为一种职业了，js也不再是十年前的玩具了，以前富客户端RIA的应用可能会用flash/flex或是silverlight，现在可以使用js来完成大部分的功能，因此js作为一门前端的支撑语言也不仅仅是进行的简单的编码，越来越多框架性的东西出现了。越来越多的开发模式转变为后端只是吐json的数据源，而前端做所有UI的事情。MVCMV
android ksoap2 中把XML(DataSet) 当做参数传递 aijuans android
我的android app中需要发送webservice ，于是我使用了 ksop2 进行发送，在测试过程中不是很顺利,不能正常工作.我的web service 请求格式如下 [html] view plain copy <Envelope xmlns="http://schemas.
使用Spring进行统一日志管理 + 统一异常管理 baalwolf spring
统一日志和异常管理配置好后，SSH项目中，代码以往散落的log.info() 和 try..catch..finally 再也不见踪影！统一日志异常实现类： [java] view plain copy package com.pilelot.web.util; impor
Android SDK 国内镜像 BigBird2012 android sdk
一、镜像地址： 1、东软信息学院的 Android SDK 镜像，比配置代理下载快多了。配置地址， http://mirrors.neusoft.edu.cn/configurations.we#android 2、北京化工大学的： IPV4:ubuntu.buct.edu.cn IPV4:ubuntu.buct.cn IPV6:ubuntu.buct6.edu.cn
HTML无害化和Sanitize模块 bijian1013 JavaScript AngularJS Linky Sanitize
一.ng-bind-html、ng-bind-html-unsafe AngularJS非常注重安全方面的问题，它会尽一切可能把大多数攻击手段最小化。其中一个攻击手段是向你的web页面里注入不安全的HTML，然后利用它触发跨站攻击或者注入攻击。考虑这样一个例子，假设我们有一个变量存
[Maven学习笔记二]Maven命令 bit1129 maven
mvn compile compile编译命令将src/main/java和src/main/resources中的代码和配置文件编译到target/classes中，不会对src/test/java中的测试类进行编译 MVN编译使用 maven-resources-plugin:2.6:resources maven-compiler-plugin:2.5.1:compile &nbs
【Java命令二】jhat bit1129 Java命令
jhat用于分析使用jmap dump的文件，，可以将堆中的对象以html的形式显示出来，包括对象的数量，大小等等，并支持对象查询语言。 jhat默认开启监听端口7000的HTTP服务，jhat是Java Heap Analysis Tool的缩写 1. 用法： [hadoop@hadoop bin]$ jhat -help Usage: jhat [-stack <bool&g
JBoss 5.1.0 GA:Error installing to Instantiated: name=AttachmentStore state=Desc ronin47
进到类似目录 server/default/conf/bootstrap，打开文件 profile.xml找到： Xml代码<bean name="AttachmentStore" class="org.jboss.system.server.profileservice.repository.AbstractAtta
写给初学者的6条网页设计安全配色指南 brotherlamp UI ui自学 ui视频 ui教程 ui资料
网页设计中最基本的原则之一是，不管你花多长时间创造一个华丽的设计，其最终的角色都是这场秀中真正的明星——内容的衬托我仍然清楚地记得我最早的一次美术课，那时我还是一个小小的、对凡事都充满渴望的孩子，我摆放出一大堆漂亮的彩色颜料。我仍然记得当我第一次看到原色与另一种颜色混合变成第二种颜色时的那种兴奋，并且我想，既然两种颜色能创造出一种全新的美丽色彩，那所有颜色
有一个数组，每次从中间随机取一个，然后放回去，当所有的元素都被取过，返回总共的取的次数。写一个函数实现。复杂度是什么。 bylijinnan java 算法面试
import java.util.Random; import java.util.Set; import java.util.TreeSet; /** * http://weibo.com/1915548291/z7HtOF4sx * #面试题#有一个数组，每次从中间随机取一个，然后放回去，当所有的元素都被取过，返回总共的取的次数。 * 写一个函数实现。复杂度是什么
struts2获得request、session、application方式 chiangfai application
1、与Servlet API解耦的访问方式。 a.Struts2对HttpServletRequest、HttpSession、ServletContext进行了封装，构造了三个Map对象来替代这三种对象要获取这三个Map对象，使用ActionContext类。 -----> package pro.action; import java.util.Map; imp
改变python的默认语言设置 chenchao051 python
import sys sys.getdefaultencoding() 可以测试出默认语言，要改变的话，需要在python lib的site-packages文件夹下新建： sitecustomize.py，这个文件比较特殊，会在python启动时来加载，所以就可以在里面写上： import sys sys.setdefaultencoding('utf-8') &n
mysql导入数据load data infile用法 daizj mysql 导入数据
我们常常导入数据！mysql有一个高效导入方法，那就是load data infile 下面来看案例说明基本语法： load data [low_priority] [local] infile 'file_name txt' [replace | ignore] into table tbl_name [fields [terminated by't'] [OPTI
phpexcel导入excel表到数据库简单入门示例 dcj3sjt126com PHP Excel
跟导出相对应的，同一个数据表，也是将phpexcel类放在class目录下，将Excel表格中的内容读取出来放到数据库中 <?php error_reporting(E_ALL); set_time_limit(0); ?> <html> <head> <meta http-equiv="Content-Type"
22岁到72岁的男人对女人的要求 dcj3sjt126com
22岁男人对女人的要求是：一，美丽，二，性感，三，有份具品味的职业，四，极有耐性，善解人意，五，该聪明的时候聪明，六，作小鸟依人状时尽量自然，七，怎样穿都好看，八，懂得适当地撒娇，九，虽作惊喜反应，但看起来自然，十，上了床就是个无条件荡妇。 32岁的男人对女人的要求，略作修定，是：一，入得厨房，进得睡房，二，不必服侍皇太后，三，不介意浪漫蜡烛配盒饭，四，听多过说，五，不再傻笑，六，懂得独
Spring和HIbernate对DDM设计的支持 e200702084 DAO 设计模式 spring Hibernate 领域模型
A：数据访问对象 DAO和资源库在领域驱动设计中都很重要。DAO是关系型数据库和应用之间的契约。它封装了Web应用中的数据库CRUD操作细节。另一方面，资源库是一个独立的抽象，它与DAO进行交互，并提供到领域模型的“业务接口”。资源库使用领域的通用语言，处理所有必要的DAO，并使用领域理解的语言提供对领域模型的数据访问服务。
NoSql 数据库的特性比较 geeksun NoSQL
Redis 是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库，并提供多种语言的API。目前由VMware主持开发工作。 1. 数据模型作为Key-value型数据库，Redis也提供了键（Key）和值（Value）的映射关系。除了常规的数值或字符串，Redis的键值还可以是以下形式之一： Lists （列表） Sets
使用 Nginx Upload Module 实现上传文件功能 hongtoushizi nginx
转载自： http://www.tuicool.com/wx/aUrAzm 普通网站在实现文件上传功能的时候，一般是使用Python，Java等后端程序实现，比较麻烦。Nginx有一个Upload模块，可以非常简单的实现文件上传功能。此模块的原理是先把用户上传的文件保存到临时文件，然后在交由后台页面处理，并且把文件的原名，上传后的名称，文件类型，文件大小set到页面。下
spring-boot-web-ui及thymeleaf基本使用 jishiweili spring thymeleaf
视图控制层代码demo如下： @Controller @RequestMapping("/") public class MessageController { private final MessageRepository messageRepository; @Autowired public MessageController(Mes
数据源架构模式之活动记录 home198979 PHP 架构活动记录数据映射
hello!架构一、概念活动记录（Active Record）：一个对象，它包装数据库表或视图中某一行，封装数据库访问，并在这些数据上增加了领域逻辑。对象既有数据又有行为。活动记录使用直截了当的方法，把数据访问逻辑置于领域对象中。二、实现简单活动记录活动记录在php许多框架中都有应用，如cakephp。 <?php /** * 行数据入口类 *
Linux Shell脚本之自动修改IP pda158 linux centos Debian 脚本
作为一名 Linux SA，日常运维中很多地方都会用到脚本，而服务器的ip一般采用静态ip或者MAC绑定，当然后者比较操作起来相对繁琐，而前者我们可以设置主机名、ip信息、网关等配置。修改成特定的主机名在维护和管理方面也比较方便。如下脚本用途为：修改ip和主机名等相关信息，可以根据实际需求修改，举一反三！ #!/bin/sh #auto Change ip netmask ga
开发环境搭建独浮云 eclipse jdk tomcat
最近在开发过程中，经常出现MyEclipse内存溢出等错误，需要重启的情况，好麻烦。对于一般的JAVA+TOMCAT项目开发，其实没有必要使用重量级的MyEclipse，使用eclipse就足够了。尤其是开发机器硬件配置一般的人。 &n