Jay_+wqq_635731323

基于机器学习组合模型的个人信用评估

《基于机器学习组合模型的个人信用评估》课程报告

摘要

个人信用评估在信用经济市场发挥着及其重要的基础作用，促进信用经济的发展，稳定经济市场。个人信用信息主要有个人基本信息、还款能力和还款意愿;个人基本信息主要由年龄、性别、地区等特征构成，还款能力主要由资产、工资、社会关系等特征构成，还款意愿主要考察的是该人是否有相应的违约事件、违约事件的严重程度等信息，所以个人信用评估系统根据这三个因素构成，完整地包含了有关一个人信用违约的所有数据。对个人信用进行科学合理的预测评估对并在此基础上开展个性化的金融服务具有重要的研究价值。

本报告以某股份制商业银行个人消费信贷行为数据集为研究对象，利用机器学习算法组合模型为技术方法，探索科学合理的个人信用评估方法，进而为消费信贷业及相关主体进行决策提供科学的依据。

引言

背景

我国目前的个人信用评分系统尚不健全，银行等消费信贷主体缺乏获取借贷人全面且准确信息的渠道，因此银行等消费信贷主体很难对借款人财务状况的真实性、稳定性及还款意向等资信状况做出精准的判断；此外消费信贷的一个本质特性是客户量大且分散、不同的客户的信用风险状况也不一样，因此银行等消费信贷主体本可以通过对不同的客户群采取不同的利率的方式来使信贷风险达到最小化。为了促进消费信贷发展的同时能够有效的防范其带来的潜在风险，将对个人信用进行科学合理的评估是非常有必要的。

2.目的意义

本报告借助机器学习技术，根据个人信贷的历史记录，将机器学习算法和组合模型理论结合起来对借款人潜在的违约概率进行预测，对个人信用风险进行评估。

文献综述

Makowski首次把分类树应用于信用评估领域，成为信用评估模型标志性的成果，该方法被广泛应用到信用评估领域。随后大量文献对机器学习在信用风险评估中的应用进行了研究，降遗传算法和神经网络应用在了信用评分领域；Desai将线性评分模型与神经网络模型在信用评估中的应用进行了比较，得出神经网络模型准确率更高的结论；Breiman将随机森林算法引入信用评估模型中。TIan-Shyug Lee将神经网络和判别方法组合后用信用风险评估，该方法将线性判别分析得到的有意义变量作为神经网络的一个输入变量进行建模。

我国对个人信用评估方法的研究起步较晚，研究者只是将单一模型应用到信用评估领域。后续用回归、线性规划法、判别分析、分类树、BP神经网络模型、等模型对个人信用进行评估。

相关理论和模型介绍

逻辑回归模型理论

多元线性回归模型是一种理论上已经非常成熟的模型，因模型的简单性、易解释性和易实施性而得到了广泛的应用。但由于其有若干模型假设而使其在使用中与实际情况有很大偏差。将多元线性回归模型应用到个人信用评估研究时有一个明显缺陷是，自变量与因变量的取值范围是不同的，自变量可以取任意值，而因变量只能取 0到1 之间的值，因此根据实际情况的需要采用逻辑回归模型对个人信用进行评估更为合适。

逻辑回归又称对数几率回归，是一种通过 Logistic函数将特征变换为概率，进入判别自变量的类型的线性分类器。实质是将某事件会发生的概率除以某事件不会发生的概率再取对数后的值作为因变量，这个简单的变换解决了自变量与因变量的取值范围不同的问题且将变量间的非线性关系转化为线性关系。

决策树模型理论

决策树反应的是属性与对应值之间的一种映射关系。树中的节点即为对象，分叉路径即为该对象的某个可能属性，而每个叶节点则代表该对象所对应的值。决策树仅能输出单一值，若需要输出多个值，需要建立多个独立的决策树输出多个不同的输出。决策树中有三种类型的节点，分别是决策节点、机会节点和终结点。其中决策节点是最后选择出的最佳方案，若存在多个决策点则决策树根节点为最终的决策方案，通常用矩形框表示；机会节点也称状态节点，是多种备选方案的集合，由机会节点分出的分支是概率枝，概率枝所谓数量即为该节点可能出现的状态个数，通常用圆圈表示；终结点又称结果节点，通常用三角形表示，是每个概率枝对应的结果。决策树对建模数据的要求不强，可以用较短的时间处理各种类型的数据，且需要的数据量不大，易于理解及实现。但是决策树容易过拟合且输出的结果存在不稳定的问题，数据一旦有稍微的变化便可能生成一个与之前完全不同的决策树。

随机森林模型理论

随机森林实质是决策树算法的一种有益改进，属于集成学习。该算法的基本思想是首先用 booststrap 抽样方法从原始训练集抽取 K个样本集，且每个样本集的样本数与原始训练集的样本数相同；然后基于每个样本集随机使用m个特征建K个决策树模型，且K个决策树之间是相互独立同分布的，K个决策树模型的集成即为随机森林模型，其输出是由多个决策树的输出的众数决定。

组合模型理论

所谓组合模型就是将两个或者两个以上的单一模型组合在一起。组合的方式有两种：

(1)并联式的组合模型，即基于同一数据集建立多个模型，然后将多个模型的输出结果经过某种方式进行组合的模型；

(2)串联式的组合模型，即将某一个或多个不同的单一模型的输出作为另一个模型的输入共同建立的组合模型。在解决实际问题中，一般会根据不同假设条件采用多种不同的单一模型，然后根据一系列模型评价指标从多种模型中选择最合适的模型，忽略其他单一模型。

四．实证论述

本研究首先搜集与整理某股份制银行个人信贷消费行为数据集进行，并对原始变量进行处理；然后将数据集按 9:1的比例分为训练数据集和测试数据集，并在训练数据集上分别建立组合模型，最后分别在训练数据集和测试数据集上采用ROC值和AUC值评价指标对模型进行评价，并在比较分析的基础上，探索表达该数据集的最优模型。

1.数据处理

数据选取：银行客户信贷业务交易数据。数据分为训练数据集(train.csv)和测试数据集(test.csv)。数据来源：某股份制商业银行。银行客户信贷业务交易数据，按数据变量含义共分为三大类。如表所示，数据分为客户基本信息、借贷相关信息和客户特征相关信息。

数据变量说明表：

序号		变量	变量含义
1. 客户基本属性信息
1	id		客户唯一标识
2	certId		证件号
3	gender		性别
4	age		年龄
5	dist		所在地区
6	edu		学历
7	job		工作单位类型
8	ethnic		民族
9	highestEdu		最高学历
10	certValidBegin		证件号起始日
11	certValidStop		证件号失效日
2. 借贷相关信息
12	loanProduct		借贷产品类型
13	lmt		预授信金额
14	basicLevel		基础评级
15	bankCard		放款卡号
16	residentAddr		居住地
17	linkRela		联系人关系
18	setupHour		申请时段
19	weekday		申请日
3. 客户征信相关信息
20	ncloseCreditCard		失效信用卡数
21	unpayIndvLoan		未支付个人贷款金额
22	unpayOtherLoan		未支付其他贷款金额
23	unpayNormalLoan		未支付贷款平均金额
24	5yearBadloan		五年内未支付贷款金额
25	x_0至x_78		该部分数据涉及较为第三方敏感信用数据，匿名化处理，不影响建模和数据分析

2.数据探索

训练集共有102029条数据记录，测试集有30000 条数据记录；训练集和测试集都有相同的105个特征属性。查看数据集样本情况：

查看数据集描述情况：

2.1 违约客户数量分布

违约客户数量分布，可以看出违约的客户较少，只占0.757%，获取的数据存在样本不均衡情况。这也说明了在真实情况下银行违约的客户数量还是占比较少的。因为违约会影响到个人征信等。

2.2 违约客户性别分布

违约客户性别分布图可以看出，违约客户的年龄差别较大，大部分为男性（gender=1）。在违约客户中，男性占比为75.76%，女性占比为24.24%。从逾期占比情况来看，男性逾期占比高于女性近51%。解释这一现象可以考虑从家庭及社会分工考虑，男性是主要的借贷群里，群体基数大，因此违约占比概率高。

贷款行业相关调查显示：女性贷款的通过率高于男性，相比男性贷款人，借贷机构更愿意借钱给女性。

2.3 违约客户年龄分布

违约客户年龄分布图可以看出，违约客户年龄集中在 19-35 岁之间。该区间年龄段客户承担的角色主要是学生和家庭的顶梁柱，同时也是借贷客户的主要群体。

2.4 不同信贷产品类型的违约分布

将数据集按照信贷产品类型进行分组统计，分别计算不同组违约的比例。其中信贷产品1的违约比例最高。这说明借贷产品在产品设计方面需要优化改进，避免高违约率情况发生。通过进一步挖掘和分析不同信贷产品在违约率差异上存在的原因，帮助商业银行在产品设计方面提供的决策支持。

2.5 信用评级分布

客户信用评级是指商业银行为有效控制客户信用风险，实现信贷资金的安全性、流动性和收益性，从客户经营能力、盈利能力、偿债能力、发展能力，以及客户素质和信用状况等方面，对客户进行综合评价和信用等级的确定。图中看出银行进行客户筛选时是会重点考虑客户信用评级，对于信用评级差的客户会拒绝审批信贷业务；但是对于潜在风险客户，各类信用评级的分布都是存在的，进一步说明信用风险是难以预测的。

3.数据建模

3.1 建模流程

信用风险是金融监管机构重点关注的风险。在实际业务开展和模型构建过程中，商业银行运用数据挖掘、数据建模等方法进行决策，提高信用风险的评估和预测能力。本课程报告使用XGBoost和Sklearn进行机器学习和决策树分类实现决策树模型构建客户风控预警。数据建模的流程可以归纳五个步骤，分别是数据获取、数据理解、数据处理与特征选择、模型选择和结果分析。

3.2 模型评估

在本课题研究中，选择Python语言和XGBoost和SKlearn进行决策树模型建模。XGBoost是一套提升树可扩展的机器学习系统。目标是设计和构建高度可扩展的端到端提升树系统。SKlearn是一个开源的基于Python语言的机器学习工具包，涵盖了几乎所有主流机器学习算法。使用机器学习建模的一般流程分为两大部分：数据处理和模型学习。第一部分需要大量的知识对原始数据进行清理及特征提取；第二部分模型学习，涉及长时间的模型参数调整，调整方向和策略需要根据经验来灵活调整。

根据提供的训练数据集(train.csv)和测试数据集(test.csv)进行模型训练和测试验证,用ACU值进行模型评分（AUC是衡量学习器优劣的一种性能指标。AUC可通过对ROC曲线下各部分的面积求和而得）。

通过交叉训练最佳迭代次数进行参数调优，并利用最佳迭代次数和全量数据再次训练模型。最后得到平均训练集ACU=0.881和平均测试集AUC=0.7。最终的预测验证集AUC指标为0.9103。

根据模型分析各个特征重要程度，可以看出lmt(预授信金额)、residentAddr（居住地）等特征是非常重要的模型评估指标。

3.3 结果分析

根据客户基本信息、借款信息、信用卡消费记录等数据构建模型去判断这个客户是否会发生逾期的风险。

结果表示新客户测试集预测准确率85.85%，新客户测试集 AUC 指标72.45%。

五．结论

我国目前存在诸多因素阻碍消费信贷的发展，其中最主要的因素是个人信用风险，因此对个人信用风险进行科学合理的评估具有重要的研究价值。本报告以银行个人消费信贷行为数据集为研究对象进行实证分析，借助机器学习算法和组合模型对个人违约率进行预测，进而寻找更加科学而合理的评估模型对个人信用风险进行综合评估。

参考文献

[1]丁娟娟,崔媛媛.个人信用评估模型的比较研究[J].商场现代化，2007,(5):31-33．

[2]姜明辉.商业银行个人信用评估组合预测方法研究[D].黑龙江:哈尔滨工业大学,2006.

[3]韩正波;;银行个人信用评估方法研究综述[A];第三届全国软件测试会议与移动计算、栅格、智能化高级论坛论文集[C];2009年.

[4]史宁;;商业银行对个人信用评估的组合预测模型[J];商业研究;2009年11期.

邻近巷道爆破振动模拟与可视化：计算力学的工程应用碳酸的唐动态规划数学建模
引言隧道爆破施工是现代工程建设中常用的方法，但爆破产生的振动会对周围结构和地质环境产生影响。本文介绍一个基于Python的邻近巷道爆破振动模拟系统，该系统通过数值计算模拟爆破引起的应力波传播过程，并提供多种可视化方式展示振动效应。本研究对于理解爆破振动机理、评估爆破安全距离以及优化爆破参数具有重要意义。理论基础爆破应力波传播模型爆破引起的应力波在岩体中的传播可通过弹性波动理论描述。在均匀介质中，应
手把手教你编写Python抢购脚本_抢单脚本的制作教程网络安全小宇哥 python 开发语言测试工具学习 web安全网络安全安全架构
想买苹果手机，但总是抢不到，所以想试着能不能写个脚本代码。第一步：把想要抢购的商品加进购物车，注意：脚本是对购物车内全部商品进行下单操作，所以不够买的商品最好先从购物车内删除。第二步：写好Python脚本，在抢购之前运行，并设置好抢购时间。Python脚本实现安装Python。我安装的是anaconda安装webdriver扩展。它是Selenium模块的一部分。Selenium是一个用于Web应
喜讯 | Navicat 蝉联 2025 年 DBTA 100 强名单 Navicat中国 Navicat 17 焕新上市 navicat 数据库
Navicat在“DBTA1002025-数据领域最重要的公司”榜单中获得表彰。该奖项旨在表彰在数据管理与分析领域的领先创新者。数据库趋势与应用集团出版人TomHogan表示：“企业正寻求扩大人工智能的应用范围，采用新的技术与应用，增加数据分析/商业智能的使用，并对现有应用进行现代化改造”，“每年，《数据库趋势与应用》杂志都会推出DBTA100榜单，旨在表彰具有创新精神、能够为客户带来新产品新体验
摸鱼神器分享：3分钟搞定网页自动下滑，效率翻倍还能快乐摸鱼！✨ 铸剑师欧冶子电子牛马养成计划影刀RPA 经验分享笔记数据分析 facebook 个人开发其他
一、痛点场景：为什么我们需要网页自动化工具？作为一名程序员/数据分析师/运营人员，你是否经常遇到这些令人抓狂的情况？海量数据加载：打开FacebookMessenger等社交平台，上千条消息根本刷不到底！无效操作：按End键只能拉到当前加载处，手动下滑几分钟手都酸了...数据采集困难：想要抓取完整消息记录或页面底部信息，等待时间令人绝望关键词：网页自动化、RPA工具、数据采集、效率提升二、现有解决
Midjourney：AI人工智能图像生成的新方向 AI智能探索者人工智能 midjourney 计算机视觉 ai
Midjourney：AI人工智能图像生成的新方向关键词：Midjourney、AI图像生成、扩散模型、提示词工程、多模态学习、生成式AI、创意工具摘要：本文将带您走进AI图像生成的前沿领域，以Midjourney为核心，从技术原理到实际应用，用通俗易懂的语言解析其背后的“魔法”。我们将通过生活案例、技术拆解和实战演示，揭示Midjourney如何通过扩散模型、提示词工程和多模态学习，重新定义“用
【Python】类（class）的创建 Herbert_JL python python linux
1类简介1.1什么是类在面向对象编程（OOP）中，类（Class）是一种封装了数据和操作这些数据的函数的编程结构。它是一种抽象的概念，用于定义具有相同属性（变量）和方法（函数）的对象的模板。类可以看作是一个“蓝图”，用于创建具有相同特征和行为的对象实例。1.2类的作用1.2.1封装（Encapsulation）类将数据（属性）和操作数据的方法封装在一起，形成一个独立的单元。这样可以隐藏内部实现细节
【Python】类的继承、重载与多态
类的继承(Inheritance)类的继承是面向对象编程（OOP）中的一个重要概念，它允许一个类（称为子类或派生类）继承另一个类（称为父类或基类）的属性和方法。继承可以提高代码的复用性，减少重复代码，并且能够构建出层次化的类结构。继承的基本概念父类（基类）：被继承的类，提供了可以被继承的属性和方法。子类（派生类）：继承父类的类，可以使用父类的属性和方法，并且还可以添加新的属性和方法，或者覆盖父类的
【Python】For Herbert_JL python python 开发语言
For基本语法forelementiniterable:statement(s)element：是循环变量，用于存储可迭代对象中当前遍历到的元素。iterable：是需要遍历的可迭代对象，如列表、元组、字典等。for遍历列表fruits=["apple","banana","cherry"]forfruitinfruits:print(fruit)applebananacherryfor遍历字符串
【python 进阶】argparse模块 Herbert_JL python python java linux
argparse模块Python的argparse模块用于解析命令行参数，使得脚本能够灵活地接受用户从命令行传入的各种参数，从而根据不同的参数配置来执行不同的操作。ArgumentParser类argparse.ArgumentParser是Python中argparse模块的核心类，用于创建一个解析器对象，该对象能够读取和解析命令行参数和选项，将它们转换为相应的数据类型，并提供给程序使用。功能常
在python中function啥类型_Python中function和method
这两个概念已经有很多人解释过了，从本文的『参考』中就可以看出来。之所以还要写一篇这个主题，主要是为了用自己的语言表述一下，并且尽可能的讲的清楚一点。泛泛地说，function是一般意义上的函数，即对一段代码的封装，并由一个地址(函数名)来调用。method通常是面向对象的概念，即method是属于一个类或类的对象的。method是与类或类的对象相关的函数。下面讲一下我对这两个概念的更具体的理解。如
【pytorch】——Could not export Python function call ‘Scatter‘
pytorch用pytorch的trace导出模型的时候，报错errorRuntimeError:CouldnotexportPythonfunctioncall'Scatter'.RemovecallstoPythonfunctionsbeforeexport.Didyouforgettoadd@scriptor@script_methodannotation?Ifthisisann.Modul
Python中如何将非内置数据类型导出成Json格式
前言：在Python开发中往往使用自定义的数据类型来封装属性特定对象。但是这些自定义的数据类型在导出成Json文件时往往会报出不支持的错误。本篇文章将介绍如何解决这个问题。操作步骤：1、创建自定义数据类型：fromdataclassesimportdataclassimportjson@dataclassclassOwnObject():prop1:strprop2:int2、将自定义数据类型导出
剖析AI人工智能领域Whisper的性能指标 AI大模型应用实战人工智能 whisper xcode ai
剖析AI人工智能领域Whisper的性能指标关键词：Whisper、语音识别、性能指标、ASR、AI模型评估、基准测试、语音转文本摘要：本文深入剖析OpenAI开发的Whisper语音识别系统的性能指标。我们将从技术原理、架构设计、性能基准测试等多个维度，全面分析Whisper在不同场景下的表现。文章将详细讲解Whisper的评估方法、关键性能指标解读、实际应用中的性能表现，以及与其他主流语音识别
探索AI人工智能领域多智能体系统的技术原理 AI大模型应用之禅人工智能网络 ai
探索AI人工智能领域多智能体系统的技术原理关键词：AI人工智能、多智能体系统、技术原理、智能体交互、分布式计算摘要：本文深入探索了AI人工智能领域多智能体系统的技术原理。首先介绍了多智能体系统的背景，包括其目的、预期读者、文档结构和相关术语。接着阐述了多智能体系统的核心概念与联系，通过文本示意图和Mermaid流程图进行清晰展示。详细讲解了核心算法原理，结合Python源代码进行说明，并给出了相关
【剪裁Patch】已标注的WSI剪裁Patch的处理流程（以QuPath软件得到的标注信息为例） X CODE WSI 病理图像 QuPath Python
1.整体处理思路整体处理流程如图所示，概括来说就是：根据标注信息将WSI区分为肿瘤区域和正常区域，对这个区域进行采样裁剪得到具有Patch级别标签的Patch。当然，这里的Patch标签是根据标注信息决定的，如果标注的是癌症亚型信息，那么也可以将不同亚型的Patch区分出来。那么下面就对每个步骤进行介绍以及提供具体的Python代码。2.详细步骤（提供代码）2.0标注文件示例以下是用QuPath软
23.5.15---在python中读取excel表格数据并可视化多一点灵性 python matplotlib 开发语言机器学习
目录1.在python中通过以下代码可以防止运行结果出现中文乱码的情况（如画图时）2.在将excel表格文件中的数据读取出来，并将其中的两列数据作为行列坐标用图画出来2.1设置坐标轴显示的刻度及范围3.在PythonConsole清除运行的控制台数据使用：1.在python中通过以下代码可以防止运行结果出现中文乱码的情况（如画图时）##设置字符集，防止中文乱码importmatplotlibasm
【V18.0 - 飞升篇】我把“大模型”装进电脑后，我的AI学会了改稿！——本地部署LLM终极保姆级教程爱分享的飘哥人工智能语言模型 python LLM ai
在过去的十几篇文章中，我们已经将我们的AI打造成了一个顶级的“分析师”。它能看、能听、能读，能预测多维度的价值指标，甚至能用SHAP解释自己的决策。它很强大，但它的能力，始终停留在“分析”和“诊断”的层面。它能告诉我“你的开头不行”，但无法告诉我“一个好的开头应该怎么写”。这就像我的副驾驶是一位顶级的F1数据分析师，他能告诉我每个弯道的最佳速度和刹车点，但他自己并不会开车。我需要一次终极的升级，我
从零到精通：Linux上的Conda环境详细教程
第一章：Conda简介Conda的定义Conda是一个开源的包管理系统和环境管理系统，可以在多个平台上安装、运行和更新软件包和依赖项。Conda最初是为Python和R语言的数据科学包创建的，但现在支持多种编程语言和工具。Conda的主要功能和优势包管理：Conda能够自动处理包的依赖关系，确保每个包所需的库和工具都被正确安装。它支持从各种渠道安装包，如CondaForge和Anaconda官方仓
Briefcase 项目常见问题解决方案刘梓苹
Briefcase项目常见问题解决方案briefcaseToolstosupportconvertingaPythonprojectintoastandalonenativeapplication.项目地址:https://gitcode.com/gh_mirrors/br/briefcase1.项目基础介绍和主要编程语言Briefcase是一个由BeeWare项目开发的工具，旨在帮助开发者将Py
Ubuntu20.04切换源 dongdundun ubuntu linux 运维
一、ubuntu20.04系统重装二、工具安装1.更换Ubuntu源更换conda源更换pip源2.安装QQqq闪退卸载安装wine版QQ3.安装搜狗输入法及中文设置安装搜狗输入法中文设置4.安装vim5.安装google6.安装VsCode7.安装python3的opencv8.安装向日葵向日葵闪退9.ubuntu下识别不到U盘10.安装Typora11.安装百度网盘12.安装ceres库（优化
yolov5/v7/v8/v9/v10环境详细配置教程（Windows+conda+pycharm）视觉算法er 深度学习环境配置 YOLO 目标检测人工智能深度学习 conda pycharm
一、所需环境配置1.1.虚拟环境创建首先，打开AnacondaPrompt命令窗口，创建一个新的虚拟环境，后面的包都在这个环境中安装。创建命令是：我的习惯是使用3.8版本的python，你也可以换成更高版本；condacreate-nyolopython=3.8输入命令后，运行结果如下：输入y即可；1.2.激活虚拟环境安装完成后，即可激活虚拟环境，输入以下命令即可；condaactivateyol
Python 领域 Conda 的集群环境部署经验
Python领域Conda的集群环境部署经验关键词：Conda、Python环境管理、集群部署、环境复制、依赖管理、虚拟环境、Anaconda摘要：本文深入探讨了在集群环境中使用Conda进行Python环境部署的最佳实践。我们将从Conda的核心概念出发，详细讲解环境创建、依赖管理、环境复制和集群部署的全流程。文章包含实际案例、性能优化技巧和常见问题解决方案，旨在帮助读者掌握高效、可靠的Pyth
Python pip与Conda环境的兼容性问题
Pythonpip与Conda环境的兼容性问题关键词：Python环境管理、pip与conda冲突、依赖解析、虚拟环境、包管理、兼容性解决方案、依赖冲突摘要：本文深入探讨Python生态中pip和conda两种主流包管理工具的兼容性问题。我们将从底层机制分析冲突根源，通过具体案例展示常见问题场景，并提供多种解决方案和最佳实践。文章包含详细的依赖解析算法分析、环境隔离技术比较，以及通过实际代码演示如
python中操作数据库 seiseilalei python 数据库 python sql
python中cursor操作数据库（转）原文出处：http://doudouclever.blog.163.com/blog/static/175112310201284115340663/python操作数据库，要安装一个Python和数据库交互的包MySQL-python-1.2.2.win32-py2.5.exe，然后我们就可以使用MySQLdb这个包进行数据库操作了。操作步骤如下：1、建
Python:爬虫基础《爬取红楼梦》
小说爬虫项目说明文档用于爬取诗词名句网上小说内容的Python爬虫项目。本项目以《红楼梦》为例，演示如何爬取完整的小说内容。项目功能爬取小说的所有章节名称获取每个章节的URL链接下载并保存每个章节的内容到独立的文本文件自动创建存储目录包含基本的错误处理和请求延迟环境要求Python3.x依赖包：requestsbeautifulsoup4logging安装依赖pipinstallrequestsb
python之数据库操作婵婵子~ python 数据库 python
python操作sqlserver数据库python标准数据库接口为pythonDB-API，具体可参考：https://wiki.python.org/moin/DatabaseInterfacesPython的DB-API，为大多数的数据库实现了接口，使用它连接各数据库后，就可以用相同的方式操作各数据库。PythonDB-API使用流程：引入API模块。获取与数据库的连接。执行SQL语句和存储
结合创新idea：机器学习+运筹优化=CCF高端局 Ai多利机器学习人工智能
2024深度学习发论文&模型涨点之——机器学习+运筹优化机器学习是人工智能的一个分支，它使计算机系统能够从数据中学习并改进其性能，而无需进行明确的编程。运筹优化，也称为运筹学或运营管理，是应用数学的一个分支，它使用数学模型和算法来支持复杂决策过程的制定。机器学习与运筹优化的结合是一个前沿且活跃的研究领域，它们相互补充，为解决复杂问题提供了新的思路和方法。小编整理了一些机器学习+运筹优化【论文+代码
JuPyter(IPython) Notebooks中使用pip安装Python的模块 weixin_34218890 开发工具 python 人工智能
问题描述：没有带GPU的电脑，搞深度学习不是耍流氓嘛，我网上看到有个云平台，免费使用了一下，小姐姐很热情。使用过程如下：他们给的接口是Jupyter编辑平台，我就在上面跑了一个小例子。tensorflow和python环境是他们配置好的，不过我的例子中需要导入matplotlib.pylot模块。可是他们没有提供，怎么办呢？网上查了一下啊解决方法：采用如下方法：importpipdefMyPipi
【LangChain编程：从入门到实践】LangChain与其他框架的比较 AI天才研究院 Agentic AI 实战计算 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【LangChain编程：从入门到实践】LangChain与其他框架的比较1.背景介绍1.1人工智能发展现状在当今时代，人工智能(AI)已经成为科技领域中最热门和最具革命性的话题之一。随着计算能力的不断提升和算法的持续优化,AI系统正在不断扩展其应用范围,包括自然语言处理、计算机视觉、决策系统等各个领域。1.2LangChain概述在这种背景下,LangChain作为一个新兴的AI框架应运而生。L
重塑知识的圣殿：人工智能时代的教育革命与人文守护田园Coder 人工智能科普人工智能科普
教育，承载着文明火种传递的千年使命，其核心始终围绕两个永恒命题：如何让知识更有效地被获取？如何让个体潜能更充分地绽放？在信息爆炸、技能迭代加速的当代，传统教育模式——标准化课程、统一进度、有限师资、资源不均——正面临前所未有的压力。人工智能（AI）的崛起，如同一股强大的变革洪流，正以前所未有的深度和广度渗透教育生态的各个环节。从量身定制的学习路径到永不疲倦的智能导师，从虚拟现实的沉浸课堂到洞察学情
插入表主键冲突做更新 a-john
有以下场景：用户下了一个订单，订单内的内容较多，且来自多表，首次下单的时候，内容可能会不全（部分内容不是必须，出现有些表根本就没有没有该订单的值）。在以后更改订单时，有些内容会更改，有些内容会新增。问题：如果在sql语句中执行update操作，在没有数据的表中会出错。如果在逻辑代码中先做查询，查询结果有做更新，没有做插入，这样会将代码复杂化。解决： mysql中提供了一个sql语
Android xml资源文件中@、@android:type、@*、？、@+含义和区别 Cb123456 @+@?@*
一.@代表引用资源 1.引用自定义资源。格式：@[package:]type/name android：text="@string/hello" 2.引用系统资源。格式：@android:type/name android:textColor="@android:color/opaque_red"
数据结构的基本介绍天子之骄数据结构散列表树、图线性结构价格标签
数据结构的基本介绍数据结构就是数据的组织形式，用一种提前设计好的框架去存取数据，以便更方便，高效的对数据进行增删查改。正确选择合适的数据结构，对软件程序的高效执行的影响作用不亚于算法的设计。此外，在计算机系统中数据结构的作用也是非同小可。例如常常在编程语言中听到的栈，堆等，就是经典的数据结构。经典的数据结构大致如下：一：线性数据结构 (1)：列表 a
通过二维码开放平台的API快速生成二维码一炮送你回车库 api
现在很多网站都有通过扫二维码用手机连接的功能，联图网(http://www.liantu.com/pingtai/)的二维码开放平台开放了一个生成二维码图片的Api,挺方便使用的。闲着无聊，写了个前台快速生成二维码的方法。 html代码如下:(二维码将生成在这div下) ? 1 &nbs
ImageIO读取一张图片改变大小 3213213333332132 java IO image BufferedImage
package com.demo; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imageio.ImageIO; /** * @Description 读取一张图片改变大小 * @author FuJianyon
myeclipse集成svn（一针见血） 7454103 eclipse SVN MyEclipse
&n
装箱与拆箱----autoboxing和unboxing darkranger J2SE
4.2　自动装箱和拆箱基本数据(Primitive)类型的自动装箱(autoboxing)、拆箱(unboxing)是自J2SE 5.0开始提供的功能。虽然为您打包基本数据类型提供了方便，但提供方便的同时表示隐藏了细节，建议在能够区分基本数据类型与对象的差别时再使用。 4.2.1　autoboxing和unboxing 在Java中，所有要处理的东西几乎都是对象(Object)
ajax传统的方式制作ajax aijuans Ajax
//这是前台的代码 <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); String basePath = request.getScheme()+
只用jre的eclipse是怎么编译java源文件的？ avords java eclipse jdk tomcat
eclipse只需要jre就可以运行开发java程序了，也能自动编译java源代码，但是jre不是java的运行环境么，难道jre中也带有编译工具？还是eclipse自己实现的？谁能给解释一下呢问题补充：假设系统中没有安装jdk or jre，只在eclipse的目录中有一个jre，那么eclipse会采用该jre，问题是eclipse照样可以编译java源文件，为什么呢？ &nb
前端模块化 bee1314 模块化
背景：前端JavaScript模块化，其实已经不是什么新鲜事了。但是很多的项目还没有真正的使用起来，还处于刀耕火种的野蛮生长阶段。 JavaScript一直缺乏有效的包管理机制，造成了大量的全局变量，大量的方法冲突。我们多么渴望有天能像Java（import），Python (import)，Ruby(require)那样写代码。在没有包管理机制的年代，我们是怎么避免所
处理百万级以上的数据处理 bijian1013 oracle sql 数据库大数据查询
一.处理百万级以上的数据提高查询速度的方法： 1.应尽量避免在 where 子句中使用!=或<>操作符，否则将引擎放弃使用索引而进行全表扫描。 2.对查询进行优化，应尽量避免全表扫描，首先应考虑在 where 及 o
mac 卸载 java 1.7 或更高版本征客丶 java OS
卸载 java 1.7 或更高 sudo rm -rf /Library/Internet\ Plug-Ins/JavaAppletPlugin.plugin 成功执行此命令后，还可以执行 java 与 javac 命令 sudo rm -rf /Library/PreferencePanes/JavaControlPanel.prefPane 成功执行此命令后，还可以执行 java
【Spark六十一】Spark Streaming结合Flume、Kafka进行日志分析 bit1129 Stream
第一步，Flume和Kakfa对接，Flume抓取日志，写到Kafka中第二部，Spark Streaming读取Kafka中的数据，进行实时分析本文首先使用Kakfa自带的消息处理（脚本）来获取消息，走通Flume和Kafka的对接 1. Flume配置 1. 下载Flume和Kafka集成的插件，下载地址：https://github.com/beyondj2ee/f
Erlang vs TNSDL bookjovi erlang
TNSDL是Nokia内部用于开发电信交换软件的私有语言，是在SDL语言的基础上加以修改而成，TNSDL需翻译成C语言得以编译执行，TNSDL语言中实现了异步并行的特点，当然要完整实现异步并行还需要运行时动态库的支持，异步并行类似于Erlang的process（轻量级进程），TNSDL中则称之为hand，Erlang是基于vm(beam)开发，
非常希望有一个预防疲劳的java软件, 预防过劳死和眼睛疲劳,大家一起努力搞一个 ljy325 企业应用
　非常希望有一个预防疲劳的java软件，我看新闻和网站，国防科技大学的科学家累死了，太疲劳，老是加班，不休息，经常吃药，吃药根本就没用，根本原因是疲劳过度。我以前做java,那会公司垃圾，老想赶快学习到东西跳槽离开，搞得超负荷，不明理。深圳做软件开发经常累死人，总有不明理的人，有个软件提醒限制很好，可以挽救很多人的生命。相关新闻：（1）IT行业成五大疾病重灾区：过劳死平均37.9岁
读《研磨设计模式》-代码笔记-原型模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * Effective Java 建议使用copy constructor or copy factory来代替clone()方法： * 1.public Product copy(Product p){} * 2.publi
配置管理---svn工具之权限配置 chenyu19891124 SVN
今天花了大半天的功夫，终于弄懂svn权限配置。下面是今天收获的战绩。安装完svn后就是在svn中建立版本库，比如我本地的是版本库路径是C:\Repositories\pepos。pepos是我的版本库。在pepos的目录结构 pepos component webapps 在conf里面的auth里赋予的权限配置为 [groups]
浅谈程序员的数学修养 comsci 设计模式编程算法面试招聘
浅谈程序员的数学修养
批量执行 bulk collect与forall用法 daizj oracle sql bulk collect forall
BULK COLLECT 子句会批量检索结果，即一次性将结果集绑定到一个集合变量中，并从SQL引擎发送到PL/SQL引擎。通常可以在SELECT INTO、 FETCH INTO以及RETURNING INTO子句中使用BULK COLLECT。本文将逐一描述BULK COLLECT在这几种情形下的用法。有关FORALL语句的用法请参考：批量SQL之 F
Linux下使用rsync最快速删除海量文件的方法 dongwei_6688 OS
1、先安装rsync：yum install rsync 2、建立一个空的文件夹：mkdir /tmp/test 3、用rsync删除目标目录：rsync --delete-before -a -H -v --progress --stats /tmp/test/ log/这样我们要删除的log目录就会被清空了，删除的速度会非常快。rsync实际上用的是替换原理，处理数十万个文件也是秒删。
Yii CModel中rules验证规格 dcj3sjt126com rules yii validate
Yii cValidator主要用法分析： yii验证rulesit 分类： Yii yii的rules验证 cValidator主要属性 attributes ,builtInValidators,enableClientValidation,message,on,safe,skipOnError
基于vagrant的redis主从实验 dcj3sjt126com vagrant
平台: Mac 工具: Vagrant 系统: Centos6.5 实验目的: Redis主从实现思路制作一个基于sentos6.5, 已经安装好reids的box, 添加一个脚本配置从机, 然后作为后面主机从机的基础box 制作sentos6.5+redis的box mkdir vagrant_redis cd vagrant_
Memcached(二)、Centos安装Memcached服务器 frank1234 centos memcached
一、安装gcc rpm和yum安装memcached服务器连接没有找到，所以我使用的是make的方式安装，由于make依赖于gcc，所以要先安装gcc 开始安装，命令如下，[color=red][b]顺序一定不能出错[/b][/color]：建议可以先切换到root用户，不然可能会遇到权限问题：su root 输入密码...... rpm -ivh kernel-head
Remove Duplicates from Sorted List hcx2013 remove
Given a sorted linked list, delete all duplicates such that each element appear only once. For example,Given 1->1->2, return 1->2.Given 1->1->2->3->3, return&
Spring4新特性——JSR310日期时间API的支持 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
浅谈enum与单例设计模式 247687009 java 单例
在JDK1.5之前的单例实现方式有两种(懒汉式和饿汉式并无设计上的区别故看做一种)，两者同是私有构造器，导出静态成员变量，以便调用者访问。第一种 package singleton; public class Singleton { //导出全局成员 public final static Singleton INSTANCE = new S
使用switch条件语句需要注意的几点 openwrt c break switch
1. 当满足条件的case中没有break，程序将依次执行其后的每种条件（包括default）直到遇到break跳出 int main() { int n = 1; switch(n) { case 1: printf("--1--\n"); default: printf("defa
配置Spring Mybatis JUnit测试环境的应用上下文 schnell18 spring mybatis JUnit
Spring-test模块中的应用上下文和web及spring boot的有很大差异。主要试下来差异有：单元测试的app context不支持从外部properties文件注入属性 @Value注解不能解析带通配符的路径字符串解决第一个问题可以配置一个PropertyPlaceholderConfigurer的bean。第二个问题的具体实例是：
Java 定时任务总结一 tuoni java spring timer quartz timertask
Java定时任务总结一.从技术上分类大概分为以下三种方式： 1.Java自带的java.util.Timer类，这个类允许你调度一个java.util.TimerTask任务; 说明： java.util.Timer定时器，实际上是个线程，定时执行TimerTask类 &
一种防止用户生成内容站点出现商业广告以及非法有害等垃圾信息的方法 yangshangchuan rank 相似度计算文本相似度词袋模型余弦相似度
本文描述了一种在ITEYE博客频道上面出现的新型的商业广告形式及其应对方法，对于其他的用户生成内容站点类型也具有同样的适用性。最近在ITEYE博客频道上面出现了一种新型的商业广告形式，方法如下： 1、注册多个账号（一般10个以上）。 2、从多个账号中选择一个账号，发表1-2篇博文