hepan_defeng

贷款数据探索风险分析（EDA）

项目介绍

所谓探索性数据分析(Exploratory Data Analysis，以下简称EDA)，是指对已有的数据(特别是调查或观察得来的原始数据)在尽量少的先验假定下进行探索，通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。特别是当我们对这些数据中的信息没有足够的经验，不知道该用何种传统统计方法进行分析时，探索性数据分析就会非常有效。探索性数据分析在上世纪六十年代被提出，其方法由美国著名统计学家约翰·图基(John Tukey)命名。

本项目需解决的问题

本项目分析P2P平台Lending Club的贷款数据，探索数据分析过程中，并尝试回答以下2个问题：

1）利率与风险成正比，风险越高，利率越高，违约的可能线性越大，从P2P平台的数据来看，影响风险的因素有哪些？（为后续建模做准备）

2）了解P2P平台的业务特点、产品类型、资产质量、风险定价？

分析思路

我们可以将信贷信息分为信贷硬信息和信贷软信息。
任何可以量化客户的还款能力的信息均可以用作硬信息，可勾勒客户还款意愿的信息则为软信息。
信贷硬信息： 站在企业的角度，硬信息主要包括财务三大报表（资产负债表、利润表和现金流量表）以及信贷记录；站在个人角度硬信息主要包括：个人年收入、资产状况（借款是否拥有房产、车或理财产品）。
信贷软信息： 过往的信贷记录比较直接了解客户的还款意愿，以往发生违约次数较多的客户再次发生违约的概率相比其他客户大。客户的学历、年龄、目前工作所在单位的级别和性别等信息也可作为软信息。
因此，我们主要围绕着“客户是否具有偿还能力，是否具有偿还意愿”展开探索分析。

项目背景

作为旧金山的一家个人对个人的借贷公司，Lending Club成立于2006年。他们是第一家注册为按照美国证券交易委员会SEC(Securities and Exchange Commission)的安全标准向个人提供个人贷款的借贷公司。与传统借贷机构最大的不同是，Lending Club利用网络技术打造的这个交易平台，直接连接了个人投资者和个人借贷者，通过此种方式，缩短了资金流通的环节，尤其是绕过了传统的大银行等金融机构，使得投资者和借贷者都能得到更多实惠、更快捷。对于投资者来说可以获得更好的回报，而对于借贷者来说，则可以获得相对较低的贷款利率。

数据集

数据集是Lending Club平台发生借贷的业务数据（2017年第二季），具体数据集可以从Lending Club官网下载

本项目报告分析，我将如何运用Python操作数据和探索分析数据的思考过程均记录下来。

前期准备

import numpy as np 
import pandas as pd 
import matplotlib.pyplot as plt 
plt.style.use('ggplot')
import seaborn as sns 
sns.set_style('whitegrid')
%matplotlib inline
from pyecharts import Pie
#from missinggo import msno 
import warnings  #忽略弹出的warning
warnings.filterwarnings('ignore')

%matplotlib inline。IPython提供了很多魔法命令，使得在IPython环境中的操作更加得心应手，使用%matplotlib inline在绘图时，将图片内嵌在交互窗口，而不是弹出一个图片窗口。具体请查看Stackoverflow的解释。

获取数据

第二步，使用Pandas解析数据

Pandas是基于NumPy的一个非常好用的库，无论是读取数据、处理数据，用它都非常简单。学习Pandas最好的方法就是查看官方文档。
数据集的格式是CSV，因此我们用到pandas.read_csv方法，同时也将CSV内容转化成矩阵的格式。

data = pd.read_csv('C:/Users/Administrator/Desktop/EDA/LoanStats_2017Q2.csv' , encoding='latin-1',skiprows = 1

探索分析数据（EDA）

一旦获得了数据，下一步就是检查和探索他们。在这个阶段，主要的目标是合理地检查数据。例如：如果数据有唯一的标记符，是否真的只有一个；数据是什么类型，检查最极端的情况。他们是否有意义，有什么需要删除的吗？数据应该怎么调整才能适用于接下来的分析和挖掘？此外，数据集还有可能存在异常值。同时，我将会通过对数据进行简单的统计测试，并将其可视化。检查和探索数据的过程非常关键。因为下一步需要清洗和准备处理这些数据，只有进入模型的数据质量是好的，才能构建好的模型。（避免Garbage in, Garbage out）

首先预览基本内容，Pandas为我们提供很多可以方便查看和检查数数据的方法，有df.head(n)、df.tail(n)、df.shape()、http://df.info() 等。

df.head(n)查看数据前n行；df.tail(n))查看数最后n行；df.shape查看数据有多少行和列；

处理缺失值

统计每列属性缺失值的数量。

def not_null_count(column):
    column_null = pd.isnull(column)
    null = column[column_null]
    return len(null)

half_count = len(data)/2 # 设定阀值
loans = data.dropna(thresh = half_count, axis = 1 ) #若某一列数据缺失的数量超过阀值就会被删除
#(105453, 103)处理的数据
data.to_csv('loans_2017q2.csv', index = False) # 将预处理后的数据转化为cs

Pandas的describe()不能统计数据类型为object的属性，部分数据int_rate和emp_length数据类型都是object，稍后分析数据时需将它们转化为类型为floate的数字类型。

数据集的属性较多，我们初步聚焦几个重要特征展开分析，特别是我们最关心的属性贷款状态。

used_col = ['loan_amnt', 'term', 'int_rate', 'grade', 'issue_d', 'addr_state', 'loan_status','purpose', 'annual_inc', 'emp_length'] # 贷款金额、贷款期限、贷款利率、信用评级、业务发生时间、业务发生所在州、贷款状态、贷款用途
used_data = loans[used_col]

def not_null_count(column):
    column_null = pd.isnull(column)  #判断某列属性是否存在缺失值
    null = column[column_null]
    return len(null)
column_null_count = used_data.apply(not_null_count)  
print (column_null_count)

查看数据缺失值情况，每个列数据均有两个缺失值，占总数据比例极小，可直接删除

所有缺失值都在同一行，因此可直接删除缺失值所在行。

单变量分析

1）贷款状态分布

def coding(col, codeDict):
    colCoded = pd.Series(col, copy=True)
    for key, value in codeDict.items():
        colCoded.replace(key, value, inplace=True)
    return colCoded
#把贷款状态LoanStatus编码为违约=1, 正常=0:
pd.value_counts(used_data["loan_status"])
used_data["Loan_Status_Coded"] = coding(used_data["loan_status"], {'Default':0,'Current':0,'Fully Paid':0,'In Grace Period':1,'Late (31-120 days)':1,'Late (16-30 days)':1,'Charged Off':1})
pieData = pd.value_counts(used_data["Loan_Status_Coded"])
attr = ["normal", "break"]
plt.axes(aspect=1)
plt.pie(x=pieData, labels=attr,autopct='%3.1f %%',labeldistance=1.1, startangle = 90,pctdistance = 0.6)

从图中可以看出，平台贷款发生违约的数量占少数。贷款状态为正常的有99286个，贷款正常状态占比为94.2%。贷款状态将作为我们建模的标签，贷款状态正常和贷款状态违约两者数量不平衡，绝大多数常见的机器学习算法对于不平衡数据集都不能很好地工作。

2）带款金额分布

plt.figure(figsize=(18, 9))
sns.set()
sns.set_context("notebook", font_scale=1, rc={"lines.linewidth":2 } )
sdisplot_loan = sns.distplot(used_data['loan_amnt'] )
plt.xticks(rotation=90)
plt.xlabel('Loan amount')
plt.title('Loan amount\'s distribution')
sdisplot_loan.figure.savefig("Loan_amount")

平台贷款呈现右偏正态分布，贷款金额最小值为1,000美元，最大值为40,000美元，贷款金额主要集中在10,000美元左右，中位数为12,000美元，可以看出平台业务主要以小额贷款为主。贷款金额越大风险越大。

3）贷款期限分布

pieData2 = [int(i) for i in used_data['term'].value_counts()]
labels1 = ['36 month', '60 month']
plt.axes(aspect=1)
plt.pie(x=pieData2, labels=labels1,autopct='%3.1f %%',labeldistance=1.1, startangle = 90,pctdistance = 0.6)

平台贷款产品期限分为36个月和60个月两种，其中贷款期限为60个月的贷款占比为26.9%，贷款期限为36个月的贷款占比为73.1%。一般来说贷款期限越长，不确定性越大，违约的可能性更大，期限较长的贷款产品风险越高。从期限角度看，平台风险偏小的资产占大部分。

4）贷款产品用途种类比较
histData = used_data['purpose'].value_counts()
plt.figure(figsize=(18, 9))
sns.set()
sns.set_context("notebook", font_scale=1.5, rc={"lines.linewidth": 2.5})
total = float(len(used_data.index))
ax = sns.countplot(x="purpose", data=used_data, palette="Set2")
ax.set(yscale = "log")
plt.xticks(rotation=90)
plt.title('Purpose')
plt.show()
P2P平台贷款用途最多的为债务重组（借新债还旧债），其次是信用卡还款，第三是住房改善。一般来说，贷款用途为债务重组和信用卡还款的客户现金流较为紧张，此类客户也是在传统银行渠道无法贷款才转来P2P平台贷款，这部分客户的偿还贷款能力较弱，发生违约的可能性较高。还有部分贷款用途为Other的贷款，需要通过其他维度来分析其风险。
5）客户信用等级占比
pieData3 = loans['grade'].value_counts()
pieData3 = [int(i) for i in pieData3]
labels2 = ['C','B','A','D','E','F','G']
pie = Pie("Grade")
pie.add("", labels2, pieData3,is_label_show=True,is_legend_show=False)
pie.render()#将图片一
Lending Club平台对客户的信用等级分7类，A~G，信用等级为A的客户信用评分最高，信用等级为G的客户最低，信用等级的客户发生违约的可能性更低。目前，平台客户信用等级占比较多的客户为C类，其次是B类和A类，三者合计占比为81.62%。此外信用等级为E、F、G类的客户占比为6.99%。可以看出Lending Club授信部门对申请人的资信情况把关较严。
6）贷款利率种类分布
used_data['int_rate_num']= used_data['int_rate'].str.rstrip("%").astype("float")
plt.figure(figsize=(18, 9))
sns.set()
sns.set_context("notebook", font_scale=1, rc={"lines.linewidth":2 } )
sdisplot_loan = sns.distplot(used_data['int_rate_num'] )
plt.xticks(rotation=90)
plt.xlabel('Interest Rate')
plt.title('Interest Rate\'s distribution')
Lending Club平台贷款利率呈现右偏正态分布，利率中位数12.62%，利率最高值为31.00%，利率最小值为5.32%，总体利率水平相对传统银行较高。。利率是资金的价格，利率越高，借款人借贷成本越高，借款人违约的可能性越高。Lending Club平台贷款利率呈现右偏正态分布，利率中位数12.62%，利率最高值为31.00%，利率最小值为5.32%。利率是资金的价格，利率越高，借款人借贷成本越高，借款人违约的可能性越高。

多维变量分析

1）探索贷款与时间的关系
used_data['issue_d2'] = pd.to_datetime(used_data['issue_d'])#时间转换
used_data['issue_month'] = used_data['issue_d2'].apply(lambda x: x.to_period('M'))#统一转换为月份
amount_month = used_data.groupby('issue_month')['loan_amnt'].sum()
amount_month = pd.DataFrame(amount_month).reset_index()
plt.figure(figsize=(15, 9))
sns.set()
sns.set_context("notebook", font_scale=1, rc={"lines.linewidth": 2})
plot1 = sns.barplot(x='issue_month', y= 'loan_amnt', data = amount_month)
plt.xlabel('Month')
plt.ylabel('Loan_amount')
plt.title('Mounth VS Loan_amount')
plot1.figure.savefig("Mounth VS Loan_amount.png")
二季度4月份贷款最低，而5月和6月的贷款金额基本持平。由于本数据集只包含2017Q2的数据，如果数据集能包括横跨几年业务数据，可以将数据按年按月做横向和纵向对比，更能反映公司业务的发展情况。初步看来，L eding Club 平台在2017Q2业务持续增长 。
2）探索信用评级、贷款期限和利率的关系
group1 = used_data.groupby(['grade', 'term'])['int_rate_num'].mean()
group1= pd.DataFrame(group1).reset_index()
#group_pivot = group1.pivot(index='grade',columns='term',values='int_rate_num')
plt.figure(figsize=(15, 9))
sns.set_context("notebook", font_scale=1.2, rc={"lines.linewidth": 2.5})
sboxplot2 = sns.barplot(x="grade", y="int_rate_num",hue='term', data=group1)
sns.despine(top=True)
plt.xticks(rotation=90)
plt.title('Int_rate_num VS Term')
贷款期限长意味着不确定性增加，风险也随之增加，期限较长的贷款在同信用等级下的借款利率也相对高，但是并不明显，其中原因有待探索。
3）探索贷款用途与利率的关系
plt.figure(figsize=(15, 9))
sns.set_context("notebook", font_scale=1.5, rc={"lines.linewidth": 2.5})
sboxplot = sns.boxplot(y="purpose", x="int_rate_num", data=used_data)
sns.despine(top=True)
plt.xlabel('Interest_Rate')
plt.ylabel('Purpose')
plt.xticks(rotation=90)
plt.show()
sboxplot.figure.savefig("Purpose VS Rate")
贷款用途分别为house、small_business以及Other的贷款利率较高。其中贷款用途为house的贷款利率为最高，经探索，house带款中期限为60month达到30%。
4）探索贷款利率与违约次数之间的关系
plt.figure(figsize=(15, 9))
sns.set_context("notebook", font_scale=1.2, rc={"lines.linewidth": 2.5})
sboxplot2 = sns.boxplot(x="delinq_2yrs", y="int_rate_num", data=used_data)
sns.despine(top=True)
plt.xticks(rotation=90)
plt.title('Interest Rate VS Delinq_2yrs')
sboxplot2.figure.savefig("Interest Rate VS Delinq_2yrs")
违约次数越多的人意味着自身财务状况较差，偿付能力也较低，因此此类客户贷款风险越高，对该部分客户应严格审查，确定其贷款资质。

5）探索利率、收入、工作年限以及贷款状态之间的关系

mapping_dict = {'grade':{'A':7,'B':6,'C':5,'D':4,'E':3,'F':2,'G':1}}
used_data = used_data.replace(mapping_dict)
mapping_dict1 = {
    "emp_length": {
        "10+ years": 10,
        "9 years": 9,
        "8 years": 8,
        "7 years": 7,
        "6 years": 6,
        "5 years": 5,
        "4 years": 4,
        "3 years": 3,
        "2 years": 2,
        "1 year": 1,
        "< 1 year": 0,
        "n/a": 0
    }
}
used_data = used_data.replace(mapping_dict1)
group2 = used_data.groupby('emp_length')['grade'].mean()
group3 = pd.DataFrame(group2).reset_index()
sns.set()
plt.figure(figsize=(15, 9))
sns.set_context("notebook", font_scale=1, rc={"lines.linewidth": 5})
sbarplot = sns.barplot(y='grade' , x='emp_length' , data=group3)
plt.xlabel('Emp_length')
plt.ylabel('Grade')
plt.xticks(rotation=90)
plt.title('Grade VS Emp_length')
sbarplot.figure.savefig("State VS Loan_amount")

工作年限越长，客户的收入也越高，自身现金流比较充足，此类客户偿还债务的能力较强。但是从上图来看，工作年限的差别而导致的贷款评级并无明显差别。由此可推测，公司进行了严格的客户筛选，将工作年限短，还款能力差的客户剔除了，从而导致客户评分在各个工作年限上分布无明显差别。

总结

names = ['loan_amnt', 'annual_inc' ,'emp_length', 'Loan_Status_Coded','int_rate' ] #设置变量名
correlations = used_data.corr()
# plot correlation matrix
plt.figure(figsize=(19, 9))
fig = plt.figure() #调用figure创建一个绘图对象
ax = fig.add_subplot(111)
cax = ax.matshow(correlations, vmin=-1, vmax=1)  #绘制热力图，从-1到1
fig.colorbar(cax)  #将matshow生成热力图设置为颜色渐变条
ticks = np.arange(0,5,1) #生成0-5，步长为1
ax.set_xticks(ticks)  #生成刻度
ax.set_yticks(ticks)
ax.set_xticklabels(names) #生成x轴标签
ax.set_yticklabels(names)
plt.xticks(rotation=90)
fig.savefig("Corr")
plt.show()

1.影响风险的因素

分析企业偿债能力主要考察企业的资产状况和经营情况，只有负债结构与企业盈利能力合理匹配，企业才能持续稳定地发展。

个人的资产状况好比企业的资产负债表，个人收入犹如企业的利润表或现金流量表。高收入的客户意味着有良好的现金流，偿还债务能力较高，违约的可能性较低，一般来说此类客户的信用评级也相对较高，平台对应的贷款资产风险也相对较低；个人过往的信用记录能够反映客户的偿还意愿，因此应根据个人资产状况以及个人过往的信用记录对用户进行评分，对于评分过低的客户应不予贷款。

1）平台业务持续稳定发展：第二季度业务持续增长，平台业务主要集中于加州、德克萨斯州和纽约州。

2）平台贷款金额以小额贷款为主，贷款金额主要集中在10,000美元左右，小而散的贷款金额能够很好的分散资金风险。

3)平台贷款利率较高，贷款利率集中在12.62%，贷款利率相对传统金融机构较高。

4)平台二季度违约风险得到良好的控制，平台贷款发生违约的数量较少，贷款正常状态占比为94.2%

3.个人建议

1）完善客户画像和产品设计：信贷业务开展前，首先要明确信贷机构的目标客户群、目标客户的特征和画像信息是什么。例如Lending Club平台的small business业务，中小企业目标群体的特征描述应包括能够反映企业的资产负债和现金流相关的财务报表信息或表外债务信息等。完整的客户信息有利于风控人员和系统分析把控违约风险。

2）优化贷款模型：完善客户信息的同时，借助机器学习的技术持续优化贷款模型。

oceanbase与mysql性能对比_金融业分布式数据库:TDSQL、HotDB、OceanBase等原理、POC性能对比及选择是...... 高中物理宋老师
本帖最后由Amygo于2020-3-1501:33编辑1、分布式的实现，是通过中间件实现分布式，还是源码级别引入分布式算法实现的？解答：(1)分布式数据库是至少由计算节点、存储节点、管理平台、备份还原程序四个部分组成，从数据库系统理论知识上说分成：全局自治和场地自治，也粗略认为：全局可理解为计算节点、场地可理解为存储节点(2)这个问题的标题“中间件实现分布式还是源码级别引入分布式算法”这个说法存在
大数据点燃智能制造变革之火——从数据到价值的跃迁 Echo_Wish 大数据高阶实战秘籍大数据制造
大数据点燃智能制造变革之火——从数据到价值的跃迁在全球制造业向智能化转型的浪潮中，大数据已然成为点燃变革的关键火种。从车间到供应链，从设备到产品生命周期，制造业正通过大数据分析找到隐形的效率优化机会，打破传统生产模式的桎梏。作为Echo_Wish，今天我将和大家探讨大数据如何融入智能制造，助力实现生产效率和业务价值的双重飞跃。一、智能制造的核心诉求：数据驱动的决策与执行智能制造的目标是通过数据驱动
AI预测体彩排3新模型百十个定位预测+胆码预测+杀和尾+杀和值2025年3月21日第25弹 GIS小天体彩排3 人工智能机器学习彩票算法
前面由于工作原因停更了很长时间，停更期间很多彩友一直私信我何时恢复发布每日预测，目前手头上的项目已经基本收尾，接下来恢复发布。当然，也有很多朋友一直咨询3D超级助手开发的进度，在这里统一回复下。由于本人既精通编程+大数据分析，也热衷于彩票研究，所以很多彩友通过一些渠道找到了我。目前，加我的已有不少彩友，分成了3类人群：第一类：平时不懂数据分析，买彩全靠瞎猜乱蒙，这些朋友希望借助我的技术和方法来给他
揭秘时空大数据：详细介绍、真实应用场景和数据示例解析陈书予 GIS开发（时空大数据）前端大数据 python 时序数据库
时空大数据(SpatialBigData)是指利用空间环境和时间环境信息，以及数字技术，从多种来源获取的海量、动态的、多维的数据，对空间环境和时间环境进行实时监测，并基于复杂的数据分析和挖掘，获取有价值的信息。时空大数据示例：1）社会网络数据：Twitter、Facebook、Instagram等社交媒体上的海量数据，可以通过时间、空间、主题等来提取有价值的信息。2）遥感图像数据：通过遥感技术从卫
python基于Django的旅游景点数据分析及可视化的设计与实现 7blk7 qq2295116502 python django 数据分析
目录项目介绍技术栈具体实现截图Scrapy爬虫框架关键技术和使用的工具环境等的说明解决的思路开发流程爬虫核心代码展示系统设计论文书写大纲详细视频演示源码获取项目介绍大数据分析是现下比较热门的词汇，通过分析之后可以得到更多深入且有价值的信息。现实的科技手段中，越来越多的应用都会涉及到大数据随着大数据时代的到来，数据挖掘、分析与应用成为多个行业的关键,本课题首先介绍了网络爬虫的基本概念以及技术实现方法
Python 自动探索性数据分析库———KLib 若木胡 tools python 数据分析开发语言
Python自动探索性数据分析库——KLib一、引言在当今数据驱动的时代，数据分析师和科学家们面临着海量的数据需要处理和分析。探索性数据分析（EDA）作为数据处理流程中的关键环节，旨在帮助人们快速理解数据的特征、分布、相关性等重要信息，从而为后续的深入分析、建模以及决策提供坚实的基础。Python以其丰富的生态系统和强大的功能在数据分析领域占据着重要地位，而KLib则是其中一款专注于自动探索性数据
源码篇：python生成《蔬菜店销售数据分析报告》案例 IT小本本 python python 数据分析开发语言
本文将通过Python实现一个完整的蔬菜销售数据分析项目，涵盖数据生成、清洗、分析及可视化全流程。我们将利用模拟数据生成技术创建90天的销售记录，通过Pandas进行数据处理，结合Matplotlib和Seaborn实现多样化的可视化图表，并最终生成动态交互报告。一、数据生成：模拟真实销售场景为了模拟真实的蔬菜销售数据，我们设计了包含10种蔬菜（白菜、土豆、西红柿等）的90天销售记录。数据生成逻辑
时间序列分析的军火库：AutoTS、Darts、Kats、PaddleTS、tfts 和 FancyTS解析赛卡大数据人工智能深度学习 python 概率论数学建模
引言：时间序列分析的现代挑战时间序列分析在多个领域中扮演着关键角色，包括工程、金融、气象、工业预测等。随着开源工具的快速发展，开发者可以通过多种库快速实现时间序列预测与分析。本文将对AutoTS、Darts、Kats、PaddleTS、tfts和FancyTS六大主流库进行详细解析，并提供代码示例，帮助你根据实际需求选择最佳工具。核心库技术解析与场景化实践1.AutoTS：自动化时间序列预测技术亮
金融、教育等行业如何高效利用wangEditor实现word文档网页化编辑？ 2501_90699850 金融 word umeditor粘贴word ueditor粘贴word ueditor复制word ueditor上传word图片 ueditor导入word
要求：开源，免费，技术支持编辑器：wangEditor前端：vue2,vue3,vue-cli,html5后端：java,jsp,springboot,asp.net,php,asp,.netcore,.netmvc,.netform群体：学生,个人用户,外包,自由职业者,中小型网站,博客,场景：数字门户,数字中台,站群,内网，外网，信创国产化环境，web截屏行业：医疗，教育，建筑，政府，党政，国
数据分析面临的三大挑战该如何解决銨靜菂等芐紶数据挖掘大数据数据分析
转载自品略图书馆http://www.pinlue.com/article/2020/09/0712/2611202048648.html有效的分析已成为决定性因素，很明显，掌握它的人会蓬勃发展。但是，实现这一目标的过程并非没有障碍。最常见的数据分析挑战是什么？公司如何自信地应对它们？下面就来介绍一下。1、浏览预算限制数据分析领导者需要在当下采取行动，但同时也需要考虑未来。平衡这些需求要求他们在制
数据分析过程中，发现数值缺失，怎么办？学掌门大数据数据分析 IT 数据分析数据挖掘
按照数据缺失机制，数据分析过程中，我们可以将其分为以下几类：（1）完全随机缺失（MCAR）：所缺失的数据发生的概率既与已观察到的数据无关，也与未观察到的数据无关。（2）随机缺失（MAR）：假设缺失数据发生的概率与所观察到的变量是有关的，而与未观察到的数据的特征是无关的。MCAR与MAR均被称为是可忽略的缺失形式。（3）不可忽略的缺失（NIM）：亦称为非随机缺失，即如果不完全变量中，数据的缺失既依赖
机身越「有型」，生态越开「阔」！华为Pura X带来全新应用市场 harmonyos
3月20日，华为Pura先锋盛典及鸿蒙智行新品发布会如期举行，正式推出首款搭载HarmonyOS5的新形态阔折叠手机PuraX，硬件设计实现突破性创新。生态上，鸿蒙应用市场（AppGallery）也完成全新升级，整合了生活、娱乐、办公、金融等多元场景，精准满足用户需求，实现应用高效获取与流畅操作体验。鸿蒙应用市场（AppGallery）打出“找应用，上AppGallery”的口号，通过本次升级，打
Umi-OCR：一款强大而高效的文字识别工具裘心国Trent
Umi-OCR：一款强大而高效的文字识别工具Umi-OCR一款强大而高效的文字识别工具项目地址:https://gitcode.com/Resource-Bundle-Collection/6adda介绍Umi-OCR是一款基于深度学习技术的开源文字识别工具，特别适合日常办公、学术研究及数据分析等场景。它能有效解决将图像中的文字快速转化为可编辑文本的需求，极大提升工作效率。此工具依托于先进的计算机
关于离子滤波小记文弱_书生乱七八糟人工智能计算机视觉算法
粒子滤波（ParticleFilter,PF）粒子滤波是一种基于蒙特卡洛方法的贝叶斯滤波算法，主要用于解决非线性、非高斯的状态估计问题。它广泛应用于机器人定位、目标跟踪、金融建模等领域。1.粒子滤波的基本概念粒子滤波的核心思想是用一组加权的**随机样本（粒子）**来近似后验概率分布，而非采用卡尔曼滤波那样的参数化分布假设（如高斯分布）。设系统的状态模型如下：xk=f(xk−1,uk,wk)x_k=
大学期间如何学习利用AI der丸子吱吱吱学习人工智能
一、引言人工智能（AI）是当今世界技术发展的重要方向，它已经渗透到医疗、金融、交通、娱乐等各个领域。随着AI技术的快速发展，它不仅改变了我们的生活，也带来了巨大的职业机会。然而，面对如此广阔的领域，作为大学生，如何在本科阶段有效地学习和利用AI，成了许多同学的困惑。本文将详细介绍大学生在本科阶段如何通过合理的学习路线、方法和工具，逐步掌握AI的核心技术，并为日后进入AI行业打下坚实的基础。通过这篇
传统金融和分布式金融倒霉男孩 DeFi 金融分布式
文章目录传统金融和分布式金融一、传统金融机构的核心问题深度剖析1.支付与清算系统的结构性缺陷2.金融排斥（FinancialExclusion）的根源3.中心化风险的爆发与传导二、DeFi的技术突破与创新机制1.支付与清算：区块链的底层重构2.普惠金融的技术民主化3.去中心化治理与透明化运作三、DeFivs传统金融的范式革命1.价值传递范式的颠覆2.风险分散机制的升级3.经济模型的创新实验四、De
GraphCube、Spark和深度学习技术赋能快消行业关键运营环节 weixin_30777913 开发语言大数据深度学习人工智能 spark
在快消品（FMCG）行业，需求计划（DemandPlanning）、库存管理（InventoryManagement）和需求供应管理（DemandSupplyManagement）是影响企业整体效率和利润水平的关键运营环节。GraphCube图多维数据集技术、Spark大数据分析处理技术和深度学习技术的结合，为这些环节提供了智能化、动态化和实时化的解决方案，显著提升业务运营效率和企业利润。一、技术
TK矩阵系统：高效管理与智能化操作平台 m0_74891046 矩阵
随着TikTok等社交媒体平台的快速发展，短视频创作和内容运营逐渐成为互联网行业的重要组成部分。为了帮助内容创作者、品牌运营商以及数据分析人员更高效地管理多个TikTok账号并优化运营策略，TK矩阵系统提供了一种全新的解决方案，结合了先进的软件技术与硬件设施，旨在简化操作流程，提高工作效率。TK矩阵系统概述TK矩阵系统是一款集成软件与硬件的综合平台，专为TikTok内容管理和数据采集设计。系统使用
一、大语言模型微调 vs. 大语言模型应用 AI Echoes 深度学习人工智能 deepseek 机器学习算法
一、大语言模型微调vs.大语言模型应用1.微调（Fine-Tuning）的含义与特点定义与作用微调指在预训练好（通用）的基础模型上，通过在特定领域或任务的数据集上进一步训练来调整模型参数，使其在该领域任务中获得更优表现。这种方法可以使通用模型“定制化”，更好地理解专业术语和领域知识，从而提升准确性和响应质量。例如，为医疗、法律、金融等垂直领域构建专属模型，往往需要在预训练模型基础上进行微调。特点参
领域驱动设计（DDD）与MVC架构：理念对比与架构选择以恒1 mvc 架构
领域驱动设计（DDD）与MVC架构：理念对比与架构选择一、架构之争的本质：业务复杂度驱动技术演进在软件开发领域，没有银弹式的完美架构，只有适合当前业务场景的合理选择。MVC与DDD的区别本质上是业务复杂度与架构响应能力的匹配问题。让我们通过一个真实案例展开思考：案例背景某金融科技公司初期采用MVC架构开发支付系统，随着业务扩展，新增跨境支付、分账系统、风控规则等功能后，代码库逐渐演变成"大泥球"架
AI实干家：HK深度体验-【第3篇-香港、新加坡、深圳、上海、首尔五座城市在金融数据维度的对比分析】 SZ0771 人工智能大数据
以下是香港、新加坡、深圳、上海、首尔五座城市在金融数据维度的对比分析，涵盖货币流通量、存货款规模、资本市场活跃度、国际贸易、外资及外汇储备等关键指标，结合最新公开数据及全球金融中心排名动态：一、货币流通量（M0-M1-M2）由于城市层面货币供应量（M0、M1、M2）数据通常由国家统一统计，以下以金融机构本外币存款余额（反映广义货币M2的存量规模）为主要参考：城市本外币存款余额（2024年末）增速（
拼多多根据ID取商品详情原数据API接口的开发、运用与收益前端后端运维数据挖掘api
拼多多作为中国电商市场的重要参与者，通过开放平台提供了丰富的API接口，其中根据ID取商品详情原数据的API接口尤为重要。该接口允许开发者通过编程方式获取商品的详细信息，为电商数据分析、竞品分析、价格监测、商品推荐等多个领域带来了丰富的应用场景和显著的收益。本文将深入解析拼多多根据ID取商品详情原数据API接口的开发、运用与收益，并提供相关的代码示例。一、拼多多商品详情API接口的开发拼多多开放平
DeepSeek带来服务器与显卡需求激增的核心逻辑 DeepSeek+NAS 人工智能服务器运维网络安全计算机网络
随着DeepSeek等开源AI模型的普及，个人开发者和小型企业正加速构建私有化AI服务器，以处理敏感数据和定制化任务。这种趋势不仅重构了算力需求的结构，更推动服务器和显卡市场进入新一轮增长周期。以下从技术迭代、行业需求、市场格局三个维度展开论述。一、私有化部署：从数据安全到算力自主的核心驱动力数据隐私与合规性需求公共AI平台的数据泄露风险促使企业选择本地化部署。例如，医疗机构的患者数据、金融企业的
智见未来：多大模型协同的数据分析新范式一ge科研小菜菜人工智能大数据人工智能大数据
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注1.引言随着大语言模型（LLM）的快速发展，ChatGPT、DeepSeek、Grok等AI模型在数据分析和洞察生成方面展现出巨大潜力。利用多个LLM的协同能力，可以增强数据分析的多角度解读、减少单一模型的偏差，并优化洞察生成的深度和精准度。本文探讨如何结合多个LLM，在数据分析领域实现更可靠的洞察生成，并提供具体的策略、方法和应用场景。2.主要
Ceph数据恢复方案–分布式文件系统删除数据的恢复 San结构数据恢复数据恢复相关 ceph
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、Ceph的三种存储结构二、Ceph中删除数据的恢复提取1.本次案例情况简介：2.数据分析：2.1：BlueStore架构2.2分布式存储中元数据概述2.3提取元数据2.3.2：获取meta_data2.3.4.元数据整理2.3.5.计算数据地址3.数据恢复提取总结前言什么是分布式文件系统分布式文件系统（Distribu
学习Python如何高效处理CSV文件的技巧！程序员总部 python python json
在Python中，处理CSV文件是一项非常常见的任务，特别是在数据分析和数据科学领域。CSV文件的全称是Comma-SeparatedValues，顾名思义，它以逗号为分隔符来存储表格数据。这种格式简单易读，也很方便进行数据的存储和交换。接下来就让我们一起探讨一下如何在Python中读取和写入CSV文件吧！CSV模块简介Python内置了一个非常强大的库，名为csv，这个库专门用于处理各种CSV文
玛哈特矫平机：引领制造业平整技术的新篇章玛哈特-小易制造校平机矫平机大数据微信公众平台
玛哈特矫平机：引领制造业平整技术的新篇章在制造业的广阔舞台上，材料的平整度是确保产品质量与精度的关键要素。玛哈特矫平机，凭借其出色的性能和前沿技术，正逐步成为推动制造业发展的重要驱动力。技术的飞跃与创新的引领玛哈特矫平机不仅代表了传统矫平技术的升级，更是一次技术的飞跃和创新的引领。它融合了先进的传感器网络、实时数据分析系统以及自动化控制平台，为材料矫平提供了智能化的解决方案。这种创新的技术组合，使
基于Python的智能决策支持系统：实现智能化决策的关键要素 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型自然语言处理人工智能语言模型编程实践开发语言架构设计
文章目录基于Python的智能决策支持系统：实现智能化决策的关键要素11.背景介绍2.核心概念与联系数据收集与预处理模型构建与训练决策规则生成与优化决策结果评估与反馈3.核心算法原理具体操作步骤数据挖掘算法机器学习算法优化算法4.数学模型和公式详细讲解举例说明线性回归模型最小二乘法5.项目实践：代码实例和详细解释说明6.实际应用场景金融领域医疗领域供应链管理智能制造7.工具和资源推荐编程语言和开发
区块链驱动金融第四章——比特币实用指南：存储与使用全解析小DuDu 区块链金融
在比特币的世界里，存储和使用比特币是每个参与者都必须面对的重要环节。第四章围绕这两个关键方面展开了详细的阐述，为我们提供了全面而深入的见解。现在，就让我们一起走进这一章，探索如何安全、便捷地存储和使用比特币。比特币的存储方式：多样选择，各有优劣简单本地储存：便捷与风险并存把比特币存储在本地设备上是最直接的方式，就像把钱放在钱包里一样方便。人们通常会使用比特币钱包软件来管理比特币和私钥，通过这些软件
基于Wasm的边缘计算Pandas：突破端侧AI的最后一公里——让数据分析在手机、IoT设备上飞驰 Eqwaak00 Pandas 人工智能 wasm 边缘计算 pandas 架构深度学习
引言：边缘计算的算力觉醒在智能家居设备每秒产生数万条传感器数据、手机App需要实时分析用户行为的今天，传统云计算模式面临高延迟、隐私风险、带宽成本三大挑战。本文将揭示如何通过WebAssembly（Wasm）+Pandas的技术组合，在边缘设备上实现零云端依赖的实时数据分析，并通过智慧工厂设备预测性维护案例，展示从理论到工程的全链路实现。一、技术架构设计1.1边缘计算范式演进mermaid：gra
戴尔笔记本win8系统改装win7系统 sophia天雪 win7 戴尔改装系统 win8
戴尔win8 系统改装win7 系统详述第一步：使用U盘制作虚拟光驱： 1）下载安装UltraISO：注册码可以在网上搜索。 2）启动UltraISO，点击“文件”—》“打开”按钮，打开已经准备好的ISO镜像文
BeanUtils.copyProperties使用笔记 bylijinnan java
BeanUtils.copyProperties VS PropertyUtils.copyProperties 两者最大的区别是： BeanUtils.copyProperties会进行类型转换，而PropertyUtils.copyProperties不会。既然进行了类型转换，那BeanUtils.copyProperties的速度比不上PropertyUtils.copyProp
MyEclipse中文乱码问题 0624chenhong MyEclipse
一、设置新建常见文件的默认编码格式，也就是文件保存的格式。在不对MyEclipse进行设置的时候，默认保存文件的编码，一般跟简体中文操作系统（如windows2000，windowsXP）的编码一致，即GBK。在简体中文系统下，ANSI 编码代表 GBK编码;在日文操作系统下，ANSI 编码代表 JIS 编码。 Window-->Preferences-->General -
发送邮件不懂事的小屁孩 send email
import org.apache.commons.mail.EmailAttachment; import org.apache.commons.mail.EmailException; import org.apache.commons.mail.HtmlEmail; import org.apache.commons.mail.MultiPartEmail;
动画合集换个号韩国红果果 html css
动画指一种样式变为另一种样式 keyframes应当始终定义0 100 过程 1 transition 制作鼠标滑过图片时的放大效果 css .wrap{ width: 340px;height: 340px; position: absolute; top: 30%; left: 20%; overflow: hidden; bor
网络最常见的攻击方式竟然是SQL注入蓝儿唯美 sql注入
NTT研究表明，尽管SQL注入（SQLi）型攻击记录详尽且为人熟知，但目前网络应用程序仍然是SQLi攻击的重灾区。信息安全和风险管理公司NTTCom Security发布的《2015全球智能威胁风险报告》表明，目前黑客攻击网络应用程序方式中最流行的，要数SQLi攻击。报告对去年发生的60亿攻击行为进行分析，指出SQLi攻击是最常见的网络应用程序攻击方式。全球网络应用程序攻击中，SQLi攻击占
java笔记2 a-john java
类的封装： 1，java中，对象就是一个封装体。封装是把对象的属性和服务结合成一个独立的的单位。并尽可能隐藏对象的内部细节（尤其是私有数据） 2，目的：使对象以外的部分不能随意存取对象的内部数据（如属性），从而使软件错误能够局部化，减少差错和排错的难度。 3，简单来说，“隐藏属性、方法或实现细节的过程”称为——封装。 4，封装的特性： 4.1设置
[Andengine]Error：can't creat bitmap form path “gfx/xxx.xxx” aijuans 学习Android遇到的错误
最开始遇到这个错误是很早以前了，以前也没注意，只当是一个不理解的bug，因为所有的texture，textureregion都没有问题，但是就是提示错误。昨天和美工要图片，本来是要背景透明的png格式，可是她却给了我一个jpg的。说明了之后她说没法改，因为没有png这个保存选项。我就看了一下，和她要了psd的文件，还好我有一点
自己写的一个繁体到简体的转换程序 asialee java 转换繁体 filter 简体
今天调研一个任务，基于java的filter实现繁体到简体的转换，于是写了一个demo，给各位博友奉上，欢迎批评指正。实现的思路是重载request的调取参数的几个方法，然后做下转换。
android意图和意图监听器技术百合不是茶 android 显示意图隐式意图意图监听器
Intent是在activity之间传递数据;Intent的传递分为显示传递和隐式传递显式意图：调用Intent.setComponent() 或 Intent.setClassName() 或 Intent.setClass()方法明确指定了组件名的Intent为显式意图，显式意图明确指定了Intent应该传递给哪个组件。隐式意图;不指明调用的名称,根据设
spring3中新增的@value注解 bijian1013 java spring @Value
在spring 3.0中，可以通过使用@value，对一些如xxx.properties文件中的文件，进行键值对的注入，例子如下： 1.首先在applicationContext.xml中加入： <beans xmlns="http://www.springframework.
Jboss启用CXF日志 sunjing log jboss CXF
1. 在standalone.xml配置文件中添加system-properties： <system-properties> <property name="org.apache.cxf.logging.enabled" value=&
【Hadoop三】Centos7_x86_64部署Hadoop集群之编译Hadoop源代码 bit1129 centos
编译必需的软件 Firebugs3.0.0 Maven3.2.3 Ant JDK1.7.0_67 protobuf-2.5.0 Hadoop 2.5.2源码包 Firebugs3.0.0 http://sourceforge.jp/projects/sfnet_findbug
struts2验证框架的使用和扩展白糖_ 框架 xml bean struts 正则表达式
struts2能够对前台提交的表单数据进行输入有效性校验，通常有两种方式： 1、在Action类中通过validatexx方法验证，这种方式很简单，在此不再赘述； 2、通过编写xx-validation.xml文件执行表单验证，当用户提交表单请求后，struts会优先执行xml文件，如果校验不通过是不会让请求访问指定action的。本文介绍一下struts2通过xml文件进行校验的方法并说
记录-感悟 braveCS 感悟
再翻翻以前写的感悟，有时会发现自己很幼稚，也会让自己找回初心。 2015-1-11 1. 能在工作之余学习感兴趣的东西已经很幸福了； 2. 要改变自己，不能这样一直在原来区域，要突破安全区舒适区，才能提高自己，往好的方面发展； 3. 多反省多思考；要会用工具，而不是变成工具的奴隶； 4. 一天内集中一个定长时间段看最新资讯和偏流式博
编程之美-数组中最长递增子序列 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class LongestAccendingSubSequence { /** * 编程之美数组中最长递增子序列 * 书上的解法容易理解 * 另一方法书上没有提到的是，可以将数组排序（由小到大）得到新的数组， * 然后求排序后的数组与原数
读书笔记5 chengxuyuancsdn 重复提交 struts2的token验证
1、重复提交 2、struts2的token验证 3、用response返回xml时的注意 1、重复提交 (1)应用场景 (1-1)点击提交按钮两次。 (1-2)使用浏览器后退按钮重复之前的操作，导致重复提交表单。 (1-3)刷新页面 (1-4)使用浏览器历史记录重复提交表单。 (1-5)浏览器重复的 HTTP 请求。 (2)解决方法 (2-1)禁掉提交按钮 (2-2)
[时空与探索]全球联合进行第二次费城实验的可能性 comsci
二次世界大战前后,由爱因斯坦参加的一次在海军舰艇上进行的物理学实验 -费城实验至今给我们大家留下很多迷团..... 关于费城实验的详细过程,大家可以在网络上搜索一下,我这里就不详细描述了在这里,我的意思是,现在
easy connect 之 ORA-12154: TNS: 无法解析指定的连接标识符 daizj oracle ORA-12154
用easy connect连接出现“tns无法解析指定的连接标示符”的错误，如下： C:\Users\Administrator>sqlplus username/[email protected]:1521/orcl SQL*Plus: Release 10.2.0.1.0 – Production on 星期一 5月 21 18:16:20 2012 Copyright (c) 198
简单排序:归并排序 dieslrae 归并排序
public void mergeSort(int[] array){ int temp = array.length/2; if(temp == 0){ return; } int[] a = new int[temp]; int
C语言中字符串的\0和空格 dcj3sjt126com c
\0 为字符串结束符，比如说： abcd (空格)cdefg；存入数组时，空格作为一个字符占有一个字节的空间，我们
解决Composer国内速度慢的办法 dcj3sjt126com Composer
用法：有两种方式启用本镜像服务： 1 将以下配置信息添加到 Composer 的配置文件 config.json 中（系统全局配置）。见“例1” 2 将以下配置信息添加到你的项目的 composer.json 文件中（针对单个项目配置）。见“例2” 为了避免安装包的时候都要执行两次查询，切记要添加禁用 packagist 的设置，如下 1 2 3 4 5
高效可伸缩的结果缓存 shuizhaosi888 高效可伸缩的结果缓存
/** * 要执行的算法，返回结果v */ public interface Computable<A, V> { public V comput(final A arg); } /** * 用于缓存数据 */ public class Memoizer<A, V> implements Computable<A,
三点定位的算法 haoningabc c 算法
三点定位，已知a,b,c三个顶点的x,y坐标和三个点都z坐标的距离，la，lb,lc 求z点的坐标原理就是围绕a,b,c 三个点画圆，三个圆焦点的部分就是所求但是，由于三个点的距离可能不准，不一定会有结果，所以是三个圆环的焦点，环的宽度开始为0，没有取到则加1 运行 gcc -lm test.c test.c代码如下 #include "stdi
epoll使用详解 jimmee c linux 服务端编程 epoll
epoll - I/O event notification facility在linux的网络编程中，很长的时间都在使用select来做事件触发。在linux新的内核中，有了一种替换它的机制，就是epoll。相比于select，epoll最大的好处在于它不会随着监听fd数目的增长而降低效率。因为在内核中的select实现中，它是采用轮询来处理的，轮询的fd数目越多，自然耗时越多。并且，在linu
Hibernate对Enum的映射的基本使用方法 linzx0212 enum Hibernate
枚举 /** * 性别枚举 */ public enum Gender { MALE(0), FEMALE(1), OTHER(2); private Gender(int i) { this.i = i; } private int i; public int getI
第10章高级事件（下） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
孙子兵法 roadrunners 孙子兵法
始计第一孙子曰：兵者，国之大事，死生之地，存亡之道，不可不察也。故经之以五事，校之以计，而索其情：一曰道，二曰天，三曰地，四曰将，五曰法。道者，令民于上同意，可与之死，可与之生，而不危也；天者，阴阳、寒暑、时制也；地者，远近、险易、广狭、死生也；将者，智、信、仁、勇、严也；法者，曲制、官道、主用也。凡此五者，将莫不闻，知之者胜，不知之者不胜。故校之以计，而索其情，曰
MySQL双向复制 tomcat_oracle mysql
本文包括: 主机配置从机配置建立主-从复制建立双向复制背景按照以下简单的步骤: 参考一下：在机器A配置主机(192.168.1.30) 在机器B配置从机(192.168.1.29) 我们可以使用下面的步骤来实现这一点步骤1：机器A设置主机在主机中打开配置文件 ,
zoj 3822 Domination(dp) 阿尔萨斯 Mina
题目链接：zoj 3822 Domination 题目大意：给定一个N∗M的棋盘，每次任选一个位置放置一枚棋子，直到每行每列上都至少有一枚棋子，问放置棋子个数的期望。解题思路：大白书上概率那一张有一道类似的题目，但是因为时间比较久了，还是稍微想了一下。dp[i][j][k]表示i行j列上均有至少一枚棋子，并且消耗k步的概率（k≤i∗j）,因为放置在i+1~n上等价与放在i+1行上，同理