水月梨诺

Python银行风控模型的建立（解决Grapviz的中文显示问题）

Python银行风控模型的建立

一、用神经网络Sequential（序贯模型）搭建

1、背景：

700个数据，前8列作为x，最后一列为y，建立银行风控模型。（数据量不大）

二分类问题，损失函数用’binary_crossentropy’，指标也用metrics=[BinaryAccuracy()]

训练集和测试集8-2开，但我最后还是用y和yp比较模型精度，所以不应该要求精度太高（避免过拟合）

2、经过多次调参，最好的model代码如下

model = Sequential()

model.add(Dense(input_dim=8,units=800,activation='relu'))
model.add(Dropout(0.5))
model.add(Dense(input_dim=800,units=400,activation='relu'))
model.add(Dropout(0.5))
model.add(Dense(input_dim=400,units=1,activation='sigmoid'))

model.compile(loss='binary_crossentropy', optimizer='adam',metrics=[BinaryAccuracy()])
model.fit(x_train,y_train,epochs=1000,batch_size=128)

3、对比分析：

1、3层和4层的激活函数的效果基本一样，但是四层更耗时。

2、训练500次和1000次，精度下降，运行时间也减少；训练1000次比训练100次的精确度高0.1左右，运行时间大大缩短，从44s到6s；

3、relu激活函数比softsign激活函数更优，但是也较为耗时。

4、input_dim和units，传入数和批数小，精确度和损失值都会降下来，运行时间也会减少。

4、我的结论：

在数据量不大的情况下，综合考虑运行时间、精度、损失值，我认为，0.81左右的精度足够了，六秒运行时间还在接受范围内。

5、代码如下：

import pandas as pd
import numpy as np
#导入划分数据集函数
from sklearn.model_selection import train_test_split
#读取数据
datafile = 'C:/Users/86188/Desktop/Python数据挖掘与数据分析/My work/data2/bankloan2.xls'#文件路径
data = pd.read_excel(datafile)
x = data.iloc[:,:8]
y = data.iloc[:,8]
#划分数据集
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=100)
#导入模型和函数
from keras.models import Sequential
from keras.layers import Dense,Dropout
#导入指标
from keras.metrics import BinaryAccuracy
#导入时间库计时
import time
start_time = time.time()
#-------------------------------------------------------#
model = Sequential()
model.add(Dense(input_dim=8,units=800,activation='relu'))#激活函数relu
model.add(Dropout(0.5))#防止过拟合的掉落函数
model.add(Dense(input_dim=800,units=400,activation='relu'))
model.add(Dropout(0.5))
model.add(Dense(input_dim=400,units=1,activation='sigmoid'))

model.compile(loss='binary_crossentropy', optimizer='adam',metrics=[BinaryAccuracy()])
model.fit(x_train,y_train,epochs=100,batch_size=128)
loss,binary_accuracy = model.evaluate(x,y,batch_size=128)
#--------------------------------------------------------#
end_time = time.time()
run_time = end_time-start_time#运行时间

print('模型运行时间：{}'.format(run_time))
print('模型损失值：{}'.format(loss))
print('模型精度：{}'.format(binary_accuracy))

yp = model.predict(x).reshape(len(y))
yp = np.around(yp,0).astype(int) #转换为整型
from cm_plot import *  # 导入自行编写的混淆矩阵可视化函数

cm_plot(y,yp).show()  # 显示混淆矩阵可视化结果

cm_plot函数：

#-*- coding: utf-8 -*-
def cm_plot(y, yp):
  
  from sklearn.metrics import confusion_matrix #导入混淆矩阵函数

  cm = confusion_matrix(y, yp) #混淆矩阵
  
  import matplotlib.pyplot as plt #导入作图库
  plt.matshow(cm, cmap=plt.cm.Greens) #画混淆矩阵图，配色风格使用cm.Greens，更多风格请参考官网。
  plt.colorbar() #颜色标签
  
  for x in range(len(cm)): #数据标签
    for y in range(len(cm)):
      plt.annotate(cm[x,y], xy=(x, y), horizontalalignment='center', verticalalignment='center')
  
  plt.ylabel('True label') #坐标轴标签
  plt.xlabel('Predicted label') #坐标轴标签
  return plt

二、用机器学习相关算法搭建

1、支持向量机（SVM）、随机森林、决策树、KNN（K邻近）

ROC曲线：

得分：

混淆矩阵：

决策树：

完整代码：

import pandas as pd
import time
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt 
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier as DTC
from sklearn.ensemble import RandomForestClassifier as RFC
from sklearn import svm
from sklearn import tree
from sklearn.metrics import confusion_matrix
from sklearn.metrics import accuracy_score
from sklearn.metrics import roc_curve, auc
from sklearn.neighbors import KNeighborsClassifier as KNN
#导入plot_roc_curve,roc_curve和roc_auc_score模块
from sklearn.metrics import plot_roc_curve,roc_curve,auc,roc_auc_score
filePath = 'C:/Users/86188/Desktop/Python数据挖掘与数据分析/My work/data2/bankloan2.xls'
data = pd.read_excel(filePath)
x = data.iloc[:,:8]
y = data.iloc[:,8]
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=100)

#模型
svm_clf = svm.SVC()#支持向量机
dtc_clf = DTC(criterion='entropy')#决策树
rfc_clf = RFC(n_estimators=10)#随机森林
knn_clf = KNN()#K邻近

#训练
knn_clf.fit(x_train,y_train)
rfc_clf.fit(x_train,y_train)
dtc_clf.fit(x_train,y_train)
svm_clf.fit(x_train, y_train)


#ROC曲线比较
fig,ax = plt.subplots(figsize=(12,10))
rfc_roc = plot_roc_curve(estimator=rfc_clf, X=x, 
                        y=y, ax=ax, linewidth=1)
svm_roc = plot_roc_curve(estimator=svm_clf, X=x, 
                        y=y, ax=ax, linewidth=1)
dtc_roc = plot_roc_curve(estimator=dtc_clf, X=x,
                        y=y, ax=ax, linewidth=1)
knn_roc = plot_roc_curve(estimator=knn_clf, X=x,
                        y=y, ax=ax, linewidth=1)
ax.legend(fontsize=12)
plt.show()

#模型评价
rfc_yp = rfc_clf.predict(x)
rfc_score = accuracy_score(y, rfc_yp)
svm_yp = svm_clf.predict(x)
svm_score = accuracy_score(y, svm_yp)
dtc_yp = dtc_clf.predict(x)
dtc_score = accuracy_score(y, dtc_yp)
knn_yp = knn_clf.predict(x)
knn_score = accuracy_score(y, knn_yp)
score = {"随机森林得分":rfc_score,"支持向量机得分":svm_score,"决策树得分":dtc_score,"K邻近得分":knn_score}
score = sorted(score.items(),key = lambda score:score[0],reverse=True)
print(pd.DataFrame(score))

#中文标签、负号正常显示
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False

#绘制混淆矩阵
figure = plt.subplots(figsize=(12,10))
plt.subplot(2,2,1)
plt.title('随机森林')
rfc_cm = confusion_matrix(y, rfc_yp)
heatmap = sns.heatmap(rfc_cm, annot=True, fmt='d')
heatmap.yaxis.set_ticklabels(heatmap.yaxis.get_ticklabels(), rotation=0, ha='right')
heatmap.xaxis.set_ticklabels(heatmap.xaxis.get_ticklabels(), rotation=45, ha='right')
plt.ylabel("true label")
plt.xlabel("predict label")

plt.subplot(2,2,2)
plt.title('支持向量机')
svm_cm = confusion_matrix(y, svm_yp)
heatmap = sns.heatmap(svm_cm, annot=True, fmt='d')
heatmap.yaxis.set_ticklabels(heatmap.yaxis.get_ticklabels(), rotation=0, ha='right')
heatmap.xaxis.set_ticklabels(heatmap.xaxis.get_ticklabels(), rotation=45, ha='right')
plt.ylabel("true label")
plt.xlabel("predict label")

plt.subplot(2,2,3)
plt.title('决策树')
dtc_cm = confusion_matrix(y, dtc_yp)
heatmap = sns.heatmap(dtc_cm, annot=True, fmt='d')
heatmap.yaxis.set_ticklabels(heatmap.yaxis.get_ticklabels(), rotation=0, ha='right')
heatmap.xaxis.set_ticklabels(heatmap.xaxis.get_ticklabels(), rotation=45, ha='right')
plt.ylabel("true label")
plt.xlabel("predict label")

plt.subplot(2,2,4)
plt.title('K邻近')
knn_cm = confusion_matrix(y, knn_yp)
heatmap = sns.heatmap(knn_cm, annot=True, fmt='d')
heatmap.yaxis.set_ticklabels(heatmap.yaxis.get_ticklabels(), rotation=0, ha='right')
heatmap.xaxis.set_ticklabels(heatmap.xaxis.get_ticklabels(), rotation=45, ha='right')
plt.ylabel("true label")
plt.xlabel("predict label")
plt.show()

#画出决策树
import pandas as pd
import os
os.environ["PATH"] += os.pathsep + 'D:/软件下载安装/Graphviz/bin'
from sklearn.tree import export_graphviz
x = pd.DataFrame(x)

with open(r"C:/Users/86188/Desktop/Python数据挖掘与数据分析/My work/tmp/banklodan_tree.dot", 'w') as f:
    export_graphviz(dtc_clf, feature_names = x.columns, out_file = f)
    f.close()
    
from IPython.display import Image  
from sklearn import tree
import pydotplus 
dot_data = tree.export_graphviz(dtc_clf, out_file=None,  #regr_1 是对应分类器
                         feature_names=x.columns,   #对应特征的名字
                         class_names= ['不违约','违约'],    #对应类别的名字
                         filled=True, rounded=True,  
                         special_characters=True)  

#让graphviz显示中文用"MicrosoftYaHei"代替'helvetica'
graph = pydotplus.graph_from_dot_data(dot_data.replace('helvetica',"MicrosoftYaHei"))  
graph.write_png('C:/Users/86188/Desktop/Python数据挖掘与数据分析/My work/tmp/banklodan_tree.png')    #保存图像
Image(graph.create_png())

结论：

显然，决策树和随机森林的效果最好，总体上都比神经网络的要好

三、资料链接

我的代码和数据
提取码：0325

四、参考链接：

二分类评分
Sequential序贯模型
ROC曲线绘制
Grapviz显示中文

你可能感兴趣的:(数据挖掘,python,学习,深度学习,sklearn)

7.28日志.王翼王翼wy
今天到青岛去接妙妙，由于没买上卧铺，昨晚坐了一晚上硬座。到了青岛，妙妙妈带我到了一位女士开的正骨室，对我的身体骨骼进行了系统检查，找到了病根，说不是很严重，只要坚持练习就好康复。这件事让我内心感动，我却从来没这样关心过她。以后要向她学习，多用心关心关心她。我们中午去了一家水饺自助店用餐，吃的很好。下午妙妙妈说去哪儿玩？我看孩子容易迷入视频，就说去游泳吧！（妙妙妈说这两天泳后睡的实发育好）妙妙游了一
怎样考研才最高效呢？如何准备呢？十里li 考研
大学生考研全攻略：备考路径+高效学习法+时间管理考研全流程导航（时间轴）2023-01-012023-02-012023-03-012023-04-012023-05-012023-06-012023-07-012023-08-012023-09-012023-10-012023-11-012023-12-012024-01-012024-02-012024-03-01确定目标院校英语/数学筑基专
【华为419机考真题】服务器能耗统计，JAVA 题解梦想橡皮擦华为服务器 java 华为OD机试华为OD
最近更新的博客华为od2023|什么是华为od，od薪资待遇，od机试题清单华为OD机试真题大全，用Python解华为机试题|机试宝典【华为OD机试】全流程解析+经验分享,题型分享,防作弊指南华为od机试，独家整理已参加机试人员的实战技巧本篇题解：服务器耗能题目描述服务器有三种运行状态：空载，单任务，多任务，每个时间片的能耗的分别为111、333、444，每个任务由起始时间片和结束时间片定义运行时
微信小程序入门实例_____从零开始开发一个“旅行清单 ”微信小程序数码小沙微信小程序微信小程序小程序
前面的博文中。我们陆续学习与开发了记账等一些实用实用小程序的开发过程，今天来打造一个适合出行场景的工具——“旅行清单小程序”。无论是短途游玩还是长途旅行，它都能帮你梳理需要携带的物品，避免遗漏。下面就跟着步骤，一步步实现这个小程序。再次体验开发者的快乐一、开发小程序员前的准备工作1.工具检查确保微信开发者工具已安装并更新到最新版本。若未安装，打开微信公众平台（微信公众平台），在页面底部找到“下载”
在家有哪些能做的赚钱项目？在家挣钱的兼职有哪些？古楼
高省app是浙江的一家专业的网购省钱APP，致力于为用户提供更好的网购优惠，实现购物优惠最大化。高省是由杭州长孚科技有限公司开发的一款专门帮助淘宝天猫卖家、品牌代运营等商家省钱的app，也是目前国内唯一一款能让消费者真正省钱的APP，高省为所有用户提供“分享赚佣金”和“邀请他人赚佣金”两种赚钱模式。在购物、旅游、学习中用到优惠券的时候，可以在高省APP上领取哦。一、自用省钱自用省钱是指用户在购买产
深入解析部分可观测马尔可夫决策过程（POMDP）及其应用码字的字节算法人工智能马尔可夫决策过程 POMDP
POMDP的基本概念与模型部分可观测马尔可夫决策过程（PartiallyObservableMarkovDecisionProcess,POMDP）是强化学习领域中处理不完全信息环境的核心数学模型。与完全可观测的马尔科夫决策过程（MDP）相比，POMDP更贴近现实世界中智能体面临的感知局限，其核心特征在于系统状态无法被直接观测，智能体必须通过间接的观测信号来推断潜在状态。POMDP的七元组模型PO
2019-4-2晨间日记展翅的鱼
今天是什么日子起床：8:10就寝：11:30天气：阴心情：美丽纪念日：4月第二天任务清单昨日完成的任务，最重要的三件事：昨天完成了一个面试；体验超市服务人员的工作4小时；与侄女玩耍改进：每日目标的确定；按时早中晚三餐；习惯养成：按时中晚餐；日目标总结；周目标·完成进度写一个简易小程序，完成进度0%；学习·信息·阅读学习小程序；完成法语每日基础单词的认识；阅读一篇英语文章；健康·饮食·锻炼下班走路回
python2.x里面的input（）和raw_input（）函数以及3.x中的input（）函数的区别 scuter_yu python python input函数 raw_input函数 3.x中的input函数
在python3.0及以上的版本中，raw_input（）函数已经和我们说再见了，但是呢，input（）函数则很好地替代了消失了的raw_input（）函数。而且现在的input（）函数所返回的值都是字符串，所以对于要有int，float等类型的数值必须进行强制的类型转换。下面让我对3.0的input（）函数做个小总结：>>>str=input("abc:")abc:15>>>str'15'(虽然
《我不惧怕成为这样“强硬”的姑娘》读书笔记05 幺拐妖怪
在大学那些年因为我考取的并不是什么名牌大学，所以我一直羡慕着那些考上名牌大学的学霸们。作者刘媛媛与北大的那些年让我意识到：学霸之所以是学霸，是因为他们都在抓住飞逝的光阴，为着出厂的一刻做准备，努力变成一盒优质的牛奶。反观我的大学四年，好像都沉浸在社团活动里面，对学业并不怎么上心，而且也没怎么多多跟专业的老师们沟通交流，获取学习经验和心得。在大学里面，我也看到过许多不同的人，有些人在学校里面就肆意开
代码相关（python）一个月只能修改一次次代码 python
python程序崩溃提示符用python的时候的各个tips矩阵python判断某个矩阵是否满足要求python生成二维随机数文件/档python检查某个文件存不存在python添加有特定字段的文件到列表python矩阵保存为txt文档python按行读文档python写文档python文档操作字符串python用split来拆分字符串python搜索字符串某个字符的位置给字符串前/后添加字符画图
应该给自己一个大大的赞 2025过好每一天
一直以来我骨子里都是比较讨厌一个人在抱怨的，或是把自己活成了受害者，虽然现在的我在思想上已经经过一场洗礼，的确做出很多努力才让自己的人生变得越来越好的，我也知道这个过程是有多么不容易，但是一路走来，我从来都不会去抱怨什么。的确应该给自己一个大大的赞，我以后也不想再让谁来影响我的人生，人生如此短暂，不如就由着自己的性子活吧。坚持学习，永远不放弃，可以帮助我们不管摸到什么样的牌，都能把它打成王炸。这个
C程序设计语言 cvcode吴 c语言开发语言
1.入门学习一门新程序设计语言的惟一途径就是使用它编写程序。对于所有语言的初学者来说编写的第一个程序几乎都是相同的，即:请打印出下列内容hello,world尽管这个练习很简单，但对于初学语言的人来说，它仍然可能成为一大障碍，因为要实现这个目的，我们首先必须编写程序文本，然后成功地运行编译，并加载、运行，最后输出到某个地方。掌握了这些操作细节以后，其它事情就比较容易了。在C语言中，我们可以用下列程
AI产品经理面试宝典第42天：学习方法与产品流程解析 TGITCIC AI产品经理一线大厂面试题产品经理 AI面试大模型面试 AI产品经理面试大模型产品经理面试 AI产品大模型产品
具体问答：学习产品及AI知识的方法问：请谈谈您是如何学习产品及AI知识的，以及您认为哪些资源对您帮助最大答：我的学习体系包含三个维度：分层知识架构、实践验证闭环、资源筛选机制。在知识获取阶段，采用「理论-案例-工具」三级学习法：通过《人工智能：一种现代的方法》构建AI基础框架，用TensorFlow官方文档掌握工程实现，结合《启示录》《俞军产品方法论》理解产品逻辑。实践环节采用「项目反哺」模式，例
2023年第10期(NeuroImage)：DomainATM：多中心医学图像数据标准化工具箱影浮科技ImageFlow
基本信息1.标题：DomainATM:Domainadaptationtoolboxformedicaldataanalysis.2.期刊：NeuroImage3.IF/JCR/分区：7.4/Q1/中科院一区4.DOI：10.1016/j.neuroimage.2023.119863目录1、导读2、背景动机3、研究目的4、工具箱介绍5、测试试验6、局限不足1导读域适应（DA）是基于机器学习的现代医
2021-08-26 项城069吴喜红
班主任经验培训心得——四个时间花2021年8月26日，我校举行全员班主任素质提升培训，一个半小时的培训干货满满，我收获很多。从徐银鸽校长关于“用心绽放四个时间花”的班级管理经验分享中，我感到自己在班主任工作道路上还在蹒跚学步阶段，要想取得更好的职业幸福感努力提高自己势在必行。这次的学习，印象最深的是徐校长对班级管理中的阶段划分，四个阶段，开学第一天、开学第一周、开学第一月，而后365天......
吴猛强：爱你们，么么哒（1985高考作文全国卷）吴猛强专栏
1985高考作文全国卷.澄溪中学附近有一家前进化工厂。工厂天天向外排放有毒的气体和废水。广大师生和附近居民长期处在被污染的环境中，身体健康受到损害，工作学习受到影响。几年来，学校多次向工厂提出意见，要求妥善解决污染问题。但厂方以生产任务繁重、技术力量薄弱和经费开支太大等为理由，一再拖延，至今未能解决。试就上述问题，以“澄溪中学学生会”的名义，给《光明日报》编辑部写一封信，反映情况，申述理由，呼吁尽
python 密码学模块_Python加密与解密 No module named 'Crypto' weixin_39827304 python 密码学模块
DES加密全称为DataEncryptionStandard，即数据加密标准，是一种使用密钥加密的块算法入口参数有三个：Key、Data、ModeKey为7个字节共56位，是DES算法的工作密钥；Data为8个字节64位，是要被加密或被解密的数据；Mode为DES的工作方式,有两种:加密或解密3DES(即TripleDES)是DES向AES过渡的加密算法使用两个密钥，执行三次DES算法加密的过程是
日精进第四十一天 A琉璃瓶
敬爱的李老师，智慧的马教授，优秀的跃友们：大家好！我是来自辽宁春天内衣50号跃友刘丽平，今天是2019年1月18日我日精进的第【41】天，分享一下今天的改变，我们共同勉励，每天进步一点点，距离成功就不远。1.比学习：学习苗店的积极心态，对待工作的认真负责。当你对生活的态度，变得越来越消极，当你失去了，尝试的动力和改变的勇气，你才是真正的变得衰老了。不要因为年龄就拒绝一些东西，只要你想开始，什么时候
No module named "Crypto"，如何安装Python三方模块Crypto weixin_30342827 python 操作系统
前两天公司公司老总让我研究怎么用企业微信第三方应用进行官网对接，完成URL回调验证问题。具体如何进行Python的Django网站与企业微信第三方应用进行回调验证的博客地址为：https://www.cnblogs.com/ws17345067708/p/10522472.html这里讲讲，如何在win10下，安装一个非常坑爹的加密算法库，名字叫"Crypto"看了好多博客，没有一个管用的，要么就
Python 报错：ModuleNotFoundError: No module named ‘Crypto‘
Crypto报错解决方案Python报错：ModuleNotFoundError:Nomodulenamed'Crypto'前言问题解决方案Python报错：ModuleNotFoundError:Nomodulenamed‘Crypto’前言Crypto是一个加密模块，它包含了多种加密算法，如AES、DES、RSA等。它不是Python标准库的一部分，需要使用pip安装。pycrypto和Cry
【甲烷数据集】Sentinel-5P 卫星获取的全球甲烷数据集-TROPOMI L2 CH₄ WW、forever 数据集 sentinel
目录数据概述传感器&卫星信息监测目标：甲烷（CH₄）数据产品内容空间与时间覆盖云筛选与协同观测技术文档资源数据下载Python代码绘制CH4数据参考数据概述Sentinel-5PrecursorLevel2Methane(TROPOMIL2CH₄)数据集是由欧洲哥白尼计划的Sentinel-5P卫星获取的，用于监测大气中的甲烷浓度。数据集名称：Sentinel-5PrecursorLevel2Me
非对称加密算法（RSA、ECC、SM2）——密码学基础
对称加密算法（AES、ChaCha20和SM4）Python实现——密码学基础(Python出现Nomodulenamed“Crypto”解决方案)这篇的续篇，因此实践部分少些；文章目录一、非对称加密算法基础二、RSA算法2.1RSA原理与数学基础2.2RSA密钥长度与安全性2.3RSA实现工具与库2.4RSA的局限性三、椭圆曲线密码学(ECC)3.1ECC原理与数学基础3.2常用椭圆曲线标准3.
0727今天感到寂寞徐镁鑫
1.昨天没有午睡，晚上又晚睡，直接导致今天晚起了许多，包括霏，起床了又跑去沙发睡了二十分钟。等吃完早餐（鲜花饼、酸奶、鸡蛋、珍珠李）开始学习，都准备十一点了！我跟着学了十来分钟英语，又补写了昨天的日记。2.医生同学来信息告知前天我去她医院做的糖筛结果，还好，血糖在正常范围内。就是有轻微贫血，同学说，多吃点红枣红皮花生，还有动物血和内脏吧。真没想到我会有贫血，明明那么胖。~胖跟贫血没有关系好吗？！~
WPF利用NotifyIcon创建任务栏图标（菜鸟教程）不喜欢打篮球的厨师不是好程序员 c#windows
学习目标：记录从WPF应用创建开始，一步步到任务栏图标创建的全过程。流程：1、环境：Win10+VS2017打开VS2017，选择文件->新建->项目->VisualC#->Windows桌面->WPF应用->更改项目名为TasbarIcon->确定2、添加图标类右键项目->添加->引用，找到System.Windows.Forms和System.Drawing两个程序集，打上勾添加进去。双击打开
2018-05-25 张景_b55f
姓名:张景公司:扬州方圆建筑有限公司363期（哈尔滨）《六项精进》“谦虚二组”【日精进打卡第62天】【知～学习】背诵《六项精进》5遍背诵《大学》5遍共计570遍【经典名句分享】只要认真的为自己活过，只要为生命中重要的人，努力奋斗过，这本身已是一种完美。【行～实践】一、修身：默背《六项精进》五遍默背《大学》五遍微信步数:20000二、齐家：与父母视频和女友聊天三、建功：淀粉车间B去放线，放控制线A去
在NLP深层语义分析中，深度学习和机器学习的区别与联系
在自然语言处理（NLP）的深层语义分析任务中，深度学习与机器学习的区别和联系主要体现在以下方面：一、核心区别特征提取方式机器学习：依赖人工设计特征（如词频、句法规则、TF-IDF等），需要领域专家对文本进行结构化处理。例如，传统情感分析需人工定义“情感词库”或通过词性标注提取关键成分。深度学习：通过神经网络自动学习多层次特征。例如，BERT等模型可从原始文本中捕获词向量、句法关系甚至篇章级语义，无
20220812成就感日志225/365 kidII
奋斗是人生的底色，你会经历很多人事物，学会更多的东西。从学习上掌握技能，从学习上享受生活，即便是辛苦也没有关系，生活没有不辛苦的，但是要辛苦的有意义。与其说平凡的过一辈子，不如吃苦耐劳，选择自己喜欢的生活，一点点的付出，积累很多的经验，未来才会有希望。虽然我们渴望成就感，但也需要平衡生活，让自己越来越幸福。1.【日思】：今日最重要的一件事情。调整（训练3h，4k+2h信息1+1.5h信息2+自私的
JAVA 和Python对比 xiayu98020214 在深蓝的日子 python
JAVA和Python对比1.数据类型pythonInt，float，complexnumbers都没有定义到底占用多少个字节空间。都是没有取值范围，也没有无符号的情况。JAVAJAVA有基础数据类型，都有确定占多少个字节2.全局变量python类似c语言，可以定义全局变量，全局的函数。JAVAjava都要定义类才行。3.变量声明python无需声明类型，直接使用。会造成一个困扰，这个变量到底是新
什么情况下需要心理咨询？——中原焦点团队，坚持分享776天，2022-03-13 归鸿_66
心理咨询对象恰恰是正常人，而不是心理有疾病的人（这要去医院就诊，需要药物治疗的。）当正常人有了情绪困扰，工作、学业压力、家庭矛盾，或者其它内心烦恼的话，在咨询室里可以得到释放，能够对自己、对事情认识的更深刻。这样你能心理状态更好更轻松的去应对外边的挑战，面对当下的生活学习。尤其正在成长中的青少年。可以这么说，心理咨询室就是你的解压的驿站，情绪的安放地。走出咨询室，你会变得轻松、自信、有力量。当然，
牛客华为机试题解（python版更新中）
目录一、字符串（知识点）HJ1字符串最后一个单词的长度（简单）HJ2计算某字符出现次数（简单）HJ4字符串分隔（简单）HJ5进制转换（简单）HJ10字符个数统计（简单）HJ11数字颠倒（简单）HJ12字符串反转（简单）HJ14字符串排序（简单）HJ17坐标移动（中等）HJ18识别有效的IP地址和掩码并进行分类统计（较难）自己研究的题解，也有借鉴评论区牛人思路，答案不唯一，仅供学习参考，也欢迎大家指
jsonp 常用util方法 hw1287789687 jsonp jsonp常用方法 jsonp callback
jsonp 常用java方法 (1)以jsonp的形式返回:函数名(json字符串) /*** * 用于jsonp调用 * @param map : 用于构造json数据 * @param callback : 回调的javascript方法名 * @param filters : <code>SimpleBeanPropertyFilter theFilt
多线程场景 alafqq 多线程
0 能不能简单描述一下你在java web开发中需要用到多线程编程的场景？0 对多线程有些了解，但是不太清楚具体的应用场景，能简单说一下你遇到的多线程编程的场景吗？ Java多线程 2012年11月23日 15:41 Young9007 Young9007 4 0 0 4 Comment添加评论关注(2) 3个答案按时间排序按投票排序 0 0 最典型的如： 1、
Maven学习——修改Maven的本地仓库路径 Kai_Ge maven
安装Maven后我们会在用户目录下发现.m2 文件夹。默认情况下，该文件夹下放置了Maven本地仓库.m2/repository。所有的Maven构件(artifact)都被存储到该仓库中，以方便重用。但是windows用户的操作系统都安装在C盘，把Maven仓库放到C盘是很危险的，为此我们需要修改Maven的本地仓库路径。
placeholder的浏览器兼容 120153216 placeholder
【前言】自从html5引入placeholder后，问题就来了，不支持html5的浏览器也先有这样的效果，各种兼容，之前考虑，今天测试人员逮住不放，想了个解决办法，看样子还行，记录一下。【原理】不使用placeholder，而是模拟placeholder的效果，大概就是用focus和focusout效果。【代码】 <scrip
debian_用iso文件创建本地apt源 2002wmj Debian
1.将N个debian-506-amd64-DVD-N.iso存放于本地或其他媒介内，本例是放在本机/iso/目录下 2.创建N个挂载点目录如下： debian:~#mkdir –r /media/dvd1 debian:~#mkdir –r /media/dvd2 debian:~#mkdir –r /media/dvd3 …. debian:~#mkdir –r /media
SQLSERVER耗时最长的SQL 357029540 SQL Server
对于DBA来说，经常要知道存储过程的某些信息： 1. 执行了多少次 2. 执行的执行计划如何 3. 执行的平均读写如何 4. 执行平均需要多少时间列名 &
com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 7454103 eclipse
今天eclipse突然报了com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 错误，并且工程文件打不开了，在网上找了一下资料，然后按照方法操作了一遍，好了，解决方法如下：错误提示信息： An error has occurred.See error log for more details. Reason: com/genuitec/
用正则删除文本中的html标签 adminjun java html 正则表达式去掉html标签
使用文本编辑器录入文章存入数据中的文本是HTML标签格式，由于业务需要对HTML标签进行去除只保留纯净的文本内容，于是乎Java实现自动过滤。如下： public static String Html2Text(String inputString) { String htmlStr = inputString; // 含html标签的字符串 String textSt
嵌入式系统设计中常用总线和接口 aijuans linux 基础
嵌入式系统设计中常用总线和接口任何一个微处理器都要与一定数量的部件和外围设备连接，但如果将各部件和每一种外围设备都分别用一组线路与CPU直接连接，那么连线
Java函数调用方式——按值传递 ayaoxinchao java 按值传递对象基础数据类型
Java使用按值传递的函数调用方式，这往往使我感到迷惑。因为在基础数据类型和对象的传递上，我就会纠结于到底是按值传递，还是按引用传递。其实经过学习，Java在任何地方，都一直发挥着按值传递的本色。首先，让我们看一看基础数据类型是如何按值传递的。 public static void main(String[] args) { int a = 2;
ios音量线性下降 bewithme ios音量
直接上代码吧 //second 几秒内下降为0 - (void)reduceVolume:(int)second { KGVoicePlayer *player = [KGVoicePlayer defaultPlayer]; if (!_flag) { _tempVolume = player.volume;
与其怨它不如爱它 bijian1013 选择理想职业规划
抱怨工作是年轻人的常态，但爱工作才是积极的心态，与其怨它不如爱它。一般来说，在公司干了一两年后，不少年轻人容易产生怨言，除了具体的埋怨公司“扭门”，埋怨上司无能以外，也有许多人是因为根本不爱自已的那份工作，工作完全成了谋生的手段，跟自已的性格、专业、爱好都相差甚远。
一边时间不够用一边浪费时间 bingyingao 工作时间浪费
一方面感觉时间严重不够用，另一方面又在不停的浪费时间。每一个周末，晚上熬夜看电影到凌晨一点，早上起不来一直睡到10点钟，10点钟起床，吃饭后玩手机到下午一点。精神还是很差，下午像一直野鬼在城市里晃荡。为何不尝试晚上10点钟就睡，早上7点就起，时间完全是一样的，把看电影的时间换到早上，精神好，气色好，一天好状态。控制让自己周末早睡早起，你就成功了一半。有多少个工作
【Scala八】Scala核心二：隐式转换 bit1129 scala
Implicits work like this: if you call a method on a Scala object, and the Scala compiler does not see a definition for that method in the class definition for that object, the compiler will try to con
sudoku slover in Haskell (2) bookjovi haskell sudoku
继续精简haskell版的sudoku程序，稍微改了一下，这次用了8行，同时性能也提高了很多，对每个空格的所有解不是通过尝试算出来的，而是直接得出。 board = [0,3,4,1,7,0,5,0,0, 0,6,0,0,0,8,3,0,1, 7,0,0,3,0,0,0,0,6, 5,0,0,6,4,0,8,0,7,
Java-Collections Framework学习与总结-HashSet和LinkedHashSet BrokenDreams linkedhashset
本篇总结一下两个常用的集合类HashSet和LinkedHashSet。它们都实现了相同接口java.util.Set。Set表示一种元素无序且不可重复的集合；之前总结过的java.util.List表示一种元素可重复且有序
读《研磨设计模式》-代码笔记-备忘录模式-Memento bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; /* * 备忘录模式的功能是，在不破坏封装性的前提下，捕获一个对象的内部状态，并在对象之外保存这个状态，为以后的状态恢复作“备忘”
《RAW格式照片处理专业技法》笔记 cherishLC PS
注意，这不是教程！仅记录楼主之前不太了解的一、色彩（空间）管理作者建议采用ProRGB（色域最广），但camera raw中设为ProRGB，而PS中则在ProRGB的基础上，将gamma值设为了1.8（更符合人眼）注意：bridge、camera raw怎么设置显示、输出的颜色都是正确的（会读取文件内的颜色配置文件），但用PS输出jpg文件时，必须先用Edit->conv
使用 Git 下载 Spring 源码编译 for Eclipse crabdave eclipse
使用 Git 下载 Spring 源码编译 for Eclipse 1、安装gradle，下载 http://www.gradle.org/downloads 配置环境变量GRADLE_HOME，配置PATH %GRADLE_HOME%/bin，cmd，gradle -v 2、spring4 用jdk8 下载 https://jdk8.java.
mysql连接拒绝问题 daizj mysql 登录权限
mysql中在其它机器连接mysql服务器时报错问题汇总一、[running][email protected]:~$mysql -uroot -h 192.168.9.108 -p //带-p参数，在下一步进行密码输入 Enter password: //无字符串输入 ERROR 1045 (28000): Access
Google Chrome 为何打压 H.264 dsjt apple html5 chrome Google
Google 今天在 Chromium 官方博客宣布由于 H.264 编解码器并非开放标准，Chrome 将在几个月后正式停止对 H.264 视频解码的支持，全面采用开放的 WebM 和 Theora 格式。 Google 在博客上表示，自从 WebM 视频编解码器推出以后，在性能、厂商支持以及独立性方面已经取得了很大的进步，为了与 Chromium 现有支持的編解码器保持一致，Chrome
yii 获取控制器名和方法名 dcj3sjt126com yii framework
1. 获取控制器名在控制器中获取控制器名: $name = $this->getId(); 在视图中获取控制器名: $name = Yii::app()->controller->id; 2. 获取动作名在控制器beforeAction()回调函数中获取动作名: $name =
Android知识总结（二） come_for_dream android
明天要考试了，速速总结如下 1、Activity的启动模式 standard：每次调用Activity的时候都创建一个（可以有多个相同的实例，也允许多个相同Activity叠加。） singleTop：可以有多个实例，但是不允许多个相同Activity叠加。即，如果Ac
高洛峰收徒第二期：寻找未来的“技术大牛” ——折腾一年，奖励20万元 gcq511120594 工作项目管理
高洛峰，兄弟连IT教育合伙人、猿代码创始人、PHP培训第一人、《细说PHP》作者、软件开发工程师、《IT峰播》主创人、PHP讲师的鼻祖！首期现在的进程刚刚过半，徒弟们真的很棒，人品都没的说，团结互助，学习刻苦，工作认真积极，灵活上进。我几乎会把他们全部留下来，现在已有一多半安排了实际的工作，并取得了很好的成绩。等他们出徒之日，凭他们的能力一定能够拿到高薪，而且我还承诺过一个徒弟，当他拿到大学毕
linux expect heipark expect
1. 创建、编辑文件go.sh #!/usr/bin/expect spawn sudo su admin expect "*password*" { send "13456\r\n" } interact 2. 设置权限 chmod u+x go.sh 3.
Spring4.1新特性——静态资源处理增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
idea ubuntuxia 乱码 liyonghui160com
1.首先需要在windows字体目录下或者其它地方找到simsun.ttf 这个字体文件。 2.在ubuntu 下可以执行下面操作安装该字体： sudo mkdir /usr/share/fonts/truetype/simsun sudo cp simsun.ttf /usr/share/fonts/truetype/simsun fc-cache -f -v
改良程序的11技巧 pda158 技巧
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短永远永远不要把同一个变量用于多个不同的
300个涵盖IT各方面的免费资源（下）——工作与学习篇 shoothao 创业免费资源学习课程远程工作
工作与生产效率: A. 背景声音 Noisli:背景噪音与颜色生成器。 Noizio:环境声均衡器。 Defonic:世界上任何的声响都可混合成美丽的旋律。 Designers.mx:设计者为设计者所准备的播放列表。 Coffitivity:这里的声音就像咖啡馆里放的一样。 B. 避免注意力分散 Self Co
深入浅出RPC uule rpc
深入浅出RPC-浅出篇深入浅出RPC-深入篇 RPC Remote Procedure Call Protocol 远程过程调用协议它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在，如TCP或UDP，为通信程序之间携带信息数据。在OSI网络通信模型中，RPC跨越了传输层和应用层。RPC使得开发

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他