风度翩翩猪肉王子

Python+sklearn完成机器学习任务

任务

祝贺你，成功进入了一家金融公司实习。

第一天上班，你还处在兴奋中。这时主管把你叫过去，给你看了一个文件。

文件内容是这个样子的：

主管说这是公司宝贵的数据资产。嘱咐你认真阅读，并且从数字中找出规律，以便做出明智的贷款决策。

每一行数据，都代表了之前的一次贷款信息。你琢磨了很久，终于弄明白了每一列究竟代表什么意思：

grade：贷款级别
sub_grade: 贷款细分级别
short_emp：一年以内短期雇佣
emp_length_num：受雇年限
home_ownership：居住状态（自有，按揭，租住）
dti：贷款占收入比例
purpose：贷款用途
term：贷款周期
last_delinq_none：贷款申请人是否有不良记录
last_major_derog_none：贷款申请人是否有还款逾期90天以上记录
revol_util：透支额度占信用比例
total_rec_late_fee：逾期罚款总额
safe_loans：贷款是否安全

最后一列，记录了这笔贷款是否按期收回。拿着以前的这些宝贵经验教训，主管希望你能够总结出贷款是否安全的规律。在面对新的贷款申请时，从容和正确应对。

主管让你找的这种规律，可以用决策树来表达。

决策

我们来说说什么是决策树。

决策树长得就像这个样子：

做决策的时候，你需要从最上面的节点出发。在每一个分支上，都有一个判断条件。满足条件，往左走；不满足，向右走。一旦走到了树的边缘，一项决策就完成了。

例如你走在街上，遇见邻居老张。你热情地打招呼：

“老张，吃了吗？”

好了，这里就是个分支。老张的回答，将决定你的决策走向，即后面你将说什么。

第一种情况。

老张：吃过了。

你：要不来我家再吃点儿？

第二种情况。

老张：还没吃。

你：那赶紧回家吃去吧。再见！

……

具体到贷款这个实例，你需要依次分析申请人的各项指标，然后判定这个贷款申请是否安全，以做出是否贷款给他的决策。把这个流程写下来，就是一棵决策树。

作为一名金融界新兵，你原本也是抱着积极开放的心态，希望多尝试一下的。但是当你把数据表下拉到最后一行的时候，你发现记录居然有46509条！

你估算了一下自己的阅读速度、耐心和认知负荷能力，觉得这个任务属于Mission Impossible（不可能完成），于是开始默默地收拾东西，打算找主管道个别，辞职不干了。

且慢，你不必如此沮丧。因为科技的发展，已经把一项黑魔法放在了你的手边，随时供你取用。它的名字，叫做机器学习。

学习

什么叫机器学习？

从前，人是“操作”计算机的。一项任务如何完成，人心里是完全有数的。人把一条条指令下达给电脑，电脑负责傻呵呵地干完，收工。

后来人们发现，对有些任务，人根本就不知道该怎么办。

前些日子的新闻里，你知道Alpha Go和柯洁下围棋。柯洁不仅输了棋，还哭了。

可是制造Alpha Go的那帮人，当真知道怎样下棋，才能赢过柯洁吗？你就是让他们放弃体育家精神，攒鸡毛凑掸子一起上，跟柯洁下棋……你估计哭的是谁？

一帮连自己下棋，都下不赢柯洁的人，又是如何制作出电脑软件，战胜了人类围棋界的“最强大脑”呢？

答案正是机器学习。

你自己都不知道如何完成的任务，自然也不可能告诉机器“第一步这么干，第二步那么办”，或者“如果出现A情况，打开第一个锦囊；如果出现B情况，打开第二个锦囊”。

机器学习的关键，不在于人类的经验和智慧，而在于数据。

本文我们接触到的，是最为基础的监督式学习(supervised learning)。监督式学习利用的数据，是机器最喜欢的。这些数据的特点，是都被打了标记。

主管给你的这个贷款记录数据集，就是打了标记的。针对每个贷款案例，后面都有“是否安全”的标记。1代表了安全，-1代表了不安全。

机器看到一条数据，又看到了数据上的标记，于是有了一个假设。

然后你再让它看一条数据，它就会强化或者修改原先的假设。

这就是学习的过程：建立假设——收到反馈——修正假设。在这个过程中，机器通过迭代，不断刷新自己的认知。

这让我想起了经典相声段子“蛤蟆鼓”里面的对话片段。

甲：那我问问你，蛤蟆你看见过吧？

乙：谁没见过蛤蟆呀。

甲：你说为什么它那么小的动物，叫唤出来的声音会那么大呢？

乙：那是因为它嘴大肚儿大脖子粗，叫唤出来的声音必然大。万物都是一个理。

甲：我家的字纸篓子也是嘴大脖子粗，为什么它不叫唤哪？

乙：字纸篓是死物，那是竹子编的，不但不叫，连响都响不了。

甲：吹的笙也是竹子的，怎么响呢？

乙：虽然竹子编的，因为它有窟窿有眼儿，有眼儿的就响。

甲：我家筛米的筛子尽是窟窿眼儿，怎么吹不响？

这里相声演员乙，就一直试图建立可以推广的假设。可惜，甲总是用新的例证摧毁乙的三观。

在四处碰壁后，可怜的机器跌跌撞撞地成长。看了许许多多的数据后，电脑逐渐有了自己对一些事情判断的想法。我们把这种想法叫做模型。

之后，你就可以用模型去辅助自己做出明智的判断了。

下面我们开始动手实践。用Python做个决策树出来，辅助我们判断贷款风险。

准备

使用Python和相关软件包，你需要先安装Anaconda套装。详细的流程步骤请参考《如何用Python做词云》一文。

主管给你展示的这份贷款数据文件，请从这里下载。

文件的扩展名是csv，你可以用Excel打开，看看是否下载正确。

如果一切正常，请把它移动到咱们的工作目录demo里面。

到你的系统“终端”(macOS, Linux)或者“命令提示符”(Windows)下，进入我们的工作目录demo，执行以下命令。

pip install -U PIL

运行环境配置完毕。

在终端或者命令提示符下键入：

jupyter notebook

Jupyter Notebook已经正确运行。下面我们就可以正式编写代码了。

代码

首先，我们新建一个Python 2笔记本，起名叫做loans-tree。

为了让Python能够高效率处理表格数据，我们使用一个非常优秀的数据处理框架Pandas。

import pandas as pd

然后我们把loans.csv里面的内容全部读取出来，存入到一个叫做df的变量里面。

df = pd.read_csv('loans.csv')

我们看看df这个数据框的前几行，以确认数据读取无误。

df.head()

因为表格列数较多，屏幕上显示不完整，我们向右拖动表格，看表格最右边几列是否也正确读取。

经验证，数据所有列都已读入。

统计一下总行数，看是不是所有行也都完整读取进来了。

df.shape

运行结果如下：

(46508, 13)

行列数量都正确，数据读取无误。

你应该还记得吧，每一条数据的最后一列safe_loans是个标记，告诉我们之前发放的这笔贷款是否安全。我们把这种标记叫做目标(target)，把前面的所有列叫做“特征”(features)。这些术语你现在记不住没关系，因为以后会反复遇到。自然就会强化记忆。

下面我们就分别把特征和目标提取出来。依照机器学习领域的习惯，我们把特征叫做X，目标叫做y。

X = df.drop('safe_loans', axis=1)
y = df.safe_loans

我们看一下特征数据X的形状：

X.shape

运行结果为：

(46508, 12)

除了最后一列，其他行列都在。符合我们的预期。我们再看看“目标”列。

y.shape

执行后显示如下结果：

(46508,)

这里的逗号后面没有数字，指的是只有1列。

我们来看看X的前几列。

X.head()

运行结果为：

注意这里有一个问题。Python下做决策树的时候，每一个特征都应该是数值（整型或者实数）类型的。但是我们一眼就可以看出，grade, sub_grade, home_ownership等列的取值都是类别(categorical)型。所以，必须经过一步转换，把这些类别都映射成为某个数值，才能进行下面的步骤。

那我们就开始映射吧：

from sklearn.preprocessing import LabelEncoder
from collections import defaultdict
d = defaultdict(LabelEncoder)
X_trans = X.apply(lambda x: d[x.name].fit_transform(x))
X_trans.head()

运行结果是这样的：

这里，我们使用了LabelEncoder函数，成功地把类别变成了数值。小测验：在grade列下面，B被映射成了什么数字？

请对比两个表格，思考10秒钟。

答案是1。你答对了吗？

下面我们需要做的事情，是把数据分成两部分，分别叫做训练集和测试集。

为什么这么折腾？

因为有道理。

想想看，如果期末考试之前，老师给你一套试题和答案，你把它背了下来。然后考试的时候，只是从那套试题里面抽取一部分考。你凭借超人的记忆力获得了100分。请问你学会了这门课的知识了吗？不知道如果给你新的题目，你会不会做呢？答案还是不知道。

所以考试题目需要和复习题目有区别。同样的道理，我们用数据生成了决策树，这棵决策树肯定对已见过的数据处理得很完美。可是它能否推广到新的数据上呢？这才是我们真正关心的。就如同在本例中，你的公司关心的，不是以前的贷款该不该贷。而是如何处理今后遇到的新贷款申请。

把数据随机拆分成训练集和测试集，在Python里只需要2条语句就够了。

from sklearn.cross_validation import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X_trans, y, random_state=1)

我们看看训练数据集的形状：

X_train.shape

运行结果如下：

(34881, 12)

测试集呢？

X_test.shape

这是运行结果：

(11627, 12)

至此，一切数据准备工作都已就绪。我们开始呼唤Python中的scikit-learn软件包。决策树的模型，已经集成在内。只需要3条语句，直接调用就可以，非常方便。

from sklearn import tree
clf = tree.DecisionTreeClassifier(max_depth=3)
clf = clf.fit(X_train, y_train)

好了，你要的决策树已经生成完了。

就是这么简单。任性吧？

可是，我怎么知道生成的决策树是个什么样子呢？眼见才为实！

这个……好吧，咱们把决策树画出来吧。注意这一段语句内容较多。以后有机会咱们再详细介绍。此处你把它直接抄进去执行就可以了。

with open("safe-loans.dot", 'w') as f:
     f = tree.export_graphviz(clf,
                              out_file=f,
                              max_depth = 3,
                              impurity = True,
                              feature_names = list(X_train),
                              class_names = ['not safe', 'safe'],
                              rounded = True,
                              filled= True )

from subprocess import check_call
check_call(['dot','-Tpng','safe-loans.dot','-o','safe-loans.png'])

from IPython.display import Image as PImage
from PIL import Image, ImageDraw, ImageFont
img = Image.open("safe-loans.png")
draw = ImageDraw.Draw(img)
img.save('output.png')
PImage("output.png")

见证奇迹的时刻到了：

你是不是跟我第一次看到决策树的可视化结果一样，惊诧了？

我们其实只让Python生成了一棵简单的决策树（深度仅3层），但是Python已经尽职尽责地帮我们考虑到了各种变量对最终决策结果的影响。

测试

欣喜若狂的你，在悄悄背诵什么？你说想把这棵决策树的判断条件背下来，然后去做贷款风险判断？

省省吧。都什么时代了，还这么喜欢背诵？

以后的决策，电脑可以自动化帮你完成了。

你不信？

我们随便从测试集里面找一条数据出来。让电脑用决策树帮我们判断一下看看。

test_rec = X_test.iloc[1,:]
clf.predict([test_rec])

电脑告诉我们，它调查后风险结果是这样的：

array([1])

之前提到过，1代表这笔贷款是安全的。实际情况如何呢？我们来验证一下。从测试集目标里面取出对应的标记：

y_test.iloc[1]

结果是：

经验证，电脑通过决策树对这个新见到的贷款申请风险判断无误。

但是我们不能用孤证来说明问题。下面我们验证一下，根据训练得来的决策树模型，贷款风险类别判断准确率究竟有多高。

from sklearn.metrics import accuracy_score
accuracy_score(y_test, clf.predict(X_test))

虽然测试集有近万条数据，但是电脑立即就算完了：

0.61615205986066912

你可能会有些失望——忙活了半天，怎么才60%多的准确率？刚及格而已嘛。

不要灰心。因为在整个儿的机器学习过程中，你用的都是缺省值，根本就没有来得及做一个重要的工作——优化。

想想看，你买一台新手机，自己还得设置半天，不是吗？面对公司的贷款业务，你用的竟然只是没有优化的缺省模型。可即便这样，准确率也已经超过了及格线。

关于优化的问题，以后有机会咱们详细展开来聊。

你终于摆脱了实习第一天就灰溜溜逃走的厄运。我仿佛看到了一颗未来的华尔街新星正在冉冉升起。

苟富贵，无相忘哦。

你可能感兴趣的:(MachineLearning)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
联邦学习 Federated learning Google I/O‘19 笔记努力搬砖的星期五笔记联邦学习机器学习机器学习 tensorflow
FederatedLearning:MachineLearningonDecentralizeddatahttps://www.youtube.com/watch?v=89BGjQYA0uE文章目录FederatedLearning:MachineLearningonDecentralizeddata1.DecentralizeddataEdgedevicesGboard:mobilekeyboa
【ShuQiHere】探索人工智能核心：机器学习的奥秘 ShuQiHere 人工智能机器学习
【ShuQiHere】什么是机器学习？机器学习（MachineLearning,ML）是人工智能（ArtificialIntelligence,AI）中最关键的组成部分之一。它使得计算机不仅能够处理数据，还能从数据中学习，从而做出预测和决策。无论是语音识别、自动驾驶还是推荐系统，背后都依赖于机器学习模型。机器学习与传统的编程不同，它不再依赖于人类编写的固定规则，而是通过数据自我改进模型，从而更灵活
机器学习 VS 表示学习 VS 深度学习 Efred.D 人工智能机器学习深度学习人工智能
文章目录前言一、机器学习是什么?二、表示学习三、深度学习总结前言本文主要阐述机器学习,表示学习和深度学习的原理和区别.一、机器学习是什么?机器学习(machinelearning),是从有限的数据集中学习到一定的规律,再把学到的规律应用到一些相似的样本集中做预测.机器学习的历史可以追溯到20世纪40年代McCulloch提出的人工神经元网络,目前学界大致把机器学习分为传统机器学习和机器学习两个类别
【python】【Ray的概述】资源存储库 python 开发语言
Overview概述Rayisanopen-sourceunifiedframeworkforscalingAIandPythonapplicationslikemachinelearning.Itprovidesthecomputelayerforparallelprocessingsothatyoudon’tneedtobeadistributedsystemsexpert.Rayminimi
2021-03-31 每日打卡来多喜
昨日完成情况：1.6k散步，❌帕梅拉（我好懒）2.思维导图，statistical和machinelearning,先快速看一遍中文版，然后细看英文版.太多了，感觉在面试前看不完。决定集中精力讲清楚简历的内容。3.工作kki+myhabeats+handover。kki可以制作dataflow了，有了ga和publihser数据。myhabeatsremarketingaudience遇到困难。感
面向可信和节能的雾计算医疗决策支持系统的优化微型机器学习与可解释人工智能神一样的老师论文阅读分享人工智能
这篇论文的标题为《OptimizedTinyMachineLearningandExplainableAIforTrustableandEnergy-EfficientFog-EnabledHealthcareDecisionSupportSystem》，发表在《InternationalJournalofComputationalIntelligenceSystems》2024年第17卷，由R.
【论文阅读】AugSteal: Advancing Model Steal With Data Augmentation in Active Learning Frameworks（2024） Bosenya12 科研学习模型窃取论文阅读模型窃取模型提取数据增强主动学习
摘要Withtheproliferationof（随着）machinelearningmodels（机器学习模型）indiverseapplications,theissueofmodelsecurity（模型的安全问题）hasincreasinglybecomeafocalpoint（日益成为人们关注的焦点）.Modelstealattacks（模型窃取攻击）cancausesignifican
机器学习入门：机器学习的基本概念 Louis0687
姓名：高亦凡学号：19020100056学院：电子工程学院转载自：原文链接【嵌牛导读】机器学习（MachineLearning）是一门涉及统计学、系统辨识、逼近理论、神经网络、优化理论、计算机科学、脑科学等诸多领域的交叉学科，研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能，是人工智能技术的核心。【嵌牛鼻子】机器学习【嵌牛提问】什么是机器学
L1正则和L2正则 wangke
等高线与路径HOML(Hands-OnMachineLearning)上对L1_norm和L2_norm的解释:左上图是L1_norm.背景是损失函数的等高线(圆形),前景是L1_penalty的等高线(菱形),这两个组成了最终的目标函数.在梯度下降的过程中,对于损失函数的梯度为白色点轨迹,对于L1_penalty函数的梯度为黄色点轨迹.可以看出,黄色的点更容易取值为0.因此在考虑两个损失的权衡时
机器学习概述与应用：深度学习、人工智能与经典学习方法刷刷刷粉刷匠人工智能机器学习深度学习
引言机器学习（MachineLearning）是人工智能（AI）领域中最为核心的分支之一，其主要目的是通过数据学习和构建模型，帮助计算机系统自动完成特定任务。随着深度学习（DeepLearning）的崛起，机器学习技术在各行各业中的应用变得越来越广泛。在本文中，我们将详细介绍机器学习的基础概念，包括无监督学习、有监督学习、增量学习，以及常见的回归和分类问题，并结合实际代码示例来加深理解。1.机器学
Datawhale X 李宏毅苹果书 AI夏令营｜机器学习基础之案例学习 Monyan 人工智能机器学习学习李宏毅深度学习
机器学习（MachineLearning,ML）：机器具有学习的能力，即让机器具备找一个函数的能力函数不同，机器学习的类别不同：回归（regression）：找到的函数的输出是一个数值或标量（scalar）。例如：机器学习预测某一个时间段内的PM2.5，机器要找到一个函数f，输入是跟PM2.5有关的的指数，输出是明天中午的PM2.5的值。分类（classification）：让机器做选择题，先准备
R语言机器学习 KNN 2个例子 waterHBO r语言机器学习开发语言
代码的写法，参考来源是这本书:MachineLearningwithR,2ndEdition.pdf相关的资源我已经上传了，包括代码，数据，以及这行本书。下载链接–免积分下载。https://download.csdn.net/download/waterHBO/896756871.第一个例子，代码和过程，全部来自书上#我根据书中第三章KNN的内容来做的。#第3章，KNN,K-NearestNei
【论文阅读】Model Stealing Attacks Against Inductive Graph Neural Networks（2021） Bosenya12 科研学习模型窃取论文阅读图神经网络模型窃取
摘要Manyreal-worlddata（真实世界的数据）comeintheformofgraphs（以图片的形式）.Graphneuralnetworks(GNNs图神经网络),anewfamilyofmachinelearning(ML)models,havebeenproposedtofullyleveragegraphdata（充分利用图数据）tobuildpowerfulapplicat
机器学习在旅游业的革新之旅 jun778895 机器学习人工智能
机器学习在旅游业的革新之旅随着科技的飞速发展，尤其是人工智能（AI）技术的广泛应用，各个行业都迎来了前所未有的变革。其中，旅游业作为全球经济的重要支柱之一，更是受益匪浅。机器学习（MachineLearning,ML）作为AI的核心技术之一，正在逐步重塑旅游业的各个方面，从需求分析、行程规划、服务体验到营销策略，无一不展现出其巨大的潜力和价值。本文将深入探讨机器学习在旅游业的革新之旅，揭示其如何推
Python机器学习笔记：CART算法实战战争热诚
完整代码及其数据，请移步小编的GitHub传送门：请点击我如果点击有误：https://github.com/LeBron-Jian/MachineLearningNote前言在python机器学习笔记：深入学习决策树算法原理一文中我们提到了决策树里的ID3算法，C4.5算法，并且大概的了
机器学习、深度学习、神经网络之间的关系你好，工程师 AI 机器学习
机器学习（MachineLearning）、深度学习（DeepLearning）和神经网络（NeuralNetworks）之间存在密切的关系，它们可以被看作是一种逐层递进的关系。下面简要介绍它们之间的关系：机器学习（MachineLearning）：机器学习是一种人工智能的分支，关注如何通过数据让计算机系统从经验中学习，提高性能。机器学习算法可以分为监督学习、无监督学习、半监督学习和强化学习等不同
认识小波-DWT CWT Scattering 闪闪发亮的小星星数字信号处理与分析计算机视觉人工智能信号处理
这里写自定义目录标题小波变换的种类连续小波变换（CWT）DWTANexampleapplicationofDWTANexampleofCWT5.MachineLearningandDeepLearningwithWaveletScattering小波散射网络大家好。在本次介绍性课程中，我将介绍一些基本的小波概念。我将主要使用一维示例，但相同的概念也可以应用于图像。首先，我们回顾一下什么是小波。现实
你说什么是机器学习呢 guguguyuan 人工智能
机器学习这个词是让人疑惑的，首先它是英文名称MachineLearning(简称ML)的直译，在计算界Machine一般指计算机。这个名字使用了拟人的手法，说明了这门技术是让机器“学习”的技术。但是计算机是死的，怎么可能像人类一样“学习”呢？传统上如果我们想让计算机工作，我们给它一串指令，然后它遵照这个指令一步步执行下去。有因有果，非常明确。但这样的方式在机器学习中行不通。机器学习根本不接受你输入
线性回归（1） zidea
MachineLearninginMarketing感谢李宏毅《回归-案例研究》部分内容为听取李宏毅老师讲座的笔记，也融入了自己对机器学习理解，个人推荐李宏毅老师的机器学习系列课程，尤其对于初学者强烈推荐。课程设计相对其他课程要容易理解。在机器学习中算法通常分为回归和分类两种，今天我们探讨什么线性回归。以及如何设计一个线性回归模型。什么回归简单理解通过数据最终预测出来一个值。回归问题的实例就是找到
【了解机器学习的定义与发展历程】 AK@ 人工智能人工智能机器学习
曾梦想执剑走天涯，我是程序猿【AK】目录简述概要知识图谱简述概要了解机器学习的定义与发展历程知识图谱机器学习（MachineLearning，ML）是一门跨学科的学科，它使用计算机模拟或实现人类学习行为，通过不断地获取新的知识和技能，重新组织已有的知识结构，从而提高自身的性能。简单来说，机器学习就是让计算机从数据中学习规律，并根据这些规律对未来数据进行预测。机器学习的发展历程可以追溯到上世纪50年
【机器学习】是什么? dami_king 机器学习
机器学习（MachineLearning,ML）是一门多领域交叉学科，属于人工智能（ArtificialIntelligence,AI）的一个分支，致力于研究和构建算法及统计模型，让计算机系统能够在没有明确编程指令的情况下，通过分析和学习数据集中的规律与模式，从而获得新知识、发现内在联系、做出预测或者决策的能力。简单来说，机器学习就是使计算机程序能够从经验中学习和改进。以下是机器学习的一些核心概念
【IEEE出版、EI稳定检索】2024年机器学习与神经网络国际学术会议(MLNN 2024) AEIC学术交流中心—李老师机器学习神经网络人工智能
2024年机器学习与神经网络国际学术会议(MLNN2024)2024InternationalConferenceonMachinelearningandNeuralNetworks2024年4月19-21日中国-珠海重要信息大会官网：www.icmlnn.org(点击投稿/参会/了解会议详情）大会时间：2024年4月19-21日大会地点：中国-珠海接受/拒稿通知：投稿后1周左右截稿时间：2024
ChatGPT魔法1：背后的原理王丰博 GPT chatgpt
1.AI的三个阶段1）上世纪50~60年代，计算机刚刚产生2）Machinelearning3）Deeplearning，有神经网络，最有代表性的是ChatGPT,GPT(GenerativePre-TrainedTransformer)2.深度神经网络llyaSutskever:做图像识别，使用了GPT去并行计算及训练。Alexnet数据库已经label好的（李飞飞）GPU算力3.GPT3.1T
论文阅读-面向机器学习的云工作负载预测模型的性能分析向来痴_ 论文阅读
论文名称：PerformanceAnalysisofMachineLearningCenteredWorkloadPredictionModelsforCloud摘要由于异构服务类型和动态工作负载的高变异性和维度，资源使用的精确估计是一个复杂而具有挑战性的问题。在过去几年中，资源使用和流量的预测已受到研究界的广泛关注。许多基于机器学习的工作负载预测模型通过利用其计算能力和学习能力得以发展。本文提出
深度学习环境下一些有用的链接星海之眸
UsefulLinksAboutsystem初始安装系统的一些主要链接Ubuntu16.04系统美化输入法的安装wechat安装matlab安装ubuntu下matlab启动报错java.lang.runtime.Exception**********************,则执行这个命令:sudochmod-Ra+rw~/.matlabAboutMachineLearningtensorflo
Week10 kidling_G
第10周十七、大规模机器学习(LargeScaleMachineLearning)17.1大型数据集的学习参考视频:17-1-LearningWithLargeDatasets(6min).mkv如果我们有一个低方差的模型，增加数据集的规模可以帮助你获得更好的结果。我们应该怎样应对一个有100万条记录的训练集？以线性回归模型为例，每一次梯度下降迭代，我们都需要计算训练集的误差的平方和，如果我们的学
机器学习入门之基础概念及线性回归 StarCoder_Yue 算法机器学习学习笔记机器学习线性回归正则化人工智能算法数学
任务目录什么是Machinelearning学习中心极限定理，学习正态分布，学习最大似然估计推导回归Lossfunction学习损失函数与凸函数之间的关系了解全局最优和局部最优学习导数，泰勒展开推导梯度下降公式写出梯度下降的代码学习L2-Norm，L1-Norm，L0-Norm推导正则化公式说明为什么用L1-Norm代替L0-Norm学习为什么只对w/Θ做限制，不对b做限制Question1：Wh
Kaggle Intro Model Validation and Underfitting and Overfitting 卢延吉 New Developer 数据 (Data)ML &ME &GPT 机器学习
ModelValidationModelvalidationisthecornerstoneofensuringarobustandreliablemachinelearningmodel.It'stherigorousassessmentofhowwellyourmodelperformsonunseendata,mimickingreal-worldscenarios.Doneright,it
web前段跨域nginx代理配置刘正强 nginx cms Web
nginx代理配置可参考server部分 server { listen 80; server_name localhost;
spring学习笔记 caoyong spring
一、概述 a>、核心技术 : IOC与AOP b>、开发为什么需要面向接口而不是实现接口降低一个组件与整个系统的藕合程度，当该组件不满足系统需求时，可以很容易的将该组件从系统中替换掉，而不会对整个系统产生大的影响 c>、面向接口编口编程的难点在于如何对接口进行初始化,(使用工厂设计模式)
Eclipse打开workspace提示工作空间不可用 0624chenhong eclipse
做项目的时候，难免会用到整个团队的代码，或者上一任同事创建的workspace， 1.电脑切换账号后，Eclipse打开时，会提示Eclipse对应的目录锁定，无法访问，根据提示，找到对应目录，G:\eclipse\configuration\org.eclipse.osgi\.manager，其中文件.fileTableLock提示被锁定。解决办法，删掉.fileTableLock文件，重
Javascript 面向对面写法的必要性？一炮送你回车库 JavaScript
现在Javascript面向对象的方式来写页面很流行，什么纯javascript的mvc框架都出来了：ember 这是javascript层的mvc框架哦,不是j2ee的mvc框架我想说的是，javascript本来就不是一门面向对象的语言，用它写出来的面向对象的程序，本身就有些别扭，很多人提到js的面向对象首先提的是：复用性。那么我请问你写的js里有多少是可以复用的，用fu
js array对象的迭代方法换个号韩国红果果 array
1.forEach 该方法接受一个函数作为参数，对数组中的每个元素使用该函数 return 语句失效 function square(num) { print(num, num * num); } var nums = [1,2,3,4,5,6,7,8,9,10]; nums.forEach(square); 2.every 该方法接受一个返回值为布尔类型
对Hibernate缓存机制的理解归来朝歌 session 一级缓存对象持久化
在hibernate中session一级缓存机制中，有这么一种情况：问题描述：我需要new一个对象，对它的几个字段赋值，但是有一些属性并没有进行赋值，然后调用 session.save()方法，在提交事务后，会出现这样的情况： 1：在数据库中有默认属性的字段的值为空 2：既然是持久化对象，为什么在最后对象拿不到默认属性的值？通过调试后解决方案如下：对于问题一，如你在数据库里设置了
WebService调用错误合集 darkranger webservice
Java.Lang.NoClassDefFoundError: Org/Apache/Commons/Discovery/Tools/DiscoverSingleton 调用接口出错，一个简单的WebService import org.apache.axis.client.Call;import org.apache.axis.client.Service; 首先必不可
JSP和Servlet的中文乱码处理 aijuans Java Web
JSP和Servlet的中文乱码处理前几天学习了JSP和Servlet中有关中文乱码的一些问题，写成了博客，今天进行更新一下。应该是可以解决日常的乱码问题了。现在作以下总结希望对需要的人有所帮助。我也是刚学，所以有不足之处希望谅解。一、表单提交时出现乱码：在进行表单提交的时候，经常提交一些中文，自然就避免不了出现中文乱码的情况，对于表单来说有两种提交方式：get和post提交方式。所以
面试经典六问 atongyeye 工作面试
题记：因为我不善沟通，所以在面试中经常碰壁，看了网上太多面试宝典，基本上不太靠谱。只好自己总结，并试着根据最近工作情况完成个人答案。以备不时之需。以下是人事了解应聘者情况的最典型的六个问题： 1 简单自我介绍关于这个问题，主要为了弄清两件事，一是了解应聘者的背景，二是应聘者将这些背景信息组织成合适语言的能力。我的回答：(针对技术面试回答，如果是人事面试，可以就掌
contentResolver.query()参数详解百合不是茶 android query()详解
收藏csdn的博客,介绍的比较详细,新手值得一看 1.获取联系人姓名一个简单的例子，这个函数获取设备上所有的联系人ID和联系人NAME。 [java] view plain copy public void fetchAllContacts() {
ora-00054:resource busy and acquire with nowait specified解决方法 bijian1013 oracle 数据库 kill nowait
当某个数据库用户在数据库中插入、更新、删除一个表的数据，或者增加一个表的主键时或者表的索引时，常常会出现ora-00054:resource busy and acquire with nowait specified这样的错误。主要是因为有事务正在执行（或者事务已经被锁），所有导致执行不成功。 1.下面的语句
web 开发乱码征客丶 spring Web
以下前端都是 utf-8 字符集编码一、后台接收 1.1、 get 请求乱码 get 请求中，请求参数在请求头中；乱码解决方法： a、通过在web 服务器中配置编码格式：tomcat 中，在 Connector 中添加URIEncoding="UTF-8"； 1.2、post 请求乱码 post 请求中，请求参数分两部份， 1.2.1、url？参数，
【Spark十六】： Spark SQL第二部分数据源和注册表的几种方式 bit1129 spark
Spark SQL数据源和表的Schema case class apply schema parquet json JSON数据源准备源数据 {"name":"Jack", "age": 12, "addr":{"city":"beijing&
JVM学习之:调优总结 -Xms -Xmx -Xmn -Xss BlueSkator -Xss -Xmn -Xms -Xmx
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx355
jqGrid 各种参数详解(转帖) BreakingBad jqGrid
jqGrid 各种参数详解分类：源代码分享个人随笔请勿参考解决开发问题 2012-05-09 20:29 84282人阅读评论(22) 收藏举报 jquery 服务器 parameters function ajax string
读《研磨设计模式》-代码笔记-代理模式-Proxy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.lang.reflect.InvocationHandler; import java.lang.reflect.Method; import java.lang.reflect.Proxy; /* * 下面
应用升级iOS8中遇到的一些问题 chenhbc ios8 升级iOS8
1、很奇怪的问题，登录界面，有一个判断，如果不存在某个值，则跳转到设置界面，ios8之前的系统都可以正常跳转，iOS8中代码已经执行到下一个界面了，但界面并没有跳转过去，而且这个值如果设置过的话，也是可以正常跳转过去的，这个问题纠结了两天多，之前的判断我是在 -(void)viewWillAppear:(BOOL)animated 中写的，最终的解决办法是把判断写在 -(void
工作流与自组织的关系？ comsci 设计模式工作
目前的工作流系统中的节点及其相互之间的连接是事先根据管理的实际需要而绘制好的，这种固定的模式在实际的运用中会受到很多限制，特别是节点之间的依存关系是固定的，节点的处理不考虑到流程整体的运行情况，细节和整体间的关系是脱节的，那么我们提出一个新的观点，一个流程是否可以通过节点的自组织运动来自动生成呢？这种流程有什么实际意义呢？这里有篇论文，摘要是：“针对网格中的服务
Oracle11.2新特性之INSERT提示IGNORE_ROW_ON_DUPKEY_INDEX daizj oracle
insert提示IGNORE_ROW_ON_DUPKEY_INDEX 转自：http://space.itpub.net/18922393/viewspace-752123 在 insert into tablea ...select * from tableb中，如果存在唯一约束，会导致整个insert操作失败。使用IGNORE_ROW_ON_DUPKEY_INDEX提示，会忽略唯一
二叉树:堆 dieslrae 二叉树
这里说的堆其实是一个完全二叉树,每个节点都不小于自己的子节点,不要跟jvm的堆搞混了.由于是完全二叉树,可以用数组来构建.用数组构建树的规则很简单: 一个节点的父节点下标为: (当前下标 - 1)/2 一个节点的左节点下标为: 当前下标 * 2 + 1 &
C语言学习八结构体 dcj3sjt126com c
为什么需要结构体，看代码 # include <stdio.h> struct Student //定义一个学生类型，里面有age, score, sex, 然后可以定义这个类型的变量 { int age; float score; char sex; } int main(void) { struct Student st = {80, 66.6,
centos安装golang dcj3sjt126com centos
#在国内镜像下载二进制包 wget -c http://www.golangtc.com/static/go/go1.4.1.linux-amd64.tar.gz tar -C /usr/local -xzf go1.4.1.linux-amd64.tar.gz #把golang的bin目录加入全局环境变量 cat >>/etc/profile<
10.性能优化-监控-MySQL慢查询 frank1234 性能优化 MySQL慢查询
1.记录慢查询配置 show variables where variable_name like 'slow%' ; --查看默认日志路径查询结果：--不用的机器可能不同 slow_query_log_file=/var/lib/mysql/centos-slow.log 修改mysqld配置文件：/usr /my.cnf[一般在/etc/my.cnf，本机在/user/my.cn
Java父类取得子类类名 happyqing java this 父类子类类名
在继承关系中，不管父类还是子类，这些类里面的this都代表了最终new出来的那个类的实例对象，所以在父类中你可以用this获取到子类的信息！ package com.urthinker.module.test; import org.junit.Test; abstract class BaseDao<T> { public void
Spring3.2新注解@ControllerAdvice jinnianshilongnian @Controller
@ControllerAdvice，是spring3.2提供的新注解，从名字上可以看出大体意思是控制器增强。让我们先看看@ControllerAdvice的实现： @Target(ElementType.TYPE) @Retention(RetentionPolicy.RUNTIME) @Documented @Component public @interface Co
Java spring mvc多数据源配置 liuxihope spring
转自：http://www.itpub.net/thread-1906608-1-1.html 1、首先配置两个数据库 <bean id="dataSourceA" class="org.apache.commons.dbcp.BasicDataSource" destroy-method="close&quo
第12章 Ajax（下） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BW / Universe Mappings blueoxygen BO
BW Element OLAP Universe Element Cube Dimension Class Charateristic A class with dimension and detail objects (Detail objects for key and desription) Hi
Java开发熟手该当心的11个错误 tomcat_oracle java 多线程工作单元测试
#1、不在属性文件或XML文件中外化配置属性。比如，没有把批处理使用的线程数设置成可在属性文件中配置。你的批处理程序无论在DEV环境中，还是UAT（用户验收测试）环境中，都可以顺畅无阻地运行，但是一旦部署在PROD 上，把它作为多线程程序处理更大的数据集时，就会抛出IOException，原因可能是JDBC驱动版本不同，也可能是#2中讨论的问题。如果线程数目可以在属性文件中配置，那么使它成为
推行国产操作系统的优劣 yananay windows linux 国产操作系统
最近刮起了一股风，就是去“国外货”。从应用程序开始，到基础的系统，数据库，现在已经刮到操作系统了。原因就是“棱镜计划”，使我们终于认识到了国外货的危害，开始重视起了信息安全。操作系统是计算机的灵魂。既然是灵魂，为了信息安全，那我们就自然要使用和推行国货。可是，一味地推行，是否就一定正确呢？先说说信息安全。其实从很早以来大家就在讨论信息安全。很多年以前，就据传某世界级的网络设备制造商生产的交