Johnny丶me

AI笔记: 机器学习之监督学习，非监督学习，强化学习

机器学习概念

http://en.wikipedia.org/wiki/Machine_learning
机器学习是人工智能的一个分支，主要关于构造和研究可以从数据中学习的系统
- 它是依赖于数据的，需要输入大量的数据，因为我们现在是大数据时代，让机器学习更流行
- 过去的经验，它是蕴含在历史数据中，我们要从数据中学习过去的经验，获得经验后会对类似的新样本或场景做出预测

数据

在机器学习中的数据通常是以二维表的形式写出来
二维表类似于我们关系数据库里头的数据表，每一行，表示一个样本，每一列表示一个属性/特征

案例

Boston房价预测数据，根据某地区房屋属性，预测该地区房价

共506行，表示有506个样本
共14列
- 前13列为该地区房屋的属性(CRIM、…、LSTAT)
- 最后1列为该地区房价中位数 MEDV
根据区域房屋属性，预测该地区房价中位数

房价的中位数是我们关心的输出量，称为标签y
假设有N个样本，就有N个y, 共同构成一个向量y如上图所示
前面13列属性作为我们的输入记为X，也是一个矩阵
我们想要知道X和y之间的关系，用函数f来表示，在不同的机器学习模型中f的形式是不一样的
这个模型写好之后，对于新来一个样本，我就可以丢到这个函数(模型)里面，它就会输出对应的y
这样就完成了机器学习的任务

机器学习中任务类型的不同

我们根据数据中y形式的不同，分为3类

监督学习(Supervised Learning)
- 监督学习，它是跟人类学习一样，类似有老师指导，或有监督的，也就是说我们数据中有x, 也有每个x对应的y
- 也就是说从带标签的数据中去学习，像是上面波士顿房价预测的例子，就是监督学习的例子
- 另外比如对垃圾邮件的过滤，我们给了每封邮件它的属性，然后历史数据中我们告诉每封邮件是垃圾邮件还是不是垃圾邮件，然后我们从这样的一些数据中去学习
非监督学习(Un-supervised Learning)
- 非监督学习和监督学习是相反，也就是说我们的数据是没有标签，也就是没有y的
- 比如说我们给了一堆样本，但是不知道他们是一个什么样的关系
- 那这样我就去看是否有一些样本，比如说聚成一团，这样的话其实就是一个典型的一个聚类的任务
- 比如说我们是要把一堆文档拿过来，发现他们很相似，都和新闻有关，那这就是一个文本聚类的一个任务
强化学习(Reinforcement Learning)
- 在强化学习中，这个y它不是即时的，也就是说不是我当时有一个x，我当时就有一个y，而是这个y可能是一个滞后的
- 并且这个x是通过我执行了某个动作，比如说下棋(在棋盘上下了一个棋子)，这是一个动作，会对我的目标有影响，会有一个相应的迟来的奖励或惩罚

监督学习

是最常见的机器学习的任务，根据y形势的不同，又可以分为2类
一类是分类(Clasification)，另一类是回归(Regression)

1 ) 分类

对于上面红色方框和黑色圆圈是两类样本
分类的意思是我要找到一个函数能把两类样本给分开
对分类来讲，这个y等于红色方块或黑色圆圈
可知y的取值是一个离散的，有限的一个集合

2 ) 回归

回归的y就是属于实数，比如房屋价格预测的案例
给一个房屋的属性来预测它的价格，我们输入x，直接用一个函数计算出来y来表示

3 ） 更为形式化的描述监督学习

监督学习：我们给的数据叫训练数据，在这个训练数据集D中，这里有N个样本，我们的i从1到N，每个数据它既有属性 $x_i$ ，又有对应的标签 $y_i$ , 机器学习的任务就是从历史数据中学习到一个 → 的映射，学习好后就可以对新输入的 x进行预测(x)， $\hat{y} =$ f(x), 这里 $\hat{}$ 表示估计的意思
在监督学习中，训练数据包含标签y，这个标签在训练数据中是可见变量
房价预测是一个监督学习任务:根据训练数据 $D = \{x_i , y_i \}_{i=1}^N$ 对房屋属性和房屋价格之间的关系进行建模，再用学习好的模型预测新的房屋的价格
- 训练样本数目 :506个样本
- 输入房屋属性 x :13个特征(CRIM、…、LSTAT)
- 输出房价 y:MEDV
- 我们希望我们训练的这个模型 f, 以后来了一个新的x, 就可以得到一个房价y, 即： $\hat{y} = f(x)$
在监督学习任务中，若输出 $\in R$ 为连续值，则我们称之为一个回归(Regression)任务
- 例:Boston房价预测，输入/协变量(covariate) x :房屋的13个属性(CRIM、…、LSTAT)
- 输出 y: 房价中位数MEDV
在监督学习任务中，若输出为离散值，我们称之为分类
- 标签空间: y = {1, 2, ..., C}
- 鸢尾花分类案例中，输入 x :鸢尾花的属性(花萼长度sepal length 、花萼宽度sepal width 、花瓣长度petal length 、花瓣宽度petalwidth)
- 输出 y: 鸢尾花的类别(山鸢尾花Setosa、变色鸢尾花Versicolor、弗吉尼亚鸢尾花Virginica)

4 ）监督学习工作流程

在这里 Training Data & Training Labels 是我们的训练数据D, 用来训练我们的模型 Model, 用 f 表示
模型学习好了之后，对于测试数据 Test Data, 我们就可以对它来进行预测 Prediction, 得到这些测试数据x对应的 $\hat {y}$ , 这个 $\hat {y}$ 叫做y的估计
在Test Labels中的真实的y和上面的 $\hat {y}$ 进行对比评估，我们就可以评价这个模型的性能
这个流程在Scikit-Learn中表示，estimator是个学习器来调用它的训练，fit表示训练，estimator.fit(X_train, y_train)表示用训练数据来训练模型
之后模型训练好之后，就可以用测试数据进行预测，estimator.predict(X_test) 做完后会得到一个估计值
最后根据估计值来计算分数，进行性能的评估 estimator.score(X_test, y_test)

非监督学习

1 ）概述

在非监督学习里边，我们给的数据只有x, 没有对应的标签y，我们的任务主要是来发现x里面蕴含的结构
对于一个给定的任务，通常这个样本点, 在整个特征空间并不是均匀分布的
一种可能的情况是左下角图的结构，一些数据样本点, 它会比较紧密的结合在一起，另外一些样本点又聚成另外一团
簇和簇之间或者说团和团之间通常会有比较大的空隙，我们可以对这个数据进行聚类分析，然后发现这个样本点成团的这种结构
另外一种方式可能是右下角的结构，一个典型的瑞士卷的结构，也类似于我们一个蛋糕卷
那在这个卷的结构里头，从紫色的点开始，然后变成蓝色，慢慢成黄色，最后变成红色这样分布
如果要从这个三维空间中算样本点和样本之间的距离的话，用欧式距离算，红色点和蓝色点非常近
实际上要从红色走到蓝色，需要沿着卷的边缘走，才能走到，实际上很远，也就是这两个样本点在本质结构上是离的比较远的
这样的话，我们需要把这个数据从原始的高维空间降到它的本质维度
比如说我们把蛋糕卷铺平，那这样我们就会得到，比如说红色的这些点，它对应的是在这个卷的末尾
然后这个紫色的这个点对应的是这个卷的开始，我们在这个降维之后的空间里头，我们再来分析样本和样本之间的关系是更准确

2 ） 更为形式化的描述非监督学习

$D = \{x_i\}_{i=1}^N$
给定训练数据D, $y_i$ 没有给出来，或者说它是一个隐含变量，我们的任务是要发现这个数据D中"有意义的模式"，比如：团簇结构或瑞士卷(本质)结构
有时候非监督学习也叫做知识发现

3 ）聚类

上图是一个典型的聚类的例子，数据x的两维的空间，有 $x_1, x_2$ , 左边是未处理前的，右边是聚类后的
给的这些数据，因为我们没有标签，所以我们把它同等的看待，都用黑色的圆圈表示
但是我们会发现这些数据显示成团成簇的这样一个结构，很显然对于这个数据，我们可以把它分成三团
每一团内部很紧密，类与类之间有比较大的一个间隔
右图是我们做完聚类分析之后的结果，有三类如图所示
如果用简介的方式表示一类样本，可以使用类中心来做代表

4 ）降维

第一个坐标系图，假设我们是在一个二维空间里面 $x_1、x_2$ , 原始的数据分布于这个灰色的这个椭圆区域里面
上图是两维的数据，如果我们现在只能用一维来表示的话，那我们应该选 $x_1$ 还是 $x_2$ 或者其他的某个方向呢？
如果是上面这样一个例子，我们应该选择的是PC1的方向(主成分)，因为是在这个方向它保留原始数据的信息最多或者是我们损失的信息最小, 我们应该选这个
和它垂直的方向是它第2个主成分的方向
第二个图表的例子是我们对鸢尾花数据进行聚类的一个结果，鸢尾花的数据本来有4维，就是花瓣的长度和宽度，花萼的长度和宽度
但是我们会发现我把它降到两维之后，这三类数据还是分得很开，很显然这个蓝色的数据和另外两个分的很开
红色和绿色的数据有点交织在一起，我们也可以用一个分类器，把红色和绿色分开
所以，如果我们用2维或3维分开数据的话，那就没有必要用4维，因为我们把数据降维后，存储量小了，在训练模型的时候，参数也变少了
这样模型会更简单，减弱模型过拟合的程度

5 ）非监督学习的工作流程

我们首先要有训练数据 Training Data，然后我们对模型 Model 进行训练
这个模型训练的过程，我们要看模型里面包含的原始数据里一共有多少类，每一个类中心是在哪里? 或者说一共有几个主成分，每个主成分的方向是什么？
这些是我们由训练数据训练得到这个模型的参数，模型训练好了之后呢，我们可以对训练数据做变换，变换到新的视角来观察这个数据
对于测试数据，我们也可以用这个模型来把它变换成了一个新的视角，那这样以后，我们可以在统一的新的视角下来看待训练数据和测试数据了
在Scikit-Learn框架下，我们可以这样表示：
- 第1步要调用transformer.fit(X_train)这个函数，fit就是训练，因为这里面我们只有x
  - 对比在监督学习里，我们这个地方写的是estimate，是因为在监督学习里头，我们更多的是要拿来做预测，也就是估计
  - 在非监督学习里头，我们主要是对特征做变换，所以我们用transformer，不同的非监督学习的技术具体的这个transformer不同
  - 比如说它是一个聚类或者是一个PCA或者是一个比如说标准化的一个transformer，它们都是这种流程
  - 第1步是由训练数据来训练模型，也就是得到这个模型的参数
- 第2步，模型训练好了之后，我们可以对训练数据进行变换，得到变换之后的训练数据的表示 X_train_transf = transformer.transform(X_train)
  - 同样我们也可以对测试数据来调用transform函数，然后得到它变换之后的表示 X_test_transf = transformer.transform(X_test)
- 不同的非监督学习技术这个流程都是一样，只是具体的这个每个transformer不同，当然这个模型的参数也是稍微不同

其他类型学习任务

介于监督学习(standard supervised learning)和非监督学习(unsupervised learning)之间还有其他类型的学习任务
半监督学习 (semi-supervised learning)
- 有少量的样本是有监督的，就是有标签的，大部分样本我们是没有标签的，也就是无监督的
- 因为在大数据时代，数据是很容易获取的，但是这个数据要对它再进行标注的话，通常是有成本的
- 而且在一些特定领域，比如医学领域，我们标注还是需要有专业的人士来标，这样的话成本会更高
- 我们希望机器能够自动利用少量的标注信息和大量的没有标注的信息，得到一个类似标准的监督学习的一个效果
- 这是一个很火的机器学习研究的方向
多标签学习 (multi-label learning)
- 在典型的监督学习里，一个样本我们只能有一个标签，比如鸢尾花分类，对于给定的一朵花，它只能在三类中的一类
- 但是另外一些时候可能是一个多标签的，比如在进行文档分类的时候，给定一个文档，这个文档有可能是关于教育的，有可能是同时关于科技的，它有多个标签
- 多个标签不是互斥的，就像一个人是有多重属性的
含糊的标签学习 (ambiguous-label learning)
- 在标注的时候, 标注信息可能是有歧义的, 就是它被标了多个标签, 但是实际上只有一个是正确的
- 那也就说这个标注是有噪声的，虽然有噪声, 但是也含有一部分信息, 我们能从这种有噪声的数据里头去学习，也有一定的意义
多实例学习 (multi-instance learning)
- 对很多样本标注了同一个标签，这里很多样本我们称之为样本包，在这个包里面最少有一个样本是真的这个标签，其他的不太确定
- 这样的话，也是说这个数据是有噪声的，这个模型也是从有噪声的数据中寻找有价值有意义的这样一个模式

增强学习

增强学习的标签y是从行为的反馈(奖励或惩罚)中学习的，举例
- 在增强学习中设计了一个回报函数(reward function)
- 如果learning agent(如机器人、回棋AI程序)在执行一个动作后，获得了较好的结果
- 那么我们给agent一些奖励(正的回报，函数结果为正); 若得到较差的结果，则给一个惩罚(回报函数为负)
增强学习的任务: 找到一条回报值最大的路径
是机器学习里面比较火的一个领域，尤其在深入学习出来之后，增强学习和深度学习的结合
比如Alpha Go, Alpha Zero, 以及医药的发现，蛋白质的合成等领域，增强学习都发挥着重要作用

总结

监督学习(SupervisedLearning)
- 分类 (Classification)
- 回归 (Regression)
- 排序 (Ranking)
  - 比如说像我们在检索的过程中，结果是有排序的
  - 在推荐系统中，一个场景下，给我们推荐浏览的内容也是经过排序的
  - 排序评价指标和分类、回归不一样，但模型本质的东西和回归和分类是类似的
  - 这里不再展开
非监督学习(UnsupervisedLearning)
- 聚类 (Clustering)
- 降维 (Dimensionality Reduction)
- 概率密度估计 (density estimation)
  - 在低维(一维、二维)情况下比较现实
  - 更高维的时候做概率密度估计是不可能的
  - 实际任务中特征的维度通常都是非常高的
  - 所以这里也不再展开
增强学习(ReinforcementLearning)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
android系统selinux中添加新属性property 辉色投像
1.定位/android/system/sepolicy/private/property_contexts声明属性开头：persist.charge声明属性类型：u:object_r:system_prop:s0图12.定位到android/system/sepolicy/public/domain.te删除neverallow{domain-init}default_prop:property
C语言宏函数南林yan C语言 c语言
一、什么是宏函数？通过宏定义的函数是宏函数。如下，编译器在预处理阶段会将Add(x,y)替换为((x)*(y))#defineAdd(x,y)((x)*(y))#defineAdd(x,y)((x)*(y))intmain(){inta=10;intb=20;intd=10;intc=Add(a+d,b)*2;cout<
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码说私域人工智能小程序
摘要：本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合，阐述了链动2+1模式、AI智能名片和S2B2C商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来了新的机遇，提升了用户信任感、拓展了营销渠道，并实现了线上线下的完美融合。一、引言随着互联网技术的不断发展，社区团购作为一种新兴的商业模式，在满足消费者日常需
每日一题——第八十九题互联网打工人no1 C语言程序设计每日一练 c语言
题目：在字符串中找到提取数字，并统计一共找到多少整数，a123xxyu23&8889，那么找到的整数为123，23，8889//思想：#include#include#includeintmain(){charstr[]="a123xxyu23&8889";intcount=0;intnum=0;//用于临时存放当前正在构建的整数。boolinNum=false;//用于标记当前是否正在读取一个整
每日一题——第八十一题互联网打工人no1 C语言程序设计每日一练 c语言
打印如下图案:#includeintmain(){inti,j;charch='A';for(i=1;i<5;i++,ch++){for(j=0;j<5-i;j++){printf("");//控制空格输出}for(j=1;j<2*i;j++)//条件j<2*i{printf("%c",ch);//控制字符输出}printf("\n");}return0;}
每日一题——第八十二题互联网打工人no1 C语言程序设计每日一练 c语言
题目：将一个控制台输入的字符串中的所有元音字母复制到另一字符串中#include#include#include#include#defineMAX_INPUT1024boolisVowel(charp);intmain(){charinput[MAX_INPUT];charoutput[MAX_INPUT];printf("请输入一串字符串：\n");fgets(input,sizeof(inp
每日一题——第八十三题互联网打工人no1 C语言程序设计每日一练 c语言
题目：将输入的整形数字输出,输出1990，输出"1990"#include#defineMAX_INPUT1024intmain(){intarrr_num[MAX_INPUT];intnum,i=0;printf("请输入一个数字：");scanf_s("%d",&num);while(num!=0){arrr_num[i++]=num%10;num/=10;}printf("\"");for(
git常用命令笔记咩酱-小羊 git 笔记
###用习惯了idea总是不记得git的一些常见命令，需要用到的时候总是担心旁边站了人~~~记个笔记@_@，告诉自己看笔记不丢人初始化初始化一个新的Git仓库gitinit配置配置用户信息gitconfig--globaluser.name"YourName"gitconfig--globaluser.email"[email protected]"基本操作克隆远程仓库gitclone查看
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
利用LangChain的StackExchange组件实现智能问答系统 nseejrukjhad langchain microsoft 数据库 python
利用LangChain的StackExchange组件实现智能问答系统引言在当今的软件开发世界中，StackOverflow已经成为程序员解决问题的首选平台之一。而LangChain作为一个强大的AI应用开发框架，提供了StackExchange组件，使我们能够轻松地将StackOverflow的海量知识库集成到我们的应用中。本文将详细介绍如何使用LangChain的StackExchange组件
如何部分格式化提示模板:LangChain中的高级技巧 nseejrukjhad langchain java 服务器 python
标题:如何部分格式化提示模板:LangChain中的高级技巧内容:如何部分格式化提示模板:LangChain中的高级技巧引言在使用大型语言模型(LLM)时,提示工程是一个关键环节。LangChain提供了强大的提示模板功能,让我们能更灵活地构建和管理提示。本文将介绍LangChain中一个高级特性-部分格式化提示模板,这个技巧可以让你的提示管理更加高效和灵活。什么是部分格式化提示模板?部分格式化提
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
Faiss Tips：高效向量搜索与聚类的利器焦习娜Samantha
FaissTips：高效向量搜索与聚类的利器faiss_tipsSomeusefultipsforfaiss项目地址:https://gitcode.com/gh_mirrors/fa/faiss_tips项目介绍Faiss是由FacebookAIResearch开发的一个用于高效相似性搜索和密集向量聚类的库。它支持多种硬件平台，包括CPU和GPU，能够在海量数据集上实现快速的近似最近邻搜索（AN
【PG】常见数据库、表属性设置江无羡数据库
PG的常见属性配置方法数据库复制、备份相关表的复制标识单表操作批量表操作链接数据库复制、备份相关表的复制标识单表操作通过ALTER语句单独更改一张表的复制标识。ALTERTABLE[tablename]REPLICAIDENTITYFULL;批量表操作通过代码块的方式，对某个schema中的所有表一起更新其复制标识。SELECTtablename,CASErelreplidentWHEN'd'TH
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
每日一题——第八十八题互联网打工人no1 C语言程序设计每日一练 c语言
题目：输入一个9位的无符号整数，判断其是否有重复数字#include#include#includeintmain(){charnum_str[10];printf("请输入一个9位数的无符号数：");scanf_s("%9d",&num_str);if(strlen(num_str)!=9){printf("输入的不是一个9位无符号整数，请重新输入");}else{if(hasDuplicate
mac电脑命令行获取电量小米人er 我的博客 macos 命令行
在macOS上，有几个命令行工具可以用来获取电量信息，最常用的是pmset命令。你可以通过以下方式来查看电池状态和电量信息：查看电池状态：pmset-gbatt这个命令会返回类似下面的输出：Nowdrawingfrom'BatteryPower'-InternalBattery-0(id=1234567)95%;discharging;4:02remainingpresent:true输出中包括电
【Git】常见命令(仅笔记) 好想有猫猫 Git Linux学习笔记 git 笔记 elasticsearch linux c++
文章目录创建/初始化本地仓库添加本地仓库配置项提交文件查看仓库状态回退仓库查看日志分支删除文件暂存工作区代码远程仓库使用`.gitigore`文件让git不追踪一些文件标签创建/初始化本地仓库gitinit添加本地仓库配置项gitconfig-l#以列表形式显示配置项gitconfiguser.name"ljh"#配置user.namegitconfiguser.email"[email protected]
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
OPENAIGC开发者大赛企业组AI黑马奖 | AIGC数智传媒解决方案 RPA中国人工智能 AIGC 传媒
在第二届拯救者杯OPENAIGC开发者大赛中，涌现出一批技术突出、创意卓越的作品。为了让这些优秀项目被更多人看到，我们特意开设了优秀作品报道专栏，旨在展示其独特之处和开发者的精彩故事。无论您是技术专家还是爱好者，希望能带给您不一样的知识和启发。让我们一起探索AIGC的无限可能，见证科技与创意的完美融合！创未来AI应用赛-企业组AI黑马奖作品名称：AIGC数智传媒解决方案参赛团队：深圳市三象智能技术
Python中深拷贝与浅拷贝的区别 yuxiaoyu.
转自：http://blog.csdn.net/u014745194/article/details/70271868定义：在Python中对象的赋值其实就是对象的引用。当创建一个对象，把它赋值给另一个变量的时候，python并没有拷贝这个对象，只是拷贝了这个对象的引用而已。浅拷贝：拷贝了最外围的对象本身，内部的元素都只是拷贝了一个引用而已。也就是，把对象复制一遍，但是该对象中引用的其他对象我不复
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
你可能遗漏的一些C#/.NET/.NET Core知识点追逐时光者 C#.NET DotNetGuide编程指南 c#.net .netcore microsoft
前言在这个快速发展的技术世界中，时常会有一些重要的知识点、信息或细节被忽略或遗漏。《C#/.NET/.NETCore拾遗补漏》专栏我们将探讨一些可能被忽略或遗漏的重要知识点、信息或细节，以帮助大家更全面地了解这些技术栈的特性和发展方向。拾遗补漏GitHub开源地址https://github.com/YSGStudyHards/DotNetGuide/blob/main/docs/DotNet/D
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
jdk tomcat 环境变量配置 Array_06 java jdk tomcat
Win7 下如何配置java环境变量 1。准备jdk包，win7系统，tomcat安装包（均上网下载即可） 2。进行对jdk的安装，尽量为默认路径（但要记住啊！！以防以后配置用。。。） 3。分别配置高级环境变量。电脑-->右击属性-->高级环境变量-->环境变量。分别配置 : path &nbs
Spring调SDK包报java.lang.NoSuchFieldError错误 bijian1013 java spring
在工作中调另一个系统的SDK包，出现如下java.lang.NoSuchFieldError错误。 org.springframework.web.util.NestedServletException: Handler processing failed; nested exception is java.l
LeetCode[位运算] - #136 数组中的单一数 Cwind java 题解位运算 LeetCode Algorithm
原题链接：#136 Single Number 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现两次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：题目限定了线性的时间复杂度，同时不使用额外的空间，即要求只遍历数组一遍得出结果。由于异或运算 n XOR n = 0, n XOR 0 = n，故将数组中的每个元素进
qq登陆界面开发 15700786134 qq
今天我们来开发一个qq登陆界面，首先写一个界面程序，一个界面首先是一个Frame对象，即是一个窗体。然后在这个窗体上放置其他组件。代码如下： public class First { public void initul(){ jf=ne
Linux的程序包管理器RPM 被触发 linux
在早期我们使用源代码的方式来安装软件时，都需要先把源程序代码编译成可执行的二进制安装程序，然后进行安装。这就意味着每次安装软件都需要经过预处理-->编译-->汇编-->链接-->生成安装文件--> 安装，这个复杂而艰辛的过程。为简化安装步骤，便于广大用户的安装部署程序，程序提供商就在特定的系统上面编译好相关程序的安装文件并进行打包，提供给大家下载，我们只需要根据自己的
socket通信遇到EOFException 肆无忌惮_ EOFException
java.io.EOFException at java.io.ObjectInputStream$PeekInputStream.readFully(ObjectInputStream.java:2281) at java.io.ObjectInputStream$BlockDataInputStream.readShort(ObjectInputStream.java:
基于spring的web项目定时操作知了ing java Web
废话不多说，直接上代码，很简单配置一下项目启动就行 1，web.xml <?xml version="1.0" encoding="UTF-8"?> <web-app xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="h
树形结构的数据库表Schema设计矮蛋蛋 schema
原文地址： http://blog.csdn.net/MONKEY_D_MENG/article/details/6647488 程序设计过程中，我们常常用树形结构来表征某些数据的关联关系，如企业上下级部门、栏目结构、商品分类等等，通常而言，这些树状结构需要借助于数据库完成持久化。然而目前的各种基于关系的数据库，都是以二维表的形式记录存储数据信息，
maven将jar包和源码一起打包到本地仓库 alleni123 maven
http://stackoverflow.com/questions/4031987/how-to-upload-sources-to-local-maven-repository <project> ... <build> <plugins> <plugin> <groupI
java IO操作与 File 获取文件或文件夹的大小，可读，等属性！！！百合不是茶
类 File File是指文件和目录路径名的抽象表示形式。 1，何为文件：标准文件（txt doc mp3...）目录文件（文件夹）虚拟内存文件 2，File类中有可以创建文件的 createNewFile（）方法,在创建新文件的时候需要try{} catch(）{}因为可能会抛出异常；也有可以判断文件是否是一个标准文件的方法isFile();这些防抖都
Spring注入有继承关系的类（2） bijian1013 java spring
被注入类的父类有相应的属性，Spring可以直接注入相应的属性，如下所例：1.AClass类 package com.bijian.spring.test4; public class AClass { private String a; private String b; public String getA() { retu
30岁转型期你能否成为成功人士 bijian1013 成长励志
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
【Velocity四】Velocity与Java互操作 bit1129 velocity
Velocity出现的目的用于简化基于MVC的web应用开发，用于替代JSP标签技术，那么Velocity如何访问Java代码.本篇继续以Velocity三http://bit1129.iteye.com/blog/2106142中的例子为基础， POJO package com.tom.servlets; public
【Hive十一】Hive数据倾斜优化 bit1129 hive
什么是Hive数据倾斜问题操作：join,group by,count distinct 现象：任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成；查看未完成的子任务，可以看到本地读写数据量积累非常大，通常超过10GB可以认定为发生数据倾斜。原因：key分布不均匀倾斜度衡量：平均记录数超过50w且
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua csrf
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-3.求子数组的最大和 bylijinnan java
package beautyOfCoding; public class MaxSubArraySum { /** * 3.求子数组的最大和题目描述：输入一个整形数组，数组里有正数也有负数。数组中连续的一个或多个整数组成一个子数组，每个子数组都有一个和。求所有子数组的和的最大值。要求时间复杂度为O(n)。例如输入的数组为1, -2, 3, 10, -4,
Netty源码学习-FileRegion bylijinnan java netty
今天看org.jboss.netty.example.http.file.HttpStaticFileServerHandler.java 可以直接往channel里面写入一个FileRegion对象，而不需要相应的encoder： //pipeline（没有诸如“FileRegionEncoder”的handler）： public ChannelPipeline ge
使用ZeroClipboard解决跨浏览器复制到剪贴板的问题 cngolon 跨浏览器复制到粘贴板 Zero Clipboard
Zero Clipboard的实现原理 Zero Clipboard 利用透明的Flash让其漂浮在复制按钮之上，这样其实点击的不是按钮而是 Flash ，这样将需要的内容传入Flash，再通过Flash的复制功能把传入的内容复制到剪贴板。 Zero Clipboard的安装方法首先需要下载 Zero Clipboard的压缩包，解压后把文件夹中两个文件：ZeroClipboard.js
单例模式 cuishikuan 单例模式
第一种（懒汉，线程不安全）： public class Singleton { 2 private static Singleton instance; 3 pri
spring+websocket的使用 dalan_123
一、spring配置文件 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3.or
细节问题：ZEROFILL的用法范围。 dcj3sjt126com mysql
1、zerofill把月份中的一位数字比如1，2，3等加前导0 mysql> CREATE TABLE t1 (year YEAR(4), month INT(2) UNSIGNED ZEROFILL, -> day
Android开发10——Activity的跳转与传值 dcj3sjt126com Android开发
Activity跳转与传值，主要是通过Intent类，Intent的作用是激活组件和附带数据。一、Activity跳转方法一Intent intent = new Intent(A.this, B.class); startActivity(intent) 方法二Intent intent = new Intent();intent.setCla
jdbc 得到表结构、主键 eksliang jdbc 得到表结构、主键
转自博客：http://blog.csdn.net/ocean1010/article/details/7266042 假设有个con DatabaseMetaData dbmd = con.getMetaData(); rs = dbmd.getColumns(con.getCatalog(), schema, tableName, null); rs.getSt
Android 应用程序开关GPS gqdy365 android
要在应用程序中操作GPS开关需要权限： <uses-permission android:name="android.permission.WRITE_SECURE_SETTINGS" /> 但在配置文件中添加此权限之后会报错，无法再eclipse里面正常编译，怎么办？ 1、方法一：将项目放到Android源码中编译； 2、方法二：网上有人说cl
Windows上调试MapReduce zhiquanliu mapreduce
1.下载hadoop2x-eclipse-plugin https://github.com/winghc/hadoop2x-eclipse-plugin.git 把 hadoop2.6.0-eclipse-plugin.jar 放到eclipse plugin 目录中。 2.下载 hadoop2.6_x64_.zip http://dl.iteye.com/topics/download/d2b
如何看待一些知名博客推广软文的行为？ justjavac 博客
本文来自我在知乎上的一个回答：http://www.zhihu.com/question/23431810/answer/24588621 互联网上的两种典型心态：当初求种像条狗，如今撸完嫌人丑当初搜贴像条犬，如今读完嫌人软你为啥感觉不舒服呢？难道非得要作者把自己的劳动成果免费给你用，你才舒服？就如同 Google 关闭了 Gooled Reader，那是
sql优化总结 macroli sql
为了是自己对sql优化有更好的原则性，在这里做一下总结，个人原则如有不对请多多指教。谢谢！要知道一个简单的sql语句执行效率，就要有查看方式，一遍更好的进行优化。一、简单的统计语句执行时间 declare @d datetime ---定义一个datetime的变量set @d=getdate() ---获取查询语句开始前的时间select user_id
Linux Oracle中常遇到的一些问题及命令总结超声波 oracle linux
1.linux更改主机名 (1)#hostname oracledb　　　　临时修改主机名 (2) vi /etc/sysconfig/network 　　修改hostname (3) vi /etc/hosts　　　　　　　　修改IP对应的主机名 2.linux重启oracle实例及监听的各种方法（注意操作的顺序应该是先监听，后数据库实例） &nbs
hive函数大全及使用示例 superlxw1234 hadoop hive函数
具体说明及示例参见附件文档。文档目录：目录一、关系运算： 4 1. 等值比较: = 4 2. 不等值比较: <> 4 3. 小于比较: < 4 4. 小于等于比较: <= 4 5. 大于比较: > 5 6. 大于等于比较: >= 5 7. 空值判断: IS NULL 5
Spring 4.2新特性-使用@Order调整配置类加载顺序 wiselyman spring 4
4.1 @Order Spring 4.2 利用@Order控制配置类的加载顺序 4.2 演示两个演示bean package com.wisely.spring4_2.order; public class Demo1Service { } package com.wisely.spring4_2.order; public class

AI笔记: 机器学习之监督学习，非监督学习，强化学习

机器学习概念

机器学习中任务类型的不同

监督学习

非监督学习

其他类型学习任务

增强学习

总结

你可能感兴趣的:(AI,机器学习,监督学习,非监督学习,强化学习)