nwnlp

简单算法复杂说-Kmeans

前言

先看一个简单的例子

有四个牧师去郊区布道，一开始牧师们随意选了几个布道点，并且把这几个布道点的情况公告给了郊区所有的居民，于是每个居民到离自己家最近的布道点去听课。
听课之后，大家觉得距离太远了，于是每个牧师统计了一下自己的课上所有的居民的地址，搬到了所有地址的中心地带，并且在海报上更新了自己的布道点的位置。
牧师每一次移动不可能离所有人都更近，有的人发现A牧师移动以后自己还不如去B牧师处听课更近，于是每个居民又去了离自己最近的布道点……
就这样，牧师每个礼拜更新自己的位置，居民根据自己的情况选择布道点，最终稳定了下来。

在机器学习中，例子中居民就是我们的样本点，四个牧师就是我们的聚类的中心点。这里分成几个步骤
  1.随机挑选聚类中心(四个牧师随意选了几个布道点)
  2.样本归类到最近的中心点所属的类别中(居民到离自己最近的布道点听课)
  3.每个类别重新计算中心点(牧师重新选择布道位置)
  4.重复2,3步骤，直至收敛(牧师稳定下来了)
以上就是我们Kmeans算法的大致迭代过程。简单，高效又神奇！

用一个图来更好描述这样一个过程

简单算法复杂说-Kmeans_第1张图片

实践中，我们只需要选定K值和初始中心点，其他的直接交给计算机了。
值得思考的是，我们选定了K值，聚过程中会不会出现类别个数小于K呢？更直观地说，四个牧师会不会就剩三个了？

一.原理

和其他算法模型一样，kmeans也自己的**损失函数**(目标函数) 设有K个cluster为

$C_1,C_2,...C_k)$ ，目标就是最小化所有样本点到各自cluster的距离之和SSE(sum of the squared errors 误差平方和)
$\sum\limits_{i=1}^k\sum\limits_{x \in C_i} ||x-\mu_i||_2^2$
其中 $\mu_i$ 为 $C_i$ 的质心，表达式为：
$\mu_i = \frac{1}{|C_i|}\sum\limits_{x \in C_i}x$
这里的可观测数据是样本点和聚类的隶属关系(通过计算样本点与各个中心点的距离求得)
但是存在一个隐变量：聚类中心点在哪里？

含隐变量的优化问题梯度下降没法解决，EM算法可以！

用EM算法来解决这样一个问题的思路就是：
根据现有的隐含变量，计算各个样本点的分类结果称为期望值计算过程，E step
接下来，重新计算隐含变量称为最大化过程，M step

更多Kmeans的数学推导可自行Google，与EM的关系可参考**“数学之美第二版”**242页

Q:通过EM算法迭代的Kmeans能保证全局最优解吗？
A:本身是凸优化问题，由欧氏距离构造的目标函数是凸函数，只要数据是凸集，能得到全局最优解

二.如何初始化中心点

EM算法的诟病就是初始值敏感，Kmeans当然也是。不同的初始值会得到不同的结果，对算法的收敛时间也会有很大影响。一般kmeans初始化有三种方法： a)手动指定 b)随机 c)kmeans++

实际应用中通常采用kmeans++，它的策略也很简单的，如下:
1.从样本点中随机选一个作为第一个聚类中心 $\mu_1$
2.计算每个样本与当前已有的聚类中心的最短距离 $D (x)$
3.以一定的概率挑选下一个中心点，原则是 $D (x)$ 越大，概率越小。
4.重复2，3 直到挑选出K个中心点。

通过Kmeans++初始化的中心点，在数据中比较分散，但也不会绝对地分布在数据的边缘。

sklearn默认的初始方式就是kmeans++
同时它会默认多次选取初始值进行聚类，把效果最好的返回给用户，这也是解决初始值敏感常用的一种方法。

三.如何选取K值

1.经验判定

根据数据的先验知识决定K值范围，肉眼观测聚类效果，选取效果最好的K值。K值如果较大时，这个方法就不适用了。

2.手肘法

计算聚类后**目标函数SSE**的值。随着K的增加，样本划分的越细，SSE自然会越小。极端情况下K取样本数，SSE为0。当K未到达真实值时，SSE下降的幅度会很大，到达真实值后，K再增加SSE的下降幅度就会变小趋于平缓。SSE和K的关系图像像一个手肘的形状，如下图。而这个肘部对应的K值就作为最优的K值。

简单算法复杂说-Kmeans_第2张图片

3.轮廓系数

计算轮廓系数，越小K值越佳

4.小结

K值是Kmeans最重要也是最难决定的参数，K值过小导致模型欠拟合，K值过大导致模型过拟合。合理地选择K值是Kmeans工程实践中最重要的工作。

四.计算加速

1.elkan Kmeans

如果有m个样本点，样本点的维度是n，cluster数目为k，迭代t次。整个算法的时间复杂度为$O=m*n*k*t$当样本点很多，维度很大时候，这种全比较计算复杂度还是很高的。距离计算上能否做到简化？elkan Kmeans就是从这方面改进的。它的目标就是减少不必要的计算。

第一种规律是对于一个样本点 $x$ 和两个质心 $\mu_{j_1}, \mu_{j_2}$ 。如果我们预先计算出了这两个质心之间的距离 $D(j_1,j_2)$ ，则如果计算发现 $2D(x,j_1) \leq D(j_1,j_2)$ ,我们立即就可以知道 $D(x,j_1) \leq D(x, j_2)$ 。此时我们不需要再计算 $D(x, j_2)$ ,也就是说省了一步距离计算。

第二种规律是对于一个样本点x和两个质心 $\mu_{j_1}, \mu_{j_2}$ 。我们可以得到 $D(x,j_2) \geq max\{0, D(x,j_1) - D(j_1,j_2)\}$ 。这个从三角形的性质也很容易得到

elkan Kmeans 巧妙地利用两边之和大于第三边，以及两边之差小于第三边的三角性质，来减少不必要的计算。

elkan Kmeans比传统的Kmeans迭代速度有很大的提高。sklearn在检测我们的样本数据的特征是非稀疏时候，默认使用该方法加速

2.转内积计算

如果样本维度很高的时候，单个样本和cluster中心点计算距离就很耗时。处理这种问题通常是将高维下的欧式距离计算转化成计算内积的方式。 $$||x-c||^2=

3.小结

上面提到的两种加速方法都可以在sklearn中找到对应的实现。当我们的样本是高维稀疏的时候，使用第2种方法。样本非稀疏时候，使用了第1种方法。当然我们可以同时采用这两种方法，毕竟两种技巧从不同方面提出来的。

五.大数据下的Kmeans

1.min-batch Kmeans

神经网络在迭代更新参数时，每个Epoch下最理想的做法是在整个样本集上一次性计算梯度值，然后再更新参数。在样本数据很多时，这种方法会极慢并且out memory，所以提出了mini-batch的方法，每次随机地挑选出batch size个样本数据来更新参数。牺牲了一点精度的情况下加快了速度。

传统的Kmeans即使有上面提到的加速方法，但在数据量达到百万级以上时仍旧很慢。于是有了mini-batch Kmeans
mini-batch Kmeans采用类似神经网络mini-batch的方法。我们会选择一个batch size，仅仅用batch size个样本做Kmeans训练，这里的batch size个样本一般通过无放回的随机采样得到。
为了增加精度，一般会跑几次mini batch Kmeans，用不同的采样集得到聚类结果，选取其中最优的cluster，这里最优的判定方法依赖SSE

2.并行化

Kmeans绝大部分计算用在E step上，而E step是很容易实现分布式计算的。基于map-reduce的Kmeans算法流程大致如下： a)初始化k个中心点 b)将中心点broadcast到各个节点 c)map过程：各个节点上的样本点计算与中心点的距离，得到新的类别，同类的样本可以做向量求和操作 d)reduce过程：以类别为key，同类别的求和结果会reduce在一块，本地对节点的向量和结果再次按照类别求和，结果除以各类别的个数得到新的中心点 e)重复b,c,d直至收敛

更多细节可参见 Spark Kmeans实现.

六.实验

选取实际资讯推荐项目中1000条新闻数据（仅科技类）进行聚类。在简单清洗，切词后如下

新闻中包括了互联网，各类手机品牌，电脑硬件，天文宇宙等不同主题的资讯。主题的个数是未知的。

使用kmeans聚类之前，先通过tf-idf对文本进行编码。每条新闻转换成 $∣ V ∣$ 维的向量， $∣ V ∣$ 为语料的词表大小，实验中约2万+

这里有个细节，通过tf-idf编码得到的vector要进行L2 Norm，文本相似我们通常用cosine距离来衡量，标准的Kmeans是基于欧式距离的。经过L2 Norm处理后的vector，计算cosine距离和欧式距离等价。

选取不同的K值绘制出K-SSE图

简单算法复杂说-Kmeans_第3张图片

上图最明显的两个手肘点出现在K等于14，22

实验中的数据量并不是很大，但绘制这样一个曲线图个人PC上还是花费数小时。
实际项目中，数据量较大时，我们可以采用上文提到的mini-batch Kmeans帮我们绘制这样的曲线图

考虑到K=22会产生过拟合，选取14作为K值

K=14部分聚类效果如下

可以看出不同品牌的手机资讯聚类在一起，iPhone，vivo，OPPO，小米，魅族等，天文宇宙资讯聚在一起。

七.总结及补充

1)K值是Kmeans中最重要的参数，可以通过手肘法来估计，数据量很大时用mini-batch Kmeans来绘制k-SSE图。
2)对初始值敏感，kmeans++可以缓和初始值的影响。
3)通过elkan Kmeans和转内积法加速计算，sklearn和spark的Kmeans都集成这两种方法，只需要愉快调包:)
4)对噪音异常数据敏感。Kmeans是hard-assign模型，处理异常数据效果不佳。这时候可采用混合高斯模型等。
5)由于是EM算法，对于非凸数据集速度慢，难收敛。
6)由于是基于欧式距离的聚类的，只能发现球形类簇。
7)基于其他距离衍生出一些K算法，如Spherical k-means,Kmedoids,Kmedian,Kcenter
它们有各自的应用场景，但是不太常用，我也没深究。

八.TO DO

后面有时间与其他聚类算法做详细对比

你可能感兴趣的:(机器学习)

阿里云态势感知和安骑士有什么区别？阿腾云
阿里云态势感知和安骑士均是阿里云云盾安全产品，态势感知属于安全管理类的产品，安骑士数据服务器安全类产品，阿里云百科网来详细说下阿里云态势感知和安骑士之间的区别：态势感知和安骑士的区别简单来说，安骑士是检测云服务器漏洞的，态势感知提供安全类的大数据分析服务。态势感知：安全大数据分析平台，通过机器学习和结合全网威胁情报，发现传统防御软件无法覆盖的网络威胁，溯源攻击手段、并且提供可行动的解决方案。安骑士
「日拱一码」035 机器学习——调参过程可视化胖达不服输「日拱一码」机器学习人工智能调参过程可视化神经网络 python 模型可解释性
目录超参数搜索的3D曲面可视化交互式3D可视化神经网络学习率的3D可视化SVM超参数的3D决策边界可视化超参数优化的3D动画超参数搜索的3D曲面可视化##超参数搜索的3D曲面可视化importnumpyasnpimportmatplotlib.pyplotaspltfrommpl_toolkits.mplot3dimportAxes3Dfromsklearn.datasetsimportmake_
数据质量是机器学习项目的核心痛点，AI技术能提供智能化解决方案。 zzywxc787 python pandas numpy 人工智能自动化运维 AI编程
一、数据质量诊断系统（Python实现）importpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspltfromsklearn.clusterimportKMeansfromsklearn.ensembleimportIsolationForestfromtensorflow.keras.modelsimportSequentialfromte
7.机器学习-十大算法之一拉索回归（Lasso）算法原理讲解以山河作礼。 #机器学习算法机器学习算法回归
7.机器学习-十大算法之一拉索回归（Lasso）算法原理讲解一·摘要二·个人简介三·前言四·原理讲解五·算法流程六·代码实现6.1坐标下降法6.2最小角回归法七·第三方库实现7.1scikit-learn实现（坐标下降法）：7.2scikit-learn实现（最小角回归法）：一·摘要拉索回归（LassoRegression）是一种线性回归的正则化形式，它通过引入L1范数惩罚项来实现模型的稀疏性，从
机器学习算法之回归算法福葫芦机器学习回归算法
一、回归算法思维导图二、算法概念、原理、应用场景和实例代码1、线性回归1.1、概念‌‌线性回归算法是一种统计分析方法，用于确定两种或两种以上变量之间的定量关系。‌线性回归算法通过建立线性方程来预测因变量（y）和一个或多个自变量（x）之间的关系。其基本形式为y=wx+e，其中w是权重，x是自变量，e是误差项。1.2、算法原理线性回归算法的核心在于找到最佳的拟合直线，使得预测值与实际值之间的误差最小。
7篇1章7节：机器学习算法解读，与数值预测回归模型构建 MD分析用R探索医药数据科学机器学习算法回归 r语言数据挖掘
机器学习是当今数据分析和人工智能的核心工具之一，其算法广泛应用于分类、回归、排序和推荐等领域。本篇将详细讲解机器学习的四大经典算法类型，并以回归问题为例深入探讨数值预测的关键步骤，包括数据准备、线性回归模型构建、模型预测及误差评估，帮助读者更系统地理解和掌握机器学习的基础知识及实际应用。一、机器学习的算法在数据科学和人工智能的浪潮中，机器学习算法成为了解决各种数据问题的关键工具。机器学习主要处理四
支持向量机SVM 李昊哲小课 sklearn 人工智能机器学习支持向量机算法机器学习 sklearn 人工智能数据挖掘
支持向量机SVM一、支持向量机算法支持向量机（SupportVectorMachine，SVM）是一种用于分类和回归分析的机器学习算法。分类场景举例（更容易理解）假设现在有一个二维平面上散落着一些点，这些点分为两类，一类是红色的圆形点，另一类是蓝色的方形点。我们的任务就是找到一条直线，能够把这两类点尽可能准确地分开。支持向量机算法做的事情就和这个类似。算法核心思想它不是随便找一条能分开两类数据的直
高斯混合模型（GMM）中的协方差矩阵类型与聚类形状关系详解码字的字节机器学习机器学习人工智能高斯混合模型 GMM
高斯混合模型（GMM）简介高斯混合模型（GaussianMixtureModel,GMM）是概率统计与机器学习交叉领域的重要模型，其核心思想是通过多个高斯分布的线性组合来描述复杂数据分布。与单一高斯分布不同，GMM能够捕捉数据中的多模态特性，这使得它在处理真实世界非均匀分布数据时展现出独特优势。从数学形式上看，一个包含K个分量的GMM可表示为：其中(\pi_k)是第k个高斯分量的混合系数（满足(\
机器学习初学者理论初解 Mikhail_G 机器学习人工智能
大家好!为什么手机相册能自动识别人脸？为什么购物网站总能推荐你喜欢的商品？这些“智能”背后，都藏着一位隐形高手——机器学习（MachineLearning）。一、什么是机器学习？简单说，机器学习是教计算机从数据中自己找规律的技术。就像教孩子认猫：不是直接告诉他“猫有尖耳朵和胡须”，而是给他看100张猫狗照片，让他自己总结出猫的特征。传统程序vs机器学习传统程序：输入规则+数据→输出结果（例：按“温
Embedding与向量数据库玖月初玖大模型应用开发基础人工智能 embedding 数据库
1.Embedding是什么EmbeddingModel是一种机器学习模型，它的核心任务是将离散的、高维的符号（如单词、句子、图片、用户、商品等）转换成连续的、低维的向量（称为“嵌入”或“向量表示”），并且这个向量能有效地捕捉原始符号的语义、关系或特征。1.1通俗理解EmbeddingModel是让计算机“理解”世界的核心工具，把“文字、图片、音频”等信息变成一串有意义的数字我们称之为“向量”。类
2023年第10期(NeuroImage)：DomainATM：多中心医学图像数据标准化工具箱影浮科技ImageFlow
基本信息1.标题：DomainATM:Domainadaptationtoolboxformedicaldataanalysis.2.期刊：NeuroImage3.IF/JCR/分区：7.4/Q1/中科院一区4.DOI：10.1016/j.neuroimage.2023.119863目录1、导读2、背景动机3、研究目的4、工具箱介绍5、测试试验6、局限不足1导读域适应（DA）是基于机器学习的现代医
在NLP深层语义分析中，深度学习和机器学习的区别与联系
在自然语言处理（NLP）的深层语义分析任务中，深度学习与机器学习的区别和联系主要体现在以下方面：一、核心区别特征提取方式机器学习：依赖人工设计特征（如词频、句法规则、TF-IDF等），需要领域专家对文本进行结构化处理。例如，传统情感分析需人工定义“情感词库”或通过词性标注提取关键成分。深度学习：通过神经网络自动学习多层次特征。例如，BERT等模型可从原始文本中捕获词向量、句法关系甚至篇章级语义，无
迁移学习：知识复用的智能迁移引擎 | 从理论到实践的跨域赋能范式大千AI助手人工智能 Python #OTHER 迁移学习人工智能机器学习算法神经网络大模型迁移
让AI像人类一样“举一反三”的通用学习框架本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！一、核心定义与基本概念迁移学习（TransferLearning）是一种机器学习范式，其核心思想是：将源领域（SourceDomain）学到的知识迁移到目标领域（TargetDomain），以提升目标任务的性能
AI原生应用中的用户画像构建：从理论到实践全解析
AI原生应用中的用户画像构建：从理论到实践全解析关键词：用户画像、AI原生应用、特征工程、机器学习、个性化推荐、数据隐私、模型优化摘要：本文全面解析AI原生应用中用户画像构建的全过程，从基础概念到核心技术，再到实际应用和未来趋势。我们将用通俗易懂的方式讲解用户画像如何像"数字身份证"一样工作，深入探讨特征提取、模型构建等关键技术，并通过实际案例展示用户画像在推荐系统、精准营销等场景中的应用。文章还
Python爬虫【四十五章】爬虫攻防战：异步并发+AI反爬识别的技术解密程序员_CLUB Python入门到进阶 python 爬虫人工智能
目录引言：当爬虫工程师遇上AI反爬官一、异步并发基础设施层1.1混合调度框架设计1.2智能连接池管理二、机器学习反爬识别层2.1特征工程体系2.2轻量级在线推理三、智能决策系统3.1动态策略引擎3.2实时对抗案例四、性能优化实战4.1全链路压测数据4.2典型故障处理案例五、总结：构建智能化的爬虫生态系统Python爬虫相关文章（推荐）引言：当爬虫工程师遇上AI反爬官在大数据采集领域，我们正经历着技
万字长文，解读大模型技术原理（非常详细）零基础入门到精通，收藏这一篇就够了
大模型是指具有大规模参数和复杂计算结构的机器学习模型。本文从大模型的发展历程出发，对大模型领域的各个技术细节进行详细解读，供大家在了解大模型基本知识的过程中起到一定参考作用。一、大模型的定义大语言模型作为一个被验证可行的方向，其“大”体现在训练数据集广，模型参数和层数大，计算量大，其价值体现在通用性上，并且有更好的泛化能力。这些模型通常由深度神经网络构建而成，拥有数十亿甚至数千亿个参数。大模型的设
TensorFlow为AI人工智能航空航天领域带来变革 AI原生应用开发人工智能 tensorflow python ai
TensorFlow为AI人工智能航空航天领域带来变革关键词：TensorFlow、人工智能、航空航天、机器学习、深度学习、神经网络、自主系统摘要：本文探讨了TensorFlow这一强大的机器学习框架如何推动航空航天领域的创新。我们将从基础概念入手，逐步深入分析TensorFlow在航天器导航、卫星图像处理、飞行器自主决策等关键应用场景中的实现原理。通过实际代码示例和架构图解，展示TensorFl
多语言文本分类在AI应用中的实践 AI原生应用开发人工智能分类数据挖掘 ai
多语言文本分类在AI应用中的实践关键词：多语言文本分类、自然语言处理、机器学习、深度学习、BERT、迁移学习、跨语言模型摘要：本文深入探讨多语言文本分类在AI领域的应用实践。我们将从基础概念出发，逐步讲解其核心原理、技术架构和实现方法，并通过实际案例展示如何构建一个高效的多语言文本分类系统。文章将涵盖从传统机器学习方法到最先进的深度学习技术，特别关注跨语言迁移学习在实际业务场景中的应用。背景介绍目
从零开始构建AI原生应用的认知架构 AI原生应用开发 AI-native 架构 ai
从零开始构建AI原生应用的认知架构关键词：AI原生应用、认知架构、机器学习、知识图谱、神经网络、智能决策、系统设计摘要：本文深入探讨如何从零开始构建AI原生应用的认知架构。我们将从基本概念出发，逐步解析认知架构的核心组件，包括知识表示、推理机制和学习能力等。通过生动的比喻和实际代码示例，帮助读者理解如何设计一个能够模拟人类认知过程的AI系统。文章还将介绍当前最先进的认知架构模型，并展望未来发展趋势
Deep Multi-scale Convolutional Neural Network for Dynamic Scene Deblurring 论文阅读钟屿论文阅读计算机视觉人工智能
用于动态场景去模糊的深度多尺度卷积神经网络摘要针对一般动态场景的非均匀盲去模糊是一个具有挑战性的计算机视觉问题，因为模糊不仅来源于多个物体运动，还来源于相机抖动和场景深度变化。为了去除这些复杂的运动模糊，传统的基于能量优化的方法依赖于简单的假设，例如模糊核是部分均匀或局部线性的。此外，最近的基于机器学习的方法也依赖于在这些假设下生成的合成模糊数据集。这使得传统的去模糊方法在模糊核难以近似或参数化的
基于Paillier同态加密算法的金融数据安全共享机制研究【附数据】
金融数据分析与建模专家金融科研助手|论文指导|模型构建✨专业领域：金融数据处理与分析量化交易策略研究金融风险建模投资组合优化金融预测模型开发深度学习在金融中的应用擅长工具：Python/R/MATLAB量化分析机器学习模型构建金融时间序列分析蒙特卡洛模拟风险度量模型金融论文指导内容：金融数据挖掘与处理量化策略开发与回测投资组合构建与优化金融风险评估模型期刊论文✅具体问题可以私信或查看文章底部二维码
吴恩达机器学习cs229-学习笔记-更新中是娜个二叉树！机器学习学习笔记
吴恩达机器学习cs22901基础概念语言：Matlab/python监督学习定义：获取一组数据集拟合数据从X到Y的映射回归问题：预测的Y是连续的，Y是实数分类问题：分类指的是Y取离散值，输出是离散的两组，正示例和负示例，把所有样本推到这条直线上，用0，1，标识逻辑回归算法，拟合直线区分正，负示例处理相对大量特征的回归算法或者分类算法支持向量机算法：它使用的不是1,2,3,10个输入特征，而是使用无
「日拱一码」033 机器学习——严格划分胖达不服输「日拱一码」机器学习人工智能严格划分组划分
目录简单随机划分（train_test_split）分组划分（GroupSplitting）简单分组划分(GroupSplitting)分层分组划分(StratifiedGroupSplitting)交叉验证法（Cross-Validation）分组K折交叉验证（GroupKFold）留一组法（LeaveOneGroupOut）简单随机划分（train_test_split）简单随机分组通过随机分
从零开始：搭建你的人工智能开发环境人工智能教程人工智能 YOLO 机器学习 transformer 线性回归动态规划排序算法
前言在人工智能和机器学习的旅程中，一个稳定且高效的开发环境是成功的关键第一步。无论是初学者还是经验丰富的开发者，一个配置良好的开发环境都能大大提高工作效率，减少遇到的问题。本文将从零开始，逐步指导你如何搭建一个完整的人工智能开发环境，包括操作系统选择、Python安装、常用库的配置以及开发工具的选择。一、选择合适的操作系统（一）主流操作系统介绍在搭建人工智能开发环境时，首先需要选择一个合适的操作系
基于机器学习的加密货币资金费率预测与套利策略云梦量化科技 python
一、资金费率机制解析永续合约的资金费率是加密货币衍生品市场独有的机制，旨在使永续合约价格锚定现货价格。资金费率每8小时结算一次，结算时多空双方互相支付资金费用：费率为正时，多头支付给空头；费率为负时，空头支付给多头。此机制既促使永续合约价格回归现货价格，也反映市场多空情绪。某安永续合约资金费率计算公式通常为：资金费率 F = 平均溢价指数 P + Clamp(综合利率 I − 溢价指数 P, +0
机器人-组成结构-感知 - 决策 - 执行具身智能-查布嘎具身智能机器人人工智能
目录一、感知系统内部传感器：外部传感器：二、智能决策系统机器学习家族1.1机器学习2.1深度学习2.2深度学习模型(主要属于监督/强化学习范畴，但结构通用)：3.1监督学习3.2监督学习模型4.1半监督学习4.2无/半监督学习模型：5.1无监督学习5.2生成模型(可属于监督/无监督)：6.1强化学习7.1其他学习三、控制系统（运控）①对应小脑和脊柱一、感知系统①对应人体的五官。由具有不同功能的各种
机器学习入门（五）：线性回归—从模型函数到目标函数米饭超人
从数据反推公式假设我们获得了这样一张表格，上面列举了美国纽约若干程序员职位的年薪：enterimagedescriptionhere大家可以看到，表格中列举了职位、经验、技能、国家和城市几项特征。除了经验一项，其他都是一样的。不同的经验（工作年限），薪水不同。而且看起来，工作年头越多，工资也就越高。那么我们把Experience与Salary抽取出来，用x和y来分别指代它们。enterimaged
Python深度学习实践：LSTM与GRU在序列数据预测中的应用 AI智能应用 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Python深度学习实践：LSTM与GRU在序列数据预测中的应用作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来序列数据预测是机器学习领域的一个重要研究方向，涉及时间序列分析、自然语言处理、语音识别等多个领域。序列数据具有时间依赖性，即序列中每个元素都受到前面元素的影响。传统的机器学习算法难以捕捉这种时间依赖性，而深度学习
一个例子带你入门机器学习
目录1.为建模选择数据2.选择预测目标3.选择“特征”4.构建您的模型（这篇文章将使用经典墨尔本房价数据集作为例子，引导机器学习的流程，数据集为melb_data.csv，请在csdn的下载区自行下载，运行代码时需要将数据集下载在同个目录下）1.为建模选择数据数据集有太多的变量，多到难以理解，甚至无法很好地打印出来。如何将这海量的数据削减为能够理解的内容？我们将首先凭借直觉选择几个变量。后续将介绍
初探机器学习与力学研究的交叉领域 faderbic 机器学习人工智能深度学习
目录关于如何踏入机器学习领域机器学习与力学研究的交叉方向1.使用机器学习加速有限元求解2.结合有限元计算和机器学习预测复杂材料结构与力学性能的关系3.结构健康检测4.疲劳寿命预测总结关于如何踏入机器学习领域因为我本科的专业是力学，所以当我开始关注机器学习领域时，首先考虑的是机器学习和力学的交叉领域。对于很多对人工智能感兴趣的朋友，想加入人工智能的潮流却不知道从何学起，我提供一个思路，我认为将自己学
多线程编程之理财周凡杨 java 多线程生产者消费者理财
现实生活中，我们一边工作，一边消费，正常情况下会把多余的钱存起来，比如存到余额宝，还可以多挣点钱，现在就有这个情况：我每月可以发工资20000万元（暂定每月的1号），每月消费5000（租房+生活费）元（暂定每月的1号），其中租金是大头占90%，交房租的方式可以选择（一月一交，两月一交、三月一交），理财：1万元存余额宝一天可以赚1元钱，
[Zookeeper学习笔记之三]Zookeeper会话超时机制 bit1129 zookeeper
首先，会话超时是由Zookeeper服务端通知客户端会话已经超时，客户端不能自行决定会话已经超时，不过客户端可以通过调用Zookeeper.close()主动的发起会话结束请求，如下的代码输出内容 Created /zoo-739160015 CONNECTEDCONNECTED .............CONNECTEDCONNECTED CONNECTEDCLOSEDCLOSED
SecureCRT快捷键 daizj secureCRT 快捷键
ctrl + a : 移动光标到行首ctrl + e ：移动光标到行尾crtl + b: 光标前移1个字符crtl + f: 光标后移1个字符crtl + h : 删除光标之前的一个字符ctrl + d ：删除光标之后的一个字符crtl + k ：删除光标到行尾所有字符crtl + u : 删除光标至行首所有字符crtl + w: 删除光标至行首
Java 子类与父类这间的转换周凡杨 java 父类与子类的转换
最近同事调的一个服务报错，查看后是日期之间转换出的问题。代码里是把 java.sql.Date 类型的对象强制转换为 java.sql.Timestamp 类型的对象。报java.lang.ClassCastException。代码：
可视化swing界面编辑朱辉辉33 eclipse swing
今天发现了一个WindowBuilder插件，功能好强大，啊哈哈，从此告别手动编辑swing界面代码，直接像VB那样编辑界面，代码会自动生成。首先在Eclipse中点击help，选择Install New Software,然后在Work with中输入WindowBui
web报表工具FineReport常用函数的用法总结（文本函数）老A不折腾 finereport web报表工具报表软件 java报表
文本函数 CHAR CHAR(number):根据指定数字返回对应的字符。CHAR函数可将计算机其他类型的数字代码转换为字符。 Number:用于指定字符的数字，介于1Number:用于指定字符的数字，介于165535之间（包括1和65535）。示例: CHAR(88)等于“X”。 CHAR(45)等于“-”。 CODE CODE(text):计算文本串中第一个字
mysql安装出错林鹤霄 mysql安装
[root@localhost ~]# rpm -ivh MySQL-server-5.5.24-1.linux2.6.x86_64.rpm Preparing... #####################
linux下编译libuv aigo libuv
下载最新版本的libuv源码，解压后执行： ./autogen.sh 这时会提醒找不到automake命令，通过一下命令执行安装（redhat系用yum，Debian系用apt-get）： # yum -y install automake # yum -y install libtool 如果提示错误：make: *** No targe
中国行政区数据及三级联动菜单 alxw4616
近期做项目需要三级联动菜单,上网查了半天竟然没有发现一个能直接用的! 呵呵,都要自己填数据....我了个去这东西麻烦就麻烦的数据上. 哎,自己没办法动手写吧. 现将这些数据共享出了,以方便大家.嗯,代码也可以直接使用文件说明 lib\area.sql -- 县及县以上行政区划分代码（截止2013年8月31日)来源：国家统计局发布时间：2014-01-17 15:0
哈夫曼加密文件百合不是茶哈夫曼压缩哈夫曼加密二叉树
在上一篇介绍过哈夫曼编码的基础知识,下面就直接介绍使用哈夫曼编码怎么来做文件加密或者压缩与解压的软件,对于新手来是有点难度的,主要还是要理清楚步骤; 加密步骤: 1,统计文件中字节出现的次数,作为权值 2,创建节点和哈夫曼树 3,得到每个子节点01串 4,使用哈夫曼编码表示每个字节
JDK1.5 Cyclicbarrier实例 bijian1013 java thread java多线程 Cyclicbarrier
CyclicBarrier类一个同步辅助类，它允许一组线程互相等待，直到到达某个公共屏障点 (common barrier point)。在涉及一组固定大小的线程的程序中，这些线程必须不时地互相等待，此时 CyclicBarrier 很有用。因为该 barrier 在释放等待线程后可以重用，所以称它为循环的 barrier。 CyclicBarrier支持一个可选的 Runnable 命令，
九项重要的职业规划 bijian1013 工作学习
一. 学习的步伐不停止古人说，活到老，学到老。终身学习应该是您的座右铭。世界在不断变化，每个人都在寻找各自的事业途径。您只有保证了足够的技能储
【Java范型四】范型方法 bit1129 java
范型参数不仅仅可以用于类型的声明上，例如 package com.tom.lang.generics; import java.util.List; public class Generics<T> { private T value; public Generics(T value) { this.value =
【Hadoop十三】HDFS Java API基本操作 bit1129 hadoop
package com.examples.hadoop; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataInputStream; import org.apache.hadoop.fs.FileStatus; import org.apache.hadoo
ua实现split字符串分隔 ronin47 lua split
LUA并不象其它许多"大而全"的语言那样，包括很多功能，比如网络通讯、图形界面等。但是LUA可以很容易地被扩展：由宿主语言(通常是C或 C++)提供这些功能，LUA可以使用它们，就像是本来就内置的功能一样。LUA只包括一个精简的核心和最基本的库。这使得LUA体积小、启动速度快，从而适合嵌入在别的程序里。因此在lua中并没有其他语言那样多的系统函数。习惯了其他语言的字符串分割函
java-从先序遍历和中序遍历重建二叉树 bylijinnan java
public class BuildTreePreOrderInOrder { /** * Build Binary Tree from PreOrder and InOrder * _______7______ / \ __10__ ___2 / \ / 4
openfire开发指南《连接和登陆》开窍的石头 openfire 开发指南 smack
第一步官网下载smack.jar包下载地址：http://www.igniterealtime.org/downloads/index.jsp#smack 第二步把smack里边的jar导入你新建的java项目中开始编写smack连接openfire代码 p
[移动通讯]手机后盖应该按需要能够随时开启 comsci 移动
看到新的手机，很多由金属材质做的外壳，内存和闪存容量越来越大，CPU速度越来越快，对于这些改进，我们非常高兴，也非常欢迎但是，对于手机的新设计，有几点我们也要注意第一：手机的后盖应该能够被用户自行取下来，手机的电池的可更换性应该是必须保留的设计,
20款国外知名的php开源cms系统 cuiyadll cms
内容管理系统，简称CMS，是一种简易的发布和管理新闻的程序。用户可以在后端管理系统中发布，编辑和删除文章，即使您不需要懂得HTML和其他脚本语言，这就是CMS的优点。在这里我决定介绍20款目前国外市面上最流行的开源的PHP内容管理系统，以便没有PHP知识的读者也可以通过国外内容管理系统建立自己的网站。 1. Wordpress WordPress的是一个功能强大且易于使用的内容管
Java生成全局唯一标识符 darrenzhu java uuid unique identifier id
How to generate a globally unique identifier in Java http://stackoverflow.com/questions/21536572/generate-unique-id-in-java-to-label-groups-of-related-entries-in-a-log http://stackoverflow
php安装模块检测是否已安装过, 使用的SQL语句 dcj3sjt126com sql
SHOW [FULL] TABLES [FROM db_name] [LIKE 'pattern'] SHOW TABLES列举了给定数据库中的非TEMPORARY表。您也可以使用mysqlshow db_name命令得到此清单。本命令也列举数据库中的其它视图。支持FULL修改符，这样SHOW FULL TABLES就可以显示第二个输出列。对于一个表，第二列的值为BASE T
5天学会一种 web 开发框架 dcj3sjt126com Web 框架 framework
web framework层出不穷，特别是ruby/python,各有10+个,php/java也是一大堆根据我自己的经验写了一个to do list,按照这个清单，一条一条的学习，事半功倍，很快就能掌握一共25条，即便很磨蹭，2小时也能搞定一条，25*2=50。只需要50小时就能掌握任意一种web框架各类web框架大同小异:现代web开发框架的6大元素，把握主线，就不会迷路建议把本文
Gson使用三(Map集合的处理,一对多处理) eksliang json gson Gson map Gson 集合处理
转载请出自出处：http://eksliang.iteye.com/blog/2175532 一、概述 Map保存的是键值对的形式，Json的格式也是键值对的，所以正常情况下，map跟json之间的转换应当是理所当然的事情。二、Map参考实例 package com.ickes.json; import java.lang.refl
cordova实现“再点击一次退出”效果 gundumw100 android
基本的写法如下： document.addEventListener("deviceready", onDeviceReady, false); function onDeviceReady() { //navigator.splashscreen.hide(); document.addEventListener("b
openldap configuration leaning note iwindyforest configuration
hostname // to display the computer name hostname <changed name> // to change go to: /etc/sysconfig/network, add/modify HOSTNAME=NEWNAME to change permenately dont forget to change /etc/hosts
Nullability and Objective-C 啸笑天 Objective-C
https://developer.apple.com/swift/blog/?id=25 http://www.cocoachina.com/ios/20150601/11989.html http://blog.csdn.net/zhangao0086/article/details/44409913 http://blog.sunnyxx
jsp中实现参数隐藏的两种方法 macroli JavaScript jsp
在一个JSP页面有一个链接，//确定是一个链接?点击弹出一个页面，需要传给这个页面一些参数。//正常的方法是设置弹出页面的src="***.do?p1=aaa&p2=bbb&p3=ccc"//确定目标URL是Action来处理?但是这样会在页面上看到传过来的参数，可能会不安全。要求实现src="***.do"，参数通过其他方法传！//////
Bootstrap A标签关闭modal并打开新的链接解决方案 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
Bootstrap里面的js modal控件使用起来很方便，关闭也很简单。只需添加标签 data-dismiss="modal" 即可。可是偏偏有时候需要a标签既要关闭modal，有要打开新的链接，尝试多种方法未果。只好使用原始js来控制。 <a href="#/group-buy" class="btn bt
二维数组在Java和C中的区别流淚的芥末 java c 二维数组数组
Java代码： public class test03 { public static void main(String[] args) { int[][] a = {{1},{2,3},{4,5,6}}; System.out.println(a[0][1]); } } 运行结果： Exception in thread "mai
systemctl命令用法 wmlJava linux systemctl
对比表，以 apache / httpd 为例任务旧指令新指令使某服务自动启动 chkconfig --level 3 httpd on systemctl enable httpd.service 使某服务不自动启动 chkconfig --level 3 httpd off systemctl disable httpd.service 检查服务状态 service h

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他