小磊要努力哟

机器学习之层次聚类与K-Means

聚类与分类不同，聚类是针对给定的样本，依据他们的相似程度或距离，将其归为若干个类或簇的数据分析问题，属于无监督学习。聚类算法是在聚类之前并没有标签，之后聚类之后才会知道它属于哪个类别。本博客仅介绍两种常见的聚类算法：层次聚类和Kmeans聚类。

文章目录

一、层次聚类
- - - 例子
二、Kmeans
- - - 例子
三、python实战
- 3.1、层次聚类
- 3.2、Kmeans
- - - K值的确定：手肘法
    - 2个特征聚类可视化
    - 3个特征聚类可视化

一、层次聚类

层次聚类具有聚合（自下而上）和分裂（自上而下）两种方法。聚合法是将样本各自分到一个类，之后将相距最近的两类合并成新的类，重复此步骤直至满足条件，得到层次化的类别。分裂法是将所以样本分到一个类，之后将距离最远的样本分到两个新的类，重复此步骤直至满足条件，得到层次化的类别。

聚合聚类基本过程：
- 输入：n个样本组成的样本集合及样本间的距离
- 输出：对样本集合的一个层次化聚类
- （1）计算n个样本两两之间的欧氏距离；
- （2）构造n个类，每个类只包含一个样本；
- （3）合并类间距离最小的两个类，其中最短距离为类间距离，构建一个新类；
- （4）计算新类与当前各类的距离，若类的个数为1，终止计算，否则返回到步骤（3）。

例子

给定5个样本的集合，样本间的欧氏距离如下矩阵D所示：其中 $d_ij$ 为第i个样本与第j个样本间的欧氏距离。显然D为对称矩阵。利用聚合层次聚类法对五个样本进行聚类。
$[d_{ij}]_{5*5} \begin{bmatrix} 0 & 7 & 2 & 9 & 3\\ 7 & 0 & 5 & 4 & 6\\ 2 & 5 & 0 & 8 & 1\\ 9 & 4 & 8 & 0 & 5\\ 3 & 6 & 1 & 5 & 0\\ \end{bmatrix}$
（1）首先用5个样本构成5个类， $G_i={x_i},i=1,2,3,4,5$ ，这样，样本间的距离即为类别间距。
（2）由矩阵D可知 $d_35$ = $d_53$ =1最小，所以把 $G_3$ 和 $G_5$ 合并为一个新类，记为 $G_6=\{x_3,x_5\}$
（3）继续计算新类与其余类间的距离： $d_{61}=2,d_{62}=5,d_{64}=5,d_{12}=7,d_{14}=9,d_{24}=4$ ,最小的是类6和类1间距离为2，因此将类6和类1归为新的类，记为 $G_7=\{x_1,x_3,x_5\}$ 。这里简单说一下 $d_{61}=2$ 的由来:因为 $d_{13}=2,d_{15}=3$ ,2<3，所以 $d_{61}=2$ = $d_{31}$ 。其余同理。
（4）计算 $G_7$ 与 $x_2,x_4$ 间的距离， $d_{72}=5,d_{74}=5,d_{24}=4$ ，将 $x_2,x_4$ 归为一类，即 $G_8=\{x_2,x_4\}$ 。
（5）到现在为止，5个样本形成了两个类，分别为 $G_7=\{x_1,x_3,x_5\}$ , $G_8=\{x_2,x_4\}$ ，继续将 $G_7,G_8$ 归为一类，记为 $G_9$ 。全部样本已经归为同一类，终止聚类。

上面的层次聚类过程可以用下面的层次聚类图（用python画出）表示：

二、Kmeans

k均值聚类是基于中心的聚类算法，通过迭代，将样本分到k个类中，使每个样本与其所属类的中心或均值最近，得到k个非层次化的类别，构成对空间的划分。

基本步骤：
- 输入：n个样本的集合
- 输出：样本集合的聚类
- （1）初始化。需将数据标准化，随机选择k个样本作为初始聚类中心；
- （2）对样本进行聚类。计算每个样本到类中心的距离，将样本划分到与其最近的类别中，构成新的聚类结果；
- （3）计算新的聚类中心。对聚类结果，计算各个类中的样本的均值，作为新的类中心；
- （4）如果迭代收敛（聚类结果不再变化）或符合终止条件，输出聚类结果。

例子

给定含有5个样本的集合：
$\begin{bmatrix} 0 & 0 & 1 & 5 & 5\\ 2 & 0 & 0 & 0 & 2\\ \end{bmatrix}$
试用Kmeans均值聚类算法将样本聚类到两个类别中。
解：
（1）先确定两个初始聚类中心，假设选择 $x_1=(0,2)^T,x_2=(0,0)^T$ ，分别为类别 $G_1,G_2$ ;
（2）计算各样本到聚类中心的欧式距离的平方（方便计算）并进行归类：
$d_{13}=5,d_{23}=1$ ，将 $x_3$ 划分到 $G_2$ 类中；
$d_{14}=29,d_{24}=25$ ，将 $x_4$ 划分到 $G_2$ 类中；
$d_{15}=25,d_{25}=29$ ，将 $x_5$ 划分到 $G_1$ 类中；
得到新的类别： $G_1=\{x_1,x_5\}$ ， $G_2=\{x_2,x_3,x_4\}$
（3）计算新的聚类中心。 $G1=(2.5,2)^T，G2=(2,0)^T$
（4）计算各样本到新聚类中心的距离：现在的G类为空了，但是有聚类中心，重新聚类
$d_{11}=6.25,d_{12}=8$ ，将 $x_1$ 划分到 $G_1$ 类中；
$d_{21}=10.25,d_{22}=4$ ，将 $x_2$ 划分到 $G_2$ 类中；
$d_{31}=6.25,d_{32}=1$ ，将 $x_3$ 划分到 $G_2$ 类中；
$d_{41}=10.25,d_{42}=9$ ，将 $x_4$ 划分到 $G_2$ 类中；
$d_{51}=6.25,d_{52}=13$ ，将 $x_5$ 划分到 $G_1$ 类中；
得到新的类别： $G_1=\{x_1,x_5\}$ ， $G_2=\{x_2,x_3,x_4\}$ 聚类结果不变，聚类终止。
最终聚类结果即为 $G_1=\{x_1,x_5\}$ ， $G_2=\{x_2,x_3,x_4\}$ 。

三、python实战

3.1、层次聚类

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import scipy.cluster.hierarchy as sch   # 
from sklearn.cluster import AgglomerativeClustering

disMat = np.array([[0,7,2,9,3],
                   [7,0,5,4,6],
                   [2,5,0,8,1],
                   [9,4,8,0,5],
                   [3,6,1,5,0]])
Z = sch.linkage(disMat,method='ward')
sch.dendrogram(Z,labels=list(['x1','x2','x3','x4','x5']))
plt.text(15,3.8,'G6',fontdict={'size':12})
plt.text(10,6,'G7',fontdict={'size':12})
plt.text(35,7,'G8',fontdict={'size':12})
plt.text(25,18,'G9',fontdict={'size':12})
plt.yticks(range(0,23,5))
plt.show()  # 图即为上面的层次聚类图

# # euclidean欧式距离  ward合并的类的方差最小化  n_clusters=3 分为三类
ac = AgglomerativeClustering(n_clusters=3, affinity='euclidean', linkage='ward')
ac.fit(disMat)
labels = ac.fit_predict(disMat)
print(labels) # [0 2 0 1 0]   x1,x3,x5为一类;x2为一类;x4为一类; 与上面我们计算的分类一致。

3.2、Kmeans

K值的确定：手肘法

from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
from sklearn import preprocessing

df = pd.read_csv('K-Means数据集.txt',sep='\t',header=None,usecols=[0,1,2],names=['a','b','c'])
x = preprocessing.StandardScaler().fit_transform(df[['a','b']]) # 只要两个特征

klist = []
for k in range(1,10):
    kmn=KMeans(n_clusters=k)
    kmn.fit_predict(x)
    klist.append(kmn.inertia_)   # 误差平方和
plt.plot(range(1,10),klist,marker='o')   # 当k= 4的时候逐渐平缓 所以我们选择k=4

2个特征聚类可视化

kmn=KMeans(n_clusters=4)
res=kmn.fit_predict(x)
lable_pred=kmn.labels_     # 聚类的标签即类别
centers=kmn.cluster_centers_  # 聚类中心
print(centers)
# 四个类别的聚类中心
[[-0.9961586  -0.87182378]
 [ 1.60044603  0.90738041]
 [-0.11462682  0.86531506]
 [ 0.57360717 -0.76353259]]


# 对两个点进行预测 类别分别为0 和 2 下面可视化 将两个点也加了进去 预测准确
kmn.predict([[0,2],[1,-0.5]])  # array([0, 2]) 

plt.scatter(x[x['y']==0]['a'],x[x['y']==0]['b'],label=0)
plt.scatter(x[x['y']==1]['a'],x[x['y']==1]['b'],label=1)
plt.scatter(x[x['y']==2]['a'],x[x['y']==2]['b'],label=2)
plt.scatter(x[x['y']==3]['a'],x[x['y']==3]['b'],label=3)
plt.scatter(x=0,y=2,marker='o',color='k',s=100)
plt.scatter(x=1,y=-0.5,marker='o',color='k',s=100)
plt.legend()
plt.show()

3个特征聚类可视化

from mpl_toolkits.mplot3d import Axes3D  # 空间三维画图
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt

df = pd.read_csv('K-Means数据集.txt',sep='\t',header=None,usecols=[0,1,2],names=['a','b','c'])
x = preprocessing.StandardScaler().fit_transform(df)

estimator=KMeans(n_clusters=4)
res=estimator.fit_predict(x)
lable_pred=estimator.labels_
centers=estimator.cluster_centers_
inertia=estimator.inertia_
print(centers) # 聚类中心
[[-0.67604892 -0.78556506  0.90579587]
 [ 0.50573115  0.70181006  0.90113919]
 [ 0.78663516  0.87904113 -0.80456021]
 [-0.61783656 -0.78968316 -0.84178368]]

x = pd.DataFrame(x)
x.columns = ['a','b','c']
x['y'] = lable_pred

x = pd.DataFrame(x)
x.columns = ['a','b','c']
x['y'] = lable_pred

fig = plt.figure()
ax = Axes3D(fig)
ax.scatter(x[x['y']==0]['a'],x[x['y']==0]['b'],x[x['y']==0]['c'],color='red')
ax.scatter(x[x['y']==1]['a'],x[x['y']==1]['b'],x[x['y']==1]['c'],color='blue')
ax.scatter(x[x['y']==2]['a'],x[x['y']==2]['b'],x[x['y']==2]['c'],color='green')
ax.scatter(x[x['y']==3]['a'],x[x['y']==3]['b'],x[x['y']==3]['c'],color='pink')
# 添加坐标轴(顺序是Z, Y, X)
ax.set_zlabel('Z', fontdict={'size': 15, 'color': 'red'})
ax.set_ylabel('Y', fontdict={'size': 15, 'color': 'red'})
ax.set_xlabel('X', fontdict={'size': 15, 'color': 'red'})
# 展示
plt.show()

你可能感兴趣的:(机器学习,python,数据分析,机器学习,数据挖掘,聚类)

python中实例和对象的区别,python类对象和实例对象有什么区别吗沈涵SH1 python中实例和对象的区别
python类对象和实例对象有什么区别吗发布时间：2020-07-2014:10:37来源：亿速云阅读：119作者：清晨这篇文章主要介绍python类对象和实例对象有什么区别吗，文中介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们一定要看完！面向对象最重要的概念就是类(Class)和实例(Instance)，必须牢记类是抽象的模板，比如Student类，而实例是根据类创建出来的一个个具体的“对
python|结构的模式匹配match|同步迭代 Plips python java 前端
在Python中，模式匹配（PatternMatching）是一种强大的功能，用于根据数据的结构或内容进行匹配和处理。Python3.10引入了match语句，使得模式匹配更加直观和灵活。模式匹配可以用于处理复杂的数据结构，如列表、字典、类实例等。模式匹配的基本用法"""match数据:case模式1:#匹配模式1时执行的代码case模式2:#匹配模式2时执行的代码case_:#默认情况,匹配任意
【新生必会】30个较难Python脚本，建议收藏。 .Boss. 信息可视化 python 人工智能算法开发语言机器学习
本篇较难，建议优先学习上篇；20个硬核Python脚本-CSDN博客接上篇文章，对于Pyhon的学习，上篇学习的结束相信大家对于Pyhon有了一定的理解和经验，学习完上篇文章之后再研究研究剩下的30个脚本你将会有所成就！加油！目录21、数据库连接-SQLite22、图像处理-Pillow23、图形界面-Tkinter24、文本生成-Faker25、加密和解密-cryptography26、Sock
麦萌短剧技术解构《我跑江湖那些年》：从“仇恨驱动型算法”到“多方安全计算的自我救赎” 短剧萌算法安全
《我跑江湖那些年》以慕青青的复仇与蜕变为主线，展现了分布式系统中的信任崩塌与对抗性博弈的模型优化。本文将从机器学习视角拆解这场“江湖算法”的技术隐喻，探讨如何在数据污染的困境中实现参数净化。1.初始训练集：暴力采样与特征空间坍缩慕青青（Agent_M）的成长环境可视为一个高偏差训练集：数据污染事件：村主任（Node_V）通过恶意共识算法（如嫉妒驱动的PoW机制），煽动村民（Sub_Nodes）对果
python import 另一个文件夹下的类 zhousenshan python新赛道 python django
在Python开发中，有时我们需要将不同文件夹中的模块或类相互导入，以实现代码的复用和组织。对于刚入行的小白来说，这可能会让人感到有些困惑。本文将帮助你了解如何在Python中导入另一个文件夹下的类，并为你提供详细的步骤与代码示例。python类与对象的详细用法_python撖寡情-CSDN博客导入类的流程为了解决这个问题，我们可以将导入的过程分为以下几个步骤：步骤描述1确认项目结构，了解不同文件
PyTorch 生态概览：为什么选择动态计算图框架？小诸葛IT课堂 pytorch 人工智能 python
一、PyTorch的核心价值PyTorch作为深度学习框架的后起之秀，通过动态计算图技术革新了传统的静态图模式。其核心优势体现在：动态灵活性：代码即模型，支持即时调试Python原生支持：无缝衔接Python生态高效的GPU加速：通过CUDA实现透明的硬件加速活跃的社区生态：GitHub贡献者超1.8万人，日均更新100+次二、动态计算图VS静态计算图对比#动态计算图示例（PyTorch）impo
Python文件中动态导入多个.py文件 _长风_ Python脚本方法大合集 python
Python文件中动态导入多个.py文件一、背景在一些自动化脚本中，我们需要一些中间文件作为引用文件来处理一些自动化的工作，但是中间文件数量可能根据需求的变更发生不规律的变化，所以就需要一些读文件夹来自动获取这些需要引用的中间文件，下面就是我整理的一个能够实现动态导入的方法。二、实现思路及步骤生成文件：a.py脚本会生成b.py和c.py文件，并在其中定义一个简单的函数。执行生成文件脚本：在m
基于python+django+vue.js开发的社区养老管理系统源码+运行步骤冷琴1996 Python系统设计 python django vue.js
业余时间开发的社区养老系统，基于python/vue技术开发。学习过程问题可以留言。功能介绍平台采用B/S结构，后端采用主流的Python语言进行开发，前端采用主流的Vue.js进行开发。功能包括：老人管理、护工管理、亲属管理、病史管理、房间管理、活动管理、用户管理、日志管理、系统信息模块。源码地址https://github.com/geeeeeeeek/python_yanglao演示地址ht
Python从一个文件导入另一个文件的方法 _苏歌 Python python
从一个文件中导入另一个文件需要的函数#导入所需要的文件importChrome_HandLessimporttimebrowser=Chrome_HandLess.share_browser()url='https://www.baidu.com/'browser.get(url)#获取输入框对象input_button=browser.find_element(by='id',value='kw
LeetCode 第6题：Z字形变换（Python3解法） little student LeetCode leetcode 算法职场和发展
文章目录1：问题描述2：问题分析2.1时间复杂度和空间复杂度2.2二维矩阵2.2.1构建矩阵2.2.2判断位置2.2.3边界2.2.4代码2.3改进的二维矩阵2.3.1代码2.4构造法2.4.1代码1：问题描述来源：LeetCode难度：中等问题详情：将一个给定字符串s根据给定的行数numRows，以从上往下、从左到右进行Z字形排列。比如输入字符串为“PAYPALISHIRING”行数为3时，排列
python requests库详解_Python Requests库详解 momo呀耶 python requests库详解
Requests是用Python语言编写，基于urllib，采用Apache2Licensed开源协议的HTTP库。它比urllib更加方便，可以节约我们大量的工作，完全满足HTTP测试需求。一句话--Python实现的简单易用的HTTP库安装Requestspip3isntallrequestsrequest实例引入importrequestsresponse=requests.get('htt
python文件导入另外个文件 LedMetallica python 开发语言
我整理的一些关于【Python】的项目学习资料（附讲解～～）和大家一起分享、学习一下：https://d.51cto.com/Hpqqk2如何在Python中导入文件在Python编程中，文件的导入是一个常见而重要的操作。通过导入其他Python文件的功能，我们可以重用代码、组织项目结构、提升代码的可读性和可维护性。本文将带你逐步了解如何实现Python文件的导入，并提供必要的代码示例和详细解释。
python之requests库 qq_44659804 python python 开发语言
python之requests库requests库请求方法示例get方法get方法访问百度的输出指定方法发送请求简单的requests请求例子response响应对象的text和content之间的区别发送带header的请求发送带参数的请求在headers参数中携带Cookie两种使用cookie的形式：1.2.超时参数（timeout）使用代理IP（proxies）使用verify参数忽略CA
python导入不同目录下的py文件孙二羔 python python
文章已迁移至https://www.yuque.com/sunergao-koyun/pamxml/wx38h5
python使用importlib进行动态导入py文件 *Major* python 开发语言 opencv
python动态导入py文件importimportlibdefdynamic_import(module):returnimportlib.import_module(module)实例importimportlibimportcv2defdynamic_import(module):returnimportlib.import_module(module)classOpenCVAlgo:def
学习pytorch 阿什么名字不会重复呢学习 pytorch 人工智能
学习PyTorch是一个很好的选择，尤其是如果你对深度学习和机器学习感兴趣。以下是一个详细的学习计划，可以帮助你系统地掌握PyTorch的基本概念和应用。学习计划概览学习周期：8周（每周约4-5小时）目标：掌握PyTorch基础，能够实现简单的深度学习模型。第1周：基础知识目标：了解深度学习的基础知识，掌握Python和NumPy基础。任务：学习Python基础（数据类型、控制流、函数、类）。资源
数据挖掘中的数据预处理：填充与主成分分析阿什么名字不会重复呢数据挖掘人工智能
数据挖掘中的数据预处理：填充与主成分分析在数据挖掘中，数据预处理是非常重要的一步。现实世界中的数据通常是不完整的，包含噪声、缺失值或异常值，因此在进行模型训练或分析前，我们需要对数据进行清理和转换。本文将介绍数据预处理中的两种常见填充方法（01填充和均值填充），以及一种用于降维的技术——主成分分析（PCA）。一、数据填充数据填充是处理缺失值的常见方法。在实际场景中，数据集可能会因为各种原因出现缺失
python 如何引入同一个文件夹下py方法 m0_68335176 eclipse
前言毕业快三年了，前后也待过几家公司，碰到各种各样的同事。见识过各种各样的代码，优秀的、垃圾的、不堪入目的、看了想跑路的等等，所以这篇文章记录一下一个优秀的后端Java开发应该有哪些好的开发习惯。拆分合理的目录结构受传统的MVC模式影响，传统做法大多是几个固定的文件夹controller、service、mapper、entity，然后无限制添加，到最后你就会发现一个service文件夹下面有几十
【Python】如何在Python中导入其他Python文件？ civilpy python 开发语言
基本原理在Python编程中，我们经常需要将代码组织成模块，以便于重用和维护。模块是包含Python定义和语句的文件。导入模块可以让你访问其他文件中定义的函数、类和变量等。Python提供了几种不同的方法来导入模块。代码示例示例1：导入整个模块假设我们有一个名为math_functions.py的文件，它定义了一些数学函数。我们可以在另一个Python文件中导入这个模块，如下所示：#math_fu
QT：文件读取 Yanjun2i qt 开发语言
问题：在文件读取，判断md5值时，遇到py文件读取转String后，再转byte，md5前后不一致问题。解决方法：python文件读取要使用QTextStream，避免\t、\r、\n的换行符跨平台问题（window系统换行符和linux换行符不一致）。QTextStream默认帮你处理了换行符跨平台问题。\r：回到开头\n：换行一般读取文件的方式是：boolxxxxClass::readFile
Python中Requests库的用法 R3eE9y2OeFcU40
前面讲了Python的urllib库的使用和方法，Python网络数据采集Urllib库的基本使用，Python的urllib高级用法。今天我们来学习下Python中Requests库的用法。Requests库的安装利用pip安装，如果你安装了pip包（一款Python包管理工具，不知道可以百度哟），或者集成环境，比如Python（x,y）或者anaconda的话，就可以直接使用pip安装Pyth
【机器学习-基础知识】统计和贝叶斯推断人类发明了工具 ML&DL学习分享机器学习概率论人工智能
1.概率论基本概念回顾1.概率分布定义：概率分布（ProbabilityDistribution）指的是随机变量所有可能取值及其对应概率的集合。它描述了一个随机变量可能取的所有值以及每个值被取到的概率。对于离散型随机变量，使用概率质量函数来描述。对于连续型随机变量，使用概率密度函数来描述。举例说明：投掷一颗六面骰子，每个面上的数字（1到6）都有相同的概率（1/6）出现，这就是一个简单的概率分布例子
ruby分割字符串_Ruby字符串的一些方法狄息桐 ruby分割字符串
最近因为公司需求开始看ruby，先从ruby的基本数据类型开始看看到ruby的字符串类型string，发现ruby中的字符串单双引号是不一样的，这点和Python有那么点不一样主要是我们对字符串进行变量引用的时候要使用双引号如下：可支持全部的转义字符及用#{exp}将Ruby中的值插入字符串中例：i=5str=“abab#{i}cjd”#->abab5cjd“#{‘ho‘*3}happynewye
正式开启Django之旅 __淡墨青衫__ Django django python 后端
1、回顾创建django项目（1）、使用创建django指令：django-adminstartproject项目名称（2）、在settings.py文件，修改配置文件LANGUAGE_CODE='zh-hans'#需要设置为中文TIME_ZONE='Asia/Shanghai'#时区设置为亚洲/上海（3）、启动django项目指令为pythonmanage.py端口***如需外部访问需要在修改s
《Python程序设计基础》课堂笔记整理金土火 Python python
1数据1.1基本数据类型1.1.2数字类型x//yx与y整数商，即不大于x与y之商的最大整数x的y次幂，即(x+yj).real复数的实部;(x+yj).imag复数的虚部1.1.3优先级等于,顺序从右向左1.2组合数据类型1.2.1序列类型列表类型字符串使用双引号或单引号括起来的零个或多个字符，字符串是字符的序。1.正向递增序号：正向递增以最左侧字符序号为0，向右依次递增，最右侧字符序号为L-1
python中collections_python中的collections weixin_39892481
python中有大量的内置模块，很多是属于特定开发的功能性模块，但collections是属于对基础数据的类型的补充模块，因此，在日常代码中使用频率更高一些，值得做个笔记，本文只做主要关键字介绍，详细的功能仍然要翻阅官方文档，地址如下：英文站：https://docs.python.org/3.5/library/collections.html中文站：http://python.usyiyi.c
python中的 collections 模块(用法、详解、底层原理，示例等) 还是那个同伟伟 Python进阶 python collections 字典集合
1、collections模块中的defaultdict1.1defaultdict功能可以设置一个默认值作为字典中新key的默认值。该默认值可以是任何对象，包括函数、列表、元组、集合等。默认值不需要像dict那样事先定义，因为它在需要的时候会自动创建使用defaultdict，可以简化代码并提高代码的可读性，而且可以防止KeyError异常的出现。同时，defaultdict的性能与普通字典相当
AI驱动的代码重构与优化技术 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 ChatGPT java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
AI驱动的代码重构与优化技术概述什么是AI驱动的代码重构与优化？AI驱动的代码重构与优化技术，是指利用人工智能，特别是机器学习和深度学习的算法，对软件代码进行自动分析和改进的技术。这种技术能够通过学习大量的代码样本，识别出代码中的模式、问题和改进点，从而自动完成代码的重构和优化。重构的定义重构（Refactoring）是改进代码内部结构而不改变外部行为的过程。其目的通常是为了提高代码的可读性、可维
Python中的collections模块木心 #Python python 开发语言
Python中的collections模块文章目录Python中的collections模块1.Counter对象2.deque对象3.defaultdict对象4.namedtuple5.OrderedDictReferencePython中的collections提供许多容器数据类型，这个模块实现了一些专门化的容器，提供了对Python的通用内建容器dict、list、set和tuple的补充
第十五届蓝桥杯省赛PythonB组题解汇总信奥郭老师蓝桥杯职场和发展
A-穿越时空之门B-数字串个数C-连连看D-神奇闹钟E-蓝桥村的真相F-魔法巡游G-缴纳过路费H-纯职业小组
关于旗正规则引擎规则中的上传和下载问题何必如此文件下载压缩 jsp 文件上传
文件的上传下载都是数据流的输入输出，大致流程都是一样的。一、文件打包下载 1.文件写入压缩包 string mainPath="D:\upload\"; 下载路径 string tmpfileName=jar.zip; &n
【Spark九十九】Spark Streaming的batch interval时间内的数据流转源码分析 bit1129 Stream
以如下代码为例（SocketInputDStream）： Spark Streaming从Socket读取数据的代码是在SocketReceiver的receive方法中，撇开异常情况不谈(Receiver有重连机制，restart方法，默认情况下在Receiver挂了之后，间隔两秒钟重新建立Socket连接)，读取到的数据通过调用store(textRead)方法进行存储。数据
spark master web ui 端口8080被占用解决方法 daizj 8080 端口占用 spark master web ui
spark master web ui 默认端口为8080，当系统有其它程序也在使用该接口时，启动master时也不会报错，spark自己会改用其它端口，自动端口号加1，但为了可以控制到指定的端口，我们可以自行设置，修改方法： 1、cd SPARK_HOME/sbin 2、vi start-master.sh 3、定位到下面部分
oracle_执行计划_谓词信息和数据获取周凡杨 oracle 执行计划
oracle_执行计划_谓词信息和数据获取(上) 一：简要说明在查看执行计划的信息中，经常会看到两个谓词filter和access，它们的区别是什么，理解了这两个词对我们解读Oracle的执行计划信息会有所帮助。简单说，执行计划如果显示是access，就表示这个谓词条件的值将会影响数据的访问路径（表还是索引），而filter表示谓词条件的值并不会影响数据访问路径，只起到
spring中datasource配置 g21121 dataSource
datasource配置有很多种，我介绍的一种是采用c3p0的，它的百科地址是： http://baike.baidu.com/view/920062.htm  <bean name="propertiesConfig" class="org.springframework.b
web报表工具FineReport使用中遇到的常见报错及解决办法（三）老A不折腾 finereport FAQ 报表软件
这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、repeated column width is largerthan paper width：这个看这段话应该是很好理解的。比如做的模板页面宽度只能放
mysql 用户管理墙头上一根草 linux mysql user
1.新建用户 //登录MYSQL@>mysql -u root -p@>密码//创建用户mysql> insert into mysql.user(Host,User,Password) values(‘localhost’,'jeecn’,password(‘jeecn’));//刷新系统权限表mysql>flush privileges;这样就创建了一个名为：
关于使用Spring导致c3p0数据库死锁问题 aijuans spring Spring 入门 Spring 实例 Spring3 Spring 教程
这个问题我实在是为整个 springsource 的员工蒙羞如果大家使用 spring 控制事务，使用 Open Session In View 模式， com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.
百度词库联想 annan211 百度
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> <title>RunJS</title&g
int数据与byte之间的相互转换实现代码百合不是茶位移 int转byte byte转int 基本数据类型的实现
在BMP文件和文件压缩时需要用到的int与byte转换,现将理解的贴出来; 主要是要理解;位移等概念 http://baihe747.iteye.com/blog/2078029 int转byte; byte转int; /** * 字节转成int,int转成字节 * @author Administrator *
简单模拟实现数据库连接池 bijian1013 java thread java多线程简单模拟实现数据库连接池
简单模拟实现数据库连接池实例1： package com.bijian.thread; public class DB { //private static final int MAX_COUNT = 10; private static final DB instance = new DB(); private int count = 0; private i
一种基于Weblogic容器的鉴权设计 bijian1013 java weblogic
服务器对请求的鉴权可以在请求头中加Authorization之类的key，将用户名、密码保存到此key对应的value中，当然对于用户名、密码这种高机密的信息，应该对其进行加砂加密等，最简单的方法如下： String vuser_id = "weblogic"; String vuse
【RPC框架Hessian二】Hessian 对象序列化和反序列化 bit1129 hessian
任何一个对象从一个JVM传输到另一个JVM，都要经过序列化为二进制数据(或者字符串等其他格式，比如JSON)，然后在反序列化为Java对象，这最后都是通过二进制的数据在不同的JVM之间传输(一般是通过Socket和二进制的数据传输)，本文定义一个比较符合工作中。 1. 定义三个POJO Person类 package com.tom.hes
【Hadoop十四】Hadoop提供的脚本的功能 bit1129 hadoop
1. hadoop-daemon.sh 1.1 启动HDFS ./hadoop-daemon.sh start namenode ./hadoop-daemon.sh start datanode 通过这种逐步启动的方式，比start-all.sh方式少了一个SecondaryNameNode进程，这不影响Hadoop的使用，其实在 Hadoop2.0中，SecondaryNa
中国互联网走在“灰度”上 ronin47 管理灰度
中国互联网走在“灰度”上（转）文/孕峰第一次听说灰度这个词，是任正非说新型管理者所需要的素质。第二次听说是来自马化腾。似乎其他人包括马云也用不同的语言说过类似的意思。灰度这个词所包含的意义和视野是广远的。要理解这个词，可能同样要用“灰度”的心态。灰度的反面，是规规矩矩，清清楚楚，泾渭分明，严谨条理，是决不妥协，不转弯，认死理。黑白分明不是灰度，像彩虹那样
java-51-输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。 bylijinnan java
public class PrintMatrixClockwisely { /** * Q51.输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。例如：如果输入如下矩阵： 1 2 3 4 5 6 7 8 9
mongoDB 用户管理开窍的石头 mongoDB用户管理
1:添加用户第一次设置用户需要进入admin数据库下设置超级用户（use admin） db.addUsr({user:'useName',pwd:'111111',roles:[readWrite,dbAdmin]}); 第一个参数用户的名字第二个参数
[游戏与生活]玩暗黑破坏神3的一些问题 comsci 生活
暗黑破坏神3是有史以来最让人激动的游戏。。。。但是有几个问题需要我们注意玩这个游戏的时间，每天不要超过一个小时，且每次玩游戏最好在白天结束游戏之后，最好在太阳下面来晒一下身上的暗黑气息，让自己恢复人的生气 &nb
java 二维数组如何存入数据库 cuiyadll java
using System; using System.Linq; using System.Text; using System.Windows.Forms; using System.Xml; using System.Xml.Serialization; using System.IO; namespace WindowsFormsApplication1 {
本地事务和全局事务Local Transaction and Global Transaction(JTA) darrenzhu java spring local global transaction
Configuring Spring and JTA without full Java EE http://spring.io/blog/2011/08/15/configuring-spring-and-jta-without-full-java-ee/ Spring doc -Transaction Management http://docs.spring.io/spri
Linux命令之alias - 设置命令的别名，让 Linux 命令更简练 dcj3sjt126com linux alias
用途说明设置命令的别名。在linux系统中如果命令太长又不符合用户的习惯，那么我们可以为它指定一个别名。虽然可以为命令建立“链接”解决长文件名的问题，但对于带命令行参数的命令，链接就无能为力了。而指定别名则可以解决此类所有问题【1】。常用别名来简化ssh登录【见示例三】，使长命令变短，使常用的长命令行变短，强制执行命令时询问等。常用参数格式：alias 格式：ali
yii2 restful web服务[格式响应] dcj3sjt126com PHP yii2
响应格式当处理一个 RESTful API 请求时，一个应用程序通常需要如下步骤来处理响应格式：确定可能影响响应格式的各种因素，例如媒介类型，语言，版本，等等。这个过程也被称为 content negotiation。资源对象转换为数组，如在 Resources 部分中所描述的。通过 [[yii\rest\Serializer]]
MongoDB索引调优（2）——[十] eksliang mongodb MongoDB索引优化
转载请出自出处：http://eksliang.iteye.com/blog/2178555 一、概述上一篇文档中也说明了，MongoDB的索引几乎与关系型数据库的索引一模一样，优化关系型数据库的技巧通用适合MongoDB，所有这里只讲MongoDB需要注意的地方二、索引内嵌文档可以在嵌套文档的键上建立索引，方式与正常
当滑动到顶部和底部时，实现Item的分离效果的ListView gundumw100 android
拉动ListView，Item之间的间距会变大，释放后恢复原样； package cn.tangdada.tangbang.widget; import android.annotation.TargetApi; import android.content.Context; import android.content.res.TypedArray; import andr
程序员用HTML5制作的爱心树表白动画 ini JavaScript jquery Web html5 css
体验效果：http://keleyi.com/keleyi/phtml/html5/31.htmHTML代码如下： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"><head><meta charset="UTF-8" > <ti
预装windows 8 系统GPT模式的ThinkPad T440改装64位 windows 7旗舰版 kakajw ThinkPad 预装改装 windows 7 windows 8
该教程具有普遍参考性，特别适用于联想的机器，其他品牌机器的处理过程也大同小异。该教程是个人多次尝试和总结的结果，实用性强，推荐给需要的人！缘由小弟最近入手笔记本ThinkPad T440，但是特别不能习惯笔记本出厂预装的Windows 8系统，而且厂商自作聪明地预装了一堆没用的应用软件，消耗不少的系统资源（本本的内存为4G，系统启动完成时，物理内存占用比
Nginx学习笔记 mcj8089 nginx
一、安装nginx 1、在nginx官方网站下载一个包，下载地址是： http://nginx.org/download/nginx-1.4.2.tar.gz 2、WinSCP(ftp上传工
mongodb 聚合查询每天论坛链接点击次数 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 18 */ { "_id" : ObjectId("5596414cbe4d73a327e50274"), "msgType" : "text", "sendTime" : ISODate("2015-07-03T08:01:16.000Z"
java术语（PO/POJO/VO/BO/DAO/DTO） Luob. DAO POJO DTO po VO BO
PO(persistant object) 持久对象在o/r 映射的时候出现的概念,如果没有o/r映射,就没有这个概念存在了.通常对应数据模型(数据库),本身还有部分业务逻辑的处理.可以看成是与数据库中的表相映射的java对象.最简单的PO就是对应数据库中某个表中的一条记录,多个记录可以用PO的集合.PO中应该不包含任何对数据库的操作. VO(value object) 值对象通
算法复杂度 Wuaner Algorithm
Time Complexity & Big-O： http://stackoverflow.com/questions/487258/plain-english-explanation-of-big-o http://bigocheatsheet.com/ http://www.sitepoint.com/time-complexity-algorithms/

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他