不想秃头的夜猫子

single-pass聚类算法实现天气聚类

聚类算法

聚类算法介绍
- （1）系统聚类法
- （2）K-means聚类法
- （3）single-pass聚类法
- - 含义适用
  - 处理步骤
样本描述
代码实现
- 定义类和函数
- 调用与画图
总结

聚类算法介绍

（1）系统聚类法

系统聚类法的基本思想是：距离近的样品先聚成类，距离远的后聚成类。

根据类间定义的不同，系统聚类法又可以分成最短距离法、最长距离法、中间距离法、重心法、类平均法、可变类平均法、可变法、离差平方和法8种。

需要注意的是：

（1）该方法不需要事先指定聚类个数，而是根据最终的分类过程确定。

（2）为了直观的反映，可以把分类系统画成一张谱系图，所以系统聚类也称谱系分析。

（2）K-means聚类法

K-means聚类法是非常经典的聚类算法，有关资料很丰富，故本文不再赘述。

需要注意的是：

（1）该方法通过计算欧氏距离，比较样品间的相似度进行聚类。不过我也有看过，通过计算相关系数来聚类的。

（2）该法需要指定聚类个数，而K的确定是个难点，有很多针对K优化的方法。

（3）single-pass聚类法

含义适用

Single-pass clustering，中文名一般译作“单遍聚类”，它是一种简洁且高效的文本聚类算法。相比于常用的K-means聚类法，它的计算速度非常快，且不需要指定聚类个数，而是通过设定相似度阈值来限定。

Single-pass聚类算法同时是一种增量聚类算法（Incremental Clustering Algorithm），每个文档只需要流过算法一次，常用与文本主题的聚类中。它可以很好的应用于话题监测与追踪、在线事件监测等社交媒体大数据领域，特别适合流式数据（Streaming Data），比如微博的帖子信息等。

流数据:一组顺序、大量、快速、连续到达的数据序列。一般情况下，流数据可被视为一个随时间延续而无限增长的动态数据集合。
来源：百度百科

处理步骤

Single-pass算法顺序处理文本，以第一篇文档为种子，建立一个新主题。之后再进行新进入文档与已有主题的相似度，将该文档加入到与它相似度最大的、且大于一定阈值的主题中。如果与所有已有话题相似度都小于阈值，则以该文档为聚类种子，建立新的主题类别。其算法流程如下：

（1）以第一篇文档为种子，建立一个主题；

（2）将文档X向量化；

（3）将文档X与已有的所有话题均做相似度计算，可采用欧氏距离或余弦距离等距离度量方法

（4）找出与文档X具有最大相似度的已有主题；

（5）若相似度值大于阈值θ ，则把文档X加入到有最大相似度的主题中，跳转至（7）；

（6）若相似度值小于阈值θ ，则文档X不属于任一已有主题，需创建新的主题类别，同时将当前文本归属到新创建的主题类别中；

（7）聚类结束，等待下一篇文档进入

注：上述中讲相似度最大的划为一类，在实际代码中，所谓相似度最大大于某个阈值，也可以理解为距离最近（小）小于某个阈值。

样本描述

将样本信息保存至TXT文件中，截图后如上所示。

有多少行我没数，用python中describe()一下就知道了，列数是十列。

日期后面两类是最高温和最低温，最后两列表示该地的经度和纬度。

代码实现

定义类和函数

首先定义了一个簇单元 ClusterUnit ，定义了一个单类 OnePassCluster ，定义了向量a与b间的欧式距离euclidian_distance。

# coding=utf-8
import numpy as np
from math import sqrt
import time
import matplotlib.pylab as pl


# 定义一个簇单元
class ClusterUnit:
    def __init__(self):
        self.node_list = []  # 该簇存在的节点列表
        self.node_num = 0  # 该簇节点数
        self.centroid = None  # 该簇质心

    def add_node(self, node, node_vec):
        """
        为本簇添加指定节点，并更新簇心
         node_vec:该节点的特征向量
         node:节点
         return:null
        """
        self.node_list.append(node)
        try:
            self.centroid = (self.node_num * self.centroid + node_vec) / (self.node_num + 1)  # 更新簇心
        except TypeError:
            self.centroid = np.array(node_vec) * 1  # 初始化质心
        self.node_num += 1  # 节点数加1

    def remove_node(self, node):
        # 移除本簇指定节点
        try:
            self.node_list.remove(node)
            self.node_num -= 1
        except ValueError:
            raise ValueError("%s not in this cluster" % node)  # 该簇本身就不存在该节点，移除失败

    def move_node(self, node, another_cluster):
        # 将本簇中的其中一个节点移至另一个簇
        self.remove_node(node=node)
        another_cluster.add_node(node=node)


# cluster_unit = ClusterUnit()
# cluster_unit.add_node(1, [1, 1, 2])
# cluster_unit.add_node(5, [2, 1, 2])
# cluster_unit.add_node(3, [3, 1, 2])
# print(cluster_unit.centroid)


# 计算向量a与向量b的欧式距离
def euclidian_distance(vec_a, vec_b):
    diff = vec_a - vec_b
    return sqrt(np.dot(diff, diff))             # dot计算矩阵内积


class OnePassCluster:
    def __init__(self, t, vector_list):
        # t:一趟聚类的阈值
        self.threshold = t                      # 一趟聚类的阈值
        self.vectors = np.array(vector_list)    # 数据列表（向量列表）
        self.cluster_list = []                  # 聚类后簇的列表

        t1 = time.time()
        self.clustering()
        t2 = time.time()
        self.cluster_num = len(self.cluster_list)       # 聚类完成后 簇的个数
        self.spend_time = t2 - t1                       # 聚类花费的时间

    def clustering(self):
        self.cluster_list.append(ClusterUnit())                 # 初始新建一个簇
        self.cluster_list[0].add_node(0, self.vectors[0])       # 将读入的第一个节点归于该簇
        for index in range(len(self.vectors))[1:]:
            min_distance = euclidian_distance(vec_a=self.vectors[index],
                                              vec_b=self.cluster_list[0].centroid)  # 与簇的质心的最小距离
            min_cluster_index = 0  # 最小距离的簇的索引
            for cluster_index, cluster in enumerate(self.cluster_list[1:]):
                # enumerate会将数组或列表组成一个索引序列
                # 寻找距离最小的簇，记录下距离和对应的簇的索引
                distance = euclidian_distance(vec_a=self.vectors[index],
                                              vec_b=cluster.centroid)
                if distance < min_distance:
                    min_distance = distance
                    min_cluster_index = cluster_index + 1
            if min_distance < self.threshold:                   # 最小距离小于阈值，则归于该簇
                self.cluster_list[min_cluster_index].add_node(index, self.vectors[index])
            else:  # 否则新建一个簇
                new_cluster = ClusterUnit()
                new_cluster.add_node(index, self.vectors[index])
                self.cluster_list.append(new_cluster)
                del new_cluster

    def print_result(self, label_dict=None):
        # 打印出聚类结果
        # label_dict:节点对应的标签字典
        print("***********  single-pass的聚类结果展示  ***********")
        for index, cluster in enumerate(self.cluster_list):
            print("cluster:%s" % index)         # 簇的序号
            print(cluster.node_list)            # 该簇的节点列表
            if label_dict is not None:
                print(" ".join([label_dict[n] for n in cluster.node_list]))     # 若有提供标签字典，则输出该簇的标签
            print("node num: %s" % cluster.node_num)
            print( "-------------")
        print( "所有节点的个数为： %s" % len(self.vectors))
        print("簇类的个数为：%s" % self.cluster_num)
        print("花费的时间为： %.9fs" % (self.spend_time / 1000))

运行之后，一共聚类十类，聚类个数从0-9。

如下图为第八个类别所包含的城市以及他们对应的索引：

整体运行结果如下：

调用与画图

之后通过实例化类和调用函数，来实现聚类

# 读取测试集
temperature_all_city = np.loadtxt('data1.txt', delimiter=",", usecols=(3, 4),encoding='utf-8')  # 读取聚类特征
xy = np.loadtxt('data1.txt', delimiter=",", usecols=(8, 9),encoding='utf-8')  # 读取各地经纬度
f = open('data1.txt', 'r',encoding='utf-8')
lines = f.readlines()
zone_dict = [i.split(',')[1] for i in lines]  # 读取地区并转化为字典

f.close()

# 构建一趟聚类器
clustering = OnePassCluster(vector_list=temperature_all_city, t=9)
clustering.print_result(label_dict=zone_dict)
print(temperature_all_city)


# 将聚类结果导出图
fig, ax = pl.subplots()
fig = zone_dict
c_map = pl.get_cmap('jet', clustering.cluster_num)
c = 0

for cluster in clustering.cluster_list:
    for node in cluster.node_list:
        #ax.scatter(xy[node][0], xy[node][1], c=c, s=30, cmap=c_map, vmin=0, vmax=clustering.cluster_num)
        ax.scatter(xy[node][0], xy[node][1])
    c += 1

#pl.axis('off') # 不显示坐标轴
pl.savefig('./map.jpg')
pl.show()

根据样本中经纬度的信息，并结合聚类算法的结果，可画图如下：

总结

本文主要给出single-pass聚类算法的实例，该例很好复现。希望对各位兄弟姐妹们有所帮助。

参考：https://blog.csdn.net/maqian5/article/details/107333316

本文数据与代码均引用他处，如未标注来源，请联系我更改加上。

需要本文数据和代码，可在本文评论区留言。希望对各位兄弟姐妹们有所帮助。

你可能感兴趣的:(机器学习算法与实例,python,聚类,分类,机器学习,kmeans)

记录学习的第七天 xiufeia 学习
还是老规矩，力扣的每日一题这道题我的思路是有了，不过在实现思路的时候遇到很多问题我首先也是想到了用一个哈希表之类的把出现次数最多的元素依次记录下来，然后再进行分配，不过由于我的STL不太熟练，所以我用的方法存在问题我的思路与题解的思路存在最大的差异就是，题解是根据每一行来存的，而我想的是每一列进行存元素。接着写了两道滑动窗口的题。滑动窗口需要注意的就是外循环扩展右指引，内循环扩展左指引，然后进行出
知识库中的知识如何进行分类和标签管理？自不量力的A同学人工智能
知识库中的知识如何进行分类和标签管理？基于主题分类明确主题层级：首先确定主要的知识主题领域，如在一个企业知识库中，可以分为“人力资源”“市场营销”“技术研发”等大主题。然后在每个大主题下细分小主题，例如在“人力资源”主题下可以有“招聘”“培训”“绩效考核”等子主题。这样的层级分类有助于用户快速定位到自己需要的知识领域。参考行业标准和最佳实践：按照行业内公认的分类标准来划分知识。以医学知识库为例，可
AI编程工具领域：深度理解项目架构篇 xinxiyinhe AI编程 python 人工智能 AI编程人工智能
AI编程工具领域：深度理解项目架构篇在AI编程工具领域，能够读取项目目录并深度理解项目架构的工具主要通过代码索引、上下文感知和智能问答等功能实现。以下是基于最新信息的工具评估与分析：1.通义灵码（阿里云）核心能力：@workspace功能：基于RAG技术，支持本地代码库的索引和深度感知，可分析项目完整结构，生成文件解释、代码逻辑查询和整体修改建议。多语言支持：覆盖200+编程语言，兼容VSCode
软件设计师之树与二叉树：非线性数据结构的深度探索一杯年华@编程空间软考中级数据结构
软件设计师之树与二叉树：非线性数据结构的深度探索在软件开发领域，数据结构是程序设计的核心基础，其中树和二叉树作为重要的非线性数据结构，在众多场景中都有着广泛应用。我写这篇博客，就是希望和大家一起学习进步，深入解析树和二叉树的相关知识，用通俗易懂的语言结合图表和Java代码示例进行讲解，帮助大家更好地掌握这些内容。一、树的定义与基本概念树的定义树是由n（n≥0）个结点组成的有限集合。当n=0时，为空
Python 的 ORM（Object-Relational Mapping）工具浅讲 Code_Geo python 开发语言
SQLAlchemy相关讲解1.SQLAlchemy是什么？定义：一个Python的ORM（Object-RelationalMapping）工具，允许开发者通过Python类与对象操作数据库，而非直接编写SQL。核心组件：Core：底层SQL表达式语言，提供数据库无关的SQL操作接口。ORM：基于Core的高层抽象，将数据库表映射为Python类（模型），记录映射为对象。适用场景：需要灵活操作数
深入解析TTM市盈率在股票投资中的应用 scoone 杂项小计生活学习
摘要：本文对TTM市盈率的概念、计算方法、优缺点及其在股票投资决策中的作用进行了详细阐述，旨在帮助投资者更好地运用这一财务指标进行投资分析。一、TTM市盈率概述TTM市盈率，即TrailingTwelveMonths市盈率，是一种反映股票价格与公司最近12个月盈利能力的比率。它通过计算公司过去四个季度净利润的总和，再除以在外流通的普通股总数，得到每股收益（EPS），最后以股价除以每股收益得到TTM
人工智能（AI）系统化学习路线 xiaoyu❅ python 人工智能学习
一、为什么需要系统化学习AI？人工智能技术正在重塑各行各业，但许多初学者容易陷入误区：❌盲目跟风：直接学习TensorFlow/PyTorch，忽视数学与算法基础。❌纸上谈兵：只看理论不写代码，无法解决实际问题。❌方向模糊：对CV/NLP/RL等细分领域缺乏认知，难以针对性提升。正确的学习姿势：“金字塔式”分层学习（理论→算法→框架→应用→工程化），逐步构建完整的AI知识体系。二、人工智能学习路线
#Python 项目：实现功能——使用钉钉“自定义”机器人在群中发送文字消息 Window Unlock 钉钉 python 机器人
（目前还是新手，程序难免有废话代码，请大家耐心看__比心）第一步：创建群聊机器人，参考官方手册官方链接：自定义机器人的创建和安装-钉钉开放平台此步骤可以得到两个关键参数：Webhook（机器人的通信网址）：https://oapi.dingtalk.com/robot/send?############（如这样）secret（加签未解密密钥）：SECe2######################
AI 时代，学习 Java 应如何入手？琢磨先生David 人工智能 java
一、Java的现状：生态繁荣与AI融合的双重机遇在2025年的技术版图中，Java依然稳坐企业级开发的“头把交椅”。根据行业统计，Java在全球企业级应用中的市场份额仍超过65%，尤其在微服务架构、大数据平台和物联网（IoT）领域占据核心地位。随着云原生技术的普及，Java生态正经历新一轮进化：轻量化框架通过无服务器架构优化，启动速度提升300%，内存占用降低50%，使得Java在容器化部署中更具
代替Windows系统的最佳系统开发：开源、国产与跨平台的选择指南夏末之花 windows 开源
近年来，随着技术自主化和隐私安全需求的提升，越来越多的用户开始寻求Windows系统的替代方案。本文结合国内外热门操作系统及开发工具，分析其核心优势与适用场景，助你找到最适合的开发与日常使用平台。一、开源之王：Linux发行版1.Ubuntu与LinuxMint作为最受欢迎的Linux发行版，Ubuntu和LinuxMint以用户友好性著称，尤其适合从Windows迁移的用户。其内置的软件包管理器
3DMAX点云算法：实现毫米级BIM模型偏差检测（附完整代码）夏末之花人工智能
摘要本文基于激光雷达点云数据与BIM模型的高精度对齐技术，提出一种融合动态体素化与多模态特征匹配的偏差检测方法。通过点云预处理、语义分割、模型配准及差异分析，最终实现建筑构件毫米级偏差的可视化检测。文中提供关键代码实现，涵盖点云处理、特征提取与深度学习模型搭建。一、核心算法流程点云预处理与特征增强去噪与下采样：采用统计滤波与体素网格下采样，去除离群点并降低数据量。语义分割：基于PointNet++
Python-有效字母异位词 m0_37763377 python 哈希算法算法数据结构
一、什么是字母异位词字母异位词‌是指由相同字母组成但排列顺序不同的单词。例如，"eat"、"tea"和"ate"都是字母异位词，因为它们由相同的字母组成，只是排列顺序不同。‌二、思路（一）暴力解法这里可以用两层循环来判断2个字符串的元素是否一样，显然时间复杂度为O(n²），在这里大家可以自己写一下，文章就不再提供演示。（二）哈希表解法1.什么是哈希表？哈希表（HashTable），也称为散列表，是
LeetCode56☞合并区间 fantasy_4 LeetCode刷题 leetcode python java 算法贪心算法
关联LeetCode题号56本题特点贪心本题思路将二维数组排序按照左边界排序。排序后，右边界的大小成为找到局部最大值的关键。由题意合并区间可知，应该取数组的’并集‘，局部最优解推出全局最优解，每次找到局部最大的范围，整体就会合并成一个大区间Python写法defmerge(self,intervals):result=[]iflen(intervals)==0:returnresult#区间集合为
SelectDB 实时分析性能突出，宝舵成本锐减与性能显著提升的双赢之旅 SelectDB技术团队大数据物联网 doris selectdb 人工智能电商场景数据分析
BOCDOP宝舵早期基于TiDB构建实时数仓，随着数据量增长，在数据处理效率、OLAP能力扩展、功能支持、成本与资源方面存在一定优化空间。为提升数据分析能力并优化成本，宝舵引入SelectDB，达成写入速度提升10倍，成本直降30%的显著成效。本文转录自高瑞军（宝尊科技高级架构师）在DorisSummitAsia2024上的演讲，经编辑整理。业务背景宝尊集团创立于2007年，是中国品牌电商服务行业
【python】图形用户界面和游戏开发 usp1994 python ui ide
图形用户界面和游戏开发文章目录图形用户界面和游戏开发基于tkinter模块的GUI使用Pygame进行游戏开发制作游戏窗口在窗口中绘图加载图像实现动画效果碰撞检测事件处理基于tkinter模块的GUIGUI是图形用户界面的缩写，图形化的用户界面对使用过计算机的人来说应该都不陌生，在此也无需进行赘述。Python默认的GUI开发模块是tkinter（在Python3以前的版本中名为Tkinter），
Python 爬虫实战：如何爬取小红书数据并进行分析 Python爬虫项目 python 爬虫开发语言 selenium 测试工具
一、引言随着社交电商的崛起，小红书（Xiaohongshu）作为一款结合了社交和电商的应用，吸引了大量年轻用户。用户在平台上分享购物心得、生活经验以及个性化的消费推荐内容，形成了庞大的用户数据与内容生态。因此，如何从小红书获取数据进行分析，成为了数据科学、市场营销和社交媒体研究中的一个重要课题。本文将介绍如何使用Python编写爬虫爬取小红书的数据，分析如何通过小红书的开放API获取用户信息、帖子
游戏开发引擎对比：Godot、Unity、Unreal与cocos2d的优劣分析 scoone 游戏引擎 godot unity
在游戏开发的世界中，选择合适的游戏引擎是项目成功的关键之一。本文将对比四种流行的游戏开发引擎：Godot、Unity、UnrealEngine和cocos2d，分析各自的优缺点，帮助开发者做出明智的选择。Godot：优点：开源且免费，无商业授权费用。轻量级，适合中小型游戏开发。使用GDScript脚本语言，易于上手。跨平台支持良好。缺点：社区相对较小，资源不如Unity丰富。在3D游戏开发方面不如
Python 常用内建模块-base64 赔罪 Python 系统学习 python 前端 linux
目录base64小结练习base64Base64是一种用64个字符来表示任意二进制数据的方法。用记事本打开exe、jpg、pdf这些文件时，我们都会看到一大堆乱码，因为二进制文件包含很多无法显示和打印的字符，所以，如果要让记事本这样的文本处理软件能处理二进制数据，就需要一个二进制到字符串的转换方法。Base64是一种最常见的二进制编码方法。Base64的原理很简单，首先，准备一个包含64个字符的数
AXI总线之相关应用逾越TAO fpga开发硬件工程笔记
AXI总线作为现代SoC设计的核心互连协议，其应用场景极为广泛，覆盖移动设备、AI加速器、FPGA、存储控制器等多个领域。以下是AXI在不同应用中的关键角色及具体实现案例：一、移动处理器与SoC应用场景：智能手机、平板电脑的SoC（如高通骁龙、苹果A系列、华为麒麟）中，AXI用于连接多核CPU、GPU、ISP（图像信号处理器）、DDR控制器等模块。典型案例：ARMCortex-A系列多核集群：AX
基于python的ansys_基于python的感知机 weixin_39687990 基于python的ansys
一、1、感知机可以描述为一个线性方程，用python的伪代码可表示为：sum(weight_i*x_i)+bias->activation#activation表示激活函数，x_i和weight_i是分别为与当前神经元连接的其它神经元的输入以及连接的权重。bias表示当前神经元的输出阀值(或称偏置)。箭头(->)左边的数据，就是激活函数的输入2、定义激活函数f:deffunc_activator(
python ansys workbench联动_【干货】如何在ANSYS WORKBENCH中关联几何模型和有限元模型... weixin_39644377 python ansys workbench联动
原标题：【干货】如何在ANSYSWORKBENCH中关联几何模型和有限元模型我们都知道，通过诸如HPERMESH这样的有限元网格划分软件得到的模型，在传入ANSYS以后，只包含节点和单元信息。但是当我们在WB中使用模型操作时，有时候需要选择几何特征，如在圆孔面上施加圆柱支撑，而此时对象只有单元节点信息，并无体面线的几何信息，该怎么办呢？显然，处理此问题的有效途径，在于把有限元模型与该有限元模型对应
信创系统安全优化与持续改进策略有哪些？ weixin_37579147 系统安全安全
信创系统（信息技术应用创新系统）的安全优化与持续改进是保障国产化技术生态安全可靠运行的关键。以下从技术、管理、组织等多个维度提出系统性策略，并结合实际场景展开说明：一、技术层面的安全优化策略1.核心组件安全加固国产化组件漏洞管理：建立针对国产操作系统（如统信UOS、麒麟）、数据库（达梦、OceanBase）的漏洞扫描与修复机制，联合厂商建立漏洞情报共享平台。硬件层可信计算：采用基于国产芯片（如鲲鹏
python ansys workbench联动_如何在ANSYS WORKBENCH中关联几何模型和有限元模型 YUNYA麻麻 python ansys workbench联动
我们都知道，通过诸如HPERMESH这样的有限元网格划分软件得到的模型，在传入ANSYS以后，只包含节点和单元信息。但是当我们在WB中使用模型操作时，有时候需要选择几何特征，如在圆孔面上施加圆柱支撑，而此时对象只有单元节点信息，并无体面线的几何信息，该怎么办呢？显然，处理此问题的有效途径，在于把有限元模型与该有限元模型对应的几何模型进行关联，再一起导入到MECHANICAL中进行分析，则既能够既享
数据增强：扩充数据集提升模型泛化能力 AI天才研究院计算 AI大模型企业级应用开发实战 ChatGPT 计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1.数据增强的重要性在机器学习领域，模型的泛化能力至关重要。一个泛化能力强的模型能够在未见数据上表现良好，而过拟合的模型则会在训练数据上表现出色，但在新数据上表现糟糕。数据增强是一种有效提升模型泛化能力的技术，它通过对现有数据进行各种变换，人为地扩充数据集，从而增加训练数据的数量和多样性。1.2.数据增强的应用场景数据增强广泛应用于各种机器学习任务中，包括：图像识别:对图像进行旋转
【商城实战(43)】探秘知名商城架构：解锁电商成功密码奔跑吧邓邓子商城实战架构微服务 spring boot 商城实战商城架构
【商城实战】专栏重磅来袭！这是一份专为开发者与电商从业者打造的超详细指南。从项目基础搭建，运用uniapp、ElementPlus、SpringBoot搭建商城框架，到用户、商品、订单等核心模块开发，再到性能优化、安全加固、多端适配，乃至运营推广策略，102章内容层层递进。无论是想深入钻研技术细节，还是探寻商城运营之道，本专栏都能提供从0到1的系统讲解，助力你打造独具竞争力的电商平台，开启电商实战
数据增强：扩充数据集，提升模型的鲁棒性 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 LLM大模型落地实战指南计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
数据增强：扩充数据集，提升模型的鲁棒性1.背景介绍1.1数据集的重要性在机器学习和深度学习领域中,数据集是训练模型的基础。高质量的数据集对于构建准确、鲁棒的模型至关重要。然而,在现实世界中,获取大量高质量的数据通常是一个巨大的挑战。数据采集过程耗时耗力,而且成本高昂。此外,某些领域的数据存在隐私和安全问题,难以获取。1.2数据集不足的挑战当数据集规模有限时,模型很容易过拟合,无法很好地推广到新的、
Pandas完全指南：数据处理与分析从入门到实战 xiaoyu❅ python python pandas 开发语言
目录引言一、Pandas环境配置与核心概念1.1安装Pandas1.2导入惯例1.3核心数据结构二、数据结构详解2.1Series创建与操作2.2DataFrame创建三、数据查看与基本操作3.1数据预览3.2索引与选择3.3数据排序四、数据清洗实战4.1处理缺失值4.2处理重复值4.3数据类型转换4.4字符串处理五、数据处理进阶5.1数据筛选5.2列操作5.3应用函数六、数据分组与聚合6.1基础
信息收集综合只不过是胆小鬼罢了信息收集 php web安全安全
1《应用服务器资产分析与角色定性详解》在网络安全领域，对应用服务器的资产分析与角色定性是至关重要的工作。通过对服务器的操作系统、IP资产、端口资产等方面进行详细分析，可以更好地了解服务器的特性与用途，从而为网络安全防护提供有力支持。本文将从多个维度深入探讨应用服务器的资产分析与角色定性方法。一、操作系统分析1.Web大小写敏感性在分析应用服务器的操作系统时，Web大小写敏感性是一个重要的参考因素。
从关键词到权重：TF-IDF算法解析多巴胺与内啡肽. 机器学习 tf-idf 算法机器学习
文章目录前言一、TF-IDF：关键词的“价值”评估师二、TF-IDF的计算：拆解关键词的“价值”三、TF-IDF的应用：从搜索引擎到文本挖掘四、代码实现：从《红楼梦》中提取核心关键词1、分卷处理1.1代码功能1.2代码实现1.2.1、读取文件1.2.2逐行处理1.2.3.关闭文件2、分词与停用词过滤2.1代码功能2.2代码实现2.2.1读取分卷内容构建DataFrame：2.2.2分词与停用词过滤
weixin049校园外卖平台设计与实现+ssm(文档+源码)_kaic 开心毕设kaic_kaic 模拟退火算法散列表随机森林支持向量机启发式算法逻辑回归
校园外卖平台设计与实现摘要随着信息技术在管理上越来越深入而广泛的应用，管理信息系统的实施在技术上已逐步成熟。本文介绍了校园外卖平台的开发全过程。通过分析校园外卖平台管理的不足，创建了一个计算机管理校园外卖平台的方案。文章介绍了校园外卖平台的系统分析部分，包括可行性分析等，系统设计部分主要介绍了系统功能设计和数据库设计。本校园外卖平台有管理员，用户，商家。管理员功能有个人中心，用户管理，商家管理，菜
怎么样才能成为专业的程序员？ cocos2d-x小菜编程 PHP
如何要想成为一名专业的程序员？仅仅会写代码是不够的。从团队合作去解决问题到版本控制，你还得具备其他关键技能的工具包。当我们询问相关的专业开发人员，那些必备的关键技能都是什么的时候，下面是我们了解到的情况。关于如何学习代码，各种声音很多，然后很多人就被误导为成为专业开发人员懂得一门编程语言就够了？！呵呵，就像其他工作一样，光会一个技能那是远远不够的。如果你想要成为
java web开发高并发处理 BreakingBad java Web 并发开发处理高
java处理高并发高负载类网站中数据库的设计方法（java教程,java处理大量数据，java高负载数据）一：高并发高负载类网站关注点之数据库没错,首先是数据库,这是大多数应用所面临的首个SPOF。尤其是Web2.0的应用，数据库的响应是首先要解决的。一般来说MySQL是最常用的，可能最初是一个mysql主机，当数据增加到100万以上，那么，MySQL的效能急剧下降。常用的优化措施是M-S（
mysql批量更新 ekian mysql
mysql更新优化：一版的更新的话都是采用update set的方式，但是如果需要批量更新的话，只能for循环的执行更新。或者采用executeBatch的方式，执行更新。无论哪种方式，性能都不见得多好。三千多条的更新，需要3分多钟。查询了批量更新的优化，有说replace into的方式，即： replace into tableName(id,status) values
微软BI（3） 18289753290 微软BI SSIS
1) Q：该列违反了完整性约束错误；已获得 OLE DB 记录。源:“Microsoft SQL Server Native Client 11.0” Hresult: 0x80004005 说明:“不能将值 NULL 插入列 'FZCHID'，表 'JRB_EnterpriseCredit.dbo.QYFZCH'；列不允许有 Null 值。INSERT 失败。”。 A：一般这类问题的存在是
Java中的List g21121 java
List是一个有序的 collection（也称为序列）。此接口的用户可以对列表中每个元素的插入位置进行精确地控制。用户可以根据元素的整数索引（在列表中的位置）访问元素，并搜索列表中的元素。与 set 不同，列表通常允许重复
读书笔记永夜-极光读书笔记
1. K是一家加工厂,需要采购原材料,有A,B,C,D 4家供应商,其中A给出的价格最低,性价比最高,那么假如你是这家企业的采购经理,你会如何决策? 传统决策: A:100%订单 B,C,D:0% &nbs
centos 安装 Codeblocks 随便小屋 codeblocks
1.安装gcc,需要c和c++两部分,默认安装下,CentOS不安装编译器的,在终端输入以下命令即可yum install gccyum install gcc-c++ 2.安装gtk2-devel,因为默认已经安装了正式产品需要的支持库,但是没有安装开发所需要的文档.yum install gtk2* 3. 安装wxGTK yum search w
23种设计模式的形象比喻 aijuans 设计模式
1、ABSTRACT FACTORY—追MM少不了请吃饭了，麦当劳的鸡翅和肯德基的鸡翅都是MM爱吃的东西，虽然口味有所不同，但不管你带MM去麦当劳或肯德基，只管向服务员说“来四个鸡翅”就行了。麦当劳和肯德基就是生产鸡翅的Factory 　　工厂模式：客户类和工厂类分开。消费者任何时候需要某种产品，只需向工厂请求即可。消费者无须修改就可以接纳新产品。缺点是当产品修改时，工厂类也要做相应的修改。如：
开发管理 CheckLists aoyouzi 开发管理 CheckLists
开发管理 CheckLists(23) -使项目组度过完整的生命周期开发管理 CheckLists(22) -组织项目资源开发管理 CheckLists(21) -控制项目的范围开发管理 CheckLists(20) -项目利益相关者责任开发管理 CheckLists(19) -选择合适的团队成员开发管理 CheckLists(18) -敏捷开发 Scrum Master 工作开发管理 C
js实现切换百合不是茶 JavaScript 栏目切换
js主要功能之一就是实现页面的特效,窗体的切换可以减少页面的大小,被门户网站大量应用思路: 1,先将要显示的设置为display:bisible 否则设为none 2,设置栏目的id ,js获取栏目的id,如果id为Null就设置为显示 3,判断js获取的id名字;再设置是否显示代码实现: html代码: <di
周鸿祎在360新员工入职培训上的讲话 bijian1013 感悟项目管理人生职场
这篇文章也是最近偶尔看到的，考虑到原博客发布者可能将其删除等原因，也更方便个人查找，特将原文拷贝再发布的。“学东西是为自己的，不要整天以混的姿态来跟公司博弈，就算是混，我觉得你要是能在混的时间里，收获一些别的有利于人生发展的东西，也是不错的，看你怎么把握了”，看了之后，对这句话记忆犹新。 &
前端Web开发的页面效果 Bill_chen html Web Microsoft
1.IE6下png图片的透明显示： <img src="图片地址" border="0" style="Filter.Alpha(Opacity)=数值(100),style=数值(3)"/> 或在<head></head>间加一段JS代码让透明png图片正常显示。 2.<li>标
【JVM五】老年代垃圾回收：并发标记清理GC(CMS GC) bit1129 垃圾回收
CMS概述并发标记清理垃圾回收(Concurrent Mark and Sweep GC）算法的主要目标是在GC过程中，减少暂停用户线程的次数以及在不得不暂停用户线程的请夸功能，尽可能短的暂停用户线程的时间。这对于交互式应用，比如web应用来说，是非常重要的。 CMS垃圾回收针对新生代和老年代采用不同的策略。相比同吞吐量垃圾回收，它要复杂的多。吞吐量垃圾回收在执
Struts2技术总结白糖_ struts2
必备jar文件早在struts2.0.*的时候，struts2的必备jar包需要如下几个： commons-logging-*.jar Apache旗下commons项目的log日志包 freemarker-*.jar
Jquery easyui layout应用注意事项 bozch jquery 浏览器 easyui layout
在jquery easyui中提供了easyui-layout布局，他的布局比较局限，类似java中GUI的border布局。下面对其使用注意事项作简要介绍：如果在现有的工程中前台界面均应用了jquery easyui，那么在布局的时候最好应用jquery eaysui的layout布局，否则在表单页面（编辑、查看、添加等等）在不同的浏览器会出
java-拷贝特殊链表：有一个特殊的链表，其中每个节点不但有指向下一个节点的指针pNext，还有一个指向链表中任意节点的指针pRand，如何拷贝这个特殊链表？ bylijinnan java
public class CopySpecialLinkedList { /** * 题目：有一个特殊的链表，其中每个节点不但有指向下一个节点的指针pNext，还有一个指向链表中任意节点的指针pRand，如何拷贝这个特殊链表？拷贝pNext指针非常容易，所以题目的难点是如何拷贝pRand指针。假设原来链表为A1 -> A2 ->... -> An，新拷贝
color Chen.H JavaScript html css
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <HTML> <HEAD>&nbs
[信息与战争]移动通讯与网络 comsci 网络
两个坚持:手机的电池必须可以取下来光纤不能够入户,只能够到楼宇建议大家找这本书看看:<&
oracle flashback query(闪回查询) daizj oracle flashback query flashback table
在Oracle 10g中，Flash back家族分为以下成员： Flashback Database Flashback Drop Flashback Table Flashback Query(分Flashback Query,Flashback Version Query，Flashback Transaction Query) 下面介绍一下Flashback Drop 和Flas
zeus持久层DAO单元测试 deng520159 单元测试
zeus代码测试正紧张进行中,但由于工作比较忙,但速度比较慢.现在已经完成读写分离单元测试了,现在把几种情况单元测试的例子发出来,希望有人能进出意见,让它走下去. 本文是zeus的dao单元测试: 1.单元测试直接上代码 package com.dengliang.zeus.webdemo.test; import org.junit.Test; import o
C语言学习三printf函数和scanf函数学习 dcj3sjt126com c printf scanf language
printf函数 /* 2013年3月10日20:42:32 地点：北京潘家园功能：目的：测试%x %X %#x %#X的用法 */ # include <stdio.h> int main(void) { printf("哈哈！\n"); // \n表示换行 int i = 10; printf
那你为什么小时候不好好读书? dcj3sjt126com life
dady, 我今天捡到了十块钱, 不过我还给那个人了 good girl! 那个人有没有和你讲thank you啊没有啦....他拉我的耳朵我才把钱还给他的, 他哪里会和我讲thank you 爸爸, 如果地上有一张5块一张10块你拿哪一张呢.... 当然是拿十块的咯... 爸爸你很笨的, 你不会两张都拿爸爸为什么上个月那个人来跟你讨钱, 你告诉他没
iptables开放端口 Fanyucai linux iptables 端口
1，找到配置文件 vi /etc/sysconfig/iptables 2，添加端口开放，增加一行，开放18081端口 -A INPUT -m state --state NEW -m tcp -p tcp --dport 18081 -j ACCEPT 3，保存 ESC :wq! 4，重启服务 service iptables
Ehcache（05）——缓存的查询 234390216 排序 ehcache 统计 query
缓存的查询目录 1. 使Cache可查询 1.1 基于Xml配置 1.2 基于代码的配置 2 指定可搜索的属性 2.1 可查询属性类型 2.2 &
通过hashset找到数组中重复的元素 jackyrong hashset
如何在hashset中快速找到重复的元素呢?方法很多，下面是其中一个办法： int[] array = {1,1,2,3,4,5,6,7,8,8}; Set<Integer> set = new HashSet<Integer>(); for(int i = 0
使用ajax和window.history.pushState无刷新改变页面内容和地址栏URL lanrikey history
后退时关闭当前页面 <script type="text/javascript"> jQuery(document).ready(function ($) { if (window.history && window.history.pushState) {
应用程序的通信成本 netkiller.github.com 虚拟机应用服务器陈景峰 netkiller neo
应用程序的通信成本什么是通信一个程序中两个以上功能相互传递信号或数据叫做通信。什么是成本这是是指时间成本与空间成本。时间就是传递数据所花费的时间。空间是指传递过程耗费容量大小。都有哪些通信方式全局变量线程间通信共享内存共享文件管道 Socket 硬件（串口，USB）等等全局变量全局变量是成本最低通信方法，通过设置
一维数组与二维数组的声明与定义恋洁e生二维数组一维数组定义声明初始化
/** * */ package test20111005; /** * @author FlyingFire * @date:2011-11-18 上午04:33:36 * @author ：代码整理 * @introduce :一维数组与二维数组的初始化 *summary： */ public c
Spring Mybatis独立事务配置 toknowme mybatis
在项目中有很多地方会使用到独立事务，下面以获取主键为例（1）修改配置文件spring-mybatis.xml  <tx:annotation-driven transaction-manager="transactionManager" /> &n
更新Anadroid SDK Tooks之后，Eclipse提示No update were found xp9802 eclipse
使用Android SDK Manager 更新了Anadroid SDK Tooks 之后，打开eclipse提示 This Android SDK requires Android Developer Toolkit version 23.0.0 or above, 点击Check for Updates 检测一会后提示 No update were found

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他