bakalaka

《数据挖掘导论》学习笔记：第1-2章

本文转载自：https://blog.csdn.net/u013232035/article/details/48281659

本文主要是在学习《数据挖掘导论（完整版）》中的学习笔记，主要用来梳理思路，并没有多少思考。

第1章绪论

1.1 什么是数据挖掘

KDD： K nowledge D iscovery in D atabase
过程如下：

Created with Raphaël 2.1.0输入数据数据预处理数据挖掘后处理信息

其中，数据预处理包括如下几部分：

特征选择
维度归约
规范化
选择数据子集

后处理包括如下及部分：

模式过滤
可视化
模式表达

1.2 数据挖掘要解决的问题

可伸缩：着眼于数据量剧烈增长的问题
高维性：对象拥有数量不少的属性
异种数据和复杂数据：数据来源广泛，且结构复杂（XML格式，文本格式，流格式等）
数据的所有权与分布：分布式数据处理
非传统的分析：数据挖掘要求自动产生和评估假设，并且数据挖掘数据集多是时机性样本，而非随机性样本

1.4 数据挖掘任务

数据挖掘主要有如下两大类任务：

预测任务：根据某些属性来预测另外一些属性的值。其中，用来做预测的属性被称为说明性属性(explanatory variable)或自变量(independent variable)，被预测的属性被称为目标变量(target variable)或因变量(dependent variable)
描述任务：导入数据中的潜在的模式，如相关、趋势、聚类和异常等。更详细的说，有如下几大任务：
- 预测建模(predictive modeling)：以自变量为因变量建立模型，从而使得因变量的预测值与实际值误差越小越好。其中，针对离散性变量的称为分类(classification)，针对连续性变量的称为回归(regression)
  下例为鸢尾花分类，数据集见 Iris_dataset，以下为matlab代码：
```
%% 鸢尾花分类
clear all; close all; clc;

%% 载入数据
% data各列分别为 花萼长度，花萼宽度，花瓣长度，花瓣宽度，种类
load iris_dataset;

%% 画图
% 花瓣长度 花瓣宽度 与 种类
type1 = data(data(:, 5) == 1, 3:4);
type2 = data(data(:, 5) == 2, 3:4);
type3 = data(data(:, 5) == 3, 3:4);
plot(type1(:, 1), type1(:, 2), 'o', type2(:, 1), type2(:, 2), 'o', type3(:, 1), type3(:, 2), 'o');
xlabel('花瓣长度(cm)');
ylabel('花瓣宽度(cm)');
legend(unique(classes), 'Location', 'NorthWest');
```
  - 1
  - 2
  - 3
  - 4
  - 5
  - 6
  - 7
  - 8
  - 9
  - 10
  - 11
  - 12
  - 13
  - 14
  - 15
  - 16
- 关联分析(association analysis)：用来发现描述数据中强相关的模式
- 聚类分析(cluster analysis) ：旨在发现紧密相关的对象群，使得同一簇中的对象尽可能相似，不同簇之间的对象则尽可能相异
- 异常检测(anomaly analysis)：识别其属性值明显不同于其他数据的对象，这样对象被称为异常值(anomaly) 或离群点(outlier)

第2章数据

2.1 数据类型

数据集通常可以看为数据对象的集合。数据对象有时也可以称为记录、点、向量、模式、事件、案例、样本、观测或实体。数据对象由一组刻画对象基本特性的属性描述。属性又可称为变量、特性、字段、特征或者维。

2.1.1 属性和度量

我们给出如下定义：
- 属性(attribute)：是对象的性质或特征
- 测量标度(measurement scale)：将数值或符号值与对象的属性相关联的规则（函数），如清点教室中的座位数等。

属性的值往往有如下几种性质：
1. 相异性
2. 序
3. 加法
4. 乘法
根据这些性质，可将属性分为四种类型：标称(nominal)、序数(ordinal)、区间(interval)和比率(ratio)

属性类型	描述	例子	操作
标称	标称属性只是用来区别不同对象的	邮政编码、学号	众数、熵、列联相关、χ2χ2 检验
序数	序数属性可以确定对象的顺序	治疗效果、矿石硬度	中值、百分数、秩相关、游程检验、符号检验
区间	区间属性之间的差有意义，即有测量单位	日历日期、摄氏度等	均值、标准差、皮尔逊相关、tt 和FF 检验
比率	比率属性的差与比值都有意义	绝对温度、质量、长度	几何平均、调和平均、百分比变差

属性类型可以通过不改变属性的变换来描述，即允许的变换(permissible transformation)

属性类型	允许的变换
标称	任何一对一的变换
序数	值的保序变换，NewValue = ff (OldValue)，其中ff 为单调函数
区间	NewValue = a∗a∗ OldValue+bb ，a,ba,b 为常数
比率	NewValue = a∗a∗ OldValue

另外根据属性的可能取值，可将属性分为离散的(discrete)，连续的(continuous)

对于非对称的属性(asymmetric attribute)，出现非零值才重要，考虑如下数据集：每个对象为一个学生，每个属性记录该学生是否选修了某项大学课程

2.1.2 数据集的类型

一般特性：维度，稀疏性、分辨率
记录数据：事务数据或购物篮数据、数据矩阵、稀疏数据矩阵
基于图形的数据：带有对象之间联系的数据（类似图论）、具有图形对象的数据
有序数据：时序数据、序列数据、时间序列数据1、空间数据
非记录数据

2.2 数据质量

数据挖掘所使用的数据往往是为其他用途收集的，或在收集时没有明确目的的。因而数据的质量往往不高。故数据处理着眼于两方面：(1)数据质量问题的检测与纠正，(2)使用可以容忍低质量数据的算法

2.2.1 测量和数据收集问题

测量误差：测量过程中的问题，如系统误差，随机误差等
噪声：测量误差的随机部分
伪像：数据的确定性失真，如：一组图像在相同的位置出现条纹
精度：（同一量的）重复测量值之间的接近程度
偏倚：测量值与被测量值之间的系统变差
准确度：测量值与实际值之间的接近程度，准确率的一个重要方面是有效数字
离群点：离群点与噪音不同，它往往是合法的值，并且可能是人们关注的重点，如：信用卡欺诈、网络进攻等
遗漏值：解决方法有 a.删除对象和属性 b.估计遗漏值 c. 在分析时忽略遗漏值
不一致的值
重复数据：去重复方法解决

2.2.2 关于应用的问题

时效性
相关性：常见问题有 抽样偏倚2
关于数据的背景知识

2.3 数据预处理

数据预处理是为了改善数据挖掘的效果，减少分析时间，降低成本和提高质量。常用技术可以分为两类：(1)选择分析所需要的数据对象, (2)创建/改变属性

2.3.1 聚集

聚集(aggregation) 将两个或多个对象合并成单个对象。考虑如下数据集：一个记录一年中不同日期在不同地区的商店的日销售情况，可以用一个商店事务替换掉该商店的所有事务。

2.3.2 抽样

在数据挖掘中，抽样是因为处理所有数据的费用太高，借助抽样压缩样本量，优化数据挖掘算法的性能。
有效抽样的原理：如果样本是有代表性的，则使用样本与使用整个数据集的效果几乎一样。
常见抽样方法有简单随机抽样，包括有放回抽样、无放回抽样；分层抽样；渐进抽样3。

2.3.3 维度归约

当数据集中包含大量特征（属性）时，维归约就愈加显现其好处。其主要的作用是，如果维度较低，许多数据挖掘算法的效果会更好，可以避免维度灾难；并且使得模型更易理解。
维度归约的常用方法是使用线性代数技术，将数据从多维空间投影到低维空间，主要技术有 主成分分析(Principal Component Analysis, PCA) 和奇异值分解(Singual Value Decomposition, SVD)。

2.3.4 特征子集选择

通过选择属性集中的部分属性的方法，达到降低维度的目的。当存在冗余特征或不相关特征时，往往并不会损失太多信息，从而也是一种有效的降维方法。由集合论可知，nn 个属性有2n−12n−1 个非空子集，故而穷举属性子集的方法是计算不可行的，实际中往往采用如下方法：

嵌入方法(embedded approach)：特征选择作为数据挖掘的一部分存在
过滤方法(filter approach)：使用某种独立于数据挖掘的方法，在数据挖掘算法运行之前进行特征选择
包装方法(wrapper approach)：将目标数据挖掘算法作为黑盒，使用类似穷举的方法，但通常并不枚举所有子集

特征子集选择由四部分组成：子集度量评估、控制新的特征子集产生的搜索策略、停止搜索判断和验证过程。过滤方法和包装方法不同在与子集评估度量。

另外，除了上述三种特征子集选择的方法，还可以通过 特征加权 来保留或删除特征。

2.3.5 特征创建

常常可以用原有的属性创建新的属性集，更有效地捕获数据集中的重要信息。与之相关的方法有：
- 特征提取(feature extraction)：如由相片提取人脸的特征点
- 映射数据到新的空间：如将时间域的变量变换到频率域，参见傅里叶变换
- 特征构造：由原始属性提取出易于数据挖掘的属性，如根据密度分辨木头金块

2.3.6 离散化和二元化

某些数据挖掘算法只适用于分类属性，此时就需要用到离散化(discretization)或二元化(binarization)

2.3.7 变量变换

变量变换(variable transformation) 是指用于变量的所有值的变换，包括：简单函数变换，标准化(standardization) 或规范化(normalization)

2.4 相似性和相异性的度量

我们使用邻近度(proximity) 来表示相似度或相异度，对象的邻近度常常是其属性的邻近度的函数。

简单属性的相似度和相异度可以通过下表刻画：

属性类型	相异度	相似度
标称	d={1if(x=y)0if(x≠y)d={1if(x=y)0if(x≠y)	s={1if(x=y)0if(x≠y)s={1if(x=y)0if(x≠y)
序数	d=\|x−y\|(n−1)d=\|x−y\|(n−1)	s=1−ds=1−d
区间或比率	d=\|x−y\|d=\|x−y\|	s=−d,s=11+d,etc.s=−d,s=11+d,etc.

欧几里德距离：

d(x,y)=∑k=1n(xk−yk)2−−−−−−−−−−−√d(x,y)=∑k=1n(xk−yk)2

其中，nn 是维数，xkxk 和ykyk 分别是xx 和yy 的第kk 个分量
闵可夫斯基距离：

d(x,y)=(∑k=1n|xk−yk|r)1/rd(x,y)=(∑k=1n|xk−yk|r)1/r

其中，rr 为参数

满足(1)非负性 (2)对称性 (3)三角不等性的测度称为度量(metric)
相似度往往不满足三角不等性，而满足前两条。

相异度相似度的具体实例：
- 二元属性的相似度度量
设xx 和yy 是两个对象，都有nn 个二元属性组成，这两个对象的比较可以有如下四个量：

f00=x取0且y取0的属性数f01=x取0且y取1的属性数f10=x取1且y取0的属性数f11=x取1且y取1的属性数f00=x取0且y取0的属性数f01=x取0且y取1的属性数f10=x取1且y取0的属性数f11=x取1且y取1的属性数

据此可以定义如下距离

简单匹配系数(Simple Matching Coefficient, SMC)：SMC=f00+f11f00+f01+f10+f11SMC=f00+f11f00+f01+f10+f11
Jaccard系数(Jaccard Coefficient)：J=f11f01+f10+f11J=f11f01+f10+f11
余弦相似度(cosine similarity)：
cos(x,y)=x⋅y∥x∥∥y∥cos(x,y)=x⋅y‖x‖‖y‖
广义Jaccard系数：
EJ=x⋅y∥x∥2+∥y∥2−x⋅yEJ=x⋅y‖x‖2+‖y‖2−x⋅y
相关性：
corr(x,y)=sxysxsycorr(x,y)=sxysxsy
其中，
sxy=1n−1∑k=1n(xk−x¯)(yk−y¯)sx=1n−1∑k=1nxk−x¯2−−−−−−−−−−−−−−√sy=1n−1∑k=1nyk−y¯2−−−−−−−−−−−−−−√sxy=1n−1∑k=1n(xk−x¯)(yk−y¯)sx=1n−1∑k=1nxk−x¯2sy=1n−1∑k=1nyk−y¯2
Bregman散度：给定一个严格凸函数ϕϕ (连同一些通常满足的适度限制)，由该函数生成的Bregman散度D(x,y)D(x,y) 由如下公式给出：
D(x,y)=ϕ(x)−ϕ(y)−〈∇ϕ(y),(x−y)〉D(x,y)=ϕ(x)−ϕ(y)−〈∇ϕ(y),(x−y)〉
其中，∇ϕ(y)∇ϕ(y) 是在yy 上计算ϕϕ 的梯度，〈∇ϕ(y),(x−y)〉〈∇ϕ(y),(x−y)〉 为计算两者点积

当距离度量具有不同尺度时，需要进行标准化；若属性间有一定的相关度，则可以使用Mahalanobis距离：mahalanobis(x,y)=(x−y)∑−1(x−y)Tmahalanobis(x,y)=(x−y)∑−1(x−y)T ，∑−1∑−1 为数据协方差的逆；当各个属性的重要性不同时，可以使用权重调整；当属性的类型不同时，可以使用如下算法：

Created with Raphaël 2.1.0计算异种属性的相似度计算第k个属性的相似度判断条件*保留该相似度使用公式*计算总相似度忽略该相似度yesno

判断条件 为：某个对象在该属性上有遗漏值，或者该属性为非对称属性且两个对象在该属性上的取值为0
公式为

similarity(x,y)=∑nk=1wkδksk(x,y)∑nk=1δksimilarity(x,y)=∑k=1nwkδksk(x,y)∑k=1nδk

其中，δ=0,1δ=0,1 ，wkwk 为权重

时间序列数据 是一种特殊的时序数据，它的每一个记录都是一个时序数据，如北京地区从1982年到1994年每年的月平均气温数据。 ↩
抽象偏倚(sample bias) 是指样本包含的不同类型的对象与它们的总体中的出现情况不成比例。 ↩
合适的样本容量常常很难确定，此时就有可能使用渐进抽样(progressive sampling)，该方法从一个小样本开始，然后逐渐增加样本容量直至得到足够容量的样本。 ↩
维灾难是指随着数据维度的增加，许多数据分析变得困难，特别是随着维度增加，数据在它所占据的空间中越来越稀疏。

FPGA 47 ，MIG 内存接口生成器深度解析（ FPGA 中的 MIG 技术）北城笑笑 fpga开发 fpga
目录前言一、基础理论1.1MIG介绍1.2结构框架1.2.1主要模块①用户接口层（UserInterfaceLayer）②控制逻辑层（ControLogicLayer）③校准逻辑（CalibrationLogic）④初始化与时序控制（Initialization&TimingControl）⑤物理层接口（PHY–PhysicalLayer）⑥IO引脚驱动（引脚分配与IO配置：Pinout&IOSt
PHP安全编程实践系列（三）：安全会话管理与防护策略软考和人工智能学堂 php #php程序设计经验 php 安全开发语言
前言会话管理是Web应用安全的核心环节，不安全的会话实现可能导致用户账户被劫持、敏感数据泄露等严重后果。本文将深入探讨PHP中的会话安全机制，分析常见会话攻击手段，并提供全面的防护策略和实践方案。一、会话安全基础1.1PHP会话机制工作原理理论：PHP会话是通过会话ID（SessionID）在服务器和客户端之间维持状态的一种机制。关键流程包括：会话初始化：session_start()调用会话ID
Python爬虫在社交平台数据挖掘中的应用：深入探索用户互动程序员威哥 python 爬虫数据挖掘
引言社交媒体已经成为全球用户互动的主要平台，每天都有大量的信息生成，用户之间的互动行为如点赞、评论、分享、转发等构成了宝贵的数据资源。如何利用这些互动数据为商业决策、用户行为分析以及产品优化提供支持，已经成为数据科学与大数据分析领域的一个重要课题。Python作为一款强大的编程语言，凭借其丰富的爬虫库和数据分析工具，已经成为挖掘社交平台数据的重要工具。在本文中，我们将通过Python爬虫技术，深入
如何让AI真正理解你的意图（自适应Prompt实战指南） nine是个工程师大语言模型人工智能 prompt
目前的LLM模型，在理解用户意图方面，正在使用自适应Prompt技术，来提升模型的理解能力。目前使用deepseek推理模型能明显看到自适应的一个过程。前言：为什么你的AI总是"答非所问"？相信很多人都遇到过这样的情况：你问：“帮我写一个Python爬虫”AI答：给你一堆理论知识和完整教程（你只想要简单代码）你问：“推荐一部电影”AI答：推荐了《教父》（你想看轻松喜剧）你问：“解释一下机器学习”A
AI人工智能与机器学习的大数据融合应用 AI智能探索者人工智能机器学习大数据 ai
AI人工智能与机器学习的大数据融合应用关键词：AI人工智能、机器学习、大数据、融合应用、数据挖掘摘要：本文深入探讨了AI人工智能与机器学习在大数据融合应用方面的相关内容。首先介绍了研究的背景、目的、预期读者和文档结构，对核心术语进行了清晰定义。接着阐述了AI、机器学习和大数据的核心概念及相互联系，给出了形象的文本示意图和Mermaid流程图。详细讲解了核心算法原理，并通过Python源代码进行说明
目标检测YOLO实战应用案例100讲-基于深度学习的自动驾驶目标检测算法研究（续）林聪木目标检测 YOLO 深度学习
目录基于双蓝图卷积的轻量化自动驾驶目标检测算法5.1引言5.2DarkNet53网络冗余性分析5.3双蓝图卷积网络5.4实验结果及分析基于深度学习的自动驾驶目标检测算法研究与应用传统的目标检测算法目标检测基线算法性能对比与选择相关理论和算法基础2.1引言2.2人工神经网络2.3FCOS目标检测算法2.4复杂交通场景下的目标检测难点与FCOS改进方案基于FCOS的目标检测算法改进3.1引言3.2Re
Python爬虫实战：利用Selenium与反反爬技术高效爬取天眼查企业信息 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 scrapy selenium
摘要本文将详细介绍如何使用Python爬虫技术获取天眼查的企业信息数据。我们将从爬虫基础开始，逐步深入到高级反反爬技术，最终构建一个能够稳定获取天眼查数据的爬虫系统。文章包含完整的代码实现、技术原理分析以及实际应用场景，帮助读者全面掌握企业信息爬取的核心技术。关键词：Python爬虫、天眼查、Selenium、反反爬技术、企业信息采集、数据挖掘一、引言在当今大数据时代，企业信息数据对于市场分析、商
Python 爬虫实战：京东商品数据采集（登录态验证 + 价格监控系统） Python核芯 Python爬虫实战项目 python 爬虫开发语言
一、引言在电商飞速发展的当下，京东作为国内头部电商平台之一，拥有海量商品数据。对于商家而言，精准掌握这些数据能助力优化定价策略、洞察市场动态；对消费者来说，追踪商品价格走势有助于把握最佳购买时机。本文将深入剖析如何借助Python爬虫技术实现京东商品数据采集，包括突破登录态验证以及搭建价格监控系统，为读者呈上一份实用的电商数据挖掘指南。二、环境搭建安装Python库：执行以下命令安装所需的库：pi
C++ 从入门到精通课程大纲超级码里奥2024 C++从入门到精通课程 c++开发语言
C++从入门到精通课程大纲设计理念：采用“基础→核心→高级→实战”四阶段螺旋式教学，结合理论讲解、代码演示、项目实践（70%实操占比），培养工程级开发能力。目录结构1.第一阶段：C++编程基础2.第二阶段：C++核心编程3.第三阶段：C++高级编程4.第四阶段：实战项目开发附录：学习资源与工具链详细大纲一、第一阶段：C++编程基础目标：掌握语法基础与结构化编程能力环境与基础语法编译器配置（GCC/
深度剖析 Linux ip neigh：邻居表项的查看与添加实践清风 001 Linux系统 linux tcp/ip php
目录一、引言二、邻居发现基础理论（一）IPv4与ARP协议（二）IPv6与NDP协议（三）邻居表项的作用与意义三、ipneigh命令基础（一）命令来源与所属工具集（二）基本语法结构四、邻居表项的查看实践（一）查看全部邻居表项1.命令执行与输出解析2.生产场景应用（二）查看特定网络接口的邻居表项1.命令格式与示例2.生产场景价值（三）查看特定IP地址的邻居表项1.命令操作与解析2.生产场景实践（四）
10、量子神经网络：从理论到实践安检量子神经网络 PennyLane Qiskit
量子神经网络：从理论到实践1.量子神经网络简介量子神经网络（QuantumNeuralNetworks,QNNs）是量子计算与经典机器学习相
深度神经网络课程设计：从理论到实践 Vita Libre
本文还有配套的精品资源，点击获取简介：深度神经网络是深度学习预测的核心技术，本课程设计项目旨在教授学生如何构建和应用深度神经网络进行各种预测任务，包括图像识别和自然语言处理。学生将通过源代码示例学习从网络架构设计、数据预处理到模型训练与评估的完整流程，并掌握深度学习的基本概念、组件及技巧。1.深度神经网络定义和在深度学习预测中的角色深度神经网络（DeepNeuralNetworks,DNNs）是深
深度学习基础与应用：从理论到实战创新工场
本文还有配套的精品资源，点击获取简介：深度学习是人工智能的核心分支，通过模拟人脑神经网络处理大量数据以执行复杂任务。Python因其简洁性和强大的库支持成为深度学习研究的首选语言。本文概述了深度学习基础概念、核心算法、Python框架，并假设了一个包含教程、示例代码、数据集、交互式学习环境、性能评估指标和进阶主题的“deep-learning-study-main”压缩包内容，旨在帮助学习者深入理
GlusterFS 分布式文件系统详解 Sally璐璐运维运维
一、核心特性高扩展性GlusterFS采用无共享架构，支持横向扩展，只需添加服务器节点即可提升存储容量和性能，理论上可达PB甚至EB级规模，且扩展过程对上层应用完全透明。例如，一个初始4节点、20TB的集群可无缝扩展至100节点、500TB规模，仅需执行简单扩容命令，无需中断服务或数据迁移。详细扩容步骤：准备新服务器并安装GlusterFS软件确保操作系统版本兼容安装glusterfs-serve
代码训练营DAY13 第六章二叉树part01 _Coin_- 数据结构算法
理论基础二叉树种类存储方式遍历方式深度优先搜索&广度优先搜索深度：前序遍历、中序遍历、后序遍历（中间在前or中or后，左右顺序固定）广度：二叉树定义递归遍历（必须掌握）递归分析三步法1、确定递归函数的参数和返回值2、确定终止条件3、确定单层递归逻辑前序遍历144.二叉树的前序遍历-力扣（LeetCode）/***Definitionforabinarytreenode.*structTreeNod
Node.js特训专栏-实战进阶：14.JWT令牌认证原理与实现爱分享的程序员 Node.js 前端 node.js javascript
欢迎来到Node.js实战专栏！在这里，每一行代码都是解锁高性能应用的钥匙，让我们一起开启Node.js的奇妙开发之旅！Node.js特训专栏主页专栏内容规划详情Node.jsJWT令牌认证原理与实现：从理论到实战的深度解析一、JWT认证概述1.1什么是JWT？JSONWebToken（JWT）是一种开放标准（RFC7519），用于在网络应用间安全地传输信息。它以JSON对象的形式包含声明&#x
Rust 仿射类型（Affine Types）萧曵丶 Rust rust 仿射类型
在Rust中，仿射类型（AffineTypes）是所有权系统的理论基础，它规定了每个值有且仅有一次使用机会。这与线性类型（必须恰好使用一次）有所不同，允许值未被使用就被丢弃。Rust中的仿射类型核心特征移动语义（MoveSemantics）fnconsume(s:String){/*...*/}lets1=String::from("hello");consume(s1);//所有权转移给函数//
Rust之从零开始构建分布式事务数据库莲华君 rust 分布式数据库
目录第一部分：Rust基础与数据库基础Rust语言基础Rust的特点与优势Rust的内存安全与并发模型Rust工具链与开发环境搭建数据库基本原理关系型数据库与非关系型数据库数据库的事务管理原理ACID与BASE理论分布式系统与数据库的挑战第二部分：分布式数据库核心架构分布式数据库的设计原则CAP理论与BASE理论数据分片与复制数据一致性与可用性的权衡数据持久化与恢复策略分布式事务的基础事务的ACI
AI与脑科学：相互启发，探索智能的本质 Liudef06小白人工智能人工智能
AI与脑科学：相互启发，探索智能的本质人类大脑的物理组件正被逐个映射为数字模型，而人工智能的“黑箱”中则自发涌现出类人的思维结构，两大前沿领域的碰撞正重塑我们对“智能”的理解。2025年初，东南大学黄广斌教授团队发表了一项开创性研究，提出通过“细胞级别的AI孪生方法”将人脑物理组件转换为数字模型，从理论上证明：不受限制的AI能以任意小误差逼近人脑功能，并在25年内超越人类智能。这项集结了哈佛医学院
【数据空间】数据空间基本理论及公司建设方法暴躁小师兄数据学院数据治理大数据人工智能安全网络区块链
数据空间基本理论及公司建设方法数据空间是一种数据管理框架，旨在帮助组织高效存储、访问、集成和分析数据。它强调数据作为战略资产，通过结构化方法提升数据价值。以下我将从基本理论入手，逐步解释公司如何完成建设，确保内容结构清晰、真实可靠。一、数据空间基本理论数据空间理论源于数据管理领域，核心是解决数据孤岛、不一致性和安全风险等问题。其理论基础包括：数据抽象与建模：数据空间将数据视为独立于应用的资源，使用
数据结构——20.B树爱看烟花的码农数据结构数据结构
第一部分：核心理论精讲一、B树(B-Tree)1.为什么需要B树？当数据量非常大时，内存无法一次性装下，大部分数据需要存储在磁盘等外部存储器上。磁盘I/O（读/写）操作相比内存访问非常慢。为了减少磁盘I/O次数，我们需要一种特殊的树结构，它的每个节点可以存储大量信息，从而使得树的高度尽可能低。B树（一种多路平衡查找树）就是为此而设计的。2.B树的定义(m阶)一棵m阶B树是满足以下条件的m路查找树：
AI“大航海”时代：企业人力资源的AI-HR实践与效能提升策略
在数字化浪潮的推动下，人工智能（AI）正以前所未有的速度渗透各行各业，人力资源管理（HR）领域也不例外。AI技术的引入与应用落地，不仅提升HR管理效率，更在深层次上带来人力资源运作模式的变革。什么是AI-HR所谓AI-HR，是指将人工智能技术应用于人力资源管理，并通过机器学习、自然语言处理、数据挖掘等技术，优化招聘、培训、绩效评估、员工关系等人力资源各个业务模块。近年来，随着AI技术的成熟和普及，
FTP太不安全了？SFTP 替代方案构建企业级文件传输服务全指南
你有没有遇到过这种事？某天凌晨，公司官网突然崩了，运维排查一整圈，最后发现是某个FTP用户密码泄露被人植入了木马网页。那一刻你可能才突然意识到，FTP这玩意儿，居然还在你们系统里悄悄跑着，而且还是“裸奔”。不夸张地说，FTP在今天的互联网环境下已经是“古董级危险品”了。所以，我们今天不讲理论，不聊历史，只聊一件事：用SFTP替换FTP，怎么一步步在企业环境里真正落地？为什么FTP是“老虎凳”，而不
汇编语言:基于x86处理器第一章习题解答「已注销」 Linux 内核资深专家 arm
汇编语言习题解答习题解答1.1.3本节回顾习题解答1.1.3本节回顾1、汇编器和链接器是如何一起工作的？汇编程序要转化为可执行程序，需要先译码后组合。这是因为一个完整的汇编程序常常是由多个文件构成，先用汇编器将每一个文件中的汇编代码转化为机器语言后，链接器再把这些文件组合成一个可执行程序。2、学习汇编语言如何能提高你对操作系统的理解？可用汇编语言验证操作系统的理论知识，从而更深刻的掌握操作系统3、
软考（软件设计师）数据库原理-数据库规范化理论，四大范式，完整性约束
关系数据库规范化理论，四大范式，完整性约束关系数据库规范化是一种组织数据库表结构和字段的技术，目的是减少数据冗余、消除更新异常，并确保数据依赖的合理性。一、范式基本概念范式（NormalForm）是符合某一种级别的关系模式的集合，分为1NF、2NF、3NF、BCNF、4NF、5NF等，级别越高约束越严格。二、各范式详细说明1.第一范式（1NF）要求：表中每个字段都是原子性的，不可再分每个字段具有相
AI智能体长期记忆系统架构设计与落地实践：从理论到生产部署一休哥助手人工智能人工智能
摘要长期记忆能力是AI智能体实现持续个性化服务的核心瓶颈。本文基于Mem0、MemoryOS等前沿研究，系统解析长期记忆系统的三级架构、六大原子操作与生产级优化方案，结合金融、医疗等场景案例，通过7张架构图与4张对比表格，揭示如何实现91%延迟降低与90%成本节约的企业级记忆系统。全文超6000字，提供可落地的架构范式。1长期记忆：AI智能体的认知基石1.1人类记忆与AI记忆的类比情景记忆语义记忆
文献分享: 注释数据库＆溯源半环理论(Part2) Dann Hiroaki 文献阅读笔记数据库抽象代数
文章目录3.\textbf{3.}3.处理递归查询:基于Datalog\textbf{Datalog}Datalog3.1.\textbf{3.1.}3.1.关于Datalog\textbf{Datalog}Datalog3.1.1.\textbf{3.1.1.}3.1.1.Datalog\textbf{Datalog}Datalog基本结构3.1.2.Datalog\textbf{3.1.2.}
【AI论文】基于图像思维的多模态推理：理论基础、方法及未来前沿东临碣石82 人工智能
摘要：近期，文本思维链（Chain-of-Thought，CoT）显著推动了多模态推理的进展。在这一范式下，模型在语言层面进行推理。然而，这种以文本为中心的方法将视觉信息视为静态的初始语境，从而在丰富的感知数据与离散的符号思维之间造成了根本性的“语义鸿沟”。人类认知往往超越语言的局限，将视觉作为动态的心理草图板加以利用。如今，人工智能领域也正经历着类似的演变，标志着从仅能对图像进行思考的模型向真正
【学习教程】遥感、GIS和GPS技术在水文、气象、灾害、生态、环境及卫生等领域中的应用
【内容简介】：第一讲3S技术及软件简介1.13S技术及应用案例文献解析1.23S技术软件（ArcGIS、ENVI）简介1.3如何快速掌握ArcGIS1.4ArcGIS界面及数据加载1.5文档保存方式第二讲ArcGIS数据管理2.1ArcGIS数据类型与数据结构2.2shapefile数据、个人地理数据库MDB和文件地理数据库GDB2.3地理空间数据建库的理论、方法和步骤2.4ArcGIS数据管理第
Python机器学习与深度学习：决策树、随机森林、XGBoost与LightGBM、迁移学习、循环神经网络、长短时记忆网络、时间卷积网络、自编码器、生成对抗网络、YOLO目标检测等 WangYan2022 机器学习/深度学习 Python 机器学习深度学习随机森林迁移学习
融合最新技术动态与实战经验，旨在系统提升以下能力：①掌握ChatGPT、DeepSeek等大语言模型在代码生成、模型调试、实验设计、论文撰写等方面的实际应用技巧②深入理解深度学习与经典机器学习算法的关联与差异，掌握其理论基础③熟练运用PyTorch实现各类深度学习模型，包括迁移学习、循环神经网络（RNN）、长短时记忆网络（LSTM）、时间卷积网络（TCN）、自编码器、生成对抗网络（GAN）、YOL
Nginx负载均衡 510888780 nginx 应用服务器
Nginx负载均衡一些基础知识: nginx 的 upstream目前支持 4 种方式的分配 1)、轮询（默认）每个请求按时间顺序逐一分配到不同的后端服务器，如果后端服务器down掉，能自动剔除。 2)、weight 指定轮询几率，weight和访问比率成正比
RedHat 6.4 安装 rabbitmq bylijinnan erlang rabbitmq redhat
在 linux 下安装软件就是折腾，首先是测试机不能上外网要找运维开通，开通后发现测试机的 yum 不能使用于是又要配置 yum 源，最后安装 rabbitmq 时也尝试了两种方法最后才安装成功机器版本： [root@redhat1 rabbitmq]# lsb_release LSB Version: :base-4.0-amd64:base-4.0-noarch:core
FilenameUtils工具类 eksliang FilenameUtils common-io
转载请出自出处：http://eksliang.iteye.com/blog/2217081 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
xml文件解析SAX 不懂事的小屁孩 xml
xml文件解析:xml文件解析有四种方式， 1.DOM生成和解析XML文档(SAX是基于事件流的解析) 2.SAX生成和解析XML文档(基于XML文档树结构的解析) 3.DOM4J生成和解析XML文档 4.JDOM生成和解析XML 本文章用第一种方法进行解析，使用android常用的DefaultHandler import org.xml.sax.Attributes;
通过定时任务执行mysql的定期删除和新建分区，此处是按日分区酷的飞上天空 mysql
使用python脚本作为命令脚本，linux的定时任务来每天定时执行 #!/usr/bin/python # -*- coding: utf8 -*- import pymysql import datetime import calendar #要分区的表 table_name = 'my_table' #连接数据库的信息 host,user,passwd,db =
如何搭建数据湖架构？听听专家的意见蓝儿唯美架构
Edo Interactive在几年前遇到一个大问题：公司使用交易数据来帮助零售商和餐馆进行个性化促销，但其数据仓库没有足够时间去处理所有的信用卡和借记卡交易数据 “我们要花费27小时来处理每日的数据量，”Edo主管基础设施和信息系统的高级副总裁Tim Garnto说道：“所以在2013年，我们放弃了现有的基于PostgreSQL的关系型数据库系统，使用了Hadoop集群作为公司的数
spring学习——控制反转与依赖注入 a-john spring
控制反转（Inversion of Control，英文缩写为IoC）是一个重要的面向对象编程的法则来削减计算机程序的耦合问题，也是轻量级的Spring框架的核心。控制反转一般分为两种类型，依赖注入（Dependency Injection，简称DI）和依赖查找（Dependency Lookup）。依赖注入应用比较广泛。
用spool+unixshell生成文本文件的方法 aijuans xshell
例如我们把scott.dept表生成文本文件的语句写成dept.sql,内容如下: 　　set pages 50000; 　　set lines 200; 　　set trims on; 　　set heading off; 　　spool /oracle_backup/log/test/dept.lst; 　　select deptno||','||dname||','||loc
1、基础--名词解析(OOA/OOD/OOP) asia007 学习基础知识
OOA:Object-Oriented Analysis（面向对象分析方法）是在一个系统的开发过程中进行了系统业务调查以后，按照面向对象的思想来分析问题。OOA与结构化分析有较大的区别。OOA所强调的是在系统调查资料的基础上，针对OO方法所需要的素材进行的归类分析和整理，而不是对管理业务现状和方法的分析。　　OOA（面向对象的分析）模型由5个层次（主题层、对象类层、结构层、属性层和服务层）
浅谈java转成json编码格式技术百合不是茶 json编码 java转成json编码
json编码;是一个轻量级的数据存储和传输的语言在java中需要引入json相关的包,引包方式在工程的lib下就可以了 JSON与JAVA数据的转换（JSON 即 JavaScript Object Natation，它是一种轻量级的数据交换格式，非常适合于服务器与 JavaScript 之间的数据的交
web.xml之Spring配置(基于Spring+Struts+Ibatis) bijian1013 java web.xml SSI spring配置
指定Spring配置文件位置 <context-param> <param-name>contextConfigLocation</param-name> <param-value> /WEB-INF/spring-dao-bean.xml,/WEB-INF/spring-resources.xml, /WEB-INF/
Installing SonarQube（Fail to download libraries from server） sunjing Install Sonar
1. Download and unzip the SonarQube distribution 2. Starting the Web Server The default port is "9000" and the context path is "/". These values can be changed in &l
【MongoDB学习笔记十一】Mongo副本集基本的增删查 bit1129 mongodb
一、创建复本集假设mongod,mongo已经配置在系统路径变量上，启动三个命令行窗口，分别执行如下命令： mongod --port 27017 --dbpath data1 --replSet rs0 mongod --port 27018 --dbpath data2 --replSet rs0 mongod --port 27019 -
Anychart图表系列二之执行Flash和HTML5渲染白糖_ Flash
今天介绍Anychart的Flash和HTML5渲染功能 HTML5 Anychart从6.0第一个版本起，已经逐渐开始支持各种图的HTML5渲染效果了，也就是说即使你没有安装Flash插件，只要浏览器支持HTML5，也能看到Anychart的图形（不过这些是需要做一些配置的）。这里要提醒下大家，Anychart6.0版本对HTML5的支持还不算很成熟，目前还处于
Laravel版本更新异常4.2.8-> 4.2.9 Declaration of ... CompilerEngine ... should be compa bozch laravel
昨天在为了把laravel升级到最新的版本，突然之间就出现了如下错误： ErrorException thrown with message "Declaration of Illuminate\View\Engines\CompilerEngine::handleViewException() should be compatible with Illuminate\View\Eng
编程之美-NIM游戏分析-石头总数为奇数时如何保证先动手者必胜 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class Nim { /**编程之美 NIM游戏分析问题：有N块石头和两个玩家A和B，玩家A先将石头随机分成若干堆，然后按照BABA...的顺序不断轮流取石头，能将剩下的石头一次取光的玩家获胜，每次取石头时，每个玩家只能从若干堆石头中任选一堆，
lunce创建索引及简单查询 chengxuyuancsdn 查询创建索引 lunce
import java.io.File; import java.io.IOException; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Docume
[IT与投资]坚持独立自主的研究核心技术 comsci it
和别人合作开发某项产品....如果互相之间的技术水平不同,那么这种合作很难进行,一般都会成为强者控制弱者的方法和手段..... 所以弱者,在遇到技术难题的时候,最好不要一开始就去寻求强者的帮助,因为在我们这颗星球上,生物都有一种控制其
flashback transaction闪回事务查询 daizj oracle sql 闪回事务
闪回事务查询有别于闪回查询的特点有以下3个：（1）其正常工作不但需要利用撤销数据，还需要事先启用最小补充日志。（2）返回的结果不是以前的“旧”数据，而是能够将当前数据修改为以前的样子的撤销SQL（Undo SQL）语句。（3）集中地在名为flashback_transaction_query表上查询，而不是在各个表上通过“as of”或“vers
Java I/O之FilenameFilter类列举出指定路径下某个扩展名的文件游其是你 FilenameFilter
这是一个FilenameFilter类用法的例子，实现的列举出“c:\\folder“路径下所有以“.jpg”扩展名的文件。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
C语言学习五函数，函数的前置声明以及如何在软件开发中合理的设计函数来解决实际问题 dcj3sjt126com c
# include <stdio.h> int f(void) //括号中的void表示该函数不能接受数据，int表示返回的类型为int类型 { return 10; //向主调函数返回10 } void g(void) //函数名前面的void表示该函数没有返回值 { //return 10; //error 与第8行行首的void相矛盾 } in
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Pl dcj3sjt126com centos
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Please verify its path and try again 处理很简单，修改文件“/etc/yum.repos.d/epel.repo”，将baseurl的注释取消， mirrorlist注释掉。即可。 &n
单例模式 shuizhaosi888 单例模式
单例模式懒汉式 public class RunMain { /** * 私有构造 */ private RunMain() { } /** * 内部类，用于占位，只有 */ private static class SingletonRunMain { priv
Spring Security（09）——Filter 234390216 Spring Security
Filter 目录 1.1 Filter顺序 1.2 添加Filter到FilterChain 1.3 DelegatingFilterProxy 1.4 FilterChainProxy 1.5
公司项目NODEJS实践0.1 逐行分析JS源代码 mongodb nginx ubuntu nodejs
一、前言前端如何独立用nodeJs实现一个简单的注册、登录功能，是不是只用nodejs+sql就可以了？其实是可以实现，但离实际应用还有距离，那要怎么做才是实际可用的。网上有很多nod
java.lang.Math liuhaibo_ljf java Math lang
System.out.println(Math.PI); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1)); System.out.println(Math.abs(111111111)); System.out.println(Mat
linux下时间同步 nonobaba ntp
今天在linux下做hbase集群的时候，发现hmaster启动成功了，但是用hbase命令进入shell的时候报了一个错误 PleaseHoldException: Master is initializing，查看了日志，大致意思是说master和slave时间不同步，没办法，只好找一种手动同步一下，后来发现一共部署了10来台机器，手动同步偏差又比较大，所以还是从网上找现成的解决方
ZooKeeper3.4.6的集群部署 roadrunners zookeeper 集群部署
ZooKeeper是Apache的一个开源项目，在分布式服务中应用比较广泛。它主要用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步、集群管理、配置文件管理、同步锁、队列等。这里主要讲集群中ZooKeeper的部署。 1、准备工作我们准备3台机器做ZooKeeper集群，分别在3台机器上创建ZooKeeper需要的目录。数据存储目录
Java高效读取大文件 tomcat_oracle java
　　读取文件行的标准方式是在内存中读取，Guava 和Apache Commons IO都提供了如下所示快速读取文件行的方法：　　Files.readLines(new File(path), Charsets.UTF_8); 　　FileUtils.readLines(new File(path)); 　　这种方法带来的问题是文件的所有行都被存放在内存中，当文件足够大时很快就会导致
微信支付api返回的xml转换为Map的方法 xu3508620 xml map 微信api
举例如下： <xml> <return_code><![CDATA[SUCCESS]]></return_code> <return_msg><![CDATA[OK]]></return_msg> <appid><

《数据挖掘导论》学习笔记：第1-2章

第1章 绪论

第2章 数据

你可能感兴趣的:(数据挖掘理论)

第1章绪论

第2章数据