chinapub_2009

数据挖掘：概念与技术

《数据挖掘：概念与技术》
基本信息
原书名：Data Mining：Concepts and Techniques，Third Edition
作者： (美)Jiawei Han伊利诺伊大学厄巴纳-尚佩恩分校 (加)Micheline Kamber西蒙-弗雷泽大学 (加)Jian Pei西蒙-弗雷泽大学 [作译者介绍]
译者：范明孟小峰
丛书名：计算机科学丛书
出版社：机械工业出版社
ISBN：9787111391401
上架时间：2012-8-3
出版日期：2012 年8月
开本：16开
页码：1
版次：1-1
所属分类：计算机 > 数据库 > 数据库存储与管理

更多关于》》》《数据挖掘：概念与技术》
内容简介
书籍
计算机书籍
　　《数据挖掘：概念与技术(原书第3版)》完整全面地讲述数据挖掘的概念、方法、技术和最新研究进展。本书对前两版做了全面修订，加强和重新组织了全书的技术内容，重点论述了数据预处理、频繁模式挖掘、分类和聚类等的内容，还全面讲述了olap和离群点检测，并研讨了挖掘网络、复杂数据类型以及重要应用领域。
　　《数据挖掘：概念与技术(原书第3版)》是数据挖掘和知识发现领域内的所有教师、研究人员、开发人员和用户都必读的参考书，是一本适用于数据分析、数据挖掘和知识发现课程的优秀教材，可以用做高年级本科生或者一年级研究生的数据挖掘导论教材。

目录
《数据挖掘：概念与技术(原书第3版)》
出版者的话
中文版序
译者序
译者简介
第3版序
第2版序
前言
致谢
作者简介
第1章引论1
1.1为什么进行数据挖掘1
1.1.1迈向信息时代1
1.1.2数据挖掘是信息技术的进化2
1.2什么是数据挖掘4
1.3可以挖掘什么类型的数据6
1.3.1数据库数据6
1.3.2数据仓库7
1.3.3事务数据9
1.3.4其他类型的数据9
1.4可以挖掘什么类型的模式10
1.4.1类/概念描述：特征化与区分10
1.4.2挖掘频繁模式、关联和相关性11
1.4.3用于预测分析的分类与回归12
1.4.4聚类分析13
1.4.5离群点分析14
1.4.6所有模式都是有趣的吗14
1.5使用什么技术15
1.5.1统计学15
1.5.2机器学习16
1.5.3数据库系统与数据仓库17
1.5.4信息检索17
1.6面向什么类型的应用18
1.6.1商务智能18
1.6.2web搜索引擎18
1.7数据挖掘的主要问题19
1.7.1挖掘方法19
1.7.2用户界面20
1.7.3有效性和可伸缩性21
1.7.4数据库类型的多样性21
1.7.5数据挖掘与社会21
1.8小结22
1.9习题23
1.10文献注释23
第2章认识数据26
2.1数据对象与属性类型26
2.1.1什么是属性27
2.1.2标称属性27
2.1.3二元属性27
2.1.4序数属性28
2.1.5数值属性28
2.1.6离散属性与连续属性29
2.2数据的基本统计描述29
2.2.1中心趋势度量：均值、中位数和众数30
2.2.2度量数据散布：极差、四分位数、方差、标准差和四分位数极差32
2.2.3数据的基本统计描述的图形显示34
2.3数据可视化37
2.3.1基于像素的可视化技术37
2.3.2几何投影可视化技术38
2.3.3基于图符的可视化技术40
2.3.4层次可视化技术42
2.3.5可视化复杂对象和关系42
2.4度量数据的相似性和相异性44
2.4.1数据矩阵与相异性矩阵45
2.4.2标称属性的邻近性度量46
2.4.3二元属性的邻近性度量46
2.4.4数值属性的相异性：闵可夫斯基距离48
2.4.5序数属性的邻近性度量49
2.4.6混合类型属性的相异性50
2.4.7余弦相似性51
2.5小结52
2.6习题53
2.7文献注释54
第3章数据预处理55
3.1数据预处理：概述55
3.1.1数据质量：为什么要对数据预处理55
3.1.2数据预处理的主要任务56
3.2数据清理58
3.2.1缺失值58
3.2.2噪声数据59
3.2.3数据清理作为一个过程60
3.3数据集成61
3.3.1实体识别问题62
3.3.2冗余和相关分析62
3.3.3元组重复65
3.3.4数据值冲突的检测与处理65
3.4数据归约65
3.4.1数据归约策略概述66
3.4.2小波变换66
3.4.3主成分分析67
3.4.4属性子集选择68
3.4.5回归和对数线性模型：参数化数据归约69
3.4.6直方图70
3.4.7聚类71
3.4.8抽样71
3.4.9数据立方体聚集72
3.5数据变换与数据离散化73
3.5.1数据变换策略概述73
3.5.2通过规范化变换数据74
3.5.3通过分箱离散化76
3.5.4通过直方图分析离散化76
3.5.5通过聚类、决策树和相关分析离散化76
3.5.6标称数据的概念分层产生77
3.6小结79
3.7习题79
3.8文献注释80
第4章数据仓库与联机分析处理82
4.1数据仓库：基本概念82
4.1.1什么是数据仓库82
4.1.2操作数据库系统与数据仓库的区别84
4.1.3为什么需要分离的数据仓库85
4.1.4数据仓库：一种多层体系结构85
4.1.5数据仓库模型：企业仓库、数据集市和虚拟仓库87
4.1.6数据提取、变换和装入88
4.1.7元数据库88
4.2数据仓库建模：数据立方体与olap89
4.2.1数据立方体：一种多维数据模型89
4.2.2星形、雪花形和事实星座：多维数据模型的模式91
4.2.3维：概念分层的作用94
4.2.4度量的分类和计算95
4.2.5典型的olap操作96
4.2.6查询多维数据库的星网查询模型98
4.3数据仓库的设计与使用99
4.3.1数据仓库的设计的商务分析框架99
4.3.2数据仓库的设计过程100
4.3.3数据仓库用于信息处理101
4.3.4从联机分析处理到多维数据挖掘102
4.4数据仓库的实现103
4.4.1数据立方体的有效计算：概述103
4.4.2索引olap数据：位图索引和连接索引105
4.4.3olap查询的有效处理107
4.4.4olap服务器结构：rolap、molap、holap的比较107
4.5数据泛化：面向属性的归纳109
4.5.1数据特征的面向属性的归纳109
4.5.2面向属性归纳的有效实现113
4.5.3类比较的面向属性归纳114
4.6小结116
4.7习题117
4.8文献注释119
第5章数据立方体技术121
5.1数据立方体计算：基本概念121
5.1.1立方体物化：完全立方体、冰山立方体、闭立方体和立方体外壳122
5.1.2数据立方体计算的一般策略124
5.2数据立方体计算方法126
5.2.1完全立方体计算的多路数组聚集126
5.2.2buc：从顶点方体向下计算冰山立方体129
5.2.3star-cubing：使用动态星树结构计算冰山立方体132
5.2.4为快速高维olap预计算壳片段136
5.3使用探索立方体技术处理高级查询141
5.3.1抽样立方体：样本数据上基于olap的挖掘141
5.3.2排序立方体：top-k查询的有效计算145
5.4数据立方体空间的多维数据分析147
5.4.1预测立方体：立方体空间的预测挖掘147
5.4.2多特征立方体：多粒度上的复杂聚集149
5.4.3基于异常的、发现驱动的立方体空间探查149
5.5小结152
5.6习题152
5.7文献注释155
第6章挖掘频繁模式、关联和相关性:基本概念和方法157
6.1基本概念157
6.1.1购物篮分析：一个诱发例子157
6.1.2频繁项集、闭项集和关联规则158
6.2频繁项集挖掘方法160
6.2.1apriori算法：通过限制候选产生发现频繁项集160
6.2.2由频繁项集产生关联规则164
6.2.3提高apriori算法的效率165
6.2.4挖掘频繁项集的模式增长方法166
6.2.5使用垂直数据格式挖掘频繁项集169
6.2.6挖掘闭模式和极大模式170
6.3哪些模式是有趣的：模式评估方法171
6.3.1强规则不一定是有趣的172
6.3.2从关联分析到相关分析172
6.3.3模式评估度量比较173
6.4小结176
6.5习题177
6.6文献注释179
第7章高级模式挖掘180
7.1模式挖掘：一个路线图180
7.2多层、多维空间中的模式挖掘182
7.2.1挖掘多层关联规则182
7.2.2挖掘多维关联规则185
7.2.3挖掘量化关联规则186
7.2.4挖掘稀有模式和负模式188
7.3基于约束的频繁模式挖掘190
7.3.1关联规则的元规则制导挖掘190
7.3.2基于约束的模式产生：模式空间剪枝和数据空间剪枝191
7.4挖掘高维数据和巨型模式195
7.5挖掘压缩或近似模式198
7.5.1通过模式聚类挖掘压缩模式199
7.5.2提取感知冗余的top-k模式200
7.6模式探索与应用202
7.6.1频繁模式的语义注解202
7.6.2模式挖掘的应用205
7.7小结206
7.8习题207
7.9文献注释208
第8章分类：基本概念211
8.1基本概念211
8.1.1什么是分类211
8.1.2分类的一般方法211
8.2决策树归纳213
8.2.1决策树归纳214
8.2.2属性选择度量217
8.2.3树剪枝222
8.2.4可伸缩性与决策树归纳224
8.2.5决策树归纳的可视化挖掘225
8.3贝叶斯分类方法226
8.3.1贝叶斯定理227
8.3.2朴素贝叶斯分类227
8.4基于规则的分类230
8.4.1使用if-then规则分类230
8.4.2由决策树提取规则231
8.4.3使用顺序覆盖算法的规则归纳232
8.5模型评估与选择236
8.5.1评估分类器性能的度量236
8.5.2保持方法和随机二次抽样240
8.5.3交叉验证240
8.5.4自助法241
8.5.5使用统计显著性检验选择模型241
8.5.6基于成本效益和roc曲线比较分类器243
8.6提高分类准确率的技术245
8.6.1组合分类方法简介245
8.6.2装袋246
8.6.3提升和adaboost247
8.6.4随机森林249
8.6.5提高类不平衡数据的分类准确率250
8.7小结251
8.8习题251
8.9文献注释253
第9章分类：高级方法255
9.1贝叶斯信念网络255
9.1.1概念和机制255
9.1.2训练贝叶斯信念网络257
9.2用后向传播分类258
9.2.1多层前馈神经网络258
9.2.2定义网络拓扑259
9.2.3后向传播260
9.2.4黑盒内部：后向传播和可解释性263
9.3支持向量机265
9.3.1数据线性可分的情况265
9.3.2数据非线性可分的情况268
9.4使用频繁模式分类270
9.4.1关联分类270
9.4.2基于有区别力的频繁模式分类272
9.5惰性学习法(或从近邻学习）275
9.5.1k-最近邻分类275
9.5.2基于案例的推理277
9.6其他分类方法277
9.6.1遗传算法277
9.6.2粗糙集方法278
9.6.3模糊集方法278
9.7关于分类的其他问题280
9.7.1多类分类280
9.7.2半监督分类281
9.7.3主动学习282
9.7.4迁移学习283
9.8小结284
9.9习题285
9.10文献注释286
第10章聚类分析：基本概念和方法288
10.1聚类分析288
10.1.1什么是聚类分析288
10.1.2对聚类分析的要求289
10.1.3基本聚类方法概述291
10.2划分方法293
10.2.1k-均值：一种基于形心的技术293
10.2.2k-中心点：一种基于代表对象的技术295
10.3层次方法297
10.3.1凝聚的与分裂的层次聚类298
10.3.2算法方法的距离度量300
10.3.3birch：使用聚类特征树的多阶段聚类301
10.3.4chameleon:使用动态建模的多阶段层次聚类303
10.3.5概率层次聚类304
10.4基于密度的方法306
10.4.1dbscan:一种基于高密度连通区域的基于密度的聚类307
10.4.2optics：通过点排序识别聚类结构309
10.4.3denclue：基于密度分布函数的聚类311
10.5基于网格的方法312
10.5.1sting:统计信息网格312
10.5.2clique：一种类似于apriori的子空间聚类方法314
10.6聚类评估315
10.6.1估计聚类趋势316
10.6.2确定簇数317
10.6.3测定聚类质量317
10.7小结319
10.8习题320
10.9文献注释321
第11章高级聚类分析323
11.1基于概率模型的聚类323
11.1.1模糊簇324
11.1.2基于概率模型的聚类326
11.1.3期望最大化算法328
11.2聚类高维数据330
11.2.1聚类高维数据：问题、挑战和主要方法330
11.2.2子空间聚类方法331
11.2.3双聚类332
11.2.4维归约方法和谱聚类337
11.3聚类图和网络数据339
11.3.1应用与挑战339
11.3.2相似性度量340
11.3.3图聚类方法343
11.4具有约束的聚类345
11.4.1约束的分类345
11.4.2具有约束的聚类方法347
11.5小结349
11.6习题349
11.7文献注释350
第12章离群点检测351
12.1离群点和离群点分析351
12.1.1什么是离群点351
12.1.2离群点的类型352
12.1.3离群点检测的挑战354
12.2离群点检测方法354
12.2.1监督、半监督和无监督方法355
12.2.2统计方法、基于邻近性的方法和基于聚类的方法356
12.3统计学方法357
12.3.1参数方法357
12.3.2非参数方法360
12.4基于邻近性的方法361
12.4.1基于距离的离群点检测和嵌套循环方法361
12.4.2基于网格的方法363
12.4.3基于密度的离群点检测364
12.5基于聚类的方法366
12.6基于分类的方法368
12.7挖掘情境离群点和集体离群点369
12.7.1把情境离群点检测转换成传统的离群点检测369
12.7.2关于情境对正常行为建模370
12.7.3挖掘集体离群点371
12.8高维数据中的离群点检测371
12.8.1扩充的传统离群点检测372
12.8.2发现子空间中的离群点373
12.8.3高维离群点建模373
12.9小结374
12.10习题375
12.11文献注释375
第13章数据挖掘的发展趋势和研究前沿377
13.1挖掘复杂的数据类型377
13.1.1挖掘序列数据：时间序列、符号序列和生物学序列377
13.1.2挖掘图和网络381
13.1.3挖掘其他类型的数据383
13.2数据挖掘的其他方法385
13.2.1统计学数据挖掘385
13.2.2关于数据挖掘基础的观点386
13.2.3可视和听觉数据挖掘387
13.3数据挖掘应用391
13.3.1金融数据分析的数据挖掘391
13.3.2零售和电信业的数据挖掘392
13.3.3科学与工程数据挖掘393
13.3.4入侵检测和预防数据挖掘395
13.3.5数据挖掘与推荐系统396
13.4数据挖掘与社会397
13.4.1普适的和无形的数据挖掘397
13.4.2数据挖掘的隐私、安全和社会影响399
13.5数据挖掘的发展趋势400
13.6小结402
13.7习题402
13.8文献注释403
参考文献406
索引435

本图书信息来源：中国互动出版网

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
Google earth studio 简介陟彼高冈yu 旅游
GoogleEarthStudio是一个基于Web的动画工具，专为创作使用GoogleEarth数据的动画和视频而设计。它利用了GoogleEarth强大的三维地图和卫星影像数据库，使用户能够轻松地创建逼真的地球动画、航拍视频和动态地图可视化。网址为https://www.google.com/earth/studio/。GoogleEarthStudio是一个基于Web的动画工具，专为创作使用G
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
关于提高复杂业务逻辑代码可读性的思考编程经验分享开发经验 java 数据库开发语言
目录前言需求场景常规写法拆分方法领域对象总结前言实际工作中大部分时间都是在写业务逻辑，一般都是三层架构，表示层（Controller）接收客户端请求，并对入参做检验，业务逻辑层（Service）负责处理业务逻辑，一般开发都是在这一层中写具体的业务逻辑。数据访问层（Dao）是直接和数据库交互的，用于查数据给业务逻辑层，或者是将业务逻辑层处理后的数据写入数据库。简单的增删改查接口不用多说，基本上写好一
SQL Server_查询某一数据库中的所有表的内容 qq_42772833 SQL Server 数据库 sqlserver
1.查看所有表的表名要列出CrabFarmDB数据库中的所有表（名），可以使用以下SQL语句：USECrabFarmDB;--切换到目标数据库GOSELECTTABLE_NAMEFROMINFORMATION_SCHEMA.TABLESWHERETABLE_TYPE='BASETABLE';对这段SQL脚本的解释：SELECTTABLE_NAME：这个语句的作用是从查询结果中选择TABLE_NAM
2023-04-17|篮球女孩长一木
1小学抑或初中阶段，在课外书了解到她的故事。“篮球女孩”。当时佩服她的顽强，也对生命多了一丝敬畏。今天刚好在公众号看到，长大后的“篮球女孩”。佩服之余又满是心疼。网络侵删祝那素未蒙面的女孩，未来一切顺遂。
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
在一台Ubuntu计算机上构建Hyperledger Fabric网络落叶无声9 区块链超级账本 Hyperledger fabric 区块链 ubuntu 构建 hyperledger fabric
在一台Ubuntu计算机上构建HyperledgerFabric网络Hyperledgerfabric是一个开源的区块链应用程序平台，为开发基于区块链的应用程序提供了一个起点。当我们提到HyperledgerFabric网络时，我们指的是使用HyperledgerFabric的正在运行的系统。即使只使用最少数量的组件，部署Fabric网络也不是一件容易的事。Fabric社区创建了一个名为Cello
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
121. 买卖股票的最佳时机薄荷糖的味道_fb40
给定一个数组，它的第i个元素是一支给定股票第i天的价格。如果你最多只允许完成一笔交易（即买入和卖出一支股票），设计一个算法来计算你所能获取的最大利润。注意你不能在买入股票前卖出股票。示例1:输入:[7,1,5,3,6,4]输出:5解释:在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，最大利润=6-1=5。注意利润不能是7-1=6,因为卖出价格需要大于买入价格。示例2:输入:
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
MongoDB Oplog 窗口喝醉酒的小白 MongoDB 运维
在MongoDB中，oplog（操作日志）是一个特殊的日志系统，用于记录对数据库的所有写操作。oplog允许副本集成员（通常是从节点）应用主节点上已经执行的操作，从而保持数据的一致性。它是MongoDB副本集实现数据复制的基础。MongoDBOplog窗口oplog窗口是指在MongoDB副本集中，从节点可以用来同步数据的时间范围。这个窗口通常由以下因素决定：Oplog大小：oplog的大小是有限
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
【华为OD技术面试真题 - 技术面】-测试八股文真题题库（1）算法大师华为od 面试 python 算法前端
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.黑盒测试和白盒测试的区别2.假设我们公司现在开发一个类似于微信的软件1.0版本，现在要你测试这个功能：打开聊天窗口，输入文本，限制字数在200字以内。问你怎么提取测试点。功能测试性能测试安全性测试可用性测试跨平台兼容性测试网络环境测试3.接口测试的工具你了解哪些
数据仓库——维度表一致性墨染丶eye 背诵数据仓库
数据仓库基础笔记思维导图已经整理完毕，完整连接为：数据仓库基础知识笔记思维导图维度一致性问题从逻辑层面来看，当一系列星型模型共享一组公共维度时，所涉及的维度称为一致性维度。当维度表存在不一致时，短期的成功难以弥补长期的错误。维度时确保不同过程中信息集成起来实现横向钻取货活动的关键。造成横向钻取失败的原因维度结构的差别，因为维度的差别，分析工作涉及的领域从简单到复杂，但是都是通过复杂的报表来弥补设计
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
【PG】常见数据库、表属性设置江无羡数据库
PG的常见属性配置方法数据库复制、备份相关表的复制标识单表操作批量表操作链接数据库复制、备份相关表的复制标识单表操作通过ALTER语句单独更改一张表的复制标识。ALTERTABLE[tablename]REPLICAIDENTITYFULL;批量表操作通过代码块的方式，对某个schema中的所有表一起更新其复制标识。SELECTtablename,CASErelreplidentWHEN'd'TH
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
《在战“疫”中成长致敬生活》观后感梅子刘的刀
（作者：周晨）今天上午，我看了“我是接班人”网络大课堂《在战役中成长致敬生活》。有很多人拿出自己攒下的钱，默默地捐给了武汉，有几千块钱的、有几万块钱的，也有十几万块钱的。连小朋友也把自己的压岁钱捐给了武汉。有名环卫工人把自己五年的积蓄全部捐给了武汉。有名外卖小哥为医护人员买鞋子送吃的。还有已经治愈出院的新型肺炎病人捐了400毫升的血浆。还有位叫大树的叔叔，虽然他没有钱，但是他地里有蔬菜，捐了几大卡
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
k均值聚类算法考试例题_k均值算法(k均值聚类算法计算题) 寻找你83497 k均值聚类算法考试例题
?算法：第一步：选K个初始聚类中心，z1(1),z2(1)，…，zK(1)，其中括号内的序号为寻找聚类中心的迭代运算的次序号。聚类中心的向量值可任意设定，例如可选开始的K个.k均值聚类：---------一种硬聚类算法，隶属度只有两个取值0或1，提出的基本根据是“类内误差平方和最小化”准则；模糊的c均值聚类算法：--------一种模糊聚类算法，是.K均值聚类算法是先随机选取K个对象作为初始的聚类
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
中原焦点团队网络初中级30期阴丽丽坚持分享第三百八十八次2022.10.18分享约练次数（74）咨询师（6）来访者（53）观察者（15）阴丽丽
今天是忙碌的一天，一早起来，总想着找点把事情弄完，可总也弄不完。就这样弄着吧！孩子的事，自己的事都在那里搁置着，不想做，有点欧！今天总体还不错，只是在下午起床时走神了俩小时，也算是给自己的放松吧！今日难得1.儿子乖巧、听话，努力配合，一天下来也是忙忙碌碌，这真的很难得！2.儿子今天录的视频被班主任认可，这真的很难得3.我今天早上做核酸时，自己把教案整了一下，这真的很难得
桌面上有多个球在同时运动，怎么实现球之间不交叉，即碰撞？换个号韩国红果果 html 小球碰撞
稍微想了一下，然后解决了很多bug，最后终于把它实现了。其实原理很简单。在每改变一个小球的x y坐标后，遍历整个在dom树中的其他小球，看一下它们与当前小球的距离是否小于球半径的两倍？若小于说明下一次绘制该小球（设为a）前要把他的方向变为原来相反方向（与a要碰撞的小球设为b），即假如当前小球的距离小于球半径的两倍的话，马上改变当前小球方向。那么下一次绘制也是先绘制b，再绘制a，由于a的方向已经改变
《高性能HTML5》读后整理的Web性能优化内容白糖_ html5
读后感先说说《高性能HTML5》这本书的读后感吧，个人觉得这本书前两章跟书的标题完全搭不上关系，或者说只能算是讲解了“高性能”这三个字，HTML5完全不见踪影。个人觉得作者应该首先把HTML5的大菜拿出来讲一讲，再去分析性能优化的内容，这样才会有吸引力。因为只是在线试读，没有机会看后面的内容，所以不胡乱评价了。
[JShop]Spring MVC的RequestContextHolder使用误区 dinguangx jeeshop 商城系统 jshop 电商系统
在spring mvc中，为了随时都能取到当前请求的request对象，可以通过RequestContextHolder的静态方法getRequestAttributes()获取Request相关的变量，如request, response等。在jshop中，对RequestContextHolder的
算法之时间复杂度周凡杨 java 算法时间复杂度效率
在计算机科学中，算法的时间复杂度是一个函数，它定量描述了该算法的运行时间。这是一个关于代表算法输入值的字符串的长度的函数。时间复杂度常用大O符号表述，不包括这个函数的低阶项和首项系数。使用这种方式时，时间复杂度可被称为是渐近的，它考察当输入值大小趋近无穷时的情况。这样用大写O()来体现算法时间复杂度的记法，
Java事务处理 g21121 java
一、什么是Java事务通常的观念认为，事务仅与数据库相关。事务必须服从ISO/IEC所制定的ACID原则。ACID是原子性（atomicity）、一致性（consistency）、隔离性（isolation）和持久性（durability）的缩写。事务的原子性表示事务执行过程中的任何失败都将导致事务所做的任何修改失效。一致性表示当事务执行失败时，所有被该事务影响的数据都应该恢复到事务执行前的状
Linux awk命令详解 510888780 linux
一. AWK 说明 awk是一种编程语言，用于在linux/unix下对文本和数据进行处理。数据可以来自标准输入、一个或多个文件，或其它命令的输出。它支持用户自定义函数和动态正则表达式等先进功能，是linux/unix下的一个强大编程工具。它在命令行中使用，但更多是作为脚本来使用。 awk的处理文本和数据的方式：它逐行扫描文件，从第一行到
android permission 布衣凌宇 Permission
<uses-permission android:name="android.permission.ACCESS_CHECKIN_PROPERTIES" ></uses-permission>允许读写访问"properties"表在checkin数据库中，改值可以修改上传 <uses-permission android:na
Oracle和谷歌Java Android官司将推迟 aijuans java oracle
北京时间 10 月 7 日，据国外媒体报道，Oracle 和谷歌之间一场等待已久的官司可能会推迟至 10 月 17 日以后进行，这场官司的内容是 Android 操作系统所谓的 Java 专利权之争。本案法官 William Alsup 称根据专利权专家 Florian Mueller 的预测，谷歌 Oracle 案很可能会被推迟。　　该案中的第二波辩护被安排在 10 月 17 日出庭，从目前看来
linux shell 常用命令 antlove linux shell command
grep [options] [regex] [files] /var/root # grep -n "o" * hello.c:1:/* This C source can be compiled with:
Java解析XML配置数据库连接(DOM技术连接 SAX技术连接) 百合不是茶 sax技术 Java解析xml文档 dom技术 XML配置数据库连接
XML配置数据库文件的连接其实是个很简单的问题,为什么到现在才写出来主要是昨天在网上看了别人写的,然后一直陷入其中,最后发现不能自拔所以今天决定自己完成 ,,,,现将代码与思路贴出来供大家一起学习 XML配置数据库的连接主要技术点的博客; JDBC编程 : JDBC连接数据库 DOM解析XML: DOM解析XML文件 SA
underscore.js 学习（二） bijian1013 JavaScript underscore
Array Functions 所有数组函数对参数对象一样适用。1.first _.first(array, [n]) 别名: head, take 返回array的第一个元素，设置了参数n，就
plSql介绍 bijian1013 oracle 数据库 plsql
/* * PL/SQL 程序设计学习笔记 * 学习plSql介绍.pdf * 时间：2010-10-05 */ --创建DEPT表 create table DEPT ( DEPTNO NUMBER(10), DNAME NVARCHAR2(255), LOC NVARCHAR2(255) ) delete dept; select
【Nginx一】Nginx安装与总体介绍 bit1129 nginx
启动、停止、重新加载Nginx nginx 启动Nginx服务器，不需要任何参数u nginx -s stop 快速(强制)关系Nginx服务器 nginx -s quit 优雅的关闭Nginx服务器 nginx -s reload 重新加载Nginx服务器的配置文件 nginx -s reopen 重新打开Nginx日志文件
spring mvc开发中浏览器兼容的奇怪问题 bitray jquery Ajax springMVC 浏览器上传文件
最近个人开发一个小的OA项目,属于复习阶段.使用的技术主要是spring mvc作为前端框架,mybatis作为数据库持久化技术.前台使用jquery和一些jquery的插件. 在开发到中间阶段时候发现自己好像忽略了一个小问题,整个项目一直在firefox下测试,没有在IE下测试,不确定是否会出现兼容问题.由于jquer
Lua的io库函数列表 ronin47 lua io
1、io表调用方式：使用io表，io.open将返回指定文件的描述，并且所有的操作将围绕这个文件描述　　io表同样提供三种预定义的文件描述io.stdin,io.stdout,io.stderr 　　2、文件句柄直接调用方式,即使用file:XXX()函数方式进行操作,其中file为io.open()返回的文件句柄　　多数I/O函数调用失败时返回nil加错误信息,有些函数成功时返回nil
java-26-左旋转字符串 bylijinnan java
public class LeftRotateString { /** * Q 26 左旋转字符串 * 题目：定义字符串的左旋转操作：把字符串前面的若干个字符移动到字符串的尾部。 * 如把字符串abcdef左旋转2位得到字符串cdefab。 * 请实现字符串左旋转的函数。要求时间对长度为n的字符串操作的复杂度为O(n)，辅助内存为O(1)。 */ pu
《vi中的替换艺术》-linux命令五分钟系列之十一 cfyme linux命令
vi方面的内容不知道分类到哪里好，就放到《Linux命令五分钟系列》里吧！今天编程，关于栈的一个小例子，其间我需要把”S.”替换为”S->”(替换不包括双引号)。其实这个不难，不过我觉得应该总结一下vi里的替换技术了，以备以后查阅。 1 所有替换方案都要在冒号“:”状态下书写。 2 如果想将abc替换为xyz，那么就这样 :s/abc/xyz/ 不过要特别
[轨道与计算]新的并行计算架构 comsci 并行计算
我在进行流程引擎循环反馈试验的过程中，发现一个有趣的事情。。。如果我们在流程图的每个节点中嵌入一个双向循环代码段，而整个流程中又充满着很多并行路由，每个并行路由中又包含着一些并行节点，那么当整个流程图开始循环反馈过程的时候，这个流程图的运行过程是否变成一个并行计算的架构呢？
重复执行某段代码 dai_lm android
用handler就可以了 private Handler handler = new Handler(); private Runnable runnable = new Runnable() { public void run() { update(); handler.postDelayed(this, 5000); } }; 开始计时 h
Java实现堆栈（list实现） datageek 数据结构——堆栈
public interface IStack<T> { //元素出栈，并返回出栈元素 public T pop(); //元素入栈 public void push(T element); //获取栈顶元素 public T peek(); //判断栈是否为空 public boolean isEmpty
四大备份MySql数据库方法及可能遇到的问题 dcj3sjt126com DB backup
一：通过备份王等软件进行备份前台进不去？用备份王等软件进行备份是大多老站长的选择，这种方法方便快捷，只要上传备份软件到空间一步步操作就可以，但是许多刚接触备份王软件的客用户来说还原后会出现一个问题：因为新老空间数据库用户名和密码不统一，网站文件打包过来后因没有修改连接文件，还原数据库是好了，可是前台会提示数据库连接错误，网站从而出现打不开的情况。解决方法：学会修改网站配置文件，大多是由co
github做webhooks：[1]钩子触发是否成功测试 dcj3sjt126com github git webhook
转自: http://jingyan.baidu.com/article/5d6edee228c88899ebdeec47.html github和svn一样有钩子的功能，而且更加强大。例如我做的是最常见的push操作触发的钩子操作，则每次更新之后的钩子操作记录都会在github的控制板可以看到！工具/原料 github 方法/步骤
">的作用" target="_blank">JSP中的作用蕃薯耀
JSP中<base href="<%=basePath%>">的作用 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
linux下SAMBA服务安装与配置 hanqunfeng linux
局域网使用的文件共享服务。一.安装包： rpm -qa | grep samba samba-3.6.9-151.el6.x86_64 samba-common-3.6.9-151.el6.x86_64 samba-winbind-3.6.9-151.el6.x86_64 samba-client-3.6.9-151.el6.x86_64 samba-winbind-clients
guava cache IXHONG cache
缓存，在我们日常开发中是必不可少的一种解决性能问题的方法。简单的说，cache 就是为了提升系统性能而开辟的一块内存空间。　　缓存的主要作用是暂时在内存中保存业务系统的数据处理结果，并且等待下次访问使用。在日常开发的很多场合，由于受限于硬盘IO的性能或者我们自身业务系统的数据处理和获取可能非常费时，当我们发现我们的系统这个数据请求量很大的时候，频繁的IO和频繁的逻辑处理会导致硬盘和CPU资源的
Query的开始--全局变量,noconflict和兼容各种js的初始化方法 kvhur JavaScript jquery css
这个是整个jQuery代码的开始，里面包含了对不同环境的js进行的处理，例如普通环境，Nodejs，和requiredJs的处理方法。还有jQuery生成$, jQuery全局变量的代码和noConflict代码详解完整资源： http://www.gbtags.com/gb/share/5640.htm jQuery 源码： (
美国人的福利和中国人的储蓄 nannan408
今天看了篇文章，震动很大，说的是美国的福利。美国医院的无偿入院真的是个好措施。小小的改善，对于社会是大大的信心。小孩，税费等，政府不收反补，真的体现了人文主义。美国这么高的社会保障会不会使人变懒？答案是否定的。正因为政府解决了后顾之忧，人们才得以倾尽精力去做一些有创造力，更造福社会的事情，这竟成了美国社会思想、人
N阶行列式计算(JAVA) qiuwanchi N阶行列式计算
package gaodai; import java.util.List; /** * N阶行列式计算 * @author 邱万迟 * */ public class DeterminantCalculation { public DeterminantCalculation(List<List<Double>> determina
C语言算法之打渔晒网问题 qiufeihu c 算法
如果一个渔夫从2011年1月1日开始每三天打一次渔，两天晒一次网，编程实现当输入2011年1月1日以后任意一天，输出该渔夫是在打渔还是在晒网。代码如下： #include <stdio.h> int leap(int a) /*自定义函数leap()用来指定输入的年份是否为闰年*/ { if((a%4 == 0 && a%100 != 0
XML中DOCTYPE字段的解析 wyzuomumu xml
DTD声明始终以!DOCTYPE开头,空一格后跟着文档根元素的名称,如果是内部DTD,则再空一格出现[],在中括号中是文档类型定义的内容. 而对于外部DTD,则又分为私有DTD与公共DTD,私有DTD使用SYSTEM表示,接着是外部DTD的URL. 而公共DTD则使用PUBLIC,接着是DTD公共名称,接着是DTD的URL. 私有DTD <!DOCTYPErootSYST

数据挖掘：概念与技术

你可能感兴趣的:(数据库,数据分析,算法,数据挖掘,网络,数据仓库)