karshey

【数据挖掘】期末复习：ID3、DBSCAN、关联分析、离群点挖掘等

文章目录

- 小题
- - 一些要背
  - 计算
- 大题
- - 分类
  - ID3
  - C4.5
  - CART（Gini系数）
  - K近邻
  - ID3、C4.5、K近邻优缺点
  - 分类评价
  - 朴素贝叶斯
  - 聚类
  - K-means
  - DBSCAN
  - 一趟聚类算法
  - 层次聚类
  - 关联分析
  - 离群点挖掘（OF1、OF3）
- 简答
- 参考资料

小题

一些要背

数据挖掘的定义：
技术层面：数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中、人们事先不知道的、但又潜在有用的信息的过程。

商业层面：数据挖掘是一种新的商业信息处理技术，其主要特点是对商业业务数据进行抽取、转换、分析和其他模型化处理，从中提取辅助商业决策的关键性数据。

记法：
技术层面：从5的实际应用数据，提取3的信息。
商业层面：对业务数据进行4，从中…

区分分类和聚类：

以图搜图——聚类
人脸识别、垃圾邮件检测、扑克牌按花色分组——分类

计算

余弦相似度：两个向量相乘，再除以它们的模。

相关系数：标准化后的余弦相似度。相关系数越接近1或-1，则两特征相关性越强，越接近0，相关性越弱。

欧几里得距离：
$d=\sqrt{(p1_x-p2_x)^2+(p1_y-p2_y)^2}$

曼哈顿距离：
$d=|(p1_x-p2_x)|+|(p1_y-p2_y)|$

截断均值：
书p24.

指定0~100间的百分位数p，丢弃高端和低端（p/2）%的数据，然后用常规方法计算均值，所得结果即是截断均值。标准均值是对应于p=0%的截断均值。

例题：计算{1,2,3,4,5,90}值集的p=40%的截断均值。
答：3.5.

大题

分类

ID3

递归终止的条件：

第一步：计算总的信息量（标签）

第二步：选一个做根节点。

若选天气做根节点：

若选气温做根节点：

若选湿度作为节点：

若选风作为根节点：

选择信息增益gain最大的作为根节点。
因此我们这里选择天气作为根节点。

第三步：

计算天气为晴的时候的信息增益。
可知，当湿度为下一个节点时信息增益是最大的，所以中间的图是对的。

第四步：算天气为多云时的信息增益。
再往下看，我们发现，当天气为多云时，目标属性全都是一个值。则不需要再算信息增益了。

第五步：算天气为雨的信息增益。

最终的决策树：

可以这样画：属性是圆圈，标签是方框。

一个练习：
ps：
我们考试要把info写成Entropy（信息熵）；
数据集为S，属性为wind的划分，则其信息增益表示为Gain(S,wind)；

其实跟上面的例题是一样的，大概过程格式如下 ~~（字太丑了，将就看一下吧）~~ ：

C4.5

信息增益率=信息增益/分裂信息。

为什么要有信息增益率？
答：因为要兼顾为获得信息增益所付出的“代价”。

关于信息增益率怎么算：
如上表，若以temperature为划分，则共14个样本：4个hot、6个mild、4个cool。
则：

CART（Gini系数）

CART算法使用Gini系数来度量对某个属性变量测试输出的两组取值的差异性。理想的分组应该尽量使两组中样本输出变量取值的差异性总和达到最小，即“纯度”最大，也就是使两组输出变量取值的差异性下降最快，“纯度”增加最快。

如何计算基尼系数？

例1：

label1=5,
label2=5;

则：

p(1)=0.5;
p(2)=0.5;
Gini=1-p(1)*p(1)-p(2)*p(2)=0.5;

例2：

label1=8,
label2=2;

则：

p(1)=0.8;
p(2)=0.2;
Gini=1-p(1)*p(1)-p(2)*p(2)=0.32;

例3：

label1=0,
label2=1;

则：

p(1)=0;
p(2)=1;
Gini=1-p(1)*p(1)-p(2)*p(2)=0;

由上面3个例子可知，当Gini系数是0.5时，说明这个属性的分类处于一个非常混乱的状态，当Gini系数为0时，说明这个属性分类分的纯度很高。
如果一个属性的Gini系数都非常小，那么我们可以说这个属性是很好的区分类别的属性。
——所以我们可以通过基尼系数来选择属性。

基尼加权的计算：

有房的：3
没房的：7.

对于有房的，有3个人不拖欠，0个人拖欠。则Gini=1-1=0
对于没房的，有4个人不拖欠，3个人拖欠。则Gini=1-(3/7)x(3/7)-(4/7)x(4/7)=24/49

因此，加权基尼系数为：3/10 x 0+7/10 x 24/49 =12/35

关于基尼系数增益，看这里：决策树：什么是基尼系数（“杂质增益指数系数”辨析）

K近邻

ID3、C4.5、K近邻优缺点

分类评价

分类准确率
计算复杂性
可解释性
可伸缩性
稳定性
强壮性

朴素贝叶斯

朴素贝叶斯为什么朴素？
因为它假设样本特征彼此独立，没有相关关系。而这在现实中不存在。

怎么用它分类——看这个，瞬间会了：【决策树算法4】朴素贝叶斯算法数据挖掘期末考试计算题详细步骤讲解

聚类

K-means

书p112

快速理解：

步骤：

流程：
k-means算法基本步骤

从数据中选择k个对象作为初始聚类中心;
计算每个聚类对象到聚类中心的距离来划分；
再次计算每个聚类中心
计算标准测度函数，之道达到最大迭代次数，则停止，否则，继续操作。

例子：

k-means算法的优缺点：
优点为算法描述容易、实现简单、快速。
缺点如下：
(1)簇的个数k难以确定；
(2)聚类结果 对初始簇中心的选择较敏感；
(3)对噪音和异常数据敏感；
(4)不能用于发现非凸形状的簇，或具有各种不同大小的簇。

DBSCAN

书p127-130

一个非常直观的DBSCAN算法演示：DBSCAN聚类动画演示

相关概念：

核心点：半径为r的邻域内，包含数据点的个数不小于某个阈值。
边界点：属于某一个簇的非核心点。
离群点：不属于任何一个类的点。

例题：

解：

DBSCAN算法的优点:**可以识别具有任意形状和不同大小的簇，自动确定簇的数目，分离簇和环境噪声，一次扫描数据即可完成聚类。**如果使用空间索引，DBSCAN 的计算复杂度是O(N log N)，否则计算复杂度是O(N²)。

一趟聚类算法

书p138-140.
优缺点：
省流：
优点：近似线性时间复杂度；高效，参数选择简单，对噪声不敏感。
缺点：不能用于发现非凸形状的簇，或具有各种不同大小的簇；对数据样本的顺序比较敏感

不省流：
一趟聚类算法具有近似线性时间复杂度，类似于 k-means算法，其本质上是将数据划分为大小几乎相同的超球体，不能用于发现非凸形状的簇，或具有各种不同大小的簇。

对于具有任意形状簇的数据集，算法可能将一个大的自然簇划分成几个小的簇，而难以得到理想的聚类结果。与k-means 算法不同，一趟聚类算法对数据样本的顺序比较敏感，通过聚类阈值的改变来影响聚类得到的簇个数。大规模数据集的聚类可以采用类似 BIRCH算法的两阶段聚类思想，结合一趟聚类算法的高效性及其他可识别任意形状簇的聚类算法的优点得到混合聚类算法。如选取较小的阈值，利用一趟聚类算法产生初始聚类，将得到的簇作为整体看成对象，再利用DBSCAN、Chameleon、SNN 等可以识别任意形状数据的算法进行聚类，可以得到很好的效果。

层次聚类

书p121.

层次聚类方法可分为自顶向下和自下而上两种。

自下而上聚合层次聚类方法(或凝聚层次聚类)。这种自下而上策略就是最初将每个对象(自身）作为一个簇，然后将这些簇进行聚合以构造越来越大的簇，直到所有对象均聚合为一个簇，或满足一定终止条件为止。绝大多数层次聚类方法属于这一类，只是簇间相似度的定义有所不同。

自顶向下分解层次聚类方法(或分裂层次聚类)。这种方法的策略与自下而上的凝聚层次聚类方法相反。它首先将所有对象置于同一个簇，然后将其不断分解，而得到规模越来越小但个数越来越多的小簇，直到所有对象均独自构成一个簇，或满足一定终止条件为止。

关联分析

例题如下：

{A}的支持度：{A}出现的次数除以事务个数（这里是10）。

求最大频繁项目集

L3是不存在的，所以L2{AC}{DE}，L1{A}{B}{C}{D}{E}{F}
最大频繁项目集：{AC}{DE}{B}{F}

{B}{F}怎么来的：L1中的不能出现在L2中，L2中的不能出现在L3中的频繁项集也是最大频繁项目集。

注意：
书p155说，对于频繁2项集，如果第一项相同，则合并组合生成候选3项集。 所以这里{AC}{DE}是没法合并成候选3项集的。

找出所有的强关联规则

强关联规则：同时满足最小支持度和置信度。
我们在第一问中已经找出频繁项目集了，所以只需要在频繁项目集中找出置信度>=60%的就可以了。

置信度：P(A->C)即A发生的情况下C也发生，即P(AC)/P(A)。

Apriori算法利用以上性质，逐层生成关联规则。先产生后件只包含一项的关联规则，然后两两合并这些关联规则的后件，生成后件包含两项的候选关联规则，从这些候选关联规则中再找出强关联规则，以此类推。
例如，{a b c d}是频繁项集，如果{a c d}→{(b}和{a b d}→{c}是两个高置信度的规则，则通过合并这两个规则的后件{b c}，候选规则的前件为{a b c d)-{b c}={a d}，得到候选规则{a d}→{b c}。

离群点挖掘（OF1、OF3）

合理的异常点是允许存在的。
x的k-近邻的集(x,k)包含的对象可能超过k。

OF1
概念：

例题：

步骤：
k=2，则选对P1、P2来说最近的两个点（如果有距离一样的，那都算上），算它们的距离。
比较它们的平均值哪个大，大的是离群点（毕竟大的更远）。

OF3
问P1、P2哪个点是离群点。
已知有三个簇，要算这三个簇的质心。
计算点到质心的欧式距离。
OF3是其加权后的距离长度——如一共有N个点，这个簇有n个点，则这个簇的距离就是 P点到质心的欧式距离 x n/N（详情看解答，一看就懂）。
OF3值大的是离群点，因为距离远。

解答：

故P1是离群点。

后面这个了解一下：

简答

评估分类模型准确率的方法包括：保持、随即子抽样、交叉验证和自助法等。

关联规则挖掘算法可分为两个步骤：

产生频繁项集：发现满足最小支持度阈值的所有项集、即频繁项集
产生规则：从上一步发现的频繁项集中提取大于置信度阈值的规则，即强规则。

聚类算法：

K-means 基于划分
DBSCAN 基于密度

K-means算法的流程：

随机选择k个对象，每个对象代表一个簇的初始均值或中心
对剩余的每个对象，根据其与各簇中心的距离，将它指派到最近的簇，然后计算每个簇的新均值，得到更新后的簇中心
不断重复，直到准则函数收敛

参考资料

《数据挖掘原理与实践》-电子工业出版社
师兄师姐留的提纲
评定数据之间的相似度指标----距离
【决策树算法1】ID3算法数据挖掘期末考试计算题详细步骤讲解
【数据挖掘】决策树零基础入门教程，手把手教你学决策树！
机器学习：信息熵，基尼系数，条件熵，条件基尼系数，信息增益，信息增益比，基尼增益，决策树代码实现（一）
Apriori算法原理
期末数据挖掘关联规则的apriori 算法计算大题
一个非常直观的DBSCAN算法演示：DBSCAN聚类动画演示
【帅器学习/星辰】DBSCAN算法
【10分钟算法】K均值聚类算法-带例子/K-Means Clustering Algorithm
【期末划重点】数据挖掘
什么是KNN（K近邻算法）？【知多少】
【决策树算法4】朴素贝叶斯算法数据挖掘期末考试计算题详细步骤讲解

你可能感兴趣的:(学校专业课,数据挖掘,聚类)

高斯混合模型GMM&K均值（十三-1）——K均值是高斯混合模型的特例 phoenix@Capricornus 模式识别与机器学习均值算法机器学习算法
EM算法与K均值算法的关系K均值可以看成是高斯混合模型的特例。对K均值算法与EM算法进行比较后，可以发现它们之间有很大的相似性。K均值算法将数据点硬（hard）分配到聚类中，每个数据点唯一地与一个聚类相关联，而EM算法基于后验概率进行软（soft）分配。事实上，可以从EM算法推导出K均值算法。考虑一个高斯混合模型，其中混合分量的协方差矩阵由σ2I{\sigma^2}Iσ2I给出，其中σ2{\sig
《Python数据分析与挖掘实战》Chapter8中医证型关联规则挖掘笔记茫茫大地真干净机器学习 Python 数据挖掘
最近在学习《Python数据分析与挖掘实战》中的案例，写写自己的心得。代码分为两大部分：1.读取数据并进行聚类分析2.应用Apriori关联规则挖掘规律1.聚类部分函数分析：defprogrammer_1():datafile="C:/Users/longming/Desktop/chapter8/data/data.xls"processedfile="C:/Users/longming/Des
【机器学习与数据挖掘实战 | 医疗】案例18：基于Apriori算法的中医证型关联规则分析 Francek Chen 机器学习与数据挖掘实战机器学习数据挖掘 Apriori python 关联规则人工智能
【作者主页】FrancekChen【专栏介绍】⌈⌈⌈机器学习与数据挖掘实战⌋⌋⌋机器学习是人工智能的一个分支，专注于让计算机系统通过数据学习和改进。它利用统计和计算方法，使模型能够从数据中自动提取特征并做出预测或决策。数据挖掘则是从大型数据集中发现模式、关联和异常的过程，旨在提取有价值的信息和知识。机器学习为数据挖掘提供了强大的分析工具，而数据挖掘则是机器学习应用的重要领域，两者相辅相成，共同推动
聊聊 SQL 注入那些事儿白露与泡影 sql 数据库
相信大家对于学校们糟糕的网络环境和运维手段都早有体会，在此就不多做吐槽了。今天我们来聊一聊SQL注入相关的内容。何谓SQL注入？SQL注入是一种非常常见的数据库攻击手段，SQL注入漏洞也是网络世界中最普遍的漏洞之一。大家也许都听过某某学长通过攻击学校数据库修改自己成绩的事情，这些学长们一般用的就是SQL注入方法。SQL注入其实就是恶意用户通过在表单中填写包含SQL关键字的数据来使数据库执行非常规代
顺序内聚是指模块内的处理元素密切相关，并且必须按照特定的顺序执行，前一个处理元素的输出是下一个处理元素的输入 Bol5261 JVM(Java Virtual Machine)JMM(Java Memory Model)JMS(Java Message Service)服务器
该模块的内聚类型为顺序内聚。顺序内聚是指模块内的处理元素密切相关，并且必须按照特定的顺序执行，前一个处理元素的输出是下一个处理元素的输入。这种内聚类型比功能内聚稍弱，但仍然具有较高的内聚性。根据模块内聚的分类标准，当模块中各个处理元素密切相关于同一功能，且必须顺序执行，前一处理元素的输出直接作为下一处理元素的输入时，这种内聚类型属于顺序内聚（SequentialCohesion）。模块内聚类型对比
【社招】一年测开经验转后端开发经历。、烟雨楼算法 phtyon 面试大数据 python 开发语言 xml rpc
背景先说下背景吧，我是2019年毕业的本科生，985非科班，而且是和计算机专业八杆子打不着的那种非科班。大二的时候打球认识了我们学校一个计算机专业的学生，听他说互联网现在薪资好高，写代码特别有意思，于是开始跟着他学了一些写代码的知识。我之所以说是“写代码的知识”而不是计算机知识，是因为我当时是直接上手学JavaWeb那一套东西，什么数据结构、操作系统、计算机网、数据库完全没看直接就开始搞“xxx管
学生成绩信息管理系统的设计与实现(论文+源码)_kaic 开心工作室计算机文章毕业设计 java 开发语言 spring boot perl 后端 batch swift
摘要近年来，随着国内的高考改革和教育信息化的发展，为了提高学生成绩管理效率和准确性，本文设计并实现了一种学生成绩管理系统，在研究中发现对于学校在管理学生成绩信息的效率上显著提升。现代教育管理中，学生成绩管理系统是必不可少的工具之一。首先，通过对相关文献的综合评估和需求分析，得出了一些适合用户的功能模块，这些模块被认为是最为合适的。采用面向对象的设计方法，选择了具备面向对象特性的Java语言，并使用
Github/Copilot 学生认证详细步骤 nomoremorphine github copilot
Github学生认证详细步骤文章目录Github学生认证详细步骤1、注册github2、完善profile3、双重认证two-factorauthentication（必须）4、完善支付信息billingandplans5、学生认证5.1学信网获取学籍验证信息5.2通过翻译软件将学籍信息照片翻译为英文5.3使用手机拍照学籍信息照片(无法上传相册)6、确认完成认证1、注册github非学校邮箱注册的
（提升职业竞争力）设计师的“隐藏菜单”：5个Adobe冷门技巧，重塑你的工作流 top_designer adobe 数据库前端 photoshop illustrator InDesign
最近有幸深度体验了奥地利BlueskyyNationalAcademyofArts提供的Adobe正版教育订阅，感触颇深，这里和大家分享一些心得，或许能带来些新启发。关于Firefly：这应该是我接触过的最慷慨的版本，直接给了1500点创成式积分，创作自由度相当高。设备数量：最多支持4台设备激活。坦白说，我个人并没有那么多设备来测试（毕竟预算有限）。订阅透明度：这是我最欣赏的一点。学校的IT服务网
Prompt Engineering终极手册：构建高效AI提示词库的完整技术路线 LCG元大模型 prompt 人工智能
目录一、提示词库构建核心架构二、关键技术实现步骤1.数据采集与清洗2.提示词向量化编码3.聚类分析与分类存储三、API服务化部署四、性能优化方案五、监控与持续优化六、应用效果展示本文将深入探讨构建企业级AI提示词库的完整技术方案，含数据处理、模型训练、部署监控全流程代码实现在AI应用爆炸式增长的今天，提示词质量直接决定模型输出效果。本文将手把手教你构建企业级提示词库，涵盖以下核心技术环节：一、提示
Python web框架FastAPI——一个比Flask和Tornada更高性能的API 框架 Python进阶者中间件 python web http docker
点击上方“Python爬虫与数据挖掘”，进行关注回复“书籍”即可获赠Python从入门到进阶共10本电子书今日鸡汤借问酒家何处有，牧童遥指杏花村。0前言前几天给大家分别分享了（入门篇）简析Pythonweb框架FastAPI——一个比Flask和Tornada更高性能的API框架和（进阶篇）Pythonweb框架FastAPI——一个比Flask和Tornada更高性能的API框架。今天欢迎大家来
【PyCharm 使用技巧】PyCharm 基本功能详解 || 【Jupyter Notebook】如何进入其它盘，如D盘？H盘？|| 【机器学习】聚类算法详解及其应用 || 道路交通流量模拟预测追光者♂ Python从入门到人工智能工具技巧解决办法百题千解计划(项目实战案例）PyCharm使用技巧 Jupyter如何进入其它盘聚类算法练习 PyCharm详解时空交通流预测模拟
作者主页：追光者♂个人简介：在读计算机专业硕士研究生、CSDN-人工智能领域新星创作者、2022年CSDN博客之星人工智能领域TOP4、阿里云社区专家博主【无限进步，一起追光！】欢迎点赞收藏⭐留言本篇的目录一，是请看目录四——PyCharm基础设置回顾的续篇，继续记录讲解PyCharm的基本功能。目录二回顾了在使用Jupyter时的问题。目录三练习了机器学习算法中的聚类算法。目录一、再次了解PyC
【Python报错】成功解决error: subprocess-exited-with-error：安装lxml模块不再报错云天徽上 python运行报错解决记录 python 开发语言 lxml
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
k近邻算法(kNearest Neighbors) 原理与代码实例讲解 AI大模型应用实战 java python javascript kotlin golang 架构人工智能
k-近邻算法,聚类,分类,分离散数据,决策边界,邻域,机器学习,监督学习k-近邻算法(k-NearestNeighbors)-原理与代码实例讲解k-近邻算法（k-NearestNeighbors，简称kNN）是一种简单的监督学习方法，它在机器学习领域有着广泛的应用。kNN算法的核心思想是：在特征空间中，如果一个样本附近的k个最近邻样本的大多数属于某个类别，则该样本也属于这个类别。这种基于局部决策的
小孩子爱玩手机学计算机编程好吗,学习编程教育对孩子的哪些重要意义 weixin_39557419 小孩子爱玩手机学计算机编程好吗
目前，国内外对科技教育的重视是编程教育趋热的重要动因。在国外，创客教育及STEAM已成为其素质教育的核心，编程、3D打印、机器人等新技术也已走进了的中小学校。甚至，连美国前总统奥巴马也曾参与“编程一小时”，呼吁美国小朋友“别总在手机上玩，要去编程”。从智力开发上来说，学编程不意味着将来要从事计算机开发工作，通过学习编程能够开拓孩子的逻辑能力、思维的缜密性、提高创造力，编程好的孩子对别的学科(比如数
大冰直播聊天个人总结---人生选择/自我成长/挫折抗压 runafterhit 程序生涯类程序人生
大冰（本名焉冰）作为作家、主持人兼跨界创业者，其直播间的对话以“江湖气”“真实感”和“反鸡汤”风格著称。我并没有看过他的书籍，偶然间刷到直播切片，和形形色色的人交流过程内容非常丰富。出于个人归纳，认为对自己有感触的就整理起来。文章目录一、人生选择1.人生目标先照顾好自己---有饭吃，吃饱饭，吃好饭，再考虑其他2.必须完成学校教育---培养基础素质，构建未来可能性，有机会吃饱饭3.主动拥抱社会教育-
23种设计模式--简单工厂模式理解版山海上的风 Java 简单工厂模式 java 开发语言
简单工厂模式先举个例子P：生产者（接口）S：工厂P的实现类：ABCDEFGP：母亲S：学校P的孩子：ABCDEFG对一个接口P(母亲），一开始就两个实现类（孩子）A、B，然后用工场（学校）S来管理A、B然后呢？S管理十分有好处了（方便管理），比如P多生了几个孩子D、E、F，P（母亲）然后用工厂（学校）S统一管理哈哈哈、博主想的这个例子太好了然后接口P说：我生了ABCDEF,我要用场子S里的东西，比
算法思想之广度优先搜索（BFS）及示例（亲子游戏）墨鸦_Cormorant 算法算法宽度优先游戏
广度优先搜索广度优先算法，又称广度优先搜索算法，是最简便的图的算法之一，其特点是：在扫描数据空间时，每个点以最短路径生成广度优先生成树。广度优先搜索这种算法遍历整个图的所有节点并记录，直至找到所需结果为止，是一种盲目算法，但它还有一个非常重要的特性一最佳解，即当所有的边长相等，它就是最佳解，若在距离聚类算法中，应用广度优先搜索此特性去搜寻数据对象的同类，则可以有效地提高聚类速度。此外，可以把网格单
职业本科人工智能通识课程教学解决方案武汉唯众智创人工智能人工智能通识人工智能通识课程职业本科
一、发展背景与定位随着人工智能技术加速渗透社会各领域，我国高等教育体系正积极探索人工智能通识教育的创新路径。2018年教育部《高等学校人工智能创新行动计划》明确提出构建多层次AI教育体系的战略目标，在此背景下，职业本科教育作为高等教育特色类型，肩负着培养兼具技术应用能力与行业适应性的复合型人才使命。相较于普通本科侧重理论深度、职业专科聚焦单一技能，职业本科通识教育需构建"技术赋能+跨域融合"的独特
邮科ODM摄像头筑牢校园安全防线邮科摄像头定制人工智能网络安全
数字化时代，校园安全备受关注，如何通过技术手段实现精准防控、智能预警与高效管理，成为学校现代化建设的关键问题。邮科公司依托ODM领域积累，推出校园定制摄像头解决方案，以“硬件+软件+服务”一体化模式，为智慧校园安全体系赋能。一、需求洞察：传统校园监控系统存在设备兼容性差、功能单一、扩展性不足等问题。邮科方案深入调研校园核心场景，针对师生行为管理、异常预警等需求，打造定制化方案。二、技术赋能：场景化
2023年山东春季高考志愿填报 So1ok5 山东春季高考高考志愿填报高考
以下均为个人见解，如有不足之处，还望大家给予指正。目录一、2023年春季高考志愿填报改革变化举个例子2022年春考录取规则2023年春考录取规则总结二、春季高考志愿填报规则不理解平行志愿投档规则，一定选不好志愿分数优先遵循志愿一次投档三、春季高考本科批填报原则本科批填报专科批填报四、预测分数线一、2023年春季高考志愿填报改革变化2022年春季高考填报规则是考生可以选择20个学校，每个学校4个专业
揭秘互联网大数据求职面试：从Zookeeper到数据挖掘小葛呀大数据面试宝典互联网大数据 Zookeeper Yarn Redis Kafka HDFS
场景：互联网大数据求职者面试角色介绍：面试官老黑:严肃而专业，技术深入，擅长引导候选人展示自己。程序员小白:搞笑且略显紧张，对基础问题能应付自如，但面对复杂问题时经常词穷。第一轮提问：老黑:"小白，你对Zookeeper的理解是什么？它在分布式系统中扮演什么角色？"小白:"Zookeeper...是个协调者，负责管理配置和同步数据...就像一个团队的协调员，确保每个节点都知道该做什么。"老黑:"没
在大数据求职面试中如何回答分布式协调与数据挖掘问题
在大数据求职面试中如何回答分布式协调与数据挖掘问题场景：小白的大数据求职面试小白是一名初出茅庐的程序员，今天他来到一家知名互联网公司的面试现场，面试官是经验丰富的老黑。以下是他们之间的对话：第一轮提问：分布式与数据采集老黑：小白，你对Zookeeper有了解吗？小白：当然，Zookeeper是一个分布式协调服务，主要用于分布式应用程序中的同步服务、命名服务和配置管理。老黑：不错，你能说说Flume
一句话介绍计算机科学与技术,一句话让你秒懂大学专业——计算机类山语经一句话介绍计算机科学与技术
原标题：一句话让你秒懂大学专业——计算机类过年回家，不少刚上大学的童鞋都遇到了亲戚朋友对自己大学专业的误读，整出了很多让人哭笑不得的闹剧来。那么，对于高三党们，是不是对不少专业也不是特别清楚呢？今天从计算机类专业开始用一句话来给考生们解读一下现今比较热门的专业吧。【网络工程学】偏计算机实践的专业，专业课程主要有网络、软件课程设计、硬件课程设计、VISUALC++课程设计等课程。基础课程会学习各种数
读书清单-《思考致富》拿破仑·希尔 zhangxiaomeng_01
《思考致富》拿破仑·希尔36个笔记序言与查尔斯·M·施瓦布以及和施瓦布同类型的其他年轻人共处的经历，使卡内基先生相信：学校教的知识对于谋求生计或挣大钱并不完全管用。之所以得出这一结论，是因为他接连考察了许多年轻人，这些人有许多几乎没受过什么在校教育，但是，通过指导他们运用这个公式，希尔为这些年轻人培养了罕见的领导品质。此外，他的指点也使每个接受指点者发了财。第一章思想的力量(激发潜能的动力之源)当
DAY 17 常见聚类算法 yizhimie37 python训练营打卡笔记机器学习
@浙大疏锦行https://blog.csdn.net/weixin_45655710day17笔记全流程（可点开下载）#导入必要的库importpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspltimportseabornassnsimportwarnings#忽略警告信息，使输出更整洁warnings.filterwarnings("ign
另类数据挖掘：如何用网络搜索数据预测上市公司业绩？量化价值投资入门到精通数据挖掘人工智能 ai
另类数据挖掘：如何用网络搜索数据预测上市公司业绩？关键词：另类数据、网络搜索数据、业绩预测、文本挖掘、机器学习、量化投资、自然语言处理摘要：本文探讨了如何利用网络搜索数据这一另类数据源来预测上市公司业绩。我们将从理论基础出发，详细分析搜索数据与公司业绩之间的关联机制，介绍完整的数据采集、处理和分析流程，并通过实际案例展示如何构建预测模型。文章还将讨论该方法的局限性、实际应用场景以及未来发展方向，为
解锁数据宝藏：数据挖掘之数据预处理全解析奔跑吧邓邓子必备核心技能数据挖掘数据预处理机器学习
目录一、引言：数据预处理——数据挖掘的基石二、数据预处理的重要性2.1现实数据的问题剖析2.2数据预处理的关键作用三、数据预处理的核心方法3.1数据清洗3.1.1缺失值处理3.1.2离群点处理3.1.3噪声处理3.2数据集成3.2.1实体识别3.2.2冗余处理3.2.3数据值冲突处理3.3数据变换3.3.1平滑处理3.3.2聚合操作3.3.3离散化3.3.4归一化四、数据预处理的实践流程4.1数据
数据挖掘助力AI人工智能提升竞争力 AI大模型应用工坊人工智能数据挖掘 ai
数据挖掘助力AI人工智能提升竞争力关键词：数据挖掘、AI人工智能、竞争力提升、数据处理、算法应用摘要：本文深入探讨了数据挖掘如何助力AI人工智能提升竞争力。首先介绍了数据挖掘与AI的背景知识，包括目的、预期读者、文档结构和相关术语。接着阐述了数据挖掘和AI的核心概念及联系，详细讲解了核心算法原理和具体操作步骤，并辅以Python代码。随后分析了相关的数学模型和公式，通过具体例子加深理解。在项目实战
【人工智能-练习】三个案例搞明白机器学习中的三大任务：分类、回归、聚类若北辰人工智能分类回归
文章目录一、分类任务结果代码解释导入必要的库配置字体生成模拟数据集拆分数据集数据标准化逻辑回归分类器预测并计算准确率绘制分类效果定义决策边界绘制函数绘制训练集和测试集的分类效果二、回归结果代码解释1.导入库2.设置Matplotlib的字体3.生成模拟数据集4.将数据集划分为训练集和测试集5.数据标准化6.定义线性回归模型7.预测8.计算均方误差(MSE)9.绘制回归预测效果图训练集上的预测效果测
LeetCode[位运算] - #137 Single Number II Cwind java Algorithm LeetCode 题解位运算
原题链接：#137 Single Number II 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现三次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：与#136类似，都是考察位运算。不过出现两次的可以使用异或运算的特性 n XOR n = 0, n XOR 0 = n，即某一
《JavaScript语言精粹》笔记 aijuans JavaScript
0、JavaScript的简单数据类型包括数字、字符创、布尔值（true/false）、null和undefined值，其它值都是对象。 1、JavaScript只有一个数字类型，它在内部被表示为64位的浮点数。没有分离出整数，所以1和1.0的值相同。 2、NaN是一个数值，表示一个不能产生正常结果的运算结果。NaN不等于任何值，包括它本身。可以用函数isNaN(number)检测NaN,但是
你应该更新的Java知识之常用程序库 Kai_Ge java
在很多人眼中，Java 已经是一门垂垂老矣的语言，但并不妨碍 Java 世界依然在前进。如果你曾离开 Java，云游于其它世界，或是每日只在遗留代码中挣扎，或许是时候抬起头，看看老 Java 中的新东西。 Guava Guava[gwɑ:və]，一句话，只要你做Java项目，就应该用Guava（Github）。 guava 是 Google 出品的一套 Java 核心库，在我看来，它甚至应该
HttpClient 120153216 httpclient
/** * 可以传对象的请求转发，对象已流形式放入HTTP中 */ public static Object doPost(Map<String,Object> parmMap,String url) { Object object = null; HttpClient hc = new HttpClient(); String fullURL
Django model字段类型清单 2002wmj django
Django 通过 models 实现数据库的创建、修改、删除等操作，本文为模型中一般常用的类型的清单，便于查询和使用： AutoField：一个自动递增的整型字段，添加记录时它会自动增长。你通常不需要直接使用这个字段；如果你不指定主键的话，系统会自动添加一个主键字段到你的model。(参阅自动主键字段) BooleanField：布尔字段,管理工具里会自动将其描述为checkbox。 Cha
在SQLSERVER中查找消耗CPU最多的SQL 357029540 SQL Server
返回消耗CPU数目最多的10条语句 SELECT TOP 10 total_worker_time/execution_count AS avg_cpu_cost, plan_handle, execution_count, (SELECT SUBSTRING(text, statement_start_of
Myeclipse项目无法部署，Undefined exploded archive location 7454103 eclipse MyEclipse
做个备忘！错误信息为： Undefined exploded archive location 原因：在工程转移过程中，导致工程的配置文件出错；解决方法：
GMT时间格式转换 adminjun GMT 时间转换
普通的时间转换问题我这里就不再罗嗦了，我想大家应该都会那种低级的转换问题吧，现在我向大家总结一下如何转换GMT时间格式，这种格式的转换方法网上还不是很多，所以有必要总结一下，也算给有需要的朋友一个小小的帮助啦。 1、可以使用 SimpleDateFormat SimpleDateFormat EEE-三位星期 d-天 MMM-月 yyyy-四位年
Oracle数据库新装连接串问题 aijuans oracle数据库
割接新装了数据库，客户端登陆无问题，apache/cgi-bin程序有问题，sqlnet.log日志如下： Fatal NI connect error 12170. VERSION INFORMATION: TNS for Linux: Version 10.2.0.4.0 - Product
回顾java数组复制 ayaoxinchao java 数组
在写这篇文章之前，也看了一些别人写的，基本上都是大同小异。文章是对java数组复制基础知识的回顾，算是作为学习笔记，供以后自己翻阅。首先，简单想一下这个问题：为什么要复制数组？我的个人理解：在我们在利用一个数组时，在每一次使用，我们都希望它的值是初始值。这时我们就要对数组进行复制，以达到原始数组值的安全性。java数组复制大致分为3种方式：①for循环方式 ②clone方式 ③arrayCopy方
java web会话监听并使用spring注入 bewithme Java Web
在java web应用中，当你想在建立会话或移除会话时，让系统做某些事情，比如说，统计在线用户，每当有用户登录时，或退出时，那么可以用下面这个监听器来监听。 import java.util.ArrayList; import java.ut
NoSQL数据库之Redis数据库管理(Redis的常用命令及高级应用) bijian1013 redis 数据库 NoSQL
一 .Redis常用命令 Redis提供了丰富的命令对数据库和各种数据库类型进行操作，这些命令可以在Linux终端使用。 a.键值相关命令 b.服务器相关命令 1.键值相关命令 &
java枚举序列化问题 bingyingao java 枚举序列化
对象在网络中传输离不开序列化和反序列化。而如果序列化的对象中有枚举值就要特别注意一些发布兼容问题: 1.加一个枚举值新机器代码读分布式缓存中老对象，没有问题，不会抛异常。老机器代码读分布式缓存中新对像，反序列化会中断，所以在所有机器发布完成之前要避免出现新对象，或者提前让老机器拥有新增枚举的jar。 2.删一个枚举值新机器代码读分布式缓存中老对象，反序列
【Spark七十八】Spark Kyro序列化 bit1129 spark
当使用SparkContext的saveAsObjectFile方法将对象序列化到文件，以及通过objectFile方法将对象从文件反序列出来的时候，Spark默认使用Java的序列化以及反序列化机制，通常情况下，这种序列化机制是很低效的，Spark支持使用Kyro作为对象的序列化和反序列化机制，序列化的速度比java更快，但是使用Kyro时要注意，Kyro目前还是有些bug。 Spark
Hybridizing OO and Functional Design bookjovi erlang haskell
推荐博文： Tell Above, and Ask Below - Hybridizing OO and Functional Design 文章中把OO和FP讲的深入透彻，里面把smalltalk和haskell作为典型的两种编程范式代表语言，此点本人极为同意，smalltalk可以说是最能体现OO设计的面向对象语言，smalltalk的作者Alan kay也是OO的最早先驱，
Java-Collections Framework学习与总结-HashMap BrokenDreams Collections
开发中常常会用到这样一种数据结构，根据一个关键字，找到所需的信息。这个过程有点像查字典，拿到一个key，去字典表中查找对应的value。Java1.0版本提供了这样的类java.util.Dictionary(抽象类)，基本上支持字典表的操作。后来引入了Map接口，更好的描述的这种数据结构。 &nb
读《研磨设计模式》-代码笔记-职责链模式-Chain Of Responsibility bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 业务逻辑：项目经理只能处理500以下的费用申请，部门经理是1000，总经理不设限。简单起见，只同意“Tom”的申请 * bylijinnan */ abstract class Handler { /*
Android中启动外部程序 cherishLC android
1、启动外部程序引用自： http://blog.csdn.net/linxcool/article/details/7692374 //方法一 Intent intent=new Intent(); //包名包名+类名（全路径） intent.setClassName("com.linxcool", "com.linxcool.PlaneActi
summary_keep_rate coollyj SUM
BEGIN /*DECLARE minDate varchar(20) ; DECLARE maxDate varchar(20) ;*/ DECLARE stkDate varchar(20) ; DECLARE done int default -1; /* 游标中注册服务器地址 */ DE
hadoop hdfs 添加数据目录出错 daizj hadoop hdfs 扩容
由于原来配置的hadoop data目录快要用满了，故准备修改配置文件增加数据目录，以便扩容，但由于疏忽，把core-site.xml, hdfs-site.xml配置文件dfs.datanode.data.dir 配置项增加了配置目录，但未创建实际目录，重启datanode服务时，报如下错误： 2014-11-18 08:51:39,128 WARN org.apache.hadoop.h
grep 目录级联查找 dongwei_6688 grep
在Mac或者Linux下使用grep进行文件内容查找时，如果给定的目标搜索路径是当前目录，那么它默认只搜索当前目录下的文件，而不会搜索其下面子目录中的文件内容，如果想级联搜索下级目录，需要使用一个“-r”参数： grep -n -r "GET" . 上面的命令将会找出当前目录“.”及当前目录中所有下级目录
yii 修改模块使用的布局文件 dcj3sjt126com yii layouts
方法一：yii模块默认使用系统当前的主题布局文件，如果在主配置文件中配置了主题比如: 'theme'=>'mythm', 那么yii的模块就使用 protected/themes/mythm/views/layouts 下的布局文件；如果未配置主题，那么 yii的模块就使用 protected/views/layouts 下的布局文件，总之默认不是使用自身目录 pr
设计模式之单例模式 come_for_dream 设计模式单例模式懒汉式饿汉式双重检验锁失败无序写入
今天该来的面试还没来，这个店估计不会来电话了，安静下来写写博客也不错，没事翻了翻小易哥的博客甚至与大牛们之间的差距，基础知识不扎实建起来的楼再高也只能是危楼罢了，陈下心回归基础把以前学过的东西总结一下。 *********************************
8、数组豆豆咖啡二维数组数组一维数组
一、概念数组是同一种类型数据的集合。其实数组就是一个容器。二、好处可以自动给数组中的元素从0开始编号，方便操作这些元素三、格式 //一维数组 1,元素类型[] 变量名 = new 元素类型[元素的个数] int[] arr =
Decode Ways hcx2013 decode
A message containing letters from A-Z is being encoded to numbers using the following mapping: 'A' -> 1 'B' -> 2 ... 'Z' -> 26 Given an encoded message containing digits, det
Spring4.1新特性——异步调度和事件机制的异常处理 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
squid3(高命中率)缓存服务器配置 liyonghui160com
系统:centos 5.x 需要的软件:squid-3.0.STABLE25.tar.gz 1.下载squid wget http://www.squid-cache.org/Versions/v3/3.0/squid-3.0.STABLE25.tar.gz tar zxf squid-3.0.STABLE25.tar.gz &&
避免Java应用中NullPointerException的技巧和最佳实践 pda158 java
1) 从已知的String对象中调用equals()和equalsIgnoreCase()方法，而非未知对象。　　总是从已知的非空String对象中调用equals()方法。因为equals()方法是对称的，调用a.equals(b)和调用b.equals(a)是完全相同的，这也是为什么程序员对于对象a和b这么不上心。如果调用者是空指针，这种调用可能导致一个空指针异常 Object unk
如何在Swift语言中创建http请求 shoothao http swift
概述：本文通过实例从同步和异步两种方式上回答了”如何在Swift语言中创建http请求“的问题。如果你对Objective-C比较了解的话，对于如何创建http请求你一定驾轻就熟了，而新语言Swift与其相比只有语法上的区别。但是，对才接触到这个崭新平台的初学者来说，他们仍然想知道“如何在Swift语言中创建http请求？”。在这里,我将作出一些建议来回答上述问题。常见的
Spring事务的传播方式 uule spring事务
传播方式：新建事务 required required_new - 挂起当前非事务方式运行 supports &nbs

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他