小步调LLY

机器学习——数据仓库与数据挖掘——期末复习（简答题）

1、试述真正例率（TPR）、假正例率（FPR）与查准率（P）、查全率（R）之间的联系。

查全率: 真实正例被预测为正例的比例

真正例率: 真实正例被预测为正例的比例

查全率与真正例率是相等的。

查准率:预测为正例的实例中真实正例的比例

假正例率: 真实反例被预测为正例的比例

两者并没有直接的数值关系。

2、简述K-最近邻方法的主要思想。

同声相应，同气相求

从最近的K个邻居（样本）中，选择出现次数最多的类别作为判定类别。
给定一个未知样本X，从训练样本空间中找出k个最近的训练样本；未知样本被分配到这k个样本最公共的类中；
基于要求的或懒散的学习

④存放所有样本，直到新样本需要分类时才建立分类，事先并没有分类模型；训练快，分类慢

3、简述K-中心点算法的输入、输出及聚类过程(流程)

输入:簇的数目 k, 包含n个对象的数据库

输出：k个簇，使得所有对象与其最近中心点的相异度最小

步骤：①随机选择k个对象作为初始中心点;

②计算其它对象与这k个中心的距离，然后把每个对象归入离它“最近”的簇;

③随机地选择一个非中心点对象Orandom，并计算用Orandom 代替0j的总代价S;如果 S<0,则用Orandom代替0j，形成新的k 个中心点集合;

④重复迭代第3、4步，直到中心点不变为止。

4、简述ID3算法的基本思想及其主算法的基本步骤

思想：先找出最有判别力的因素，后把数据分成多个子集，每个子集又选择最有判别力的因素进一步划分，直到所有子集仅包含同一类型的数据为止。最后得到一棵决策树，可以用它对新样例分类。在一实体世界中，每个实体用多个属性描述,每个属性限于在一个离散集中取互斥的值。

步骤①从训练集中随机选择一个既含正例又含反例的子集(称为窗口);

②用“建树算法”对当前窗口形成一棵决策树;

③对训练集(窗口除外)中例子用所得决策树进行类别判定，找出错判的例子;

④若存在错判的例子，把它们插入窗口，重复步骤②，否则结束。

5、简述数据预处理方法和内容。

数据清洗:包括填充空缺值，识别孤立点，去掉噪声和无关数据。

数据集成:将多个数据源中的数据结合起来存放在一个一致的数据存储中。需要注意不同数据源的数据匹配问题、数值冲突问题和冗余问题等。

数据变换:将原始数据转换成为适合数据挖掘的形式。包括对数据的汇总、聚集、概化、规范化，还可能需要进行属性的重构。

数据归约:缩小数据的取值范围，使其更适合于数据挖掘算法的需要，并且能够得到和原始数据相同的分析结果。

6、简述数据仓库设计的三级模型及其基本内容

概念模型设计是在较高的抽象层次上的设计,主要内容:界定系统边界和确定主要的主题域;

逻辑模型设计:主要内容包括分析主题域、确定粒度层次划分、确定数据分割策略、定义关系模式、定义记录系统

物理数据模型设计:主要内容包括确定数据存储结构、确定数据存放位置、确定存储分配以及确定索引策略等。在物理数据模型设计时主要考虑的因素有:I/0存取时间、空间利用率和维护代价等。

7、简述数据清理的基本内容。

数据清理用来自多个联机事务处理 (OLTP) 系统的数据生成数据仓库进程的一部分。拼写、两个系统之间冲突的拼写规则和冲突的数据之类的错误。数据清理工作的目的是不让有错误或有问题的数据进入运算过程，一般在计算机的帮助下完成，包括数据有效范围的清理、数据逻辑一致性的清理和数据质量的抽查。

8、简述处理空缺值的方法

忽略该记录，去掉属性，手工填写空缺值，使用默认值，使用属性平均值，使用同类样本平均值，预测最可能的值

9、何谓数据仓库？为什么要建立数据仓库？

定义：数据仓库是面向主题的、集成的、稳定的，不同时间的数据集合，用于支持经营管理中决策制定过程；是一种管理技术，旨在通过通畅、合理、全面的信息管理，达到有效的决策支持。

原因：在事务型环境中直接构建分析型应用是失败的；分析型处理及其数据必须与操作型处理及其数据相分离；必须把分析型数据从事务处理环境中提取出来，按照DSS处理的需要进行重新组织，建立单独的分析处理环境；数据仓库是为构建新的单独的分析处理环境而出现的一种数据存储和组织技术

10、何谓数据挖掘？它有哪些方面的功能？

概念：从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程称为数据挖掘。相关的名称有知识发现、数据分析、数据融合、决策支持等。

功能：概念描述、关联分析、分类与预测、聚类分析、趋势分析、孤立点分析以及偏差分析

11、何谓聚类？它与分类有什么异同？

定义：聚类是将物理或抽象对象的集合分组成为多个类或簇(cluster)的过程，使得在同一个簇中的对象之间具有较高的相似度，而不同簇中的对象差别较大。

异同：聚类要划分的类是未知的，分类则可按已知规则进行;聚类是无指导学习，不依赖预先定义的类和带类标号的训练实例，属于观察式学习，分类属于有指导学习，是示例式学习

12、什么是决策树？如何用决策树进行分类？

定义：决策树是用样本的属性作为结点，用属性的取值作为分支的树结构。它是利用信息论原理对大量样本的属性进行分析和归纳而产生的。决策树的根结点是所有样本中信息量最大的属性。树的中间结点是以该结点为根的子树所包含的样本子集中信息量最大的属性。决策树的叶结点是样本的类别值。

分类：决策树用于对新样本的分类，即通过决策树对新样本属性值的测试，从树的根结点开始，按照样本属性的取值，逐渐沿着决策树向下，直到树的叶结点，该叶结点表示的类别就是新样本的类别。决策树方法是数据挖掘中非常有效的分类方法。

13、聚类分析中常见的数据类型有哪些？何谓相异度矩阵？它有什么特点？

常见数据类型：区间标度变量、比例标度型变量、二元变量、标称型、序数型、混合类型等。相异度矩阵：是用于存储所有对象两两之间相异度的矩阵，为一个nn维的单模矩阵。

特点：d(i, j)=d(j, i)，d(i, i)=0，d(j, j)=0。如下所示:

d(2,1) 0

d(3,1) d(3,2) 0

d(n,1) d(n,2) ... ... 0

14、如何理解OLAP所说的多维分析？

维是OLAP的核心概念，多维性是OLAP的关键属性，与数据仓库的多维数据组织正好相互补充。为使用户能够从多个维度、多个数据粒度查看数据，了解数据蕴含的信息，系统需提供对数据的多维分析功能，包括切片、旋转和钻取等多种操作，得到更深层中的信息和知识。多维数据的每一维代表对数据的一个特定的观察视角，如时间、地域、业务等

15、CDM层分为那两层？CDM层的任务是什么？

DWD 明细数据层 DWS汇总数据层

任务：公共维度模型层（CDM）存放明细事实数据、维表数据及公共指标汇总数据,其中明细事实数据、维表数据一般根据ODS层数据加工生成，公共指标汇总数据一般根据维表数据和明细事实数据加工生成。CDM层又细分为DWD层和DWS层,采用维度模型方法作为理论基础,更多地采用一些维度退化手法,将维度退化至事实表中,减少事实表和维表的关联,提高明细数据表的易用性：同时在汇总数据层,加强指标的维度退化,采取更多的宽表化手段构建公共指标数据层,提升公共指标的复用性,减少重复加工。

16、业务数据层，操作数据源层（ODS）什么关系？

操作数据源层（ODS）的数据从业务数据层按一定机制抽取而来，与原始数据保持一致。ODS层数据不允许修改。存到ODS后可以删除业务数据库对应的数据。体现了非易失性

17、何谓OLTP和OLAP？它们的主要异同有哪些？

OLTP:联机事务处理。是在网络环境下的事务处理工作，以快速的响应和频繁的数据修改为特征，使用户利用数据库能够快速地处理具体的业务。OLTP应用要求多个查询并行，以便将每个查询分布到一个处理器上。

OLAP:联机分析处理。OLAP是专门设计用于支持复杂的分析操作，侧重对决策人员和高层管理人员的决策支持，可以应分析人员要求快速、灵活地进行大数据量的复杂查询处理，并且以一种直观易懂的形式将查询结果提供给决策人员，以便他们准确掌握企业（公司）的经营状况，了解市场需求，制定正确方案，增加效益。

OLTP OLAP

用户操作人员，低层管理人员决策人员，高级管理人员

功能日常操作处理分析决策

DB设计面向应用，事务驱动面向主题，面向分析，分析驱动

数据原始数据，细节性数据导出数据，综合性或提炼性数据

存取读/写数十条记录读上百万条记录

工作单位简单的事务复杂的查询

用户数上千个上百个

DB大小 100MB-GB 100GB-TB

更新可更新不可更新，但周期性刷新

处理基本数据的增删改查适合以数据仓库为基础的处理
OLAP数据较之OLTP数据要更多一步数据多维化或预综合处理操作:

18、在数据挖掘之前为什么要对原始数据进行预处理？

原始业务数据来自多个数据库或数据仓库，其结构和规则可能是不同的，这将导致原始数据非常杂乱、不可用，即使在同一数据库中，也可能存在重复和不完整的数据信息，为使这些数据能符合数据挖掘的要求，提高效率和得到清晰的结果，必须进行数据预处理。数据挖掘算法提供完整、干净、准确、有针对性的数据，减少算法计算量，提高挖掘效率和准确程度。

19、你觉得比较重要的聚类算法的性能要求有哪些，请说出5种

( 1)可伸缩性。聚类算法对小数据集和大规模数据集要同样有效。

(2)处理不同类型属性的能力。实际应用要求算法能够处理不同类型的数据。

( 3 )能发现任意形状的聚类。聚类特征的未知性决定聚类算法要能发现球形的、嵌套的、中空的等任意复杂形状和结构的聚类。

(4)最少的参数利确定参数值的领域知识。聚类算法要尽可能地减少用户估计参数的最佳取值所需要的领域知识。

(5)有效地识别噪声数据。聚类算法要能处理

现实世界的数据库中普遍包含的孤立点，空缺或者错误的数据。

(6)对于输入记录的顺序不敏感。聚类算法对不同的次序的记录输人应具有相同的聚类结果。

(7)高维性。聚类算法不仅要擅长处理低维的数据集,还应能处理高维、数据可能非常稀疏且高度偏斜的数据集。

(8)基于约束的聚类。聚类结果既要满足特定的约束，又要具有良好聚类特性。

(9)可解释性和可用性。聚类应与特定的语义解释和应用相联系

20、OLAP的类型有哪些？划分依据是什么？

OLAP：基于多维数据库OLAP(MOLAP)和基于关系数据库的OLAP(ROLAP)，HOLAP即混和OLAP介于MOLAP和ROLAP之间。划分依据：多维数据模型存储方式（存储器的数据存储格式）

1、一个10个实例的测试集中包含5个正例和5个负例，并按照它们被预测为正例的概率进行排列，试画出对应的ROC曲线。

Python机器学习实战：主成分分析(PCA)的原理和实战操作 AI天才研究院大数据AI人工智能 AI大模型企业级应用开发实战计算计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Python机器学习实战：主成分分析(PCA)的原理和实战操作1.背景介绍1.1什么是主成分分析(PCA)？主成分分析（PrincipalComponentAnalysis，PCA）是一种常用的无监督学习算法，用于数据降维和特征提取。它通过线性变换将原始高维数据映射到低维空间，同时保留数据的主要特征和信息。PCA的目标是找到数据中最主要的方向（主成分），沿着这些方向对数据进行投影，从而实现降维。1
Hive重点面试题 Major Tom _ hive hadoop 数据仓库
文章目录Hive面试重点题目及答案1.Hive的优缺点及使用场景2.Hive与数据仓库的区别3.Hive的基本架构与元数据存储4.Hive内外部表的区别及适用场景5.Hive数据倾斜原因与解决方法6.HiveMapReduce的底层实现与优化方式7.Hive窗口函数的使用场景8.Hive分区与分桶的区别9.Hive的存储格式10.Hive计算引擎（MapReduce,Tez,Spark）的对比Hi
深度学习盛行，还记得哪些传统机器学习方法和模型？硬件学长森哥人工智能深度学习机器学习人工智能
开头森哥说：假期前后在准备成像技术的总结，目前已完成两部分，争取在摸索出一些编辑和运营技巧后，完善成一个系列和大家见面；当然也有可能会通过一些更加贴合摄影实用的角度出一些更加浅显的内容。最终如何呈现还需要慢慢摸索。传统机器学习是指在深度学习盛行之前开发的机器学习和人工智能技术。这些传统方法通常依赖于手工设计的特征提取和模型结构。而深度学习是一种机器学习技术，它通过深层神经网络从原始数据中学习特征表
1、PyTorch 简介找个栗子 PyTorch开始到sci pytorch 人工智能 python
PyTorch是什么？首先，我们讲PyTorch，我们先讲它的前身--torch。1、torchTorch是PyTorch的前身，Torch是一个有着悠久历史的机器学习框架，最初由RonanCollobert、SoumithChintala和KorayKavukcuoglu等人开发。Torch是以Lua语言为基础，在2002年左右就开始逐渐发展起来，在计算机视觉、自然语言处理等领域有一定的应用。o
机器学习—大语言模型：推动AI新时代的引擎云边有个稻草人人工智能机器学习语言模型
云边有个稻草人-CSDN博客目录引言一、大语言模型的基本原理1.什么是大语言模型？2.Transformer架构3.模型训练二、大语言模型的应用场景1.文本生成2.问答系统3.编码助手4.多语言翻译三、大语言模型的最新进展1.GPT-42.开源模型四、构建和部署一个简单的大语言模型1.数据准备2.模型训练3.部署模型五、大语言模型的未来发展结语引言大语言模型（LargeLanguageModels
基于Java的智能家居设计：探讨Java在智能家居大数据处理中的角色杭州大厂Java程序媛计算机软件编程原理与应用实践 java python javascript kotlin golang 架构人工智能
基于Java的智能家居设计：探讨Java在智能家居大数据处理中的角色关键词：智能家居,Java,大数据处理,机器学习,物联网1.背景介绍1.1问题由来随着物联网技术的发展，智能家居已经从一个概念转变为现实。通过连接各种家庭设备，智能家居系统能够实现自动化控制、远程监控、个性化服务等功能。然而，这些功能背后隐藏着一个庞大的数据处理和管理系统，即大数据处理系统。这些系统需要高效、可靠的计算平台，而Ja
[利用Python加载和处理网址内容：从Unstructured到Selenium和Playwright] bhawfgrcbtwny python selenium 开发语言
引言在现代网页数据分析中，加载和处理来自多种网址的内容是一个常见需求。无论是数据挖掘还是网页内容分析，我们常常需要从多个网页中提取HTML文档。本篇文章将介绍如何利用Python中的Unstructured、Selenium和Playwright库来加载这些网页内容，并将其转换为适合后续处理的文档格式。主要内容UnstructuredURLLoaderUnstructuredURLLoader可以
模式识别与机器学习（Python实现）：基于sklearn朴素贝叶斯模型实现男女分类 CV视界模式识别机器学习与图像处理机器学习 python 人工智能
模式识别与机器学习（Python实现）：基于sklearn朴素贝叶斯模型和pazen窗方法实现男女分类欢迎大家来到安静到无声的《模式识别与人工智能（程序与算法）》，如果对所写内容感兴趣请看模式识别与人工智能（程序与算法）系列讲解-总目录，同时这也可以作为大家学习的参考。欢迎订阅，优惠价只需9.9元，请多多支持！目录标题模式识别与机器学习（Python实现）：基于sklearn朴素贝叶斯模型和paz
Apache Iceberg数据湖技术在海量实时数据处理、实时特征工程和模型训练的应用技术方案和具体实施步骤及代码 weixin_30777913 音视频语言模型大数据人工智能
ApacheIceberg在处理海量实时数据、支持实时特征工程和模型训练方面的强大能力。Iceberg支持实时特征工程和模型训练，特别适用于需要处理海量实时数据的机器学习工作流。Iceberg作为数据湖，以支持其机器学习平台中的特征存储。Iceberg的分层结构、快照机制、并发读写能力以及模式演进等特性，使得它能够高效地处理海量数据，并且保证数据的一致性和可用性。特别是在特征工程和模型训练方面，I
Oracle 分区在什么情况下使用？思维导图代码示例（java 架构) 用心去追梦 oracle java 架构
Oracle分区的适用场景Oracle分区（Partitioning）是一种强大的数据管理工具，适用于特定类型的数据库工作负载和数据结构。以下是一些适合使用分区的情况：1.大型表优化超大数据量：当表包含数百万甚至数十亿行时，分区可以帮助提高查询性能。频繁更新：对于经常被插入、更新或删除的数据，分区可以减少锁定范围，提高并发性。2.数据仓库历史数据分析：在数据仓库中，通常会存储多年的历史数据。通过按
投票法：简单而强大的分类利器 ningaiiii 机器学习与深度学习分类机器学习人工智能
投票法：简单而强大的分类利器在机器学习的分类任务中，我们常常需要寻找高效且准确的方法来对数据进行分类。今天，让我们一起来探讨一种简单却极为强大的分类方法——投票法。一、投票法原理（一）通俗易懂的理解投票法就像一场班级选举。假设有一个班级要选出最受欢迎的水果，每个同学心中都有自己的选择（这就好比一个个分类器给出的分类结果）。最后统计每个水果获得的票数，得票最多的水果就当选（对应分类任务中，票数最多的
初入机器学习辰尘_星启机器学习人工智能深度学习 python mxnet
写在前面本专栏专门撰写深度学习相关的内容，防止自己遗忘，也为大家提供一些个人的思考一切仅供参考概念辨析深度学习：本质是建模，将训练得到的模型作为系统的一部分使用侧重于发现样本集中隐含的规律难点是认识并了解模型，合理设置初始模型，要对建模对象有比较深刻的认识依赖大量的准确训练样本强化学习：本质是系统，直接将训练得到的模型视作系统本身（激进的像“端到端”）侧重于最大化当前环境下的奖励，最终目标是寻找环
PyTorch生态系统中的连续深度学习：使用Torchdyn实现连续时间神经网络
神经常微分方程（NeuralODEs）是深度学习领域的创新性模型架构，它将神经网络的离散变换扩展为连续时间动力系统。与传统神经网络将层表示为离散变换不同，NeuralODEs将变换过程视为深度（或时间）的连续函数。这种方法为机器学习开创了新的研究方向，尤其在生成模型、时间序列分析和物理信息学习等领域具有重要应用。本文将基于Torchdyn（一个专门用于连续深度学习和平衡模型的PyTorch扩展库）
周报 | 25.1.27-25.2.2文章汇总双木的木深度学习拓展阅读 python拓展学习人工智能 transformer 算法深度学习 YOLO chatgpt llama
为了更好地整理文章和发表接下来的文章，以后每周都汇总一份周报。周报|25.1.20-25.1.26文章汇总-CSDN博客机器学习AI算法工程|DeepSeekV3两周使用总结-CSDN博客Datawhale|一文详尽之SFT（监督微调，建议收藏）！-CSDN博客arXiv每日学术速递|强强联合：CNN与Transformer融合创新提升模型性能！！-CSDN博客AI生成未来|字节提出VideoWo
图论复习第二章 sinat_40210730 期末复习图论
最短路径问题针对最短路网络（带权有向无环图）存在性：如果s到v的途径上包含负费用有向圈，则不存在最短s-v途径，否则存在最短s-v简单路最优性原理（最优子结构特征）：若图G不存在非负有向圈，则任意最短子路也是相应点对之间的最短路三角不等式定理：d(v,w)指v到w的最短路径长度，则d(v,w)<=d(v,x)+d(x,w）最短路径算法函数方程（使用最优性原理所给出的关于最优解目标值之间的递归关系）
最小边际采样在分类任务中的应用 ningaiiii 机器学习与深度学习分类数据挖掘人工智能
最小边际采样在分类任务中的应用在机器学习的分类任务里，如何高效利用有限的标注数据，一直是研究的重点。最小边际采样（LeastMarginSampling）作为主动学习策略中的一种，为解决这一问题提供了独特的思路。本文将深入探讨最小边际采样在分类任务中的原理、应用以及优势与挑战。一、最小边际采样的原理最小边际采样的核心概念是基于模型预测概率来衡量样本的不确定性。在一个多分类问题中，模型会对每个样本预
图论复习——最短路 Edward The Bunny 图论图论
知识点最短路径算法最短路径树每个点uuu的父亲为使uuu得到最短距离的前驱节点，若有多个，则取任意一个。题目CF449BJzzhuandCitiesBlogCF464ETheClassicProblemBlog[XSY3888]传送门对每个点uuu，记d(u)d(u)d(u)表示uuu到TTT的最短路，e(u)e(u)e(u)表示删掉它和最短路上父亲的边后的最短路。令dp(u)dp(u)dp(u)
备战CSP（1）：复习图论之最短路算法SPFA 鹤上听雷算法图论
接下来，我们将用这道题目来复习最短路算法，dijk和spfa。LuoguP3371【模板】单源最短路径（弱化版）题目背景本题测试数据为随机数据，在考试中可能会出现构造数据让SPFA不通过，如有需要请移步P4779。题目描述如题，给出一个有向图，请输出从某一点出发到所有点的最短路径长度。输入格式第一行包含三个整数n,m,sn,m,sn,m,s，分别表示点的个数、有向边的个数、出发点的编号。接下来mm
期末复习---面向对象C++考试题目汇总淡写青春209 c++开发语言
这些题目我是直接在OneNote上直接复制的，不显示答案，想要OneNote格式的可以在评论区找我要，我私发给你一、单项选择题（总分45）（分值：0.2分）下列关于运算符重载的描述中，错误的是()。A:::运算符不能重载B:类型转换运算符只能作为成员函数重载C:将运算符作为非成员函数重载时必须定义为友元D:重载[]运算符应完成下标访问操作序号：16难度：2考查点：重载（分值：0.2分）将运算符重载
计算机基础---从输入 URL 到页面展示到底发生了什么？淡写青春209 java
从输入URL到页面展示到底发生了什么？基础版本：在浏览器中输入指定网页的URL。浏览器通过DNS协议，获取域名对应的IP地址。[[八股文复习（总）#DNS解析的过程是什么样的？]]浏览器根据IP地址和端口号，向目标服务器发起一个TCP连接请求。[[#建立连接-TCP三次握手]]浏览器在TCP连接上，向服务器发送一个HTTP请求报文，请求获取网页的内容。服务器收到HTTP请求报文后，处理请求，并返回
使用支持向量机（SVM）进行股票市场预测 m0_57781768 支持向量机算法机器学习
使用支持向量机（SVM）进行股票市场预测引言股票市场预测是金融领域的一个热门话题，也是一个充满挑战的研究领域。通过准确的市场预测，投资者可以做出更明智的决策，从而获得更高的回报。支持向量机（SVM）作为一种强大的机器学习算法，已被广泛应用于各种分类和回归问题。本文将详细介绍如何使用C++和支持向量机进行股票市场预测，并提供完整的代码示例。支持向量机简介支持向量机（SVM）是一种监督学习算法，最初用
【Java】已解决java.lang.ClassNotFoundException异常屿小夏 java 开发语言
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
Python机器学习实战：人脸识别技术的实现和挑战 AI天才研究院 AI大模型企业级应用开发实战大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Python机器学习实战：人脸识别技术的实现和挑战作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：人脸识别技术,模型训练,多人识别,动态人脸检测,应用场景1.背景介绍1.1问题的由来随着科技的进步和互联网的普及，人脸识别技术因其在安全验证、生物特征识别、智能监控等多个领域的广泛应用而迅速崛起。从传统的门禁系统到现代的人脸支付、社交媒体的自动登
深度学习：基础原理与实践阿尔法星球深度学习 python 人工智能
1.深度学习概述1.1定义与发展历程深度学习是机器学习的一个分支，它基于人工神经网络的学习算法，特别是那些具有多层（深层）结构的网络。深度学习模型能够自动从原始数据中提取复杂的特征，而不需要人为设计特征提取算法。定义：深度学习可以定义为使用深层神经网络进行学习的过程，这些网络由多个非线性的变换组成，能够学习数据的多层次表示。发展历程：深度学习的起源可以追溯到1943年WarrenSturgisMc
【书生·浦语大模型实战营】学习笔记（三）：“茴香豆” 搭建你的RAG 智能助理 GoAI 自然语言处理NLP 深入浅出AI 深入浅出LLM 深度学习 LLM 人工智能大模型
AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的学习资料，配有全面而有深度的专栏内容，包括不限于前沿论文解读、资料共享、行业最新动态以、实践教程、求职相关（简历撰写技巧、面经资料与心得）多方面综合学习平台，强烈推荐AI小白及AI爱好者学习，性价比非常高！加入星球➡️点击链接【书生·
数据建模中的Chasm 陷阱小Tomkk #MySQL 数据库 mysql Chasm 陷阱
数据建模中的Chasm陷阱在数据仓库中，Chasm陷阱（ChasmTrap）是指一种设计问题，通常出现在数据仓库建模的过程中，尤其是在使用星型模式（StarSchema）或者雪花型模式（SnowflakeSchema）时。这个问题通常发生在多个事实表与维度表之间的关系存在不一致或难以解决的情况，导致数据查询和分析时产生不正确的结果。文章目录数据建模中的Chasm陷阱我这里举例说明Chasm陷阱解决
详解大模型微调数据集构建方法(持续更新) herosunly 大模型微调数据集构建方法
大家好，我是herosunly。985院校硕士毕业，现担任算法t研究员一职，热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。本文详细介绍了大模型微调数据集构建方法，希望能对学习大模型的同学们有所帮助。文章目录
从System Prompt来看Claude3、Kimi和ChatGLM4之间的差距 herosunly 大模型 system prompt gpt4 claude kimi ChatGLM4
大家好，我是herosunly。985院校硕士毕业，现担任算法t研究员一职，热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。本文主要介绍了从SystemPrompt来看Claude3、Kimi和ChatGLM
搜索与图论复习1 KuaCpp 图论深度优先算法
1深度优先遍历DFS2宽度优先遍历BFS3树与图的存储4树与图的深度优先遍历5树与图的宽度优先遍历6拓扑排序1DFS：#includeusingnamespacestd;constintN=10;intn;intpath[N];boolst[N];voiddfs(intu){if(n==u){for(inti=0;i>n;dfs(0);return0;}acwing843#includeusing
数据仓库之Kappa架构 james二次元数据仓库数据仓库
Kappa架构是一种简化的数据处理架构，旨在处理实时数据流，解决传统Lambda架构中批处理和实时处理的复杂性。Kappa架构完全基于流处理，不区分批处理和实时处理，所有数据都是通过流处理系统进行处理。以下是对Kappa架构的详细介绍：核心概念数据流处理：所有数据都是以事件流的形式处理的，没有批处理的概念。数据流是连续的，实时的，不需要区分历史数据和实时数据。简化架构：通过统一的流处理框架简化数据
JVM StackMapTable 属性的作用及理解 lijingyao8206 jvm 字节码 Class文件 StackMapTable
在Java 6版本之后JVM引入了栈图(Stack Map Table)概念。为了提高验证过程的效率，在字节码规范中添加了Stack Map Table属性，以下简称栈图，其方法的code属性中存储了局部变量和操作数的类型验证以及字节码的偏移量。也就是一个method需要且仅对应一个Stack Map Table。在Java 7版
回调函数调用方法百合不是茶 java
最近在看大神写的代码时,.发现其中使用了很多的回调 ,以前只是在学习的时候经常用到 ,现在写个笔记记录一下代码很简单: MainDemo :调用方法得到方法的返回结果
[时间机器]制造时间机器需要一些材料 comsci 制造
根据我的计算和推测,要完全实现制造一台时间机器,需要某些我们这个世界不存在的物质和材料... 甚至可以这样说,这种材料和物质,我们在反应堆中也无法获得......
开口埋怨不如闭口做事邓集海邓集海做人做事工作
“开口埋怨，不如闭口做事。”不是名人名言，而是一个普通父亲对儿子的训导。但是，因为这句训导，这位普通父亲却造就了一个名人儿子。这位普通父亲造就的名人儿子，叫张明正。　　　　张明正出身贫寒，读书时成绩差，常挨老师批评。高中毕业，张明正连普通大学的分数线都没上。高考成绩出来后，平时开口怨这怨那的张明正，不从自身找原因，而是不停地埋怨自己家庭条件不好、埋怨父母没有给他创造良好的学习环境。　　　　
jQuery插件开发全解析，类级别与对象级别开发 IT独行者 jquery 开发插件　函数
jQuery插件的开发包括两种：一种是类级别的插件开发，即给 jQuery添加新的全局函数，相当于给 jQuery类本身添加方法。 jQuery的全局函数就是属于 jQuery命名空间的函数，另一种是对象级别的插件开发，即给 jQuery对象添加方法。下面就两种函数的开发做详细的说明。 1 、类级别的插件开发类级别的插件开发最直接的理解就是给jQuer
Rome解析Rss 413277409 Rome解析Rss
import java.net.URL; import java.util.List; import org.junit.Test; import com.sun.syndication.feed.synd.SyndCategory; import com.sun.syndication.feed.synd.S
RSA加密解密无量加密解密 rsa
RSA加密解密代码代码有待整理 package com.tongbanjie.commons.util; import java.security.Key; import java.security.KeyFactory; import java.security.KeyPair; import java.security.KeyPairGenerat
linux 软件安装遇到的问题 aichenglong linux 遇到的问题 ftp
1 ftp配置中遇到的问题 500 OOPS: cannot change directory 出现该问题的原因:是SELinux安装机制的问题.只要disable SELinux就可以了修改方法:1 修改/etc/selinux/config 中SELINUX=disabled 2 source /etc
面试心得 alafqq 面试
最近面试了好几家公司。记录下；支付宝，面试我的人胖胖的，看着人挺好的；博彦外包的职位，面试失败；阿里金融，面试官人也挺和善，只不过我让他吐血了。。。由于印象比较深，记录下； 1，自我介绍 2，说下八种基本类型；（算上string。楼主才答了3种，哈哈，string其实不是基本类型，是引用类型） 3，什么是包装类，包装类的优点； 4，平时看过什么书？NND，什么书都没看过。。照样
java的多态性探讨百合不是茶 java
java的多态性是指main方法在调用属性的时候类可以对这一属性做出反应的情况 //package 1; class A{ public void test(){ System.out.println("A"); } } class D extends A{ public void test(){ S
网络编程基础篇之JavaScript-学习笔记 bijian1013 JavaScript
1.documentWrite <html> <head> <script language="JavaScript"> document.write("这是电脑网络学校"); document.close(); </script> </h
探索JUnit4扩展：深入Rule bijian1013 JUnit Rule 单元测试
本文将进一步探究Rule的应用，展示如何使用Rule来替代@BeforeClass，@AfterClass，@Before和@After的功能。在上一篇中提到，可以使用Rule替代现有的大部分Runner扩展，而且也不提倡对Runner中的withBefores()，withAfte
[CSS]CSS浮动十五条规则 bit1129 css
这些浮动规则，主要是参考CSS权威指南关于浮动规则的总结，然后添加一些简单的例子以验证和理解这些规则。 1. 所有的页面元素都可以浮动 2. 一个元素浮动后，会成为块级元素，比如<span>,a, strong等都会变成块级元素 3.一个元素左浮动，会向最近的块级父元素的左上角移动，直到浮动元素的左外边界碰到块级父元素的左内边界；如果这个块级父元素已经有浮动元素停靠了
【Kafka六】Kafka Producer和Consumer多Broker、多Partition场景 bit1129 partition
0.Kafka服务器配置 3个broker 1个topic，6个partition，副本因子是2 2个consumer，每个consumer三个线程并发读取 1. Producer package kafka.examples.multibrokers.producers; import java.util.Properties; import java.util.
zabbix_agentd.conf配置文件详解 ronin47 zabbix 配置文件
Aliaskey的别名，例如 Alias=ttlsa.userid:vfs.file.regexp[/etc/passwd,^ttlsa:.:([0-9]+),,,,\1]，或者ttlsa的用户ID。你可以使用key：vfs.file.regexp[/etc/passwd,^ttlsa:.: ([0-9]+),,,,\1]，也可以使用ttlsa.userid。备注: 别名不能重复，但是可以有多个
java--19.用矩阵求Fibonacci数列的第N项 bylijinnan fibonacci
参考了网上的思路，写了个Java版的： public class Fibonacci { final static int[] A={1,1,1,0}; public static void main(String[] args) { int n=7; for(int i=0;i<=n;i++){ int f=fibonac
Netty源码学习-LengthFieldBasedFrameDecoder bylijinnan java netty
先看看LengthFieldBasedFrameDecoder的官方API http://docs.jboss.org/netty/3.1/api/org/jboss/netty/handler/codec/frame/LengthFieldBasedFrameDecoder.html API举例说明了LengthFieldBasedFrameDecoder的解析机制，如下：实
AES加密解密 chicony 加密解密
AES加解密算法，使用Base64做转码以及辅助加密： package com.wintv.common; import javax.crypto.Cipher; import javax.crypto.spec.IvParameterSpec; import javax.crypto.spec.SecretKeySpec; import sun.misc.BASE64Decod
文件编码格式转换 ctrain 编码格式
package com.test; import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream;
mysql 在linux客户端插入数据中文乱码 daizj mysql 中文乱码
1、查看系统客户端，数据库，连接层的编码查看方法： http://daizj.iteye.com/blog/2174993 进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+------
好代码是廉价的代码 dcj3sjt126com 程序员读书
长久以来我一直主张：好代码是廉价的代码。当我跟做开发的同事说出这话时，他们的第一反应是一种惊愕，然后是将近一个星期的嘲笑，把它当作一个笑话来讲。当他们走近看我的表情、知道我是认真的时，才收敛一点。当最初的惊愕消退后，他们会用一些这样的话来反驳： “好代码不廉价，好代码是采用经过数十年计算机科学研究和积累得出的最佳实践设计模式和方法论建立起来的精心制作的程序代码。” 我只
Android网络请求库——android-async-http dcj3sjt126com android
在iOS开发中有大名鼎鼎的ASIHttpRequest库，用来处理网络请求操作，今天要介绍的是一个在Android上同样强大的网络请求库android-async-http，目前非常火的应用Instagram和Pinterest的Android版就是用的这个网络请求库。这个网络请求库是基于Apache HttpClient库之上的一个异步网络请求处理库，网络处理均基于Android的非UI线程，通
ORACLE 复习笔记之SQL语句的优化 eksliang SQL优化 Oracle sql语句优化 SQL语句的优化
转载请出自出处：http://eksliang.iteye.com/blog/2097999 SQL语句的优化总结如下 sql语句的优化可以按照如下六个步骤进行：合理使用索引避免或者简化排序消除对大表的扫描避免复杂的通配符匹配调整子查询的性能 EXISTS和IN运算符下面我就按照上面这六个步骤分别进行总结：
浅析：Android 嵌套滑动机制（NestedScrolling） gg163 android 移动开发滑动机制嵌套
谷歌在发布安卓 Lollipop版本之后，为了更好的用户体验，Google为Android的滑动机制提供了NestedScrolling特性 NestedScrolling的特性可以体现在哪里呢？ 比如你使用了Toolbar，下面一个ScrollView，向上滚
使用hovertree菜单作为后台导航 hvt JavaScript jquery .net hovertree asp.net
hovertree是一个jquery菜单插件，官方网址：http://keleyi.com/jq/hovertree/ ，可以登录该网址体验效果。 0.1.3版本：http://keleyi.com/jq/hovertree/demo/demo.0.1.3.htm hovertree插件包含文件： http://keleyi.com/jq/hovertree/css
SVG 教程（二）矩形天梯梦 svg
SVG <rect> SVG Shapes SVG有一些预定义的形状元素，可被开发者使用和操作：矩形 <rect> 圆形 <circle> 椭圆 <ellipse> 线 <line> 折线 <polyline> 多边形 <polygon> 路径 <path>
一个简单的队列 luyulong java 数据结构队列
public class MyQueue { private long[] arr; private int front; private int end; // 有效数据的大小 private int elements; public MyQueue() { arr = new long[10]; elements = 0; front
基础数据结构和算法九：Binary Search Tree sunwinner Algorithm
A binary search tree (BST) is a binary tree where each node has a Comparable key (and an associated value) and satisfies the restriction that the key in any node is larger than the keys in all
项目出现的一些问题和体会 Steven-Walker DAO Web servlet
第一篇博客不知道要写点什么，就先来点近阶段的感悟吧。这几天学了servlet和数据库等知识，就参照老方的视频写了一个简单的增删改查的，完成了最简单的一些功能，使用了三层架构。 dao层完成的是对数据库具体的功能实现，service层调用了dao层的实现方法，具体对servlet提供支持。 &
高手问答：Java老A带你全面提升Java单兵作战能力！ ITeye管理员 java
本期特邀《Java特种兵》作者：谢宇，CSDN论坛ID: xieyuooo 针对JAVA问题给予大家解答，欢迎网友积极提问，与专家一起讨论! 作者简介：淘宝网资深Java工程师，CSDN超人气博主，人称“胖哥”。 CSDN博客地址： http://blog.csdn.net/xieyuooo 作者在进入大学前是一个不折不扣的计算机白痴，曾经被人笑话过不懂鼠标是什么，

机器学习——数据仓库与数据挖掘——期末复习（简答题）

你可能感兴趣的:(复习,数据挖掘,机器学习,数据仓库)