IIKY

数据科学基础复习2

文章目录

数据科学基础复习2
- 统计学基本概念
- - 4.1 总体与样本
  - 4.2 参数估计
  - 4.3 假设检验
  - 4.4 方差分析*
  - 4.5 回归分析*
- 凸优化
- 智能优化算法
- - 遗传算法
  - pso粒子群优化算法
- 机器学习初探
- 分类模型评估
- - K折叠交叉验证(K-fold cross validation)
  - 二分类问题
- 特征工程
- - 数据预处理
  - 特征提取
  - 特征选择
  - 特征降维
- 简答题
- - (1)简述梯度下降法的关键步骤。
  - (2)简述遗传算法中轮盘赌选择种群的方法。
  - (3)简述粒子群算法中粒子更新关键步骤。
  - (4)简述阶方阵的所有特征值与方阵的行列式和迹之间的关系。
  - (5)简述极大似然估计算法
  - (6)给出方阵的特征多项式定义
  - (7)简述PCA关键计算步骤
  - (8)简述C4.5算法中选取根节点的特征属性及处理连续属性值的关键步骤
  - (9)请给出凸函数的定义。
  - (10)简述K折交叉验证。
  - (9)请给出凸函数的定义。
  - (10)简述K折交叉验证。

统计学基本概念

4.1 总体与样本

4.2 参数估计

矩估计

最大似然估计

步骤：（一）写出似然函数

（二）取对数

4.3 假设检验

4.4 方差分析*

4.5 回归分析*

凸优化

凸集:集合C内任意两点间的线段均在集合C内，则称集合C为凸集。

仿射集：

凸函数：

无约束优化

梯度下降法

优点：计算简单，需记忆的容量小；对初始点要求低，稳定性高；远离极小点时收敛快，常作为其它方法的第一步。
缺点：收敛速度较慢（线性或不高于线性）。原因是最速下降方向只有在该点附近有意义。

最速下降方向只是局部下降最快的方向，在全局来看，下降速度是比较慢的，尤其当函数等值面为很扁的椭圆、椭球。

智能优化算法

遗传算法

主要步骤：

1、对优化问题的解进行二进制编码，随机产生一个种群。一个解的编码称为一个染色体，组成编码的元素称为基因。

2、适应函数的构造和应用。自然选择规律是以适应函数值的大小决定的概率分布来确定哪些染色体适应生存，哪些被淘汰。

3、染色体的结合。通过复制和交叉实现。

4、变异。新解产生过程中可能发生基因变异，变异使某些解的编码发生变化，使解有更大的遍历性。

5、迭代若干代后得到适应值最大的个体即最优解。

轮盘赌选择算法

（1）群体搜索，易于并行化处理；
（2）不是盲目穷举，而是启发式搜索；
（3）适应度函数不受连续、可微等条件的约束，适用范围很广。

pso粒子群优化算法

每个寻优的问题解都被想像成一只鸟，称为“粒子”。所有粒子都在一个D维空间进行搜索。
所有的粒子都由一个fitness function 确定适应值以判断目前的位置好坏。
每一个粒子必须赋予记忆功能，能记住所搜寻到的最佳位置。
每一个粒子还有一个速度，以决定飞行的距离和方向。这个速度根据它本身的飞行经验以及同伴的飞行经验进行动态调整。

基本变量：

解空间为D维向量，表示粒子的位置，种群设定为N个粒子xi(i=1,2,…,N)。
粒子i位置：xi=(x_i1,x_i2,…,x_iD) ，将xi代入适应函数f(xi)计算适应值；
粒子i速度： v_i=(v_i1,v_i2,…,v_iD)
粒子i自身经历过的最好位置：pbesti=(p_i1,p_i2,…,p_iD)
种群全体粒子所经历过的最好位置：gbest=(g1,g2,…,g_D)

w=1，基本粒子群算法；w=0，失去对粒子本身的速度的记忆
c_1=0，无私型粒子群算法，“只有社会，没有自我”，迅速丧失群体多样性，易陷入局优而无法跳出．
c_2=0，自我认知型粒子群算法，“只有自我，没有社会”，完全没有信息的社会共享，导致算法收敛速度缓慢

c_1, c_2都不为0，称为完全型粒子群算法
完全型粒子群算法更容易保持收敛速度和搜索效果的均衡，是较好的选择．

第1步: 设置相关参数, 在初始化范围内, 对粒子群进行随机初始化, 包括随机位置和速度
第2步: 计算每个粒子的适应值
第3步: 更新粒子的个体历史最好值和最好解以及整个群体的历史最好值和最好解
第4步: 对粒子的速度和位置进行更新.

机器学习初探

数据挖掘的三大基本任务：分类预测、聚类分析、关联规则

决策树算法

ID3：采用信息增益
掌握信息熵概念
能够计算信息增益
C4.5：采用信息增益比，能处理连续值属性
CART：采用Gini指数，包括分类树和回归树

信息熵：I(a_i)=p(a_i)log_21/p(a_i)

当数据变得越加纯净时，熵变得越小。事实可以证明，当正例（0.5）与负例（0.5）相当时，熵取最大值。当D 中所有数据都只属于一个类时，熵取最小值，为0。

二元熵函数: H§=I(p,1−p)= −plogp−(1−p)log⁡(1−p)

熵的最值：logC, 其中C为数据集D中类标号数目

Gain(A)越大，说明选择测试属性对分类提供的信息越多

D3算法只能处理离散值的属性。
信息增益度量存在一个内在偏置，它偏袒具有较多值的属性。
例如，如果有一个属性为日期，那么将有大量取值，这个属性可能会有非常高的信息增益。
假如它被选作树的根结点的决策属性则可能形成一颗非常宽的树，这棵树可以理想地分类训练数据，但是对于测试数据的分类性能可能会相当差。

分类模型评估

K折叠交叉验证(K-fold cross validation)

将初始采样分割成K个子样本(S1，S2,…,Sk)，取K-1个做训练集，另外一个做测试集。交叉验证重复K次，每个子样本都作为测试集一次，平均K次的结果，最终得到一个单一估测。
当K=n(样本总量)，即为留一验证(Leave-one-out Cross Validation)

二分类问题

真阳性(True Positive, TP)：实际为阳性预测为阳性
真阴性(True Negative, TN)：实际为阴性预测为阴性
假阳性(False Positive, FP)：实际为阴性预测为阳性
假阴性(False Negative, FN)：实际为阳性预测为阴性

混淆矩阵

性能指标

灵敏度(Sensitivity)也称查全率(Recall)： TP/(TP+FN)

特异度(Specificity): TN/(TN+FP)

精度(Precision): TP/(TP+FP)

准确率(Accuracy): (TP+TN)/(TP+TN+FN+FP)

特征工程

数据预处理

数据清洗:格式内容清洗、逻辑错误清洗、异常值清洗以及缺失值清洗。
数据集成
数据变换
数据归约

特征归一化

类别型特征的处理方式
在对数据进行预处理时，处理类别型特征常用的方式为：
序号编码（Ordinal Encoding）
独热编码（One-hot Encoding）
二进制编码（Binary Encoding）

特征提取

特征提取和特征选择的相似点在于，二者达到的目标一致，即试图去减少特征的数目。但二者采取的方式却不同。
特征选择是从原始特征集中选择出子集，没有更改原始的特征空间；
而特征提取主要是通过属性间的关系，如组合不同的属性得到新的属性，这样会改变原有的特征空间。
特征提取与降维有关。降维的意义在于克服维数灾难、获取本质特征、节省存储空间以及去除无用噪声等。
特征提取的常用方法主要包含：
主成分分析（PCA）

PCA的思想
主成分，顾名思义，就是找出数据里最为主要的方面（或方向），用数据里这些最为主要的方面代替原始数据

线性判别分析（LDA）
潜在语义索引（LSI）

特征选择

Filter(过滤法)：按照发散性或相关性对各个特征进行评分，设定阈值或者待选择特征的个数进行筛选

Pearson相关系数
卡方检验
利用卡方分布进行假设检验，用于特征与分类目标的独立性检验。如果检验结果为某个特征与标签独立，则可以删除该特征
信息增益比、Gini指数
互信息

最大信息系数(maximum information coefficient，MIC)
Wrapper(包装法)：结合学习算法，根据目标函数（往往是预测效果评分），每次选择若干特征，或者排除若干特征

Embedded(嵌入法)：先使用某些机器学习的模型进行训练，得到各个特征的权值系数，根据系数从大到小选择特征（类似于Filter，只不过系数是通过训练得来的）

特征降维

PCA降维

主成分，顾名思义，就是找出数据里最为主要的方面（或方向），用数据里这些最为主要的方面代替原始数据

步骤：

去中心化（把坐标远点放在数据中心）

找坐标系（找到方差最大的方向）

数据线性变化：

现有数据协方差矩阵的特征向量就是R

协方差的特征向量

R矩阵

简答题

(1)简述梯度下降法的关键步骤。

(2)简述遗传算法中轮盘赌选择种群的方法。

1、计算出群体中每个个体的适应度f(i=1，2，…，M)，M为群体大小；
(2)计算出每个个体被遗传到下一代群体中的概率；

(3)计算出每个个体的累积概率；

（q[i]称为染色体x[i] (i=1, 2, …, n)的积累概率)

(4)在[0，1]区间内产生一个均匀分布的伪随机数r；
(5)若r (6)重复(4)、(5)共M次

(3)简述粒子群算法中粒子更新关键步骤。

根据适应度更新pbest、gbest，更新粒子位置速度

(4)简述阶方阵的所有特征值与方阵的行列式和迹之间的关系。

(5)简述极大似然估计算法

(一)写出似然函数

(6)给出方阵的特征多项式定义

它是λ的n次多项式，称为矩阵A的特征多项式。

(7)简述PCA关键计算步骤

(1) 标准化样本：x=x−x ̅,( x) ̅=1/n∑▒x, n为样本数量，样本特征向量x 的维度为 m
(2) 特征值分解：计算样本协方差阵S=Cov(x)= 1/n∑▒(x−x ̅)(x−x ̅)^T的全部非负特征值，并降序排列λ_1>λ_2>…>λ_m, 对应特征向量w^1,w2,…,w^m
(3) 变换矩阵Case 1: 无损压缩 W=(w^1,w2,…,w^m)Case 2: 有损压缩一般地，选取满足λ_1+λ_2+…+λ_k/λ_1+λ_2+…+λ_m≥α=95%或90%的最小整数k，取W=(w^1,w2,…,w^k)，其中k (4) 降维表示训练样本：L=X^TW新样本x标准化后，降维表示：y^T=xTW

(8)简述C4.5算法中选取根节点的特征属性及处理连续属性值的关键步骤

处理连续值步骤

根据属性的值，对数据集排序；
用不同的阈值将数据集动态的进行划分；
取两个实际值中的中点作为一个阈值；
取两个划分，所有样本都在这两个划分中；
得到所有可能的阈值、增益及增益比；
在每一个属性会变为取两个取值，即小于阈值或大于等于阈值

(9)请给出凸函数的定义。

若函数f:R^m→R的定义域domf为凸集，且满足

则称f为凸函数（convex function）

(10)简述K折交叉验证。

将初始采样分割成K个子样本(S1，S2,…,Sk)，取K-1个做训练集，另外一个做测试集。交叉验证重复K次，每个子样本都作为测试集一次，平均K次的结果，最终得到一个单一估测。
当K=n(样本总量)，即为留一验证(Leave-one-out Cross Validation)
分，所有样本都在这两个划分中；
得到所有可能的阈值、增益及增益比；
在每一个属性会变为取两个取值，即小于阈值或大于等于阈值

(9)请给出凸函数的定义。

若函数f:R^m→R的定义域domf为凸集，且满足

[外链图片转存中…(img-2PIOsfRv-1624259614074)]

则称f为凸函数（convex function）

(10)简述K折交叉验证。

Python数据分析与可视化 jun778895 python 数据分析开发语言
Python数据分析与可视化是一个涉及数据处理、分析和以图形化方式展示数据的过程，它对于数据科学家、分析师以及任何需要从数据中提取洞察力的专业人员来说至关重要。以下将详细探讨Python在数据分析与可视化方面的应用，包括常用的库、数据处理流程、可视化技巧以及实际应用案例。一、Python数据分析与可视化的重要性数据可视化是将数据以图形或图像的形式表示出来，以便人们能够更直观地理解数据背后的信息和规
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
Python 初学者入门必知： Anaconda是什么？有什么作用？怎么使用？懒大王爱吃狼 Python基础 python 开发语言 python基础 python学习 anaconda anaconda安装 python教程
初学者在学习Python时，经常看到的一个名字是Anaconda。究竟什么是Anaconda，为什么它如此受欢迎？在这篇文章中，我们将探讨Anaconda，了解Anaconda的从安装到使用的。Anaconda是一个免费开源的Python和R编程发行版，包含上千个适用于数据科学和机器学习的包。同时，配备了Spyder和Jupyternotebook等工具，初学者可以使用它们来学习Python，使用
python卡方检验计算pvalue值_Python数据科学：卡方检验 CodeWhiz
之前已经介绍的变量分析：①相关分析：一个连续变量与一个连续变量间的关系。②双样本t检验：一个二分分类变量与一个连续变量间的关系。③方差分析：一个多分类分类变量与一个连续变量间的关系。本次介绍：卡方检验：一个二分分类变量或多分类分类变量与一个二分分类变量间的关系。如果其中一个变量的分布随着另一个变量的水平不同而发生变化时，那么两个分类变量就有关系。卡方检验并不能展现出两个分类变量相关性的强弱，只能展
Pandas教程：详解Pandas数据清洗旦莫 Python Pandas python pandas 数据分析
目录1.引言2.Pandas基础2.1安装与导入2.2创建一个复杂的DataFrame3.数据清洗流程3.1处理缺失值3.1.1删除缺失值3.1.2填充缺失值3.2数据去重3.3数据类型转换4.数据处理与变换4.1添加与删除列4.2数据排序5.数据分组与聚合6.其他数据清洗方法6.1字符串处理6.2时间序列处理6.3数据类型转换1.引言数据清洗是数据科学和数据分析中的一个重要步骤，旨在提升数据的质
大数据领域的深度分析——AI是在帮助开发者还是取代他们？阳爱铭大数据与数据中台技术沉淀大数据人工智能后端数据库架构数据库开发 etl工程师 chatgpt
在大数据领域，生成式人工智能（AIGC）的应用正在迅速扩展，改变了数据科学家和开发者的工作方式。本文将从大数据的专业视角，探讨AI工具在这一领域的作用，以及它们是如何帮助开发者而非取代他们的。1.大数据领域的AI工具现状在大数据领域，AI工具已经取得了显著进展，以下是几款主要的AI工具及其功能和实际应用：ApacheSpark+MLlib：ApacheSpark是一个开源的分布式计算系统，广泛用于
AI学习者的Python快速入门指南 AI科研视界人工智能 python chatgpt
Python已成为AI和数据科学的事实标准编程语言。尽管存在无需编码的解决方案，但学习编程仍然是构建完全定制化AI项目或产品的必要途径。在本文中，我将分享一个Python入门快速指南，帮助初学者进行AI开发。我会先介绍基础知识，然后分享一个带有示例代码的具体实例。图片来自Canva。Python是一种编程语言，也就是说，它是给计算机下达我们无法或不愿亲自执行的精确指令的一种方式[1]。这在自动化特
python基础学习 agente python python 学习开发语言
第一章标识符1、python被称为胶水语言，可以跟各个代码能一块儿使用爬虫、数据分析web全栈开发、数据科学方向、人工智能的机械学习和深度学习、自动化运维、爬虫、办公自动化python是跨平台的，python是解释型语言，不需要编译，python是面向对象的语言1、print()#print()可以输出数字、字符串、含有运算符的表达式#print()可以将内容输出到显示器、文件#print()输出
Holoviews 创建复杂的可视化布局步入烟尘 Python超入门指南全册 Holoviews python
如何使用Holoviews创建复杂的可视化布局在数据科学和数据可视化领域，Holoviews是一个非常强大的Python库，它可以帮助我们轻松地创建各种复杂的可视化布局。Holoviews提供了一个高层次的接口，使得创建交互式和静态可视化变得简单而直观。本文将介绍如何使用Holoviews来创建复杂的可视化布局，让你的数据以最直观的方式展现出来。安装Holoviews首先，确保你已经安装了Holo
程式语言区分白总Server html python java c++开发语言
程序语言有很多种，每种都有其特定的用途和特点。以下是一些广泛使用的编程语言：1.Python：易于学习，广泛用于数据科学、机器学习、网络开发、自动化等领域。2.Java：广泛应用于企业级应用、安卓开发、大型系统开发等。3.C：一种基础语言，广泛用于系统编程、嵌入式开发、操作系统等领域。4.C++：C语言的扩展，支持面向对象编程，用于游戏开发、高性能应用等。5.JavaScript：主要用于网页前端
双峰高斯分布蒙特卡洛模并画pdf和cdf图 tpHRlIi pdf
双峰高斯分布蒙特卡洛模并画pdf和cdf图可设置双峰组合分布中不同正态参数的分布比例，也可以对多个组合进行计算matlab代码，备注清楚，更改为自己需要的分布比例与参数即可双峰高斯分布蒙特卡洛模并画pdf和cdf图在现代数据科学中，探究数据的分布状态是非常重要的。而在实际应用场景中，数据不一定总是符合单一的分布模型。双峰高斯分布是一种较为常见的数据分布模型，它适用于许多实际场景，比如人口年龄分布、
【数据获取与读取】JSON & CSV yogurt=b 数据分析 json python
数据分析流程获取数据-读取数据-评估数据-清洗数据-整理数据-分析数据-可视化数据公开数据集飞桨（百度旗下深度学习平台）数据集：https:/aistudio.baidu.com/aistudio/datasetoverview天池（阿里云旗下开发者竞赛平台）:https:/tianchiaiyun.com/dataset/和鲸社区（数据科学开源社区）数据集：htps://www.heywhale
Python中的matplotlib库安装教程：多种方法详解代码前哨站 python matplotlib 开发语言
在数据可视化的世界里，matplotlib是一个非常重要的工具库。它提供了一整套绘图功能，帮助我们将数据可视化为图表。无论你是数据科学家、工程师，还是只是在数据处理领域有所涉猎，掌握matplotlib的安装方法都能让你的工作更加高效。本文将详细介绍几种在Python中安装matplotlib的方法。方法一：使用pip安装pip是Python包管理工具，使用它安装matplotlib非常简单。以下
【conda】完整指南：如何配置 Conda 环境与镜像源丶2136 conda conda
目录1.Conda配置概述2.配置镜像源2.1查找合适的镜像源2.2配置镜像源2.3优先级设置3.环境管理3.1设置默认环境路径3.2默认环境3.3环境清理3.4自定义命令4.其他常用配置选项4.1配置日志级别4.2缓存设置4.3自动更新总结conda是一个功能强大的包和环境管理工具，广泛用于数据科学、机器学习和科学计算领域。为了最大化利用conda，了解其配置选项至关重要。本文将深入探讨cond
顶级的python入门教程！小白到大师，从这篇教程开始！马大哈（Python） python pycharm 开发语言学习青少年编程
1.为什么要学习Python？学习Python的原因有很多，以下是几个主要的原因：广泛应用：Python被广泛应用于Web开发、数据科学、人工智能、机器学习、自动化运维、网络爬虫、科学计算、游戏开发等多个领域。掌握Python意味着你可以在这些领域中找到丰富的职业机会。入门简单：Python的语法简洁明了，易于学习和理解，对于编程初学者来说非常友好。它的代码风格一致，可读性强，有助于培养良好的编程
python指南之Pandas和Matplotlib进行数据清洗步入烟尘 Python超入门指南全册 Matplotlib matplotlib 开发语言 python
使用Pandas和Matplotlib进行数据清洗与可视化在数据科学领域，数据清洗和可视化是构建数据驱动解决方案的重要步骤。本文将详细介绍如何使用Pandas进行数据清洗，并结合Matplotlib进行可视化。通过实际代码示例，我们将处理一个包含缺失值、不一致格式和噪声数据的示例数据集，最终将其转换为可视化友好的形式。1.准备工作在开始之前，我们需要安装必要的Python库。如果尚未安装，可以使用
【Rust光年纪】从心理学计算到机器学习：Rust语言数据科学库全方位解读！ friklogff Rust光年纪机器学习 rust 人工智能
Rust语言的数据科学和机器学习库大揭秘：核心功能、使用指南一网打尽！前言随着数据科学和机器学习在各个领域的广泛应用，使用高效、稳定的编程语言来实现这些功能变得尤为重要。Rust语言作为一种安全且高性能的系统编程语言，正逐渐成为数据科学和机器学习领域的热门选择。本文将介绍几个优秀的Rust库，它们分别用于心理学计算、统计分析、数据科学和机器学习，让我们一同探索它们的核心功能、使用场景和API概览。
Python大数据：深入探索Hadoop库的使用 t0_54coder Python基础入门教程大数据 python hadoop
在大数据的世界中，Python和Hadoop结合使用，为处理庞大数据集提供了强大的工具。本文将详细探讨如何在Python中使用Hadoop，特别是通过实例来展示这一过程。1.简介Hadoop是一个用于分布式处理大量数据的开源框架。尽管Hadoop主要用Java编写，但通过HadoopStreaming，Python程序员也可以利用其强大的数据处理能力。Python在数据科学中的流行，加上Hadoo
Python与R的完美协作：深入解析subprocess模块调用R脚本的参数传递机制十步杀一人_千里不留行 python r语言 microsoft
在数据科学和机器学习领域，Python和R经常需要协同工作。作为一名数据科学家，掌握这两种语言的交互技巧至关重要。今天，我们将深入探讨使用Python的subprocess模块调用R脚本时的参数传递机制，揭示其中的细节和潜在陷阱。两种参数传递方式的解析方法一：直接传递参数这种方法直接在subprocess.run()函数中传递参数：result1=subprocess.run([rscript_p
企业大规模部署机器学习模型的困境 AI前线
作者|JustinGage译者|Sambodhi编辑|VincentAI前线出品｜ID：ai-frontAI前线导语：“尽管人工智能正在被广泛应用，但大规模部署基于AI的产品如此之难，不过，一些新技术正被寄以厚望改变这一现状。基石风投合伙公司研究人工智能、机器学习的分析师、美国纽约大学的前数据科学家JustinGage不久前写了一篇文章[1]，为我们讲述了机器学习的部署和建模的不同之处，以及在公司
R语言基础学习 weixin_55475210 r语言学习开发语言
R与RStudioR语言是数据科学和统计分析的语言，适合数据分析和数据可视化。R是开源的，拥有丰富的包（packages），可以与优化软件进行交互。RStudio提供了R语言的集成开发环境，支持代码编辑、运行、调试等功能。下载R：CRAN下载RStudio：RStudioDownloadRStudio界面基本操作保存/打开代码文件使用.R扩展名。保存/打开环境文件使用.Rdata扩展名。快捷键操作
数据科学简讯 2023-03-24 数科每日
头条GitHubCopilotXCopilot即将推出新的对话界面、GPT-4升级、错误修复建议、文档编写和自动拉取请求。这些发布是GitHub成为开发者工具包强国目标的下一步。谷歌和微软的聊天机器人在错误信息的对决中相互引用根据TheVerge上的一篇评论文章，微软、谷歌和OpenAI等大型科技公司仓促推出AI聊天机器人有可能破坏网络的信息生态系统。作者举了一个例子，微软的Bing聊天机器人错误
Python读取Excel数据 shiming8879 python excel 开发语言
在处理Excel数据时，Python提供了多种强大的库来读取、处理以及分析这些数据。最常用的库之一是pandas，它建立在numpy、matplotlib和scipy等库之上，为数据分析和操作提供了高级的、易于使用的数据结构和数据分析工具。另一个流行的库是openpyxl，它专门用于读写Excel2010xlsx/xlsm/xltx/xltm文件。一、引言在数据科学、机器学习、财务分析等多个领域，
看demo学算法之 k-means 小琳ai 算法 kmeans 机器学习
大家好，这里是小琳AI课堂！今天我们要继续深入探讨k-means算法，这是一种在数据科学和机器学习中非常流行的聚类方法。✨k-means的四大步骤随机启动：先随便挑k个数据点当老大（簇中心）。分配小弟：每个数据点看看离哪个老大最近，然后加入那个团队。老大换人：每个团队重新算算中心位置，换个新老大。重复搞事：一直重复分配小弟和换老大的步骤，直到老大们换得差不多了或者到了预定的次数。k-means的闪
布隆过滤器 guangzhi0633 面试职场和发展
揭秘数据筛选的神秘利器在浩瀚的数据海洋中，如何快速、准确地找到我们需要的信息？这不仅是数据科学家的难题，也是每一个与数据打交道的人面临的挑战。今天，让我们一起走进布隆过滤器（BloomFilter）的世界，看看这个被誉为“筛选神器”的技术如何帮助我们在海量数据中淘金。布隆过滤器的奥秘想象一下，你手中有一个巨大的筛子，它不仅能过滤掉无用的沙子，还能智能地保留下珍贵的金粒。布隆过滤器就是这样的“智慧筛
《R数据科学》第十一章练习题 sizhishizi R r语言开发语言数据分析
美国民主党、共和党和中间派的人数比例是如何随时间而变化的？>gss_cat%>%mutate(partyid=fct_collapse(partyid,#利用fct_collapse函数对因子水平进行同党派类别合并。other=c('NOanswer',"Don'tknow","Otherparty"),rep=c("Strongrepublican","Notstrrepublican"),in
Python：解锁高效编程与数据分析的钥匙我的运维人生 python 数据分析开发语言运维开发技术共享
Python：解锁高效编程与数据分析的钥匙在当今快速发展的信息技术时代，Python作为一种高级编程语言，凭借其简洁的语法、强大的库支持和广泛的应用场景，在数据科学、机器学习、Web开发等多个领域大放异彩。本文将深入探讨Python的核心优势，并通过实际代码案例展示其在数据处理和分析方面的强大能力。Python的核心优势简洁易读：Python以其简洁明了的语法著称，这使得初学者能够快速上手，同时也
Azure和Transformers的详细解释漫天飞舞的雪花 azure microsoft python
AzureAI是微软提供的人工智能(AI)解决方案的集合，旨在帮助开发人员、数据科学家和企业轻松构建和部署智能应用程序。以下是对AzureAI各个方面的详细解释：AzureAI主要组件AzureCognitiveServices（认知服务）：计算视觉：包括图像识别、物体检测、人脸识别以及图像标注等。语音服务：包括语音识别、语音合成、说话人识别和语音翻译等。语言理解服务：包括文本分析、语言翻译、情感
Streamlit来开发一个趣味应用 WangLinXX 学习服务器前端 linux
Streamlit来开发一个趣味应用。Streamlit是一个用于构建数据科学应用的Python库，它可以帮助你通过简单的代码快速构建交互式应用程序。下面是一个简单的示例，展示如何使用Streamlit开发一个“猜数字”的游戏应用：importstreamlitasstimportrandomdefguess_number():number=random.randint(1,100)st.writ
【conda 】完美掌控 Conda 配置：高级设置与实用技巧丶2136 conda conda
目录一、`conda`配置文件详细设置1.基本设置2.高级配置3.其他配置选项二、实用命令1.更新`conda`配置2.显示当前配置3.添加和删除频道三、解决常见问题1.包冲突2.网络问题3.包缓存问题总结在数据科学和开发工作中，conda已成为不可或缺的工具。它不仅简化了包和环境的管理，还提供了多种高级配置选项，帮助用户更好地控制其工作环境。本文将深入探讨conda的高级配置选项，并提供实用的命
矩阵求逆（JAVA）初等行变换 qiuwanchi 矩阵求逆（JAVA）
package gaodai.matrix; import gaodai.determinant.DeterminantCalculation; import java.util.ArrayList; import java.util.List; import java.util.Scanner; /** * 矩阵求逆(初等行变换) * @author 邱万迟 *
JDK timer antlove java jdk schedule code timer
1.java.util.Timer.schedule(TimerTask task, long delay)：多长时间（毫秒）后执行任务 2.java.util.Timer.schedule(TimerTask task, Date time)：设定某个时间执行任务 3.java.util.Timer.schedule(TimerTask task, long delay,longperiod
JVM调优总结 -Xms -Xmx -Xmn -Xss coder_xpf jvm 应用服务器
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx
JDBC连接数据库 Array_06 jdbc
package Util; import java.sql.Connection; import java.sql.DriverManager; import java.sql.ResultSet; import java.sql.SQLException; import java.sql.Statement; public class JDBCUtil { //完
Unsupported major.minor version 51.0（jdk版本错误） oloz java
java.lang.UnsupportedClassVersionError: cn/support/cache/CacheType : Unsupported major.minor version 51.0 (unable to load class cn.support.cache.CacheType) at org.apache.catalina.loader.WebappClassL
用多个线程处理1个List集合 362217990 多线程 thread list 集合
昨天发了一个提问，启动5个线程将一个List中的内容，然后将5个线程的内容拼接起来，由于时间比较急迫，自己就写了一个Demo，希望对菜鸟有参考意义。。 import java.util.ArrayList; import java.util.List; import java.util.concurrent.CountDownLatch; public c
JSP简单访问数据库香水浓 sql mysql jsp
学习使用javaBean，代码很烂，仅为留个脚印 public class DBHelper { private String driverName; private String url; private String user; private String password; private Connection connection; privat
Flex4中使用组件添加柱状图、饼状图等图表 AdyZhang Flex
1.添加一个最简单的柱状图 ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 <?xml version= "1.0"&n
Android 5.0 - ProgressBar 进度条无法展示到按钮的前面 aijuans android
在低于SDK < 21 的版本中，ProgressBar 可以展示到按钮前面，并且为之在按钮的中间，但是切换到android 5.0后进度条ProgressBar 展示顺序变化了，按钮再前面，ProgressBar 在后面了我的xml配置文件如下： [html] view plain copy <RelativeLa
查询汇总的sql baalwolf sql
select list.listname, list.createtime,listcount from dream_list as list , (select listid,count(listid) as listcount from dream_list_user group by listid order by count(
Linux du命令和df命令区别 BigBird2012 linux
1，两者区别 du，disk usage,是通过搜索文件来计算每个文件的大小然后累加，du能看到的文件只是一些当前存在的，没有被删除的。他计算的大小就是当前他认为存在的所有文件大小的累加和。
AngularJS中的$apply，用还是不用？ bijian1013 JavaScript AngularJS $apply
在AngularJS开发中，何时应该调用$scope.$apply()，何时不应该调用。下面我们透彻地解释这个问题。但是首先，让我们把$apply转换成一种简化的形式。 scope.$apply就像一个懒惰的工人。它需要按照命
[Zookeeper学习笔记十]Zookeeper源代码分析之ClientCnxn数据序列化和反序列化 bit1129 zookeeper
ClientCnxn是Zookeeper客户端和Zookeeper服务器端进行通信和事件通知处理的主要类，它内部包含两个类，1. SendThread 2. EventThread， SendThread负责客户端和服务器端的数据通信，也包括事件信息的传输，EventThread主要在客户端回调注册的Watchers进行通知处理 ClientCnxn构造方法 &
【Java命令一】jmap bit1129 Java命令
jmap命令的用法： [hadoop@hadoop sbin]$ jmap Usage: jmap [option] <pid> (to connect to running process) jmap [option] <executable <core> (to connect to a
Apache 服务器安全防护及实战 ronin47
此文转自IBM. Apache 服务简介 Web 服务器也称为 WWW 服务器或 HTTP 服务器 (HTTP Server)，它是 Internet 上最常见也是使用最频繁的服务器之一，Web 服务器能够为用户提供网页浏览、论坛访问等等服务。由于用户在通过 Web 浏览器访问信息资源的过程中，无须再关心一些技术性的细节，而且界面非常友好，因而 Web 在 Internet 上一推出就得到
unity 3d实例化位置出现布置？ brotherlamp unity教程 unity unity资料 unity视频 unity自学
问：unity 3d实例化位置出现布置？答：实例化的同时就可以指定被实例化的物体的位置,即 position Instantiate (original : Object, position : Vector3, rotation : Quaternion) : Object 这样你不需要再用Transform.Position了, 如果你省略了第二个参数(
《重构，改善现有代码的设计》第八章 Duplicate Observed Data bylijinnan java 重构
import java.awt.Color; import java.awt.Container; import java.awt.FlowLayout; import java.awt.Label; import java.awt.TextField; import java.awt.event.FocusAdapter; import java.awt.event.FocusE
struts2更改struts.xml配置目录 chiangfai struts.xml
struts2默认是读取classes目录下的配置文件，要更改配置文件目录，比如放在WEB-INF下，路径应该写成../struts.xml(非/WEB-INF/struts.xml) web.xml文件修改如下： <filter> <filter-name>struts2</filter-name> <filter-class&g
redis做缓存时的一点优化 chenchao051 redis hadoop pipeline
最近集群上有个job，其中需要短时间内频繁访问缓存，大概7亿多次。我这边的缓存是使用redis来做的，问题就来了。首先，redis中存的是普通kv，没有考虑使用hash等解结构，那么以为着这个job需要访问7亿多次redis，导致效率低，且出现很多redi
mysql导出数据不输出标题行 daizj mysql 数据导出去掉第一行去掉标题
当想使用数据库中的某些数据，想将其导入到文件中，而想去掉第一行的标题是可以加上-N参数如通过下面命令导出数据： mysql -uuserName -ppasswd -hhost -Pport -Ddatabase -e " select * from tableName" > exportResult.txt 结果为： studentid
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
先下载PHPEXCEL类文件，放在class目录下面，然后新建一个index.php文件，内容如下 <?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('
爱情格言 dcj3sjt126com 格言
1) I love you not because of who you are, but because of who I am when I am with you. 　　我爱你，不是因为你是一个怎样的人，而是因为我喜欢与你在一起时的感觉。 　　2) No man or woman is worth your tears, and the one who is, won‘t
转 Activity 详解——Activity文档翻译 e200702084 android UI sqlite 配置管理网络应用
activity 展现在用户面前的经常是全屏窗口，你也可以将 activity 作为浮动窗口来使用（使用设置了 windowIsFloating 的主题），或者嵌入到其他的 activity （使用 ActivityGroup ）中。当用户离开 activity 时你可以在 onPause() 进行相应的操作。更重要的是，用户做的任何改变都应该在该点上提交 ( 经常提交到 ContentPro
win7安装MongoDB服务 geeksun mongodb
1. 下载MongoDB的windows版本：mongodb-win32-x86_64-2008plus-ssl-3.0.4.zip，Linux版本也在这里下载，下载地址： http://www.mongodb.org/downloads 2. 解压MongoDB在D:\server\mongodb, 在D:\server\mongodb下创建d
Javascript魔法方法:__defineGetter__,__defineSetter__ hongtoushizi js
转载自： http://www.blackglory.me/javascript-magic-method-definegetter-definesetter/ 在javascript的类中,可以用defineGetter和defineSetter_控制成员变量的Get和Set行为例如,在一个图书类中,我们自动为Book加上书名符号: function Book(name){
错误的日期格式可能导致走nginx proxy cache时不能进行304响应 jinnianshilongnian cache
昨天在整合某些系统的nginx配置时，出现了当使用nginx cache时无法返回304响应的情况，出问题的响应头： Content-Type:text/html; charset=gb2312 Date:Mon, 05 Jan 2015 01:58:05 GMT Expires:Mon , 05 Jan 15 02:03:00 GMT Last-Modified:Mon, 05
数据源架构模式之行数据入口 home198979 PHP 架构行数据入口
注：看不懂的请勿踩，此文章非针对java，java爱好者可直接略过。一、概念行数据入口（Row Data Gateway）：充当数据源中单条记录入口的对象，每行一个实例。二、简单实现行数据入口为了方便理解，还是先简单实现： <?php /** * 行数据入口类 */ class OrderGateway { /*定义元数
Linux各个目录的作用及内容 pda158 linux 脚本
1）根目录“/” 　　根目录位于目录结构的最顶层，用斜线（/）表示，类似于 Windows 操作系统的“C:\“，包含Fedora操作系统中所有的目录和文件。　　2）/bin 　　/bin 　　目录又称为二进制目录，包含了那些供系统管理员和普通用户使用的重要 linux命令的二进制映像。该目录存放的内容包括各种可执行文件，还有某些可执行文件的符号连接。常用的命令有：cp、d
ubuntu12.04上编译openjdk7 ol_beta HotSpot jvm jdk OpenJDK
获取源码从openjdk代码仓库获取(比较慢) 安装mercurial Mercurial是一个版本管理工具。 sudo apt-get install mercurial 将以下内容添加到$HOME/.hgrc文件中，如果没有则自己创建一个： [extensions] forest=/home/lichengwu/hgforest-crew/forest.py fe
将数据库字段转换成设计文档所需的字段 vipbooks 设计模式工作正则表达式
哈哈，出差这么久终于回来了，回家的感觉真好！ PowerDesigner的物理数据库一出来，设计文档中要改的字段就多得不计其数，如果要把PowerDesigner中的字段一个个Copy到设计文档中，那将会是一件非常痛苦的事情。

数据科学基础复习2

数据科学基础复习2

文章目录

统计学基本概念

4.1 总体与样本

4.2 参数估计

4.3 假设检验

4.4 方差分析*

4.5 回归分析*

凸优化

智能优化算法

遗传算法

pso粒子群优化算法

机器学习初探

分类模型评估

K折叠交叉验证(K-fold cross validation)

二分类问题

特征工程

数据预处理

特征提取

特征选择

特征降维

简答题

(1)简述梯度下降法的关键步骤。

(2)简述遗传算法中轮盘赌选择种群的方法。

(3)简述粒子群算法中粒子更新关键步骤。

(4)简述阶方阵的所有特征值与方阵的行列式和迹之间的关系。

(5)简述极大似然估计算法

(6)给出方阵的特征多项式定义

(7)简述PCA关键计算步骤

(8)简述C4.5算法中选取根节点的特征属性及处理连续属性值的关键步骤

(9)请给出凸函数的定义。

(10)简述K折交叉验证。

(9)请给出凸函数的定义。

(10)简述K折交叉验证。

你可能感兴趣的:(数据科学)