之墨_

【数据分析】— 特征工程、特征设计、特征选择、特征评价、特征学习

【数据分析】— 特征工程

特征工程是什么？ (Feature Engineering)
- 特征工程的意义
- 特征工程的流程
特征的设计
- 从原始数据中如何设计特征？
- - 基本特征的提取
  - 创建新的特征
  - 函数变换特征
  - 独热特征表示 One-hot Representation
  - 数据的统计特征
  - TF-IDF（词频-逆文档率）
  - 如何找到关键特征（词）？
  - 计算 TF-IDF
  - TF-IDF（词频-逆文档率）—应用
  - 特征组合：构造高阶特征
  - 举例：第二届“中国高校计算机大赛-大数据挑战赛”
  - - 基本特征的提取
    - 创建新的特征
- 如何挑选有效的特征（Subset Selection问题）
- - 如何生成特征子集
  - - 举例：
  - 如何评价特征子集？
  - - 1. **过滤式(Filter)评价策略方法**
    - 2. 封装式(Wrapper)评价策略方法
    - 3. 嵌入式(Embedded)评价策略方法
    - - 1). 带惩罚项的特征选择方法
      - 2). 基于树模型的特征选择方法
      - 举例：
传统特征工程的缺点
- 特征学习
- - 自编码结构(Auto-Encoder)
  - 卷积神经网络(CNN): 常用于图像特征提取
  - 卷积神经网络(CNN): 常用于图像特征提取
  - 循环神经网络(RNN): 常用于序列数据的特征提取
- 利用标准数据集进行特征学习（特征预训练）

特征工程是什么？ (Feature Engineering)

在数据预处理以后（或者数据预处理过程中），如何从数据中提取有效的特征，使这些特征能够尽可能的表达原始数据中的信息，使得后续建立的数据模型能达到更好的效果，就是特征工程所要做的工作。

特征工程的意义

著名数据科学家Andrew Ng 对特征工程这样描述的：“虽然提取数据特征是非常困难、耗时并且需要相关领域的专家知识，但是机器学习应用的基础就是特征工程”
特征越好，灵活性越强
好的特征能使一般的模型也能获得很好的性能，在不复杂的模型上运行速度很快，并且容易理解和维护。
特征越好，构建的模型越简单
好的特征不需要花太多的时间去寻找最优参数，降低了模型的复杂度，使模型趋于简单。
特征越好，模型的性能越出色
好的特征能够使模型表现越出色是毫无疑问的，而特征工程的最终目的就是提升模型的性能。

特征工程的流程

特征的设计

从原始数据中如何设计特征？

基本特征的提取

基本特征的提取过程就是对原始数据进行预处理，将其转化成可以使用的数值特征。常见的方法有：数据的归一化、离散化、缺失值补全和数据变换等。

创建新的特征

根据对应的领域知识，在基本特征的基础上进行特征之间的比值和交叉变化来构建新的特征。

函数变换特征

左图是根据两个Sin函数（分别是每秒7个和17个周期），以及一些噪声数据得到的序列图；
右图是由傅立叶变换得到了频率图，可以看出变换后成功得到了两个概率最大的频率7和17（其中纵坐标是振幅，即概率值）

独热特征表示 One-hot Representation

将每个属性表示成一个很长的向量（每维代表一个属性值，如词语）
- 函数：[0, 0, 1, 0, 0, …, 0, 0, 0, 0]
- 图像：[0, 0, 0, 0, 0, …, 0, 0, 0, 1]
优点：直观，简洁
缺陷：
- “维度灾难” 问题：尤其是我们所构建的语料库包含的词语数据非常多的时候，独热表征在空间和时间上的开销都是十分巨大的
- “语义鸿沟” 现象：任意两个词之间都是完全孤立的，是无法刻画句子中词语的语序信息的（之前提到的词袋模型也是如此）。例如，我们是无法通过独热表征来判断“函数”与“偶函数”之间的联系的（但实际上这两个词语是非常相关的）。

数据的统计特征

如：文档中的词频统计
字典
文档词频特征

TF-IDF（词频-逆文档率）

算法简单高效,工业界用于最开始的数据预处理
主要思想：找到能代表该文档中的**“关键词”**
词频（TF, Term Frequency）
- TF = 某个词(特征值)在句子(数据)中出现的频率
逆文档率（IDF, Inverse Document Frequency）
- IDF = log(语料库(数据库)的句子(数据)总数 / 包含该词(特征值)的句子(数据)总数)
每个特征值（词）的重要性
- $w_{ij}= tf*idf = TF_{ij}*log(N/DF_i)$

如何找到关键特征（词）？

根据 TF 可以找到一个句子中的高频词（特征值）（删去无意义的词，如停用词“的”、“是”、“了”等）
根据 IDF 继续对句子中剩下的词进行权重赋值并排序，在数据库中越常见的词（特征值）权重越小
根据 TF-IDF 我们可以得到一个句子（数据）中所有词（特征值）的TF-IDF 值，进而排序筛选得到每个句子最有代表性的特征（“关键词”）

计算 TF-IDF

优点
- 简单快速的词（特征）重要性表示方法，结果比较符合实际情况
- 应用广泛：不仅限于文本数据
缺点
- 单纯以“词频”衡量一个词的重要性，不够全面，有时重要的词可能出现次数并不多
- 无法体现词的位置信息、顺序信息，出现位置靠前的词与出现位置靠后的词，都被视为重要性相同
- 无法发现词（特征）的隐含联系，如同义词等

TF-IDF（词频-逆文档率）—应用

搜索引擎；关键词提取；文本相似性；文本摘要
推荐系统
- 可以计算“用户-标签-商品”的特征
- 用户-标签的TF-IDF
- 用户：i。标签：l。用户总数：M。

特征组合：构造高阶特征

上述所有构造的特征均可以：两两、三三、… 进行组合

举例：第二届“中国高校计算机大赛-大数据挑战赛”

简单的说，该赛题的求解目标是利用数据分析将人工的鼠标轨迹和代码生成的鼠标轨迹区分开来。这里的鼠标轨迹是指一种完成一种验证手段——拖动滑块到指定区域时鼠标的轨迹。
原始数据格式：一系列连续点的坐标及其对应时间，目标点的坐标
例如：(2,3,4),(2,5,6)(4,3,7) (4,3)，该轨迹中含有三个点的坐标，以(x,y, time)的时间表示，终点坐标为(4,3)

基本特征的提取

轨迹运动数据的统计值：运动速度/加速度/角加速度/角速度的均值/极值/最值/中位数等
轨迹的描述：运动在x轴方向是否为单向，曲线平滑程度，等

创建新的特征

基本特征的简单二元运算，加/减/乘/除/平方和/和平方/倒数和
运动数据在某一维上的偏导
领域专家知识

如何挑选有效的特征（Subset Selection问题）

在实际应用中，特征的数量往往比较多，其中可能会存在不相关的特征。
特征数量越多，分析特征、训练模型所需要的时间就越长，同时容易引起“维度灾难”，使得模型更加复杂。
特征选择通过剔除不相关的特征或冗余的特征来减少特征数量，从而简化了模型并且提升了模型的泛化能力。

如何生成特征子集

举例：

如何评价特征子集？

不同的特征选择算法不仅对特征子集评价标准不同，有的还需要结合后续的学
习算法模型。因此根据特征选择中子集评价标准和后续算法的结合方式主要分为过滤式(Filter)、封装式(Wrapper) 和嵌入式(Embedded) 三种

1. 过滤式(Filter)评价策略方法

独立于后续的学习算法模型来分析数据集的固有的属性
采用一些基于信息统计的启发式准则来评价特征子集
启发式的评价函数: 距离度量、信息度量、依赖性度量、一致性度量

2. 封装式(Wrapper)评价策略方法

将特征选择作为学习算法一个组成部分，需要结合后续的学习算法，并直接将学习算法的分类性能作为特征重要性的评价标准
直接使用分类器的性能作为评价的标准，选出来的特征子集对分类一定有最好的性能
相对于Filter 选择方法，Wrapper 方法所选择的特征子集的规模要小得多，有利于关键特征的辨识，模型的分类性能更好。但Wrapper 方法泛化能力较差，当改变学习算法时，需要针对该学习算法重新进行特征选择，算法的计算复杂度高.

3. 嵌入式(Embedded)评价策略方法

基于Embedded 嵌入式特征选择方法结合了学习算法和特征选择机制去评价学习过程中被考虑的特征。特征选择算法嵌入到学习和分类算法中，也就是特征选择是算法模型中的一部分，算法模型训练和特征选择同时进行，互相结合（即，算法具有自动进行特征选择的功能）。常见的方法有：

1). 带惩罚项的特征选择方法

其基本思想就是在模型损失函数上加上一个惩罚项，模型训练时通过惩罚项来对特征的系数进行惩罚处理，而在特征选择方法中常使用的是L1 正则化(regularization)项。
正则化是把额外的约束或者惩罚项加到已有模型（损失函数），以防止过拟合并提高泛化能力。
损失函数由原来的 $E (X, Y)$ 变为 $E(X,Y)+lambda||w||_1$ ，
$w$ 是模型系数组成的向量（有些地方也叫参数parameter，coefficients）， $∣∣ \cdot ∣∣$ 一般是L1或者L2范数， $l amb d a$ 是一个可调的参数，控制着正则化的强度。当用在线性模型上时，L1正则化和L2正则化也称为Lasso和Ridge

2). 基于树模型的特征选择方法

这些算法在树增长过程的每一步都必须选择一个特征，将样本集划分为纯度更高的子集，而每次选择出的都是使划分效果最佳的特征，所以决策树的生成过程就是特征选择的过程。当决策树完全生成后，每个结点分裂所使用的特征组成的集合就是最后筛选出的特征子集。比如在比赛中经常使用的迭代决策树(GBDT)、随机森林(RF) 等算法。

举例：

前面初步筛选得到的200维特征，将其输入xgboost(一种高效的梯度提升机（GBM，Gradient boosting machine）算法)
训练得到特征重要性，也就是分裂树节点时起到的作用权重，自行划分阈值选取特征子集
为了保证不遗漏重要特征，这里不妨将树的深度设高一些

传统特征工程的缺点

特征学习

如何从数据中能够自主的学习特征，在这里我们主要介绍在深度学习中常用的三种网络结构。

自编码结构(Auto-Encoder)

卷积神经网络(CNN): 常用于图像特征提取

卷积神经网络(CNN): 常用于图像特征提取

循环神经网络(RNN): 常用于序列数据的特征提取

利用标准数据集进行特征学习（特征预训练）

作用：模型效果验证 & 应用问题中的模型预训练
图像数据预训练：ImageNet
- http://www.image-net.org/
- 1400万张图片数据，2万类别，已标注
- 常用模型：ResNet，AlexNet，VGG等
- 常见应用：图像分类、目标检测、目标定位，场景分类等
文本数据预训练：Twitter，Wiki
- https://nlp.stanford.edu/projects/glove/
- 2 Billon tweets, 27 Billion 词数，1.2M 词表
- 常用模型：CBOW，Skip-gram，Glove等Word2Vec模型
- 常见应用：文本分类，文本推理，翻译等
训练好的特征即可直接作为其它模型的输入来使用

你可能感兴趣的:(数据分析,机器学习)

HarmonyNext实战案例：基于ArkTS的高性能分布式机器学习应用开发 harmonyos-next
HarmonyNext实战案例：基于ArkTS的高性能分布式机器学习应用开发引言在HarmonyNext生态系统中，分布式机器学习是其核心特性之一。通过分布式机器学习，开发者可以充分利用多设备的计算资源，实现复杂模型的训练与推理。本文将深入探讨如何使用ArkTS12+语法开发一个高性能的分布式机器学习应用，涵盖从基础概念到高级技巧的全面讲解。通过本案例，您将学习到如何利用HarmonyNext的分
成功案例丨开发时间从1小时缩短到3分钟：如何利用历史数据训练AI模型，预测设计性能？ Altair澳汰尔 PhysicsAI 仿真 AI 机器学习 HyperWorks 数据分析
案例简介PhysicsAI™助力HEROMOTOCORP实现设计效率提升99%印度领先的跨国摩托车和踏板车制造商HeroMotoCorpLtd.（以下简称Hero）致力于通过将人工智能（AI）和机器学习技术融入有限元分析（FEA）流程，以加速产品开发周期。在其首个AI驱动项目——摩托车把手设计优化中，Hero采用了PhysicsAI™几何深度学习解决方案，利用历史数据训练AI模型并预测设计性能。A
探索R语言：经典案例解析与源代码翠绿探寻 r语言信息可视化开发语言 R语言
探索R语言：经典案例解析与源代码引言：R语言是一种流行的数据分析和统计建模工具，具有丰富的功能和广泛的应用领域。在本文中，我们将通过经典案例来探索R语言的一些重要功能和技术。我们将提供相应的源代码，以便读者能够实际运行并理解这些示例。案例一：数据导入与处理在数据分析中，数据导入和处理是首要任务。R语言提供了丰富的函数和包，用于处理各种数据格式。下面是一个简单的示例，演示了如何导入和处理CSV格式的
数据分析与AI丨AI Fabric：数据和人工智能架构的未来 Altair澳汰尔数据分析 ai RapidMiner 知识图谱人工智能
AIFabric架构是模块化、可扩展且面向未来的，是现代商业环境中企业实现卓越的关键。在当今商业环境中，数据分析和人工智能领域发展可谓日新月异。几乎每天都有新兴技术诞生，新的应用场景不断涌现，前沿探索持续拓展。可遗憾的是，众多企业在利用数据和人工智能方面，脚步总是滞后。这是每个行业进行创新和获得竞争优势的冲刺阶段，但正如大多数企业时常感受到的那样，大规模实施下一代数据和AI工具说起来容易做起来难。
Linux下安装Mysql环境软件分享工作室 Linux linux mysql 运维
1.mysql说明MySQL是一种开源的关系型数据库管理系统，它具有高性能、可靠性和灵活性的特点。MySQL支持多种操作系统，包括Windows、Linux和MacOS等。它是最流行的数据库管理系统之一，被广泛应用于网站开发、数据存储和数据分析等领域。2.mysql优点1.开源免费：MySQL是开源软件，可以免费使用和修改，没有任何使用限制。2.跨平台：MySQL可以在多种操作系统上运行，包括Wi
Python学习指南：系统化路径 + 避坑建议程之编 Python全栈通关秘籍青少年编程 python 开发语言人工智能机器学习
新手小白学习编程就像搭积木——需要从基础开始，逐步构建知识体系。以下是为你量身定制的Python学习路径，帮你告别杂乱，高效入门！一、学习前的关键认知明确目标：想用Python做什么？数据分析（如Excel自动化、可视化）Web开发（如搭建网站）人工智能（如机器学习）自动化办公（如处理文件、邮件）目标不同，后续学习侧重点不同（但基础通用）。避免误区：❌只看教程不写代码✅边学边动手，哪怕抄代码也要运
机器学习之KMeans算法 Mr终游机器学习机器学习算法 kmeans
目录一、KMeans的核心思想二、KMeans算法流程三、KMeans的关键点1.优点：2.缺点：四、如何确定最佳k值1.肘部法则2.轮廓系数五、Kmeans的典型应用场景六、代码示例KMeans是一种广泛使用的无监督学习算法，主要用于聚类分析（Clustering）。它的目标是将数据集划分为K个互不重叠的子集（簇，Cluster），使得同一簇内的数据点尽可能相似，不同簇之间的数据点尽可能差异显著
Python机器学习实战：构建序列到序列(Seq2Seq)模型处理翻译任务 AGI大模型与大数据研究院程序员提升自我硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
Python机器学习实战：构建序列到序列(Seq2Seq)模型处理翻译任务1.背景介绍1.1问题的由来翻译是跨语言沟通的重要桥梁，随着全球化进程的加速，翻译需求日益增长。传统的机器翻译方法主要依赖于规则和统计方法，如基于短语的翻译、基于统计的机器翻译等。然而，这些方法难以处理复杂的语言现象，翻译质量参差不齐。近年来，随着深度学习技术的快速发展，基于神经网络序列到序列（Sequence-to-Seq
【漫话机器学习系列】130.主成分（Principal Components） IT古董漫话机器学习系列专辑机器学习人工智能 python
主成分（PrincipalComponents）详解1.什么是主成分？主成分（PrincipalComponents，PCs）是数据集中方差最大的线性组合，它是主成分分析（PrincipalComponentAnalysis，PCA）中的核心概念。主成分可以看作是对原始特征的新表述方式，它通过数学变换找到一组新的正交坐标轴，使得数据的主要变化方向与这些轴对齐。简单来说：主成分是数据集中信息量（方差
ClickHouse 作用，优缺点。 mldsh13 clickhouse
ClickHouseClickHouse是一个开源的分布式列式数据库管理系统(DBMS)，专门设计用于实时分析(OLAP)。它最初由俄罗斯的Yandex开发，后来成为了开源项目，被广泛应用于需要高性能数据分析和查询的场景。作用：实时分析：ClickHouse专注于快速查询和分析大量数据，使其特别适用于数据分析、报告和实时仪表板等应用场景。大规模数据处理：能够处理海量数据，支持分布式架构，可以水平扩
Apache Doris 实现毫秒级查询响应随风九天匠心数据库服务 java apache Apache Doris
1.引言1.1数据分析的重要性随着大数据时代的到来，企业对实时数据分析的需求日益增长。快速、准确地获取数据洞察成为企业在竞争中脱颖而出的关键。传统的数据库系统在处理大规模数据时往往面临性能瓶颈，难以满足实时分析的需求。例如，一个电商公司需要实时监控销售数据以调整库存和营销策略，而传统的数据库可能需要数分钟甚至数小时才能生成报表，这显然无法满足业务需求。1.2ApacheDoris简介ApacheD
C++开源库大全大王算法 C/C++开发实战365 C++入门及项目实战宝典 c++开源
程序员要站在巨人的肩膀上，C++拥有丰富的开源库，这里包括：标准库、Web应用框架、人工智能、数据库、图片处理、机器学习、日志、代码分析等。标准库C++StandardLibrary：是一系列类和函数的集合，使用核心语言编写，也是C++ISO自身标准的一部分。
基于PyTorch的深度学习——机器学习3 Wis4e 深度学习机器学习 pytorch
激活函数在神经网络中作用有很多，主要作用是给神经网络提供非线性建模能力。如果没有激活函数，那么再多层的神经网络也只能处理线性可分问题。在搭建神经网络时，如何选择激活函数？如果搭建的神经网络层数不多，选择sigmoid、tanh、relu、softmax都可以；而如果搭建的网络层次较多，那就需要小心，选择不当就可导致梯度消失问题。此时一般不宜选择sigmoid、tanh激活函数，因它们的导数都小于1
AI 驱动的软件测试革命：从自动化到智能化的进阶之路綦枫Maple AI+软件测试人工智能自动化运维
引言：软件测试的智能化转型浪潮在数字化转型加速的今天，软件产品的迭代速度与复杂度呈指数级增长。传统软件测试依赖人工编写用例、执行测试的模式，已难以应对快速交付与高质量要求的双重挑战。人工智能技术的突破为测试领域注入了新动能，通过机器学习、深度学习、自然语言处理等技术，测试流程正从“被动验证”向“主动预防”演进。本文将深入探讨AI与软件测试的融合路径，结合技术原理、工具实践与行业趋势，为读者呈现一幅
JSON数据解析实战：从嵌套结构到结构化表格亿牛云爬虫专家代理IP 爬虫代理 python json 数据解析嵌套结构结构化表格 Google Scholar 学术文献爬虫代理
在信息爆炸的时代，如何从杂乱无章的数据中还原出精准的知识图谱，是数据侦探们常常面临的挑战。本文以GoogleScholar为目标，深入解析嵌套JSON数据，从海量文献信息中提取关键词、作者、期刊等内容。最终，我们不仅将数据转换成结构化表格，还通过Graphviz制作出技术关系图谱，揭示文献间的隐秘联系。关键数据分析在本次调研中，我们的核心目标是获取GoogleScholar上的学术文献信息。为此，
XGBClassifiler函数介绍浊酒南街 #算法机器学习 XGB
目录前言函数介绍示例前言XGBClassifier是XGBoost库中用于分类任务的类。XGBoost是一种高效且灵活的梯度提升决策树（GBDT）实现，它在多种机器学习竞赛中表现出色，尤其擅长处理表格数据。函数介绍XGBClassifiler(max_depth=3,learning_rate=0.1,n_estimators=100,objective='binary:logistic',boo
基于大数据架构的就业岗位推荐系统的设计与实现【java或python】—计算机毕业设计源码+LW文档 qq_375279829 大数据架构 python 课程设计算法
摘要随着互联网技术的迅猛发展和大数据时代的到来，就业市场日益复杂多变，求职者与招聘方之间的信息不对称问题愈发突出。为解决这一难题，本文设计并实现了一个基于大数据架构的就业岗位推荐系统。该系统通过收集、整合并分析大量求职者简历信息、企业招聘信息以及市场动态数据，运用先进的机器学习算法，为求职者提供个性化的岗位推荐服务，同时帮助企业快速定位到合适的候选人。本文将从系统设计的背景与意义、技术基础、需求分
向量数据库简介 openwin_top python编程示例系列 python编程示例系列二数据库
向量数据库（VectorDatabase）是一种专门用于存储和查询向量数据的数据库系统。向量数据库通常使用高效的向量索引技术，支持基于向量相似度的查询和检索，可以应用于图像搜索、自然语言处理、推荐系统、机器学习等领域。与传统的关系型数据库不同，向量数据库通常使用基于向量的数据模型，将向量作为数据的核心表示形式。向量数据库可以存储和处理大量的向量数据，支持高效的向量相似度计算和查询。常见的向量索引技
供应链工作效率如何提升 dev.null 社会供应链
提升供应链工作效率可以从以下几个关键方面入手：1.优化供应链管理数据驱动决策：利用AI和大数据分析，提高预测准确性，优化库存管理。供应链可视化：采用ERP（企业资源计划）和SCM（供应链管理）系统，实现实时跟踪和监控。流程自动化：使用RPA（机器人流程自动化）减少人为操作，提高效率。2.提高物流效率智能调度：使用AI优化配送路线，减少运输时间和成本。自动化仓储：采用自动分拣、机器人搬运、无人机配送
Ubuntu22.04安装CP2K最新版2025.1 jhonwyyc 机器学习深度学习 ubuntu
CP2K教程CP2K系列之一安装文章目录CP2K教程前言一、安装依赖库1.引入库二、下载并解压缩1.下载链接2.解压缩三、安装1.安装cp2k_toolchain2.安装cp2k3.指定根目录4.修改环境变量四、测试总结前言CP2K是一款开源的第一性原理计算软件，采用Fortran98编写。近年来结合机器学习与lammps，已成为热度逐年增加的软件。但是目前使用它仍存在不少难点。本文讲解在Ubun
Azure AI Document Intelligence 使用指南 scaFHIO azure 人工智能 flask python
AzureAIDocumentIntelligence使用指南AzureAIDocumentIntelligence（原名AzureFormRecognizer）是一项基于机器学习的服务，可以从数字或扫描PDF、图像、Office和HTML文件中提取文本（包括手写）、表格、文档结构（如标题、节标题等）和键值对。它支持多种格式，包括PDF、JPEG/JPG、PNG、BMP、TIFF、HEIF、DOC
鸢尾花数据集的四个特征具体是什么？学术乙方 Python 人工智能
鸢尾花数据集（IrisDataset）是机器学习领域中最经典的数据集之一，它包含150个样本，每个样本有4个特征，分别是：1.花萼长度（SepalLength）描述：花萼（花的外部绿色部分）的长度，单位为厘米。取值范围：通常为4.3cm到7.9cm。2.花萼宽度（SepalWidth）描述：花萼的宽度，单位为厘米。取值范围：通常为2.0cm到4.4cm。3.花瓣长度（PetalLength）描述：
DeepSeek源码解析（2）白鹭凡 deepseek ai
Tensor（张量）的介绍在计算机科学和机器学习领域，“张量”（Tensor）是一个数学概念，它被用来表示多维数组。在大模型（如深度学习模型）中，张量扮演着核心角色，具体来说：数据表示：张量用于表示输入数据、模型参数和中间计算结果。例如，在图像处理中，一张图片可以被表示为一个三维张量（高度、宽度、颜色通道数），而在自然语言处理中，一段文本可以被编码为一系列词向量组成的二维张量（句子长度、词向量维度
【PyCharm】Python和PyCharm的相互关系和使用联动介绍 lisw05 python python pycharm ide
李升伟整理Python是一种广泛使用的编程语言，而PyCharm是JetBrains开发的专门用于Python开发的集成开发环境（IDE）。以下是它们的相互关系和使用联动的介绍：1.Python和PyCharm的关系Python：一种解释型、面向对象的高级编程语言，适用于多种开发任务，如Web开发、数据分析、人工智能等。PyCharm：专为Python设计的IDE，提供代码编辑、调试、测试、版本控
机器学习数学基础：29.t检验 @心都机器学习人工智能
一、t检验的定义与核心思想（一）定义t检验（Student’st-test）是一种在统计学领域中广泛应用的基于t分布的统计推断方法。其主要用途在于判断样本均值与总体均值之间，或者两个独立样本的均值之间、配对样本的均值之间是否存在显著差异。例如，在教育研究中，可以通过t检验判断某个班级学生的平均成绩与全校学生的平均成绩是否有显著差异；在医学实验里，可用于比较实验组和对照组的患者某项生理指标的均值是否
数据分析在宇宙观测中的重要性 AI天才研究院计算 ChatGPT DeepSeek R1 &大数据AI人工智能大模型 java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
数据分析在宇宙观测中的重要性关键词：数据分析、宇宙观测、数据预处理、数据挖掘、数据可视化摘要：本文将探讨数据分析在宇宙观测中的重要性，从数据分析在宇宙观测中的应用背景、重要性、面临的挑战与机遇以及未来发展趋势等方面进行深入分析，旨在为读者提供一个全面而详细的了解。引言第1章:分析数据与宇宙观测的关联1.1.1数据分析在宇宙观测中的应用背景宇宙观测是研究宇宙的结构、演化、性质以及各种物理现象的科学。
淘宝天猫商品评论数据接口：实时API调用指南 pythonc++java
淘宝天猫商品评论数据接口是用于获取淘宝和天猫平台上商品评论数据的工具。通过该接口，开发者可以实时调用API获取所需数据，为数据分析、应用开发等提供便利。以下是淘宝天猫商品评论数据接口的实时API调用指南：一、准备工作注册淘宝开放平台账号：访问淘宝开放平台官网，注册并登录账号。申请API密钥：在开放平台中，申请API密钥，以便在调用接口时进行身份验证。熟悉API文档：仔细阅读淘宝开放平台的API文档
基于SpringBoot的智能问诊系统设计与隐私保护策略大熊计算机技术博文 spring boot 后端 java
通过SpringBoot框架，我们可以快速搭建一个智能问诊系统，为用户提供便捷的线上医疗服务。然而，在系统设计和实现过程中，如何保障用户的隐私和数据安全，始终是一个亟需关注的问题。本文将探讨基于SpringBoot的智能问诊系统的设计原理、开发实践及隐私保护策略。1.智能问诊系统概述智能问诊系统是基于人工智能、数据分析及信息技术等手段，通过网络平台为用户提供医疗咨询、初步诊断、健康管理等服务的系统
机器学习算法（2）—— 线性回归算法疯狂的石头。算法机器学习线性回归
‘’‘构造数据集’‘’x=[[80,86],[82,80],[85,78],[90,90],[86,82],[82,90],[78,80],[92,94]]y=[84.2,80.6,80.1,90,83.2,87.6,79.4,93.4]‘’‘模型训练’‘’实例化一个估计器estimator=LinearRegression()使用fit方法进行训练estimator.fit(x,y)查看回归系数
putty运行python代码_当我关闭putty时如何保持python脚本运行 weixin_39943000 putty运行python代码
我准备在VPS上运行Ubuntu上的python脚本.这是机器学习培训过程,因此需要花费大量时间进行培训.如何在不停止该过程的情况下关闭腻子.解决方法:您有两个主要选择：>使用nohup运行命令.这会将它与您的会话取消关联,并在断开连接后让它继续运行：nohuppythonScript.py请注意,该命令的stdout将附加到名为nohup.out的文件中,除非您重定向它(nohuppythonS
异常的核心类Throwable 无量 java 源码异常处理 exception
java异常的核心是Throwable，其他的如Error和Exception都是继承的这个类里面有个核心参数是detailMessage，记录异常信息，getMessage核心方法，获取这个参数的值，我们可以自己定义自己的异常类，去继承这个Exception就可以了，方法基本上，用父类的构造方法就OK，所以这么看异常是不是很easy package com.natsu;
mongoDB 游标（cursor）实现分页迭代开窍的石头 mongodb
上篇中我们讲了mongoDB 中的查询函数，现在我们讲mongo中如何做分页查询如何声明一个游标 var mycursor = db.user.find({_id:{$lte:5}}); 迭代显示游标数
MySQL数据库INNODB 表损坏修复处理过程 0624chenhong tomcat mysql
最近mysql数据库经常死掉，用命令net stop mysql命令也无法停掉，关闭Tomcat的时候，出现Waiting for N instance(s) to be deallocated 信息。查了下，大概就是程序没有对数据库连接释放，导致Connection泄露了。因为用的是开元集成的平台，内部程序也不可能一下子给改掉的，就验证一下咯。启动Tomcat,用户登录系统，用netstat -
剖析如何与设计人员沟通不懂事的小屁孩工作
最近做图烦死了，不停的改图，改图……。烦，倒不是因为改，而是反反复复的改，人都会死。很多需求人员不知该如何与设计人员沟通，不明白如何使设计人员知道他所要的效果，结果只能是沟通变成了扯淡，改图变成了应付。那应该如何与设计人员沟通呢？我认为设计人员与需求人员先天就存在语言障碍。对一个合格的设计人员来说，整天玩的都是点、线、面、配色，哪种构图看起来协调；哪种配色看起来合理心里跟明镜似的，
qq空间刷评论工具换个号韩国红果果 JavaScript
var a=document.getElementsByClassName('textinput'); var b=[]; for(var m=0;m<a.length;m++){ if(a[m].getAttribute('placeholder')!=null) b.push(a[m]) } var l
S2SH整合之session 灵静志远 spring AOP struts session
错误信息： Caused by: org.springframework.beans.factory.BeanCreationException: Error creating bean with name 'cartService': Scope 'session' is not active for the current thread; consider defining a scoped
xmp标签 a-john 标签
今天在处理数据的显示上遇到一个问题： var html = '<li><div class="pl-nr"><span class="user-name">' + user + '</span>' + text + '</div></li>'; ulComme
Ajax的常用技巧（2）---实现Web页面中的级联菜单 aijuans Ajax
在网络上显示数据，往往只显示数据中的一部分信息，如文章标题，产品名称等。如果浏览器要查看所有信息，只需点击相关链接即可。在web技术中，可以采用级联菜单完成上述操作。根据用户的选择，动态展开，并显示出对应选项子菜单的内容。在传统的web实现方式中，一般是在页面初始化时动态获取到服务端数据库中对应的所有子菜单中的信息，放置到页面中对应的位置，然后再结合CSS层叠样式表动态控制对应子菜单的显示或者隐
天-安-门，好高 atongyeye 情感
我是85后，北漂一族，之前房租1100，因为租房合同到期，再续，房租就要涨150。最近网上新闻，地铁也要涨价。算了一下，涨价之后，每次坐地铁由原来2块变成6块。仅坐地铁费用，一个月就要涨200。内心苦痛。晚上躺在床上一个人想了很久，很久。我生在农
android 动画百合不是茶 android 透明度平移缩放旋转
android的动画有两种 tween动画和Frame动画 tween动画;,透明度,缩放,旋转,平移效果 Animation 动画 AlphaAnimation 渐变透明度 RotateAnimation 画面旋转 ScaleAnimation 渐变尺寸缩放 TranslateAnimation 位置移动 Animation
查看本机网络信息的cmd脚本 bijian1013 cmd
@echo 您的用户名是：%USERDOMAIN%\%username%>"%userprofile%\网络参数.txt" @echo 您的机器名是：%COMPUTERNAME%>>"%userprofile%\网络参数.txt" @echo ___________________>>"%userprofile%\
plsql 清除登录过的用户征客丶 plsql
tools---preferences----logon history---history 把你想要删除的删除 -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一起进步。 email ： binary_spac
【Pig一】Pig入门 bit1129 pig
Pig安装 1.下载pig wget http://mirror.bit.edu.cn/apache/pig/pig-0.14.0/pig-0.14.0.tar.gz 2. 解压配置环境变量如果Pig使用Map/Reduce模式，那么需要在环境变量中，配置HADOOP_HOME环境变量 expor
Java 线程同步几种方式 BlueSkator volatile synchronized ThredLocal ReenTranLock Concurrent
为何要使用同步？ java允许多线程并发控制，当多个线程同时操作一个可共享的资源变量时（如数据的增删改查），将会导致数据不准确，相互之间产生冲突，因此加入同步锁以避免在该线程没有完成操作之前，被其他线程的调用，从而保证了该变量的唯一性和准确性。 1.同步方法&
StringUtils判断字符串是否为空的方法（转帖） BreakingBad null StringUtils “”
转帖地址：http://www.cnblogs.com/shangxiaofei/p/4313111.html public static boolean isEmpty(String str) 　　判断某字符串是否为空，为空的标准是 str== null 或 str.length()== 0
编程之美-分层遍历二叉树 bylijinnan java 数据结构算法编程之美
import java.util.ArrayList; import java.util.LinkedList; import java.util.List; public class LevelTraverseBinaryTree { /** * 编程之美分层遍历二叉树 * 之前已经用队列实现过二叉树的层次遍历，但这次要求输出换行，因此要
jquery取值和ajax提交复习记录 chengxuyuancsdn jquery取值 ajax提交
// 取值 // alert($("input[name='username']").val()); // alert($("input[name='password']").val()); // alert($("input[name='sex']:checked").val()); // alert($("
推荐国产工作流引擎嵌入式公式语法解析器-IK Expression comsci java 应用服务器工作 Excel 嵌入式
这个开源软件包是国内的一位高手自行研制开发的，正如他所说的一样，我觉得它可以使一个工作流引擎上一个台阶。。。。。。欢迎大家使用，并提出意见和建议。。。 ----------转帖--------------------------------------------------- IK Expression是一个开源的（OpenSource），可扩展的（Extensible），基于java语言
关于系统中使用多个PropertyPlaceholderConfigurer的配置及PropertyOverrideConfigurer daizj spring
1、PropertyPlaceholderConfigurer Spring中PropertyPlaceholderConfigurer这个类，它是用来解析Java Properties属性文件值，并提供在spring配置期间替换使用属性值。接下来让我们逐渐的深入其配置。基本的使用方法是：(1) <bean id="propertyConfigurerForWZ&q
二叉树:二叉搜索树 dieslrae 二叉树
所谓二叉树,就是一个节点最多只能有两个子节点,而二叉搜索树就是一个经典并简单的二叉树.规则是一个节点的左子节点一定比自己小,右子节点一定大于等于自己(当然也可以反过来).在树基本平衡的时候插入,搜索和删除速度都很快,时间复杂度为O(logN).但是,如果插入的是有序的数据,那效率就会变成O(N),在这个时候,树其实变成了一个链表. tree代码:
C语言字符串函数大全 dcj3sjt126com c function
C语言字符串函数大全函数名: stpcpy 功能: 拷贝一个字符串到另一个用法: char *stpcpy(char *destin, char *source); 程序例: #include <stdio.h> #include <string.h> int main
友盟统计页面技巧 dcj3sjt126com 技巧
在基类调用就可以了, 基类ViewController示例代码 -(void)viewWillAppear:(BOOL)animated { [super viewWillAppear:animated]; [MobClick beginLogPageView:[NSString stringWithFormat:@"%@",self.class]];
window下在同一台机器上安装多个版本jdk，修改环境变量不生效问题处理办法 flyvszhb java jdk
window下在同一台机器上安装多个版本jdk，修改环境变量不生效问题处理办法本机已经安装了jdk1.7，而比较早期的项目需要依赖jdk1.6，于是同时在本机安装了jdk1.6和jdk1.7. 安装jdk1.6前，执行java -version得到 C:\Users\liuxiang2>java -version java version "1.7.0_21&quo
Java在创建子类对象的同时会不会创建父类对象 happyqing java 创建子类对象父类对象
1.在thingking in java 的第四版第六章中明确的说了，子类对象中封装了父类对象， 2."When you create an object of the derived class, it contains within it a subobject of the base class. This subobject is the sam
跟我学spring3 目录贴及电子书下载 jinnianshilongnian spring
一、《跟我学spring3》电子书下载地址：《跟我学spring3》（1-7 和 8-13） http://jinnianshilongnian.iteye.com/blog/pdf 跟我学spring3系列 word原版下载二、源代码下载最新依
第12章 Ajax（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BI and EIM 4.0 at a glance blueoxygen BO
http://www.sap.com/corporate-en/press.epx?PressID=14787 有机会研究下EIM家族的两个新产品~~~~ New features of the 4.0 releases of BI and EIM solutions include: Real-time in-memory computing –
Java线程中yield与join方法的区别 tomcat_oracle java
长期以来，多线程问题颇为受到面试官的青睐。虽然我个人认为我们当中很少有人能真正获得机会开发复杂的多线程应用(在过去的七年中，我得到了一个机会)，但是理解多线程对增加你的信心很有用。之前，我讨论了一个wait()和sleep()方法区别的问题，这一次，我将会讨论join()和yield()方法的区别。坦白的说，实际上我并没有用过其中任何一个方法，所以，如果你感觉有不恰当的地方，请提出讨论。 &nb
android Manifest.xml选项阿尔萨斯 Manifest
结构继承关系 public final class Manifest extends Objectjava.lang.Objectandroid.Manifest 内部类 class Manifest.permission权限 class Manifest.permission_group权限组构造函数 public Manifest () 详细 androi
Oracle实现类split函数的方 zhaoshijie oracle
关键字：Oracle实现类split函数的方项目里需要保存结构数据，批量传到后他进行保存，为了减小数据量，子集拼装的格式，使用存储过程进行保存。保存的过程中需要对数据解析。但是oracle没有Java中split类似的函数。从网上找了一个，也补全了一下。 CREATE OR REPLACE TYPE t_split_100 IS TABLE OF VARCHAR2(100); cr

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他