几窗花鸢

李沐机器学习入门

文章目录

- 1.数据的获取
- 2.数据的爬取
- 3.数据的标注
- - 3.1 半监督学习
  - - 3.1.1 自学习算法
    - 3.1.2 人工标注数据
    - 3.1.3 弱监督学习
- 4.数据的预处理
- 5. 数据的清理
- 6. 数据的变换
- 7.特征工程
- 8.机器学习介绍
- - 8.1 决策树模型
  - 8.2 线性模型
  - - 线性模型做回归
    - 线性模型做分类
    - Softmax回归
  - 8.3 小批量随机梯度下降
  - 8.4 神经网络
  - - 多层感知机MLP
    - 卷积神经网络
    - 循环神经网络
    - 总结三种神经网络模型
- 9.评估指标
- - - 9.1 过拟合和欠拟合
    - 9.2 模型的验证
- 10 方差和偏差
- - 10.1 Bagging
  - 10.2 Boosting
  - 10.3 Stacking

1.数据的获取

一些常用的数据集
如何采集数据

2.数据的爬取

当然python爬取网页，解析网页的包有很多，包括beautifulsoup、xtree都是可以简单上手的。
如果使用云服务器爬取数据，它会给你大量的ip地址，用大量的机器给你做这个事情，它的执行效率还是高的。

3.数据的标注

3.1 半监督学习

是机器学习里面的一个分支，它主要解决的是数据中有一小部分的数据已经标注，但是还有很多没有标注的数据。

半监督学习对于有标注和没标注的数据做了一些假设，对有标注和没有标注的数据做了一些假设：

连续性的假设：如果一个样本的特征和另外一个样本相似的话，那么这两个样本可能是有相同的标号的。
聚类的假设：数据是按类进行划分的，如果数据在内在有好一点的聚类结构，就是数据不是随机在整个空间里均匀分布的，而是按照一小层一小层分布的。那么可以假设一个类中的中有比较相同的标号，同样的，不同类之间也是可能有相同的标号的。
流形假设：虽然收集到的数据可能维度比较高，有很多不同的特征，但是你的数据本质上可能是在一个低维的的流形上分布的，就是数据的内在复杂性可能远比你看到的要低。

3.1.1 自学习算法

3.1.2 人工标注数据

众包：就是从网络上找到一群人，也许不一定是专家类的，但是有一定的能力去标注这个数据，以低成本的形式去标注数据。

众包在方式上是有诸多挑战的：

可以把任务的数据减少：通过主动学习算法

Uncertainty sampling 算法：通过训练一个模型去选择哪些是置信的还是不置信的，将最难的样本才交给人工去标注
也可以使用贵的一点模型，通过多个模型去训练，选出绝大多数模型觉得这个数据样本比较难的

一般主动学习和自学习算法是可以相互融合的

3.1.3 弱监督学习

假如在没有部分已经标注的数据的前提下，又没有足够的资金请求众包，则可以使用弱监督学习。

弱监督学习：就是半自动的生成标号，这个标号比人工标注的要差一些，但是也能生成一个比较好的模型

数据编程：使用启发式的一些方法给数据做一些标号

就是总结出一系列的规律，比如要判断一个评论是垃圾评论或者正常评论，可以通过总结规律得到垃圾评论中的关键词，或者通过一些情绪模型之类的，若是能够得到高的置信度，说明是一条正常评论。这样的规律可以有很多条，那么可以将一条评论输入各个规律的函数中，若返回的大部分是垃圾评论，则为垃圾评论。

4.数据的预处理

刚开始获得是数据可能是脏数据，需要通过一系列的数据清洗操作，可能用道numpy、pandas等数据清洗的库

首先得到的数据可能很多列上是NAN，可以如果这个空列的数组占总数据的30%以上，就将这些列删除
可能得到的数据的数据类型不明确，pandas没有识别出来，为Object

然后通过绘制一些直方图，协方差图，会得到数据的特征之间的一些关系，可以得到数据的一些基本的特征

5. 数据的清理

对于噪音比较多的数据，需要进行数据清理得到稍干净的数据

数据错误的类型：

某个样本中某个特性的值，可能不在正常的分布区间里面
你的数据违背了一些规则：例如id序列号必须唯一，有的列要求必须是一个数字类型，不能为空、
语法或者语义上的限制:例如某个金额要求必须按照美元来算，是美元符号，如果是一个其他币种，就违反了美元金额的语义

一些规则上的检测

总结：数据总是有错误的，就算一些大的常用的数据集也不可避免的存在一些错误

检测错误可以通过上述的Outlier 检测，或者规则检测或者模式检测来修复她们

同时可有多种工具可以帮助数据清理

6. 数据的变换

数据的转换

对每列数据进行Normalization

图片的转换

视频转化

在视频转换方面，同样需要考虑存储的大小，视频的质量以及读取的速度

在机器学习的过程中，通常采用的是十秒以内的是视频

就是假如拿到了一段视频，一般会剪切最感兴趣的一段视频交给机器学习的模型

视频的存储比图片来的大的多，因为一秒钟视频可能有几百帧那个十秒钟的视频就需要存储很多图片

但是可以使用相关视频的压缩算法，但是正是因为使用了压缩算法，可能导致视频的读取是一个问题

因为通常十秒钟的视频，只需要采样出其中关键的帧而不需要完整的全部图片。如果使用压缩算法，虽然视频的存储空间减少了，但是其采样和压缩的代价就会增大。

通常会使用GPU来进行采样，通常在视频存储需要权衡存储大小与解码速度之间的关系，如果需要更小的存储空间，通常就需要更好的硬件或者gpu来处理

文本转换：词根化或者词元化

总结：

数据转换需要平衡数据的大小，数据太大的时候存储比较难，而且读取的时候相对比较慢

Tabular:对于实数的一些数值，可以将其数值变换到合理区间内

Images:可以将图片切的更小一点

Videos:可以将视频切成一段一段的，也可以采样一些需要的帧出来

Text：通过词根化、语法化得到机器学习需要的一些小的单元

7.特征工程

表数据特征

文本信息抽取

图片/视频特征提取

4-7节总结：

产品部署上线之后，仍然可能是一个不断迭代的过程，因为会得到用户的反馈，得到新的用户数据

8.机器学习介绍

机器学习分类

监督学习：在有标签的基础上去预测标签
半监督学习：数据有标签和没标签，根据有标签的数据训练去预测没标签数据的标签
无监督学习：对于所有没标签的数据
强化学习：类似人类的一种学习，不断的和环境进行交互，根据反馈去调整自己的行为

监督学习

首先关注的是模型本身，这个模型的输入以及对应的输出是什么
损失函数Loss:模型的预测值和真实值之间的差别
目标函数Objective：就是在模型训练中的尽可能的优化，比如讲模型的损失和最小
优化的目标：在模型中没有指定的参数，也就是可以学习的参数，在实际数据中填上值，能够解决目标函数

监督学习模型分类

决策树：用一些树来做一些决定
线性模型：做决策的时候是根据输入的线性组合决定
核方法：就是用核函数来衡量两个样本之间的相似度，可以通过指定核函数，使得它的相似度不相同，达到一个非线性的效果
神经网络：用多层的神经网络来学习一个特征表示，在最后接上一个线性方法也能得到一个非常好的表示

总结：

8.1 决策树模型

决策树一般用于分类问题或者回归问题

决策树的好处：

可以解释从根节点到叶子节点的每一步步骤是怎么做下来的，机器学习中为数不多的可以解释的模型
决策树可以处理一些数值类以及类别类的特征

决策树的坏处：

它是不断的对特征进行分类，非常的不稳定；如果数据中产生了一定的噪音，其构建出来的树的形状就不一样了
可能导致过拟合
决策树是一个顺序化的过程不太好并行

随机森林介绍：通过训练多个决策树来提升稳定性

每个树都独立的进行训练，然后训练之后的结果一起结合产生结果例如如果是分类问题，采用投票形式，超过一半的树是1就投出1；如果是回归的化，在每个数上取平均
但是随机森林的代价是训练和预测的成本高了，训练和预测的成本都是原来的n倍，但是其对稳定性确实提高
这里的随机来自两种情况，在训练集中随机采样一些样本，而且是替换的采样，每次随机抽取一个样本，再放回去，拿到这个样本后训练一个决策树，一直重复，直到训练n棵树为止；第二在Bagging中随机采样的样本中，再随机采样一些特征，而不用整个特征。这样每棵训练的决策树不管在样本上还是特征上都是随机的

梯度Boosting方法：训练多棵树，这些树之间不再是独立的完成，是顺序的完成，这些树一起合成一个比较大的树

总结：

8.2 线性模型

线性模型做回归

线性模型做分类

Softmax回归

8.3 小批量随机梯度下降

代码演示：

总结

线性模型就是将我们的输入通过线性加权和来得到预测，
在线性回归中使用平均均方误差来作为我们损失函数，在softmax回归中用的是一个交叉熵来作为损失函数，对每一个类做一个线性预测，使用softmax操作子得到每一个类的预测概率
小批量的梯度下降模型既可以解决线性回归也可以解决线性分类

8.4 神经网络

神经网络就是将原来手工进行特征提取的部分换成了神经网络

几种神经网络架构:

多层感知机
卷积神经网络
循环神经网络
transformer(变形金刚) 近几年流行

多层感知机MLP

代码实例:

卷积神经网络

池化层/汇聚层

它每次去计算这个k*k的窗口的均值或者最大值，均值叫做平均汇聚，最大值叫做最大汇聚

卷积神经网络总结：

它是一个神经网络，用卷积层来抽取空间上的信息，只要此空间的信息满足本地性或者变换不变性。
激活层放置在卷积层之后，因为卷积层可以看做是一个特殊的全连接层，本质还是线性变换，如果没有使用激活层，那么它还是一个线性模型
卷积层对于位置十分敏感，可以使用池化层来得到一些对于位置没有那么敏感的输出

循环神经网络

最简单的RNN的实现：

总结三种神经网络模型

多层感知机：将多个全连接层堆叠起来，通过激活函数得到非线性的新模型
卷积神经网络：比较特殊的全连接层，它的卷积层使用到了空间上的本地性和平移不变性的特性做的简化版本的全连接层，它的参数更好更少，更适合处理空间信息
循环神经网络：在时序上在全连接层中假如了过去的信息得到了一条额外的边

9.评估指标

分类的常见指标

精确度/准确度（accuracy）：假设给了很多样本，预测正确的类别样数是多少
精度(precision)：对于某一个具体的类i,预测正确的是多少个，看在这个样本中将多少个预测成了类i
召回率：对于类1，分母是我们样本中本身真实存在的类1的个数，分子是预测是类1并且真实也是类1，和精度的分母一样

AUC和ROC

总结：

对于一个模型来说，我们通常回去考虑多个指标，对于分类问题，可能会用到准确度、精度、召回度之类的问题，也可以使用AUC查看某个模型对正类和负类的区分程度

9.1 过拟合和欠拟合

误差：训练和泛化误差

训练误差：在训练数据上能看到一些错误率

泛化误差：是模型在新的数据上的错误率

过拟合和欠拟合

概念解释：

如果训练误差和泛化误差都低，那么说明这个模型的训练效果很好
如果训练误差很高但是泛化误差很低，那么可能是个bug，用了很难的数据集训练，实际的数据集很简单
训练误差很低但是泛化误差很高，这个就叫做过拟合，过多的去关注训练数据，而不是真正的去理解后面发生了什么
如果训练误差和泛化误差都很高，这个就叫做欠拟合，说明这个模型根本就没有抓住这个信息。

为了防止过拟合或者欠拟合的现象，模型和复杂度和数据的复杂度需要对等。

如果数据比较简单，那么就应该选取比较简单的模型，这样可以得到一个比较正常的现象；如果使用简单的数据，但是使用的是复杂的模型，很容易产生过拟合现象。

如果数据比较复杂，但是模型比较简单的话，模型就无法去拟合数据，产生欠拟合现象。

如果数据比较复杂，同时模型比较复杂的话，才会得到相对正常的现象。

模型的复杂度

模型的复杂度是可以去拟合各种各样函数的能力
低复杂度的模型很难去拟合数据，所谓的数据也是用某个函数生成出来的
高复杂度的模型可以去拟合更多的函数
比较两个不同的算法之间的复杂度，但是如果是同一种模型，可以进行相对比较，可学习参数多的模型通常比可学习参数少的模型复杂一些；同时这些可学习的参数的取值范围越大，模型越复杂，有值的限制的模型相对来说比较简单一些

数据的复杂度

有多少样本？样本里有多少元素？数据中有没有特殊的时间和空间的结构，有特殊结果的数据的复杂度高？多样性，样本个数的多个，多样？
当然也很难比较两个不同的数据之间的复杂性

模型复杂度VS数据复杂度

模型的选择

需要选择与你的数据复杂度相匹配的模型，用于降低你的泛化误差

9.2 模型的验证

数据集的挑选

一种验证集的划分方式：

10 方差和偏差

如何减小泛化误差

减少偏差

偏差不够说明模型不够复杂，假如是神经网络可以将隐藏单元的大小增加
减少方差

方差太大了说明模型特别复杂，那么需要一个比较简单的模型，或者限制模型参数能学习的值的范围
减少噪音

可以通过在数据采集时更精确更干净的数据来将其值降低

10.1 Bagging

概念：在做bagging的时候训练n个模型，每个模型是独立并行训练的，如果是一个回归模型，那么会将着n个模型得到的答案做平均，如果是做分类问题，每个模型都得到一个分类，得到分类的形式最多的就是结果

每一个训练集通过bootstrap采样后在上面得到的。

bagging采样n次取均值，下降的就是方差

bagging在学习模型不那么稳定的时候，将n个模型放在一起，它下降方差的效果比较好

10.2 Boosting

将多个弱一点的偏差比较大的模型组合起来变成一个比较强的模型，主要目的是去降低偏差。* *
按顺序的学习n个模型

训练一个简单的模型，看它的误差，然后将数据重新变换，采样，使得下一个模型hi+1会更加关注预测不正确的那些样本

10.3 Stacking

通过多个不同的learner组合降低方差

与bagging的区别:bagging是不同的数据训练相同的模型，stacking是用相同的数据训练不同的模型

stacking也可以通过另外的方式来降低偏差：多层的stacking

如何防止多层的Stacking的过拟合问题？

将训练集分成A和B，在第一层模型在A上训练好，用第一层的模型对B做预测，把预测的结果加上b本身，用来做第二层的训练
k-fold 将训练集分成k份，每次在k-1份上训练，在k上做验证，训练k个模型对于第i个模型，都在前面的i-1数据上做验证，然后在第i个数据上预测，得到预测数据。将所有的预测数据整合进入下一层，那么第二层的训练数据就是完整的训练数据了
对于n个训练模型，在每一层的模型是将第一步将前面的步骤重复n次，将得到的模型的预测值在做平均，进一步降低了方差，再放到下一层里

《从0到1搭建短剧广告APP：商业模式设计×技术架构×运营策略全解析》 ywyy6798 短剧推客系统小程序推客小程序短剧看广告APP 短剧系统短剧看广告APP系统开发
引言：短剧+广告模式的市场机遇近年来，短剧行业呈现爆发式增长，用户对碎片化娱乐内容的需求激增。与此同时，广告变现模式在短视频、免费阅读等领域已得到充分验证。“看广告解锁剧情”的模式，结合了短剧的高粘性和广告变现的高效率，成为开发者、内容方和广告主三方共赢的新赛道。然而，这类APP的开发并非简单的“广告SDK+短剧播放器”组合，而是涉及商业模式设计、广告系统优化、用户体验平衡、数据分析和合规运营等多
Python 爬虫实战：从图片网站抓取图片并进行特征提取（2025 最新版） Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 github chrome 数据库
一、引言在当今的数字时代，图像数据在各个领域中扮演着至关重要的角色。无论是计算机视觉、机器学习，还是数据分析，图像数据的获取和处理都是基础。然而，获取大量高质量的图像数据并非易事。幸运的是，互联网上充斥着丰富的图像资源，只需借助合适的工具和技术，我们就能高效地从中获取所需的图像数据。本文将详细介绍如何使用Python构建一个完整的爬虫系统，从图片网站抓取图像，并对其进行特征提取。我们将涵盖从网页分
Open AI在AI人工智能领域的技术安全防护体系 AI智能探索者 AI Agent 智能体开发实战人工智能安全网络 ai
OpenAI在AI人工智能领域的技术安全防护体系关键词：OpenAI、AI安全、技术防护、伦理框架、模型对齐、数据隐私、对抗攻击摘要：本文将深入探讨OpenAI在人工智能领域构建的多层次技术安全防护体系。我们将从基础概念出发，逐步解析OpenAI如何通过技术创新和系统设计来确保AI系统的安全性、可靠性和可控性。文章将涵盖从数据安全到模型对齐，从伦理框架到实际防护技术的全方位内容，帮助读者全面理解现
揭秘自然语言处理在AI人工智能领域的奥秘 AI智能探索者 AI Agent 智能体开发实战人工智能自然语言处理 easyui ai
揭秘自然语言处理在AI人工智能领域的奥秘关键词：自然语言处理、AI人工智能、语言理解、语言生成、语义分析摘要：本文深入探讨了自然语言处理（NLP）在AI人工智能领域的奥秘。首先介绍了自然语言处理的背景，包括目的、预期读者、文档结构和相关术语。接着阐述了自然语言处理的核心概念与联系，通过文本示意图和Mermaid流程图进行展示。详细讲解了核心算法原理和具体操作步骤，并用Python源代码进行阐述。分
【LangChain编程：从入门到实践】AI 大模型检索增强生成 RAG 实践 AI智能应用 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
LangChain编程：从入门到实践-AI大模型检索增强生成RAG实践关键词：LangChain,RAG,大语言模型,检索增强生成,向量数据库,嵌入模型,提示工程1.背景介绍在人工智能和自然语言处理领域,大语言模型(LargeLanguageModels,LLMs)的出现无疑是一个重大突破。像GPT-3、GPT-4这样的模型展现出了惊人的语言理解和生成能力,为各种应用场景带来了无限可能。然而,这些
Python,Go开发数据流量分配查询APP Geeker-2025 python golang
#数据流量分配查询应用我将设计一个基于Python和Go开发的数据流量分配查询应用，帮助用户监控和分析网络流量分配情况。##设计思路这个应用将实现以下核心功能：-实时监控网络流量分配情况-多维度流量数据分析（设备、应用、时间段）-流量分配策略设置与管理-异常流量告警系统-直观的数据可视化展示##技术架构```前端(Python+Streamlit)后端(Go)┌──────────────────
企业上网行为管理：零信任安全产品的对比分析
一、腾讯iOA零信任产品网站库丰富：内置2000+网站库，有效规范员工上网行为，规避风险网址。策略个性化：支持按部门、岗位定制上网策略，研发专注核心业务，市场获取行业资讯。场景适应性：灵活配置满足多业务场景需求，适应企业多样化管理要求。二、深信服零信任安全解决方案实时监控与记录：实时监控员工上网行为，记录访问网站、使用时间、流量等数据。异常行为发现：通过数据分析及时发现异常行为，如频繁访问可疑网站
AI离全社会普及，只差一个计算中心？ a13163944010 人工智能
过去十年，人工智能（AI）大爆炸，并第一次走进普通人的生活。但蓬勃发展的AI却碰到一个空前棘手的问题：自2012年以来，AI算力需求6年增长30万倍，远超摩尔定律！人类现有的基础设施，已跟不上AI算力需求的增长。未来，该怎么办？【1】一百多年前，人类也曾面临同样的难题。1866年，德国西门子发明自激发电机，开启了人类的电力时代。此后十几年，虽然很多企业纷纷采用电能这种新的动力，但一台电机只能供应一
首次使用“非英伟达”芯片！OpenAI租用谷歌TPU，降低推理计算成本加百力科技知识财经研究人工智能 chatgpt
OpenAI近期开始租用谷歌TPU芯片，这是该公司首次大规模使用非英伟达芯片。除了OpenAI外、苹果、SafeSuperintelligence和Cohere等公司也一直租用谷歌云的TPU。英伟达的芯片主导地位正被侵蚀，OpenAI租用谷歌TPU，为首次大规模使用“非英伟达”芯片。周六，据媒体报道，作为全球最大的人工智能芯片客户之一，OpenAI近期开始租用谷歌的TPU芯片为ChatGPT等产品
数据分析与做菜的关系，makedown 过期的秋刀鱼！数据分析数据挖掘数据分析小白 markdown 数据可视化 powerbi 数据分析流程
#数据分析就像做一道菜##1️⃣明确需求例子：今天想做**"番茄炒蛋"**✅对应分析：老板要看**"上个月哪些商品最赚钱"**##2️⃣拆解需求例子：做番茄炒蛋需要**番茄2个+鸡蛋3个+盐糖少许**（步骤：先炒蛋→再炒番茄→混合）✅对应分析：需要**销售表（含成本/售价）+商品名称表**→先算利润→再排名##3️⃣数据准备例子：**去菜市场买番茄、鸡蛋**✅对应分析：从财务系统**导出销售Exc
AI人工智能神经网络马里亚纳海沟网人工智能神经网络深度学习笔记运维全文检索搜索引擎
**AI人工智能神经网络概述**神经网络是并行计算设备，它们试图构建大脑的计算机模型。背后的主要目标是开发一个系统来执行各种计算任务比传统系统更快。这些任务包括模式识别和分类，近似，优化和数据聚类什么是人工神经网络(ANN)人工神经网络(ANN)是一个高效的计算系统，其核心主题是借用生物神经网络的类比。人工神经网络也被称为人工神经系统，并行分布式处理系统和连接系统。ANN获取了大量以某种模式相互连
某连锁超市销售数据分析报告共眠星河信息可视化数据分析
目录第一章项目介绍...................................................................................................................2第二章项目规划....................................................................
机器学习-- 聚类 SunsPlanter 机器学习机器学习聚类人工智能
什么是聚类？Clustering可以简单地说，对有标注的数据分类，就是逻辑回归（属于有监督分类），对无标注的数据分类，就是聚类（属于无监督分类）聚类是一种无监督学习技术，其目标是根据样本之间的相似性将未标记的数据分组。比如，在一个假设的患者研究中，研究人员正在评估一项新的治疗方案。在试验期间，患者每周会报告自身症状的频率以及严重程度。研究人员可以使用聚类分析将对治疗反应相似的患者归为同一类。图1展
Matplotlib 完全指南：从入门到精通老哥不老 python matplotlib
前言Matplotlib是Python中最基础、最强大的数据可视化库之一。无论你是数据分析师、数据科学家还是研究人员，掌握Matplotlib都是必不可少的技能。本文将带你从零开始学习Matplotlib，帮助你掌握各种图表的绘制方法和高级技巧。目录Matplotlib简介安装与基础配置基础绘图常用图表类型图表样式与美化多子图布局高级技巧实战案例常见问题与解决方案总结与资源Matplotlib简介
FP16、BF16、INT8、INT4精度模型加载所需显存以及硬件适配的分析 herosunly 大模型精度 BF16 硬件适配
大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。本文主要介绍了FP16、INT8、INT4精度模型加载占用显存大小的分析，希望对学习大
educoder机器学习 --- 神经网络木右加木 educoder 机器学习神经网络
第1关：神经网络基本概念１、Ｃ第2关：激活函数#encoding=utf8defrelu(x):'''x:负无穷到正无穷的实数'''#*********Begin*********#ifx<=0:return0else:returnx#*********End*********#第3关：反向传播算法#encoding=utf8importosimportpandasaspdfromsklearn.
【数据分析】Python+Tushare实现均线金叉死叉交易策略回测虚拟现实旅人数据分析 python 数据挖掘
【数据分析】Python+Tushare实现均线金叉死叉交易策略回测简介在本文中，我们将利用Python和Tushare数据接口，对贵州茅台（600519.SH）进行数据分析，并实现基于“双均线”策略的量化回测，完整评估该策略的收益效果。项目目标使用tushare包获取贵州茅台的历史行情数据。计算该股票历史数据的5日均线和30日均线。分析输出所有金叉日期和死叉日期。模拟实际买卖交易流程。1.数据获
智能办公与科研革命：ChatGPT+DeepSeek大模型在论文撰写、数据分析与AI建模中的实践指南 jwwkyjspt 机器学习 SCI论文人工智能 chatgpt 语言模型机器学习
随着人工智能技术的快速发展，大语言模型如ChatGPT和DeepSeek在科研领域的应用正在为科研人员提供强大的支持。这些模型通过深度学习和大规模语料库训练，能够帮助科研人员高效地筛选文献、生成论文内容、进行数据分析和优化机器学习模型。ChatGPT和DeepSeek能够快速理解和生成复杂的语言，帮助研究人员在撰写论文时提高效率，不仅生成高质量的文章内容，还能优化论文结构和语言表达。在数据分析方面
初学Spring AI 笔记笑衬人心。大模型学习 spring 人工智能笔记
目录SpringAI简介依赖与环境配置基础概念集成OpenAI（或其他LLM提供商）Prompt模板引擎Embedding与向量数据库SpringAIChatClient使用SpringAI和LangChain对比常见问题与建议SpringAI简介SpringAI是Spring团队推出的人工智能集成框架，旨在简化AI模型（如OpenAI、HuggingFace、Mistral、AzureOpenA
AI新高度——DEEPSEEK 数字隐士·赛博智者 ai
DeepSeek是由中国人工智能公司「深度求索」开发的一系列高性能大语言模型产品及相关技术体系，其定位为通用人工智能（AGI）探索者，目前已发展成为全球增长最快、性能领先的开源模型之一。下面是关于DeepSeek的详细介绍：一、DeepSeek的开发者与背景‌公司名称‌：杭州深度求索人工智能基础技术研究有限公司（成立于2023年）‌核心支持‌：由中国知名对冲基金「高毅资产」创立并提供资金与技术资源
【机器学习&深度学习】适合微调的模型选型指南一叶千舟深度学习【应用必备常识】深度学习人工智能
目录一、不同规模模型微调适用性二、微调技术类型对显存的影响三、选择建议（根据你的硬件）四、实际模型推荐五、不同模型适合人群六、推荐几个“非常适合微调”的模型七、推荐使用的微调技术八、场景选择示例场景1：智能客服（中文）场景2：法律问答（中文RAG）场景3：医学问答/健康咨询场景4：AI写作助手（中英文）场景5：代码补全/AI编程助手对比总结表九、不同参数模型特点9.1参数规模vs能力9.2微型模型
【机器学习&深度学习】本地部署 vs API调用：关键看显存！一叶千舟深度学习【应用必备常识】深度学习人工智能
目录一、本地部署VSAPI调用1.模型运行方式2.性能与速度3.成本4.隐私与安全5.何时选择哪种方式？二、为什么推荐本地部署？1️⃣零依赖网络和外部服务，更可靠稳定2️⃣无调用次数限制，更适合高频或批量推理3️⃣避免长期API费用，节省成本4️⃣保护用户隐私和数据安全5️⃣可自定义、深度优化6️⃣加载一次即可复用，低延迟高性能7️⃣离线可用（重要！）三、适合本地部署的情况四、本地部署条件4.1模
深度学习 vs 传统机器学习：哪个更适合你的项目？ AI大模型应用之禅深度学习机器学习人工智能 ai
深度学习vs传统机器学习：哪个更适合你的项目？关键词：深度学习、传统机器学习、特征工程、数据量、计算资源、项目选择、算法对比摘要：本文将用"炒菜"和"拼图"等生活案例，从核心原理、适用场景、资源需求等维度对比深度学习与传统机器学习。通过具体代码示例和真实项目场景分析，帮助开发者和企业决策者快速判断：你的项目该选深度学习还是传统机器学习？背景介绍目的和范围随着AI技术普及，"该用深度学习还是传统机器
Python 机器学习实战：泰坦尼克号生还者预测 (从数据探索到模型构建) 程序员阿超的博客 Python python 机器学习开发语言泰坦尼克号 Kaggle Scikit-learn 实战教程
引言：挑战介绍泰坦尼克号的沉没是历史上最著名的海难之一。除了其悲剧色彩，它还为数据科学提供了一个经典且引人入胜的入门项目。Kaggle平台上的“Titanic:MachineLearningfromDisaster”竞赛，要求我们利用乘客数据来预测哪些人更有可能在这场灾难中幸存。这是一个典型的二元分类问题：目标变量Survived只有两个值，0（遇难）或1（生还）。这个项目之所以经典，是因为它涵盖
LLM大语言模型学习笔记（1） Arixs666 大语言模型语言模型笔记人工智能
1.概念大语言模型（LLM，LargeLanguageModel），也称大型语言模型，是一种旨在理解和生成人类语言的人工智能模型。LLM通常指包含数百亿（或更多）参数的语言模型，它们在海量的文本数据上进行训练，从而获得对语言深层次的理解。2.能力2.1涌现能力区分大语言模型（LLM）与以前的预训练语言模型（PLM）最显著的特征之一是它们的涌现能力。涌现能力是一种令人惊讶的能力，它在小型模型中不明显
【python数据分析】数据建模之Kmeans聚类斑点鱼 SpotFish python 数据建模聚类 python 数据分析
K-means聚类：最常用的机器学习聚类算法，且为典型的基于距离的聚类算法。K均值：基于原型的、划分的距离技术，它试图发现用户指定个数(K)的簇以欧式距离作为相似度测度Kmeans聚类案例分析：make_blobs聚类数据生成器#导入模块from sklearn.cluster import KMeansfromsklearn.datasetsimportmake_blobs#创建数据x,y_tr
Milvus向量数据库入门指南 longfei.li milvus 数据库人工智能
一、Milvus简介Milvus是一个开源的向量数据库，专为AI应用和向量相似度搜索而设计，以加速非结构化数据的检索。自2019年创建以来，Milvus专注于存储、索引和管理由深度神经网络和其他机器学习模型生成的海量嵌入向量。其能够处理万亿级别的向量索引任务。Milvus的核心优势在于其高效的索引机制，它支持多种索引类型，包括FLAT、IVF_FLAT、IVF_SQ8、IVF_PQ和HNSW等。这
常见机器学习算法与应用场景计算机软件程序设计知识科普机器学习算法人工智能
当然可以。下面是对常见机器学习算法的全面详细阐述，包括每种算法的基本原理、特点以及典型应用场景。1.监督学习（SupervisedLearning）1.1线性回归（LinearRegression）原理：通过拟合一条直线来表示输入和输出之间的关系，适用于预测连续值输出。特点：简单易懂，计算速度快，但只能捕捉线性关系。应用场景：房价预测股票价格预测销售额预测1.2逻辑回归（LogisticRegre
[论文阅读] 人工智能 + 软件工程 | 揭秘ChatGPT在软件开发问题解决中的有效性：一项实证研究张较瘦_ 前沿技术论文阅读人工智能软件工程
揭秘ChatGPT在软件开发问题解决中的有效性：一项实证研究论文：WhatMakesChatGPTEffectiveforSoftwareIssueResolution?AnEmpiricalStudyofDeveloper-ChatGPTConversationsinGitHubarXiv:2506.22390WhatMakesChatGPTEffectiveforSoftwareIssueRe
[论文阅读] 人工智能 + 软件工程 | 代码注释不一致问题研究：从数据革新到端到端解决方案张较瘦_ 前沿技术论文阅读人工智能软件工程
代码注释不一致问题研究：从数据革新到端到端解决方案原文：CCISOLVER:End-to-EndDetectionandRepairofMethod-LevelCode-CommentInconsistencyarXiv:2506.20558CCISolver:End-to-EndDetectionandRepairofMethod-LevelCode-CommentInconsistencyRe
强大的销售团队背后竟然是大数据分析的身影蓝儿唯美数据分析
Mark Roberge是HubSpot的首席财务官，在招聘销售职位时使用了大量数据分析。但是科技并没有挤走直觉。大家都知道数理学家实际上已经渗透到了各行各业。这些热衷数据的人们通过处理数据理解商业流程的各个方面，以重组弱点，增强优势。 Mark Roberge是美国HubSpot公司的首席财务官，HubSpot公司在构架集客营销现象方面出过一份力——因此他也是一位数理学家。他使用数据分析
Haproxy+Keepalived高可用双机单活 bylijinnan 负载均衡 keepalived haproxy 高可用
我们的应用MyApp不支持集群，但要求双机单活（两台机器：master和slave）： 1.正常情况下，只有master启动MyApp并提供服务 2.当master发生故障时，slave自动启动本机的MyApp，同时虚拟IP漂移至slave，保持对外提供服务的IP和端口不变 F5据说也能满足上面的需求，但F5的通常用法都是双机双活，单活的话还没研究过服务器资源 10.7
eclipse编辑器中文乱码问题解决 0624chenhong eclipse乱码
使用Eclipse编辑文件经常出现中文乱码或者文件中有中文不能保存的问题，Eclipse提供了灵活的设置文件编码格式的选项，我们可以通过设置编码格式解决乱码问题。在Eclipse可以从几个层面设置编码格式：Workspace、Project、Content Type、File 本文以Eclipse 3.3（英文）为例加以说明： 1. 设置Workspace的编码格式： Windows-&g
基础篇--resources资源不懂事的小屁孩 android
最近一直在做java开发，偶尔敲点android代码，突然发现有些基础给忘记了，今天用半天时间温顾一下resources的资源。 String.xml 字符串资源涉及国际化问题 http://www.2cto.com/kf/201302/190394.html string-array
接上篇补上window平台自动上传证书文件的批处理问卷酷的飞上天空 window
@echo off : host=服务器证书域名或ip，需要和部署时服务器的域名或ip一致 ou=公司名称, o=公司名称 set host=localhost set ou=localhost set o=localhost set password=123456 set validity=3650 set salias=s
企业物联网大潮涌动：如何做好准备？蓝儿唯美企业
物联网的可能性也许是无限的。要找出架构师可以做好准备的领域然后利用日益连接的世界。尽管物联网（IoT）还很新，企业架构师现在也应该为一个连接更加紧密的未来做好计划，而不是跟上闸门被打开后的集成挑战。“问题不在于物联网正在进入哪些领域，而是哪些地方物联网没有在企业推进，” Gartner研究总监Mike Walker说。 Gartner预测到2020年物联网设备安装量将达260亿，这些设备在全
spring学习——数据库（mybatis持久化框架配置） a-john mybatis
Spring提供了一组数据访问框架，集成了多种数据访问技术。无论是JDBC，iBATIS(mybatis)还是Hibernate，Spring都能够帮助消除持久化代码中单调枯燥的数据访问逻辑。可以依赖Spring来处理底层的数据访问。 mybatis是一种Spring持久化框架，要使用mybatis，就要做好相应的配置： 1，配置数据源。有很多数据源可以选择，如：DBCP，JDBC，aliba
Java静态代理、动态代理实例 aijuans Java静态代理
采用Java代理模式，代理类通过调用委托类对象的方法，来提供特定的服务。委托类需要实现一个业务接口，代理类返回委托类的实例接口对象。按照代理类的创建时期，可以分为：静态代理和动态代理。所谓静态代理：　指程序员创建好代理类，编译时直接生成代理类的字节码文件。所谓动态代理：　在程序运行时，通过反射机制动态生成代理类。一、静态代理类实例： 1、Serivce.ja
Struts1与Struts2的12点区别 asia007 Struts1与Struts2
1) 在Action实现类方面的对比：Struts 1要求Action类继承一个抽象基类；Struts 1的一个具体问题是使用抽象类编程而不是接口。Struts 2 Action类可以实现一个Action接口，也可以实现其他接口，使可选和定制的服务成为可能。Struts 2提供一个ActionSupport基类去实现常用的接口。即使Action接口不是必须实现的，只有一个包含execute方法的P
初学者要多看看帮助文档不要用js来写Jquery的代码百合不是茶 jquery js
解析json数据的时候需要将解析的数据写到文本框中, 出现了用js来写Jquery代码的问题; 1, JQuery的赋值有问题代码如下: data.username 表示的是: 网易 $("#use
经理怎么和员工搞好关系和信任 bijian1013 团队项目管理管理
产品经理应该有坚实的专业基础，这里的基础包括产品方向和产品策略的把握，包括设计，也包括对技术的理解和见识，对运营和市场的敏感，以及良好的沟通和协作能力。换言之，既然是产品经理，整个产品的方方面面都应该能摸得出门道。这也不懂那也不懂，如何让人信服？如何让自己懂？就是不断学习，不仅仅从书本中，更从平时和各种角色的沟通
如何为rich:tree不同类型节点设置右键菜单 sunjing contextMenu tree Richfaces
组合使用target和targetSelector就可以啦，如下： <rich:tree id="ruleTree" value="#{treeAction.ruleTree}" var="node" nodeType="#{node.type}" selectionChangeListener=&qu
【Redis二】Redis2.8.17搭建主从复制环境 bit1129 redis
开始使用Redis2.8.17 Redis第一篇在Redis2.4.5上搭建主从复制环境，对它的主从复制的工作机制，真正的惊呆了。不知道Redis2.8.17的主从复制机制是怎样的，Redis到了2.4.5这个版本，主从复制还做成那样，Impossible is nothing! 本篇把主从复制环境再搭一遍看看效果，这次在Unbuntu上用官方支持的版本。 Ubuntu上安装Red
JSONObject转换JSON--将Date转换为指定格式白糖_ JSONObject
项目中，经常会用JSONObject插件将JavaBean或List<JavaBean>转换为JSON格式的字符串，而JavaBean的属性有时候会有java.util.Date这个类型的时间对象，这时JSONObject默认会将Date属性转换成这样的格式： {"nanos":0,"time":-27076233600000,
JavaScript语言精粹读书笔记 braveCS JavaScript
【经典用法】： //①定义新方法 Function .prototype.method=function(name, func){ this.prototype[name]=func; return this; } //②给Object增加一个create方法，这个方法创建一个使用原对
编程之美-找符合条件的整数用字符串来表示大整数避免溢出 bylijinnan 编程之美
import java.util.LinkedList; public class FindInteger { /** * 编程之美找符合条件的整数用字符串来表示大整数避免溢出 * 题目：任意给定一个正整数N，求一个最小的正整数M(M>1)，使得N*M的十进制表示形式里只含有1和0 * * 假设当前正在搜索由0，1组成的K位十进制数
读书笔记 chengxuyuancsdn 读书笔记
1、Struts访问资源 2、把静态参数传递给一个动作 3、<result>type属性 4、s:iterator、s:if c:forEach 5、StringBuilder和StringBuffer 6、spring配置拦截器 1、访问资源 (1)通过ServletActionContext对象和实现ServletContextAware,ServletReque
[通讯与电力]光网城市建设的一些问题 comsci 问题
信号防护的问题,前面已经说过了,这里要说光网交换机与市电保障的关系我们过去用的ADSL线路,因为是电话线,在小区和街道电力中断的情况下,只要在家里用笔记本电脑+蓄电池,连接ADSL,同样可以上网........
oracle 空间RESUMABLE daizj oracle 空间不足 RESUMABLE 错误挂起
空间RESUMABLE操作转 Oracle从9i开始引入这个功能，当出现空间不足等相关的错误时，Oracle可以不是马上返回错误信息，并回滚当前的操作，而是将操作挂起，直到挂起时间超过RESUMABLE TIMEOUT，或者空间不足的错误被解决。这一篇简单介绍空间RESUMABLE的例子。第一次碰到这个特性是在一次安装9i数据库的过程中，在利用D
重构第一次写的线程池 dieslrae 线程池 python
最近没有什么学习欲望,修改之前的线程池的计划一直搁置,这几天比较闲,还是做了一次重构,由之前的2个类拆分为现在的4个类. 1、首先是工作线程类:TaskThread,此类为一个工作线程,用于完成一个工作任务,提供等待(wait),继续(proceed),绑定任务(bindTask)等方法 #!/usr/bin/env python # -*- coding:utf8 -*-
C语言学习六指针 dcj3sjt126com c
初识指针，简单示例程序： /* 指针就是地址，地址就是指针地址就是内存单元的编号指针变量是存放地址的变量指针和指针变量是两个不同的概念但是要注意：通常我们叙述时会把指针变量简称为指针，实际它们含义并不一样 */ # include <stdio.h> int main(void) { int * p; // p是变量的名字， int *
yii2 beforeSave afterSave beforeDelete dcj3sjt126com delete
public function afterSave($insert, $changedAttributes) { parent::afterSave($insert, $changedAttributes); if($insert) { //这里是新增数据 } else { //这里是更新数据 } }
timertask shuizhaosi888 timertask
java.util.Timer timer = new java.util.Timer(true); // true 说明这个timer以daemon方式运行（优先级低， // 程序结束timer也自动结束），注意，javax.swing // 包中也有一个Timer类，如果import中用到swing包， // 要注意名字的冲突。 TimerTask task = new
Spring Security（13）——session管理 234390216 session Spring Security 攻击保护超时
session管理目录 1.1 检测session超时 1.2 concurrency-control 1.3 session 固定攻击保护
公司项目NODEJS实践0.3[ mongo / session ...] 逐行分析JS源代码 mongodb session nodejs
http://www.upopen.cn 一、前言书接上回，我们搭建了WEB服务端路由、模板等功能，完成了register 通过ajax与后端的通信，今天主要完成数据与mongodb的存取，实现注册 / 登录 /
pojo.vo.po.domain区别 LiaoJuncai java VO POJO javabean domain
　　POJO = "Plain Old Java Object"，是MartinFowler等发明的一个术语，用来表示普通的Java对象，不是JavaBean, EntityBean 或者 SessionBean。POJO不但当任何特殊的角色，也不实现任何特殊的Java框架的接口如，EJB， JDBC等等。　　　　即POJO是一个简单的普通的Java对象，它包含业务逻辑
Windows Error Code OhMyCC windows
0 操作成功完成. 1 功能错误. 2 系统找不到指定的文件. 3 系统找不到指定的路径. 4 系统无法打开文件. 5 拒绝访问. 6 句柄无效. 7 存储控制块被损坏. 8 存储空间不足, 无法处理此命令. 9 存储控制块地址无效. 10 环境错误. 11 试图加载格式错误的程序. 12 访问码无效. 13 数据无效. 14 存储器不足, 无法完成此操作. 15 系
在storm集群环境下发布Topology roadrunners 集群 storm topology spout bolt
storm的topology设计和开发就略过了。本章主要来说说如何在storm的集群环境中，通过storm的管理命令来发布和管理集群中的topology。 1、打包打包插件是使用maven提供的maven-shade-plugin，详细见maven-shade-plugin。 <plugin> <groupId>org.apache.maven.
为什么不允许代码里出现“魔数” tomcat_oracle java
　　在一个新项目中，我最先做的事情之一，就是建立使用诸如Checkstyle和Findbugs之类工具的准则。目的是制定一些代码规范，以及避免通过静态代码分析就能够检测到的bug。　　迟早会有人给出案例说这样太离谱了。其中的一个案例是Checkstyle的魔数检查。它会对任何没有定义常量就使用的数字字面量给出警告，除了-1、0、1和2。　　很多开发者在这个检查方面都有问题，这可以从结果
zoj 3511 Cake Robbery(线段树) 阿尔萨斯线段树
题目链接：zoj 3511 Cake Robbery 题目大意：就是有一个N边形的蛋糕，切M刀，从中挑选一块边数最多的，保证没有两条边重叠。解题思路：有多少个顶点即为有多少条边，所以直接按照切刀切掉点的个数排序，然后用线段树维护剩下的还有哪些点。 #include <cstdio> #include <cstring> #include <vector&