jiangnan955

百面机器学习自学笔记

第一章特征工程

①②③④⑤⑥⑦⑧⑨

1、常用特征归一化

特征归一化

①线性函数归一化（Min-Mac Scaling）:对原始数据进行线性变换，使结果映射到[0，1]的范围，实现对原始数据的等比缩放。

$X_{norm}=\frac{X-X_{min}}{X_{max}-X_{min}}$

②零均值归一化（Z-Score Normalization）:将原始数据映射到均值为0，标准差为1的分布上。

$Z=\frac{X-\mu }{\sigma }$ 均值为 μ，标准差为 σ

归一化：更容易通过梯度下降找到最优解（决策树不适用），因为决策树节点分裂时是数据集D关于特征X的信息增益比

2、类别型特征（Categorical Feature）:有限选项内的取值特征。

序号编码、独热编码、二进制编码

怎么处理？

①序号编码（Ordinal Encoding）:通常用于处理类别间具有大小关系的数据。

②独热编码（One-hot Encoding）：通常用于处理类别间不具有大小关系的特征。

                对于类别取值较多的情况下：
                (1）使用稀疏向量来节省空间。在独热编码下,特征向量只有某一维取值为1,其他位置取值均为0。因此可以利用向量的稀疏表示有效地节省空间,并且目前大部分的算法均接受稀疏向量形式的输入。
                (2)配合特征选择来降低维度。高维度特征会带来几方面的问题。一是在K近邻算法中,高维空间下两点之间的距离很难得到有效的衡量;二是在逻辑回归模型中,参数的数量会随着维度的增高而增加,容易引起过拟合问题;三是通常只有部分维度是对分类、预测有帮助，因此可
以考虑配合特征选择来降低维度。

③二进制编码（Binary Encoding）：采用二进制表示类别，其编码过程分为2步：

1.使用ID对每个类别进行顺序编码，该过程类似于序号编码。

2.将类别编码对应的ID用二进制表示

3、高维组合特征的处理

组合特征

为了提高复杂关系的拟合能力，在特征工程中经常会把一阶离散特征俩俩组合，构成高阶组合特征。

4、组合特征

组合特征

问题一：怎么有效找到组合特征？

本节介绍一种基于决策树的特征组合寻找办法。

以点击预测问题为例，假设原始输入特征包含年龄、性别、用户类型（试用期、付费）、物品类型（护肤、食品等）4个方面的信息，并且根据原始输入和标签（点击/未点击）构造出决策树。于是，每一条从根节点到叶节点的路径都可以看成一种特征组合方式。

问题二：给定原始输入该如何有效地构造决策树呢？

梯度提升决策树，思想是每次都在之前构建的决策树的残差上构建下一棵决策树。

5、文本表示类型（文本是重要的非结构化数据）

词袋模型、TF-IDF、主题模型、词嵌入模型

①词袋模型（Bag of Words）：

最基本的文本表示模型。将每篇文章看成一袋子词（以词为单位切开），并忽略每个词出现的顺序。然后文章就可以看作是一个长向量，向量中的每一维代表一个单词，而该维对应的权重则反映了这个词在原文中的重要程度。常用TF-IDF来计算权重。

②N-gram模型（Bag of Words）：将连续出现的n个词所组成的词组（N-gram）也作为一个单独的特征放到向量表示中去。

③TF-IDF（Term Frequency-Inverse Document Frequency）：

$TF-IDF(t,d)=TF(t,d)\times IDF(t)$

TF(t,d)是单词t在文档d中出现的频率，IDF(t)是逆文档频率，用来衡量单词t对表达语义所引起的重要性

IDF(t)=log（文章总数/（包含单词t的文章总数+1））

就是一个单词在非常多的文章出现，那么可能是一个比较通用的词汇，对于区分某篇文章特殊语义贡献较小，因此做些惩罚

④主题模型（Topic Model）：用于从文本中发现有代表性的主题（得到每个主题上面词的分布特性），并且能够计算出每篇文章的主题分布。

⑤词嵌入模型（Word Embedding）：一类将词向量化的模型的统称。

核心思想是将每个词都映射成低维空间（通常K=50~300维）上的一个稠密向量（Dense Vector）。K维空间的每一维也可以看做一个隐含的主题，只不过不像主题模型中的主题那样直观。

由于词嵌入将每个词映射成一个K维的向量，如果一篇文档有N个词，就可以用一个N×K维的矩阵来表示这篇文档，但是这样的表示过于底层。在实际应用中，如果仅仅把这个矩阵作为原文本的表示特征输入到机器学习模型中，通常很难得到令人满意的结果。因此，还需要在此基础之上加工出更高层的特征。在传统的浅层机器学习模型中，一个好的特征工程往往可以带来算法效果的显著提升。而深度学习模型正好为我们提供了一种自动地进行特征工程的方式，模型中的每个隐层都可以认为对应着不同抽象层次的特征。从这个角度来讲，深度学习模型能够打败浅层模型也就顺理成章了。卷积神经网络和循环神经网络的结构在文本表示中取得了很好的效果，主要是由于它们能够更好地对文本进行建模，抽取出一些高层的语义特征。与全连接的网络结构相比，卷积神经网络和循环神经网络一方面很好地抓住了文本的特性，另一方面又减少了网络中待学习的参数，提高了训练速度，并且降低了过拟合的风险。

6、Word2Vec

Word2Vec、隐狄利克雷模型（LDA）、CBOW，Skip-gram

问题一： Word2Vec是如何工作的？它和隐狄利克雷模型（LDA）有什么区别与联系

CBOW目标是根据上下文出现的词语来预测当前词的生成概率，

Skip-gram目标是根据当前的词来预测上下文中各词的生成概率（相反）。

CBOW 和 Skip-gram 都可以表示成有输入层（Input）、映射层（Project）和输出层（Output）组成的神经网络。

①输入层：每个词由独热编码方式表示，即所有词均表示成一个N维向量，其中N为词汇表中单词的总数。在向量中，每个词都将与之对应的维度置为1，其余维度的值均设为0。

②隐含层：K个隐含单元（Hidden Units）的取值可以由N维输入向量以及连接输入和隐含单元之间的N×K维权重矩阵计算得到。在CBOW中，还需要将各个输入词所计算出的隐含单元求和。

③输出层：向量的值可以通过隐含层向量（K维)，以及连接隐含层和输出层之间的KxN维权重矩阵计算得到。输出层也是一个N维向量，每维与词汇表中的一个单词相对应。

④对输出层向量应用Softmax激活函数，可以计算出每个单词的生成概率。接下来的任务就是训练神经网络的权重，使得语料库中所有单词的整体生成概率最大化。

由于Softmax激活函数中存在归一化项的缘故，推导出来的迭代公式需要对词汇表中的所有单词进行遍历，使得每次迭代过程非常缓慢，由此产生了Hierarchical Softmax和Negative Sampling两种改进方法，有兴趣的读者可以参考Word2Vec的原论文[3]。训练得到维度为N×K和K×N的两个权重矩阵之后，可以选择其中一个作为N个词的K维向量表示。

Word2Vec 与 LDA 的区别和联系：首先，LDA是利用文档中单词的共现关系来对单词按主题聚类，也可以理解为对 “文档 - 单词” 矩阵进行分解，得到 “文档 - 主题” 和 “主题 - 单词” 两个概率分布。Word2Vec 其实是对 “上下文-单词” 矩阵进行学习，其中上下文由周围的几个单词组成，由此得到的词向量表示更多地融入了上下文共现的特征。也就是说，如果两个单词所对应的 Word2Vec向量相似度较高，那么它们很可能经常在同样的上下文中出现。

主题模型和词嵌入的差异：主题模型通过一定的结构调整可以基于“上下文-单词”矩阵进行主题推理。同样地，词嵌入方法也可以根据“文档-单词”矩阵学习出词的隐含向量表示。主题模型和词嵌入两类方法最大的不同其实在于模型本身，主题模型是一种基于概率图模型的生成式模型，其似然函数可以写成若干条件概率连乘的形式，其中包括需要推测的隐含变量（即主题）；而词嵌入模型一般表达为神经网络的形式，似然函数定义在网络的输出之上，需要通过学习网络的权重以得到单词的稠密向量表示。

7、图像数据不足时的处理方法

迁移学习、生成对抗网络、图像处理、上采样技术、数据扩充

问题一：在图像分类任务中，训练数据不足会带来什么问题？如何缓解数据不足带来的问题？

一个模型所能提供的信息一般来源于两个方面：

一是训练数据中蕴含的信息；

二是在模型的形成过程中（包括构造、学习、推理等），人们提供的先验信息。

当训练数据不足时，说明模型从原始数据中获取的信息比较少，这种情况下要想保证模型的效果，就需要更多先验信息（数据）。先验信息可以作用在模型上，例如让模型采用特定的内在结构、条件假设或添加其他一些约束条件；先验信息也可以直接施加在数据集上，即根据特定的先验假设去调整、变换或扩展训练数据，让其展现出更多的、更有用的信息，以利于后续模型的训练和学习。

具体到图像分类任务上，训练数据不足带来的问题主要表现在过拟合方面，即模型在训练样本上的效果可能不错，但在测试集上的泛化效果不佳。

1.怎么改善？

①基于模型，主要是采用降低过拟合风险的措施，包括简化模型（如将非线性模型简化为线性模型）、添加约束项以缩小假设空间（如L1/L2正则项）、集成学习、Dropout超参数等；

②基于数据，主要通过数据扩充（Data Augmentation），即根据一些先验知识，在保持特定信息的前提下，对原始数据进行适当变换以达到扩充数据集的效果。

2.图像分类任务的数据扩充：

①一定程度内的随机旋转、平移、缩放、裁剪、填充、左右翻转等，这些变换对应着同一个目标在不同角度的观察结果。

②对图像中的像素添加噪声扰动，比如椒盐噪声、高斯白噪声等。

③颜色变换。例如，在图像的RGB颜色空间上进行主成分分析，得到3个主成分的特征向量p1 ,p2 ,p3及其对应的特征值 λ1 ,λ2 ,λ3，然后在每个像素的RGB值上添加增量[p1 ,p2 ,p3 ]•[α1λ1 ,α2λ2 ,α3λ3 ] T，其中 α1 ,α2 ,α3是均值为0、方差较小的高斯分布随机数。

④改变图像的亮度、清晰度、对比度、锐度等。

3.其他方法：

①还可以先对图像进行特征提取，然后在图像的特征空间内进行变换，利用一些通用的数据扩充或上采样技术，例如SMOTE（Synthetic Minority Over-sampling Technique）算法。

②生成模型也可以合成一些新样本，例如当今非常流行的生成式对抗网络模型。

③迁移学习

第二章模型评估

1、评估指标的局限性

准确率（Accuracy），精确率（precision）、召回率（Recall）、均方根误差（Root Mean Square Error，RMSE）

问题一：准确率局限性

准确率是分类问题中最简单也是最直观的评价指标，但存在明显的缺陷。比如，当负样本占99%时，分类器把所有样本都预测为负样本也可以获得99%的准确率。所以，当不同类别的样本比例非常不均衡时，占比大的类别往往成为影响准确率的最主要因素。可以使用更为有效的平均准确率（每个类别下的样本准确率的算术平均）作为模型评估的指标。

事实上，这是一道比较开放的问题，标准答案其实也不限于指标的选择，即使评估指标选择对了，仍会存在模型过拟合或欠拟合、测试集和训练集划分不合理、线下评估与线上测试的样本分布存在差异等一系列问题，但评估指标的选择是最容易被发现，也是最可能影响评估结果的因素。

问题二：精确率与召回率的权衡

精确率：分类正确的正样本个数占分类器判定为正样本的样本个数的比例。

召回率：分类正确的正样本个数占真正的正样本个数的比例。

Precision 值和 Recall 值是既矛盾又统一的两个指标，为了提高 Precision 值，分类器需要尽量在 “更有把握” 时才把样本预测为正样本，但此时往往会因为过于保守而漏掉很多 “没有把握” 的正样本，导致Recall值降低。

在排序问题中，通常没有一个确定的阈值把得到的结果直接判定为正样本或负样本，而是采用Top N返回结果的Precision值和Recall值来衡量排序模型的性能，即认为模型返回的Top N的结果就是模型判定的正样本，然后计算前N个位置上的准确率Precision@N和前N个位置上的召回率Recall@N。

回到问题中来，模型返回的Precision@5的结果非常好，也就是说排序模型Top 5的返回值的质量是很高的。但在实际应用过程中，用户为了找一些冷门的视频，往往会寻找排在较靠后位置的结果，甚至翻页去查找目标视频。但根据题目描述，用户经常找不到想要的视频，这说明模型没有把相关的视频都找出来呈现给用户。显然，问题出在召回率上。如果相关结果有100个，即使Precision@5达到了100%，Recall@5也仅仅是5%。在模型评估时，我们是否应该同时关注Precision值和Recall值？进一步而言，是否应该选取不同的Top N的结果进行观察呢？是否应该选取更高阶的评估指标来更全面地反映模型在Precision值和Recall值两方面的表现？

1、

①②③④⑤⑥⑦⑧⑨

Python网络爬虫凯迪不拉克资源分享 python
分享一份关于Python网络爬虫技术的视频资料。内容涵盖基本原理、技术要点及实战应用，适合不同水平的Python编程爱好者。百度网盘：点击跳转提取码：4778期待你的进步，共同交流！免责声明：请注意，在使用网络爬虫技术时，请确保你的行为遵守相关法律法规和网站的使用条款。不要用于非法获取数据或侵犯他人隐私。本视频资料仅供学习参考，任何基于该资料进行的实际操作，使用者需自行承担相关责任。
Win7本地化部署deepseek-r1等大模型详解 mygodalien 语言模型 Windows7 本地化部署大模型 llama
参考链接在Windows7操作系统，基于llama.cpp本地化部署deepseek-r1模型的方法2025-02-082G内存Windows7运行deepseek-r1:1.5b这两个链接写的可能不够详细，有同学私信问实现过程，这里进一步解释一下。一、准备需要准备的大模型、工具等文件，已放到网盘，可自取。网盘的figures目录是配置过程中的一些截图，可参考。百度网盘：https://pan.b
机器学习·逻辑回归 AAA顶置摸鱼 python 深度学习机器学习逻辑回归人工智能
前言逻辑回归虽然名称中有“回归”，但实际上用于分类问题。基于线性回归的模型，通过使用逻辑函数（如Sigmoid函数）将线性组合的结果映射到0到1之间的概率值，用于表示属于某个类别的可能性。一、逻辑回归vs线性回归特性逻辑回归线性回归任务类型分类（二分类为主）回归（预测连续值）输出范围(0,1)（概率值）(-∞,+∞)核心函数Sigmoid函数线性函数损失函数对数损失函数（交叉熵）均方误差（MSE）
Meta AI 最近推出了一款全新的机器学习框架ParetoQ，专门用于大型语言模型的4-bit 以下量化新加坡内哥谈技术人工智能语言模型自然语言处理
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/MetaAI最近推出了一款全新的机器学习框架——ParetoQ，专门用于大型语言模型的4
亚信安全与飞书达成深度合作亚信安全官方账号飞书网络安全字节跳动网络安全
近日，亚信安全联合飞书举办的“走近先进”系列活动正式走进亚信。活动以“安全护航信息化共筑数字未来路”为主题，吸引了众多数字化转型前沿企业的近百位领导参会。作为“走近先进”系列的第二场活动，本场活动更加深入挖掘了数字化转型的基础性能力与驱动力，并分享了企业数字化变革的优秀实践、创新思路与前沿趋势。作为活动的重点，亚信安全与飞书正式签署合作伙伴框架协议，达成深度合作关系，亚信安全CMO周海涛与飞书产品
【自学笔记】Vue基础知识点总览-持续更新 Long_poem 笔记 vue.js 前端
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录Vue重点知识点总览一、Vue基础1.Vue简介2.MVVM设计思想3.响应式数据绑定4.组件化开发二、Vue核心特性1.虚拟DOM2.模板语法3.计算属性与监听属性三、Vue高级特性1.路由管理（vue-router）2.状态管理（vuex）3.插件与指令四、Vue调试技巧1.使用debugger语句2.Vue.jsdevt
Python面试宝典：Python中与Django相关的面试笔试题（1000加面试笔试题助你轻松捕获大厂Offer）脑洞笔记 python全栈面试宝典 python 面试 django
Python面试宝典：1000加python面试题助你轻松捕获大厂Offer【第二部分：Python高级特性：第十六章：Web开发：第二节：Django】第十六章：Web开发第二节：DjangoMTV架构（模型-模板-视图）特性快速开始数据库和模型URL路由和视图模板Django面试题面试题1面试题2面试题3面试题4面试题5面试题6面试题7面试题8面试题9面试题10更多面试题请查阅：Python面
书籍-《机器学习数学基础》机器学习深度学习数学
书籍：MathematicsforMachineLearning作者：MarcPeterDeisenroth，A.AldoFaisal，ChengSoonOng出版：CambridgeUniversityPress编辑：陈萍萍的公主@一点人工一点智能下载：书籍下载-《机器学习数学基础》01书籍介绍理解机器学习所需的基本数学工具包括线性代数、解析几何、矩阵分解、向量微积分、最优化、概率论和统计学。这
运行游戏出现directx runtime问题的解决 CS_Dr.Deng 游戏 windows 经验分享笔记
操作系统：Windows11家庭中文电脑：笔记本电脑显卡：集成显卡（AMD）解决方案：首先去自己的显卡官网更新驱动，AMD/英伟达/英特尔/摩尔线程等，更新自己的驱动。接下来就是用这个软件，我把源文件网址放在这里，联想知识库如果网页失效，可以前往我分享的百度云地址。（免费有效）链接:https://pan.baidu.com/s/1n078BSfOPlysG_1TLF6Psw?pwd=jd4p提取
零基础入门机器学习 -- 第三章第一个机器学习模型——线性回归山海青风 #机器学习人工智能机器学习回归线性回归 python
3.1线性回归的概念在现实生活中，许多事情都遵循某种线性关系，比如：房价vs面积：房子的面积越大，价格通常越高。工资vs工作经验：工作经验越多，薪资往往更高。汽车油耗vs车速：在一定范围内，车速越快，油耗可能越高。线性回归（LinearRegression）是机器学习中最基础的算法之一，它用于研究两个变量之间的线性关系，即一个变量（自变量）如何影响另一个变量（因变量）。3.2线性回归的数学直觉线性
零基础入门机器学习 -- 第二章机器学习的基本流程山海青风 #机器学习机器学习 python 人工智能
1.机器学习的五个基本步骤在机器学习项目中，我们通常遵循以下步骤：收集数据：获取数据集，例如从文件、数据库或在线资源。清洗和预处理数据：处理缺失值、去除异常数据、转换数据格式等。选择合适的模型：不同任务适合不同模型，如分类使用逻辑回归、决策树等。训练模型：让模型从数据中学习模式并调整参数。评估模型：检查模型的准确率，以判断效果是否良好。本章会通过电影评分预测的示例，帮助你快速体验从数据到模型的基本
数学到底在哪里支撑着编程数学
在编程的世界里，数学并非只是一个学科，它实际上是支撑整个编程基础的支柱之一。数学不仅为编程提供了理论框架，它的各种理论和方法被用来提升代码效率、优化算法、设计系统架构、分析数据、以及确保程序的正确性。编程中的很多技术，从数据结构的选择到算法的设计、从性能优化到人工智能的构建，都离不开数学的支撑。在这篇文章中，我们将从多个方面深入探讨数学如何在编程中发挥作用，包括算法设计、数据结构优化、机器学习、图
AI Agent智能应用从0到1定制开发Langchain+LLM全流程解决方案与落地实战 AI知识分享官人工智能 langchain 算法数据挖掘计算机视觉机器学习产品经理
大模型微调实战：精通、指令微调、开源大模型微调、对齐与垂直领域应用29套AI全栈大模型项目实战，人工智能视频课程-多模态大模型，微调技术训练营，大模型多场景实战，AI图像处理，AI量化投资，OPenCV视觉处理，机器学习，Pytorch深度学习，推荐系统，自动驾驶，训练私有大模型，LLM大语言模型，大模型多场景实战，Agent智能应用，AIGC实战落地，ChatGPT虚拟数字人，Djourney智
安科瑞光伏发电防逆流解决方案——守护电网安全，提升能源效率安科瑞华楠安全能源
安科瑞华楠187+0616+3979在当今大力发展清洁能源的时代背景下，光伏发电作为一种可持续的能源解决方案，正得到越来越广泛的应用。然而，光伏发电过程中出现的逆流问题，给电网的安全稳定运行带来了诸多挑战。若不能有效解决，不仅可能影响电网的电能质量，还可能对电网设备造成损害。在此背景下，安科瑞凭借其专业技术，为光伏发电防逆流问题提供了一系列切实可行的解决方案。来百度APP畅享高清图片一、逆功率保护
自然语言处理（NLP）入门：基础概念与应用场景 Ash Butterfield nlp 自然语言处理人工智能
什么是自然语言处理（NLP）？自然语言处理（NaturalLanguageProcessing,NLP）是人工智能（AI）的一个重要分支，研究如何让计算机理解、生成、分析和与人类语言进行交互。换句话说，NLP是让机器像人一样“读、写、听、说”的技术，它结合了语言学、机器学习、计算机科学等多学科知识。NLP的核心目标是将非结构化的自然语言（如文本和语音）转化为结构化数据，使机器能够高效处理、分析和生
机器学习算法工程师笔试选择题（1） Ash Butterfield 机器学习算法人工智能
1.关于梯度下降的说法正确的是：A.梯度下降法可以确保找到全局最优解。B.随机梯度下降每次使用所有数据来更新参数。C.批量梯度下降（BatchGradientDescent）通常收敛更快。D.学习率过大会导致梯度下降过程震荡。答案：D（学习率过大会导致不稳定，可能震荡或无法收敛）2.在以下算法中，哪种算法属于无监督学习？A.逻辑回归B.K-近邻算法C.支持向量机D.K-均值聚类答案：D（K-均值聚
多模态大模型（LMMs）与大语言模型（LLMs）的比较大F的智能小课底层技术解析人工智能语言模型
前言现在的大模型分为两大类：大语言模型（LargeLanguageModels，简称LLMs）和多模态大模型（LargeMultimodalModels，简称LMMs）。本文将从基础定义、输入数据、应用场景、训练过程这几方面讨论下两者的区别。基础定义LLMs(LargeLanguageModels,大型语言模型)-深度学习的应用之一，是基于深度学习的大规模机器学习模型，通常由数十亿到数万亿个参数构
【好书推荐2】AI提示工程实战：从零开始利用提示工程学习应用大语言模型是Yu欸粉丝福利人工智能深度学习 bert AIGC prompt gpt AI写作
【好书推荐2】AI提示工程实战：从零开始利用提示工程学习应用大语言模型写在最前面AI辅助研发方向一：AI辅助研发的技术进展方向二：行业应用案例方向三：面临的挑战与机遇方向四：未来趋势预测方向五：与法规的影响方向六：人才培养与教育《AI提示工程实战：从零开始利用提示工程学习应用大语言模型》关键点内容简介作者简介你好呀！我是是Yu欸2024每日百字篆刻时光，感谢你的陪伴与支持~欢迎一起踏上探险之旅，挖
手把手教你给 windows装个vmware虚拟机 python算法小白
附Java/C/C++/机器学习/算法与数据结构/前端/安卓/Python/程序员必读书籍书单大全：书单导航页（点击右侧极客侠栈即可打开个人博客）：极客侠栈①【Java】学习之路吐血整理技术书从入门到进阶最全50+本（珍藏版)②【算法数据结构+acm】从入门到进阶吐血整理书单50+本（珍藏版)③【数据库】从入门到进阶必读18本技术书籍网盘吐血整理网盘(珍藏版)④【Web前端】从HTML到JS到AJ
【Elasticsearch】分词器概述 risc123456 Elasticsearch elasticsearch
Elasticsearch分词与神经网络分词的区别Elasticsearch的分词过程产生的是优化用于搜索和检索的语言学分词。这与机器学习和自然语言处理中的神经分词不同。神经分词器将字符串转换为更小的子词分词，这些分词被编码为向量，供神经网络使用。Elasticsearch没有内置的神经分词器。分词器接收一个字符流，将其分解为单独的分词（通常是单个单词），并输出一个分词流。例如，`whitespa
通义灵码全新上线模型选择功能，新增支持 DeepSeek-V3 和 DeepSeek-R1 模型 TONGYI_Lingma 阿里云云原生 AI程序员通义灵码
近期，阿里云百炼平台重磅推出DeepSeek-V3、DeepSeek-R1、DeepSeek-R1-Distill-Qwen-32B等6款模型，进一步丰富其AI模型矩阵。与此同时，通义灵码也紧跟步伐，全新上线模型选择功能，支持基于百炼的DeepSeek-V3和DeepSeek-R1满血版671B模型，为AI编程领域注入新活力。通义灵码能力再升级，支持推理模型选择今年1月，通义灵码AI程序员全面上线
工行银企直联（dom4j+java无中间件版） gudongFox 后端 java http
工行银企直联（dom4j无中间件版）最近，接手了工行银企直联的任务，在网上找了很多，发现能一次说清的文章很少，此篇文章专为第一次接触银企直联的同学准备。1、准备包：dom4j（自行百度，如果这一步都不知道怎么做，接下来的过程也就别看了）2、逻辑3、Http的Post方法//工行支付前对报文签名publicstaticStringsignICBC(Stringurl,Stringparam){Pri
数智百问 | 制造企业如何解锁检测数据的巨大隐藏价值？杉岩数据检测数据存储管理视觉检测质检图片存储管理检测数据管理检测数据价值
随着工业自动化和智能制造的快速演进，很多制造型企业部署了MES、QMS、SPC等业务系统，并采用AOI、AVI、CCD、X-ray等工业AI检测设备和技术。这些系统和设备运行过程中会产生大量数据，包括结构化数据（如生产计划、质量检测数据等）、半结构化数据（如日志文件、设备配置信息等）和非结构化数据（如图像、音频、视频等）等。这些数据如同工业体系的血液，流淌于设备状态监测、生产流程优化、质量控制提升
从零开始大模型开发与微调：Miniconda的下载与安装 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
从零开始大模型开发与微调：Miniconda的下载与安装1.背景介绍随着人工智能和机器学习技术的快速发展,大型语言模型(LargeLanguageModel,LLM)已经成为当前研究和应用的热点。这些模型通过在海量文本数据上进行预训练,能够捕捉到丰富的语义和上下文信息,从而在自然语言处理任务中表现出色。然而,训练这些庞大的模型需要大量的计算资源,对于普通开发者来说,从头开始训练一个大模型是一个巨大
数智百问 | 制造企业如何降低产线检测数据的存储和管理成本？杉岩数据检测数据存储管理制造视觉检测大数据分布式存储检测数据管理质检图片存储
在《“十四五”智能制造发展规划》等政策的推动下，以及新能源汽车、消费电子等品牌商对产品质量和供应商智能化水平要求的提升，半导体、电子制造、动力电池等先进制造行业企业纷纷推进产线智能化升级，并投入大量机器视觉检测设备以实现自动化检测。这些设备会产生海量的质检图片、日志等非结构化数据，为了满足下游客户的质量追溯要求以及遵循国家相关质量控制行业标准，企业需要对全过程质检数据进行长期保存。在激烈的市场竞争
centos7配置网络yum源及简单系统优化莫道桑榆晚~ Linux系统运维服务器运维 centos linux
一、配置网络yum源1.1确认主机能否连通外网用ping命令向百度发送4个包，查看有没有丢包[root@test1~]#ping-c4www.baidu.comPINGwww.a.shifen.com(153.3.238.102)56(84)bytesofdata.64bytesfrom153.3.238.102(153.3.238.102):icmp_seq=1ttl=52time=12.2ms
如何避免交叉验证中的数据泄露？奋进小青人工智能深度学习机器学习
大家好，我是小青在机器学习中，交叉验证（Cross-Validation）是一种常用的模型评估技术，目的是通过将数据集分割为多个子集，反复训练和验证模型，以便更好地估计模型的性能。然而，在交叉验证过程中，数据泄露（DataLeakage）是一个非常严重的问题，它会导致模型的评估结果过于乐观，进而使得模型在实际应用中表现不佳。什么是数据泄露数据泄露是指在模型训练过程中，模型不恰当地接触到了与验证集或
探索机器学习在个性化推荐系统中的妙用：Python实战解析 Echo_Wish 前沿技术人工智能机器学习 python 人工智能
探索机器学习在个性化推荐系统中的妙用：Python实战解析在信息爆炸的时代，我们每天都被大量的内容包围着。如何在海量的信息中找到真正适合自己的内容？这就是个性化推荐系统的使命。作为一名热爱人工智能和Python的技术人，今天我想和大家聊聊机器学习在个性化推荐系统中的应用，并通过具体的代码示例，带大家一起探索这个领域的奥秘。一、个性化推荐系统的意义首先，我们来思考一个问题：为什么需要个性化推荐系统？
值得收藏！十大中国流行的AI大模型企业及平台汇总 deepseek大模型人工智能 AIGC chatgpt 面试产品经理
在当今这个信息化迅速发展的时代，人工智能技术已经成为推动社会进步的重要力量。特别是在我国，AI大模型技术的发展速度令人瞩目，各种平台纷纷涌现，表现出强大的技术实力和广泛的应用前景。本文将为您介绍当前目前我国十个流行的AI大模型企业及各自平台（根据用户访问流量及行业反馈情况），下面一起来看看吧！1.百度-文心一言百度在大模型开发上持续采用创新算法和结构，如Transformer，以优化模型性能和学习
美团一面，有点难度。 go
一位粉丝朋友分享了最近参与美团民宿旅游业务线的一面的经历，全程约1小时，面试官围绕高并发、分布式事务、性能优化等高频考点展开追问，问题密集且注重落地细节。以下是完整问题整理+回答思路+扩展解析，助你避坑！一、项目与高并发场景1.“介绍一个项目中的难点，并说明QPS和用户量峰值？”回答示例：项目背景：民宿节日大促活动，瞬时流量激增（如春节、国庆），用户抢购特价房源。核心数据：QPS峰值：约8000（
微信开发者验证接口开发 362217990 微信开发者 token 验证
微信开发者接口验证。 Token，自己随便定义，与微信填写一致就可以了。根据微信接入指南描述 http://mp.weixin.qq.com/wiki/17/2d4265491f12608cd170a95559800f2d.html 第一步：填写服务器配置第二步：验证服务器地址的有效性第三步：依据接口文档实现业务逻辑这里主要讲第二步验证服务器有效性。建一个
一个小编程题-类似约瑟夫环问题 BrokenDreams 编程
今天群友出了一题：一个数列,把第一个元素删除,然后把第二个元素放到数列的最后,依次操作下去,直到把数列中所有的数都删除,要求依次打印出这个过程中删除的数。 &
linux复习笔记之bash shell (5) 关于减号-的作用 eksliang linux关于减号“-”的含义 linux关于减号“-”的用途 linux关于“-”的含义 linux关于减号的含义
转载请出自出处： http://eksliang.iteye.com/blog/2105677 管道命令在bash的连续处理程序中是相当重要的，尤其在使用到前一个命令的studout（标准输出）作为这次的stdin（标准输入）时，就显得太重要了，某些命令需要用到文件名，例如上篇文档的的切割命令（split）、还有
Unix(3) 18289753290 unix ksh
1)若该变量需要在其他子进程执行，则可用"$变量名称"或${变量}累加内容什么是子进程？在我目前这个shell情况下，去打开一个新的shell，新的那个shell就是子进程。一般状态下，父进程的自定义变量是无法在子进程内使用的，但通过export将变量变成环境变量后就能够在子进程里面应用了。 2)条件判断： &&代表and ||代表or&nbs
关于ListView中性能优化中图片加载问题酷的飞上天空 ListView
ListView的性能优化网上很多信息，但是涉及到异步加载图片问题就会出现问题。具体参看上篇文章http://314858770.iteye.com/admin/blogs/1217594 如果每次都重新inflate一个新的View出来肯定会造成性能损失严重，可能会出现listview滚动是很卡的情况，还会出现内存溢出。现在想出一个方法就是每次都添加一个标识，然后设置图
德国总理默多克：给国人的一堂“震撼教育”课永夜-极光教育
http://bbs.voc.com.cn/topic-2443617-1-1.html德国总理默多克：给国人的一堂“震撼教育”课　安吉拉—默克尔，一位经历过社会主义的东德人，她利用自己的博客，发表一番来华前的谈话，该说的话，都在上面说了，全世界想看想传播——去看看默克尔总理的博客吧！　　德国总理默克尔以她的低调、朴素、谦和、平易近人等品格给国人留下了深刻印象。她以实际行动为中国人上了一堂
关于Java继承的一个小问题。。。随便小屋 java
今天看Java 编程思想的时候遇见一个问题，运行的结果和自己想想的完全不一样。先把代码贴出来！ //CanFight接口 interface Canfight { void fight(); } //ActionCharacter类 class ActionCharacter { public void fight() { System.out.pr
23种基本的设计模式 aijuans 设计模式
Abstract Factory：提供一个创建一系列相关或相互依赖对象的接口，而无需指定它们具体的类。　　Adapter：将一个类的接口转换成客户希望的另外一个接口。A d a p t e r模式使得原本由于接口不兼容而不能一起工作的那些类可以一起工作。　　Bridge：将抽象部分与它的实现部分分离，使它们都可以独立地变化。　　Builder：将一个复杂对象的构建与它的表示分离，使得同
《周鸿祎自述：我的互联网方法论》读书笔记 aoyouzi 读书笔记
从用户的角度来看,能解决问题的产品才是好产品,能方便/快速地解决问题的产品,就是一流产品. 商业模式不是赚钱模式一款产品免费获得海量用户后,它的边际成本趋于0,然后再通过广告或者增值服务的方式赚钱,实际上就是创造了新的价值链. 商业模式的基础是用户,木有用户,任何商业模式都是浮云.商业模式的核心是产品,本质是通过产品为用户创造价值. 商业模式还包括寻找需求
JavaScript动态改变样式访问技术百合不是茶 JavaScript style属性 ClassName属性
一:style属性格式: HTML元素.style.样式属性="值"; 创建菜单:在html标签中创建或者在head标签中用数组创建 <html> <head> <title>style改变样式</title> </head> &l
jQuery的deferred对象详解 bijian1013 jquery deferred对象
jQuery的开发速度很快，几乎每半年一个大版本，每两个月一个小版本。每个版本都会引入一些新功能，从jQuery 1.5.0版本开始引入的一个新功能----deferred对象。 &nb
淘宝开放平台TOP Bill_chen C++c 物流 C#
淘宝网开放平台首页：http://open.taobao.com/ 淘宝开放平台是淘宝TOP团队的产品，TOP即TaoBao Open Platform，是淘宝合作伙伴开发、发布、交易其服务的平台。支撑TOP的三条主线为： 1.开放数据和业务流程 * 以API数据形式开放商品、交易、物流等业务； &
【大型网站架构一】大型网站架构概述 bit1129 网站架构
大型互联网特点面对海量用户、海量数据大型互联网架构的关键指标高并发高性能高可用高可扩展性线性伸缩性安全性大型互联网技术要点前端优化 CDN缓存反向代理 KV缓存消息系统分布式存储 NoSQL数据库搜索监控安全想到的问题： 1.对于订单系统这种事务型系统，如
eclipse插件hibernate tools安装白糖_ Hibernate
eclipse helios(3.6)版 1.启动eclipse 2.选择 Help > Install New Software...> 3.添加如下地址： http://download.jboss.org/jbosstools/updates/stable/helios/ 4.选择性安装：hibernate tools在All Jboss tool
Jquery easyui Form表单提交注意事项 bozch jquery easyui
jquery easyui对表单的提交进行了封装，提交的方式采用的是ajax的方式，在开发的时候应该注意的事项如下： 1、在定义form标签的时候，要将method属性设置成post或者get，特别是进行大字段的文本信息提交的时候，要将method设置成post方式提交，否则页面会抛出跨域访问等异常。所以这个要
Trie tree(字典树)的Java实现及其应用-统计以某字符串为前缀的单词的数量 bylijinnan java实现
import java.util.LinkedList; public class CaseInsensitiveTrie { /** 字典树的Java实现。实现了插入、查询以及深度优先遍历。 Trie tree's java implementation.(Insert,Search,DFS) Problem Description Igna
html css 鼠标形状样式汇总 chenbowen00 html css
css鼠标手型cursor中hand与pointer Example：CSS鼠标手型效果 <a href="#" style="cursor:hand">CSS鼠标手型效果</a><br/> Example：CSS鼠标手型效果 <a href="#" style=&qu
[IT与投资]IT投资的几个原则 comsci it
无论是想在电商,软件,硬件还是互联网领域投资,都需要大量资金,虽然各个国家政府在媒体上都给予大家承诺,既要让市场的流动性宽松,又要保持经济的高速增长....但是,事实上,整个市场和社会对于真正的资金投入是非常渴望的,也就是说,表面上看起来,市场很活跃,但是投入的资金并不是很充足的......
oracle with语句详解 daizj oracle with with as
oracle with语句详解转在oracle中，select 查询语句，可以使用with,就是一个子查询，oracle 会把子查询的结果放到临时表中，可以反复使用例子:注意，这是sql语句，不是pl/sql语句，可以直接放到jdbc执行的 ----------------------------------------------------------------
hbase的简单操作 deng520159 数据库 hbase
近期公司用hbase来存储日志,然后再来分析 ,把hbase开发经常要用的命令找了出来. 用ssh登陆安装hbase那台linux后用hbase shell进行hbase命令控制台! 表的管理 1）查看有哪些表 hbase(main)> list 2）创建表 # 语法：create <table>, {NAME => <family&g
C语言scanf继续学习、算术运算符学习和逻辑运算符 dcj3sjt126com c
/* 2013年3月11日20:37:32 地点：北京潘家园功能：完成用户格式化输入多个值目的：学习scanf函数的使用 */ # include <stdio.h> int main(void) { int i, j, k; printf("please input three number:\n"); //提示用
2015越来越好 dcj3sjt126com 歌曲
越来越好房子大了电话小了感觉越来越好假期多了收入高了工作越来越好商品精了价格活了心情越来越好天更蓝了水更清了环境越来越好活得有奔头人会步步高想做到你要努力去做到幸福的笑容天天挂眉梢越来越好婆媳和了家庭暖了生活越来越好孩子高了懂事多了学习越来越好朋友多了心相通了大家越来越好道路宽了心气顺了日子越来越好活的有精神人就不显
java.sql.SQLException: Value '0000-00-00' can not be represented as java.sql.Tim feiteyizu mysql
数据表中有记录的time字段（属性为timestamp）其值为：“0000-00-00 00:00:00” 程序使用select 语句从中取数据时出现以下异常： java.sql.SQLException:Value '0000-00-00' can not be represented as java.sql.Date java.sql.SQLException: Valu
Ehcache（07）——Ehcache对并发的支持 234390216 并发 ehcache 锁 ReadLock WriteLock
Ehcache对并发的支持在高并发的情况下，使用Ehcache缓存时，由于并发的读与写，我们读的数据有可能是错误的，我们写的数据也有可能意外的被覆盖。所幸的是Ehcache为我们提供了针对于缓存元素Key的Read（读）、Write（写）锁。当一个线程获取了某一Key的Read锁之后，其它线程获取针对于同
mysql中blob,text字段的合成索引 jackyrong mysql
在mysql中，原来有一个叫合成索引的，可以提高blob,text字段的效率性能，但只能用在精确查询，核心是增加一个列，然后可以用md5进行散列，用散列值查找则速度快比如： create table abc(id varchar(10),context blog,hash_value varchar(40)); insert into abc(1,rep
逻辑运算与移位运算 latty 位运算逻辑运算
源码：正数的补码与原码相同例+7 源码：00000111 补码：00000111 （用8位二进制表示一个数）负数的补码：符号位为1，其余位为该数绝对值的原码按位取反；然后整个数加1。 -7 源码： 10000111 ，其绝对值为00000111 取反加一：11111001 为-7补码已知一个数的补码，求原码的操作分两种情况：
利用XSD 验证XML文件 newerdragon java xml xsd
XSD文件（XML Schema 语言也称作 XML Schema 定义（XML Schema Definition，XSD）。具体使用方法和定义请参看： http://www.w3school.com.cn/schema/index.asp java自jdk1.5以上新增了SchemaFactory类可以实现对XSD验证的支持，使用起来也很方便。以下代码可用在J
搭建 CentOS 6 服务器(12) - Samba rensanning centos
（1）安装 # yum -y install samba Installed: samba.i686 0:3.6.9-169.el6_5 # pdbedit -a rensn new password:123456 retype new password:123456 …… （2）Home文件夹 # mkdir /etc
Learn Nodejs 01 toknowme nodejs
（1）下载nodejs https://nodejs.org/download/ 选择相应的版本进行下载（2）安装nodejs 安装的方式比较多，请baidu下我这边下载的是“node-v0.12.7-linux-x64.tar.gz”这个版本（1）上传服务器（2）解压 tar -zxvf node-v0.12.
jquery控制自动刷新的代码举例 xp9802 jquery
1、html内容部分复制代码代码示例: <div id='log_reload'> <select name="id_s" size="1"> <option value='2'>-2s-</option> <option value='3'>-3s-</option

百面机器学习 自学笔记

第一章 特征工程