Tom Hardy

从39个kaggle竞赛中总结出来的图像分割的Tips和Tricks

作者丨Derrick Mwiti

来源丨AI公园

编辑丨极市平台

导读

作者参加了39个Kaggle比赛，按照整个比赛的顺序，总结了赛前数据的处理，模型的训练，以及后处理等可以助力大家的tips和tricks，非常多的技巧和经验，现在全部分享给大家。

想象一下，如果你能得到所有的tips和tricks，你需要去参加一个Kaggle比赛。我已经超过39个Kaggle比赛，包括：

Data Science Bowl 2017 – $1,000,000
Intel & MobileODT Cervical Cancer Screening – $100,000
2018 Data Science Bowl – $100,000
Airbus Ship Detection Challenge – $60,000
Planet: Understanding the Amazon from Space – $60,000
APTOS 2019 Blindness Detection – $50,000
Human Protein Atlas Image Classification – $37,000
SIIM-ACR Pneumothorax Segmentation – $30,000
Inclusive Images Challenge – $25,000

现在把这些知识都挖出来给你们！

外部数据

使用 LUng Node Analysis Grand Challenge 数据，因为这个数据集包含了来自放射学的标注细节。
使用 LIDC-IDRI 数据，因为它具有找到了肿瘤的所有放射学的描述。
使用Flickr CC，维基百科通用数据集
使用Human Protein Atlas Dataset
使用IDRiD数据集

数据探索和直觉

使用0.5的阈值对3D分割进行聚类
确认在训练集和测试集的标签分布上有没有不一样的地方

预处理

使用DoG（Difference of Gaussian）方法进行blob检测，使用skimage中的方法。
使用基于patch的输入进行训练，为了减少训练时间。
使用cudf加载数据，不要用Pandas，因为读数据更快。
确保所有的图像具有相同的方向。
在进行直方图均衡化的时候，使用对比度限制。
使用OpenCV进行通用的图像预处理。
使用自动化主动学习，添加手工标注。
将所有的图像缩放成相同的分辨率，可以使用相同的模型来扫描不同的厚度。
将扫描图像归一化为3D的numpy数组。
对单张图像使用暗通道先验方法进行图像去雾。
将所有图像转化成Hounsfield单位（放射学中的概念）。
使用RGBY的匹配系数来找到冗余的图像。
开发一个采样器，让标签更加的均衡。
对测试图像打伪标签来提升分数。
将图像/Mask降采样到320x480。
直方图均衡化（CLAHE）的时候使用kernel size为32×32
将DCM转化为PNG。
当有冗余图像的时候，为每个图像计算md5 hash值。

数据增强

使用 albumentations 进行数据增强。
使用随机90度旋转。
使用水平翻转，上下翻转。
可以尝试较大的几何变换：弹性变换，仿射变换，样条仿射变换，枕形畸变。
使用随机HSV。
使用loss-less增强来进行泛化，防止有用的图像信息出现大的loss。
应用channel shuffling。
基于类别的频率进行数据增强。
使用高斯噪声。
对3D图像使用lossless重排来进行数据增强。
0到45度随机旋转。
从0.8到1.2随机缩放。
亮度变换。
随机变化hue和饱和度。
使用D4：https://en.wikipedia.org/wiki/Dihedral_group增强。
在进行直方图均衡化的时候使用对比度限制。
使用AutoAugment：https://arxiv.org/pdf/1805.09501.pdf增强策略。

模型

结构

使用U-net作为基础结构，并调整以适应3D的输入。
使用自动化主动学习并添加人工标注。
使用inception-ResNet v2 architecture结构使用不同的感受野训练特征。
使用Siamese networks进行对抗训练。
使用_ResNet50_, Xception, Inception ResNet v2 x 5，最后一层用全连接。
使用global max-pooling layer，无论什么输入尺寸，返回固定长度的输出。
使用stacked dilated convolutions。
VoxelNet。
在LinkNet的跳跃连接中将相加替换为拼接和conv1x1。
Generalized mean pooling。
使用224x224x3的输入，用Keras NASNetLarge从头训练模型。
使用3D卷积网络。
使用ResNet152作为预训练的特征提取器。
将ResNet的最后的全连接层替换为3个使用dropout的全连接层。
在decoder中使用转置卷积。
使用VGG作为基础结构。
使用C3D网络，使用adjusted receptive fields，在网络的最后使用64 unit bottleneck layer 。
使用带预训练权重的UNet类型的结构在8bit RGB输入图像上提升收敛性和二元分割的性能。
使用LinkNet，因为又快又省内存。
MASKRCNN
BN-Inception
Fast Point R-CNN
Seresnext
UNet and Deeplabv3
Faster RCNN
SENet154
ResNet152
NASNet-A-Large
EfficientNetB4
ResNet101
GAPNet
PNASNet-5-Large
Densenet121
AC-GAN
XceptionNet (96), XceptionNet (299), Inception v3 (139), InceptionResNet v2 (299), DenseNet121 (224)
AlbuNet (resnet34) from ternausnets
SpaceNet
Resnet50 from selim_sef SpaceNet 4
SCSEUnet (seresnext50) from selim_sef SpaceNet 4
A custom Unet and Linknet architecture
FPNetResNet50 (5 folds)
FPNetResNet101 (5 folds)
FPNetResNet101 (7 folds with different seeds)
PANetDilatedResNet34 (4 folds)
PANetResNet50 (4 folds)
EMANetResNet101 (2 folds)
RetinaNet
Deformable R-FCN
Deformable Relation Networks

硬件设置

Use of the AWS GPU instance p2.xlarge with a NVIDIA K80 GPU
Pascal Titan-X GPU
Use of 8 TITAN X GPUs
6 GPUs: 2_1080Ti + 4_1080
Server with 8×NVIDIA Tesla P40, 256 GB RAM and 28 CPU cores
Intel Core i7 5930k, 2×1080, 64 GB of RAM, 2x512GB SSD, 3TB HDD
GCP 1x P100, 8x CPU, 15 GB RAM, SSD or 2x P100, 16x CPU, 30 GB RAM
NVIDIA Tesla P100 GPU with 16GB of RAM
Intel Core i7 5930k, 2×1080, 64 GB of RAM, 2x512GB SSD, 3TB HDD
980Ti GPU, 2600k CPU, and 14GB RAM

损失函数

Dice Coefficient ，因为在不均衡数据上工作很好。
Weighted boundary loss 目的是减少预测的分割和ground truth之间的距离。
MultiLabelSoftMarginLoss 使用one-versus-all损失优化多标签。
Balanced cross entropy (BCE) with logit loss 通过系数来分配正负样本的权重。
Lovasz 基于sub-modular损失的convex Lovasz扩展来直接优化平均IoU损失。
FocalLoss + Lovasz 将Focal loss和Lovasz losses相加得到。
Arc margin loss 通过添加margin来最大化人脸类别的可分性。
Npairs loss 计算y_true 和 y_pred之间的npairs损失。
将BCE和Dice loss组合起来。
LSEP – 一种成对的排序损失，处处平滑因此容易优化。
Center loss 同时学习每个类别的特征中心，并对距离特征中心距离太远的样本进行惩罚。
Ring Loss 对标准的损失函数进行了增强，如Softmax。
Hard triplet loss 训练网络进行特征嵌入，最大化不同类别之间的特征的距离。
1 + BCE – Dice 包含了BCE和DICE损失再加1。
Binary cross-entropy – log(dice) 二元交叉熵减去dice loss的log。
BCE, dice和focal 损失的组合。
BCE + DICE - Dice损失通过计算平滑的dice系数得到。
Focal loss with Gamma 2 标准交叉熵损失的升级。
BCE + DICE + Focal – 3种损失相加。
Active Contour Loss 加入了面积和尺寸信息，并集成到深度学习模型中。
1024 * BCE(results, masks) + BCE(cls, cls_target)
Focal + kappa – Kappa是一种用于多类别分类的损失，这里和Focal loss相加。
ArcFaceLoss — 用于人脸识别的Additive Angular Margin Loss。
soft Dice trained on positives only – 使用预测概率的Soft Dice。
2.7 * BCE(pred_mask, gt_mask) + 0.9 * DICE(pred_mask, gt_mask) + 0.1 * BCE(pred_empty, gt_empty) 一种自定义损失。
nn.SmoothL1Loss()。
使用Mean Squared Error objective function，在某些场景下比二元交叉熵损失好。

训练技巧

尝试不同的学习率。
尝试不同的batch size。
使用SGD + 动量并手工设计学习率策略。
太多的增强会降低准确率。
在图像上进行裁剪做训练，全尺寸图像做预测。
使用Keras的ReduceLROnPlateau()作为学习率策略。
不使用数据增强训练到平台期，然后对一些epochs使用软硬增强。
冻结除了最后一层外的所有层，使用1000张图像进行微调，作为第一步。
使用分类别采样
在调试最后一层的时候使用dropout和增强
使用伪标签来提高分数
使用Adam在plateau的时候衰减学习率
用SGD使用Cyclic学习率策略
如果验证损失持续2个epochs没有降低，将学习率进行衰减
将10个batches里的最差的batch进行重复训练
使用默认的UNET进行训练
对patch进行重叠，这样边缘像素被覆盖两次
超参数调试：训练时候的学习率，非极大值抑制以及推理时候的分数阈值
将低置信度得分的包围框去掉。
训练不同的卷积网络进行模型集成。
在F1score开始下降的时候就停止训练。
使用不同的学习率。
使用层叠的方法用5 folds的方法训练ANN，重复30次。

评估和验证

按类别非均匀的划分训练和测试集
当调试最后一层的时候，使用交叉验证来避免过拟合。
使用10折交叉验证集成来进行分类。
检测的时候使用5-10折交叉验证来集成。

集成方法

使用简单的投票方法进行集成
对于类别很多的模型使用LightGBM，使用原始特征。
对2层模型使用CatBoost。
使用 ‘curriculum learning’ 来加速模型训练，这种训练模式下，模型先在简单样本上训练，再在困难样本上训练。
使用ResNet50, InceptionV3, and InceptionResNetV2进行集成。
对物体检测使用集成。
对Mask RCNN, YOLOv3, 和Faster RCNN 进行集成。

后处理

使用test time augmentation ，对一张图像进行随机变换多次测试后对结果进行平均。
对测试的预测概率进行均衡化，而不是使用预测的类别。
对预测结果进行几何平均。
在推理的时候分块重叠，因为UNet对边缘区域的预测不是很好。
进行非极大值抑制和包围框的收缩。
在实例分割中使用分水岭算法后处理来分离物体。

本文仅做学术分享，如有侵权，请联系删文。

3D视觉工坊精品课程官网：3dcver.com

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线！(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建：原理剖析、代码讲解、及优化改进
4.国内首个面向工业级实战的点云处理课程
5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
6.彻底搞懂视觉-惯性SLAM：基于VINS-Fusion正式开课啦
7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法：算法梳理与代码实现

11.自动驾驶中的深度学习模型部署实战

12.相机模型与标定(单目+双目+鱼眼）

13.重磅！四旋翼飞行器：算法与实战

14.ROS2从入门到精通：理论与实战

15.国内首个3D缺陷检测教程：理论、源码与实战

16.基于Open3D的点云处理入门与实战教程

重磅！3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群，目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注：研究方向+学校/公司+昵称，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的视频课程（三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM、自动驾驶等）、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近4000星球成员为创造更好的AI世界共同进步，知识星球入口：

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款

圈里有高质量教程资料、答疑解惑、助你高效解决问题

觉得有用，麻烦给个赞和在看~

【常见的排序算法有哪些】 F_windy 排序算法算法
一、冒泡排序（BubbleSort）设计思想：像气泡上浮，两两比较相邻元素，顺序错误就交换，直到整个数组有序。Java代码：publicstaticvoidbubbleSort(int[]arr){for(inti=0;iarr[j+1]){inttemp=arr[j];arr[j]=arr[j+1];arr[j+1]=temp;}}}}复杂度：•时间：平均/最坏O(n²)，最好O(n)（已有序时
【sklearn 03】逻辑回归、决策树、支持向量机 @金色海岸 sklearn 逻辑回归决策树
逻辑回归、决策树、支持向量机-逻辑回归logisticsregression（逻辑回归）算法是经典的分类算法，基本思想是构造一个概率的拟合函数。决策树决策树的基本思想是根据样例去推断其背后的树形知识表征支持向量机支持向量机SVM(supportvectormachine)的基本思想是寻找最大的间隔的分割超平面。离分割超平面最近的这些样本点称为支持向量机
21-梯度累积原理与实现机器人图像处理深度学习算法与模型人工智能深度学习 YOLO
一、基本概念在深度学习训练的时候，数据的batchsize大小受到GPU内存限制，batchsize大小会影响模型最终的准确性和训练过程的性能。在GPU内存不变的情况下，模型越来越大，那么这就意味着数据的batchsize智能缩小，这个时候，梯度累积（GradientAccumulation）可以作为一种简单的解决方案来解决这个问题。二、Batchsize的作用训练数据的Batchsize大小对训
数据结构与算法——二叉树，多叉树的递归遍历、层序遍历，DFS与BFS Book_熬夜！数据结构与算法深度优先宽度优先算法数据结构广度优先
文章目录二叉树1.递归遍历2.层序遍历3.多叉树遍历二叉树【子节点】：每个节点下方相连的节点【父节点】：每个节点上方相连的节点【根节点】：最上方没有父节点的节点【叶子节点】：最下方没有子节点的节点【最大深度】：树的最大层数【高度】：节点数减一，即枝数。【满二叉树(PerfectBinaryTree)】：深度为h，则总节点数：2^h-1FullBinaryTree是指一棵二叉树的所有节点要么没有孩子
Spring Boot 集成高德地图电子围栏 Cloud_. spring boot 后端 java
摘要：本文手把手教你通过SpringBoot调用高德地图API实现电子围栏功能，涵盖云端围栏创建、设备位置监控与本地算法校验，附带完整代码和避坑经验！一、电子围栏核心原理1.1什么是电子围栏？虚拟地理边界：在地图上划定区域（圆形/多边形），触发进出事件应用场景：员工考勤、物流围栏、儿童安全区域监控技术核心：基于GPS/北斗坐标的位置判断（射线法或API调用）1.2高德地图API能力云端围栏管理：创
数据结构与算法——二叉搜索树，使用TreeMap将键值对存储在一棵二叉搜索树的节点 Book_熬夜！数据结构与算法算法 javascript 数据结构
二叉搜索树【二叉搜索树（BST）】：对于树中的每个节点，其左子树的每个节点的值都要小于这个节点的值，右子树的每个节点的值都要大于这个节点的值。左小右大。中序遍历结果是有序的，会从小到大排序。7/\49/\\1810（不符合）可以使用TreeMap把键值对存储在一棵二叉搜索树的节点里通过遍历这棵二叉搜索树，比遍历普通的二叉树能更快实现增删查改classTreeNode{constructor(key
【人工智能基础2】Tramsformer架构、自然语言处理基础、计算机视觉总结 roman_日积跬步-终至千里人工智能习题人工智能自然语言处理计算机视觉
文章目录七、Transformer架构1.替代LSTM的原因2.Transformer架构：编码器-解码器架构3.Transformer架构原理八、自然语言处理基础1.语言模型基本概念2.向量语义3.预训练语言模型的基本原理与方法4.DeepSeek基本原理九、计算机视觉七、Transformer架构1.替代LSTM的原因处理极长序列时，效率下降：虽然LSTM设计的初衷是解决长期依赖问题，即让模型
怎么做一个AI产品经理？ AI筑梦师 AI产品经理人工智能产品经理
AI产品经理全面进化：在人工智能迅猛发展的时代，产品经理的角色正经历前所未有的转型。从传统的需求捕捉者到技术与商业紧密结合的创新推动者，AI产品经理肩负着将前沿AI技术转化为解决用户痛点的产品的重要任务。随着大数据、云计算和大模型技术的不断成熟，产品经理不仅需要具备敏锐的市场洞察，还必须深刻理解AI技术本质，跨界整合技术、数据与业务优势，从而推动产品的持续创新与落地。本文将全面解析AI产品经理的角
MV-EB435i立体相机对垃圾分类开哥kg pytorch 深度学习卷积神经网络分类人工智能
最近在v社区发了一篇文章，懒得转移过来了链接：V社区-机器视觉技术交流社区-MV-EB435i立体相机对垃圾分类我觉得这篇文章对于刚入门深度学习想看点项目学点代码的刚刚好，因为我也是新手，嘻嘻嘻！希望这篇文章对大家有所帮助，如有错误请大家指正。
【AI】使用Python实现机器学习小项目教程丶2136 AI 人工智能 python 机器学习
引言在本教程中，我们将带领您使用Python编程语言实现一个经典的机器学习项目——鸢尾花（Iris）分类。通过这个项目，您将掌握机器学习的基本流程，包括数据加载、预处理、模型训练、评估和优化等步骤。论文AIGC检测，降AIGC检测，AI降重，三连私信免费获取：ReduceAIGC9折券！DetectAIGC立减2元券！AI降重9折券！目录引言一、项目背景与目标二、开发环境准备2.1所需工具2.2环
请编写一个Python程序，实现WOA-CNN-BiLSTM鲸鱼算法优化卷积双向长短期记忆神经网络多输入单输出回归预测功能。 2301_81121233 算法神经网络 python mongodb storm zookeeper spark
实现一个基于鲸鱼优化算法（WOA）优化的卷积双向长短期记忆神经网络（CNN-BiLSTM）的多输入单输出回归预测功能是一个复杂的任务，涉及到多个步骤和组件。由于完整的实现会非常冗长，我将提供一个简化的框架和关键部分的代码示例，帮助你理解如何实现这个功能。请注意，这个示例不会包含所有细节，比如数据集的准备、鲸鱼优化算法的具体实现（WOA是一个元启发式算法，需要单独实现或引用现有库），以及CNN-Bi
LORA 微调大模型：从入门到入土大模型. 人工智能开发语言 gpt agi 架构大模型
在当今人工智能领域，预训练的大模型已经成为推动技术发展的核心力量。然而，在实际项目中，我们往往会发现这些预训练模型虽然强大，但直接就去应用于一些特定的任务时，往往无法完全满足需求。这时，微调就成为了必不可少的一步。而在众多微调方法中，LORA全名(Low-RankAdaptation)以高效性和实用性，逐渐成为了许多开发者训练模型的首选项。作为一名小有经验的咸鱼开发者，我深知在实际项目中高效的进行
Dijkstra算法例题及解析 _gxd_ 算法
最短路算法（2）——Dijkstra算法本章一共有三道例题。1.最短路2.TiltheCowsComeHome3.成语接龙1.最短路Description在每年的校赛里，所有进入决赛的同学都会获得一件很漂亮的t-shirt。但是每当我们的工作人员把上百件的衣服从商店运回到赛场的时候，却是非常累的！所以现在他们想要寻找最短的从商店到赛场的路线，你可以帮助他们吗？FormatInput输入包括多组数据
AI人工智能中的概率论与统计学原理与Python实战：Python实现概率模型 AI天才研究院 AI实战 AI大模型企业级应用开发实战大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍随着人工智能技术的不断发展，概率论与统计学在人工智能领域的应用越来越广泛。概率论与统计学是人工智能中的基础知识之一，它们在机器学习、深度学习、自然语言处理等领域都有着重要的作用。本文将介绍概率论与统计学的核心概念、算法原理、具体操作步骤以及Python实现方法，并通过具体代码实例进行详细解释。2.核心概念与联系2.1概率论与统计学的区别概率论是一门数学学科，它研究随机事件发生的可能性。
如何使用 Python 实现生成对抗网络 NoABug python 生成对抗网络 tensorflow
如何使用Python实现生成对抗网络生成对抗网络（GenerativeAdversarialNetwork，GAN）是一种能够生成高质量、逼真图像的深度学习模型。GAN模型由两个神经网络组成：一个生成器和一个判别器。生成器的任务是以噪声为输入，生成看似真实的图像；而判别器则需要根据输入的图像，判断该图像是真实的还是由生成器生成的。下面我们将通过Python代码来实现一个简单的GAN模型。首先，我们
GAN模型的Python应用——生成对抗网络代码编织匠人 python 生成对抗网络开发语言
GAN模型的Python应用——生成对抗网络生成对抗网络（GenerativeAdversarialNetwork，GAN）是深度学习中的一种重要模型，已经被广泛应用于图像、文本生成等领域。GAN模型由两个神经网络组成：生成器（Generator）和判别器（Discriminator）。生成器用于生成假样本，判别器用于评估真实性。两个神经网络相互博弈，通过一次次迭代训练，最终生成器可以生成足以骗过
二值逻辑、三值逻辑到多值逻辑的变迁（含示例）搏博人工智能原理算法人工智能机器学习线性代数图像处理数据分析
二值逻辑、三值逻辑到多值逻辑的变迁是一个逻辑体系不断拓展和深化的过程，反映了人们对复杂现象和不确定性问题认识的逐步深入。前文，我们已经探讨过命题逻辑与谓词逻辑，了解了如何用符号语言从浅入深地刻画现实世界。具体可以看我的CSDN文章：人工智能的数学基础之命题逻辑与谓词逻辑（含示例）-CSDN博客人工智能中用到的逻辑可概括地划分为两大类。第一类是经典命题逻辑和一阶谓词逻辑，第二类是泛指除经典逻辑之外的
ollama下载的DeepSeek的模型(Model)文件在哪里？(C盘下) 神秘泣男子常见AI大模型部署与应用 Ollama部署LLM 人工智能 ollama llama 自然语言处理机器学习
目录一、下载大模型（DeepSeek）2.安装Ollama3.检查安装是否成功二、拉取大模型（DeepSeek）1.打开命令行2.下载模型3.测试下载4.等待下载完成三.模型存放路径这个位置！！在人工智能快速发展的今天，大语言模型已经成为许多人探索和使用的热门技术。而Ollama作为一款轻量级的本地大模型运行工具，让我们能够在个人电脑上体验各种强大的AI模型，如DeepSeek系列。不少用户在安装
如何使用Python实现生成对抗网络（GAN）「已注销」互联网前沿技术韩进的创作空间全栈开发知识库 python 生成对抗网络 tensorflow 深度学习数据分析
生成对抗网络（GAN）是一种深度学习模型，由两个部分组成：生成器和判别器。生成器负责生成与训练数据相似的新数据，而判别器负责判断输入数据是真实的还是由生成器生成的。这两个部分不断相互博弈，直到生成器能够生成非常逼真的数据，使判别器难以区分生成数据和真实数据。下面是一个简单的Python实现，使用TensorFlow和Keras库。在开始之前，请确保已经安装了TensorFlow和Keras。imp
技术解析麦萌短剧《月光下的你》：从「时间序列的对抗扰动」到「加密身份的收敛证明」萌萌短剧重构
《月光下的你》以十六年的时间跨度展开一场关于「数据污染」与「身份验证」的深度博弈，本文将用机器学习视角拆解这场跨越时空的模型纠偏实验。1.数据污染事件：十六年前的对抗攻击许芳菲（Agent_Xu）的遭遇可视为时间序列上的对抗样本注入：标签篡改攻击：许清清（Adversary_XuQing）通过伪造标签（Label_Tampering）将Agent_Xu与傅临州（Node_Fu）强行关联，触发道德约
【数学基础】线性代数#1向量和矩阵初步 -一杯为品- 数学线性代数矩阵
本系列内容介绍：主要参考资料：《深度学习》[美]伊恩·古德菲洛等著《机器人数学基础》吴福朝张铃著文章为自学笔记，仅供参考。目录标量、向量、矩阵和张量矩阵运算单位矩阵和逆矩阵线性相关和生成子空间范数特殊类型的矩阵和向量特征分解奇异值分解Moore-Penrose伪逆迹运算行列式标量、向量、矩阵和张量标量标量是一个单独的数。向量向量是一列有序排列的数：x=[x1x2⋮xn]\boldsymbolx=\
蓝桥杯网络安全春秋赛 Crypto RSA 叁Three 蓝桥杯密码学
蓝桥杯网络安全春秋赛CryptoRSA题目某公司为了保护其重要数据，使用了RSA加密算法。该公司以同一个N为模数，为Alice和Bob分别生成了不同的公钥和与之相应的私钥。Alice和Bob都使用自己的公钥对同一条明文m进行加密，分别得到密文c1和c2。假设你是一名密码安全研究者，你已获取了N值、两个密文和公钥，能否使用RSA的相关知识还原出明文m呢？#!python3.9fromCrypto.U
AIGC从入门到实战：可能消失的职业和新出现的机会 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AIGC从入门到实战：可能消失的职业和新出现的机会作者：禅与计算机程序设计艺术1.背景介绍人工智能生成内容（AIGC）正在迅速改变我们的世界。从文本、代码到图像和音乐，AIGC正在各个领域展示其强大的能力，并开始挑战传统的创意产业。本篇文章将深入探讨AIGC的概念、技术原理、应用场景以及其对未来职业的影响，并为读者提供入门AIGC的实用指南。1.1AIGC的兴起AIGC的兴起得益于近年来人工智能技
机器学习 [白板推导]（三）[线性分类] 神齐的小马机器学习分类人工智能
4.线性分类4.1.线性分类的典型模型硬分类：输出结果只有0或1这种离散结果；感知机线性判别分析Fisher软分类：会输出0-1之间的值作为各个类别的概率；概率生成模型：高斯判别分析GDA、朴素贝叶斯，主要建模的是p(x⃗,y)p(\vec{x},y)p(x,y)概率判别模型：逻辑回归，主要建模的是p(y∣x⃗)p(y|\vec{x})p(y∣x)4.2.感知机4.2.1.基本模型模型：f(x
基于内容分块（CDC）的重删算法详解：原理、实现与优化这个懒人算法
引言在数据爆炸式增长的时代，存储资源优化成为技术领域的重要课题。重复数据删除（Deduplication）技术通过消除冗余数据副本，可将存储需求降低90%以上。其中基于内容分块（Content-DefinedChunking,CDC）算法凭借其对数据局部修改的强适应性，成为企业级备份系统、云存储服务的核心技术。一、CDC算法核心原理1.1动态分块vs静态分块传统固定分块算法将数据按固定大小（如4K
内容创作者必备！Deepseek赋能，让创作更高效小焱创作 AI改变未来人工智能人工智能写作 ai写作深度学习神经网络 ai chatgpt
内容创作者必备！DeepSeek赋能，让创作更高效在当今信息爆炸的时代，内容创作已成为自媒体博主们展现才华、吸引粉丝的重要途径。然而，面对日益增长的竞争压力和不断变化的用户需求，如何高效、高质量地产出内容成为了摆在我们面前的一大挑战。幸运的是，随着人工智能技术的飞速发展，一款名为DeepSeek的智能工具应运而生，为内容创作者提供了强大的赋能。本文将深入探讨DeepSeek的基本概念、深层次解读、
算法-找到字符串中所有字母异位词程序员南飞算法数据结构开发语言 java
力扣题目：438.找到字符串中所有字母异位词-力扣（LeetCode）题目描述:给定两个字符串s和p，找到s中所有p的异位词的子串，返回这些子串的起始索引。不考虑答案输出的顺序。示例1:输入:s="cbaebabacd",p="abc"输出:[0,6]解释:起始索引等于0的子串是"cba",它是"abc"的异位词。起始索引等于6的子串是"bac",它是"abc"的异位词。示例2:输入:s="aba
【面试经验】华为 AI软开计算产品线（面经+时间线） litterfinger 面试华为人工智能
一.岗位：AI软开二.时间线：投递08.09，机试08.28，测评08.29；面试均线上，一面09.12，二面09.27，三面09.29（本来是09.19线下二三面，但由于本人有事推迟）三.一面（50min）自我介绍简单介绍一下传统知识图谱建设和大模型对于知识的构建的差异和整体的趋势聊聊实习经历中的提示工程和sft具体的工作AI的一个发展历史流程和相关算法的引进知识图谱建设的总体流程回顾机试：老鼠
【北上广深杭大厂AI算法面试题】计算机视觉篇...详解目标检测中的多尺度训练和测试? 努力毕业的小土博^_^ AI算法题库人工智能计算机视觉算法深度学习神经网络目标检测
【北上广深杭大厂AI算法面试题】计算机视觉篇…详解目标检测中的多尺度训练和测试?【北上广深杭大厂AI算法面试题】计算机视觉篇…详解目标检测中的多尺度训练和测试?文章目录【北上广深杭大厂AI算法面试题】计算机视觉篇...详解目标检测中的多尺度训练和测试?前言多尺度训练核心思想：优点与注意点：多尺度测试核心思想：优点与注意点：综合作用参考示例总结欢迎铁子们点赞、关注、收藏！祝大家逢考必过！逢投必中！上
MVC/MVP/MVVM框架学习总结（二）每次的天空 mvc 学习 java
上次已经了解到MVC的知识，现在是扩展实现MVP/MVVM的框架改进本身项目MVVM框架即Model-View-ViewModel框架，是一种软件架构设计模式，以下是具体介绍：核心组件Model（模型）：代表应用程序的数据结构和业务逻辑，负责数据的存储、检索、验证和处理，定义业务规则和算法，是应用程序的数据核心。比如在一个电商应用中，商品数据、用户订单数据等的存储和相关逻辑处理都属于Model层。
Nginx负载均衡 510888780 nginx 应用服务器
Nginx负载均衡一些基础知识: nginx 的 upstream目前支持 4 种方式的分配 1)、轮询（默认）每个请求按时间顺序逐一分配到不同的后端服务器，如果后端服务器down掉，能自动剔除。 2)、weight 指定轮询几率，weight和访问比率成正比
RedHat 6.4 安装 rabbitmq bylijinnan erlang rabbitmq redhat
在 linux 下安装软件就是折腾，首先是测试机不能上外网要找运维开通，开通后发现测试机的 yum 不能使用于是又要配置 yum 源，最后安装 rabbitmq 时也尝试了两种方法最后才安装成功机器版本： [root@redhat1 rabbitmq]# lsb_release LSB Version: :base-4.0-amd64:base-4.0-noarch:core
FilenameUtils工具类 eksliang FilenameUtils common-io
转载请出自出处：http://eksliang.iteye.com/blog/2217081 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
xml文件解析SAX 不懂事的小屁孩 xml
xml文件解析:xml文件解析有四种方式， 1.DOM生成和解析XML文档(SAX是基于事件流的解析) 2.SAX生成和解析XML文档(基于XML文档树结构的解析) 3.DOM4J生成和解析XML文档 4.JDOM生成和解析XML 本文章用第一种方法进行解析，使用android常用的DefaultHandler import org.xml.sax.Attributes;
通过定时任务执行mysql的定期删除和新建分区，此处是按日分区酷的飞上天空 mysql
使用python脚本作为命令脚本，linux的定时任务来每天定时执行 #!/usr/bin/python # -*- coding: utf8 -*- import pymysql import datetime import calendar #要分区的表 table_name = 'my_table' #连接数据库的信息 host,user,passwd,db =
如何搭建数据湖架构？听听专家的意见蓝儿唯美架构
Edo Interactive在几年前遇到一个大问题：公司使用交易数据来帮助零售商和餐馆进行个性化促销，但其数据仓库没有足够时间去处理所有的信用卡和借记卡交易数据 “我们要花费27小时来处理每日的数据量，”Edo主管基础设施和信息系统的高级副总裁Tim Garnto说道：“所以在2013年，我们放弃了现有的基于PostgreSQL的关系型数据库系统，使用了Hadoop集群作为公司的数
spring学习——控制反转与依赖注入 a-john spring
控制反转（Inversion of Control，英文缩写为IoC）是一个重要的面向对象编程的法则来削减计算机程序的耦合问题，也是轻量级的Spring框架的核心。控制反转一般分为两种类型，依赖注入（Dependency Injection，简称DI）和依赖查找（Dependency Lookup）。依赖注入应用比较广泛。
用spool+unixshell生成文本文件的方法 aijuans xshell
例如我们把scott.dept表生成文本文件的语句写成dept.sql,内容如下: 　　set pages 50000; 　　set lines 200; 　　set trims on; 　　set heading off; 　　spool /oracle_backup/log/test/dept.lst; 　　select deptno||','||dname||','||loc
1、基础--名词解析(OOA/OOD/OOP) asia007 学习基础知识
OOA:Object-Oriented Analysis（面向对象分析方法）是在一个系统的开发过程中进行了系统业务调查以后，按照面向对象的思想来分析问题。OOA与结构化分析有较大的区别。OOA所强调的是在系统调查资料的基础上，针对OO方法所需要的素材进行的归类分析和整理，而不是对管理业务现状和方法的分析。　　OOA（面向对象的分析）模型由5个层次（主题层、对象类层、结构层、属性层和服务层）
浅谈java转成json编码格式技术百合不是茶 json编码 java转成json编码
json编码;是一个轻量级的数据存储和传输的语言在java中需要引入json相关的包,引包方式在工程的lib下就可以了 JSON与JAVA数据的转换（JSON 即 JavaScript Object Natation，它是一种轻量级的数据交换格式，非常适合于服务器与 JavaScript 之间的数据的交
web.xml之Spring配置(基于Spring+Struts+Ibatis) bijian1013 java web.xml SSI spring配置
指定Spring配置文件位置 <context-param> <param-name>contextConfigLocation</param-name> <param-value> /WEB-INF/spring-dao-bean.xml,/WEB-INF/spring-resources.xml, /WEB-INF/
Installing SonarQube（Fail to download libraries from server） sunjing Install Sonar
1. Download and unzip the SonarQube distribution 2. Starting the Web Server The default port is "9000" and the context path is "/". These values can be changed in &l
【MongoDB学习笔记十一】Mongo副本集基本的增删查 bit1129 mongodb
一、创建复本集假设mongod,mongo已经配置在系统路径变量上，启动三个命令行窗口，分别执行如下命令： mongod --port 27017 --dbpath data1 --replSet rs0 mongod --port 27018 --dbpath data2 --replSet rs0 mongod --port 27019 -
Anychart图表系列二之执行Flash和HTML5渲染白糖_ Flash
今天介绍Anychart的Flash和HTML5渲染功能 HTML5 Anychart从6.0第一个版本起，已经逐渐开始支持各种图的HTML5渲染效果了，也就是说即使你没有安装Flash插件，只要浏览器支持HTML5，也能看到Anychart的图形（不过这些是需要做一些配置的）。这里要提醒下大家，Anychart6.0版本对HTML5的支持还不算很成熟，目前还处于
Laravel版本更新异常4.2.8-> 4.2.9 Declaration of ... CompilerEngine ... should be compa bozch laravel
昨天在为了把laravel升级到最新的版本，突然之间就出现了如下错误： ErrorException thrown with message "Declaration of Illuminate\View\Engines\CompilerEngine::handleViewException() should be compatible with Illuminate\View\Eng
编程之美-NIM游戏分析-石头总数为奇数时如何保证先动手者必胜 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class Nim { /**编程之美 NIM游戏分析问题：有N块石头和两个玩家A和B，玩家A先将石头随机分成若干堆，然后按照BABA...的顺序不断轮流取石头，能将剩下的石头一次取光的玩家获胜，每次取石头时，每个玩家只能从若干堆石头中任选一堆，
lunce创建索引及简单查询 chengxuyuancsdn 查询创建索引 lunce
import java.io.File; import java.io.IOException; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Docume
[IT与投资]坚持独立自主的研究核心技术 comsci it
和别人合作开发某项产品....如果互相之间的技术水平不同,那么这种合作很难进行,一般都会成为强者控制弱者的方法和手段..... 所以弱者,在遇到技术难题的时候,最好不要一开始就去寻求强者的帮助,因为在我们这颗星球上,生物都有一种控制其
flashback transaction闪回事务查询 daizj oracle sql 闪回事务
闪回事务查询有别于闪回查询的特点有以下3个：（1）其正常工作不但需要利用撤销数据，还需要事先启用最小补充日志。（2）返回的结果不是以前的“旧”数据，而是能够将当前数据修改为以前的样子的撤销SQL（Undo SQL）语句。（3）集中地在名为flashback_transaction_query表上查询，而不是在各个表上通过“as of”或“vers
Java I/O之FilenameFilter类列举出指定路径下某个扩展名的文件游其是你 FilenameFilter
这是一个FilenameFilter类用法的例子，实现的列举出“c:\\folder“路径下所有以“.jpg”扩展名的文件。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
C语言学习五函数，函数的前置声明以及如何在软件开发中合理的设计函数来解决实际问题 dcj3sjt126com c
# include <stdio.h> int f(void) //括号中的void表示该函数不能接受数据，int表示返回的类型为int类型 { return 10; //向主调函数返回10 } void g(void) //函数名前面的void表示该函数没有返回值 { //return 10; //error 与第8行行首的void相矛盾 } in
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Pl dcj3sjt126com centos
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Please verify its path and try again 处理很简单，修改文件“/etc/yum.repos.d/epel.repo”，将baseurl的注释取消， mirrorlist注释掉。即可。 &n
单例模式 shuizhaosi888 单例模式
单例模式懒汉式 public class RunMain { /** * 私有构造 */ private RunMain() { } /** * 内部类，用于占位，只有 */ private static class SingletonRunMain { priv
Spring Security（09）——Filter 234390216 Spring Security
Filter 目录 1.1 Filter顺序 1.2 添加Filter到FilterChain 1.3 DelegatingFilterProxy 1.4 FilterChainProxy 1.5
公司项目NODEJS实践0.1 逐行分析JS源代码 mongodb nginx ubuntu nodejs
一、前言前端如何独立用nodeJs实现一个简单的注册、登录功能，是不是只用nodejs+sql就可以了？其实是可以实现，但离实际应用还有距离，那要怎么做才是实际可用的。网上有很多nod
java.lang.Math liuhaibo_ljf java Math lang
System.out.println(Math.PI); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1)); System.out.println(Math.abs(111111111)); System.out.println(Mat
linux下时间同步 nonobaba ntp
今天在linux下做hbase集群的时候，发现hmaster启动成功了，但是用hbase命令进入shell的时候报了一个错误 PleaseHoldException: Master is initializing，查看了日志，大致意思是说master和slave时间不同步，没办法，只好找一种手动同步一下，后来发现一共部署了10来台机器，手动同步偏差又比较大，所以还是从网上找现成的解决方
ZooKeeper3.4.6的集群部署 roadrunners zookeeper 集群部署
ZooKeeper是Apache的一个开源项目，在分布式服务中应用比较广泛。它主要用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步、集群管理、配置文件管理、同步锁、队列等。这里主要讲集群中ZooKeeper的部署。 1、准备工作我们准备3台机器做ZooKeeper集群，分别在3台机器上创建ZooKeeper需要的目录。数据存储目录
Java高效读取大文件 tomcat_oracle java
　　读取文件行的标准方式是在内存中读取，Guava 和Apache Commons IO都提供了如下所示快速读取文件行的方法：　　Files.readLines(new File(path), Charsets.UTF_8); 　　FileUtils.readLines(new File(path)); 　　这种方法带来的问题是文件的所有行都被存放在内存中，当文件足够大时很快就会导致
微信支付api返回的xml转换为Map的方法 xu3508620 xml map 微信api
举例如下： <xml> <return_code><![CDATA[SUCCESS]]></return_code> <return_msg><![CDATA[OK]]></return_msg> <appid><