little06960

image captioning经典论文分类整理+部分有源码

Attention-Based Methods

O. Vinyals, A. Toshev, S. Bengio, and D. Erhan. Show and tell: A neural image caption generator. CVPR 2015.

https://github.com/karpathy/neuraltalk

K. Xu, J. Ba, R. Kiros, K. Cho, A. Courville, R. Salakhudinov, R. Zemel, and Y. Bengio. Show, attend and tell: Neural image caption generation with visual attention. ICML 2015.

https://github.com/sgrvinod/a-PyTorch-Tutorial-to-Image-Captioning、https://github.com/yunjey/show-attend-and-tell

P. Anderson, X. He, C. Buehler, D. Teney, M. Johnson, S. Gould, and L. Zhang. Bottom-up and top-down attention for image captioning and visual question answering. CVPR 2018. https://github.com/peteanderson80/bottom-up-attention

J. Gu, J. Cai, G. Wang, and T. Chen. Stack-captioning: Coarse-to-fine learning for image captioning. AAAI 2018.

https://github.com/showkeyjar/chinese_im2text.pytorch

L. Huang, W. Wang, J. Chen, and X.-Y. Wei. Attention on attention for image captioning. ICCV, 2019.

https://github.com/husthuaan/AoANet

W. Jiang, L. Ma, Y.-G. Jiang, W. Liu, and T. Zhang. Recurrent fusion network for image captioning. ECCV 2018.

Attention-Based Methods that Consider Spatial and Semantic Relations between Image Elements

Image captioning: Transforming objects into words. NIPS 2019. S. Herdade, A. Kappeler, K. Boakye, and J. Soares.

https://github.com/yahoo/object_relation_transformer

X-linear attention networks for image captioning. CVPR, 2020. Y. Pan, T. Yao, Y. Li, and T. Mei. https://github.com/Panda-Peter/image-captioning

F. Liu, X. Ren, Y. Liu, K. Lei, and X. Sun. Exploring and distilling cross-modal information for image captioning. IJCAI, 2020.

Meshed-memory transformer for image captioning. CVPR 2020. M. Cornia, M. Stefanini, L. Baraldi, and R. Cucchiara.

https://github.com/aimagelab/meshed-memory-transformer

Oscar: Object semantics aligned pre-training for vision-language tasks. ECCV 2020. X. Li, X. Yin, C. Li, P. Zhang, X. Hu, L. Zhang, L. Wang, H. Hu, L. Dong, F. Wei, et al.https://github.com/microsoft/Oscar

Unified vision-language pre-training for image captioning and vqa. AAAI 2020. L. Zhou, H. Palangi, L. Zhang, H. Hu, J. Corso, and J. Gao.

https://github.com/LuoweiZhou/VLP

Show, control and tell: A framework for generating controllable and grounded captions. CVPR 2019. M. Cornia, L. Baraldi, and R. Cucchiara.https://github.com/aimagelab/show-control-and-tell

Knowing When to Look: Adaptive Attention via A Visual Sentinel for Image Captioning. 2017-CVPR. Jiasen Lu2, Caiming Xiong, Devi Parikh.

https://github.com/jiasenlu/AdaptiveAttention

Graph-Based Methods for Spatial and Semantic Relations between Image Elements

Auto-encoding scene graphs for image captioning. CVPR, 2019. X. Yang, K. Tang, H. Zhang, and J. Cai.

https://github.com/yangxuntu/SGAE

J. Gu, S. Joty, J. Cai, H. Zhao, X. Yang, and G. Wang. Unpaired image captioning via scene graph alignments. ICCV 2019.

Yiwu Zhong, Liwei Wang, et al. Comprehensive Image Captioning via Scene Graph Decomposition. ECCV 2020.

https://github.com/YiwuZhong/Sub-GC

Combining Attention-Based Methods and Graph-Based Methods

T. Yao, Y. Pan, Y. Li, and T. Mei. Exploring visual relationship for image captioning. ECCV 2018. https://github.com/airsplay/VisualRelationships

S. Chen, Q. Jin, P. Wang, and Q. Wu. Say as you wish: Fine-grained control of image caption generation with abstract scene graphs. CVPR 2020.

https://github.com/cshizhe/asg2cap

Convolutional-Based Methods

J. Aneja, A. Deshpande, and A. G. Schwing. Convolutional image captioning. CVPR 2018.

https://github.com/aditya12agd5/convcap

Q. Wang and A. B. Chan. Cnn+ cnn: Convolutional decoders for image captioning. CoRR, 2018. https://github.com/qingzwang/GHA-ImageCaptioning

Unsupervised Methods and Reinforcement Learning

C. Chen, S. Mu, W. Xiao, Z. Ye, L. Wu, and Q. Ju. Improving image captioning with conditional generative adversarial nets. AAAI 2019. https://github.com/Anjaney1999/image-captioning-seqgan

X. Liu, H. Li, J. Shao, D. Chen, and X. Wang. Show, tell and discriminate: Image captioning by self-retrieval with partially labeled data. ECCV 2018.

Towards Unsupervised Image Captioning with Shared Multimodal Embeddings. ICCV2019.

Generating Multi-Style Captions

SentiCap: Generating Image Descriptions with Sentiments. Alexander Mathews 2016. 数据集

StyleNet: Generating Attractive Visual Captions with Styles. Chuang Gan et al. CVPR 2017.

“Factual” or “Emotional”: Stylized Image Captioning with Adaptive Learning and Attention. Tianlang Chen et al. CVPR 2018.

SemStyle: Learning to Generate Stylised Image Captions using Unaligned Text. Mathews A et al. CVPR 2018.

https://github.com/computationalmedia/semstyle

Beyond Narrative Description: Generating Poetry from Images by Multi-Adversarial Training. ACM MM 2018.

https://github.com/researchmm/img2poem

Engaging image captioning via personality. K. Shuster, S. Humeau, H. Hu, A. Bordes, and J. Weston. CVPR 2019.

Mscap: Multi-style image captioning with unpaired stylized text. L. Guo, J. Liu, P. Yao, J. Li, and H. Lu. CVPR 2019.

Unsupervised Stylish Image Description Generation via Domain Layer Norm. Cheng-Kuan Chen et al. AAAI 2019.

MemCap: Memorizing Style Knowledge for Image Captioning. Wentian Zhao, et al. AAAI 2020.

Human-like Controllable Image Captioning with Verb-specific Semantic Roles. Long Chen, Zhihong Jiang, Jun Xiao, Wei Liu. CVPR 2021.

https://github.com/mad-red/VSR-guided-CIC

3M: Multi-style image caption generation using Multi-modality features under Multi-UPDOWN model. Chengxi Li and Brent Harrison. arkiv2021.

StyleM: Stylized Metrics for Image Captioning Built with Contrastive N-grams. Chengxi Li and Brent Harrison. arkiv2022. 风格化描述度量指标

Papers about image caption按年份和会议补充

(2015-2020):

https://github.com/zhjohnchan/awesome-image-captioning

CVPR 2019:

Unsupervised Image Captioning - Yang F et al, CVPR 2019. https://github.com/fengyang0317/unsupervised_captioning

Pointing Novel Objects in Image Captioning - Li Y et al, CVPR 2019.

Context and Attribute Grounded Dense Captioning - Yin G et al, CVPR 2019.

Look Back and Predict Forward in Image Captioning - Qin Y et al, CVPR 2019.

Self-critical n-step Training for Image Captioning - Gao J et al, CVPR 2019.

Intention Oriented Image Captions with Guiding Objects - Zheng Y et al, CVPR 2019.

Describing like humans: on diversity in image captioning - Wang Q et al, CVPR 2019. https://github.com/qingzwang/DiversityMetrics

Adversarial Semantic Alignment for Improved Image Captions - Dognin P et al, CVPR 2019.

https://github.com/vacancy/SceneGraphParser

Fast, Diverse and Accurate Image Captioning Guided By Part-of-Speech - Aditya D et al, CVPR 2019.

Good News, Everyone! Context driven entity-aware captioning for news images - Biten A F et al, CVPR 2019.

https://github.com/furkanbiten/GoodNews

CapSal: Leveraging Captioning to Boost Semantics for Salient Object Detection - Zhang L et al, CVPR 2019.

https://github.com/zhangludl/code-and-dataset-for-CapSal

Dense Relational Captioning: Triple-Stream Networks for Relationship-Based Captioning - Kim D et al, CVPR 2019.

https://github.com/Dong-JinKim/DenseRelationalCaptioning

Exact Adversarial Attack to Image Captioning via Structured Output Learning With Latent Variables - Xu Y et al, CVPR 2019.

https://github.com/wubaoyuan/adversarial-attack-to-caption

AAAI 2019

Meta Learning for Image Captioning - Li N et al, AAAI 2019. https://github.com/facebookresearch/LaMCTS、https://github.com/linnanwang/AlphaX-NASBench101

Learning Object Context for Dense Captioning - Li X et al, AAAI 2019. https://github.com/ttengwang/ESGN

Hierarchical Attention Network for Image Captioning - Wang W et al, AAAI 2019. https://github.com/ltguo19/VSUA-Captioning

Improving Image Captioning with Conditional Generative Adversarial Nets - Chen C et al, AAAI 2019.

https://github.com/Anjaney1999/image-captioning-seqgan

ICCV 2019

Hierarchy Parsing for Image Captioning - Yao T et al, ICCV 2019.

Entangled Transformer for Image Captioning - Li G et al, ICCV 2019.

Reflective Decoding Network for Image Captioning - Ke L at al, ICCV 2019.

https://github.com/researchmm/generate-it

Learning to Collocate Neural Modules for Image Captioning - Yang X et al, ICCV 2019.

NeurIPS 2019

Adaptively Aligned Image Captioning via Adaptive Attention Time - Huang L et al, NeurIPS 2019.

https://github.com/husthuaan/AAT

Variational Structured Semantic Inference for Diverse Image Captioning - Chen F et al, NeurIPS 2019.

Aligning Visual Regions and Textual Concepts for Semantic-Grounded Image Representations - Liu F et al, NeurIPS 2019.

https://github.com/fenglinliu98/MIA

IJCAI 2019

Image Captioning with Compositional Neural Module Networks - Tian J et al, IJCAI 2019.

Exploring and Distilling Cross-Modal Information for Image Captioning - Liu F et al, IJCAI 2019.

Swell-and-Shrink: Decomposing Image Captioning by Transformation and Summarization - Wang H et al, IJCAI 2019.

Hornet: a hierarchical offshoot recurrent network for improving person re-ID via image captioning - Yan S et al, IJCAI 2019.

AAAI 2020

MemCap: Memorizing Style Knowledge for Image Captioning - Zhao et al, AAAI 2020.

https://github.com/entalent/MemCap

Unified Vision-Language Pre-Training for Image Captioning and VQA - Zhou L et al, AAAI 2020.

https://github.com/LuoweiZhou/VLP

Show, Recall, and Tell: Image Captioning with Recall Mechanism - Wang L et al, AAAI 2020.

Reinforcing an Image Caption Generator using Off-line Human Feedback - Hongsuck Seo P et al, AAAI, 2020.

Interactive Dual Generative Adversarial Networks for Image Captioning - Liu et al, AAAI 2020.

Feature Deformation Meta-Networks in Image Captioning of Novel Objects - Cao et al, AAAI 2020.

Joint Commonsense and Relation Reasoning for Image and Video Captioning - Hou et al, AAAI 2020.

Learning Long- and Short-Term User Literal-Preference with Multimodal Hierarchical Transformer Network for Personalized Image Caption - Zhang et al, AAAI 2020.

CVPR 2020

Normalized and Geometry-Aware Self-Attention Network for Image Captioning - Guo L et al, CVPR 2020.

Object Relational Graph with Teacher-Recommended Learning for Video Captioning - Zhang Z et al, CVPR 2020.

More Grounded Image Captioning by Distilling Image-Text Matching Model.

https://github.com/YuanEZhou/Grounded-Image-Captioning

Better Captioning with Sequence-Level Exploration.

ECCV 2020

Length-Controllable Image Captioning - Deng C et al, ECCV 2020.

https://github.com/ruotianluo/self-critical.pytorch

Captioning Images Taken by People Who Are Blind - Gurari D et al, ECCV 2020.

Towards Unique and Informative Captioning of Images - Wang Z et al, ECCV 2020.

https://github.com/princetonvisualai/SPICE-U

Learning Visual Representations with Caption Annotations - Sariyildiz M et al, ECCV 2020. https://github.com/MicPie/clasp

SODA: Story Oriented Dense Video Captioning Evaluation Framework - Fujita S et al, ECCV 2020.

https://github.com/fujiso/SODA

TextCaps: a Dataset for Image Captioning with Reading Comprehension - Sidorov O et al, ECCV 2020.

Compare and Reweight: Distinctive Image Captioning Using Similar Images Sets - Wang J et al, ECCV 2020.

Learning to Generate Grounded Visual Captions without Localization Supervision - Ma C et al, ECCV 2020.

https://github.com/chihyaoma/cyclical-visual-captioning

Fashion Captioning: Towards Generating Accurate Descriptions with Semantic Rewards - Yang X et al, ECCV 2020.

https://github.com/xuewyang/Fashion_Captioning

NeurIPS 2020

Diverse Image Captioning with Context-Object Split Latent Spaces - Mahajan S et al, NeurIPS 2020.

https://github.com/visinf/cos-cvae

RATT: Recurrent Attention to Transient Tasks for Continual Image Captioning - Chiaro R et al, NeurIPS 2020.

https://github.com/delchiaro/RATT

CVPR 2021

Towards Accurate Text-based Image Captioning with Content Diversity Exploration. Guanghui Xu et al. CVPR2021.

https://github.com/guanghuixu/AnchorCaptioner

Image Change Captioning by Learning from an Auxiliary Task. Mehrdad Hosseinzadeh and Yang Wang.

FAIEr: Fidelity and Adequacy Ensured Image Caption Evaluation. Sijin Wang et al.

Improving OCR-based Image Captioning by Incorporating Geometrical Relationship. Jing Wang et al.

Scan2Cap: Context-aware Dense Captioning in RGB-D Scans. Dave Zhenyu Chen et al.

https://github.com/daveredrum/Scan2Cap

CVPR2022

BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation.Junnan Li Dongxu Li Caiming Xiong Steven Hoi.2022-CVPR. https://github.com/salesforce/BLIP

未完

2022-02-13

by littleoo

【人工智能】 AI的进化之路：大模型如何重塑技术格局蒙娜丽宁 Python杂谈人工智能人工智能 python
《PythonOpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界本文深入探讨了人工智能大模型的进化历程及其对技术格局的深远影响。从早期神经网络到现代大模型的突破，文章分析了关键技术进步，如Transformer架构、预训练机制和分布式计算。结合数学公式和代码示例，详细阐述了大模型的训练原理、优化方法及实际应用场景。文
数字人矩阵源码--基于深度学习的数字人面部表情合成我~18339948121 数字人源码数字人矩阵源码 123数字人源码矩阵深度学习线性代数人工智能 flask tornado python
AI正在席卷全球，数字人市场需求增长，用AI数字分身一天就能生产出几十条高质量短视频，你只需要上传一段视频，甚至都不用开口说话，直接复制粘贴文案，就能得到一个属于你的数字分身。深度学习数字人面部表情合成的关键技术3D面部建模与参数化建立高精度3D面部模型是表情合成的基础，常用Blendshape或面部动作编码系统（FACS）作为参数化控制方法。Blendshape通过线性组合基础表情形状生成新表情
数字人视频剪辑与数字人分身源码开发的的核心技术解析微~18339948121 数字人分身源码数字人剪辑源码数字人源码 django pygame virtualenv plotly scikit-learn flask tornado
数字人视频剪辑与分身的核心技术解析数字人视频剪辑和分身技术是近年来人工智能与计算机视觉领域的热点，涉及虚拟形象生成、动作驱动、语音合成等多项技术。以下从技术实现、应用场景和工具选择三个方面展开分析。数字人视频剪辑的关键技术视频剪辑中数字人的核心在于动态形象的生成与编辑。基于深度学习的生成对抗网络（GAN）和3D建模技术可实现高保真虚拟形象构建。典型流程包括：人物建模：通过多视角图像或视频数据重建3
探秘AI的秘密：leaked-system-prompts 人工智能我来了人工智能 AI 人工智能
揭秘：揭秘系统提示合集背后的秘密在当今这个人工智能技术迅速发展的时代，了解和使用大型语言模型（LLM）已成为技术爱好者、开发者和研究人员的共同目标。而作为核心组成部分，系统提示（systemprompts）的设计和应用直接影响了LLM的表现和功能。今天，我们将为大家揭示一个神秘而又充满吸引力的项目——“leaked-system-prompts”。这个项目为我们打开了一扇窥探这些大型语言模型系统提
代码探秘人工智能万能小贤哥人工智能
当你在手机上用语音发送消息，当短视频平台精准推送你感兴趣的内容，当智能音箱陪你聊天解闷，背后都有一位“隐形伙伴”——人工智能。它就像从科幻电影中走出的神奇力量，正悄然改变着我们的生活。今天，就让我们借助简单的Python代码，开启一场探索人工智能奥秘的奇妙之旅！人工智能：计算机的“超能力大脑”想象一下，如果给计算机装上“大脑”，让它学会像人类一样思考、学习和解决问题，会发生什么？这就是人工智能（A
以智能楼宇自动化控制系统为基石，构筑绿色建筑节能增效新标杆 ctrlworks 楼宇自控康沃思物联楼宇自控系统厂家 ba系统厂商建筑管理系统厂家 ibms系统厂家
在全球“双碳”目标加速推进与能源危机日益凸显的背景下，建筑行业作为能源消耗与碳排放的重点领域，正面临从传统建造向绿色智能化转型的迫切需求。数据显示，我国建筑运行阶段能耗占全社会总能耗超30%，碳排放占比达21.9%，而传统建筑管理模式下设备低效运行、能源浪费等问题普遍存在。智能楼宇自动化控制系统（BACS）凭借物联网、大数据、人工智能等技术，通过对建筑设备的精准监控、智能调度与协同管理，成为破解绿
探索生成式 AI Agent：12类，40+个AI Agent实例应用场景的宝藏库和老莫一起学AI 人工智能产品经理职场和发展面试自然语言处理 ai 大模型
在人工智能的璀璨星空中，生成式AI智能体（GenAIAgents）无疑是最耀眼的星辰之一，正以前所未有的速度改变着我们与技术互动的方式。今天，我将分享GitHub上一个宝藏级的项目——“NirDiamant/GenAI_Agents”，这里汇聚了从基础到高级的各种GenAI智能体技术教程与实现案例，堪称一座智能体开发的知识宝库。1.适合初学者的智能体简单会话智能体概览通过集成语言模型、提示模板和历
VSCode-Copilot的系统提示词 youngqqcn AI vscode copilot ide
title:VSCode-Copilot系统提示词date:2025-07-0211:05categories:技术tags:AI人工智能LLM大语言模型提示词Microsoft开源了VSCodeCopilotChat,以下是其系统提示词的摘录。https://github.com/microsoft/vscode-copilot-chat/blob/main/src/extension/prom
pytorch官方文档60分钟入门笔记 xiaodidadada 机器学习
文章目录1.张量（Tensors）定义张量张量操作2.自动求导（autograd）变量Variable3.神经网络4.训练一个分类器载入数据5.数据并行day63参考：官方文档https://blog.csdn.net/u014630987/article/details/786690511.张量（Tensors）tensors和numpy的ndarray类似,但是tensors可以使用GPU加快
边缘人工智能与医疗AI融合发展路径：技术融合与应用前景（下） Allen_Lyb 数智化医院2025 人工智能健康医疗数据库矩阵
医疗边缘AI的市场趋势医疗边缘AI市场正经历着显著的增长，根据市场研究公司的数据，2024年的边缘AI市场价值为125亿美元，估计在2025至2034年之间，由于各部门越来越多地采用边缘装置，CAGR为24.8%。保健、制造业、零售业和汽车业的企业拥有综合边缘计算解决方案[36]。这一增长趋势表明，边缘AI技术正在各行各业得到广泛应用，其中医疗保健是一个重要的应用领域。2023年全球边缘人工智能市
AI 编程对决：Gemini CLI vs Claude Code，谁是最佳 AI 编码工具？ charieli-fh 人工智能大模型
1.引言：AI编码工具的崛起在软件开发的快节奏世界中，人工智能（AI）工具正迅速从辅助角色转变为不可或缺的伙伴。它们不再仅仅是提供代码补全，而是能够理解复杂上下文、执行多步骤任务，甚至自动化整个工作流的智能代理。这种转变正在重塑开发者的日常工作，提高生产力，并加速创新。在众多涌现的AI编码工具中，Google的GeminiCLI和Anthropic的ClaudeCode脱颖而出，各自代表了AI辅助
百度颠覆了自己，飞算JavaAI造福了中国程序员！飞算JavaAI开发助手百度
在当今这个科技日新月异的时代，企业纷纷寻求技术突破，以期在激烈的市场竞争中脱颖而出。百度，作为中国互联网行业的领军企业之一，凭借其强大的科技实力和创新能力，在人工智能等多个领域取得了显著成就，并正在逐步颠覆自身的传统形象。百度自成立之初，就将技术创新视为企业的生命线。从最初的搜索引擎技术，到如今的深度学习、自然语言处理、计算机视觉等前沿领域，百度始终走在技术革新的前沿。其自主研发的飞桨深度学习平台
Java AI 开发智能体：从入门到实践培风图南以星河揽胜 java java 人工智能开发语言
在人工智能（AI）技术蓬勃发展的今天，智能体作为AI领域的核心概念之一，正逐渐渗透到各个行业与应用场景。而Java凭借其跨平台性、丰富的类库和强大的生态系统，成为开发智能体的热门选择。本文将深入探讨如何使用Java进行AI开发智能体，从基础概念到实践应用，解答常见问题，为你揭开JavaAI开发智能体的神秘面纱。一、Java在AI开发中的优势1.跨平台性Java的“一次编写，到处运行”特性，使得基于
ollama v0.9.4 详解：联网功能、模型目录自定义及macOS性能优化全面升级
近年来，随着人工智能技术的快速发展，模型管理与调用变得尤为重要。作为一款备受关注的本地AI模型管理工具，Ollama在最新发布的v0.9.4版本中带来了多项重磅改进和全新功能，提升了用户体验和应用场景的灵活性。本文将深入解析Ollamav0.9.4版本的功能亮点、技术改进以及实用操作指南，帮助广大开发者和AI爱好者全面掌握这款工具的最新动态。一、版本概述Ollamav0.9.4版本于2025年7月
【深度学习:进阶篇】--4.2.词嵌入和NLP 西柚小萌新吖(●ˇ∀ˇ●) #深度学习深度学习自然语言处理人工智能
在RNN中词使用one_hot表示的问题假设有10000个词每个词的向量长度都为10000，整体大小太大没能表示出词与词之间的关系例如Apple与Orange会更近一些，Man与Woman会近一些，取任意两个向量计算内积都为0目录1.词嵌入1.1.特点1.3.word2vec介绍1.3.Word2Vec案例1.3.1.训练语料1.3.2.步骤1.3.3.代码2.测试代码1.词嵌入定义：指把一个维数
【深度学习】卷积神经网络(CNN)原理 chaser&upper 深度学习神经网络卷积计算机视觉
【深度学习】卷积神经网络原理1.卷积神经网络的组成2.卷积层2.1卷积运算过程3.padding-零填充3.1ValidandSame卷积3.2奇数维度的过滤器4.stride-步长5.多通道卷积5.1多卷积核（多个Filter）6.卷积总结7.池化层(Pooling)8.全连接层9.总结1.卷积神经网络的组成定义卷积神经网络由一个或多个卷积层、池化层以及全连接层等组成。与其他深度学习结构相比，卷
深度学习学习经验——卷积神经网络（CNN） Linductor 深度学习学习经验深度学习学习 cnn
卷积神经网络卷积神经网络（CNN）1.卷积神经网络的基本组成2.卷积操作3.激活函数（ReLU）4.池化操作5.全连接层6.卷积神经网络的完整实现项目示例项目目标1.加载数据2.卷积层：图像的特征探测器2.1第一个卷积层3.激活函数：增加非线性4.池化层：信息压缩器5.多层卷积和池化：逐层提取更高层次的特征6.全连接层：分类器7.模型训练和测试完整的项目示例代码总结卷积神经网络（CNN）卷积神经网
用鸿蒙打造真正的跨设备数据库：从零实现分布式存储网罗开发 HarmonyOS 实战源码实战 harmonyos 数据库分布式
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
【V5.0 - 视觉篇】AI的“火眼金睛”：用OpenCV量化“第一眼缘”，并用SHAP验证它的“审美” 爱分享的飘哥 AI 人工智能 opencv 计算机视觉
系列回顾：在上一篇《给AI装上“写轮眼”：用SHAP看穿模型决策的每一个细节》中，我们成功地为AI装上了“透视眼镜”，看穿了它基于数字决策的内心世界。但一个巨大的问题暴露了：它的世界里，还只有数字。它能理解“时长60秒”，却无法感受画面的震撼。它是一个强大的“盲人数学家”。计算机视觉我们没有必要为每个视频进行切帧，可以针对开头的视频或者中间关键点视频进行切帧，让计算机识别。承上启下：“现在，我们来
计算机视觉 OpenCV Android | Mat像素操作（图像像素的读写、均值方差、算术、逻辑等运算、权重叠加、归一化等操作）... 凌川江雪
本文目录1.像素读写2.图像通道与均值方差计算3.算术操作与调整图像的亮度和对比度4.基于权重的图像叠加5.Mat的其他各种像素操作1.像素读写Mat作为图像容器，其数据部分存储了图像的像素数据，我们可以通过相关的API来获取图像数据部分；在获取图像数据的时候，知道Mat的类型与通道数目关重要，根据Mat的类型与通道数目，开辟适当大小的内存空间，然后通过get方法就可以循环实现每个像素点值的读取、
Python Day53 别勉. python机器学习 python 开发语言
Task：1.对抗生成网络的思想：关注损失从何而来2.生成器、判别器3.nn.sequential容器：适合于按顺序运算的情况，简化前向传播写法4.leakyReLU介绍：避免relu的神经元失活现象1.对抗生成网络的思想：关注损失从何而来这是理解GANs的关键！传统的神经网络训练中，我们通常会直接定义一个损失函数（如均方误差MSE、交叉熵CE），然后通过反向传播来优化这个损失。这个损失的“来源”
零基础起步：基于GpuGeek的文本生成模型实战昊昊该干饭了人工智能 nlp 深度学习 gpu算力 gru
在自然语言处理（NLP）领域，文本生成任务广泛应用于问答系统、智能摘要、内容创作等方向。本文将带领读者使用GpuGeek平台，从注册、上传数据到实例部署与训练，完整构建一个基于GPT2模型的文本生成系统，实战掌握AI模型的云端开发流程。目录一、GpuGeek平台使用流程详解1.注册与登录2.数据上传3.创建训练实例4.启动与使用实例5.关闭实例（手动&自动）二、文本生成实战任务：微调GPT-21.
大模型智能运维详解：技术架构、落地挑战与行业实践 FreeTools FreeAiGuard 运维架构人工智能运维开发科技
大模型智能运维详解：技术架构、落地挑战与行业实践作者：开源大模型智能运维FreeAiOps在数字化转型加速的背景下，企业IT系统复杂度呈指数级增长，传统运维模式面临效率低下、故障定位困难、成本高昂等瓶颈。大模型技术的出现为智能运维提供了突破性解决方案，其通过自然语言处理、多模态数据分析与自动化决策能力，正在重塑运维工作的底层逻辑。本文将从技术原理、落地挑战、行业实践三个维度，系统解析大模型智能运维
成为高级Python开发人员的完整学习路线与核心知识体系
引言Python已成为全球最受欢迎的编程语言之一，其简洁的语法和强大的生态系统使其在数据科学、Web开发、自动化、人工智能等领域占据重要地位。然而，从初级Python程序员到真正的高级开发人员，需要掌握一系列深入的知识点和实践经验。本文将详细介绍成为高级Python开发人员必备的核心知识体系，并提供系统化的学习资源，帮助你规划专业发展路径。第一部分：Python语言基础进阶1.Python语言特性
【AI】闭环反馈：构建从用户处学习的人工智能秋说 AI广延人工智能 AI
文章目录前言AI产品性能的双重视角：模型指标vs用户信号模型指标：AI系统的“内部视角”用户信号：AI产品的“外部视角”用户信号类型用户信号的价值模型指标为何难以独立支撑产品成功如何设计AI产品的全面反馈闭环一、统一成功标准：模型指标+用户价值二、用户信号的数据采集策略三、整合多源数据流四、分析与洞察从反馈到改进：迭代驱动的闭环循环一、识别并优先解决核心问题二、将用户信号转化为模型改进方向三、产品
PL-SLAM: Real-Time Monocular Visual SLAM with Points and Lines
PL-SLAM文章目录PL-SLAM摘要系统介绍综述方法综述LINE-BASEDSLAM一、基于线的SLAM二、基于线和点的BA三、全局重定位使用线条初始化地图实验结果说明位姿求解三角化LSD直线检测算法**一、核心原理**⚙️**二、实现方法****三、应用场景**⚖️**四、优缺点与优化****优缺点对比****总结**End摘要译文——众所周知，低纹理场景是依赖点对应的几何计算机视觉算法的主
深度学习之分类手写数字的网络 newyork major 卷积神经网络CNN 深度学习人工智能
面临的问题定义神经⽹络后，我们回到⼿写识别上来。我们可以把识别⼿写数字问题分成两个⼦问题：把包含许多数字的图像分成⼀系列单独的图像，每个包含单个数字；也就是把图像，分成6个单独的图像分类单独的数字我们将专注于编程解决第⼆个问题，分类单独的数字。这样是因为，⼀旦你有分类单独数字的有效⽅法，分割问题是不难解决的。⼀种⽅法是尝试不同的分割⽅式，⽤数字分类器对每⼀个切分⽚段打分；如果数字分类器对每⼀个⽚段
推荐文章：探索深度学习的不确定性边界 —— SDE-Net 开源项目解析史多苹Thomas
推荐文章：探索深度学习的不确定性边界——SDE-Net开源项目解析SDE-NetCodeforpaper:SDE-Net:EquippingDeepNeuralnetworkwithUncertaintyEstimates项目地址:https://gitcode.com/gh_mirrors/sd/SDE-Net在当今的人工智能领域，深度神经网络(DNN)已经成为推动技术创新的基石。然而，其预测的
【Java】已解决java.sql.SQLRecoverableException异常屿小夏 java 开发语言
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
IT 行业深度洞察：从技术革命到产业重构的全景图谱 XQR.小白重构
摘要本文系统梳理IT行业的发展脉络，深入剖析云计算、人工智能、大数据、物联网等核心技术的演进逻辑与协同效应，揭示IT产业在数字化转型浪潮中的生态重构与价值创造。通过典型案例分析与数据支撑，探讨行业面临的技术挑战、伦理困境与全球化竞争格局，展望IT技术如何持续驱动社会变革与产业升级。全文结合2025年最新技术动态与市场趋势，为从业者、投资者与研究者提供兼具理论深度与实践指导的行业参考。目录摘要一、I
ASM系列四利用Method 组件动态注入方法逻辑 lijingyao8206 字节码技术 jvm AOP 动态代理 ASM
这篇继续结合例子来深入了解下Method组件动态变更方法字节码的实现。通过前面一篇，知道ClassVisitor 的visitMethod()方法可以返回一个MethodVisitor的实例。那么我们也基本可以知道，同ClassVisitor改变类成员一样，MethodVIsistor如果需要改变方法成员，注入逻辑，也可以
java编程思想 --内部类百合不是茶 java 内部类匿名内部类
内部类;了解外部类并能与之通信内部类写出来的代码更加整洁与优雅 1,内部类的创建内部类是创建在类中的 package com.wj.InsideClass; /* * 内部类的创建 */ public class CreateInsideClass { public CreateInsideClass(
web.xml报错 crabdave web.xml
web.xml报错 The content of element type "web-app" must match "(icon?,display- name?,description?,distributable?,context-param*,filter*,filter-mapping*,listener*,servlet*,s
泛型类的自定义麦田的设计者 java android 泛型
为什么要定义泛型类，当类中要操作的引用数据类型不确定的时候。采用泛型类，完成扩展。例如有一个学生类 Student{ Student(){ System.out.println("I'm a student....."); } } 有一个老师类
CSS清除浮动的4中方法 IT独行者 JavaScript UI css
清除浮动这个问题，做前端的应该再熟悉不过了，咱是个新人，所以还是记个笔记，做个积累，努力学习向大神靠近。CSS清除浮动的方法网上一搜，大概有N多种，用过几种，说下个人感受。 1、结尾处加空div标签 clear:both 1 2 3 4 .div 1 { background : #000080 ; border : 1px s
Cygwin使用windows的jdk 配置方法 _wy_ jdk windows cygwin
1.[vim /etc/profile] JAVA_HOME="/cgydrive/d/Java/jdk1.6.0_43" (windows下jdk路径为D:\Java\jdk1.6.0_43) PATH="$JAVA_HOME/bin:${PATH}" CLAS
linux下安装maven 无量 maven linux 安装
Linux下安装maven(转) 1.首先到Maven官网下载安装文件，目前最新版本为3.0.3，下载文件为 apache-maven-3.0.3-bin.tar.gz，下载可以使用wget命令； 2.进入下载文件夹，找到下载的文件，运行如下命令解压 tar -xvf apache-maven-2.2.1-bin.tar.gz 解压后的文件夹
tomcat的https 配置,syslog-ng配置 aichenglong tomcat http跳转到https syslong-ng配置 syslog配置
1) tomcat配置https,以及http自动跳转到https的配置 1)TOMCAT_HOME目录下生成密钥(keytool是jdk中的命令) keytool -genkey -alias tomcat -keyalg RSA -keypass changeit -storepass changeit
关于领号活动总结 alafqq 活动
关于某彩票活动的总结具体需求，每个用户进活动页面，领取一个号码，1000中的一个；活动要求 1，随机性，一定要有随机性； 2，最少中奖概率，如果注数为3200注，则最多中4注 3，效率问题，（不能每个人来都产生一个随机数，这样效率不高）； 4，支持断电（仍然从下一个开始），重启服务；（存数据库有点大材小用，因此不能存放在数据库）解决方案 1，事先产生随机数1000个，并打
java数据结构冒泡排序的遍历与排序百合不是茶 java
java的冒泡排序是一种简单的排序规则冒泡排序的原理：比较两个相邻的数，首先将最大的排在第一个，第二次比较第二个，此后一样；针对所有的元素重复以上的步骤，除了最后一个例题；将int array[]
JS检查输入框输入的是否是数字的一种校验方法 bijian1013 js
如下是JS检查输入框输入的是否是数字的一种校验方法： <form method=post target="_blank"> 数字：<input type="text" name=num onkeypress="checkNum(this.form)"><br> </form>
Test注解的两个属性：expected和timeout bijian1013 java JUnit expected timeout
JUnit4：Test文档中的解释：　　The Test annotation supports two optional parameters. 　　The first, expected, declares that a test method should throw an exception. 　　If it doesn't throw an exception or if it
[Gson二]继承关系的POJO的反序列化 bit1129 POJO
父类 package inheritance.test2; import java.util.Map; public class Model { private String field1; private String field2; private Map<String, String> infoMap
【Spark八十四】Spark零碎知识点记录 bit1129 spark
1. ShuffleMapTask的shuffle数据在什么地方记录到MapOutputTracker中的 ShuffleMapTask的runTask方法负责写数据到shuffle map文件中。当任务执行完成成功，DAGScheduler会收到通知，在DAGScheduler的handleTaskCompletion方法中完成记录到MapOutputTracker中
WAS各种脚本作用大全 ronin47 WAS 脚本
　　　http://www.ibm.com/developerworks/cn/websphere/library/samples/SampleScripts.html 　　　无意中，在WAS官网上发现的各种脚本作用，感觉很有作用，先与各位分享一下　　　获取下载这些示例 jacl 和 Jython 脚本可用于在 WebSphere Application Server 的不同版本中自
java-12.求 1+2+3+..n不能使用乘除法、 for 、 while 、 if 、 else 、 switch 、 case 等关键字以及条件判断语句 bylijinnan switch
借鉴网上的思路，用java实现： public class NoIfWhile { /** * @param args * * find x=1+2+3+....n */ public static void main(String[] args) { int n=10; int re=find(n); System.o
Netty源码学习-ObjectEncoder和ObjectDecoder bylijinnan java netty
Netty中传递对象的思路很直观： Netty中数据的传递是基于ChannelBuffer（也就是byte[]）；那把对象序列化为字节流，就可以在Netty中传递对象了相应的从ChannelBuffer恢复对象，就是反序列化的过程 Netty已经封装好ObjectEncoder和ObjectDecoder 先看ObjectEncoder ObjectEncoder是往外发送
spring 定时任务中cronExpression表达式含义 chicony cronExpression
一个cron表达式有6个必选的元素和一个可选的元素，各个元素之间是以空格分隔的，从左至右，这些元素的含义如下表所示：代表含义是否必须允许的取值范围 &nb
Nutz配置Jndi ctrain JNDI
1、使用JNDI获取指定资源： var ioc = { dao : { type :"org.nutz.dao.impl.NutDao", args : [ {jndi :"jdbc/dataSource"} ] } } 以上方法,仅需要在容器中配置好数据源,注入到NutDao即可.
解决 /bin/sh^M: bad interpreter: No such file or directory daizj shell
在Linux中执行.sh脚本，异常/bin/sh^M: bad interpreter: No such file or directory。分析：这是不同系统编码格式引起的：在windows系统中编辑的.sh文件可能有不可见字符，所以在Linux系统下执行会报以上异常信息。解决： 1）在windows下转换：利用一些编辑器如UltraEdit或EditPlus等工具
[转]for 循环为何可恨？ dcj3sjt126com 程序员读书
Java的闭包(Closure)特征最近成为了一个热门话题。一些精英正在起草一份议案，要在Java将来的版本中加入闭包特征。然而，提议中的闭包语法以及语言上的这种扩充受到了众多Java程序员的猛烈抨击。不久前，出版过数十本编程书籍的大作家Elliotte Rusty Harold发表了对Java中闭包的价值的质疑。尤其是他问道“for 循环为何可恨？”[http://ju
Android实用小技巧 dcj3sjt126com android
1、去掉所有Activity界面的标题栏　　修改AndroidManifest.xml 　　在application 标签中添加android:theme="@android:style/Theme.NoTitleBar" 2、去掉所有Activity界面的TitleBar 和StatusBar 　　修改AndroidManifes
Oracle 复习笔记之序列 eksliang Oracle 序列 sequence Oracle sequence
转载请出自出处：http://eksliang.iteye.com/blog/2098859 1.序列的作用序列是用于生成唯一、连续序号的对象一般用序列来充当数据库表的主键值 2.创建序列语法如下： create sequence s_emp start with 1 --开始值 increment by 1 --増长值 maxval
有“品”的程序员 gongmeitao 工作
完美程序员的10种品质　　完美程序员的每种品质都有一个范围，这个范围取决于具体的问题和背景。没有能解决所有问题的完美程序员（至少在我们这个星球上），并且对于特定问题，完美程序员应该具有以下品质：　　1. 才智非凡- 能够理解问题、能够用清晰可读的代码翻译并表达想法、善于分析并且逻辑思维能力强（范围：用简单方式解决复杂问题）　　
使用KeleyiSQLHelper类进行分页查询 hvt sql .net C#asp.net hovertree
本文适用于sql server单主键表或者视图进行分页查询，支持多字段排序。KeleyiSQLHelper类的最新代码请到http://hovertree.codeplex.com/SourceControl/latest下载整个解决方案源代码查看。或者直接在线查看类的代码：http://hovertree.codeplex.com/SourceControl/latest#HoverTree.D
SVG 教程（三）圆形，椭圆，直线天梯梦 svg
SVG <circle> SVG 圆形 - <circle> <circle> 标签可用来创建一个圆：下面是SVG代码： <svg xmlns="http://www.w3.org/2000/svg" version="1.1"> <circle cx="100" c
链表栈 luyulong java 数据结构
public class Node { private Object object; private Node next; public Node() { this.next = null; this.object = null; } public Object getObject() { return object; } public
基础数据结构和算法十：2-3 search tree sunwinner Algorithm 2-3 search tree
Binary search tree works well for a wide variety of applications, but they have poor worst-case performance. Now we introduce a type of binary search tree where costs are guaranteed to be loga
spring配置定时任务 stunizhengjia spring timer
最近因工作的需要，用到了spring的定时任务的功能,觉得spring还是很智能化的,只需要配置一下配置文件就可以了,在此记录一下，以便以后用到： //------------------------定时任务调用的方法------------------------------ /** * 存储过程定时器 */ publi
ITeye 8月技术图书有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的8月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 8月试读活动回顾： http://webmaster.iteye.com/blog/2102830 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《跨终端Web》 gleams：http

image captioning经典论文分类整理+部分有源码

你可能感兴趣的:(论文阅读,神经网络,深度学习,计算机视觉,自然语言处理,人工智能)