以下是 计算机视觉(CV)、自然语言处理(NLP)和生成式 AI(Generative AI) 的详细介绍,涵盖核心任务、技术方法和典型应用:
让机器“看懂”图像和视频,理解视觉世界的语义信息。
任务 | 技术方案 | 代表模型 |
---|---|---|
图像分类 | CNN(卷积神经网络) | ResNet、EfficientNet |
目标检测 | Two-stage(如Faster R-CNN) One-stage(如YOLO) |
YOLOv9、DETR |
图像分割 | 全卷积网络(FCN) Transformer架构 |
Mask R-CNN、Segment Anything(SAM) |
人脸识别 | 深度度量学习(如ArcFace) | FaceNet、DeepFace |
视频分析 | 3D CNN/时序建模(如LSTM) | SlowFast、TimeSformer |
让机器理解、生成和处理人类语言(文本/语音)。
任务 | 技术方案 | 代表模型 |
---|---|---|
文本分类 | 词向量(Word2Vec) Transformer |
BERT、RoBERTa |
机器翻译 | Seq2Seq+Attention 纯Transformer |
Google Translate(GNMT)、mBART |
问答系统 | 阅读理解模型(MRC) | T5、ChatGPT |
语音识别(ASR) | 声学模型(如CTC、RNN-T) | Whisper(OpenAI) |
语音合成(TTS) | 自回归模型(如Tacotron) 扩散模型 |
VITS、NaturalSpeech |
让机器创造新内容(文本、图像、音频、视频等)。
生成内容 | 技术方案 | 代表模型 |
---|---|---|
文本生成 | 自回归语言模型(如GPT) 扩散模型 |
GPT-4、Claude 3 |
图像生成 | GAN(生成对抗网络) 扩散模型 |
Stable Diffusion、DALL·E 3 |
视频生成 | 时空扩散模型 3D神经网络 |
Sora(OpenAI)、Pika |
跨模态生成 | 多模态大模型(如CLIP引导) | CogVideo、Imagen Video |
代码生成 | 代码专用LLM | GitHub Copilot、CodeLlama |
维度 | CV | NLP | 生成式AI |
---|---|---|---|
核心架构 | CNN/Transformer | Transformer | GAN/扩散模型/LLM |
数据需求 | 标注成本高(边界框/掩码) | 大规模文本语料 | 高质量生成样本 |
评估指标 | mAP(目标检测) IoU(分割) |
BLEU(翻译) ROUGE(摘要) |
FID(图像质量) Perplexity(文本) |
开源工具 | OpenCV、MMDetection | Hugging Face、NLTK | Diffusers、LangChain |
如果需要某个领域的细分技术(如目标检测中的YOLO原理,或GPT的训练细节),可进一步探讨!