智源社区

《预训练周刊》第6期：GAN人脸预训练模型、通过深度生成模型进行蛋白序列设计

No.06

智源社区

预训练组

预

训

练

研究

观点

资源

活动

关于周刊

超大规模预训练模型是当前人工智能领域研究的热点，为了帮助研究与工程人员了解这一领域的进展和资讯，智源社区整理了第6期《预训练周刊》，从论文推荐、研究动态等维度推荐近期发生在预训练模型领域值得关注的信息。

本期周刊，我们选择了7篇预训练相关的论文，涉及迁移学习、手写文本生成、庞加莱空间映射、Deepfakes检测、蛋白质语言模型和蛋白序列生成的探索。此外，在研究动态方面，我们选择了5篇预训练资讯，将介绍海量多模态的数据、会话应用、NLP工具包、人脸复原和鲁棒性测评等方面的一些最新内容。

周刊采用社区协作的模式产生，欢迎感兴趣的朋友们参与我们的工作，一起来推动预训练社群的分享、学习和交流活动。可以扫描文末的二维码加入预训练群。

（本期贡献者：申德周翟珂吴新刚）

论文推荐

标题：Efficient transfer learning for NLP with ELECTRA（使用ELECTRA进行NLP的高效迁移学习）了解详情

简介：尽管有细微的差别，但我的结果与最初的ELECTRA的实现类似。与两种实现的原始论文相比，仅需14M的参数，ELECTRA-Small的性能就胜于其他产品，在绝对性能方面，采用以前的一些SOTA（例如GPT）或其他方法进行的并发预训练方法，使用知识提炼的有效方法，例如DistilBERT。考虑到计算成本，ELECTRA明显优于包括BERT和TinyBERT在内的所有比较方法。因此，这项工作支持声称ELECTRA在低资源条件下，可以在计算成本方面实现高水平的性能。此外，生成器容量比（ELECTRA的作者）Clark等人的建议要高，且判别器可以由于无法区分输入是否为伪造而崩溃。因此，尽管ELECTRA比GAN更容易训练，它似乎对生成器和判别器之间的容量分配很敏感。

代码地址：https://github.com/cccwam/rc2020_electra

论文地址：https://arxiv.org/pdf/2104.02756.pdf

标题：Handwriting Transformers（手写变换器）了解详情

简介：我们提出了一种新颖的基于变换器的样式化手写文本图像生成方法，即HWT，该方法致力于学习样式内容纠缠以及全球和本地书写样式模式。所提出的HWT通过自注意力机制捕获样式示例内的长距离和短距离关系，从而对全局样式样式和局部样式样式进行编码。此外，所提出的基于变换器的HWT包括编码器-解码器注意力，其通过收集每个查询字符的样式表示来实现样式-内容纠缠。据我们所知，我们是第一个引入用于样式化手写文本生成的基于变换器的生成网络。我们提出的HWT生成逼真的样式的手写文本图像，并且通过广泛的定性，定量和基于人的评估，大大优于最新技术。提出的HWT可以在少样本情况下处理任意长度的文本和任何所需的书写样式。此外，我们的HWT可以很好地推广到具有挑战性的场景，即在训练期间未出现的单词和书写风格，从而生成逼真的样式的手写文本图像。

代码地址：https://github.com/ankanbhunia/Handwriting-Transformers

论文地址：https://arxiv.org/pdf/2104.03964.pdf

标题：ICLR2021|PROBING BERT IN HYPERBOLIC SPACES（在双曲线空间中探索BERT）了解详情

简介：最近，提出了各种探测任务，以发现在上下文单词嵌入中学习的语言属性。其中许多文章含蓄地假设这些嵌入位于某些公制空间，通常是欧几里德空间。本文考虑了几何特殊空间（双曲空间）系列，这些空间对层次结构表现出更好的归纳性偏差，并可能更好地揭示在上下文表示中编码的语言层次结构。我们引入了一个 Poincare（庞加莱）探头，一个结构探头，将这些嵌入投射到具有明确定义的层次结构的庞加莱子空间中。我们专注于两个探索目标：（a）将等级定义为头部依赖结构的依赖性树;（b）将等级定义为词的极性（积极和消极）的词汇情绪。我们认为，探测器的一个关键缺点是它对语言结构存在的敏感性。我们将探针应用于 BERT，这是一个典型的上下文嵌入模型。在语法子空间中，我们的探测器比欧几里德探测器更好地恢复树结构，揭示了BERT语法的几何学不一定是欧几里德的可能性。在情绪子空间中，我们揭示了正面和负面情绪的两种可能元嵌入，并展示了词汇控制的上下文化将如何改变嵌入的几何定位。我们通过广泛的实验和可视化来演示我们的庞加莱探测器的发现。

代码地址：https://github.com/FranxYao/PoincareProbe

论文地址：https://arxiv.org/pdf/2104.03869.pdf

标题：Improving the Efficiency and Robustness of Deepfakes Detection through Precise Geometric Features（通过精确的几何特征提高Deepfakes检测的效率和稳健性）了解详情

简介：Deepfakes 是恶意技术的一个分支，将目标面移植到视频中的原始技术，导致严重问题，如侵犯版权、信息混乱，甚至公众恐慌。之前的 Deepfakes 视频检测工作主要侧重于外观功能，这些功能有被复杂操作绕过的风险，也导致模型复杂性和对噪音的敏感性。此外，如何挖掘纵视频的时间特征并加以利用仍然是一个悬而未决的问题。我们提出了一个高效而强大的框架，名为LRNet，用于通过精确几何特征的时空建模来检测 Deepfakes 视频。设计了一种新型校准模块，以提高几何特征的精度，使其更具辨别性，并构建了双流循环神经网络，以充分利用时间特征。与以前的方法相比，我们建议的方法模型更轻，训练更方便。此外，我们的方法在检测高度压缩或噪声损坏的视频方面表现出了稳健性。我们的模型在FaceForensics++数据集上实现了0.999的AUC。同时，当面对高度压缩的视频时，它的表现（-0.042 AUC）有一个优雅的下降。

论文地址：https://arxiv.org/pdf/2104.04480.pdf

标题：MSA Transformer了解详情

简介：在数百万不同蛋白质序列上训练的无监督蛋白语言模型可以学习蛋白质的结构和功能，迄今为止来自研究组的蛋白质语言模型已经可以做到从序列训练进行推理。而计算生物学中长期以来的方法是通过对每个蛋白家族独立拟合一个模型，从进化相关的家族序列中进行任务判断。本文将这两种范式结合起来，引入了一个以MSA（多重序列比对）的形式将一组蛋白序列作为输入的蛋白质语言模型。该模型在输入序列上交错进行行列attention，在众多蛋白质家族中使用MLM（掩码语言模型）的变体进行训练。该模型的性能远远超过了当前最先进的无监督结构学习方法，参数效率远高于之前最先进的蛋白质语言模型。

代码地址：https://github.com/facebookresearch/esm

论文地址：https://www.biorxiv.org/content/10.1101/2021.02.12.430858v1.full

标题：M-Evolve: Structural-Mapping-Based Data Augmentation for Graph Classification（基于结构映射的图分类数据增强）了解详情

简介：图分类任务旨在识别图形的类别标签，该任务在药物分类、毒性检测、蛋白质分析等方面发挥着重要作用。然而，由于基准数据集的规模限制，图分类模型很容易陷入过度拟合和泛化不足的局面。为了改善这种情况，本文引入了对图的数据增强，即图增强，并提出了四种方法：随机映射、顶点相似度映射、motif-随机映射和motif-相似度映射，通过对图结构的启发式转换，为小规模的基准数据集生成更多的弱标签数据。此外，作者提出了一个通用的模型进化框架，命名为M-Evolve。该框架结合预训练，图增强、数据过滤和模型重训练来优化预训练的图分类器。在6个分子，蛋白，脑科学相关的基准数据集上的实验表明，M-Evolve框架可以帮助现有的图分类模型在小规模基准数据集上缓解训练中的过度拟合和泛化问题，并成功地使模型平均精度提高了3 - 13%。

论文地址：https://arxiv.org/abs/2007.05700v4

标题：Protein sequence design with deep generative models（通过深度生成模型进行蛋白序列设计）了解详情

简介：蛋白质工程的目的是识别发现具有更优性质的蛋白质序列，在机器学习的指导下，蛋白序列生成方法可以借鉴先验知识和实验迭代来改进这一过程。本文讨论了深度生成模型在蛋白工程中的三种应用：将学习到的蛋白序列表征和预训练模型用于下游学习任务；使用生成模型生成蛋白质序列；对生成模型进行定向优化，使生成的蛋白质序列在某性质上的概率提升实现富集。上述这些方法将与实验验证生成序列的研究相结合并最终形成迭代。此外，作者还对蛋白序列的常见深度生成模型进行了概述，包括VAE，GAN和其他自回归模型等。

论文地址：https://arxiv.org/pdf/2104.04457v1.pdf

研究动态

标题：华为|从海量多模态的数据中高效地进行知识提取，实现行业AI的关键突破了解详情

简介：智能世界离不开AI， AI应用碎片性与AI的可信问题不可回避。AI模型的通用性是解决应用碎片性的关键。通过大量无标注的数据和更大的模型，从全监督到自监督，构建通用的AI系统，这是当前需要突破的方向。其次，把AI与科学计算交汇，这也为AI应用走出碎片提供了大用场。AI为科学计算带来了新思路、新方法、新工具，而科学计算的严谨体系也有助于提升AI的可解释性。可信AI，是我们长期追求的目标。特别是人命关天的关键领域，如无人驾驶，必须解决从相关性到因果性的难题。

标题：Got It AI|使用变换器和大规模的预训练语言模型构建NLP和会话式AI应用了解详情

简介：变换器席卷了AI研究和产品社区。我们已经看到他们在AI的多个领域取得了进步，例如自然语言处理（NLP），计算机视觉和机器人技术。作者介绍了基于对话的AI，NLP和基于变换器的大规模语言模型（例如BERT和GPT-3）的一些背景知识，和有关流行应用程序以及如何构建NLP应用程序的一些示例。

标题：俄勒冈大学推出：基于“号称是最先进的预训练语言模型”的轻量级NLP工具包--Trankit了解详情

简介：俄勒冈大学推出：最新轻量级多语言NLP工具集Trankit发布1.0版本。Trankit基于Transformer，性能已超越之前的热门同类项目斯坦福Stanza：中文处理更精准，内存占用小45% ；Trankit支持多达56种语言，除了简体和繁体中文以外，还支持文言文。

标题：CVPR2021 | GAN人脸预训练模型，让五官复原效果惊艳！

了解详情

简介：人脸复原 (Face Restoration) 是指从低质量的人脸中复原得到高清的人脸。真实世界中的人脸复原是一个很有挑战的任务，因为降质 (degradation) 过程复杂且不尽相同。来自腾讯 PCG 应用研究中心 (ARC) 的研究者们提出了利用预先训练好的人脸生成模型提供的先验，来指导人脸复原的任务。

标题：模型鲁棒性好不好，复旦大学20余人历时九个月的一键式评测平台TextFlint会告诉你！了解详情

简介：复旦大学自然语言处理实验室发布模型鲁棒性评测平台 TextFlint。该平台涵盖 12 项 NLP 任务，囊括 80 余种数据变形方法，花费超 2 万 GPU 小时，进行了 6.7 万余次实验，验证约 100 种模型，选取约 10 万条变形后数据进行了语言合理性和语法正确性人工评测，为模型鲁棒性评测及提升提供了一站式解决方案。

如果你正在从事或关注预训练学习研究、实现与应用，欢迎加入“智源社区-预训练-交流群”。在这里，你可以：

学习前沿知识、求解疑难困惑
分享经验心得、展示风貌才华
参与专属活动、结识研究伙伴

扫描下方二维码，或点击阅读原文申请加入（选择“兴趣交流群→预训练”）

喜讯 | Navicat 蝉联 2025 年 DBTA 100 强名单 Navicat中国 Navicat 17 焕新上市 navicat 数据库
Navicat在“DBTA1002025-数据领域最重要的公司”榜单中获得表彰。该奖项旨在表彰在数据管理与分析领域的领先创新者。数据库趋势与应用集团出版人TomHogan表示：“企业正寻求扩大人工智能的应用范围，采用新的技术与应用，增加数据分析/商业智能的使用，并对现有应用进行现代化改造”，“每年，《数据库趋势与应用》杂志都会推出DBTA100榜单，旨在表彰具有创新精神、能够为客户带来新产品新体验
Midjourney：AI人工智能图像生成的新方向 AI智能探索者人工智能 midjourney 计算机视觉 ai
Midjourney：AI人工智能图像生成的新方向关键词：Midjourney、AI图像生成、扩散模型、提示词工程、多模态学习、生成式AI、创意工具摘要：本文将带您走进AI图像生成的前沿领域，以Midjourney为核心，从技术原理到实际应用，用通俗易懂的语言解析其背后的“魔法”。我们将通过生活案例、技术拆解和实战演示，揭示Midjourney如何通过扩散模型、提示词工程和多模态学习，重新定义“用
AI原生应用必知：5大高效多轮对话框架对比 AI原生应用开发 AI-native easyui 前端 ai
AI原生应用必知：5大高效多轮对话框架对比关键词：AI原生应用、多轮对话、对话框架、自然语言处理、上下文管理、意图识别、对话状态跟踪摘要：本文深入探讨了构建AI原生应用时必备的5大多轮对话框架，包括Rasa、Dialogflow、MicrosoftBotFramework、AmazonLex和IBMWatsonAssistant。通过对比分析它们的架构设计、核心功能和应用场景，帮助开发者选择最适合
剖析AI人工智能领域Whisper的性能指标 AI大模型应用实战人工智能 whisper xcode ai
剖析AI人工智能领域Whisper的性能指标关键词：Whisper、语音识别、性能指标、ASR、AI模型评估、基准测试、语音转文本摘要：本文深入剖析OpenAI开发的Whisper语音识别系统的性能指标。我们将从技术原理、架构设计、性能基准测试等多个维度，全面分析Whisper在不同场景下的表现。文章将详细讲解Whisper的评估方法、关键性能指标解读、实际应用中的性能表现，以及与其他主流语音识别
探索AI人工智能领域多智能体系统的技术原理 AI大模型应用之禅人工智能网络 ai
探索AI人工智能领域多智能体系统的技术原理关键词：AI人工智能、多智能体系统、技术原理、智能体交互、分布式计算摘要：本文深入探索了AI人工智能领域多智能体系统的技术原理。首先介绍了多智能体系统的背景，包括其目的、预期读者、文档结构和相关术语。接着阐述了多智能体系统的核心概念与联系，通过文本示意图和Mermaid流程图进行清晰展示。详细讲解了核心算法原理，结合Python源代码进行说明，并给出了相关
从零到精通：Linux上的Conda环境详细教程
第一章：Conda简介Conda的定义Conda是一个开源的包管理系统和环境管理系统，可以在多个平台上安装、运行和更新软件包和依赖项。Conda最初是为Python和R语言的数据科学包创建的，但现在支持多种编程语言和工具。Conda的主要功能和优势包管理：Conda能够自动处理包的依赖关系，确保每个包所需的库和工具都被正确安装。它支持从各种渠道安装包，如CondaForge和Anaconda官方仓
Briefcase 项目常见问题解决方案刘梓苹
Briefcase项目常见问题解决方案briefcaseToolstosupportconvertingaPythonprojectintoastandalonenativeapplication.项目地址:https://gitcode.com/gh_mirrors/br/briefcase1.项目基础介绍和主要编程语言Briefcase是一个由BeeWare项目开发的工具，旨在帮助开发者将Py
结合创新idea：机器学习+运筹优化=CCF高端局 Ai多利机器学习人工智能
2024深度学习发论文&模型涨点之——机器学习+运筹优化机器学习是人工智能的一个分支，它使计算机系统能够从数据中学习并改进其性能，而无需进行明确的编程。运筹优化，也称为运筹学或运营管理，是应用数学的一个分支，它使用数学模型和算法来支持复杂决策过程的制定。机器学习与运筹优化的结合是一个前沿且活跃的研究领域，它们相互补充，为解决复杂问题提供了新的思路和方法。小编整理了一些机器学习+运筹优化【论文+代码
JuPyter(IPython) Notebooks中使用pip安装Python的模块 weixin_34218890 开发工具 python 人工智能
问题描述：没有带GPU的电脑，搞深度学习不是耍流氓嘛，我网上看到有个云平台，免费使用了一下，小姐姐很热情。使用过程如下：他们给的接口是Jupyter编辑平台，我就在上面跑了一个小例子。tensorflow和python环境是他们配置好的，不过我的例子中需要导入matplotlib.pylot模块。可是他们没有提供，怎么办呢？网上查了一下啊解决方法：采用如下方法：importpipdefMyPipi
【LangChain编程：从入门到实践】LangChain与其他框架的比较 AI天才研究院 Agentic AI 实战计算 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【LangChain编程：从入门到实践】LangChain与其他框架的比较1.背景介绍1.1人工智能发展现状在当今时代，人工智能(AI)已经成为科技领域中最热门和最具革命性的话题之一。随着计算能力的不断提升和算法的持续优化,AI系统正在不断扩展其应用范围,包括自然语言处理、计算机视觉、决策系统等各个领域。1.2LangChain概述在这种背景下,LangChain作为一个新兴的AI框架应运而生。L
重塑知识的圣殿：人工智能时代的教育革命与人文守护田园Coder 人工智能科普人工智能科普
教育，承载着文明火种传递的千年使命，其核心始终围绕两个永恒命题：如何让知识更有效地被获取？如何让个体潜能更充分地绽放？在信息爆炸、技能迭代加速的当代，传统教育模式——标准化课程、统一进度、有限师资、资源不均——正面临前所未有的压力。人工智能（AI）的崛起，如同一股强大的变革洪流，正以前所未有的深度和广度渗透教育生态的各个环节。从量身定制的学习路径到永不疲倦的智能导师，从虚拟现实的沉浸课堂到洞察学情
踏入真实：具身智能与物理世界的认知交响
当大型语言模型在文本的海洋中纵横捭阖，生成式AI在数字画布上挥洒创意时，人工智能仍有一个根本性的疆域尚未完全征服——真实的三维物理世界。理解一个苹果，不能仅靠词向量坐标；学会行走，无法通过阅读说明书达成；在拥挤的街道导航，远非处理符号逻辑那般简单。智能的进化，自生命诞生之初，便与具身性（Embodiment）和环境交互（Interaction）密不可分。我们的认知、学习、乃至意识的雏形，都源于身体
Jupyter安装指南及Python配置 CodeWG python jupyter ide Python
Jupyter是一个非常流行的交互式计算环境，广泛用于数据分析、机器学习和科学计算等领域。本文将详细介绍如何安装Jupyter并配置Python环境。步骤1：安装Python首先，我们需要安装Python。请按照以下步骤进行操作：打开Python官方网站（https://www.python.org）并下载适用于您操作系统的最新版本的Python。运行下载的安装程序，并按照向导的指示进行安装。在安
happy-llm 第一章 NLP 基础概念 weixin_38374194 自然语言处理人工智能学习
文章目录一、什么是NLP？二、NLP发展三大阶段三、NLP核心任务精要四、文本表示演进史1.传统方法：统计表征2.神经网络：语义向量化课程地址：happy-llmNLP基础概念一、什么是NLP？核心目标：让计算机理解、生成、处理人类语言，实现人机自然交互。现状与挑战：成就：深度学习推动文本分类、翻译等任务达到近人类水平。瓶颈：歧义性、隐喻理解、跨文化差异等。二、NLP发展三大阶段时期代表技术核心思
Python scikit-learn 【机器学习库】全面讲解
让AI成为我们的得力助手：《用Cursor玩转AI辅助编程——不写代码也能做软件开发》scikit-learn（简称sklearn）是Python最流行的机器学习库之一，提供简单高效的数据挖掘和数据分析工具。它基于NumPy、SciPy和Matplotlib构建，广泛应用于工业界和学术界。核心优势统一API设计：所有模型使用一致的接口（fit()、predict()、score()）丰富的算法：覆
Nystromformer：一种基于 Nyström 方法的自注意力近似算法 AI专题精讲 Paper阅读人工智能自然语言处理 AI
1.摘要Transformer已经成为广泛自然语言处理任务中的强大工具。推动Transformer展现出卓越性能的一个关键组件是self-attention机制，它对每个token编码了其他token的影响或依赖关系。虽然self-attention机制具有诸多优势，但其在输入序列长度上的二次复杂度限制了其在较长序列上的应用——这是当前社区积极研究的一个主题。为了解决这一限制，我们提出了Nystr
使用 C++/OpenCV 和 MFCC 构建双重认证智能门禁系统
使用C++/OpenCV和MFCC构建双重认证智能门禁系统引言随着物联网和人工智能技术的发展，智能门禁系统在安防领域的应用越来越广泛。相比于传统的钥匙、门禁卡或密码，生物识别技术（如人脸识别、指纹识别、虹膜识别等）提供了更高的安全性与便利性。然而，单一的生物识别方式在某些场景下可能存在安全隐患。例如，人脸识别可能被高清照片或视频欺骗（称为“欺骗攻击”），在光照、姿态变化剧烈时识别率也可能下降。为了
SurveyForge：AI自动撰写综述论文的革命性工具，助力科研效率跃升花生糖@ AIGC学习资料库人工智能 AI论文 AI助手
在学术研究领域，综述论文（SurveyPaper）的撰写是一项耗时且复杂的任务，通常需要数周甚至数月的文献调研与内容整合。如今，上海人工智能实验室、复旦大学与上海交通大学联合开源的SurveyForge，通过创新的AI技术，将这一过程压缩至10分钟内，且生成质量接近人工水平，成为科研人员的得力助手。项目简介SurveyForge是一款基于大语言模型（LLM）的自动综述论文生成工具，专为计算机科学领
供应链风险管理：AI预测潜在风险 AI智能应用 AI大模型应用入门实战与进阶 java python javascript kotlin golang 架构人工智能
供应链风险管理,AI预测,机器学习,深度学习,自然语言处理,风险评估,供应链可视化1.背景介绍在当今全球化经济体系中，供应链的复杂性和脆弱性日益凸显。供应链风险是指任何可能对供应链正常运行造成负面影响的事件或因素。这些风险可能来自自然灾害、政治动荡、经济波动、技术故障、供应商违约等方面。一旦供应链风险爆发，可能会导致生产中断、产品短缺、成本飙升、品牌形象受损等严重后果。传统供应链风险管理方法主要依
Vue2 原生实现右键菜单组件 - menujs
Vue2原生实现右键菜单组件-menujsmenujsVue2原生实现右键菜单组件,零依赖项目地址:https://gitcode.com/gh_mirrors/me/menujs项目基础介绍和主要的编程语言menujs是一个基于Vue2的原生右键菜单组件，主要使用JavaScript和Vue框架进行开发。该项目旨在为Vue2开发者提供一个轻量级、零依赖的右键菜单解决方案，使得开发者能够轻松地在项
供应链风险管理：AI如何预测供应链风险 AI大模型应用之禅 java python javascript kotlin golang 架构人工智能
供应链风险管理,AI预测,机器学习,深度学习,自然语言处理,时间序列分析,风险评估1.背景介绍在当今全球化经济体系中，供应链风险已成为企业面临的重大挑战。供应链的复杂性和不可预测性使得企业更容易受到各种风险的影响，例如自然灾害、政治动荡、经济波动、疫情爆发等。这些风险可能导致供应中断、成本增加、交付延迟，甚至损害企业声誉。传统供应链风险管理方法主要依赖于经验和专家判断，缺乏数据驱动和预测能力。随着
【极光优化算法+分解对比】VMD-PLO-Transformer-LSTM多变量时间序列光伏功率预测Matlab代码 matlab科研助手算法 transformer lstm
✅作者简介：热爱数据处理、建模、算法设计的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击：Matlab科研工作室个人信条：格物致知。内容介绍光伏发电作为一种清洁能源，其功率预测对于电网稳定运行和电力系统调度至关重要。然而，光伏功率具有高度的非线性和波动性，传统的预测方法难以准确捕捉其动态特性。近年来，深度学习技术在时间序列预测领域取得了显著进展，为提高光伏功率预测精度提供了新的途径
2024大模型秋招LLM相关面试题整理 AGI大模型资料分享官人工智能深度学习机器学习自然语言处理语言模型 easyui
0一些基础术语大模型：一般指1亿以上参数的模型，但是这个标准一直在升级，目前万亿参数以上的模型也有了。大语言模型（LargeLanguageModel，LLM）是针对语言的大模型。175B、60B、540B等：这些一般指参数的个数，B是Billion/十亿的意思，175B是1750亿参数，这是ChatGPT大约的参数规模。强化学习：（ReinforcementLearning）一种机器学习的方法，
【python实用小脚本-127】基于 Python 的 Google 图片爬取工具：实现高效图片数据收集 Kyln.Wu Python python 开发语言
引言在数据科学、机器学习和多媒体应用中，图片数据的收集是一个常见且重要的任务。Google图片是一个丰富的图片资源库，能够为各种项目提供大量的图片数据。本文将介绍一个基于Python的Google图片爬取工具，它能够自动化地从Google图片搜索结果中下载图片。该工具主要利用了Python的selenium、BeautifulSoup、urllib和argparse库，结合了网页自动化和数据解析技
【python深度学习】DAY 51 复习日抽风的雨610 【打卡】Python训练营 python 深度学习开发语言
作业：day43的时候我们安排大家对自己找的数据集用简单cnn训练，现在可以尝试下借助这几天的知识来实现精度的进一步提高1.读取数据使用CIFAR-10图像数据importtorchfromtorchvisionimportdatasets,transforms#数据预处理transform=transforms.Compose([transforms.ToTensor(),transforms.
使用Python爬虫与自然语言处理技术抓取并分析网页内容 Python爬虫项目 python 爬虫自然语言处理 javascript 数据分析人工智能
1.引言在如今数据驱动的时代，网页爬虫（WebScraping）和自然语言处理（NLP）已成为处理大量网页数据的重要工具。利用Python爬虫抓取网页内容，结合NLP技术进行文本分析和信息抽取，能够从大量网页中提取有价值的信息。无论是新闻文章的情感分析、社交媒体的舆情分析，还是电商网站的商品评论挖掘，这些技术都发挥着至关重要的作用。本文将介绍如何利用Python爬虫与自然语言处理技术抓取并分析网页
用Python解锁图像处理之力：从基础到智能应用的深度探索熊猫钓鱼>_> python 图像处理开发语言
在像素构成的数字世界里，Python已成为解码图像奥秘的核心引擎。一、为何选择Python处理图像？超越工具的本质思考当人们谈论图像处理时，往往会陷入工具对比的漩涡（PythonvsMATLABvsC++）。但Python的真正价值在于其构建的完整生态闭环：科学计算基石：NumPy的ndarray结构完美对应图像的多维矩阵本质算法实现自由：从传统算子到深度学习模型的无缝衔接可视化即战力：Matpl
面向高校的人工智能通识教育课程实验设计方案武汉唯众智创人工智能人工智能通识教育课程实验人工智能通识教育人工智能通识课程人工智能通识
一、前言2018年，教育部发布《高等学校人工智能创新行动计划》，明确提出“重视人工智能与计算机、控制、数学、统计学、物理学、生物学、心理学、社会学、法学等学科专业教育的交叉融合，探索‘人工智能+X’的人才培养模式”。过去，人工智能教育多集中于研究生阶段，本科生接触机会相对有限。2019年，教育部批准35所高校增设“人工智能”本科专业，这标志着人工智能正式纳入本科教育体系。如今，人工智能课程大多是计
【Python爬虫进阶】从网页抓取到数据清洗与存储——完整实战教程 Python爬虫项目 python 爬虫开发语言 javascript 自然语言处理 selenium
1.为什么网页抓取后需要数据清洗？在实际项目中，抓取的原始数据往往是杂乱的、不完整的、格式各异的。如果不清洗，直接用来建模、分析，会导致：脏数据干扰（如乱码、重复数据）异常值影响结果（如薪资异常高）格式不统一（比如地点有中文名和英文名混杂）所以，抓取数据后，必须进行系统清洗与标准化，才能用于后续的：数据分析可视化展示机器学习建模2.项目概览：从抓取到存储的完整流程本项目流程如下：确定抓取目标（某招
（JAVA）基于TCP通信多人聊天系统 zzb1580 JAVA学习记录 java tcp/ip 开发语言后端
一、目标这个项目是一个基于TCP协议的简单多人聊天系统，包含一个服务器和多个客户端。服务器接受多个客户端的连接，每个客户端发送的消息都可以转发给其他所有在线的客户端，实现了一个基本的多人实时聊天功能。项目使用Java编程语言编写，利用ServerSocket和Socket创建管道来实现客户端与服务器之间的通信。二、各模块代码分析与解读服务端总体代码：服务端实现：1.创建一个ServerSocket
异常的核心类Throwable 无量 java 源码异常处理 exception
java异常的核心是Throwable，其他的如Error和Exception都是继承的这个类里面有个核心参数是detailMessage，记录异常信息，getMessage核心方法，获取这个参数的值，我们可以自己定义自己的异常类，去继承这个Exception就可以了，方法基本上，用父类的构造方法就OK，所以这么看异常是不是很easy package com.natsu;
mongoDB 游标（cursor）实现分页迭代开窍的石头 mongodb
上篇中我们讲了mongoDB 中的查询函数，现在我们讲mongo中如何做分页查询如何声明一个游标 var mycursor = db.user.find({_id:{$lte:5}}); 迭代显示游标数
MySQL数据库INNODB 表损坏修复处理过程 0624chenhong tomcat mysql
最近mysql数据库经常死掉，用命令net stop mysql命令也无法停掉，关闭Tomcat的时候，出现Waiting for N instance(s) to be deallocated 信息。查了下，大概就是程序没有对数据库连接释放，导致Connection泄露了。因为用的是开元集成的平台，内部程序也不可能一下子给改掉的，就验证一下咯。启动Tomcat,用户登录系统，用netstat -
剖析如何与设计人员沟通不懂事的小屁孩工作
最近做图烦死了，不停的改图，改图……。烦，倒不是因为改，而是反反复复的改，人都会死。很多需求人员不知该如何与设计人员沟通，不明白如何使设计人员知道他所要的效果，结果只能是沟通变成了扯淡，改图变成了应付。那应该如何与设计人员沟通呢？我认为设计人员与需求人员先天就存在语言障碍。对一个合格的设计人员来说，整天玩的都是点、线、面、配色，哪种构图看起来协调；哪种配色看起来合理心里跟明镜似的，
qq空间刷评论工具换个号韩国红果果 JavaScript
var a=document.getElementsByClassName('textinput'); var b=[]; for(var m=0;m<a.length;m++){ if(a[m].getAttribute('placeholder')!=null) b.push(a[m]) } var l
S2SH整合之session 灵静志远 spring AOP struts session
错误信息： Caused by: org.springframework.beans.factory.BeanCreationException: Error creating bean with name 'cartService': Scope 'session' is not active for the current thread; consider defining a scoped
xmp标签 a-john 标签
今天在处理数据的显示上遇到一个问题： var html = '<li><div class="pl-nr"><span class="user-name">' + user + '</span>' + text + '</div></li>'; ulComme
Ajax的常用技巧（2）---实现Web页面中的级联菜单 aijuans Ajax
在网络上显示数据，往往只显示数据中的一部分信息，如文章标题，产品名称等。如果浏览器要查看所有信息，只需点击相关链接即可。在web技术中，可以采用级联菜单完成上述操作。根据用户的选择，动态展开，并显示出对应选项子菜单的内容。在传统的web实现方式中，一般是在页面初始化时动态获取到服务端数据库中对应的所有子菜单中的信息，放置到页面中对应的位置，然后再结合CSS层叠样式表动态控制对应子菜单的显示或者隐
天-安-门，好高 atongyeye 情感
我是85后，北漂一族，之前房租1100，因为租房合同到期，再续，房租就要涨150。最近网上新闻，地铁也要涨价。算了一下，涨价之后，每次坐地铁由原来2块变成6块。仅坐地铁费用，一个月就要涨200。内心苦痛。晚上躺在床上一个人想了很久，很久。我生在农
android 动画百合不是茶 android 透明度平移缩放旋转
android的动画有两种 tween动画和Frame动画 tween动画;,透明度,缩放,旋转,平移效果 Animation 动画 AlphaAnimation 渐变透明度 RotateAnimation 画面旋转 ScaleAnimation 渐变尺寸缩放 TranslateAnimation 位置移动 Animation
查看本机网络信息的cmd脚本 bijian1013 cmd
@echo 您的用户名是：%USERDOMAIN%\%username%>"%userprofile%\网络参数.txt" @echo 您的机器名是：%COMPUTERNAME%>>"%userprofile%\网络参数.txt" @echo ___________________>>"%userprofile%\
plsql 清除登录过的用户征客丶 plsql
tools---preferences----logon history---history 把你想要删除的删除 -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一起进步。 email ： binary_spac
【Pig一】Pig入门 bit1129 pig
Pig安装 1.下载pig wget http://mirror.bit.edu.cn/apache/pig/pig-0.14.0/pig-0.14.0.tar.gz 2. 解压配置环境变量如果Pig使用Map/Reduce模式，那么需要在环境变量中，配置HADOOP_HOME环境变量 expor
Java 线程同步几种方式 BlueSkator volatile synchronized ThredLocal ReenTranLock Concurrent
为何要使用同步？ java允许多线程并发控制，当多个线程同时操作一个可共享的资源变量时（如数据的增删改查），将会导致数据不准确，相互之间产生冲突，因此加入同步锁以避免在该线程没有完成操作之前，被其他线程的调用，从而保证了该变量的唯一性和准确性。 1.同步方法&
StringUtils判断字符串是否为空的方法（转帖） BreakingBad null StringUtils “”
转帖地址：http://www.cnblogs.com/shangxiaofei/p/4313111.html public static boolean isEmpty(String str) 　　判断某字符串是否为空，为空的标准是 str== null 或 str.length()== 0
编程之美-分层遍历二叉树 bylijinnan java 数据结构算法编程之美
import java.util.ArrayList; import java.util.LinkedList; import java.util.List; public class LevelTraverseBinaryTree { /** * 编程之美分层遍历二叉树 * 之前已经用队列实现过二叉树的层次遍历，但这次要求输出换行，因此要
jquery取值和ajax提交复习记录 chengxuyuancsdn jquery取值 ajax提交
// 取值 // alert($("input[name='username']").val()); // alert($("input[name='password']").val()); // alert($("input[name='sex']:checked").val()); // alert($("
推荐国产工作流引擎嵌入式公式语法解析器-IK Expression comsci java 应用服务器工作 Excel 嵌入式
这个开源软件包是国内的一位高手自行研制开发的，正如他所说的一样，我觉得它可以使一个工作流引擎上一个台阶。。。。。。欢迎大家使用，并提出意见和建议。。。 ----------转帖--------------------------------------------------- IK Expression是一个开源的（OpenSource），可扩展的（Extensible），基于java语言
关于系统中使用多个PropertyPlaceholderConfigurer的配置及PropertyOverrideConfigurer daizj spring
1、PropertyPlaceholderConfigurer Spring中PropertyPlaceholderConfigurer这个类，它是用来解析Java Properties属性文件值，并提供在spring配置期间替换使用属性值。接下来让我们逐渐的深入其配置。基本的使用方法是：(1) <bean id="propertyConfigurerForWZ&q
二叉树:二叉搜索树 dieslrae 二叉树
所谓二叉树,就是一个节点最多只能有两个子节点,而二叉搜索树就是一个经典并简单的二叉树.规则是一个节点的左子节点一定比自己小,右子节点一定大于等于自己(当然也可以反过来).在树基本平衡的时候插入,搜索和删除速度都很快,时间复杂度为O(logN).但是,如果插入的是有序的数据,那效率就会变成O(N),在这个时候,树其实变成了一个链表. tree代码:
C语言字符串函数大全 dcj3sjt126com c function
C语言字符串函数大全函数名: stpcpy 功能: 拷贝一个字符串到另一个用法: char *stpcpy(char *destin, char *source); 程序例: #include <stdio.h> #include <string.h> int main
友盟统计页面技巧 dcj3sjt126com 技巧
在基类调用就可以了, 基类ViewController示例代码 -(void)viewWillAppear:(BOOL)animated { [super viewWillAppear:animated]; [MobClick beginLogPageView:[NSString stringWithFormat:@"%@",self.class]];
window下在同一台机器上安装多个版本jdk，修改环境变量不生效问题处理办法 flyvszhb java jdk
window下在同一台机器上安装多个版本jdk，修改环境变量不生效问题处理办法本机已经安装了jdk1.7，而比较早期的项目需要依赖jdk1.6，于是同时在本机安装了jdk1.6和jdk1.7. 安装jdk1.6前，执行java -version得到 C:\Users\liuxiang2>java -version java version "1.7.0_21&quo
Java在创建子类对象的同时会不会创建父类对象 happyqing java 创建子类对象父类对象
1.在thingking in java 的第四版第六章中明确的说了，子类对象中封装了父类对象， 2."When you create an object of the derived class, it contains within it a subobject of the base class. This subobject is the sam
跟我学spring3 目录贴及电子书下载 jinnianshilongnian spring
一、《跟我学spring3》电子书下载地址：《跟我学spring3》（1-7 和 8-13） http://jinnianshilongnian.iteye.com/blog/pdf 跟我学spring3系列 word原版下载二、源代码下载最新依
第12章 Ajax（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BI and EIM 4.0 at a glance blueoxygen BO
http://www.sap.com/corporate-en/press.epx?PressID=14787 有机会研究下EIM家族的两个新产品~~~~ New features of the 4.0 releases of BI and EIM solutions include: Real-time in-memory computing –
Java线程中yield与join方法的区别 tomcat_oracle java
长期以来，多线程问题颇为受到面试官的青睐。虽然我个人认为我们当中很少有人能真正获得机会开发复杂的多线程应用(在过去的七年中，我得到了一个机会)，但是理解多线程对增加你的信心很有用。之前，我讨论了一个wait()和sleep()方法区别的问题，这一次，我将会讨论join()和yield()方法的区别。坦白的说，实际上我并没有用过其中任何一个方法，所以，如果你感觉有不恰当的地方，请提出讨论。 &nb
android Manifest.xml选项阿尔萨斯 Manifest
结构继承关系 public final class Manifest extends Objectjava.lang.Objectandroid.Manifest 内部类 class Manifest.permission权限 class Manifest.permission_group权限组构造函数 public Manifest () 详细 androi
Oracle实现类split函数的方 zhaoshijie oracle
关键字：Oracle实现类split函数的方项目里需要保存结构数据，批量传到后他进行保存，为了减小数据量，子集拼装的格式，使用存储过程进行保存。保存的过程中需要对数据解析。但是oracle没有Java中split类似的函数。从网上找了一个，也补全了一下。 CREATE OR REPLACE TYPE t_split_100 IS TABLE OF VARCHAR2(100); cr

《预训练周刊》第6期：GAN人脸预训练模型、通过深度生成模型进行蛋白序列设计

你可能感兴趣的:(机器学习,人工智能,深度学习,自然语言处理,编程语言)