Amusi（CVer）

新突破！华为诺亚开源首个亿级中文多模态数据集-悟空！

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

作者：Jiaxi Gu等

转载自：机器之心 | 编辑：Juniper

华为诺亚方舟实验室的研究者提出了一个大规模的中文的跨模态数据库 ——「悟空」，并在此基础上对不同的多模态预训练模型进行基准测试，有助于中文的视觉语言预训练算法开发和发展。

在大数据上预训练大规模模型，对下游任务进行微调，已经成为人工智能系统的新兴范式。BERT 和 GPT 等模型在 NLP 社区中越来越受欢迎，因为它们对广泛的下游任务甚至零样本学习任务具有很高的可迁移性，从而产生了 SOTA 性能。最近的工作，如 CLIP、ALIGN 和 FILIP 进一步将这一范式扩展到视觉语言联合预训练 (VLP) 领域，并在各种下游任务上显示出优于 SOTA 方法的结果。这一有希望的方向引起了行业和研究人员的极大关注，将其视为通向下一代 AI 模型的途径。

促成 VLP 模型成功的原因有两个。一方面，更高级的模型架构（如 ViT/BERT）和训练目标（如对比学习）通常能够提升模型泛化能力和学得表示的稳健性。另一方面，由于硬件和分布式训练框架的进步，越来越多的数据可以输入到大规模模型中，来提高模型的泛化性、可迁移性和零样本能力。在视觉或者语言任务中，先在大规模数据（例如图像分类中的 JFT-300M、T5 中的 C4 数据集）上预训练，之后再通过迁移学习或者 prompt 学习已被证明对提高下游任务性能非常有用。此外，最近的工作也已经显示了 VLP 模型在超过 1 亿个来自网络的有噪声图像 - 文本对上训练的潜力。

因此，在大规模数据上预训练的 VLP 模型的成功促使人们不断地爬取和收集更大的图文数据集。下表 1 显示了 VLP 领域中许多流行的数据集的概述。诸如 Flickr30k、SBU Captions 和 CC12M 等公开可用的视觉语言（英语）数据集的样本规模相对较小（大约 1000 万），而规模更大的是像 LAION-400M 的数据集。但是，直接使用英文数据集来训练模型会导致中文翻译任务的性能大幅下降。比如，大量特定的中文成语和俚语是英文翻译无法覆盖的，而机器翻译往往在这些方面会带来错误，进而影响任务执行。

目前，社区缺乏大规模公开可用的中文数据集，不仅导致社区发展受阻，而且每项工作都使用一个私密的大型数据集来实现，达到一个其它工作无法公平比较的惊人性能。

为了弥补这一差距，华为诺亚方舟实验室的研究者发布了一个名为「悟空」的大型中文跨模态数据集，其中包含来自网络的 1 亿个图文对。为了保证多样性和泛化性，悟空数据集是根据一个包含 20 万个高频中文单词列表收集的。本文还采用基于图像和基于文本的过滤策略来进一步完善悟空数据集，使其成为了迄今为止最大的中文视觉语言跨模态数据集。研究者分析了该数据集，并表明它涵盖了广泛的视觉和文本概念。

Wukong: 100 Million Large-scale Chinese Cross-modal Pre-training Dataset and A Foundation Framework

论文地址：https://arxiv.org/pdf/2202.06767.pdf
数据集地址：https://wukong-dataset.github.io/wukong-dataset/benchmark.html

研究者还进一步发布了一组使用不同架构（ResNet/ViT/SwinT）和不同方法（CLIP、FILIP 和 LiT）大型预训练模型。本文的主要贡献如下：

发布了具有 1 亿个图文对的大规模视觉和中文语言预训练数据集，涵盖了更全面的视觉概念；
发布了一组使用各种流行架构和方法预训练好的大规模视觉 - 语言模型，并提供针对已发布模型的全面基准测试；
发布的预训练模型在数个中文基准测试任务，例如由 17 个数据集组成的零样本图像分类任务和由 5 个数据集组成的图像文本检索任务，表现出了最优性能。

「悟空」数据集

研究者构建了一个名为悟空的新数据集，该数据集包含从网络收集的 1 亿个图文对。为了涵盖足够多样的视觉概念，悟空数据集是由包含 20 万个词条的查询列表里收集的。这个基础查询列表取自 Yan Song 等人的论文《Directional Skip-Gram: Explicitly Distinguishing Left and Right Context for Word Embeddings》，然后根据华为的海量新闻文本语料库中出现的中文单词和短语的频率进行过滤后所得。

查询列表建好后，研究者在百度图片搜索每个查询，以获取图片 URL 列表和相应的标题信息。为了保持不同查询结果间的平衡，他们每个查询最多搜索 1000 个样本。然后使用先前获得的图像 URL 下载图像，最终共收集了 1.66 亿个图文对。然后按照惯例，研究者通过下文的一系列过滤策略来构建最终的悟空数据集。下图 2 显示了悟空数据集中的一些样本。

基于图像的过滤

研究者首先根据图像的大小和长宽比对数据进行过滤。只保留长或宽超过 200 像素且长宽比不超过 3 的图像。这种方式过滤掉了太小、太高或太宽的图像，因为这些图像在预训练期间经过上采样和方形裁剪等图像增强手段后，可能变成低分辨率。

基于文本的过滤

其次，为了使选择的样本具有对应图像的高质量中文描述，研究者根据图像所附文本的语言、长度和频率对数据进行进一步过滤。具体来说，他们首先检查了语言和长度，保留了包含至少一个但少于 32 个汉字的句子。同时还会丢弃无意义的图像描述，例如「000.jpg」。之后，与太多图片配对的文字通常与图片内容无关，例如「查看源网页」（View source page）、「展开全文」（Expand text）、「摄影部落」（Photography community）。实际中，研究者将此阈值设置为 10，即丢弃掉在收集的整个语料库中出现超过 10 次的图文对。

为了保护文本中出现的个人隐私，研究者将人名替换为特殊标记「< 人名 >」，此外，他们还构建了一个中文敏感词列表，包含敏感词的图文对也被丢弃。

应用上述过滤策略后，研究者最终得到一个约 1 亿对的数据集。下表 2 显示了数据集的统计量：数据集文本中有 20,442 个唯一 token，每个描述中的平均 token 数为 22。

在下图 3 中，研究者可视化了数据集中单词（由一个或多个 token 组成）的分布。然后，他们使用中文文本分词工具 Jieba 来截取单词并构建数据集的词云。

方法架构

文本 - 图像联合对齐

与最近经过充分验证的方法类似，研究者采用了对比预训练架构，如下图 1 所示。他们使用一个带有基于 Transformer 的文本和图像编码器的双流模型。这两个编码器将文本和视觉输入 token 转换为相同维度的嵌入。在这个学习到的联合嵌入空间中，研究者使用对比损失来鼓励成对的图像和文本具有相似的嵌入，而不成对的具有不同的嵌入。

模型架构

由于视觉和文本模态的编码器是解耦的，因此可以为这两种模态探索不同的编码器架构。研究者试验了三种视觉编码器变体（即 ResNet、Vision Transformer 和 Swin Transformer）以及一个单一的类 BERT 文本编码器来训练中文 VLP 模型。

预训练目标

跨模态对比学习是一种从成对的图像 - 文本数据中训练模型的特别有效的方法，它可以通过区分成对和不成对的样本同时学习两种模态的表示。研究者遵循 FILIP（Yao 等人，2022）中的公式标记，使用去定义图像样本集合，同时代表文本数据。给定一个图像样本和一个文本样本，该模型的目标是让联合多模态空间中的配对的图像和文本表示接近，不配对的则远离。

在这项工作中，研究者探索了两种衡量图像和文本之间相似度的方法。图像和文本的学得表示分别标记为和。这里，n_1 和 n_2 是每个图片和文本中的（未填充的）词 token 的数量。

LiT-tuning

研究者受到了最近提出的一种微调范式 LiT-tuning（Locked-image Text tuning）的启发，该范式表明权重固定的图像编码器和可学习的文本编码器在 VLP 模型中效果最好。他们在对比学习设置中也采用了同样的方式，即只更新文本编码器的权重，而不更新图像编码器的权重。

具体而言，研究者采用的 LiT-tuning 方法旨在教一个中文的文本编码器从一个现有的图像编码器中读取合适的表示，该图像编码器是在英文数据集上预训练过。他们还为每个编码器添加了一个可选的可学习线性变换层，它将两种模式的表示映射到相同的维度。LiT-tuning 之所以效果很好，是因为它解耦了用于学习图像特征和视觉语言对齐的数据源和技术（Zhai 等人，2021b）。并且，图像描述器事先使用相对干净或（半）手动标记的图像进行了良好的预训练。

研究者将这一想法扩展到多语言数据源，并尝试将在英文数据源上预训练的固定了的图像编码器和可训练的中文文本编码器对齐。此外，LiT-tuning 方法显著加快了训练过程并减少了内存需求，因为它不需要为视觉编码器计算梯度。

实验结果

下表 3 描述了模型参数和视频编码器的细节。

零样本图像分类。研究者在 17 个零样本图像分类任务上评估预训练模型。零样本图像分类的结果如下表 5 所示。他们比较了使用不同视觉编码器的多个 LiT -tuning 模型，即从 CLIP 或 Swin Transformer 加载现有的视觉编码器并在训练阶段固定它们的权重。结果发现，使用 token 水平的相似度比使用全局相似度会带来更显著的改进。

图文检索任务。研究者在两个子任务，即以图搜文和以文搜图上做了评估。下表 6 和表 7 分别显示了零样本设定和可以微调的图文检索的结果。对于零样本设置，相比其它模型，Wukong_ViT 在 4 个数据集中的 3 个上取得了最好的结果，而 Wukong_ViT-500M 在更大的 MUGE 数据集上取得了最好的结果。对于微调设置，Wukong_ViT-500M 则在除 AIC-ICC 之外的所有数据集上都取得了最好的结果，其中 Wukong_ViT 效果最好。

词汇 - 图块对齐的可视化。研究者使用预训练模型 Wukong_ViT 和 Wukong_Swin 进行可视化。如图 4 所示，其中可视化来自中文的 ImageNet 的六个标签（即豆娘、救生艇、蜂鸟、平板手机、教堂和电风扇）的图像。然后应用与 FILIP（Yao 等人，2022）相同的可视化方法来对齐文本和图块 token。

从下图 4 中，研究者发现两种模型都能够预测目标物体的图像块。对于具有更多图像块的 Wukong_ViT，这种词汇 - 图块对齐比 Wukong_Swin 更加细粒度。

ICCV和CVPR 2021论文和代码下载

后台回复：CVPR2021，即可下载CVPR 2021论文和代码开源的论文合集

后台回复：ICCV2021，即可下载ICCV 2021论文和代码开源的论文合集

后台回复：Transformer综述，即可下载最新的3篇Transformer综述PDF
CVer-Transformer交流群成立
扫码添加CVer助手，可申请加入CVer-Transformer 微信交流群，方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch和TensorFlow等群。
一定要备注：研究方向+地点+学校/公司+昵称（如Transformer+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲长按加小助手微信，进交流群
CVer学术交流群（知识星球）来了！想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料，欢迎扫描下方二维码，加入CVer学术交流群，已汇集数千人！

▲扫码进群
▲点击上方卡片，关注CVer公众号

整理不易，请点赞和在看

9. 马科维茨资产组合模型+FF5+GARCH风险模型优化方案（理论+Python实战） AI量金术师金融资产组合模型进化论 python 开发语言金融人工智能机器学习算法
目录0.承前1.核心风险函数代码讲解1.1数据准备和初始化1.2单资产GARCH建模1.3模型拟合和波动率预测1.4异常处理机制1.5相关系数矩阵计算1.6构建波动率矩阵1.7计算协方差矩阵1.8确保矩阵对称性1.9确保矩阵半正定性1.10格式转换和返回1.11calculate_covariance_matrix函数汇总2.代码汇总3.反思3.1不足之处3.2提升思路4.启后0.承前本篇博文是对
【PDF合并】利用 Python 合并 PDF 文件 Encarta1993 tools pdf
依赖安装pipinstallPyPDF2在Python中，可以使用PyPDF2模块来合并多个PDF文件。fromPyPDF2importPdfFileMerger#创建一个PdfFileMerger对象merger=PdfFileMerger()#添加要合并的PDF文件pdf_files=['file1.pdf','file2.pdf','file3.pdf']forpdf_fileinpdf_f
python保存和调用模型 sphinxrascal168 大幅度
2.创建文件目录，保存模型importosfromsklearn.externalsimportjoblib#创建文件目录dirs='testModel'ifnotos.path.exists(dirs):os.makedirs(dirs)#保存模型joblib.dump(LR,dirs+'/LR.pkl')3.读取模型#读取模型LR=joblib.load(dirs+'/LR.pkl')test
语言模型与向量模型：深入解析与实例剖析 ♢.＊语言模型人工智能自然语言处理
亲爱的小伙伴们，在求知的漫漫旅途中，若你对深度学习的奥秘、Java与Python的奇妙世界，亦或是读研论文的撰写攻略有所探寻，那不妨给我一个小小的关注吧。我会精心筹备，在未来的日子里不定期地为大家呈上这些领域的知识宝藏与实用经验分享。每一个点赞，都如同春日里的一缕阳光，给予我满满的动力与温暖，让我们在学习成长的道路上相伴而行，共同进步✨。期待你的关注与点赞哟！在自然语言处理领域，语言模型和向量模型
大数据毕业设计hadoop+spark+hive豆瓣图书数据分析可视化大屏豆瓣图书爬虫图书推荐系统 qq_79856539 javaweb java 大数据 hadoop 课程设计
系统总体目标基于Spark的个性化书籍推荐系统是一种基于大数据技术的智能推荐系统，它可以根据用户的历史行为和偏好，为用户提供个性化的书籍推荐。该系统采用Spark技术，可以实现大数据的实时处理，从而提高推荐系统的准确性和可靠性。此外，该系统还可以根据用户的习惯和偏好，提供更加个性化的书籍推荐，从而满足用户的需求。系统的使用者包含普通用户和管理员两类，普通用户是系统的主要服务对象，主流人群是经常查看
Cursor AI Anjgst 人工智能
CursorAI完整指南：AI驱动的新一代编程工具目录简介主要特性安装与设置核心功能详解使用技巧价格方案常见问题简介CursorAI是一个基于VSCode的革命性AI驱动代码编辑器，它将人工智能与传统编程环境完美结合，为开发者提供更智能、更高效的编程体验。主要特性1.AI智能补全Tab智能补全：通过AI预测并补全多行代码上下文感知：理解整个项目结构和编码风格多语言支持：支持所有主流编程语言2.代码
Python 调用常见大模型 API 全解析 ♢.＊ python 开发语言语言模型 nlp
亲爱的小伙伴们，在求知的漫漫旅途中，若你对深度学习的奥秘、JAVA、PYTHON与SAP的奇妙世界，亦或是读研论文的撰写攻略有所探寻，那不妨给我一个小小的关注吧。我会精心筹备，在未来的日子里不定期地为大家呈上这些领域的知识宝藏与实用经验分享。每一个点赞，都如同春日里的一缕阳光，给予我满满的动力与温暖，让我们在学习成长的道路上相伴而行，共同进步✨。期待你的关注与点赞哟！调用通义千问接口获取APIKe
Ubuntu 手动安装 Open WebUI 完整指南老大白菜 python ubuntu linux 运维
Ubuntu手动安装OpenWebUI完整指南前提条件在安装OpenWebUI之前，请确保您的系统满足以下要求：Ubuntu22.04LTS或更高版本Python3.10+Node.js18+Git至少4GB内存足够的磁盘空间（推荐20GB以上）安装步骤1.更新系统包sudoaptupdatesudoaptupgrade-y2.安装必要的依赖#安装Python和Node.jssudoaptinst
Python中try-except-else-finally语句用于处理异常上趣工作室 python python 开发语言
在Python中，try-except-else-finally语句用于处理异常和无论是否发生异常都需要执行的代码块。下面是每个部分的用法：try：在try块中编写可能引发异常的代码。如果没有异常发生，程序将继续执行try块后面的代码；如果发生异常，程序将跳到适当的except块。except：在except块中处理特定类型的异常。可以指定一个或多个异常类型，以及相应的处理代码。如果发生指定类型的
Apache Flink流处理框架 weixin_44594317 apache flink 大数据
ApacheFlink是一个分布式流处理框架和数据处理引擎，专注于以低延迟和高吞吐量处理无界和有界的数据流。它可以同时处理流式数据和批处理数据，并且提供强大的容错机制和状态管理功能。Flink常用于实时分析、复杂事件处理（CEP）、机器学习和批量数据处理等场景。1.Flink的核心概念在理解Flink的工作原理之前，先要了解它的一些核心概念：流处理(StreamProcessing)：处理数据流中
企业数字化规划蓝图、企业数字化运营分析管理大数据平台建设方案公众号：优享智库数字化转型数据治理主数据数据仓库大数据
**企业数字化规划蓝图及运营分析管理大数据平台建设方案****一、企业数字化规划蓝图**1.**数字化目标设定**企业在规划数字化进程时，首先需要明确数字化目标。这些目标应当与企业的整体战略和发展规划相一致，包括但不限于提高运营效率、优化客户体验、创新业务模式等。同时，目标应具体、可衡量，以便于后续的实施和评估。2.**技术平台规划**技术平台是支撑企业数字化的基础。在规划阶段，需要确定所需的技术
.net如何调用python 轮胎技术Tyretek python 开发语言 pycharm ide
.NET可以通过调用Python的执行文件或者Python库来调用Python代码。一种常用的方法是在.NET中使用Process类调用Python的执行文件。这样做的好处是你可以将Python代码打包成独立的文件，不需要在.NET中引用任何Python相关的库。下面是一个示例，假设你有一个Python文件"test.py"，内容如下：defgreet(name):print("Hello,"+n
vb调用python函数_vb.net / C# 调用 python weixin_39522170 vb调用python函数
1.IronPython简介IronPython是一种在.NET及Mono上的Python实现，由微软的JimHugunin所发起，是一个开源的项目，基于微软的DLR引擎；托管于微软的开源网站CodePlex(www.codeplex.com)。2.安装IronPython安装下载下来的安装包(要先装VS)。3.创建项目添加引用：浏览到IronPython的安装目录中，添加对IronPython.
Python 爬虫实战：从喜马拉雅爬取有声书播放量，挖掘热门音频内容西攻城狮北 python 爬虫音视频实战案例
目录引言一、项目背景与需求分析1.1喜马拉雅平台的特点1.2数据爬取目标二、技术选型与工具准备2.1技术选型2.2工具准备三、爬取有声书播放量数据3.1获取音频列表3.2获取音频详情四、数据存储五、数据处理与分析5.1数据清洗5.2数据分析六、可视化展示七、总结与展望引言喜马拉雅作为国内知名的音频分享平台，拥有海量的有声书、广播剧、音乐等内容。通过爬取喜马拉雅上的有声书播放量数据，我们可以分析哪些
使用Flink进行流式图处理 AI天才研究院大数据AI人工智能 AI大模型企业级应用开发实战计算计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
使用Flink进行流式图处理1.背景介绍1.1大数据时代的到来随着互联网、物联网和移动互联网的快速发展,数据呈现出爆炸式增长。根据IDC的预测,到2025年,全球数据量将达到175ZB。传统的批处理系统已经无法满足对实时数据处理的需求。因此,流式计算应运而生,成为大数据处理的重要组成部分。1.2流式计算的概念流式计算是一种新兴的数据处理范式,它能够持续不断地处理来自各种数据源的数据流。与传统的批处
Ubuntu交叉编译 arm板子上的TVM 陈有爱 TVM ubuntu 人工智能
目录X86Ubuntu的TVM安装LLVM下载tvm配置config.cmake编译源码python安装测试是否安装成功可以在安装一些库，用于RPCTracker和auto-tuning交叉编译801arm的TVM交叉编译链下载配置config.cmake编译源码编译的时候可能会遇到错误ONNX模型转换为TVM模型创建pre.py，将onnx模型编译成tvm.so文件测试TVM模型修改demo程序
【Python入门基础】——第1篇：从入门到精通：Python简介与环境搭建详解猿享天开 python从入门到精通 python 开发语言
第1篇：Python简介与环境搭建目录什么是Python？Python的历史与特点安装Python解释器配置开发环境选择合适的集成开发环境（IDE）使用文本编辑器运行第一个Python程序常见问题及解决方法总结什么是Python？Python是一种高级、通用、解释型的编程语言，由GuidovanRossum于1991年首次发布。Python以其简洁易读的语法、广泛的应用领域和强大的社区支持，成为全
python与excel整合全教程刘同学Python学习日记 python excel 开发语言
Python与Excel的整合非常强大，尤其适合处理大数据、自动化表格操作以及进行高级数据分析。以下是一个全教程，涵盖常用的Python库及其应用：1.准备工作安装必要的库：使用以下命令安装常用库：pipinstallopenpyxlpandasxlrdxlsxwriterpywin32openpyxl:用于操作Excel的.xlsx文件（推荐）。pandas:强大的数据分析工具，支持读取和写入E
高效目录操作：如何使用 os.listdir 函数列出文件和文件夹刘同学Python学习日记学习记录 os库 python 学习
在Python中，os.listdir()是一个用于列出指定目录下所有文件和子目录名称的函数。它来自于os模块，该模块提供了与操作系统进行交互的多种功能。importos#列出当前目录下的所有文件和子目录entries=os.listdir('.')print(entries)在这个示例中：os.listdir('.')将返回当前工作目录（用.表示）的所有文件和目录的名称列表。entries变量将
【AI中数学-数理统计-综合实例-包括python实现】揭开数据的面纱：真实样本数据的探索与可视化云博士的AI课堂 AI中的数学人工智能 python 数理统计数据预处理数据探索数据可视化机器学习
第五章：数理统计-综合实例1.揭开数据的面纱：真实样本数据的探索与可视化在人工智能（AI）应用中，数据是构建算法和模型的基石，而数理统计则为我们提供了理解和处理这些数据的工具。数据探索和可视化是数理统计中至关重要的步骤，它们不仅能帮助我们理解数据的分布、关系和趋势，还能够为后续的建模工作提供依据。本节将通过五个实际案例，展示如何使用数理统计和可视化技术对真实样本数据进行探索。每个案例都包括具体的描
Python.NET 安装与使用教程卫伊祺Ralph
Python.NET安装与使用教程项目地址:https://gitcode.com/gh_mirrors/py/pythonnet本教程将指导你了解并安装Python.NET——这是一个让Python程序员能够无缝集成.NET框架的开源库。1.项目目录结构及介绍在克隆或下载pythonnet的源代码仓库后，你会看到以下基本目录结构：pythonnet/├──LICENSE#许可文件├──MANIF
AI人工智能代理工作流AI Agent WorkFlow：面向服务计算中的代理工作流管理 AI大模型应用之禅 AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AI人工智能代理工作流AIAgentWorkFlow：面向服务计算中的代理工作流管理关键词：人工智能，代理工作流，服务计算，自动执行，智能调度，协同处理，流程管理1.背景介绍1.1问题的由来随着互联网和云计算的快速发展，服务计算作为一种分布式计算模式，已经成为企业信息化建设的重要方向。在服务计算中，工作流技术被广泛应用于业务流程的建模、执行和管理。然而，传统的基于BPM（业务流程管理）的工作流管理
Spring AI 在微服务中的应用：支持分布式 AI 推理 drebander AI 编程 springAI
1.引言在现代企业中，微服务架构已成为开发复杂系统的主流方式，而AI模型推理也越来越多地被集成到业务流程中。如何在分布式微服务架构下高效地集成SpringAI，使多个服务可以协同完成AI任务，并支持分布式AI推理，是企业面临的关键挑战。本篇文章将探讨：在微服务架构中如何部署SpringAI服务；如何通过分布式AI推理提高推理性能与扩展性；典型应用场景，如电商推荐、智能客服、实时分析等。2.Spri
Apple M1 ARM MacBook 安装 Apache TVM FF-Studio arm开发 apache
一、前置准备AppleSiliconMacBook本文以AppleM1/M2为例，M3及后续版本同理。已安装HomebrewmacOS上的包管理器，可前往Homebrew官网查看安装指引。已安装Anaconda或Miniforge确保Conda是ARM版本（通过condainfo|grepplatform验证应为osx-arm64）。二、创建并激活Conda环境在终端创建环境（Python3.8为
【使用Apache Flink 实现滑动窗口流式计算】我明天再来学Web渗透后端技术总结 apache flink linq 开发语言
什么是Flink？ApacheFlink是一个用于分布式流式处理和批处理的开源实时计算引擎。它具备低延迟、高吞吐量和exactly-once语义的特点，适用于各种实时数据处理场景。Flink的核心概念作业（Job）：Flink程序的执行单元。数据流（DataStream）：表示连续的数据流，可以进行转换和计算。窗口（Window）：用于对无限数据流进行有界的数据切片处理。状态（State）：用于保
python学习专栏 zhousenshan python新赛道 python
推荐学习资料《15分钟轻松学Python》教程目录-CSDN博客每天40分玩转Django教程目录-CSDN博客Pycharm社区版搭建Django环境及Django简单项目、操控mysql数据库-CSDN博客这个开源有关于事务方面高级内容介绍：django-vue-lyadmin:django-vue-lyadmin前端采用vue3+elementplus,后端采用PythonDjangoDRF
[笔记] 如何在win上安装fbprophet库（Anaconda-Spyder） WangMH_CHN 笔记
fbprophet库是Google开发的一个用于时间序列分析的库，该库的运行需要用到C++编译，因此最开始使用python安装的时候会出现很多问题。本文总结了整个安装过程，记录在此。首先，先阐述初始配置情况：我习惯使用在Anaconda上使用Spyder来写代码，win10系统，系统基础的环境是python3.11。但是fbprophet只支持py2.7、3.5~3.8，因此需要配置一
python文件：py,ipynb, pyi, pyc, pyd, pyo都是什么文件？ m 哆哆.ღ python python 开发语言
python：py,ipynb,pyi,pyc,pyd,pyo都是什么文件？1python文件类型介绍1.1.py文件：源代码.py文件是Python最基本的源代码文件格式，用于存储纯文本形式的Python代码。它是开发者编写程序的主要场所，包含函数、类、变量定义以及执行逻辑。Python解释器直接读取并执行.py文件中的指令。例如，创建一个简单的hello.py文件，内容如下：print("He
【Python进阶】Python中的电子邮件处理：SMTP、IMAP和MIME m 哆哆.ღ python python 服务器网络
1、电子邮件概述1.1电子邮件的工作原理1.1.1邮件服务器与客户端电子邮件的运作基于客户端-服务器架构，用户通常通过邮件客户端软件（如Outlook、Thunderbird等）或者网页版邮件服务（如Gmail、YahooMail等）撰写、发送和接收邮件。邮件客户端负责与邮件服务器进行通信，邮件服务器则承担着存储、转发和管理邮件的任务。当用户编写一封电子邮件后，邮件首先被客户端软件打包并通过SMT
Python 数据分析 - 初识 Pandas 一名技术极客 #Python 进阶爬虫 python 数据分析 pandas
Python数据分析-初识Pandas简介SeriesDataFrame创建基本操作添加删除简介Pandas基于NumPy开发，它提供了快速、灵活、明确的数据结构，旨在简单、直观地处理数据。Pandas适用于处理以下类型的数据：有序和无序的时间序列数据带行列标签的矩阵数据，包括同构或异构型数据与SQL或Excel表类似的，含异构列的表格数据任意其它形式的观测、统计数据集，数据转入Pandas数据结
mongodb3.03开启认证 21jhf mongodb
下载了最新mongodb3.03版本，当使用--auth 参数命令行开启mongodb用户认证时遇到很多问题，现总结如下：（百度上搜到的基本都是老版本的，看到db.addUser的就是，请忽略） Windows下我做了一个bat文件，用来启动mongodb，命令行如下： mongod --dbpath db\data --port 27017 --directoryperdb --logp
【Spark103】Task not serializable bit1129 Serializable
Task not serializable是Spark开发过程最令人头疼的问题之一，这里记录下出现这个问题的两个实例，一个是自己遇到的，另一个是stackoverflow上看到。等有时间了再仔细探究出现Task not serialiazable的各种原因以及出现问题后如何快速定位问题的所在，至少目前阶段碰到此类问题，没有什么章法 1. package spark.exampl
你所熟知的 LRU(最近最少使用) dalan_123 java
关于LRU这个名词在很多地方或听说，或使用，接下来看下lru缓存回收的实现 1、大体的想法 a、查询出最近最晚使用的项 b、给最近的使用的项做标记通过使用链表就可以完成这两个操作，关于最近最少使用的项只需要返回链表的尾部；标记最近使用的项，只需要将该项移除并放置到头部，那么难点就出现你如何能够快速在链表定位对应的该项？这时候多
Javascript 跨域周凡杨 JavaScript jsonp 跨域 cross-domain
linux下安装apache服务器 g21121 apache
安装apache 下载windows版本apache，下载地址：http://httpd.apache.org/download.cgi 1.windows下安装apache Windows下安装apache比较简单，注意选择路径和端口即可，这里就不再赘述了。 2.linux下安装apache：下载之后上传到linux的相关目录，这里指定为/home/apach
FineReport的JS编辑框和URL地址栏语法简介老A不折腾 finereport web报表报表软件语法总结
JS编辑框： 1.FineReport的js。作为一款BS产品，browser端的JavaScript是必不可少的。 FineReport中的js是已经调用了finereport.js的。大家知道，预览报表时，报表servlet会将cpt模板转为html，在这个html的head头部中会引入FineReport的js，这个finereport.js中包含了许多内置的fun
根据STATUS信息对MySQL进行优化墙头上一根草 status
mysql 查看当前正在执行的操作，即正在执行的sql语句的方法为: show processlist 命令 mysql> show global status;可以列出MySQL服务器运行各种状态值，我个人较喜欢的用法是show status like '查询值%';一、慢查询mysql> show variab
我的spring学习笔记7-Spring的Bean配置文件给Bean定义别名 aijuans Spring 3
本文介绍如何给Spring的Bean配置文件的Bean定义别名？原始的 <bean id="business" class="onlyfun.caterpillar.device.Business"> <property name="writer"> <ref b
高性能mysql 之性能剖析 annan211 性能 mysql mysql 性能剖析剖析
1 定义性能优化 mysql服务器性能，此处定义为响应时间。在解释性能优化之前，先来消除一个误解，很多人认为，性能优化就是降低cpu的利用率或者减少对资源的使用。这是一个陷阱。资源时用来消耗并用来工作的，所以有时候消耗更多的资源能够加快查询速度，保持cpu忙绿，这是必要的。很多时候发现编译进了新版本的InnoDB之后，cpu利用率上升的很厉害，这并不
主外键和索引唯一性约束百合不是茶索引唯一性约束主外键约束联机删除
目标;第一步;创建两张表用户表和文章表第二步;发表文章 1,建表; ---用户表 BlogUsers --userID唯一的 --userName --pwd --sex create
线程的调度 bijian1013 java 多线程 thread 线程的调度 java多线程
1. Java提供一个线程调度程序来监控程序中启动后进入可运行状态的所有线程。线程调度程序按照线程的优先级决定应调度哪些线程来执行。 2. 多数线程的调度是抢占式的（即我想中断程序运行就中断，不需要和将被中断的程序协商） a)
查看日志常用命令 bijian1013 linux 命令 unix
一.日志查找方法，可以用通配符查某台主机上的所有服务器grep "关键字" /wls/applogs/custom-*/error.log 二.查看日志常用命令1.grep '关键字' error.log：在error.log中搜索'关键字'2.grep -C10 '关键字' error.log：显示关键字前后10行记录3.grep '关键字' error.l
【持久化框架MyBatis3一】MyBatis版HelloWorld bit1129 helloworld
MyBatis这个系列的文章，主要参考《Java Persistence with MyBatis 3》。样例数据本文以MySQL数据库为例，建立一个STUDENTS表，插入两条数据，然后进行单表的增删改查 CREATE TABLE STUDENTS ( stud_id int(11) NOT NULL AUTO_INCREMENT,
【Hadoop十五】Hadoop Counter bit1129 hadoop
1. 只有Map任务的Map Reduce Job File System Counters FILE: Number of bytes read=3629530 FILE: Number of bytes written=98312 FILE: Number of read operations=0 FILE: Number of lar
解决Tomcat数据连接池无法释放 ronin47 tomcat 连接池　优化
近段时间，公司的检测中心报表系统(SMC)的开发人员时不时找到我，说用户老是出现无法登录的情况。前些日子因为手头上有Jboss集群的测试工作，发现用户不能登录时，都是在Tomcat中将这个项目Reload一下就好了，不过只是治标而已，因为大概几个小时之后又会再次出现无法登录的情况。今天上午，开发人员小毛又找到我，要我协助将这个问题根治一下，拖太久用户难保不投诉。简单分析了一
java-75-二叉树两结点的最低共同父结点 bylijinnan java
import java.util.LinkedList; import java.util.List; import ljn.help.*; public class BTreeLowestParentOfTwoNodes { public static void main(String[] args) { /* * node data is stored in
行业垂直搜索引擎网页抓取项目 carlwu Lucene Nutch Heritrix Solr
公司有一个搜索引擎项目，希望各路高人有空来帮忙指导，谢谢！这是详细需求：（1）通过提供的网站地址(大概100-200个网站)，网页抓取程序能不断抓取网页和其它类型的文件（如Excel、PDF、Word、ppt及zip类型），并且程序能够根据事先提供的规则，过滤掉不相干的下载内容。（2）程序能够搜索这些抓取的内容，并能对这些抓取文件按照油田名进行分类，然后放到服务器不同的目录中。
[通讯与服务]在总带宽资源没有大幅增加之前,不适宜大幅度降低资费 comsci 资源
降低通讯服务资费，就意味着有更多的用户进入，就意味着通讯服务提供商要接待和服务更多的用户，在总体运维成本没有由于技术升级而大幅下降的情况下，这种降低资费的行为将导致每个用户的平均带宽不断下降，而享受到的服务质量也在下降，这对用户和服务商都是不利的。。。。。。。。 &nbs
Java时区转换及时间格式 Cwind java
本文介绍Java API 中 Date, Calendar, TimeZone和DateFormat的使用，以及不同时区时间相互转化的方法和原理。问题描述：向处于不同时区的服务器发请求时需要考虑时区转换的问题。譬如，服务器位于东八区（北京时间，GMT+8:00），而身处东四区的用户想要查询当天的销售记录。则需把东四区的“今天”这个时间范围转换为服务器所在时区的时间范围。
readonly,只读，不可用 dashuaifu js jsp disable readOnly readOnly
readOnly 和 readonly 不同，在做js开发时一定要注意函数大小写和jsp黄线的警告！！！我就经历过这么一件事：使用readOnly在某些浏览器或同一浏览器不同版本有的可以实现“只读”功能，有的就不行，而且函数readOnly有黄线警告！！！就这样被折磨了不短时间！！！（期间使用过disable函数，但是发现disable函数之后后台接收不到前台的的数据！！！）
LABjs、RequireJS、SeaJS 介绍 dcj3sjt126com js Web
LABjs 的核心是 LAB（Loading and Blocking）：Loading 指异步并行加载，Blocking 是指同步等待执行。LABjs 通过优雅的语法（script 和 wait）实现了这两大特性，核心价值是性能优化。LABjs 是一个文件加载器。RequireJS 和 SeaJS 则是模块加载器，倡导的是一种模块化开发理念，核心价值是让 JavaScript 的模块化开发变得更
[应用结构]入口脚本 dcj3sjt126com PHP yii2
入口脚本入口脚本是应用启动流程中的第一环，一个应用（不管是网页应用还是控制台应用）只有一个入口脚本。终端用户的请求通过入口脚本实例化应用并将将请求转发到应用。 Web 应用的入口脚本必须放在终端用户能够访问的目录下，通常命名为 index.php，也可以使用 Web 服务器能定位到的其他名称。控制台应用的入口脚本一般在应用根目录下命名为 yii（后缀为.php），该文
haoop shell命令 eksliang hadoop hadoop shell
cat chgrp chmod chown copyFromLocal copyToLocal cp du dus expunge get getmerge ls lsr mkdir movefromLocal mv put rm rmr setrep stat tail test text
MultiStateView不同的状态下显示不同的界面 gundumw100 android
只要将指定的view放在该控件里面，可以该view在不同的状态下显示不同的界面，这对ListView很有用，比如加载界面，空白界面，错误界面。而且这些见面由你指定布局，非常灵活。 PS：ListView虽然可以设置一个EmptyView，但使用起来不方便，不灵活，有点累赘。 <com.kennyc.view.MultiStateView xmlns:android=&qu
jQuery实现页面内锚点平滑跳转 ini JavaScript html jquery html5 css
平时我们做导航滚动到内容都是通过锚点来做，刷的一下就直接跳到内容了，没有一丝的滚动效果，而且 url 链接最后会有“小尾巴”，就像#keleyi，今天我就介绍一款 jquery 做的滚动的特效，既可以设置滚动速度，又可以在 url 链接上没有“小尾巴”。效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/37.htmHTML文件代码： &
kafka offset迁移 kane_xie kafka
在早前的kafka版本中（0.8.0），offset是被存储在zookeeper中的。到当前版本（0.8.2）为止，kafka同时支持offset存储在zookeeper和offset manager（broker）中。从官方的说明来看，未来offset的zookeeper存储将会被弃用。因此现有的基于kafka的项目如果今后计划保持更新的话，可以考虑在合适
android > 搭建 cordova 环境 mft8899 android
1 , 安装 node.js http://nodejs.org node -v 查看版本 2, 安装 npm 可以先从 https://github.com/isaacs/npm/tags 下载源码解压到
java封装的比较器，比较是否全相同，获取不同字段名字 qifeifei
非常实用的java比较器，贴上代码： import java.util.HashSet; import java.util.List; import java.util.Set; import net.sf.json.JSONArray; import net.sf.json.JSONObject; import net.sf.json.JsonConfig; i
记录一些函数用法 .Aky. 位运算 PHP 数据库函数 IP
高手们照旧忽略。想弄个全天朝IP段数据库，找了个今天最新更新的国内所有运营商IP段，copy到文件，用文件函数，字符串函数把玩下。分割出startIp和endIp这样格式写入.txt文件，直接用phpmyadmin导入.csv文件的形式导入。（生命在于折腾，也许你们觉得我傻X，直接下载人家弄好的导入不就可以，做自己的菜鸟，让别人去说吧）当然用到了ip2long()函数把字符串转为整型数
sublime text 3 rust wudixiaotie Sublime Text
1.sublime text 3 => install package => Rust 2.cd ~/.config/sublime-text-3/Packages 3.mkdir rust 4.git clone https://github.com/sp0/rust-style 5.cd rust-style 6.cargo build --release 7.ctrl

新突破！华为诺亚开源首个亿级中文多模态数据集-悟空！

你可能感兴趣的:(分布式,大数据,编程语言,python,计算机视觉)