juzhen1991

英特尔oneAPI—开发生物序列聚类工具

摘要

本文介绍了基于oneAPI平台开发的生物序列聚类应用，文章结构如下。

应用背景：这里介绍聚类应用nGIA，介绍了为什么开发这个应用，以及它解决了什么问题。这部分非生信领域的同学可以跳过。

如何入门oneAPI：结合我自己的经历，介绍了一条从零开始学习oneAPI的路径。

CUDA代码移植与原生代码开发：结合开发应用的经验，介绍了从CUDA移植到oneAPI时候踩的一些坑，以及为什么推荐写原生的代码。

oneAPI的跨平台特性：用实际的应用，把oneAPI代码跑在nvidia的GPU上。展示了oneAPI的跨平台特性，介绍了开发跨平台代码的时候需要避免哪些问题。

应用背景

首先介绍一下生物序列聚类。序列聚类也就是序列去冗余工作，比较著名的应用有CD-HIT，Uclust，Linclust等。相关领域的同学应该都知道，聚类是生信领域基础且重要的工具。那些被广泛使用的聚类工具，谷歌学术上可以看到，文章的引用都是过千甚至过万的，这也显示了聚类工具的重要和普遍。

目前的聚类工具得到的都是近似结果。Holm[1]在1998年提出了一种贪婪增量的聚类方法，这是可以产生金标准的方法。但是Holm的方法计算量太大，以至于运行时间长到无法接受，因此研究者们提出了各种改进算法，通过牺牲精度的方法换取计算速度的提升。我实际测试发现，速度越快的聚类工具，聚类结果的精度越低。

nGIA是一个能够进行准确聚类，且速度足够快的聚类工具集。Holm的方法能够得到聚类金标准，受限于计算量巨大而无法实现，随着GPU的发展目前算力已经足够充足了。其他聚类工具都是基于CPU平台的，所以可用算力很少。nGIA是基因超算平台的，利用GPU加速，通过MPI支持多节点，因此可用算力比其他应用高出几个数量级。通过充分利用超算的巨大算力，nGIA可以得到精确的聚类结果，且运行速度很快。同时nGIA也有可以运行在普通电脑上的单节点版本，利用GPU进行加速，即使用普通电脑依然比其他工具运行速度更快。nGIA支持蛋白序列和基因序列数据集的聚类，支持单节点和多节点，支持cuda和oneAPI。

具体算法可以参考相关论文，具体实现可以参考代码。

[1]Holm L, Sander C. Removing near-neighbour redundancy from large protein sequence collections[J]. Bioinformatics (Oxford, England), 1998, 14(5): 423-429.

如何入门oneAPI

这部分我想结合我自己的经历，推荐给大家一条从零开始学习oneAPI的路径。最初我是听了oneAPI的线上讲座，开始对oneAPI产生兴趣。之后开始自己写代码，然后遇到问题就从零零碎碎的渠道一点一点学习。回头来看，我走了一些弯路，初始的学习也是不成体系的。现在整理了一下我走过的路，然后按照循序渐进的顺序推荐给大家，希望有帮助。

1. 首先关于oneAPI的介绍，我觉得有一篇博客写的很好，如果是想了解oneAPI的同学可以参考一下。其中的代码部分看不懂可以不用看，后面会进行系统的学习。之后可以申请一个英特尔的云账号，方便后面学习和测试。

2. 看过介绍之后想来大家都会写hello world了，但是这显然是不够的，想更多了解一些oneAPI的知识，可以做一个编程游戏。通过以上学习，应该可以写一些简单的代码了，可以在英特尔的云上测试自己的代码。

3. 初期大家最需要解决的工作很可能不是开发新代码，而是把已有的cuda代码移植到oneAPI平台。这部分工作比较简单，可以参考intel的官方文档。需要注意的是工具自动移植后的代码通常是有bug的，不过经过步骤2的学习，这些bug大家都能修复。

4. 这时候就可以关注更深入的内容，比如程序运行背后的机制，如何提升代码的性能等等。可以参考Data Parallel C++。这本书很厚，但是不用通读，遇到问题的时候当作手册进行查询就好了。

CUDA代码移植与原生代码开发

到这里相信大家都已经比较熟悉oneAPI了，就不写太细节的内容了。结合我开发nGIA的过程，聊一聊踩的一些坑。

nGIA最初的版本是用CUDA开发的，接触了oneAPI之后，就把cuda代码用工具移植到oneAPI了。工具是比较好用的，但是需要注意以下两点：

1. 移植后的代码会为每个函数生成一个队列，严重影响性能。接下来举个例子：

__global__ void kernel_sayHello() {
  printf("hello\n");
}
void sayHello1() {
  kernel_sayHello<<<1,1>>>();
  cudaDeviceSynchronize();
}
void sayHello2() {
  kernel_sayHello<<<1,1>>>();
  cudaDeviceSynchronize();
}
int main() {
  sayHello1();
  sayHello2();
}

以上是cuda的代码，核函数输出hello。两个子函数分别调用一次和函数，主函数调用两个子函数。

#include 
#include 

void kernel_sayHello(const sycl::stream &stream_ct1) {
  stream_ct1 << "hello\n";
}

void sayHello1() {
  dpct::get_default_queue().submit([&](sycl::handler &cgh) {
    sycl::stream stream_ct1(64 * 1024, 80, cgh);

    cgh.parallel_for(
        sycl::nd_range<3>(sycl::range<3>(1, 1, 1), sycl::range<3>(1, 1, 1)),
        [=](sycl::nd_item<3> item_ct1) {
          kernel_sayHello(stream_ct1);
        });
  });
  dpct::get_current_device().queues_wait_and_throw();
}

void sayHello2() {
  dpct::get_default_queue().submit([&](sycl::handler &cgh) {
    sycl::stream stream_ct1(64 * 1024, 80, cgh);

    cgh.parallel_for(
        sycl::nd_range<3>(sycl::range<3>(1, 1, 1), sycl::range<3>(1, 1, 1)),
        [=](sycl::nd_item<3> item_ct1) {
          kernel_sayHello(stream_ct1);
        });
  });
  dpct::get_current_device().queues_wait_and_throw();
}

int main() {
  sayHello1();
  sayHello2();
}

以上是移植以后的oneAPI代码。这段代码看起来没有问题，实际也可以编译运行，但是性能会很慢。因为每个子函数都重新申请了一个队列，这个操作的开销很大。可以声明一个全局的队列，然后每次执行和函数都调用这个队列。更改后的代码如下：

#include 

sycl::queue queue;  // 全局队列

void kernel_sayHello(const sycl::stream &stream_ct1) {
  stream_ct1 << "hello\n";
}

void sayHello1() {
  queue.submit([&](sycl::handler &cgh) {
    sycl::stream stream_ct1(64 * 1024, 80, cgh);
    cgh.parallel_for(sycl::nd_range<3>(sycl::range<3>(1, 1, 1),
    sycl::range<3>(1, 1, 1)), [=](sycl::nd_item<3> item_ct1) {
      kernel_sayHello(stream_ct1);
    });
  });
  queue.wait();
}

void sayHello2() {
  queue.submit([&](sycl::handler &cgh) {
    sycl::stream stream_ct1(64 * 1024, 80, cgh);
    cgh.parallel_for(sycl::nd_range<3>(sycl::range<3>(1, 1, 1),
    sycl::range<3>(1, 1, 1)), [=](sycl::nd_item<3> item_ct1) {
      kernel_sayHello(stream_ct1);
    });
  });
  queue.wait();
}

int main() {
  sycl::default_selector selector;
  queue = sycl::queue(selector);  // 生成队列
  sayHello1();
  sayHello2();
}

新代码定义了全局的队列变量，然后只初始化一次，之后每个子函数调用都是用这个队列，更改以后性能会提升很多。

2. 在oneAPI中，传入核函数的结构体只能包含基础数据结构。举个例子：

#include 
#include 

struct Data {
  int a;
  int b;
  int *c;
  // std::string name;  // 这里会导致结构体无法拷贝到设备，取消注释后编译报错
};

void kernel_add(int a, int b, int *c) {
  *c = a+b;
}

int main() {
  sycl::default_selector selector;
  sycl::queue queue = sycl::queue(selector);
  Data data;
  data.a = 1;
  data.b = 2;
  data.c = sycl::malloc_shared(1, queue);
  queue.submit([&](sycl::handler &cgh) {
    cgh.parallel_for(sycl::nd_range<3>(sycl::range<3>(1, 1, 1),
    sycl::range<3>(1, 1, 1)), [=](sycl::nd_item<3> item) {
      kernel_add(data.a, data.b, data.c);
    });
  });
  queue.wait();
  std::cout << *data.c << std::endl;
}

上面的代码在结构体中生命了一个字符串，这会导致编译报错，如果去掉就可以正常编译运行。但是cuda代码中，类似的结构体是可以给核函数传参数的，并不会报错，因此cuda代码中很可能有类似的结构。这样代码移植到oneAPI以后编译报错很难排查，需要注意。

接下来聊聊为什么我推荐大家不要移植，而是直接用oneAPI进行开发。随着对oneAPI的熟悉，加上我买了搭载intel独显的笔记本电脑，后期的nGIA都是直接用oneAPI进行开发。为了提升代码在Nvidia平台的效率，再把oneAPI代码手工翻译成cuda代码。虽然手工移植代码的工作量不大，但是依然比用cuda开发，再移植到oneAPI更麻烦，我为什么非要用oneAPI开发呢？

促使我直接用oneAPI进行开发的主要原因是oneAPI代码的逻辑更简单。大家可以看到oneAPI的代码其实是不分宿主机代码和设备代码的，都是C++代码，在代码开发的时候看起来更统一。而且如果想偷懒的话，只要能接受大概20%的性能损失，其实可以在不改动代码的前提下，直接把oneAPI的代码跑到Nvidia显卡上的，连移植都不需要。接下来就要介绍oneAPI的跨平台特性。

oneAPI的跨平台特性

oneAPI的代码是可以跨平台执行的。oneAPI的一大特性，就是可以用一套代码运行在不同平台上。相信大家都知道oneAPI的代码有通用性，可以运行在Nvidia平台上，但是对代码到底有多通用，以及代码的性等方面能都有好奇。接下来我会用nGIA做一个实验，在一个Nvidia显卡上分别运行cuda版和oneAPI版的nGIA。证明oneAPI的跨平台特性，以及对比他们的性能。

测试电脑的软硬件环境
CPU	GPU	OS
Intel G4560	Nvidia GTX950M	Ubuntu 18.04

首先按照codeplay官网的教程安装编译器，之后下载nGIA的代码。下载的代码中自带两个数据集，分别是基因序列数据与蛋白序列数据，都在data目录下，这里用基因序列作为例子。

1. 解压基因数据集current_NCBI_gg16S_unaligned，之后编译数据库生成工具makeDB，然后生成数据库。

2. 编译聚类工具的代码。由于是单机环境，因此分别编译cuda与OneAPI文件夹下的SignalNode版本的工具。这两个工具的算法是完全一致的，所采用的编程技巧也完全相同，只是实现在不同的平台上，因此可以作为最直接的对比。

3. 分别用两个工具进行聚类，用同样的数据库作为输入，并且设置同样的运行参数。

得到的结果如下：

上图中第一张是cuda版工具的运行结果，第二张是oneAPI版工具的运行结果。可以看到cuda版工具耗时17秒左右，oneAPI耗时46秒左右。看起来性能差距很大，关于这一点后面会进行详细的讨论。

目前先不考虑性能，首先验证一下程序的正确性。对两个工具生成的结果进行一下md5校验，结果如下：

上图中，第一张是cuda版的结果，第二张是oneAPI版的结果，可以看到校验值完全一致，也就是oneAPI代码跨平台的功能是没问题的。做实验的时候，这里是超出我预期的，因为oneAPI的代码一个字母都没改，也就是说，运行在Nvidia显卡上的代码，完全就是运行在Intel显卡上的代码。我以为多少会出现一些兼容问题，但实际证明oneAPI的跨平台特性非常靠谱！

接下来详细分析应用的性能问题。我在代码中添加了对聚类应用中的主要函数的分别计时间，以找到oneAPI版本代码的性能问题根源。结果如下：

上图中，第一张是cuda版的结果，第二张是oneAPI版的结果。聚类中主要的函数只有四个，分别是准备工作，前置过滤，短词过滤，比对工作。可以看到cuda版的短词过滤部分耗时4秒左右，而oneAPI版耗时超过了31秒，其他函数则差距不大，因此定位到问题出在短词过滤函数。

这里需要对短词过滤函数进行分析，找到瓶颈原因。由于代码是我自己写的，因此可以直接给出结论，原因是短词过滤函数中声明了使用共享内存。我个人推测，由于不同硬件的共享内存大小不同，为了保证代码能正确运行，在编译的时候自动将共享内存替换为了全局显存，因此造成性能大幅下降。

短词过滤的步骤是可以去掉的。聚类工具有准确模式，在准确模式下，会忽略短词比对步骤。去掉短词比对之后就可以得到oneAPI与cuda版代码的真实性能对比，结果如下图所示：

上图中，第一张是cuda的结果，第二张是oneAPI的结果。可以看到cuda版耗时16.46秒，oneAPI版耗时20.40秒。oneAPI版效率可以达到cuda版效率的80%，这是在代码一个字母都不改的前提下达到的。公开课上曾经透露过，优化后oneAPI代码运行在Nvidia显卡上，性能可以达到cuda版代码的95%，现在看应该是真的。另外据我所知，oneAPI代码到AMD的ROCm平台的适配工作也在进行，oneAPI真正实现了跨硬件平台。

总结这一部分内容。

1. oneAPI代码可以在没有任何改动的前提下，运行在包括Nvidia显卡和Intel显卡上，且功能正确，速度可以达到原生代码的80%。

2. 对于跨平台的代码，要慎用共享内存，把共享内存当作一级缓存是更合适的做法。

以上就是我开发nGIA过程中得到的一些关于oneAPI的收获，分享出来，希望对大家有帮助。

【OpenAPI】票证图像检测和矫正勇敢牛牛_ oneapi oneapi 目标检测
API简介检测一张图片中是否存在票证（发票、银行卡、证件等），如果存在则返回置信度、边界框以及提取出的票证图像。API信息接口地址：https://oneapi.coderbox.cn/openapi/api/detect/ticket-correction请求方式：POST调用类型：同步接口参数BODY参数参数名类型必填含义说明imageUrlstring是待检测的图片地址图片大需小于3M响应参
【One Api】部署 giao客大模型 API
文章目录介绍安装流程MySQL安装OneAPI安装访问前端使用超级管理员参考链接介绍Oneapi作为一个对用户请求和模型接口的中转站，能够根据用户的id和渠道id，调控用户与大模型api接口的请求。能够对用户的请求token量进行充值、监控、统计等功能。是作为大模型管理的一个开源高效工具。OneAPI是一个OpenAI接口管理&分发系统，可以通过标准的OpenAIAPI格式访问所有的大模型，开箱即
oneAPI介绍 Cindy020506 oneapi 人工智能
什么是InteloneAPI？InteloneAPI是由英特尔公司推出的跨平台编程模型和工具集合。它旨在简化异构计算环境下的软件开发，使开发人员能够在多种处理器架构上编写高性能应用程序。InteloneAPI的设计理念是提供统一的编程接口，让开发人员能够利用不同类型的处理器实现高效并行计算。InteloneAPI中有什么？InteloneAPI是基于标准的开发工具集合和库，其中最重要的组件是Dat
基于OneAPI+ChatGLM3-6B+FastGPT搭建LLM大语言模型知识库问答系统闯江湖50年 oneapi 语言模型人工智能 llama langchain gpt 自然语言处理
搭建大语言模型知识库问答系统部署OneAPI拉取镜像bash复制代码dockerpulljustsong/one-api创建挂载目录bash复制代码mkdir-p/usr/local/docker/oneapi启动容器bash复制代码dockerrun--nameone-api-d--restartalways-p3001:3000-eTZ=Asia/Shanghai-v/usr/local/do
Fastgpt本地或服务器私有化部署常见问题泰山AI AI大模型应用开发 fastgpt rag llm
一、错误排查方式遇到问题先按下面方式排查。dockerps-a查看所有容器运行状态，检查是否全部running，如有异常，尝试dockerlogs容器名查看对应日志。容器都运行正常的，dockerlogs容器名查看报错日志带有requestId的，都是OneAPI提示错误，大部分都是因为模型接口报错。无法解决时，可以找找Issue，或新提Issue，私有部署错误，务必提供详细的日志，否则很难排查。
【ChatBI】text2sql-不需要访问数据表-超轻量Python库Vanna快速上手，对接oneapi 机器玄学实践者 oneapi vanna chatbi dbgpt nl2sql
oneapi准备首先确保你有oneapi，然后申请kimi的api需要去MoonshotAI-开放平台然后添加一个apikey然后打开oneapi的渠道界面，添加kimi。然后点击测试，如果能生成响应时间，就是配置正确。然后创建令牌http://xxx:3000/token,模型名是moonshot-v1-8k然后复制token，token是sk开头的一串密码。其他平台接入也是类似操作，不懂的读者
大模型系列-fastgpt,ollama搭建本地知识库 GeekPlusA 人工智能人工智能深度学习 AIGC fastgpt 知识库
大模型系列-fastgpt,ollama搭建本地知识库1.安装fastgpt,oneapi2.安装ollama运行大模型2.1.安装ollama2.2.ollama下载模型3.安装开源的文本向量模型小技巧阿里云部署fastgptoneapi,并且在本机映射autodl的ollama端口docker运行m3e错误解决1.docker-composeup-d后oneapi不能启动2.oneapi配置大
探索LangChain-Chatchat 0.3：一体化Agent与强大RAG模型的全面入门指南爱喝白开水a langchain 人工智能 ai ai大模型大语言模型 Agent RAG
介绍LangChain-Chatchat支持RAG和Agent0.3版本跟大模型解耦,支持Xinference、Ollama、LocalAI、FastChat、OneAPI,可以非常方便的切换各个模型,本文只是介绍XinferenceXorbitsInference(Xinference)是一个开源平台，用于简化各种AI模型的运行和集成。借助Xinference，您可以使用任何开源LLM、嵌入模型
Ubuntu 24.04 Intel install netcdf parallel 朗道十戒 ubuntu
环境设置----------------------#设置编译环境--------------------------------------------------------------------------------------方法1：source/opt/intel/oneapi/setvars.sh方法2：moduleuse/opt/intel/2022.2.0/oneapi/mod
2分钟搭建FastGPT训练企业知识库AI助理（Docker部署）南七小僧网站开发服务器开发人工智能人工智能 docker 容器
我们使用宝塔面板来进行搭建，更方便快捷灵活，争取操作时间只需两分钟宝塔面板下安装Docker在【软件商店中】安装【docker管理器】【docker模块】即可通过Docker安装FastGPT通过【Docker】【添加容器】【容器编排】创建里新增docker-compose.yaml以下是模板内容仅需把CHAT_API_KEY修改成openaikey即可。如果需要使用中转或oneapi还需要修改O
Opencv(C++)学习 TBB与OPENMP的加速效果实验与ARM上的实践(三) 沉木渡香 OpenCV学习笔记 opencv c++学习 arm开发
接上文，本章尝试在RV1106上使用TBB。依然是一言难尽，此文依然只是记录实践过程。源码下载，编译TBB下载地址:https://github.com/oneapi-src/oneTBB版本使用oneTBB-2021.11.0，这个版本可以使用cmake编译。cmake配置完后，进入build目录，使用make指令，正常情况下应该一切正常，遗憾的是编译过程会报如下错误：/media/oneTBB
LeAPI - 使用 oneapi 插件自动生成前端请求代码乐小鑫 LeAPI -前端前端 oneapi
一、OpenAPI规范参考官方文档：OpenAPI规范(中文版)(apifox.cn)1.由Swagger规范重命名而来，定义了后端接口的规范2.遵循RESTfulAPI的规范，让使用API的开发人员轻松理解该API3.遵循OpenAPI规范的好处可以用文档生成工具来展示API用代码生成工具来自动生成各种编程语言的服务器端和客户端的代码用自动测试工具进行测试等等4.使用背景：已有后端接口（遵循Op
开发者实战 | 基于 C# 和 OpenVINO™ 2023.0部署 YOLOv8 全系列模型 OpenVINO 中文社区 c#openvino YOLO 开发语言人工智能
点击蓝字关注我们,让开发变得更有趣以下文章来源英特尔物联网文章作者：颜国进飞桨开发者技术专家(PPDE)，OpenVINOSharp工具包作者，中国矿业大学硕士研究生文章指导：杨雪锋英特尔边缘计算创新大使，中国矿业大学副教授1基于C#和OpenVINO™2023.0部署YOLOv8全系列模型1.1项目简介1.1.1OpenVINO™英特尔发行版OpenVINO™工具套件基于oneAPI而开发，可以
oneAPI2024编译VASP报错icc Command not found DFT计算杂谈服务器 ffmpeg centos linux python icc c++
在编译安装vasp之前需要安装C++编译器和Intel数学库(MKL)等等，在以往旧版本的Intel编译器中集成了ICC（IntelC++Compiler）并可一直作为默认的编译器去编译vasp，但在最新版的Intel编译器oneapi中已经将ICC移除，可使用的编译器为为Intel®oneAPIDPC++/C++Compiler，使用命令变更为icx。故在使用最新版的oneapi编译vasp时会
FastGPT + Xinference + OneAPI：一站式本地 LLM 私有化部署和应用开发南七小僧人工智能服务器开发人工智能与深度学习算法研究 oneapi 大模型 fastgpt openai xinference django 数据库
Excerpt随着GPTs的发布，构建私有知识库变得无比简易，这为个人创建数字化身份、第二大脑，或是企业建立知识库，都提供了全新的途径。然而，基于众所周知的原因，GPTs在中国的使用依然存在诸多困扰和障碍。因此，在当…随着GPTs的发布，构建私有知识库变得无比简易，这为个人创建数字化身份、第二大脑，或是企业建立知识库，都提供了全新的途径。然而，基于众所周知的原因，GPTs在中国的使用依然存在诸多困
visual studio和intel oneAPI安装与编写fortran程序『天堂的夢想家』 visual studio fortran oneapi visual studio oneapi
更新于2023年8月inteloneAPIToolkits简介IntelFortranCompiler与CompaqVisualFortran的区别oneAPI与ParallelStudioXE的区别安装步骤！重要告知安装visualstudio2022安装oneAPIBaseToolkit安装oneAPIHPCToolkit测试inteloneAPIToolkits简介参考因特尔官网对于inte
visual studio + intel Fortran 错误解决怜渠客 visual studio Fortran windows
版本：VS2022+intelFortran2024.0.2PackageID:w_oneAPI_2024.0.2.49896共遇到三个问题。1.rc.exenotfound2.kernel32.lib无法打开3.winres.h无法打开我安装时参考的教程：visualstudio和inteloneAPI安装与编写fortran程序_visualstudiofortran-CSDN博客出现这三个问
wsl2 + libtorch + MKL dataloading pytorch c++
报错/usr/bin/ld:/opt/intel/oneapi/mkl/2024.0/lib/libmkl_intel_thread.so:undefinedreferenceto`__kmpc_dispatch_next_4'/usr/bin/ld:/opt/intel/oneapi/mkl/2024.0/lib/libmkl_intel_thread.so:undefinedreference
ubuntu 自动安装 MKL Intel fortran 编译器 ifort 及完美平替 Eloudy oneapi fortran
首先据不完全观察，gfortran与openblas是intelfortran编译器ifotr和mkl的非常优秀的平替，openblas连函数名都跟mkl一样，加了一个下划线。1，概况https://www.intel.com/content/www/us/en/developer/tools/oneapi/base-toolkit-download.html?operatingsystem=li
oneApi实现并⾏排序算法 think-weige 排序算法 oneapi 算法
零、OneApi简介oneAPI是由英特尔推出的一个开放、统一的编程模型和工具集合，旨在简化跨不同硬件架构的并行计算。oneAPI的目标是提供一个统一的编程模型，使开发人员能够使用相同的代码在不同类型的硬件上进行并行计算，包括CPU、GPU、FPGA和其他加速器。oneAPI的核心理念是使用标准的C++编程语言和库来实现并行计算，而不需要特定于硬件的编程语言或库。通过oneAPI，开发人员可以利用
Intel oneAPI笔记（3）--jupyter官方文档（SYCL Program Structure）学习笔记亿维数组大总结性文章 C++oneAPI oneapi 笔记 jupyter c++
前言本文是对jupyterlab中oneAPI_Essentials/02_SYCL_Program_Structure文档的学习记录，包含对DeviceSelector、DataParallelKernel、HostAccessor、BufferDestruction、的介绍，最后还有一个小关于向量（Vector）加法的实例设备（Device）设备类包含用于查询设备信息的成员函数，这对于创建多个
Intel oneAPI笔记（4）--jupyter官方文档（Unified Shared Memory）学习笔记亿维数组 C++大总结性文章 oneAPI oneapi 笔记 jupyter c++学习
前言本文是对jupyterlab中oneAPI_Essentials/03_Unified_Shared_Memory文档的学习记录，主要包含对统一共享内存的讲解USM概述USM(UnifiedSharedMemory)是SYCL中基于指针的内存管理。对于使用malloc或new来分配数据的C和C++程序员来说应该很熟悉。当将现有的C/C++代码移植到SYCL时，USM简化了程序员的开发使用USM
Qt 工程添加 mkl库 W | Z | H qt visual studio 开发语言
QtCreator6.0.0BasedonQt6.2.1构建套件5.15.2MSVC201564bitINCLUDEPATH+=D:/oneAPI/mkl/2021.2.0/includeDEPENDPATH+=D:/oneAPI/mkl/2021.2.0/includeLIBS+=D:/oneAPI/mkl/2021.2.0/lib/intel64/mkl_intel_lp64.libLIBS+
在 Linux 系统的用户目录下安装 ifort 和 MKL 库并配置泡泡龙的村服务器 linux
ifort编译器的安装ifort编译器可以在intel官网上下载。打开https://software.intel.com/content/www/us/en/develop/tools/oneapi/components/fortran-compiler.html#gs.7iqrsm点击网页中下方处的Download,选择Intel®FortranCompilerClassicandIntelF
Windows环境下VS+OneAPI中Fortran的MKL库配置 outlookw visual studio oneapi
说明：此篇文章主要是个人学习的记录，所给出的结果仅供参考。1.点击VS中的项目/项目属性/Linker/input，在AdditionlaDependencies中输入mkl_lapack95_ilp64.lib（这里是根据所用的平台来选择，我这里选择64位的库）。2.点击VS中的项目/项目属性/Linker/General，在AdditionalLibraryDirectories中输入lib的
Fortran:在Linux下配置并调用mkl库（前提：安装好了oneAPI）西瓜不是呱 oneapi
最近借用了师兄的服务器，得在Linux下运行fortran。今天花了点时间找资料，配置成功了。在这里记录一下怎样在Linux下配置mkl库。首先，在装好oneAPI的情况下，oneAPI是自动包含mkl库的，无需另外下载。要是用mkl库，只需要配置环境变量即可！具体操作请看下文。配置环境变量分为两步。第一步：找到mkl库，以及mkl库中intel64的位置。具体操作如下：先进入终端，使用where
mkl库配置 naturliche 折腾日记配置 linux库
cmake卸载旧版本，并升级https://blog.csdn.net/weixin_41010198/article/details/109343347pipinstall-Ucmake==3.25.2BUILDMODE=DEBUG.build.sh安装mklhttps://www.intel.com/content/www/us/en/developer/tools/oneapi/onemkl
CUDA、HIP、OpenCL和oneAPI编程模型总结及比较张小殊. 并行编程模型-入门 c++OpenCL编程 CUDA编程 DPC++编程 HIP编程并行编程人工智能
本文着重对近年来众核处理器以及并行编程模型的发展历程、研究现状和发展趋势进行概述，其中众核处理器主要包括以下四个以及AI加速卡和国产加速卡，并行编程模型重点对CUDA、HIP、OpenCL和DPC++进行介绍。目录如下：目录目录背景众核处理器NVIDIA加速卡AMD加速卡Intel加速卡国产加速卡AI加速卡众核处理器的发展趋势GPU异构计算编程模型CUDA编程模型OpenCL编程模型HIP编程模型
Intel oneAPI笔记（2）--jupyter官方文档（oneAPI_Intro）学习笔记亿维数组 C++oneAPI oneapi 笔记 jupyter c++学习
前言本文是对jupyterlab中oneAPI_Essentials/01_oneAPI_Intro文档的学习记录，包含对SYCL、DPC++extendsSYCL、oneAPIProgrammingmodels等介绍和SYCL代码的初步演示等内容oneAPI编程模型综述oneAPI编程模型提供了一个全面而统一的开发人员工具组合，可以跨硬件目标使用，包括一系列跨越多个工作负载域的性能库，这些库包括
Windows 下编译 TensorFlow 2.9.1 CC库 Tonyfield windows tensorflow 人工智能
参考Intel的tensorflow编译指导，不过项目还是可以用TF原本的，不是一定要选择Intel的TF版本。安装MSVC2019安装IntelOneDNNOneMKL似乎也可以不安装(@&@)https://www.intel.cn/content/www/cn/zh/developer/articles/tool/oneapi-standalone-components.html#onedn
辗转相处求最大公约数沐刃青蛟 C++漏洞
无言面对”江东父老“了，接触编程一年了，今天发现还不会辗转相除法求最大公约数。惭愧惭愧！为此，总结一下以方便日后忘了好查找。 1.输入要比较的两个数a,b 忽略：2.比较大小（因为后面要的是大的数对小的数做%操作） 3.辗转相除（用循环不停的取余，如a%b,直至b=0） 4.最后的a为两数的最大公约数 &
F5负载均衡会话保持技术及原理技术白皮书 bijian1013 F5 负载均衡
一.什么是会话保持？在大多数电子商务的应用系统或者需要进行用户身份认证的在线系统中，一个客户与服务器经常经过好几次的交互过程才能完成一笔交易或者是一个请求的完成。由于这几次交互过程是密切相关的，服务器在进行这些交互过程的某一个交互步骤时，往往需要了解上一次交互过程的处理结果，或者上几步的交互过程结果，服务器进行下
Object.equals方法：重载还是覆盖 Cwind java generics override overload
本文译自StackOverflow上对此问题的讨论。原问题链接在阅读Joshua Bloch的《Effective Java（第二版）》第8条“覆盖equals时请遵守通用约定”时对如下论述有疑问： “不要将equals声明中的Object对象替换为其他的类型。程序员编写出下面这样的equals方法并不鲜见，这会使程序员花上数个小时都搞不清它为什么不能正常工作：” pu
初始线程 15700786134
暑假学习的第一课是讲线程，任务是是界面上的一条线运动起来。既然是在界面上，那必定得先有一个界面，所以第一步就是，自己的类继承JAVA中的JFrame，在新建的类中写一个界面，代码如下： public class ShapeFr
Linux的tcpdump 被触发 tcpdump
用简单的话来定义tcpdump，就是：dump the traffic on a network，根据使用者的定义对网络上的数据包进行截获的包分析工具。 tcpdump可以将网络中传送的数据包的“头”完全截获下来提供分析。它支持针对网络层、协议、主机、网络或端口的过滤，并提供and、or、not等逻辑语句来帮助你去掉无用的信息。实用命令实例默认启动 tcpdump 普通情况下，直
安卓程序listview优化后还是卡顿肆无忌惮_ ListView
最近用eclipse开发一个安卓app，listview使用baseadapter，里面有一个ImageView和两个TextView。使用了Holder内部类进行优化了还是很卡顿。后来发现是图片资源的问题。把一张分辨率高的图片放在了drawable-mdpi文件夹下，当我在每个item中显示，他都要进行缩放，导致很卡顿。解决办法是把这个高分辨率图片放到drawable-xxhdpi下。 &nb
扩展easyUI tab控件，添加加载遮罩效果知了ing jquery
(function () { $.extend($.fn.tabs.methods, { //显示遮罩 loading: function (jq, msg) { return jq.each(function () { var panel = $(this).tabs(&
gradle上传jar到nexus 矮蛋蛋 gradle
原文地址： https://docs.gradle.org/current/userguide/maven_plugin.html configurations { deployerJars } dependencies { deployerJars "org.apache.maven.wagon
千万条数据外网导入数据库的解决方案。 alleni123 sql mysql
从某网上爬了数千万的数据，存在文本中。然后要导入mysql数据库。悲剧的是数据库和我存数据的服务器不在一个内网里面。。 ping了一下， 19ms的延迟。于是下面的代码是没用的。 ps = con.prepareStatement(sql); ps.setString(1, info.getYear())............; ps.exec
JAVA IO InputStreamReader和OutputStreamReader 百合不是茶 JAVA.io操作字符流
这是第三篇关于java.io的文章了，从开始对io的不了解-->熟悉--->模糊，是这几天来对文件操作中最大的感受，本来自己认为的熟悉了的，刚刚在回想起前面学的好像又不是很清晰了，模糊对我现在或许是最好的鼓励我会更加的去学加油！： JAVA的API提供了另外一种数据保存途径，使用字符流来保存的，字符流只能保存字符形式的流字节流和字符的难点：a,怎么将读到的数据
MO、MT解读 bijian1013 GSM
MO= Mobile originate，上行，即用户上发给SP的信息。MT= Mobile Terminate，下行，即SP端下发给用户的信息；上行:mo提交短信到短信中心下行:mt短信中心向特定的用户转发短信，你的短信是这样的，你所提交的短信，投递的地址是短信中心。短信中心收到你的短信后，存储转发，转发的时候就会根据你填写的接收方号码寻找路由，下发。在彩信领域是一样的道理。下行业务：由SP
五个JavaScript基础问题 bijian1013 JavaScript call apply this Hoisting
下面是五个关于前端相关的基础问题，但却很能体现JavaScript的基本功底。问题1：Scope作用范围考虑下面的代码： (function() { var a = b = 5; })(); console.log(b); 什么会被打印在控制台上？回答：上面的代码会打印 5。 &nbs
【Thrift二】Thrift Hello World bit1129 Hello world
本篇，不考虑细节问题和为什么，先照葫芦画瓢写一个Thrift版本的Hello World，了解Thrift RPC服务开发的基本流程 1. 在Intellij中创建一个Maven模块，加入对Thrift的依赖，同时还要加上slf4j依赖，如果不加slf4j依赖，在后面启动Thrift Server时会报错 <dependency>
【Avro一】Avro入门 bit1129 入门
本文的目的主要是总结下基于Avro Schema代码生成，然后进行序列化和反序列化开发的基本流程。需要指出的是，Avro并不要求一定得根据Schema文件生成代码，这对于动态类型语言很有用。 1. 添加Maven依赖 <?xml version="1.0" encoding="UTF-8"?> <proj
安装nginx+ngx_lua支持WAF防护功能 ronin47
需要的软件:LuaJIT-2.0.0.tar.gz nginx-1.4.4.tar.gz &nb
java-5.查找最小的K个元素-使用最大堆 bylijinnan java
import java.util.Arrays; import java.util.Random; public class MinKElement { /** * 5.最小的K个元素 * I would like to use MaxHeap. * using QuickSort is also OK */ public static void
TCP的TIME-WAIT bylijinnan socket
原文连接： http://vincent.bernat.im/en/blog/2014-tcp-time-wait-state-linux.html 以下为对原文的阅读笔记说明：主动关闭的一方称为local end，被动关闭的一方称为remote end 本地IP、本地端口、远端IP、远端端口这一“四元组”称为quadruplet，也称为socket 1、TIME_WA
jquery ajax 序列化表单 coder_xpf Jquery ajax 序列化
checkbox 如果不设定值，默认选中值为on；设定值之后，选中则为设定的值 <input type="checkbox" name="favor" id="favor" checked="checked"/> $("#favor&quo
Apache集群乱码和最高并发控制 cuisuqiang apache tomcat 并发集群乱码
都知道如果使用Http访问，那么在Connector中增加URIEncoding即可，其实使用AJP时也一样，增加useBodyEncodingForURI和URIEncoding即可。最大连接数也是一样的，增加maxThreads属性即可，如下，配置如下： <Connector maxThreads="300" port="8019" prot
websocket dalan_123 websocket
一、低延迟的客户端-服务器和服务器-客户端的连接很多时候所谓的http的请求、响应的模式，都是客户端加载一个网页，直到用户在进行下一次点击的时候，什么都不会发生。并且所有的http的通信都是客户端控制的，这时候就需要用户的互动或定期轮训的，以便从服务器端加载新的数据。通常采用的技术比如推送和comet（使用http长连接、无需安装浏览器安装插件的两种方式：基于ajax的长
菜鸟分析网络执法官 dcj3sjt126com 网络
最近在论坛上看到很多贴子在讨论网络执法官的问题。菜鸟我正好知道这回事情.人道"人之患好为人师" 手里忍不住,就写点东西吧. 我也很忙.又没有MM,又没有MONEY....晕倒有点跑题. OK,闲话少说,切如正题. 要了解网络执法官的原理. 就要先了解局域网的通信的原理. 前面我们看到了.在以太网上传输的都是具有以太网头的数据包.
Android相对布局属性全集 dcj3sjt126com android
RelativeLayout布局android:layout_marginTop="25dip" //顶部距离android:gravity="left" //空间布局位置android:layout_marginLeft="15dip //距离左边距 // 相对于给定ID控件android:layout_above 将该控件的底部置于给定ID的
Tomcat内存设置详解 eksliang jvm tomcat tomcat内存设置
Java内存溢出详解一、常见的Java内存溢出有以下三种： 1. java.lang.OutOfMemoryError: Java heap space ----JVM Heap（堆）溢出JVM在启动的时候会自动设置JVM Heap的值，其初始空间(即-Xms)是物理内存的1/64，最大空间(-Xmx)不可超过物理内存。可以利用JVM提
Java6 JVM参数选项 greatwqs java HotSpot jvm jvm参数 JVM Options
Java 6 JVM参数选项大全（中文版）作者：Ken Wu Email: ken.wug@gmail.com 转载本文档请注明原文链接 http://kenwublog.com/docs/java6-jvm-options-chinese-edition.htm！本文是基于最新的SUN官方文档Java SE 6 Hotspot VM Opt
weblogic创建JMC i5land weblogic jms
进入 weblogic控制太 1.创建持久化存储 --Services--Persistant Stores--new--Create FileStores--name随便起--target默认--Directory写入在本机建立的文件夹的路径--ok 2.创建JMS服务器 --Services--Messaging--JMS Servers--new--name随便起--Pers
基于 DHT 网络的磁力链接和BT种子的搜索引擎架构 justjavac DHT
上周开发了一个磁力链接和 BT 种子的搜索引擎 {Magnet & Torrent}，本文简单介绍一下主要的系统功能和用到的技术。系统包括几个独立的部分：使用 Python 的 Scrapy 框架开发的网络爬虫，用来爬取磁力链接和种子；使用 PHP CI 框架开发的简易网站；搜索引擎目前直接使用的 MySQL，将来可以考虑使
sql添加、删除表中的列 macroli sql
添加没有默认值：alter table Test add BazaarType char(1) 有默认值的添加列：alter table Test add BazaarType char(1) default(0) 删除没有默认值的列：alter table Test drop COLUMN BazaarType 删除有默认值的列：先删除约束（默认值）alter table Test DRO
PHP中二维数组的排序方法 abc123456789cba 排序二维数组 PHP
<?php/*** @package BugFree* @version $Id: FunctionsMain.inc.php,v 1.32 2005/09/24 11:38:37 wwccss Exp $*** Sort an two-dimension array by some level
hive优化之------控制hive任务中的map数和reduce数 superlxw1234 hive hive优化
一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2.
Spring Boot 1.2.4 发布 wiselyman spring boot
Spring Boot 1.2.4已于6.4日发布，repo.spring.io and Maven Central可以下载(推荐使用maven或者gradle构建下载)。这是一个维护版本，包含了一些修复small number of fixes,建议所有的用户升级。 Spring Boot 1.3的第一个里程碑版本将在几天后发布，包含许多

英特尔oneAPI—开发生物序列聚类工具

摘要

应用背景

如何入门oneAPI

CUDA代码移植与原生代码开发

oneAPI的跨平台特性

你可能感兴趣的:(oneapi)