大便一箩筐

尝试优化骨骼动画计算的意外收获——使用嵌入式汇编对float转int进行优化

本文为大便一箩筐的原创内容，转载请注明出处，谢谢：http://www.cnblogs.com/dbylk/p/4984530.html

最近一直在尝试优化公司引擎的代码，因为公司之前的客户端最大只支持1440x900的分辨率，现在想要提高到1920x1080，但是怕性能方面有问题，所以让我试试看能不能提高客户端在几百人同屏时的帧数和稳定性。

因为公司引擎目前是使用CPU计算骨骼动画（采用了D3DX提供的函数进行计算）在屏幕中存在大量角色时仍然对CPU造成了不小的压力。根据VTune的性能检测结果，300人同屏时，D3DXMatrixMultiply函数占用了5%的CPU时间（仅次于DrawCall的开销），因此我想能不能把骨骼动画的向量矩阵运算转移到GPU中进行计算（即把骨骼相关的运算写在着色器中），但通过打印公司模型的骨骼数量，发现有不少模型的骨骼数目超过了70，最多的有87根。因为公司的游戏是基于Dx9开发的，顶点着色器最多只支持256个常量寄存器，即使使用4x3矩阵也放不下这么多骨骼（除非让美术。。。）。

更何况我刚来公司没多久，在这方面的经验不足，也不能保证在公司的项目中使用GPU计算骨骼动画对性能的影响一定是正向的。因为刚来公司的时候，导师就让我写了一个播放模型动画的小demo作为训练，最开始我是用C++写骨骼动画，后来自己又用空余的时间写了一版用着色器计算骨骼动画的demo，结果性能对比发现C++计算骨骼动画的平均fps在500左右，而着色器计算骨骼动画的平均fps在4000左右，整整差了8倍！（不过这应该也跟我计算骨骼动画的C++代码效率写得不高有关，因为我当时为了训练没有使用D3DX的函数，用的是自己写的空间变换矩阵生成函数和矩阵向量乘法函数。不过根据一些论坛里的前辈提供的经验，即使使用SIMD技术对我写的函数进行优化，效率提升应该也在3倍以内，不至于造成如此大的差距。）为此我专门去问了一下导师，导师说他曾经也尝试过使用着色器计算骨骼动画，但是发现帧数反而更低了，所以一直没有对公司引擎的这一部分做修改，如果我有兴趣的话可以自己改一下，对比一下效率。然而这话说完没多久，导师就抛下我跳槽去鹅厂了，所以目前本人处于无人指导，自己胡乱摸索的阶段。。。小公司的悲哀T_T。。。

言归正转，因为导师不在公司了，所以我也没有办法知道他之前测试的时候着色器计算骨骼动画为什么会帧数更低的细节。虽然从理论和常识上来看，GPU应该比CPU更适合做这方面的运算，但考虑到造成游戏帧数并不单单只受限于CPU或GPU的运算性能，还会受到CPU/GPU内存同步、硬盘读写、网络状况等等各方面因素的制约，所以我也不敢贸然下定论。况且改写这方面的代码是一个大工程，不是一时半会就能改完的，如果写出来效率不如以前的话心血就白费了。。。为此我就想看看网上有没有前辈对“在CPU与GPU计算骨骼动画的性能”方面写过相关的分析与对比，搜到的结果一边倒——骨骼动画使用GPU计算性能更高。不过也有不少人提到了常量寄存器对骨骼数目的限制因素，想想公司项目模型的87根骨骼，我的心又凉了半截。不过很快，大便我搜到了下面这篇博客：

一种简单有效的3D模型的动画多线程方案

看完后，我觉得文章中提到的技术实用性很高，于是我便打算在公司的项目中尝试一下。考虑到既然是使用CPU计算骨骼动画，要想让性能达到极致，怎么能忘了之前提到的SIMD技术。然而大便我之前对SIMD只是有所耳闻，并没有亲自使用过，所以自然要再搜索一番 —3—)。。。

结果搜到了下面这个东西：

为什么使用SSE指令没有性能提升

上面这篇贴子的楼主在13楼回复了下面这段话：

TimothyField：

这个问题昨天晚上已经基本解决，因为我已经连续发了3个帖子，系统不让我继续发，所以没有及时更新。

首先要感谢polytechnic的提醒，我又仔细检查了各个部分单独花的时间，因为没有合适的工具，我是通过简单注释掉部分代码看执行时间的变化来查找疑点的。前面提到注释掉SSE代码的时候我是把相关的代码也注释掉了，现在再降低注释的粒度。

首先注意到其实性能瓶颈确实不在SSE代码部分，而是FastExp函数。这确实有点出乎意料，因为这个函数只是简单的一个查表：
inline float TFastExp::Exp(float x)
{
    int n = (int)100*x;
    return data[n];
}
由于知道x的范围，所以连参数检查都没有，这样的一个函数怎么会成为性能瓶颈呢？

我刚开始是怀疑由于n的取值变化比较大，所以data[n]的访问导致大量的cache missing，所以专门写了一段类似的程序模拟测试，数组的索引用n*31%size模拟随机访问（random函数太慢了），结果并没有发现类似的现象。

于是唯一的一个可能原因就是浮点数到整数的转换了。C编译器产生的浮点到整数的转换比较慢我是知道的，但到底多慢就没有概念了，好在验证起来比较简单，我把n设置为一个固定的整数，执行时间一下子就缩短了。

知道原因之后就比较容易解决了，现在已经把这个函数改写为：
float TFastExp::Exp(float x)
{
    int n;
    float y = 100*x;
    _asm fld y
    _asm fistp n
    return data[n];
}

用两条汇编指令，6个时钟周期搞定。（因为inline函数中不能使用嵌入式汇编，所以这个函数不再加上inline）

这个地方修改之后，程序执行时间一下降低到106秒。平均单个循环只需要150个CPU TICK左右，比较原来需要570个CPU TICK，可以猜测一个浮点数到整数的转换在C++ Builder的缺省实现中需要约400个时钟周期！！！这个猜测比较吓人，但确实是现在得到的数据暗示的结论。

再重新比较一下不使用SSE指令的C++版本算法，实测执行时间是248秒，也就是说使用SSE指令进一步循环展开后，执行时间降低到不使用SSE版本的约1/2.5。这跟原来期望差不多了。

我一看就斯巴达了，“浮点数到整数的转换”，这不跟我之前优化的那个GetMatrixKey函数有关系吗？！真是踏破铁鞋无觅处，得来全不废功夫啊，古人诚不欺我，哈哈~

下面要介绍一下GetMatrixKey这个函数（我会关注到它完全是因为VTune，否则这么一个小函数根本想不到它会成为性能杀手，占用的CPU时间仅次于D3DXMatrixMultiply排在第三）。在我第一次看见它的时候，它是长这样的：

// Author：Unknown （我想向这个函数的作者献上我的膝盖  —— by 大便一箩筐）

// （是的你没有看错，这个函数的作者最开始把Matrix这个单词拼错了  —— by 大便一箩筐）
D3DXMATRIX* XXXXX::GetMaxtrixKey(KeyMatrix* pArray, int nCount, int nFrame) {
    if (nCount == 0) {
        return NULL;
    }


 // 帧数一定是i, i+1, i+2…连续输出的
    int nStartFrame = static_cast<int>(pArray[0].Frame);
    if (nStartFrame >= nFrame) {
        return &pArray[0].Matrix;
    }

    if (nFrame >= GET_END_FROME_START(nCount, nStartFrame)) {
        return &pArray[nCount - 1].Matrix;
    }

    if (int(pArray[nFrame - nStartFrame].fFrame) != nFrame) {
        printf("\n帧数%d 起始帧%d 结束帧%d %s\n", nFrame, nStartFrame, int(pArray[nFrame-nStartFrame].fFrame), __FUNCTION__);
    }

    return &pArray[nFrame-nStartFrame].Matrix;
}

// 函数中用到的GET_END_FROM_START宏定义如下
#define GET_END_FROM_START(nCount, nStart) ((nCount)+(nStart)-1)

// 函数参数中用到的KeyMatrix参数定义如下
class KeyMatrix {
public:
    float fFrame;
    D3DXMATRIX Matrix;
}

首先我要吐槽一下KeyMatrix这个类：

我不知道为什么表示变换的矩阵要和它对应的帧数一起存在这样一个类里（根据搜索结果fFrame除了这个函数根本没有其他地方用到）
而且为什么要把帧数fFrame定义成浮点类型（根据这个函数原来有的注释：“帧数一定是i, i+1, i+2…连续输出的”，可以知道fFrame是整数，所以这里用到的时候要把它转成int）

因为KeyMatrix类被用在了动画类里，它所涉及的数据都被存在了游戏模型的动画文件里，所以贸然修改它不是一个明智的决定。

“GetMatrixKey这个函数的作用是根据输入的帧数nFrame返回pArray数组中对应的KeyMatrix中的矩阵。”

上面这个结论是我盯着这个函数看了几分钟以后才突然恍然大悟得出的，因为这个函数中使用了一个如此高大上的宏定义“GET_END_FROM_START”，让我一开始看见它时，认为这个函数一定完成了什么了不起的算法。结果我把宏定义套进函数，再仔细看了一看，才发现原来这个函数的主要作用就是做数组范围检查，判断nFrame有木有越界！一个检查数组越界的函数写得如此之屌（各种重复计算，在频繁调用的函数里执行不必要的打印，使用没有意义的宏定义），简直不能忍。。。

随后，我把这个函数简单地修改了一下：

// Author : 大便一箩筐

inline D3DXMATRIX* XXXXX::GetMatrixKey(KeyMatrix* pArray, int nCount, int nFrame) {
    if (!nCount) {
        return NULL;
    }

    int nStartFrame = static_cast<int>(pArray[0].fFrame);
    int nIndex = nFrame - nStartFrame;
    
    if (nIndex < 0) {
        nIndex = 0;
    }

    if (nIndex >= nCount) {
        nIndex = nCount - 1;
    }

    return &pArray[nIndex].Matrix;
}

修改以后，我又用VTune测了一下性能，发现此函数的CPU时间降到了修改前的40%，虽然优化效果比较明显，但依然占用了不少的CPU时间。“这么一个简单的函数也要占用这么多CPU时间，也许是调用的次数太多了吧”，当时我是这么想的。

现在看了CSDN这篇贴子，原来这个函数的性能消耗主要是在不起眼的基本数据类型的转换上，着实给我上了一课。

说干就干，我马上打开了VS2013，用之前自己写的性能测试工具测了一下float到int直接转换与CSDN贴子中楼主TimothyField提供的方法的开销，结果却让我大跌眼镜——VS2013的Debug模式下编译出来的程序，在执行50,000,000次转换时，float到int直接转换消耗的时间比TimothyField提供的方法消耗时间少0.8s，也就是说直接转换的效率更高。这让我感到非常奇怪，但大便我马上注意到了TimothyField在贴子中提到他使用到编译器是C++ Builder，“也许是VS的编译器在转换中做了优化，使它比TimothyField提供的汇编更高效？”。为了确认这一点，我打开了VS调试模式中的反汇编窗口，想看看这两种转换的汇编代码有什么不同，结果发现了下面这个指令：

cvttss2si   eax,xmm0

马上打开网页搜索了一番，发现原来这个指令也是SSE指令集中的指令，它的作用是提供更高效的float到int的截断型转换。想必是C++ Builder并没有在默认转换中使用这个指令，才使得他的默认转换比fld和fistp指令更低效。

然而公司项目使用的还是VS2008编译器，会不会也没有默认使用cvttss2si指令呢？实践出真知，我马上按下了F5，打开反编译窗口查看了相应的汇编指令，发现VS2008果然没有使用cvttss2si指令，而是调用了一个float转int的函数（当时忘记给相应的汇编指令截图了，名字忘记了）。

我迫不及待地想要把公司项目中的float到int型的转换全部替换为cvttss2si指令了，不过还是再单独测试一下这个指令的效率比较好，于是我参考了VS2013直接转换的反汇编，又写了一个函数做测试：

// Author : 大便一箩筐

inline void SseAsmCast() {
    for (int i = 0; i < nCalculation; ++i) {
        float fTemp = fDenominator * fNumber;
        int iTemp;

        _asm cvttss2si eax, fTemp
        _asm mov       iTemp,eax
        
        fNumber = fTable[iTemp];
    }
}

然而测试结果却再一次让我大跌眼镜，即使使用了cvttss2si指令，消耗的时间也和使用fld + fistp指令一样，远低于VS2013默认转换的效率。为此，我考虑到可能VS2013在默认转换的过程中优化掉了临时变量iTemp与fTemp，直接使用32位寄存器（eax/ebx/ecx/edx）存储中间结果，所以才会有更高的效率，于是我又增加了几条汇编指令，避免了了iTemp与fTemp的定义：

// Author : 大便一箩筐

inline void SseAsmCast() {
    for (unsigned int i = 0; i < nCalculation; ++i) {
        _asm {
            movss        xmm0, fNumber
            mulss        xmm0, fDenominator
            cvttss2si    eax, xmm0
            mov          ebx,fTable
            movss        xmm0,dword ptr [ebx+eax*4]
            movss        fNumber,xmm0
        }
    }
}

这一次，在Debug模式下，汇编指令的效率超越了直接转换的效率，但当我使用Release模式测试时，发现VS2013的直接转换效率再次超越了上面的汇编指令。

为此，我又查看了一下Release模式下的反汇编代码，发现VS在Release模式下还做了一个优化，那就是省略了循环体中的“movss xmm0,fNumber”这条指令，直接使用上一次循环中的xmm0寄存器参与乘法运算，为了验证，我又将汇编指令的转换函数改写如下：

// Author : 大便一箩筐

inline void SseAsmCast() {
    _asm movss        xmm0, fNumber

    for (unsigned int i = 0; i < nCalculation; ++i) {
        _asm {
            mulss        xmm0, fDenominator
            cvttss2si    eax, xmm0
            mov          ebx,fTable
            movss        xmm0,dword ptr [ebx+eax*4]
            movss        fNumber,xmm0
        }
    }
}

这一次的测试结果证实了我的想法，上面的汇编指令与VS2013编译出来的直接转换效率相当，甚至还要稍微高效一点（Release模式下50,000,000次转换节省0.03s，整个函数约有10%的效率提升）。

整个验证程序的源码如下：

// Author : 大便一箩筐

#pragma comment(lib, "TestUtils.lib")

#include "../TestUtils/DB_Log.h"
#include "../TestUtils/DB_Timer.h"

#include <iostream>

using namespace std;
using namespace DaBianYLK;

#define FLOAT_TO_INT(f, i) _asm fld f _asm fistp i

float* fTable = new float[1024];
const float fDenominator = 3.3f;
float fNumber = 1.0f;
const unsigned int nCalculation = 50000000;

inline void SetupFloatTable() {
    for (unsigned i = 0; i < 1023; ++i) {
        fTable[i] = (i + 1 + 0.33f) / fDenominator;
    }

    fTable[1023] = 1.0f / fDenominator;
}

inline void DirectCast() {
    for (unsigned int i = 0; i < nCalculation; ++i) {
        int iTemp = fDenominator * fNumber;

        fNumber = fTable[iTemp];
    }
}

inline void SseAsmCast() {
    _asm movss        xmm0, fNumber

    for (unsigned int i = 0; i < nCalculation; ++i) {
        _asm {
            mulss        xmm0, fDenominator
            cvttss2si    eax, xmm0
            mov          ebx,fTable
            movss        xmm0,dword ptr [ebx+eax*4]
            movss        fNumber,xmm0
        }
    }
}

inline void NormalAsmCast() {
    for (unsigned int i = 0; i < nCalculation; ++i) {
        float fTemp = fDenominator * fNumber;
        int iTemp;

        _asm fld   fTemp
        _asm fistp iTemp

        fNumber = fTable[iTemp];
    }
}

inline void StaticCast() {
    for (unsigned int i = 0; i < nCalculation; ++i) {
        int iTemp = static_cast<int>(fDenominator * fNumber);

        fNumber = fTable[iTemp];
    }
}

int main(void) {
    SetupFloatTable();

    // 直接转换
    fNumber = 1.0f;
    BENCHMARK(DirectCast, DirectCast());
    Log("FNumber : %f", fNumber);

    // Trick
    fNumber = 1.0f;
    BENCHMARK(SseAsmCast, SseAsmCast());
    Log("FNumber : %f", fNumber);

    // Trick
    fNumber = 1.0f;
    BENCHMARK(NormalAsmCast, NormalAsmCast());
    Log("FNumber : %f", fNumber);

    // 静态转换
    fNumber = 1.0f;
    BENCHMARK(StaticCast, StaticCast());
    Log("FNumber : %f", fNumber);            // 至少要输出一次fNumber,否则编译器的优化会删除执行运算的代码

    system("pause");

    return 0;
}

其中BENCHMARK宏是我编写的性能测试工具，它的源码开放在了我个人的GitHub：

https://github.com/DaBianYLK/TestProjects

Three.js开发必备：几何体BufferGeometry顶点详解天生我材必有用_吴用 three.js threeJS
目录几何体顶点位置数据和点模型对象Points缓冲类型几何体BufferGeometry顶点模型第一步、创建一个空的几何体对象第二步、添加顶点数据第三步、3个为一组，表示一个顶点的xyz坐标第四步、设置几何体顶点属性与点材质第五步、导出点模型第六步、场景中引入添加点模型第七步、查看效果线模型Line渲染顶点数据第一步、设置线材质对象第二步、创建线模型对象第三步、场景中引入添加线模型第四步、查看效果
SmartSoftHelp NetCoreApi+MySQL/Oracle/SqlServer 部署Windows/Linux--深度优化版：SmartSoftHelp DeepCore XSuite SmartSoftHelp魔法精灵工作室优化安全科技 mysql oracle sqlserver
NetCoreAPI优势明显：SmartSofHelp菜单之Net9API智能微代码(SmartNetCoreAIDeep)NetCoreAPI与数据库组合在Linux/Windows部署的深度分析一、跨平台部署基础架构对比组合类型Linux部署方案Windows部署方案NetCoreAPI+MySQLDocker+MySQLDockerImageIIS+MySQLInstaller(MSI)Ne
图像检索评价指标：mAP@k、mAP的计算 /home/liupc 11 Python/DL/ML
mAP，meanAveragePrecision，平均检索精度.是图像检索领域最最常用的评价指标。一、mAP@k、mAP1.1mAP@k很多地方喜欢用这张图来解释，确实画的很好了，不过略有瑕疵，我稍微修改了一下。这张图是求mAP@10的结果。原图主要存在的问题就是，在前10张图片中，把所有的相似的结果都返回了。这样会给读者造成这样的困扰：没检索出来的但是又相似的图片怎么办？？改了之后，就清晰多了。
Delta视觉定位系统东城十三 vuca 数码相机计算机视觉目标跟踪算法人工智能机器学习
Delta视觉定位系统软件应用背景Delta机器人以并联构型实现“轻量、高速、高精度”三位一体，成为高速分拣、精密装配、食品包装等领域的佼佼者。然而，其卓越的物理性能要转化为实际作业中的高精度定位取放能力，视觉定位系统是不可或缺的“眼睛”和“导航员”。尤其在面对高速运动目标或随机摆放（无序）物体的复杂场景时，视觉系统是实现高效、精准作业的核心技术保障。通过机器视觉实时识别目标物体的位置与姿态，引导
如何设计一款现代化风格的博客主题程序呢？ LeleBlog - 现代化Typecho博客主题独立开发者阿乐原创深度学习人工智能算法源代码管理学习方法技术美术
文章目录LeleBlog-Typecho主题目录主题介绍✨主题特性主题架构安装教程使用指南主题设置基本设置首页设置公告设置界面元素侧边栏设置生日倒计时社交链接友情链接与信息文章编辑兼容插件❓常见问题配套主题插件更多干货1.如果我的博客对你有帮助、如果你喜欢我的博客内容，请“点赞”“✍️评论”“收藏”一键三连哦！LeleBlog-Typecho主题一款为Typecho开发的现代化、功能丰富的博客主题
AIDeepSeekLe - Typecho AI摘要生成插件独立开发者阿乐原创人工智能数据库 ai AI写作
文章目录生成文章标题的方法标题优化技巧功能特点安装方法配置说明使用方法手动生成摘要自动生成摘要摘要显示插件优势框架设计核心文件工作流程数据存储常见问题生成文章标题的方法理解文章的核心主题和关键信息，确保标题能准确概括内容。分析目标读者群体，根据受众的兴趣和需求调整标题风格。使用简洁有力的词语，避免冗长或复杂的表达，保持标题清晰易懂。考虑使用疑问句或数字列表等吸引眼球的句式，增加标题的吸引力。标题优
Java 企业级 Jakarta EE 11 发布 ejinxian Java java 开发语言 Jakarta EE 11 java EE 11
标志着企业级Java在简化开发、提升开发人员生产力和整体性能方面的进步。主要亮点包括：现代化的测试兼容性工具包(TCK)、全新JakartaData规范的引入、对现有规范的重大更新以及对最新JavaLTS版本的支持，使开发人员能够充分利用Java21中的增强功能，包括虚拟线程JakartaData在简化企业应用程序持久化逻辑方面迈出了重要一步。主要功能包括：BasicRepository：基础存储
【翻译】多标签分类评价指标metrices multi-label classification surrender2u NLP 自然语言处理
翻译日期：2020-05-15翻译来源：LohithmunakalaAug28,2020MetricsforMulti-LabelClassification原地址：https://medium.com/analytics-vidhya/metrics-for-multi-label-classification-49cc5aeba1c3删减版本正文：用于多标签分类的最常见指标如下：Precisi
告别配置地狱：用Kustomize实现多环境一键切换 Star_Sea_77 云原生与DevOps工程实践云原生
告别配置地狱：用Kustomize实现多环境一键切换摘要本文针对软件开发中多环境配置管理的痛点，详细阐述如何利用Kustomize实现不同环境配置的高效管理与一键切换。通过对比Kustomize与Helm的适用场景，为中小团队提供选型指南；揭示ConfigMap热更新失效、Secret硬编码泄露等常见问题并提供解决方案；展示如何通过Kustomize构建高效的配置管理流程，实现80%配置共享、20
舵机控制信号周期：运作关键及对性能的重要影响？
舵机控制信号的周期对于舵机的运作至关重要。它与舵机的精确度和稳定性等方面紧密相连。接下来，我们将对此进行详细探讨。认识舵机控制信号周期舵机运作的关键参数是控制信号周期，这相当于舵机运作的指挥者。通常，舵机的控制信号周期为20毫秒。打个比方，这就像舞蹈中的节奏间隔。在这20毫秒的周期里，1到2毫秒的脉冲宽度足以影响舵机的转动角度。此外，不同型号的舵机对信号周期的要求各异，只有找到合适的周期，舵机才能
排序指标
排序指标MAP（平均准确率指标）AP@K=∑k=1KP(k)∗rel(k)∑kKrel(k)AP@K=\frac{\sum_{k=1}^{K}P(k)*rel(k)}{\sum_{k}^{K}rel(k)}AP@K=∑kKrel(k)∑k=1KP(k)∗rel(k)其中，rel(k)rel(k)rel(k)表示第k个元素是否与查询元素相关，相关为1，不想管为0。P(k)表示前k个结果的准确率。MA
简易区块链的搭建（3）——交易 Hock2024 golang区块链的构建区块链 golang
背景知识1.UTXO账户模型产生背景：为了解决第一类双花问题（一笔钱花两次）原理介绍：我们先来介绍传统的金融模式，你有10元存款，想转给我3元，银行会怎么操作？很显然，他会将你的账户减3元，将我的账户加3元。这种交易模式记录的是交易结果而UTXO账户模型记录的是交易过程下面是简单的例子：还拿上述例子，你给我转账10元，那么这个机制会做出如下记录：初始状态：你的账户有10元，由一个未花费交易输出（U
GTID（Global Transaction Identifier，全局事务标识符）：MySQL 主从复制的核心机制心灵星图运维 mysql 数据库
GTID（GlobalTransactionIdentifier，全局事务标识符）是MySQL数据库在主从复制中引入的核心机制，用于唯一标识全局事务，简化复制管理和故障转移流程。其核心概念与工作机制如下：一、GTID的定义与组成基本结构GTID由两部分构成：source_id:transaction_id。source_id：即MySQL实例的唯一标识server_uuid（首次启动时生成，存储在
ETF期权交易时反向做反了，有没有什么补救策略？张文6.7 区块链
补救策略一：立即对冲风险若发现ETF期权交易方向做反，可迅速建立对冲仓位抵消风险。例如，买入认购期权误操作为卖出认购期权，可立即买入同等数量的认购期权对冲。对冲后，原有错误仓位与新对冲仓位形成中性组合，避免进一步损失。对冲需考虑合约的到期日、行权价是否匹配，否则可能无法完全抵消风险。对冲后仍需密切监控市场变化，必要时调整仓位。补救策略二：平仓止损并重建正确仓位直接平掉错误仓位，重新建立符合原计划的
区块链知识总结——POS权益证明 The_Killer. 区块链
背景：pow由于其对资源的消耗而饱受争议。由此引入pos权益证明：posVSpow优缺点：1.节能2.pos是闭环生态，pow是开源生态。pos天然防范了51%攻击解释：pow之下，attacker可以在现实世界中购买矿机，来增加算力以达到51%attack目的，而pos下attacker必须购买更多的加密货币（相当于成为股东），才有发动attack的能力，但此时对币的开发者和早起的矿工其实是受益
从决策树到随机森林：Python机器学习里的“树形家族“深度实战与原理拆解小张在编程机器学习决策树随机森林
引言在机器学习的算法森林中，有一对"树形兄弟"始终占据着C位——决策树像个逻辑清晰的"老教授"，用可视化的树状结构把复杂决策过程拆解成"是/否"的简单判断；而它的进阶版随机森林更像一支"精英军团"，通过多棵决策树的"投票表决"，在准确性与抗过拟合能力上实现了质的飞跃。无论是医疗诊断中的疾病预测，还是金融风控里的违约判别，这对组合都用强大的适应性证明着自己的"算法常青树"地位。今天，我们就从原理到实
【区块链】区块链交易（Transaction）之nonce ZFJ_张福杰区块链区块链 web3 nonce
【区块链】区块链交易（Transaction）之nonce一、什么是nonce？nonce是发送方（账户）的交易计数器，表示该账户已经发送的交易数量。以太坊使用nonce来防止双重支付（doublespending）和重放攻击（replayattacks）。从0开始，每次交易都会增加1。交易必须按nonce顺序被区块链确认，否则会被拒绝。二、为什么需要nonce？防止交易重复：交易的nonce唯一
什么是 PoS（权益证明） MonkeyKing.sun pos
PoS（ProofofStake，权益证明）是区块链中常用的一种共识算法，作为PoW（工作量证明）的替代方案，它通过“持币数量+持有时间”决定谁有权记账（打包区块），从而降低能耗、提升效率。一、什么是PoS（权益证明）？PoS是一种基于“持有代币数量”的区块链共识机制，持币越多、持币越久，获得打包新区块机会的概率越高。换句话说，不是靠算力挖矿，而是靠“你拥有多少币”来竞争记账权。二、PoS的核心原
BaiduSitemap - Typecho站点地图生成与多搜索引擎推送插件独立开发者阿乐原创 javascript 云计算自动化大数据数据分析
文章目录BaiduSitemap-Typecho站点地图生成与多搜索引擎推送插件✨功能特点插件架构核心模块文件结构安装方法方法一：手动安装方法二：Git克隆⚙️配置说明站点地图基本设置搜索引擎配置百度搜索引擎必应（Bing）搜索引擎谷歌（Google）搜索引擎使用指南站点地图访问手动操作站点地图包含内容高级功能图片索引优化推送状态监控技术实现详解站点地图生成流程搜索引擎推送机制缓存机制❓常见问题站
基于Spring Boot的网络购物商城的设计与实现代论文网课招代理 spring boot 后端 java
目录摘要：IAbstract：II第1章系统分析11.1系统概述11.2系统可行性分析11.2.1技术可行性分析11.2.2经济可行性分析11.2.3社会可行性分析11.3需求分析21.2.1业务角色分析21.2.2用例分析3第2章系统设计42.1功能模块设计42.2功能流程设计52.2.1商品加入购物车流程52.2.2用户下单流程62.3数据库设计72.3.1数据库E-R设计72.3.2数据表设
第 5 部分 - 关系与超链接 API pythondjango
目前我们API中的关系是通过使用主键来表示的。在教程的这一部分中，我们将通过使用超链接来代替主键，从而提高API的内聚性和可发现性。为我们的API根创建一个端点现在我们已经有了"snippets"和"users"的端点，但我们没有一个单一的API入口点。为了创建一个入口点，我们将使用一个普通的基于函数的视图以及我们之前介绍的@api_view装饰器。在你的snippets/views.py中添加：
第 3 部分 - 类视图 pythondjango
我们也可以使用类视图，而不是基于函数的视图来编写API视图。我们会看到，这是一种强大的模式，允许我们重用通用功能，并有助于我们保持代码的简洁性。我们将从重构views.py中的根视图为类视图开始。fromsnippets.modelsimportSnippetfromsnippets.serializersimportSnippetSerializerfromdjango.httpimportHt
第 4 部分 - 认证与权限 pythondjango
目前我们的API对于谁能编辑或删除代码片段没有任何限制。我们希望实现更高级的行为以确保：代码片段始终与创建者相关联。只有经过身份验证的用户才能创建片段。只有片段的创建者才能更新或删除它。未经过身份验证的请求应具有完全的只读访问权限。向模型中添加信息我们将在Snippet模型类中做一些更改。首先，让我们添加几个字段。其中的一个字段将用于表示创建代码片段的用户。另一个字段将用于存储代码的高亮HTML表
第 2 部分 - 请求与响应 pythondjango
从这里开始，我们将深入介绍REST框架的核心内容。首先，让我们来了解一下几个基础且重要的构建模块。请求对象REST框架引入了一个Request对象，它扩展了普通的HttpRequest，并提供了更灵活的请求解析功能。Request对象的核心功能是request.data属性，它类似于request.POST，但在处理WebAPI时更为实用。request.POST#仅处理表单数据。仅适用于'POS
git commit中author和commitor的区别
让我们用一个具体的例子来展示Git中的作者（author）和提交者（committer）之间的区别，并通过实际的Git命令来演示。假设Alice写了一些代码并创建了一个补丁文件，然后Bob使用这个补丁文件在他的Git仓库中创建了一个提交。在这个场景中，Alice是作者，而Bob是提交者。Alice创建补丁文件Alice在她的本地仓库中编写了代码并提交：echo"print('Hello,world
Definition of a Requirement workflower 软件需求软件工程需求分析敏捷流程开发语言
IEEE给出的需求定义Firstofall,whatismeantbyarequirement?HereisatypicaldefinitiondrawnfromIEEE-STD-1220-1998(IEEE1998):Requirement:astatementthatidentifiesaproductorprocessoperational,functional,ordesigncharac
Definition of a Stakeholder workflower 软件工程开发语言软件需求需求分析敏捷流程
利益相关者定义Theterm“stakeholder”hasalreadybeenusedwithoutgivingadefinition:Stakeholder:Anindividual,groupofpeople,organisationorotherentitythathasadirectorindirectinterest(orstake)inasystem.Astakeholder’si
7个国产操作系统，你都熟悉吗？ wljslmz 网络技术国产系统
在全球科技竞争加剧的背景下，操作系统作为信息产业的核心“灵魂”，其重要性不言而喻。长期以来，Windows、macOS和Android等国外操作系统主导着全球市场，但它们在某些场景下的封闭性和潜在安全风险，让中国开始加速自主操作系统的研发。尤其是2014年WindowsXP停止支持和2020年Windows7停止服务后，国内对自主操作系统的需求进一步凸显。据统计，2025年中国操作系统市场规模预计
实现make_power_of_two函数洞阳 c++面试 c++
目录代码make_power_of_two函数解析：将数值转换为大于等于它的最小2的幂一、函数功能与核心逻辑二、代码实现与逐行解析三、逐步骤原理解析四、位运算的数学原理五、不同输入的转换示例六、算法复杂度与适用场景七、与其他实现方式的对比八、注意事项总结代码该函数将任意n转换为大于等于n的最小2的幂（如n=10→16，n=16→16）size_tmake_power_of_two(size_tn)
【赵渝强老师】OceanBase数据库从零开始：Oracle模式
这里我们来介绍一下新上线的课程《OceanBase数据库从零开始：Oracle模式》，本门课程共11章，视频讲解如下：https://www.bilibili.com/video/BV1r4NCzHEka/?aid=114720556191...下面详细介绍一下每一章的主要内容：第01章-OceanBase的体系架构本章主要介绍OceanBase分布式数据库集群的体系架构，包括：OBServer节
算法单链的创建与删除换个号韩国红果果 c 算法
先创建结构体 struct student { int data; //int tag;//标记这是第几个 struct student *next; }; // addone 用于将一个数插入已从小到大排好序的链中 struct student *addone(struct student *h,int x){ if(h==NULL) //??????
《大型网站系统与Java中间件实践》第2章读后感白糖_ java中间件
断断续续花了两天时间试读了《大型网站系统与Java中间件实践》的第2章，这章总述了从一个小型单机构建的网站发展到大型网站的演化过程---整个过程会遇到很多困难，但每一个屏障都会有解决方案，最终就是依靠这些个解决方案汇聚到一起组成了一个健壮稳定高效的大型系统。看完整章内容，
zeus持久层spring事务单元测试 deng520159 java DAO spring jdbc
今天把zeus事务单元测试放出来,让大家指出他的毛病, 1.ZeusTransactionTest.java 单元测试 package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Test; import
Rss 订阅开发周凡杨 html xml 订阅 rss 规范
RSS是 Really Simple Syndication的缩写（对rss2.0而言，是这三个词的缩写，对rss1.0而言则是RDF Site Summary的缩写，1.0与2.0走的是两个体系）。 RSS
分页查询实现 g21121 分页查询
在查询列表时我们常常会用到分页，分页的好处就是减少数据交换，每次查询一定数量减少数据库压力等等。按实现形式分前台分页和服务器分页：前台分页就是一次查询出所有记录，在页面中用js进行虚拟分页，这种形式在数据量较小时优势比较明显，一次加载就不必再访问服务器了，但当数据量较大时会对页面造成压力，传输速度也会大幅下降。服务器分页就是每次请求相同数量记录，按一定规则排序，每次取一定序号直接的数据
spring jms异步消息处理 510888780 jms
spring JMS对于异步消息处理基本上只需配置下就能进行高效的处理。其核心就是消息侦听器容器，常用的类就是DefaultMessageListenerContainer。该容器可配置侦听器的并发数量，以及配合MessageListenerAdapter使用消息驱动POJO进行消息处理。且消息驱动POJO是放入TaskExecutor中进行处理，进一步提高性能，减少侦听器的阻塞。具体配置如下：
highCharts柱状图布衣凌宇 hightCharts 柱图
第一步：导入 exporting.js,grid.js,highcharts.js;第二步：写controller @Controller@RequestMapping(value="${adminPath}/statistick")public class StatistickController { private UserServi
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans spring mvc Spring 教程 spring3 教程 Spring 入门
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
TLS java简单实现 antlove java ssl keystore tls secure
1. SSLServer.java package ssl; import java.io.FileInputStream; import java.io.InputStream; import java.net.ServerSocket; import java.net.Socket; import java.security.KeyStore; import
Zip解压压缩文件百合不是茶 Zip格式解压 Zip流的使用文件解压
ZIP文件的解压缩实质上就是从输入流中读取数据。Java.util.zip包提供了类ZipInputStream来读取ZIP文件,下面的代码段创建了一个输入流来读取ZIP格式的文件; ZipInputStream in = new ZipInputStream(new FileInputStream(zipFileName)); &n
underscore.js 学习（一） bijian1013 JavaScript underscore
工作中需要用到underscore.js，发现这是一个包括了很多基本功能函数的js库，里面有很多实用的函数。而且它没有扩展 javascript的原生对象。主要涉及对Collection、Object、Array、Function的操作。学
java jvm常用命令工具——jstatd命令(Java Statistics Monitoring Daemon) bijian1013 java jvm jstatd
1.介绍 jstatd是一个基于RMI（Remove Method Invocation）的服务程序，它用于监控基于HotSpot的JVM中资源的创建及销毁，并且提供了一个远程接口允许远程的监控工具连接到本地的JVM执行命令。 jstatd是基于RMI的，所以在运行jstatd的服务
【Spring框架三】Spring常用注解之Transactional bit1129 transactional
Spring可以通过注解@Transactional来为业务逻辑层的方法(调用DAO完成持久化动作)添加事务能力，如下是@Transactional注解的定义： /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version
我(程序员)的前进方向 bitray 程序员
作为一个普通的程序员,我一直游走在java语言中,java也确实让我有了很多的体会.不过随着学习的深入,java语言的新技术产生的越来越多,从最初期的javase,我逐渐开始转变到ssh,ssi,这种主流的码农,.过了几天为了解决新问题,webservice的大旗也被我祭出来了,又过了些日子jms架构的activemq也开始必须学习了.再后来开始了一系列技术学习,osgi,restful.....
nginx lua开发经验总结 ronin47
使用nginx lua已经两三个月了，项目接开发完毕了，这几天准备上线并且跟高德地图对接。回顾下来lua在项目中占得必中还是比较大的，跟PHP的占比差不多持平了，因此在开发中遇到一些问题备忘一下 1：content_by_lua中代码容量有限制，一般不要写太多代码，正常编写代码一般在100行左右（具体容量没有细心测哈哈，在4kb左右），如果超出了则重启nginx的时候会报 too long pa
java-66-用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。颠倒之后的栈为{5,4,3,2,1}，5处在栈顶 bylijinnan java
import java.util.Stack; public class ReverseStackRecursive { /** * Q 66.颠倒栈。 * 题目：用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。 * 颠倒之后的栈为{5,4,3,2,1}，5处在栈顶。 *1. Pop the top element *2. Revers
正确理解Linux内存占用过高的问题 cfyme linux
Linux开机后，使用top命令查看，4G物理内存发现已使用的多大3.2G，占用率高达80%以上： Mem: 3889836k total, 3341868k used, 547968k free, 286044k buffers Swap: 6127608k total,&nb
[JWFD开源工作流]当前流程引擎设计的一个急需解决的问题 comsci 工作流
当我们的流程引擎进入IRC阶段的时候，当循环反馈模型出现之后，每次循环都会导致一大堆节点内存数据残留在系统内存中，循环的次数越多，这些残留数据将导致系统内存溢出，并使得引擎崩溃。。。。。。而解决办法就是利用汇编语言或者其它系统编程语言，在引擎运行时，把这些残留数据清除掉。
自定义类的equals函数 dai_lm equals
仅作笔记使用 public class VectorQueue { private final Vector<VectorItem> queue; private class VectorItem { private final Object item; private final int quantity; public VectorI
Linux下安装R语言 datageek R语言 linux
命令如下：sudo gedit /etc/apt/sources.list1、deb http://mirrors.ustc.edu.cn/CRAN/bin/linux/ubuntu/ precise/ 2、deb http://dk.archive.ubuntu.com/ubuntu hardy universesudo apt-key adv --keyserver ke
如何修改mysql 并发数(连接数)最大值 dcj3sjt126com mysql
MySQL的连接数最大值跟MySQL没关系，主要看系统和业务逻辑了方法一：进入MYSQL安装目录打开MYSQL配置文件 my.ini 或 my.cnf查找 max_connections=100 修改为 max_connections=1000 服务里重起MYSQL即可　　方法二：MySQL的最大连接数默认是100客户端登录：mysql -uusername -ppass
单一功能原则 dcj3sjt126com 面向对象的程序设计软件设计编程原则
单一功能原则[ 编辑] SOLID 原则单一功能原则开闭原则 Liskov代换原则接口隔离原则依赖反转原则查论编在面向对象编程领域中，单一功能原则（Single responsibility principle）规定每个类都应该有
POJO、VO和JavaBean区别和联系 fanmingxing VO POJO javabean
POJO和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Plain Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比POJO复杂很多，JavaBean是一种组件技术，就好像你做了一个扳子，而这个扳子会在很多地方被
SpringSecurity3.X--LDAP：AD配置 hanqunfeng SpringSecurity
前面介绍过基于本地数据库验证的方式，参考http://hanqunfeng.iteye.com/blog/1155226，这里说一下如何修改为使用AD进行身份验证【只对用户名和密码进行验证，权限依旧存储在本地数据库中】。将配置文件中的如下部分删除：
mac mysql 修改密码 IXHONG mysql
$ sudo /usr/local/mysql/bin/mysqld_safe –user=root & //启动MySQL(也可以通过偏好设置面板来启动)$ sudo /usr/local/mysql/bin/mysqladmin -uroot password yourpassword //设置MySQL密码（注意，这是第一次MySQL密码为空的时候的设置命令，如果是修改密码，还需在-
设计模式--抽象工厂模式 kerryg 设计模式
抽象工厂模式：工厂模式有一个问题就是，类的创建依赖于工厂类，也就是说，如果想要拓展程序，必须对工厂类进行修改，这违背了闭包原则。我们采用抽象工厂模式，创建多个工厂类，这样一旦需要增加新的功能，直接增加新的工厂类就可以了，不需要修改之前的代码。总结：这个模式的好处就是，如果想增加一个功能，就需要做一个实现类，
评"高中女生军训期跳楼” nannan408
首先，先抛出我的观点，各位看官少点砖头。那就是，中国的差异化教育必须做起来。孔圣人有云：有教无类。不同类型的人，都应该有对应的教育方法。目前中国的一体化教育，不知道已经扼杀了多少创造性人才。我们出不了爱迪生，出不了爱因斯坦，很大原因，是我们的培养思路错了，我们是第一要“顺从”。如果不顺从，我们的学校，就会用各种方法，罚站，罚写作业，各种罚。军
scala如何读取和写入文件内容？ qindongliang1922 java jvm scala
直接看如下代码： package file import java.io.RandomAccessFile import java.nio.charset.Charset import scala.io.Source import scala.reflect.io.{File, Path} /** * Created by qindongliang on 2015/
C语言算法之百元买百鸡 qiufeihu c 算法
中国古代数学家张丘建在他的《算经》中提出了一个著名的“百钱买百鸡问题”，鸡翁一，值钱五，鸡母一，值钱三，鸡雏三，值钱一，百钱买百鸡，问翁，母，雏各几何？代码如下： #include <stdio.h> int main() { int cock,hen,chick; /*定义变量为基本整型*/ for(coc
Hadoop集群安全性：Hadoop中Namenode单点故障的解决方案及详细介绍AvatarNode wyz2009107220 NameNode
正如大家所知，NameNode在Hadoop系统中存在单点故障问题，这个对于标榜高可用性的Hadoop来说一直是个软肋。本文讨论一下为了解决这个问题而存在的几个solution。 1. Secondary NameNode 原理：Secondary NN会定期的从NN中读取editlog，与自己存储的Image进行合并形成新的metadata image 优点：Hadoop较早的版本都自带，

尝试优化骨骼动画计算的意外收获——使用嵌入式汇编对float转int进行优化

你可能感兴趣的:(尝试优化骨骼动画计算的意外收获——使用嵌入式汇编对float转int进行优化)