jieniyimiao

关于工业级GPU C-model所使用的性能模拟器(preformance simulator)

http://www.opengpu.org/forum.php?mod=viewthread&tid=2935

关于工业级GPU C-model所使用的性能模拟器(preformance simulator) [复制链接]

ic.expert

管理员

注册时间: 2007-7-11
积分: 32646

串个门
加好友
打招呼
发消息

电梯直达

1^#

发表于 2010-7-4 06:58:20 | 只看该作者 | 倒序浏览

最近考虑这个问题，主要是针对一款芯片更早的性能调整和性能分析（performance analyzing & tuning）。在传统的固定功能图形水流线（fixed function graphics pipeline）上，我们可以依照简单的带宽计算公式和经验来设计芯片，而不需要更多的测量流水线之间是否满足于性能平衡。因为在固定管线下，图形API调用程序的行为变换是很有限的，而存储器带宽和固定功能的计算公式就可以获得很好的预估精度。

但是在当前GPGPU的角度越来越近的情况下，这一情况发生了很大变化，面向通用计算（或是说流计算）后，无论是OCL还是Shader程序行为不再像固定功能图形流水线API那样的死板，变得非常灵活，从而使得可编程图形流水线（programmable graphcis pipeline）使得程序可以写出千变万化的效果。这导致传统的靠手工静态计算的性能分析变得不再可靠，我们必须更细致的更量化的考虑当前大部分程序的行为，以及未来可能出现的程序行为，从而决定如何改进GPU，如何分配片上门电路资源（resource of gate-level circuit on-chip）给不同的流水线阶段（pipeline stage）。这就使得设计一个性能模拟器在编写下一个版本的RTL之前是非常有必要的事情，对于IP供应商来说，这也有助于在制作好RTL释放包（release package）后，针对客户不同应用，给出不同的IP配置建议。

但是这里又有一个新问题，就是传统来说，我们在设计GPU C-Model的时候一般都不会加cycle信息在上面，因为传统的GPU c-model主要就是作为验证流程（verification flows）中黄金参考模型（golden reference model）来使用，验证平台（testbench）只需要针对不同的流水线阶段（或是模块）写出来不同的无周期行为级模型（或是硬件算法模型）就可以，不需要带有任何周期信息。所以，一般来说当前部分GPU设计公司都指挥维护一个不带有周期信息的GPU c-model。但是这个cmodel只能做功能仿真（functional simulation），并不不能做性能仿真（performance simulation）。

对于一个公司来说，产品的设计周期就是生命线，一般来说都会在设计功能级仿真的c-model后直接转向RTL设计，而不是在进行一个时钟精确（cycle-accurate cmodel）的性能模拟器设计，在产品进度上这是不允许的。而且维护两个c-model这也会导致公司运营的成本增加，并且项目管理的难度也大大增长！所以我们需要一个快速的性能模拟器方案。我的考虑是使用功能模拟器跟踪（trace）出来每个GPU独立模块模块所接受到的图形软件程序的代码流，比如那些三角形触发了切割（cliping）操作哪些触发了剔除（culling）操作。这个trace出来的信息被送入一个单独的性能模拟器，这个性能模拟器不能执行程序，只能根据trace出来的代码流来积累时钟周期，从而计算出来流水线延迟和瓶颈。这样，我们就可以在原有的c-model上利用原有的资源来最小程度上获得一个早期的性能分析数据。并且把管理和维护成本做到最小。

这个性能模拟器可以使用systemc来实现，其实他就是相当于一个大的计数器，针对不同的执行来累加不同的时钟消耗，而不需要填写任何与时序和执行流水线无关的无关的功能算法。systemc的TLM可以很容易的实现这个功能~~

以上看法是我从我的项目的需求角度来考虑的，一家之言，多多批评，不知道大牛怎么看呢？？
：〉

分享0 收藏0 1 0

使用道具举报

simplescalar

武骑尉（从七品）

注册时间: 2010-8-2
积分: 9

串个门
加好友
打招呼
发消息

2^#

发表于 2010-8-2 19:19:22 | 只看该作者

对于一个公司来说，产品的设计周期就是生命线，一般来说都会在设计功能级仿真的c-model后直接转向RTL设计

很同意这个观点
在目前的技术下，做cycle-by-cycle的设计和直接RTL设计的时间，感觉是差不太多的~~

使用道具举报

maxiaohan

版主

注册时间: 2009-6-8
积分: 2425

串个门
加好友
打招呼
发消息

3^#

发表于 2010-8-7 14:36:18 | 只看该作者

nv好像就同时维护者functional and timing 的simulators.
不过他们积累比较深了。

使用道具举报

zhangcheng

云骑尉（正七品）

注册时间: 2010-8-21
积分: 38

串个门
加好友
打招呼
发消息

4^#

发表于 2010-8-26 21:39:19 | 只看该作者

但是第一个model是否能跑流行的game也是一个问题。
需要快速的开发,debug，不然就又到下一代产品了

使用道具举报

michael.xu

云骑尉（正七品）

注册时间: 2010-8-15
积分: 21

串个门
加好友
打招呼
发消息

5^#

发表于 2010-8-29 15:33:06 | 只看该作者

我的观点是维护一个好的team，做算法，做架构的，做电路的，做实现的，互相讨论，互相了解彼此的领域...

用什么语言倒是无所谓，在大家讨论出结果时，各个工作组都有实现方案了，而且每组都可以用自己最熟悉的工具

Michael Xu

使用道具举报

ic.expert

管理员

注册时间: 2007-7-11
积分: 32646

串个门
加好友
打招呼
发消息

6^#

发表于 2010-9-5 00:56:13 | 只看该作者

对于一个公司来说，产品的设计周期就是生命线，一般来说都会在设计功能级仿真的c-model后直接转向RTL设计

...
simplescalar 发表于 2010-8-2 19:19

是啊，不过对于作GPU性能分析(Graphics Pipeline Performance Turing)的人来说，就不一样了。用RTL来跑的话，不但占用License，而且比较耗费时间。对于一个不是特别大的公司来说，License还是比较贵的。而且如果RTL跑起来比较浪费时间的话，那做性能分析得兄台一定会多开几个不同参数的RTL同时在跑，一般来说，开个七八个任务同时跑测试场景是很正常的，如果一个组有好几个Performance Turing哥们，那就要占用好几十个NCverilog License，而且还要占用相同数量的CPU时间。除了NV/AMD/Intel这种不在乎license数量的公司以外，小公司里别人还干不干活了……

而Cmodel又不带时序，所以需要一个带有时序的Cmodel对于公司内部某些特定需求的团队（比如性能调优相关的项目组）还是有意义的~

使用道具举报

funningboy

云骑尉（正七品）

注册时间: 2010-9-28
积分: 32

串个门
加好友
打招呼
发消息

7^#

发表于 2010-9-28 22:51:21 | 只看该作者

可參考 http://funningboy.blogspot.com/2 ... temc-verilator.html
如果只是function 驗證的話可以用 verilator 來跑, 可用 systemc 來加速模擬 verilog 的行為, 之後再根據synthesis RTL 後的結果分析出 critical path 部份. 之後就可以根據這結果修改 RTL verilog 再模擬. 其實就是不斷的模擬驗證..... ps: 不過也先要有前端的design 跟驗證拉

1 查看全部评分

ic.expert

80 字节以内
不支持自定义 Discuz! 代码

使用道具举报

ic.expert

管理员

注册时间: 2007-7-11
积分: 32646

串个门
加好友
打招呼
发消息

8^#

发表于 2010-9-29 23:51:20 | 只看该作者

可參考
如果只是function 驗證的話可以用 verilator 來跑, 可用 systemc 來加速模擬 verilog 的行為, 之 ...
funningboy 发表于 2010-9-28 22:51

大牛对verilator很久经验么？能不能说说：〉我跟别的工程师说过verilator，可能他们更相信carbon，更愿意花10w块美刀去买license……

使用道具举报

ic.expert

管理员

注册时间: 2007-7-11
积分: 32646

串个门
加好友
打招呼
发消息

9^#

发表于 2010-10-1 11:23:54 | 只看该作者

可參考
如果只是function 驗證的話可以用 verilator 來跑, 可用 systemc 來加速模擬 verilog 的行為, 之 ...
funningboy 发表于 2010-9-28 22:51

给大牛转过来了，不然还得看………

[size=180%]System Level Design

在傳統的HW Design上,不外乎透過verilog 驗證. 跑跑RTL 的Function Check, 等Function 確定好後,用Design Compiler 轉出Gate Level, 在驗證Time 是否滿足 setup time and hold time, 如不符合就改Design 或者是改變我們設定的 constrain. 就一直不斷的Try and Test.相對的會花很多時間在Debug上面. 因為硬體不像軟體一樣,可以藉由斷點分析,用software break 的方式,做Inside Register的 Debug. 除非在HW中加入JTAG的機制. 用ICE 來Emulator HW內部的flip-flop所暫存的值, 但在HW Design 初期, 根本不可能會把JTAG做進去,能祈禱不要每天加班就好了....呵呵.所以在初期只能用NC-SIM 來模擬,看看Waveform寫些TestBench去測.這樣一來一往就花費了不少時間,如果我們能夠用更快速的驗證方式,透過軟體來驗證硬體的結果, 就可以減少我們在Design所花費的時間.

[size=180%]SystemC

目前已走向SOC Design(System on Chip),以前是HW/SW分開測,相對的Coast 較高,也較沒效率.而SystemC 可以解決 HW/SW 間的Gate. 全部都用Software 模擬,且可以用 Eclipse 外掛.程式開發上也較方便.

"[size=180%]SystemC", 是我研究所專題所用到最平凡的語言,想說記錄一下,說不定之後會派得上用場呢.

SystemC 主要可分為 Communication, Computation 兩部分.

communication : 為Protocl 的部分, 如PCIE, BUS, ...所要的Cycle or Delay...

computation : 為Module內部自己運算所要的cycle, Delay. 像是 H.264, MPEG, PMU...、

在藉由這兩個軸,去定義出我們現在所在的Position,如底下所示. 藉由A -> F的過程,可以快速的勾勒出整個系統的架構.

SystemC 是以C++為基礎,並加入Hw synchronous/asynchronous/event trigger 的概念進去.

TLM (Transaction Level Model 0)
http://www.eettaiwan.com/ART_8800316267_480102_TA_5a6d92f3.HTM

Module : Black Box Name

Port : 接口 In/Out/InOut bit;

Processes: 處理續, 可用 Clock/event trigger, 如加法運算...

Interface: 介面, 可為Bus...

Channel : 類似Package, 內部可定義 Header/Body ...的相關Class.

Event : 事件,

使用道具举报

tianguau

骁骑尉（正六品）

注册时间: 2010-9-4
积分: 163

串个门
加好友
打招呼
发消息

10^#

发表于 2010-10-2 21:02:14 | 只看该作者

版主现在想的是不是太多了。
我觉得在开始的时候不要贪多。
第一个目标做的太大，容易失败，也容易失去信心。
建议还是做一个简单点的，先把功能完成，性能模型以后再说。
最好能在FPGA上验证一下。

RTL solution & Development

使用道具举报

ic.expert

管理员

注册时间: 2007-7-11
积分: 32646

串个门
加好友
打招呼
发消息

11^#

发表于 2010-10-2 21:23:46 | 只看该作者

版主现在想的是不是太多了。
我觉得在开始的时候不要贪多。
第一个目标做的太大，容易失败，也容易失去信心 ...
tianguau 发表于 2010-10-2 21:02

多谢大牛提醒：〉不过我讨论性能模拟器是因为公司项目的需要，不是OpenGPU的，呵呵

以前都是看论文上面怎么怎么做性能模拟，还没实际动手做过，还要考虑到环境的兼容性还有项目人力和进度的要求，所以上来问问高人~~~希望大牛多多指点~~~

使用道具举报

tianguau

骁骑尉（正六品）

注册时间: 2010-9-4
积分: 163

串个门
加好友
打招呼
发消息

12^#

发表于 2010-10-2 23:02:58 | 只看该作者

在我的印象里面性能模型用处不大。
在设计中考虑性能的地方主要有：
1.设计方案的时候，这时候是要把性能计算好的。如果这里没有计算好，后期就麻烦大了。
2.开发时候，严格按照方案来做，可能会有一些方案没有想到的地方，及时反馈，修改。这时候按照方案里面的计算框架应该对开发有指导意义的。
3.测试的时候。在功能测试完毕后，但是这时候对于性能已经几乎没有什么能改进的了。

所以做方案的时候一定要把性能计算好。越到后期修改的可能性越小。

在上面三个阶段中，第一阶段主要是计算（当然计算不清楚了可以用模型来仿真，不过我觉得得不偿失，超大逻辑除外）第二阶段是没有时间和精力来做性能仿真的。第三阶段应该fpga/asic已经完成了，性能仿真模型其实没有什么意义了，在实际的芯片上测试，比仿真模型要真实/快速/实际多了。

1 查看全部评分

ic.expert

RTL solution & Development

使用道具举报

ic.expert

管理员

注册时间: 2007-7-11
积分: 32646

串个门
加好友
打招呼
发消息

13^#

发表于 2010-10-3 00:36:47 | 只看该作者

在我的印象里面性能模型用处不大。
在设计中考虑性能的地方主要有：
1.设计方案的时候，这时候是要把性能计 ...
tianguau 发表于 2010-10-2 23:02

大牛说的很有道理，从前我们也是这么做的。但是随着GPU可编程越来越灵活，手算的静态性能评估已经不那么有用了。很多时候性能和程序的特性相关，必须要针对主流应用来做优化，没有统计的方法，很难量化这个数据。只有拿到了主流应用的量化数据，我们才能优化和分配流水线上的资源。比如大多数应用对于“存储器访问”和“数据计算”比例是平均访问一次存储器后计算50条指令，那我们就要分配计算资源和缓存资源的比例，包括考虑到Cache尺寸多大才能满足一个合适的命中率，要支持多深的Non-blocking Cache访问才能隐藏延迟，并且不至于耗费太多的带宽，而这些都和应用的特性有关。如果这个比例在未来的主流应用中改变了行为，那我们还要变换参数。这个通过手工没有办法算出来，只能实际测试。

如果非常容易手工计算的话，那么像NV这个NB的公司，有上千个GPU架构师（GPU Architect），当然打酱油的居多……。那他们设计的第一代卡性能也是非常不靠谱的，往往要等到第二代第三代卡的时候才能有一个比较满意的设计，包括功耗和性能权衡。而这种优化离不开性能模拟器。

对很多GPU供应商来说，同样如此，比如客户需要我们更高性能的芯片，那好，为了使性能提高一倍，也许我们需要把我们把流水线宽度（注意是宽度不是长度）增加4倍，并且显存带宽（bandwidth of video memory）增加数倍才可以。但是这里面就有一个落差，就是性能不能随着并行度的增加线性增长，这里面必然有瓶颈。那此时怎么办？我们怎么调整流水线的负载平衡（load banlance），靠手算么？流水线上每一级都是程序控制的，如果不分析程序在不同Stage都耗费了多少Cycle的话，那怎么知道哪里是瓶颈呢？首先，第一步我们要找到性能瓶颈，然后第二步才是改进。

怎么找？用我们手上的ASIC来找性能瓶颈，也许可以，但是这需要足够数量的performance counter,这个在设计制造之初有么？？现在我们就算他假设有，那么第二步，我们怎么知道那种改进方案是最优的呢？可能我们需要不断地尝试，比如，增加或者减少不同片上资源的数量，比如某个Cache的尺寸，某个FIFO的深度，或者是BUS上某个Local memory的容量，等等从而调节流水线的负载平衡。而ASIC都是定制好的，怎么调？怎么观察性能的改变？难道用加速器么，加速器的编译时间本身就是很长。也许我们可以增量编译。但是加速器大家都在抢，首先要保证功能验证的那帮子哥们的需求，可能分给性能调试组的机时都非常少了，根本不够用。如果在服务器上面仿真还要占用License，会导致很多人不高兴，因为仿真时间长不说，而且七八不同参数尝试的实例同时跑，性能调试组N个人一起这么干，别人就别干活了……。

性能模拟器就是为了完善这个而产生的，第一代产品只是为了抢市场，而第二代和第N代等后续产品才是真正成熟的产品。而凭经验给参数的做法在可编程器件上不那么好使，虽然不到和拍脑袋的那个级别，但是也是不够用的。架构级别不优化，结果产品出来功耗性能差，上面要发飙的。所以做精细的性能模拟器也是不得已而为之的事情~~~因为这是真正的可编程设备（programmable device），不是一个视频编解码那种不可编程的专用集成电路设计（ASIC Design）。

使用道具举报

cqq

版主

注册时间: 2010-9-18
积分: 3881

串个门
加好友
打招呼
发消息

14^#

发表于 2010-10-3 12:16:14 | 只看该作者

本帖最后由 cqq 于 2010-10-3 12:18 编辑

回复 13# ic.expert

看来用verilator/carbon来找性能瓶颈，跟用手上的ASIC来找性能瓶颈，具有一样的局限性。即：

增加或者减少不同片上资源的数量，比如某个Cache的尺寸，某个FIFO的深度，或者是BUS上某个Local memory的容量，等等从而调节流水线的负载平衡。而ASIC都是定制好的，怎么调？怎么观察性能的改变？

RTL-to-C做法碰到这种改变片上资源数量的需求就比较笨拙了。毕竟需要修改RTL。

functional simulator和performance simulator分离是个很漂亮的设计和做法，支持楼主。
我暂未能提供其他观点，只能密切关注中...

1 查看全部评分

ic.expert

80 字节以内
不支持自定义 Discuz! 代码

使用道具举报

ic.expert

管理员

注册时间: 2007-7-11
积分: 32646

串个门
加好友
打招呼
发消息

15^#

发表于 2010-10-6 19:08:06 | 只看该作者

回复 ic.expert

看来用verilator/carbon来找性能瓶颈，跟用手上的ASIC来找性能瓶颈，具有一样的局限性。 ...
cqq 发表于 2010-10-3 12:16

Performance Model在粗粒度调优，RTL可以在细粒度进行调优。粗粒度的好处就是调优速度快，但是不准。不过verilator还是有个好处的，就是节约nc/vcs的lic数量~~，这个有时候也挺重要的，记得原来有一阵子lic紧张的时候为了等一个license等1个多小时……

使用道具举报

cqq

版主

注册时间: 2010-9-18
积分: 3881

串个门
加好友
打招呼
发消息

16^#

发表于 2010-10-18 10:32:20 | 只看该作者

本帖最后由 cqq 于 2010-10-18 10:39 编辑

ic.expert: 增加或者减少不同片上资源的数量，比如某个Cache的尺寸，某个FIFO的深度，或者是BUS上某个Local memory的容量，等等从而调节流水线的负载平衡。而ASIC都是定制好的，怎么调？怎么观察性能的改变？

cqq: RTL-to-C做法碰到这种改变片上资源数量的需求就比较笨拙了。毕竟需要修改RTL。

之前我以为靠流片来改进性能很笨拙，但是最近跟一个朋友聊过，他们公司是做MP4的，他们改进性能/验证性能改善结果的做法是频繁流片，疯狂的时候一个月流一次。
（又是一个不用C Model来改进性能的例子）

不过我比较好奇这种做法：
1. 每次流片的成本大概多少？
2. 对项目来说，它的实际效果如何？(毕竟理论上ASIC的可见度没有C Model可见度高，也许他们通过分析算法，在ASIC的某些关键点做performance统计)

80 字节以内
不支持自定义 Discuz! 代码

使用道具举报

ic.expert

管理员

注册时间: 2007-7-11
积分: 32646

串个门
加好友
打招呼
发消息

17^#

发表于 2011-8-21 15:03:37 | 只看该作者

cqq 发表于 2010-10-18 10:32
之前我以为靠流片来改进性能很笨拙，但是最近跟一个朋友聊过，他们公司是做MP4的，他们改进性能/验证性 ...

首先，直接silicon级别的性能统计？那需要插很多性能计数器（performance counter）吧，不然怎么观测呢？大牛说的分析方法是什么呢？

其次，投片（tape-out）一次最快流程也要1个月，但是这需要大晶圆厂才可以，比如SIMC或者TSMC，小的成本更低的晶圆厂往往都走三个月的流程。

以前还有门海（gate-sea）技术实现的投片，就是在衬底上吧晶体管都预先排列好，然后在没有客户的情况下预先生产，最后不同的客户只需要在预先准备好的衬底上光刻出来不同的金属连线就可以了（就好像蛋糕店预先生产好蛋糕坯子，然后不同的客户就挤出来不同的奶油图案一样），所以流程更快（比一个月还要短），不过貌似在深亚微米级别好像没见过了，是不是因为线延迟增加的缘故……

最后，投片成本，5平方毫米的MPW一般五万到十万，能到0.18个工艺吧（不知道最近行情怎么样）。不过还有封装费用（如果管脚不多，可以直接封装在版子上降低成本），

另外，我觉得如果需要2次MPW投片才能调整出来一个好的性能，那也就是2个月时间。有两个月时间，我们都可以直接调好C model性能模拟了，从而改进RTL了。并且方法学可以集成到下个项目中，好处多多。除非大牛说的这个项目组身兼好几个项目，所以这样他们做是为了省时间，破财免灾，不然老板就冤大头了……

使用道具举报

draziwest

上骑都尉（正五品）

注册时间: 2009-3-9
积分: 752

串个门
加好友
打招呼
发消息

18^#

发表于 2011-8-22 17:02:02 | 只看该作者

本帖最后由 draziwest 于 2011-8-22 17:07 编辑

这东西原理上没啥深奥的。肯砸时间，砸人，CMODEL上一样可以加上timing信息。花的精力越多，精度自然越高，当然嘛，运行速度也会慢下来。不过，总还是比RTL快一些的。

根据项目需要进行取舍吧。对高风险的特性，觉得performance model不靠谱的，可以考虑实现得精确一些。在项目的不同阶段也可以选择不同的精度的模型。

我觉得，可以针对目前出现的具体问题来考虑该不该做timing simulator。针对某个具体的功能，确实发现根据performance model算出来的结果和RTL出入很大。先找出来为啥不准，然后再看是否需要实现一个简单的timing simulator。具体做法，我觉得老大提出的抓trace，然后用trace驱动simulator的办法就很好了。

有一点要注意的是，对稍微复杂的系统，正确的timing simulator同时也要求功能正确性。

1 查看全部评分

ic.expert

使用道具举报

draziwest

上骑都尉（正五品）

注册时间: 2009-3-9
积分: 752

串个门
加好友
打招呼
发消息

19^#

发表于 2011-8-22 17:12:58 | 只看该作者

ic.expert 发表于 2010-10-3 00:36
大牛说的很有道理，从前我们也是这么做的。但是随着GPU可编程越来越灵活，手算的静态性能评估已经不那么 ...

手工算出来的一般都不准。不过这通常都是项目早期大牛们干的事情....

使用道具举报

ic.expert

管理员

注册时间: 2007-7-11
积分: 32646

串个门
加好友
打招呼
发消息

20^#

发表于 2011-8-23 14:32:47 | 只看该作者

draziwest 发表于 2011-8-22 17:02
这东西原理上没啥深奥的。肯砸时间，砸人，CMODEL上一样可以加上timing信息。花的精力越多，精度自然越高， ...

大牛的说的很对，大牛说的性能模拟器能不能得到正确的书性能分析数据，这个在CPU性能模拟器这个问题中很常见。的确是需要按照需求来设计，

比如对于传统的OGL ES1.1来说，没有复杂的数据回路，所有流水线基本都是生产者-消费者关系，那么首先对于一个新项目而言，要解决的问题就是在这些Stage 之间插入多少深度FIFO，才能做到流水线复杂均衡（load balance），这就是需求。像之前Cqq大牛描述那种私有框架，在基本的需求就在于此。

而现代GPU越来越复杂，如果用学术名词描述GPU架构的话，基本上可以说是“多核心的多线程向量处理器阵列”，不再像传统图形流水线，所以这大大增加了性能模拟器的设计难度。从复杂性角度来说，的确在这种情况下就应该把性能模拟器和功能模拟器完全分开做……但两者不见得是文件级的数据传递。从项目进度的角度考虑，我还是推崇由性能模拟器调用功能模拟器的方式。对于一个粗粒度的性能仿真来说，也许这需要在功能模拟器中多放置一些bool变量，这些只能标志位用于告诉性能模拟器，那些运算功能被使用到了。

使用道具举报

draziwest

上骑都尉（正五品）

注册时间: 2009-3-9
积分: 752

串个门
加好友
打招呼
发消息

21^#

发表于 2011-8-23 22:31:50 | 只看该作者

ic.expert 发表于 2011-8-23 14:32
大牛的说的很对，大牛说的性能模拟器能不能得到正确的书性能分析数据，这个在CPU性能模拟器这个问题中很 ...

在项目初期通常也不可能构建精确的性能模拟器。针对你说的问题，我觉得用c++简单模拟时钟就足够了。比如，用queue来模拟fifo，用对象来模拟流水线stage。

至于是否需要引入function simulator，就取决于workload，timing和功能正确性有没有关联了。

使用道具举报

你可能感兴趣的:(GPU)

【Linux 下的 bash 无法正常解析, Windows 的 CRLF 换行符问题导致的】待磨的钝刨 linux bash windows
文章目录报错原因：解决办法：方法一：用`dos2unix`修复方法二：手动转换换行符方法三：VSCode或其他编辑器手动改总结这个错误很常见，原因是你的wait_for_gpu.sh脚本文件格式不对，具体来说是Windows的CRLF换行符问题导致的，Linux下的bash无法正常解析。hadoop@hadoop:~/anaconda3$bashwait_for_gpu.sh:invalidopt
H800能效架构实战解析智能计算研究中心其他
内容概要H800能效架构以异构计算资源调度与动态功耗控制为核心，通过系统级协同设计实现算力密度与能耗优化的双重目标。其核心技术覆盖智能负载分配、电压频率动态调节及热管理三大模块，形成从芯片级到数据中心级的垂直优化链路。在架构设计中，异构资源调度算法通过实时分析任务特征与硬件状态，动态分配CPU、GPU及专用加速器资源，最大化硬件利用率；动态功耗模块则基于负载波动自适应调整供电策略，结合多级电压频率
AI大模型训练教程 Small踢倒coffee_氕氘氚 python自学经验分享笔记
1.引言随着人工智能技术的快速发展，大模型（如GPT-3、BERT等）在自然语言处理、计算机视觉等领域取得了显著的成果。训练一个大模型需要大量的计算资源、数据和专业知识。本教程将带你了解如何从零开始训练一个AI大模型。2.准备工作2.1硬件要求GPU：推荐使用NVIDIA的高性能GPU，如A100、V100等。内存：至少64GBRAM。存储：SSD存储，至少1TB。#2.2软件环境操作系统：Lin
英伟达常用GPU参数速查表，含B300..... Ai17316391579 深度学习服务器人工智能机器学习服务器电脑计算机视觉深度学习神经网络
英伟达常用GPU参数速查表，收藏备用：含RTX5090、RTX4090D、L40、L20、A100、A800、H100、H800、H20、H200、B200、B300、GB300.....专注于高性能计算人工智能细分领域kyfwq001#5090##4090##英伟达“新核弹”B200发布##英伟达##英伟达B300##GPU##服务器##显卡##英伟达H800/A800芯片将禁售#
学习笔记——GPU 鹤岗小串 gpu算力分布式信息与通信系统架构硬件架构运维笔记
本文为学习笔记，故只对知识点依据自己的理解作概要总结，方便以后复习激活记忆。注：本文中GPU的讲解以A100型号为例，V100跟A100的架构差别不大也可适用，但是其他架构可能会有所出入。一、GPU硬件结构NVIDIAA100GPU的硬件结构HBM2：显存MemoryController：负责控制HBM2和L2Cache之间的通信High-SpeedHub：GPU总线，将NVLink、PCIE、E
显卡（Graphics Processing Unit，GPU）架构详细解读 m0_74824112 面试学习路线阿里巴巴架构大数据网络
显卡架构主要分为两大类：GPU核心架构（也称为图形处理单元架构）和显卡的其他组件（如内存、控制器、输出接口等）。本篇文章将对显卡架构进行详细分析，重点介绍GPU核心架构、显卡计算单元、显存结构、显卡管线、以及显卡与主机系统的协同工作等。1.显卡架构的基本组成显卡架构可以分为以下几个主要部分：1.1GPU核心（计算单元）GPU核心是显卡的核心部分，负责执行图形渲染和计算任务。GPU核心通常由多个流处
GPU架构分类大明者省架构
一、NVIDIA的GPU架构NVIDIA是全球领先的GPU生产商，其GPU架构在图形渲染、高性能计算和人工智能等领域具有广泛应用。NVIDIA的GPU架构经历了多次迭代，以下是一些重要的架构：1.Tesla（特斯拉）架构（2006年发布）特点：NVIDIA推出的首个通用GPU计算架构，支持使用C语言进行GPU编程，标志着GPU开始从专用图形处理器转变为通用数据并行处理器。性能：具有128个流处理器
一切皆是映射：实现神经网络的硬件加速技术：GPU、ASIC（专用集成电路）和FPGA（现场可编程门阵列） AI天才研究院 AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
文章目录一切皆是映射：实现神经网络的硬件加速技术：GPU、ASIC（专用集成电路）和FPGA（现场可编程门阵列）1.背景介绍2.核心概念与联系3.核心算法原理&具体操作步骤3.1算法原理概述3.2算法步骤详解3.2.1GPU加速3.2.2ASIC加速3.2.3FPGA加速3.3算法优缺点GPUASICFPGA3.4算法应用领域4.数学模型和公式&详细讲解&举例说明4.1数学模型构建4.2公式推导过
大规异构集群混合并行分布式训练系统，解决算力不均衡问题 HETHUB 爱串门的小马驹万卡大规模集群大模型训练异构集群大规模集群分布式大模型训练
视频教程在这：3.2大规模异构集群，混合并行分布式系统，解释算力不均衡问题HETHUB_哔哩哔哩_bilibili一、大规模异构集群出现的原因：同一种GPU数量有限难以构建大规模集群：训练大规模模型依赖于大量的计算资源。例如，训练GPT-4模型（1.8万亿个参数）需要25000个A100GPU。用一种GPU加速器构建大规模集群是一个挑战。使用多种类型的GPU加速器构建大规模集群是解决同构GPU加速
MiniMind：3小时完全从0训练一个仅有26M的小参数GPT，最低仅需2G显卡即可推理训练！哈罗·沃德 LLM gpt
MiniMind：3小时完全从0训练一个仅有26M的小参数GPT，最低仅需2G显卡即可推理训练！概述MiniMind是一个开源的微型语言模型，它的设计目标是让个人GPU用户也能够快速推理甚至训练语言模型。它的体积仅为26M，大约是GPT3的1/7000，非常适合快速部署和实验。https://github.com/user-attachments/assets/88b98128-636e-43bc
GPU计算的历史与CUDA编程入门己见明 GPU计算 CUDA C 数据并行性 CUDA程序结构向量加法内核
GPU计算的历史与CUDA编程入门背景简介GPU计算的历史可以追溯到早期的并行计算研究，如今已发展成为计算机科学中的一个重要分支。本文将探讨GPU计算的发展史，重点分析《ComputerGraphics:PrinciplesandPractice》等关键文献，以及CUDAC编程模型的引入及其对现代软件开发的影响。历史回顾回顾历史，GPU计算的发展始于1986年Hillis与Steele在《Comm
GTC 2025 中文在线解读扫地的小何尚人工智能 NVIDIA GPU 深度学习机器学习
GTC2025中文在线解读｜CUDA最新特性与未来[WP72383]NVIDIAGTC大会火热进行中，一波波重磅科技演讲让人应接不暇，3月24日，NVIDIA企业开发者社区邀请KenHe、YipengLi两位技术专家，面向开发者，以中文深度拆解GTC2025四场重磅开发技术相关会议，直击AI行业应用痛点，破解前沿技术难题!作为GPU计算领域的基石，CUDA通过其编程语言、编译器、运行时环境及核心库
知识蒸馏：让大模型“瘦身“而不失智慧的魔术一休哥助手人工智能人工智能
引言：当AI模型需要"减肥"在人工智能领域，一个有趣的悖论正在上演：大模型的参数规模每年以10倍速度增长，而移动设备的算力却始终受限。GPT-4的1750亿参数需要价值500万美元的GPU集群运行，但现实中的智能设备可能只有指甲盖大小。这种矛盾催生了一项神奇的技术——知识蒸馏（KnowledgeDistillation），它就像给AI模型进行"脑外科手术"，将庞然大物的智慧浓缩到轻量模型中。第一章
在网页跑3D多人互动之渲染效能瓶颈微网兔子後端技術前端网络服务器 c++unity 架构 3d
累积到目前测试回馈给我们的心得，主要问题还是在前端显示的部分。所以就来聊聊在网页跑3D多人互动之渲染效能瓶颈!!!数万个3D角色与场景物件需即时渲染，导致GPU/CPU过载，低端设备卡顿。已经使用的解决方案：LOD（LevelofDetail）技术：根据距离动态调整模型细节，远距离使用低多边形模型。InstancedRendering：批次渲染相同模型（如重复的树木、建筑物）。Culling（剔除
密码策略合规性检查仪表盘闲人编程 python 网络服务器异常报警实时监控多因素认证合规性密码策略
目录一、前言二、密码策略合规性背景与意义2.1密码策略的重要性2.2密码策略合规性检查的需求三、系统设计思路与架构3.1数据采集与加解密模块3.2异步任务调度与GPU加速模块3.3密码策略检查算法模块3.4GUI界面模块四、核心数学公式与算法证明4.1AES-GCM加解密公式4.2密码强度评分算法4.3合规性检测算法4.4统计与报告生成五、异步任务调度与GPU加速设计六、GUI界面设计与功能模块七
CPO光电共封装关键技术与Top玩家代表作 CoderIsArt 光学 CPO
CPO（Co-PackagedOptics，光电共封装）关键技术介绍CPO（Co-PackagedOptics）是一种将光学器件与电子芯片（如ASIC、CPU、GPU等）封装在同一基板上的技术。它旨在解决传统可插拔光模块在高密度、高带宽场景下的功耗、散热和信号完整性问题。CPO通过缩短电信号的传输距离，减少信号衰减和功耗，同时提高系统的整体性能和能效。CPO技术主要应用于数据中心、高性能计算（HP
Marker可以快速且准确地将PDF转换为markdown格式。星霜笔记开源关注简介免费源码 pdf
MarkerMarker可以快速且准确地将PDF转换为markdown格式。支持多种文档类型（针对书籍和科学论文进行了优化）支持所有语言移除页眉/页脚/其他杂质格式化表格和代码块提取并保存图像以及markdown将大多数方程转换为latex支持在GPU、CPU或MPS上运行工作原理Marker是一个由深度学习模型组成的管道：提取文本，必要时进行OCR处理（启发式算法，surya，tesseract
Open-Sora - 为所有人实现高效的视频制作大众化小众AI AI开源音视频人工智能 AI编程
GitHub：https://github.com/hpcaitech/Open-Sora更多AI开源软件：发现分享好用的AI工具、AI开源软件、AI模型、AI变现-小众AI这是一款开源的SOTA（State-of-the-Art）视频生成模型，仅用20万美元（224张GPU）就能训练出商业级11B参数的视频生成大模型。它采用Python语言和PyTorch深度学习框架开发，具有生成速度快、资源消
无矩阵乘法LLM：效率与性能双突破 XianxinMao 人工智能矩阵人工智能线性代数
标题：无矩阵乘法LLM：效率与性能双突破文章信息摘要：无矩阵乘法的LLMs通过创新技术替代传统矩阵乘法操作，显著降低了计算成本，减少了对GPU的依赖。这种模型在内存使用和延迟方面表现优异，尤其在大规模模型上效率显著提升。例如，13B参数的模型仅需4.19GBGPU内存，延迟低至695.48ms，远优于传统模型。此外，基于FPGA的硬件优化进一步提升了性能，1.3B参数模型功耗仅为13W，达到人类阅
高性能计算:GPU加速与分布式训练 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍随着人工智能技术的飞速发展，深度学习模型的规模和复杂度不断提升，对计算能力的需求也越来越高。传统的CPU架构已经难以满足深度学习模型训练的需求，因此，GPU加速和分布式训练成为了高性能计算领域的研究热点。1.1.深度学习与计算挑战深度学习模型通常包含数百万甚至数十亿个参数，训练过程需要进行大量的矩阵运算和梯度更新，对计算资源的需求非常高。传统的CPU架构虽然具有较强的通用性，但其并行计
查看 CUDA cudnn 版本查看Navicat GPU版本 FergusJ 备份 python 开发语言
查看显卡型号：lspci|grepVGA（lspci是linux查看硬件信息的命令），屏幕会打印出主机的集显几独显信息python中查看显卡型号fromtensorflow.python.clientimportdevice_libdevice_lib.list_local_devices()
OpenBayes 教程上新丨单卡A6000轻松部署Gemma 3，精准识别黄仁勋演讲实拍
3月12日晚间，谷歌发布了「单卡大魔王」Gemma3，号称是能在单个GPU或TPU上运行的最强模型，真实战绩也证实了官方blog所言非虚——其27B版本击败671B的满血DeepSeekV3，以及o3-mini、Llama-405B，仅次于DeepSeekR1，但在算力需求方面却远低于其他模型。如下图所示：*按照ChatbotArenaElo分数对模型进行排名；圆点表示预估的算力需求随后，谷歌也是
一切皆是映射：DQN训练加速技术：分布式训练与GPU并行 AI天才研究院计算 AI大模型企业级应用开发实战 ChatGPT 计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1深度强化学习的兴起近年来，深度强化学习（DeepReinforcementLearning，DRL）在游戏、机器人控制、自然语言处理等领域取得了令人瞩目的成就。作为一种结合深度学习和强化学习的强大技术，DRL能够使智能体在与环境交互的过程中学习最优策略，从而实现自主决策和控制。1.2DQN算法及其局限性深度Q网络（DeepQ-Network，DQN）是DRL的一种经典算法，它利用
CUDA编程基础清澜算法面试人工智能 c++算法 nvidia cuda编程
一、快速理解CUDA编程1.1CUDA简介CUDA（ComputeUnifiedDeviceArchitecture）是由NVIDIA推出的并行计算平台和应用程序接口模型。它允许开发者利用NVIDIAGPU的强大计算能力来加速通用计算任务，而不仅仅是图形渲染。通过CUDA，开发者可以编写C、C++或Fortran代码，并将其扩展以在GPU上运行，从而显著提高性能，特别是在处理大规模数据集和复杂算法
2025年开发者工具全景图：IDE与AI协同的效能革命 He.Tech ide 人工智能
2025年开发者工具全景图：IDE与AI协同的效能革命（基于CSDN、腾讯云等平台技术文档与行业趋势分析）一、核心工具链的务实演进与配置指南主流开发工具的升级聚焦于工程化适配与智能化增强，以下是2025年开发者必须掌握的配置技巧：1.VSCode：性能优化与远程协作标杆核心特性：CUDA核心利用率分析：通过NVIDIANsight插件优化GPU计算任务，需在settings.json中添加："ns
人形机器人报告：新一代GPU、具身智能与AI应用小报告达人机器人人工智能
今天分享的是人形机器人系列深度研究报告：《人形机器人专题：新一代GPU、具身智能与AI应用》。（报告出品方：中泰证券）核心观点GTC2024召开在即，关注新一代GPU、具身智能、AI应用三大方向。GTC2024将于当地时间3月18-21日在美国加州圣何塞会议中心及线上举行，预计发布加速计算、生成式AI以及机器人领域突破性成果。建议关注三大方向：1）B100及后续芯片路线。B100预计采用Black
centos7输入python -m bitsandbytes报错CUDA Setup failed despite GPU being available. Please run the follo 小太阳，乐向上 python 开发语言
在centos7.9系统中安装gpu驱动及cuda，跑大模型会报错，提示让输入python-mbitsandbytes依然报错：CUDASETUP:Loadingbinary/usr/local/python3/lib/python3.9/site-packages/bitsandbytes/libbitsandbytes_cuda117.so.../lib64/libstdc++.so.6:ve
关于bitsandbytes安装报错跃跃欲试88 语言模型人工智能 transformer
RunTimeError:CUDASetupfaileddespiteGPUbeingavailable.InspecttheCUDASETUPoutputsabovetofixyourenvironment!ubuntu@VM-0-8-ubuntu:~$python-mbitsandbytesFalse===================================BUGREPORT===
python -m bitsandbytes 报错解释与解决 MityKif python 开发语言
RuntimeError:CUDASetupfaileddespiteGPUbeingavailable.Pleaserunthefollowingcommandtogetmoreinformation:python-mbitsandbytesInspecttheoutputofthecommandandseeifyoucanlocateCUDAlibraries.Youmightneedtoad
c++高性能多进程 cuda编程: safe_softmax实现 + cub::BlockReduce自定义归约操作 FakeOccupational 深度学习 c++开发语言
目录cub::BlockReduce自定义归约操作(`cub::BlockReduce::Reduce`)1.语法safe_softmax实现cub::BlockReducecub::BlockReduce是CUB库（CUDAUnBound）提供的一种用于GPU线程块内数据归约(一般完成所有数据规约需要两次规约)的高效工具。它允许线程块内的多个线程并行地对数据执行归约操作，cub::BlockRe
关于旗正规则引擎中的MD5加密问题何必如此 jsp MD5 规则加密
一般情况下，为了防止个人隐私的泄露，我们都会对用户登录密码进行加密，使数据库相应字段保存的是加密后的字符串，而非原始密码。在旗正规则引擎中，通过外部调用，可以实现MD5的加密，具体步骤如下： 1.在对象库中选择外部调用，选择“com.flagleader.util.MD5”，在子选项中选择“com.flagleader.util.MD5.getMD5ofStr({arg1})”； 2.在规
【Spark101】Scala Promise/Future在Spark中的应用 bit1129 Promise
Promise和Future是Scala用于异步调用并实现结果汇集的并发原语，Scala的Future同JUC里面的Future接口含义相同，Promise理解起来就有些绕。等有时间了再仔细的研究下Promise和Future的语义以及应用场景，具体参见Scala在线文档：http://docs.scala-lang.org/sips/completed/futures-promises.html
spark sql 访问hive数据的配置详解 daizj spark sql hive thriftserver
spark sql 能够通过thriftserver 访问hive数据，默认spark编译的版本是不支持访问hive，因为hive依赖比较多，因此打的包中不包含hive和thriftserver,因此需要自己下载源码进行编译，将hive，thriftserver打包进去才能够访问，详细配置步骤如下： 1、下载源码 2、下载Maven,并配置此配置简单，就略过
HTTP 协议通信周凡杨 java httpclient http 通信
一：简介 HTTPCLIENT，通过JAVA基于HTTP协议进行点与点间的通信！二：代码举例测试类： import java
java unix时间戳转换 g21121 java
把java时间戳转换成unix时间戳： Timestamp appointTime=Timestamp.valueOf(new SimpleDateFormat("yyyy-MM-dd HH:mm:ss").format(new Date())) SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd hh:m
web报表工具FineReport常用函数的用法总结（报表函数）老A不折腾 web报表 finereport 总结
说明：本次总结中，凡是以tableName或viewName作为参数因子的。函数在调用的时候均按照先从私有数据源中查找，然后再从公有数据源中查找的顺序。 CLASS CLASS(object):返回object对象的所属的类。 CNMONEY CNMONEY(number,unit)返回人民币大写。 number:需要转换的数值型的数。 unit:单位，
java jni调用c++ 代码报错墙头上一根草 java C++jni
# # A fatal error has been detected by the Java Runtime Environment: # # EXCEPTION_ACCESS_VIOLATION (0xc0000005) at pc=0x00000000777c3290, pid=5632, tid=6656 # # JRE version: Java(TM) SE Ru
Spring中事件处理de小技巧 aijuans spring Spring 教程 Spring 实例 Spring 入门 Spring3
Spring 中提供一些Aware相关de接口，BeanFactoryAware、 ApplicationContextAware、ResourceLoaderAware、ServletContextAware等等，其中最常用到de匙ApplicationContextAware.实现ApplicationContextAwaredeBean，在Bean被初始后，将会被注入 Applicati
linux shell ls脚本样例 annan211 linux linux ls源码 linux 源码
#! /bin/sh - #查找输入文件的路径 #在查找路径下寻找一个或多个原始文件或文件模式 # 查找路径由特定的环境变量所定义 #标准输出所产生的结果通常是查找路径下找到的每个文件的第一个实体的完整路径 # 或是filename :not found 的标准错误输出。 #如果文件没有找到则退出码为0 #否则即为找不到的文件个数 #语法 pathfind [--
List,Set,Map遍历方式 (收集的资源,值得看一下) 百合不是茶 list set Map遍历方式
List特点：元素有放入顺序，元素可重复 Map特点：元素按键值对存储，无放入顺序 Set特点：元素无放入顺序，元素不可重复（注意：元素虽然无放入顺序，但是元素在set中的位置是有该元素的HashCode决定的，其位置其实是固定的） List接口有三个实现类：LinkedList，ArrayList，Vector LinkedList：底层基于链表实现，链表内存是散乱的，每一个元素存储本身
解决SimpleDateFormat的线程不安全问题的方法 bijian1013 java thread 线程安全
在Java项目中，我们通常会自己写一个DateUtil类，处理日期和字符串的转换，如下所示： public class DateUtil01 { private SimpleDateFormat dateformat = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); public void format(Date d
http请求测试实例（采用fastjson解析） bijian1013 http 测试
在实际开发中，我们经常会去做http请求的开发，下面则是如何请求的单元测试小实例，仅供参考。 import java.util.HashMap; import java.util.Map; import org.apache.commons.httpclient.HttpClient; import
【RPC框架Hessian三】Hessian 异常处理 bit1129 hessian
RPC异常处理概述 RPC异常处理指是，当客户端调用远端的服务，如果服务执行过程中发生异常，这个异常能否序列到客户端？如果服务在执行过程中可能发生异常，那么在服务接口的声明中，就该声明该接口可能抛出的异常。在Hessian中，服务器端发生异常，可以将异常信息从服务器端序列化到客户端，因为Exception本身是实现了Serializable的
【日志分析】日志分析工具 bit1129 日志分析
1. 网站日志实时分析工具 GoAccess http://www.vpsee.com/2014/02/a-real-time-web-log-analyzer-goaccess/ 2. 通过日志监控并收集 Java 应用程序性能数据(Perf4J) http://www.ibm.com/developerworks/cn/java/j-lo-logforperf/ 3.log.io 和
nginx优化加强战斗力及遇到的坑解决 ronin47 nginx 优化
　　　先说遇到个坑，第一个是负载问题，这个问题与架构有关，由于我设计架构多了两层，结果导致会话负载只转向一个。解决这样的问题思路有两个：一是改变负载策略，二是更改架构设计。　　　由于采用动静分离部署，而nginx又设计了静态，结果客户端去读nginx静态，访问量上来，页面加载很慢。解决：二者留其一。最好是保留apache服务器。　　　来以下优化：　　　
java-50-输入两棵二叉树A和B，判断树B是不是A的子结构 bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/25411174201011445550396/ import ljn.help.*; public class HasSubtree { /**Q50. * 输入两棵二叉树A和B，判断树B是不是A的子结构。例如，下图中的两棵树A和B，由于A中有一部分子树的结构和B是一
mongoDB 备份与恢复开窍的石头 mongDB备份与恢复
Mongodb导出与导入 1: 导入/导出可以操作的是本地的mongodb服务器,也可以是远程的. 所以,都有如下通用选项: -h host 主机 --port port 端口 -u username 用户名 -p passwd 密码 2: mongoexport 导出json格式的文件
[网络与通讯]椭圆轨道计算的一些问题 comsci 网络
如果按照中国古代农历的历法，现在应该是某个季节的开始，但是由于农历历法是3000年前的天文观测数据，如果按照现在的天文学记录来进行修正的话，这个季节已经过去一段时间了。。。。。也就是说，还要再等3000年。才有机会了，太阳系的行星的椭圆轨道受到外来天体的干扰，轨道次序发生了变
软件专利如何申请 cuiyadll 软件专利申请
软件技术可以申请软件著作权以保护软件源代码，也可以申请发明专利以保护软件流程中的步骤执行方式。专利保护的是软件解决问题的思想，而软件著作权保护的是软件代码（即软件思想的表达形式）。例如，离线传送文件，那发明专利保护是如何实现离线传送文件。基于相同的软件思想，但实现离线传送的程序代码有千千万万种，每种代码都可以享有各自的软件著作权。申请一个软件发明专利的代理费大概需要5000-8000申请发明专利可
Android学习笔记 darrenzhu android
1.启动一个AVD 2.命令行运行adb shell可连接到AVD,这也就是命令行客户端 3.如何启动一个程序 am start -n package name/.activityName am start -n com.example.helloworld/.MainActivity 启动Android设置工具的命令如下所示： # am start -
apache虚拟机配置，本地多域名访问本地网站 dcj3sjt126com apache
现在假定你有两个目录，一个存在于 /htdocs/a，另一个存在于 /htdocs/b 。现在你想要在本地测试的时候访问 www.freeman.com 对应的目录是 /xampp/htdocs/freeman ,访问 www.duchengjiu.com 对应的目录是 /htdocs/duchengjiu。 1、首先修改C盘WINDOWS\system32\drivers\etc目录下的
yii2 restful web服务[速率限制] dcj3sjt126com PHP yii2
速率限制为防止滥用，你应该考虑增加速率限制到您的API。例如，您可以限制每个用户的API的使用是在10分钟内最多100次的API调用。如果一个用户同一个时间段内太多的请求被接收，将返回响应状态代码 429 (这意味着过多的请求)。要启用速率限制, [[yii\web\User::identityClass|user identity class]] 应该实现 [[yii\filter
Hadoop2.5.2安装——单机模式 eksliang hadoop hadoop单机部署
转载请出自出处：http://eksliang.iteye.com/blog/2185414 一、概述 Hadoop有三种模式单机模式、伪分布模式和完全分布模式，这里先简单介绍单机模式，默认情况下，Hadoop被配置成一个非分布式模式，独立运行JAVA进程，适合开始做调试工作。二、下载地址 Hadoop 网址http:
LoadMoreListView+SwipeRefreshLayout（分页下拉）基本结构 gundumw100 android
一切为了快速迭代 import java.util.ArrayList; import org.json.JSONObject; import android.animation.ObjectAnimator; import android.os.Bundle; import android.support.v4.widget.SwipeRefreshLayo
三道简单的前端HTML/CSS题目 ini html Web 前端 css 题目
使用CSS为多个网页进行相同风格的布局和外观设置时，为了方便对这些网页进行修改，最好使用（）。http://hovertree.com/shortanswer/bjae/7bd72acca3206862.htm 在HTML中加入<table style=”color:red; font-size:10pt”>，此为（）。http://hovertree.com/s
overrided方法编译错误 kane_xie override
问题描述：在实现类中的某一或某几个Override方法发生编译错误如下： Name clash: The method put(String) of type XXXServiceImpl has the same erasure as put(String) of type XXXService but does not override it 当去掉@Over
Java中使用代理IP获取网址内容（防IP被封，做数据爬虫） mcj8089 免费代理IP 代理IP 数据爬虫 JAVA设置代理IP 爬虫封IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ Java语言有两种方式使用代理IP访问网址并获取内容，方式一，设置System系统属性 // 设置代理IP System.getProper
Nodejs Express 报错之 listen EADDRINUSE qiaolevip 每天进步一点点学习永无止境 nodejs 纵观千象
当你启动 nodejs服务报错： >node app Express server listening on port 80 events.js:85 throw er; // Unhandled 'error' event ^ Error: listen EADDRINUSE at exports._errnoException (
C++中三种new的用法 _荆棘鸟_ C++new
转载自：http://news.ccidnet.com/art/32855/20100713/2114025_1.html 作者: mt 其一是new operator，也叫new表达式；其二是operator new，也叫new操作符。这两个英文名称起的也太绝了，很容易搞混，那就记中文名称吧。new表达式比较常见，也最常用，例如： string* ps = new string("
Ruby深入研究笔记1 wudixiaotie Ruby
module是可以定义private方法的 module MTest def aaa puts "aaa" private_method end private def private_method puts "this is private_method" end end