OneFlow深度学习框架

适配PyTorch FX，OneFlow让量化感知训练更简单

作者 | 刘耀辉

审稿 | BBuf、许啸宇

背景

近年来，量化感知训练是一个较为热点的问题，可以大大优化量化后训练造成精度损失的问题，使得训练过程更加高效。

Torch.fx在这一问题上走在了前列，使用纯Python语言实现了对于Torch.nn.Module的解析和向IR的转换，也可以提供变换后的IR对应的Python代码，在外部则是提供了简洁易用的API，大大方便了量化感知训练过程的搭建。此外，Torch.fx也有助于消除动态图和静态图之间的Gap，可以比较方便地对图进行操作以及进行算子融合。

OneFlow紧随其后添加了针对OneFlow的fx，即One-fx，在安装One-fx之后，用户可以直接调用oneflow.fx，也可以直接通过import onefx as fx进行使用。

one-fx地址：
https://github.com/Oneflow-Inc/one-fx

One-fx实现代码中绝大部分是对于Torch.fx的fork，但根据OneFlow和PyTorch之间存在的差别进行了一些适配或优化。本文将围绕One-fx适配方式以及在OneFlow中的应用展开。

FX主要模块

Symbolioc Trace
Graph Module
Interpreter
Proxy
Passes

其中，前4个模块共同实现了fx的基本功能，Graph Module和Proxy又是Symbolic Trace的基础，Passes则是在此基础上的扩充。

Symbolic Trace的基本概念如上图所示，最基本的模型运行过程就是从模型定义到模型执行这样一个流程。

fx则是进行了非侵入式的解析，将模型执行过程转成一张图，这张图中包含了很多个Node，每一个Node都包含了模型中的子模块或者函数调用信息，然后用户可以很方便地获取到所有的Node，并对其进行一些变换操作，最后通过GraphModule重新生成一个模型定义，并对其执行。

其中，在进行模型解析的时候，节点之间变量传递也均使用代理后的变量，如y = oneflow.relu(x)，实际上x和y是Proxy(x)和Proxy(y)。

One-fx实现方式

这里给出一个Fx最简单的用例，以方便后续对于实现方式的介绍。

import oneflow


class MyModule(oneflow.nn.Module):
    def __init__(self):
        super().__init__()
        self.linear = oneflow.nn.Linear(512, 512)


    def forward(self, x):
        x = self.linear(x)
        y = oneflow.ones([2, 3])


        x = oneflow.relu(x)
        return y


m = MyModule()


traced = oneflow.fx.symbolic_trace(m)
print(traced.code)
"""
def forward(self, x):
    linear = self.linear(x);  x = None
    relu = oneflow.relu(linear);  linear = None
    _tensor_constant0 = self._tensor_constant0
    return _tensor_constant0
"""

‍

函数代理

代理，即fx中的Proxy模块，目的是在每次进行函数或模块调用的时候添加一些额外操作，使得对模型的解析和重建得以进行，而包装则是适配代理的一种方式。

torch.fx中，对于nn.Module的包装比较易于理解，每当待解析Module中出现了继承自nn.Module的对象，那么就将其__call__函数替换成包装过的函数。然而，对于pytorch的函数的代理的实现要更“绕”一些，是借助了__torch_function__这一机制

（https://github.com/pytorch/pytorch/blob/c7c723897658eda6298bb74d92e4bb18ab4a5fe3/torch/overrides.py），限于篇幅原因这里不专门对其进行介绍。比较关键的点是，OneFlow中没有这一机制，如果需要添加，那么会是规模很大的、侵入性的，于是One-fx的实现就需要找其它路径。

我们使用的解决方式是搜索oneflow，oneflow.nn.functional，oneflow._C等模块中的Callable，并去除其中属于类的部分，然后对其余函数进行包装，在每次解析模型之前，会将这些模块的__dict__中对应项替换成包装后的函数，并且在解析模型之后重新将这些项进行还原。对于constructor类型的函数，如ones，randn等则不进行代理，直接运行，在最终构建图的时候作为constant来处理。

对于函数的包装部分源码实现如下，每次运行代理后的函数，会先判断该函数的入参中有没有Proxy变量，如果有，那么将会创建一个call_function类型的节点并返回Proxy包装后的节点，否则直接调用原函数并返回结果。

def _create_wrapped_func(orig_fn):
    @functools.wraps(orig_fn)
    def wrapped(*args, **kwargs):
        # 判断参数中是否存在proxy变量
        proxy = _find_proxy(args, kwargs)
        if proxy is not None:
            # 如果参数中有Proxy变量，创建节点并返回Proxy包装后的节点
            return_proxy = proxy.tracer.create_proxy(
                "call_function", orig_fn, args, kwargs
            )
            return_proxy.node.meta["is_wrapped"] = True
            return return_proxy
        # 如果没有Proxy变量，直接调用原函数
        return orig_fn(*args, **kwargs)


    return wrapped

其中，return_proxy = proxy.tracer.create_proxy("call_function", orig_fn, args, kwargs)这行代码指定了使用与入参相同的Tracer来创建节点并返回结果，create_proxy函数定义的主要部分如下，创建节点并在Proxy包装后返回。

def create_proxy(self, kind: str, target: Target, args: Tuple[Any, ...], kwargs: Dict[str, Any],
                     name: Optional[str] = None, type_expr : Optional[Any] = None,
                     proxy_factory_fn: Callable[[Node], 'Proxy'] = None):
    args_ = self.create_arg(args)
    kwargs_ = self.create_arg(kwargs)
    assert isinstance(args_, tuple)
    assert isinstance(kwargs_, dict)


    # 创建节点
    node = self.create_node(kind, target, args_, kwargs_, name, type_expr)


    if not proxy_factory_fn:
        proxy = self.proxy(node)
    else:
        proxy = proxy_factory_fn(node)


    return proxy

而其中的create_node方法，实际上是调用了Tracer.graph.create_node，在图中创建节点，主要部分代码如下，其中op就是fx IR中的op，代表了节点类型，而target则是节点的操作主体，在上面的例子中就是orig_func。

因此，当我们自定义的Module中的forward函数中的所有调用都被包装之后，实际上再运行forward的时候，就会依次在Tracer.graph中创建节点，这也正是symbolic_trace的基本思路。

def create_node(self, op: str, target: 'Target',
                    args: Optional[Tuple['Argument', ...]] = None,
                    kwargs: Optional[Dict[str, 'Argument']] = None,
                    name: Optional[str] = None,
                    type_expr: Optional[Any] = None) -> Node:
    # 此处有一些assert


    # 创建一个节点名称，避免重复
    candidate = name if name is not None else self._target_to_str(target)
    name = self._graph_namespace.create_name(candidate, None)
    # 创建节点
    n = Node(self, name, op, target, args, kwargs, type_expr)


    # 建立名称与节点的映射关系
    self._graph_namespace.associate_name_with_obj(name, n)


    return n

而对于symbolic_trace过程，其核心就是Tracer.trace。这个方法可以分为两部分，一个是预处理部分，一个是主干部分。其中预处理过程大致定义如下，主要任务是初始化Graph、确立模型以及forward函数和创建包装后的参数。

如前面所提及的，symbolic trace的基本思路是借助Proxy变量以及包装后的函数，在每次调用的时候都创建一个节点，因此，forward函数的输入也需要用Proxy进行包装，这一步定义在Tracer.create_args_for_root中。

‍

def trace(
        self,
        root: Union[oneflow.nn.Module, Callable[..., Any]],
        concrete_args: Optional[Dict[str, Any]] = None,
    ) -> Graph:
    # 确定模块主体以及forward函数，其中fn即forward函数
    if isinstance(root, oneflow.nn.Module):
        self.root = root


        assert hasattr(
            type(root), self.traced_func_name
        ), f"traced_func_name={self.traced_func_name} doesn't exist in {type(root).__name__}"


        fn = getattr(type(root), self.traced_func_name)
        self.submodule_paths = {mod: name for name, mod in root.named_modules()}
    else:
        self.root = oneflow.nn.Module()
        fn = root


    tracer_cls: Optional[Type["Tracer"]] = getattr(self, "__class__", None)
    # 在Tracer中初始化一张图
    self.graph = Graph(tracer_cls=tracer_cls)
    
    self.tensor_attrs: Dict[oneflow.Tensor, str] = {}
    # 这个子函数用于收集模型中所有Tensor类型的变量
    def collect_tensor_attrs(m: oneflow.nn.Module, prefix_atoms: List[str]):
        for k, v in m.__dict__.items():
            if isinstance(v, oneflow.Tensor):
                self.tensor_attrs[v] = ".".join(prefix_atoms + [k])
        for k, v in m.named_children():
            collect_tensor_attrs(v, prefix_atoms + [k])


    collect_tensor_attrs(self.root, [])


    assert isinstance(fn, FunctionType)


    # 获取fn所在模块的所有可读变量
    fn_globals = fn.__globals__
    # 创建包装后的参数
    fn, args = self.create_args_for_root(
        fn, isinstance(root, oneflow.nn.Module), concrete_args
    )

随后则是trace的主干部分，这一部分大致代码如下，主要任务是对函数、方法、模块进行必要的包装，然后在Graph中创建节点，完成整个图的信息。

其中，我们会创建一个Patcher环境并在其中进行这些过程，这是因为对于函数和方法的包装会直接改变掉某些包中对应函数或方法的行为，为了不让这种行为的改变溢出到trace的范围之外，在每次进行包装的时候会在Patcher中记录本次操作，然后在_Patcher.__exit__中根据记录的操作一一还原现场。

# 下面代码仍然是`trace`函数的一部分


# 定义对于`nn.Module`的getattr方法的包装
@functools.wraps(_orig_module_getattr)
def module_getattr_wrapper(mod, attr):
    attr_val = _orig_module_getattr(mod, attr)
    return self.getattr(attr, attr_val, parameter_proxy_cache)


# 定义对于`nn.Module`的forward方法的包装
@functools.wraps(_orig_module_call)
def module_call_wrapper(mod, *args, **kwargs):
    def forward(*args, **kwargs):
        return _orig_module_call(mod, *args, **kwargs)


    _autowrap_check(
        patcher,
        getattr(getattr(mod, "forward", mod), "__globals__", {}),
        self._autowrap_function_ids,
    )
    return self.call_module(mod, forward, args, kwargs)
# 这里Patcher的作用是在退出这一环境的时候恢复现场，避免包装函数、方法的影响溢出到`trace`之外。
with _Patcher() as patcher:
    # 对`__getattr__`和`nn.Module.__call__`这两个方法默认进行包装
    patcher.patch_method(
        oneflow.nn.Module,
        "__getattr__",
        module_getattr_wrapper,
        deduplicate=False,
    )
    patcher.patch_method(
        oneflow.nn.Module, "__call__", module_call_wrapper, deduplicate=False
    )
    # 对预定好需要进行包装的函数进行包装
    _patch_wrapped_functions(patcher)
    _autowrap_check(patcher, fn_globals, self._autowrap_function_ids)
    # 遍历所有需要对其中函数进行自动包装的package
    for module in self._autowrap_search:
        if module is oneflow:
            dict = {}
            # 当package为oneflow时，对此进行特殊处理，单独分出一个字典存放原本`oneflow.__dict__`中的内容
            for name, value in module.__dict__.items():
                if not isinstance(value, oneflow.nn.Module) and not value in _oneflow_no_wrapped_functions:
                    dict[name] = value
            _autowrap_check_oneflow(
                patcher, dict, module.__dict__, self._autowrap_function_ids
            )
        else:
            _autowrap_check(
                patcher, module.__dict__, self._autowrap_function_ids
            )
    # 创建节点，这里的`create_node`调用实际上只是创建了最后一个节点，即输出节点。
    # 但是这里`fn`就是forward函数，在运行这一函数的时候，就会如前面所说依次创建节点。
    self.create_node(
        "output",
        "output",
        (self.create_arg(fn(*args)),),
        {},
        type_expr=fn.__annotations__.get("return", None),
    )

‍

其中，_patch_wrapped_functions的实现如下：

def _patch_wrapped_functions(patcher: _Patcher):
    # `_wrapped_fns_to_patch`中包含了所有需要自动包装的函数
    for frame_dict, name in _wrapped_fns_to_patch:
        if name not in frame_dict:
            if hasattr(builtins, name):
                # 对于built-in函数，不存在于frame_dict中，单独进行处理来根据名称获取函数本身
                orig_fn = getattr(builtins, name)
            else:
                # 如果是oneflow中指定需要包装的函数，那么就进行获取，否则抛出名称无法识别的异常
                is_oneflow_wrapped_function, func = is_oneflow_wrapped_function_and_try_get(name)
                if is_oneflow_wrapped_function:
                    orig_fn = func
                else:
                    raise NameError("Cannot deal with the function %s."%name)
        else:
            # 如果函数名称已经存在于frame_dict中，直接通过字典查询来获得函数
            orig_fn = frame_dict[name]
        # 创建包装后的函数并进行`patch`，即定义当trace过程结束的时候，如何还原现场
        patcher.patch(frame_dict, name, _create_wrapped_func(orig_fn))
    
    # 对于类中的方法，直接包装并patch。
    for cls, name in _wrapped_methods_to_patch:
        patcher.patch_method(cls, name, _create_wrapped_method(cls, name))

‍

全局包装

在模型的forward函数中，我们有时不仅会用到框架自带的模块或者函数，有点时候还需要用到自定义的函数或者built-in函数，对于这种情况如果不进行处理，那么自然无法接受Proxy(x)的入参。fx中提供了fx.wrap这一API，当用户需要调用这部分函数的时候，可以实现使用fx.wrap(func)使其被包装。

例如：

import oneflow


oneflow.fx.wrap(len)
class MyModule(oneflow.nn.Module):
    def __init__(self):
        super().__init__()
        self.linear = oneflow.nn.Linear(512, 512)


    def forward(self, x):
        x = self.linear(x) + len(x.shape)
        return x


traced = oneflow.fx.symbolic_trace(MyModule())
print(traced.code)
"""
def forward(self, x):
    linear = self.linear(x)
    getattr_1 = x.shape;  x = None
    len_1 = len(getattr_1);  getattr_1 = None
    add = linear + len_1;  linear = len_1 = None
    return add
"""

‍

但是其局限性在于，如果Module的源代码是来自其它库，那么在调用的地方使用fx.wrap是不起作用的，在oneflow和torch中都会有这一问题。然而flowvision中有多处使用了built-in function，因此我们添加了一个API，即global_wrap，原理比较简单，就是直接对某个函数所在的包的__dict__进行修改，用法如下：

# MyModule来自其它包
with oneflow.fx.global_wrap(len):
    m = MyModule()


    traced = oneflow.fx.symbolic_trace(m)
    print(traced.code)
    """
    def forward(self, x):
        linear = self.linear(x);  x = None
        getattr_1 = linear.shape
        len_1 = len(getattr_1);  getattr_1 = None
        relu = oneflow.relu(linear);  linear = None
        add = relu + len_1;  relu = len_1 = None
        return add
    """

‍

使用with关键字的原因是这种实现方式是直接修改了某个包的__dict__，对于其它地方的调用也会产生影响，因此需要将其限制在一定范围内。此外，包装后的函数包含了对类型的判定等一系列操作，也会极大影响built-in函数的性能。

其它适配

其它地方的处理都比较简单，不需要对实现方式做修改，只需要将细节部分对齐即可，这也体现出oneflow和pytorch在前端部分的高度兼容性。

IR设计

fx的IR设计遵循以下几个原则：

避免支持长尾分布，复杂的样例。主要关注经典模型的程序捕获和变换。
使用机器学习从业者已经熟悉的工具和概念，例如Python的数据结构和 PyTorch 中公开记录的算子。
使程序捕获过程具有高度可配置性，以便用户可以为长尾需求实现自己的解决方案。

fx的IR主要由几个部分组成;

opcode：即当前操作的类型，可以是placeholder, get_attr, call_function, call_method, call_module, output
name：即给当前操作的命名。
target：当前操作的实体，例如对于call_function类型的操作，可能这一属性会是

。
args和kwargs：指定当前操作的参数。

通过print_tabular这一API可以很方便美观地打印出fx中的IR，例如对于以下的MyModule模型，我们可以打印出其IR：

import oneflow


class MyModule(oneflow.nn.Module):
    def __init__(self, do_activation : bool = False):
        super().__init__()
        self.do_activation = do_activation
        self.linear = oneflow.nn.Linear(512, 512)


    def forward(self, x):
        x = self.linear(x)
        y = oneflow.ones([2, 3])


        x = oneflow.topk(x, 10)
        return x.relu() + y


traced = oneflow.fx.symbolic_trace(MyModule())
traced.graph.print_tabular()


"""
opcode         name               target                    args                       kwargs
-------------  -----------------  ------------------------  -------------------------  --------
placeholder    x                  x                         ()                         {}
call_module    linear             linear                    (x,)                       {}
call_function  topk                 (linear, 10)               {}
call_method    relu               relu                      (topk,)                    {}
get_attr       _tensor_constant0  _tensor_constant0         ()                         {}
call_function  add                   (relu, _tensor_constant0)  {}
output         output             output                    (add,)                     {}
"""

尽管fx的IR不算强大（例如不能处理动态控制流），但是定义非常简洁，实现简单，对于用户来讲上手门槛相对低很多。

One-fx应用举例

OP替换

下面的例子展示了如何将add操作全部替换成mul操作。

import oneflow
from oneflow.fx import symbolic_trace
import operator


class M(oneflow.nn.Module):
    def forward(self, x, y):
        return x + y, oneflow.add(x, y), x.add(y)


if __name__ == '__main__':
    traced = symbolic_trace(M())


    patterns = set([operator.add, oneflow.add, "add"])


    for n in traced.graph.nodes:
        if any(n.target == pattern for pattern in patterns):
            with traced.graph.inserting_after(n):
                new_node = traced.graph.call_function(oneflow.mul, n.args, n.kwargs)
                n.replace_all_uses_with(new_node)
            traced.graph.erase_node(n)


    traced.recompile()


    traced.graph.print_tabular()


    print(traced.code)

‍

性能分析

以下代码展示如何使用fx进行模型的性能分析，将原本的模型通过symbolic_trace解析成各个节点，再在其中插入测试性能的操作。

import oneflow
import flowvision.models as models
import statistics, tabulate, time
from typing import Any, Dict, List


class ProfilingInterpreter(oneflow.fx.Interpreter):
    def __init__(self, mod : oneflow.nn.Module):
        gm = oneflow.fx.symbolic_trace(mod)
        super().__init__(gm)


        # 记录总运行时间
        self.total_runtime_sec : List[float] = []
        # 记录各个节点运行时间
        self.runtimes_sec : Dict[oneflow.fx.Node, List[float]] = {}


    # 重写`run`方法，本质上是对基类`run`方法的简单封装，在运行前后记录时间点。
    # 这一方法是Graph整体运行的入口。
    def run(self, *args) -> Any:
        t_start = time.time()
        return_val = super().run(*args)
        t_end = time.time()
        self.total_runtime_sec.append(t_end - t_start)
        return return_val


    # 同上，重写`run_node`方法，不需要自己写细节实现，只需要在对基类的`run_node`调用前后记录时间点即可
    # 这一方法是Graph中运行每个Node的入口。
    def run_node(self, n : oneflow.fx.Node) -> Any:
        t_start = time.time()
        return_val = super().run_node(n)
        t_end = time.time()
        self.runtimes_sec.setdefault(n, [])
        self.runtimes_sec[n].append(t_end - t_start)
        return return_val


    # 定义如何打印性能测试结果
    def summary(self, should_sort : bool = False) -> str:
        # 存储每个节点的打印信息
        node_summaries : List[List[Any]] = []
        # 由于模块会被调用多次，所以这里计算一下平均的运行总时长
        mean_total_runtime = statistics.mean(self.total_runtime_sec)


        for node, runtimes in self.runtimes_sec.items():
            mean_runtime = statistics.mean(runtimes)
            # 计算节点运行时间占总时间的比例
            pct_total = mean_runtime / mean_total_runtime * 100
            # 记录节点信息、节点平均运行时长和节点运行时间占总时间的比例
            node_summaries.append(
                [node.op, str(node), mean_runtime, pct_total])


        # 如果需要，安按照运行时间进行排序
        if should_sort:
            node_summaries.sort(key=lambda s: s[2], reverse=True)


        # 以下是借助tabulate库进行格式化来美化显示效果
        headers : List[str] = [
            'Op type', 'Op', 'Average runtime (s)', 'Pct total runtime'
        ]
        return tabulate.tabulate(node_summaries, headers=headers)




if __name__ == '__main__':
    rn18 = models.resnet18()
    rn18.eval()
    input = oneflow.randn(5, 3, 224, 224)
    output = rn18(input)
    interp = ProfilingInterpreter(rn18)
    interp.run(input)
    print(interp.summary(True))

‍

效果如下：

算子融合

以下代码演示如何借助fx将模型中的卷积层和BN层进行融合，对于这种组合，并不需要引入新的算子，只需要对原本conv的权重进行操作即可。可以参考：https://nenadmarkus.com/p/fusing-batchnorm-and-conv/。

import sys
import oneflow
import oneflow.nn as nn
import numpy as np
import copy
from typing import Dict, Any, Tuple


# 通过直接对权重进行运算的方式进行Conv和BN的融合
def fuse_conv_bn_eval(conv, bn):
    assert(not (conv.training or bn.training)), "Fusion only for eval!"
    fused_conv = copy.deepcopy(conv)


    fused_conv.weight, fused_conv.bias = \
        fuse_conv_bn_weights(fused_conv.weight, fused_conv.bias,
                             bn.running_mean, bn.running_var, bn.eps, bn.weight, bn.bias)


    return fused_conv


# 权重融合方式
def fuse_conv_bn_weights(conv_w, conv_b, bn_rm, bn_rv, bn_eps, bn_w, bn_b):
    if conv_b is None:
        conv_b = oneflow.zeros_like(bn_rm)
    if bn_w is None:
        bn_w = oneflow.ones_like(bn_rm)
    if bn_b is None:
        bn_b = oneflow.zeros_like(bn_rm)
    bn_var_rsqrt = oneflow.rsqrt(bn_rv + bn_eps)


    conv_w = conv_w * (bn_w * bn_var_rsqrt).reshape([-1] + [1] * (len(conv_w.shape) - 1))
    conv_b = (conv_b - bn_rm) * bn_var_rsqrt * bn_w + bn_b


    return oneflow.nn.Parameter(conv_w), oneflow.nn.Parameter(conv_b)


# 根据字符串对名称进行分割，比如`foo.bar.baz` -> (`foo.bar`, `baz`)
def _parent_name(target : str) -> Tuple[str, str]:
    *parent, name = target.rsplit('.', 1)
    return parent[0] if parent else '', name


def replace_node_module(node: oneflow.fx.Node, modules: Dict[str, Any], new_module: oneflow.nn.Module):
    assert(isinstance(node.target, str))
    parent_name, name = _parent_name(node.target)
    setattr(modules[parent_name], name, new_module)


# 定义对模型进行融合操作的过程
def fuse(model: oneflow.nn.Module) -> oneflow.nn.Module:
    model = copy.deepcopy(model)
    # 先通过fx.symbolic_trace获取一个GraphModule
    fx_model: oneflow.fx.GraphModule = oneflow.fx.symbolic_trace(model)
    modules = dict(fx_model.named_modules())


    # 遍历GraphModule中的所有节点，分别进行操作
    for node in fx_model.graph.nodes:
        # 跳过所有不是module的节点
        if node.op != 'call_module':
            continue
        # 检测到conv+bn的结构后进行融合操作
        if type(modules[node.target]) is nn.BatchNorm2d and type(modules[node.args[0].target]) is nn.Conv2d:
            # conv的输出同时被其它节点使用，即conv后连接两个节点时无法融合
            if len(node.args[0].users) > 1:
                continue
            conv = modules[node.args[0].target]
            bn = modules[node.target]
            fused_conv = fuse_conv_bn_eval(conv, bn)
            replace_node_module(node.args[0], modules, fused_conv)
            # 对图中的边进行置换，对于用到bn输出的节点，要更改它们的输入
            node.replace_all_uses_with(node.args[0])
            # 移除旧的节点
            fx_model.graph.erase_node(node)
    fx_model.graph.lint()
    # 重新建图（构造模型）
    fx_model.recompile()
    return fx_model




if __name__ == '__main__':
    # 以下引入flowvision中的resnet 18模型，并进行融合前后的benchmark比较
    import flowvision.models as models
    import time


    rn18 = models.resnet18().cuda()
    rn18.eval()


    inp = oneflow.randn(10, 3, 224, 224).cuda()
    output = rn18(inp)


    def benchmark(model, iters=20):
        for _ in range(10):
            model(inp)
        oneflow.cuda.synchronize()
        begin = time.time()
        for _ in range(iters):
            model(inp)
        return str(time.time()-begin)


    fused_rn18 = fuse(rn18)
    unfused_time = benchmark(rn18)
    fused_time = benchmark(fused_rn18)
    print("Unfused time: ", benchmark(rn18))
    print("Fused time: ", benchmark(fused_rn18))
    assert unfused_time > fused_time

‍

未来计划

基于fx进行8bit量化感知训练和部署
基于fx进行算子融合
eager模式下基于fx获得模型更精确的FLOPs和MACs结果

参考文献

1.https://pytorch.org/docs/stable/fx.html

2.https://github.com/Oneflow-Inc/one-fx

3.https://pytorch.org/tutorials/intermediate/fx_conv_bn_fuser.html

4.https://pytorch.org/tutorials/intermediate/fx_profiling_tutorial.html

5.https://zhuanlan.zhihu.com/p/449908382

其他人都在看

深度学习框架量化感知训练的思考
GPT-3/ChatGPT复现的经验教训
超越ChatGPT：大模型的智能极限
Jasper狂飙：AIGC现象级应用的增长秘笈
比快更快，开源Stable Diffusion刷新作图速度
OneEmbedding:单卡训练TB级推荐模型不是梦
GLM训练加速：性能最高提升3倍，显存节省1/3

欢迎Star、试用OneFlow最新版本：GitHub - Oneflow-Inc/oneflow: OneFlow is a deep learning framework designed to be user-friendly, scalable and efficient.OneFlow is a deep learning framework designed to be user-friendly, scalable and efficient. - GitHub - Oneflow-Inc/oneflow: OneFlow is a deep learning framework designed to be user-friendly, scalable and efficient.https://github.com/Oneflow-Inc/oneflow/

Disable checkingPremium suggestions

你可能感兴趣的:(前沿技术,pytorch,oneflow,深度学习,人工智能,量化感知训练)

PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
数字孪生技术为UI前端注入新活力：实现产品设计的沉浸式体验 ui设计前端开发老司机 ui
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“平面交互”到“沉浸体验”的UI革命当用户在电商APP中翻看3D家具模型却无法感知其与自家客厅的匹配度，当设计师在2D屏幕上绘制汽车内饰却难以预判实际乘坐体验——传统UI设计的“平面化、静态化、割裂感”
AI音乐模拟器：AIGC时代的智能音乐创作革命 lauo 人工智能 AIGC 开源前端机器人
AI音乐模拟器：AIGC时代的智能音乐创作革命引言：AIGC浪潮下的音乐创作新范式在数字化转型的浪潮中，人工智能生成内容（AIGC）正在重塑各个创意领域。音乐产业作为创意经济的重要组成部分，正经历着前所未有的变革。据最新市场研究数据显示，全球AI音乐市场规模预计将从2023年的5.8亿美元增长到2030年的26.8亿美元，年复合增长率高达24.3%。这一快速增长的市场背后，是AI音乐技术正在打破传
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
什么是RFM模型走过冬季学习笔记大数据数据分析
RFM模型是客户价值分析中一种经典且实用的量化模型，它通过三个关键维度评估用户价值，帮助企业识别最有价值的客户群体。名称RFM由三个核心指标的英文首字母组成：R（Recency）-最近一次消费时间定义：用户上一次发生交易行为距今的时间长度（如多少天前）。意义：衡量用户的活跃度和流失风险。R值越小（最近有消费），说明用户越活跃，流失风险越低；R值越大（很久没消费），用户流失风险越高。母婴场景示例：一
数据分析常用指标名词解释及计算公式走过冬季学习笔记数据分析大数据
数据分析中有大量常用指标，它们帮助我们量化业务表现、用户行为、产品健康度等。下面是一些核心指标的名词解释及计算方式，按常见类别分类：一、流量与用户规模指标页面浏览量名词解释：用户访问网站或应用时，每次加载或刷新一个页面就算一次PV。它衡量的是页面被打开的总次数。计算方式：PV=∑(所有页面被加载的次数)(通常由埋点或日志直接统计)独立访客数名词解释：在特定时间范围内（如一天、一周、一月），访问网站
视频分析：让AI看懂动态画面随机森林404 计算机视觉音视频人工智能 microsoft
引言：动态视觉理解的革命在数字信息爆炸的时代，视频已成为最主要的媒介形式。据统计，每分钟有超过500小时的视频内容被上传到YouTube平台，而全球互联网流量的82%来自视频数据传输。面对如此海量的视频内容，传统的人工处理方式已无法满足需求，这正是人工智能视频分析技术大显身手的舞台。视频分析技术赋予机器"看懂"动态画面的能力，使其能够自动理解、解释甚至预测视频中的内容，这一突破正在彻底改变我们与视
【Qualcomm】高通SNPE框架简介、下载与使用 Jackilina_Stone 人工智能 Qualcomm SNPE
目录一高通SNPE框架1SNPE简介2QNN与SNPE3Capabilities4工作流程二SNPE的安装与使用1下载2Setup3SNPE的使用概述一高通SNPE框架1SNPE简介SNPE（SnapdragonNeuralProcessingEngine），是高通公司推出的面向移动端和物联网设备的深度学习推理框架。SNPE提供了一套完整的深度学习推理框架，能够支持多种深度学习模型，包括Pytor
vllm本地部署bge-reranker-v2-m3模型API服务实战教程雷电法王大模型部署 linux python vscode language model
文章目录一、说明二、配置环境2.1安装虚拟环境2.2安装vllm2.3对应版本的pytorch安装2.4安装flash_attn2.5下载模型三、运行代码3.1启动服务3.2调用代码验证一、说明本文主要介绍vllm本地部署BAAI/bge-reranker-v2-m3模型API服务实战教程本文是在Ubuntu24.04+CUDA12.8+Python3.12环境下复现成功的二、配置环境2.1安装虚
模型训练与部署注意事项篇---resize Atticus-Orion 图像处理篇深度学习篇模型训练与部署注意事项篇深度学习计算机视觉人工智能
图像大小的影响在YOLOv系列模型的训练和推理部署过程中，图像大小的选择是影响模型性能（精度、速度、泛化能力）的关键因素之一。两者的关系既相互关联，又存在一定的灵活性，具体可从以下几个方面详细分析：一、核心关系：训练与推理图像大小的“基准一致性”YOLOv模型（如YOLOv5、v7、v8等）的训练和推理图像大小通常以**“基准尺寸”**为核心关联，即训练时设定的图像尺寸会作为模型设计的基础，而推理
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
LLM-生成器判别器的实现
总结首先，使用GPT模型获取每个词的生成概率pLLMp_{LLM}pLLM。然后，使用训练好的生成判别器，对每个可能的生成结果进行打分，得到pθ(c∣x1:t)p_\theta(c|x_{1:t})pθ(c∣x1:t)。最后，结合两者的输出，用贝叶斯规则调整每个词的概率，选择调整后的概率最高的词作为输出。通过这样的组合，生成过程可以更好地满足预期需求，如生成符合特定风格或格式的文本。要在使用已经预
法律科技领域人工智能代理构建的十个经验教训，一位人工智能工程师通过构建、部署和维护智能代理的经验教训来优化法律工作流程的历程。知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 ai
目录介绍什么是代理人？为什么它对法律如此重要？法律技术中代理用例示例-合同审查代理-法律研究代理在LegalTech中使用代理的十个教训-教训1：即使代理很酷，它们也不能解决所有问题-教训2：选择最适合您用例的框架-教训3：能够快速迭代不同的模型-教训4：从简单开始，必要时扩展-教训5：使用跟踪解决方案；您将需要它-教训6：确保跟踪成本，代理循环可能很昂贵-教训7：将控制权交给最终用户（人在环路中
24GB GPU 中的 DeepSeek R1：Unsloth AI 针对 671B 参数模型进行动态量化知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 deepseek ollama
简介最初的DeepSeekR1是一个拥有6710亿个参数的语言模型，UnslothAI团队对其进行了动态量化，将模型大小减少了80%（从720GB减少到131GB），同时保持了强大的性能。当添加模型卸载功能时，该模型可以在24GBVRAM下以低令牌/秒的推理速度运行。推荐文章《本地构建AI智能分析助手之01快速安装，使用PandasAI和Ollama进行数据分析，用自然语言向你公司的数据提问为决策
在 Obsidian 中本地使用 DeepSeek — 无需互联网！知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 deepseek
简介您是否想在Obsidian内免费使用类似于ChatGPT的本地LLM？如果是，那么本指南适合您！我将引导您完成在Obsidian中安装和使用DeepSeek-R1模型的确切步骤，这样您就可以在笔记中拥有一个由AI驱动的第二大脑。推荐文章《24GBGPU中的DeepSeekR1：UnslothAI针对671B参数模型进行动态量化》权重1，DeepSeek类《在RaspberryPi上运行语音识别
使用 DeepSeek R1 和 Ollama 开发 RAG 系统使用 DeepSeek R1 和 Ollama 构建强大的 RAG 系统。了解开发智能 AI 解决方案的设置过程、最佳实践和技巧。知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 deepseek ollama
简介DeepSeekR1和Ollama提供了用于构建检索增强生成(RAG)系统的强大工具。本指南介绍了使用这些技术开发RAG应用程序的设置、实施和最佳实践。为什么RAG系统会改变游戏规则检索增强生成(RAG)系统结合了搜索和生成AI的优点，可实现精确且准确的情境感知响应。借助DeepSeekR1和Ollama等工具，创建RAG系统不再令人生畏。无论您是构建聊天机器人、知识助手还是AI驱动的搜索引擎
Llama-Omni会说话的人工智能“语音到语音LLM” 利用低延迟、高质量语音转语音 AI 彻底改变对话方式（教程含源码）知识大胖 NVIDIA GPU和大语言模型开发教程 llama 人工智能 nvidia llm
介绍“单靠技术是不够的——技术与文科、人文学科的结合，才能产生让我们心花怒放的成果。”——史蒂夫·乔布斯近年来，人机交互领域发生了重大变化，尤其是随着ChatGPT、GPT-4等大型语言模型(LLM)的出现。虽然这些模型主要基于文本，但人们对语音交互的兴趣日益浓厚，以使人机对话更加无缝和自然。然而，实现语音交互而不受语音转文本处理中常见的延迟和错误的影响仍然是一个挑战。关键字：Llama-Omni
NVIDIA 系列之使用生成式 AI 增强 ROS2 机器人技术：使用 BLIP 和 Isaac Sim 进行实时图像字幕制作知识大胖 NVIDIA GPU和大语言模型开发教程人工智能机器人
简介在快速发展的机器人领域，集成先进的AI模型可以显著增强机器人系统的功能。在本博客中，我们将探讨如何在ROS2（机器人操作系统2）环境中利用BLIP（引导语言图像预训练）模型进行实时图像字幕制作，并使用NVIDIAIsaacSim进行模拟。我们将介绍如何实现一个ROS2节点，该节点订阅摄像头源、应用BLIP模型进行图像字幕制作，并实时显示结果。这种集成展示了生成式AI在增强人机交互方面的强大功能
卫星分析系列之使用卫星图像量化野火烧毁面积在 Google Colab 中使用 Python 使用 Sentinel-2 图像确定森林火灾烧毁面积知识大胖 NVIDIA GPU和大语言模型开发教程 python sentinel 开发语言
简介几年前，当大多数气候模型预测如果我们不采取必要措施，洪水、热浪和野火将会发生更多时，我没想到这些不寻常的灾难现象会成为常见事件。其中，野火每年摧毁大量森林面积。如果你搜索不同地方的重大野火表格，你会发现令人震惊的统计数据，显示由于野火，地球上有多少森林面积正在消失。在本教程中，我将结合我已经发表过的关于下载、处理卫星图像和可视化野火的故事，量化加州发生的其中一场重大野火的烧毁面积。与之前的帖子
什么是热力学计算？它如何帮助人工智能发展？知识大胖 NVIDIA GPU和大语言模型开发教程人工智能量子计算
现代计算的基础是晶体管，这是一种微型电子开关，可以用它构建逻辑门，从而创建CPU或GPU等复杂的数字电路。随着技术的进步，晶体管变得越来越小。根据摩尔定律，集成电路中晶体管的数量大约每两年增加一倍。这种指数级增长使得计算技术呈指数级发展。然而，晶体管尺寸的缩小是有限度的。我们很快就会达到晶体管无法工作的阈值。此外，人工智能的进步使得对计算能力的需求比以往任何时候都更加迫切。根本问题是自然是随机的（
上海交大：工具增强推理agent
标题：SciMaster:TowardsGeneral-PurposeScientificAIAgentsPartI.X-MasterasFoundation-CanWeLeadonHumanity’sLastExam?来源：arXiv,2507.05241摘要人工智能代理的快速发展激发了利用它们加速科学发现的长期雄心。实现这一目标需要深入了解人类知识的前沿。因此，人类的最后一次考试（HLE）为评
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
【AI大模型】LLM模型架构深度解析：BERT vs. GPT vs. T5 我爱一条柴ya 学习AI记录 ai 人工智能 AI编程 python
引言Transformer架构的诞生（Vaswanietal.,2017）彻底改变了自然语言处理（NLP）。在其基础上，BERT、GPT和T5分别代表了三种不同的模型范式，主导了预训练语言模型的演进。理解它们的差异是LLM开发和学习的基石。一、核心架构对比特性BERT(BidirectionalEncoder)GPT(GenerativePre-trainedTransformer)T5(Text
[论文阅读]Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smal 0x211 论文阅读语言模型人工智能自然语言处理
中文译名：逐步蒸馏！以较少的训练数据和较小的模型规模超越较大的语言模型发布链接：http://arxiv.org/abs/2305.02301AcceptedtoFindingsofACL2023阅读原因：近期任务需要用到蒸馏操作，了解相关知识核心思想：改变视角。原来的视角：把LLMs视为噪声标签的来源。现在的视角：把LLMs视为能够推理的代理。方法好在哪？需要的数据量少，得到的结果好。文章的方法
AI人工智能浪潮中文心一言的独特优势
AI人工智能浪潮中文心一言的独特优势：为什么它是中国市场的“AI主力军”？关键词：文心一言,AI大模型,中文处理,多模态融合,产业落地,安全可控,百度ERNIE摘要：在全球AI大模型浪潮中，百度文心一言（ERNIEBot）凭借“懂中文、会多模态、能落地、守规矩”的四大核心优势，成为中国市场最具竞争力的AI产品之一。本文将用“超级大脑”的比喻，从中文理解、多模态能力、产业生态融合、安全可控性四个维度
正义的算法迷宫—人工智能重构司法体系的技术悖论与文明试炼
一、法庭的数字化迁徙当美国威斯康星州法院采纳COMPAS算法评估被告再犯风险，当中国"智慧法院"系统年处理1.2亿件案件，司法体系正经历从石柱法典到代码裁判的范式革命。这场转型的核心驱动力是司法效率与公正的永恒张力：美国重罪案件平均审理周期达18个月，中国基层法官年人均结案357件（是德国同行的6倍），而算法能在0.3秒内完成百万份文书比对。人工智能渗透司法引发三重裂变：证据分析从经验推断转向数据
NumPy-@运算符详解 GG不是gg numpy numpy
NumPy-@运算符详解一、@运算符的起源与设计目标1.从数学到代码：符号的统一2.设计目标二、@运算符的核心语法与运算规则1.基础用法：二维矩阵乘法2.一维向量的矩阵语义3.高维数组：批次矩阵运算4.广播机制：灵活的形状匹配三、@运算符与其他乘法方式的核心区别1.对比`np.dot()`2.对比元素级乘法`*`3.对比`np.matrix`的`*`运算符四、典型应用场景：从基础到高阶1.深度学习
关于旗正规则引擎规则中的上传和下载问题何必如此文件下载压缩 jsp 文件上传
文件的上传下载都是数据流的输入输出，大致流程都是一样的。一、文件打包下载 1.文件写入压缩包 string mainPath="D:\upload\"; 下载路径 string tmpfileName=jar.zip; &n
【Spark九十九】Spark Streaming的batch interval时间内的数据流转源码分析 bit1129 Stream
以如下代码为例（SocketInputDStream）： Spark Streaming从Socket读取数据的代码是在SocketReceiver的receive方法中，撇开异常情况不谈(Receiver有重连机制，restart方法，默认情况下在Receiver挂了之后，间隔两秒钟重新建立Socket连接)，读取到的数据通过调用store(textRead)方法进行存储。数据
spark master web ui 端口8080被占用解决方法 daizj 8080 端口占用 spark master web ui
spark master web ui 默认端口为8080，当系统有其它程序也在使用该接口时，启动master时也不会报错，spark自己会改用其它端口，自动端口号加1，但为了可以控制到指定的端口，我们可以自行设置，修改方法： 1、cd SPARK_HOME/sbin 2、vi start-master.sh 3、定位到下面部分
oracle_执行计划_谓词信息和数据获取周凡杨 oracle 执行计划
oracle_执行计划_谓词信息和数据获取(上) 一：简要说明在查看执行计划的信息中，经常会看到两个谓词filter和access，它们的区别是什么，理解了这两个词对我们解读Oracle的执行计划信息会有所帮助。简单说，执行计划如果显示是access，就表示这个谓词条件的值将会影响数据的访问路径（表还是索引），而filter表示谓词条件的值并不会影响数据访问路径，只起到
spring中datasource配置 g21121 dataSource
datasource配置有很多种，我介绍的一种是采用c3p0的，它的百科地址是： http://baike.baidu.com/view/920062.htm  <bean name="propertiesConfig" class="org.springframework.b
web报表工具FineReport使用中遇到的常见报错及解决办法（三）老A不折腾 finereport FAQ 报表软件
这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、repeated column width is largerthan paper width：这个看这段话应该是很好理解的。比如做的模板页面宽度只能放
mysql 用户管理墙头上一根草 linux mysql user
1.新建用户 //登录MYSQL@>mysql -u root -p@>密码//创建用户mysql> insert into mysql.user(Host,User,Password) values(‘localhost’,'jeecn’,password(‘jeecn’));//刷新系统权限表mysql>flush privileges;这样就创建了一个名为：
关于使用Spring导致c3p0数据库死锁问题 aijuans spring Spring 入门 Spring 实例 Spring3 Spring 教程
这个问题我实在是为整个 springsource 的员工蒙羞如果大家使用 spring 控制事务，使用 Open Session In View 模式， com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.
百度词库联想 annan211 百度
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> <title>RunJS</title&g
int数据与byte之间的相互转换实现代码百合不是茶位移 int转byte byte转int 基本数据类型的实现
在BMP文件和文件压缩时需要用到的int与byte转换,现将理解的贴出来; 主要是要理解;位移等概念 http://baihe747.iteye.com/blog/2078029 int转byte; byte转int; /** * 字节转成int,int转成字节 * @author Administrator *
简单模拟实现数据库连接池 bijian1013 java thread java多线程简单模拟实现数据库连接池
简单模拟实现数据库连接池实例1： package com.bijian.thread; public class DB { //private static final int MAX_COUNT = 10; private static final DB instance = new DB(); private int count = 0; private i
一种基于Weblogic容器的鉴权设计 bijian1013 java weblogic
服务器对请求的鉴权可以在请求头中加Authorization之类的key，将用户名、密码保存到此key对应的value中，当然对于用户名、密码这种高机密的信息，应该对其进行加砂加密等，最简单的方法如下： String vuser_id = "weblogic"; String vuse
【RPC框架Hessian二】Hessian 对象序列化和反序列化 bit1129 hessian
任何一个对象从一个JVM传输到另一个JVM，都要经过序列化为二进制数据(或者字符串等其他格式，比如JSON)，然后在反序列化为Java对象，这最后都是通过二进制的数据在不同的JVM之间传输(一般是通过Socket和二进制的数据传输)，本文定义一个比较符合工作中。 1. 定义三个POJO Person类 package com.tom.hes
【Hadoop十四】Hadoop提供的脚本的功能 bit1129 hadoop
1. hadoop-daemon.sh 1.1 启动HDFS ./hadoop-daemon.sh start namenode ./hadoop-daemon.sh start datanode 通过这种逐步启动的方式，比start-all.sh方式少了一个SecondaryNameNode进程，这不影响Hadoop的使用，其实在 Hadoop2.0中，SecondaryNa
中国互联网走在“灰度”上 ronin47 管理灰度
中国互联网走在“灰度”上（转）文/孕峰第一次听说灰度这个词，是任正非说新型管理者所需要的素质。第二次听说是来自马化腾。似乎其他人包括马云也用不同的语言说过类似的意思。灰度这个词所包含的意义和视野是广远的。要理解这个词，可能同样要用“灰度”的心态。灰度的反面，是规规矩矩，清清楚楚，泾渭分明，严谨条理，是决不妥协，不转弯，认死理。黑白分明不是灰度，像彩虹那样
java-51-输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。 bylijinnan java
public class PrintMatrixClockwisely { /** * Q51.输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。例如：如果输入如下矩阵： 1 2 3 4 5 6 7 8 9
mongoDB 用户管理开窍的石头 mongoDB用户管理
1:添加用户第一次设置用户需要进入admin数据库下设置超级用户（use admin） db.addUsr({user:'useName',pwd:'111111',roles:[readWrite,dbAdmin]}); 第一个参数用户的名字第二个参数
[游戏与生活]玩暗黑破坏神3的一些问题 comsci 生活
暗黑破坏神3是有史以来最让人激动的游戏。。。。但是有几个问题需要我们注意玩这个游戏的时间，每天不要超过一个小时，且每次玩游戏最好在白天结束游戏之后，最好在太阳下面来晒一下身上的暗黑气息，让自己恢复人的生气 &nb
java 二维数组如何存入数据库 cuiyadll java
using System; using System.Linq; using System.Text; using System.Windows.Forms; using System.Xml; using System.Xml.Serialization; using System.IO; namespace WindowsFormsApplication1 {
本地事务和全局事务Local Transaction and Global Transaction(JTA) darrenzhu java spring local global transaction
Configuring Spring and JTA without full Java EE http://spring.io/blog/2011/08/15/configuring-spring-and-jta-without-full-java-ee/ Spring doc -Transaction Management http://docs.spring.io/spri
Linux命令之alias - 设置命令的别名，让 Linux 命令更简练 dcj3sjt126com linux alias
用途说明设置命令的别名。在linux系统中如果命令太长又不符合用户的习惯，那么我们可以为它指定一个别名。虽然可以为命令建立“链接”解决长文件名的问题，但对于带命令行参数的命令，链接就无能为力了。而指定别名则可以解决此类所有问题【1】。常用别名来简化ssh登录【见示例三】，使长命令变短，使常用的长命令行变短，强制执行命令时询问等。常用参数格式：alias 格式：ali
yii2 restful web服务[格式响应] dcj3sjt126com PHP yii2
响应格式当处理一个 RESTful API 请求时，一个应用程序通常需要如下步骤来处理响应格式：确定可能影响响应格式的各种因素，例如媒介类型，语言，版本，等等。这个过程也被称为 content negotiation。资源对象转换为数组，如在 Resources 部分中所描述的。通过 [[yii\rest\Serializer]]
MongoDB索引调优（2）——[十] eksliang mongodb MongoDB索引优化
转载请出自出处：http://eksliang.iteye.com/blog/2178555 一、概述上一篇文档中也说明了，MongoDB的索引几乎与关系型数据库的索引一模一样，优化关系型数据库的技巧通用适合MongoDB，所有这里只讲MongoDB需要注意的地方二、索引内嵌文档可以在嵌套文档的键上建立索引，方式与正常
当滑动到顶部和底部时，实现Item的分离效果的ListView gundumw100 android
拉动ListView，Item之间的间距会变大，释放后恢复原样； package cn.tangdada.tangbang.widget; import android.annotation.TargetApi; import android.content.Context; import android.content.res.TypedArray; import andr
程序员用HTML5制作的爱心树表白动画 ini JavaScript jquery Web html5 css
体验效果：http://keleyi.com/keleyi/phtml/html5/31.htmHTML代码如下： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"><head><meta charset="UTF-8" > <ti
预装windows 8 系统GPT模式的ThinkPad T440改装64位 windows 7旗舰版 kakajw ThinkPad 预装改装 windows 7 windows 8
该教程具有普遍参考性，特别适用于联想的机器，其他品牌机器的处理过程也大同小异。该教程是个人多次尝试和总结的结果，实用性强，推荐给需要的人！缘由小弟最近入手笔记本ThinkPad T440，但是特别不能习惯笔记本出厂预装的Windows 8系统，而且厂商自作聪明地预装了一堆没用的应用软件，消耗不少的系统资源（本本的内存为4G，系统启动完成时，物理内存占用比
Nginx学习笔记 mcj8089 nginx
一、安装nginx 1、在nginx官方网站下载一个包，下载地址是： http://nginx.org/download/nginx-1.4.2.tar.gz 2、WinSCP(ftp上传工
mongodb 聚合查询每天论坛链接点击次数 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 18 */ { "_id" : ObjectId("5596414cbe4d73a327e50274"), "msgType" : "text", "sendTime" : ISODate("2015-07-03T08:01:16.000Z"
java术语（PO/POJO/VO/BO/DAO/DTO） Luob. DAO POJO DTO po VO BO
PO(persistant object) 持久对象在o/r 映射的时候出现的概念,如果没有o/r映射,就没有这个概念存在了.通常对应数据模型(数据库),本身还有部分业务逻辑的处理.可以看成是与数据库中的表相映射的java对象.最简单的PO就是对应数据库中某个表中的一条记录,多个记录可以用PO的集合.PO中应该不包含任何对数据库的操作. VO(value object) 值对象通
算法复杂度 Wuaner Algorithm
Time Complexity & Big-O： http://stackoverflow.com/questions/487258/plain-english-explanation-of-big-o http://bigocheatsheet.com/ http://www.sitepoint.com/time-complexity-algorithms/