糖果天王

【Database】兼容 Python2 / Python3 适配编码的文件型数据容器

0x00 前言

训练内存轻量化
最近又在训练模型（炼丹），以前老抱怨，区区2万 samples 也好意思叫大数据，近期的任务似乎听到了我这个抱怨，纷纷都是什么“1700万个句子”，“4000个文档”的数据，对服务器内存一次次的进行着冲击。
虽说我之前已经写过一个CIR（CorpusIterationReader）类实现的文章用来解决类似问题（哎？我那篇文章哪去了，被吃了么……emmmm，以后再重发一次吧。）但是那个类也只能让 pivot 以 “文件指针+instance指针” 的方式进行顺序存取，不是很好处理 “shuffle后随机存取” 的情况，再者，“每个文件中包括多个samples” 的设计在多进程中容易产生冲突。
经 cyx 学长提醒，可以考虑每个 sample 单独作为一个文件。（我觉得吧，这个也会有个小问题，就是这个文件夹里千万别一不小心按一下 ls -all 不然要等好半天了哈哈哈）于是基于学长 OneFileDB 的设计，重构并实现了一些这种处理方案的工具类及工具函数，便于我基于 PyTorch 的模型得以正常训练。

跨版本编码兼容
实现过程中，由于 python2 的老项目和 python3 的新项目都需要使用，于是编码也是一个大难题，参考 Bert 里的 convert_to_unicode，研究了 ujson 和 json.JSONEncoder 是如何将不同编码处理成 unicode 并存为 json 格式，把相关的实现也放了进去。

0x01 用法介绍

对于一个 json 文件而言，通常是一个 list，里面包含多个dict的形式存储的 samples
对于模型而言，我们需要的是，在 sample 的数量足够多时，还要能够较快地通过下标（或者key）来获取到对应的 sample 喂给模型。

# JSON EXAMPLE
j = [{'info': {'sid': 'test1'},
      'words': [{'id': 'w0', 'word': u'电'.encode('utf-8')},
                {'id': 'w1', 'word': u'话'.encode('utf-8')},
                {'id': 'w2', 'word': '[unused10]'},
                {'id': 'w3', 'word': '0'},
                {'id': 'w4', 'word': '2'},
                {'id': 'w5', 'word': '1'},
                {'id': 'w6', 'word': '-'},
                {'id': 'w7', 'word': '3'},
                {'id': 'w27', 'word': '0'}],
      'entities': [], 'relations': []},
     {'info': {'sid': 'test2'},
      'words': [{'id': 'w0', 'word': u'地'.encode('utf-8')},
                {'id': 'w1', 'word': u'址'.encode('utf-8')}],
      'entities': [], 'relations': []}]

我们有三种方式来进行存储：

OneFileDB，即单文件存储，和我们平时直接读一个文件进来没有两样

FolderDB，文件夹存储，文件夹中的每一个文件是一个 sample

CFolderDB，加密文件夹存储，是 FolderDB 的继承类，不同点在于 sample 是加密压缩的

# 特别的，我们可以将一个json文件读入为 OneFileDB 后，
# 通过成员函数 `transfer_to_folderdb(path=)` 生成一个 FolderDB
db_of = Database('./test.json')  # OneFileDB
db_f1 = db_of.transfer_to_folderdb('./test')  # FolderDB
db_f2 = Database('./test')  # FolderDB
db_cf = Database('./test.cfolder')  # CFolderDB

这几种 DB 的使用，也是通常的写入，下标读取，遍历，获得 samples 长度等。
而对于 Folder 类的 DB 来说，还有额外的 append 函数，方便其增加新的 samples。

db.write(samples=j)
db_f.append(samples=j)
for idx, item in enumerate(db):
    print(idx, item)
print(db.__len__())
print(db[1])

0x02 Source Code

Database 主类

# coding: utf-8
# ==========================================================================
#   Copyright (C) 2016-2020 All rights reserved.
#
#   filename : training_dbs_new.py
#   origin   : cyx / caoyixuan
#   author   : chendian / [email protected]
#   date     : 2020-07-21
#   desc     : An alternative to the original database class (multi-json).
#              can be called as a dict or a list.
# ==========================================================================

class Database(object):
    """
    A unified wrapper for OneFileDB, FolderDB
    """

    def __init__(self, path, samples=None, n_samples=None, read_only=True, load_now=False):
        if samples is not None:
            db = OneFileDB(path, samples, n_samples=n_samples)
        else:
            mode = self.determine_mode(path)
            logging.info('database mode: {}'.format(mode))
            if mode == 'all_samples_one_file':
                db = OneFileDB(path, samples=None, n_samples=n_samples,
                               read_only=read_only, load_now=load_now)
            elif mode == 'one_sample_per_file':
                db = FolderDB(path, n_samples=n_samples,
                              read_only=read_only, load_now=load_now)
            elif mode == 'cfolder':
                db = CFolderDB(path, n_samples=n_samples,
                               read_only=read_only, load_now=load_now)
            else:
                raise ValueError("Unknown mode: {}".format(mode))

        self.db = db
        self.sids = db.sids

    @staticmethod
    def determine_mode(label_path):
        if label_path.endswith('.json'):
            mode = 'all_samples_one_file'
        elif label_path.endswith('.cfolder') or label_path.endswith('.cfolder/'):
            mode = 'cfolder'
        else:  # directory path without postfix
            mode = 'one_sample_per_file'
        return mode

    def write(self, samples):
        return self.db.write(samples)

    def get_by_sid(self, sid):
        return self.db.get_by_sid(sid)

    def __getitem__(self, item):
        if isinstance(item, slice):
            return self.sl(item)
        return self.db[item]

    def sl(self, key):
        start, stop, step = key.indices(len(self))
        for i in range(start, stop, step):
            yield self.db[i]

    def __len__(self):
        return self.db.__len__()

    def __iter__(self):
        return self.db.__iter__()

    def next(self):
        return self.db.next()

    @property
    def all_samples(self):
        return self.db.all_samples


if __name__ == "__main__":
    sd = Database('./test')

DB基类与三种衍生

class TrainDBBase(object):
    """
    An immutable dataset once write.
    """

    def write(self, samples):
        """save samples"""
        raise NotImplementedError()

    def get_by_sid(self, sid):
        """get sample by sid"""
        raise NotImplementedError()

    def __getitem__(self, item):
        """ get sample by index in dataset"""
        raise NotImplementedError()

    def __len__(self):
        """return the number of samples in this dataset"""
        raise NotImplementedError()

    def __iter__(self):
        self.n = 0
        return self

    def next(self):
        if self.n == self.__len__():
            raise StopIteration
        n = self.n
        self.n += 1
        return self[n]

    def __next__(self):
        return self.next()

    @property
    def all_samples(self):
        """return all samples in this dataset"""
        return [self[i] for i in range(len(self))]


class FolderDB(TrainDBBase):
    """
    一个sample写到一个文件里，一个DB就是一个文件夹，只能按照文件名进行索引
    NEW: 也可以按下标遍历
    """

    def __init__(self, folder, n_samples=None, read_only=True, load_now=False):
        self.folder = folder
        self.compress = False
        self.n_samples = n_samples
        self.sids = None
        if load_now:
            self.load_register()

    def write(self, samples):
        write_one_sample_per_file(samples, self.folder)

    def append(self, samples):
        append_write_one_sample_per_file(samples, self.folder)

    def get_by_sid(self, sid):
        file_path = path_join(self.folder, sid)
        sample = json.load(open(file_path))
        return sample

    def __getitem__(self, index):
        self.load_register()
        sid = self.sids[index]
        return self.get_by_sid(sid)

    def __len__(self):
        self.load_register()
        return len(self.sids)

    def load_register(self):
        if self.sids is not None:
            return
        sids = load_register(self.folder)
        if self.n_samples:
            sids = sids[: self.n_samples]
        self.sids = sids
        assert len(self.sids) == len(set(self.sids)), 'exist duplicated sids'


class CFolderDB(FolderDB):
    """A json-encrypted FolderDB"""
    def write(self, samples):
        write_one_sample_per_file(samples, self.folder, compress=True)

    def get_by_sid(self, sid):
        file_path = path_join(self.folder, sid)
        sample = json_load(path=file_path, mode='r', decrypt=True)
        # sample = json.loads(zlib.decompress(open(file_path, 'rb').read()).decode('utf-8'))
        return sample


class OneFileDB(TrainDBBase):
    """ Single file as a DB"""
    def __init__(self, file_path, samples=None, n_samples=None, read_only=True, load_now=False):
        self.file_path = file_path
        self.sids = None
        self.samples = None
        self.compress = False
        self.sid_to_sample = None
        self.n_samples = n_samples
        if samples is not None:
            self.set_samples(samples)
        else:
            if load_now:
                self.load()

    def write(self, samples):
        json_dump(
            obj_=samples, path=self.file_path,
            mode='w', encrypt=self.compress)

    def get_by_sid(self, sid):
        self.load()
        return self.sid_to_sample[sid]

    def load(self):
        if self.samples is not None:
            return
        samples = json_load(
            path=self.file_path, mode='r',
            decrypt=self.compress)
        self.set_samples(samples)

    def set_samples(self, samples):
        # make a minor database for testing.
        if self.n_samples:
            samples = samples[: self.n_samples]
        self.samples = samples
        self.sids = [s['info']['sid'] for s in self.samples]
        self.sid_to_sample = {s['info']['sid']: s for s in self.samples}

    def transfer_to_folderdb(self, path):
        write_one_sample_per_file(
            answers=self.samples,
            folder=path,
            compress=self.compress)
        return Database(path=path)

    def __getitem__(self, item):
        self.load()
        return self.samples[item]

    def __len__(self):
        self.load()
        return len(self.samples)

Magic Tools

这种任务，最麻烦的就是 Python2 和 Python3 之间的兼容性，兼容性最麻烦的又体现在编码上，Python2的 unicode 编码即Python3的 str 编码，Python2的 str 编码即Python3的 bytes 编码，于是

头文件及依赖

from __future__ import unicode_literals
from six import PY2, PY3
import logging
import os
import zlib
import numpy as np
from io import open
JSON_MODULE = None

JSON编码相关

try:
    # if you have ujson, it will be faster
    # but the calling method is different.
    import ujson as json
    JSON_MODULE = 'ujson'
except ImportError:
    import json
    JSON_MODULE = 'json'


    class JsonBytesEncoder(json.JSONEncoder):
        # json.dumps
        def default(self, obj):
            # if isinstance(obj, np.ndarray):
            #     return obj.tolist()  # for further support.
            if isinstance(obj, bytes):
                return convert_to_unicode(obj)
                # return str(obj, encoding='utf-8')
            return json.JSONEncoder.default(self, obj)


def json_dumps(obj_, encrypt=False):
    if JSON_MODULE == 'json':
        _json_str = json.dumps(
            obj_, cls=JsonBytesEncoder)
    elif JSON_MODULE == 'ujson':
        if int(json.__version__[0]) < 2:
            # standard ujson-1.35 for python2.7
            _json_str = json.dumps(obj_)
        else:  # standard ujson-3.0.0 for python3.6
            _json_str = json.dumps(
                obj_, reject_bytes=False)
    else:
        _json_str = json.dumps(obj_)
    if encrypt:
        return zlib_encrypt(_json_str)
    return _json_str


def json_dump(obj_, path=None, mode='w', stream=None, encrypt=False):
    # the same as json.dump(zlib_encrypt(obj_), open(path, 'w'))
    # use 'w', not 'wb' in python3 for
    # TypeError: a bytes-like object is required, not 'str'
    if encrypt:  # the zlib.compress transfers data into bytes
        mode = 'wb'
    if stream is not None:
        # stream contains path and mode
        stream.write(json_dumps(obj_, encrypt))
    else:
        with open(path, mode) as f:
            f.write(json_dumps(obj_, encrypt))


def json_loads(str_, decrypt=False):
    if decrypt:
        str_ = zlib_decrypt(str_)
    # all kinds of json have the same loads()
    data = json.loads(str_)
    return data


def json_load(path, mode='r', decrypt=False):
    # the same as json.load(open(path, mode))
    if decrypt:  # the zlib.compress transfers data into bytes
        mode = 'rb'
    with open(path, mode) as f:
        obj_ = json_loads(f.read(), decrypt)
    return obj_


def zlib_encrypt(data):
    # return an encrypted string
    if isinstance(data, (list, dict, tuple)):
        j_str = json_dumps(data)  # data-structure to json-str
    else:  # to unicode (py2-unicode or py3-str)
        j_str = convert_to_unicode(data)
    # zlib only allow bytes-like inputs
    return zlib.compress(convert_to_bytes(j_str))


def zlib_decrypt(str_):
    # return a json_str in unicode
    b_str = zlib.decompress(str_)
    return convert_to_unicode(b_str)


def path_join(*args):
    return ''.join(convert_to_unicode(each) for each in args)


def write_data(stream, text, encoding='unicode'):
    # once write **text** into a file, need to know
    # the basestring for py2 and py3 are different
    if encoding in ['unicode', 'u']:
        stream.write(convert_to_unicode(text))
    elif encoding in ['bytes', 'utf-8', 'b']:
        stream.write(convert_to_bytes(text))
    else:  # others
        stream.write(text)


def convert_to_unicode(text):
    """Converts `text` to Unicode (if it's not already), assuming utf-8 input."""
    if isinstance(text, (int, float)):
        text = '{}'.format(text)
    if PY3:
        if isinstance(text, str):  # py3-str is unicode
            return text
        elif isinstance(text, bytes):  # py3-bytes is py2-str
            return text.decode("utf-8", "ignore")
        else:
            raise ValueError("Unsupported string type: %s" % (type(text)))
    elif PY2:
        if isinstance(text, str):  # py2-str is py3-bytes
            return text.decode("utf-8", "ignore")
        elif isinstance(text, unicode):  # py2-unicode is py3-str
            return text
        else:
            raise ValueError("Unsupported string type: %s" % (type(text)))
    else:
        raise ValueError("Not running on Python2 or Python 3?")


def convert_to_bytes(text):
    if PY2 and isinstance(text, str):
        return text
    elif PY3 and isinstance(text, bytes):
        return text
    u_text = convert_to_unicode(text)
    return u_text.encode('utf-8')


def recursive_encoding_unification(cur_node):
    from collections import OrderedDict
    reu = recursive_encoding_unification

    if isinstance(cur_node, (list, tuple)):
        return type(cur_node)(
            [reu(item) for item in cur_node])
    elif isinstance(cur_node, (dict, OrderedDict)):
        return type(cur_node)(
            [(reu(k), reu(v)) for (k, v) in cur_node.items()])
    elif isinstance(cur_node, (int, float)):
        return cur_node
    elif cur_node is None:
        return None
    else:  # str, bytes, unicode
        # only convert leaf-nodes
        return convert_to_unicode(cur_node)


def json_unicode(json_dict):
    return recursive_encoding_unification(json_dict)

文件型DB相关


def write_one_sample_per_file(answers, folder, compress=False):
    register = ['{}'.format(s['info']['sid']) for i, s in enumerate(answers)]
    if not os.path.exists(folder):
        os.mkdir(folder)
    with open(path_join(folder, 'register'), 'w') as fw:
        # 'w' for py2 and py3 is different
        write_data(fw, '\n'.join(register))
    for s in answers:
        file_path = path_join(folder, s['info']['sid'])
        json_dump(s, path=file_path, encrypt=compress)


def append_write_one_sample_per_file(answers, folder, compress=False):
    assert os.path.isdir(folder), 'folder should exist if you want to append to existing dataset'
    sids = load_register(folder)
    conflict_sids = set(sids).intersection([s['info']['sid'] for s in answers])
    assert not conflict_sids, 'some sids already exist: {}'.format(list(conflict_sids)[:10])
    new_register = ['{}'.format(s['info']['sid']) for i, s in enumerate(answers)]
    # saving bytes is faster, but here is 'append' without 'b'
    # remain storing as source text
    with open(path_join(folder, 'register'), 'a') as fw:
        # 'w' for py2 and py3 is different
        write_data(fw, '\n')
        write_data(fw, '\n'.join(new_register))

    f = 0
    for s in answers:
        try:
            sid_str = convert_to_unicode(s['info']['sid'])
            json_dump(obj_=s, path=path_join(folder, sid_str), encrypt=False)
        except OverflowError:
            logging.warn('{} save error'.format(s['info']['sid']))
            f += 1
            if f > 30:
                break


def load_register(folder, n_samples=None):
    sids = []
    # loading bytes is faster (append with 'ab+', loading with 'rb')
    with open(path_join(folder, 'register'), 'r') as fr:
        if n_samples is None:
            # faster list-construction
            sids = [line.strip().split(',')[-1] for line in fr]
        else:  # custom n_samples is usually small,
            for line in fr:  # list-appending will be faster.
                sid = line.strip().split(',')[-1]
                sids.append(sid)
                if n_samples is not None:
                    if len(sids) >= n_samples:
                        break
    return sids


def random_ints(n):
    """return n random ints that are distinct"""
    assert n < 10 ** 9, 'Too many distinct numbers asked.'
    row_randoms = np.random.randint(0, np.iinfo(np.int64).max, 2 * n)
    uniques = np.unique(row_randoms)
    while len(uniques) < n:
        r = np.random.randint(0, np.iinfo(np.int64).max, 2 * n)
        uniques = np.unique(np.stack([uniques, r]))
    return uniques[:n]

Linux学习1_Linux命令及英文全称 Wang_Zhenwei —Linux 转载 linux
LinuxCommandreferences(命令全称，方便记忆)aliasCreateyourownnameforacommandarchprintmachinearchitectureashashcommandinterpreter(shell)awk(gawk)patternscanningandprocessinglanguagebasenameRemovedirectoryandsuff
【布鲁姆6大认知层级】搞技术的季经验分享
认知思维目标层次由低到高、由简到繁分为六个层次，层层递进，这6个层级分别是：记忆——理解——应用——分析——评价——创新。第一层：记忆是指认识并记忆概念、知识，将其储存在大脑并及时提取，例如背单词、古诗、名词概念等。这一层次所涉及的是具体知识或抽象知识的辨认，虽然机械，但对学习和解决更复杂的问题来说是必不可少的基础环节。第二层：理解是指对事物或知识的领会，当学习者对"新"知识与原有知识产生联系时，
外贸英语报价单制作步骤分享，可在线编辑财务管理系统财务软件进销存系统
在国际贸易中，一份专业、清晰的外贸英语报价单是赢得客户信任的关键工具。它不仅需要准确传递产品信息与价格条款，还需符合国际商务规范。本文将深入解析外贸英语报价单的核心要素，并介绍如何通过ZohoBooks快速制作标准化模板，提升业务效率与竞争力。一、外贸英语报价单模板的核心要素一份完整的报价单需涵盖以下关键内容：1、基础信息标题与编号：明确标注“Quotation”或“ProformaInvoice
【typescript进阶篇】(第四章) webpack编译ts及第三方库声明文件蒜香拿铁 typescript系列 typescript webpack javascript
使用webpack打包TS文件安装依赖安装webpack环境npmiwebpackwebpack-cliwebpack-dev-server-D安装TypeScriptnpminstalltypescript-D编译TSnpminstallts-loader-D热更新服务npminstallwebpack-dev-server-DHTML模板npminstallhtml-webpack-plugi
云原生大佬重生，记忆逐步复苏（九：systemd进程）子恒2005 云原生大佬重生记忆逐步复苏云原生 linux
目录1：什么是systemd守护进程2：Systemd参与的系统的初始化是怎么样的？3：systemd的单元类型4：具体的单元配置文件解析1：什么是systemd守护进程systemd是现代Linux系统中的一个系统和服务管理器，用于初始化系统、管理系统服务、维护系统状态、控制系统资源，并提供一系列其他功能来简化系统管理。systemd的主要作用和功能-系统初始化：systemd是Linux系统的
springboot整合Thymeleaf详解 weiha666 spring boot
Thymeleaf介绍简单说，Thymeleaf是一个跟Velocity、FreeMarker类似的模板引擎，它可以完全替代JSP。相较与其他的模板引擎，它有如下三个极吸引人的特点：Thymeleaf在有网络和无网络的环境下皆可运行，即它可以让美工在浏览器查看页面的静态效果，也可以让程序员在服务器查看带数据的动态页面效果。这是由于它支持html原型，然后在html标签里增加额外的属性来达到模板+数
SpringMVC系列之整合Thymeleaf【Thymeleaf整合springmvc介绍及Thymeleaf基础概念、使用语法详解】吕鑫洋 SpringMVC系列 java html js spring mvc
Thymeleaf是java的模板引擎，可以将动态页面静态化；目前使用较多的模板引擎：Velocity、Freemarker、Thymeleaf一、Maven依赖Thymeleaf整合springmvc共需要两个jar：1.thymeleaf2.thymeleaf-spring5org.thymeleafthymeleaf3.0.9.RELEASEorg.thymeleafthymeleaf-sp
Redis高频面试题解析干货，结合核心原理、高频考点和回答技巧 dblens 数据库管理和开发工具 redis redis 数据库缓存
一、Redis核心数据结构与实战场景高频问题：Redis有哪些数据结构？分别适合什么场景？回答模板：基础结构（必答）：String（缓存、计数器）、Hash（对象存储）、List（队列、栈）、Set（标签、去重）、ZSet（排行榜）扩展加分：Bitmaps（日活统计）、HyperLogLog（UV去重）、GEO（地理位置）场景举例（体现实战能力）：例1：用ZSet实现电商销量排行榜，ZINCRBY
仿新浪微博typecho主题源码酷爱码 php PHP typecho 博客源码
源码介绍仿新浪微博typecho主题源码，简约美观，适合做个人博客，该源码为主题模板，需要先搭建typecho，然后吧源码放到对应的模板目录下，后台启用即可源码特点支持自适应个性化程度高可设置背景图、顶栏背景图可自定义导航栏、资料卡、关注按钮等文章大图多样化选择，支持随机图适配Typecho最新版本（1.2.1）与PHP8.0源码免费获取仿新浪微博typecho主题源码
C++20 的 `std::remove_cvref`：简化类型处理的利器码事漫谈 C++20 c++20
文章目录1.`std::remove_cvref`是什么？2.示例代码3.为什么需要`std::remove_cvref`？4.实现原理5.使用场景6.注意事项7.总结在C++20中，标准库引入了许多新特性，其中std::remove_cvref是一个非常实用的类型特征工具，它极大地简化了类型处理的复杂性。1.std::remove_cvref是什么？std::remove_cvref是一个模板结
【万字总结】前端全方位性能优化指南（四）——虚拟DOM批处理、文档碎片池、重排规避庸俗今天不摸鱼 Web性能优化合集前端性能优化
前言在浏览器宇宙中，DOM操作如同「时空裂缝」——一次不当的节点更新可能引发连锁重排，吞噬整条渲染流水线的性能。本章直面这一核心矛盾，以原子级操作合并、节点记忆重组、排版禁忌破解为三重武器，重构DOM更新的物理法则。通过虚拟DOM的批处理引擎将千次操作坍缩为单次提交，借助文档碎片池实现90%节点的跨时空复用，再以transform替代top等20项反重排铁律，我们将彻底终结「JavaScript线
软件定义世界下的教育创新：高校计算机实验室应重心转向开源平台开源
一、一键式教学环境部署，节省90%准备时间•应用模板库：提供200+预置教学工具模板（如JupyterLab+TensorFlow、MySQL集群），教师可根据课程需求选择模板，5分钟内完成包含依赖库、运行环境的全栈部署。•多版本隔离：支持同一服务器并行运行不同版本框架（如Django3.2教学版与4.1开发版），避免版本冲突导致30%的课堂时间浪费。•自助式环境创建：学生通过命令行快速申请带GP
Python入门程序练习004：输入某年某月某日，判断这一天是这一年的第几天？若北辰 Python实战练习
【程序4】题目：输入某年某月某日，判断这一天是这一年的第几天？1.程序分析：其实这一题的难度不在于编程，而在于对闰年有没有一些基本的认识，相信很多人都知道闰年，但是又不太清楚具体怎么判断闰年。在下面两个条件中只要满足一个即是闰年：1、能被4整除但是不能被一百整除2、能被四百整除。为了方便记忆，总结为：四年一闰,百年不闰,四百年再闰那么判断出闰年和平年（除了闰年其他都是平年）之后呢，其实只要记住：闰
UNI-APP+VUE3+VITE+VSCode开发经验及填坑记录（持续更新ING）集成显卡前端项目实践 uni-app vscode ide
uni-app是一个使用Vue.js开发所有前端应用的框架，开发者编写一套代码，可发布到iOS、Android、Web（响应式）、以及各种小程序（微信/支付宝/百度/头条/飞书/QQ/快手/钉钉/淘宝）、快应用等多个平台。快速开发模板unibest：最好的uniapp开发框架，由uniapp+Vue3+Ts+Vite5+UnoCss+VSCode(可选webstorm)+uni插件+wot-ui（
C++：std::move() / std::forward() 我什么都没有3 C++c++开发语言
移动语义和完美转发是C++11中引入的两个重要技术。熟练的掌握移动语义与完美转发，有益于设计安全、高性能的程序。其头文件均为。移动语义：增强了程序对数据所有权的控制，通过std::move标准库函数实现。完美转发：为实现通用的模板函数奠定了基础。通过std::forward库函数实现。基础1：右值引用C++表达式有两个属性：类型和值类型。这里的“值类型”指的就是左值（lvalue）与右值（rval
基于 Websoft9 平台的 Odoo 教学实践：助力智能制造、物流与财务会计专业教师提升教学效果开源
Websoft9作为企业级开源软件的自动化部署与管理平台，为高校智能制造、物流与财务会计等专业提供了完整的Odoo（开源ERP）教学解决方案。以下从部署、维护及功能扩展三方面解析其核心价值：一、部署：开箱即用的企业级业务场景模拟一键构建复杂业务架构Websoft9预置了Odoo全模块集成模板，部署时可自动关联PostgreSQL数据库、Nginx负载均衡及Let'sEncryptSSL证书，还原真
nginx性能优化有哪些方式？企鹅侠客 linux 面试 nginx 性能优化 php
0.运维干货分享软考高级系统架构设计师备考学习资料软考高级网络规划设计师备考学习资料KubernetesCKA认证学习资料分享信息安全管理体系（ISMS）制度模板分享免费文档翻译工具(支持word、pdf、ppt、excel)PuTTY中文版安装包MobaXterm中文版安装包pinginfoview网络诊断工具中文版Nginx是一个高性能的HTTP服务器和反向代理服务器，但在高并发场景下，仍然有
企业品牌升级秘籍：如何运用媒体直播推流打造品牌新动力？媒介盒子分享企业软文推广 python
在当今竞争激烈的商业环境中，企业品牌升级刻不容缓，而媒体直播推流正逐渐成为打造品牌新动力的关键要素。一、媒体直播：构建直播营销黄金三角1、内容为王，打造吸引力‌内容是直播营销的灵魂。优质、有趣、富有创意的内容能够迅速吸引观众眼球，提升直播的观看率和传播力。企业应结合品牌特色，策划富有吸引力的直播内容，让观众在享受视听盛宴的同时，加深对品牌的认知与记忆。‌2、平台选择，拓宽传播渠道‌不同平台有不同的
在线视频创作平台（Vidnami） deepdata_cn 视频生成视频剪辑视频创作
Vidnami是一款功能强大的在线视频创作平台，前身为ContentSamurai，于2015年推出，2020年更名为Vidnami。它运用人工智能技术，能够分析输入的文本，自动从大量素材中选取合适的图像和视频片段，将文字快速转化为具有专业外观的视频，无需用户具备视频编辑经验。该平台提供多种视频模板、全主题定制功能以及内置的免版权媒体库，包括3000万张图片和3万首音乐，还支持自动配音，用户可以录
有了大模型为何还需要Agent智能体全栈你个大西瓜人工智能人工智能 AI Agent Agent 智能体 Agent 原理
一、什么是Agent？Agent（智能体）是一种能感知环境、自主决策、执行动作的智能实体，当它与大语言模型（如通义千问QWen、GPT）结合时，形成一种**“增强型AI系统”**。其核心架构如下：大脑（LLM）：负责语言理解、逻辑推理、知识问答等认知任务。感官（工具链）：通过API、传感器或数据库获取实时数据（如天气、股价）。手脚（执行器）：调用外部工具完成任务（如发送邮件、控制智能家居）。记忆（
C++标准模板（STL）- 类型支持（杂项变换，将 std::remove_cv 与 std::remove_reference 结合，std::remove_cvref）繁星璀璨G #杂项变换 c++标准库模板运行时类型识别杂项变换 remove_cvref
类型特性类型特性定义一个编译时基于模板的结构，以查询或修改类型的属性。试图特化定义于头文件的模板导致未定义行为，除了std::common_type可依照其所描述特化。定义于头文件的模板可以用不完整类型实例化，除非另外有指定，尽管通常禁止以不完整类型实例化标准库模板。杂项变换将std::remove_cv与std::remove_reference结合std::remove_cvreftempla
C++20 新特性全面解析：从概念到协程的编程革命小乌龟登顶记 java 算法数据结构
一、引言：C++20的里程碑意义2020年发布的C++20标准被公认为继C++11之后最重要的版本更新，带来了4大核心特性和20+项重大改进。这些变革不仅提升了代码表达力，更从根本上改变了C++的编程范式。本文将深入解析C++20的关键特性，并通过实战代码示例演示其应用场景。二、四大核心特性详解2.1概念（Concepts）：模板编程的革命基本概念类型约束：通过requires子句限制模板参数类型
ex的OOP------STL函数对象 MityKif OOP 面向对象编程
STL函数对象1.函数的类型平时敲代码的时候会遇到很多情况，对某一类的函数调用多次。我们可以用函数模板来解决，当然也可以用某个变量表示函数。于是这里就需要用到函数的类型。事实上，函数的类型是不太方便写的。例如：voidfunc(int&k){k++;}对于这样一个函数，它的类型是void(*)(int&)定义一个变量的时候：void(*fff)(int&)但是实际上平时不会这么用，因为我们有无敌的
神经网络基础之正则化硬水果糖人工智能神经网络人工智能机器学习
引言：正则化（Regularization）是机器学习中一种用于防止模型过拟合技术。核心思想是通过在模型损失函数中添加一个惩罚项（PenaltyTerm），对模型的复杂度进行约束，从而提升模型在新数据上的泛化能力。一、正则化目的防止过拟合：当模型过于复杂（例如神经网络层数过多、参数过多）时，容易在训练数据上“记忆”噪声或细节，导致在测试数据上表现差。简化模型：正则化通过限制模型参数的大小或数量，迫
注意力机制：让AI拥有“黄金七秒记忆“的魔法----（点积注意力） y江江江江机器学习大模型人工智能深度学习
注意力机制：让AI拥有"黄金七秒记忆"的魔法–（点积注意力）注意⼒机制对于初学者来说有点难理解，我们⼀点⼀点地讲。现在先暂时忘记编码器、解码器、隐藏层和序列到序列这些概念。想象我们有两个张量x1和x2，我们希望⽤注意⼒机制把它俩给衔接起来，让x1看⼀看，x2有哪些特别值得关注的地⽅。具体来说，要得到x1对x2的点积注意⼒，我们可以按照以下步骤进⾏操作。（1）创建两个形状分别为(batch_size
决策树算法全解析：从零基础到Titanic实战，一文搞定机器学习经典模型吴师兄大模型 0基础实现机器学习入门到精通算法机器学习决策树人工智能深度学习编程开发语言
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
使用Deepseek书写一篇综述论文，如何提示？学术乙方小知识经验分享
使用DeepSeek撰写综述论文时，可以通过以下提示和步骤来高效完成任务：明确研究主题与范围在开始撰写之前，首先需要明确研究主题、文献综述的时间跨度、地理范畴和文献类型。这有助于聚焦研究方向，避免偏离主题。制定详细的提示词提示词的设计是高效利用DeepSeek的关键。可以参考以下模板：研究背景与现状：请帮我梳理XXX领域的研究背景与现状，包括国内外的主要研究成果和研究热点。文献筛选与阅读：请帮我筛
施磊老师c++笔记(三) Zhuai-行淮施磊老师cpp c++笔记
c++模板编程-学习cpp类库的编程基础文章目录c++模板编程-学习cpp类库的编程基础1.函数模板2.理解模板函数3.实现cpp的vector向量容器4.理解容器空间配置器allocator的重要性1.函数模板内容:模板的实例化,模板函数,模板类型参数,模板非类型参数,模板的实参推演,模板的特例化,模板函数模板的特例化非模板函数的重载关系区分函数模板和模板函数的概念!!!模板的意义?对类型也可以
3.5 Spring Boot邮件服务：从基础发送到模板邮件进阶 Sendingab Spring boot 从入门到精通零基础7天精通Spring Boot spring boot python 后端
SpringBoot邮件服务：从基础发送到模板邮件进阶引言在现代企业级应用中，邮件服务是不可或缺的基础能力。从用户注册验证、密码重置，到订单通知、系统告警，再到营销推广等场景，邮件始终扮演着关键角色。SpringBoot通过spring-boot-starter-mail模块，将JavaMail的复杂配置简化为几行代码即可实现的便捷操作。本文将手把手带您实现从基础文本邮件发送到高级模板邮件的完整开
深入解析：React中的信号组件与细粒度更新
引言在主流的前端开发框架中，无论是React、Vue还是Svelte，核心都是围绕着更高效地进行UI渲染展开的。为了实现高性能，基于DOM总是比较慢这个假设前提，其最核心的要解决的问题有两个：响应式更新细粒度更新为了将响应式更新、细粒度更新优化到极致，各种框架是八仙过海，各显神通。以最流行的React和Vue为例，首先两者均引入了VirtualDOM的概念。Vue的静态模板编译，通过编译时的静态分
java Illegal overloaded getter method with ambiguous type for propert的解决 zwllxs java jdk
好久不来iteye,今天又来看看，哈哈,今天碰到在编码时，反射中会抛出 Illegal overloaded getter method with ambiguous type for propert这么个东东，从字面意思看，是反射在获取getter时迷惑了，然后回想起java在boolean值在生成getter时，分别有is和getter，也许我们的反射对象中就有is开头的方法迷惑了jdk，
IT人应当知道的10个行业小内幕 beijingjava 工作互联网
10. 虽然IT业的薪酬比其他很多行业要好，但有公司因此视你为其“佣人”。　　尽管IT人士的薪水没有互联网泡沫之前要好，但和其他行业人士比较，IT人的薪资还算好点。在接下的几十年中，科技在商业和社会发展中所占分量会一直增加，所以我们完全有理由相信，IT专业人才的需求量也不会减少。　　然而，正因为IT人士的薪水普遍较高，所以有些公司认为给了你这么多钱，就把你看成是公司的“佣人”，拥有你的支配
java 实现自定义链表 CrazyMizzz java 数据结构
1.链表结构链表是链式的结构 2.链表的组成链表是由头节点，中间节点和尾节点组成节点是由两个部分组成： 1.数据域 2.引用域 3.链表的实现 &nbs
web项目发布到服务器后图片过一会儿消失麦田的设计者 struts2 上传图片永久保存
作为一名学习了android和j2ee的程序员，我们必须要意识到，客服端和服务器端的交互是很有必要的，比如你用eclipse写了一个web工程，并且发布到了服务器（tomcat）上，这时你在webapps目录下看到了你发布的web工程，你可以打开电脑的浏览器输入http://localhost:8080/工程/路径访问里面的资源。但是，有时你会突然的发现之前用struts2上传的图片
CodeIgniter框架Cart类 name 不能设置中文的解决方法 IT独行者 CodeIgniter Cart 框架　
今天试用了一下CodeIgniter的Cart类时遇到了个小问题，发现当name的值为中文时，就写入不了session。在这里特别提醒一下。在CI手册里也有说明，如下： $data = array( 'id' => 'sku_123ABC', 'qty' => 1, '
linux回收站 _wy_ linux 回收站
今天一不小心在ubuntu下把一个文件移动到了回收站，我并不想删，手误了。我急忙到Nautilus下的回收站中准备恢复它，但是里面居然什么都没有。后来我发现这是由于我删文件的地方不在HOME所在的分区，而是在另一个独立的Linux分区下，这是我专门用于开发的分区。而我删除的东东在分区根目录下的.Trash-1000/file目录下，相关的删除信息（删除时间和文件所在
jquery回到页面顶端知了ing html jquery css
html代码： <h1 id="anchor">页面标题</h1> <div id="container">页面内容</div> <p><a href="#anchor" class="topLink">回到顶端</a><
B树、B-树、B+树、B*树矮蛋蛋 B树
原文地址： http://www.cnblogs.com/oldhorse/archive/2009/11/16/1604009.html B树即二叉搜索树： 1.所有非叶子结点至多拥有两个儿子（Left和Right）； &nb
数据库连接池 alafqq 数据库连接池
http://www.cnblogs.com/xdp-gacl/p/4002804.html @Anthor:孤傲苍狼数据库连接池用MySQLv5版本的数据库驱动没有问题，使用MySQLv6和Oracle的数据库驱动时候报如下错误： java.lang.ClassCastException: $Proxy0 cannot be cast to java.sql.Connec
java泛型百合不是茶 java泛型
泛型在Java SE 1.5之前，没有泛型的情况的下，通过对类型Object的引用来实现参数的“任意化”，任意化的缺点就是要实行强制转换，这种强制转换可能会带来不安全的隐患泛型的特点：消除强制转换确保类型安全向后兼容简单泛型的定义：泛型：就是在类中将其模糊化，在创建对象的时候再具体定义 class fan
javascript闭包[两个小测试例子] bijian1013 JavaScript JavaScript
一.程序一 <script> var name = "The Window"; var Object_a = { 　　name : "My Object", 　　getNameFunc : function(){ var that = this; 　　　　return function(){ 　　　　
探索JUnit4扩展：假设机制（Assumption） bijian1013 java Assumption JUnit 单元测试
一.假设机制（Assumption）概述理想情况下，写测试用例的开发人员可以明确的知道所有导致他们所写的测试用例不通过的地方，但是有的时候，这些导致测试用例不通过的地方并不是很容易的被发现，可能隐藏得很深，从而导致开发人员在写测试用例时很难预测到这些因素，而且往往这些因素并不是开发人员当初设计测试用例时真正目的，
【Gson四】范型POJO的反序列化 bit1129 POJO
在下面这个例子中，POJO(Data类)是一个范型类，在Tests中，指定范型类为PieceData，POJO初始化完成后，通过 String str = new Gson().toJson(data); 得到范型化的POJO序列化得到的JSON串，然后将这个JSON串反序列化为POJO import com.google.gson.Gson; import java.
【Spark八十五】Spark Streaming分析结果落地到MySQL bit1129 Stream
几点总结： 1. DStream.foreachRDD是一个Output Operation，类似于RDD的action，会触发Job的提交。DStream.foreachRDD是数据落地很常用的方法 2. 获取MySQL Connection的操作应该放在foreachRDD的参数（是一个RDD[T]=>Unit的函数类型)，这样，当foreachRDD方法在每个Worker上执行时，
NGINX + LUA实现复杂的控制 ronin47 nginx lua
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-递归判断数组是否升序 bylijinnan java
public class IsAccendListRecursive { /*递归判断数组是否升序 * if a Integer array is ascending,return true * use recursion */ public static void main(String[] args){ IsAccendListRecursiv
Netty源码学习-DefaultChannelPipeline2 bylijinnan java netty
Netty3的API http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/ChannelPipeline.html 里面提到ChannelPipeline的一个“pitfall”：如果ChannelPipeline只有一个handler（假设为handlerA）且希望用另一handler（假设为handlerB）来
Java工具之JPS chinrui java
JPS使用熟悉Linux的朋友们都知道，Linux下有一个常用的命令叫做ps（Process Status)，是用来查看Linux环境下进程信息的。同样的，在Java Virtual Machine里面也提供了类似的工具供广大Java开发人员使用，它就是jps（Java Process Status)，它可以用来
window.print分页打印 ctrain window
function init() { var tt = document.getElementById("tt"); var childNodes = tt.childNodes[0].childNodes; var level = 0; for (var i = 0; i < childNodes.length; i++) {
安装hadoop时执行jps命令Error occurred during initialization of VM daizj jdk hadoop jps
在安装hadoop时，执行JPS出现下面错误 [slave16][email protected]:/tmp/hsperfdata_hdfs# jps Error occurred during initialization of VM java.lang.Error: Properties init: Could not determine current working
PHP开发大型项目的一点经验 dcj3sjt126com PHP 重构
一、变量最好是把所有的变量存储在一个数组中，这样在程序的开发中可以带来很多的方便，特别是当程序很大的时候。变量的命名就当适合自己的习惯，不管是用拼音还是英语，至少应当有一定的意义，以便适合记忆。变量的命名尽量规范化，不要与PHP中的关键字相冲突。二、函数 PHP自带了很多函数，这给我们程序的编写带来了很多的方便。当然，在大型程序中我们往往自己要定义许多个函数，几十
android笔记之--向网络发送GET/POST请求参数 dcj3sjt126com android
使用GET方法发送请求 private static boolean sendGETRequest (String path, Map<String, String> params) throws Exception{ //发送地http://192.168.100.91:8080/videoServi
linux复习笔记之bash shell (3) 通配符 eksliang linux 通配符 linux通配符
转载请出自出处： http://eksliang.iteye.com/blog/2104387 在bash的操作环境中有一个非常有用的功能，那就是通配符。下面列出一些常用的通配符，如下表所示符号意义 * 万用字符，代表0个到无穷个任意字符 ? 万用字符，代表一定有一个任意字符 [] 代表一定有一个在中括号内的字符。例如：[abcd]代表一定有一个字符，可能是a、b、c
Android关于短信加密 gqdy365 android
关于Android短信加密功能，我初步了解的如下（只在Android应用层试验）： 1、因为Android有短信收发接口，可以调用接口完成短信收发；发送过程：APP（基于短信应用修改）接受用户输入号码、内容——>APP对短信内容加密——>调用短信发送方法Sm
asp.net在网站根目录下创建文件夹 hvt .net C#hovertree asp.net Web Forms
假设要在asp.net网站的根目录下建立文件夹hovertree,C#代码如下： string m_keleyiFolderName = Server.MapPath("/hovertree"); if (Directory.Exists(m_keleyiFolderName)) { //文件夹已经存在 return; } else { try { D
一个合格的程序员应该读过哪些书 justjavac 程序员书籍
编者按：2008年8月4日，StackOverflow 网友 Bert F 发帖提问：哪本最具影响力的书，是每个程序员都应该读的？ “如果能时光倒流，回到过去，作为一个开发人员，你可以告诉自己在职业生涯初期应该读一本，你会选择哪本书呢？我希望这个书单列表内容丰富，可以涵盖很多东西。” 很多程序员响应，他们在推荐时也写下自己的评语。以前就有国内网友介绍这个程序员书单，不过都是推荐数
单实例实践跑龙套_az 单例
1、内部类 public class Singleton { private static class SingletonHolder { public static Singleton singleton = new Singleton(); } public Singleton getRes
PO VO BEAN 理解 q137681467 VO DTO po
PO：全称是 persistant object持久对象最形象的理解就是一个PO就是数据库中的一条记录。好处是可以把一条记录作为一个对象处理，可以方便的转为其它对象。 BO：全称是 business object:业务对象主要作用是把业务逻辑封装为一个对象。这个对
战胜惰性，暗自努力金笛子努力
偶然看到一句很贴近生活的话：“别人都在你看不到的地方暗自努力，在你看得到的地方，他们也和你一样显得吊儿郎当，和你一样会抱怨，而只有你自己相信这些都是真的，最后也只有你一人继续不思进取。”很多句子总在不经意中就会戳中一部分人的软肋，我想我们每个人的周围总是有那么些表现得“吊儿郎当”的存在，是否你就真的相信他们如此不思进取，而开始放松了对自己的要求随波逐流呢？我有个朋友是搞技术的，平时嘻嘻哈哈，以
NDK/JNI二维数组多维数组传递 wenzongliang 二维数组 jni NDK
多维数组和对象数组一样处理，例如二维数组里的每个元素还是一个数组用jArray表示，直到数组变为一维的，且里面元素为基本类型，去获得一维数组指针。给大家提供个例子。已经测试通过。 Java_cn_wzl_FiveChessView_checkWin( JNIEnv* env,jobject thiz,jobjectArray qizidata) { jint i,j; int s