戚银

【Go】类似csv的数据日志组件设计

原文链接：https://blog.thinkeridea.com/201907/go/csv_like_data_logs.html

我们业务每天需要记录大量的日志数据，且这些数据十分重要，它们是公司收入结算的主要依据，也是数据分析部门主要得数据源，针对这么重要的日志，且高频率的日志，我们需要一个高性能且安全的日志组件，能保证每行日志格式完整性，我们设计了一个类 csv 的日志拼接组件，它的代码在这里 datalog。

它是一个可以保证日志各列完整性且高效拼接字段的组件，支持任意列和行分隔符，而且还支持数组字段，可是实现一对多的日志需求，不用记录多个日志，也不用记录多行。它响应一个 []byte 数据，方便结合其它主键写入数据到日志文件或者网络中。

使用说明

API 列表

NewRecord(len int) Record 创建长度固定的日志记录
NewRecordPool(len int) *sync.Pool 创建长度固定的日志记录缓存池
ToBytes(sep, newline string) []byte 使用 sep 连接 Record，并在末尾添加 newline 换行符
ArrayJoin(sep string) string 使用 sep 连接 Record，其结果作为数组字段的值
ArrayFieldJoin(fieldSep, arraySep string) string 使用 fieldSep 连接 Record，其结果作为一个数组的单元
Clean() 清空 Record 中的所有元素，如果使用 sync.Pool 在放回 Pool 之前应该清空 Record，避免内存泄漏
UnsafeToBytes(sep, newline string) []byte 使用 sep 连接 Record，并在末尾添加 newline 换行符，使用原地替换会破坏日志字段引用的字符串
UnsafeArrayFieldJoin(fieldSep, arraySep string) string 使用 fieldSep 连接 Record，其结果作为一个数组的单元，使用原地替换会破坏日志字段引用的字符串

底层使用 type Record []string 字符串切片作为一行或者一个数组字段，在使用时它应该是定长的，因为数据日志往往是格式化的，每列都有自己含义，使用 NewRecord(len int) Record 或者 NewRecordPool(len int) *sync.Pool 创建组件，我建议每个日志使用 NewRecordPool 在程序初始化时创建一个缓存池，程序运行时从缓存次获取 Record 将会更加高效，但是每次放回 Pool 时需要调用 Clean 清空 Record 避免引用字符串无法被回收，而导致内存泄漏。

实践

我们需要保证日志每列数据的含义一至，我们创建了定长的 Record，但是如何保证每列数据一致性，利用go 的常量枚举可以很好的保证，例如我们定义日志列常量：

const (
	LogVersion = "v1.0.0"
)
const (
	LogVer = iota
	LogTime
	LogUid
	LogUserName
	LogFriends

	LogFieldNumber
)

LogFieldNumber 就是日志的列数量，也就是 Record 的长度，之后使用 NewRecordPool 创建缓存池，然后使用常量名称作为下标记录日志，这样就不用担心因为检查或者疏乎导致日志列错乱的问题了。

var w bytes.Buffer // 一个日志写组件
var pool = datalog.NewRecordPool(LogFieldNumber) // 创建一个缓存池

func main() {
  r := pool.Get().(datalog.Record)
  r[LogVer] = LogVersion
  r[LogTime] = time.Now().Format("2006-01-02 15:04:05")
  // 检查用户数据是否存在
  //if user ！=nil{
    r[LogUid] = "Uid"
    r[LogUserName] = "UserNmae"
  //}

  // 拼接一行日志数据
  data := r.Join(datalog.FieldSep, datalog.NewLine)
  r.Clean() // 清空 Record
  pool.Put(r) // 放回到缓存池

  // 写入到日志中
  if _, err := w.Write(data); err != nil {
    panic(err)
  }

  // 打印出日志数据
  fmt.Println("'" + w.String() + "'")
}

以上程序运行会输出：

因为分隔符是不可见字符，下面使用,代替字段分隔符，使用;\n代替换行符，使用/代替数组字段分隔符，是-代替数组分隔符。

'v1.0.0,2019-07-18,11:39:09,Uid,UserNmae,;\n'

即使我们没有记录 LogFriends 列的数据，但是在日志中它仍然有一个占位符，如果 user 是 nil，LogUid 和 LogUserName 不需要特殊处理，也不需要写入数据，它依然占据自己的位置，不用担心日志因此而错乱。

使用 pool 可以很好的利用内存，不会带来过多的内存分配，而且 Record 的每个字段值都是字符串，简单的赋值并不会带来太大的开销，它会指向字符串本身的数据，不会有额外的内存分配，详细参见string 优化误区及建议。
使用 Record.Join 可以高效的连接一行日志记录，便于我们快速的写入的日志文件中，后面设计讲解部分会详细介绍 Join 的设计。

包含数组的日志

有时候也并非都是记录一些单一的值，比如上面 LogFriends 会记录当前记录相关的朋友信息，这可能是一组数据，datalog 也提供了一些简单的辅助函数，可以结合下面的实例实现：

// 定义 LogFriends 数组各列的数据
const (
	LogFriendUid = iota
	LogFriendUserName

	LogFriendFieldNumber
)

var w bytes.Buffer // 一个日志写组件
var pool = datalog.NewRecordPool(LogFieldNumber) // 每行日志的 pool
var frPool = datalog.NewRecordPool(LogFriendFieldNumber) // LogFriends 数组字段的 pool

func main(){
  // 程序运行时
  r := pool.Get().(datalog.Record)
  r[LogVer] = LogVersion
  r[LogTime] = time.Now().Format("2006-01-02 15:04:05")
  // 检查用户数据是否存在
  //if user ！=nil{
    r[LogUid] = "Uid"
    r[LogUserName] = "UserNmae"
  //}

  // 拼接一个数组字段，其长度是不固定的
  r[LogFriends] = GetLogFriends(rand.Intn(3))
  // 拼接一行日志数据
  data := r.Join(datalog.FieldSep, datalog.NewLine)
  r.Clean() // 清空 Record
  pool.Put(r) // 放回到缓存池

  // 写入到日志中
  if _, err := w.Write(data); err != nil {
    panic(err)
  }

  // 打印出日志数据
  fmt.Println("'" + w.String() + "'")
}

// 定义一个函数来拼接 LogFriends 
func GetLogFriends(friendNum int) string {
  // 根据数组长度创建一个 Record，数组的个数往往是不固定的，它整体作为一行日志的一个字段，所以并不会破坏数据
	fs := datalog.NewRecord(friendNum) 
 	// 这里只需要中 pool 中获取一个实例，它可以反复复用
	fr := frPool.Get().(datalog.Record)
	for i := 0; i < friendNum; i++ {
    // fr.Clean() 如果不是每个字段都赋值，应该在使用前或者使用后清空它们便于后面复用
		fr[LogFriendUid] = "FUid"
		fr[LogFriendUserName] = "FUserName"
    
     // 连接一个数组中各个字段，作为一个数组单元
		fs[i] = fr.ArrayFieldJoin(datalog.ArrayFieldSep, datalog.ArraySep)
	}
	fr.Clean() // 清空 Record
	frPool.Put(fr)  // 放回到缓存池

  // 连接数组的各个单元，返回一个字符串作为一行日志的一列
	return fs.ArrayJoin(datalog.ArraySep)
}

以上程序运行会输出：

因为分隔符是不可见字符，下面使用,代替字段分隔符，使用;\n代替换行符，使用/代替数组字段分隔符，是-代替数组分隔符。

'v1.0.0,2019-07-18,11:39:09,Uid,UserNmae,FUid/FUserName-FUid/FUserName;\n'

这样在解析时可以把某一字段当做数组解析，这极大的极大的提高了数据日志的灵活性，
但是并不建议使用过多的层级，数据日志应当清晰简洁，但是有些特殊场景可以使用一层嵌套。

最佳实践

使用 ToBytes 和 ArrayFieldJoin 时会把数据字段中的连接字符串替换一个空字符串，所以在 datalog 里面定义了4个分隔符，它们都是不可见字符，极少会出现在数据中，但是我们还需要替换数据中的这些连接字符，避免破坏日志结构。

虽然组件支持各种连接符，但是为了避免数据被破坏，我们应该选择一些不可见且少见的单字节字符作为分隔符。换行符比较特殊，因为大多数日志读取组件都是用 \n 作为行分隔符，如果数据中极少出现 \n 那就可以使用 \n， datalog 中定义 \x03\n 作为换行符，它兼容一般的日志读取组件，只需要我们做少量的工作就可以正确的解析日志了。

UnsafeToBytes 和 UnsafeArrayFieldJoin 性能会更好，和它们的名字一样，他们并不安全，因为它们使用 exbytes.Replace 做原地替换分隔符，这会破坏数据所指向的原始字符串。除非我们日志数据中会出现极多的分隔符需要替换，否者并不建议使用它们，因为它们只在替换时提升性能。

我在服务中大量使用 UnsafeToBytes 和 UnsafeArrayFieldJoin ，我总是在一个请求结束时记录日志，我确保所有相关的数据不会再使用，所以不用担心原地替换导致其它数据被无感知改变的问题，这也许是一个很好的实践，但是我仍然不推荐使用它们。

设计讲解

datalog 并没有提供太多的约束很功能，它仅仅包含一种实践和一组辅助工具，在使用它之前，我们需要了解这些实践。

它帮我们创建一个定长的日志行或者一个sync.Pool，我们需要结合常量枚举记录数据，它帮我们把各列数据连接成记录日志需要的数据格式。

它所提供的辅助方法都经过实际项目的考验，考量诸多细节，以高性能为核心目标所设计，使用它可以极大的降低相关组件的开发成本，接下来这节将分析它的各个部分。

我认为值得说道的是它提供的一个 Join 方法，相对于 strings.Join 可以节省两次的内存分配，现从它开始分析。

// Join 使用 sep 连接 Record， 并在末尾追加 suffix
// 这个类似 strings.Join 方法，但是避免了连接后追加后缀（往往是换行符）导致的内存分配
// 这个方法直接返回需要的 []byte 类型， 可以减少类型转换，降低内存分配导致的性能问题
func (l Record) Join(sep, suffix string) []byte {
	if len(l) == 0 {
		return []byte(suffix)
	}

	n := len(sep) * (len(l) - 1)
	for i := 0; i < len(l); i++ {
		n += len(l[i])
	}

	n += len(suffix)
	b := make([]byte, n)
	bp := copy(b, l[0])
	for i := 1; i < len(l); i++ {
		bp += copy(b[bp:], sep)
		bp += copy(b[bp:], l[i])
	}
	copy(b[bp:], suffix)
	return b
}

日志组件往往输入的参数是 []byte 类型，所以它直接返回一个 []byte ，而不像 strings.Join 响应一个字符串，在末尾是需要对内部的 buf 进行类型转换，导致额外的内存开销。我们每行日志不仅需要使用分隔符连接各列，还需要一个行分隔符作为结尾，它提供一个后缀 suffix，不用我们之后在 Join 结果后再次拼接行分隔符，这样也能减少一个额外的内存分配。

这恰恰是 datalog 设计的精髓，它并没有大量使用标准库的方法，而是设计更符合该场景的方法，以此来获得更高的性能和更好的使用体验。

// ToBytes 使用 sep 连接 Record，并在末尾添加 newline 换行符
// 注意：这个方法会替换 sep 与 newline 为空字符串
func (l Record) ToBytes(sep, newline string) []byte {
   for i := len(l) - 1; i >= 0; i-- {
      // 提前检查是否包含特殊字符，以便跳过字符串替换
      if strings.Index(l[i], sep) < 0 && strings.Index(l[i], newline) < 0 {
         continue
      }

      b := []byte(l[i]) // 这会重新分配内存，避免原地替换导致引用字符串被修改
      b = exbytes.Replace(b, exstrings.UnsafeToBytes(sep), []byte{' '}, -1)
      b = exbytes.Replace(b, exstrings.UnsafeToBytes(newline), []byte{' '}, -1)
      l[i] = exbytes.ToString(b)
   }

   return l.Join(sep, newline)
}

ToBytes 作为很重要的交互函数，也是该组件使用频率最高的函数，它在连接各个字段之前替换每个字段中的字段和行分隔符，这里提前做了一个检查字段中是否包含分隔符，如果包含使用 []byte(l[i]) 拷贝该列的数据，然后使用 exbytes.Replace 提供高性能的原地替换，因为输入数据是拷贝重新分配的，所以不用担心原地替换会影响其它数据。

之后使用之前介绍的 Join 方法连接各列数据，如果使用 strings.Join 将会是 []byte(strings.Join([]string(l), sep) + newline) 这其中会增加很多次内存分配，该组件通过巧妙的设计规避这些额外的开销，以提升性能。

// UnsafeToBytes 使用 sep 连接 Record，并在末尾添加 newline 换行符
// 注意：这个方法会替换 sep 与 newline 为空字符串，替换采用原地替换，这会导致所有引用字符串被修改
// 必须明白其作用，否者将会导致意想不到的结果。但是这会大幅度减少内存分配，提升程序性能
// 我在项目中大量使用，我总是在请求最后记录日志，这样我不会再访问引用的字符串
func (l Record) UnsafeToBytes(sep, newline string) []byte {
   for i := len(l) - 1; i >= 0; i-- {
      b := exstrings.UnsafeToBytes(l[i])
      b = exbytes.Replace(b, exstrings.UnsafeToBytes(sep), []byte{' '}, -1)
      b = exbytes.Replace(b, exstrings.UnsafeToBytes(newline), []byte{' '}, -1)
      l[i] = exbytes.ToString(b)
   }

   return l.Join(sep, newline)
}

UnsafeToBytes 和 ToBytes 相似只是没有分割符检查，因为exbytes.Replace 中已经包含了检查，而且直接使用 exstrings.UnsafeToBytes 把字符串转成 []byte 这不会发生数据拷贝，非常的高效，但是它不支持字面量字符串，不过我相信日志中的数据均来自运行时分配，如果不幸包含字面量字符串，也不用太过担心，只要使用一个特殊的字符作为分隔符，往往我们编程字面量字符串并不会包含这些字符，执行 exbytes.Replace 没有发生替换也是安全的。

// Clean 清空 Record 中的所有元素，如果使用 sync.Pool 在放回 Pool 之前应该清空 Record，避免内存泄漏
// 该方法没有太多的开销，可以放心的使用，只是为 Record 中的字段赋值为空字符串，空字符串会在编译时处理，没有额外的内存分配
func (l Record) Clean() {
   for i := len(l) - 1; i >= 0; i-- {
      l[i] = ""
   }
}

Clean 方法更简单，它只是把各个列的数据替换为空字符串，空字符串做为一个特殊的字符，会在编译时处理，并不会有额外的开销，它们都指向同一块内存。

// ArrayJoin 使用 sep 连接 Record，其结果作为数组字段的值
func (l Record) ArrayJoin(sep string) string {
   return exstrings.Join(l, sep)
}

// ArrayFieldJoin 使用 fieldSep 连接 Record，其结果作为一个数组的单元
// 注意：这个方法会替换 fieldSep 与 arraySep 为空字符串，替换采用原地替换
func (l Record) ArrayFieldJoin(fieldSep, arraySep string) string {
   for i := len(l) - 1; i >= 0; i-- {
      // 提前检查是否包含特殊字符，以便跳过字符串替换
      if strings.Index(l[i], fieldSep) < 0 && strings.Index(l[i], arraySep) < 0 {
         continue
      }

      b := []byte(l[i]) // 这会重新分配内存，避免原地替换导致引用字符串被修改
      b = exbytes.Replace(b, exstrings.UnsafeToBytes(fieldSep), []byte{' '}, -1)
      b = exbytes.Replace(b, exstrings.UnsafeToBytes(arraySep), []byte{' '}, -1)
      l[i] = exbytes.ToString(b)
   }

   return exstrings.Join(l, fieldSep)
}

ArrayFieldJoin 在连接各个字符串时会直接替换数组单元分隔符，之后直接使用 exstrings.Join 进行连接字符串，exstrings.Join 相对 strings.Join 的一个改进函数，因为它只有一次内存分配，较 strings.Join 节省一次，有兴趣可以去看它的源码实现。

总结

datalog 提供了一种实践以及一些辅助工具，可以帮助我们快速的记录数据日志，更关心数据本身。具体程序性能可以交给 datalog 来实现，它保证程序的性能。

后期我会计划提供一个高效的日志读取组件，以便于读取解析数据日志，它较与一般文件读取会更加高效且便捷，有针对性的优化日志解析效率，敬请关注吧。

转载：

本文作者：戚银（thinkeridea）

本文链接： https://blog.thinkeridea.com/201907/go/csv_like_data_logs.html

matlab怎么将代码在gpu上运行,使用GPU加速MATLAB代码？如果有片海
使用GPU加速MATLAB代码？AccelerEyes于2012年12月宣布，它将与Mathworks在GPU代码上合作，并已停止使用MATLAB的产品Jacket：http://blog.accelereyes.com/blog/2012/12/12/exciting-updates-from-accelereyes/不幸的是，他们不再销售Jacket许可证。据我所知，基于ArrayFire的J
Vue+EasyExcel来操作文件上传下载 ☆夜幕星河℡ SpringBoot Excel EasyExcel java vue spring boot
Excel导入导出在管理一个系统时，总会有许多的数据，为了方便浏览查看数据，系统总会提供「导出Excel」的功能；有导出就有导入，在要向数据库中插入大量的数据时，我们向程序提供准备好的Excel，然后程序读取表格内容，并将数据添加到数据库中。实现这个「导入/导出Excel」的功能也不复杂，我们使用第三方的类库即可实现。比如：Apachepoi、JavaExcel（JXL）和阿里巴巴开源的Easye
【CSDN】java使用POI&EasyExcel操作文件学习笔记骑鱼过海的猫123 java 学习笔记
文章目录1.Apachepoi参考CSDNurl:[CSDNPOI文档](https://blog.csdn.net/fgghhfg574/article/details/103343030)参考B站视频:[B站POI视频](https://www.bilibili.com/video/BV1cG411M7ut?p=6&vd_source=31d376c1e57cf8a26a31cd3b47080
西门子PLC转MQTT协议OPC协议网关应用案例钡铼技术网关工业物联网关钡铼PLC采集网关 PLC物联网关物联网 PLC转MQTT网关 PLC采集网关嵌入式OPC UA网关
BL102是一款采集西门子、三菱、欧姆龙、台达、AB、施耐德等各种PLC数据转换为ModbusTCP、OPCUA、MQTT、华为云IoT、亚马逊云IoT、阿里云IoT、金鸽云等协议的网关。BL102下行支持：西门子、三菱、欧姆龙、台达、AB、施耐德等各种PLC。BL102上行支持：ModbusTCP、MQTT、OPCUA、华为云IoT、阿里云IoT、AWSIoT、金鸽云等协议。BL102支持OPC
Windows 图形显示驱动开发-WDDM 3.0功能- D3D12 增强型屏障（二）程序员王马 windows图形显示驱动开发驱动开发 windows
同步图形处理器旨在并行执行尽可能多的工作。任何依赖于先前GPU工作的GPU工作都必须在访问相关数据之前同步。增强型屏障接口使用显式SyncBefore和SyncAfter值作为逻辑位字段掩码。在执行屏障之前，屏障必须等待所有前面的命令SyncBefore范围完成。同样，屏障必须阻止所有后续的SyncAfter范围，直到屏障完成。D3D12DDI_BARRIER_SYNC指定GPU工作相对于屏障的同
JavaScript松散比较与严格比较 hzw0510 前端开发 javascript 开发语言 ecmascript
在JavaScript中，==（双等号）和===（三等号）都用于比较两个值，但它们的比较方式有显著区别。以下是它们的详细对比：1.==（双等号）名称:松散相等（LooseEquality）行为:在比较之前会尝试进行类型转换，将两个值转换为相同类型后再比较。示例:console.log(5=="5")
人工智能伦理与可持续发展 CarlowZJ 人工智能
前言人工智能（AI）技术正在深刻地改变我们的生活和工作方式。从自动驾驶汽车到智能医疗系统，从个性化推荐到自动化决策，AI的应用无处不在。然而，随着技术的快速发展，其伦理和社会影响也引发了广泛的关注。人工智能伦理不仅涉及技术本身的公平性、透明性和安全性，还涉及到更广泛的社会、经济和环境影响。本文将探讨人工智能伦理的核心问题，并从可持续发展的角度提出应对策略。一、人工智能伦理的核心问题1.1数据隐私与
[Unity] GPU动画实现（四）——生成动画数据 Zhidai_ Unity unity 动画游戏引擎
目前使用的方法有一个很大缺陷在于基于顶点生成的动画占用的空间很大，一个理想的情况是基于骨骼数据，本文权当抛砖引玉，后续有时间考虑尝试一下基于骨骼数据生成动画。本文内容大量参考自白菊花瓣丶的视频，感谢！生成动画数据需要用到ComputeShader来提高运行的效率，首先在Resources下创建这样一个computeshader，在这里我将其命名为"AnimVertices"。#pragmakern
生成式AI+安全：API防护的“进化革命”——从被动防御到智能对抗的技术跃迁数信云 DCloud 人工智能安全 ai
在生成式AI重塑数字世界的今天，API作为数据流动的“数字血管”，其安全性已成为企业生死存亡的关键。行业数据显示，2025年全球77%的企业将深度整合生成式AI技术，承载着75%互联网流量的API体系，正驱动着超2000亿美元的数字经济浪潮。然而，这场技术革命也催生了新型威胁：攻击者利用生成式AI自动化构造恶意请求，绕过传统规则引擎；大模型API的滥用导致算力耗尽与数据泄露；甚至AI生成的代码漏洞
MySQL---DDL（3.17）秋凉づᐇ mysql oracle 数据库
1、DDL-数据库操作查询：查询所有数据库：SHOWDATABASES;查询当前数据库：SELECTDATABASE();创建:CREATEDATABASE[IFNOTEXISTS]数据库名[DEFAULTCHARSET字符集][COLLATE排序规则]；删除：DROPDATABASE[IFEXISTS]数据库名；使用：USE数据库名；2、DDL--表操作-查询查询当前数据库所有表：SHOWTAB
Easyexcel操作文件一诚学编程 java 开发语言
常见问题汇总1.往文件里写数据时，如果没有对应的实体类时，需要创建一个List>来保存一行的数据privateMapconvertToMap(ResultSetrs){LinkedHashMaprow=newLinkedHashMap;for(inti=0;i>data=newArrayListrowData=newHashMap<>();rowData.put(0,"张三");rowData.p
证券交易系统核心技术解析：LinkTrader 的毫秒级响应架构与风控实践 Ashlee_code 架构 python java c++
一、行业痛点：为什么传统交易系统正在被淘汰？2024年，证券行业guweng22346的技术竞争已从“功能完备”转向**“速度+智能”的极限博弈**。以下是传统系统的三大致命缺陷：数据延迟：非官方行情源导致套利窗口丢失（实测延迟普遍>0.1秒）；风控低效：依赖人工监控，凌晨时段风险拦截率不足30%；扩展性差：单体架构下订单处理峰值低于10万/秒，极易崩溃。典型案例：某券商因系统延迟0.05秒，单日
【python爬虫实战】——基于全国各城市快递网点的数据采集小L工程师 python爬虫实战爬虫网络爬虫 python selenium 开发语言数据分析数据可视化
一、项目背景随着电子商务的快速发展，快递行业成为了现代物流的重要组成部分。快递网点的分布和服务质量直接影响到用户的物流体验。为了更好地了解快递网点的分布情况、服务范围以及联系方式等信息，本项目通过爬虫技术从公开的快递信息网站上采集相关数据。‘>本文章中所有内容仅供学习交流使用，不用于其他任何目的，严禁用于商业用途和非法用途，否则由此产生的一切后果均与作者无关！二、项目目的和意义本项目的主要目的是通
从零开始学习鸿蒙系统 Ning.L 华为 harmonyos
1.移动通讯技术的发展-1G时代：1980年摩托罗拉开发出了第一部手机，使用的就是1G的技术。只能进行语音通话。就是大哥大。-2G时代：1996年到1997年出现了第二代GSM、CDMA等数字制式手机，增加了接收数据的功能。2G不仅可以通话，还可以数据收发的功能，最开始的速度只有9K/S。如果我想收发一些图片或者音频技术是不可能的，因为速度太慢了。后来随着互联网多媒体的流行，多了图片，视频等，所以
前端缓存接口数据 jjjjjjjjj¢ 笔记前端
在前端缓存接口数据时，可以结合浏览器缓存策略、前端存储（localStorage、sessionStorage、IndexedDB）、内存缓存（变量存储）、ServiceWorker等方式，选择适合的方案。使用浏览器HTTP缓存（推荐，依赖后端支持）如果接口数据不会频繁变化，可以使用HTTP缓存策略（强缓存+协商缓存），减少不必要的请求。后端设置Cache-Control在接口响应头中，服务器可以
pytorch中的DataLoader 朋也透william pytorch 人工智能 python
在PyTorch中，DataLoader是一个工具类，用于高效地加载数据并准备数据输入到模型中。它支持数据的批量加载、随机打乱、并行加载和迭代操作，是训练深度学习模型的关键组件之一。1.基本功能DataLoader的主要职责是从数据集中提取样本，并根据设置返回一个批次的数据。它与Dataset类结合使用：Dataset：定义数据集的来源、结构以及如何获取单个数据样本。DataLoader：负责从D
基于Gradio实现的增删改查（CRUD）模板系统设计方案大霸王龙 python gradio
基于Gradio实现的增删改查（CRUD）模板系统设计方案，结合了交互界面优化与数据持久化方案，支持本地JSON存储和动态界面更新：一、系统架构设计数据存储层采用JSON文件实现数据持久化（data.json）数据结构示例：{"items":[{"id":1,"name":"示例项目","category":"测试","status":"进行中"}]}界面交互层使用gr.Blocks实现多组件布局
pyqt 上传文件或者文件夹打包压缩文件并添加密码并将密码和目标文件信息保存在json文件大霸王龙 pyqt json
一、完整代码实现importsysimportosimportjsonimportpyzipperfromdatetimeimportdatetimefromPyQt5.QtWidgetsimport(QApplication,QWidget,QVBoxLayout,QHBoxLayout,QPushButton,QLineEdit,QLabel,QFileDialog,QMessageBox,Q
情感分析任务的概述阿你不是 python 开发语言
一、情感分析的概述1、什么是情感分析情感分析，也称为情感分类，是一种自然语言处理的任务，用于分析文本、语音或其他形式的数据中所包含的情感倾向。其目标是判断数据表达的情感是积极的（Positive）、消极的（Negative）还是中立的（Neutral），或者进一步细化为更复杂的情感类别（如愤怒、喜悦、悲伤等）。2、情感分析的主要应用场景1）商业领域：情感分析主要进行产品评价分析，从客户和买家的评价
Pytorch Dataloader入门 gy-7 pytorch 深度学习机器学习
PytorchDataloadercode：torch/utils/data/dataloader.py#L71PytorchDatasettutorial:tutorials/beginner/basics/data_tutorial.html理论：在训练模型时，我们通常希望：以“mini-batch”方式传递样本，能够加速训练。每个epoch都shuffle数据，能够减少模型过拟合。使用Pyt
73_Go基础_1_43 方法继承芦苇King 05_Go_01 golang 开发语言后端
packagemainimport"fmt"//1.定义一个"父类"typePersonstruct{namestringageint}//2.定义一个"子类"typeStudentstruct{Person//结构体嵌套，模拟继承性schoolstring}//3.方法func(pPerson)eat(){fmt.Println("父类的方法，吃窝窝头。。")}func(sStudent)stu
一个简单的日志类Logger qinfen123456 单片机嵌入式硬件 c++学习笔记开发语言
实现一个C++简单日志类，具备以下特性：日志文件命名采用文件名前缀加上日期的格式，方便管理与识别。对单个日志文件大小进行限制，当文件大小达到20MB时，自动开启新的日志文件。具备过期文件清理机制，自动删除保留时间超过365天的日志文件，节省存储空间。该日志类是线程安全的，能够在多线程环境下稳定运行，避免日志记录冲突。支持使用format格式进行日志记录，方便灵活输出不同格式的日志信息。自动创建子目
大模型RAG实战｜混合检索：BM25检索+向量检索的LlamaIndex实现 AIGC大模型吱屋猪 django python 后端 AI-native 人工智能 llama 百度
ThinkRAG大模型RAG实战系列文章，带你深入探索使用LlamaIndex框架，构建本地大模型知识库问答系统。本系列涵盖知识库管理、检索优化、模型本地部署等主题，通过代码与实例，讲解如何打造生产级系统，实现本地知识库的快速检索与智能问答。本文我将介绍一种效果更好的混合检索方法，在实际问答场景中，优于向量数据库自带的混合检索功能。1什么是混合检索目前，大模型RAG系统中普遍采用混合检索来提升检索
基于多向量检索器的多模态RAG实现：用于表格、文本和图像 lichunericli 人工智能自然语言处理
原文地址：Multi-VectorRetrieverforRAGontables,text,andimages2023年10月20日概括跨不同数据类型（图像、文本、表格）的无缝问答是RAG追求的目标之一。我们将发布threenewcookbooks，展示在包含混合内容类型的文档上使用RAG的多向量检索器。这些cookbooks还提出了一些将多模态LLM与多向量检索器配对以解锁图像上的RAG的想法。
redis有哪几种持久化方式杏花春雨江南 redis redis 数据库缓存
Redis提供了两种持久化方式：RDB（RedisDatabase）和AOF（Append-OnlyFile）。它们各有优缺点，适用于不同的场景。以下是它们的原理、优缺点以及如何选择的建议：1.RDB（RedisDatabase）原理：RDB是Redis的快照持久化方式。Redis会定期将内存中的数据生成一个二进制快照文件（.rdb），并保存到磁盘。可以通过配置save参数设置触发快照的条件（如s
AI如何创作音乐及其案例 alankuo 人工智能
AI创作音乐主要有以下几种方式：基于深度学习的生成模型深度神经网络：通过大量的音乐数据训练，让AI学习音乐的结构、旋律、和声、节奏等特征。如Transformer架构，其注意力机制可捕捉跨小节的旋律关联性，能生成具有长期依赖性的音乐序列。生成对抗网络（GAN）：包含生成器和判别器，生成器负责生成音乐样本，判别器判断生成的音乐是否真实。两者相互对抗、不断优化，使生成器生成更逼真的音乐。变分自编码器（
AI时代如何引流 alankuo 人工智能
AI时代引流可以从以下几个方面着手：利用AI精准定位与个性化营销精准客户画像：借助AI整合多维度数据，涵盖客户的年龄、性别、地理位置、消费习惯、浏览历史等，深度挖掘后绘制精准的客户画像，明确潜在客户特征与需求，让营销活动更具针对性。个性化内容创作：运用AI的自然语言处理功能，依据客户特点和需求生成个性化的营销内容，如广告文案、产品推荐等。以电商平台为例，可针对不同用户生成符合其喜好的商品推荐文案。
学习Web3.0需要具备哪些基础知识？ alankuo 人工智能人工智能
学习Web3.0需要具备以下基础知识：一、计算机科学基础1.编程知识-了解至少一种编程语言，如Python、JavaScript等。这将有助于理解Web3.0应用程序的开发和智能合约的编写。-熟悉编程概念，如变量、数据类型、控制结构、函数等。2.数据结构和算法-掌握常见的数据结构，如数组、链表、栈、队列、树、图等，以及它们的操作和应用。-了解基本的算法，如排序、搜索、递归等，以及它们的时间和空间复
音视频缓存数学模型锋风Fengfeng 安卓Android应用开发相关音视频缓存
2024年8月的笔记音视频缓存数学模型-Wesley’sBlog播放器作为消费者，缓存作为生产者。进入缓冲一次设消费者速率为v1，生产者为v2，视频长度为l，x为生产者至少距离消费者多远才能保证在播完视频前两者重合。实际上就是一个追及问题。v1t=v2t+x，即l=v2*l/v1+x，因为播放器速度是1，继续简化得x=l(1-v2)如果v2大于1，即满足消费者需求时，可以流畅播放。设l是一部45分
7、标准库的string的常见使用周Echo周 STL c++开发语言算法数据结构推荐算法 leetcode 蓝桥杯
一、了解string其实不完全算STL库中的。在C++中，string是标准库提供的用于处理动态字符序列的类（位于头文件），相比C风格的字符数组（char[]或char*），string提供更安全、更便捷的操作。使用的头文件#include二、初始化stringname;//创建一个空的stringstringname("数据");//创建一个字符串值为“数据”的stringstringname=
关于旗正规则引擎下载页面需要弹窗保存到本地目录的问题何必如此 jsp 超链接文件下载窗口
生成下载页面是需要选择“录入提交页面”，生成之后默认的下载页面<a>标签超链接为：<a href="<%=root_stimage%>stimage/image.jsp?filename=<%=strfile234%>&attachname=<%=java.net.URLEncoder.encode(file234filesourc
【Spark九十八】Standalone Cluster Mode下的资源调度源代码分析 bit1129 cluster
在分析源代码之前，首先对Standalone Cluster Mode的资源调度有一个基本的认识：首先，运行一个Application需要Driver进程和一组Executor进程。在Standalone Cluster Mode下，Driver和Executor都是在Master的监护下给Worker发消息创建(Driver进程和Executor进程都需要分配内存和CPU，这就需要Maste
linux上独立安装部署spark daizj linux 安装 spark 1.4 部署
下面讲一下linux上安装spark，以 Standalone Mode 安装 1）首先安装JDK 下载JDK：jdk-7u79-linux-x64.tar.gz ，版本是1.7以上都行，解压 tar -zxvf jdk-7u79-linux-x64.tar.gz 然后配置 ~/.bashrc&nb
Java 字节码之解析一周凡杨 java 字节码 javap
一： Java 字节代码的组织形式类文件 { OxCAFEBABE ，小版本号，大版本号，常量池大小，常量池数组，访问控制标记，当前类信息，父类信息，实现的接口个数，实现的接口信息数组，域个数，域信息数组，方法个数，方法信息数组，属性个数，属性信息数组 } &nbs
java各种小工具代码 g21121 java
1.数组转换成List import java.util.Arrays; Arrays.asList(Object[] obj); 2.判断一个String型是否有值 import org.springframework.util.StringUtils; if (StringUtils.hasText(str)) 3.判断一个List是否有值 import org.spring
加快FineReport报表设计的几个心得体会老A不折腾 finereport
一、从远程服务器大批量取数进行表样设计时，最好按“列顺序”取一个“空的SQL语句”，这样可提高设计速度。否则每次设计时模板均要从远程读取数据，速度相当慢！！二、找一个富文本编辑软件（如NOTEPAD+）编辑SQL语句，这样会很好地检查语法。有时候带参数较多检查语法复杂时，结合FineReport中生成的日志，再找一个第三方数据库访问软件（如PL/SQL）进行数据检索，可以很快定位语法错误。
mysql linux启动与停止墙头上一根草
如何启动/停止/重启MySQL一、启动方式1、使用 service 启动：service mysqld start2、使用 mysqld 脚本启动：/etc/inint.d/mysqld start3、使用 safe_mysqld 启动：safe_mysqld&二、停止1、使用 service 启动：service mysqld stop2、使用 mysqld 脚本启动：/etc/inin
Spring中事务管理浅谈 aijuans spring 事务管理
Spring中事务管理浅谈 By Tony Jiang@2012-1-20 Spring中对事务的声明式管理拿一个XML举例 [html] view plain copy print ? <?xml version="1.0" encoding="UTF-8"?>&nb
php中隐形字符65279（utf-8的BOM头）问题 alxw4616
php中隐形字符65279（utf-8的BOM头）问题今天遇到一个问题. php输出JSON 前端在解析时发生问题:parsererror. 调试: 1.仔细对比字符串发现字符串拼写正确.怀疑是非打印字符的问题. 2.逐一将字符串还原为unicode编码. 发现在字符串头的位置出现了一个 65279的非打印字符.
调用对象是否需要传递对象(初学者一定要注意这个问题) 百合不是茶对象的传递与调用技巧
类和对象的简单的复习,在做项目的过程中有时候不知道怎样来调用类创建的对象,简单的几个类可以看清楚,一般在项目中创建十几个类往往就不知道怎么来看为了以后能够看清楚,现在来回顾一下类和对象的创建,对象的调用和传递(前面写过一篇) 类和对象的基础概念: JAVA中万事万物都是类类有字段(属性),方法,嵌套类和嵌套接
JDK1.5 AtomicLong实例 bijian1013 java thread java多线程 AtomicLong
JDK1.5 AtomicLong实例类 AtomicLong 可以用原子方式更新的 long 值。有关原子变量属性的描述，请参阅 java.util.concurrent.atomic 包规范。AtomicLong 可用在应用程序中（如以原子方式增加的序列号），并且不能用于替换 Long。但是，此类确实扩展了 Number，允许那些处理基于数字类的工具和实用工具进行统一访问。
自定义的RPC的Java实现 bijian1013 java rpc
网上看到纯java实现的RPC，很不错。 RPC的全名Remote Process Call，即远程过程调用。使用RPC，可以像使用本地的程序一样使用远程服务器上的程序。下面是一个简单的RPC 调用实例，从中可以看到RPC如何
【RPC框架Hessian一】Hessian RPC Hello World bit1129 Hello world
什么是Hessian The Hessian binary web service protocol makes web services usable without requiring a large framework, and without learning yet another alphabet soup of protocols. Because it is a binary p
【Spark九十五】Spark Shell操作Spark SQL bit1129 shell
在Spark Shell上，通过创建HiveContext可以直接进行Hive操作 1. 操作Hive中已存在的表 [hadoop@hadoop bin]$ ./spark-shell Spark assembly has been built with Hive, including Datanucleus jars on classpath Welcom
F5　往header加入客户端的ip ronin47
when HTTP_RESPONSE {if {[HTTP::is_redirect]}{ HTTP::header replace Location [string map {:port/ /} [HTTP::header value Location]]HTTP::header replace Lo
java-61-在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差. 求所有数对之差的最大值。例如在数组{2, 4, 1, 16, 7, 5, bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/2541117420116135376632/ 写了个java版的 public class GreatestLeftRightDiff { /** * Q61.在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差。 * 求所有数对之差的最大值。例如在数组
mongoDB 索引开窍的石头 mongoDB索引
在这一节中我们讲讲在mongo中如何创建索引得到当前查询的索引信息 db.user.find(_id:12).explain(); cursor: basicCoursor 指的是没有索引 &
[硬件和系统]迎峰度夏 comsci 系统
从这几天的气温来看，今年夏天的高温天气可能会维持在一个比较长的时间内所以，从现在开始准备渡过炎热的夏天。。。。每间房屋要有一个落地电风扇，一个空调(空调的功率和房间的面积有密切的关系) 坐的，躺的地方要有凉垫，床上要有凉席电脑的机箱
基于ThinkPHP开发的公司官网 cuiyadll 行业系统
后端基于ThinkPHP，前端基于jQuery和BootstrapCo.MZ 企业系统轻量级企业网站管理系统运行环境:PHP5.3+, MySQL5.0 系统预览系统下载：http://www.tecmz.com 预览地址：http://co.tecmz.com 各种设备自适应响应式的网站设计能够对用户产生友好度，并且对于
Transaction and redelivery in JMS (JMS的事务和失败消息重发机制) darrenzhu jms 事务承认 MQ acknowledge
JMS Message Delivery Reliability and Acknowledgement Patterns http://wso2.com/library/articles/2013/01/jms-message-delivery-reliability-acknowledgement-patterns/ Transaction and redelivery in
Centos添加硬盘完全教程 dcj3sjt126com linux centos hardware
Linux的硬盘识别: sda 表示第1块SCSI硬盘 hda 表示第1块IDE硬盘 scd0 表示第1个USB光驱一般使用“fdisk -l”命
yii2 restful web服务路由 dcj3sjt126com PHP yii2
路由随着资源和控制器类准备，您可以使用URL如 http://localhost/index.php?r=user/create访问资源，类似于你可以用正常的Web应用程序做法。在实践中，你通常要用美观的URL并采取有优势的HTTP动词。例如，请求POST /users意味着访问user/create动作。这可以很容易地通过配置urlManager应用程序组件来完成如下所示
MongoDB查询(4)——游标和分页[八] eksliang mongodb MongoDB游标 MongoDB深分页
转载请出自出处：http://eksliang.iteye.com/blog/2177567 一、游标数据库使用游标返回find的执行结果。客户端对游标的实现通常能够对最终结果进行有效控制，从shell中定义一个游标非常简单，就是将查询结果分配给一个变量（用var声明的变量就是局部变量），便创建了一个游标，如下所示： > var
Activity的四种启动模式和onNewIntent() gundumw100 android
Android中Activity启动模式详解　　在Android中每个界面都是一个Activity，切换界面操作其实是多个不同Activity之间的实例化操作。在Android中Activity的启动模式决定了Activity的启动运行方式。　　Android总Activity的启动模式分为四种： Activity启动模式设置： <acti
攻城狮送女友的CSS3生日蛋糕 ini html Web html5 css css3
在线预览：http://keleyi.com/keleyi/phtml/html5/29.htm 代码如下： <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>攻城狮送女友的CSS3生日蛋糕-柯乐义<
读源码学Servlet（1）GenericServlet 源码分析 jzinfo tomcat Web servlet 网络应用网络协议
Servlet API的核心就是javax.servlet.Servlet接口，所有的Servlet 类（抽象的或者自己写的）都必须实现这个接口。在Servlet接口中定义了5个方法，其中有3个方法是由Servlet 容器在Servlet的生命周期的不同阶段来调用的特定方法。先看javax.servlet.servlet接口源码： package
JAVA进阶：VO(DTO)与PO(DAO)之间的转换 snoopy7713 java VO Hibernate po
PO即 Persistence Object　　VO即 Value Object 　VO和PO的主要区别在于：　　VO是独立的Java Object。　　PO是由Hibernate纳入其实体容器（Entity Map）的对象，它代表了与数据库中某条记录对应的Hibernate实体，PO的变化在事务提交时将反应到实际数据库中。　实际上，这个VO被用作Data Transfer
mongodb group by date 聚合查询日期统计每天数据（信息量） qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 1 */ { "_id" : ObjectId("557ac1e2153c43c320393d9d"), "msgType" : "text", "sendTime" : ISODate("2015-06-12T11:26:26.000Z")
java之18天常用的类(一) Luob. Math Date System Runtime Rundom
System类 import java.util.Properties; /** * System: * out:标准输出,默认是控制台 * in:标准输入,默认是键盘 * * 描述系统的一些信息 * 获取系统的属性信息:Properties getProperties(); * * * */ public class Sy
maven wuai maven
1、安装maven：解压缩、添加M2_HOME、添加环境变量path 2、创建maven_home文件夹，创建项目mvn_ch01,在其下面建立src、pom.xml，在src下面简历main、test、main下面建立java文件夹 3、编写类，在java文件夹下面依照类的包逐层创建文件夹，将此类放入最后一级文件夹 4、进入mvn_ch01 4.1、mvn compile ,执行后会在