Golang基础(六)-- 大量字符串处理性能调优 String Interning

今天在用golang做数据处理的时候出现了点问题,场景是这样的。

服务端定时去请求远端服务器拉取每日数据,数据量不是很大,在百万级左右。
拉取到的数据再经过简单数据校验和处理之后存入数据库。结果在执行这段代码的时候占用了将近3个G的内存。

在优化代码的时候发现了一个问题就是golang在处理大量string类型的时候并没有Interning,而在操作DB时又经常性的出现重复数据,导致内存没必要的浪费。

string interning(字符串驻留)的概念其实在java里会有接触,可以理解为一个常量池,在新建string的时候会查找有没有相同的unicode,有就把指针指过去。wiki原文中也写到了,在java中interning是一个默认的模式。

for example [String.intern()] in Java. All compile-time constant strings in Java are automatically interned using this method. --https://en.wikipedia.org/wiki/String_interning

·

git上发现了这么一个基于go的intern包,写法很简单,逻辑就可以理解为一个常量池,但是考虑到多线程map读写的坑以及性能问题就没有去用他。
https://github.com/josharian/intern/blob/master/intern.go

package intern

import "sync"

var (
    pool sync.Pool = sync.Pool{
        New: func() interface{} {
            return make(map[string]string)
        },
    }
)

// String returns s, interned.
func String(s string) string {
    m := pool.Get().(map[string]string)
    c, ok := m[s]
    if ok {
        pool.Put(m)
        return c
    }
    m[s] = s
    pool.Put(m)
    return s
}

// Bytes returns b converted to a string, interned.
func Bytes(b []byte) string {
    m := pool.Get().(map[string]string)
    c, ok := m[string(b)]
    if ok {
        pool.Put(m)
        return c
    }
    s := string(b)
    m[s] = s
    pool.Put(m)
    return s
}

这两天我研究一下这个包,把优化结果及string包的源码分析整理一下
https://godoc.org/github.com/chriso/go-intern
https://flaviocopes.com/golang-profiling/

·

你可能感兴趣的:(Golang基础(六)-- 大量字符串处理性能调优 String Interning)