最近在写一个通过ftp客户端lib下载ftp-server文件的功能,以前是直接用 wget 命令下载的,然后用ftp客户端下载的时候就发现,速度慢了很多,如果server没有变动,那肯定是client出问题了,于是研究了一下下载的逻辑,其中有一个循环从conn read data的操作,最后定位是高频写操作过慢导致的问题,于是自己测试并修改之后,性能确实恢复了!
bufio
的写操作package main
import (
"fmt"
"log"
"os"
"strconv"
"testing"
"time"
)
func Test_FileWrite(t *testing.T) {
dstFile, err := os.OpenFile("/tmp/test.txt", os.O_CREATE|os.O_WRONLY, os.ModePerm)
if err != nil {
log.Fatalf("open file failed, err:%v", err)
}
st := time.Now()
defer func() {
dstFile.Close()
fmt.Println("文件写入耗时:", time.Now().Sub(st).Seconds(), "s")
}()
for i := 0; i < 100000; i++ {
dstFile.WriteString(strconv.Itoa(i) + "\n")
}
}
执行结果:
=== RUN Test_FileWrite
文件写入耗时: 0.626794301 s
--- PASS: Test_FileWrite (0.63s)
PASS
bufio
之后的写操作package main
import (
"bufio"
"fmt"
"log"
"os"
"strconv"
"testing"
"time"
)
func Test_FileWrite(t *testing.T) {
dstFile, err := os.OpenFile("/tmp/test.txt", os.O_CREATE|os.O_WRONLY, os.ModePerm)
if err != nil {
log.Fatalf("open file failed, err:%v", err)
}
bufWriter := bufio.NewWriter(dstFile)
st := time.Now()
defer func() {
bufWriter.Flush()
dstFile.Close()
fmt.Println("文件写入耗时:", time.Now().Sub(st).Seconds(), "s")
}()
for i := 0; i < 100000; i++ {
bufWriter.WriteString(strconv.Itoa(i) + "\n")
}
}
执行结果:
=== RUN Test_FileWrite
文件写入耗时: 0.022134496 s
--- PASS: Test_FileWrite (0.02s)
PASS
0.62s vs 0.02s 优化还是很明显的
flush
操作bufio 通过 flush 操作将缓冲写入真实的文件的,所以一定要在关闭文件之前先flush,否则会造成数据丢失的情况。下面是一个忘记flush的实例:
package main
import (
"bufio"
"fmt"
"log"
"os"
"strconv"
"testing"
"time"
)
func Test_FileWrite(t *testing.T) {
dstFile, err := os.OpenFile("/tmp/test.txt", os.O_CREATE|os.O_WRONLY|os.O_TRUNC, os.ModePerm)
if err != nil {
log.Fatalf("open file failed, err:%v", err)
}
bufWriter := bufio.NewWriter(dstFile)
st := time.Now()
defer func() {
//bufWriter.Flush() //不进行flush会丢失数据
dstFile.Close()
fmt.Println("文件写入耗时:", time.Now().Sub(st).Seconds(), "s")
}()
for i := 0; i < 100000; i++ {
bufWriter.WriteString(strconv.Itoa(i) + "\n")
}
}
查看写入行数,明显缺少了!
➜ tmp wc -l /tmp/test.txt
99473 /tmp/test.txt
想要移动文件指针调用 Seek()
函数需要特别注意,因为这个时候,文件的写入是带缓冲的,一定要避免seek操作的同时,缓冲区和文件没有同步的情况。
package main
import (
"bufio"
"fmt"
"log"
"os"
"strconv"
"testing"
"time"
)
func Test_FileWrite(t *testing.T) {
dstFile, err := os.OpenFile("/tmp/test.txt", os.O_CREATE|os.O_WRONLY|os.O_TRUNC, os.ModePerm)
if err != nil {
log.Fatalf("open file failed, err:%v", err)
}
bufWriter := bufio.NewWriter(dstFile)
st := time.Now()
defer func() {
bufWriter.Flush()
dstFile.Close()
fmt.Println("文件写入耗时:", time.Now().Sub(st).Seconds(), "s")
}()
for i := 0; i < 100000; i++ {
dstFile.Seek(0, os.SEEK_SET)
bufWriter.WriteString(strconv.Itoa(i) + "\n")
}
}
先说下我们的预期,实际上是每次写一行,然后再移动到第一行,最后覆盖掉第一行,依次往复,文件中应该只有一行,但是因为缓冲的存在,实际上每次写入了一大块,就会造成不符合预期的情况:
➜ tmp wc -l /tmp/test.txt
683 /tmp/test.txt
package main
import (
"bufio"
"fmt"
"log"
"os"
"strconv"
"testing"
"time"
)
func Test_FileWrite(t *testing.T) {
dstFile, err := os.OpenFile("/tmp/test.txt", os.O_CREATE|os.O_WRONLY|os.O_TRUNC, os.ModePerm)
if err != nil {
log.Fatalf("open file failed, err:%v", err)
}
bufWriter := bufio.NewWriter(dstFile)
st := time.Now()
defer func() {
bufWriter.Flush()
dstFile.Close()
fmt.Println("文件写入耗时:", time.Now().Sub(st).Seconds(), "s")
}()
for i := 0; i < 100000; i++ {
dstFile.Seek(0, os.SEEK_SET)
dstFile.WriteString(strconv.Itoa(i) + "\n")
//直接使用文件指针进行文件写操作,或者使用 bufio + 每次写操作之后flush 也能达到相同的目的(不过就没有bufio的效果了)
//bufWriter.WriteString(strconv.Itoa(i) + "\n")
//bufWriter.Flush()
}
}
正常的结果,写入只有一行
➜ tmp wc -l /tmp/test.txt
1 /tmp/test.txt
bufio 在一定场景下还是很能提升效率的,不过还是需要注意与直接写入文件的异同,防止数据未同步的状况发生。
除了bufio 之外,实际上操作系统也自带buf,这个是内存和磁盘之间的buf,不同进程对同一个文件的不同位置进行操作时,就有可能因为还没有写入磁盘,导致读取异常,如果想实时同步,也有对应的方法:
// Sync commits the current contents of the file to stable storage.
// Typically, this means flushing the file system's in-memory copy
// of recently written data to disk.
func (f *File) Sync() error {
if err := f.checkValid("sync"); err != nil {
return err
}
if e := f.pfd.Fsync(); e != nil {
return f.wrapErr("sync", e)
}
return nil
}
hello world~