主要用了ants连接池以及beego
一开始用的是beego提供的orm中的高级查询中的PrepareInsert,结果我只能说我去!这个鬼东西性能实在是太低了,一百万条数据在插入几万条之后,就因为连接太多了数据库崩了!!!后来仔细翻看beego的文档发现了下面这个东东
InsertMulti
同时插入多个对象
类似sql语句
insert into table (name, age) values("slene", 28),("astaxie", 30),("unknown", 20)
第一个参数 bulk 为并列插入的数量,第二个为对象的slice
返回值为成功插入的数量
users := []User{
{Name: "slene"},
{Name: "astaxie"},
{Name: "unknown"},
...
}
successNums, err := o.InsertMulti(100, users)
bulk 为 1 时,将会顺序插入 slice 中的数据
这就很完美了,开搞,直接上最终写好的一个小demo,测试结果插入一百万条数据只需要了九秒,嘿嘿占了数据结构简单的便宜才能这么快
model层
package models
import (
"fmt"
"github.com/astaxie/beego/orm"
"sync"
)
//用户表
type Order struct {
mu sync.Mutex
Id int `orm:"column(Id)"`
OrderId int64 `orm:"unique;column(Name)"` //用户名
}
func NewOrder() *Order {
return &Order{}
}
func GetTableOrder() string {
return getTable("order")
}
var (
// 与变量对应的使用互斥锁
countGuard sync.Mutex
)
type SyncMutex struct {
or *Order
countGuard sync.Mutex
}
//根据用户id获取用户info表的信息
//@param uid interface{} 用户UID
//@return UserInfo 用户信息
func (u *Order) InsertAll(orders []*Order) bool {
//var orders []*Order
u.mu.Lock()
qs := orm.NewOrm().QueryTable(GetTableOrder())
i, _ := qs.PrepareInsert()
for _, user := range orders {
_, err := i.Insert(user)
if err == nil {
//fmt.Println("yi")
}
}
// PREPARE INSERT INTO user (`name`, ...) VALUES (?, ...)
// EXECUTE INSERT INTO user (`name`, ...) VALUES ("slene", ...)
// EXECUTE ...
// ...
i.Close() // 别忘记关闭 statement
u.mu.Unlock()
return true
}
func (u *Order) Insert(order []*Order) bool {
u.mu.Lock()
o := orm.NewOrm()
_, err := o.InsertMulti(len(order), order)
if err == nil {
return true
} else {
fmt.Println(err)
}
u.mu.Unlock()
return false
}
控制器层
type TestXH struct {
Result chan int64
}
func (this *UserController) TestSnowFlakeByGo() {
fmt.Printf("\n开始时间%s\n", time.Now().Format("15:04:05"))
workderc, _ := helper.NewWorker(int64(1)) //初始化工作节点
var wg sync.WaitGroup
addChant := make(chan bool) //数据库结果通知通道
p, _ := ants.NewPoolWithFunc(500, func(payload interface{}) { //连接池 获取订单id并返回
request, ok := payload.(*TestXH) //断言
if !ok {
return
}
id := workderc.GetId()
request.Result <- id
})
pool, _ := ants.NewPoolWithFunc(300, func(orderInfo interface{}) { //执行数据库插入
order, ok := orderInfo.([]*models.Order)
if !ok {
return
}
if order != nil { //传递数据添加
addStatus := orderInsertOne(order)
addChant <- addStatus
}
})
request := &TestXH{Result: make(chan int64)}
count := 1000000
var orderPl []*models.Order
//orderModel := *models.NewOrder()
for i := 1; i <= count; i++ {
p.Invoke(request)
oid := <-request.Result
insert := new(models.Order)
insert.OrderId = oid
//pool.Invoke(insert)
orderPl = append(orderPl, insert) //合并要插入数据库的数据
if i%1000 == 0 { //合并一千条插入一次
wg.Add(1) //加锁
pool.Invoke(orderPl)
addSta := <-addChant
if !addSta {
fmt.Println("意外错误")
} else {
wg.Done()
orderPl = orderPl[0:0] //清空切片
}
}
if i%200000 == 0 {
fmt.Printf("\n二十万条%s\n", time.Now().Format("15:04:05"))
}
}
wg.Wait() //后面代码无意义
fmt.Printf("\n结束时间%s\n", time.Now().Format("15:04:05"))
data := make(map[string]interface{})
this.Data["json"] = data
this.ServeJSON()
}
func orderInsertOne(i []*models.Order) bool {
//批量添加
return models.NewOrder().Insert(i)
}
雪花算法包
package helper
import (
"errors"
"sync"
"time"
)
// 因为snowFlake目的是解决分布式下生成唯一id 所以ID中是包含集群和节点编号在内的
const (
workerBits uint8 = 10 // 每台机器(节点)的ID位数 10位最大可以有2^10=1024个节点
numberBits uint8 = 12 // 表示每个集群下的每个节点,1毫秒内可生成的id序号的二进制位数 即每毫秒可生成 2^12-1=4096个唯一ID
// 这里求最大值使用了位运算,-1 的二进制表示为 1 的补码,感兴趣的同学可以自己算算试试 -1 ^ (-1 << nodeBits) 这里是不是等于 1023
workerMax int64 = -1 ^ (-1 << workerBits) // 节点ID的最大值,用于防止溢出
numberMax int64 = -1 ^ (-1 << numberBits) // 同上,用来表示生成id序号的最大值
timeShift uint8 = workerBits + numberBits // 时间戳向左的偏移量
workerShift uint8 = numberBits // 节点ID向左的偏移量
// 41位字节作为时间戳数值的话 大约68年就会用完
// 假如你2010年1月1日开始开发系统 如果不减去2010年1月1日的时间戳 那么白白浪费40年的时间戳啊!
// 这个一旦定义且开始生成ID后千万不要改了 不然可能会生成相同的ID
epoch int64 = 1525705533000 // 这个是我在写epoch这个变量时的时间戳(毫秒)
)
// 定义一个woker工作节点所需要的基本参数
type Worker struct {
mu sync.Mutex // 添加互斥锁 确保并发安全
timestamp int64 // 记录时间戳
workerId int64 // 该节点的ID
number int64 // 当前毫秒已经生成的id序列号(从0开始累加) 1毫秒内最多生成4096个ID
}
// 实例化一个工作节点
func NewWorker(workerId int64) (*Worker, error) {
// 要先检测workerId是否在上面定义的范围内
//if workerId < 0 {
// return nil, errors.New("Worker ID excess of quantity")
//}
if workerId < 0 || workerId > workerMax {
return nil, errors.New("Worker ID excess of quantity")
}
// 生成一个新节点
return &Worker{
timestamp: 0,
workerId: workerId,
number: 0,
}, nil
}
// 接下来我们开始生成id
// 生成方法一定要挂载在某个woker下,这样逻辑会比较清晰 指定某个节点生成id
func (w *Worker) GetId() int64 {
// 获取id最关键的一点 加锁 加锁 加锁
w.mu.Lock()
defer w.mu.Unlock() // 生成完成后记得 解锁 解锁 解锁
// 获取生成时的时间戳
now := time.Now().UnixNano() / 1e6 // 纳秒转毫秒
if w.timestamp == now {
w.number++
// 这里要判断,当前工作节点是否在1毫秒内已经生成numberMax个ID
if w.number > numberMax {
// 如果当前工作节点在1毫秒内生成的ID已经超过上限 需要等待1毫秒再继续生成
for now <= w.timestamp {
now = time.Now().UnixNano() / 1e6
}
}
} else {
// 如果当前时间与工作节点上一次生成ID的时间不一致 则需要重置工作节点生成ID的序号
w.number = 0
w.timestamp = now // 将机器上一次生成ID的时间更新为当前时间
}
// 第一段 now - epoch 为该算法目前已经奔跑了xxx毫秒
// 如果在程序跑了一段时间修改了epoch这个值 可能会导致生成相同的ID
ID := int64((now-epoch)<<timeShift | (w.workerId << workerShift) | (w.number))
return ID
}