项目背景:
一个重要的项目,一个复杂的背景,每天大量人员频繁的操作,在过去的几个月内偶尔发生一两次死锁导致系统不能使用
为缓解查询压力,实现了读写分离,已经增加了3台查询数据库与主数据库同步
死锁解决办法:
1.首先创建表:
CREATE TABLE [dbo].[DeadLock](
[ID] [int],
[标志] [varchar](10),
[进程ID] [smallint],
[线程ID] [smallint],
[块进程ID] [smallint],
[数据库ID] [smallint],
[数据库名] [varchar](50),
[用户ID] [varchar](128),
[用户名] [varchar](100),
[累计CPU时间] [int],
[登陆时间] [datetime],
[打开事务数] [varchar](30),
[进程状态] [varchar](128),
[工作站名] [varchar](128),
[应用程序名] [varchar](120),
[工作站进程ID] [varchar](228),
[域名 ] [nchar](12),
[网卡地址] [varchar](120),
[进程的sql语句] [varchar](3000),
[发生时间] [datetime]
)
这个表是根据下面的存储过程结果创建的,不要问我创建过程,反正我调了好几次才成功
2.创建下面的存储过程:
create proc p_lockinfo
@kill_lock_spid bit=1, --是否杀掉死锁的进程,1 杀掉, 0 仅显示
@show_spid_if_nolock bit=0 --如果没有死锁的进程,是否显示正常进程信息,1 显示,0 不显示
as
declare @count int,@s nvarchar(1000),@i int
select id=identity(int,1,1),标志,
进程ID=spid,线程ID=kpid,块进程ID=blocked,数据库ID=dbid,
数据库名=db_name(dbid),用户ID=uid,用户名=loginame,累计CPU时间=cpu,
登陆时间=login_time,打开事务数=open_tran, 进程状态=status,
工作站名=hostname,应用程序名=program_name,工作站进程ID=hostprocess,
域名=nt_domain,网卡地址=net_address
into #t from(
select 标志='死锁的进程',
spid,kpid,a.blocked,dbid,uid,loginame,cpu,login_time,open_tran,
status,hostname,program_name,hostprocess,nt_domain,net_address,
s1=a.spid,s2=0
from master..sysprocesses a join (
select blocked from master..sysprocesses group by blocked
)b on a.spid=b.blocked where a.blocked=0 and program_name like '%jtds%'
union all
select '|_牺牲品_>',
spid,kpid,blocked,dbid,uid,loginame,cpu,login_time,open_tran,
status,hostname,program_name,hostprocess,nt_domain,net_address,
s1=blocked,s2=1
from master..sysprocesses a where blocked<>0 and program_name like '%jtds%'
)a order by s1,s2
if @count=0 and @show_spid_if_nolock=1
begin
insert #t
select 标志='正常的进程',
spid,kpid,blocked,dbid,db_name(dbid),uid,loginame,cpu,login_time,
open_tran,status,hostname,program_name,hostprocess,nt_domain,net_address
from master..sysprocesses
set @count=@@rowcount
end
if @count>0
begin
create table #t1(id int identity(1,1),a nvarchar(30),b Int,EventInfo nvarchar(255))
if @kill_lock_spid=1
begin
declare @spid varchar(10),@标志 varchar(10)
while @i<=@count
begin
select @spid=进程ID,@标志=标志 from #t where id=@i
insert #t1 exec('dbcc inputbuffer('+@spid+')')
if @标志='死锁的进程' exec('kill '+@spid)
set @i=@i+1
end
end
else
while @i<=@count
begin
select @s='dbcc inputbuffer('+cast(进程ID as varchar)+')' from #t where id=@i
insert #t1 exec(@s)
set @i=@i+1
end
select a.*,进程的SQL语句=b.EventInfo
from #t a join #t1 b on a.id=b.id
--hellolongbin添加记录
insert into deadlock
select
a.ID,
a.标志,
a.进程ID ,
a.线程ID ,
a.块进程ID ,
a.数据库ID ,
a.数据库名 ,
a.用户ID ,
a.用户名 ,
a.累计CPU时间 ,
a.登陆时间 ,
a.打开事务数 ,
a.进程状态 ,
a.工作站名 ,
a.应用程序名 ,
a.工作站进程ID ,
a.域名 ,
a.网卡地址 ,
b.EventInfo
,getdate() from #t a join #t1 b on a.id=b.id
----hellolongbin添加记录结束
end
go
3.存储过程创建后,可以创建一个死锁测试一下。死锁创建:
运行1:
begin tran
update t_a_sex
set sex='00'
where sex_name= '请选择'
waitfor delay '00:02:30'
commit tran
打开新的查询窗口运行:
运行2:
begin tran
select *from t_a_sex
where sex_name= '请选择'
commit tran
4.运行exec p_lockinfo查看运行结果
5.打开deadlock表查看记录
6.最后,设置数据库任务,自动定时执行,我设置的是主数据库每隔一分钟执行一次,查询数据库2分钟执行一次
每台数据库上均做如上操作
(双保险:程序代码可以在数据库建立连接时设置 "set lock_timeout 30000" 此步骤与上面的措施没有任何关系,可以忽略不做)
这种方式不是最完美的,因为被杀掉的操作无法恢复,如果用在网站充值或其他方面还需要进一步完善,但对我们的系统来说已经足以应付了
----------------------
2010-7-16 补充
上面的存储过程存在风险,会杀掉一些系统后台执行的锁,在这两天的跟踪过程中,发现先后数次杀掉了
EXEC dbo.sp_MShistory_cleanup @history_retention = 48
sys.sp_MSadd_logreader_history;1
等语句,今天早晨更是把数据库同步的一个事务给干掉了,导致查询机无法与正式库同步,所以上面的存储过程要优化为只杀业务程序造成的死锁,就是上面添加的红色字体部分
and program_name like '%jtds%'