走遍他乡

spinlock死锁故障定位

本文讲述一次spinlock死锁故障的定位过程，目的不在于问题本身，而在于展现一个内核bug的分析过程，提供一种分析思路，供大家参考。
一、问题现象

内核出现panic，kdump搜集到了vmcore。vmcore中直接导致panic的log信息为(包含相应CPU上的堆栈)：

Kernel panic - not syncing: Watchdog detected hard LOCKUP on cpu 18
Pid: 12410, comm: xxxx Not tainted 2.6.32-220.el6.x86_64 #1
Call Trace:
  [] ? panic+0x8b/0x156
 [] ? watchdog_overflow_callback+0x1fa/0x200
 [] ? __perf_event_overflow+0x9d/0x230
 [] ? perf_event_overflow+0x14/0x20
 [] ? intel_pmu_handle_irq+0x336/0x550
 [] ? kprobe_exceptions_notify+0x16/0x450
 [] ? perf_event_nmi_handler+0x39/0xb0
 [] ? notifier_call_chain+0x55/0x80
 [] ? atomic_notifier_call_chain+0x1a/0x20
 [] ? notify_die+0x2e/0x30
 [] ? do_nmi+0x173/0x2c0
 [] ? nmi+0x20/0x30
 [] ? _spin_lock_irq+0x25/0x40
 <> [] ? wait_for_common+0x3c/0x180
 [] ? _spin_unlock_irqrestore+0x1d/0x20
 [] ? wait_for_completion_timeout+0x13/0x20
 [] ? _ctl_do_mpt_command+0x3be/0xce0 [mpt2sas]
 [] ? avc_has_perm_noaudit+0x9b/0x470
 [] ? _spin_unlock_irqrestore+0x17/0x20
 [] ? _ctl_ioctl_main+0xdb9/0x12d0 [mpt2sas]
 [] ? _ctl_ioctl+0x35/0x50 [mpt2sas]
 [] ? vfs_ioctl+0x22/0xa0
 [] ? do_vfs_ioctl+0x84/0x580
 [] ? sys_ioctl+0x81/0xa0
 [] ? system_call_fastpath+0x16/0x1b

二、问题分析
1、初步分析
内核出现异常，然后panic，必然会有相关直接原因的打印，本案例中如下：
Kernel panic - not syncing: Watchdog detected hard LOCKUP on cpu 18
结合内核代码分析，可以确认是由于nmi watchdog检测到了硬死锁(hard LOCKUP)，nmi watchdog的具体原理不赘述了，可以google相关资料。
nmi watchdog检测到了硬死锁表明：该CPU核上发生了关中断死锁的情况。
根据其堆栈可以看到最终出现死锁的地方为_spin_lock_irq，即阻塞在关中断的spin_lock上，如果该锁一直获取不到，那就肯定是关中断死锁了，nmi watchdog自然就能检测到这种情况了，所以初步推断问题的直接原因是因为_spin_lock_irq一直获取不到锁导致死锁。
注意：这里的堆栈有一定的迷惑作用，咋一看wait_for_common，可能会以为该CPU是在等待complete变量的完成，但如果是这样的话，该进程应该是D状态，应该会调度出去，不会一直占用CPU，nmi_watchdog也不会触发。所以，需要看仔细。

2、深入分析
1）思维误区
接下来要分析为什么spinlock获取不到，这个问题要分析清楚，就比较复杂了。
通常来说，对于类似的死锁问题分析，都会有这种思路：死锁，那就肯定有进程持有相应的锁而一直不释放，导致本进程一直获取不到锁。
那就需要寻找持有锁的进程了，持有该锁的进程可能处于如下几种状态(按可能性大小排列)：
a、处于RUNNING状态，且正在其它某CPU上运行。
b、处于RUNNING状态，但暂时没有得到调度运行。
c、处于D状态，等待某任务完成。
d、处于S状态
e、已经运行结束，进程已经不存在。
最可能的肯定是a和b，c、d和e属于明显的内核bug，对于c和d来说，因为spinlock持有者是不能sleep的，内核中对于持有spinlock再进行sleep的情况应该有判断和告警；对于e来说，那就是有进程持有spin_lock锁，但没有释放就退出了(比如某些异常分支)，相当于泄露，这种情况内核中有静态代码检查工具，对于一般的用户态程序这种错误可能容易出现，但内核中这种可能性也极小。先不论可能性大小，对于本问题，这种想法将导致进入误区。照这种思路，分析过程大致为(这也是一种常用的分析思路，不能说不对，只能说不宜于本问题的分析)：
（1）看看所有CPU上都在运行什么任务

crash> bt -a
PID: 18176 TASK: ffff8802b37100c0 CPU: 0 COMMAND: "monitor.s"
    [exception RIP: lock_kernel+46]
...
PID: 18371 TASK: ffff880f5e5460c0 CPU: 1 COMMAND: "bash"
    [exception RIP: lock_kernel+53]
...
PID: 18334 TASK: ffff880f5f219540 CPU: 2 COMMAND: "monitor.sh"
    [exception RIP: lock_kernel+46]
...
PID: 15042 TASK: ffff880ec0015540 CPU: 3 COMMAND: "xxx"
    [exception RIP: __bitmap_empty+115]
...
---  ---
 #6 [ffff880eba59ddd8] __bitmap_empty at ffffffff81281f93
 #7 [ffff880eba59dde0] flush_tlb_others_ipi at ffffffff810480d8
 #8 [ffff880eba59de30] native_flush_tlb_others at ffffffff81048156
 #9 [ffff880eba59de60] flush_tlb_mm at ffffffff8104832c
#10 [ffff880eba59de80] unmap_region at ffffffff8114744f
#11 [ffff880eba59def0] do_munmap at ffffffff81147aa6
#12 [ffff880eba59df50] sys_munmap at ffffffff81147be6
#13 [ffff880eba59df80] system_call_fastpath at ffffffff8100b0f2
...
PID: 12410 TASK: ffff8818681cd540 CPU: 18 COMMAND: "xxxx"（最终触发nmi watchdog的CPU）
    [exception RIP: _spin_lock_irq+37]
...
---  ---
#13 [ffff88186635bba8] _spin_lock_irq at ffffffff814fb465
#14 [ffff88186635bbb0] wait_for_common at ffffffff814f95ec
#15 [ffff88186635bc40] wait_for_completion_timeout at ffffffff814f97c3
#16 [ffff88186635bc50] _ctl_do_mpt_command at ffffffffa006e8ee [mpt2sas]
#17 [ffff88186635bd30] _ctl_ioctl_main at ffffffffa0070159 [mpt2sas]
#18 [ffff88186635be30] _ctl_ioctl at ffffffffa0070725 [mpt2sas]
#19 [ffff88186635be60] vfs_ioctl at ffffffff8118fb72
#20 [ffff88186635bea0] do_vfs_ioctl at ffffffff8118fd14
#21 [ffff88186635bf30] sys_ioctl at ffffffff81190291

PID: 18122 TASK: ffff880e9f5c94c0 CPU: 19 COMMAND: "xxxxx"
    [exception RIP: _spin_lock+33]...
---  ---
 #6 [ffff8802b4e05d58] _spin_lock at ffffffff814fb541
 #7 [ffff8802b4e05d60] flush_tlb_others_ipi at ffffffff81048019
 #8 [ffff8802b4e05db0] native_flush_tlb_others at ffffffff81048156
 #9 [ffff8802b4e05de0] flush_tlb_mm at ffffffff8104832c
#10 [ffff8802b4e05e00] mprotect_fixup at ffffffff811491b0
#11 [ffff8802b4e05f20] sys_mprotect at ffffffff811494e5
#12 [ffff8802b4e05f80] system_call_fastpath at ffffffff8100b0f2
...

可以看出，出CPU3、18、19外，其它CPU都是阻塞在lock_kernel（大内核锁，老版本内核中，通常文件操作都需要持有大内核锁，对内核性能影响极大，新版本中已经逐渐去除）上，而CPU18正是触发nmi watchdog的CPU，其中的堆栈流程中可以看出，由ioctl进入，而ioctl的流程中正需要持有大内核锁：

crash> l vfs_ioctl
...
crash> l
44 
45 if (filp->f_op->unlocked_ioctl) {
46     error = filp->f_op->unlocked_ioctl(filp, cmd, arg);
47     if (error == -ENOIOCTLCMD)
48     error = -EINVAL;
49     goto out;
50  } else if (filp->f_op->ioctl) {
51     lock_kernel();
52     error = filp->f_op->ioctl(filp->f_path.dentry->d_inode,
53     filp, cmd, arg);

所以除CPU3、18和19外，其它的所有CPU都是因为CPU18而阻塞。
再看看CPU19，该CPU也阻塞在spinlock上，但是位于flush_tlb_others_ipi流程中，结合CPU3一起看，可以看出CPU3也是在这个流程中，但阻塞地方不一样（__bitmap_empty ），看看flush_tlb_others_ipi 的流程，可以确认__bitmap_empty是在获取spinlock后的流程了：

crash> l flush_tlb_others_ipi
...
185 /*
186 * Could avoid this lock when
187 * num_online_cpus() <= NUM_INVALIDATE_TLB_VECTORS, but it is
188 * probably not worth checking this for a cache-hot lock.
189 */
190 spin_lock(&f->tlbstate_lock);
191 
crash> l
192 f->flush_mm = mm;
193 f->flush_va = va;
194 if (cpumask_andnot(to_cpumask(f->flush_cpumask), cpumask, cpumask_of(smp_processor_id()))) {
195 /*
196 * We have to send the IPI only to
197 * CPUs affected.
198 */
199 apic->send_IPI_mask(to_cpumask(f->flush_cpumask),
200 INVALIDATE_TLB_VECTOR_START + sender);

于是可以确认，CPU19是因为CPU3而阻塞，那CPU3为什么阻塞呢？
再分析flush_tlb_others_ipi 和__bitmap_empty 的代码，可以知道flush_tlb_others_ipi是通过核间中断(IPI)让其它CPU flush自己的TLB，在更新页表或相关操作时会进行这样的操作。flush_tlb_others_ipi需要阻塞等待其它所有CPU都处理完相应的IPI并执行晚相关的任务(flush TLB)。而此时的CPU18(触发nmi watchdog的核)正处于关中断状态(_spin_lock_irq会关中断)，所以其无法响应IPI，也就无法处理相关任务，所以导致CPU3一直阻塞了。
综上，可以看出，所有的CPU阻塞都是由于CPU18导致。于是经过这一轮，并没有找到持有spinlock不释放的进程，但毕竟还是理清了相关逻辑。
（2）于是再看看其它RUNNING状态的进程
crash> ps |grep RU|wc -l
838
800多个，有点奇怪，正常情况下不能这么多，否则这个机器性能可能面临严重问题了，但这个环境中所有CPU都锁死了，有很多没有得到调度RUNNING进程可能就正常了。这么多进程不能手工一个个看堆栈了，可以通过脚本处理：
crash> ps |grep RU|awk '{print $1}' > running_task_pid
Vim编辑running_task_pid文件，通过行模式插入一列bt (ctrl+v,大写I)，然后再执行
crash> < running_task_pid > running_task_stack
搜集到所有RUNNING状态的进程堆栈后，通过分析，确认绝大部分进程的堆栈都在schedule中：

crash> bt 27685
PID: 27685 TASK: ffff88185936e080 CPU: 3 COMMAND: "java"
 #0 [ffff880d29d49d38] schedule at ffffffff814f8b42
 #1 [ffff880d29d49e00] schedule_timeout at ffffffff814f99d4
 #2 [ffff880d29d49eb0] sys_epoll_wait at ffffffff811c1019
 #3 [ffff880d29d49f80] system_call_fastpath at ffffffff8100b0f2

应该是因为相关的进程被唤醒，但是一直没有得到调度，没有发现可疑进程。那就继续看看D状态进程的堆栈了
（3）查看所有D状态进程堆栈
crash> ps |grep UN|wc -l
46
逐个查看后，仍没有找到可疑进程。继续硬着头皮看看S状态进程的堆栈了？这个就没有太多意义了，因为即使是S状态进程获取到了该lock，但其堆栈很可能已经不在原来获取锁的上下文中了，堆栈中基本看不出来，另一方面也太多了，还是继续看看？用脚本。
（3）查看所有S状态进程堆栈
crash> ps |grep IN|wc -l
3056
再筛查一遍，还是没有看到可疑进程，进入了死胡同，无法继续了。获取可能会继续想，如果进程持有锁后退出了，也有这种可能，但这种情况已经无法通过vmcore来追溯了。
其实，本问题并不是之前想的那样，是因为锁被别人持有导致，如果我们一开始就以这种惯性思维来分析该问题，那最终就只能走到这里了，因为一开始就走错了路，主要问题还在于“没有从问题的最终现场出发”，“没有从问题的实质出发”，从某种角度上看，对于这种内核问题的分析，就跟刑侦警察分析刑事案件一样，最关键的是要“重视现场”，从案发现场寻找蛛丝马迹，如果没有现场，仅凭经验和推断，相信很多案件都无法侦破。

2）正确思路
从导致问题的最直接的现场出发

crash> bt
PID: 12410 TASK: ffff8818681cd540 CPU: 18 COMMAND: "xxxx"
 #0 [ffff88109c6c7af0] machine_kexec at ffffffff8103237b
 #1 [ffff88109c6c7b50] crash_kexec at ffffffff810ba552
 #2 [ffff88109c6c7c20] panic at ffffffff814f846b
 #3 [ffff88109c6c7ca0] watchdog_overflow_callback at ffffffff810dac1a
 #4 [ffff88109c6c7cd0] __perf_event_overflow at ffffffff8110cb3d
 #5 [ffff88109c6c7d70] perf_event_overflow at ffffffff8110d0f4
 #6 [ffff88109c6c7d80] intel_pmu_handle_irq at ffffffff8101e396
 #7 [ffff88109c6c7e90] perf_event_nmi_handler at ffffffff814fcc39
 #8 [ffff88109c6c7ea0] notifier_call_chain at ffffffff814fe7a5
 #9 [ffff88109c6c7ee0] atomic_notifier_call_chain at ffffffff814fe80a
#10 [ffff88109c6c7ef0] notify_die at ffffffff81097dce
#11 [ffff88109c6c7f20] do_nmi at ffffffff814fc3c3
#12 [ffff88109c6c7f50] nmi at ffffffff814fbcd0
    [exception RIP: _spin_lock_irq+37]
    RIP: ffffffff814fb465 RSP: ffff88186635bba8 RFLAGS: 00000002
    RAX: 0000000000000000 RBX: 0000000000002710 RCX: 000000000000fc92
    RDX: 0000000000000001 RSI: 0000000000002710 RDI: ffff881054610960
    RBP: ffff88186635bba8 R8: 0000000000000000 R9: ffff881055c438c0
    R10: 0000000000000000 R11: 0000000000000006 R12: ffff881054610958
    R13: ffff881054610960 R14: 0000000000000002 R15: ffff881054610938
    ORIG_RAX: ffffffffffffffff CS: 0010 SS: 0018
---  ---
#13 [ffff88186635bba8] _spin_lock_irq at ffffffff814fb465
#14 [ffff88186635bbb0] wait_for_common at ffffffff814f95ec
#15 [ffff88186635bc40] wait_for_completion_timeout at ffffffff814f97c3
#16 [ffff88186635bc50] _ctl_do_mpt_command at ffffffffa006e8ee [mpt2sas]
#17 [ffff88186635bd30] _ctl_ioctl_main at ffffffffa0070159 [mpt2sas]
#18 [ffff88186635be30] _ctl_ioctl at ffffffffa0070725 [mpt2sas]
#19 [ffff88186635be60] vfs_ioctl at ffffffff8118fb72
#20 [ffff88186635bea0] do_vfs_ioctl at ffffffff8118fd14
#21 [ffff88186635bf30] sys_ioctl at ffffffff81190291
#22 [ffff88186635bf80] system_call_fastpath at ffffffff8100b0f2
    RIP: 0000003d5f8dd847 RSP: 00007f4d34fda528 RFLAGS: 00003202
    RAX: 0000000000000010 RBX: ffffffff8100b0f2 RCX: 0000003d5f8dd847
    RDX: 00007f4ce0002120 RSI: 00000000c0484c14 RDI: 0000000000000047

因为 _spin_lock_irq 阻塞触发了nmi watchdog，看看相应的spinlock的具体的值：

crash> dis -l wait_for_common
0xffffffff814f95e4 : mov %r13,%rdi
0xffffffff814f95e7 : callq 0xffffffff814fb440 <_spin_lock_irq>

可以看出_spin_lock_irq的参数通过rdi传递(x86_64架构的传参规则，从左到右依次rdi、rsi...)，而rdi在后续的函数中没有再使用，所以最终上下文中的rdi即为参数的值：ffff881054610960(bt中有RDI寄存器的值)

crash> l _spin_lock_irq
68 EXPORT_SYMBOL(_spin_lock_irqsave);
69 #endif
70 
71 #ifndef _spin_lock_irq
72 void __lockfunc _spin_lock_irq(spinlock_t *lock)
73 {
74 __spin_lock_irq(lock);
75 }
76 EXPORT_SYMBOL(_spin_lock_irq);
77 #endif
crash> spinlock_t ffff881054610960
struct spinlock_t {
  raw_lock = {
    slock = 65537
  }
}
crash> eval 65537
hexadecimal: 10001 
    decimal: 65537 
      octal: 200001
     binary: 0000000000000000000000000000000000000000000000010000000000000001

可以看出该spinlock的值为00010001。
此版本中spinlock实现为ticket_spin_lock，大致原理如下：
4 字节的lock分成两部分：
Next(2字节)|Owner(2字节)
X86架构中，Next和Owner初始值都为0
在获取spinlock时，会对Next字段加1，然后判断加1之前的Next和Owner字段是否相等，如果相等，或获取锁成功，如果不相等，则nop后死循环再次获取Owner的值，一直到Next和Owner的值相等为止。
在释放spinlock时，会对Owner字段加1。如此当之前有进程在循环等待该spinlock时，在Owner加1后，就会因为Next==Owner而得到该锁，当之前有多个进程在等待该spinlock时，则最先进入等待状态的进程会先得到锁，这种机制能解决老版本spinlock机制中的“不公平”问题。
在初始状态下Next=Owner=0，此时如果有进程获取该spinlock，就可以得到该锁。

再看看该故障中lock的值：00010001，也就是说Next和Owner都等于1，说明已经lock和unlock一次了，看到这个值也许会觉得奇怪，此时Next和Owner相等，为何会获取不到锁呢？再看看出错的具体代码行：

crash> dis -l ffffffff814fb465 
/usr/src/debug/kernel-2.6.32-220.el6/linux-2.6.32-220.el6.x86_64/arch/x86/include/asm/spinlock.h: 127
0xffffffff814fb465 <_spin_lock_irq+37>: movzwl (%rdi),%edx
crash> l /usr/src/debug/kernel-2.6.32-220.el6/linux-2.6.32-220.el6.x86_64/arch/x86/include/asm/spinlock.h: 127
122 static __always_inline void __ticket_spin_lock(raw_spinlock_t *lock)
123 {
124      int inc;
125      int tmp;
126 
127      asm volatile("1:\t\n"
128      "mov $0x10000, %0\n\t"
129     LOCK_PREFIX "xaddl %0, %1\n"
130      "movzwl %w0, %2\n\t"
131      "shrl $16, %0\n\t"

说明此时，已经进入到内联汇编所在的代码行了，此时的xaddl指令已经执行，Next已经加过1了，说明，在执行该_spin_lock_irq之前，该lock的Next值为0，而Owner的值为1，由于后续其它进程释放该lock时，只会对Owner进行加1，而此时Owner已经大于Next了(正常使用spinlock的情况下是不可能出现这种情况的)，所以此时无论如何等待，Next也不可能等于Owner了，也就是说这里的锁永远也获取不到了，于是陷入了死锁状态。这样就可以解释为什么会在这里触发nmi watchdog了。
为什么会出现这种情况呢？Owner怎么可能大于Next呢？有两种可能：
1、多做了一次unlock操作
2、并发修改该spinlock。比如：在该spinlock还在被使用时，有其它进程并发修改该spinlock。更具体的例子：在CPU1上，某上下文进行spin_lock操作后，在spin_unlock之前；在CPU2上，另一上下文对该spinlock重新进行了初始化(即将该lock值改为0)；然后在CPU1上执行unlock操作，此时该lock的Owner就被多unlock了1次，其Owner就被多加了1，就出现这种情况了。
对于第1种情况，出现的可能性极小，因为，spin_lock和spin_unlock操作肯定是配对的，内核中有相应的静态检查机制，也有相应的死锁检测机制，出现这种直接错误的可能性极小。
那最可能的原因就是因为情况2了。那就需要再仔细分析下问题出现的上下文(代码有4行错位，应该是vmlinux不匹配导致，但无大碍)：

crash> dis -l ffffffff814f95ec
/usr/src/debug/kernel-2.6.32-220.el6/linux-2.6.32-220.el6.x86_64/kernel/sched.c: 6228
0xffffffff814f95ec : mov (%r12),%eax
crash> l/usr/src/debug/kernel-2.6.32-220.el6/linux-2.6.32-220.el6.x86_64/kernel/sched.c: 6228
6223                  timeout = schedule_timeout(timeout);
6224                  spin_lock_irq(&x->wait.lock);
6225          } while (!x->done && timeout);
6226          __remove_wait_queue(&x->wait, &wait);
6227          if (!x->done)
6228              return timeout;
6229      }
6230      x->done--;
6231      return timeout ?: 1;
6232 }

_spin_lock_irq使用的spinlock为x->wait.lock，

继续看代码

6270 unsigned long __sched
6271 wait_for_completion_timeout(struct completion *x, unsigned long timeout)
6272 {
6273      return wait_for_common(x, timeout, TASK_UNINTERRUPTIBLE);
6274 }
6275 EXPORT_SYMBOL(wait_for_completion_timeout);

可以知道x是wait_for_completion_timeout传入的completion的结构体变量，看看该结构体的定义：

crash> completion 
struct completion {
    unsigned int done;
    wait_queue_head_t wait;
}
SIZE: 32
crash> wait_queue_head_t
typedef struct __wait_queue_head {
    spinlock_t lock;
    struct list_head task_list;
} wait_queue_head_t;
SIZE: 24

而x是从mpt2sas驱动中的_ctl_do_mpt_command传入：

crash> dis -l ffffffffa006e8ee
/usr/src/debug/kernel-2.6.32-220.el6/linux-2.6.32-220.el6.x86_64/drivers/scsi/mpt2sas/mpt2sas_ctl.c: 909
0xffffffffa006e8ee <_ctl_do_mpt_command+958>: movzbl 0x3(%r14),%eax
crash> l /usr/src/debug/kernel-2.6.32-220.el6/linux-2.6.32-220.el6.x86_64/drivers/scsi/mpt2sas/mpt2sas_ctl.c: 909
904              else
905                  timeout = karg.timeout;
906              init_completion(&ioc->ctl_cmds.done);
907              timeleft = wait_for_completion_timeout(&ioc->ctl_cmds.done,
908                  timeout*HZ);
909              if (mpi_request->Function == MPI2_FUNCTION_SCSI_TASK_MGMT) {
910                  Mpi2SCSITaskManagementRequest_t *tm_request =
911                      (Mpi2SCSITaskManagementRequest_t *)mpi_request;
912                  mpt2sas_scsih_clear_tm_flag(ioc, le16_to_cpu(

看代码，ioc为MPT2SAS_ADAPTER结构体，该结构体定义在mpt2sas内核模块中，需要单独加载符号后，才能看到相关内容：

crash> mod -s mpt2sas usr/lib/debug/lib/modules/2.6.32-220.el6.x86_64/kernel/drivers/scsi/mpt2sas/mpt2sas.ko.debug
     MODULE NAME SIZE OBJECT FILE
ffffffffa007a460 mpt2sas 173472 usr/lib/debug/lib/modules/2.6.32-220.el6.x86_64/kernel/drivers/scsi/mpt2sas/mpt2sas.ko.debug 
crash> MPT2SAS_ADAPTER
struct MPT2SAS_ADAPTER {
    struct list_head list;
    struct Scsi_Host *shost;
    u8 id;
    u32 pci_irq;
...
    struct _internal_cmd ctl_cmds;
...
}
crash> _internal_cmd
struct _internal_cmd {
    struct mutex mutex;
    struct completion done;
    void *reply;
    void *sense;
    u16 status;
    u16 smid;
}
SIZE: 88

需要继续分析这个completion的使用逻辑，在init_completion后，调用wait_for_completion_timeout等待该completion变量完成，即等待其它地方调用completion()函数来唤醒该进程。看起来逻辑没啥问题，但问题在于：如果在调用init_completion之前，就有地方调用complete()函数的话，可能就有问题了，此时，如果另外的上下文刚好在lock之后unlock之前，就刚好符合之前说的情况2了。
分析mpt2sas驱动中可能调用这个completion的complete()函数的地方，仅在mpt2sas_ctl_done()和mpt2sas_ctl_reset_hangdler()中调用了，前者是在sas命令执行完成后调用的，其实就是_ctl_do_mpt_command中要等待的；而mpt2sas_ctl_reset_hangdler()仅在reset的时候使用，这里不用关注。
再看看_ctl_do_mpt_command的代码：

crash> l /usr/src/debug/kernel-2.6.32-220.el6/linux-2.6.32-220.el6.x86_64/drivers/scsi/mpt2sas/mpt2sas_ctl.c: 899 
894                      mpt2sas_base_put_smid_default(ioc, smid);
895                      break;
896                 }
897                 default:
898                     mpt2sas_base_put_smid_default(ioc, smid);
899                     break;
900                 }
901 
902                  if (karg.timeout < MPT2_IOCTL_DEFAULT_TIMEOUT)
903                      timeout = MPT2_IOCTL_DEFAULT_TIMEOUT;
crash> l /usr/src/debug/kernel-2.6.32-220.el6/linux-2.6.32-220.el6.x86_64/drivers/scsi/mpt2sas/mpt2sas_ctl.c: 909
904                  else
905                      timeout = karg.timeout;
906                  init_completion(&ioc->ctl_cmds.done);
907                  timeleft = wait_for_completion_timeout(&ioc->ctl_cmds.done,
908                      timeout*HZ);
909                  if (mpi_request->Function == MPI2_FUNCTION_SCSI_TASK_MGMT) {
910                      Mpi2SCSITaskManagementRequest_t *tm_request =
911                          (Mpi2SCSITaskManagementRequest_t *)mpi_request;
912                      mpt2sas_scsih_clear_tm_flag(ioc, le16_to_cpu(
913                          tm_request->DevHandle));

在调用init_completion()之前调用了mpt2sas_base_put_smid_default，继续分析该函数的代码，发现该函数就是用于执行sas命令的，在命令执行完成后就可能走到mpt2sas_ctl_done()的流程，即在init_completion()之前，

[PATCH 06/07] [SCSI] mpt2sas : Rearrange the the code so that the completion queues are initialized prior to sending the request to controller firmware
Rearrange the the code so that the completion queues are initialized prior
to sending the request to controller firmware.


Signed-off-by: Nagalakshmi Nandigama 
---


diff --git a/drivers/scsi/mpt2sas/mpt2sas_base.c b/drivers/scsi/mpt2sas/mpt2sas_base.c
index d0a36c9..e78733f 100644
--- a/drivers/scsi/mpt2sas/mpt2sas_base.c
+++ b/drivers/scsi/mpt2sas/mpt2sas_base.c
@@ -3200,8 +3200,8 @@ mpt2sas_base_sas_iounit_control(struct MPT2SAS_ADAPTER *ioc,
     if (mpi_request->Operation == MPI2_SAS_OP_PHY_HARD_RESET ||
      mpi_request->Operation == MPI2_SAS_OP_PHY_LINK_RESET)
     ioc->ioc_link_reset_in_progress = 1;
-    mpt2sas_base_put_smid_default(ioc, smid);
     init_completion(&ioc->base_cmds.done);
+    mpt2sas_base_put_smid_default(ioc, smid);
     timeleft = wait_for_completion_timeout(&ioc->base_cmds.done,
      msecs_to_jiffies(10000));
     if ((mpi_request->Operation == MPI2_SAS_OP_PHY_HARD_RESET ||
@@ -3302,8 +3302,8 @@ mpt2sas_base_scsi_enclosure_processor(struct MPT2SAS_ADAPTER *ioc,
     request = mpt2sas_base_get_msg_frame(ioc, smid);
     ioc->base_cmds.smid = smid;
     memcpy(request, mpi_request, sizeof(Mpi2SepReply_t));
-    mpt2sas_base_put_smid_default(ioc, smid);
     init_completion(&ioc->base_cmds.done);
+    mpt2sas_base_put_smid_default(ioc, smid);
     timeleft = wait_for_completion_timeout(&ioc->base_cmds.done,
      msecs_to_jiffies(10000));
     if (!(ioc->base_cmds.status & MPT2_CMD_COMPLETE)) {
@@ -3810,8 +3810,8 @@ _base_event_notification(struct MPT2SAS_ADAPTER *ioc, int sleep_flag)
     for (i = 0; i < MPI2_EVENT_NOTIFY_EVENTMASK_WORDS; i++)
     mpi_request->EventMasks[i] =
      cpu_to_le32(ioc->event_masks[i]);
-    mpt2sas_base_put_smid_default(ioc, smid);
     init_completion(&ioc->base_cmds.done);
+    mpt2sas_base_put_smid_default(ioc, smid);
     timeleft = wait_for_completion_timeout(&ioc->base_cmds.done, 30*HZ);
     if (!(ioc->base_cmds.status & MPT2_CMD_COMPLETE)) {
     printk(MPT2SAS_ERR_FMT "%s: timeout\n",
diff --git a/drivers/scsi/mpt2sas/mpt2sas_ctl.c b/drivers/scsi/mpt2sas/mpt2sas_ctl.c
index cffed28..cb8290b 100644
--- a/drivers/scsi/mpt2sas/mpt2sas_ctl.c
+++ b/drivers/scsi/mpt2sas/mpt2sas_ctl.c
@@ -819,6 +819,7 @@ _ctl_do_mpt_command(struct MPT2SAS_ADAPTER *ioc,
     _ctl_display_some_debug(ioc, smid, "ctl_request", NULL);
 #endif
 
+    init_completion(&ioc->ctl_cmds.done);
     switch (mpi_request->Function) {
     case MPI2_FUNCTION_SCSI_IO_REQUEST:
     case MPI2_FUNCTION_RAID_SCSI_IO_PASSTHROUGH:
@@ -904,7 +905,6 @@ _ctl_do_mpt_command(struct MPT2SAS_ADAPTER *ioc,
     timeout = MPT2_IOCTL_DEFAULT_TIMEOUT;
     else
     timeout = karg.timeout;
-    init_completion(&ioc->ctl_cmds.done);
     timeleft = wait_for_completion_timeout(&ioc->ctl_cmds.done,
      timeout*HZ);
     if (mpi_request->Function == MPI2_FUNCTION_SCSI_TASK_MGMT) {
@@ -1478,8 +1478,8 @@ _ctl_diag_register_2(struct MPT2SAS_ADAPTER *ioc,
     mpi_request->ProductSpecific[i] =
     cpu_to_le32(ioc->product_specific[buffer_type][i]);
 
-    mpt2sas_base_put_smid_default(ioc, smid);
     init_completion(&ioc->ctl_cmds.done);
+    mpt2sas_base_put_smid_default(ioc, smid);
     timeleft = wait_for_completion_timeout(&ioc->ctl_cmds.done,
      MPT2_IOCTL_DEFAULT_TIMEOUT*HZ);
 
@@ -1822,8 +1822,8 @@ _ctl_send_release(struct MPT2SAS_ADAPTER *ioc, u8 buffer_type, u8 *issue_reset)
     mpi_request->VF_ID = 0; /* TODO */
     mpi_request->VP_ID = 0;
 
-    mpt2sas_base_put_smid_default(ioc, smid);
     init_completion(&ioc->ctl_cmds.done);
+    mpt2sas_base_put_smid_default(ioc, smid);
     timeleft = wait_for_completion_timeout(&ioc->ctl_cmds.done,
      MPT2_IOCTL_DEFAULT_TIMEOUT*HZ);
 
@@ -2096,8 +2096,8 @@ _ctl_diag_read_buffer(void __user *arg, enum block_state state)
     mpi_request->VF_ID = 0; /* TODO */
     mpi_request->VP_ID = 0;
 
-    mpt2sas_base_put_smid_default(ioc, smid);
     init_completion(&ioc->ctl_cmds.done);
+    mpt2sas_base_put_smid_default(ioc, smid);
     timeleft = wait_for_completion_timeout(&ioc->ctl_cmds.done,
      MPT2_IOCTL_DEFAULT_TIMEOUT*HZ);
 
diff --git a/drivers/scsi/mpt2sas/mpt2sas_transport.c b/drivers/scsi/mpt2sas/mpt2sas_transport.c
index 322285c..d0750eb 100644
--- a/drivers/scsi/mpt2sas/mpt2sas_transport.c
+++ b/drivers/scsi/mpt2sas/mpt2sas_transport.c
@@ -398,8 +398,8 @@ _transport_expander_report_manufacture(struct MPT2SAS_ADAPTER *ioc,
     dtransportprintk(ioc, printk(MPT2SAS_INFO_FMT "report_manufacture - "
      "send to sas_addr(0x%016llx)\n", ioc->name,
      (unsigned long long)sas_address));
-    mpt2sas_base_put_smid_default(ioc, smid);
     init_completion(&ioc->transport_cmds.done);
+    mpt2sas_base_put_smid_default(ioc, smid);
     timeleft = wait_for_completion_timeout(&ioc->transport_cmds.done,
      10*HZ);
 
@@ -1186,8 +1186,8 @@ _transport_get_expander_phy_error_log(struct MPT2SAS_ADAPTER *ioc,
     dtransportprintk(ioc, printk(MPT2SAS_INFO_FMT "phy_error_log - "
      "send to sas_addr(0x%016llx), phy(%d)\n", ioc->name,
      (unsigned long long)phy->identify.sas_address, phy->number));
-    mpt2sas_base_put_smid_default(ioc, smid);
     init_completion(&ioc->transport_cmds.done);
+    mpt2sas_base_put_smid_default(ioc, smid);
     timeleft = wait_for_completion_timeout(&ioc->transport_cmds.done,
      10*HZ);
 
@@ -1511,8 +1511,9 @@ _transport_expander_phy_control(struct MPT2SAS_ADAPTER *ioc,
      "send to sas_addr(0x%016llx), phy(%d), opcode(%d)\n", ioc->name,
      (unsigned long long)phy->identify.sas_address, phy->number,
      phy_operation));
-    mpt2sas_base_put_smid_default(ioc, smid);
+
     init_completion(&ioc->transport_cmds.done);
+    mpt2sas_base_put_smid_default(ioc, smid);
     timeleft = wait_for_completion_timeout(&ioc->transport_cmds.done,
      10*HZ);
 
@@ -1951,8 +1952,8 @@ _transport_smp_handler(struct Scsi_Host *shost, struct sas_rphy *rphy,
     dtransportprintk(ioc, printk(MPT2SAS_INFO_FMT "%s - "
      "sending smp request\n", ioc->name, __func__));
 
-    mpt2sas_base_put_smid_default(ioc, smid);
     init_completion(&ioc->transport_cmds.done);
+    mpt2sas_base_put_smid_default(ioc, smid);
     timeleft = wait_for_completion_timeout(&ioc->transport_cmds.done,
      10*HZ);

就可能先执行complete()函数了，由于mpt2sas_ctl_done()是异步流程(中断触发)，完全可能在另外的CPU上执行，当命令执行比较快，在init_completion()之前就执行完了，就可能导致这样的问题了。
显然，这里的init_completion()应该放到前面更好。

google下相关的补丁，果然有相应的补丁：

问题就此定位。
仔细想想，其实该问题的本质在于对completion结构的访问没有进行保护，由于可能在多CPU上并发访问，按理应该有相应的机制进行保护才对(比如锁)，而这里没有，补丁中采用的方法是“串行化”，保证这种场景下的串行执行。但理论上应无法杜绝其它场景的并发，也许在mpt2sas驱动中没有其它的并发场景，其具体机制没有深入研究，不能妄下结论。

你可能感兴趣的:(spinlock死锁故障定位)

【Appium】Appium征服安卓自动化：GitHub 10.5k+星开源神器，Python代码实战全解析！山河不见老 python 测试 appium android 自动化
Appium一、为什么开发者都在用Appium？二、环境搭建：5分钟极速配置2.1核心工具链2.2安卓设备连接三、脚本实战：从零编写自动化操作3.1示例1：自动登录微信并发送消息3.2示例2：动态滑动屏幕与数据抓取四、避坑指南4.1元素定位优化4.2稳定性增强4.3云真机集成五、生态扩展：超越安卓的自动化版图一、为什么开发者都在用Appium？万星认证：GitHub超10.5k+星标，活跃社区持续
线上一个隐匿 Bug 的复盘 Wu_Candy 大数据测试大数据
前言之前负责的一个项目上线好久了，最近突然爆出一Bug，最后评估影响范围将Bug升级成了故障，只因为影响的数据量有10000条左右，对业务方造成了一定的影响。但因为不涉及到资金损失，Bug修复后对数据进行修补，所以最终级别也是较低的。今天和大家分享这个线上隐匿的Bug，也好在工作的项目中得以借鉴哈~需求背景主题：民宿入住回访问卷描述：针对入住民宿的顾客，在离店后的当天或第二天内需要给顾客发送本次入
Linux中的 mutex [二] —— 乐观自旋机制 jianchi88 内核同步 Linux 稳定性 android 服务器 linux ubuntu
本文基于5.4.86版本内核mutex可视作是spinlock的可睡眠版本，同样是线程无法继续向前执行，但spinlock是"spin"，导致该CPU上无法发生线程切换，而mutex是"block"（我们通常翻译成「阻塞」），可以发生线程切换，让所在CPU上的其他线程继续执行。阻塞既可以发生在线程试图获取mutex时，也可以发生在线程持有mutex时。现在的mutex机制，要从这几方面纬度理解：o
快速理解Vue3中Pinia里的subscribe方法使用 MXN_小南学前端 vue3 vue 前端
快速理解Vue3中Pinia里的subscribe方法使用一、Pinia简介Pinia是Vue3的状态管理库，类似Vue2中的Vuex，但使用更简洁高效二、subscribe方法简介subscribe方法是Pinia中的监听器函数，有点像watch，但监听的是store中的状态（数据/state）变化，在store中的状态变化时会执行自定义逻辑。可用于调试和定位问题、记录日志后续分析、触发操作（比
中国大陆网站用了lightHouse之后还有必要用WebPageTest么？混血哲谈网络
对于中国大陆的网站，即使已使用Lighthouse进行性能优化，WebPageTest仍有不可替代的价值。两者并非互斥，而是互补工具，适用于不同维度的性能分析。以下是具体原因和场景说明：一、核心结论：Lighthouse与WebPageTest的定位差异工具核心价值适用场景中国大陆场景的局限性Lighthouse提供代码级优化建议（如压缩资源、渲染阻塞修复）本地开发调试、快速生成优化清单仅反映本地
Linux内核同步机制之（八）：mutex ikt4435 程序员编程 Java 架构 java spring mysql
一、Mutex锁简介在linux内核中，互斥量（mutex，即mutualexclusion）是一种保证串行化的睡眠锁机制。和spinlock的语义类似，都是允许一个执行线索进入临界区，不同的是当无法获得锁的时候，spinlock原地自旋，而mutex则是选择挂起当前线程，进入阻塞状态。正因为如此，mutex无法在中断上下文使用。和mutex更类似的机制（无法获得锁时都会阻塞）是binarysem
10.PE导出表蓝屏达人 PE文件结构 windows
一：定位导出表PIMAGE_NT_HEADERS->OptionalHeader->DataDirectory[0]typedefstruct_IMAGE_DATA_DIRECTORY{DWORDVirtualAddress;//导出表的RVADWORDSize;//导出表大小（没用）}IMAGE_DATA_DIRECTORY,*PIMAGE_DATA_DIRECTORY;该结构的VirtualA
通过SSH隧道与跳板机实现本地端口映射访问服务器文件 t.y.Tang ssh 服务器运维
文章目录场景需求一、服务器端配置1.启动HTTP文件服务2.配置防火墙3.验证服务状态二、SSH隧道建立1.直接连接场景2.通过跳板机连接三、Windows端配置1.使用PowerShell建立隧道2.保持隧道稳定四、浏览器验证五、高阶配置建议1.生产环境增强2.SSH安全加固故障排查指南原理解析场景需求在Windows浏览器访问127.0.0.1:12138自动显示服务器指定路径下的文件列表通过
LLM之向量数据库Chroma milvus FAISS maxmaxma 数据库 milvus faiss
以下是Chroma、Milvus和FAISS的核心区别，从功能定位、架构设计、性能及应用场景等维度进行对比：一、功能定位Chroma轻量级向量数据库：专注于快速构建中小型语义搜索原型，提供简单易用的API，适合快速集成到现有应用中。特点：支持近似最近邻搜索（ANN）、实时性能优化，但对大规模数据处理能力有限。Milvus分布式向量数据库：专为超大规模向量数据设计，支持云原生架构和高可用性，适合企业
国产模型能否挑战 GPT-4？一文拆解 DeepSeek-V3 架构与实战应用 AI筑梦师人工智能学习框架架构深度学习 python agi 人工智能 tensorflow
✳️一、引言✅1.1DeepSeek-V3发布背景与定位随着大模型技术的快速演进，从GPT-3到GPT-4，全球在通用人工智能方向取得了长足进展。但与此同时，开源社区始终缺乏一个真正兼顾性能、效率、中文能力和实用性的高质量大模型。DeepSeek-V3的推出正是在这个背景下的一次关键突破。DeepSeek-V3是由中国团队DeepSeek开发的第三代大语言模型，它具备以下几个核心特性：开源可商用：
记录一次truncate导致MySQL夯住的故障猿小喵 MySQL #故障诊断与恢复 #备份恢复 mysql 数据库
目录环境信息：故障描述：处理过程：原理分析：showprocesslist结果中的systemlock含义：truncate原理：1.TRUNCATE的执行流程2、TRUNCATE表导致数据库夯住的原因3、TRUNCATE表导致数据库夯住的解决方案4、killTRUNCATE语句失败后，主从数据不一致的原因：5、为什么TRUNCATETABLEusers会影响其他表的SQL6、为什么KILL语句无
6.5840 Lab 2: Key/Value Server idMiFeng github go
在这个实验中，你将构建一个单机版的键值服务器，该服务器能够确保每个操作在网络故障的情况下依然能被精确地执行一次，并且这些操作是线性化的。在后续实验中，你将实现类似的服务器以支持服务器崩溃的情况下进行复制。客户端可以向键值服务器发送三种不同的RPC调用：Put(key,value)、Append(key,arg)和Get(key)。服务器维护一个内存中的键值映射，键和值均为字符串：Put(key,v
Nginx 接入 Keepalived 实现高可用，让你的网站稳如泰山！ OutOfMemory~~ nginx 服务器前端
一、往期内容回顾前面提到nginx可以实现后端服务的负载均衡，来使得后端的服务能力得到水平的扩展。但是怎么保证nginx的高可用呢，如果nginx挂了，还怎么持续提供服务呢？今天我们就来讲一讲Keepalived实现高可用的方案。二、什么是高可用？Keepalived高可用架构是什么？简单来说，高可用就是让你的网站服务时刻在线，即使出现硬件故障、网络波动等问题，也能快速恢复，保证用户访问不受影响。
事务回滚核心技术 KBkongbaiKB java
一、事务回滚的数学本质与核心挑战1.1事务状态机模型操作执行持久化完成系统故障事务回滚ActivePartiallyCommittedCommittedFailedAborted1.2核心技术挑战矩阵问题维度单机事务分布式事务原子性保证存储引擎WAL日志二阶段提交协议隔离性实现MVCC多版本控制全局锁调度机制可见性管理事务ID版本链向量时钟同步回滚触发条件SQL执行异常/死锁网络分区/节点故障二、
rabbitmq笔记 java
消息可靠性rabbitmq向消费者投递消息后，有可能会丢失，有可能会重复投递。比如：投递过程网络故障消费者收到消息后宕机消费者接收到消息后处理不当导致异常...rabbitmq需要做的事：机制消费者确认机制消费者处理成功后需要通知发幂等性幂等性指同一个业务，执行一次或多次对业务状态的影响是一致的例如唯一消息id业务状态判断但是数据的更新往往不是幂等的，所以需要确保幂等性确保幂等性方法有两种方案唯一
Win11网络连接不可用？这些解决方案助你快速恢复网络畅通 nntxthml 网络智能路由器 windows
Win11网络连接不可用？这些解决方案助你快速恢复网络畅通在使用Windows11系统的过程中，网络连接不可用的问题时常困扰着我们。无论是无法访问互联网、共享文件还是使用网络应用程序，这一问题都会对我们的工作和生活造成诸多不便。网络连接不可用的情况可能由多种原因导致，例如网络连接未开启、硬件设备故障等。为了帮助大家快速解决这一问题，本文将详细介绍几种实用的解决方案。一、检查并启用网络连接在Wind
Gradle 打包调试终极指南：全维度日志输出与问题定位有时很滑稽 Android android
Gradle打包调试终极指南：全维度日志输出与问题定位一、Gradle日志级别全解析1.1日志级别控制参数#按日志详细程度递增排序：./gradlewassembleDebug-q#QUIET-仅错误信息./gradlewassembleDebug#LIFECYCLE-默认级别（任务执行概览）./gradlewassembleDebug-i#INFO-显示任务输入/输出变化./gradlewass
Oracle OCP认证是否值得考？博睿谷IT99_ 数据库 oracle 开闭原则数据库
OracleOCP（OracleCertifiedProfessional）认证是数据库领域的传统权威认证，但随着云数据库和开源技术的崛起，其价值正面临分化。是否值得考取，需结合你的职业定位、行业需求及长期规划综合判断。以下是关键分析：一、什么情况下值得考？1.职业定位明确：扎根传统数据库领域适用人群：从事金融、电信、能源等传统行业的DBA（数据库管理员）；需维护Oracle旧版本（如11g/12
阿里云+华为云双活架构：头部企业的云端生存法则云上的阿七阿里云华为云架构
如何在云端构建高可用、高可靠的业务架构，依然是企业IT决策者面临的挑战。面对单一云厂商可能带来的故障风险，越来越多的头部企业开始采用“阿里云+华为云”双活架构，以提升业务连续性，实现跨云容灾，打造更稳健的云端生存法则。什么是双活架构？双活架构（Active-ActiveArchitecture）指的是企业在两个云平台（如阿里云和华为云）上同时运行核心业务，实现数据同步和业务负载均衡。一旦某一云平台
DMDDM文档数据库学习分享合作愉快：）数据库学习
达梦新云文档数据库（简称DMDDM），是一款由达梦公司独立研发的分布式原生文档数据库产品。一、关键特性1、高性能、高可用性：DMDDM文档数据库支持快速的数据读写操作，能够满足高性能应用的需求。支持主备集群和分布式集群部署方式，单个节点故障不影响整个系统的正常运行。提供DDM-Meta、DDM-Store和DDM-Engine三个核心组件，分别负责存储数据库元数据和集群调度、存储实际的数据库数据以
CUDA 学习(3)——CUDA 初步实践哦豁灬 CUDA 学习笔记学习 CUDA
1定位threadCUDA中提供了blockIdx,threadIdx,blockDim,GridDim来定位发起thread，下面发起1个grid，里面有2个block，每个block里有5个threads。程序让每个thread输出自己的id号:#include__global__voidprint_id(){intid=blockDim.x*blockIdx.x+threadIdx.x;pr
常用的API设计都有哪些风格 PhilipJ0303 Java面试 java API设计接口设计
API设计是软件开发中非常重要的一部分，良好的API设计可以提高系统的可维护性、扩展性和易用性。常见的API设计风格主要有以下几种：1.RESTfulAPI特点：基于HTTP协议，使用标准的HTTP方法（GET、POST、PUT、DELETE等）来操作资源。资源通过URL定位，URL通常表示资源的层级关系。无状态，每次请求都包含足够的信息来完成请求。返回格式通常是JSON或XML。优点：简单易用，
内部服务器错误500是什么？该如何解决？ Asuna01 C#c#
500内部服务器错误是什么5XX错误是由服务器返回的状态代码，当服务器遇到这使它不能满足来自客户端的请求的意外情况。500内部服务器错误包含很多种情况，不能确切知道到底是哪个异常导致的。于是很难解决这个错误，因为它可以由许多不同的问题触发。如窗体不能正确处理缺失或不正确的值，此错误的一个常见原因是脚本问题。各种服务器故障也可能导致这个错误，如出现故障的磁盘或无功能的软件模块。简单地说，500内部服
人工智能 - 通用 AI Agent 之 LangManus、Manus、OpenManus 和 OWL 技术选型天机️灵韵具身智能人工智能人工智能具身智能智能体
一、核心项目概览1.Manus（闭源通用AIAgent）定位：全球首个全流程自动化通用AIAgent，GAIA基准测试SOTA水平。核心能力：全流程自动化：从任务规划（如撰写报告）到执行（代码生成、表格制作）的端到端处理。智能纠错机制：基于沙箱环境的实时错误反思与调整（类似CodeAct技术）。云端依赖：需联网运行，集成浏览器操作、信息检索等工具。局限性：闭源且采用邀请制，二手市场邀请码溢价至数万
C语言【文件操作】详解下 Run_Teenage C语言基础 c语言
引言详细介绍了文件的随机读写函数和文件读取结束的判定看这篇博文前，希望您先仔细看一下这篇博文，理解一下文件指针和流的概念：C语言【文件操作】详解上-CSDN博客一、文件的随机读写函数1.fseek函数根据文件指针的位置和偏移量来定位文件指针（文件内容的光标）。函数原型：intfseek(FILE*stream,longintoffset,intorigin);作用：重新定位流位置指示器参数：str
VideoView视频组件 Android洋芋 Android控件音视频
简介VideoView在Android中是一个用户界面组件，它允许开发者在Android设备的屏幕上播放视频文件。它是AndroidSDK的一部分，位于android.widget包中。VideoView提供了一种简单的方法来嵌入和控制视频播放，包括设置视频源、开始、暂停、seek（跳转到视频的特定位置）以及显示视频的控件等基本功能。开发人员可以轻松地将VideoView添加到布局文件中，并通过J
Nginx负载均衡策略详解：从轮询到智能分发，打造高可用服务架构 egzosn nginx 负载均衡架构运维
Nginx负载均衡策略详解：从轮询到智能分发，打造高可用服务架构一、负载均衡的核心价值当单台服务器无法承载高并发流量时，负载均衡通过将请求分发到多台服务器，实现：横向扩展：突破单机性能瓶颈故障隔离：自动剔除异常节点动态调度：根据策略优化资源利用率二、Nginx原生负载均衡策略1.轮询(RoundRobin)配置示例：upstreambackend{server192.168.1.10:8080;s
松下空调全国售后服务指南及维修 2503_90926332 eclipse
松下空调全国官网售后服务点热线号码4OO-675-8161故障报修：4OO-675-8161服务为先，满意为念，服务无/极/限，真/诚/到永远。讲诚信、树新风、诚以待人、信以立世、认真负责、精益求精、积极热情，本公司为厂家全国维修服务!全/天候、全/天蔬诚为您服务。维修服务网点致力于为客户摄供及时、专/业、用心的佳服务,让千万家庭/感/受/到“家”的感觉!!维修服务承/诺:1、严格按照维修及操作规
【现代后端架构演进：微服务设计与云原生】蝉叫醒了夏天架构云原生微服务
现代后端架构演进：微服务设计与云原生一、架构演进历程1.单体架构到分布式系统单体架构瓶颈典型问题：代码耦合（代码行超百万级）、扩展困难（垂直扩容成本>105>10^5>105美元/节点）、技术栈固化故障扩散：数据库连接池耗尽导致全站瘫痪SOA（面向服务架构）引入ESB（企业服务总线），服务间通信延迟增加30-50ms典型案例：电信计费系统（服务拆分粒度以模块为单位）2.微服务革命（2014-）核心
Springboot使用itext及documents4j操作pdf（word转pdf、pdf加水印（文字或图片，可指定位置）、pdf加密（打开密码，编辑密码））爱编程的小飞哥 SpringBoot java itext
pom.xml引入com.documents4jdocuments4j-local1.0.3com.documents4jdocuments4j-transformer-msoffice-word1.0.3com.itextpdfitextpdf5.5.11com.itextpdfitext-asian5.2.0创建PDF操作工具类PdfUtilspackagecom.ruoyi.common.u
ASM系列四利用Method 组件动态注入方法逻辑 lijingyao8206 字节码技术 jvm AOP 动态代理 ASM
这篇继续结合例子来深入了解下Method组件动态变更方法字节码的实现。通过前面一篇，知道ClassVisitor 的visitMethod()方法可以返回一个MethodVisitor的实例。那么我们也基本可以知道，同ClassVisitor改变类成员一样，MethodVIsistor如果需要改变方法成员，注入逻辑，也可以
java编程思想 --内部类百合不是茶 java 内部类匿名内部类
内部类;了解外部类并能与之通信内部类写出来的代码更加整洁与优雅 1,内部类的创建内部类是创建在类中的 package com.wj.InsideClass; /* * 内部类的创建 */ public class CreateInsideClass { public CreateInsideClass(
web.xml报错 crabdave web.xml
web.xml报错 The content of element type "web-app" must match "(icon?,display- name?,description?,distributable?,context-param*,filter*,filter-mapping*,listener*,servlet*,s
泛型类的自定义麦田的设计者 java android 泛型
为什么要定义泛型类，当类中要操作的引用数据类型不确定的时候。采用泛型类，完成扩展。例如有一个学生类 Student{ Student(){ System.out.println("I'm a student....."); } } 有一个老师类
CSS清除浮动的4中方法 IT独行者 JavaScript UI css
清除浮动这个问题，做前端的应该再熟悉不过了，咱是个新人，所以还是记个笔记，做个积累，努力学习向大神靠近。CSS清除浮动的方法网上一搜，大概有N多种，用过几种，说下个人感受。 1、结尾处加空div标签 clear:both 1 2 3 4 .div 1 { background : #000080 ; border : 1px s
Cygwin使用windows的jdk 配置方法 _wy_ jdk windows cygwin
1.[vim /etc/profile] JAVA_HOME="/cgydrive/d/Java/jdk1.6.0_43" (windows下jdk路径为D:\Java\jdk1.6.0_43) PATH="$JAVA_HOME/bin:${PATH}" CLAS
linux下安装maven 无量 maven linux 安装
Linux下安装maven(转) 1.首先到Maven官网下载安装文件，目前最新版本为3.0.3，下载文件为 apache-maven-3.0.3-bin.tar.gz，下载可以使用wget命令； 2.进入下载文件夹，找到下载的文件，运行如下命令解压 tar -xvf apache-maven-2.2.1-bin.tar.gz 解压后的文件夹
tomcat的https 配置,syslog-ng配置 aichenglong tomcat http跳转到https syslong-ng配置 syslog配置
1) tomcat配置https,以及http自动跳转到https的配置 1)TOMCAT_HOME目录下生成密钥(keytool是jdk中的命令) keytool -genkey -alias tomcat -keyalg RSA -keypass changeit -storepass changeit
关于领号活动总结 alafqq 活动
关于某彩票活动的总结具体需求，每个用户进活动页面，领取一个号码，1000中的一个；活动要求 1，随机性，一定要有随机性； 2，最少中奖概率，如果注数为3200注，则最多中4注 3，效率问题，（不能每个人来都产生一个随机数，这样效率不高）； 4，支持断电（仍然从下一个开始），重启服务；（存数据库有点大材小用，因此不能存放在数据库）解决方案 1，事先产生随机数1000个，并打
java数据结构冒泡排序的遍历与排序百合不是茶 java
java的冒泡排序是一种简单的排序规则冒泡排序的原理：比较两个相邻的数，首先将最大的排在第一个，第二次比较第二个，此后一样；针对所有的元素重复以上的步骤，除了最后一个例题；将int array[]
JS检查输入框输入的是否是数字的一种校验方法 bijian1013 js
如下是JS检查输入框输入的是否是数字的一种校验方法： <form method=post target="_blank"> 数字：<input type="text" name=num onkeypress="checkNum(this.form)"><br> </form>
Test注解的两个属性：expected和timeout bijian1013 java JUnit expected timeout
JUnit4：Test文档中的解释：　　The Test annotation supports two optional parameters. 　　The first, expected, declares that a test method should throw an exception. 　　If it doesn't throw an exception or if it
[Gson二]继承关系的POJO的反序列化 bit1129 POJO
父类 package inheritance.test2; import java.util.Map; public class Model { private String field1; private String field2; private Map<String, String> infoMap
【Spark八十四】Spark零碎知识点记录 bit1129 spark
1. ShuffleMapTask的shuffle数据在什么地方记录到MapOutputTracker中的 ShuffleMapTask的runTask方法负责写数据到shuffle map文件中。当任务执行完成成功，DAGScheduler会收到通知，在DAGScheduler的handleTaskCompletion方法中完成记录到MapOutputTracker中
WAS各种脚本作用大全 ronin47 WAS 脚本
　　　http://www.ibm.com/developerworks/cn/websphere/library/samples/SampleScripts.html 　　　无意中，在WAS官网上发现的各种脚本作用，感觉很有作用，先与各位分享一下　　　获取下载这些示例 jacl 和 Jython 脚本可用于在 WebSphere Application Server 的不同版本中自
java-12.求 1+2+3+..n不能使用乘除法、 for 、 while 、 if 、 else 、 switch 、 case 等关键字以及条件判断语句 bylijinnan switch
借鉴网上的思路，用java实现： public class NoIfWhile { /** * @param args * * find x=1+2+3+....n */ public static void main(String[] args) { int n=10; int re=find(n); System.o
Netty源码学习-ObjectEncoder和ObjectDecoder bylijinnan java netty
Netty中传递对象的思路很直观： Netty中数据的传递是基于ChannelBuffer（也就是byte[]）；那把对象序列化为字节流，就可以在Netty中传递对象了相应的从ChannelBuffer恢复对象，就是反序列化的过程 Netty已经封装好ObjectEncoder和ObjectDecoder 先看ObjectEncoder ObjectEncoder是往外发送
spring 定时任务中cronExpression表达式含义 chicony cronExpression
一个cron表达式有6个必选的元素和一个可选的元素，各个元素之间是以空格分隔的，从左至右，这些元素的含义如下表所示：代表含义是否必须允许的取值范围 &nb
Nutz配置Jndi ctrain JNDI
1、使用JNDI获取指定资源： var ioc = { dao : { type :"org.nutz.dao.impl.NutDao", args : [ {jndi :"jdbc/dataSource"} ] } } 以上方法,仅需要在容器中配置好数据源,注入到NutDao即可.
解决 /bin/sh^M: bad interpreter: No such file or directory daizj shell
在Linux中执行.sh脚本，异常/bin/sh^M: bad interpreter: No such file or directory。分析：这是不同系统编码格式引起的：在windows系统中编辑的.sh文件可能有不可见字符，所以在Linux系统下执行会报以上异常信息。解决： 1）在windows下转换：利用一些编辑器如UltraEdit或EditPlus等工具
[转]for 循环为何可恨？ dcj3sjt126com 程序员读书
Java的闭包(Closure)特征最近成为了一个热门话题。一些精英正在起草一份议案，要在Java将来的版本中加入闭包特征。然而，提议中的闭包语法以及语言上的这种扩充受到了众多Java程序员的猛烈抨击。不久前，出版过数十本编程书籍的大作家Elliotte Rusty Harold发表了对Java中闭包的价值的质疑。尤其是他问道“for 循环为何可恨？”[http://ju
Android实用小技巧 dcj3sjt126com android
1、去掉所有Activity界面的标题栏　　修改AndroidManifest.xml 　　在application 标签中添加android:theme="@android:style/Theme.NoTitleBar" 2、去掉所有Activity界面的TitleBar 和StatusBar 　　修改AndroidManifes
Oracle 复习笔记之序列 eksliang Oracle 序列 sequence Oracle sequence
转载请出自出处：http://eksliang.iteye.com/blog/2098859 1.序列的作用序列是用于生成唯一、连续序号的对象一般用序列来充当数据库表的主键值 2.创建序列语法如下： create sequence s_emp start with 1 --开始值 increment by 1 --増长值 maxval
有“品”的程序员 gongmeitao 工作
完美程序员的10种品质　　完美程序员的每种品质都有一个范围，这个范围取决于具体的问题和背景。没有能解决所有问题的完美程序员（至少在我们这个星球上），并且对于特定问题，完美程序员应该具有以下品质：　　1. 才智非凡- 能够理解问题、能够用清晰可读的代码翻译并表达想法、善于分析并且逻辑思维能力强（范围：用简单方式解决复杂问题）　　
使用KeleyiSQLHelper类进行分页查询 hvt sql .net C#asp.net hovertree
本文适用于sql server单主键表或者视图进行分页查询，支持多字段排序。KeleyiSQLHelper类的最新代码请到http://hovertree.codeplex.com/SourceControl/latest下载整个解决方案源代码查看。或者直接在线查看类的代码：http://hovertree.codeplex.com/SourceControl/latest#HoverTree.D
SVG 教程（三）圆形，椭圆，直线天梯梦 svg
SVG <circle> SVG 圆形 - <circle> <circle> 标签可用来创建一个圆：下面是SVG代码： <svg xmlns="http://www.w3.org/2000/svg" version="1.1"> <circle cx="100" c
链表栈 luyulong java 数据结构
public class Node { private Object object; private Node next; public Node() { this.next = null; this.object = null; } public Object getObject() { return object; } public
基础数据结构和算法十：2-3 search tree sunwinner Algorithm 2-3 search tree
Binary search tree works well for a wide variety of applications, but they have poor worst-case performance. Now we introduce a type of binary search tree where costs are guaranteed to be loga
spring配置定时任务 stunizhengjia spring timer
最近因工作的需要，用到了spring的定时任务的功能,觉得spring还是很智能化的,只需要配置一下配置文件就可以了,在此记录一下，以便以后用到： //------------------------定时任务调用的方法------------------------------ /** * 存储过程定时器 */ publi
ITeye 8月技术图书有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的8月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 8月试读活动回顾： http://webmaster.iteye.com/blog/2102830 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《跨终端Web》 gleams：http