_sky123_

IDA Python 使用总结

环境配置

切换 python 版本

运行 IDA 安装目录下的 idapyswitch.exe ，选择使用的 python 解释器。

在 PyCharm 中写 IDAPython 脚本

在 PyCharm 的设置→项目→Python解释器点击设置选择全部显示…

点击如下位置添加自定义路径

路径选择 IDA Pro 7.6\python\3 貌似 3 和 2 表示 Python3 和 Python2 。

之后就可以使用 PyCharm 的智能补全编写 IDAPython 程序了。

IDA Python 常用 API

常见模块

IDC：封装IDA与IDC函数的兼容性模块
idautils：高级实用的模块
idaapi：允许访问更加底层的数据

获取地址

idc.here() 或 idc.get_screen_ea()：取当前地址
ida_ida.inf_get_min_ea()：获取最小地址（可以使用的）
ida_ida.inf_get_max_ea()：获取最大地址（可以使用的）
idc.read_selection_start()：获取所选范围的起始地址
idc.read_selection_end()：获取所选范围的结束地址
idc.get_name_ea_simple(name)：获取名称对应的地址，如果获取不到则返回 ida_idaapi.BADADDR 。

获取地址处的值

idc.get_wide_byte(addr)：以 1 字节为单位获取地址处的值
idc.get_wide_word(addr)：以 2 字节（字）的单位获取地址处的值
idc.get_wide_dword(addr)：以 4 字节的单位获取地址处的值
idc.get_qword(addr)：以 8 字节的单位获取地址处的值
idc.get_bytes(addr, len)：获取 addr 地址处 len 长度的数据
idc.get_item_size(addr)：获取 addr 地址处的数据大小，例如汇编指令长度。

修改地址处的值

ida_bytes.patch_byte(addr, value)：修改 addr 地址的值为 value ，每次修改 1 个字节。
ida_bytes.patch_word(addr, value)：每次修改 2 个字节
ida_bytes.patch_dword(addr, value)：每次修改 4 个字节
ida_bytes.patch_qword(addr, value)：每次修改 8 个字节
idc.patch_bytes(addr, data)：在 addr 地址处写入 data（bytes 类型数据）

修改地址处的类型

idc.del_items(addr)：去除目标地址处数据的属性。
idc.create_insn(addr)：将目标地址处的数据设置为代码。有可能会失败，可以与 ida_name.set_name(addr, '') 配合来避免失败。

汇编指令操作

idc.GetDisasm(addr) 或 idc.generate_disasm_line(addr,flags)：获取地址处的汇编语句，这里 flags 通常为 0 。

idc.print_operand(addr,index)：获取指定地址 addr 的汇编指令的第 index 个操作数（字符串形式），如果 index 索引超过操作数的个数则返回空字符串。下面简单举几个例子感受一下：

汇编	inxex = 0	index = 1
`pop rax`	`rax`	‘’
`mov [rsp+10h], rax`	`[rsp+10h]`	`rax`
`call $+5`	`$+5`	‘’
`add rax, 68FBh`	`rax`	`68FBh`
`jz short loc_1400100CC`	`loc_1400100CC`	‘’
`popfq`	‘’	‘’
`retn`	‘’	‘’

idc.get_operand_type(addr, index)：获取操作数的类型。
- o_void (0)：无效操作数，表示没有操作数。
- o_reg (1)：寄存器操作数，表示一个寄存器。
- o_mem (2)：内存操作数，表示一个内存地址。
- o_phrase (3)：短语操作数，表示根据寄存器和偏移量计算的内存地址。
- o_displ (4)：带偏移量的内存操作数，表示根据寄存器、偏移量和可选标志寄存器计算的内存地址。
- o_imm (5)：立即数操作数，表示一个立即数值。
- o_far (6)：远跳转操作数，表示一个远跳转地址。
- o_near (7)：相对跳转操作数，表示一个相对于当前指令地址的跳转地址。
idc.get_operand_value(addr, index)：获取指定索引操作数中的值。
- 对于寄存器操作数 (o_reg)，返回寄存器的编号。
- 对于内存操作数 (o_mem)，返回内存地址的值。
- 对于立即数操作数 (o_imm)，返回立即数的值。
- 对于相对跳转操作数 (o_near)，返回跳转的地址。
- 对于其他特定于处理器的操作数类型，返回相应的值，具体含义需要参考相关文档。
idc.print_insn_mnem(addr)：获取指定地址 addr 的汇编指令的操作指令（如 mov、add）。
idc.next_head(addr)：获取当前地址的汇编的下一条汇编的地址。
idc.prev_head(addr)：获取当前地址的汇编的上一条汇编的地址。

由于 IDA Python 没有有效的汇编功能且 idc.generate_disasm_line(addr,flags) 反汇编出的汇编代码与主流的反汇编器 keystone_engine 不通用，因此通常利用 keystone_engine 与 capstone 结合来实现汇编与反汇编功能。

from keystone import *
from capstone import *

asmer = Ks(KS_ARCH_X86, KS_MODE_64)
disasmer = Cs(CS_ARCH_X86, CS_MODE_64)

def disasm(machine_code, addr=0):
    l = ""
    for i in disasmer.disasm(machine_code, addr):
        l += "{:8s} {};\n".format(i.mnemonic, i.op_str)
    return l.strip('\n')


def asm(asm_code, addr=0):
    l = b''
    for i in asmer.asm(asm_code, addr)[0]:
        l += bytes([i])
    return l

段操作

idc.get_segm_name(addr)：获取地址 addr 所在段的名字（参数为当前的地址）。
idc.get_segm_start(addr)：获取地址 addr 所在段的开始地址
idc.get_segm_end(addr)：获取地址 addr 所在段的结束地址
idc.get_first_seg()：获取第一个段的地址
idc.get_next_seg(addr)：获取地址大于 addr 的第一个段的起始地址
idautil.Segments()：返回一个列表记录所有段的地址

遍历所有的段

import idc
import idaapi
import idautils

for seg_addr in idautils.Segments():
    segname = idc.get_segm_name(seg_addr)
    segstart = idc.get_segm_start(seg_addr)
    segend   = idc.get_segm_end(seg_addr)
    print("段名：" + segname + " 起始地址：" + hex(segstart) + " 结束地址：" + hex(segend));

函数操作

idautils.Functions(startaddr,endaddr)：获取指定地址之间的所有函数
idc.get_func_name(addr)：获取指定地址所在函数的函数名
get_func_cmt(addr, repeatable)：获取函数的注释
- repeatable：0 是获取常规注释，1 是获取重复注释。
idc.set_func_cmt(ea, cmt, repeatable)：设置函数注释
idc.choose_func(title)：弹出选择框要求用户进行选择函数，返回值为用户选择的函数的地址，若直接关闭选择框则返回值为 0xffffffffffffffff 。
idc.get_func_off_str(addr)：寻找函数结尾，如果函数存在则返回结尾地址，否则返回 BADADDR 。
ida_funcs.set_func_end(addr, newend)：设置函数结尾为 newend
ida_funcs.set_func_start(addr, newstart)：设置函数开头为 newstart
idc.set_name(addr, name)：设置地址处的名字为 name
idc.get_prev_func(addr)：获取 addr 所在函数的前一个函数的地址
idc.get_next_func(addr)：获取 addr 所在函数的后一个函数的地址
ida_funcs.add_func(addr)：在 addr 地址创建函数

遍历 .text 段内的所有函数

import idc
import idaapi
import idautils

for seg in idautils.Segments():
    segname = idc.get_segm_name(seg)
    segstart = idc.get_segm_start(seg)
    segend = idc.get_segm_end(seg)
    if (segname == '.text'):
        for funcaddr in Functions(segstart,segend):
            funname = idc.get_func_name(funcaddr)
            funend =  idc.find_func_end(funcaddr)
            funnext = idc.get_next_func(funcaddr)
            funnextname = idc.get_func_name(funnext)
            print("当前函数名: " + funname + "当前结束地址: " + hex(funend) +"下一个函数地址: " + hex(funnext) + "下一个函数名: " + funnextname)

数据查询

idc.find_binary(ea, flag, searchstr, radix=16)：查找二进制找到返回地址没找到返回 -1 (BADADDR)
- flags：搜索标志。
  - SEARCH_DOWN：向下搜索
  - SEARCH_UP：向上搜索
  - SEARCH_NEXT：获取下一个找到的对象。
  - SEARCH_CASE：指定大小写敏感度
  - SEARCH_UNICODE：搜索 Unicode 字符串。
- searchstr：要搜索的二进制模式或指令序列，例如 E8 00 00 00 00 58 。
- radix：模式中数字的基数，默认为十六进制（16）。
ida_search.find_data(ea, sflag)：从 ea 开始寻找下一个数据地址
ida_search.find_code(ea, sflag)：从 ea 开始寻找下一个代码地址
ida_kernwin.jumpto(ea)：跳转到 ea 位置

数据校验函数

ida_bytes.get_full_flags(ea)：获取 ea 地址处的标志，其中包含了 ea 地址处的相关属性。
ida_bytes.is_code(f)：判断是否为代码，其中 f 为获取的标志位。
ida_bytes.is_data(f)：判断是否为数据，其中 f 为获取的标志位。
ida_bytes.del_items(ea)：删除 ea 地址处的类型。

交叉引用

idautils.CodeRefsTo(ea, flow)：获取引用 ea 地址处的内容的地址。其中 flow 表示代码顺序执行的是否计算在内，比如如果 flow = True 那么认为当前指令的上一条指令引用了当前指令。
idautils.CodeRefsFrom(ea, flow)：ea 地址处的代码引用了何处的代码。
idautils.DataRefsTo(ea)：获取引用 ea 地址处的内容的地址。
idautils.DataRefsFrom(ea)：ea 地址处的代码引用了何处的数据。

去混淆

基础理论

程序的结构

我们可以认为一个程序的代码结构如下图所示：

一个程序由多个函数（function）组成，而每个函数由多个分支（branch）组成，对于函数和分支我们做如下定义：

函数：从 CALL 指令跳转到的代码开始，在不通过 CALL 指令跳转的前提下能访问到的所有代码。
分支：通过 JCC 跳转到的代码开始，直到以 RET 结尾或者跳转到已分析过的分支的代码块。

因此去混淆的时候我们可以有如下代码框架，即先 bfs 函数，然后在每个函数内部再 bfs 所有分支。在 bfs 的过程中将已去混淆的代码拼接起来。这样做的好处是同一个函数的代码尽可能放在一起，ida 在反编译的时候容易识别。

    func_queue = Queue()
    func_queue.put(entry_point)

    while not func_queue.empty():
        func_address = func_queue.get()
      
        branch_queue = Queue()
        branch_queue.put(func_address)
        while not branch_queue.empty():
            branch_address = branch_queue.get()
            ... # 去混淆代码
                if idc.print_insn_mnem(ea) == 'call': # CALL function
                	func_queue.put(call_target)
                elif idc.print_insn_mnem(ea)[0] == 'j' # JCC branch
                	branch_queue.put(jcc_target)
    ... # 重定位代码

代码重定位

代码的位置移动时，原本的 CALL 和 JCC 等跳转指令要想跳转到原来的地方需要进行指令修正，这个可以借助 keystone-engine 和 capstone 来完成。

def mov_code(ea, new_code_ea):
    return asm(disasm(idc.get_bytes(ea, idc.get_item_size(ea)), ea), new_code_ea)

然而在完成去混淆后程序中的绝大多数代码都移动了位置，因此程序中所有的 CALL 和 JCC 等跳转指令跳转的地址需要进行修正，也就是重定位。

对于指令修正我们可以通过并查集来维护。

一个程序的跳转指令可以看做是上图左边的结构。即存在一个跳转指令跳转到另一个跳转指令的情况。通过并查集我们可以将指令 A，B，C，D，E 的真实地址都修正为指令 E 的真实地址。

在使用并查集维护重定位的时候需要注意以下几点：

上图中的指令 E 需要确保不存在指令复用的情况。因为有的代码混淆会将程序拆分成指令后放到一个巨大的 switch 中，然后通过在 switch 中查找依次执行指令。这种情况会造成一条指令在不同的分支中都会使用，如果此时我们用并查集维护就会把该指令重定位到其中一个使用该指令的地址，但实际上该指令还会在其他地址出现，这就造成了程序可能会跳转到错误的分支上。对于这种情况我们需要重定位查找 switch 的代码到去混淆的代码上，而不是重定位 switch 中的具体指令，这样就保证一一对应了。
在上图的结构中我们可以发现，只有连接根节点的边是重定位的边，其余的边都是跳转的边。因为在跳转的时候我们不需要关心中间的跳转指令在哪里，而是需要关心最终跳转到的位置的真实地址。因此在并查集合并的时候如果是一条 JMP 指令就需要将该指令的重定位后的实际地址合并到指令的原本地址，然后将指令的原本地址合并到指令的跳转地址，否则将该指令的原本地址合并到指令的重定位后的实际地址。这样在并查集路径压缩之后每一个跳转指令跳转地址都被重定位到非 JMP 指令的实际地址。

例题：强网杯2022 find_basic

附件下载链接

观察发现程序由下面的代码块构成：

.text:000048F4 pushf
.text:000048F5 pusha
.text:000048F6 mov     cl, 3Fh ; '?'
.text:000048F8 call    sub_44FA
.text:000048F8
.text:000048FD pop     eax

分析该代码块的执行过程，发现本质是在一个 switch 中查找实际指令。该代码块可由 lea ecx, [esp+4] 指令代替。

首先，我们需要将程序中的代码块提取出来，然后记录几个有用的信息：

start_ea：代码块的起始地址
end_ea：代码块的结束地址
imm：在 switch 中查找指令用的立即数
reg：存放立即数用的寄存器
call_target：调用的 switch 函数

在提取代码块的有效信息的同时也可以检测该代码块是否有效，因此分析发现程序中会在代码块直接插入一些有实际功能的代码。

class Block:
    def __init__(self, start_ea, end_ea, imm, reg, call_target):
        self.start_ea = start_ea
        self.end_ea = end_ea
        self.imm = imm
        self.reg = reg
        self.call_target = call_target
        
def get_block(start_ea):
    global imm, reg, call_target
    mnem_list = ['pushf', 'pusha', 'mov', 'call', 'pop']
    ea = start_ea
    for i in range(5):
        mnem = idc.print_insn_mnem(ea)
        assert mnem == mnem_list[i]
        if mnem == 'mov':
            imm = idc.get_operand_value(ea, 1)
            reg = idc.print_operand(ea, 0)
        elif mnem == 'call':
            call_target = idc.get_operand_value(ea, 0)
        ea += idc.get_item_size(ea)
    return Block(start_ea, ea, imm, reg, call_target)

在提取出代码块之后利用提取到的有效信息可以在 call_target 中查找代码块对应的实际代码。这里有几个特殊情况：

一般情况在 cmp 判断找到对应位置后会依次执行 jnz，popa，popf 三条指令，然后后面紧跟着代码块对应的实际代码。然而想下面这种情况，在执行完 popf 后面紧跟着 pusha 而不是代码块对应的实际代码，简单分析一下发现这种情况代码块对应的实际代码为 retn 。这种情况需要返回 True 表示一个 branch 的结束。
```
.text:000045CC popa
.text:000045CD popf
.text:000045CE pushf
.text:000045CF pusha
.text:000045D0 call    dec_index
.text:000045D0
.text:000045D5 popa
.text:000045D6 popf
.text:000045D7 retn
```
通常认为代码块对应的实际代码的结束标志为一个 jmp 指令，但是有的地方在 jmp 之后还会执行几条有效指令，因此判断实际代码的结束标志应当是 pushf 。

def get_real_code(block, new_code_ea):
    ea = block.call_target
    while True:
        if idc.print_insn_mnem(ea) == 'cmp':
            reg = idc.print_operand(ea, 0)
            imm = idc.get_operand_value(ea, 1)
            if reg == block.reg and imm == block.imm:
                ea += idc.get_item_size(ea)
                break
        ea += idc.get_item_size(ea)

    # 在 cmp 判断找到对应位置后会依次执行 jnz，popa，popf 三条指令
    assert idc.print_insn_mnem(ea) == 'jnz'
    ea += idc.get_item_size(ea)

    assert idc.print_insn_mnem(ea) == 'popa'
    ea += idc.get_item_size(ea)

    assert idc.print_insn_mnem(ea) == 'popf'
    ea += idc.get_item_size(ea)

    if idc.print_insn_mnem(ea) == 'pushf':  # 第一种特殊情况，实际是 ret 指令。
        return True, asm('ret')

    new_code = b''
    while True:
        if idc.print_insn_mnem(ea) == 'jmp':  # 第二种特殊情况，跳转过去可能还会有几条实际功能指令。
            jmp_ea = idc.get_operand_value(ea, 0)
            if idc.print_insn_mnem(jmp_ea) == 'pushf':
                break
            ea = jmp_ea
        else:
            code = mov_code(ea, new_code_ea)
            new_code += code
            new_code_ea += len(code)
            ea += get_item_size(ea)
    return False, new_code

这里涉及到了维护重定位的并查集 RelocDSU ，对应代码如下。在 get 函数中如果遇到了 jmp 指令且操作数是立即数就路径压缩到跳转的地址，直到地址在 .got.plt 或者指令不是 jmp 指令。另外判断是否是已处理代码是根据地址对应的最终地址是否不在 .text 段。

class RelocDSU:

    def __init__(self):
        self.reloc = {}

    def get(self, ea):
        if ea not in self.reloc:
            if idc.print_insn_mnem(ea) == 'jmp' and idc.get_operand_type(ea, 0) != idc.o_reg:
                jmp_ea = idc.get_operand_value(ea, 0)

                if idc.get_segm_name(jmp_ea) == '.got.plt':
                    self.reloc[ea] = ea
                    return self.reloc[ea], False

                self.reloc[ea], need_handle = self.get(idc.get_operand_value(ea, 0))
                return self.reloc[ea], need_handle
            else:
                self.reloc[ea] = ea
        if self.reloc[ea] != ea: self.reloc[ea] = self.get(self.reloc[ea])[0]
        return self.reloc[ea], idc.get_segm_name(self.reloc[ea]) == '.text'

    def merge(self, ea, reloc_ea):
        self.reloc[self.get(ea)[0]] = self.get(reloc_ea)[0]


reloc = RelocDSU()

接下来就是考虑如何提取出一个 branch 的代码了。前面提到过程序中会在代码块直接插入一些有实际功能的代码，因此需要借助 try:...except:... 和 assert 来处理。除此之外这里还有几个特殊情况：

程序中的 0x900 和 0x435c 处分别有一个获取返回地址 eip 到 ebx 和 eax 的函数，程序借助这两个函数来访问全局变量实现地址无关代码，然而重定位后代码地址改变，因此这里需要将其修正为 mov reg, xxx 。
需要根据程序中的 jmp 指令来决定下一步需要去混淆的代码位置，这里需要判断 jmp 后面跟的是否是立即数，另外需要判断 jmp 到的代码是否是已经处理过的代码。
并查集合并的时候如果是代码块，需要将代码块的地址合并到代码块对应指令的实际重定位后的地址；如果不是代码块如果是 jmp 指令且操作数是立即数，需要将 jmp 指令和该指令的重定位后的实际地址合并到指令的原本地址，然后将指令的原本地址合并到指令的跳转地址，否则将该指令的地址合并到重定位后的地址。

def handle_one_branch(branch_address, new_code_ea):
    new_code = b''
    ea = branch_address
    while True:
        try:
            block = get_block(ea)
            is_ret, real_code = get_real_code(block, new_code_ea)
            reloc.merge(ea, new_code_ea)
            ea = block.end_ea
            new_code_ea += len(real_code)
            new_code += real_code
            if is_ret: break
        except:
            get_eip_func = {0x900: 'ebx', 0x435c: 'eax'}
            if idc.print_insn_mnem(ea) == 'call' and get_operand_value(ea, 0) in get_eip_func:
                reloc.merge(ea, new_code_ea)
                real_code = asm('mov %s, 0x%x' % (get_eip_func[get_operand_value(ea, 0)], ea + 5), new_code_ea)
            else:
                if idc.print_insn_mnem(ea) == 'jmp' and idc.get_operand_type(ea, 0) != idc.o_reg:
                    reloc.merge(new_code_ea, ea)
                else:
                    reloc.merge(ea, new_code_ea)
                real_code = mov_code(ea, new_code_ea)

            new_code += real_code
            if real_code == asm('ret'): break
            new_code_ea += len(real_code)
            if idc.print_insn_mnem(ea) == 'jmp' and idc.get_operand_type(ea, 0) != idc.o_reg:  # jmp reg is a swtich
                jmp_ea = idc.get_operand_value(ea, 0)
                if reloc.get(jmp_ea)[1] == False: break  # 跳回之前的代码说明是个循环
                ea = reloc.get(jmp_ea)[0]
            else:
                ea += get_item_size(ea)
    return new_code

能够处理 branch 后，我们就可以 bfs 依次处理所有的 function 和 branch 了，这里还有几个特殊情况：

0x4148 地址处的函数中有一个 switch ，由于是通过跳转表跳转，去混淆脚本分析不到跳转的分支，因此需要读取跳转表找到跳转的 branch 然后添加到 branch_queue 中。
寻找新的 branch 时需要判断 jcc 的操作数类型是否是立即数。

    func_queue = Queue()
    func_queue.put(entry_point)

    while not func_queue.empty():
        func_address = func_queue.get()
        if reloc.get(func_address)[1] == False: continue
        reloc.merge(func_address, new_code_ea)
        branch_queue = Queue()
        branch_queue.put(func_address)
        if func_address == 0x4148:  # 特判 0x4148 地址处的函数，读取跳转表。
            assert new_code_ea == 0x963d0
            for eax in range(0x20):
                jmp_target = (ida_bytes.get_dword(jmp_table[0] + eax * 4) + jmp_table[1]) & 0xFFFFFFFF
                new_jmp_target, need_handle = reloc.get(jmp_target)
                if need_handle: branch_queue.put(jmp_target)

        while not branch_queue.empty():
            branch_address = branch_queue.get()
            new_code = handle_one_branch(branch_address, new_code_ea)
            ida_bytes.patch_bytes(new_code_ea, new_code)

            # 当前 branch 去完混淆之后需要遍历代码找到 call 和 jmp 指令从而找到其他的 function 和 branch 。
            ea = new_code_ea
            while ea < new_code_ea + len(new_code):
                idc.create_insn(ea)
                if idc.print_insn_mnem(ea) == 'call':
                    call_target, need_handle = reloc.get(get_operand_value(ea, 0))
                    if need_handle: func_queue.put(call_target)
                elif idc.print_insn_mnem(ea)[0] == 'j' and idc.get_operand_type(ea, 0) != idc.o_reg:
                    jcc_target, need_handle = reloc.get(get_operand_value(ea, 0))
                    if need_handle == True:
                        branch_queue.put(jcc_target)
                ea += get_item_size(ea)
            new_code_ea += len(new_code)

在完成代码去混淆之后需要对代码进行重定位，重定位的时候需要注意 jmp 指令长度的变化。

    ea = new_code_start
    while ea < new_code_ea:
        idc.create_insn(ea)
        mnem = idc.print_insn_mnem(ea)

        if mnem == 'call':
            call_target, need_handle = reloc.get(get_operand_value(ea, 0))
            assert need_handle == False
            ida_bytes.patch_bytes(ea, asm('call 0x%x' % (call_target), ea))
        elif mnem[0] == 'j' and idc.get_operand_type(ea, 0) != idc.o_reg:
            jcc_target, need_handle = reloc.get(get_operand_value(ea, 0))
            assert need_handle == False
            ida_bytes.patch_bytes(ea, asm('%s 0x%x' % (mnem, jcc_target), ea).ljust(idc.get_item_size(ea), b'\x90'))
        elif mnem == 'pushf':
            ida_bytes.patch_bytes(ea, b'\x90' * 9)
            ea += 9
            continue
        ea += get_item_size(ea)

最后去混淆后的 switch 不能被 ida 正常识别出来，具体原因是前面获取返回地址 eip 的函数被 patch 成了 mov reg, xxx 指令，导致其与编译器默认编译出的汇编不同（程序开启了 PIE，直接访问跳转表的地址 ida 不能正确识别），因此需要将这里的代码重新 patch 回去。

同时为了不影响原本程序中的数据，这里我将修复的跳转表放到了其他位置。另外还有两个字符串全局变量也移动到了正确位置。

    new_jmp_table = (0xA6000 - 0x2D54, 0xA6000)

    # 移动并修复跳转表
    for eax in range(0x20):
        jmp_target = (ida_bytes.get_dword(jmp_table[0] + eax * 4) + jmp_table[1]) & 0xFFFFFFFF
        new_jmp_target, need_handle = reloc.get(jmp_target)
        assert need_handle == False
        ida_bytes.patch_dword(new_jmp_table[0] + eax * 4, (new_jmp_target - new_jmp_table[1]) & 0xFFFFFFFF)

    need_patch_addr = 0x963D7
    ida_bytes.patch_bytes(need_patch_addr, asm('call 0x900;add ebx, 0x%x' % (new_jmp_table[1] - (need_patch_addr + 5)), need_patch_addr))  # 修复指令
    ida_bytes.patch_bytes(new_jmp_table[1] - 0x2d7a, ida_bytes.get_bytes(jmp_table[1] - 0x2d7a, 0x26))  # 复制字符串到正确位置

最终去混淆脚本如下：

from queue import *
import ida_bytes
from idc import *
import idc
from keystone import *
from capstone import *

asmer = Ks(KS_ARCH_X86, KS_MODE_32)
disasmer = Cs(CS_ARCH_X86, CS_MODE_32)


def disasm(machine_code, addr=0):
    l = ""
    for i in disasmer.disasm(machine_code, addr):
        l += "{:8s} {};\n".format(i.mnemonic, i.op_str)
    return l.strip('\n')


def asm(asm_code, addr=0):
    l = b''
    for i in asmer.asm(asm_code, addr)[0]:
        l += bytes([i])
    return l


def print_asm(ea):
    print(disasm(idc.get_bytes(ea, idc.get_item_size(ea)), ea))


class RelocDSU:

    def __init__(self):
        self.reloc = {}

    def get(self, ea):
        if ea not in self.reloc:
            if idc.print_insn_mnem(ea) == 'jmp' and idc.get_operand_type(ea, 0) != idc.o_reg:
                jmp_ea = idc.get_operand_value(ea, 0)

                if idc.get_segm_name(jmp_ea) == '.got.plt':
                    self.reloc[ea] = ea
                    return self.reloc[ea], False

                self.reloc[ea], need_handle = self.get(idc.get_operand_value(ea, 0))
                return self.reloc[ea], need_handle
            else:
                self.reloc[ea] = ea
        if self.reloc[ea] != ea: self.reloc[ea] = self.get(self.reloc[ea])[0]
        return self.reloc[ea], idc.get_segm_name(self.reloc[ea]) == '.text'

    def merge(self, ea, reloc_ea):
        self.reloc[self.get(ea)[0]] = self.get(reloc_ea)[0]


reloc = RelocDSU()


class Block:
    def __init__(self, start_ea, end_ea, imm, reg, call_target):
        self.start_ea = start_ea
        self.end_ea = end_ea
        self.imm = imm
        self.reg = reg
        self.call_target = call_target


def mov_code(ea, new_code_ea):
    return asm(disasm(idc.get_bytes(ea, idc.get_item_size(ea)), ea), new_code_ea)


def get_real_code(block, new_code_ea):
    ea = block.call_target
    while True:
        if idc.print_insn_mnem(ea) == 'cmp':
            reg = idc.print_operand(ea, 0)
            imm = idc.get_operand_value(ea, 1)
            if reg == block.reg and imm == block.imm:
                ea += idc.get_item_size(ea)
                break
        ea += idc.get_item_size(ea)

    # 在 cmp 判断找到对应位置后会依次执行 jnz，popa，popf 三条指令
    assert idc.print_insn_mnem(ea) == 'jnz'
    ea += idc.get_item_size(ea)

    assert idc.print_insn_mnem(ea) == 'popa'
    ea += idc.get_item_size(ea)

    assert idc.print_insn_mnem(ea) == 'popf'
    ea += idc.get_item_size(ea)

    if idc.print_insn_mnem(ea) == 'pushf':  # 第一种特殊情况，实际是 ret 指令。
        return True, asm('ret')

    new_code = b''
    while True:
        if idc.print_insn_mnem(ea) == 'jmp':  # 第二种特殊情况，跳转过去可能还会有几条实际功能指令。
            jmp_ea = idc.get_operand_value(ea, 0)
            if idc.print_insn_mnem(jmp_ea) == 'pushf':
                break
            ea = jmp_ea
        else:
            code = mov_code(ea, new_code_ea)
            new_code += code
            new_code_ea += len(code)
            ea += get_item_size(ea)
    return False, new_code


def get_block(start_ea):
    global imm, reg, call_target
    mnem_list = ['pushf', 'pusha', 'mov', 'call', 'pop']
    ea = start_ea
    for i in range(5):
        mnem = idc.print_insn_mnem(ea)
        assert mnem == mnem_list[i]
        if mnem == 'mov':
            imm = idc.get_operand_value(ea, 1)
            reg = idc.print_operand(ea, 0)
        elif mnem == 'call':
            call_target = idc.get_operand_value(ea, 0)
        ea += idc.get_item_size(ea)
    return Block(start_ea, ea, imm, reg, call_target)


def handle_one_branch(branch_address, new_code_ea):
    new_code = b''
    ea = branch_address
    while True:
        try:
            block = get_block(ea)
            is_ret, real_code = get_real_code(block, new_code_ea)
            reloc.merge(ea, new_code_ea)
            ea = block.end_ea
            new_code_ea += len(real_code)
            new_code += real_code
            if is_ret: break
        except:
            get_eip_func = {0x900: 'ebx', 0x435c: 'eax'}
            if idc.print_insn_mnem(ea) == 'call' and get_operand_value(ea, 0) in get_eip_func:
                reloc.merge(ea, new_code_ea)
                real_code = asm('mov %s, 0x%x' % (get_eip_func[get_operand_value(ea, 0)], ea + 5), new_code_ea)
            else:
                if idc.print_insn_mnem(ea) == 'jmp' and idc.get_operand_type(ea, 0) != idc.o_reg:
                    reloc.merge(new_code_ea, ea)
                else:
                    reloc.merge(ea, new_code_ea)
                real_code = mov_code(ea, new_code_ea)

            new_code += real_code
            if real_code == asm('ret'): break
            new_code_ea += len(real_code)
            if idc.print_insn_mnem(ea) == 'jmp' and idc.get_operand_type(ea, 0) != idc.o_reg:  # jmp reg is a swtich
                jmp_ea = idc.get_operand_value(ea, 0)
                if reloc.get(jmp_ea)[1] == False: break  # 跳回之前的代码说明是个循环
                ea = reloc.get(jmp_ea)[0]
            else:
                ea += get_item_size(ea)
    return new_code


def solve():
    entry_point = 0x48F4
    new_code_start = 0x96150
    new_code_ea = new_code_start

    jmp_table = (0x892ac, 0x8c000)  # [0x8c000 + (eax>>2) - 0x2d54] + 0x8c000

    for _ in range(0x10000): idc.del_items(new_code_ea + _)
    ida_bytes.patch_bytes(new_code_ea, 0x10000 * b'\x90')

    func_queue = Queue()
    func_queue.put(entry_point)

    while not func_queue.empty():
        func_address = func_queue.get()
        if reloc.get(func_address)[1] == False: continue
        reloc.merge(func_address, new_code_ea)
        branch_queue = Queue()
        branch_queue.put(func_address)
        if func_address == 0x4148:  # 特判 0x4148 地址处的函数，读取跳转表。
            assert new_code_ea == 0x963d0
            for eax in range(0x20):
                jmp_target = (ida_bytes.get_dword(jmp_table[0] + eax * 4) + jmp_table[1]) & 0xFFFFFFFF
                new_jmp_target, need_handle = reloc.get(jmp_target)
                if need_handle: branch_queue.put(jmp_target)

        while not branch_queue.empty():
            branch_address = branch_queue.get()
            new_code = handle_one_branch(branch_address, new_code_ea)
            ida_bytes.patch_bytes(new_code_ea, new_code)

            # 当前 branch 去完混淆之后需要遍历代码找到 call 和 jmp 指令从而找到其他的 function 和 branch 。
            ea = new_code_ea
            while ea < new_code_ea + len(new_code):
                idc.create_insn(ea)
                if idc.print_insn_mnem(ea) == 'call':
                    call_target, need_handle = reloc.get(get_operand_value(ea, 0))
                    if need_handle: func_queue.put(call_target)
                elif idc.print_insn_mnem(ea)[0] == 'j' and idc.get_operand_type(ea, 0) != idc.o_reg:
                    jcc_target, need_handle = reloc.get(get_operand_value(ea, 0))
                    if need_handle == True:
                        branch_queue.put(jcc_target)
                ea += get_item_size(ea)
            new_code_ea += len(new_code)

    ea = new_code_start
    while ea < new_code_ea:
        idc.create_insn(ea)
        mnem = idc.print_insn_mnem(ea)

        if mnem == 'call':
            call_target, need_handle = reloc.get(get_operand_value(ea, 0))
            assert need_handle == False
            ida_bytes.patch_bytes(ea, asm('call 0x%x' % (call_target), ea))
        elif mnem[0] == 'j' and idc.get_operand_type(ea, 0) != idc.o_reg:
            jcc_target, need_handle = reloc.get(get_operand_value(ea, 0))
            assert need_handle == False
            ida_bytes.patch_bytes(ea, asm('%s 0x%x' % (mnem, jcc_target), ea).ljust(idc.get_item_size(ea), b'\x90'))
        elif mnem == 'pushf':
            ida_bytes.patch_bytes(ea, b'\x90' * 9)
            ea += 9
            continue
        ea += get_item_size(ea)

    new_jmp_table = (0xA6000 - 0x2D54, 0xA6000)

    # 移动并修复跳转表
    for eax in range(0x20):
        jmp_target = (ida_bytes.get_dword(jmp_table[0] + eax * 4) + jmp_table[1]) & 0xFFFFFFFF
        new_jmp_target, need_handle = reloc.get(jmp_target)
        assert need_handle == False
        ida_bytes.patch_dword(new_jmp_table[0] + eax * 4, (new_jmp_target - new_jmp_table[1]) & 0xFFFFFFFF)

    need_patch_addr = 0x963D7
    ida_bytes.patch_bytes(need_patch_addr, asm('call 0x900;add ebx, 0x%x' % (new_jmp_table[1] - (need_patch_addr + 5)), need_patch_addr))  # 修复指令
    ida_bytes.patch_bytes(new_jmp_table[1] - 0x2d7a, ida_bytes.get_bytes(jmp_table[1] - 0x2d7a, 0x26))  # 复制字符串到正确位置

    for _ in range(0x10000): idc.del_items(new_code_ea + _)
    idc.jumpto(new_code_start)
    ida_funcs.add_func(new_code_start)

    print("finish")


solve()

例题：SUSCTF2022 tttree

附件下载链接

首先将 0x140010074 ，0x140017EFA ，140018C67 起始处的数据转换为汇编。

观察汇编，发现很多代码块之间相互跳转，因此先按照 retn 划分代码块。通过对代码块的观察，发现这些代码块按照 call $+5;pop rax（即 E8 00 00 00 00 58 ）的出现次数可以分为三种：

出现 0 次：

本质上是 其它操作 + retn 。
出现 1 次：

这种代码块本质为 其它操作 + jmp target ，注意 其它操作 中可能包含 branch 。
出现 2 次：

这个可以看做 2 个出现 1 次的代码块两个拼在一起，其中前面一个代码块去掉 retn 。执行完前面一个代码块后由于没有 retn ，因此 target1 留在栈中。执行第 2 个代码块跳转到 target2 执行，在 target2 代码块返回时会返回到 target1 。因此这种代码块本质上相当于 其它操作 + call target2 且下一个要执行的代码块为 target1 。

我们定义代码块 Block 几个关键信息：

start_addr：代码块的起始地址。
asm_list：代码块的有效汇编，由于汇编指令可能包含 [rip + xxx] ，因此需要记录汇编指令的地址以便后续修正。
direct_next：执行完此代码块后接下来要执行的代码块地址。
branch_list：代码块中的所有条件跳转语句跳到的地址。
call_target：代码块调用函数地址。

class Block:
    def __init__(self, start_ea, asm_list, direct_next, branch_list, call_target):
        self.start_ea = start_ea
        self.asm_list = asm_list
        self.direct_next = direct_next
        self.branch_list = branch_list
        self.call_target = call_target

    def __str__(self):
        return 'start_ea: 0x%x\ndirect_next: 0x%x\ncall_target: 0x%x\nbranch_list: %s\nasm_list:\n%s\n' % (
            0 if self.start_ea == None else self.start_ea,
            0 if self.direct_next == None else self.direct_next,
            0 if self.call_target == None else self.call_target,
            str([hex(x) for x in self.branch_list]),
            str('\n'.join([hex(addr) + '    ' + asm for addr, asm in self.asm_list]))
        )

get_block 函数可以获取给定地址处的代码块并提取相关信息。代码块中可能有 push xxx;pop xxx; 这样的无意义指令，可以通过栈模拟来去除。

def get_block(start_ea):
    ea = start_ea
    stack = []
    asm_list = []
    branch_list = []
    call_target = None
    direct_next = None

    while True:
        idc.create_insn(ea)
        mnem = idc.print_insn_mnem(ea)

        # 处理混淆中跳转的情况
        if mnem == 'pushfq':
            ea += idc.get_item_size(ea)

            assert idc.get_bytes(ea, idc.get_item_size(ea)) == b'\xE8\x00\x00\x00\x00'
            ea += idc.get_item_size(ea)
            jmp_base = ea

            assert idc.print_insn_mnem(ea) == 'pop' and idc.get_operand_type(ea, 0) == o_reg
            reg = idc.print_operand(ea, 0)
            ea += idc.get_item_size(ea)

            assert idc.print_insn_mnem(ea) == 'add' and idc.print_operand(ea, 0) == reg
            assert idc.get_operand_type(ea, 1) == o_imm

            jmp_target = (jmp_base + idc.get_operand_value(ea, 1)) & 0xFFFFFFFFFFFFFFFF
            ea += idc.get_item_size(ea)

            assert idc.get_bytes(ea, idc.get_item_size(ea)) == asm('mov [rsp + 0x10], %s' % reg, ea)
            ea += idc.get_item_size(ea)

            assert idc.print_insn_mnem(ea) == 'popfq'
            ea += idc.get_item_size(ea)

            assert idc.print_insn_mnem(ea) == 'pop' and idc.print_operand(ea, 0) == reg
            assert len(stack) != 0 and stack[-1][0] == 'push' and stack[-1][1] == reg
            stack.pop()
            asm_list.pop()

            assert len(stack) != 0 and stack[-1][0] == 'push' and stack[-1][1] == reg
            stack.pop()
            asm_list.pop()

            ea += idc.get_item_size(ea)

            if idc.print_insn_mnem(ea) == 'retn':
                if direct_next == None:
                    direct_next = jmp_target
                elif call_target == None:
                    call_target = jmp_target
                    asm_list.append((0, 'call 0x%x' % (call_target)))
                else:
                    print("")
                    assert False
                break
            else:
                assert call_target == None and direct_next == None
                direct_next = jmp_target
                continue

        if mnem == 'push':
            stack.append((mnem, idc.print_operand(ea, 0)))
        elif mnem == 'pop':
            if len(stack) != 0 and stack[-1][0] == 'push' and stack[-1][1] == idc.print_operand(ea, 0):
                stack.pop()
                asm_list.pop()
                ea += idc.get_item_size(ea)
                continue
            else:
                stack.clear()
        else:
            stack.clear()

        asm_list.append((ea, disasm(idc.get_bytes(ea, idc.get_item_size(ea)), ea)))

        if mnem == 'retn': break
        if mnem[0] == 'j' and mnem != 'jmp' and idc.get_operand_type(ea, 0) != o_reg:
            branch_list.append(idc.get_operand_value(ea, 0))

        if mnem == 'jmp':
            if idc.get_segm_name(idc.get_operand_value(ea, 0)) not in ['.text', '.aaa']:
                break
            else:
                ea = idc.get_operand_value(ea, 0)
        else:
            ea += idc.get_item_size(ea)

    return Block(start_ea, asm_list, direct_next, branch_list, call_target)

能够获取代码块信息之后就可以 bfs 函数以及函数中的所有分支，提取出汇编代码并写入 newcode 段。这里需要注意以下几点：

涉及 rip 的汇编指令不能只是简单把指令中的 rip 替换为对应的具体数值，因为有的指令立即数的长度被限制在 4 字节，直接替换成数值会溢出。一个比较好的解决方法是将 rip 替换为 rip + (指令原本地址 - 指令当前地址) 。这样借助 rip 寄存器扩大访问范围并且代码移动的距离不会超过 0x100000000 因此可以保证正确性。
如果 block.direct_next 对应的代码已经被去混淆了需要加上一条 jmp 指令跳转到已经去混淆的代码。
有的汇编指令 keystone 不支持汇编，比如 bnd ret ，需要特判。

    while not func_queue.empty():
        func_address = func_queue.get()
        if reloc.get(func_address)[1] == False: continue
        branch_queue = Queue()
        branch_queue.put(func_address)

        while not branch_queue.empty():
            branch_address = branch_queue.get()
            ea = branch_address

            while True:
                block = get_block(ea)
                reloc.merge(ea, new_code_ea)

                for addr, insn in block.asm_list:
                    insn = insn.replace('rip', 'rip - 0x%x' % (new_code_ea - addr))
                    if insn == 'bnd ret  ;':
                        code = b'\xF2\xC3'
                    else:
                        code = asm(insn, new_code_ea)
                    ida_bytes.patch_bytes(new_code_ea, code)
                    if addr != 0: reloc.merge(addr, new_code_ea)
                    new_code_ea += len(code)

                if block.call_target != None:
                    call_target, need_handle = reloc.get(block.call_target)
                    if need_handle: func_queue.put(call_target)

                for branch_address in block.branch_list:
                    jcc_target, need_handle = reloc.get(branch_address)
                    if need_handle: branch_queue.put(jcc_target)

                if block.direct_next == None: break

                next_target, need_handle = reloc.get(block.direct_next)
                if need_handle == False:
                    code = asm('jmp 0x%x' % (next_target), new_code_ea)
                    ida_bytes.patch_bytes(new_code_ea, code)
                    new_code_ea += len(code)
                    break
                else:
                    ea = block.direct_next

最后对代码进行重定位，需要注意的是代码块中的有效指令中也可能有 call 指令，这里 call 调用的是一个类似 plt 表的结构，会直接跳转到导入表中的函数地址表指向的函数，需要特判这种情况。

    ea = new_code_start
    while ea < new_code_ea:
        assert idc.create_insn(ea) != 0
        mnem = idc.print_insn_mnem(ea)

        if mnem == 'call':
            call_target, need_handle = reloc.get(get_operand_value(ea, 0))
            if need_handle == True:
                if idc.print_insn_mnem(call_target) == 'jmp' and idc.get_segm_name(idc.get_operand_value(call_target, 0)) == '.idata':
                    ea += get_item_size(ea)
                    continue
                else:
                    assert False
            ida_bytes.patch_bytes(ea, asm('call 0x%x' % (call_target), ea).ljust(idc.get_item_size(ea), b'\x90'))
        elif mnem[0] == 'j' and idc.get_operand_type(ea, 0) != idc.o_reg:
            jcc_target, need_handle = reloc.get(get_operand_value(ea, 0))
            assert need_handle == False
            ida_bytes.patch_bytes(ea, asm('%s 0x%x' % (mnem, jcc_target), ea).ljust(idc.get_item_size(ea), b'\x90'))

        ea += get_item_size(ea)

最后完整代码：

from queue import *
from idc import *
import idc
from keystone import *
from capstone import *

asmer = Ks(KS_ARCH_X86, KS_MODE_64)
disasmer = Cs(CS_ARCH_X86, CS_MODE_64)


def disasm(machine_code, addr=0):
    l = ""
    for i in disasmer.disasm(machine_code, addr):
        l += "{:8s} {};\n".format(i.mnemonic, i.op_str)
    return l.strip('\n')


def asm(asm_code, addr=0):
    l = b''
    for i in asmer.asm(asm_code, addr)[0]:
        l += bytes([i])
    return l


class RelocDSU:

    def __init__(self):
        self.reloc = {}

    def get(self, ea):
        if ea not in self.reloc:
            if idc.print_insn_mnem(ea) == 'jmp' and idc.get_operand_type(ea, 0) != idc.o_reg:
                jmp_ea = idc.get_operand_value(ea, 0)

                if idc.get_segm_name(jmp_ea) == '.idata':
                    self.reloc[ea] = ea
                    return self.reloc[ea], False

                self.reloc[ea], need_handle = self.get(idc.get_operand_value(ea, 0))
                return self.reloc[ea], need_handle
            else:
                self.reloc[ea] = ea
        if self.reloc[ea] != ea: self.reloc[ea] = self.get(self.reloc[ea])[0]
        return self.reloc[ea], idc.get_segm_name(self.reloc[ea]) in ['.text', '.aaa']

    def merge(self, ea, reloc_ea):
        # print((hex(ea), hex(reloc_ea)))
        self.reloc[self.get(ea)[0]] = self.get(reloc_ea)[0]


reloc = RelocDSU()


class Block:
    def __init__(self, start_ea, asm_list, direct_next, branch_list, call_target):
        self.start_ea = start_ea
        self.asm_list = asm_list
        self.direct_next = direct_next
        self.branch_list = branch_list
        self.call_target = call_target

    def __str__(self):
        return 'start_ea: 0x%x\ndirect_next: 0x%x\ncall_target: 0x%x\nbranch_list: %s\nasm_list:\n%s\n' % (
            0 if self.start_ea == None else self.start_ea,
            0 if self.direct_next == None else self.direct_next,
            0 if self.call_target == None else self.call_target,
            str([hex(x) for x in self.branch_list]),
            str('\n'.join([hex(addr) + '    ' + asm for addr, asm in self.asm_list]))
        )


def get_block(start_ea):
    ea = start_ea
    stack = []
    asm_list = []
    branch_list = []
    call_target = None
    direct_next = None

    while True:
        idc.create_insn(ea)
        mnem = idc.print_insn_mnem(ea)

        # 处理混淆中跳转的情况
        if mnem == 'pushfq':
            ea += idc.get_item_size(ea)

            assert idc.get_bytes(ea, idc.get_item_size(ea)) == b'\xE8\x00\x00\x00\x00'
            ea += idc.get_item_size(ea)
            jmp_base = ea

            assert idc.print_insn_mnem(ea) == 'pop' and idc.get_operand_type(ea, 0) == o_reg
            reg = idc.print_operand(ea, 0)
            ea += idc.get_item_size(ea)

            assert idc.print_insn_mnem(ea) == 'add' and idc.print_operand(ea, 0) == reg
            assert idc.get_operand_type(ea, 1) == o_imm

            jmp_target = (jmp_base + idc.get_operand_value(ea, 1)) & 0xFFFFFFFFFFFFFFFF
            ea += idc.get_item_size(ea)

            assert idc.get_bytes(ea, idc.get_item_size(ea)) == asm('mov [rsp + 0x10], %s' % reg, ea)
            ea += idc.get_item_size(ea)

            assert idc.print_insn_mnem(ea) == 'popfq'
            ea += idc.get_item_size(ea)

            assert idc.print_insn_mnem(ea) == 'pop' and idc.print_operand(ea, 0) == reg
            assert len(stack) != 0 and stack[-1][0] == 'push' and stack[-1][1] == reg
            stack.pop()
            asm_list.pop()

            assert len(stack) != 0 and stack[-1][0] == 'push' and stack[-1][1] == reg
            stack.pop()
            asm_list.pop()

            ea += idc.get_item_size(ea)

            if idc.print_insn_mnem(ea) == 'retn':
                if direct_next == None:
                    direct_next = jmp_target
                elif call_target == None:
                    call_target = jmp_target
                    asm_list.append((0, 'call 0x%x' % (call_target)))
                else:
                    print("")
                    assert False
                break
            else:
                assert call_target == None and direct_next == None
                direct_next = jmp_target
                continue

        if mnem == 'push':
            stack.append((mnem, idc.print_operand(ea, 0)))
        elif mnem == 'pop':
            if len(stack) != 0 and stack[-1][0] == 'push' and stack[-1][1] == idc.print_operand(ea, 0):
                stack.pop()
                asm_list.pop()
                ea += idc.get_item_size(ea)
                continue
            else:
                stack.clear()
        else:
            stack.clear()

        asm_list.append((ea, disasm(idc.get_bytes(ea, idc.get_item_size(ea)), ea)))

        if mnem == 'retn': break
        if mnem[0] == 'j' and mnem != 'jmp' and idc.get_operand_type(ea, 0) != o_reg:
            branch_list.append(idc.get_operand_value(ea, 0))

        if mnem == 'jmp':
            if idc.get_segm_name(idc.get_operand_value(ea, 0)) not in ['.text', '.aaa']:
                break
            else:
                ea = idc.get_operand_value(ea, 0)
        else:
            ea += idc.get_item_size(ea)

    return Block(start_ea, asm_list, direct_next, branch_list, call_target)


entry_point = 0x1400133B7
new_code_start = 0x14001D000


def solve():
    for i in range(0x10000):
        idc.set_name(new_code_start + i, '')
        idc.del_items(new_code_start + i)
    ida_bytes.patch_bytes(new_code_start, b'\x90' * 0x10000)

    func_queue = Queue()
    func_queue.put(entry_point)
    new_code_ea = new_code_start

    while not func_queue.empty():
        func_address = func_queue.get()
        if reloc.get(func_address)[1] == False: continue
        branch_queue = Queue()
        branch_queue.put(func_address)

        while not branch_queue.empty():
            branch_address = branch_queue.get()
            ea = branch_address

            while True:
                block = get_block(ea)
                reloc.merge(ea, new_code_ea)

                for addr, insn in block.asm_list:
                    insn = insn.replace('rip', 'rip - 0x%x' % (new_code_ea - addr))
                    if insn == 'bnd ret  ;':
                        code = b'\xF2\xC3'
                    else:
                        code = asm(insn, new_code_ea)
                    ida_bytes.patch_bytes(new_code_ea, code)
                    if addr != 0: reloc.merge(addr, new_code_ea)
                    new_code_ea += len(code)

                if block.call_target != None:
                    call_target, need_handle = reloc.get(block.call_target)
                    if need_handle: func_queue.put(call_target)

                for branch_address in block.branch_list:
                    jcc_target, need_handle = reloc.get(branch_address)
                    if need_handle: branch_queue.put(jcc_target)

                if block.direct_next == None: break

                next_target, need_handle = reloc.get(block.direct_next)
                if need_handle == False:
                    code = asm('jmp 0x%x' % (next_target), new_code_ea)
                    ida_bytes.patch_bytes(new_code_ea, code)
                    new_code_ea += len(code)
                    break
                else:
                    ea = block.direct_next

    ea = new_code_start
    while ea < new_code_ea:
        assert idc.create_insn(ea) != 0
        mnem = idc.print_insn_mnem(ea)

        if mnem == 'call':
            call_target, need_handle = reloc.get(get_operand_value(ea, 0))
            if need_handle == True:
                if idc.print_insn_mnem(call_target) == 'jmp' and idc.get_segm_name(idc.get_operand_value(call_target, 0)) == '.idata':
                    ea += get_item_size(ea)
                    continue
                else:
                    assert False
            ida_bytes.patch_bytes(ea, asm('call 0x%x' % (call_target), ea).ljust(idc.get_item_size(ea), b'\x90'))
        elif mnem[0] == 'j' and idc.get_operand_type(ea, 0) != idc.o_reg:
            jcc_target, need_handle = reloc.get(get_operand_value(ea, 0))
            assert need_handle == False
            ida_bytes.patch_bytes(ea, asm('%s 0x%x' % (mnem, jcc_target), ea).ljust(idc.get_item_size(ea), b'\x90'))

        ea += get_item_size(ea)

    for i in range(0x10000): idc.del_items(new_code_start + i)
    idc.jumpto(new_code_start)
    idc.add_func(new_code_start)

    print("finish")


solve()

去花指令

花指令目前没有太好的去除办法，但是同一题目中花指令种类和变化都是有限的，也就是说我们可以将题目中所有花指令的类型总结出来，然后分别编写相应的查找和处理规则。

例题：看雪CTF2019 圆圈舞DancingCircle

附件下载链接

用IDA打开DancingCircle，按G输入 0x401f58 跳转至核心函数，发现有大量花指令。因此需要借助 ida python 脚本正则表达式匹配去除。
分析汇编代码，发现花指令有如下几类：

call 花指令

call + pop
例如 0x00401F9B 处的花指令
另外还有 push eax + call + pop eax + pop eax 类型的。
call + add esp, 4
例如 0x00401F62 处的花指令
call + add [esp], 6 + retn
例如 0x00401FA3 处的花指令

jx + jnx 花指令

例如 0x00402D67 处的花指令

这类花指令可以做如下检测：

两个跳转指令的第一个字节相差 1 且较小的那个是偶数。
前一个跳转的立即数比后一个多 2 。

fake jmp 花指令

例如 0x00401FB2 这处花指令：

这里有很多跳转，但分析后发现这些跳转都可以忽略。由于这一类花指令比较单一，因此直接匹配特征即可。

stx + jx 花指令

例如 0x0040261F 和 0x004026D7 两处花指令：

此类花指令本质是通过设置标志寄存器的值使得满足后面的条件跳转。由于此类指令较少，直接匹配特征即可。

import regex as re
from idc import *
import idc
from keystone import *
from capstone import *

asmer = Ks(KS_ARCH_X86, KS_MODE_32)
disasmer = Cs(CS_ARCH_X86, CS_MODE_32)


def disasm(machine_code, addr=0):
    l = ""
    for i in disasmer.disasm(machine_code, addr):
        l += "{:8s} {};\n".format(i.mnemonic, i.op_str)
    return l.strip('\n')


def asm(asm_code, addr=0):
    l = b''
    for i in asmer.asm(asm_code, addr)[0]:
        l += bytes([i])
    return l


def check_call_to_jmp(call_insn_addr):
    call_target = idc.get_operand_value(call_insn_addr, 0)
    if call_target not in range(start_ea, end_ea): return None
    idc.create_insn(call_target)
    if ida_bytes.get_bytes(call_target, idc.get_item_size(call_target)) == asm('add esp, 4', call_target):
        return call_target + idc.get_item_size(call_target)
    if idc.print_insn_mnem(call_target) == 'pop':
        return call_target + idc.get_item_size(call_target)
    insn = disasm(ida_bytes.get_bytes(call_target, idc.get_item_size(call_target)), call_target)
    if '[esp],' in insn and ('add' in insn or 'sub' in insn) and idc.get_operand_type(call_target, 1) == o_imm:
        idc.create_insn(call_target + idc.get_item_size(call_target))
        if idc.print_insn_mnem(call_target + idc.get_item_size(call_target)) == 'retn':
            return (call_insn_addr + 5 + (1 if idc.print_insn_mnem(call_target) == 'add' else -1) * idc.get_operand_value(call_target, 1)) & 0xFFFFFFFF
    return None


def check_jcc_to_jmp(jcc_insn_addr):
    code1 = ida_bytes.get_bytes(jcc_insn_addr, idc.get_item_size(jcc_insn_addr))
    next_insn_addr = jcc_insn_addr + idc.get_item_size(jcc_insn_addr)
    idc.create_insn(next_insn_addr)
    code2 = ida_bytes.get_bytes(next_insn_addr, idc.get_item_size(next_insn_addr))
    if abs(code1[0] - code2[0]) == 1 and min(code1[0], code2[0]) % 2 == 0 and idc.get_operand_value(jcc_insn_addr, 0) == idc.get_operand_value(next_insn_addr, 0):
        return idc.get_operand_value(jcc_insn_addr, 0)
    code = ida_bytes.get_bytes(jcc_insn_addr, 12)

    print("bbbbb")
    pattern_list = [
        re.compile(rb"(?s)\x7C\x03\xEB\x03.\x74\xFB"),
        re.compile(rb"(?s)\xEB\x07.\xEB\x01.\xEB\x04.\xEB\xF8."),
        re.compile(rb"(?s)\xEB\x01.")
    ]

    for pattern in pattern_list:
        match = re.match(pattern, code)
        if match != None and match.span()[1] != 0:
            return jcc_insn_addr + match.span()[1]

    return None


st_mnem_map = {'clc': ['jnb'], 'stc': ['jb']}


def check_st_to_jmp(st_insn_addr):
    st_mnem = idc.print_insn_mnem(st_insn_addr)
    next_insn_addr = st_insn_addr + idc.get_item_size(st_insn_addr)
    idc.create_insn(next_insn_addr)
    if idc.print_insn_mnem(next_insn_addr) in st_mnem_map[st_mnem]:
        return idc.get_operand_value(next_insn_addr, 0)
    return None


start_ea = 0x401000
end_ea = 0x4B9CD0

ea = start_ea
while ea < end_ea:
    print("aaa: " + hex(ea))
    for i in range(ea, ea + 0x10): idc.del_items(i)
    if idc.create_insn(ea) == 0:
        # idc.patch_byte(ea, 0x90)
        ea += 1
        continue
    mnem = idc.print_insn_mnem(ea)
    if mnem == 'call':
        jmp_target = check_call_to_jmp(ea)
        if jmp_target != None:
            assert jmp_target > ea
            print("call: " + hex(ea))
            print("jmp target: " + hex(jmp_target))
            if jmp_target > ea and abs(jmp_target - ea) <= 0x80:
                ida_bytes.patch_bytes(ea, b"\x90" * (jmp_target - ea))
                ea = jmp_target
            else:
                code = asm('jmp 0x%x' % (jmp_target), ea)
                ida_bytes.patch_bytes(ea, code)
                ea += len(code)
            continue
    elif mnem[0] == 'j':
        jmp_target = check_jcc_to_jmp(ea)
        if jmp_target != None:
            print("jcc: " + hex(ea))
            assert jmp_target > ea
            if jmp_target > ea and abs(jmp_target - ea) <= 0x80:
                ida_bytes.patch_bytes(ea, b"\x90" * (jmp_target - ea))
                ea = jmp_target
            else:
                code = asm('jmp 0x%x' % (jmp_target), ea)
                ida_bytes.patch_bytes(ea, code)
                ea += len(code)
            continue
    elif mnem in st_mnem_map:
        jmp_target = check_st_to_jmp(ea)
        if jmp_target != None:
            print("st: " + hex(ea))
            assert jmp_target > ea
            if jmp_target > ea and abs(jmp_target - ea) <= 0x80:
                ida_bytes.patch_bytes(ea, b"\x90" * (jmp_target - ea))
                ea = jmp_target
            else:
                code = asm('jmp 0x%x' % (jmp_target), ea)
                ida_bytes.patch_bytes(ea, code)
                ea += len(code)
            continue

    ea += idc.get_item_size(ea)

for _ in range(start_ea, end_ea):
    idc.del_items(_)

idc.jumpto(0x004B8DE4)

print("finish")

你可能感兴趣的:(安全架构,python)

【算法-贪心算法-python】柠檬水找零檀越@新空间 P1 算法与数据结构 s1 Python 算法贪心算法 python
欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐:kuan的首页,持续学习,不断总结,共同进步,活到老学到老导航檀越剑指大厂系列:全面总结java核心技术点,如集合,jvm,并发编程redis,kafka,Spring,微服务,Netty等常用开发工具系列:罗列常用的开发工具,如IDEA,M
python爬虫-国家企业信用信息公示系统_GitHub - yong771/Crack-JS: Python3爬虫项目进阶实战、JS加解密、逆向教程 - 犀牛数据 | 美团美食 | 企名片 | 七麦... 日向夕阳
Crack-JSPython3爬虫实战、JS加解密、逆向教程犀牛数据|美团美食|企名片|七麦数据|淘大象|梦幻西游藏宝阁|漫画柜|财联社|中国空气质量在线监测分析平台|66ip代理|零度ip|国家企业信用信息公示系统|中国产品大目录Author咸鱼微信公众号咸鱼学PythonIntroduce数据解密、反爬处理、逆向教程一、代码配套说明目录JS解密案例│├──lingduip//-----零度ip
python pywebview + vue3 做桌面端妃衣 python 开发语言
pythonpywebview+vue3做桌面端Api.py#传给前端的api对象,定义了一个可以通过js调用退出当前应用的函数classApi:def__init__(self)->None:self._window=None#java运行的线程self.process=Nonedefset_process(self,_process):self.process=_processdefset_w
python的pywebview库结合Flask和waitress开发桌面应用程序简介 czliutz python 笔记 python flask 开发语言
pywebview的用途与特点用途pywebview是一个轻量级Python库，用于创建桌面应用程序（GUI）。它通过嵌入Web浏览器组件（如Windows的Edge/IE、macOS的WebKit、Linux的GTKWebKit），允许开发者使用HTML/CSS/JavaScript构建界面，并用Python处理后端逻辑。这种方式结合了Web技术的灵活性和Python的强大功能，适合快速开发跨平
python笔记day1 w的狗子啊
01.Holleword1.pycharm快捷键ctrl+/----添加或者取消注释ctrl+s----保存ctrl+c----复制ctrl+v----粘贴ctrl+n----新建ctrl+f----搜索ctrl+r----替换ctrl+z----撤销ctrl+shift+z-----反撤销ctrl+a----全选2.注意事项在程序中涉及到的所有和语法相关的符号，都是在英文输入法下对应的符号。实际
从文本到语音：使用 ElevenLabs 和 FFmpeg 实现语音合成与播放曦紫沐语音模型 ffmpeg ElevenLabs 语音合成
摘要在当今的人工智能时代，语音合成技术正变得越来越普及。ElevenLabs是一个强大的语音合成平台，能够生成高质量的语音音频。本文将详细介绍如何结合Python、ElevenLabsAPI和FFmpeg工具集，实现从文本到语音的转换，并通过ffplay播放生成的音频文件。同时，我们将解决常见的问题，如ffplay未找到或音频无法播放等。1.引言随着人工智能技术的发展，语音合成（Text-to-S
Python就业薪资好不好，学Python工作机会多吗？ Python小辰
Python就业薪资好不好？学Python工作机会多吗？人工智能时代的来临让Python崭露头角，各大企业纷纷加大对相关人才的招聘力度吸引了很多人入行学习Python。近年来Python开发发展迅猛，吸引了很多科技公司入驻，且看小编的分析。Python薪资好不好?数据是最有力的答案。职友集统计数据显示，全国Python工程师的平均月资达19160，其中20-30K的工程师数量超过了四成。来自智联招
PyCharm 高效入门指南：从安装到进阶，解锁 Python 开发全流程
作为Python开发者的利器，PyCharm的安装与配置是开启高效编程之旅的第一步。面对Community和Professional两个版本，该如何选择呢？Community版是免费开源的，适合初学者和简单项目开发，包含基础的Python开发功能；而Professional版虽收费，但功能更强大，支持Web开发、数据库连接等高级功能，适合专业开发者和复杂项目。1.安装与配置下载与安装下载PyCha
嵌入式知识篇---机械臂的运动学结算（简单2自由度） Atticus-Orion 嵌入式知识篇上位机知识篇嵌入式硬件篇人工智能机械臂解算
机械臂的“解算”本质是运动学解算，核心是解决“关节角度”和“末端位置”的互转问题。下面用最通俗的方式解释，并结合2自由度平面机械臂（结构最简单，适合入门）给出Python和ESP32代码，以及参数细节。一、机械臂运动学解算的通俗原理想象你有一条“简化的手臂”：只有大臂和小臂两个关节（类似人类的上臂和前臂），只能在桌面（X-Y平面）内运动。正解：知道“大臂转30°，小臂转60°”，算出“手掌”的位置
老码农和你一起学AI：Python系列-Pandas 并行计算 chilavert318 熬之滴水穿石 pandas python
但凡用到科学计算，Pandas几乎是绕不开的工具——它以简洁的API、灵活的数据操作能力成为数据处理的“瑞士军刀”。但随着数据量增长（比如从10万行到1000万行），你可能会发现：原本流畅的代码突然变慢了，一个简单的apply操作要等好几分钟，读取大文件时进度条仿佛凝固了。这不是你的代码有问题，而是原生Pandas的“单线程”基因在多核时代遇到了瓶颈。并行计算正是解决这个问题的核心方案。简单来说，
老码农和你一起学AI：Python系列-Pandas大数据处理 chilavert318 熬之滴水穿石 pandas python
今天开始梳理一下pandas的大数据处理，在数据处理领域，Pandas凭借简洁的API和强大的功能成为Python开发者的首选工具。但当面对GB级甚至更大的数据集时，直接读取数据往往会触发“内存不足”的错误——这是因为Pandas默认将数据全部加载到内存中进行处理。此时，分块处理（Out-of-Core）技术就成为解决问题的关键。它通过将大文件拆分为小块，逐块加载并处理，最终整合结果，实现“用有限
PYTHON日志神器nb_log详细介绍和使用说明
个人主页：云纳星辰怀自在座右铭：“所谓坚持，就是觉得还有希望！”Python的nb_log是一个功能强大且高度灵活的日志记录模块，基于Python内置的logging模块封装，解决了传统日志库的常见痛点（如重复打印、配置复杂等），并增加了多项创新特性。一、核心特性与优势智能print增强自动捕获所有print输出，添加文件名+行号标记（如[demo.py:18]）支持IDE控制台点击跳转源码位置开
基于 Python 对于Nacos 服务订阅流程的深度剖析 chilavert318 熬之滴水穿石 python 开发语言 nacos
记得去年在外省给某事业单位给科技处的领导作关于国产化微服务项目的汇报，该处长要我详细讲解一下Nacos的来龙去脉。我问他为什么要单独了解这块，他说现在国产化已经是趋势了，他其实也想深度的了解一下，这款产品是如何演化而来，希望通过了解该产品的来龙去脉深度思索一下，他所辖范围之内系统国产化的一些思路。记得当时我也是做足了工作，然后选择一个时间给他单独汇报，会后领导反响还不错，领导总结道：Nacos适应
Python爬取网易云音乐歌手歌曲和歌单！推荐好听的歌吗？爬遍天下无敌手 Python http https python ssl servlet
仅供学习参考Python爬取网易云音乐网易云音乐歌手歌曲和歌单，并下载到本地①找到要下载歌手歌曲的链接，这里用的是：https://music.163.com/#/artist?id=10559然后更改你要保存的目录，目录要先建立好文件夹，例如我的是保存在D盘-360下载-网易云热歌榜文件夹内，就可以完成下载。如果文件夹没有提前建好，会报错[Errno2]Nosuchfileordirectory
python class是什么,python中的class是什么
1、概念用来描述具有相同的属性和方法的对象的集合。它定义了该集合中每个对象所共有的属性和方法。2、类定义的语法classClassName:...3、实例为了代码的编写方便简洁，引入了类的定义；一般，使用class语句来创建一个新类，class之后为类的名称(通常首字母大写)并以冒号结尾，例如:、classTicket():def__init__(self,checi,fstation,tstat
Python中的模块和作用域全新的饭
模块的定义模块是写有python源代码的文件（其中定义了一组函数和其他对象）或c、c++编译的对象文件模块名称就是文件名模块存在的意义（使用模块的好处）可通过使用模块避免名称冲突（两个模块中可定义相同名称的函数）模块使python代码更易于管理（标准python函数位于特殊模块而非语言核心中，因此用户可根据需要加载目标模块）添加自己的模块将自己的模块添加到sys中使之可以通过使用import导入（
python画地图柱状图,小白学Python（16）——pyecharts 绘制地理图表 Geo 都灵Turin python画地图柱状图
Geo-基本示例1fromexample.commonsimportFaker2frompyechartsimportoptionsasopts3frompyecharts.chartsimportGeo4frompyecharts.globalsimportChartType,SymbolType56geo=(7Geo()8.add_schema(maptype="china")9.add("g
遥感云平台-GEE下载Landsat8/9影像数据（python）
内容介绍上期文章介绍如何在网页端导出Landsat8/9数据，本期主要介绍如何在本地GEE-python端导出数据以及出图。环境配置：Vscode+Jupyternotebook+gee+geemap+python3.10#导出所需要的包，注意提前安装ee和geemapimporteeimportosimportnumpyasnpimportgeemapfromgeemap.datasetsimp
Python正则表达式
正则表达式是文本处理的强大工具，本文将系统全面地介绍正则表达式的所有知识点，结合Python的re模块，帮助读者从零开始掌握正则表达式的使用。1.正则表达式基础概念1.1什么是正则表达式？正则表达式（RegularExpression，简称regex或RE）是一种用于描述字符串匹配规则的表达式，它并不是Python特有的，而是计算机科学中的一个通用概念。核心功能：验证：检查字符串是否符合特定格式（
Python深度学习实践：LSTM与GRU在序列数据预测中的应用 AI智能应用 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Python深度学习实践：LSTM与GRU在序列数据预测中的应用作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来序列数据预测是机器学习领域的一个重要研究方向，涉及时间序列分析、自然语言处理、语音识别等多个领域。序列数据具有时间依赖性，即序列中每个元素都受到前面元素的影响。传统的机器学习算法难以捕捉这种时间依赖性，而深度学习
[python] Class 小公鸡卡哇伊呀~ Python
FisrtLook使用C++术语，Python类的所有成员（包括函数和数据）均为"public"，所有函数均为"virtual"。支持多继承支持操作符重载内建类型可用作基类关于global,nonlocal的区别，Pythondocumentation给出的例子：defscope_test():defdo_local():spam="localspam"#local变量defdo_nonlocal
用Python爬取网易云歌单 Avaricious_Bear python 开发语言
最近，博主喜欢上了听歌，但是又苦于找不到好音乐，于是就打算到网易云的歌单中逛逛本着“用技术改变生活”的想法，于是便想着写一个爬虫爬取网易云的歌单，并按播放量自动进行排序这篇文章，我们就来讲讲怎样爬取网易云歌单，并将歌单按播放量进行排序1、用requests爬取网易云歌单打开网易云音乐歌单首页，不难发现这是一个静态网页，而且格式很有规律，爬取起来应该十分简单按照以前的套路，很快就可以写完代码，无非就
基于Python的Twitter Card数据爬取与分析实战：从入门到精通 Python爬虫项目 python twitter dreamweaver 自动化开发语言宽度优先爬虫
摘要本文详细介绍了如何使用Python最新技术栈构建一个高效的TwitterCard数据爬虫系统。我们将从TwitterCard的基本概念讲起，逐步深入到爬虫架构设计、反爬策略应对、数据解析与存储等核心环节。文章包含完整的代码实现，使用Playwright+Asyncio的高性能爬取方案，以及数据分析与可视化的实战案例。通过本文，读者将掌握大规模社交媒体数据采集的关键技术，并能够将这些技术应用于实
Python爬虫实战：高效解析OpenGraph协议数据 Python爬虫项目 python 爬虫开发语言宽度优先音视频 json
OpenGraph协议简介OpenGraph协议是由Facebook于2010年推出的一种网页元数据标准，旨在使任何网页都能成为社交图中的丰富对象。通过在网页的部分添加特定的标签，网站所有者可以控制内容在社交媒体上分享时的呈现方式。OpenGraph协议的核心元数据包括：html这些标签不仅被Facebook使用，也被Twitter、LinkedIn、WhatsApp等主流社交平台广泛支持。据统计
Python高级数据类型：字典（Dictionary） PythonicCC python 开发语言
字典是Python中非常重要且实用的数据结构，本文将全面详细地介绍字典的所有知识点，从基础概念到高级用法，帮助初学者彻底掌握字典的使用。1.字典简介1.1为什么需要字典？假设我们需要存储公司员工的姓名、年龄、职务和工资信息。使用列表可以这样实现：staff_list=[["tom",20,"teacher",6000],["rose",18,"hr",5000],["jack",20,"行政",4
【小白记录python】——类（class）的简单解释 faderbic python 开发语言
目录什么是类类和函数的区别构建一个类什么是类在编程中，类（Class）是一种用户自定义的数据类型，它将数据（通常称为属性或成员变量）和对这些数据进行操作的函数（通常称为方法或成员函数）封装在一起，相比于一般的函数更方便调用，通俗来讲，类就是很多函数的集合，这些函数共用一个数据源。类可以被看作是创建对象的模板或蓝图。通过类，可以创建多个具有相同结构和行为的对象实例。以下是对类的几个关键特点的解释：数
使用 Python 爬取网易云音乐歌单数据（完整教程） Python爬虫项目 python 开发语言 github selenium 爬虫
一、引言随着在线音乐平台的普及，网易云音乐（NetEaseCloudMusic）凭借其个性化的推荐算法和丰富的用户互动，吸引了大量用户。网易云音乐的歌单中包含了丰富的音乐数据，包括歌曲名、歌手、专辑、播放量、评论数等信息。通过爬取这些数据，可以对音乐流行趋势进行分析，挖掘音乐推荐策略，甚至训练个性化推荐模型。本教程将使用Python构建一个爬虫，解析网易云音乐的歌单接口，获取歌曲数据并进行数据分析
用AI“看病”，靠谱吗？｜聊聊如何用Python生成个性化健康建议 Echo_Wish 前沿技术人工智能人工智能 python 开发语言
用AI“看病”，靠谱吗？｜聊聊如何用Python生成个性化健康建议说实话，健康这事儿，谁不关心？可问题是，现代人越来越不想“看病”，倒不是说我们不在乎身体，而是——太麻烦、太贵、太笼统！你可能遇到过这种情况：明明每天健身，还被体检报告说“轻度脂肪肝”；营养均衡，但血糖还是偏高；去医院，医生说“少吃多动”，这谁听了不头疼？问题就出在一个词上：“个性化”。好消息是，AI已经可以提供定制化的健康建议了，
Python 单例模式几种实现方式 @MMiL PyBuild python matplotlib numpy pandas
文章目录1基础实现方式1.1模块导入法（推荐）1.2重写`__new__`方法2进阶实现方式2.1元类（Metaclass）控制2.2线程安全单例2.3单例装饰器3关键问题分析4实践建议各位老板好,单例模式确保一个类只有一个实例，并提供全局访问点。适用于日志记录、配置管理、数据库连接池等场景。以下是Python单例模式的5种实现方式：1基础实现方式1.1模块导入法（推荐）Python模块天然支持单
opencv、torch、torchvision、tensorflow的区别
一、框架定位与核心差异PyTorch动态计算图：实时构建计算图支持Python原生控制流（如循环/条件），调试便捷。学术主导：2025年工业部署份额24%，适合快速原型开发（如无人机自动驾驶、情绪识别）。TensorFlow静态计算图优化：预编译图结构提升部署效率支持动态图（Eager模式）兼顾灵活性。工业部署首选：市场份额38%，擅长边缘计算（YOLO部署）和大规模项目（工业自动化）-59）。O
微信开发者验证接口开发 362217990 微信开发者 token 验证
微信开发者接口验证。 Token，自己随便定义，与微信填写一致就可以了。根据微信接入指南描述 http://mp.weixin.qq.com/wiki/17/2d4265491f12608cd170a95559800f2d.html 第一步：填写服务器配置第二步：验证服务器地址的有效性第三步：依据接口文档实现业务逻辑这里主要讲第二步验证服务器有效性。建一个
一个小编程题-类似约瑟夫环问题 BrokenDreams 编程
今天群友出了一题：一个数列,把第一个元素删除,然后把第二个元素放到数列的最后,依次操作下去,直到把数列中所有的数都删除,要求依次打印出这个过程中删除的数。 &
linux复习笔记之bash shell (5) 关于减号-的作用 eksliang linux关于减号“-”的含义 linux关于减号“-”的用途 linux关于“-”的含义 linux关于减号的含义
转载请出自出处： http://eksliang.iteye.com/blog/2105677 管道命令在bash的连续处理程序中是相当重要的，尤其在使用到前一个命令的studout（标准输出）作为这次的stdin（标准输入）时，就显得太重要了，某些命令需要用到文件名，例如上篇文档的的切割命令（split）、还有
Unix(3) 18289753290 unix ksh
1)若该变量需要在其他子进程执行，则可用"$变量名称"或${变量}累加内容什么是子进程？在我目前这个shell情况下，去打开一个新的shell，新的那个shell就是子进程。一般状态下，父进程的自定义变量是无法在子进程内使用的，但通过export将变量变成环境变量后就能够在子进程里面应用了。 2)条件判断： &&代表and ||代表or&nbs
关于ListView中性能优化中图片加载问题酷的飞上天空 ListView
ListView的性能优化网上很多信息，但是涉及到异步加载图片问题就会出现问题。具体参看上篇文章http://314858770.iteye.com/admin/blogs/1217594 如果每次都重新inflate一个新的View出来肯定会造成性能损失严重，可能会出现listview滚动是很卡的情况，还会出现内存溢出。现在想出一个方法就是每次都添加一个标识，然后设置图
德国总理默多克：给国人的一堂“震撼教育”课永夜-极光教育
http://bbs.voc.com.cn/topic-2443617-1-1.html德国总理默多克：给国人的一堂“震撼教育”课　安吉拉—默克尔，一位经历过社会主义的东德人，她利用自己的博客，发表一番来华前的谈话，该说的话，都在上面说了，全世界想看想传播——去看看默克尔总理的博客吧！　　德国总理默克尔以她的低调、朴素、谦和、平易近人等品格给国人留下了深刻印象。她以实际行动为中国人上了一堂
关于Java继承的一个小问题。。。随便小屋 java
今天看Java 编程思想的时候遇见一个问题，运行的结果和自己想想的完全不一样。先把代码贴出来！ //CanFight接口 interface Canfight { void fight(); } //ActionCharacter类 class ActionCharacter { public void fight() { System.out.pr
23种基本的设计模式 aijuans 设计模式
Abstract Factory：提供一个创建一系列相关或相互依赖对象的接口，而无需指定它们具体的类。　　Adapter：将一个类的接口转换成客户希望的另外一个接口。A d a p t e r模式使得原本由于接口不兼容而不能一起工作的那些类可以一起工作。　　Bridge：将抽象部分与它的实现部分分离，使它们都可以独立地变化。　　Builder：将一个复杂对象的构建与它的表示分离，使得同
《周鸿祎自述：我的互联网方法论》读书笔记 aoyouzi 读书笔记
从用户的角度来看,能解决问题的产品才是好产品,能方便/快速地解决问题的产品,就是一流产品. 商业模式不是赚钱模式一款产品免费获得海量用户后,它的边际成本趋于0,然后再通过广告或者增值服务的方式赚钱,实际上就是创造了新的价值链. 商业模式的基础是用户,木有用户,任何商业模式都是浮云.商业模式的核心是产品,本质是通过产品为用户创造价值. 商业模式还包括寻找需求
JavaScript动态改变样式访问技术百合不是茶 JavaScript style属性 ClassName属性
一:style属性格式: HTML元素.style.样式属性="值"; 创建菜单:在html标签中创建或者在head标签中用数组创建 <html> <head> <title>style改变样式</title> </head> &l
jQuery的deferred对象详解 bijian1013 jquery deferred对象
jQuery的开发速度很快，几乎每半年一个大版本，每两个月一个小版本。每个版本都会引入一些新功能，从jQuery 1.5.0版本开始引入的一个新功能----deferred对象。 &nb
淘宝开放平台TOP Bill_chen C++c 物流 C#
淘宝网开放平台首页：http://open.taobao.com/ 淘宝开放平台是淘宝TOP团队的产品，TOP即TaoBao Open Platform，是淘宝合作伙伴开发、发布、交易其服务的平台。支撑TOP的三条主线为： 1.开放数据和业务流程 * 以API数据形式开放商品、交易、物流等业务； &
【大型网站架构一】大型网站架构概述 bit1129 网站架构
大型互联网特点面对海量用户、海量数据大型互联网架构的关键指标高并发高性能高可用高可扩展性线性伸缩性安全性大型互联网技术要点前端优化 CDN缓存反向代理 KV缓存消息系统分布式存储 NoSQL数据库搜索监控安全想到的问题： 1.对于订单系统这种事务型系统，如
eclipse插件hibernate tools安装白糖_ Hibernate
eclipse helios(3.6)版 1.启动eclipse 2.选择 Help > Install New Software...> 3.添加如下地址： http://download.jboss.org/jbosstools/updates/stable/helios/ 4.选择性安装：hibernate tools在All Jboss tool
Jquery easyui Form表单提交注意事项 bozch jquery easyui
jquery easyui对表单的提交进行了封装，提交的方式采用的是ajax的方式，在开发的时候应该注意的事项如下： 1、在定义form标签的时候，要将method属性设置成post或者get，特别是进行大字段的文本信息提交的时候，要将method设置成post方式提交，否则页面会抛出跨域访问等异常。所以这个要
Trie tree(字典树)的Java实现及其应用-统计以某字符串为前缀的单词的数量 bylijinnan java实现
import java.util.LinkedList; public class CaseInsensitiveTrie { /** 字典树的Java实现。实现了插入、查询以及深度优先遍历。 Trie tree's java implementation.(Insert,Search,DFS) Problem Description Igna
html css 鼠标形状样式汇总 chenbowen00 html css
css鼠标手型cursor中hand与pointer Example：CSS鼠标手型效果 <a href="#" style="cursor:hand">CSS鼠标手型效果</a><br/> Example：CSS鼠标手型效果 <a href="#" style=&qu
[IT与投资]IT投资的几个原则 comsci it
无论是想在电商,软件,硬件还是互联网领域投资,都需要大量资金,虽然各个国家政府在媒体上都给予大家承诺,既要让市场的流动性宽松,又要保持经济的高速增长....但是,事实上,整个市场和社会对于真正的资金投入是非常渴望的,也就是说,表面上看起来,市场很活跃,但是投入的资金并不是很充足的......
oracle with语句详解 daizj oracle with with as
oracle with语句详解转在oracle中，select 查询语句，可以使用with,就是一个子查询，oracle 会把子查询的结果放到临时表中，可以反复使用例子:注意，这是sql语句，不是pl/sql语句，可以直接放到jdbc执行的 ----------------------------------------------------------------
hbase的简单操作 deng520159 数据库 hbase
近期公司用hbase来存储日志,然后再来分析 ,把hbase开发经常要用的命令找了出来. 用ssh登陆安装hbase那台linux后用hbase shell进行hbase命令控制台! 表的管理 1）查看有哪些表 hbase(main)> list 2）创建表 # 语法：create <table>, {NAME => <family&g
C语言scanf继续学习、算术运算符学习和逻辑运算符 dcj3sjt126com c
/* 2013年3月11日20:37:32 地点：北京潘家园功能：完成用户格式化输入多个值目的：学习scanf函数的使用 */ # include <stdio.h> int main(void) { int i, j, k; printf("please input three number:\n"); //提示用
2015越来越好 dcj3sjt126com 歌曲
越来越好房子大了电话小了感觉越来越好假期多了收入高了工作越来越好商品精了价格活了心情越来越好天更蓝了水更清了环境越来越好活得有奔头人会步步高想做到你要努力去做到幸福的笑容天天挂眉梢越来越好婆媳和了家庭暖了生活越来越好孩子高了懂事多了学习越来越好朋友多了心相通了大家越来越好道路宽了心气顺了日子越来越好活的有精神人就不显
java.sql.SQLException: Value '0000-00-00' can not be represented as java.sql.Tim feiteyizu mysql
数据表中有记录的time字段（属性为timestamp）其值为：“0000-00-00 00:00:00” 程序使用select 语句从中取数据时出现以下异常： java.sql.SQLException:Value '0000-00-00' can not be represented as java.sql.Date java.sql.SQLException: Valu
Ehcache（07）——Ehcache对并发的支持 234390216 并发 ehcache 锁 ReadLock WriteLock
Ehcache对并发的支持在高并发的情况下，使用Ehcache缓存时，由于并发的读与写，我们读的数据有可能是错误的，我们写的数据也有可能意外的被覆盖。所幸的是Ehcache为我们提供了针对于缓存元素Key的Read（读）、Write（写）锁。当一个线程获取了某一Key的Read锁之后，其它线程获取针对于同
mysql中blob,text字段的合成索引 jackyrong mysql
在mysql中，原来有一个叫合成索引的，可以提高blob,text字段的效率性能，但只能用在精确查询，核心是增加一个列，然后可以用md5进行散列，用散列值查找则速度快比如： create table abc(id varchar(10),context blog,hash_value varchar(40)); insert into abc(1,rep
逻辑运算与移位运算 latty 位运算逻辑运算
源码：正数的补码与原码相同例+7 源码：00000111 补码：00000111 （用8位二进制表示一个数）负数的补码：符号位为1，其余位为该数绝对值的原码按位取反；然后整个数加1。 -7 源码： 10000111 ，其绝对值为00000111 取反加一：11111001 为-7补码已知一个数的补码，求原码的操作分两种情况：
利用XSD 验证XML文件 newerdragon java xml xsd
XSD文件（XML Schema 语言也称作 XML Schema 定义（XML Schema Definition，XSD）。具体使用方法和定义请参看： http://www.w3school.com.cn/schema/index.asp java自jdk1.5以上新增了SchemaFactory类可以实现对XSD验证的支持，使用起来也很方便。以下代码可用在J
搭建 CentOS 6 服务器(12) - Samba rensanning centos
（1）安装 # yum -y install samba Installed: samba.i686 0:3.6.9-169.el6_5 # pdbedit -a rensn new password:123456 retype new password:123456 …… （2）Home文件夹 # mkdir /etc
Learn Nodejs 01 toknowme nodejs
（1）下载nodejs https://nodejs.org/download/ 选择相应的版本进行下载（2）安装nodejs 安装的方式比较多，请baidu下我这边下载的是“node-v0.12.7-linux-x64.tar.gz”这个版本（1）上传服务器（2）解压 tar -zxvf node-v0.12.
jquery控制自动刷新的代码举例 xp9802 jquery
1、html内容部分复制代码代码示例: <div id='log_reload'> <select name="id_s" size="1"> <option value='2'>-2s-</option> <option value='3'>-3s-</option