磷光

The missing semester of your CS education--调试及性能分析

课程结构

01.课程概览与 shell
02.Shell 工具和脚本
03.编辑器 (Vim)
04.数据整理
05.命令行环境
06.版本控制(Git)
07.调试及性能分析
08.元编程
09.安全和密码学
10.大杂烩
11.提问&回答

本文档修改自这里，补充了一些视频中展示但配套文档中未提供的代码，以及一些注释，另外，本节中涉及的相关文件可在百度云链接中获取。

调试与性能分析--目录

- 调试代码
- - 打印调试法与日志
  - 第三方日志系统
  - 调试器
  - 专门工具
  - 静态分析
- 性能分析
- - 计时
  - CPU
  - 内存
  - 事件分析
  - 可视化
  - 资源监控
  - 专用工具
- 课后练习
- - 调试
  - 性能分析
- 习题解答
- - 调试
  - 性能分析

调试代码

打印调试法与日志

“最有效的 debug 工具就是细致的分析，配合恰当位置的打印语句” — Brian Kernighan, Unix 新手入门。

调试代码的第一种方法往往是在您发现问题的地方添加一些打印语句，然后不断重复此过程直到您获取了足够的信息并找到问题的根本原因。

另外一个方法是使用日志，而不是临时添加打印语句。日志较普通的打印语句有如下的一些优势：

您可以将日志写入文件、socket 或者甚至是发送到远端服务器而不仅仅是标准输出；
日志可以支持严重等级（例如 INFO, DEBUG, WARN, ERROR等)，这使您可以根据需要过滤日志；
对于新发现的问题，很可能您的日志中已经包含了可以帮助您定位问题的足够的信息。

logger.py 是一个包含日志的例程序：

$ python3 logger.py # 简单的输出
Value is 8 - Dangerous region   
...
$ python3 logger.py log # 带有格式化的输出
2023-05-05 09:15:52,716 : INFO : Sample : Value is 1 - Everything is fine
...
$ python3 logger.py log ERROR   # 格式化的输出ERROR层级以上的内容：ERROR&CRITICAL
2023-05-05 09:16:05,641 : CRITICAL : Sample : Maximum value reached
...
$ python3 logger.py color   # 带有颜色的格式化输出
2023-05-05 09:16:28,727 - Sample - CRITICAL - Maximum value reached (logger.py:64)  
...

有很多技巧可以使日志的可读性变得更好，例如着色。

ls 和 grep 这样的程序会使用 ANSI escape codes，它是一系列的特殊字符，可以使您的 shell 改变输出结果的颜色。

~ $ echo -e "\e[38;2;255;0;0mThis is red\e[0m"
This is red

 # 如果你的终端不支持真彩色，可以使用更广泛的 16色
~ $ echo -e "\e[31;1mThis is red\e[0m"
This is red

下面这个脚本向您展示了如何在终端中打印多种颜色（只要您的终端支持真彩色）

~ $ vim color.sh
~ $ cat color.sh

#!/usr/bin/env bash
for R in $(seq 0 20 255); do
    for G in $(seq 0 20 255); do
        for B in $(seq 0 20 255); do
            printf "\e[38;2;${R};${G};${B}m█\e[0m";
        done
    done
done

~ $ source color.sh

第三方日志系统

如果您正在构建大型软件系统，您很可能会使用到一些依赖，有些依赖会作为程序单独运行。如 Web 服务器、数据库或消息代理都是此类常见的第三方依赖。

和这些系统交互的时候，阅读它们的日志是非常必要的，因为仅靠客户端侧的错误信息可能并不足以定位问题。

幸运的是，大多数的程序都会将日志保存在您的系统中的某个地方。对于 UNIX 系统来说，程序的日志通常存放在 /var/log。例如， NGINX web 服务器就将其日志存放于/var/log/nginx。

目前，系统开始使用 system log，您所有的日志都会保存在这里。大多数（但不是全部的）Linux 系统都会使用 systemd，这是一个系统守护进程，它会控制您系统中的很多东西，例如哪些服务应该启动并运行。systemd 会将日志以某种特殊格式存放于/var/log/journal，您可以使用 journalctl 命令显示这些消息。

类似地，在 macOS 系统中是 /var/log/system.log，但是有更多的工具会使用系统日志，它的内容可以使用 log show 显示。

对于大多数的 UNIX 系统，您也可以使用dmesg 命令来读取内核的日志。

如果您希望将日志加入到系统日志中，您可以使用 logger 这个 shell 程序。

logger "Hello Logs"

# On macOS
log show --last 1m | grep Hello
# On Linux
journalctl --since "1m ago" | grep Hello

视频中提到一个应用场景：你可以编写一个bash脚本，监控wifi，当wifi切换连上另一个网络时，向系统日志写入内容，类似"It’s XXX time now, we’ve changed our connection to XXX!"，稍后，可以浏览系统日志，用以研究wifi的切换是否导致了某些系统问题。

日志的内容可以非常的多，需要对其进行处理和过滤才能得到想要的信息。

如果您发现您需要对 journalctl 和 log show 的结果进行大量的过滤，那么此时可以考虑使用它们自带的选项对其结果先过滤一遍再输出。还有一些像 lnav 这样的工具，它为日志文件提供了更好的展现和浏览方式,如执行cat /var/log/syslog | lnav。

调试器

当通过打印已经不能满足您的调试需求时，您应该使用调试器。

调试器是一种可以允许我们和正在执行的程序进行交互的程序，它可以做到：

当到达某一行时将程序暂停；
一次一条指令地逐步执行程序；
程序崩溃后查看变量的值；
满足特定条件时暂停程序；
其他高级功能。

很多编程语言都有自己的调试器。Python 自带的调试器是pdb.

下面对pdb 支持的命令进行简单的介绍：

l(ist) - 显示当前行附近的11行或继续执行之前的显示；
s(tep) - 执行当前行，并在第一个可能的地方停止；
n(ext) - 继续执行直到当前函数的下一条语句或者 return 语句；
b(reak) - 设置断点（基于传入的参数）；
p(rint) - 在当前上下文对表达式求值并打印结果。还有一个命令是pp ，它使用 pprint 打印；
r(eturn) - 继续执行直到当前函数返回；
q(uit) - 退出调试器。

让我们修复下面的 Python 代码（bubble.py）

def bubble_sort(arr):
    n = len(arr)
    for i in range(n):
        for j in range(n):
            if arr[j] > arr[j+1]:
                arr[j] = arr[j+1]
                arr[j+1] = arr[j]
    return arr

print(bubble_sort([4, 2, 1, 8, 7, 6]))

下面使用ipdb来调试代码：

~ $ sudo apt install pip
~ $ pip install ipdb
~ $ mkdir debug; cd debug
~/debug $ vim bubble.py   # 输入上面的python的代码
~/debug $ python3 bubble.py
 # 执行代码，报错：IndexError

~/debug $ python3 -m ipdb bubble.py
/usr/lib/python3.10/runpy.py:126: RuntimeWarning: 'ipdb.__main__' found in sys.modules after import of package 'ipdb', but prior to execution of 'ipdb.__main__'; this may result in unpredictable behaviour
warn(RuntimeWarning(msg))
> /home/laihj/debug/bubble.py(1)<module>()
----> 1 def bubble_sort(arr):
    2     n = len(arr)
    3     for i in range(n):

展示当前行（第一行）附近的11行

ipdb> l 
----> 1 def bubble_sort(arr):
    2     n = len(arr)
    3     for i in range(n):
    4         for j in range(n):
    5             if arr[j] > arr[j+1]:
    6                 arr[j] = arr[j+1]
    7                 arr[j+1] = arr[j]
    8     return arr
    9
    10 print(bubble_sort([4, 2, 1, 8, 7, 6]))

逐行执行代码，在第一个可能出错的地方停下

ipdb> s
> /home/laihj/debug/bubble.py(10)<module>()
    8     return arr
    9
---> 10 print(bubble_sort([4, 2, 1, 8, 7, 6]))

使用s后，只要输入键，就可继续逐行运行代码，直至出错的地方

ipdb> 
--Call--
> /home/laihj/debug/bubble.py(1)bubble_sort()
----> 1 def bubble_sort(arr):
    2     n = len(arr)
    3     for i in range(n):

ipdb>
> /home/laihj/debug/bubble.py(2)bubble_sort()
    1 def bubble_sort(arr):
----> 2     n = len(arr)
    3     for i in range(n):

使用 s 逐行运行，到达出错的地方，效率可能太慢，重新开始调试

ipdb> restart
Restarting bubble.py with arguments:

> /home/laihj/debug/bubble.py(1)<module>()
----> 1 def bubble_sort(arr):
    2     n = len(arr)
    3     for i in range(n):

使用 c ，直接运行至出错的地方

ipdb> c
Traceback (most recent call last):
File "/home/laihj/.local/lib/python3.10/site-packages/ipdb/__main__.py", line 323, in main
    pdb._runscript(mainpyfile)
File "/usr/lib/python3.10/pdb.py", line 1586, in _runscript
    self.run(statement)
File "/usr/lib/python3.10/bdb.py", line 597, in run
    exec(cmd, globals, locals)
File "", line 1, in <module>
File "/home/laihj/debug/bubble.py", line 10, in <module>
    print(bubble_sort([4, 2, 1, 8, 7, 6]))
File "/home/laihj/debug/bubble.py", line 5, in bubble_sort
    if arr[j] > arr[j+1]:
IndexError: list index out of range
Uncaught exception. Entering post mortem debugging
Running 'cont' or 'step' will restart the program
> /home/laihj/debug/bubble.py(5)bubble_sort()
    4         for j in range(n):
----> 5             if arr[j] > arr[j+1]:
    6                 arr[j] = arr[j+1]

此时，报出IndexError。使用 p 打印变量的当前值进行检查。
```
ipdb> p arr
[2, 1, 1, 7, 6, 6]
ipdb> p j
5
```
此时，j+1=6,arr[6]不存在，需要修改for j in range(n):中的n为n-1。退出调试，并直接修改bubble.py。
```
ipdb> q
ipdb> q
~/debug $ vim bubble.py
```

重新执行bubble.py,发现还有错误，再次进行调试。

~/debug $ python3 bubble.py
[1, 1, 1, 6, 6, 6]
~/debug $ python3 -m ipdb bubble.py
/usr/lib/python3.10/runpy.py:126: RuntimeWarning: 'ipdb.__main__' found in sys.modules after import of package 'ipdb', but prior to execution of 'ipdb.__main__'; this may result in unpredictable behaviour
warn(RuntimeWarning(msg))
> /home/laihj/debug/bubble.py(1)<module>()
----> 1 def bubble_sort(arr):
    2     n = len(arr)
    3     for i in range(n):

ipdb> l
----> 1 def bubble_sort(arr):
    2     n = len(arr)
    3     for i in range(n):
    4         for j in range(n-1):
    5             if arr[j] > arr[j+1]:
    6                 arr[j] = arr[j+1]
    7                 arr[j+1] = arr[j]
    8     return arr
    9
    10 print(bubble_sort([4, 2, 1, 8, 7, 6]))

我们现在要找出代码中哪里修改了arr中的值，从代码来看，只有if结构中的语句有可能。为此，在这里设置断点breakpoint

ipdb> b 6
Breakpoint 1 at /home/laihj/debug/bubble.py:6
ipdb> c
> /home/laihj/debug/bubble.py(6)bubble_sort()
    5             if arr[j] > arr[j+1]:
1---> 6                 arr[j] = arr[j+1]
    7                 arr[j+1] = arr[j]

ipdb> p locals()
{'arr': [4, 2, 1, 8, 7, 6], 'n': 6, 'i': 0, 'j': 0}
 # 打印当前的所有变量值
 # 此时的arr还没问题
ipdb> s
> /home/laihj/debug/bubble.py(7)bubble_sort()
1     6                 arr[j] = arr[j+1]
----> 7                 arr[j+1] = arr[j]
    8     return arr

ipdb> p locals()
{'arr': [2, 2, 1, 8, 7, 6], 'n': 6, 'i': 0, 'j': 0}

可以看到，这一步出问题了，arr中原来的4被改为了2。第6、7步需要修改，否则执行这两步后，arr[j]与arr[j+1]的值就相等了。
```
ipdb> q
~/debug $ vim bubble.py
```

注意，因为 Python 是一种解释型语言，所以我们可以通过 pdb shell 执行命令。 ipdb 是一种增强型的 pdb ，它使用IPython 作为 REPL并开启了 tab 补全、语法高亮、更好的回溯和更好的内省，同时还保留了pdb 模块相同的接口。

对于更底层的编程语言，您可能需要了解一下 gdb ( 以及它的改进版 pwndbg) 和 lldb。

~/gits $ git clone https://github.com/pwndbg/pwndbg
~/gits $ cd pwndbg
~/gits/pwndbg $ ./setup.sh
 # 安装时间会比较久，确保网络连接顺畅，如果安装不成功，可以再执行一次./setup.sh
~/gits/pwndbg (dev) $ pwndbg

~ $ gdb --args sleep 20 # 使用gdb调试命令
 # 显示加载内容，键入"Enter"进行输入
pwndbg> run
 # 执行sleep 20
^C  # 键入Ctrl+c,中断程序
Program received signal SIGINT, Interrupt.
 # 下面还会显示运行sleep 20时调用的底层的信息

它们都对类 C 语言的调试进行了优化，它允许您探索任意进程及其机器状态：寄存器、堆栈、程序计数器等。

专门工具

即使您需要调试的程序是一个二进制的黑盒程序，仍然有一些工具可以帮助到您。当您的程序需要执行一些只有操作系统内核才能完成的操作时，它需要使用系统调用。有一些命令可以帮助您追踪您的程序执行的系统调用。在 Linux 中可以使用strace ，在 macOS 和 BSD 中可以使用 dtrace。dtrace 用起来可能有些别扭，因为它使用的是它自有的 D 语言，但是我们可以使用一个叫做 dtruss 的封装使其具有和 strace (更多信息参考 dtrace-even-better-than-strace-for-osx)类似的接口

下面的例子展现来如何使用 strace 或 dtruss 来显示ls 执行时，对stat 系统调用进行追踪对结果。若需要深入了解 strace，strace-the-sysadmins-microscope 值得一读。

# On Linux
sudo strace -e lstat ls -l > /dev/null

# On macOS
sudo dtruss -t lstat64_extended ls -l > /dev/null

有些情况下，我们需要查看网络数据包才能定位问题。像 tcpdump 和 Wireshark 这样的网络数据包分析工具可以帮助您获取网络数据包的内容并基于不同的条件进行过滤。

对于 web 开发， Chrome/Firefox 的开发者工具非常方便，功能也很强大：

源码 -查看任意站点的 HTML/CSS/JS 源码；
实时地修改 HTML, CSS, JS 代码 - 修改网站的内容、样式和行为用于测试（从这一点您也能看出来，网页截图是不可靠的）；
Javascript shell - 在 JS REPL中执行命令；
网络 - 分析请求的时间线；
存储 - 查看 Cookies 和本地应用存储。

静态分析

有些问题是您不需要执行代码就能发现的。例如，仔细观察一段代码，您就能发现某个循环变量覆盖了某个已经存在的变量或函数名；或是有个变量在被读取之前并没有被定义。这种情况下静态分析工具就可以帮我们找到问题。静态分析会将程序的源码作为输入然后基于编码规则对其进行分析并对代码的正确性进行推理。

下面这段 Python 代码中存在几个问题。首先，我们的循环变量foo 覆盖了之前定义的函数foo。最后一行，我们还把 bar 错写成了baz，因此当程序完成sleep (一分钟)后，执行到这一行的时候便会崩溃。

import time

def foo():
    return 42

for foo in range(5):
    print(foo)
bar = 1
bar *= 0.2
time.sleep(60)
print(baz)

静态分析工具可以发现此类的问题。当我们使用pyflakes 分析代码的时候，我们会得到与这两处 bug 相关的错误信息。mypy 则是另外一个工具，它可以对代码进行类型检查。这里，mypy 会发现bar 起初是一个 int ，然后变成了 float。这些问题都可以在不运行代码的情况下被发现。

$ pyflakes foobar.py
foobar.py:6: redefinition of unused 'foo' from line 3
foobar.py:11: undefined name 'baz'

$ mypy foobar.py
foobar.py:6: error: Incompatible types in assignment (expression has type "int", variable has type "Callable[[], Any]")
foobar.py:9: error: Incompatible types in assignment (expression has type "float", variable has type "int")
foobar.py:11: error: Name 'baz' is not defined
Found 3 errors in 1 file (checked 1 source file)

在 shell 工具那一节课的时候，我们介绍了 shellcheck，这是一个类似的工具，但它是应用于 shell 脚本的。

大多数的编辑器和 IDE 都支持在编辑界面显示这些工具的分析结果、高亮有警告和错误的位置。这个过程通常称为 code linting 。风格检查或安全检查的结果同样也可以进行相应的显示。

在 vim 中，有 ale 或 syntastic 可以帮助您做同样的事情。在 Python 中， pylint 和 pep8 是两种用于进行风格检查的工具，而 bandit 工具则用于检查安全相关的问题。

对于其他语言的开发者来说，静态分析工具可以参考这个列表：Awesome Static Analysis (您也许会对 Writing 一节感兴趣) 。对于 linters 则可以参考这个列表： Awesome Linters。

对于风格检查和代码格式化，还有以下一些工具可以作为补充：用于 Python 的 black、用于 Go 语言的 gofmt、用于 Rust 的 rustfmt 或是用于 JavaScript, HTML 和 CSS 的 prettier 。这些工具可以自动格式化您的代码，这样代码风格就可以与常见的风格保持一致。尽管您可能并不想对代码进行风格控制，标准的代码风格有助于方便别人阅读您的代码，也可以方便您阅读它的代码。

性能分析

即使您的代码能够像您期望的一样运行，但是如果它消耗了您全部的 CPU 和内存，那么它显然也不是个好程序。算法课上我们通常会介绍大O标记法，但却没教给我们如何找到程序中的热点。鉴于过早的优化是万恶之源（参考PrematureOptimization），您需要学习性能分析和监控工具，它们会帮助您找到程序中最耗时、最耗资源的部分，这样您就可以有针对性的进行性能优化。

计时

和调试代码类似，大多数情况下我们只需要打印两处代码之间的时间即可发现问题。下面这个例子中，我们使用了 Python 的 time模块。

import time, random
n = random.randint(1, 10) * 100

# 获取当前时间 
start = time.time()

# 执行一些操作
print("Sleeping for {} ms".format(n))
time.sleep(n/1000)

# 比较当前时间和起始时间
print(time.time() - start)

# Output
# Sleeping for 500 ms
# 0.5713930130004883

不过，执行时间（wall clock time）也可能会误导您，因为您的电脑可能也在同时运行其他进程，也可能在此期间发生了等待。对于工具来说，需要区分真实时间、用户时间和系统时间。通常来说，用户时间+系统时间代表了您的进程所消耗的实际 CPU （更详细的解释可以参照what-do-real-user-and-sys-mean-in-the-output-of-time）。

真实时间 - 从程序开始到结束流失掉的真实时间，包括其他进程的执行时间以及阻塞消耗的时间（例如等待 I/O或网络）；
User - CPU 执行用户代码所花费的时间；
Sys - CPU 执行系统内核代码所花费的时间。

例如，试着执行一个用于发起 HTTP 请求的命令并在其前面添加 time 前缀。网络不好的情况下您可能会看到下面的输出结果。请求花费了 2s 才完成，但是进程仅花费了 15ms 的 CPU 用户时间和 12ms 的 CPU 内核时间。

$ time curl https://missing.csail.mit.edu &> /dev/null
real    0m2.561s
user    0m0.015s
sys     0m0.012s

CPU

大多数情况下，当人们提及性能分析工具的时候，通常指的是 CPU 性能分析工具。 CPU 性能分析工具有两种：追踪分析器（tracing）及采样分析器（sampling）。追踪分析器会记录程序的每一次函数调用，而采样分析器则只会周期性的监测（通常为每毫秒）您的程序并记录程序堆栈。它们使用这些记录来生成统计信息，显示程序在哪些事情上花费了最多的时间。如果您希望了解更多相关信息，可以参考how-do-ruby—python-profilers-work。

大多数的编程语言都有一些基于命令行的分析器，我们可以使用它们来分析代码。它们通常可以集成在 IDE 中，但是本节课我们会专注于这些命令行工具本身。

在 Python 中，我们使用 cProfile 模块来分析每次函数调用所消耗的时间。在下面的例子中，我们实现了一个基础的 grep 命令：

#!/usr/bin/env python3

import sys, re

def grep(pattern, file):
    with open(file, 'r') as f:
        print(file)
        for i, line in enumerate(f.readlines()):
            pattern = re.compile(pattern)
            match = pattern.search(line)
            if match is not None:
                print("{}: {}".format(i, line), end="")

if __name__ == '__main__':
    times = int(sys.argv[1])
    pattern = sys.argv[2]
    for i in range(times):
        for file in sys.argv[3:]:
            grep(pattern, file)

我们可以使用下面的命令来对这段代码进行分析。通过它的输出我们可以知道，IO 消耗了大量的时间，编译正则表达式也比较耗费时间。因为正则表达式只需要编译一次，我们可以将其移动到 for 循环外面来改进性能。

$ python -m cProfile -s tottime grep.py 1000 '^(import|\s*def)[^,]*$' *.py

[omitted program output]

 ncalls  tottime  percall  cumtime  percall filename:lineno(function)
   8000    0.266    0.000    0.292    0.000 {built-in method io.open}
   8000    0.153    0.000    0.894    0.000 grep.py:5(grep)
  17000    0.101    0.000    0.101    0.000 {built-in method builtins.print}
   8000    0.100    0.000    0.129    0.000 {method 'readlines' of '_io._IOBase' objects}
  93000    0.097    0.000    0.111    0.000 re.py:286(_compile)
  93000    0.069    0.000    0.069    0.000 {method 'search' of '_sre.SRE_Pattern' objects}
  93000    0.030    0.000    0.141    0.000 re.py:231(compile)
  17000    0.019    0.000    0.029    0.000 codecs.py:318(decode)
      1    0.017    0.017    0.911    0.911 grep.py:3(<module>)

[omitted lines]

-s tottime: 按照tottime进行排序
grep.py 1000 'regex': 执行1000次grep.py,后面的正则表达式是grep.py的匹配参数

关于 Python 的 cProfile 分析器（以及其他一些类似的分析器），需要注意的是它显示的是每次函数调用的时间。看上去可能快到反直觉，尤其是如果您在代码里面使用了第三方的函数库，因为内部函数调用也会被看作函数调用。

更加符合直觉的显示分析信息的方式是包括每行代码的执行时间，这也是 行分析器 的工作。例如，下面这段 Python 代码会向本课程的网站发起一个请求，然后解析响应返回的页面中的全部 URL：

#!/usr/bin/env python
import requests
from bs4 import BeautifulSoup

# 这个装饰器会告诉行分析器 
# 我们想要分析这个函数
@profile
def get_urls():
    response = requests.get('https://missing.csail.mit.edu')
    s = BeautifulSoup(response.content, 'lxml')
    urls = []
    for url in s.find_all('a'):
        urls.append(url['href'])

if __name__ == '__main__':
    get_urls()

~/debug $ pip install lxml  # urls.py中使用到的分析程序
~/debug $ vim urls.py   # 需要将urls.py中的行"@profile"注释掉
~/debug $ python3 -m cProfile -s tottime urls.py | tac | wc -l
1859
# tac刚好与cat相反，会把读取的内容反向输出
# 总的行数达到1859！！

如果我们使用 Python 的 cProfile 分析器，我们会得到超过1000行的输出结果，即使对其进行排序，我仍然搞不懂时间到底都花在哪了。如果我们使用 line_profiler，它会基于行来显示时间：

$ pip install line_profiler
# 可能会提示：将line_profiler的安装路径添加到$PATH
$ echo PATH="$HOME/.local/bin:$PATH" | sudo tee -a /etc/environment
$ sudo vim /etc/environment
# 可能会看到两行路径，其中第二行为添加了新路径的$PATH,将第一行的路径删除
$ source /etc/environment
$ echo $PATH

$ vim urls.py
# 重新将"@profile"行解除注释
$ kernprof -l -v urls.py
Wrote profile results to urls.py.lprof
Timer unit: 1e-06 s

Total time: 0.636188 s
File: urls.py
Function: get_urls at line 5

Line #  Hits         Time  Per Hit   % Time  Line Contents
==============================================================
 5                                           @profile
 6                                           def get_urls():
 7         1     613909.0 613909.0     96.5      response = requests.get('https://missing.csail.mit.edu')
 8         1      21559.0  21559.0      3.4      s = BeautifulSoup(response.content, 'lxml')
 9         1          2.0      2.0      0.0      urls = []
10        25        685.0     27.4      0.1      for url in s.find_all('a'):
11        24         33.0      1.4      0.0          urls.append(url['href'])

内存

像 C 或者 C++ 这样的语言，内存泄漏会导致您的程序在使用完内存后不去释放它。为了应对内存类的 Bug，我们可以使用类似 Valgrind 这样的工具来检查内存泄漏问题。

对于 Python 这类具有垃圾回收机制的语言，内存分析器也是很有用的，因为对于某个对象来说，只要有指针还指向它，那它就不会被回收。

下面这个例子及其输出，展示了 memory-profiler 是如何工作的（注意装饰器和 line-profiler 类似）。

@profile
def my_func():
    a = [1] * (10 ** 6)
    b = [2] * (2 * 10 ** 7)
    del b
    return a

if __name__ == '__main__':
    my_func()


$ python -m memory_profiler example.py
Line #    Mem usage  Increment   Line Contents
==============================================
     3                           @profile
     4      5.97 MB    0.00 MB   def my_func():
     5     13.61 MB    7.64 MB       a = [1] * (10 ** 6)
     6    166.20 MB  152.59 MB       b = [2] * (2 * 10 ** 7)
     7     13.61 MB -152.59 MB       del b
     8     13.61 MB    0.00 MB       return a

事件分析

在我们使用strace调试代码的时候，您可能会希望忽略一些特殊的代码并希望在分析时将其当作黑盒处理。perf 命令将 CPU 的区别进行了抽象，它不会报告时间和内存的消耗，而是报告与您的程序相关的系统事件。

例如，perf 可以报告不佳的缓存局部性（poor cache locality）、大量的页错误（page faults）或活锁（livelocks）。下面是关于常见命令的简介：

perf list - 列出可以被 pref 追踪的事件；
perf stat COMMAND ARG1 ARG2 - 收集与某个进程或指令相关的事件；
perf record COMMAND ARG1 ARG2 - 记录命令执行的采样信息并将统计数据储存在perf.data中；
perf report - 格式化并打印 perf.data 中的数据。

perf内置在linux-tools包中：

~ $ sudo apt install linux-tools-common linux-tools-generic linux-tools-`uname -r`

可视化

使用分析器来分析真实的程序时，由于软件的复杂性，其输出结果中将包含大量的信息。人类是一种视觉动物，非常不善于阅读大量的文字。因此很多工具都提供了可视化分析器输出结果的功能。

对于采样分析器来说，常见的显示 CPU 分析数据的形式是火焰图，火焰图会在 Y 轴显示函数调用关系，并在 X 轴显示其耗时的比例。火焰图同时还是可交互的，您可以深入程序的某一具体部分，并查看其栈追踪（您可以尝试点击下面的图片）。

FlameGraph

调用图和控制流图可以显示子程序之间的关系，它将函数作为节点并把函数调用作为边。将它们和分析器的信息（例如调用次数、耗时等）放在一起使用时，调用图会变得非常有用，它可以帮助我们分析程序的流程。在 Python 中您可以使用 pycallgraph 来生成这些图片。

资源监控

有时候，分析程序性能的第一步是搞清楚它所消耗的资源。程序变慢通常是因为它所需要的资源不够了。例如，没有足够的内存或者网络连接变慢的时候。

有很多很多的工具可以被用来显示不同的系统资源，例如 CPU 占用、内存使用、网络、磁盘使用等。

通用监控 - 最流行的工具要数 htop,了，它是 top的改进版。htop 可以显示当前运行进程的多种统计信息。htop 有很多选项和快捷键，常见的有：进程排序、 t 显示树状结构和 h 打开或折叠线程。还可以留意一下 glances ，它的实现类似但是用户界面更好。如果需要合并测量全部的进程， dstat 是也是一个非常好用的工具，它可以实时地计算不同子系统资源的度量数据，例如 I/O、网络、 CPU 利用率、上下文切换等等；
I/O 操作 - iotop 可以显示实时 I/O 占用信息而且可以非常方便地检查某个进程是否正在执行大量的磁盘读写操作；
磁盘使用 - df 可以显示每个分区的信息，而 du 则可以显示当前目录下每个文件的磁盘使用情况（ disk usage）。-h 选项可以使命令以对人类（human）更加友好的格式显示数据；ncdu是一个交互性更好的 du ，它可以让您在不同目录下导航、删除文件和文件夹；
内存使用 - free 可以显示系统当前空闲的内存。内存也可以使用 htop 这样的工具来显示；
打开文件 - lsof 可以列出被进程打开的文件信息。当我们需要查看某个文件是被哪个进程打开的时候，这个命令非常有用；
网络连接和配置 - ss 能帮助我们监控网络包的收发情况以及网络接口的显示信息。ss 常见的一个使用场景是找到端口被进程占用的信息。如果要显示路由、网络设备和接口信息，您可以使用 ip 命令。注意，netstat 和 ifconfig 这两个命令已经被前面那些工具所代替了。
网络使用 - nethogs 和 iftop 是非常好的用于对网络占用进行监控的交互式命令行工具。

如果您希望测试一下这些工具，您可以使用 stress 命令来为系统人为地增加负载。

专用工具

有时候，您只需要对黑盒程序进行基准测试，并依此对软件选择进行评估。类似 hyperfine 这样的命令行可以帮您快速进行基准测试。例如，我们在 shell 工具和脚本那一节课中我们推荐使用 fd 来代替 find。我们这里可以用hyperfine来比较一下它们。

例如，下面的例子中，我们可以看到fd 比 find 要快20倍。

$ hyperfine --warmup 3 'fd -e jpg' 'find . -iname "*.jpg"'
Benchmark #1: fd -e jpg
  Time (mean ± σ):      51.4 ms ±   2.9 ms    [User: 121.0 ms, System: 160.5 ms]
  Range (min … max):    44.2 ms …  60.1 ms    56 runs

Benchmark #2: find . -iname "*.jpg"
  Time (mean ± σ):      1.126 s ±  0.101 s    [User: 141.1 ms, System: 956.1 ms]
  Range (min … max):    0.975 s …  1.287 s    10 runs

Summary
  'fd -e jpg' ran
   21.89 ± 2.33 times faster than 'find . -iname "*.jpg"'

和 debug 一样，浏览器也包含了很多不错的性能分析工具，可以用来分析页面加载，让我们可以搞清楚时间都消耗在什么地方（加载、渲染、脚本等等）。更多关于 Firefox 和 Chrome的信息可以点击链接。

课后练习

调试

使用 Linux 上的 journalctl 或 macOS 上的 log show 命令来获取最近一天中超级用户的登录信息及其所执行的指令。如果找不到相关信息，您可以执行一些无害的命令，例如sudo ls 然后再次查看。
学习 pdb-tutorial 实践教程并熟悉相关的命令。更深入的信息您可以参考python-debugging-pdb教程。
安装 shellcheck 并尝试对下面的脚本进行检查。这段代码有什么问题吗？请修复相关问题。在您的编辑器中安装一个linter插件，这样它就可以自动地显示相关警告信息。
```
#!/bin/sh
## Example: a typical script with several problems
for f in $(ls *.m3u)
do
  grep -qi hq.*mp3 $f \
    && echo -e 'Playlist $f contains a HQ file in mp3 format'
done
```
(进阶题) 请阅读可逆调试并尝试创建一个可以工作的例子（使用 rr 或 RevPDB）。

性能分析

sorts.py 有一些排序算法的实现。请使用 cProfile 和 line_profiler 来比较插入排序和快速排序的性能。两种算法的瓶颈分别在哪里？然后使用 memory_profiler 来检查内存消耗，为什么插入排序更好一些？然后再看看原地排序版本的快排。附加题：使用 perf 来查看不同算法的循环次数及缓存命中及丢失情况。

这里有一些用于计算斐波那契数列 Python 代码，它为计算每个数字都定义了一个函数：

#!/usr/bin/env python
def fib0(): return 0

def fib1(): return 1

s = """def fib{}(): return fib{}() + fib{}()"""

if __name__ == '__main__':

    for n in range(2, 10):
        exec(s.format(n, n-1, n-2))
    # from functools import lru_cache
    # for n in range(10):
    #     exec("fib{} = lru_cache(1)(fib{})".format(n, n))
    print(eval("fib9()"))

将代码拷贝到文件中使其变为一个可执行的程序。首先安装 pycallgraph和graphviz(如果您能够执行dot, 则说明已经安装了 GraphViz.)。并使用 pycallgraph graphviz -- ./fib.py 来执行代码并查看pycallgraph.png 这个文件。fib0 被调用了多少次？我们可以通过记忆法来对其进行优化。将注释掉的部分放开，然后重新生成图片。这回每个fibN 函数被调用了多少次？

我们经常会遇到的情况是某个我们希望去监听的端口已经被其他进程占用了。让我们通过进程的PID查找相应的进程。首先执行 python -m http.server 4444 启动一个最简单的 web 服务器来监听 4444 端口。在另外一个终端中，执行 lsof | grep LISTEN 打印出所有监听端口的进程及相应的端口。找到对应的 PID 然后使用 kill 停止该进程。
限制进程资源也是一个非常有用的技术。执行 stress -c 3 并使用htop 对 CPU 消耗进行可视化。现在，执行taskset --cpu-list 0,2 stress -c 3 并可视化。stress 占用了3个 CPU 吗？为什么没有？阅读man taskset来寻找答案。附加题：使用 cgroups来实现相同的操作，限制stress -m的内存使用。
(进阶题) curl ipinfo.io 命令或执行 HTTP 请求并获取关于您 IP 的信息。打开 Wireshark 并抓取 curl 发起的请求和收到的回复报文。（提示：可以使用http进行过滤，只显示 HTTP 报文）

习题解答

调试

使用 Linux 上的 journalctl 或 macOS 上的 log show 命令来获取最近一天中超级用户的登录信息及其所执行的指令。如果找不到相关信息，您可以执行一些无害的命令，例如sudo ls 然后再次查看。

~ $ sudo ls 
~ $ journalctl --since "1d age" | grep sudo
 # 这里仅展示执行sudo ls指令后的相关日志
    [ommitted outputs]
5月 06 20:32:25 laihj sudo[40419]:    laihj : TTY=pts/7 ; PWD=/home/laihj ; USER=root ; COMMAND=/usr/bin/ls
5月 06 20:32:25 laihj sudo[40419]: pam_unix(sudo:session): session opened for user root(uid=0) by laihj(uid=1000)
5月 06 20:32:25 laihj sudo[40419]: pam_unix(sudo:session): session closed for user root

学习 pdb-tutorial 实践教程并熟悉相关的命令。更深入的信息您可以参考python-debugging-pdb教程。

安装 shellcheck 并尝试对下面的脚本进行检查。这段代码有什么问题吗？请修复相关问题。在您的编辑器中安装一个linter插件，这样它就可以自动地显示相关警告信息。

#!/bin/sh
## Example: a typical script with several problems
for f in $(ls *.m3u)
do
  grep -qi hq.*mp3 $f \
    && echo -e 'Playlist $f contains a HQ file in mp3 format'
done

~/debug $ sudo apt install shellcheck
~/debug $ shellcheck m3u.sh

In m3u.sh line 3:
for f in $(ls *.m3u)
        ^---------^ SC2045 (error): Iterating over ls output is fragile. Use globs.
            ^-- SC2035 (info): Use ./*glob* or -- *glob* so names with dashes won't become options.

In m3u.sh line 5:
    grep -qi hq.*mp3 $f \
            ^-----^ SC2062 (warning): Quote the grep pattern so the shell won't interpret it.
                    ^-- SC2086 (info): Double quote to prevent globbing and word splitting.

Did you mean:
    grep -qi hq.*mp3 "$f" \

In m3u.sh line 6:
    && echo -e 'Playlist $f contains a HQ file in mp3 format'
            ^-- SC3037 (warning): In POSIX sh, echo flags are undefined.
            ^-- SC2016 (info): Expressions don't expand in single quotes, use double quotes for that.

For more information:
https://www.shellcheck.net/wiki/SC2045 -- Iterating over ls output is fragi...
https://www.shellcheck.net/wiki/SC2062 -- Quote the grep pattern so the she...
https://www.shellcheck.net/wiki/SC3037 -- In POSIX sh, echo flags are undef...

在 Vim 中安装neomake插件来集成 shellcheck：

~/debug $ vim ~/.vimrc
 # 输入：
 # call plug#begin()
 # Plug 'neomake/neomake'
 # call plug#end()
 # 回到正常模式，按下" :w"保存
 # 然后，继续键入":PlugInstall"
 # 此时，会分割出一个安装插件的面板，安装完成后，退出
~/debug $ vim m3u.sh
 # 按下":Neomake"   
 # 问题行之前会有提示标识

根据shellcheck给出的信息，到其网站上查询各个语法问题，然后修改，最终效果如下：

(进阶题) 请阅读可逆调试并尝试创建一个可以工作的例子（使用 rr 或 RevPDB）。

此例主要参考了debug-c-and-c+±programs-with-rr

# perf内置在linux-tools中，使用rr需要先安装perf
~/debug $ sudo apt install linux-tools-common linux-tools-generic linux-tools-`uname -r`
~/debug $ sudo apt install rr
~/debug $ echo 1 | sudo tee /proc/sys/kernel/perf_event_paranoid
~/debug $ gcc -g demo.c -o demo
~/debug $ ./demo
f(0)=0
f(1)=0
f(2)=0
f(3)=0
# 预期输出结果为[0, 2, 4, 6]

# -n选项：输出./demo的运行结果
~/debug $ sudo rr record -n ./demo
rr: Saving execution to trace directory `/root/.local/share/rr/deom-1'.
f(0)=0
f(1)=0
f(2)=0
f(3)=0
# 进入rr-debugger中调试代码
~/debug $ sudo rr replay

在demo.c中，print_array只是打印出stru.a数组的内容，所以出错的地方应该在打印之前，即可能是multiply函数的调用，在此设置断点。

(rr) b multiply # break简写为b
Breakpoint 1 at 0x5568214c818c: file demorr.c, line 16.
(rr) c  # continue简写为c
Continuing.

Breakpoint 1, multiply (a=0x5568214cb018 <stru> "", size=4, num=0) at demorr.c:16
16              for (i=0; i<size; i++)

注意到multiply中传入num的值为 0,正常应该是stru.num的初始值 2，使用watch来查看stru.num的值什么时候被改变的。

(rr) watch -l stru.num
Hardware watchpoint 2: -location stru.num
# reverse-continue简写为rc,回退到watchpoint的值被更改的地方
(rr) rc
Continuing.

Hardware watchpoint 2: -location stru.num
# stru.num的值从 2 变为了 0（注意现在是使用rc反向调试）
# stru.num的值的变更发生在initialize函数的调用中
Old value = 0
New value = 2
initialize (a=0x5568214cb018 <stru> "", size=3) at demorr.c:10
10                      a[size--] = 0;
(rr) q

观察initialize函数中的语句，发现size--先返回size值，再执行size=size-1的操作。而且，由于结构体中变量的内存空间是连续的，所以执行a[SIZE]=0时，把stru.num的值置为了 0。为此，将a[size--]=0修改为a[--size]=0，再观察输出结果。
```
~/debug $ vim demo.c
~/debug $ gcc -g demo.c -o demo
~/debug $ ./demo
f(0)=0
f(1)=2
f(2)=4
f(3)=6
```

性能分析

sorts.py 有一些排序算法的实现。请使用 cProfile 和 line_profiler 来比较插入排序和快速排序的性能。两种算法的瓶颈分别在哪里？然后使用 memory_profiler 来检查内存消耗，为什么插入排序更好一些？然后再看看原地排序版本的快排。附加题：使用 perf 来查看不同算法的循环次数及缓存命中及丢失情况。

使用cProfile比较算法性能

~/debug $ python3 -m cProfile -s tottime sorts.py | tac
# tac反向输出，这里主要是为了显示表头，便于对比查看下一行命令的结果
# 此处省略了该命令的其他输出结果
    77105    0.585    0.000    1.528    0.000 random.py:292(randrange)
ncalls  tottime  percall  cumtime  percall filename:lineno(function)

~/debug $ python3 -m cProfile -s tottime sorts.py | grep sorts.py

34696/1000    0.226    0.000    0.344    0.000 sorts.py:21(quicksort)
33692/1000    0.214    0.000    0.271    0.000 sorts.py:30(quicksort_inplace)
    3000    0.124    0.000    1.842    0.001 sorts.py:6(<listcomp>)
    1000    0.052    0.000    0.054    0.000 sorts.py:10(insertionsort)
    16848    0.034    0.000    0.034    0.000 sorts.py:25(<listcomp>)
    16848    0.033    0.000    0.033    0.000 sorts.py:26(<listcomp>)
        3    0.021    0.007    2.610    0.870 sorts.py:4(test_sorted)
        1    0.000    0.000    2.614    2.614 sorts.py:1(<module>)

使用line_profiler比较算法性能

~/debug $ vim sorts.py
# 在"def insertionsort"和"def quicksort"行的上一行都插入装饰器：@profile

~/debug $ pip install line_profiler
~/debug $ kernprof -l -v sorts.py
Wrote profile results to sorts.py.lprof
Timer unit: 1e-06 s

Total time: 1.4194 s
File: sorts.py
Function: insertionsort at line 10

Line #      Hits         Time  Per Hit   % Time  Line Contents
==============================================================
    10                                           @profile
    11                                           def insertionsort(array):
    12
    13     24982      46841.7      1.9      3.3      for i in range(len(array)):
    14     24982      48489.9      1.9      3.4          j = i-1
    15     24982      47911.5      1.9      3.4          v = array[i]
    16    204731     425803.8      2.1     30.0          while j >= 0 and v < array[j]:
    17    204731     412800.8      2.0     29.1              array[j+1] = array[j]
    18    204731     385122.8      1.9     27.1              j -= 1
    19     24982      50528.9      2.0      3.6          array[j+1] = v
    20      1000       1905.3      1.9      0.1      return array

Total time: 0.391964 s
File: sorts.py
Function: quicksort at line 22

Line #      Hits         Time  Per Hit   % Time  Line Contents
==============================================================
    22                                           @profile
    23                                           def quicksort(array):
    24     17386      35795.4      2.1      9.1      if len(array) <= 1:
    25     17386      32118.3      1.8      8.2          return array
    26     16386      31515.4      1.9      8.0      pivot = array[0]
    27     16386     107962.3      6.6     27.5      left = [i for i in array[1:] if i < pivot]
    28     16386     108175.9      6.6     27.6      right = [i for i in array[1:] if i >= pivot]
    29     16386      76396.3      4.7     19.5      return quicksort(left) + [pivot] + quicksort(right)

插入排序的耗时更高一些。快速排序的瓶颈在于 left和 right的赋值，而插入排序的瓶颈在while循环。

使用memory_profiler逐个检查算法的内存消耗

~/debug $ vim sorts.py
# 仅在"def insertionsort"行上一行插入装饰器：@profile
~/debug $ python3 -m memory_profiler sorts.py
Filename: sorts.py

Line #    Mem usage    Increment  Occurrences   Line Contents
=============================================================
    10   43.301 MiB   43.301 MiB        1000   @profile
    11                                         def insertionsort(array):
    12
    13   43.301 MiB    0.000 MiB       25733       for i in range(len(array)):
    14   43.301 MiB    0.000 MiB       24733           j = i-1
    15   43.301 MiB    0.000 MiB       24733           v = array[i]
    16   43.301 MiB    0.000 MiB      223646           while j >= 0 and v < array[j]:
    17   43.301 MiB    0.000 MiB      198913               array[j+1] = array[j]
    18   43.301 MiB    0.000 MiB      198913               j -= 1
    19   43.301 MiB    0.000 MiB       24733           array[j+1] = v
    20   43.301 MiB    0.000 MiB        1000       return array

~/debug $ vim sorts.py
# 仅在"def quicksort"行上一行插入装饰器：@profile
~/debug $ python3 -m memory_profiler sorts.py
Filename: sorts.py

Line #    Mem usage    Increment  Occurrences   Line Contents
=============================================================
    22   43.195 MiB   43.195 MiB       34330   @profile
    23                                         def quicksort(array):
    24   43.195 MiB    0.000 MiB       34330       if len(array) <= 1:
    25   43.195 MiB    0.000 MiB       17665           return array
    26   43.195 MiB    0.000 MiB       16665       pivot = array[0]
    27   43.195 MiB    0.000 MiB      159966       left = [i for i in array[1:] if i < pivot]
    28   43.195 MiB    0.000 MiB      159966       right = [i for i in array[1:] if i >= pivot]
    29   43.195 MiB    0.000 MiB       16665       return quicksort(left) + [pivot] + quicksort(right)

~/debug $ vim sorts.py
# 仅在"def quicksort_inplace"行上一行插入装饰器：@profile
~/debug $ python3 -m memory_profiler sorts.py
Filename: sorts.py

Line #    Mem usage    Increment  Occurrences   Line Contents
=============================================================
    31   43.227 MiB   43.227 MiB       33806   @profile
    32                                         def quicksort_inplace(array, low=0, high=None):
    33   43.227 MiB    0.000 MiB       33806       if len(array) <= 1:
    34   43.227 MiB    0.000 MiB          46           return array
    35   43.227 MiB    0.000 MiB       33760       if high is None:
    36   43.227 MiB    0.000 MiB         954           high = len(array)-1
    37   43.227 MiB    0.000 MiB       33760       if low >= high:
    38   43.227 MiB    0.000 MiB       17357           return array
    39
    40   43.227 MiB    0.000 MiB       16403       pivot = array[high]
    41   43.227 MiB    0.000 MiB       16403       j = low-1
    42   43.227 MiB    0.000 MiB      123582       for i in range(low, high):
    43   43.227 MiB    0.000 MiB      107179           if array[i] <= pivot:
    44   43.227 MiB    0.000 MiB       55913               j += 1
    45   43.227 MiB    0.000 MiB       55913               array[i], array[j] = array[j], array[i]
    46   43.227 MiB    0.000 MiB       16403       array[high], array[j+1] = array[j+1], array[high]
    47   43.227 MiB    0.000 MiB       16403       quicksort_inplace(array, low, j)
    48   43.227 MiB    0.000 MiB       16403       quicksort_inplace(array, j+2, high)
    49   43.227 MiB    0.000 MiB       16403       return array

遗憾的是，按照上面的方法使用memory_profiler给出的结果无法作为这三种排序算法内存消耗对比的依据（光从数据上看，insertionsort的43.301MiB甚至还大于quicksort的43.195MiB，与预期结果相反）
另外，观察三组结果中，函数的每一行的Increment（即执行该行所导致的内存占用的增减变化）均为 0！这是由于test_sorted用于测试的list太小了，长度仅为1～50，导致排序算法中每一行创建的变量内存占用也很小。如果直接使用一个长度为2000的list来测试：l = [random.randint(0,10000) for i in range(0, 2000)]，会发现quicksort函数的Left或Right行的Increment数据不为 0（创建的list占用内存较大了）。与此同时，用该list测试insertionsort函数时，发现耗用时间较长。
参考python-profiling-memory-profiling这篇文章，使用一个长度为 10 000的list测试冒泡排序的内存消耗，需要将近30分钟才输出结果。（使用memory_profiler要权衡时间与效率）

使用perf检查每个算法的循环次数、缓存命中和丢失：

insertionsort的结果


~/debug $ vim sorts.py
# 修改main函数删除for循环，改为：test_sorted(insertionsort)
~/debug $ sudo perf stat -e cycles,cache-references,cache-misses python3 sorts.py

Performance counter stats for 'python3 sorts.py':

    187,253,954      cycles                                                  
        5,023,695      cache-references                                        
        891,768      cache-misses              #   17.751 % of all cache refs

    0.099464106 seconds time elapsed

    0.082930000 seconds user
    0.016586000 seconds sys

quicksort的结果

~/debug $ vim sorts.py
# main函数的内容改为：test_sorted(quicksort)
~/debug $ sudo perf stat -e cycles,cache-references,cache-misses python3 sorts.py

Performance counter stats for 'python3 sorts.py':

    192,741,421      cycles                                                  
        6,843,630      cache-references                                        
        898,594      cache-misses              #   13.130 % of all cache refs

    0.057831555 seconds time elapsed

    0.057863000 seconds user
    0.000000000 seconds sys

quicksort_inplace的结果

~/debug $ vim sorts.py
# main函数改为：test_sorted(quicksort_inplace)
~/debug $ sudo perf stat -e cycles,cache-references,cache-misses python3 sorts.py

Performance counter stats for 'python3 sorts.py':

    179,221,185      cycles                                                  
        5,700,092      cache-references                                        
        892,157      cache-misses              #   15.652 % of all cache refs

    0.097429528 seconds time elapsed

    0.089351000 seconds user
    0.008122000 seconds sys

这里有一些用于计算斐波那契数列 Python 代码，它为计算每个数字都定义了一个函数。将代码拷贝到文件中使其变为一个可执行的程序。首先安装 pycallgraph和graphviz(如果您能够执行dot, 则说明已经安装了 GraphViz.)。并使用 pycallgraph graphviz -- ./fib.py 来执行代码并查看pycallgraph.png 这个文件。fib0 被调用了多少次？我们可以通过记忆法来对其进行优化。将注释掉的部分放开，然后重新生成图片。这回每个fibN 函数被调用了多少次？
```
~/debug $ pip install "setuptools<58.0.0"
# setuptools版本过高会导致安装pycallgraph失败
~/debug $ pip install pycallgraph
~/debug $ sudo apt install graphviz
~/debug $ pycallgraph graphviz -- ./fib.py
34
# 34是fib9()的返回值
# 在~/debug目录中可以查看生成的图片
# 其中，fib0被调用了21次
```
```
~/debug $ vim fib.py
# 解除注释
~/debug $ pycallgraph graphviz -- ./fib.py
34
# 每个fibN都只被调用了1次
```

我们经常会遇到的情况是某个我们希望去监听的端口已经被其他进程占用了。让我们通过进程的PID查找相应的进程。首先执行 python -m http.server 4444 启动一个最简单的 web 服务器来监听 4444 端口。在另外一个终端中，执行 lsof | grep LISTEN 打印出所有监听端口的进程及相应的端口。找到对应的 PID 然后使用 kill 停止该进程。

 # 使用tmux，进入面板0
~ $ python3 -m http.server 4444
Serving HTTP on 0.0.0.0 port 4444 (http://0.0.0.0:4444/) ...

 # ctrl+B，再按v，进入面板1
~ $ lsof | grep LISTEN | grep python
python3   66102   laihj    3u     IPv4             246160       0t0        TCP *:4444 (LISTEN)
~ $ kill 66102

 # 此时，面板0中：
~/debug $ python3 -m http.server 4444
Serving HTTP on 0.0.0.0 port 4444 (http://0.0.0.0:4444/) ...
[1]    66102 terminated  python3 -m http.server 4444

限制进程资源也是一个非常有用的技术。执行 stress -c 3 并使用htop 对 CPU 消耗进行可视化。现在，执行taskset --cpu-list 0,2 stress -c 3 并可视化。stress 占用了3个 CPU 吗？为什么没有？阅读man taskset来寻找答案。附加题：使用 cgroups来实现相同的操作，限制stress -m的内存使用。

通过htop使用详解先熟悉htop的界面。
在正常运行状态下，htop的显示情况：
```
~ $ tmux 
~ $ htop
 # 进入htop界面
```

为CPU添加载荷3（CPU stress）

 # 按下ctrl+b,v切换到新面板，执行：
~ $ stress -c 3

在taskset命令下增加CPU载荷

^C  # 先终止刚才的命令
~ $ taskset --cpu-list 0,2 stress -c 3
 # taskset的cup-list选项可以限制进程在特定的CPU上运行
 # 可以看到，stress -c 3仍创建了三个进程，但是这次仅消耗了2个CPU

先了解stress -m的用法：

~ $ sudo tldr stress
stress
A tool to stress test CPU, memory, and IO on a Linux system.More information: https://manned.org/stress.

- Spawn 4 workers to stress test CPU:
stress -c {{4}}

- Spawn 2 workers to stress test IO and timeout after 5 seconds:
stress -i {{2}} -t {{5}}

- Spawn 2 workers to stress test memory (each worker allocates 256M bytes):
stress -m {{2}} --vm-bytes {{256M}}

- Spawn 2 workers spinning on write()/unlink() (each worker writes 1G bytes):
stress -d {{2}} --hdd-bytes {{1GB}}

最近版本的Ubuntu默认激活cgroup v2，可以参考Ubuntu激活cgroupv2。下面，将使用cgroupv2实现限制进程内存消耗的操作，更多信息可参考详解CgroupV2。

设置，使用cgroup2

~ $ grep cgroup /proc/filesystems
nodev   cgroup
nodev   cgroup2
 # 输出结果有cgroup2,说明当前系统支持cgroup2
~ $ sudo vim /etc/default/grub
 # 查找变量GRUB_CMDLINE_LINUX_DEFAULT,将原来的行注释掉
 # 新增一行：GRUB_CMDLINE_LINUX_DEFAULT="systemd.unified_cgroup_hierarchy=1"
~ $ sudo update-grub
~ $ reboot

重启后，检查：

~ $ cat /sys/fs/cgroup/cgroup.controllers
cpuset cpu io memory hugetlb pids rdma misc
 # 这些是cgroup挂载的控制器
~ $ sudo su
root@laihj:~# cd /sys/fs/cgroup
 # 该目录为cgroup的根root,在其下创建的子目录是其节点
root@laihj:/sys/fs/cgroup# mkdir -p test test/cg
root@laihj:/sys/fs/cgroup# ls test
cg                     cgroup.type          memory.numa_stat
cgroup.controllers      cpu.pressure         memory.oom.group
cgroup.events           cpu.stat             memory.pressure
cgroup.freeze           io.pressure          memory.stat
cgroup.kill             memory.current       memory.swap.current
cgroup.max.depth        memory.events        memory.swap.events
cgroup.max.descendants  memory.events.local  memory.swap.high
cgroup.procs            memory.high          memory.swap.max
cgroup.stat             memory.low           pids.current
cgroup.subtree_control  memory.max           pids.events
cgroup.threads          memory.min           pids.max
root@laihj:/sys/fs/cgroup# ls test/cg
cgroup.controllers  cgroup.max.descendants  cgroup.type
cgroup.events       cgroup.procs            cpu.pressure
cgroup.freeze       cgroup.stat             cpu.stat
cgroup.kill         cgroup.subtree_control  io.pressure
cgroup.max.depth    cgroup.threads          memory.pressure
 # test节点挂载了memory控制器，所以目录下出现了"memory.*"文件

为test/cg挂载memory控制器，并设置memory的使用大小

root@laihj:/sys/fs/cgroup# cd test
root@laihj:/sys/fs/cgroup/test# cat cgroup.subtree_control
root@laihj:/sys/fs/cgroup/test# echo "+memory" > cgroup.subtree_control
root@laihj:/sys/fs/cgroup/test# cat cgroup.subtree_control
memory
root@laihj:/sys/fs/cgroup/test# echo 100M > memory.max
root@laihj:/sys/fs/cgroup/test# echo 0 > memory.swap.max
 # 设置memory的最大使用量为 100M,同时，必须限制内存交换空间的使用

将当前的bash session pid写入cg中，接下来在bash中执行的所有命令会受到刚才的memory设置的影响（注意，除了根，进程只能驻留在叶节点（没有子cgroup目录的cgroup目录echo $$ > test/cgroup.procs会报错））

root@laihj:/sys/fs/cgroup/test# echo $$ > cg/cgroup.procs

root@laihj:/sys/fs/cgroup/test# stress -m 3 --vm-bytes 200M
stress: info: [5018] dispatching hogs: 0 cpu, 0 io, 3 vm, 0 hdd
stress: FAIL: [5018] (416) <-- worker 5020 got signal 9
stress: WARN: [5018] (418) now reaping child worker processes
stress: FAIL: [5018] (452) failed run completed in 0s

root@laihj:/sys/fs/cgroup/test# stress -m 3 --vm-bytes 40M
 # 3 个 worker 各分配 40M,总的 120M,仍超过了设置的100M上限
stress: info: [5030] dispatching hogs: 0 cpu, 0 io, 3 vm, 0 hdd
stress: FAIL: [5030] (416) <-- worker 5032 got signal 9
stress: WARN: [5030] (418) now reaping child worker processes
stress: FAIL: [5030] (452) failed run completed in 0s

root@laihj:/sys/fs/cgroup/test# stress -m 3 --vm-bytes 20M
stress: info: [5034] dispatching hogs: 0 cpu, 0 io, 3 vm, 0 hdd
^C
 # 正常执行，按下ctrl+C终止stress命令

删除cgroup下的节点，需要从叶节点开始（最内层的目录）

 # 确保test/cg中的进程全部停止，这里需要退出当前bash session,即关闭终端，然后，重新开启
~ $ sudo rmdir /sys/fs/cgroup/test/cg
~ $ sudo rmdir /sys/fs/cgroup/test

(进阶题) curl ipinfo.io 命令或执行 HTTP 请求并获取关于您 IP 的信息。打开 Wireshark 并抓取 curl 发起的请求和收到的回复报文。（提示：可以使用http进行过滤，只显示 HTTP 报文）

~ $ sudo apt install wireshark
 # 安装过程中，会弹出页面，让你选择wireshark是否以superuser权限启动，选择Yes
 # 如果不小心选了No,可以执行：
~ $ sudo dpkg-reconfigure wireshark-common 
 # 重新勾选Yes
~ $ ifconfig
 # 显示网络信息，记下你自己的网络连接的名称，如我的是wlp1s0
~ $ sudo wireshark
 # 启动wireshark界面，在“捕获-选项”中，选择你的网络连接，如wlp1s0,然后点击开始，进入捕获录制模式
 # 重新回到终端，打开另一个终端窗口，或使用tmux创建新窗口，执行：
~ $ curl www.baidu.com
 # 在wireshark选项栏下面的过滤条中输入http,过滤掉其他的报头信息

注意：必须关掉网络代理

你可能感兴趣的:(计算机前置课程学习笔记,linux,服务器,运维)

C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element((1) 2401_84976182 程序员 c语言 c++学习
既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上CC++开发知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新如果你需要这些资料，可以戳这里获取#include#include#includeusingnamespacestd;boolcmp(int
上位机知识篇---SD卡&U盘镜像
常用的镜像烧录软件balenaEtcherbalenaEtcher是一个开源的、跨平台的工具，用于将操作系统镜像文件（如ISO和IMG文件）烧录到SD卡和USB驱动器中。以下是其使用方法、使用场景和使用注意事项的介绍：使用方法下载安装：根据自己的操作系统，从官方网站下载对应的安装包。Windows系统下载.exe文件后双击安装；Linux系统若下载的是.deb文件，可在终端执行“sudodpkg-
高效批量单词翻译工具的设计与应用
本文还有配套的精品资源，点击获取简介：在信息技术飞速发展的今天，批量单词翻译工具通过计算机的数据处理能力，大大提高了语言学习和文字处理的效率。用户通过简单输入单词列表到一个文本文件，并运行翻译程序，即可获得翻译结果并保存至指定文件。该工具集成了内置或外部翻译引擎，利用自然语言处理技术实现快速准确的翻译，并可能提供词性识别等附加功能。尽管机器翻译无法完全取代人工校对，但它为用户提供了一种高效的翻译解
理解TCP连接中的进程阻塞与CPU调度机制 109702008 编程 #C语言网络 tcp/ip 网络人工智能
引言在计算机网络通信中，TCP连接的建立是一个经典的三次握手过程。当用户调用connect()函数发起连接时，内核会发送SYN报文并等待对方的SYN-ACK响应。此时，调用进程通常会进入阻塞状态，暂停执行直至连接成功或超时。这一机制看似简单，但其背后的内核实现却涉及进程调度、等待队列管理和CPU资源分配等复杂操作。本文将深入探讨阻塞状态的实现原理，并解析CPU在进程阻塞期间的行为。一、进程阻塞的实
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
分布式学习笔记_04_复制模型 NzuCRAS 分布式学习笔记架构后端
常见复制模型使用复制的目的在分布式系统中，数据通常需要被分布在多台机器上，主要为了达到：拓展性：数据量因读写负载巨大，一台机器无法承载，数据分散在多台机器上仍然可以有效地进行负载均衡，达到灵活的横向拓展高容错&高可用：在分布式系统中单机故障是常态，在单机故障的情况下希望整体系统仍然能够正常工作，这时候就需要数据在多台机器上做冗余，在遇到单机故障时能够让其他机器接管统一的用户体验：如果系统客户端分布
算法学习笔记：15.二分查找 ——从原理到实战，涵盖 LeetCode 与考研 408 例题呆呆企鹅仔算法学习算法学习笔记考研二分查找
在计算机科学的查找算法中，二分查找以其高效性占据着重要地位。它利用数据的有序性，通过不断缩小查找范围，将原本需要线性时间的查找过程优化为对数时间，成为处理大规模有序数据查找问题的首选算法。二分查找的基本概念二分查找（BinarySearch），又称折半查找，是一种在有序数据集合中查找特定元素的高效算法。其核心原理是：通过不断将查找范围减半，快速定位目标元素。与线性查找逐个遍历元素不同，二分查找依赖
php SPOF 贵哥的编程之路(热爱分享为后来者) PHP语言经典程序100题 php 开发语言
1.什么是单点故障（SPOF）？单点故障指的是系统中某个组件一旦失效，整个系统或服务就会不可用。常见的单点有：数据库、缓存、Web服务器、负载均衡、网络设备等。2.常见单点故障场景只有一台数据库服务器，宕机后所有业务不可用只有一台Redis缓存，挂掉后缓存全部失效只有一台Web服务器，挂掉后网站无法访问只有一个负载均衡节点，挂掉后流量无法分发只有一条网络链路，断开后所有服务失联3.消除单点故障的主
php 高并发下日志量巨大，如何高效采集、存储、分析贵哥的编程之路(热爱分享为后来者) PHP语言经典程序100题 php 开发语言
1.问题背景高并发系统每秒产生大量日志（如访问日志、错误日志、业务日志等）。单机写入、存储、分析能力有限，容易成为瓶颈。需要支持实时采集、分布式存储、快速检索与分析。2.主流架构方案一、分布式日志采集架构[应用服务器(PHP等)]|v[日志采集Agent（如Filebeat、Fluentd、Logstash）]|v[消息队列/缓冲（如Kafka、Redis、RabbitMQ）]|v[日志存储（如E
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
Vue3+Vite+TS+Axios整合详细教程老马聊技术 Vue Vite TS vue.js
1.Vite简介Vite是新一代的前端构建工具，在尤雨溪开发Vue3.0的时候诞生。类似于Webpack+Webpack-dev-server。其主要利用浏览器ESM特性导入组织代码，在服务器端按需编译返回，完全跳过了打包这个概念，服务器随起随用。生产中利用Rollup作为打包工具，号称下一代的前端构建工具。vite是一种新型的前端构建工具，能够显著的提升前端开发者的体验。它主要有俩部分组成：一个
Linux/Centos7离线安装并配置MySQL 5.7 有事开摆无事百杜同学 LInux/CentOS7 linux mysql 运维
Linux/Centos7离线安装并配置MySQL5.7超详细教程一、环境准备1.下载MySQL5.7离线包2.使用rpm工具卸载MariaDB（避免冲突）3.创建系统级别的MySQL专用用户二、安装与配置1.解压并重命名MySQL目录2.创建数据目录和配置文件3.设置目录权限4.初始化MySQL5.配置启动脚本6.配置环境变量三、启动与验证1.启动MySQL服务2.获取初始密码3.登录并修改密码
Linux操作系统磁盘管理 CZZDg linux 运维服务器
目录一.硬盘介绍1.硬盘的物理结构2.CHS编号3.磁盘存储划分4.开机流程5.要点6.磁盘存储数据的形式二.Linux文件系统1.根文件系统2.虚拟文件系统3.真文件系统4.伪文件系统三.磁盘分区与挂载1.磁盘分区方式2.分区命令3.查看与识别命令4.格式化命令5.挂载命令四.LVM逻辑卷1.概述2.管理命令五.磁盘配额1.概述usrquota:支持对用户的磁盘配额grpquota：支持对组的磁
计算机网络技术 CZZDg 计算机网络
目录一.网络概述1.网络的概念2.网络发展是3.网络的四要素4.网络功能5.网络类型6.网络协议与标准7.网络中常见的概念8.网络拓补结构二.网络模型1.分层思想2.OSI七层模型3.TCP/IP五层模型4.数据的封装与解封装过程三.IP地址1.进制转换2.IP地址定义3.IP地址组成成分4.IP地址分类5.地址划分6、相关概念一.网络概述1.网络的概念两个主机通过传输介质和通信协议实现通信和资源
tcpdump交叉编译 weixin_45673259 tcpdump 测试工具网络
1.下载路径官网：https://www.tcpdump.org/2.编译解压：tar-xflibpcap-1.10.4.tar.xztar-xftcpdump-4.99.4.tar.xz编译libpcap./configure--host=mips-v720s229-linux--target=mips-v720s229-linuxCC=/opt/A1/mips-gcc720-uclibc229
小林渗透入门：burpsuite+proxifier抓取小程序流量 ξ流ぁ星ぷ132 小程序 web安全安全性测试网络安全安全
目录前提：代理：proxifier：步骤：bp证书安装bp设置代理端口：proxifier设置规则：proxifier应用规则：结果：前提：在介绍这两个工具具体实现方法之前，有个很重要的技术必须要大概了解才行---代理。代理：个人觉得代理，简而言之，就是在你和服务器中间的一个中间人，来转达信息。那为什么要代理呢，因为这里的burpsuite要抓包，burpsuite只有做为中间代理人才可以进行拦截
[特殊字符] 实时数据洪流突围战：Flink+Paimon实现毫秒级分析的架构革命（附压测报告）——日均百亿级数据处理成本降低60%的工业级方案 Lucas55555555 flink 大数据
引言：流批一体的时代拐点据阿里云2025白皮书显示，实时数据处理需求年增速达240%，但传统Lambda架构资源消耗占比超运维成本的70%。某电商平台借助Flink+Paimon重构实时数仓后，端到端延迟从分钟级压缩至800ms，计算资源节省5.6万核/月。技术红利窗口期：2025年ApachePaimon1.0正式发布，支持秒级快照与湖仓一体，成为替代Iceberg的新范式一、痛点深挖：实时数仓
OKHttp3源码分析——学习笔记 Sincerity_ 源码相关 Okhttp 源码解析读书笔记 httpclient cache
文章目录1.HttpClient与HttpUrlConnection的区别2.OKHttp源码分析使用步骤:dispatcher任务调度器,（后面有详细说明）Request请求RealCallAsyncCall3.OKHttp架构分析1.异步请求线程池,Dispather2.连接池清理线程池-ConnectionPool3.缓存整理线程池DisLruCache4.Http2异步事务线程池,http
【Linux内核模块】Linux内核模块程序结构 byte轻骑兵 #嵌入式Linux驱动开发实战 linux 运维服务器
如果你已经写过第一个"HelloWorld"内核模块，可能会好奇：为什么那个几行代码的程序能被内核识别？那些module_init、MODULE_LICENSE到底是什么意思？今天咱们就来扒一扒内核模块的程序结构，搞清楚一个合格的内核模块到底由哪些部分组成，每个部分又承担着什么角色。目录一、内核模块的"骨架"：最简化结构解析二、头文件：内核模块的"说明书"2.1最常用的三个头文件2.2按需添加的其
LVM逻辑卷扩容
目录1.逻辑卷的简介2.逻辑卷的概念3.相关命令4.建立逻辑卷1.逻辑卷的简介1.LVM是逻辑卷管理(LogicalVolumeManager)的简称,它是Linux环境下对磁盘分区进行管理的一种机制,LVM是建立在硬盘和分区之上的一个逻辑层,来提高磁盘分区管理的灵活性。2.LVM最大的特点就是可以对磁盘进行动态管理。使用了LVM管理分区,动态的调整分区的大小,标准分区是做不到的。2.逻辑卷的概念
Rocky Linux 8.5/CentOS 8 安装Wine chen_teacher linux 运维服务器
RockyLinux8.5/CentOS8安装Wine首先配置EPEL镜像配置方法安装Wine首先配置EPEL镜像EPEL(ExtraPackagesforEnterpriseLinux),是由FedoraSpecialInterestGroup维护的EnterpriseLinux（RHEL、CentOS）中经常用到的包。下载地址：https://mirrors.aliyun.com/epel/相
JavaScript 基础09：Web APIs——日期对象、DOM节点梦想当全栈 JavaScript javascript 前端开发语言
JavaScript基础09：WebAPIs——日期对象、DOM节点进一步学习DOM相关知识，实现可交互的网页特效能够插入、删除和替换元素节点。能够依据元素节点关系查找节点。一、日期对象掌握Date日期对象的使用，动态获取当前计算机的时间。ECMAScript中内置了获取系统时间的对象Date，使用Date时与之前学习的内置对象console和Math不同，它需要借助new关键字才能使用。1.实例
系统迁移从CentOS7.9到Rocky8.9
我有两台阿里云上的服务器是CentOS7.9，由于CentOS7已经停止支持，后续使用的话会有安全漏洞，所以需要尽快迁移，个人使用的话目前兼容性好的还是RockyLinux8，很多脚本改改就能用了。一、盘点系统和迁移应用查看当前系统发行版版本cat/etc/os-release盘点迁移清单服务器应用部署方式docker镜像来源v1wordpressdockerdockerhubv1zdirdock
【Linux内核模块】Linux内核模块简介 byte轻骑兵 #嵌入式Linux驱动开发实战 linux arm开发运维
你是否好奇过，为什么Linux系统可以在不重启的情况下支持新硬件？为什么修改一个驱动程序不需要重新编译整个内核？这一切都离不开Linux的"模块化魔法"——内核模块（KernelModule）。作为Linux内核最灵活的特性之一，内核模块让开发者可以动态扩展内核功能，今天就来揭开这个神秘组件的面纱。目录一、什么是内核模块？1.1先打个比方：给内核装"插件"1.2技术定义：动态加载的内核代码段1.3
Linux中LVM逻辑卷扩容
在Linux系统中对根目录所在的LVM逻辑卷进行扩容，需要依次完成物理卷扩容➔卷组扩容➔逻辑卷扩容➔文件系统扩容四个步骤。以下是详细操作流程：一、确认当前磁盘和LVM状态#1.查看磁盘空间使用情况df-h/#2.查看块设备及LVM层级关系lsblk#3.查看LVM详细信息（物理卷PV、卷组VG、逻辑卷LV）pvdisplayvgdisplaylvdisplay二、扩容物理卷（PV）场景1：已有未分
自动化运维工程师面试题解析【真题】
ZabbixAgent默认监听的端口是A.10050。以下是关键分析：选项排除：C.80是HTTP默认端口，与ZabbixAgent无关。D.5432是PostgreSQL数据库的默认端口，不涉及ZabbixAgent。B.10051是ZabbixServer的默认监听端口，用于接收Agent发送的数据，而非Agent自身的监听端口。ZabbixAgent的配置：根据官方文档，ZabbixAgen
什么是OA系统？使用OA系统对企业有哪些好处？
OA系统（OfficeAutomationSystem），即办公自动化系统，是将现代化办公和计算机网络功能结合起来的一种新型的办公方式。是现代企业管理中一种重要的信息化工具，它通过计算机技术、网络技术和数据库技术等手段，实现企业内部办公流程的自动化和信息化管理。使企业的信息交流更加顺畅，办公流程更加高效，从而提高企业的运营效率和管理水平。一、主要功能1.文档管理文档存储与检索：OA系统可以集中存储
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
redis集群之Sentinel哨兵高可用会飞的爱迪生 redis redis sentinel bootstrap
Sentinel是官网推荐的高可用（HA）解决方案，可以实现redis的高可用，即主挂了从代替主工作，在一台单独的服务器上运行多个sentinel，去监控其他服务器上的redismaster-slave状态(可以监控多个master-slave)，当发现master宕机后sentinel会在slave中选举并启动新的master。至少需要3台redis才能建立起基于哨兵的reids集群。一、通过s
在 Windows 上安装 Docker Desktop 不老刘人工智能 windows docker 容器
还是简单说一下，如何在Windows上安装DockerDesktop，具体步骤如下：系统要求Windows10/1164-bit（专业版、企业版或教育版，版本21H2或更高）启用WSL2（WindowsSubsystemforLinux2）或Hyper-V至少4GB内存BIOS中启用虚拟化（VT-x/AMD-V）安装步骤1.下载DockerDesktop访问Docker官网下载页面。下载Docke
java线程Thread和Runnable区别和联系 zx_code java jvm thread 多线程 Runnable
我们都晓得java实现线程2种方式，一个是继承Thread，另一个是实现Runnable。模拟窗口买票，第一例子继承thread，代码如下 package thread; public class ThreadTest { public static void main(String[] args) { Thread1 t1 = new Thread1(
【转】JSON与XML的区别比较丁_新 json xml
1.定义介绍 (1).XML定义扩展标记语言 (Extensible Markup Language, XML) ，用于标记电子文件使其具有结构性的标记语言，可以用来标记数据、定义数据类型，是一种允许用户对自己的标记语言进行定义的源语言。 XML使用DTD(document type definition)文档类型定义来组织数据;格式统一，跨平台和语言，早已成为业界公认的标准。 XML是标
c++ 实现五种基础的排序算法 CrazyMizzz C++c 算法
#include<iostream> using namespace std; //辅助函数，交换两数之值 template<class T> void mySwap(T &x, T &y){ T temp = x; x = y; y = temp; } const int size = 10; //一、用直接插入排
我的软件麦田的设计者我的软件音乐类娱乐放松
这是我写的一款app软件，耗时三个月，是一个根据央视节目开门大吉改变的，提供音调，猜歌曲名。1、手机拥有者在android手机市场下载本APP，同意权限，安装到手机上。2、游客初次进入时会有引导页面提醒用户注册。（同时软件自动播放背景音乐）。3、用户登录到主页后，会有五个模块。a、点击不胫而走，用户得到开门大吉首页部分新闻，点击进入有新闻详情。b、
linux awk命令详解被触发 linux awk
awk是行处理器: 相比较屏幕处理的优点，在处理庞大文件时不会出现内存溢出或是处理缓慢的问题，通常用来格式化文本信息 awk处理过程: 依次对每一行进行处理，然后输出 awk命令形式: awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ file [-F|-f|-v]大参数，-F指定分隔符，-f调用脚本，-v定义变量 var=val
各种语言比较 _wy_ 编程语言
Java Ruby PHP 擅长领域
oracle 中数据类型为clob的编辑知了ing oracle clob
public void updateKpiStatus(String kpiStatus,String taskId){ Connection dbc=null; Statement stmt=null; PreparedStatement ps=null; try { dbc = new DBConn().getNewConnection(); //stmt = db
分布式服务框架 Zookeeper -- 管理分布式环境中的数据矮蛋蛋 zookeeper
原文地址： http://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/ 安装和配置详解本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础，最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取，Zookeeper 的安装非常简单，下面将从单机模式和集群模式两
tomcat数据源 alafqq tomcat
数据库 JNDI(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。没有使用JNDI时我用要这样连接数据库： 03. Class.forName("com.mysql.jdbc.Driver"); 04. conn
遍历的方法百合不是茶遍历
遍历在java的泛
linux查看硬件信息的命令 bijian1013 linux
linux查看硬件信息的命令一.查看CPU： cat /proc/cpuinfo 二.查看内存： free 三.查看硬盘： df linux下查看硬件信息 1、lspci 列出所有PCI 设备； lspci - list all PCI devices:列出机器中的PCI设备（声卡、显卡、Modem、网卡、USB、主板集成设备也能
java常见的ClassNotFoundException bijian1013 java
1.java.lang.ClassNotFoundException: org.apache.commons.logging.LogFactory 添加包common-logging.jar2.java.lang.ClassNotFoundException: javax.transaction.Synchronization
【Gson五】日期对象的序列化和反序列化 bit1129 反序列化
对日期类型的数据进行序列化和反序列化时，需要考虑如下问题： 1. 序列化时，Date对象序列化的字符串日期格式如何 2. 反序列化时，把日期字符串序列化为Date对象，也需要考虑日期格式问题 3. Date A -> str -> Date B,A和B对象是否equals 默认序列化和反序列化 import com
【Spark八十六】Spark Streaming之DStream vs. InputDStream bit1129 Stream
1. DStream的类说明文档： /** * A Discretized Stream (DStream), the basic abstraction in Spark Streaming, is a continuous * sequence of RDDs (of the same type) representing a continuous st
通过nginx获取header信息 ronin47 nginx header
1. 提取整个的Cookies内容到一个变量，然后可以在需要时引用，比如记录到日志里面， if ( $http_cookie ~* "(.*)$") { set $all_cookie $1; } 变量$all_cookie就获得了cookie的值，可以用于运算了
java-65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 bylijinnan java
参考了网上的http://blog.csdn.net/peasking_dd/article/details/6342984 写了个java版的： public class Print_1_To_NDigit { /** * Q65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 * 1.使用字符串
Netty源码学习-ReplayingDecoder bylijinnan java netty
ReplayingDecoder是FrameDecoder的子类，不熟悉FrameDecoder的，可以先看看 http://bylijinnan.iteye.com/blog/1982618 API说，ReplayingDecoder简化了操作，比如： FrameDecoder在decode时，需要判断数据是否接收完全： public class IntegerH
js特殊字符过滤 cngolon js特殊字符 js特殊字符过滤
1.js中用正则表达式过滤特殊字符, 校验所有输入域是否含有特殊符号function stripscript(s) { var pattern = new RegExp("[`~!@#$^&*()=|{}':;',\\[\\].<>/?~！@#￥……&*（）——|{}【】‘；：”“'。，、？]"
hibernate使用sql查询 ctrain Hibernate
import java.util.Iterator; import java.util.List; import java.util.Map; import org.hibernate.Hibernate; import org.hibernate.SQLQuery; import org.hibernate.Session; import org.hibernate.Transa
linux shell脚本中切换用户执行命令方法 daizj linux shell 命令切换用户
经常在写shell脚本时，会碰到要以另外一个用户来执行相关命令，其方法简单记下： 1、执行单个命令：su - user -c "command" 如：下面命令是以test用户在/data目录下创建test123目录 [root@slave19 /data]# su - test -c "mkdir /data/test123"
好的代码里只要一个 return 语句 dcj3sjt126com return
别再这样写了：public boolean foo() { if (true) { return true; } else { return false;
Android动画效果学习 dcj3sjt126com android
1、透明动画效果方法一：代码实现 public View onCreateView(LayoutInflater inflater, ViewGroup container, Bundle savedInstanceState) { View rootView = inflater.inflate(R.layout.fragment_main, container, fals
linux复习笔记之bash shell (4)管道命令 eksliang linux管道命令汇总 linux管道命令 linux常用管道命令
转载请出自出处： http://eksliang.iteye.com/blog/2105461 bash命令执行的完毕以后，通常这个命令都会有返回结果，怎么对这个返回的结果做一些操作呢？那就得用管道命令‘|’。上面那段话，简单说了下管道命令的作用，那什么事管道命令呢？答：非常的经典的一句话，记住了，何为管
Android系统中自定义按键的短按、双击、长按事件 gqdy365 android
在项目中碰到这样的问题：由于系统中的按键在底层做了重新定义或者新增了按键，此时需要在APP层对按键事件（keyevent）做分解处理，模拟Android系统做法，把keyevent分解成： 1、单击事件：就是普通key的单击； 2、双击事件：500ms内同一按键单击两次； 3、长按事件：同一按键长按超过1000ms（系统中长按事件为500ms）； 4、组合按键：两个以上按键同时按住；
asp.net获取站点根目录下子目录的名称 hvt .net C#asp.net hovertree Web Forms
使用Visual Studio建立一个.aspx文件(Web Forms)，例如hovertree.aspx,在页面上加入一个ListBox代码如下： <asp:ListBox runat="server" ID="lbKeleyiFolder" /> 那么在页面上显示根目录子文件夹的代码如下： string[] m_sub
Eclipse程序员要掌握的常用快捷键 justjavac java eclipse 快捷键 ide
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。写道程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可
c++编程随记 lx.asymmetric C++笔记
为了字体更好看，改变了格式…… &&运算符： #include<iostream> using namespace std; int main(){ int a=-1,b=4,k; k=(++a<0)&&!(b--
linux标准IO缓冲机制研究音频数据 linux
一、什么是缓存I/O(Buffered I/O)缓存I/O又被称作标准I/O,大多数文件系统默认I/O操作都是缓存I/O。在Linux的缓存I/O机制中，操作系统会将I/O的数据缓存在文件系统的页缓存(page cache)中，也就是说，数据会先被拷贝到操作系统内核的缓冲区中，然后才会从操作系统内核的缓冲区拷贝到应用程序的地址空间。1.缓存I/O有以下优点:A.缓存I/O使用了操作系统内核缓冲区，
随想生活暗黑小菠萝生活
其实账户之前就申请了，但是决定要自己更新一些东西看也是最近。从毕业到现在已经一年了。没有进步是假的，但是有多大的进步可能只有我自己知道。毕业的时候班里12个女生，真正最后做到软件开发的只要两个包括我，PS：我不是说测试不好。当时因为考研完全放弃找工作，考研失败，我想这只是我的借口。那个时候才想到为什么大学的时候不能好好的学习技术，增强自己的实战能力，以至于后来找工作比较费劲。我
我认为POJO是一个错误的概念 windshome java POJO 编程 J2EE 设计
这篇内容其实没有经过太多的深思熟虑，只是个人一时的感觉。从个人风格上来讲，我倾向简单质朴的设计开发理念；从方法论上，我更加倾向自顶向下的设计；从做事情的目标上来看，我追求质量优先，更愿意使用较为保守和稳妥的理念和方法。 &