lucas1997

MIT 计算机操作环境导论Missing Semester Lesson 4 数据整理

您是否曾经有过这样的需求，将某种格式存储的数据转换成另外一种格式? 肯定有过，对吧！这也正是我们这节课所要讲授的主要内容。具体来讲，我们需要不断地对数据进行处理，直到得到我们想要的最终结果。

在之前的课程中，其实我们已经接触到了一些数据整理的基本技术。可以这么说，每当您使用管道运算符的时候，其实就是在进行某种形式的数据整理。

例如这样一条命令 journalctl | grep -i intel，它会找到所有包含intel(区分大小写)的系统日志。您可能并不认为是数据整理，但是它确实将某种形式的数据（全部系统日志）转换成了另外一种形式的数据（仅包含intel的日志）。大多数情况下，数据整理需要您能够明确哪些工具可以被用来达成特定数据整理的目的，并且明白如何组合使用这些工具。

让我们从头讲起。既然需学习数据整理，那有两样东西自然是必不可少的：用来整理的数据以及相关的应用场景。日志处理通常是一个比较典型的使用场景，因为我们经常需要在日志中查找某些信息，这种情况下通读日志是不现实的。现在，让我们研究一下系统日志，看看哪些用户曾经尝试过登录我们的服务器：

ssh myserver journalctl

内容太多了。现在让我们把涉及 sshd 的信息过滤出来：

ssh myserver journalctl | grep sshd

注意，这里我们使用管道将一个远程服务器上的文件传递给本机的 grep 程序！ ssh 太牛了，下一节课我们会讲授命令行环境，届时我们会详细讨论 ssh 的相关内容。此时我们打印出的内容，仍然比我们需要的要多得多，读起来也非常费劲。我们来改进一下：

ssh myserver 'journalctl | grep sshd | grep "Disconnected from"' | less

多出来的引号是什么作用呢？这么说吧，我们的日志是一个非常大的文件，把这么大的文件流直接传输到我们本地的电脑上再进行过滤是对流量的一种浪费。因此我们采取另外一种方式，我们先在远端机器上过滤文本内容，然后再将结果传输到本机。 less 为我们创建来一个文件分页器，使我们可以通过翻页的方式浏览较长的文本。为了进一步节省流量，我们甚至可以将当前过滤出的日志保存到文件中，这样后续就不需要再次通过网络访问该文件了：

$ ssh myserver 'journalctl | grep sshd | grep "Disconnected from"' > ssh.log
$ less ssh.log

过滤结果中仍然包含不少没用的数据。我们有很多办法可以删除这些无用的数据，但是让我们先研究一下 sed 这个非常强大的工具。

sed 是一个基于文本编辑器ed构建的”流编辑器” 。在 sed 中，您基本上是利用一些简短的命令来修改文件，而不是直接操作文件的内容（尽管您也可以选择这样做）。相关的命令行非常多，但是最常用的是 s，即替换命令，例如我们可以这样写：

ssh myserver journalctl
 | grep sshd
 | grep "Disconnected from"
 | sed 's/.*Disconnected from //'

上面这段命令中，我们使用了一段简单的正则表达式。正则表达式是一种非常强大工具，可以让我们基于某种模式来对字符串进行匹配。s 命令的语法如下：s/REGEX/SUBSTITUTION/, 其中 REGEX 部分是我们需要使用的正则表达式，而 SUBSTITUTION 是用于替换匹配结果的文本。

正则表达式

正则表达式非常常见也非常有用，值得您花些时间去理解它。让我们从这一句正则表达式开始学习： /.*Disconnected from /。正则表达式通常以（尽管并不总是） /开始和结束。大多数的 ASCII 字符都表示它们本来的含义，但是有一些字符确实具有表示匹配行为的“特殊”含义。不同字符所表示的含义，根据正则表达式的实现方式不同，也会有所变化，这一点确实令人沮丧。常见的模式有：

. 除空格之外的”任意单个字符”
* 匹配前面字符零次或多次
+ 匹配前面字符一次或多次
[abc] 匹配 a, b 和 c 中的任意一个
(RX1|RX2) 任何能够匹配RX1 或 RX2的结果
^ 行首
$ 行尾

sed 的正则表达式有些时候是比较奇怪的，它需要你在这些模式前添加\才能使其具有特殊含义。或者，您也可以添加-E选项来支持这些匹配。

回过头我们再看/.*Disconnected from /，我们会发现这个正则表达式可以匹配任何以若干任意字符开头，并接着包含”Disconnected from “的字符串。这也正式我们所希望的。但是请注意，正则表达式并不容易写对。如果有人将 “Disconnected from” 作为自己的用户名会怎样呢？

Jan 17 03:13:00 thesquareplanet.com sshd[2631]: Disconnected from invalid user Disconnected from 46.97.239.16 port 55920 [preauth]

正则表达式会如何匹配？* 和 + 在默认情况下是贪婪模式，也就是说，它们会尽可能多的匹配文本。因此对上述字符串的匹配结果如下：

46.97.239.16 port 55920 [preauth]

这可不上我们想要的结果。对于某些正则表达式的实现来说，您可以给 * 或 + 增加一个? 后缀使其变成非贪婪模式，但是很可惜 sed 并不支持该后缀。不过，我们可以切换到 perl 的命令行模式，该模式支持编写这样的正则表达式：

perl -pe 's/.*?Disconnected from //'

让我们回到 sed 命令并使用它完成后续的任务，毕竟对于这一类任务，sed是最常见的工具。sed 还可以非常方便的做一些事情，例如打印匹配后的内容，一次调用中进行多次替换搜索等。但是这些内容我们并不会在此进行介绍。sed 本身是一个非常全能的工具，但是在具体功能上往往能找到更好的工具作为替代品。

好的，我们还需要去掉用户名后面的后缀，应该如何操作呢？

想要匹配用户名后面的文本，尤其是当这里的用户名可以包含空格时，这个问题变得非常棘手！这里我们需要做的是匹配一整行：

 | sed -E 's/.*Disconnected from (invalid |authenticating )?user .* [^ ]+ port [0-9]+( \[preauth\])?$//'

让我们借助正则表达式在线调试工具regex debugger 来理解这段表达式。OK，开始的部分和以前是一样的，随后，我们匹配两种类型的“user”（在日志中基于两种前缀区分）。再然后我们匹配属于用户名的所有字符。接着，再匹配任意一个单词（[^ ]+ 会匹配任意非空切不包含空格的序列）。紧接着后面匹配单“port”和它后面的一串数字，以及可能存在的后缀[preauth]，最后再匹配行尾。

注意，这样做的话，即使用户名是“Disconnected from”，对匹配结果也不会有任何影响，您知道这是为什么吗？

问题还没有完全解决，日志的内容全部被替换成了空字符串，整个日志的内容因此都被删除了。我们实际上希望能够将用户名保留下来。对此，我们可以使用“捕获组（capture groups）”来完成。被圆括号内的正则表达式匹配到的文本，都会被存入一系列以编号区分的捕获组中。捕获组的内容可以在替换字符串时使用（有些正则表达式的引擎甚至支持替换表达式本身），例如\1、 \2、\3等等，因此可以使用如下命令：

 | sed -E 's/.*Disconnected from (invalid |authenticating )?user (.*) [^ ]+ port [0-9]+( \[preauth\])?$/\2/'

想必您已经意识到了，为了完成某种匹配，我们最终可能会写出非常复杂的正则表达式。例如，这里有一篇关于如何匹配电子邮箱地址的文章e-mail address，匹配电子邮箱可一点也不简单。网络上还有很多关于如何匹配电子邮箱地址的讨论。人们还为其编写了测试用例及测试矩阵。您甚至可以编写一个用于判断一个数是否为质数的正则表达式。

正则表达式是出了名的难以写对，但是它仍然会是您强大的常备工具之一。

回到数据整理

OK，现在我们有如下表达式：

ssh myserver journalctl
 | grep sshd
 | grep "Disconnected from"
 | sed -E 's/.*Disconnected from (invalid |authenticating )?user (.*) [^ ]+ port [0-9]+( \[preauth\])?$/\2/'

sed 还可以做很多各种各样有趣的事情，例如文本注入：(使用 i 命令)，打印特定的行 (使用 p命令)，基于索引选择特定行等等。详情请见man sed!

现在，我们已经得到了一个包含用户名的列表，列表中的用户都曾经尝试过登陆我们的系统。但这还不够，让我们过滤出那些最常出现的用户：

ssh myserver journalctl
 | grep sshd
 | grep "Disconnected from"
 | sed -E 's/.*Disconnected from (invalid |authenticating )?user (.*) [^ ]+ port [0-9]+( \[preauth\])?$/\2/'
 | sort | uniq -c

sort 会对其输入数据进行排序。uniq -c 会把连续出现的行折叠为一行并使用出现次数作为前缀。我们希望按照出现次数排序，过滤出最常登陆的用户：

ssh myserver journalctl
 | grep sshd
 | grep "Disconnected from"
 | sed -E 's/.*Disconnected from (invalid |authenticating )?user (.*) [^ ]+ port [0-9]+( \[preauth\])?$/\2/'
 | sort | uniq -c
 | sort -nk1,1 | tail -n10

sort -n 会按照数字顺序对输入进行排序（默认情况下是按照字典序排序 -k1,1 则表示“仅基于以空格分割的第一列进行排序”。,n 部分表示“仅排序到第n个部分”，默认情况是到行尾。就本例来说，针对整个行进行排序也没有任何问题，我们这里主要是为了学习这一用法！

如果我们希望得到登陆次数最少的用户，我们可以使用 head 来代替tail。或者使用sort -r来进行倒序排序。

相当不错。但我们只想获取用户名，而且不要一行一个地显示。

ssh myserver journalctl
 | grep sshd
 | grep "Disconnected from"
 | sed -E 's/.*Disconnected from (invalid |authenticating )?user (.*) [^ ]+ port [0-9]+( \[preauth\])?$/\2/'
 | sort | uniq -c
 | sort -nk1,1 | tail -n10
 | awk '{print $2}' | paste -sd,

我们可以利用 paste命令来合并行(-s)，并指定一个分隔符进行分割 (-d)，那awk的作用又是什么呢？

awk – 另外一种编辑器

awk 其实是一种编程语言，只不过它碰巧非常善于处理文本。关于 awk 可以介绍的内容太多了，限于篇幅，这里我们仅介绍一些基础知识。

首先， {print $2} 的作用是什么？ awk 程序接受一个模式串（可选），以及一个代码块，指定当模式匹配时应该做何种操作。默认当模式串即匹配所有行（上面命令中当用法）。在代码块中，$0 表示正行的内容，$1 到 $n 为一行中的 n 个区域，区域的分割基于 awk 的域分隔符（默认是空格，可以通过-F来修改）。在这个例子中，我们的代码意思是：对于每一行文本，打印其第二个部分，也就是用户名。

让我们康康，还有什么炫酷的操作可以做。让我们统计一下所有以c 开头，以 e 结尾，并且仅尝试过一次登陆的用户。

 | awk '$1 == 1 && $2 ~ /^c[^ ]*e$/ { print $2 }' | wc -l

让我们好好分析一下。首先，注意这次我们为 awk指定了一个匹配模式串（也就是{...}前面的那部分内容）。该匹配要求文本的第一部分需要等于1（这部分刚好是uniq -c得到的计数值），然后其第二部分必须满足给定的一个正则表达式。代码快中的内容则表示打印用户名。然后我们使用 wc -l 统计输出结果的行数。

不过，既然 awk 是一种编程语言，那么则可以这样：

BEGIN { rows = 0 }
$1 == 1 && $2 ~ /^c[^ ]*e$/ { rows += $1 }
END { print rows }

BEGIN 也是一种模式，它会匹配输入的开头（ END 则匹配结尾）。然后，对每一行第一个部分进行累加，最后将结果输出。事实上，我们完全可以抛弃 grep 和 sed ，因为 awk 就可以解决所有问题。至于怎么做，就留给读者们做课后练习吧。

分析数据

想做数学计算也是可以的！例如这样，您可以将每行的数字加起来：

 | paste -sd+ | bc -l

下面这种更加复杂的表达式也可以：

echo "2*($(data | paste -sd+))" | bc -l

您可以通过多种方式获取统计数据。如果已经安装了R语言，st是个不错的选择：

ssh myserver journalctl
 | grep sshd
 | grep "Disconnected from"
 | sed -E 's/.*Disconnected from (invalid |authenticating )?user (.*) [^ ]+ port [0-9]+( \[preauth\])?$/\2/'
 | sort | uniq -c
 | awk '{print $1}' | R --slave -e 'x <- scan(file="stdin", quiet=TRUE); summary(x)'

R 也是一种编程语言，它非常适合被用来进行数据分析和绘制图表。这里我们不会讲的特别详细，您只需要知道summary 可以打印统计结果。我们通过输入的信息计算出一个矩阵，然后R语言就可以得到我们想要的统计数据。

如果您希望绘制一些简单的图表， gnuplot 可以帮助到您：

ssh myserver journalctl
 | grep sshd
 | grep "Disconnected from"
 | sed -E 's/.*Disconnected from (invalid |authenticating )?user (.*) [^ ]+ port [0-9]+( \[preauth\])?$/\2/'
 | sort | uniq -c
 | sort -nk1,1 | tail -n10
 | gnuplot -p -e 'set boxwidth 0.5; plot "-" using 1:xtic(2) with boxes'

利用数据整理来确定参数

有时候您要利用数据整理技术从一长串列表里找出你所需要安装或移除的东西。我们之前讨论的相关技术配合 xargs 即可实现：

rustup toolchain list | grep nightly | grep -vE "nightly-x86" | sed 's/-x86.*//' | xargs rustup toolchain uninstall

整理二进制数据

虽然到目前为止我们的讨论都是基于文本数据，但对于二进制文件其实同样有用。例如我们可以用 ffmpeg 从相机中捕获一张图片，将其转换成灰度图后通过SSH将压缩后的文件发送到远端服务器，并在那里解压、存档并显示。

ffmpeg -loglevel panic -i /dev/video0 -frames 1 -f image2 -
 | convert - -colorspace gray -
 | gzip
 | ssh mymachine 'gzip -d | tee copy.jpg | env DISPLAY=:0 feh -'

课后练习

学习一下这篇简短的交互式正则表达式教程.
统计words文件 (/usr/share/dict/words) 中包含至少三个a 且不以's 结尾的单词个数。这些单词中，出现频率最高的末尾两个字母是什么？ sed的 y命令，或者 tr 程序也许可以帮你解决大小写的问题。共存在多少种词尾两字母组合？还有一个很有挑战性的问题：哪个组合从未出现过？
进行原地替换听上去很有诱惑力，例如： sed s/REGEX/SUBSTITUTION/ input.txt > input.txt。但是这并不是一个明知的做法，为什么呢？还是说只有 sed是这样的? 查看 man sed 来完成这个问题
找出您最近十次开机的开机时间平均数、中位数和最长时间。在Linux上需要用到 journalctl ，而在 macOS 上使用 log show。找到每次起到开始和结束时的时间戳。在Linux上类似这样操作：
```
Logs begin at ...
```
和
```
systemd[577]: Startup finished in ...
```
在 macOS 上, 查找:
```
=== system boot:
```
和
```
Previous shutdown cause: 5
```
查看之前三次重启启动信息中不同的部分 (参见 journalctl的-b 选项)。将这一任务分为几个步骤，首先获取之前三次启动的启动日志，也许获取启动日志的命令就有合适的选项可以帮助您提取前三次启动的日志，亦或者您可以使用sed '0,/STRING/d' 来删除 STRING匹配到的字符串前面的全部内容。然后，过滤掉每次都不相同的部分，例如时间戳。下一步，重复记录输入行并对其计数(可以使用uniq )。最后，删除所有出现过3次的内容（因为这些内容上三次启动日志中的重复部分）。
在网上找一个类似这个或者这个的数据集。或者从这里找一些。使用 curl 获取数据集并提取其中两列数据，如果您想要获取的是HTML数据，那么pup可能会更有帮助。对于JSON类型的数据，可以试试jq。请使用一条指令来找出其中一列的最大值和最小值，用另外一条指令计算两列之间差的总和。

你可能感兴趣的:(编程杂谈)

Linux网络编程杂谈（聊聊网络编程背后的故事）青衫客36 工程化C Linux 网络 linux
数据是如何传输到物理网络上的？以TCP为例，当TCP决定发送数据时，这些数据需要经过多个处理阶段才能真正被传输到物理网络。其中一个关键步骤是将数据移动到网络接口卡(NIC)。以下是这个过程的详细描述：数据序列化:TCP会为要发送的数据添加TCP头部，这创建了一个TCP数据段。这个TCP数据段再被IP层封装，添加IP头部，形成一个IP数据包。依据使用的物理媒体和链路层协议，如Ethernet，此IP
Windows黑客编程基础 weixin_33717117 操作系统开发工具 c#
Windows黑客编程基础上面的题目带有“黑客”两个字，请大家别误会了，其实没有多少是讲黑客的，这完全是一篇菜鸟级的编程杂谈，如果您已是高手，就不必在此浪费时间了。前几天在网上看了“病毒”兄写的《WIN下编程须知》一文，觉得在编程方面要写出一篇适合初学者们看的入门级文章的确很重要，可惜病毒兄只在该文里介绍了线程、消息、句柄等几个基本概念。很多初学者看了对编程还是感到很迷惑，一个从来没有写过程序的人
C++编程杂谈之漫谈UML weixin_34178244 c/c++设计模式
UML对很多人来说应该不是一个陌生的概念，这一两年来，UML被大家越来越多的讨论着。本来UML跟我这个主题似乎并不能扯上多大的关系（它是语言无关的，甚至可以说其本身就是一种语言——用于交流的）。我在此谈到它有两个目的：1．UML是针对面向对象软件开发的，而C++正是这样的一种语言2．UML在设计中被越来越多的使用着，而下一篇杂谈准备讨论设计模式，如果不了解UML，那么无法进行下去UML，全称：Un
函数式编程杂谈 vivo互联网技术技术干货
本文首发于vivo互联网技术微信公众号链接：https://mp.weixin.qq.com/s/gqw57pBYB4VRGKmNlkAODg作者：张文博比起命令式编程，函数式编程更加强调程序执行的结果而非执行的过程，倡导利用若干简单的执行单元让计算结果不断演进，逐层推导出复杂的运算。本文通过函数式编程的一些趣味用法来阐述学习函数式编程的奇妙之处。一、编程范式综述编程是为了解决问题，而解决问题可以
编程杂谈 tomjobs #杂谈
1default默认2elseif的BUG暂未解决，同志仍需努力——其实就是布尔表达式的问题3while(flag)相当于while(flag!=0)while(!flag)相当于while(flag==0)?:为三目表达式，逐个检验真假4首行定义下面的组数或者行数可以用strlen取其5乘法表与6ceil表示向上取整7关系和逻辑运算符的结果只有0和1——由此可以延伸到while(flag)之类的
初中生学编程杂谈不再码农初中生学编程杂谈
大家好，我是火之意。之所以起这个名字作为笔名，估计大家看过火影忍者的人都知道吧！可能各有各的理解，对于我的理解化身为了对梦想的执着。经历？不算好也不算坏：09年~12年大学三年，ACM（大学生程序设计竞赛）参加吉林省赛，东北地区，亚洲区预赛各项赛事。12年大四实习，北京4399，13年毕业菲音科技，14年~17年玩蟹科技，18年~至今搜狐畅游。语言：精通C语言，C++，C#,python,lua等
初中生学编程杂谈(1) 不再码农初中生学编程杂谈
就目前来看，编程不仅可以成为兴趣，更能成为一种生存技能。在未来科技领域编程势必会精益求精，更高效得算法，更好的引擎，更出彩得编程人员。因为知道了编程得根本，也能够让我们玩游戏更理性。本期得初中生学编程主要以C语言和数据结构为主，之后会增加游戏编程，web开发，算法等课程。如果对编程有一定了解的，会知道所有语言得开始，离不开“HelloWorld”。我们这节课程得开始也是如此，毕竟不能忘其根本。本章
Windows黑客编程基础（上） cndeer C++
编者按：俗话说：“万事开头难”，编程也不例外，初学者如何入门关键要有一份正确的理论作指导，下面的这篇文章虽不能说是至理名言，但我相信通过作者细腻的分析、讲解和引导，定能给初学者起到启蒙的作用。本文分上下两部分，本期注重于讲理论，更精彩的还在下期，请读者密切关注。Windows黑客编程基础（上）文/劲风上面的题目带有“黑客”两个字，请大家别误会了，其实没有多少是讲黑客的，这完全是一篇菜鸟级的编程杂谈
Linux环境下网络编程杂谈 weixin_34295316
今天我们说说“Pre-网络编程”。内容比较杂，但都是在做网络应用程序开发过程中经常要遇到的问题。一、大端、小端和网络字节序小端字节序：little-endian，将低字节存放在内存的起始地址；大端字节序：big-endian，将高字节存放在内存的其实地址。例如，数字index=0x11223344，在大小端字节序方式下其存储形式为：上图一目了然的可以看出大小端字节序的区别。还有另外一个概念就是网络
多核编程杂谈 baihacker
多核计算杂谈--讨论在多核编程时，在CPU和内存层次上应该知道的一些东西。尝试找到协调多核工作的本质上的问题。这里讨论基本上参考x86体系，然后根据需要简化或修改。先看看各个缓存：为了解决访问存储器和CPU操作之间的不平衡，使得存储器访问不拖后退，利用局部性原理，将存储器分级，提升存储器读写性能的方案，称之为缓存。在这里的思考中，先把各个缓存去掉，于是面对的就是若干核，同一个存储器，这样看比较简单
51单片机C语言编程杂谈基础----全局变量和局部变量炉子热 51单片机C语言基础
我记着我在开始编写51单片机程序的时候，老是在思考一个问题：怎么把一个函数中的值传到另一个函数中去呢？？？让我痛不堪言。虽然简单，但是在那个时候我还是不知道的。全局变量：就是在整个工程都可以使用的（概括说，当然需要引用extern等关键字）。局部变量：是在函数内有效。或者说是在{}域内有效的变量。上面的概括都是不谨慎的说法，完全为了刚开始用c语言的小伙伴们而描述的。#include#include
Windows黑客编程基础 zerray 编程
俗话说：“万事开头难”，编程也不例外，初学者如何入门关键要有一份正确的理论作指导，下面的这篇文章虽不能说是至理名言，但我相信通过作者细腻的分析、讲解和引导，定能给初学者起到启蒙的作用。本文分上下两部分，本期注重于讲理论，更精彩的还在下期，请读者密切关注。Windows黑客编程基础（上）文/劲风上面的题目带有“黑客”两个字，请大家别误会了，其实没有多少是讲黑客的，这完全是一篇菜鸟级的编程杂谈，如果您
泛型编程杂谈 weixin_33851177
谈泛型(GP)之前,先谈一下面向对象(OO),OO强调世界是由对象组成的，对象是由方法和属性组成的(个人感觉还应该加上事件)，而对象之间又有继承(is-a)和组合等关系。OO很符合我们认识世界的直觉，它以封装，继承和多态为特性，我们在现实工作中又总结出来了OO的5大设计原则和23种设计模式。总之，OO基本上已经可以很好的解决我们现实生活中的所有问题。那么既然OO已经可以很好的解决我们的问题了，为什
网络编程杂谈之TCP协议 bigfan
TCP协议属于网络分层中的传输层，传输层作用的就是建立端口与端口的通信，而其下一层网络层的主要作用是建立"主机到主机"的通信，所以在我们日常进行网络编程时只要确定主机和端口，就能实现程序之间的数据交流，在Unix系统中就把主机+端口，叫做"套接字"（socket），所以一般网络编程都是基于对于socket的操作来做的。TCP协议其实是一个非常复杂的协议，做过网络编程开发的都听过一句话‘’TCP本身
函数式编程杂谈 vivo互联网技术
本文首发于vivo互联网技术微信公众号链接：https://mp.weixin.qq.com/s/gqw57pBYB4VRGKmNlkAODg作者：张文博比起命令式编程，函数式编程更加强调程序执行的结果而非执行的过程，倡导利用若干简单的执行单元让计算结果不断演进，逐层推导出复杂的运算。本文通过函数式编程的一些趣味用法来阐述学习函数式编程的奇妙之处。一、编程范式综述编程是为了解决问题，而解决问题可以
编程杂谈——std::vector与List的性能比较 Ken.W
昨天在比较完C++中std::vector的两个方法的性能差异并留下记录后——编程杂谈——使用emplace_back取代push_back，今日尝试在C#中测试对应功能的性能。C#中对应std::vector的数据结构为List。更多的对应关系可以参照下面：std::vector-Liststd::list-LinkedListstd::map-Dictionarystd::set-HashSe
编程杂谈——使用emplace_back取代push_back Interest-Driven Engineer
近日在YouTube视频上看到关于vector中emplace_back与push_back区别的介绍，深感自己在现代C++中还是有不少遗漏的知识点，遂写了段代码，尝试比较两者的差别。示例代码#include#include#include#includeclassItem{public:Item(std::stringname,booldisplay=true):name(name),displ
编程杂谈——使用emplace_back取代push_back Ken.W
近日在YouTube视频上看到关于vector中emplace_back与push_back区别的介绍，深感自己在现代C++中还是有不少遗漏的知识点，遂写了段代码，尝试比较两者的差别。示例代码#include#include#include#includeclassItem{public:Item(std::stringname,booldisplay=true):name(name),displ
函数式编程杂谈 vivo互联网技术函数 scala 函数式编程
本文首发于vivo互联网技术微信公众号链接：https://mp.weixin.qq.com/s/gqw57pBYB4VRGKmNlkAODg作者：张文博比起命令式编程，函数式编程更加强调程序执行的结果而非执行的过程，倡导利用若干简单的执行单元让计算结果不断演进，逐层推导出复杂的运算。本文通过函数式编程的一些趣味用法来阐述学习函数式编程的奇妙之处。一、编程范式综述编程是为了解决问题，而解决问题可以
函数式编程杂谈 vivo互联网技术
本文首发于vivo互联网技术微信公众号链接：https://mp.weixin.qq.com/s/gqw57pBYB4VRGKmNlkAODg作者：张文博比起命令式编程，函数式编程更加强调程序执行的结果而非执行的过程，倡导利用若干简单的执行单元让计算结果不断演进，逐层推导出复杂的运算。本文通过函数式编程的一些趣味用法来阐述学习函数式编程的奇妙之处。一、编程范式综述编程是为了解决问题，而解决问题可以
函数式编程杂谈 vivo互联网函数式编程函数运算函数参数原创干货
本文首发于vivo互联网技术微信公众号链接：https://mp.weixin.qq.com/s/gqw57pBYB4VRGKmNlkAODg作者：张文博比起命令式编程，函数式编程更加强调程序执行的结果而非执行的过程，倡导利用若干简单的执行单元让计算结果不断演进，逐层推导出复杂的运算。本文通过函数式编程的一些趣味用法来阐述学习函数式编程的奇妙之处。一、编程范式综述编程是为了解决问题，而解决问题可以
编程杂谈——Platform target x64 Ken.W
在VisualStudio中选择.NETFramework框架并选用任意模板创建一个普通的Web应用工程，毫无疑问，此时应该是能够正常运行此工程的。但是将工程属性->编译->Platformtarget一项中从AnyCPU改成x64。再运行工程后，页面会出现服务器错误的提示。这是因为默认情况下VisualStudio调试时所用的IISExpress是32位的，只能运行同是32位的程序。修正的方法是
编程杂谈——Non-breaking space Ken.W
近日，意外地遇上件不寻常的事情。在解析PDF文件，读取其中内容的时候，对某一文件的处理，始终无法达到预期的效果。解析方法如下：publicvoidParse(stringvalue){if(value=="GeneralInformation"){...}}经调试发现此时传入的参数值是GeneralInformation，但在实际执行时并未进入到if(value=="GeneralInformat
编程杂谈：从人类与软件系统的根本矛盾说起 YOYO&#
在纷繁复杂的概念满天飞舞的软件编程领域，希望能分享自己整理的一些观点，帮助大家穿透迷雾，看清问题以及解决方案的本质。人类认知能力上限有一个说法：人的短时记忆广度平均数为7,即大多数人一次最多只能记忆7个独立的块（Magicnumber7）。有另外一个说法：当需要根据短时记忆进行信息加工时，一个成年人能处理的块的个数是4左右(Workingmemory)。这些说法不一定完全正确，但我们可以肯定的是，
使用Python在ArcGIS中编程杂谈 GIS-XX Python
原文：使用Python在ArcGIS中编程杂谈作为一名GISer，编程能力是必不可少的。学习编程说起来容易做起来难，特别是不知道从哪里开始。本文主要是指引你开始使用针对GIS的Python编程。在我看来，Python可以作为GISer的第一门语言，以后再学习更多语言。从初学者的角度来看，不建议立即开始学习许多语言，而是根据你的目标做一个选择，并为之付出时间努力学习。Python是学习GIS开发的很
随笔编程杂谈录：[-封装-] 张风捷特烈
制造轮子和创造轮子两者的区别在于:一者为复用，一者为封装一、与封装的初遇现在回到第一次我接触封装的时候:两年前，class这个词进入了我的世界，但class并不是我封装思想的启蒙师。在此之前，让我初次领略封装的强大之物是电子元件的引脚和它的真值表。下面的例子希望你可以好好理解一下：怎么在逻辑上实现一位二进制的加法的逻辑运算单元如果你看不下去,就直接return到第6小点1.与门(AND)和非门(N
网络编程杂谈网络编程
1. 弱端系统与强端系统假定你有两台计算机： A: eth0: 192.168.0.1 B: eth0: 192.168.0.2; eth1: 10.0.0.2 A的eth0（192.-）连接到B的eth1（10.-）。你从A发一个目的IP为192.168.0.2的报文，若B接受，则是弱端系统；若B不接受，则为强端系统。 2. connect返回非EIN
C++编程杂谈之漫谈UML C++
UML对很多人来说应该不是一个陌生的概念，这一两年来，UML被大家越来越多的讨论着。本来UML跟我这个主题似乎并不能扯上多大的关系（它是语言无关的，甚至可以说其本身就是一种语言——用于交流的）。我在此谈到它有两个目的： 1． UML是针对面向对象软件开发的，而C++正是这样的一种语言 2． UML在设计中被越来越多的使用着，而下一篇杂谈准备讨论设计模式，如果不了解UM
编程杂谈编程
字节顺序　　字节顺序是指占内存多于一个字节类型的数据在内存中的存放顺序，通常有小端、大端两种字节顺序。小端字节序指低字节数据存放在内存低地址处，高字节数据存放在内存高地址处；大端字节序是高字节数据存放在低地址处，低字节数据存放在高地址处。　　基于X86平台的PC机是小端字节序的，而有的嵌入式平台则是大端字节序的。因而对int、uint16、uint32等多于1字节类型的数据，在这些嵌入式平
泛型编程杂谈编程
谈泛型 (GP)之前, 先谈一下面向对象(OO), OO强调世界是由对象组成的，对象是由方法和属性组成的(个人感觉还应该加上事件)，而对象之间又有继承(is-a)和组合等关系。OO很符合我们认识世界的直觉，它以封装，继承和多态为特性，我们在现实工作中又总结出来了OO的5大设计原则和23种设计模式。总之，OO基本上已经可以很好的解决我们现实生活中的所有问题。那么既然OO已经可以很好的解
HQL之投影查询归来朝歌 HQL Hibernate 查询语句投影查询
在HQL查询中，常常面临这样一个场景，对于多表查询，是要将一个表的对象查出来还是要只需要每个表中的几个字段，最后放在一起显示？针对上面的场景，如果需要将一个对象查出来： HQL语句写“from 对象”即可 Session session = HibernateUtil.openSession();
Spring整合redis bylijinnan redis
pom.xml <dependencies>  <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-redi
org.hibernate.NonUniqueResultException: query did not return a unique result: 2 0624chenhong Hibernate
参考：http://blog.csdn.net/qingfeilee/article/details/7052736 org.hibernate.NonUniqueResultException: query did not return a unique result: 2 在项目中出现了org.hiber
android动画效果不懂事的小屁孩 android动画
前几天弄alertdialog和popupwindow的时候，用到了android的动画效果，今天专门研究了一下关于android的动画效果，列出来，方便以后使用。 Android 平台提供了两类动画。一类是Tween动画，就是对场景里的对象不断的进行图像变化来产生动画效果（旋转、平移、放缩和渐变）。第二类就是 Frame动画，即顺序的播放事先做好的图像，与gif图片原理类似。
js delete 删除机理以及它的内存泄露问题的解决方案换个号韩国红果果 JavaScript
delete删除属性时只是解除了属性与对象的绑定，故当属性值为一个对象时，删除时会造成内存泄露（其实还未删除）举例： var person={name:{firstname:'bob'}} var p=person.name delete person.name p.firstname -->'bob' // 依然可以访问p.firstname，存在内存泄露
Oracle将零干预分析加入网络即服务计划蓝儿唯美 oracle
由Oracle通信技术部门主导的演示项目并没有在本月较早前法国南斯举行的行业集团TM论坛大会中获得嘉奖。但是，Oracle通信官员解雇致力于打造一个支持零干预分配和编制功能的网络即服务（NaaS）平台，帮助企业以更灵活和更适合云的方式实现通信服务提供商（CSP）的连接产品。这个Oracle主导的项目属于TM Forum Live!活动上展示的Catalyst计划的19个项目之一。Catalyst计
spring学习——springmvc（二） a-john springMVC
Spring MVC提供了非常方便的文件上传功能。 1，配置Spring支持文件上传： DispatcherServlet本身并不知道如何处理multipart的表单数据，需要一个multipart解析器把POST请求的multipart数据中抽取出来，这样DispatcherServlet就能将其传递给我们的控制器了。为了在Spring中注册multipart解析器，需要声明一个实现了Mul
POJ-2828-Buy Tickets aijuans ACM_POJ
POJ-2828-Buy Tickets http://poj.org/problem?id=2828 线段树，逆序插入 #include<iostream>#include<cstdio>#include<cstring>#include<cstdlib>using namespace std;#define N 200010struct
Java Ant build.xml详解 asia007 build.xml
1,什么是antant是构建工具2,什么是构建概念到处可查到，形象来说，你要把代码从某个地方拿来，编译，再拷贝到某个地方去等等操作，当然不仅与此，但是主要用来干这个3,ant的好处跨平台 --因为ant是使用java实现的，所以它跨平台使用简单--与ant的兄弟make比起来语法清晰--同样是和make相比功能强大--ant能做的事情很多，可能你用了很久，你仍然不知道它能有
android按钮监听器的四种技术百合不是茶 android xml配置监听器实现接口
android开发中经常会用到各种各样的监听器,android监听器的写法与java又有不同的地方; 1,activity中使用内部类实现接口 ,创建内部类实例使用add方法与java类似创建监听器的实例 myLis lis = new myLis(); 使用add方法给按钮添加监听器
软件架构师不等同于资深程序员 bijian1013 程序员架构师架构设计
本文的作者Armel Nene是ETAPIX Global公司的首席架构师，他居住在伦敦，他参与过的开源项目包括 Apache Lucene,，Apache Nutch， Liferay 和 Pentaho等。如今很多的公司
TeamForge Wiki Syntax & CollabNet User Information Center sunjing TeamForge How do Attachement Anchor Wiki Syntax
the CollabNet user information center http://help.collab.net/ How do I create a new Wiki page? A CollabNet TeamForge project can have any number of Wiki pages. All Wiki pages are linked, and
【Redis四】Redis数据类型 bit1129 redis
概述 Redis是一个高性能的数据结构服务器，称之为数据结构服务器的原因是，它提供了丰富的数据类型以满足不同的应用场景，本文对Redis的数据类型以及对这些类型可能的操作进行总结。 Redis常用的数据类型包括string、set、list、hash以及sorted set.Redis本身是K/V系统，这里的数据类型指的是value的类型，而不是key的类型，key的类型只有一种即string
SSH2整合-附源码白糖_ eclipse spring tomcat Hibernate Google
今天用eclipse终于整合出了struts2+hibernate+spring框架。我创建的是tomcat项目，需要有tomcat插件。导入项目以后，鼠标右键选择属性，然后再找到“tomcat”项，勾选一下“Is a tomcat project”即可。具体方法见源码里的jsp图片，sql也在源码里。补充1：项目中部分jar包不是最新版的，可能导
[转]开源项目代码的学习方法 braveCS 学习方法
转自： http://blog.sina.com.cn/s/blog_693458530100lk5m.html http://www.cnblogs.com/west-link/archive/2011/06/07/2074466.html 1）阅读features。以此来搞清楚该项目有哪些特性2）思考。想想如果自己来做有这些features的项目该如何构架3）下载并安装d
编程之美-子数组的最大和（二维） bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; import java.util.Random; public class MaxSubArraySum2 { /** * 编程之美子数组之和的最大值（二维） */ private static final int ROW = 5; private stat
读书笔记-3 chengxuyuancsdn jquery笔记 resultMap配置 ibatis一对多配置
1、resultMap配置 2、ibatis一对多配置 3、jquery笔记 1、resultMap配置当<select resultMap="topic_data"> <resultMap id="topic_data">必须一一对应。 (1)<resultMap class="tblTopic&q
[物理与天文]物理学新进展 comsci
如果我们必须获得某种地球上没有的矿石,才能够进行某些能量输出装置的设计和建造,而要获得这种矿石,又必须首先进行深空探测,而要进行深空探测,又必须获得这种能量输出装置,这个矛盾的循环,会导致地球联盟在与宇宙文明建立关系的时候,陷入困境怎么办呢?
Oracle 11g新特性:Automatic Diagnostic Repository daizj oracle ADR
Oracle Database 11g的FDI（Fault Diagnosability Infrastructure）是自动化诊断方面的又一增强。 FDI的一个关键组件是自动诊断库（Automatic Diagnostic Repository-ADR）。在oracle 11g中，alert文件的信息是以xml的文件格式存在的，另外提供了普通文本格式的alert文件。这两份log文
简单排序:选择排序 dieslrae 选择排序
public void selectSort(int[] array){ int select; for(int i=0;i<array.length;i++){ select = i; for(int k=i+1;k<array.leng
C语言学习六指针的经典程序，互换两个数字 dcj3sjt126com c
示例程序，swap_1和swap_2都是错误的，推理从1开始推到2，2没完成，推到3就完成了 # include <stdio.h> void swap_1(int, int); void swap_2(int *, int *); void swap_3(int *, int *); int main(void) { int a = 3; int b =
php 5.4中php-fpm 的重启、终止操作命令 dcj3sjt126com PHP
php 5.4中php-fpm 的重启、终止操作命令: 查看php运行目录命令：which php/usr/bin/php 查看php-fpm进程数：ps aux | grep -c php-fpm 查看运行内存/usr/bin/php -i|grep mem 重启php-fpm/etc/init.d/php-fpm restart 在phpinfo()输出内容可以看到php
线程同步工具类 shuizhaosi888 同步工具类
同步工具类包括信号量（Semaphore）、栅栏（barrier）、闭锁（CountDownLatch）闭锁（CountDownLatch） public class RunMain { public long timeTasks(int nThreads, final Runnable task) throws InterruptedException { fin
bleeding edge是什么意思 haojinghua DI
不止一次，看到很多讲技术的文章里面出现过这个词语。今天终于弄懂了——通过朋友给的浏览软件，上了wiki。我再一次感到，没有辞典能像WiKi一样，给出这样体贴人心、一清二楚的解释了。为了表达我对WiKi的喜爱，只好在此一一中英对照，给大家上次课。 In computer science, bleeding edge is a term that
c中实现utf8和gbk的互转 jimmee c iconv utf8&gbk编码
#include <iconv.h> #include <stdlib.h> #include <stdio.h> #include <unistd.h> #include <fcntl.h> #include <string.h> #include <sys/stat.h> int code_c
大型分布式网站架构设计与实践 lilin530 应用服务器搜索引擎
1.大型网站软件系统的特点？ a.高并发，大流量。 b.高可用。 c.海量数据。 d.用户分布广泛，网络情况复杂。 e.安全环境恶劣。 f.需求快速变更，发布频繁。 g.渐进式发展。 2.大型网站架构演化发展历程？ a.初始阶段的网站架构。应用程序，数据库，文件等所有的资源都在一台服务器上。 b.应用服务器和数据服务器分离。 c.使用缓存改善网站性能。 d.使用应用
在代码中获取Android theme中的attr属性值 OliveExcel android theme
Android的Theme是由各种attr组合而成, 每个attr对应了这个属性的一个引用, 这个引用又可以是各种东西. 在某些情况下, 我们需要获取非自定义的主题下某个属性的内容 (比如拿到系统默认的配色colorAccent), 操作方式举例一则: int defaultColor = 0xFF000000; int[] attrsArray = { andorid.r.
基于Zookeeper的分布式共享锁 roadrunners zookeeper 分布式共享锁
首先，说说我们的场景，订单服务是做成集群的，当两个以上结点同时收到一个相同订单的创建指令，这时并发就产生了，系统就会重复创建订单。等等......场景。这时，分布式共享锁就闪亮登场了。共享锁在同一个进程中是很容易实现的，但在跨进程或者在不同Server之间就不好实现了。Zookeeper就很容易实现。具体的实现原理官网和其它网站也有翻译，这里就不在赘述了。官
两个容易被忽略的MySQL知识 tomcat_oracle mysql
1、varchar(5)可以存储多少个汉字，多少个字母数字？　　相信有好多人应该跟我一样，对这个已经很熟悉了，根据经验我们能很快的做出决定，比如说用varchar(200)去存储url等等，但是，即使你用了很多次也很熟悉了，也有可能对上面的问题做出错误的回答。　　这个问题我查了好多资料，有的人说是可以存储5个字符，2.5个汉字（每个汉字占用两个字节的话），有的人说这个要区分版本，5.0
zoj 3827 Information Entropy(水题) 阿尔萨斯 format
题目链接：zoj 3827 Information Entropy 题目大意：三种底，计算和。解题思路：调用库函数就可以直接算了，不过要注意Pi = 0的时候，不过它题目里居然也讲了。。。limp→0+plogb(p)=0，因为p是logp的高阶。 #include <cstdio> #include <cstring> #include <cmath&