fmddlmyy

几个文本处理的小题目

在北大中文论坛的中文信息处理版有时会看到一些与文本处理有关的问题。想想怎么解答这些问题，其实也挺有意思，有点像解谜游戏。例如今天看到的一个问题：

1 找重码

1.1 问题

怎么找出码表中的重码？假设有码表test.txt：

甲   AB
雅   AB
弟   AC
大   AD
发   BC
收   BC
回   BC
收   CE
名   CE

其中有的汉字有相同的编码。我们的任务是列出有重码的行，例如：

甲   AB
雅   AB
弟   AC
大   AD
发   BC
收   BC
回   BC
收   CE
名   CE

1.2 求解

刚看到这个题目时，我觉得只有编程才能解决。看到其它网友建议用sort、uniq这些工具，我看了看相关工具的帮助，找到一种不编程的解法。

sort --key=2 test.txt | uniq -u --skip-fields=1 > test_uniq.txt
grep -vf test_uniq.txt test.txt > test_dup.txt

用sort排序时，可以指定要排序的列。例如--key=2就是要求按照第二列（field）排序。这里列就是用空白字符（空格、tab）分隔的非空白字符。我们用sort先把输入文件按编码排序。排序是在为使用uniq作准备。

我印象中的uniq是保留连续重复行的第一行。其实，使用-u参数还可以让uniq只打印出不重复的行。使用--skip-fields=N可以让uniq忽略前N列。通过sort和uniq，我们得到了所有不重码的行，保存到uniq.txt。 uniq.txt的内容是

弟   AC
大   AD

在码表中去掉所有不重码的行，就可以得到所有重码的行。grep的-f参数可以将文件中的每一行当作要匹配的模式。-v参数可以列出不匹配的行。在文件2中找与文件1不匹配的行，就相当于在文件2中去掉与文件1匹配的行，这正好是我们想得到的结果。dup.txt的内容是：

甲   AB
雅   AB
发   BC
收   BC
回   BC
收   CE
名   CE

在windows平台可以通过cygwin使用这些工具。我把相关程序放到了主页上（下载）。因为Windows也有一个sort程序，我将cygwin的sort更名为lsort。

2 交集和补集

2.1 问题

有个网友提问如何求两列词组的交集和补集。例如假设有集合A（A.txt）：

中国
人民
共和
祖国
万岁
团结
北京
奥运
红旗
友谊

集合B（B.txt）：

中国
江山
祖国
美好
美誉
一定
万岁

A和B的交集是两者都包含的行，即：

中国
祖国
万岁

集合A中集合B的补集是就是A包含但B不包含的行，即：

人民
共和
团结
北京
奥运
红旗
友谊

数学上的补集要求B是A的子集。本文不做这个限制，只是借用补集这个名词。这位网友要求仅用Excel，不用其它软件。但我们先不管他，看看不用Excel的解法。

2.2 解答一

其实我们只要在A.txt中查找与B.txt匹配的行，就可以得到A与B的交集：

D:/tools>grep -f B.txt A.txt
中国
祖国
万岁

我们在A.txt中查找与B.txt不匹配的行，就得到了集合A中集合B的补集：

D:/tools>grep -vf B.txt A.txt
人民
共和
团结
北京
奥运
红旗
友谊

是不是很简单？不过我后来发现使用grep在文件A中查找文件B只适合于文件B比较小的情况。当文件B比较大时，速度会慢得无法接受。后记讨论更快的求补集和交集的方法。

2.3 解答二

如果指定用Excel，我想不到什么简单的方法，只能用VBA。

2.3.1 VLookup函数

Excel VBA有个VLookup函数：

VLookup(lookup_value,table_array,col_index_num,range_lookup)

lookup_value是要查找的值。

table_array指定查找的范围。table_array可以指定多列，VLookup查找第一列。

col_index_num是找到匹配的单元格后，返回该单元格所在行的第几列。 col_index_num的值应该在1和table_array的列数之间。

range_lookup是个布尔值。range_lookup为FALSE，表示要求完全匹配，找不到就返回错误值。 range_lookup为TRUE时，要求待查找的列是按升序排序的，如果找不到完全匹配的值，就返回小于lookup_value的最大值。

2.3.2 求交集

我们可以用VLookup函数在集合A里找逐一查找集合B的元素。如果找到，这个元素就属于两个集合的交集。代码如下：

Private Sub intersection_Click()
'在s1列中查找s2的单元格。如果找到了就写在res列

Const sheet As String = "Sheet1"   '工作表名字
Const s1_col As Integer = 1    's1列位置
Const s1_row As Integer = 1    '集合1从从s1列的这行开始
Const s2_col As Integer = 2    's2列位置
Dim s2_row As Integer
Const res_col As Integer = 3   '结果所在列
Dim res_row As Integer   '结果列中下一个空行

'可以配置的值
s2_row = 1      '集合2从从s2列的这行开始
res_row = 1     '结果列从这行开始写

Dim cell As String
Dim s1_last_row As Integer    '集合1的最后一行

'找到集合1的最后一行，空单元格表示结束
s1_last_row = s1_row
cell = Cells(s1_last_row, s1_col)
Do While cell <> ""
    s1_last_row = s1_last_row + 1
    cell = Cells(s1_last_row, s1_col)
Loop

s1_last_row = s1_last_row - 1
If s1_last_row < s1_row Then
    MsgBox ("集合1空")
    Exit Sub
End If
    
Dim tmp As Variant
Dim s1 As Range
Set s1 = Worksheets(sheet).Range(Cells(s1_row, s1_col), Cells(s1_last_row, s1_col))
cell = Cells(s2_row, s2_col)
'用VLookup函数在集合1里找逐一找集合2的单元，如果找到，这个单元就是两个集合的交集
Do While cell <> ""
    tmp = Application.VLookup(cell, s1, 1, False)
    If IsError(tmp) = False Then
        Cells(res_row, res_col) = tmp
        res_row = res_row + 1
    End If
    s2_row = s2_row + 1
    cell = Cells(s2_row, s2_col)
Loop
End Sub

2.3.3 求补集

我们用VLookup函数在集合B里找逐一查找集合A的单元，如果找不到，这个单元就属于在集合A中集合B的补集。代码如下：

Private Sub complement_Click()
'在s2列中查找s1的单元格。如果找到了就什么都不做。如果没找到就把这个单元格写到res列

Const sheet As String = "Sheet2"   '工作表名字
Const s1_col As Integer = 1    's1列位置
Dim s1_row As Integer
Const s2_col As Integer = 2    's2列位置
Const s2_row As Integer = 1    '集合2从从s2列的这行开始
Const res_col As Integer = 3   '结果所在列
Dim res_row As Integer   '结果列中下一个空行

'可以配置的值
s1_row = 1      '集合1从从s2列的这行开始
res_row = 1     '结果列从这行开始写

Dim cell As String
Dim s2_last_row As Integer    '集合1的最后一行

'找到集合2的最后一行，空单元格表示结束
s2_last_row = s2_row
cell = Cells(s2_last_row, s2_col)
Do While cell <> ""
    s2_last_row = s2_last_row + 1
    cell = Cells(s2_last_row, s2_col)
Loop

s2_last_row = s2_last_row - 1
If s2_last_row < s2_row Then
    MsgBox ("集合2空")
    Exit Sub
End If
    
Dim tmp As Variant
Dim s2 As Range
Set s2 = Worksheets(sheet).Range(Cells(s2_row, s2_col), Cells(s2_last_row, s2_col))
cell = Cells(s1_row, s1_col)
'用VLookup函数在集合2里找逐一找集合1的单元，如果找不到，这个单元就属于在集合1里集合2的补集
Do While cell <> ""
    tmp = Application.VLookup(cell, s2, 1, False)
    If IsError(tmp) = True Then
        Cells(res_row, res_col) = cell
        res_row = res_row + 1
    End If
    s1_row = s1_row + 1
    cell = Cells(s1_row, s1_col)
Loop
End Sub

2.3.4 说明

是不是很复杂？

思路其实很简单，但代码看上去还是很繁琐的。从我的主页可下载这个示例的Excel表格。打开这个包含宏的excel表格需要先将"工具-宏-安全性"设到中，然后打开时选择启用宏。

在Excel的“视图”->“工具栏”中打开“控件工具箱”工具栏，点击设计模式按钮可以切换设计模式。在设计模式，可以在按钮的右键菜单中选择“查看代码”。选择“工具”->“宏”->“Visual Basic 编辑器”可以查看表格中的代码。按快捷键Alt+F11可以在Excel表格和代码编辑器之间快速切换。

Excel在处理大数据时速度很慢。我平时用Excel，通常只用它的排序、10进制-16进制转换，很少用VBA。这两个函数是看着帮助，用一个中午写出来的。其实，这是一个反例。它说明选择不恰当的工具可能事倍功半。

3 删除重复行

3.1 解答一

使用UltraEdit可以排序并删除重复项。

3.1 解答二

在Excel中，如果要去掉一列的重复项，可以选择“数据”->“筛选”->“高级筛选”，在弹出的对话框中选中“选择不重复的记录”就可以了。

3.1 解答三

在我写的cnbook中，我把UltraEdit的排序和删除重复项功能分开了。选择“转换”->“删除重复行”可以删除重复行，但不改变原来的顺序。

在cnbook中还有一个“多文件删除重复行”的功能。选择“文件”->“批处理”，选择要处理的文件，在“可选择的处理”列表中选择“多文件删除重复行”。假设例如文件a的内容是：

1
2
7

文件b的内容是

2
3
5

文件c的内容是

执行“多文件删除重复行”后，文件a的内容是

1
2
7

文件b的内容是

3
5

文件c的内容是

4
8

4 结束语

作为程序员，我们必须对自己所写的每行代码负责，让它易于理解，不易腐烂。但代码注定要变质，程序员也肯定会犯错误。要做到绝对不犯错误可能只有一个方法，那就是不写代码。尽量用好现有的工具，可能会使世界更简单一些。

从解决问题的过程中感受到乐趣是程序员的一个重要能力，繁重的压力很容易让程序员忘掉这种朴素的快乐，愿我们能保有它而不失去。

5 后记

5.1 求补集

网友1975xxzzasohu发现本文的找重码方法在处理1000行数据时程序就不能退出。我试验了一下，发现问题出在：

grep -vf test_uniq.txt test.txt > dup.txt

这个命令一直没有返回。可见grep的-v参数不适合大数据。从test.txt中去掉test_uniq.txt所包含的行其实就是求test.txt中test_uniq.txt的补集。这说明2.2节的求补集方法也不适合大数据。让我们看看其它求补集的方法。

5.1.1 用cnbook求补集

使用cnbook 其实可以实现求补集。只要在test_uniq.txt的每行最后加上“=”，即将“$”替换成“=”。然后将test_uniq.txt设为第一张自定义替换表。然后打开test.txt，将“^(.+)$”替换成“/T{/1}”，就是将test_uniq.txt中出现过的行替换成空行。然后再删除空行，既将“^$”替换成“/d”就可以了。上面提到的3个替换都应选中“正则表达式”。

5.1.2 用sed求补集

cnbook的思路也可以用sed实现。只要用sed执行脚本（mk_rep_sed.sed）：

s/.*/s//&/////
$a/
/^$/d/

将test_uniq.txt处理成一个将test_uniq.txt包含的行替换成空行并删除空行的sed脚本（rep.sed）。然后再对test.txt执行rep.sed就可以了。即：

sed -f mk_rep_sed.sed test_uniq.txt > rep.sed
sed -f rep.sed test.txt > test_dup.txt
del rep.sed

5.1.3 用sort和uniq求补集

其实还有一种更简单、更快捷的方法，只需要执行一条命令：

cat test.txt test_uniq.txt|lsort|uniq -u > test_dup.txt

你能看懂这条命令吗？它为什么能从test.txt中去掉test_uniq.txt已经包含的行？

使用这个方法的前提是test_uniq.txt必须是test.txt的子集。将两个文件连在一起并排序后，重复的行就会被排在一起。重复的行就是test_uniq.txt和test.txt都有的行。因为test_uniq.txt是test.txt的子集，test_uniq.txt的所有行在test.txt中都有，所以不重复的行必然就是test_uniq.txt中没有，但test.txt有的行。 “uniq -u”保留这些不重复的行，就得到了test_uniq.txt在test.txt中的补集。

5.2 求交集

按照5.1.3的思路，将两个文件连在一起并排序后，重复的行就会被排在一起。重复的行就是两个文件都有的行，即两个文件的交集。用“uniq -d”可以保留重复的行，即：

cat a.txt b.txt|sort|uniq -d > c.txt

“uniq -d”保留重复行的一次出现。所以c.txt就是a.txt和b.txt的交集。

5.3 求并集

求并集很简单,就是将两个文件连接、排序后用uniq去掉重复行就可以了。

cat a.txt b.txt|sort|uniq > c.txt

5.4 命令行

linux的命令行用“;”分隔命令。windows的命令行用“&”分隔命令。

linux程序（包括移植到windows上的linux程序）的命令行选项都有短选项（1个字母）和长选项（1个单词）两种方式。短选项由“-”开头，长选项由“--”开头。如果选项有参数，短选项和参数间用空格分隔，长选项和参数间用“=”分隔。例如：

sort -k 3 a.txt

和

sort -key=3 a.txt

是等价的。

linux和windows都支持用TAB键自动补全。那么，如果需要在命令行的选项参数中输入TAB，应该怎么输入呢？例如sort命令允许用-t参数设定分隔符。如果我们想指定TAB为分隔符，我们怎么输入？在linux上可以输入：

sort -t ' ' -k 2 t.txt

输入第一个单引号后，先按Ctrl+v，然后按tab键，就输入了TAB。在特殊字符前输入Ctrl+v 可以让特殊字符被当作普通字符处理。在Windows上我没有找到在命令行输入tab的方法，写在批处理文件里也不行。这也算Windows的一个小缺陷吧。

QQ群采集助手，精准引流必备神器 2401_87347160 其他经验分享
功能概述微信群查找与筛选工具是一款专为微信用户设计的辅助工具，它通过关键词搜索功能，帮助用户快速找到相关的微信群，并提供筛选是否需要验证的群组的功能。主要功能关键词搜索：用户可以输入关键词，工具将自动查找包含该关键词的微信群。筛选功能：工具提供筛选机制，用户可以选择是否只显示需要验证或不需要验证的群组。精准引流：通过上述功能，用户可以更精准地找到目标群组，进行有效的引流操作。3.设备需求该工具可以
【iOS】MVC设计模式 Magnetic_h ios mvc 设计模式 objective-c 学习 ui
MVC前言如何设计一个程序的结构，这是一门专门的学问，叫做"架构模式"（architecturalpattern），属于编程的方法论。MVC模式就是架构模式的一种。它是Apple官方推荐的App开发架构，也是一般开发者最先遇到、最经典的架构。MVC各层controller层Controller/ViewController/VC（控制器）负责协调Model和View，处理大部分逻辑它将数据从Mod
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
linux sdl windows.h,Windows下的SDL安装奔跑吧linux内核 linux sdl windows.h
首先你要下载并安装SDL开发包。如果装在C盘下，路径为C:\SDL1.2.5如果在WINDOWS下。你可以按以下步骤：1.打开VC++，点击"Tools",Options2,点击directories选项3.选择"Includefiles"增加一个新的路径。"C:\SDL1.2.5\include"4，现在选择"Libaryfiles“增加"C:\SDL1.2.5\lib"现在你可以开始编写你的第
Google earth studio 简介陟彼高冈yu 旅游
GoogleEarthStudio是一个基于Web的动画工具，专为创作使用GoogleEarth数据的动画和视频而设计。它利用了GoogleEarth强大的三维地图和卫星影像数据库，使用户能够轻松地创建逼真的地球动画、航拍视频和动态地图可视化。网址为https://www.google.com/earth/studio/。GoogleEarthStudio是一个基于Web的动画工具，专为创作使用G
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
PHP环境搭建详细教程好看资源平台前端 php
PHP是一个流行的服务器端脚本语言，广泛用于Web开发。为了使PHP能够在本地或服务器上运行，我们需要搭建一个合适的PHP环境。本教程将结合最新资料，介绍在不同操作系统上搭建PHP开发环境的多种方法，包括Windows、macOS和Linux系统的安装步骤，以及本地和Docker环境的配置。1.PHP环境搭建概述PHP环境的搭建主要分为以下几类：集成开发环境：例如XAMPP、WAMP、MAMP，这
直返最高等级与直返APP：无需邀请码的返利新体验古楼
随着互联网的普及和电商的兴起，直返模式逐渐成为一种流行的商业模式。在这种模式下，消费者通过购买产品或服务，获得一定的返利，并可以分享给更多的人。其中，直返最高等级和直返APP是直返模式中的重要概念和工具。本文将详细介绍直返最高等级的概念、直返APP的使用以及与邀请码的关系。【高省】APP（高佣金领导者）是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，运行三年，稳定可靠。高省APP，
2020-04-12每天三百字之连接与替代冷眼看潮
不知道是不是好为人师，有时候还真想和别人分享一下我对某些现象的看法或者解释。人类社会不断发展进步的过程，就是不断连接与替代的过程。人类发现了火并应用火以后，告别了茹毛饮血的野兽般的原始生活（火烧、烹饪替代了生食）人类用石器代替了完全手工，工具的使用使人类进步一大步。类似这样的替代还有很多，随着科技的发展，有更多的原始的事物被替代，代之以更高效、更先进的技术。在近现代，汽车替代了马车，高速公路和铁路
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
利用Requests Toolkit轻松完成HTTP请求 nseejrukjhad http 网络协议网络 python
RequestsToolkit的力量：轻松构建HTTP请求Agent在现代软件开发中，API请求是与外部服务交互的核心。RequestsToolkit提供了一种便捷的方式，帮助开发者构建自动化的HTTP请求Agent。本文旨在详细介绍RequestsToolkit的设置、使用和潜在挑战。引言RequestsToolkit是一个强大的工具包，可用于构建执行HTTP请求的智能代理。这对于想要自动化与外
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
GitHub上克隆项目 bigbig猩猩 github
从GitHub上克隆项目是一个简单且直接的过程，它允许你将远程仓库中的项目复制到你的本地计算机上，以便进行进一步的开发、测试或学习。以下是一个详细的步骤指南，帮助你从GitHub上克隆项目。一、准备工作1.安装Git在克隆GitHub项目之前，你需要在你的计算机上安装Git工具。Git是一个开源的分布式版本控制系统，用于跟踪和管理代码变更。你可以从Git的官方网站（https://git-scm.
【目标检测数据集】卡车数据集1073张VOC+YOLO格式熬夜写代码的平头哥∰ 目标检测 YOLO 人工智能
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：1073标注数量(xml文件个数)：1073标注数量(txt文件个数)：1073标注类别数：1标注类别名称:["truck"]每个类别标注的框数：truck框数=1120总框数：1120使用标注工具：labelImg标注
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
钢筋长度超限检测检数据集VOC+YOLO格式215张1类别 futureflsl 数据集 YOLO 深度学习机器学习
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：215标注数量(xml文件个数)：215标注数量(txt文件个数)：215标注类别数：1标注类别名称:["iron"]每个类别标注的框数：iron框数=215总框数：215使用标注工具：labelImg标注规则：对类别进
CX8903：Ebike自行车仪表电源方案开发,Ebike智能仪表电源芯片诚芯微科技社交电子
CX8903：电动Ebike自行车仪表电源方案开发,Ebike智能仪表电源芯片推荐。电动助力自行车EBIKE凭借其环保、健康、低噪、和便捷等特点，成为了越来越受欢迎的骑行便利交通工具。提供电动Ebike自行车仪表电源方案开发、E-BIKE电动助力自行车仪表供电电源解决方案。CX8903采用100V高压制造工艺（芯片最高耐压可到100V以上），SOP-8L贴片封装，CX8903内置100V/90mΩ
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】-测试八股文真题题库（1）算法大师华为od 面试 python 算法前端
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.黑盒测试和白盒测试的区别2.假设我们公司现在开发一个类似于微信的软件1.0版本，现在要你测试这个功能：打开聊天窗口，输入文本，限制字数在200字以内。问你怎么提取测试点。功能测试性能测试安全性测试可用性测试跨平台兼容性测试网络环境测试3.接口测试的工具你了解哪些
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
mac电脑命令行获取电量小米人er 我的博客 macos 命令行
在macOS上，有几个命令行工具可以用来获取电量信息，最常用的是pmset命令。你可以通过以下方式来查看电池状态和电量信息：查看电池状态：pmset-gbatt这个命令会返回类似下面的输出：Nowdrawingfrom'BatteryPower'-InternalBattery-0(id=1234567)95%;discharging;4:02remainingpresent:true输出中包括电
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
摩托车加装车载手机充电usb方案/雅马哈USB充电方案开发诚芯微科技社交电子
长途骑行需要给手机与行车记录仪等设备供电，那么，加装USB充电器就相继在两轮电动车上应用起来了。摩托车加装usb充电方案主要应用于汽车、电动自行车、摩托车、房车、渡轮、游艇等交通工具。提供电动车USB充电器方案/摩托车加装usb充电方案/渡轮加装usb充电方案/游艇加装usb充电方案开发。摩托车加装车载手机充电usb方案、汽车游艇改装四孔面板装双USB车充点烟器5V/4A电动车USB充电器输入4.
如何选择最适合你的项目研发管理软件？TAPD卓越版全面解析北京云巴巴信息技术有限公司产品经理需求分析
在当今快速发展的科技时代，项目研发管理软件已成为企业不可或缺的重要工具。面对市场上琳琅满目的产品，如何选择一款适合自己团队的项目研发管理软件呢？本文将围绕项目研发管理软件的选择标准，重点介绍TAPD卓越版的特点、优势以及使用体验，让你更好地理解和选择适合自己的项目研发管理软件。项目研发管理软件的选择标准在选择项目研发管理软件时，我们需要考虑以下几个方面的因素：功能全面性：软件是否覆盖了从需求管理、
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
JVM、JRE和 JDK：理解Java开发的三大核心组件 Y雨何时停T Java java
Java是一门跨平台的编程语言，它的成功离不开背后强大的运行环境与开发工具的支持。在Java的生态中，JVM（Java虚拟机）、JRE（Java运行时环境）和JDK（Java开发工具包）是三个至关重要的核心组件。本文将探讨JVM、JDK和JRE的区别，帮助你更好地理解Java的运行机制。1.JVM：Java虚拟机（JavaVirtualMachine）什么是JVM？JVM，即Java虚拟机，是Ja
Enum 枚举 120153216 enum 枚举
原文地址：http://www.cnblogs.com/Kavlez/p/4268601.html Enumeration 于Java 1.5增加的enum type...enum type是由一组固定的常量组成的类型，比如四个季节、扑克花色。在出现enum type之前，通常用一组int常量表示枚举类型。比如这样： public static final int APPLE_FUJI = 0
Java8简明教程 bijian1013 java jdk1.8
Java 8已于2014年3月18日正式发布了，新版本带来了诸多改进，包括Lambda表达式、Streams、日期时间API等等。本文就带你领略Java 8的全新特性。一.允许在接口中有默认方法实现 Java 8 允许我们使用default关键字，为接口声明添
Oracle表维护快速备份删除数据 cuisuqiang oracle 索引快速备份删除
我知道oracle表分区，不过那是数据库设计阶段的事情，目前是远水解不了近渴。当前的数据库表，要求保留一个月数据，且表存在大量录入更新，不存在程序删除。为了解决频繁查询和更新的瓶颈，我在oracle内根据需要创建了索引。但是随着数据量的增加，一个半月数据就要超千万，此时就算有索引，对高并发的查询和更新来说，让然有所拖累。为了解决这个问题，我一般一个月会进行一次数据库维护，主要工作就是备
java多态内存分析麦田的设计者 java 内存分析多态原理接口和抽象类
“ 时针如果可以回头，熟悉那张脸，重温嬉戏这乐园，墙壁的松脱涂鸦已经褪色才明白存在的价值归于记忆。街角小店尚存在吗？这大时代会不会牵挂，过去现在花开怎么会等待。但有种意外不管痛不痛都有伤害，光阴远远离开，那笑声徘徊与脑海。但这一秒可笑不再可爱，当天心
Xshell实现Windows上传文件到Linux主机被触发 windows
经常有这样的需求，我们在Windows下载的软件包，如何上传到远程Linux主机上？还有如何从Linux主机下载软件包到Windows下；之前我的做法现在看来好笨好繁琐，不过也达到了目的，笨人有本方法嘛；我是怎么操作的： 1、打开一台本地Linux虚拟机，使用mount 挂载Windows的共享文件夹到Linux上，然后拷贝数据到Linux虚拟机里面；（经常第一步都不顺利，无法挂载Windo
类的加载ClassLoader 肆无忌惮_ ClassLoader
类加载器ClassLoader是用来将java的类加载到虚拟机中，类加载器负责读取class字节文件到内存中，并将它转为Class的对象（类对象），通过此实例的 newInstance()方法就可以创建出该类的一个对象。其中重要的方法为findClass(String name)。如何写一个自己的类加载器呢？首先写一个便于测试的类Student
html5写的玫瑰花知了ing html5
<html> <head> <title>I Love You!</title> <meta charset="utf-8" /> </head> <body> <canvas id="c"></canvas>
google的ConcurrentLinkedHashmap源代码解析矮蛋蛋 LRU
原文地址： http://janeky.iteye.com/blog/1534352 简述 ConcurrentLinkedHashMap 是google团队提供的一个容器。它有什么用呢？其实它本身是对 ConcurrentHashMap的封装，可以用来实现一个基于LRU策略的缓存。详细介绍可以参见 http://code.google.com/p/concurrentlinke
webservice获取访问服务的ip地址 alleni123 webservice
1. 首先注入javax.xml.ws.WebServiceContext, @Resource private WebServiceContext context; 2. 在方法中获取交换请求的对象。 javax.xml.ws.handler.MessageContext mc=context.getMessageContext(); com.sun.net.http
菜鸟的java基础提升之道——————>是否值得拥有百合不是茶
1，c++，java是面向对象编程的语言，将万事万物都看成是对象；java做一件事情关注的是人物，java是c++继承过来的，java没有直接更改地址的权限但是可以通过引用来传值操作地址，java也没有c++中繁琐的操作，java以其优越的可移植型，平台的安全型，高效性赢得了广泛的认同，全世界越来越多的人去学习java，我也是其中的一员 java组成：
通过修改Linux服务自动启动指定应用程序 bijian1013 linux
Linux中修改系统服务的命令是chkconfig (check config)，命令的详细解释如下: chkconfig 功能说明：检查，设置系统的各种服务。语　　法：chkconfig [ -- add][ -- del][ -- list][系统服务] 或 chkconfig [ -- level <</SPAN>
spring拦截器的一个简单实例 bijian1013 java spring 拦截器 Interceptor
Purview接口 package aop; public interface Purview { void checkLogin(); } Purview接口的实现类PurviesImpl.java package aop; public class PurviewImpl implements Purview { public void check
[Velocity二]自定义Velocity指令 bit1129 velocity
什么是Velocity指令在Velocity中，#set,#if, #foreach, #elseif, #parse等，以#开头的称之为指令，Velocity内置的这些指令可以用来做赋值，条件判断，循环控制等脚本语言必备的逻辑控制等语句，Velocity的指令是可扩展的，即用户可以根据实际的需要自定义Velocity指令自定义指令(Directive)的一般步骤 &nbs
【Hive十】Programming Hive学习笔记 bit1129 programming
第二章 Getting Started 1.Hive最大的局限性是什么？一是不支持行级别的增删改(insert, delete, update)二是查询性能非常差(基于Hadoop MapReduce）,不适合延迟小的交互式任务三是不支持事务2. Hive MetaStore是干什么的？Hive persists table schemas and other system metadata.
nginx有选择性进行限制 ronin47 nginx 动静　限制
http { limit_conn_zone $binary_remote_addr zone=addr:10m; limit_req_zone $binary_remote_addr zone=one:10m rate=5r/s;... server {... location ~.*\.(gif|png|css|js|icon)$ {
java-4.-在二元树中找出和为某一值的所有路径 . bylijinnan java
/* * 0.use a TwoWayLinkedList to store the path.when the node can't be path,you should/can delete it. * 1.curSum==exceptedSum:if the lastNode is TreeNode,printPath();delete the node otherwise
Netty学习笔记 bylijinnan java netty
本文是阅读以下两篇文章时： http://seeallhearall.blogspot.com/2012/05/netty-tutorial-part-1-introduction-to.html http://seeallhearall.blogspot.com/2012/06/netty-tutorial-part-15-on-channel.html 我的一些笔记 ===
js获取项目路径 cngolon js
//js获取项目根路径，如： http://localhost:8083/uimcardprj function getRootPath(){ //获取当前网址，如： http://localhost:8083/uimcardprj/share/meun.jsp var curWwwPath=window.document.locati
oracle 的性能优化 cuishikuan oracle SQL Server
在网上搜索了一些Oracle性能优化的文章，为了更加深层次的巩固[边写边记]，也为了可以随时查看，所以发表这篇文章。 1.ORACLE采用自下而上的顺序解析WHERE子句，根据这个原理，表之间的连接必须写在其他WHERE条件之前，那些可以过滤掉最大数量记录的条件必须写在WHERE子句的末尾。（这点本人曾经做过实例验证过，的确如此哦！
Shell变量和数组使用详解 daizj linux shell 变量数组
Shell 变量定义变量时，变量名不加美元符号（$，PHP语言中变量需要），如： your_name="w3cschool.cc" 注意，变量名和等号之间不能有空格，这可能和你熟悉的所有编程语言都不一样。同时，变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）。中间不能有空格，可以使用下划线（_）。不能使用标点符号。不能使用ba
编程中的一些概念，KISS、DRY、MVC、OOP、REST dcj3sjt126com REST
KISS、DRY、MVC、OOP、REST （1）KISS是指Keep It Simple,Stupid（摘自wikipedia），指设计时要坚持简约原则，避免不必要的复杂化。（2）DRY是指Don't Repeat Yourself（摘自wikipedia），特指在程序设计以及计算中避免重复代码，因为这样会降低灵活性、简洁性，并且可能导致代码之间的矛盾。（3）OOP 即Object-Orie
[Android]设置Activity为全屏显示的两种方法 dcj3sjt126com Activity
1. 方法1：AndroidManifest.xml 里，Activity的 android:theme 指定为" @android:style/Theme.NoTitleBar.Fullscreen" 示例: <application
solrcloud 部署方式比较 eksliang solrCloud
solrcloud 的部署其实有两种方式可选，那么我们在实践开发中应该怎样选择呢？第一种：当启动solr服务器时，内嵌的启动一个Zookeeper服务器，然后将这些内嵌的Zookeeper服务器组成一个集群。第二种：将Zookeeper服务器独立的配置一个集群，然后将solr交给Zookeeper进行管理谈谈第一种：每启动一个solr服务器就内嵌的启动一个Zoo
Java synchronized关键字详解 gqdy365 synchronized
转载自：http://www.cnblogs.com/mengdd/archive/2013/02/16/2913806.html 多线程的同步机制对资源进行加锁，使得在同一个时间，只有一个线程可以进行操作，同步用以解决多个线程同时访问时可能出现的问题。同步机制可以使用synchronized关键字实现。当synchronized关键字修饰一个方法的时候，该方法叫做同步方法。当s
js实现登录时记住用户名 hw1287789687 记住我记住密码 cookie 记住用户名记住账号
在页面中如何获取cookie值呢? 如果是JSP的话,可以通过servlet的对象request 获取cookie,可以参考:http://hw1287789687.iteye.com/blog/2050040 如果要求登录页面是html呢?html页面中如何获取cookie呢? 直接上代码了页面:loginInput.html 代码: <!DOCTYPE html PUB
开发者必备的 Chrome 扩展 justjavac chrome
Firebug：不用多介绍了吧https://chrome.google.com/webstore/detail/bmagokdooijbeehmkpknfglimnifench ChromeSnifferPlus：Chrome 探测器，可以探测正在使用的开源软件或者 js 类库https://chrome.google.com/webstore/detail/chrome-sniffer-pl
算法机试题李亚飞 java 算法机试题
在面试机试时，遇到一个算法题，当时没能写出来，最后是同学帮忙解决的。这道题大致意思是：输入一个数，比如4,。这时会输出： &n
正确配置Linux系统ulimit值字符串 ulimit
在Linux下面部署应用的时候，有时候会遇上Socket/File: Can’t open so many files的问题；这个值也会影响服务器的最大并发数，其实Linux是有文件句柄限制的，而且Linux默认不是很高，一般都是1024，生产服务器用其实很容易就达到这个数量。下面说的是，如何通过正解配置来改正这个系统默认值。因为这个问题是我配置Nginx+php5时遇到了，所以我将这篇归纳进
hibernate调用返回游标的存储过程 Supanccy2013 java DAO oracle Hibernate jdbc
注：原创作品，转载请注明出处。上篇博文介绍的是hibernate调用返回单值的存储过程，本片博文说的是hibernate调用返回游标的存储过程。此此扁博文的存储过程的功能相当于是jdbc调用select 的作用。 1，创建oracle中的包，并在该包中创建的游标类型。 ---创建oracle的程
Spring 4.2新特性-更简单的Application Event wiselyman application
1.1 Application Event Spring 4.1的写法请参考10点睛Spring4.1-Application Event 请对比10点睛Spring4.1-Application Event 使用一个@EventListener取代了实现ApplicationListener接口,使耦合度降低; 1.2 示例包依赖 <p