lidonghat

linux 文本处理命令

声明：本文总结自互联网，欢迎补充或占为己有

1. 显示文本

普通文本:
cat、 tac、 more、 less、 head、 tail、 nl、 grep 、 rev、 fold、acat、 pr

含有不可见字符的文本:
hexdump、 od、 xxd

2. 文本格式转换

dos2unix、unix2dos、 unix2mac

3. 编码查询和转换

encguess、enca、iconv、enconv 、base64

4. 文本统计

wc

#wc命令说明：
    统计文本文件中有多少字，多少行，多少字符。
#格式：
    wc [-lwm]
#参数说明：
    -l ：    仅显示行数；
    -w ：    仅显示字数（英文单词个数）；
    -m ：    字符数；

5. 内容排序排重

sort、tsort、uniq

#sort命令说明：
    将文本文件的内容按行排序。
#格式：
    sort [-fbMnrtuk] [file or stdin]
# 参数说明：
    -f ：    忽略大小写；
    -b ：    忽略最前面的空格；
    -u ：    即uniq，重复行仅出现一次；
    -M ：    以月份的名字来排序；
    -n ：    使用“纯数字”来排序；
    -r ：    反向排序；
    -t ：    分隔符，默认为tab键；
    -k ：    按指定字段排序；     

#对文件/etc/passwd以第三栏排序
cat /etc/passwd | sort -t ':' -k 3

#uniq命令说明：
    如果排序完成了，将重复的行仅显示一次。注意，若文件未排序，该命令失效。
#格式：
    uniq [-ic]
#参数说明：
    -i ：    忽略大小写；
    -c ：    统计每行重复的次数；

6. 文本比较

cmp、comm、 diff、patch

#diff命令说明：
    以“行”为单位进行文件比较，一般用在ASCII纯文本文件。
#格式：
    diff [-bBi] file1 file2
#参数：
    -b ： 忽略一行中有多个空白的差异；
    -B ： 忽略空白行的不同；
    -i ： 忽略大小写；

#diff命令说明：
    以“行”为单位进行文件比较，一般用在ASCII纯文本文件。
#格式：
    diff [-bBi] file1 file2
#参数：
    -b ： 忽略一行中有多个空白的差异；
    -B ： 忽略空白行的不同；
    -i ： 忽略大小写；

#cmp命令说明：
    以“位”为单位进行文件比较，可以比较二进制文件。
#格式：
    cmp [-s] file1 file2
#参数：
    -s ： 将所有不同点的位都列出来，默认仅输出第一个发现的不同点；

#patch命令说明 ：
    diff old new > patch_file命令可以找出new文件与old文件不同的地方，然后用patch命令给old文件打上补丁，即与new文件相同了。
#格式：
    patch -pN < patch_file
#参数：
    -pN表示取消N层目录。

7. 内容查找

grep， egrep， fgrep， ag

#grep命令说明：
    按行处理，输出文件中包含搜索字符串的所有行。
格式：
    grep [-acinv] ‘搜索字符串’ filename
参数说明：
    -a：在二进制文件中，以文本文件的方式搜索数据；
    -c：计算找到“搜索字符串”的次数；
    -i：忽略大小写；
    -n：输出行号；
    -v：反向选择；
    -E：扩展正则表达式

#在文件a.txt中搜索包含字符串good或glad的行
grep -E 'g(oo|la)d' a.txt

8. 内容摘要,加密和解密

md5sum, rsa, ssl, gpg

9. 文本分割和整合

split、cut、join、paste、csplit

#split命令说明：
    将一个大文件拆分为几个小文件。
#格式：
    split [-bl] fle 
#参数说明：
    -b ： 拆分的文件大小，可加单位，如b, k, m等；
    -l ： 按行数进行拆分；

#将文件bigfile按512K拆分，拆分后的文件依次为：smallfileaa、smallfileab
split -b 512k bigfile smallfile
#将文件bigfile中的每10行拆分成一个小文件
split -l 10 bigfile smallfile

#cut命令说明：
    按行处理，将一行消息的某段切出来。
#格式：
    cut -d '分割字符' -f fields
    cut -c m-n 

#取出环境变量PATH中的第3个和第5个路径
echo $PATH | cut -d ':' -f 3,5
#取出环境变量PATH中的第3个到第5个路径
echo $PATH | cut -d ':' -f 3-5 
#将export中的每行的前面11个字符删除留，保留从第12个字符开始的所有字符 export | cut -c 12-

#join命令说明：
    处理两个文件中有相同数据的行，将它们加在一起。
#格式：
    join [-ti12] file1 file2
#参数说明：
    -i ： 忽略大小写；
    -t ： 分隔符，默认为空格符；
    -1 m ： 指定file1用来比较的字段m，默认值为1；
    -2 n ： 指定file2用来比较的字段n，默认值为1；

#paste命令说明：
    比较两个文件的数据关联性，直接将“两行贴在一起”，中间以tab键隔开。
#格式：
    paste [-d] file1 file2
#参数说明：
    -d：后面接分隔符，默认为tab键。

10. 字符替换

tr、expand、unexpand

#tr命令说明：
    单个字符的处理工具，可以用于删除字符、替换字符等基本功能。
#格式：
    tr [-ds] SET  
#参数说明：
    -d：删除，例如：cat file | tr -d '\r'，相当于dos2unix命令所起的作用。
    -s：替换字符，例如：cat file | tr -s [0-9]，如果某个数字连续出现，仅保留第一个。

#将file中的小写字符全部改为大写
cat file | tr [a-z] [A-Z]

#expand命令说明：
    将tab键转换成空格键。
#格式：
    expand [-t] file
#参数说明：
    -t n ： 后面可以接一个数字n，一个tab键替换为n个空格键，默认值为8。

11. 格式化输出

fmt, col, column

#col命令说明：
    格式化显示列。
#格式：
    col [-x]
#参数说明：
    -x：将tab键转换成对等的空格键；

#使用cat -A，tab键会以^I显示，经过col -x处理，tab替换为空格
cat -A /etc/man.config | col -x | cat -A

12. 报表生成

awk

#awk命令说明： 
    将一行消息分成数个段，对每行进程分别处理
#格式：
    awk  '条件  {命令}'  file
#awk的内置变量：
    $n：该行的第n个字段；
    NF：每一行拥有的字段总数；
    NR：当前行的行号；
    FS：分隔符，默认为空格键；

#打印passwd文件第三栏小于10的行的第1、3栏
cat /etc/passwd | awk 'BEGIN {FS=":"} $S3<10 {print $1 "\t" $3}'

13. 文本编辑器

eamcs, vim, sed

#sed命令说明： 
    分析STDIN的数据，将数据处理后，输出到STDOUT。
#格式：sed [-nefr] 动作
#参数说明：
    -n： 安静模式，仅显示经过sed特殊处理的行；
    -e： 直接在命令行模式进行sed的操作编辑；
    -r： 支持扩展正则表达式语法
    -f file：    将sed操作写在一个文件中；
#动作说明：
    n1和n2代表选择进行操作的行数
    function来源于ed编辑器;

#在/etc/passwd第2行下面新增一行，写入"Hello World"
nl /etc/passwd | sed '2a Hello World'
#在/etc/passwd第2行上面新增一行，写入"Hello World"
nl /etc/passwd | sed '2i Hello World'
#删除/etc/passwd中的第2至5行
nl /etc/passwd | sed '2,5d'
#仅显示2到5行，注意，如果不加-n，2到5行将重复输出
nl -n /etc/passwd | sed '2,5p'
#将第1~20行中出现的所有字符串old替换为new
nl /etc/passwd | sed '1,20s/old/new/g'

14. 文本流复制

tee

#tee命令说明：
    双向重导向，从标准输入读取数据，输出到屏幕上，同时保存成文件。
#格式：
    tee [-a] file
#参数说明：
    -a：以累加的方式，将数据加入到file中。

#将ls命令的数据存一份到myfile中，同时屏幕也有输出数据
ls -al /home | tee ~/myfile | more

你可能感兴趣的:(文本处理)

Llama-Omni会说话的人工智能“语音到语音LLM” 利用低延迟、高质量语音转语音 AI 彻底改变对话方式（教程含源码）知识大胖 NVIDIA GPU和大语言模型开发教程 llama 人工智能 nvidia llm
介绍“单靠技术是不够的——技术与文科、人文学科的结合，才能产生让我们心花怒放的成果。”——史蒂夫·乔布斯近年来，人机交互领域发生了重大变化，尤其是随着ChatGPT、GPT-4等大型语言模型(LLM)的出现。虽然这些模型主要基于文本，但人们对语音交互的兴趣日益浓厚，以使人机对话更加无缝和自然。然而，实现语音交互而不受语音转文本处理中常见的延迟和错误的影响仍然是一个挑战。关键字：Llama-Omni
python 计算生态概览的概述
文章目录前言python计算生态库的介绍1.网络爬虫2.数据分析3.文本处理4.数据可视化5.机器学习6.图形用户界面7.游戏开发8.网络应用开发前言python计算生态概览的解释Python计算生态概览是对Python作为一门强大而广泛使用的编程语言所拥有的庞大软件集合的整体描述和概述。这个生态体系不仅包含了Python的标准库（stdlib），即随Python解释器安装的基本模块，还涵盖了极其
Python基础知识4 QQLOVEYY Python学习 python pycharm
复习自学自用，不适合全面学习的家人们，想看的可以看一下一、标准库与第三方库标准库是Python自带的“宝藏库”，涵盖了众多实用功能。其中包括内置函数，像我们常用的print用于输出信息、input用于获取用户输入；还有内置类型，如int（整数）、str（字符串）、bool（布尔值）、list（列表）、dict（字典）等，它们是构建Python程序的基础数据结构。此外，标准库还涉及文本处理、时间日期
Python正则表达式实战指南 Monkey的自我迭代 mysql 数据库 java python
一正则表达式库正则表达式是文本处理中不可或缺的强大工具，Python通过re模块提供了完整的正则表达式支持。本文将详细介绍re模块中最常用的match()、search()和findall()函数，以及贪婪模式与非贪婪模式的区别，帮助读者掌握Python中正则表达式的核心用法。1.re.match()函数：从字符串开头匹配re.match()是正则表达式最基本的函数之一，它尝试从字符串的起始位置匹
shell编程之sed命令详解
shell编程之sedsed编辑器介绍sed（流编辑器）是一种非交互式文本处理工具，基于预设规则逐行处理数据流（文件或管道输入）。它将当前行存入模式空间，按命令处理后输出到标准输出，不修改原始文件。工作流程读取一行数据到模式空间；按顺序执行编辑命令；输出处理后的行；重复直至所有行处理完毕。命令格式sed[options]'script'[file1file2...]选项：选项描述-escript显
python中的字符串操作北北大王 python 开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、字符串基础1.创建字符串2.字符串拼接二、字符串常用方法1.大小写转换2.字符串查找3.字符串替换4.字符串分割与连接5.字符串格式化6.字符串填充三、字符串与列表转换四、字符串切片操作前言Python字符串作为最基础且强大的数据类型之一，提供了全面而灵活的文本处理能力。从基础的创建与拼接，到高效的查找替换；从智能的大
**深度解析Annotated Jieba：Python中的高效中文分词库**
深度解析AnnotatedJieba：Python中的高效中文分词库去发现同类优质开源项目:https://gitcode.com/项目简介是一个基于Jieba的增强版分词库，为了解决原Jieba库在复杂场景下的需求，它提供了更丰富的功能和更友好的API设计。该项目由USTCDane开发并维护，旨在帮助开发者更好地理解和使用Jieba进行中文文本处理。技术分析1.代码注释与文档AnnotatedJ
Bash Shell面试题高级汇总002 韩公子的Linux大集市 Bash入门 bash 开发语言
文章目录一、Shell原理进阶二、性能与资源管理三、并发控制与IPC四、安全与防御五、调试与追踪六、文本处理黑科技七、系统级深入题八、容器化环境九、综合场景题十、面试官深度追问方向以下是一份深度梳理的LinuxShell高级面试题汇总，涵盖脚本优化、系统原理、故障排查、安全实践等高频考点，适用于中高级开发/运维岗位：一、Shell原理进阶exec3<>file的作用是什么？文件描述符0-2的默认指
Linux Vim 如何使用 BACKLS gradle vim
LinuxVim最全面教程目录介绍安装Vim基本操作启动与退出插入模式移动光标删除、复制和粘贴撤销与重做高级操作查找与替换多文件编辑宏与自动化插件管理配置Vim编辑vimrc常用配置示例总结介绍Vim是一个高度可配置的文本编辑器，适用于从日常文本编辑到复杂的编程任务。它的前身是vi编辑器，具有强大的文本处理能力和灵活的扩展性。安装Vim在不同的Linux发行版上安装Vim的方法略有不同。以下是一些
探索AI人工智能医疗NLP实体识别系统的架构设计 AI学长带你学AI 人工智能自然语言处理 easyui ai
探索AI人工智能医疗NLP实体识别系统的架构设计关键词：人工智能、医疗NLP、实体识别、系统架构、深度学习、自然语言处理、医疗信息化摘要：本文将深入探讨医疗领域NLP实体识别系统的架构设计。我们将从基础概念出发，逐步解析医疗文本处理的特殊性，详细介绍实体识别技术的核心原理，并通过实际案例展示如何构建一个高效可靠的医疗实体识别系统。文章还将探讨当前技术面临的挑战和未来发展方向，为医疗AI领域的从业者
shell编程之awk命令详解爱莉希雅&&& 运维服务器 linux git
1.awk教程1.1调用awkawk是一种强大的文本处理工具，在Linux系统中广泛应用于日志分析、数据处理等场景。调用awk主要有以下三种方式：1.1.1命令行方式基本语法为：awk(-Ffiled-separator)'commands'input-files其中，-F用于指定分隔符，默认情况下，awk以空格或制表符作为分隔符。commands是awk的命令，input-files则是要处理的
如何成为一名合格的 Prompt 工程师？ csdn_tom_168 AI 人工智能 ai prompt
以下为基于行业实践与最新趋势的Prompt工程师成长体系，结合技术能力、实战经验与职业发展三个维度构建的完整路径：一、核心能力模型构建1.基础认知能力领域知识融合掌握垂直领域知识图谱（如医疗术语、法律条文），通过RAG技术实现专业语料注入案例：设计医疗诊断Prompt时需理解ICD-11疾病分类标准模型原理理解熟悉主流模型特性（如GPT-4长文本处理优势、Claude3的逻辑推理强项），针对性设计
解锁阿里云文字识别OCR：开启智能文本处理新时代
阿里云OCR：技术先锋登场在数字化转型的汹涌浪潮中，海量文本数据如潮水般涌来，如何高效处理这些文本，成为众多企业和开发者面临的关键挑战。阿里云文字识别OCR，作为一款强大的人工智能技术，应运而生，宛如一位英勇的先锋，为我们开辟了一条高效处理文本的光明大道。它能够精准地将图片、扫描件中的文字转化为可编辑的文本，极大地提高了信息处理的效率和准确性，在众多领域中发挥着不可或缺的重要作用。探秘阿里云OCR
Lucence 和 Elasticsearch 的区别? 码出财富 elasticsearch 大数据搜索引擎
Lucene和Elasticsearch都是在信息检索和文本处理领域中广泛使用的工具，它们的主要区别如下：概念和定位Lucene：是一个基于Java的全文检索库，它提供了一套强大的底层索引和搜索功能的API。Lucene更像是一个工具包，开发人员可以基于它来构建自己的搜索应用程序，需要深入了解搜索的底层原理和算法，对开发者的技术要求较高。Elasticsearch：是一个基于Lucene的分布式搜
python学智能算法（十五）|机器学习朴素贝叶斯方法进阶-CountVectorizer多文本处理西猫雷婶人工智能机器学习 python学习笔记机器学习 python 人工智能深度学习 scikit-learn
【1】引言前序学习进程中，已经学习CountVectorizer文本处理的简单技巧，先相关文章链接为：python学智能算法（十四）|机器学习朴素贝叶斯方法进阶-CountVectorizer文本处理简单测试-CSDN博客此次继续深入，研究多文本的综合处理。【2】代码测试首先相对于单文本测试，直接将文本改成多行文本：#引入必要的模块fromsklearn.feature_extraction.te
新手向:代码编写工具推荐 nightunderblackcat 基础环境配置 notepad++pycharm python intellij-idea java c++c#
开发者兵器谱：我的高效编码六大神器深度解析在软件开发的世界里，得心应手的工具如同侠客手中的利剑。经过多年的项目锤炼，我精心打磨了一套开发工具链，它们各有所长，助我在不同战场上游刃有余。下面就来深度剖析这六位“数字战友”：一、轻骑兵：Notepad++——闪电编辑与文本处理的王者核心定位：超轻量级文本/代码编辑器，启动如闪电，资源占用极低。看家本领：列编辑模式：Alt+鼠标拖拽或Alt+Shift+
使用Python加载SubRip (.srt)字幕文件进行文本处理 zbb258 python 开发语言
SubRip文件格式是一种非常基础的字幕文件格式，通常使用扩展名.srt。这种格式的字幕文件是由一组组格式化的纯文本行组成，每组之间由一个空行分隔。字幕通常从1开始按顺序编号。时间码格式为小时:分钟:秒,毫秒，且时间单位固定为两个零填充的数字，分数固定为三个零填充的数字(例如00:00:00,000)。由于该程序是在法国编写的，分数分隔符使用逗号。在这篇文章中，我们将演示如何使用Python库加载
【LLaMA 3实战】3、LLaMA 3长文本处理终极指南：从128K上下文到百万级文档实战无心水 LLaMA 3 模型实战专栏 LLaMA LLaMA 3 长文本处理 Meta AI大模型 CSDN技术干货 LLaMA 3 前沿模型实战
引言：长文本处理的技术跃迁当LLaMA3将上下文窗口扩展至128Ktokens（约8万字），长文本处理技术迎来了革命性突破。这不仅意味着模型能处理更复杂的文档，更开启了"全局认知"的新可能——从法律合同的全条款审查到代码仓库的跨文件重构，从金融报告的时序分析到医疗病历的全周期追踪。本文将系统拆解LLaMA3长文本能力的技术内核，提供工程级优化方案与实战技巧，助你突破长文本处理的算力瓶颈与应用边界。
Edge-TTS在广电系统中的语音合成技术的创新应用
Edge-TTS在广电系统中的语音合成技术的创新应用作者：本人是一名县级融媒体中心的工程师，多年来一直坚持学习、提升自己。喜欢Python编程、人工智能、网络安全等多领域的技术。摘要随着人工智能技术的快速发展，文字转语音(Text-to-Speech,TTS)系统已成为多种应用的重要组成部分，尤其在广播电视领域。本文介绍了一种基于Edge-TTS大模型的文字转语音工具，该工具结合了现代文本处理和语
信息检索简介——文本处理、搜索引擎、数据挖掘、机器学习、推荐系统等 AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介2005年8月17日至9月3日在美国加利福尼亚州伯克莱纳举行了SIGIR国际会议（中文全称“计算机信息retrieval国际会议”），这是信息检索领域的顶级会议之一。该会议由ACM主办，主题涵盖了包括文本处理、搜索引擎、数据挖掘、机器学习、推荐系统等多个热门方向。此次会议是第一次将信息检索作为一个学科，并取得重大突破。本文试图对SIGIR进行一个完整的介绍，阐述
Shell 编程之正则表达式与文本处理器
目录一：正则表达式二：基础正则表达式1.基础正则表达式示例（1）查找特定字符（2）利用中括号“[]”来查找集合字符（3）查找行首“^”与行尾字符“$”（4）查找任意一个字符“.”与重复字符“*”（5）查找连续字符范围“{}”2.元字符总结3.扩展正则表达式二：文本处理器1.sed工具（1）输出符合条件的文本(p表示正常输出)（2）删除符合条件的文本(d)（3）替换符合条件的文本（4）迁移符合条件的
Python编程核心技能提升指南：从第2版到第3版月末刀戈
本文还有配套的精品资源，点击获取简介：《Python核心编程中文版》详细介绍了Python的基础和高级编程主题，适合不同层次的学习者。覆盖了正则表达式的使用、网络编程基础、互联网客户端协议应用、多线程编程技巧，以及GUI编程等核心模块。本书通过丰富的实例和详细的解析，帮助读者掌握文本处理、网络通信、并发任务处理和桌面应用开发的关键技能，为深入学习和专业实践提供全面支持。1.Python编程基础1.
增强版 Kimi：AI 驱动的智能创作平台，实现一站式内容生成（图片、PPT、PDF）！每天译点晓知识 AI人工智能专栏人工智能 PPT PDF一键生成 AI 图片生成
前言基于扣子Coze零代码平台，我们从零到一轻松实现了专属Bot机器人的搭建。AI大模型（LLM）、智能体（Agent）、知识库、向量数据库、知识图谱，RAG，AGI的不同形态愈发显现，如何将其动态组合，凸显其强大爆发力！！！接下来，我们介绍通过Kimi进行功能增强？使得我们的Bot具备一键生成图片、PPT编写、PDF制作......模型配置Kimi月之暗面旗下国产大模型，以独特的长文本处理能力，
微算法科技融合Grover算法与统一哈希函数的混合经典-量子算法技术，可在多领域高效提升文本处理效率 MicroTech2025 量子计算哈希算法
随着数据规模的不断扩大，尤其是在大数据和人工智能驱动的应用中，这些经典算法的线性复杂度逐渐成为瓶颈。面对数十亿级别的文本数据，线性时间的算法仍然难以满足实时性的要求。此外，经典算法在处理无序或随机文本时，性能往往会显著下降，进一步限制了其在特定场景中的适用性。量子计算是一种基于量子力学原理的新型计算范式。它与经典计算的根本区别在于量子叠加和量子纠缠的特性，使得量子计算能够并行处理大量状态，从而在某
Go语言单词自动换行库 - go-wordwrap 使用指南李梅为
Go语言单词自动换行库-go-wordwrap使用指南go-wordwrapAGo(golang)libraryforwrappingwordsinastring.项目地址:https://gitcode.com/gh_mirrors/go/go-wordwrap项目介绍go-wordwrap是一个用于Go语言的轻量级文本处理库，专注于将长字符串中的单词自动进行换行操作。该库非常适合在命令行界面（
Linux文本处理三剑客实战指南：grep、sed、awk
目录三剑客简介与对比grep：文本搜索利器✂️sed：流编辑与批量替换awk：文本分析与格式化输出⚔️易混辨析与命令对比实战案例集锦高频面试问答️进阶技巧与最佳实践三剑客组合实战常见错误与排查建议1.三剑客简介与对比grep：按模式搜索文本，输出匹配行，适合快速查找和过滤。sed：流编辑器，支持查找、替换、插入、删除等批量文本处理。awk：强大的文本分析与报告生成工具，支持条件判断、格式化输出、统
Python可迭代对象探秘：实现Sentence类的序列协议之旅钢铁男儿流程Python python 开发语言
掌握Python迭代机制，从底层协议开启高效的文本处理能力在Python世界中，可迭代对象是所有序列处理的基础。今天我们将通过实现一个Sentence类，深入探索迭代背后的魔法。这个类能将文本分解为单词序列，并通过实现序列协议获得迭代能力。让我们开启这段技术之旅！序列协议版Sentence的实现importreimportreprlibRE_WORD=re.compile(r'\w+')#匹配单词
开源大模型革新：MiniMax-M1-80k，长文本处理利器！人工智能我来了人工智能 AI 人工智能
随着人工智能的飞速发展，各大科技公司竞相推出功能强大的AI模型来推动科技的进步。而今天，我们要为大家介绍的，是由硅基流动（SiliconCloud）推出的全球首个开源大规模混合注意力推理模型——MiniMax-M1-80k(456B)。该模型不仅在性能上可与当前流行的o3和Claude4Opus相媲美，还在长文本处理及复杂任务中展现出卓越的能力。MiniMax-M1-80k的核心功能与应用场景出色
C#打字游戏源代码深入解析与实战大奇鸭
本文还有配套的精品资源，点击获取简介：本项目提供C#打字游戏的源代码，这是一款基于C#语言的互动打字练习软件，旨在提升用户的打字速度和准确性。源代码深入展示了C#基础语法、WindowsForms应用程序设计、游戏逻辑、多线程编程、文本处理、用户反馈、异常处理、资源管理以及源代码结构和设计模式的应用。通过学习该项目，开发者可以掌握C#编程在游戏开发中的应用，并了解实现游戏互动功能的整个流程。1.C
Awk脚本的精细过滤技巧 t0_54manong 编程问题解决手册 mysql 数据库个人开发
在数据处理领域，Awk因其简洁而强大的文本处理能力而备受推崇。本文将通过一个具体的实例，详细探讨如何使用Awk脚本来进行精细的文本过滤。背景假设我们有一个PDB(ProteinDataBank)文件，其中包含了各种化学结构的信息。我们的目标是过滤掉文件中特定条件的行，同时在文件末尾添加一个“END”标签。具体来说，我们需要：排除以“HETATM”开头且包含“lig”或“lih”的行。排除以“END
Enum用法不懂事的小屁孩 enum
以前的时候知道enum，但是真心不怎么用，在实际开发中，经常会用到以下代码: protected final static String XJ = "XJ"; protected final static String YHK = "YHK"; protected final static String PQ = "PQ";
【Spark九十七】RDD API之aggregateByKey bit1129 spark
1. aggregateByKey的运行机制 /** * Aggregate the values of each key, using given combine functions and a neutral "zero value". * This function can return a different result type
hive创建表是报错： Specified key was too long; max key length is 767 bytes daizj hive
今天在hive客户端创建表时报错，具体操作如下 hive> create table test2(id string); FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:javax.jdo.JDODataSto
Map 与 JavaBean之间的转换周凡杨 java 自省转换反射
最近项目里需要一个工具类，它的功能是传入一个Map后可以返回一个JavaBean对象。很喜欢写这样的Java服务，首先我想到的是要通过Java 的反射去实现匿名类的方法调用，这样才可以把Map里的值set 到JavaBean里。其实这里用Java的自省会更方便，下面两个方法就是一个通过反射，一个通过自省来实现本功能。 1：JavaBean类 1 &nb
java连接ftp下载 g21121 java
有的时候需要用到java连接ftp服务器下载，上传一些操作，下面写了一个小例子。 /** ftp服务器地址 */ private String ftpHost; /** ftp服务器用户名 */ private String ftpName; /** ftp服务器密码 */ private String ftpPass; /** ftp根目录 */ private String f
web报表工具FineReport使用中遇到的常见报错及解决办法（二）老A不折腾 finereport web报表 java报表总结
抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、没有返回数据集：在存储过程中的操作语句之前加上set nocount on 或者在数据集exec调用存储过程的前面加上这句。当S
linux 系统cpu 内存等信息查看墙头上一根草 cpu 内存 liunx
1 查看CPU 　　1.1 查看CPU个数　　# cat /proc/cpuinfo | grep "physical id" | uniq | wc -l 　　2 　　**uniq命令：删除重复行;wc –l命令：统计行数** 　　1.2 查看CPU核数　　# cat /proc/cpuinfo | grep "cpu cores" | u
Spring中的AOP aijuans spring AOP
Spring中的AOP Written by Tony Jiang @ 2012-1-18 （转）何为AOP AOP，面向切面编程。在不改动代码的前提下，灵活的在现有代码的执行顺序前后，添加进新规机能。来一个简单的Sample: 目标类： [java] view plain copy print ? package&nb
placeholder(HTML 5) IE 兼容插件 alxw4616 JavaScript jquery jQuery插件
placeholder 这个属性被越来越频繁的使用. 但为做HTML 5 特性IE没能实现这东西. 以下的jQuery插件就是用来在IE上实现该属性的. /** * [placeholder(HTML 5) IE 实现.IE9以下通过测试.] * v 1.0 by oTwo 2014年7月31日 11:45:29 */ $.fn.placeholder = function
Object类,值域,泛型等总结(适合有基础的人看) 百合不是茶泛型的继承和通配符变量的值域 Object类转换
java的作用域在编程的时候经常会遇到,而我经常会搞不清楚这个问题,所以在家的这几天回忆一下过去不知道的每个小知识点变量的值域; package 基础; /** * 作用域的范围 * * @author Administrator * */ public class zuoyongyu { public static vo
JDK1.5 Condition接口 bijian1013 java thread Condition java多线程
Condition 将 Object 监视器方法（wait、notify和 notifyAll）分解成截然不同的对象，以便通过将这些对象与任意 Lock 实现组合使用，为每个对象提供多个等待 set （wait-set）。其中，Lock 替代了 synchronized 方法和语句的使用，Condition 替代了 Object 监视器方法的使用。条件（也称为条件队列或条件变量）为线程提供了一
开源中国OSC源创会记录 bijian1013 hadoop spark MemSQL
一.Strata+Hadoop World（SHW）大会是全世界最大的大数据大会之一。SHW大会为各种技术提供了深度交流的机会，还会看到最领先的大数据技术、最广泛的应用场景、最有趣的用例教学以及最全面的大数据行业和趋势探讨。二.Hadoop &nbs
【Java范型七】范型消除 bit1129 java
范型是Java1.5引入的语言特性，它是编译时的一个语法现象，也就是说，对于一个类，不管是范型类还是非范型类，编译得到的字节码是一样的，差别仅在于通过范型这种语法来进行编译时的类型检查，在运行时是没有范型或者类型参数这个说法的。范型跟反射刚好相反，反射是一种运行时行为，所以编译时不能访问的变量或者方法(比如private)，在运行时通过反射是可以访问的，也就是说，可见性也是一种编译时的行为，在
【Spark九十四】spark-sql工具的使用 bit1129 spark
spark-sql是Spark bin目录下的一个可执行脚本，它的目的是通过这个脚本执行Hive的命令，即原来通过 hive>输入的指令可以通过spark-sql>输入的指令来完成。 spark-sql可以使用内置的Hive metadata-store，也可以使用已经独立安装的Hive的metadata store 关于Hive build into Spark
js做的各种倒计时 ronin47 js 倒计时
第一种：精确到秒的javascript倒计时代码 HTML代码: <form name="form1"> <div align="center" align="middle"
java-37.有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接 bylijinnan java
public class MaxCatenate { /* * Q.37 有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接， * 问这n 个字符串最多可以连成一个多长的字符串，如果出现循环，则返回错误。 */ public static void main(String[] args){
mongoDB安装开窍的石头 mongodb安装基本操作
mongoDB的安装 1:mongoDB下载 https://www.mongodb.org/downloads 2:下载mongoDB下载后解压
[开源项目]引擎的关键意义 comsci 开源项目
一个系统，最核心的东西就是引擎。。。。。而要设计和制造出引擎，最关键的是要坚持。。。。。。现在最先进的引擎技术，也是从莱特兄弟那里出现的，但是中间一直没有断过研发的
软件度量的一些方法 cuiyadll 方法
软件度量的一些方法http://cuiyingfeng.blog.51cto.com/43841/6775/在前面我们已介绍了组成软件度量的几个方面。在这里我们将先给出关于这几个方面的一个纲要介绍。在后面我们还会作进一步具体的阐述。当我们不从高层次的概念级来看软件度量及其目标的时候，我们很容易把这些活动看成是不同而且毫不相干的。我们现在希望表明他们是怎样恰如其分地嵌入我们的框架的。也就是我们度量的
XSD中的targetNameSpace解释 darrenzhu xml namespace xsd targetnamespace
参考链接: http://blog.csdn.net/colin1014/article/details/357694 xsd文件中定义了一个targetNameSpace后，其内部定义的元素，属性，类型等都属于该targetNameSpace,其自身或外部xsd文件使用这些元素，属性等都必须从定义的targetNameSpace中找：例如：以下xsd文件，就出现了该错误，即便是在一
什么是RAID0、RAID1、RAID0+1、RAID5，等磁盘阵列模式? dcj3sjt126com raid
RAID 1又称为Mirror或Mirroring，它的宗旨是最大限度的保证用户数据的可用性和可修复性。 RAID 1的操作方式是把用户写入硬盘的数据百分之百地自动复制到另外一个硬盘上。由于对存储的数据进行百分之百的备份，在所有RAID级别中，RAID 1提供最高的数据安全保障。同样，由于数据的百分之百备份，备份数据占了总存储空间的一半，因而，Mirror的磁盘空间利用率低，存储成本高。 Mir
yii2 restful web服务快速入门 dcj3sjt126com PHP yii2
快速入门 Yii 提供了一整套用来简化实现 RESTful 风格的 Web Service 服务的 API。特别是，Yii 支持以下关于 RESTful 风格的 API：支持 Active Record 类的通用API的快速原型涉及的响应格式（在默认情况下支持 JSON 和 XML) 支持可选输出字段的定制对象序列化适当的格式的数据采集和验证错误
MongoDB查询(3)——内嵌文档查询（七） eksliang MongoDB查询内嵌文档 MongoDB查询内嵌数组
MongoDB查询内嵌文档转载请出自出处：http://eksliang.iteye.com/blog/2177301 一、概述有两种方法可以查询内嵌文档：查询整个文档；针对键值对进行查询。这两种方式是不同的，下面我通过例子进行分别说明。二、查询整个文档例如:有如下文档 db.emp.insert({ &qu
android4.4从系统图库无法加载图片的问题 gundumw100 android
典型的使用场景就是要设置一个头像，头像需要从系统图库或者拍照获得，在android4.4之前，我用的代码没问题，但是今天使用android4.4的时候突然发现不灵了。baidu了一圈，终于解决了。下面是解决方案： private String[] items = new String[] { "图库","拍照" }; /* 头像名称 */
网页特效大全 jQuery等 ini JavaScript jquery css html5 ini
HTML5和CSS3知识和特效 asp.net ajax jquery实例分享一个下雪的特效 jQuery倾斜的动画导航菜单选美大赛示例你会选谁 jQuery实现HTML5时钟功能强大的滚动播放插件JQ-Slide 万圣节快乐！！！向上弹出菜单jQuery插件 htm5视差动画 jquery将列表倒转顺序推荐一个jQuery分页插件 jquery animate
swift objc_setAssociatedObject block(version1.2 xcode6.4) 啸笑天 version
import UIKit class LSObjectWrapper: NSObject { let value: ((barButton: UIButton?) -> Void)? init(value: (barButton: UIButton?) -> Void) { self.value = value
Aegis 默认的 Xfire 绑定方式，将 XML 映射为 POJO MagicMa_007 java POJO xml Aegis xfire
Aegis 是一个默认的 Xfire 绑定方式，它将 XML 映射为 POJO, 支持代码先行的开发.你开发服务类与 POJO,它为你生成 XML schema/wsdl XML 和注解映射概览默认情况下，你的 POJO 类被是基于他们的名字与命名空间被序列化。如果
js get max value in (json) Array qiaolevip 每天进步一点点学习永无止境 max 纵观千象
// Max value in Array var arr = [1,2,3,5,3,2];Math.max.apply(null, arr); // 5 // Max value in Jaon Array var arr = [{"x":"8/11/2009","y":0.026572007},{"x"
XMLhttpRequest 请求 XML,JSON ,POJO 数据 Luob. POJO json Ajax xml XMLhttpREquest
在使用XMlhttpRequest对象发送请求和响应之前，必须首先使用javaScript对象创建一个XMLHttpRquest对象。 var xmlhttp； function getXMLHttpRequest(){ if(window.ActiveXObject){ xmlhttp:new ActiveXObject("Microsoft.XMLHTTP
jquery wuai jquery
以下防止文档在完全加载之前运行Jquery代码，否则会出现试图隐藏一个不存在的元素、获得未完全加载的图像的大小等等 $(document).ready(function(){ jquery代码; }); <script type="text/javascript" src="c:/scripts/jquery-1.4.2.min.js&quo

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他