CopperDong

Python自然语言处理 3 处理原始文本

本章的目的是要回答下列问题:

(1) 怎样才能编写程序访问本地和网络上的文件,从而获得无限的语言材料?

(2)如何把文档分割成单独的单词和标点符号,并进行文本语料上分析?

(3)怎样编写程序产生格式化的输出,并把结果保存在文件中?

为了解决这些问题,本章将介绍NLP的重要概念,包括分词和词干提取.在过程中,巩固Python知识并且学习关于字符串,文件和正则表达式的知识.网络上的文本都是HTML格式的,我们将学习如何使用HTML

一,从网络和硬盘访问文本

#处理电子书 txt

古腾堡项目http://www.gutenberg.org/catalog/有25000本免费在线书籍的目录

编号2554的文本是<罪与罚>

from urllib import urlopen
url = "http://www.gutenberg.org/files/2554/2554-0.txt"
raw = urlopen(url).read()
type(raw)

str

len(raw)

raw = raw.replace('\xef\xbb\xbf','')

raw[:75]

'The Project Gutenberg EBook of Crime and Punishment, by Fyodor Dostoevsky\r\n\'

分词

import nltk

import sys
reload(sys)
sys.setdefaultencoding( "utf-8" )

tokens = nltk.word_tokenize(raw)

type(tokens)

list

len(tokens)

tokens[:15]

['\xef',
 '\xbb',
 '\xbfThe',
 'Project',
 'Gutenberg'

在链表中创建NLTK文本

text = nltk.Text(tokens)

type(text)

text[1020:1060]

text.collocations()

raw.find("PART I")

raw.rfind("End of Project Gutenberg’s Crime")

raw = raw[5381:1182515]

raw.find("PART I")

0

#处理HTML

url = "http://news.bbc.co.uk/2/hi/health/2284783.stm"
html = urlopen(url).read()
html[:60]

' #raw = nltk.clean_html(html) 
  
 
   
  from bs4 import BeautifulSoup
 soup = BeautifulSoup(html, 'html.parser')
 raw = soup.get_text()
 
  tokens = nltk.word_tokenize(raw)
 
  tokens
 
   
  [u'BBC',
 u'NEWS',
 u'|',
 u'Health',
 u'|', 
  #处理搜索引擎的结果 
   
  网络可以被看做未经标注的巨大语料库 
  #处理RSS订阅 
  http://feedparser.org 
  #读取本地文件 
  import sys 
  #从PDF,MS word及其他二进制格式中提取文本 
  使用pypdf和pywin32 
  #捕获用户输入 
  s = raw_input("Enter some text: ") 
  #NLP的流程 
  
 
  二, 字符串: 最底层的文本处理 
  
 
  #链表与字符串的差异 
  字符串和链表都是一种序列.可以通过索引抽取它们中的一部分,可以给它们切片,也可以使用连接将它们合并在一起,但是,字符串和链表之间不能连接 
  query = 'Who knows?'  
  beatles = ['John', 'Paul', 'George', 'Ringo'] 
  query[0] = 'F'  #不可变 
  beatles[0] = 'F' #可变的 
  三, 使用Unicode进行文字处理 
  
 
  #从文件中提取已编码文本 
  import   codecs 
  f = codecs.open(path, encoding='utf8') 
  
 
  四  使用正则表达式检测词组搭配 
  
 
  五 正则表达式的有益应用 
  #提取字符块 
  找出文本中两个或两个以上的元音序列,并确定它们的相对频率 
   
  import re
wsj = sorted(set(nltk.corpus.treebank.words()))
fd = nltk.FreqDist(vs for word in wsj for vs in re.findall(r'[aeiou]{2,}', word))
fd.items() 
   
  #在字符块上做更多事情 
   
  ＃查找词干 
  查询"laptops"会找到含有"laptop"的文档 
  def stem(word):
     for suffix in ['ing','ly','ed','ious','ies','ive','es','s','ment']:
         if word.endswith(suffix):
             return word[:-len(suffix)]
     return word
 
  使用正则表达式 
  ＃搜索已分词文本 
  这种自动和人工处理相结合的方式是最常见的建造新语料库的方式 
  六　规范化文本 
  
 
  raw = """DENNIS:Listen, strange women lying in ponds distributing swords is no basis for a system of government. Supreme executive power derives from a mandate from the masses, not from some farcical aquatic ceremony."""
 
  tokens = nltk.word_tokenize(raw)
 
  ＃词干提取器 
   
  porter = nltk.PorterStemmer()
lancaster = nltk.LancasterStemmer()
[porter.stem(t) for t in tokens]
[u'denni',
 ':',
 'listen',
 ',',
 u'strang', 
  
 ＃词形归并 
   
   
  wnl = nltk.WordNetLemmatizer()
[wnl.lemmatize(t) for t in tokens]
['DENNIS',
 ':',
 'Listen',
 ',',
 'strange',
 u'woman',
 'lying', 
   
  七　用正则表达式为文本分词 
   
  ＃分词的简单方法 
  re.split(r" ', raw)    #在空格符处分割原始文本 
  re.split(r'[ \t\n]+', raw)  #同时需要匹配任何数量的空格符＼制表符或换行符 
  八　分割 
  ＃断句 
   
  sent_tokenizer = nltk.data.load('tokenizers/punkt/english.pickle')
text = nltk.corpus.gutenberg.raw('chesterton-thursday.txt')
sents = sent_tokenizer.tokenize(text)
pprint.pprint(sents[171:181]) 
   
  ＃分词 
   
  
 
  九　格式化：从链表到字符串 
  ＃从链表到字符串 
   
  silly = ['We','called','him','Tortoise','because','he','taught','us','.']
' '.join(silly)
'We called him Tortoise because he taught us .'
';'.join(silly)
'We;called;him;Tortoise;because;he;taught;us;.'
''.join(silly)
'WecalledhimTortoisebecausehetaughtus.' 
  
 
   
  十　深入阅读

你可能感兴趣的:(NLP)

深入探讨如何在LangChain中将参数从一个步骤传递到下一个步骤：高级技巧与实际应用 m0_57781768 langchain
深入探讨如何在LangChain中将参数从一个步骤传递到下一个步骤：高级技巧与实际应用在现代软件开发中，特别是在复杂的自然语言处理（NLP）和人工智能应用中，数据的传递和处理是至关重要的。LangChainExpressionLanguage(LCEL)为开发者提供了一种强大的工具，能够有效地管理数据流，并确保任务链中的每一步都能顺利进行。在这些任务链中，开发者常常需要将数据从一个步骤无缝地传递到
使用LangChain实现最新NLP研究成果 eahba langchain 自然语言处理人工智能 python
近年来，自然语言处理（NLP）领域的研究取得了显著的进展，而LangChain通过实现这些最新的研究成果，为开发者和研究人员提供了强大的工具与服务。在本文中，我们将探讨一些被LangChain所引用的arXiv研究论文，并展示如何通过API调用和具体示例来实现这些前沿技术。技术背景介绍LangChain作为一个强大且灵活的开源工具，旨在简化大语言模型（LLMs）的开发与应用。通过对最新研究的集成，
AIGC技术研究与应用 ---- 下一代人工智能：新范式！新生产力！（2.1-大模型发展历程之背景与开端） shiter AI重制版】人工智能系统解决方案与技术架构人工智能 AIGC 深度学习
文章大纲按照目标不同，AI大模型可分为四类，多模态为未来方向NLP大模型CV大模型科学计算大模型多模态大模型2022年是大模型技术的拐点,前期技术铺垫奠定了基础生成式模型的开端VAE与GANVAEGAN参考文献与学习路径GPT系列模型解析前序文章模型进化券商研报陆奇演讲按照目标不同，AI大模型可分为四类，多模态为未来方向NLP大模型自然语言处理（NaturalLanguageProcessing，
【开源项目】2024最新PHP在线客服系统源码/带预知消息/带搭建教程于飞SEO 免费资源分享开源 php 开发语言
简介随着人工智能技术的飞速发展，AI驱动的在线客服系统已经成为企业提升客户服务质量和效率的重要工具。本文将探讨AI在线客服系统的理论基础，并展示如何使用PHP语言实现一个简单的AI客服系统。源码仓库地址：ym.fzapp.top在线客服系统的理论基础AI在线客服系统通过自然语言处理（NLP）、机器学习（ML）和深度学习（DL）技术，能够理解和响应客户的查询。这些系统通常包括以下几个关键组件：自然语
人工智能引领技术革命：ChatGPT与深度学习的突破性进展撒旦骑路西法，大战吕布国内外安全资讯人工智能
在全球科技快速发展的今天，人工智能（AI）正以前所未有的速度渗透到各个行业，成为推动社会变革的重要力量。特别是在自然语言处理（NLP）领域，OpenAI的ChatGPT凭借深度学习技术的持续突破，展现了AI在理解、推理、对话生成等方面的惊人进步。本文将深入探讨ChatGPT及深度学习的最新突破，以及它对不同行业的深远影响。1.ChatGPT：AI语言模型的革新者1.1什么是ChatGPT？Chat
【自然语言处理-NLP】情感分析与主题建模云博士的AI课堂深度学习哈佛博后带你玩转机器学习自然语言处理人工智能情感分析主题建模深度学习机器学习 NLP
以下内容详细剖析了NLP中情感分析（SentimentAnalysis）和主题建模（TopicModeling）的技术与方法，分别展示如何从文本中提取情感倾向和潜在主题，并提供示例代码和讲解，可在Python环境下直接运行。目录情感分析（SentimentAnalysis）1.1概念与方法概览1.2传统机器学习方法1.3深度学习与预训练模型1.4代码示例：基于机器学习的情感分类主题建模（Topic
python搭建NPL模型的详细步骤和代码百锦再@新空间代码工作室包罗万象 python 开发语言 django flask pygame pip
目录**一、环境准备****二、数据准备****三、文本预处理****1.清理文本****四、特征工程****1.TF-IDF****2.Word2Vec****五、搭建NLP模型****1.逻辑回归****2.LSTM深度学习模型****六、使用预训练的BERT模型****七、模型评估****八、部署模型****总结**1.**人机交互的核心技术**2.**推动AI技术发展的动力**3.**广泛
专业英语程序员爱德华英语专业英语
文章目录一、计算机1.计算机基础(1)计算机组成原理(2)计算机网络(3)数据库(4)编译原理(5)离散数学2.软件开发(1)编程词汇(2)开发术语(3)Linux(4)软件3.就业领域(1)职场(2)芯片(3)自动驾驶(4)嵌入式硬件4.深度学习(1)论文(2)深度学习DL(3)计算机视觉CV(4)自然语言处理NLP(5)推荐系统(6)计算机图形学二、数学三、机械、材料四、医药五、英美计量单位一
1.6 从 GPT-1 到 GPT-3.5：一路的风云变幻少林码僧 AI大模型应用实战专栏 gpt gpt-3
从GPT-1到GPT-3.5：一路的风云变幻人工智能的进步一直是科技领域的一个重要话题，而在自然语言处理（NLP）领域，GPT（GenerativePre-trainedTransformer）系列模型的发布，标志着一个又一个技术突破。从2018年发布的GPT-1到2022年推出的GPT-3.5，OpenAI的每一次更新都在推动着人工智能的发展，改变了我们与计算机互动的方式。本文将带你一起回顾GP
使用Python和机器学习技术对高中物理题目进行分类的示例代码 max500600 python 机器学习 python 分类
以下是一个使用Python和机器学习技术对高中物理题目进行分类的示例代码。我们将使用自然语言处理（NLP）技术处理题目的文本信息，并使用朴素贝叶斯分类器进行分类。步骤概述数据准备：准备包含高中物理题目的数据集，每个题目都有对应的类别标签。文本预处理：对题目文本进行清洗和特征提取。模型训练：使用训练数据训练分类模型。模型评估：使用测试数据评估模型的性能。预测：使用训练好的模型对新的物理题目进行分类。
Python 自然语言处理实战： NLTK 与 spaCy，文本分析的左右护法清水白石008 python Python题库 python 自然语言处理 easyui
Python自然语言处理实战：NLTK与spaCy，文本分析的左右护法引言在信息爆炸的时代，文本数据以前所未有的速度增长，蕴藏着巨大的信息和价值。从社交媒体的评论，到浩如烟海的文档，文本数据无处不在，成为了解用户意图、挖掘商业情报、洞察社会趋势的关键来源。然而，文本数据本质上是非结构化的，计算机难以直接理解和处理。自然语言处理(NaturalLanguageProcessing,NLP)技术应运而
【Hugging Face】datasets 库：加载、处理和分享大规模数据集彬彬侠大模型 datasets Hugging Face
HuggingFaceDatasets库HuggingFace的datasets库是一个轻量级、高性能的库，用于加载、处理和分享大规模数据集，特别适用于自然语言处理（NLP）、计算机视觉（CV）和语音任务。1.为什么使用Datasets？在深度学习中，处理大规模数据集通常面临以下挑战：数据集太大，无法一次性加载到内存不同任务的数据格式不统一数据预处理和转换较慢需要快速流式加载数据datasets库
自然语言处理（NLP）领域大语言模型学习目录大全彬彬侠大模型自然语言处理 NLP 大模型 LLM GPT BERT GLM
本文主要收集了自然语言处理（NLP）领域的大语言模型，可以可以通过点击标题链接查看具体的详情。GPT系列GPT-1（GenerativePre-trainedTransformer1）模型GPT-1（GenerativePre-trainedTransformer1）是OpenAI在2018年6月提出的第一代GPT模型，也是第一个基于Transformer结构的自回归（Autoregressive
DeepSeek时代：AI如何重塑软件开发的每个阶段，效率提升全解析阿三0404 人工智能
在软件开发领域，时间就是竞争力。传统的瀑布模型和敏捷开发流程中，需求偏差、重复编码、测试遗漏等问题不断消耗团队精力。随着以DeepSeek为代表的AI技术突破，从需求分析到运维监控的每个环节都在发生效率革命。本文将深入解析AI在开发全流程中的具体应用，并通过真实数据揭示其带来的效率跃升。一、需求分析阶段：从模糊需求到精准拆解（效率提升65%）AI工具：自然语言处理（NLP）、需求图谱生成应用场景：
DeepSeek：如何通过自然语言生成HTML文件与原型图？阿三0404 ai 人工智能 html 机器学习深度学习
在当今快节奏的开发与设计环境中，快速生成HTML文件或原型图是每个开发者与设计师的迫切需求。虽然DeepSeek无法直接生成图片，但它却能够通过自然语言生成流程图、原型图以及交互式页面，甚至可以直接输出HTML代码。本文将详细介绍如何与DeepSeek高效交流，生成你想要的HTML文件或原型图，并分享一些实用技巧。1.DeepSeek的核心功能与优势DeepSeek是一款基于自然语言处理（NLP）
svn 通过127.0.01能访问但通过公网IP不能访问，这是什么原因？行思理运维 Linux svn linux 防火墙
连接失败的提示如下1、SVN的启动方法方法一：svnserve-d-r/mnt/svn方法二：svnserve-d--listen-port3690-r/mnt/svn方法三：svnserve-d-r/mnt/svn--listen-host0.0.0.02、首先检查svn服务器是否启动方法一：netstat-tunlp|grepsvn演示如下如上状态，说明已启动方法二：svnserve--ver
Spring AI 实战：手把手教你打造一个智能客服机器人！ Leaton Lee spring 人工智能机器人
前言：为什么要做一个智能客服机器人？在当今数字化时代，智能客服机器人已经成为企业提升用户体验和服务效率的重要工具。无论是解答用户问题、处理订单咨询，还是提供技术支持，智能客服机器人都能够高效地完成任务。SpringAI框架为我们提供了一个强大的工具集，结合自然语言处理（NLP）技术，我们可以轻松地构建一个功能强大的智能客服机器人。本文将从零开始，一步步教你如何利用SpringAI和相关技术打造一个
Unity AI 技术浅析（二）爱研究的小牛 AIGC—游戏制作 AIGC—虚拟现实 unity 人工智能游戏引擎 AIGC 机器学习深度学习
UnityAI是Unity引擎中集成的智能技术，旨在为游戏开发者、虚拟现实（VR）和增强现实（AR）应用开发者提供强大的AI工具和功能。UnityAI涵盖了从智能代理（Agents）、机器学习（MachineLearning）到自然语言处理（NLP）等多个领域。一、UnityAI的工作原理1.智能代理（Agents）UnityAI的核心之一是智能代理（Agents），这些代理可以模拟游戏中的非玩家
人工智能基础知识 yzx991013 人工智能
首先分为两大类：一：机器视觉cv1.特征比较明显2.经典模型：cnn，resnet，deepface，yolov（1-12），vi-transformer。缺点：不能解决收听问题。3.落地，无人识别，轨道追踪，无人驾驶，（主要解决看的东西）。二：自然语言处理nlp（语音识别）处理（文本）方面解决（说和听的问题），RNN，LSTM，attention，transformer（基于规则的翻译，超越普通
基于NLP的客户意见分析：从数据到洞察 Echo_Wish Python 算法 Python 笔记自然语言处理人工智能
友友们好！我的新专栏《Python进阶》正式启动啦！这是一个专为那些渴望提升Python技能的朋友们量身打造的专栏，无论你是已经有一定基础的开发者，还是希望深入挖掘Python潜力的爱好者，这里都将是你不可错过的宝藏。在这个专栏中，你将会找到：●深入解析：每一篇文章都将深入剖析Python的高级概念和应用，包括但不限于数据分析、机器学习、Web开发等。●实战案例：通过丰富的实战案例，带你一步步实现
RAG 检索增强生成：技术详解与应用展望君君学姐 RAG检索增强生成
RAG检索增强生成：技术详解与应用展望一、引言随着人工智能技术的飞速发展，自然语言处理（NLP）领域迎来了前所未有的变革。其中，检索增强生成（Retrieval-AugmentedGeneration，简称RAG）作为一种新兴的技术框架，正逐渐成为大模型应用中的热门选择。RAG通过结合信息检索（IR）和自然语言生成（NLG）的能力，旨在提升模型在回答问题、生成文本等任务中的准确性和可靠性。本文将深
目前市场上的人工智能大模型有哪些？国货崛起大模型人工智能人工智能
截至最后更新时间（2024年3月中旬），以下是国内外部分知名的人工智能大模型，按类别和用途大致分类如下：国外：自然语言处理（NLP）大模型：OpenAIGPT系列：GPT-3：迄今为止最为知名的自然语言处理大模型之一，具备强大的文本生成、理解和对话能力。GPT-4：后续版本，性能和参数量比GPT-3更高，各项指标均有所提升。Google的Transformer系列：BERT（Bidirection
详解：Grok中文版 _Grok 3 国内中文版本在线使用人工智能
GrokAI是由XAI公司推出的一款尖端人工智能系统。作为该公司核心技术之一，GrokAI专注于推动人工智能在各行各业的实际应用，尤其在数据分析、自然语言处理（NLP）、自动化决策、机器学习等领域表现出色。Grok的最大亮点在于其强大的数据处理能力。它能够高效地从大量复杂数据中提取有价值的信息，并做出精准预测。借助深度学习与强化学习等先进技术，GrokAI具备自我学习的能力，可以通过不断的训练来优
如何结合NLP（自然语言处理）技术提升OCR系统的语义理解和上下文感知能力？金智维科技官方自然语言处理 ocr 人工智能
光学字符识别（OCR）技术能够快速从文档、图像中提取文本信息，目前已经广泛应用于金融、教育、医疗、物流等领域。然而，传统OCR技术的功能主要集中在字符提取和简单的结构化输出上，难以处理复杂场景中涉及的语义理解与上下文感知问题。而通过将自然语言处理（NLP）技术与OCR相结合，可以极大提升系统对文本的语义理解能力，为多场景应用赋予更高的智能化水平。虽然OCR在文本识别的准确性和速度上不断提升，但面对
基于Python 和 DeepSeek API 实现文本分类修破立生大模型 python 人工智能
在自然语言处理（NLP）领域，文本分类是一项非常重要的任务，它可以帮助我们将大量的文本数据自动归类到不同的类别中。传统的文本分类方法有很多，而近年来，利用大模型进行文本分类逐渐成为一种流行且高效的方式。本文将介绍如何使用Python编写代码，结合DeepSeekAPI实现文本分类的功能，并探讨使用大模型方法进行文本分类与其他方法的区别。1代码概述我们的代码主要实现了以下几个功能：创建一个DeepS
OLMo 7B：推动自然语言处理领域的技术革新单皎娥
OLMo7B：推动自然语言处理领域的技术革新OLMo-7B项目地址:https://gitcode.com/hf_mirrors/ai-gitcode/OLMo-7B引言随着人工智能技术的飞速发展，自然语言处理（NLP）领域取得了显著的进步。然而，在实际应用中，NLP技术仍然面临着诸多挑战，如语境理解、信息抽取、情感分析等。为了解决这些问题，艾伦人工智能研究所（AI2）推出了OLMo系列模型，其中
AI 外呼产品架构解读：让智能外呼更精准高效 MARS_AI_ 人工智能架构自然语言处理信息与通信
在人工智能（AI）技术迅猛发展的今天，AI外呼系统已成为呼叫中心领域的新宠。本文将剖析AI外呼产品的基本架构，帮助读者理解其背后的技术逻辑和应用价值。一、支撑能力层：AI外呼的基石AI外呼系统的底层架构，即支撑能力层，为整个系统提供了坚实的技术基础。这一层主要包括以下三个核心组成部分：1.AI基础能力AI基础能力涵盖了语音识别（ASR）、自然语言处理（NLP）和语音合成（TTS）等技术。这些技术使
自然语言模型（NLP）介绍 Liudef06 Stable Diffusion 自然语言处理人工智能
一、自然语言模型概述自然语言模型（NLP）通过模拟人类语言理解和生成能力，已成为人工智能领域的核心技术。近年来，以DeepSeek、GPT-4、Claude等为代表的模型在技术突破和应用场景上展现出显著优势。例如，DeepSeek通过强化学习提升推理能力，其混合专家架构（MoE）显著优化了计算效率‌。二、核心技术解析1.DeepSeek模型架构混合专家模型（MoE）：DeepSeek-V3采用Mo
Transformer 代码剖析15 - Transformer模型代码（pytorch实现） lczdyx Transformer代码剖析 transformer pytorch 深度学习 embedding 人工智能 python
一、模型架构全景解析1.1类定义与继承关系classTransformer(nn.Module):该实现继承PyTorch的nn.Module基类，采用面向对象设计模式。核心架构包含编码器-解码器双塔结构，通过参数配置实现NLP任务的通用处理能力。TransformerEncoderDecoderMulti-HeadAttentionFeedForwardMaskedMulti-HeadAtten
沃丰科技AI浅谈｜语音交互的三驾马车：ASR、NLP、TTS 沃丰科技人工智能科技自然语言处理
在日常生活中，AI机器人离我们很近。你是否接到过这样的电话：“您好，检测到您已经购买某产品一周的时间了，请问您的使用感受如何？”“请问您对产品满意吗？有什么建议给到这边吗？”全程对话亲切无障碍，您可能觉得这是一个大型企业对于用户的恳切关注。如果我告诉您，这都是由外呼机器人拨打并且能够自行记录下您的意见和建议，以供企业改进，您会惊讶吗？基于深度神经学算法和卷积神经网络算法的AI外呼机器人，它是融合自
java线程Thread和Runnable区别和联系 zx_code java jvm thread 多线程 Runnable
我们都晓得java实现线程2种方式，一个是继承Thread，另一个是实现Runnable。模拟窗口买票，第一例子继承thread，代码如下 package thread; public class ThreadTest { public static void main(String[] args) { Thread1 t1 = new Thread1(
【转】JSON与XML的区别比较丁_新 json xml
1.定义介绍 (1).XML定义扩展标记语言 (Extensible Markup Language, XML) ，用于标记电子文件使其具有结构性的标记语言，可以用来标记数据、定义数据类型，是一种允许用户对自己的标记语言进行定义的源语言。 XML使用DTD(document type definition)文档类型定义来组织数据;格式统一，跨平台和语言，早已成为业界公认的标准。 XML是标
c++ 实现五种基础的排序算法 CrazyMizzz C++c 算法
#include<iostream> using namespace std; //辅助函数，交换两数之值 template<class T> void mySwap(T &x, T &y){ T temp = x; x = y; y = temp; } const int size = 10; //一、用直接插入排
我的软件麦田的设计者我的软件音乐类娱乐放松
这是我写的一款app软件，耗时三个月，是一个根据央视节目开门大吉改变的，提供音调，猜歌曲名。1、手机拥有者在android手机市场下载本APP，同意权限，安装到手机上。2、游客初次进入时会有引导页面提醒用户注册。（同时软件自动播放背景音乐）。3、用户登录到主页后，会有五个模块。a、点击不胫而走，用户得到开门大吉首页部分新闻，点击进入有新闻详情。b、
linux awk命令详解被触发 linux awk
awk是行处理器: 相比较屏幕处理的优点，在处理庞大文件时不会出现内存溢出或是处理缓慢的问题，通常用来格式化文本信息 awk处理过程: 依次对每一行进行处理，然后输出 awk命令形式: awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ file [-F|-f|-v]大参数，-F指定分隔符，-f调用脚本，-v定义变量 var=val
各种语言比较 _wy_ 编程语言
Java Ruby PHP 擅长领域
oracle 中数据类型为clob的编辑知了ing oracle clob
public void updateKpiStatus(String kpiStatus,String taskId){ Connection dbc=null; Statement stmt=null; PreparedStatement ps=null; try { dbc = new DBConn().getNewConnection(); //stmt = db
分布式服务框架 Zookeeper -- 管理分布式环境中的数据矮蛋蛋 zookeeper
原文地址： http://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/ 安装和配置详解本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础，最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取，Zookeeper 的安装非常简单，下面将从单机模式和集群模式两
tomcat数据源 alafqq tomcat
数据库 JNDI(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。没有使用JNDI时我用要这样连接数据库： 03. Class.forName("com.mysql.jdbc.Driver"); 04. conn
遍历的方法百合不是茶遍历
遍历在java的泛
linux查看硬件信息的命令 bijian1013 linux
linux查看硬件信息的命令一.查看CPU： cat /proc/cpuinfo 二.查看内存： free 三.查看硬盘： df linux下查看硬件信息 1、lspci 列出所有PCI 设备； lspci - list all PCI devices:列出机器中的PCI设备（声卡、显卡、Modem、网卡、USB、主板集成设备也能
java常见的ClassNotFoundException bijian1013 java
1.java.lang.ClassNotFoundException: org.apache.commons.logging.LogFactory 添加包common-logging.jar2.java.lang.ClassNotFoundException: javax.transaction.Synchronization
【Gson五】日期对象的序列化和反序列化 bit1129 反序列化
对日期类型的数据进行序列化和反序列化时，需要考虑如下问题： 1. 序列化时，Date对象序列化的字符串日期格式如何 2. 反序列化时，把日期字符串序列化为Date对象，也需要考虑日期格式问题 3. Date A -> str -> Date B,A和B对象是否equals 默认序列化和反序列化 import com
【Spark八十六】Spark Streaming之DStream vs. InputDStream bit1129 Stream
1. DStream的类说明文档： /** * A Discretized Stream (DStream), the basic abstraction in Spark Streaming, is a continuous * sequence of RDDs (of the same type) representing a continuous st
通过nginx获取header信息 ronin47 nginx header
1. 提取整个的Cookies内容到一个变量，然后可以在需要时引用，比如记录到日志里面， if ( $http_cookie ~* "(.*)$") { set $all_cookie $1; } 变量$all_cookie就获得了cookie的值，可以用于运算了
java-65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 bylijinnan java
参考了网上的http://blog.csdn.net/peasking_dd/article/details/6342984 写了个java版的： public class Print_1_To_NDigit { /** * Q65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 * 1.使用字符串
Netty源码学习-ReplayingDecoder bylijinnan java netty
ReplayingDecoder是FrameDecoder的子类，不熟悉FrameDecoder的，可以先看看 http://bylijinnan.iteye.com/blog/1982618 API说，ReplayingDecoder简化了操作，比如： FrameDecoder在decode时，需要判断数据是否接收完全： public class IntegerH
js特殊字符过滤 cngolon js特殊字符 js特殊字符过滤
1.js中用正则表达式过滤特殊字符, 校验所有输入域是否含有特殊符号function stripscript(s) { var pattern = new RegExp("[`~!@#$^&*()=|{}':;',\\[\\].<>/?~！@#￥……&*（）——|{}【】‘；：”“'。，、？]"
hibernate使用sql查询 ctrain Hibernate
import java.util.Iterator; import java.util.List; import java.util.Map; import org.hibernate.Hibernate; import org.hibernate.SQLQuery; import org.hibernate.Session; import org.hibernate.Transa
linux shell脚本中切换用户执行命令方法 daizj linux shell 命令切换用户
经常在写shell脚本时，会碰到要以另外一个用户来执行相关命令，其方法简单记下： 1、执行单个命令：su - user -c "command" 如：下面命令是以test用户在/data目录下创建test123目录 [root@slave19 /data]# su - test -c "mkdir /data/test123"
好的代码里只要一个 return 语句 dcj3sjt126com return
别再这样写了：public boolean foo() { if (true) { return true; } else { return false;
Android动画效果学习 dcj3sjt126com android
1、透明动画效果方法一：代码实现 public View onCreateView(LayoutInflater inflater, ViewGroup container, Bundle savedInstanceState) { View rootView = inflater.inflate(R.layout.fragment_main, container, fals
linux复习笔记之bash shell (4)管道命令 eksliang linux管道命令汇总 linux管道命令 linux常用管道命令
转载请出自出处： http://eksliang.iteye.com/blog/2105461 bash命令执行的完毕以后，通常这个命令都会有返回结果，怎么对这个返回的结果做一些操作呢？那就得用管道命令‘|’。上面那段话，简单说了下管道命令的作用，那什么事管道命令呢？答：非常的经典的一句话，记住了，何为管
Android系统中自定义按键的短按、双击、长按事件 gqdy365 android
在项目中碰到这样的问题：由于系统中的按键在底层做了重新定义或者新增了按键，此时需要在APP层对按键事件（keyevent）做分解处理，模拟Android系统做法，把keyevent分解成： 1、单击事件：就是普通key的单击； 2、双击事件：500ms内同一按键单击两次； 3、长按事件：同一按键长按超过1000ms（系统中长按事件为500ms）； 4、组合按键：两个以上按键同时按住；
asp.net获取站点根目录下子目录的名称 hvt .net C#asp.net hovertree Web Forms
使用Visual Studio建立一个.aspx文件(Web Forms)，例如hovertree.aspx,在页面上加入一个ListBox代码如下： <asp:ListBox runat="server" ID="lbKeleyiFolder" /> 那么在页面上显示根目录子文件夹的代码如下： string[] m_sub
Eclipse程序员要掌握的常用快捷键 justjavac java eclipse 快捷键 ide
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。写道程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可
c++编程随记 lx.asymmetric C++笔记
为了字体更好看，改变了格式…… &&运算符： #include<iostream> using namespace std; int main(){ int a=-1,b=4,k; k=(++a<0)&&!(b--
linux标准IO缓冲机制研究音频数据 linux
一、什么是缓存I/O(Buffered I/O)缓存I/O又被称作标准I/O,大多数文件系统默认I/O操作都是缓存I/O。在Linux的缓存I/O机制中，操作系统会将I/O的数据缓存在文件系统的页缓存(page cache)中，也就是说，数据会先被拷贝到操作系统内核的缓冲区中，然后才会从操作系统内核的缓冲区拷贝到应用程序的地址空间。1.缓存I/O有以下优点:A.缓存I/O使用了操作系统内核缓冲区，
随想生活暗黑小菠萝生活
其实账户之前就申请了，但是决定要自己更新一些东西看也是最近。从毕业到现在已经一年了。没有进步是假的，但是有多大的进步可能只有我自己知道。毕业的时候班里12个女生，真正最后做到软件开发的只要两个包括我，PS：我不是说测试不好。当时因为考研完全放弃找工作，考研失败，我想这只是我的借口。那个时候才想到为什么大学的时候不能好好的学习技术，增强自己的实战能力，以至于后来找工作比较费劲。我
我认为POJO是一个错误的概念 windshome java POJO 编程 J2EE 设计
这篇内容其实没有经过太多的深思熟虑，只是个人一时的感觉。从个人风格上来讲，我倾向简单质朴的设计开发理念；从方法论上，我更加倾向自顶向下的设计；从做事情的目标上来看，我追求质量优先，更愿意使用较为保守和稳妥的理念和方法。 &

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他