Python高效处理大文件的方法详解

开始

我们将使用来自 Kaggle 的 US Accidents (2016 - 2021) 数据集，它包括280万条记录和47个列。

我们将导入multiprocessing、joblib和tqdm用于并行处理，pandas用于数据导入，re、nltk和string用于文本处理。

# Parallel Computing
import multiprocessing as mp
from joblib import Parallel, delayed
from tqdm.notebook import tqdm
# Data Ingestion  
import pandas as pd
# Text Processing  
import re  
from nltk.corpus import stopwords
import string

在我们开始之前，让我们通过加倍cpu_count()来设置n_workers。正如你所看到的，我们有8个workers。

n_workers = 2 * mp.cpu_count()
print(f"{n_workers} workers are available")
>>> 8 workers are available

下一步，我们将使用pandas read_csv函数读取大型CSV文件。然后打印出dataframe的形状、列的名称和处理时间。

%%time
file_name="../input/us-accidents/US_Accidents_Dec21_updated.csv"
df = pd.read_csv(file_name)
print(f"Shape:{df.shape}\n\nColumn Names:\n{df.columns}\n")

输出：

Shape:(2845342, 47)
Column Names:
Index(['ID', 'Severity', 'Start_Time', 'End_Time', 'Start_Lat', 'Start_Lng',
'End_Lat', 'End_Lng', 'Distance(mi)', 'Description', 'Number', 'Street',
'Side', 'City', 'County', 'State', 'Zipcode', 'Country', 'Timezone',
'Airport_Code', 'Weather_Timestamp', 'Temperature(F)', 'Wind_Chill(F)',
'Humidity(%)', 'Pressure(in)', 'Visibility(mi)', 'Wind_Direction',
'Wind_Speed(mph)', 'Precipitation(in)', 'Weather_Condition', 'Amenity',
'Bump', 'Crossing', 'Give_Way', 'Junction', 'No_Exit', 'Railway',
'Roundabout', 'Station', 'Stop', 'Traffic_Calming', 'Traffic_Signal',
'Turning_Loop', 'Sunrise_Sunset', 'Civil_Twilight', 'Nautical_Twilight',
'Astronomical_Twilight'],
dtype='object')
CPU times: user 33.9 s, sys: 3.93 s, total: 37.9 s
Wall time: 46.9 s

处理文本

clean_text是一个用于处理文本的简单函数。我们将使用nltk.copus获得英语停止词，并使用它来过滤掉文本行中的停止词。之后，我们将删除句子中的特殊字符和多余的空格。它将成为确定串行、并行和批处理的处理时间的基准函数。

def clean_text(text):  
 # Remove stop words
 stops = stopwords.words("english")
  text = " ".join([word for word in text.split() if word  
not in stops])
 # Remove Special Characters
 text = text.translate(str.maketrans('', '', string.punctuation))
 # removing the extra spaces
 text = re.sub(' +',' ', text)
 return text

串行处理

对于串行处理，我们可以使用pandas的.apply()函数，但是如果你想看到进度条，你需要为pandas激活tqdm，然后使用.progress_apply()函数。

我们将处理280万条记录，并将结果保存回 “Description” 列中。

%%time
tqdm.pandas()
df['Description'] = df['Description'].progress_apply(clean_text)

输出

高端处理器串行处理280万行花了9分5秒。

100% 2845342/2845342 [09:05<00:00, 5724.25it/s]
CPU times: user 8min 14s, sys: 53.6 s, total: 9min 7s
Wall time: 9min 5s

多进程处理

有多种方法可以对文件进行并行处理，我们将了解所有这些方法。multiprocessing是一个内置的python包，通常用于并行处理大型文件。

我们将创建一个有8个workers的多处理池，并使用map函数来启动进程。为了显示进度条，我们将使用tqdm。

map函数由两部分组成。第一个部分需要函数，第二个部分需要一个参数或参数列表。

%%time
p = mp.Pool(n_workers)  
df['Description'] = p.map(clean_text,tqdm(df['Description']))

输出

我们的处理时间几乎提高了3倍。处理时间从9分5秒下降到3分51秒。

100% 2845342/2845342 [02:58<00:00, 135646.12it/s]
CPU times: user 5.68 s, sys: 1.56 s, total: 7.23 s
Wall time: 3min 51s

并行处理

我们现在将学习另一个Python包来执行并行处理。在本节中，我们将使用joblib的Parallel和delayed来复制map函数。

Parallel需要两个参数：n_job = 8和backend = multiprocessing。
然后，我们将在delayed函数中加入clean_text。
创建一个循环，每次输入一个值。

下面的过程是相当通用的，你可以根据你的需要修改你的函数和数组。我曾用它来处理成千上万的音频和视频文件，没有任何问题。

建议：使用 "try: "和 "except: "添加异常处理。

def text_parallel_clean(array):
 result = Parallel(n_jobs=n_workers,backend="multiprocessing")(
 delayed(clean_text)
  (text)  
 for text in tqdm(array)
 )
 return result

在text_parallel_clean()中添加“Description”列。

%%time
df['Description'] = text_parallel_clean(df['Description'])

输出

我们的函数比多进程处理Pool多花了13秒。即使如此，并行处理也比串行处理快4分59秒。

100% 2845342/2845342 [04:03<00:00, 10514.98it/s]
CPU times: user 44.2 s, sys: 2.92 s, total: 47.1 s
Wall time: 4min 4s

并行批量处理

有一个更好的方法来处理大文件，就是把它们分成若干批，然后并行处理。让我们从创建一个批处理函数开始，该函数将在单一批次的值上运行clean_function。

批量处理函数

def proc_batch(batch):
 return [
 clean_text(text)
 for text in batch
 ]

将文件分割成批

下面的函数将根据workers的数量把文件分成多个批次。在我们的例子中，我们得到8个批次。

def batch_file(array,n_workers):
 file_len = len(array)
 batch_size = round(file_len / n_workers)
 batches = [
 array[ix:ix+batch_size]
 for ix in tqdm(range(0, file_len, batch_size))
 ]
 return batches
batches = batch_file(df['Description'],n_workers)
>>> 100% 8/8 [00:00<00:00, 280.01it/s]

运行并行批处理

最后，我们将使用Parallel和delayed来处理批次。

%%time
batch_output = Parallel(n_jobs=n_workers,backend="multiprocessing")(
 delayed(proc_batch)
  (batch)  
 for batch in tqdm(batches)
 )
df['Description'] = [j for i in batch_output for j in i]

输出

我们已经改善了处理时间。这种技术在处理复杂数据和训练深度学习模型方面非常有名。

100% 8/8 [00:00<00:00, 2.19it/s]
CPU times: user 3.39 s, sys: 1.42 s, total: 4.81 s
Wall time: 3min 56s

tqdm 并发

tqdm将多处理带到了一个新的水平。它简单而强大。

process_map需要：

函数名称
Dataframe 列名
max_workers
chucksize与批次大小类似。我们将用workers的数量来计算批处理的大小，或者你可以根据你的喜好来添加这个数字。

%%time
from tqdm.contrib.concurrent import process_map
batch = round(len(df)/n_workers)
df['Description'] = process_map(clean_text,df['Description'], max_workers=n_workers, chunksize=batch)

输出

通过一行代码，我们得到了最好的结果：

100% 2845342/2845342 [03:48<00:00, 1426320.93it/s]
CPU times: user 7.32 s, sys: 1.97 s, total: 9.29 s
Wall time: 3min 51s

结论

我们需要找到一个平衡点，它可以是串行处理，并行处理，或批处理。如果你正在处理一个较小的、不太复杂的数据集，并行处理可能会适得其反。

在这个教程中，我们已经了解了各种处理大文件的Python包，它们允许我们对数据函数进行并行处理。

如果你只处理一个表格数据集，并且想提高处理性能，那么建议你尝试Dask、datatable和RAPIDS。

到此这篇关于Python高效处理大文件的方法详解的文章就介绍到这了,更多相关Python处理大文件内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

一次zookeeper Curator客户端导致JVM OOM问题的分析记录辉度并发多线程
一次JVMOOM问题的分析记录OOM问题发生在客户的开发环境，系统是一个监控系统，表现为先高CPU，页面极卡，最后发生OOM。问实施人员拿到HeapDump文件。来看看到底是内存不够用溢出了，还是发生了内存泄漏。HeapDumpjdk自带的jvisualvm可以用，但是表现在我电脑上卡的不行。Dump文件接近7G。jprofiler，商用。本次分析借用其试用的10天。Classes查看到Linke
Java学习day002 Java程序设计环境（下载安装JDK、使用命令行工具、使用集成开发环境、运行图形化应用程序） Z zehao Java基础学习 java 后端
使用的教材是java核心技术卷1，我将跟着这本书的章节同时配合视频资源来进行学习基础java知识。day002Java程序设计环境（下载安装JDK、使用命令行工具、使用集成开发环境、运行图形化应用程序）第一部分安装java开发工具包下载JDK要想下载Java开发工具包，可以访问Oracle网站：www.oracle.com/technetwork/java/javase/downloads,在得到
Python del 删除对象编程爱好者9913
面向对象的程序设计的核心是对象（上帝式思维），要理解对象为何物，必须把自己当成上帝，上帝眼里世间存在的万物皆为对象，不存在的也可以创造出来。本文主要介绍Pythondel删除对象。原文地址：Pythondel删除对象
Typescript新特性关键字readyonly详细解读黑码小帅自己总结 typescript javascript 前端 html css vue.js vue
readonly修饰符：首先是一个关键字，对类中的属性成员进行修饰，修饰后，该属性成员，就不能在外部被随意的修改了一构造函数中，可以对只读的属性成员的数据进行修改(()=>{//定义一个类型classPerson{//属性readonlyname:string//构造函数constructor(name:string){this.name=name}}//实例化对象constperson:Pers
Typescript 多个泛型参数详细解读黑码小帅自己总结 typescript javascript 前端 vue.js js vue reactjs
多个泛型参数的函数:函数中有多个泛型的参数。示例：(()=>{functiongetMsg(value1:K,value2:V):[K,V]{return[value1,value2]}constarr1=getMsg('jack',100.2345)console.log(arr1[0].split(''))console.log(arr1[1].toFixed(1))//调用toFixed(1
Typescript泛型详解解读黑码小帅自己总结 typescript javascript 前端 vue.js vue 前端框架 jquery
泛型:在定义函数、接口、类的时候不能预先确定要使用的数据的类型,而是在使用函数、接口、类的时候才能确定数据的类型普通方法示例：需求:定义一个函数,传入两个参数,第一参数是数据,第二个参数是数量,函数的作用:根据数量产生对应个数的数据,存放在一个数组中(()=>{//需求:定义一个函数,传入两个参数,第一参数是数据,第二个参数是数量,函数的作用:根据数量产生对应个数的数据,存放在一个数组中//定义一
Python面向对象2-类对象增删改查、方法海星？海欣！ #Python-模块学习 python 开发语言
类对象万物皆对象，类也是一个对象增删改查增方式一：Money.count=1#1.定义一个类classMoney:pass#给类加属性Money.count=1print(Money.count)print(Money.__dict__)#输出对象Money的所有属性#输出：{'__module__':'__main__','__dict__':,'__weakref__':,'__doc__':
一文讲解Java中的equals和hashCode方法 Journey_CR JavaSE java 哈希算法散列表
什么是hashCode方法？hashCode()方法的作用是获取哈希码，它会返回一个int整数，定义在Object类中，是一个本地方法；publicnativeinthashCode();为什么要有hashCode方法呢？hashCode方法主要用来获取对象的哈希码，哈希码是由对象的内存地址或者对象的属性计算出来，它是一个int类型的整数，通常是不会重复的，因此可以用来作为键值对的键，来提高查询效
c#泛型约束 LM001_csdn java c#开发语言
1.泛型约束的使用泛型约束的作用在一个泛型方法或者说泛型接口中，传入的泛型是不确定的，但是在方法体中，我们传入一个实体，要在代码块中获取实体的各种属性如：姓名、性别等，但是问题来了，由于我们的类型是在调用的时候确定的，因此在写泛型方法或接口代码的时候我们是不确定入参类型，所以就需要一个东西来确定入参有那些属性，由此泛型约束就冒出来了，当然为了更好的理解下面有代码解释—以泛型方法为例:首先我们定义一
Python：使用PyInstaller打包 Faylynn Python python
本文所讲仅为独立的项目文件夹下如何进行打包，不涉及存在依赖关系的多个文件夹共同打包。项目结构示例D:/└──myproject└──my_project├──main.py├──module1.py└──other_files...项目文件夹：my_project主程序文件：main.py其他自定义模块：如module1.py、module2.py…其他资源文件（如图片、配置文件等）：放在imag
nohup指定输出日志名称 telllong C++后台开发服务器前端 linux
在使用nohup命令时，如果你想将命令执行的输出（包括标准输出(STDOUT)和标准错误输出(STDERR)）重定向到一个指定的日志文件中，可以这样操作：nohupyour_command>/path/to/output.log2>&1&这里，your_command是你想要后台运行并忽略挂断信号(HUP)的命令。>是重定向符号，它将标准输出重定向到指定的文件。/path/to/output.lo
TaskManager的JVM OOM退出配置艾丽丝的爱情 jvm 大数据
在大数据领域中，TaskManager是执行并行任务的关键组件之一。它负责管理任务的执行和资源分配。在处理大规模数据时，内存管理是一个重要的考虑因素。当TaskManager的Java虚拟机（JVM）遇到内存不足的情况时，可以通过配置相应的参数来控制其行为。本文将介绍如何配置TaskManager的JVM，以便在OOM（内存溢出）发生时退出。OOM（OutofMemory）是指在程序运行过程中，J
实用指南：如何修复 ftacommon.dll 相关问题真想骂* windows 经验分享
在使用计算机的过程中，我们可能会遇到各种DLL文件错误，其中ftacommon.dll错误就是一个较为常见的问题。ftacommon.dll是一个动态链接库文件，通常与某些特定的软件或游戏相关联。当这个文件缺失、损坏或被错误删除时，就可能导致相关软件或游戏无法正常运行。本文将为您提供一份实用指南，帮助您修复ftacommon.dll相关问题。一、了解ftacommon.dll错误的原因ftacom
如何恢复iPhone删除的短信？5种高效方法，让你的iOS手机短信失而复得！真想骂* ios iphone cocoa
在日常生活中，我们可能会因为各种原因不小心删除了iPhone上的重要短信。这些短信可能包含重要的信息、珍贵的回忆或是与亲友的沟通记录。一旦删除，是否就意味着永久失去呢？其实，有多种方法可以帮助你恢复已删除的iPhone短信。以下是五种高效的方法，让你的iOS手机短信失而复得！方法一：从iCloud备份中恢复如果你开启了iCloud备份功能，并且备份中包含了你删除的短信，那么你可以通过恢复iClou
Node.js 技术学习指南：从入门到实战应用小码快撩 node.js
引言Node.js®是一个开源的、跨平台的JavaScript运行环境，它允许开发人员使用JavaScript编写服务器端代码。基于GoogleChrome浏览器强大的V8JavaScript引擎构建，Node.js引入了异步I/O模型和事件驱动编程机制，使得JavaScript能够在服务器环境中高效处理高并发网络请求。一、异步I/O和事件驱动Node.js的异步I/O和事件驱动机制是其高性能的核
JVM堆空间 silver687 jvm
JVM（Java虚拟机）堆空间是Java内存管理的核心区域之一，用于存储Java对象实例。以下是关于JVM堆空间的详细介绍：1.堆空间的作用•存储对象实例：几乎所有的Java对象实例（通过new关键字创建的对象）都存储在堆空间中。例如，当你创建一个String对象、一个ArrayList对象或其他任何类的实例时，它们都会被分配到堆空间。•支持垃圾回收：堆空间是垃圾回收的主要区域。垃圾回收器（GC）
ESP-IDF环境安装出现问题（报错python.exe -m pip“ is not valid. (ERROR_INVALID_PIP)） Lethal Rhythm113 python pip 开发语言
安装参考【ESP-IDF篇】搭建ESP-IDF软件开发环境，包括手动命令行和VSCode两种方式-CSDN博客遇见问题原因分析：1.离线包自带的python3.11.2没有pip，导致安装失败2.电脑中有其他版本的python，需要在环境变量中将py3.11.2的路径上移到原先python环境前解决方案打开cmd，使用cdC:\Espressif\tools\idf-python\3.11.2命令
人工智能前沿技术进展与应用前景探究戒了9 搜索引擎
一、引言1.1研究背景与意义人工智能作为一门极具变革性的前沿技术，正深刻地改变着人类社会的各个层面。从其诞生之初，人工智能便承载着人类对智能机器的无限遐想与探索。自20世纪中叶起，人工智能踏上了它的发展征程，历经了多个重要阶段，每一阶段都伴随着理论的突破、技术的革新以及应用领域的拓展。在初级阶段（1943-1956），沃伦・麦卡洛克和沃尔特・皮茨提出的人工神经网络基本模型，为人工智能的发展奠定了初
2025年React前端路线图：从初级到高级
2025年React前端路线图：从初级到高级原文链接：2025ReactFrontendRoadmap:BeginnertoSeniorLevel作者：tak089译者：倔强青铜三前言大家好，我是倔强青铜三。是一名热情的软件工程师，我热衷于分享和传播IT技术，致力于通过我的知识和技能推动技术交流与创新，欢迎关注我，微信公众号：倔强青铜三。欢迎点赞、收藏、关注，一键三连！！！1.初级（入门级）目标：
基于Python的多元医疗知识图谱构建与应用研究（下） Allen_LVyingbo 医疗高效编程研发 python python 知识图谱健康医疗
五、基于医疗知识图谱的医疗知识图谱程序构建5.1数据层构建5.1.1数据源选择与获取在构建基于医疗知识图谱的医疗知识图谱数据层时，数据源的选择与获取至关重要。数据源的质量和丰富度直接决定了知识图谱的可靠性和实用性。医学文献是重要的数据源之一，包括学术期刊论文、医学研究报告等。这些文献包含了大量经过科学验证的医学知识，如疾病的发病机制、诊断标准、治疗方法等。可以通过专业的医学文献数据库，如PubMe
Typesrcipt泛型约束详细解读黑码小帅自己总结前端 javascript vue.js typescript vue jquery react.js
代码示例：//如果我们直接对一个泛型参数取length属性,会报错,因为这个泛型根本就不知道它有这个属性(()=>{//定义一个接口,用来约束将来的某个类型中必须要有length这个属性interfaceILength{//接口中有一个属性lengthlength:number}functiongetLength(x:T):number{returnx.length}console.log(get
性能测试丨JVM 性能数据采集霍格沃兹测试开发学社测试人社区 jvm 测试工具测试开发软件测试
什么是JVM性能数据采集？JVM性能数据采集是指通过一些工具和技术采集与Java虚拟机相关的性能数据。这些数据包括但不限于内存使用、CPU使用、垃圾回收（GC）行为、线程活动等。合理地分析这些数据，可以帮助我们找出系统的瓶颈，从而进一步优化我们的Java应用。具体来说，性能数据采集使得我们能够监控和诊断Java应用的健康状态，定位性能问题，评估优化方案的效果。使用JVM性能数据采集的好处使用JVM
Node.js日志记录新篇章：morgan中间件的使用与优势真想骂* node.js 中间件
在Node.js的广阔生态系统中，日志记录是开发过程中不可或缺的一部分。它不仅有助于开发者追踪应用程序的运行状态，还能在出现问题时提供宝贵的调试信息。而在众多日志记录工具中，Morgan以其高效、易用和专注于HTTP请求日志的特点，成为了Node.js开发者中的热门选择。本文将深入探讨Morgan中间件的使用方法与优势，为Node.js日志记录翻开新的篇章。一、Morgan中间件简介Morgan是
tcp/ip协议和ip协议，tcp/ip协议 ip协议 zzyh123456 tcp/ip 网络智能路由器
TCP/IP协议和IP协议在网络通信中扮演着重要的角色，它们之间既有联系又有区别。以下是对两者的详细解释：TCP/IP协议定义：TCP/IP协议（TransmissionControlProtocol/InternetProtocol）是网络通信协议的一种，也被称为“Internet协议”，是Internet上运行的基本协议，是Internet上使用的最为广泛的协议。它定义了电子设备如何连入因特网
tcp/ip协议中ip层协议，tcp/ip协议中ip协议属于 zzyh123456 tcp/ip 网络网络协议
在TCP/IP协议栈中，IP（InternetProtocol）协议属于网络层（NetworkLayer）。TCP/IP协议栈是一个四层架构，从上到下依次为：应用层（ApplicationLayer）：这一层提供了应用程序间通信的接口，如HTTP、FTP、SMTP等协议都在这一层。传输层（TransportLayer）：这一层负责应用程序之间的数据传输，包括面向连接的TCP（Transmissio
如何在Next.js使用Blitz.js的功能
如何在Next.js使用Blitz.js的功能前言大家好，我是倔强青铜三。是一名热情的软件工程师，我热衷于分享和传播IT技术，致力于通过我的知识和技能推动技术交流与创新，欢迎关注我，微信公众号：倔强青铜三。欢迎点赞、收藏、关注，一键三连！！！@blitzjs/next@blitzjs/next适配器公开了特定于Next.js框架的函数和组件。概览@blitzjs/next适配器公开了特定于Next
REST风格（SPRINGBOOT框架）一只藏羚吖 SPRINGBOOT框架 java spring boot
目录一、核心概念二、主要特点三、优点四、缺点五、应用实例1.添加SpringBootStarterWeb依赖2.创建RESTful控制器3.配置和测试4.部署和运行REST（RepresentationalStateTransfer）风格是一种针对网络应用设计和开发的架构风格，它强调资源的表示、无状态通信以及统一接口，它定义了一种在网络上创建、读取、更新和删除资源（通常指数据）的方式。以下从多个方
MongoDB aggregate学习 mongodbsqljava
MongoDB中的aggregate主要用于数据统计平均值，求和等，并返回计算后的数据结果，有点类似sql语句中的count,sum,avg功能。一些表达式及对应功能：表达式功能$sum计算总和$avg计算平均值$min获取集合文档中最小值$max获取集合文档中最大值$push在集合文档中插入值到一个数组中$pull在集合文档中删除指定的值$addToSet在集合文档中插入值到一个数组中，如果之前
探索 Meissonic：文本到图像生成的新星 zhangjiaofa 大模型文生图大模型 Meissonic
目录前言模型概述主要功能技术架构应用场景在线体验本地部署克隆存储库创建虚拟环境安装扩散器启动GradioWeb用户界面文本到图像生成结语项目地址一、前言在人工智能迅猛发展的今天，文本到图像生成技术已成为科技前沿的热点。从艺术创作到商业设计，从学术研究到工业应用，这一技术正以惊人的速度改变着我们与数字内容的交互方式。众多研究机构和企业纷纷投入这一领域，不断推动技术的边界。然而，尽管已有许多优秀的模型
mongodb explain分析
记录下mongodbexplain信息，使用的mongodb版本为4.0.9项目关联查询了两张表用户表与用户登录日志表，分别为user_info与user_login_info，脚本如下：db.t_user_info.explain('allPlansExecution').aggregate([{$lookup:{from:"t_user_login_info",localField:"user
[星球大战]阿纳金的背叛 comsci
本来杰迪圣殿的长老是不同意让阿纳金接受训练的......... 但是由于政治原因,长老会妥协了...这给邪恶的力量带来了机会所以......现代的地球联邦接受了这个教训...绝对不让某些年轻人进入学院
看懂它，你就可以任性的玩耍了！ aijuans JavaScript
javascript作为前端开发的标配技能，如果不掌握好它的三大特点：1.原型 2.作用域 3. 闭包 ,又怎么可以说你学好了这门语言呢？如果标配的技能都没有撑握好，怎么可以任性的玩耍呢？怎么验证自己学好了以上三个基本点呢，我找到一段不错的代码，稍加改动，如果能够读懂它，那么你就可以任性了。 function jClass(b
Java常用工具包 Jodd Kai_Ge java jodd
Jodd 是一个开源的 Java 工具集，包含一些实用的工具类和小型框架。简单，却很强大！写道 Jodd = Tools + IoC + MVC + DB + AOP + TX + JSON + HTML < 1.5 Mb Jodd 被分成众多模块，按需选择，其中工具类模块有： jodd-core &nb
SpringMvc下载 120153216 springMVC
@RequestMapping(value = WebUrlConstant.DOWNLOAD) public void download(HttpServletRequest request,HttpServletResponse response,String fileName) { OutputStream os = null; InputStream is = null;
Python 标准异常总结 2002wmj python
Python标准异常总结 AssertionError 断言语句（assert）失败 AttributeError 尝试访问未知的对象属性 EOFError 用户输入文件末尾标志EOF（Ctrl+d） FloatingPointError 浮点计算错误 GeneratorExit generator.close()方法被调用的时候 ImportError 导入模块失
SQL函数返回临时表结构的数据用于查询 357029540 SQL Server
这两天在做一个查询的SQL，这个SQL的一个条件是通过游标实现另外两张表查询出一个多条数据，这些数据都是INT类型，然后用IN条件进行查询，并且查询这两张表需要通过外部传入参数才能查询出所需数据，于是想到了用SQL函数返回值，并且也这样做了，由于是返回多条数据，所以把查询出来的INT类型值都拼接为了字符串，这时就遇到问题了，在查询SQL中因为条件是INT值，SQL函数的CAST和CONVERST都
java 时间格式化 | 比较大小| 时区个人笔记 7454103 java eclipse tomcat c MyEclipse
个人总结！不当之处多多包含！引用 1.0 如何设置 tomcat 的时区：位置：(catalina.bat---JAVA_OPTS 下面加上) set JAVA_OPT
时间获取Clander的用法 adminjun Clander 时间
/** * 得到几天前的时间 * @param d * @param day * @return */ public static Date getDateBefore(Date d,int day){ Calend
JVM初探与设置 aijuans java
JVM是Java Virtual Machine（Java虚拟机）的缩写，JVM是一种用于计算设备的规范，它是一个虚构出来的计算机，是通过在实际的计算机上仿真模拟各种计算机功能来实现的。Java虚拟机包括一套字节码指令集、一组寄存器、一个栈、一个垃圾回收堆和一个存储方法域。 JVM屏蔽了与具体操作系统平台相关的信息，使Java程序只需生成在Java虚拟机上运行的目标代码（字节码）,就可以在多种平台
SQL中ON和WHERE的区别 avords
SQL中ON和WHERE的区别数据库在通过连接两张或多张表来返回记录时，都会生成一张中间的临时表，然后再将这张临时表返回给用户。 www.2cto.com 在使用left jion时，on和where条件的区别如下： 1、 on条件是在生成临时表时使用的条件，它不管on中的条件是否为真，都会返回左边表中的记录。
说说自信 houxinyou 工作生活
自信的来源分为两种,一种是源于实力,一种源于头脑.实力是一个综合的评定,有自身的能力,能利用的资源等.比如我想去月亮上,要身体素质过硬,还要有飞船等等一系列的东西.这些都属于实力的一部分.而头脑不同,只要你头脑够简单就可以了!同样要上月亮上,你想,我一跳,1米,我多跳几下,跳个几年,应该就到了!什么?你说我会往下掉?你笨呀你!找个东西踩一下不就行了吗? 无论工作还
WEBLOGIC事务超时设置 bijian1013 weblogic jta 事务超时
系统中统计数据，由于调用统计过程，执行时间超过了weblogic设置的时间，提示如下错误：统计数据出错! 原因：The transaction is no longer active - status: 'Rolling Back. [Reason=weblogic.transaction.internal
两年已过去，再看该如何快速融入新团队 bingyingao java 互联网融入架构新团队
偶得的空闲，翻到了两年前的帖子该如何快速融入一个新团队，有所感触，就记下来，为下一个两年后的今天做参考。时隔两年半之后的今天，再来看当初的这个博客，别有一番滋味。而我已经于今年三月份离开了当初所在的团队，加入另外的一个项目组，2011年的这篇博客之后的时光，我很好的融入了那个团队，而直到现在和同事们关系都特别好。大家在短短一年半的时间离一起经历了一
【Spark七十七】Spark分析Nginx和Apache的access.log bit1129 apache
Spark分析Nginx和Apache的access.log，第一个问题是要对Nginx和Apache的access.log文件进行按行解析，按行解析就的方法是正则表达式： Nginx的access.log解析正则表达式 val PATTERN = """([^ ]*) ([^ ]*) ([^ ]*) (\\[.*\\]) (\&q
Erlang patch bookjovi erlang
Totally five patchs committed to erlang otp, just small patchs. IMO, erlang really is a interesting programming language, I really like its concurrency feature. but the functional programming style
log4j日志路径中加入日期 bro_feng java log4j
要用log4j使用记录日志，日志路径有每日的日期，文件大小5M新增文件。实现方式 log4j: <appender name="serviceLog" class="org.apache.log4j.RollingFileAppender"> <param name="Encoding" v
读《研磨设计模式》-代码笔记-桥接模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 个人觉得关于桥接模式的例子，蜡笔和毛笔这个例子是最贴切的：http://www.cnblogs.com/zhenyulu/articles/67016.html * 笔和颜色是可分离的，蜡笔把两者耦合在一起了：一支蜡笔只有一种
windows7下SVN和Eclipse插件安装 chenyu19891124 eclipse插件
今天花了一天时间弄SVN和Eclipse插件的安装，今天弄好了。svn插件和Eclipse整合有两种方式，一种是直接下载插件包，二种是通过Eclipse在线更新。由于之前Eclipse版本和svn插件版本有差别，始终是没装上。最后在网上找到了适合的版本。所用的环境系统：windows7JDK：1.7svn插件包版本：1.8.16Eclipse：3.7.2工具下载地址：Eclipse下在地址：htt
[转帖]工作流引擎设计思路 comsci 设计模式工作应用服务器 workflow 企业应用
作为国内的同行，我非常希望在流程设计方面和大家交流，刚发现篇好文(那么好的文章，现在才发现，可惜)，关于流程设计的一些原理，个人觉得本文站得高，看得远，比俺的文章有深度，转载如下 ================================================================================= 自开博以来不断有朋友来探讨工作流引擎该如何
Linux 查看内存，CPU及硬盘大小的方法 daizj linux cpu 内存硬盘大小
一、查看CPU信息的命令 [root@R4 ~]# cat /proc/cpuinfo |grep "model name" && cat /proc/cpuinfo |grep "physical id" model name : Intel(R) Xeon(R) CPU X5450 @ 3.00GHz model name :
linux 踢出在线用户 dongwei_6688 linux
两个步骤： 1.用w命令找到要踢出的用户，比如下面： [root@localhost ~]# w 18:16:55 up 39 days, 8:27, 3 users, load average: 0.03, 0.03, 0.00 USER TTY FROM LOGIN@ IDLE JCPU PCPU WHAT
放手吧,就像不曾拥有过一样 dcj3sjt126com
内容提要：静悠悠编著的《放手吧就像不曾拥有过一样》集结“全球华语世界最舒缓心灵”的精华故事，触碰生命最深层次的感动，献给全世界亿万读者。《放手吧就像不曾拥有过一样》的作者衷心地祝愿每一位读者都给自己一个重新出发的理由，将那些令你痛苦的、扛起的、背负的，一并都放下吧！把憔悴的面容换做一种清淡的微笑，把沉重的步伐调节成春天五线谱上的音符，让自己踏着轻快的节奏，在人生的海面上悠然漂荡，享受宁静与
php二进制安全的含义 dcj3sjt126com PHP
PHP里，有string的概念。 string里，每个字符的大小为byte（与PHP相比，Java的每个字符为Character，是UTF8字符，C语言的每个字符可以在编译时选择）。 byte里，有ASCII代码的字符，例如ABC，123，abc，也有一些特殊字符，例如回车，退格之类的。特殊字符很多是不能显示的。或者说，他们的显示方式没有标准，例如编码65到哪儿都是字母A，编码97到哪儿都是字符
Linux下禁用T440s，X240的一体化触摸板(touchpad) gashero linux ThinkPad 触摸板
自打1月买了Thinkpad T440s就一直很火大，其中最让人恼火的莫过于触摸板。 Thinkpad的经典就包括用了小红点(TrackPoint)。但是小红点只能定位，还是需要鼠标的左右键的。但是自打T440s等开始启用了一体化触摸板，不再有实体的按键了。问题是要是好用也行。实际使用中，触摸板一堆问题，比如定位有抖动，以及按键时会有飘逸。这就导致了单击经常就
graph_dfs hcx2013 Graph
package edu.xidian.graph; class MyStack { private final int SIZE = 20; private int[] st; private int top; public MyStack() { st = new int[SIZE]; top = -1; } public void push(i
Spring4.1新特性——Spring核心部分及其他 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
配置HiveServer2的安全策略之自定义用户名密码验证 liyonghui160com
具体从网上看 http://doc.mapr.com/display/MapR/Using+HiveServer2#UsingHiveServer2-ConfiguringCustomAuthentication LDAP Authentication using OpenLDAP Setting
一位30多的程序员生涯经验总结 pda158 编程工作生活咨询
1.客户在接触到产品之后，才会真正明白自己的需求。　　这是我在我的第一份工作上面学来的。只有当我们给客户展示产品的时候，他们才会意识到哪些是必须的。给出一个功能性原型设计远远比一张长长的文字表格要好。 2.只要有充足的时间，所有安全防御系统都将失败。　　安全防御现如今是全世界都在关注的大课题、大挑战。我们必须时时刻刻积极完善它，因为黑客只要有一次成功，就可以彻底打败你。 3.
分布式web服务架构的演变自由的奴隶 linux Web 应用服务器互联网
最开始，由于某些想法，于是在互联网上搭建了一个网站，这个时候甚至有可能主机都是租借的，但由于这篇文章我们只关注架构的演变历程，因此就假设这个时候已经是托管了一台主机，并且有一定的带宽了，这个时候由于网站具备了一定的特色，吸引了部分人访问，逐渐你发现系统的压力越来越高，响应速度越来越慢，而这个时候比较明显的是数据库和应用互相影响，应用出问题了，数据库也很容易出现问题，而数据库出问题的时候，应用也容易
初探Druid连接池之二——慢SQL日志记录 xingsan_zhang 日志连接池 druid 慢SQL
由于工作原因，这里先不说连接数据库部分的配置，后面会补上，直接进入慢SQL日志记录。 1.applicationContext.xml中增加如下配置： <bean abstract="true" id="mysql_database" class="com.alibaba.druid.pool.DruidDataSourc

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他