Python详解复杂CSV文件处理方法

项目简介

鉴于项目保密的需要，不便透露太多项目的信息，因此，简单介绍一下项目存在的难点：

海量数据：项目是对CSV文件中的数据进行处理，而特点是数据量大...真的大！！！拿到的第一个CSV示例文件是110多万行(小CASE)，而第二个文件就到了4500万行，等到第三个文件......好吧，一直没见到第三个完整示例文件，因为太大了，据说是第二个示例文件的40多倍，大概二十亿行......
业务逻辑复杂：项目是需要对CSV文件的每一行数据的各种组合可能性进行判断，而判断的业务逻辑较为复杂，如何在解决复杂逻辑的同时保证较高的处理效率是难点之一。

项目笔记与心得

1.分批处理与多进程及多线程加速

因为数据量太大，肯定是要分批对数据进行处理，否则，效率低不谈，大概率也没有足够的内存能够支撑，需要用到chunksize，此外，为了节约内存，以及提高处理效率，可以将文本类的数据存储为“category”格式：
项目整体是计算密集型的任务，因此，需要用到多进程，充分利用CPU的多核性能；
多线程进行读取与写入，其中，写入使用to_csv的增量写入方法，mode参数设置为'a'；
多进程与多线程开启一般为死循环，需要在合适的位置，放入结束循环的信号，以便处理完毕后退出多进程或多线程

"""鉴于项目保密需要，以下代码仅为示例"""
import time
import pathlib as pl
import pandas as pd
from threading import Thread
from multiprocessing import Queue, Process, cpu_count
# 导入多线程Thread,多进程的队列Queue,多进程Process，CPU核数cpu_count
# 存放分段读取的数据队列，注：maxsize控制队列的最大数量，避免一次性读取到内存中的数据量太大
data_queue = Queue(maxsize=cpu_count() * 2)  
# 存放等待写入磁盘的数据队列
write_queue = Queue()  
def read_data(path: pl.Path, data_queue: Queue, size: int = 10000):
    """
    读取数据放入队列的方法
    :return:
    """
    data_obj = pd.read_csv(path, sep=',', header=0, chunksize=size, dtype='category')
    for idx, df in enumerate(data_obj):
        while data_queue.full():  # 如果队列满了，那就等待
            time.sleep(1)
        data_queue.put((idx + 1, df))
    data_queue.put((None, None))  # 放入结束信号
def write_data(out_path: pl.Path, write_queue: Queue):
    """
    将数据增量写入CSV的方法
    :return:
    """
    while True:
        while write_queue.empty():
            time.sleep(1)
        idx, df = write_queue.get()
        if df is None:
            return  # 结束退出
        df.to_csv(out_path, mode='a', header=None, index=False, encoding='ansi')  # 输出CSV
def parse_data(data_queue: Queue, write_queue: Queue):
    """
    从队列中取出数据，并加工的方法
    :return:
    """
    while True:
        while write_queue.empty():
            time.sleep(1)
        idx, df = data_queue.get()
        if df is None:  # 如果是空的结束信号，则结束退出进程，
        # 特别注意结束前把结束信号放回队列，以便其他进程也能接收到结束信号！！！
            data_queue.put((idx, df))
            return
        """处理数据的业务逻辑略过"""
        write_queue.put((idx, df))  # 将处理后的数据放入写队列
# 创建一个读取数据的线程
read_pool = Thread(target=read_data, args=(read_data_queue, *args))
read_pool.start()  # 开启读取线程
# 创建一个增量写入CSV数据的线程
write_pool = Thread(target=write_data, args=(write_data_queue, *args))
write_pool.start()  # 开启写进程
pools = []  # 存放解析进程的队列
for i in range(cpu_count()):  # 循环开启多进程，不确定开多少个进程合适的情况下，那么按CPU的核数开比较合理
    pool = Process(target=parse_data, args=(read_data_queue, write_data_queue, *args))
    pool.start()  # 启动进程
    pools.append(pool)  # 加入队列
for pool in pools:
    pool.join()  # 等待所有解析进程完成
# 所有解析进程完成后，在写队列放入结束写线程的信号
write_data_queue.put((None, None))  
write_pool.join()  # 等待写线程结束
print('任务完成')

2.优化算法提高效率

将类对象存入dataframe列

在尝试了n种方案之后，最终使用了将类对象存到dataframe的列中，使用map方法，运行类方法，最后，将运行结果展开到多列中的方式。该方案本项目中取得了最佳的处理效率。

"""鉴于保密需要，以下代码仅为示例"""
class Obj:
    def __init__(self, ser: pd.Series):
        """
        初始化类对象
        :param ser: 传入series
        """
        self.ser = ser  # 行数据
        self.attrs1 = []  # 属性1
        self.attrs2 = []  # 属性2
        self.attrs3 = []  # 属性3
    def __repr__(self):
        """
        自定义输出
        """
        attrs1 = '_'.join([str(a) for a in self.attrs1])
        attrs2 = '_'.join([str(a) for a in self.attrs2])
        attrs3 = '_'.join([str(a) for a in self.attrs3])
        return '_'.join([attrs1, attrs2, attrs3])
    def run(self):
        """运行业务逻辑"""
# 创建obj列，存入类对象
data['obj'] = data.apply(lambda x: Obj(x), axis=1)
# 运行obj列中的类方法获得判断结果
data['obj'] = data['obj'].map(lambda x: x.run())
# 链式调用，1将类对象文本化->2拆分到多列->3删除空列->4转换为category格式
data[['col1', 'col2', 'col3', ...省略]] = data['obj'].map(str).str.split('_', expand=True).dropna(axis=1).astype('category')
# 删除obj列
data.drop(columns='obj', inplace=True)

减少计算次数以提高运行效率

在整个优化过程中，对运行效率产生最大优化效果的有两项：

一是改变遍历算法，采用直接对整行数据进行综合判断的方法，使原需要遍历22个组合的计算与判断大大减少
二是提前计算特征组合，制作成字典，后续直接查询结果，而不再进行重复计算

使用numpy加速计算

numpy还是数据处理上的神器，使用numpy的方法，比自己实现的方法效率要高非常多，本项目中就用到了：bincount、argsort，argmax、flipud、in1d、all等，即提高了运行效率，又解决了逻辑判断的问题：

"""numpy方法使用示例"""
import numpy as np
# 计算数字的个数组合bincount
np.bincount([9, 2, 13, 12, 9, 10, 11])
# 输出结果：array([0, 0, 1, 0, 0, 0, 0, 0, 0, 2, 1, 1, 1, 1], dtype=int64)
# 取得个数最多的数字argmax
np.argmax(np.bincount([9, 2, 13, 12, 9, 10, 11]))
# 输出结果: 9
# 将数字按照个数优先，其次大小进行排序argsort
np.argsort(np.bincount([9, 2, 13, 12, 9, 10, 11]))
# 输出结果：array([ 0,  1,  3,  4,  5,  6,  7,  8,  2, 10, 11, 12, 13,  9], dtype=int64)
# 翻转列表flipud
np.flipud(np.argsort(np.bincount([9, 2, 13, 12, 9, 10, 11])))
# 输出结果: array([ 9, 13, 12, 11, 10,  2,  8,  7,  6,  5,  4,  3,  1,  0], dtype=int64)
# 查找相同值in1d
np.in1d([2, 3, 4], [2, 9, 3])
# 输出结果: array([ True,  True, False]) 注：指2,3True，4False
np.all(np.in1d([2, 3], [2, 9, 3]))
# 输出结果: array([ True,  True])
# 是否全是all
np.all(np.in1d([2, 3, 4], [2, 9, 3]))  # 判断组合1是否包含在组合2中
# 输出结果: False
np.all(np.in1d([2, 3], [2, 9, 3]))
# 输出结果: True

优化前后的效率对比

总结

优化算法是在这个项目上时间花费最多的工作（没有之一）。4月12日接单，10天左右出了第1稿，虽能运行，但回头看存在两个问题:一是有bug需要修正，二是运行效率不高(4500万行数据，执行需要1小时21分钟，如果只是在这个版本上debug需要增加判断条件，效率只会更低)；后20多天是在不断的优化算法的同时对bug进行修正，最后版本执行相同数据只需要不足30分钟，效率提高了一倍多。回顾来看，虽然调优花费的时间多，但是每一个尝试不论成功还是失败都是一次宝贵的经验积累。

到此这篇关于Python详解复杂CSV文件处理方法的文章就介绍到这了,更多相关Python CSV文件处理内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

PyCharm安装PyQt5及工具详细教程 JustLikeRun pycharm qt ide pyqt
PyCharm安装PyQt5及工具详细教程PyCharm是一款功能强大的Python集成开发环境（IDE），而PyQt5是一个用于创建GUI应用程序的流行Python库。在本教程中，我将指导您如何在PyCharm中安装PyQt5及其相关工具，并提供相应的源代码示例。步骤1：安装PyCharm首先，您需要下载并安装PyCharm。您可以从JetBrains官方网站（https://www.jetbr
Python从0到100（七十三）：Python OpenCV-OpenCV实现手势虚拟拖拽是Dream呀 python opencv 开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
华为OD机试E卷 --第k个排列 --24年OD统一考试（Java & JS & Python & C & C++）飞码创造者最新华为OD机试题库2024 华为od java javascript c语言 python
文章目录题目描述输入描述输出描述用例题目解析JS算法源码java算法源码python算法源码c算法源码c++算法源码题目描述给定参数n，从1到n会有n个整数:1,2,3,…,n,这n个数字共有nl种排列。按大小顺序升序列出所有排列的情况，并——标记，当n=3时,所有排列如下:“123"“132”“213”“231"“312"“321”给定n和k，返回第k个排列。输入描述输入两行，第一行为n，第二行
期末python试卷（1）泰山小张只吃荷园 python 网络开发语言开源汇编程序人生学习方法
目录一、判断题二、选择题三、填空题一、判断题1.Python是一种解释型、面向对象的编程语言。2.Python中的变量名只能由字母、下划线、数字组成，且不能以数字开头。3.Python中多分支可使用IF-ELIF和SWITCH-CASE语句来实现。4.表达式中包含多个运算符时，计算顺序取决于运算符的结合顺序和优先级。5.x=’Tom’，那么执行语句x+=’Tom’之后，x的id不变。6.Pytho
Python调用另一个py文件并传递参数的全面解析 cda2024 python java 服务器
在Python编程的世界里，模块化和代码复用是提高开发效率的重要手段。当你面对复杂的项目时，将功能拆分成多个文件不仅有助于团队协作，还能提升代码的可读性和可维护性。然而，如何在一个py文件中调用另一个py文件，并且能够传递参数呢？这正是本文要探讨的核心问题。通过本文，你将了解到几种常见的方法及其应用场景，帮助你在实际开发中更加游刃有余。1.使用import语句1.1基本用法最直观的方法就是使用im
深入浅出：Go语言中的`bufio`包及其数据类型详解少林码僧 go开发工作经验汇总 golang 开发语言后端
深入浅出：Go语言中的bufio包及其数据类型详解Go语言以其简洁、高效和强大的库支持而闻名，其中bufio包作为标准库的一部分，为开发者提供了便捷的缓冲输入输出功能。本文将深入探讨bufio包中的数据类型及其使用方法，帮助读者更好地理解和应用这一工具。一、什么是bufio包？bufio包是Go语言标准库中用于处理缓冲输入输出的一个重要模块。它通过提供一系列的缓冲器（如Reader、Writer等
Spring Boot 分层解耦相关知识需要重新演唱 web spring boot 后端 java
SpringBoot分层解耦相关知识详解目录SpringBoot分层解耦相关知识详解1.概述2.控制反转（IOC）2.1概念解释2.2在SpringBoot中的实现3.依赖注入（DI）3.1概念解释3.2在SpringBoot中的实现3.2.1构造器注入3.2.2Setter注入3.2.3字段注入4.分层解耦的实践4.1分层架构4.2示例代码5.总结1.概述在现代软件开发中，分层解耦是一个核心概念
使用Python开发SolidWorks API SolidWorksAPI SolidWorks 二次开发 Solidworks API python
使用Python开发SolidWorksAPI介绍本文介绍了如何使用Python与SolidWorksAPI进行交互，创建零件草图、特征及插入文本。我们将通过一个简单的示例，展示如何在SolidWorks中进行自动化操作，利用Python脚本创建一个带有矩形特征的零件，并向草图中插入文本。前提条件安装了SolidWorks和Python。配置了pywin32库来与SolidWorks进行交互。可以
库存python whl文件免费下载（2）科技小游侠 python python
库存pythonwhl文件免费下载（1）库存pythonwhl文件免费下载（2）库存pythonwhl文件免费下载（3）库存pythonwhl文件免费下载（4）库存pythonwhl文件免费下载（5）最近发现收藏的whl下载链接https://www.lfd.uci.edu/~gohlke/pythonlibs/已经走丢了，网上检索了下，还可以下载到历史的whl文件，为了防止下载链接再次失效，索性
Python处理Excel数据王肇朋 excel Excel EXCEL office python Python
Python处理Excel数据2012-08-0210:07:32我来说两句收藏我要投稿前段时间做了个小项目，帮个海洋系的教授做了个数据处理的软件。基本的功能很简单，就是对Excel里面的一些数据进行过滤，统计，对多个表的内容进行合并等。之前没有处理Excel数据的经验，甚至于自己都很少用到Excel。记得《Python核心编程》的最后一章里有讲到用Win32COM操作office，看了一下讲的不
python正则表达式re关于数字、字母、特殊字符、汉字的匹配方式乙龙 python 开发语言
在Python中，正则表达式是通过re模块来实现的。正则表达式是一种强大的文本处理工具，用于匹配、搜索、替换或分割字符串。以下是一些基本的正则表达式模式，用于筛选不同类型的字符：数字(\d):匹配任意数字（0-9）。示例：\d可以匹配“123”中的每个‘1’,‘2’,‘3’。字母([a-zA-Z]):匹配任意大小写的英文字母。示例：[a-zA-Z]可以匹配“HelloWorld”中的每个‘H’,‘
企业如何打造高效智能问答系统？一文详解架构与实现！功城师大语言模型自然语言处理 LLM 人工智能智能问答 RAG Agent
随着人工智能技术的不断发展，智能问答系统成为越来越多企业提升客户服务、知识管理与内部沟通的关键工具。今天我们将深入解析一套智能问答系统的设计思路与技术架构，帮助大家更好地理解如何利用这一系统在实际场景中高效运作。一、智能问答系统的整体架构这套智能问答系统分为前台、AI服务和后台三个核心部分，每个部分承担着不同的职责，分别负责用户交互、问题处理与数据支持。通过这种模块化的设计，整个系统的工作流程得以
python中的两种循环怎么昵称都被占用啊 python 练习 python
python中的两种循环for循环（计数循环）while循环（条件循环）两种循环的区别range函数跳出循环break示例continue示例循环嵌套循环练习循环，三大语言结构之一，当它满足条件时反复执行某一段代码的过程，在python中有两种循环命令，分别为for循环和while循环for循环（计数循环）python中常用的循环结构之一，可以遍历一个可迭代对象中的元素。因为for循环的循环次数是
《python基于时间序列分析的降雨量预测系统》毕业设计项目陈辰学长 python 课程设计开发语言
大家好，我是陈辰学长，一名在Java圈辛勤劳作的码农。今日要和大家分享的是一款《python基于时间序列分析的降雨量预测系统》毕业设计项目。项目源码以及部署相关事宜，请联系陈辰学长，文末会附上联系信息哦。作者：陈辰学长个人简介：在Java领域已沉浸十余年，对Java、微信小程序、Python、Android等技术颇为精通。若大家在这些领域有任何问题，欢迎一起交流探讨！各类成品Java毕业设计丰富多
dlib库的whl文件下载杭林菲
dlib库的whl文件下载【下载地址】dlib库的whl文件下载dlib库的whl文件下载项目地址:https://gitcode.com/open-source-toolkit/f2aaf资源文件介绍本仓库提供了一个dlib库的whl文件下载，文件名为：dlib-19.7.0-cp36-cp36m-win_amd64.rar。该文件适用于Windows64位系统，Python版本为3.6。文件描
chatgpt赋能python：用Python安装Jupyter：让数据科学变得更加高效！ aijinglingchat ChatGpt python chatgpt jupyter 计算机
用Python安装Jupyter：让数据科学变得更加高效！对于数据科学家而言，jupyter是不可或缺的工具之一。它是一个基于web的交互式计算环境，可以帮助我们在Python中以一种轻松、方便、可交互的方式进行编程和数据分析。今天，我们将向您介绍在Python中如何安装jupyter。安装Python要安装jupyter，首先需要安装Python。如果您已经安装了Python，请跳到下一步。您可
Kylin入门教程 -龙川- 介绍学习笔记 kylin
引言ApacheKylin是一个开源的分布式分析引擎，提供Hadoop上的多维分析（OLAP）能力，使得超大规模数据集的实时查询和分析成为可能。它通过预计算数据立方体来加速查询，使得复杂查询可以在亚秒级响应。本文将详细介绍Kylin的基本概念、安装与配置、基本操作及高级功能，帮助你全面掌握这款强大的数据分析工具。第一部分：Kylin简介1.1什么是Kylin？Kylin是由eBay开发并捐赠给Ap
[dlib][python]dlib所有whl文件下载地址汇总 Xiao张不会深度学习 python 开发语言深度学习
dlib库的wheel文件3.7-3.12GitHub-z-mahmud22/Dlib_Windows_Python3.x:Dlibcompiledbinary(.whl)forPython3.7-3.12andWindowsx64这里存储了适用于python3.7-3.12的wheel文件下载wheel文件之后，比如：dlib-19.22.99-cp310-cp310-win_amd64.whl
自适应神经网络架构：原理解析与代码示例 chian-ocean 机器学习神经网络人工智能深度学习
个人主页：chian-ocean文章专栏自适应神经网络结构：深入探讨与代码实现1.引言随着深度学习的不断发展，传统神经网络模型在处理复杂任务时的局限性逐渐显现。固定的网络结构和参数对于动态变化的环境和多样化的数据往往难以适应，导致了过拟合或欠拟合的问题。自适应神经网络（AdaptiveNeuralNetworks,ANN）为此提供了一种新的解决方案，它可以根据数据特征和训练情况自动调整网络结构，从
Python剪辑视频小妙招（moivepy库）对不起，我辜负了你 python
起因最近一直在b站上投稿喜羊羊与灰太狼的视频，但是苦于需要手动裁剪视频的片头和片尾，裁剪的多了就发现喜羊羊与灰太狼的视频片头几乎都是1分25秒结束，也就是持续85秒，片尾也差不多是持续1分02秒差不多也就是62秒，于是开始思考有没有什么方法可以替代人类进行自动化批量裁剪？思路发展迭代与确定一开始是想使用Premier里面的预设来做的，结果发现Premier里面高版本的导出变成了各种网站的标准，相比
数据复制二(多主复制详解) 风清扬-独孤九剑 mysql 多活多主多数据中心
目录一、多主复制二、多主复制常用的场景三、多主复制处理写冲突四、自定义冲突解决一、多主复制在上一篇文章谈到了主从复制，对于一个超大规模应用，主从往往是不够用的。还需要多个数据中心，这些数据中心可能部署的全球的任何一个位置。每个数据中心都是主从配置，数据中心的主节点对于其他数据中心来说就是从节点。一个数据中心数据发生变化，异步同步到其他的数据中心的主节点。为了容忍整个数据中心级别故障或者更接近用户,
数据复制一(主从复制详解) 风清扬-独孤九剑 mysql 数据复制主从复制
目录一、主从复制二、同步复制和异步复制三、节点失效处理方案四、复制日志的实现五、复制滞后问题读自己的写单调读前缀一致读数据复制就是相同的数据在多台机器上传输，多台机器可以在一个机房也不可以跨区域。通过数据复制有以下好处：降低访问延迟（数据复制到离用户更近的地方）、当机器出现故障时，可以切换到副本机器，从而提高可用性、多台机器可以同时提供服务，从而提高吞吐量。现在计算机技术来说数据复制就几种方法：主
Python 实战-优化排班表节省成本奔向理想的星辰大海技术研发 python ios objective-c
1.基础概念：理解排班表排班表，顾名思义，就是安排员工工作时间的表格。在餐馆中，它通常需要考虑员工的可用性、工作时间限制、用餐高峰时段等因素。2.使用列表存储员工信息首先，我们需要一个数据结构来存储员工信息。Python中的列表是一个不错的选择。#员工信息列表，包括姓名、可用时间段employees=[{"name":"张三","available":[(9,17),(20,23)]},{"nam
No module named ‘moviepy.editor‘ weixin_66009678 python
python3.7版本后不支持frommoviepy.editor引用方式，由于是moviepy2.0.0版本修改方法：frommoviepy.editorimportVideoFileClip,clips_array改为frommoviepyimport*
安装python3.12.2环境（实验机器银河麒麟高级服务器） Red丶哞桌面运维 Python linux 运维服务器
1.下载官网Python安装包wgethttps://www.python.org/ftp/python/3.12.2/Python-3.12.2.tar.xz1.1解压tar-xfPython-3.12.2.tar.xz解压完后切换到Python-3.12.2文件夹(这里根据自己解压的文件夹路径)cd/usr/packages/Python-3.12.2/1.2升级软件包管理器CentOS系统：
自己动手写CPU - 6 qq85058522 自己动手写CPU fpga开发
自己动手写CPU_qq85058522的博客-CSDN博客CPU不加功能了，但汇编器可以有。下面写一个把汇编（助记符）翻译成机器码的小工具。Python熟些，就用它了。很简单，就是字符串替换。直接上代码。importsysiflen(sys.argv)!=2:print("usage:pythonassemblerxxx.asm")exit(0)code_path=sys.argv[1]print
C++ 多态初学笔记 NicOym C++c++
多态虚函数虚函数的使用条件虚函数详解对象多态多重继承时，类型转换的练习（1）情况1：（2）情况2：（3）情况3：（4）情况4：对象多态动态强制转换dynamic_casttypeid抽象类类的成员函数的函数指针概念：允许使用统一的接口来操作不同类型的对象。多态的作用：减少重复代码，提高代码扩展性静态多态：函数重载函数模板动态多态继承虚函数虚函数：动态绑定静态绑定个人记法（可能有误）：动态绑定是调用
如何安装python3.7.4_银河麒麟安装Python3.7.4以及升级自带OpenSSL weixin_39873191 如何安装python3.7.4
银河麒麟安装Python3.7.4以及升级自带OpenSSL升级OpenSSL1.下载opensslwgethttps://www.openssl.org/source/openssl-1.1.1a.tar.gztar-zxvfopenssl-1.1.1a.tar.gzcdopenssl-1.1.1a2.编译安装./config--prefix=/usr/local/opensslno-zlib#
python多进程编程_深入理解python多进程编程 weixin_39620001 python多进程编程
1、python多进程编程背景python中的多进程最大的好处就是充分利用多核cpu的资源，不像python中的多线程，受制于GIL的限制，从而只能进行cpu分配，在python的多进程中，适合于所有的场合，基本上能用多线程的，那么基本上就能用多进程。在进行多进程编程的时候，其实和多线程差不多，在多线程的包threading中，存在一个线程类Thread，在其中有三种方法来创建一个线程，启动线程，
python多进程编程实例_Python多进程编程multiprocessing代码实例 weixin_39791386 python多进程编程实例
在多线程与多进程的比较这一篇中记录了多进程编程的一种方式.下面记录一下多进程编程的别一种方式,即使用multiprocessing编程importmultiprocessingimporttimedefget_html(n):time.sleep(n)print('subprocess%s'%n)returnnif__name__=='__main__':#多进程编程process=multipr
ViewController添加button按钮解析。（翻译）张亚雄 c
<div class="it610-blog-content-contain" style="font-size: 14px"></div>// ViewController.m // Reservation software // // Created by 张亚雄 on 15/6/2.
mongoDB 简单的增删改查开窍的石头 mongodb
在上一篇文章中我们已经讲了mongodb怎么安装和数据库/表的创建。在这里我们讲mongoDB的数据库操作在mongo中对于不存在的表当你用db.表名他会自动统计下边用到的user是表明，db代表的是数据库添加(insert):
log4j配置 0624chenhong log4j
1) 新建java项目 2) 导入jar包，项目右击，properties—java build path—libraries—Add External jar，加入log4j.jar包。 3) 新建一个类com.hand.Log4jTest package com.hand; import org.apache.log4j.Logger; public class
多点触摸(图片缩放为例) 不懂事的小屁孩多点触摸
多点触摸的事件跟单点是大同小异的，上个图片缩放的代码，供大家参考一下 import android.app.Activity; import android.os.Bundle; import android.view.MotionEvent; import android.view.View; import android.view.View.OnTouchListener
有关浏览器窗口宽度高度几个值的解析换个号韩国红果果 JavaScript html
1 元素的 offsetWidth 包括border padding content 整体的宽度。 clientWidth 只包括内容区 padding 不包括border。 clientLeft = offsetWidth -clientWidth 即这个元素border的值 offsetLeft 若无已定位的包裹元素
数据库产品巡礼：IBM DB2概览蓝儿唯美 db2
IBM DB2是一个支持了NoSQL功能的关系数据库管理系统，其包含了对XML，图像存储和Java脚本对象表示（JSON）的支持。DB2可被各种类型的企业使用，它提供了一个数据平台，同时支持事务和分析操作，通过提供持续的数据流来保持事务工作流和分析操作的高效性。 DB2支持的操作系统 DB2可应用于以下三个主要的平台: 工作站，DB2可在Linus、Unix、Windo
java笔记5 a-john java
控制执行流程： 1，true和false 利用条件表达式的真或假来决定执行路径。例：（a==b）。它利用条件操作符“==”来判断a值是否等于b值，返回true或false。java不允许我们将一个数字作为布尔值使用，虽然这在C和C++里是允许的。如果想在布尔测试中使用一个非布尔值，那么首先必须用一个条件表达式将其转化成布尔值，例如if(a!=0)。 2，if-els
Web开发常用手册汇总 aijuans PHP
一门技术，如果没有好的参考手册指导,很难普及大众。这其实就是为什么很多技术，非常好，却得不到普遍运用的原因。正如我们学习一门技术，过程大概是这个样子： ①我们日常工作中，遇到了问题，困难。寻找解决方案，即寻找新的技术； ②为什么要学习这门技术？这门技术是不是很好的解决了我们遇到的难题，困惑。这个问题，非常重要，我们不是为了学习技术而学习技术，而是为了更好的处理我们遇到的问题，才需要学习新的
今天帮助人解决的一个sql问题 asialee sql
今天有个人问了一个问题，如下： type AD value A
意图对象传递数据百合不是茶 android 意图Intent Bundle对象数据的传递
学习意图将数据传递给目标活动; 初学者需要好好研究的 1,将下面的代码添加到main.xml中 <?xml version="1.0" encoding="utf-8"?> <LinearLayout xmlns:android="http:/
oracle查询锁表解锁语句 bijian1013 oracle object session kill
一.查询锁定的表如下语句，都可以查询锁定的表语句一： select a.sid, a.serial#, p.spid, c.object_name, b.session_id, b.oracle_username, b.os_user_name from v$process p, v$s
mac osx 10.10 下安装 mysql 5.6 二进制文件［tar.gz］征客丶 mysql osx
场景：在 mac osx 10.10 下安装 mysql 5.6 的二进制文件。环境：mac osx 10.10、mysql 5.6 的二进制文件步骤：[所有目录请从根“/”目录开始取，以免层级弄错导致找不到目录] 1、下载 mysql 5.6 的二进制文件，下载目录下面称之为 mysql5.6SourceDir；下载地址：http://dev.mysql.com/downl
分布式系统与框架 bit1129 分布式
RPC框架 Dubbo 什么是Dubbo Dubbo是一个分布式服务框架，致力于提供高性能和透明化的RPC远程服务调用方案，以及SOA服务治理方案。其核心部分包含: 远程通讯: 提供对多种基于长连接的NIO框架抽象封装，包括多种线程模型，序列化，以及“请求-响应”模式的信息交换方式。集群容错: 提供基于接
那些令人蛋痛的专业术语白糖_ spring Web SSO IOC
spring 【控制反转(IOC)/依赖注入(DI)】：由容器控制程序之间的关系，而非传统实现中，由程序代码直接操控。这也就是所谓“控制反转”的概念所在：控制权由应用代码中转到了外部容器，控制权的转移，是所谓反转。简单的说：对象的创建又容器(比如spring容器)来执行，程序里不直接new对象。 Web 【单点登录(SSO)】：SSO的定义是在多个应用系统中，用户
《给大忙人看的java8》摘抄 braveCS java8
函数式接口：只包含一个抽象方法的接口 lambda表达式：是一段可以传递的代码你最好将一个lambda表达式想象成一个函数，而不是一个对象，并记住它可以被转换为一个函数式接口。事实上，函数式接口的转换是你在Java中使用lambda表达式能做的唯一一件事。方法引用：又是要传递给其他代码的操作已经有实现的方法了，这时可以使
编程之美-计算字符串的相似度 bylijinnan java 算法编程之美
public class StringDistance { /** * 编程之美计算字符串的相似度 * 我们定义一套操作方法来把两个不相同的字符串变得相同，具体的操作方法为： * 1.修改一个字符（如把“a”替换为“b”）; * 2.增加一个字符（如把“abdd”变为“aebdd”）; * 3.删除一个字符（如把“travelling”变为“trav
上传、下载压缩图片 chengxuyuancsdn 下载
/** * * @param uploadImage --本地路径(tomacat路径) * @param serverDir --服务器路径 * @param imageType --文件或图片类型 * 此方法可以上传文件或图片.txt,.jpg,.gif等 */ public void upload(String uploadImage,Str
bellman-ford(贝尔曼-福特)算法 comsci 算法 F#
Bellman-Ford算法(根据发明者 Richard Bellman 和 Lester Ford 命名)是求解单源最短路径问题的一种算法。单源点的最短路径问题是指：给定一个加权有向图G和源点s，对于图G中的任意一点v，求从s到v的最短路径。有时候这种算法也被称为 Moore-Bellman-Ford 算法，因为 Edward F. Moore zu 也为这个算法的发展做出了贡献。与迪科
oracle ASM中ASM_POWER_LIMIT参数 daizj ASM oracle ASM_POWER_LIMIT 磁盘平衡
ASM_POWER_LIMIT 该初始化参数用于指定ASM例程平衡磁盘所用的最大权值，其数值范围为0~11，默认值为1。该初始化参数是动态参数，可以使用ALTER SESSION或ALTER SYSTEM命令进行修改。示例如下： SQL>ALTER SESSION SET Asm_power_limit=2;
高级排序:快速排序 dieslrae 快速排序
public void quickSort(int[] array){ this.quickSort(array, 0, array.length - 1); } public void quickSort(int[] array,int left,int right){ if(right - left <= 0
C语言学习六指针_何谓变量的地址一个指针变量到底占几个字节 dcj3sjt126com C语言
# include <stdio.h> int main(void) { /* 1、一个变量的地址只用第一个字节表示 2、虽然他只使用了第一个字节表示，但是他本身指针变量类型就可以确定出他指向的指针变量占几个字节了 3、他都只存了第一个字节地址，为什么只需要存一个字节的地址，却占了4个字节，虽然只有一个字节，但是这些字节比较多，所以编号就比较大，
phpize使用方法 dcj3sjt126com PHP
phpize是用来扩展php扩展模块的，通过phpize可以建立php的外挂模块,下面介绍一个它的使用方法,需要的朋友可以参考下安装（fastcgi模式）的时候，常常有这样一句命令：代码如下: /usr/local/webserver/php/bin/phpize 一、phpize是干嘛的？ phpize是什么？ phpize是用来扩展php扩展模块的，通过phpi
Java虚拟机学习 - 对象引用强度 shuizhaosi888 JAVA虚拟机
本文原文链接：http://blog.csdn.net/java2000_wl/article/details/8090276 转载请注明出处！无论是通过计数算法判断对象的引用数量，还是通过根搜索算法判断对象引用链是否可达，判定对象是否存活都与“引用”相关。引用主要分为：强引用(Strong Reference)、软引用(Soft Reference)、弱引用(Wea
.NET Framework 3.5 Service Pack 1（完整软件包）下载地址 happyqing .net 下载 framework
Microsoft .NET Framework 3.5 Service Pack 1（完整软件包） http://www.microsoft.com/zh-cn/download/details.aspx?id=25150 Microsoft .NET Framework 3.5 Service Pack 1 是一个累积更新，包含很多基于 .NET Framewo
JAVA定时器的使用 jingjing0907 java timer 线程定时器
1、在应用开发中，经常需要一些周期性的操作，比如每5分钟执行某一操作等。对于这样的操作最方便、高效的实现方式就是使用java.util.Timer工具类。 privatejava.util.Timer timer; timer = newTimer(true); timer.schedule( newjava.util.TimerTask() { public void run()
Webbench 流浪鱼 webbench
首页下载地址 http://home.tiscali.cz/~cz210552/webbench.html Webbench是知名的网站压力测试工具，它是由Lionbridge公司（http://www.lionbridge.com）开发。 Webbench能测试处在相同硬件上，不同服务的性能以及不同硬件上同一个服务的运行状况。webbench的标准测试可以向我们展示服务器的两项内容：每秒钟相
第11章动画效果（中） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
windows下制作bat启动脚本. sanyecao2314 java cmd 脚本 bat
java -classpath C:\dwjj\commons-dbcp.jar;C:\dwjj\commons-pool.jar;C:\dwjj\log4j-1.2.16.jar;C:\dwjj\poi-3.9-20121203.jar;C:\dwjj\sqljdbc4.jar;C:\dwjj\voucherimp.jar com.citsamex.core.startup.MainStart
Java进行RSA加解密的例子 tomcat_oracle java
加密是保证数据安全的手段之一。加密是将纯文本数据转换为难以理解的密文；解密是将密文转换回纯文本。　　数据的加解密属于密码学的范畴。通常，加密和解密都需要使用一些秘密信息，这些秘密信息叫做密钥，将纯文本转为密文或者转回的时候都要用到这些密钥。　　对称加密指的是发送者和接收者共用同一个密钥的加解密方法。　　非对称加密(又称公钥加密)指的是需要一个私有密钥一个公开密钥，两个不同的密钥的
Android_ViewStub 阿尔萨斯 ViewStub
public final class ViewStub extends View java.lang.Object android.view.View android.view.ViewStub 类摘要： ViewStub 是一个隐藏的，不占用内存空间的视图对象，它可以在运行时延迟加载布局资源文件。当 ViewSt

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他

Python详解复杂CSV文件处理方法

目录

项目简介

项目笔记与心得

1.分批处理与多进程及多线程加速

2.优化算法提高效率

总结

你可能感兴趣的:(Python详解复杂CSV文件处理方法)