rainbow_lucky0106

Python PDF读取&处理

python PDF处理资料

如何使用Python玩转PDF各种骚操作？

在Python中使用PDF：阅读和拆分

pdfplumber读取

pdf文本和表格处理——pdfplumb

PDFPlumber：从PDF文件提取文字和表格的Python库

python读取pdf文件

使用pdfplumber读取PDF

用python 将PDF中的表格转化为Excel

用python解析pdf中的文本与表格【pdfplumber的安装与使用】

pypdf2分割合并

Python：使用pypdf2合并、分割

自定义函数：分割PDF文件函数

手把手教你用Python分割与合并PDF

pdfquery文档查找

pdfquery, 一种快速友好的PDF

Camelot表格读取

github

python库Camelot从pdf抽取表格数据

Camelot:从pdf中提取表格数据

pdfminer\pdfminer3k底层库（复杂）

python读取pdf中的文本

Python读取PDF文档（或TXT）

Python_读取PDF文件内容

深入学习python解析并读取PDF文件内容的方法

python 提取pdf文件中的信息

对比

Python解析PDF表格——PDFPlumber vs Camelot

Python：解析PDF文本及表格——pdfminer、tabula、pdfplumber 的用法及对比

附：存储方式

pd.DataFrame()函数解析（最清晰的解释）

python写入csv文件的几种方法

pandas用法总结

常见问题

Python csv生成文件纯数字文本格式，会生成科学计数

在代码端将这个字段分离出来，改变成字符串，并加上" \t" 就可以解决这个问题

实例

import pdfplumber
import os
from tqdm import tqdm
import pandas as pd

columnsTitle = ['股票代码', '年份', '经营情况讨论与分析', '开始页', '终止页', '总字数', '总句子数']
sentence_signs = ['。', '！', '？', '!', '?']
pd.DataFrame(columns=columnsTitle).to_csv("text.csv", index=False)

def walkFile(root):
	dirs = os.listdir(root)
	return dirs

def csvWriter(dataForm):
	dataframe = pd.DataFrame(dataForm, columns = columnsTitle)
	dataframe.to_csv("text.csv", mode='a', index=False, header=False, sep=',')

# 每一页正文范围
def pageContentRange(pageText):
	firstEnter = pageText.find('\n')  # 第一个\n
	# 查找page开始位置
	if pageText.find("年度报告", 0, firstEnter) or pageText.find("经营情况讨论与分析", 0, firstEnter):
		pageStartIndex = firstEnter+1

	# 查找页码位置
	numberIndex = pageText.rfind('\n', -20)
	return pageStartIndex, numberIndex

# 文件名处理
def extractSocksYear(file):
	fileName = (file.split('.')[0]).split('_',1)
	fileName = list(map(str, fileName))
	# print(fileName)
	try:
		sockName = fileName[0]+'\t'
		year = fileName[1][:4]
		# print(sockName, " ", year)
		# input()
		return sockName, year
	except:
		print(file, "文件名不合规范!")
	

def getTotalSentenceWords(pageContent):
	totalWords = 0
	totalSentence = 0
	for sign in sentence_signs:
			totalSentence += pageContent.count(sign)

	totalWords = len(pageContent)
	return totalSentence, totalWords

def readFile(path):
	# pdf: 第一节：27
	with pdfplumber.open(path) as pdf:
		# print(len(pdf.pages))
		# print((pdf.pages[17].extract_text())[-10:-5], "***")
		# print(pdf.pages[17].extract_words())
		
		pos1 = 0
		pos2 = 0
		flag = 0
		pageContent = ""
		
		for page in pdf.pages:
			# print("-------第[%d]页-------" % page.page_number)
			# print(page.extract_text())
			
			pageNumber = page.page_number
			pageText = page.extract_text()

			if not pageText:
				continue

			pageStartIndex, numberIndex = pageContentRange(pageText)

			textStr = pageText[:80]
			#for character in :
			#	textStr += character['text']

			# print(textStr,"****")
			pageStart = textStr.find("经营情况讨论与分析")
			if flag == 0 and pageStart != -1:
				# print(textStr)
				pos1 = pageNumber
				firstPageStart = pageStart+9
				flag = 1
			elif flag == 1 and textStr.find("重要事项") != -1:
				pos2 = pageNumber
				break

			if flag:
				if pageText:
					if pageNumber == pos1:
						pageStartIndex = firstPageStart
					if pageStartIndex < numberIndex:
						pageContent += pageText[pageStartIndex:numberIndex]
						# print(pageStartIndex, "*********", pageText[pageStartIndex:numberIndex])
	# print(pos1," ",pos2)
	return pos1, pos2, pageContent

def cnt_func(root):
	files = walkFile(root)
	
	fileLen = len(files)

	fileStart = 0
	fileEnd = 50

	while fileStart < fileLen:
		if fileEnd > fileLen:
			fileEnd = fileLen

		dataForm = []
		for file in tqdm(files[fileStart:fileEnd]):
			path = os.path.join(root, file)
			# print(path)

			pos1, pos2, pageContent = readFile(path)
			
				
			totalSentence, totalWords = getTotalSentenceWords(pageContent)

			sockName,year = extractSocksYear(file)

			dataForm.append([sockName, year, pageContent, pos1, pos2-1, totalWords, totalSentence])
			# print(dataForm)


		# print(dataForm)
		csvWriter(dataForm)
		# first_page = pdf.pages[1]
		# print(first_page.chars[-2])
		# print(first_page.chars[27])
		fileStart = fileEnd
		fileEnd += 50


def main():
	root = os.path.join(os.path.abspath(os.path.dirname(__file__)), 'pdf')
	cnt_func(root)
	

if __name__ == '__main__':
	main()

你可能感兴趣的:(PDF)

K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
基于Python给出的PDF文档转Markdown文档的方法程序媛了了 python pdf 开发语言
注：网上有很多将Markdown文档转为PDF文档的方法，但是却很少有将PDF文档转为Markdown文档的方法。就算有，比如某些网站声称可以将PDF文档转为Markdown文档，尝试过，不太符合自己的要求，而且无法保证文档没有泄露风险。于是本人为了解决这个问题，借助GPT（能使用GPT镜像或者有条件直接使用GPT的，反正能调用GPT接口就行）生成Python代码来完成这个功能。笔记、代码难免存在
ARMv8 Debug __pop_ ARMv8 ARM64 架构 linux 运维
内容来自DEN0024A_v8_architecture_PG.pdf本质ARMv8Debug是什么历史在ARMv4开始被引入,并已发展成一系列广泛的调试(debug1)和跟踪(trace)功能ARMv6和ARMv7-a新增了自托管调试(debug2)和性能评测(trace-enhance)ARMv8处理器提供硬件功能侵入式:调试工具能够对核心活动提供显著级别的控制非侵入式:以非侵入性方式收集有关
探索ASPICE V3.1：汽车行业软件开发的中文指南阮懿同
探索ASPICEV3.1：汽车行业软件开发的中文指南ASPICE_V3.1中文版.pdf.zip项目地址:https://gitcode.com/open-source-toolkit/422a2在汽车软件工程领域，高质量的标准对于确保行车安全和提升用户体验至关重要。今天，我们为您介绍一个珍贵的开源宝藏——ASPICEV3.1中文版资源。这是一篇专为国内汽车行业开发者、质量管理者准备的深度解读，旨
坚持抄书打卡第七天，掌握新技能的一天爱读书的无业游民
我是爱读书的无业游民hjk，为什么是这个名字呢？因为我想做个无业游民，不上班还能够维持自己的生活开销！今天学会了如何解密pdf，对添加密码的pdf如何进行编辑操作，果然，遇到问题会激发自己学习的欲望，要不就一直没有学习的动力。抄书增长自己的学识，丰富自己的见闻，充实自己，让自己更优秀，同时善于分享，把一些我认为比较好的，有意义的语句分享给大家，如果帮到了大家，欢迎留言讨论！最近看得这本书是中村恒子
word转html制作操作手册,Word文档转换为HTML帮助文档操作手册范本.pdf 想吃草莓干 word转html制作操作手册
Word文档转换为HTML帮助文档操作手册一、使用到的软件DOC2CHMDreamweaverCS3Helpandmanual4二、操作步骤1.先建立一个工作目录。如hhwork。2.将需要转换的文件复制到此工作目录下。如果是中文文件名，最好将其改为英文文件名。例：现在要将《小神探点检定修信息管理系统使用手册0.3.6.doc》转换为Html格式的帮助文档，首先将此文档复制到hhwork目录下并将
WORD批量转换器MultiDoc Converter uolian 工作 word
WORD批量转换器MultiDocConverterhttps://www.52pojie.cn/thread-1318745-1-1.html可批量将doc、docx等文件格式转成doc、docx、pdf、rtf、txt、html、epub等格式。安装包下载地址：https://wws.lanzouj.com/irvVbiz0pkd最终下载文件打包地址（未作成单文件，不确定是否可以直接使用）：h
ResNet的半监督和半弱监督模型 Valar_Morghulis
Billion-scalesemi-supervisedlearningforimageclassificationhttps://arxiv.org/pdf/1905.00546.pdfhttps://github.com/facebookresearch/semi-supervised-ImageNet1K-models/权重在timm中也有：https://hub.fastgit.org/r
Linux删除监听端口进程,linux只端口监听及杀死进程探旅 Linux删除监听端口进程
itextpdf生成pdf文件一.简介itextpdf是一个开源的允许你去创建和操作PDF文档的库.它使的开发者可以提高web和其他应用来动态地生成或操作PDF文档.通过iText中的Document和PdfWriter类,...QtSizePolicy属性控件的sizePolicy说明控件在布局管理中的缩放方式.Qt提供的控件都有一个合理的缺省sizePolicy,但是这个缺省值有时不能适合所有
overleaf如何下载论文的pdf 风也温柔☆ overleaf pdf overleaf
用overleaf写完英文论文后，要将论文保存为PDF格式点击图片中的下载按钮然后选择一个路径保存论文的PDF格式即可。
Zotero使用（一）PDF文件导入不会自动识别海绵波波107 论文（八股文）美化 pdf
上面两种，一种中文，一种英文，会发现，中文的导入进去之后不会自动识别，部分英文也是。不能自动识别就会缺少导出参考文献的功能，怎么办？发现之前导入喜欢使用PDF格式可以结合.ris格式，分开导入，这样都有了
PDF怎么测量尺寸时间的回忆88
PDF文件在使用的时候里面也会有图片与图形，我们需要测量其中尺寸的时候应该怎么做呢？估计各位小伙伴们也都很好奇吧，今天就一起来看看吧！1.首先要选择合适的PDF编辑软件，百度里搜索PDF编辑器http://bianji.xjpdf.com/，然后把这款软件安装在电脑中。编辑器安装完成之后打开运行迅捷PDF编辑器，在编辑器中打开需要测量的PDF图纸文件。2.尺寸的测量需要测量工具，找到编辑器中的工具
通过C# 裁剪PDF页面 Eiceblue C#.NET PDF c#pdf 开发语言 visual studio
在处理PDF文档时，有时需要精确地裁剪页面以适应特定需求，比如去除广告、背景信息或者仅仅是为了简化文档内容。本文将指导如何使用免费.NET控件通过C#实现裁剪PDF页面。免费库FreeSpire.PDFfor.NET支持在.NET(C#,VB.NET,ASP.NET,.NETCore)程序中实现创建、操作、转换和打印PDF文档等操作。可以从以下链接下载产品包后手动添加引用，或者直接通过NuGet安
利用apache-pdfbox库修改pdf文件模板，进行信息替换区块链攻城狮 pdf 合同模板 pdf生成合同生成
publicStringcreateSignFile(Longid)throwsIOException{//1.验证企业信息CompanyDOcompany=validateCompanyExists(id);//2.验证签约状态if(company.getSignStatus()!=0){throwexception(COMPANY_SIGN_STATUS_NOT_ZERO);}//3.获取合同
vue 生成PDF(A4标准PDF分页) qq_39016177 HTML2Canvas jsPDF 导出 PDF转换 DOM操作
1.先安装两个插件//页面转图片npminstall--savehtml2canvas//图片转PDFnpminstalljspdf--save 2.在需要导出的dom节点增加ref='pdf'例如这是待转换的页面，点击导出点击导出PDF3.定义导出方法handleExport(){ downloadPDF(this.$refs.pdf);},4.在页面导入 import{download
VUE中使用vue-office/pdf预览PDF 人间废料记 vue.js pdf 前端
安装npminstall@vue-office/pdfVUE组件中importVueOfficePdffrom'@vue-office/pdf';importEmptyElefrom'@/components/EmptyEle/index';//没有数据时的占位组件constprops=defineProps({pdfUrl:{type:String,default:''}});/*这块是处理边上
java unix网络编程_《UNIX网络编程卷2：进程间通信(第2版)》PDF 下载 weixin_39688019 java unix网络编程
图书目录：第一部分简介第1章简介1.1概述1.2进程、线程与信息共享1.3IPC对象的持续性1.4名字空间1.5fork、exec和exit对IPC对象的影响1.6出错处理：包裹函数1.7Unix标准1.8书中IPC例子索引表1.9小结习题第2章PosixIPC2.1概述2.2IPC名字2.3创建与打开IPC通道2.4IPC权限2.5小结习题第3章SystemVIPC3.1概述3.2key_t键和
[Unity优化] Unity3D如何减少安装包大小 hcq666
译官方文档：http://docs.unity3d.com/Manual/ReducingFilesize.htmlPDF文档：http://www.rukawa.cn/Uploads/Attachment/ReducingFilesize/ReducingFilesize.pdf原文地址：http://www.rukawa.cn/index.php?s=/home/article/detail/
100道Python经典练习题.pdf（附答案） IT娜娜 python 开发语言后端程序人生数据分析
Python新手在谋求一份Python编程工作前，必须熟知Python的基础知识。编程网站DataFlair的技术团队分享了一份最常见Python面试题合集，既有基本的Python面试题，也有高阶版试题来指导你准备面试，试题均附有答案。面试题内容包括编码、数据结构、脚本撰写等话题。1：Python有哪些特点和优点？答：作为一门编程入门语言，Python主要有以下特点和优点：可解释具有动态特性面向对
AI学习笔记：pdf-document-layout-analysis hillstream3 人工智能学习笔记 pdf AI编程 nlp
一直在学AI，但没有连续的时间来尝试。现在终于失业了，有大把连续的时间来动手。之前准备了一台I5-1400F+RTX360012G的电脑，现在终于派上用场了。由于一直在从事无线通信相关的工作，所以，拿到一份很长的AI可能与通信在哪些方面，能够结合的pdf文档。所以，打算从这份文档开始入手。第一个找到的项目的是这个：https://huggingface.co/HURIDOCS/pdf-docume
使用Java对PDF进行电子签章 cesske java pdf python
项目中用到电子签章（给PDF盖章签名），下边介绍一下怎么实现：准备工作：1、待盖章的pdf2、印章图片3、keystore证书文件把三个文件存在电脑的某个目录下，盖章时会用到。现在来讲一下keystore证书的生成：假定JDK已经安装，并配置系统变量，搜索cmd选择管理员身份打开"C:\ProgramFiles\Java\jdk1.8.0_271\bin\keytool.exe"-genkey-a
日常碎片（5.25）王二的文字奇遇记
一明天就正式答辩了。晚饭后去学校打印店打印定稿。插上U盘，打开PDF，粗粗扫了一遍确保万无一失后，我朝老板挥手，“您好，这边打印。”不到十平米的打印店挤满了人，再加上机器工作时散发的热气，室内要比室外暖和许多。老板侧着身子挪到我身边，扫了一眼屏幕，询问我份数确认打印后便匆忙离开。临近毕业，打印店也迎来旺季。在等待的过程中，周围一圈的三台机器几乎没歇过，右前方的阿姨正娴熟地帮论文胶装，在她一旁的老板
python绝技运用python成为顶级pdf_python绝技：运用python成为顶级黑客中文pdf完整版[42MB]... weixin_39851261
Python是一门常用的编程语言，它不仅上手容易，而且还拥有丰富的支持库。对经常需要针对自己所处的特定场景编写专用工具的黑客、计算机犯罪调查人员、渗透测试师和安全工程师来说，Python的这些特点可以帮助他们又快又好地完成这一任务，以极少的代码量实现所需的功能。Python绝技：运用Python成为顶级黑客结合具体的场景和真实的案例，详述了Python在渗透测试、电子取证、网络流量分析、无线安全、
Flutter PDFView：在Flutter应用中嵌入PDF阅读器明似水 flutter flutter pdf
FlutterPDFView：在Flutter应用中嵌入PDF阅读器在移动应用开发中，经常会遇到需要在应用内展示PDF文件的需求。Flutter作为一个跨平台的UI工具包，提供了丰富的包来满足开发者的各种需求。flutter_pdfview就是这样一个包，它允许开发者在iOS和Android平台上无缝地嵌入PDF阅读器。简介flutter_pdfview是一个原生的PDF查看器，支持iOS和And
Python基础知识进阶之正则表达式_头歌python正则表达式进阶前端陈萨龙程序员 python 学习面试
最后硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是
Vue预览word、excel、pdf 会说法语的猪 vue 前端 word pdf excel
之前也有写过两篇预览pdf的，但好像还没写过预览word和excel的，但是这次的预览pdf和之前的三个又不一样！使用pdfobject预览pdf，
VUE在线预览word、pdf、excel等文档菜鸟程序猿、 vue.js pdf 前端
http://www.pfile.com.cn/api/profile/onlinePreview?url=(需要在线查看的文档地址)vue代码window.open('http://www.pfile.com.cn/api/profile/onlinePreview?url='+encodeURIComponent(“需要在线查看的文档地址”));文档参考：http://www.pfile.co
pdf转换jpg（Python版本3.10）大头安 python python pdf 数学建模
importosimportrefromPILimportImagefrompdf2imageimportconvert_from_path,exceptionsfromconcurrent.futuresimportProcessPoolExecutorimporttempfile#解除Pillow的像素限制Image.MAX_IMAGE_PIXELS=Nonechunk_size=10#每个块
Java pdf转jpg tanzongbiao Java java eureka 开发语言
org.apache.pdfboxfontbox2.0.26org.apache.pdfboxpdfbox2.0.26PdfToJpgUtil.jpgpackagecom.qyj.utils;importorg.apache.pdfbox.pdmodel.PDDocument;importorg.apache.pdfbox.pdmodel.PDPageTree;importorg.apache.p
【专题】2024跨境出海供应链洞察-更先进供应链报告合集PDF分享（附原数据表）拓端研究室大数据
原文链接：https://tecdat.cn/?p=37665当前，全球化商业浪潮促使跨境电商行业飞速发展，产业带与跨境电商接轨、平台半托管模式涌现、社交电商带来红利机会以及海外仓不断扩张，这使得产业带外贸工厂、内贸工厂、传统进出口企业和品牌企业等纷纷加速布局跨境电商，赛道的繁荣也加剧了供给侧的竞争。阅读原文，获取专题报告合集全文，解锁文末408份跨境、出海、供应链相关行业研究报告。在海外消费需求
LeetCode[位运算] - #137 Single Number II Cwind java Algorithm LeetCode 题解位运算
原题链接：#137 Single Number II 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现三次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：与#136类似，都是考察位运算。不过出现两次的可以使用异或运算的特性 n XOR n = 0, n XOR 0 = n，即某一
《JavaScript语言精粹》笔记 aijuans JavaScript
0、JavaScript的简单数据类型包括数字、字符创、布尔值（true/false）、null和undefined值，其它值都是对象。 1、JavaScript只有一个数字类型，它在内部被表示为64位的浮点数。没有分离出整数，所以1和1.0的值相同。 2、NaN是一个数值，表示一个不能产生正常结果的运算结果。NaN不等于任何值，包括它本身。可以用函数isNaN(number)检测NaN,但是
你应该更新的Java知识之常用程序库 Kai_Ge java
在很多人眼中，Java 已经是一门垂垂老矣的语言，但并不妨碍 Java 世界依然在前进。如果你曾离开 Java，云游于其它世界，或是每日只在遗留代码中挣扎，或许是时候抬起头，看看老 Java 中的新东西。 Guava Guava[gwɑ:və]，一句话，只要你做Java项目，就应该用Guava（Github）。 guava 是 Google 出品的一套 Java 核心库，在我看来，它甚至应该
HttpClient 120153216 httpclient
/** * 可以传对象的请求转发，对象已流形式放入HTTP中 */ public static Object doPost(Map<String,Object> parmMap,String url) { Object object = null; HttpClient hc = new HttpClient(); String fullURL
Django model字段类型清单 2002wmj django
Django 通过 models 实现数据库的创建、修改、删除等操作，本文为模型中一般常用的类型的清单，便于查询和使用： AutoField：一个自动递增的整型字段，添加记录时它会自动增长。你通常不需要直接使用这个字段；如果你不指定主键的话，系统会自动添加一个主键字段到你的model。(参阅自动主键字段) BooleanField：布尔字段,管理工具里会自动将其描述为checkbox。 Cha
在SQLSERVER中查找消耗CPU最多的SQL 357029540 SQL Server
返回消耗CPU数目最多的10条语句 SELECT TOP 10 total_worker_time/execution_count AS avg_cpu_cost, plan_handle, execution_count, (SELECT SUBSTRING(text, statement_start_of
Myeclipse项目无法部署，Undefined exploded archive location 7454103 eclipse MyEclipse
做个备忘！错误信息为： Undefined exploded archive location 原因：在工程转移过程中，导致工程的配置文件出错；解决方法：
GMT时间格式转换 adminjun GMT 时间转换
普通的时间转换问题我这里就不再罗嗦了，我想大家应该都会那种低级的转换问题吧，现在我向大家总结一下如何转换GMT时间格式，这种格式的转换方法网上还不是很多，所以有必要总结一下，也算给有需要的朋友一个小小的帮助啦。 1、可以使用 SimpleDateFormat SimpleDateFormat EEE-三位星期 d-天 MMM-月 yyyy-四位年
Oracle数据库新装连接串问题 aijuans oracle数据库
割接新装了数据库，客户端登陆无问题，apache/cgi-bin程序有问题，sqlnet.log日志如下： Fatal NI connect error 12170. VERSION INFORMATION: TNS for Linux: Version 10.2.0.4.0 - Product
回顾java数组复制 ayaoxinchao java 数组
在写这篇文章之前，也看了一些别人写的，基本上都是大同小异。文章是对java数组复制基础知识的回顾，算是作为学习笔记，供以后自己翻阅。首先，简单想一下这个问题：为什么要复制数组？我的个人理解：在我们在利用一个数组时，在每一次使用，我们都希望它的值是初始值。这时我们就要对数组进行复制，以达到原始数组值的安全性。java数组复制大致分为3种方式：①for循环方式 ②clone方式 ③arrayCopy方
java web会话监听并使用spring注入 bewithme Java Web
在java web应用中，当你想在建立会话或移除会话时，让系统做某些事情，比如说，统计在线用户，每当有用户登录时，或退出时，那么可以用下面这个监听器来监听。 import java.util.ArrayList; import java.ut
NoSQL数据库之Redis数据库管理(Redis的常用命令及高级应用) bijian1013 redis 数据库 NoSQL
一 .Redis常用命令 Redis提供了丰富的命令对数据库和各种数据库类型进行操作，这些命令可以在Linux终端使用。 a.键值相关命令 b.服务器相关命令 1.键值相关命令 &
java枚举序列化问题 bingyingao java 枚举序列化
对象在网络中传输离不开序列化和反序列化。而如果序列化的对象中有枚举值就要特别注意一些发布兼容问题: 1.加一个枚举值新机器代码读分布式缓存中老对象，没有问题，不会抛异常。老机器代码读分布式缓存中新对像，反序列化会中断，所以在所有机器发布完成之前要避免出现新对象，或者提前让老机器拥有新增枚举的jar。 2.删一个枚举值新机器代码读分布式缓存中老对象，反序列
【Spark七十八】Spark Kyro序列化 bit1129 spark
当使用SparkContext的saveAsObjectFile方法将对象序列化到文件，以及通过objectFile方法将对象从文件反序列出来的时候，Spark默认使用Java的序列化以及反序列化机制，通常情况下，这种序列化机制是很低效的，Spark支持使用Kyro作为对象的序列化和反序列化机制，序列化的速度比java更快，但是使用Kyro时要注意，Kyro目前还是有些bug。 Spark
Hybridizing OO and Functional Design bookjovi erlang haskell
推荐博文： Tell Above, and Ask Below - Hybridizing OO and Functional Design 文章中把OO和FP讲的深入透彻，里面把smalltalk和haskell作为典型的两种编程范式代表语言，此点本人极为同意，smalltalk可以说是最能体现OO设计的面向对象语言，smalltalk的作者Alan kay也是OO的最早先驱，
Java-Collections Framework学习与总结-HashMap BrokenDreams Collections
开发中常常会用到这样一种数据结构，根据一个关键字，找到所需的信息。这个过程有点像查字典，拿到一个key，去字典表中查找对应的value。Java1.0版本提供了这样的类java.util.Dictionary(抽象类)，基本上支持字典表的操作。后来引入了Map接口，更好的描述的这种数据结构。 &nb
读《研磨设计模式》-代码笔记-职责链模式-Chain Of Responsibility bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 业务逻辑：项目经理只能处理500以下的费用申请，部门经理是1000，总经理不设限。简单起见，只同意“Tom”的申请 * bylijinnan */ abstract class Handler { /*
Android中启动外部程序 cherishLC android
1、启动外部程序引用自： http://blog.csdn.net/linxcool/article/details/7692374 //方法一 Intent intent=new Intent(); //包名包名+类名（全路径） intent.setClassName("com.linxcool", "com.linxcool.PlaneActi
summary_keep_rate coollyj SUM
BEGIN /*DECLARE minDate varchar(20) ; DECLARE maxDate varchar(20) ;*/ DECLARE stkDate varchar(20) ; DECLARE done int default -1; /* 游标中注册服务器地址 */ DE
hadoop hdfs 添加数据目录出错 daizj hadoop hdfs 扩容
由于原来配置的hadoop data目录快要用满了，故准备修改配置文件增加数据目录，以便扩容，但由于疏忽，把core-site.xml, hdfs-site.xml配置文件dfs.datanode.data.dir 配置项增加了配置目录，但未创建实际目录，重启datanode服务时，报如下错误： 2014-11-18 08:51:39,128 WARN org.apache.hadoop.h
grep 目录级联查找 dongwei_6688 grep
在Mac或者Linux下使用grep进行文件内容查找时，如果给定的目标搜索路径是当前目录，那么它默认只搜索当前目录下的文件，而不会搜索其下面子目录中的文件内容，如果想级联搜索下级目录，需要使用一个“-r”参数： grep -n -r "GET" . 上面的命令将会找出当前目录“.”及当前目录中所有下级目录
yii 修改模块使用的布局文件 dcj3sjt126com yii layouts
方法一：yii模块默认使用系统当前的主题布局文件，如果在主配置文件中配置了主题比如: 'theme'=>'mythm', 那么yii的模块就使用 protected/themes/mythm/views/layouts 下的布局文件；如果未配置主题，那么 yii的模块就使用 protected/views/layouts 下的布局文件，总之默认不是使用自身目录 pr
设计模式之单例模式 come_for_dream 设计模式单例模式懒汉式饿汉式双重检验锁失败无序写入
今天该来的面试还没来，这个店估计不会来电话了，安静下来写写博客也不错，没事翻了翻小易哥的博客甚至与大牛们之间的差距，基础知识不扎实建起来的楼再高也只能是危楼罢了，陈下心回归基础把以前学过的东西总结一下。 *********************************
8、数组豆豆咖啡二维数组数组一维数组
一、概念数组是同一种类型数据的集合。其实数组就是一个容器。二、好处可以自动给数组中的元素从0开始编号，方便操作这些元素三、格式 //一维数组 1,元素类型[] 变量名 = new 元素类型[元素的个数] int[] arr =
Decode Ways hcx2013 decode
A message containing letters from A-Z is being encoded to numbers using the following mapping: 'A' -> 1 'B' -> 2 ... 'Z' -> 26 Given an encoded message containing digits, det
Spring4.1新特性——异步调度和事件机制的异常处理 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
squid3(高命中率)缓存服务器配置 liyonghui160com
系统:centos 5.x 需要的软件:squid-3.0.STABLE25.tar.gz 1.下载squid wget http://www.squid-cache.org/Versions/v3/3.0/squid-3.0.STABLE25.tar.gz tar zxf squid-3.0.STABLE25.tar.gz &&
避免Java应用中NullPointerException的技巧和最佳实践 pda158 java
1) 从已知的String对象中调用equals()和equalsIgnoreCase()方法，而非未知对象。　　总是从已知的非空String对象中调用equals()方法。因为equals()方法是对称的，调用a.equals(b)和调用b.equals(a)是完全相同的，这也是为什么程序员对于对象a和b这么不上心。如果调用者是空指针，这种调用可能导致一个空指针异常 Object unk
如何在Swift语言中创建http请求 shoothao http swift
概述：本文通过实例从同步和异步两种方式上回答了”如何在Swift语言中创建http请求“的问题。如果你对Objective-C比较了解的话，对于如何创建http请求你一定驾轻就熟了，而新语言Swift与其相比只有语法上的区别。但是，对才接触到这个崭新平台的初学者来说，他们仍然想知道“如何在Swift语言中创建http请求？”。在这里,我将作出一些建议来回答上述问题。常见的
Spring事务的传播方式 uule spring事务
传播方式：新建事务 required required_new - 挂起当前非事务方式运行 supports &nbs

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他