Jayce~

Python提取PDF中的图片

# 2018/08/16更新：

有些同学不知道fitz库是什么，它是pymupdf中的一个模块，操作PDF非常舒服，只需要pip安装即可：

pip install pymupdf

Python提取word中的图片(需要的自取）：

Python提取Word中的图片

最近项目需要把word、PDF中的图片专门提取出来保存到另外的文件夹，最终成功实现；

最近项目需要把word、PDF中的图片专门提取出来保存到另外的文件夹，最终成功实现；

最近项目需要把word、PDF中的图片专门提取出来保存到另外的文件夹，最终成功实现；

重要的事情说三遍，详细步骤记录如下：

目录

1.倒入相关库

2.具体实现

2.1使用正则表达式查找PDF中的图片

2.3打印PDF的相关信息

2.4遍历PDF中的对象，遇到是图像才进行下一步，不然就continue

2.5将图像存为png格式

2.6输入pdf路径，即可运行

3.结果预览

3.1程序结果：

3.2原本的pdf:

3.3提取出来的图片

1.倒入相关库

import fitz
import time
import re
import os

2.具体实现

为了方便和其他模块组合，我直接写了个函数完成这个功能，实现如下：

2.1使用正则表达式查找PDF中的图片

def pdf2pic(path, pic_path):
    '''
    # 从pdf中提取图片
    :param path: pdf的路径
    :param pic_path: 图片保存的路径
    :return:
    '''
    t0 = time.clock()
    # 使用正则表达式来查找图片
    checkXO = r"/Type(?= */XObject)" 
    checkIM = r"/Subtype(?= */Image)"

2.3打印PDF的相关信息

    # 打开pdf
    doc = fitz.open(path)
    # 图片计数
    imgcount = 0
    lenXREF = doc._getXrefLength()

    # 打印PDF的信息
    print("文件名:{}, 页数: {}, 对象: {}".format(path, len(doc), lenXREF - 1))

2.4遍历PDF中的对象，遇到是图像才进行下一步，不然就continue

并且我们将文件的名字命名为word所在的路径

    # 遍历每一个对象
    for i in range(1, lenXREF):
        # 定义对象字符串
        text = doc.getObjectString(i)
        isXObject = re.search(checkXO, text)
        # 使用正则表达式查看是否是图片
        isImage = re.search(checkIM, text)
        # 如果不是对象也不是图片，则continue
        if not isXObject or not isImage:
            continue
        imgcount += 1
        # 根据索引生成图像
        pix = fitz.Pixmap(doc, i)
        # 根据pdf的路径生成图片的名称
        new_name = path.replace('\\', '_') + "_img{}.png".format(imgcount)
        new_name = new_name.replace(':', '')

2.5将图像存为png格式

        # 如果pix.n<5,可以直接存为PNG
        if pix.n < 5:
            pix.writePNG(os.path.join(pic_path, new_name))
        # 否则先转换CMYK
        else:
            pix0 = fitz.Pixmap(fitz.csRGB, pix)
            pix0.writePNG(os.path.join(pic_path, new_name))
            pix0 = None
        # 释放资源
        pix = None
        t1 = time.clock()
        print("运行时间:{}s".format(t1 - t0))
        print("提取了{}张图片".format(imgcount))

2.6输入pdf路径，即可运行

if __name__=='__main__':
    # pdf路径
    path = r'E:\dogcat\提取图片\计算机视觉算法工程师.pdf'
    pic_path = r'E:\dogcat\提取图片\测试'
    # 创建保存图片的文件夹
    if os.path.exists(pic_path):
        print("文件夹已存在，请重新创建新文件夹！")
        raise SystemExit
    else:
        os.mkdir(pic_path)
    m = pdf2pic(path, pic_path)

3.结果预览

3.1程序结果：

3.2原本的pdf:

3.3提取出来的图片

你可能感兴趣的:(PDF,提取图片,杂七杂八)

Stable Diffusion 3(SD 3)模型分享 szboy2003 stable diffusion 图像处理视觉检测 AI作画
整理了StableDiffusion3(SD3)模型，分享如下：sd3_medium.safetensors链接:https://pan.baidu.com/s/1aYq0MTmKj0U9fBNexV-7sw?pwd=5566提取码:5566sd3_medium_incl_clips_t5xxlfp8.safetensors链接:https://pan.baidu.com/s/1cg3zESBk0
【音视频之SDL2】一篇搞懂纹理与渲染人才程序员音视频基础大合集音视频 c c++SDL2 计算机视觉视频编解码实时音视频
文章目录前言SDL2的纹理与渲染什么是纹理？什么是渲染？比较SDL_SurfaceSDL_Texture纹理与渲染的关系使用纹理与渲染绘制一个BMP图片使用纹理与渲染的流程SDL_CreateRenderer作用函数原型参数返回值SDL_CreateTextureFromSurface作用函数原型参数返回值SDL_UpdateTexture作用函数原型参数返回值何时调用它SDL_RenderCop
深度解析智能问答系统：如何打造精准、高效的AI对话架构？和老莫一起学AI 人工智能架构自然语言处理产品经理语言模型学习 ai
在人工智能的飞速发展中，智能问答系统（QA系统）逐渐成为了企业内部管理、客户服务、搜索引擎等多个领域中的关键技术。今天，我们将深入探讨一个基于大模型、自然语言处理、知识检索的智能问答系统的架构，详细介绍其技术原理、流程以及未来应用前景。一、系统整体概览在这个智能问答系统中，整个流程可以大致划分为两大部分：前端问答生成与后端离线数据处理。前端部分是用户交互的核心，通过用户的输入、关键词提取、检索和问
Python3-excel文档操作（二）：利用openpyxl库处理excel表格：在excel表格中插入图片 liranke Python学习笔记 python openpyxl python处理excel load_workbook
1.简介excel表中可以插入图片，使用openpyxl库可以实现这个功能。2.代码：#-*-coding:utf-8-*-importosimportsysimporttimeimportopenpyxlfromopenpyxlimportload_workbookfromopenpyxl.drawing.imageimportImagedefopenxls_insert_img(fname,i
vsftpd虚拟用户部署后端
vsftpd虚拟用户部署案例提供两个用户如下,使用centos7验证可行。test*AO9ih&7ftpD@Tx4zp_shell脚本运行一键安装vsftp#!/bin/bashyum-yinstallvsftpdftp>/etc/vsftpd/vsftpd.confcat>/etc/vsftpd/vsftpd.confanonymous_enable=NOlocal_enable=YESwrit
使用Scrapy抓取图片网站的图片：完整教程与实战案例 Python爬虫项目 2025年爬虫实战项目 scrapy 爬虫 python 音视频开发语言 selenium
引言在互联网时代，图片已经成为我们生活和工作中不可或缺的一部分。随着社交媒体、电子商务、新闻网站等平台的普及，图片的需求量和使用量不断增加。因此，如何高效、便捷地抓取网站上的图片，成为了许多数据工程师、爬虫开发者以及数据科学家需要解决的问题。Scrapy是Python中一个非常强大且广泛使用的爬虫框架。它不仅提供了强大的抓取能力，还能够轻松地处理大规模数据抓取和高效的数据存储。Scrapy适合处理
傅里叶变换在语音识别中的关键作用从零开始学习人工智能语音识别人工智能
在语音识别中，傅里叶变换起着至关重要的作用，主要体现在以下几个方面：一、时域到频域的转换语音信号的特点语音信号是一种时域信号，它随时间变化。例如，当我们说话时，声带的振动产生声波，这些声波在空气中传播，其振幅随时间不断变化。这种时域信号包含了丰富的信息，如音调、音色等，但这些信息在时域中并不是很容易直接提取。傅里叶变换能够将时域信号转换为频域信号。在频域中，语音信号被分解为不同频率成分的组合。以一
HTML＜img＞标签新生派 html 前端
例子如何插入图片：下面有更多“自己尝试”的示例。定义和用法该标签用于在HTML页面中嵌入图像。从技术上讲，图像并非插入网页；图像链接到网页。标签为引用的图像创建了一个保存空间。该标签具有两个必需属性：src——指定图像的路径alt-如果图像由于某种原因无法显示，则指定图像的替代文本注意：另外，请务必指定图像的宽度和高度。如果未指定宽度和高度，则图像加载时页面可能会闪烁。提示：要将图像链接到另一个文
使用 Go 语言生成样式美观的 PDF 文件 Ai 编码 Golang教程 golang pdf 开发语言
文章精选推荐1JetBrainsAiassistant编程工具让你的工作效率翻倍2ExtraIcons：JetBrainsIDE的图标增强神器3IDEA插件推荐-SequenceDiagram，自动生成时序图4BashSupportPro这个ides插件主要是用来干嘛的？5IDEA必装的插件：SpringBootHelper的使用与功能特点6Aiassistant,又是一个写代码神器7Cursor
出海工具集 web前端进阶者前端
群聊分享的一个工具集合，看了几个，感觉有点子用，收藏一波，下面有GitHub的地址；吃水不忘挖井人；GitHub地址分类目录导航Web开发框架或模板Chrome插件开发前端开发后端开发数据库管理对象关系映射（ORM）样式与UI框架原型设计认证与授权支付集成邮件服务网站分析在线客服和反馈服务部署与托管网站管理域名注册文档管理协议生成图标资源字体资源图片视频素材图片视频处理工具屏幕录制短链或长链信息渠
大模型-LangChain4j 学习总结小哇666 大模型大模型 langchain
通过网盘分享的文件：langchain4j-study-test大模型学习后整理.rar链接:https://pan.baidu.com/s/1HpHzVaGotD6cfeaszEwEQg?pwd=73sy提取码:73sy
QWebEngineView之加载html打印PDF 学习，学习，在学习笔记前端 html qt5
QWebEngineView通过QWebEngineView加载html文件打印pdf相比自己手动绘制pdf简单的多，制作好对应的html文件，然后Qfile读取html文件模板，替换函数需要替换的value，存成html文件，然后QWebEngineView加载，就直接能够打印成对应格式的pdf了。//读取html文件QFileoutFile(QStringLiteral("C://Users/
电脑软件：推荐六款高效实用的PDF阅读器工具 IT技术分享社区电脑技巧 pdf 电脑软件微软技术办公软件
目录1.AdobeAcrobatReaderDC2.福昕阅读器（FoxitReader）3.SumatraPDF4.NitroPDFReader5.SlimPDFReader6.极速pdf阅读器总结在数字化办公日益普及的今天，PDF文件凭借其跨平台、格式稳定且易于分享的特点，成为了众多用户首选的文档格式。对于Windows用户而言，选择一款功能强大且操作便捷的PDF阅读器至关重要。本文将为您盘点并
图像检索简介 handsomestWei AI 图像处理人工智能
图像检索主要分为两类，一类是基于文本的图像检索（TextBasedImageRetrieval），另一类是基于内容的图像检索（ContentBasedImageRetrieval）基于文本通过对图像进行文本描述（对内容分析进行自动标注和人工标注），提炼关键词等标签信息。后续在进行检索时，可以通过检索关键词的方式查找对应的图片。基于内容以图搜图。涉及图像特征提取、相似度计算、特征数据库存储和搜索。图
使用python解析pdf文件 CV小蜗牛 Python学习 python 开发语言后端
使用python解析pdf文件本文主要介绍怎么使用python解析pdf文件pdf文件格式今天，pdf已经是最常用的数据格式。在1990,Adobe公司定义pdf文档的结构。PDF格式背后的理念是，传输的数据/文档对于参与通信过程的双方（创建者、作者或发送者以及接收者）来说看起来完全相同。PDF是PostScript格式的继承者，并被标准化为ISO32000-2:2017。处理PDF文件对于Lin
PDF 解析问题调研水的精神 RAG pdf PDF解析调研 PDF解析工具
说点真实的感受：网上看啥组件都好，实际测，啥组件都不行。效果好的不开源收费，开源的效果不好。测试下来，发现把组件融合起来，还是能不花钱解决问题的，都是麻烦折腾一些。这里分享了目前网上能够看到的资料。很多资料都是反复重复的，且效果不好的。目前网上基本没有太好用的工具，也没有太好的方案资料。剩下的就是收费效果好的。PDF解析中的诸多挑战版面分析：如何得到标题、如何的得到段落（正确的段落）、如何得到表格
Python实用小工具（3）——实现PDF合并和拆分功能（附源码+exe文件） MatpyMaster 实用小工具 pdf 测试工具
在日常工作和学习中，我们常常会遇到需要处理PDF文件的情况，例如合并多个PDF文档，拆分成单页或指定页数的PDF等。为了更方便地处理这些任务，今天我们将利用Python和Tkinter库，创建一个简易的PDF工具。这个工具包括PDF合并和PDF拆分两个功能，操作简单，界面友好。功能介绍①PDF合并工具新增一个PDF：点击该按钮可进行PDF的选择，需要注意的是依次选择的顺序就是进行合并的顺序，选择结
安卓APP如何适配不同的手机分辨率水瓶丫头站住 Android android 智能手机
1android是根据什么去选择drawable文件夹下的图片？是根据drawable文件夹的修饰符进行选择的。比如drawable、drawable-ldpi、drawable-mdpi、drawable-hdpi、drawable-xhdpi、drawalbe-xxhdpi、drawable-xxxhdpi根据修饰符进行优先匹配。不同的dpi修饰符对应的dpi如下drawable-ldpi12
如何使用python爬图片小雨帅 python 开发语言
一、说明使用Python爬取图片（或其他类型的文件）通常是为了自动化从互联网上下载图片的过程，这样可以节省人工下载的时间和精力，尤其是在需要大量图片时，下面将介绍两种方法，方法二步骤稍微多些，但可以爬取防爬虫的网站上的图片。二、准备安装python，谷歌浏览器，下载chromedriver，注意chromedriver的版本必须兼容谷歌浏览器，否则在运行python代码时会报错，在windows操
免费PDF处理工具大揭秘：合并、分割、压缩一键搞定 IT技术视界 #PC实用工具 #IT技术视界 pdf 软件工具
PDF是一种广泛使用的文件格式，然而，PDF文件的处理并不是那么容易，很多时候，我们需要对PDF文件进行「合并、分割、压缩、转换、编辑」等操作，但是，我们不想「付费」购买软件。那么，有没有一些「免费的客户端工具」，可以帮助我们快速地处理PDF文件呢？答案是有的，今天，我就为您介绍三款实用的PDF客户端工具「软件获取方式在文章的最后」PDF24工具箱：免费且功能丰富PDF24工具箱客户端是一个提供了
水稻穗检测数据集VOC+YOLO格式6038张1类别 FL1623863129 数据集 YOLO 深度学习机器学习
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：6038标注数量(xml文件个数)：6038标注数量(txt文件个数)：6038标注类别数：1标注类别名称:["daosui"]每个类别标注的框数：daosui框数=117696总框数：117696使用标注工具：labe
处理数据，可视化李渊_ python 后端 pandas
这篇内容就是极度简单简称极简，适合新手使用Django和Matplotlib还有pandas库首先衔接我前几篇的内容，就是图片和信息已经获取了，现在需要处理了因为我再获取数据的时候碰到一个问题就是使用selenium库获取不了空值数据，所以我就以字符串“空”为内容，插入到了表格中首先第一步就是处理表单中单一列表中为空值的行，我这边选择的是全部删除importpandasaspd#读取Excel文件
【论文投稿】探秘计算机视觉算法：开启智能视觉新时代小周不想卷艾思科蓝学术会议投稿计算机视觉
目录引言一、计算机视觉算法基石：图像基础与预处理二、特征提取：视觉信息的精华萃取三、目标检测：从图像中精准定位目标四、图像分类：识别图像所属类别五、语义分割：理解图像的像素级语义六、计算机视觉算法前沿趋势与挑战引言在当今数字化浪潮中，计算机视觉宛如一颗璀璨的明珠，正深刻地改变着我们与世界的交互方式。从安防监控中的精准识别，到自动驾驶汽车的智能导航；从医疗影像的辅助诊断，到工业生产中的缺陷检测，计算
如何用Python爬取网站数据：基础教程与实战大梦百万秋知识学爆 python 开发语言
数据爬取（WebScraping）是从网站中自动获取信息的过程。借助Python强大的库和工具，数据爬取变得非常简单且高效。本文将介绍Python爬取网站数据的基础知识、常用工具，以及一个简单的实战示例，帮助你快速上手网站数据爬取。1.什么是网站数据爬取？网站数据爬取是通过编写程序自动抓取网页内容的技术，通常用于从公开网站中提取特定数据。数据爬取的应用场景非常广泛，包括：收集商品价格和评论数据新闻
Python 常用基础模块（三）：os.path模块 Amo Xiang Python3高级核心技术 python 开发语言
目录一、os.path模块介绍二、常用方法2.1exists()方法——判断路径是否存在(准确)2.2isdir()方法——判断是否为目录2.3isabs()方法——判断是否为绝对路径2.4isf ile()方法——判断是否为普通文件2.5join()方法——拼接路径2.6abspath()方法——获取绝对路径2.7basename()方法——从一个路径中提取文件名2.8dirname()方法——
4.opencv函数--cv2.findContours xf8964 openCV openCV python findContours
该函数是查找图片轮廓，函数接收二值图片，函数原型cv2.findContours(image,mode,method,contours=None,hierarchy=None,offset=None)参数说明：image：原图mode：轮廓的检索模式，有四种，常用的是cv2.RETR_EXTERNAL枚举说明cv2.RETR_EXTERNAL表示只检测外轮廓cv2.RETR_LIST检测的轮廓不建
【视觉SLAM:六、视觉里程计Ⅰ：特征点法】 KeyPan 视觉SLAM 计算机视觉人工智能机器学习数码相机算法深度学习
视觉里程计（VisualOdometry,VO）是通过处理图像序列，估计摄像头在时间上的相对位姿变化的技术。它是视觉SLAM的重要组成部分之一，主要通过提取图像中的信息（如特征点或直接像素强度）来实现相机运动估计。以下从特征点法、2D-2D对极几何、三角测量、3D-2D的PnP方法、3D-3D的ICP方法介绍视觉里程计的核心内容。特征点法特征点法是视觉里程计的经典方法，通过提取图像中的显著特征点，
minio免费文件管理器（windows版本），若依RuoYi-Vue-Plus框架使用，有需要的可以下载，因为官网下载特别慢程序员WANG 工具 windows vue.js 容器
MinIO是一款开源的对象存储系统，它提供类似AmazonS3的云存储服务，适用于各种规模的企业。MinIO设计为高性能、安全且易于使用，适合存储大量的非结构化数据，如图片、文档、视频以及大数据分析中的日志文件等。在本案例中，我们关注的是Windows版本的MinIO，它被集成到了若依RuoYi-Vue-Plus框架中，以实现文件管理功能。若依RuoYi-Vue-Plus是一个基于Vue.js的现
网站开发必要技能智慧浩海网站开发教程网络
建立网站所需的技能可以从非常基本到最高级的。如果您打算为全球用户建立一个专业的网站，那么应该拥有以下一套技能，否则需要雇佣一些人来为你做这项工作。内容编辑内容编辑提供将在网站上发布的内容。他们根据目标受众的需求来设计内容，然后在内容发布之前进行编辑和打磨。内容专家通常依靠网站设计师和网站管理员的专业知识。请注意，内容可以是文字，数据，图片，音频或链接。网站设计师网页设计师是设计和维护网站的图形用户
数学：机器学习的理论基石每天五分钟玩转人工智能机器学习人工智能
一、数学：机器学习的理论基石机器学习是一种通过数据学习模式和规律的科学。其核心目标是从数据中提取有用的信息，以便对未知数据进行预测和分类。为了实现这一目标，机器学习需要一种数学框架来描述和解决问题。数学在机器学习中起着至关重要的作用，它提供了一种数学模型来描述数据和模式，以及一种数学方法来优化模型。数学在机器学习中的应用非常广泛，涵盖了线性代数、概率论、统计学、微积分、优化等多个领域。这些数学方法
scala的option和some 矮蛋蛋编程 scala
原文地址： http://blog.sina.com.cn/s/blog_68af3f090100qkt8.html 对于学习 Scala 的 Java™ 开发人员来说，对象是一个比较自然、简单的入口点。在本系列前几期文章中，我介绍了 Scala 中一些面向对象的编程方法，这些方法实际上与 Java 编程的区别不是很大。我还向您展示了 Scala 如何重新应用传统的面向对象概念，找到其缺点
NullPointerException Cb123456 android BaseAdapter
java.lang.NullPointerException: Attempt to invoke virtual method 'int android.view.View.getImportantForAccessibility()' on a null object reference 出现以上异常.然后就在baidu上
PHP使用文件和目录天子之骄 php文件和目录读取和写入 php验证文件 php锁定文件
PHP使用文件和目录 1.使用include()包含文件 (1)：使用include()从一个被包含文档返回一个值 (2)：在控制结构中使用include() include_once()函数需要一个包含文件的路径，此外，第一次调用它的情况和include()一样，如果在脚本执行中再次对同一个文件调用，那么这个文件不会再次包含。在php.ini文件中设置
SQL SELECT DISTINCT 语句何必如此 sql
SELECT DISTINCT 语句用于返回唯一不同的值。 SQL SELECT DISTINCT 语句在表中，一个列可能会包含多个重复值，有时您也许希望仅仅列出不同（distinct）的值。 DISTINCT 关键词用于返回唯一不同的值。 SQL SELECT DISTINCT 语法 SELECT DISTINCT column_name,column_name F
java冒泡排序 3213213333332132 java 冒泡排序
package com.algorithm; /** * @Description 冒泡 * @author FuJianyong * 2015-1-22上午09:58:39 */ public class MaoPao { public static void main(String[] args) { int[] mao = {17,50,26,18,9,10
struts2.18 +json,struts2-json-plugin-2.1.8.1.jar配置及问题！ 7454103 DAO spring Ajax json qq
struts2.18 出来有段时间了！（貌似是稳定版）闲时研究下下！貌似 sruts2 搭配 json 做 ajax 很吃香！实践了下下！不当之处请绕过！呵呵网上一大堆 struts2+json 不过大多的json 插件都是 jsonplugin.34.jar strut
struts2 数据标签说明 darkranger jsp bean struts servlet Scheme
数据标签主要用于提供各种数据访问相关的功能，包括显示一个Action里的属性，以及生成国际化输出等功能数据标签主要包括： action ：该标签用于在JSP页面中直接调用一个Action，通过指定executeResult参数，还可将该Action的处理结果包含到本页面来。 bean ：该标签用于创建一个javabean实例。如果指定了id属性，则可以将创建的javabean实例放入Sta
链表.简单的链表节点构建 aijuans 编程技巧
/*编程环境WIN-TC*/ #include "stdio.h" #include "conio.h" #define NODE(name, key_word, help) \ Node name[1]={{NULL, NULL, NULL, key_word, help}} typedef struct node { &nbs
tomcat下jndi的三种配置方式 avords tomcat
jndi(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。命名服务将名称和对象联系起来，使得我们可以用名称访问对象。目录服务是一种命名服务，在这种服务里，对象不但有名称，还有属性。 tomcat配置
关于敏捷的一些想法 houxinyou 敏捷
从网上看到这样一句话：“敏捷开发的最重要目标就是：满足用户多变的需求，说白了就是最大程度的让客户满意。” 感觉表达的不太清楚。感觉容易被人误解的地方主要在“用户多变的需求”上。第一种多变，实际上就是没有从根本上了解了用户的需求。用户的需求实际是稳定的，只是比较多，也比较混乱，用户一般只能了解自己的那一小部分，所以没有用户能清楚的表达出整体需求。而由于各种条件的，用户表达自己那一部分时也有
富养还是穷养，决定孩子的一生 bijian1013 教育人生
是什么决定孩子未来物质能否丰盛？为什么说寒门很难出贵子，三代才能出贵族？真的是父母必须有钱，才能大概率保证孩子未来富有吗？-----作者：@李雪爱与自由事实并非由物质决定，而是由心灵决定。一朋友富有而且修养气质很好，兄弟姐妹也都如此。她的童年时代，物质上大家都很贫乏，但妈妈总是保持生活中的美感，时不时给孩子们带回一些美好小玩意，从来不对孩子传递生活艰辛、金钱来之不易、要懂得珍惜
oracle 日期时间格式转化征客丶 oracle
oracle 系统时间有 SYSDATE 与 SYSTIMESTAMP； SYSDATE：不支持毫秒，取的是系统时间； SYSTIMESTAMP：支持毫秒，日期，时间是给时区转换的，秒和毫秒是取的系统的。日期转字符窜：一、不取毫秒： TO_CHAR(SYSDATE, 'YYYY-MM-DD HH24:MI:SS') 简要说明， YYYY 年 MM 月
【Scala六】分析Spark源代码总结的Scala语法四 bit1129 scala
1. apply语法 FileShuffleBlockManager中定义的类ShuffleFileGroup，定义： private class ShuffleFileGroup(val shuffleId: Int, val fileId: Int, val files: Array[File]) { ... def apply(bucketId
Erlang中有意思的bug bookjovi erlang
代码中常有一些很搞笑的bug，如下面的一行代码被调用两次（Erlang beam） commit f667e4a47b07b07ed035073b94d699ff5fe0ba9b Author: Jovi Zhang <[email protected]> Date: Fri Dec 2 16:19:22 2011 +0100 erts:
移位打印10进制数转16进制-2008-08-18 ljy325 java 基础
/** * Description 移位打印10进制的16进制形式 * Creation Date 15-08-2008 9:00 * @author 卢俊宇 * @version 1.0 * */ public class PrintHex { // 备选字符 static final char di
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
利用cmd命令将.class文件打包成jar chenyu19891124 cmd jar
cmd命令打jar是如下实现：在运行里输入cmd，利用cmd命令进入到本地的工作盘符。(如我的是D盘下的文件有此路径 D:\workspace\prpall\WEB-INF\classes) 现在是想把D:\workspace\prpall\WEB-INF\classes路径下所有的文件打包成prpall.jar。然后继续如下操作： cd D: 回车 cd workspace/prpal
[原创]JWFD v0.96 工作流系统二次开发包 for Eclipse 简要说明 comsci eclipse 设计模式算法工作 swing
JWFD v0.96 工作流系统二次开发包 for Eclipse 简要说明 &nb
SecureCRT右键粘贴的设置 daizj secureCRT 右键粘贴
一般都习惯鼠标右键自动粘贴的功能，对于SecureCRT6.7.5 ，这个功能也已经是默认配置了。老版本的SecureCRT其实也有这个功能，只是不是默认设置，很多人不知道罢了。菜单： Options->Global Options ...->Terminal 右边有个Mouse的选项块。 Copy on Select Paste on Right/Middle
Linux 软链接和硬链接 dongwei_6688 linux
1.Linux链接概念Linux链接分两种，一种被称为硬链接（Hard Link），另一种被称为符号链接（Symbolic Link）。默认情况下，ln命令产生硬链接。【硬连接】硬连接指通过索引节点来进行连接。在Linux的文件系统中，保存在磁盘分区中的文件不管是什么类型都给它分配一个编号，称为索引节点号(Inode Index)。在Linux中，多个文件名指向同一索引节点是存在的。一般这种连
DIV底部自适应 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
Centos6.5使用yum安装mysql——快速上手必备 dcj3sjt126com mysql
第1步、yum安装mysql [root@stonex ~]# yum -y install mysql-server 安装结果： Installed: mysql-server.x86_64 0:5.1.73-3.el6_5 &nb
如何调试JDK源码 frank1234 jdk
相信各位小伙伴们跟我一样，想通过JDK源码来学习Java，比如collections包，java.util.concurrent包。可惜的是sun提供的jdk并不能查看运行中的局部变量，需要重新编译一下rt.jar。下面是编译jdk的具体步骤： 1.把C:\java\jdk1.6.0_26\sr
Maximal Rectangle hcx2013 max
Given a 2D binary matrix filled with 0's and 1's, find the largest rectangle containing all ones and return its area. public class Solution { public int maximalRectangle(char[][] matrix)
Spring MVC测试框架详解——服务端测试 jinnianshilongnian spring mvc test
随着RESTful Web Service的流行，测试对外的Service是否满足期望也变的必要的。从Spring 3.2开始Spring了Spring Web测试框架，如果版本低于3.2，请使用spring-test-mvc项目（合并到spring3.2中了）。 Spring MVC测试框架提供了对服务器端和客户端（基于RestTemplate的客户端）提供了支持。 &nbs
Linux64位操作系统（CentOS6.6）上如何编译hadoop2.4.0 liyong0802 hadoop
一、准备编译软件 1.在官网下载jdk1.7、maven3.2.1、ant1.9.4，解压设置好环境变量就可以用。环境变量设置如下：（1）执行vim /etc/profile （2）在文件尾部加入: export JAVA_HOME=/home/spark/jdk1.7 export MAVEN_HOME=/ho
StatusBar 字体白色 pangyulei status
[[UIApplication sharedApplication] setStatusBarStyle:UIStatusBarStyleLightContent]; /*you'll also need to set UIViewControllerBasedStatusBarAppearance to NO in the plist file if you use this method
如何分析Java虚拟机死锁 sesame java thread oracle 虚拟机 jdbc
英文资料： Thread Dump and Concurrency Locks Thread dumps are very useful for diagnosing synchronization related problems such as deadlocks on object monitors. Ctrl-\ on Solaris/Linux or Ctrl-B
位运算简介及实用技巧（一）：基础篇 tw_wangzhengquan 位运算
http://www.matrix67.com/blog/archives/263 去年年底写的关于位运算的日志是这个Blog里少数大受欢迎的文章之一，很多人都希望我能不断完善那篇文章。后来我看到了不少其它的资料，学习到了更多关于位运算的知识，有了重新整理位运算技巧的想法。从今天起我就开始写这一系列位运算讲解文章，与其说是原来那篇文章的follow-up，不如说是一个r
jsearch的索引文件结构 yangshangchuan 搜索引擎 jsearch 全文检索信息检索 word分词
jsearch是一个高性能的全文检索工具包，基于倒排索引，基于java8，类似于lucene，但更轻量级。 jsearch的索引文件结构定义如下： 1、一个词的索引由=分割的三部分组成：第一部分是词第二部分是这个词在多少

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他