周小董

[299]python实现批量解析PDF文件提取内容并写入到Excel中

摘要：最近需要将一批PDF文件中的某些数据整理到Excel中，因为文件数量接近20w+，手动更新几乎不现实，于是就提取关键词和内容动手写了个Python小工具，以实现自动完成上述目标。

要求：
- 读取PDF文件找到特定关键字，然后读取其对应的数值提取出来
- 在Excel中查找对应关键字，然后在对应位置把上面提取出来的内容填进去
基本实现过程：
- 遍历文件夹，按照特定的要求找出指定类型的PDF文件
- 解析PDF文件
- 提取指定内容和对应值
- 更新数据到Excel
所需工具：
- 解析PDF文件的模块：pdfminer
- 操作Excel的模块：xlwt、xlrd、xlutils
- 注意：要在一个已经存在的Excel中写入数据需要配合xlutils使用，即先copy一个Excel对象，在该对象中进行写入，最后删除原对象而保存copy出来的对象
- io操作：os模块
- 匹配PDF文件：re模块
代码实现：
- 首先，把手工配置好的要求信息读入，主要包括各种文件提取规则，提取内容和文件的读写路径


#加载配置文件

def loadSettingFile(KEYWORDS_Path):
    logging.info('>>>Loading setting file:%s'%os.path.basename(KEYWORDS_Path))
    PathList={}#储存路径列表
    with open(KEYWORDS_Path,'r') as fp:
        lines_kw=fp.readlines()
        for line in lines_kw:
            line=line.rstrip('\n')#删除行尾的换行符
            if re.match(r'^#',line):#注释内容，忽略
                pass
            else:
                Type,Path=line.split('=') #获得路径
                PathList[Type]=Path
                logging.info('>>>Content:\n %s'%PathList)
    logging.info('>>>Loading setting file done!')
    return PathList

接着需要把刚才读入的规则按照特定的格式抽取出来

#提取关键词内容和值

def extractKW(strKW):
    # 把关键词内容按照文本和数字进行分割
    logging.info('>>>Extracting key words and values from %s'%strKW)
    kw = strKW.split(';')
    key_value = {}  # 储存关键词、数据位置及列位置
    for kv in kw:
        key_value[kv.split(',')[0]] = (kv.split(',')[1],kv.split(',')[2])
        logging.info('Content:%s'%kv)
    logging.info('>>>Extracting kwywords done! ')
    return key_value

使用读入的路径来初始化程序的文件操作路径

#初始化路径

def InitPath(Path_List,extractKW,PDF_File_Path,Excel_Path,PDF_RULE,KeyWords,KeyWordsA117,Excel_Rule,Excel_Seri_Col,Excel_Sheet):
    folderPath=Path_List[PDF_File_Path] #PDF文件夹路径
    ExcelPath=Path_List[Excel_Path]  #Excel地址路径
    PDFRule=Path_List[PDF_RULE]    #PDF抽取规则
    kw_value=extractKW(Path_List[KeyWords])   #关键词和对应值
    kw_value_A117=extractKW(Path_List[KeyWordsA117]) #A117文件的关键词级对应值
    sheet_name=Path_List[Excel_Sheet]  #sheet名称
    xlSeriCol=Path_List[Excel_Seri_Col]  #提取序列号的列位置
    ExcelRule=Path_List[Excel_Rule]   #Excel抽取规则
    xlRule=[]  #Excel规则保存
    if not ExcelRule=='':
        for rule in ExcelRule.split(';'):
            col,con=rule.split(',')  #获得：列号 内容
            xlRule.append((int(col),con))
    return (folderPath,ExcelPath,PDFRule,xlRule,kw_value,kw_value_A117,int(xlSeriCol),sheet_name)

#获取文件夹名称

def loadFolder(folderPath):
    counter=0  #计数
    logging.info('>>>Loading folder from %s '%folderPath)
    folderListPath='./../folderList.txt'  #文件夹保存地址
    with open(folderListPath,'w')as f:
        folderList=os.listdir(folderPath)
        for folder in folderList:
            if not os.path.isfile(folder):
                counter+=1
                logging.info('>>>%s: %s'%(counter,folder))
                f.write(os.path.join(folderPath,folder)+'\n')  #写入文件
    logging.info('>>>Done!')
    return folderListPath

读取Excel，把内容加载到程序中

#加载Excel

def InitExcel(excelPath):
    logging.info('>>>Loading Excel from:%s'%excelPath)
    book = xlrd.open_workbook(excelPath,formatting_info=True)  #打开一个wordbook
    copy_book= copy(book)  #拷贝一个副本
    logging.info('>>>Done!')
    return (book,copy_book)

根据指定的规则来抽取Excel中的特定内容，用来之后匹配文件，找到应写入数据的对应位置

#抽取Excel中的序列号

def extractExcelSeri(book,sheet_name,xlRule,xlPos):
    logging.info('>>>Extracting Excel serial from Excel Sheet:%s with xlRule:%s ...'%(sheet_name,xlRule))
    seri_data=[]#保存列数据
    sheet_ori=book.sheet_by_name(sheet_name) #切换sheet
    rows = sheet_ori.nrows #行数
    for row in range(rows-1):
        flag=True  #规则匹配标志
        for rule in xlRule:
            if (sheet_ori.cell(row,rule[0]-1).value)[0:len(rule[1])]==rule[1]:
                pass
            else:
                flag=False
                break
        if flag:  #规则匹配
            seri_data.append(sheet_ori.cell(row,xlPos-1).value)
    logging.info('>>>Done!')
    return seri_data

按照上面得到的文件序列来匹配文件夹名称，找到匹配的PDF文件目录

#使用Excel序列号匹配文件夹

def matchFolder(xlSeri,folderListPath):
    counter=0  #计数
    logging.info('>>> Matching folder name with Excel\'s')
    matchedFolderListPath='./../matchedFolderList.txt'  #保存匹配的文件夹列表
    with open(folderListPath,'r')as f:
        lines=f.readlines()
        with open(matchedFolderListPath,'w')as ff:
            for line in lines:
                line=line.rstrip('\n')  #去掉行尾换行符
                line_Name=os.path.basename(line) #获取文件夹名称
                for xlseri in xlSeri:
                    if line_Name[0:6]==xlseri[0:6]:  #序列号匹配成功
                        counter+=1
                        logging.info('>>>Matched! %s: %s'%(counter,line_Name))
                        ff.write(line+'\n')  #保存
    logging.info('>>>Done!')
    return matchedFolderListPath

从前面匹配得到的PDF文件目录中抽取得到特定类型的PDF文件，抽取的规则是配置文件指定的

#从文件夹列表里加载指定类型的PDF文件

def selectPDF(matchedFolderListPath,PDFRule):
    counter=0 #计数
    logging.info('>>>Loading pdf file from %s '%matchedFolderListPath)
    pdfListPath='./../pdfList.txt' #筛选出来的PDF文件列表储存位置
    with open(pdfListPath,'w')as fp:
        with open(matchedFolderListPath,'r')as f:
            folders=f.readlines()
            for folder in folders:
                folderPath=folder.rstrip('\n')  #删除换行符
                #遍历文件夹获取指定类型的PDF文件
                for fpaths,dirs,fs in os.walk(folderPath):
                    for f in fs:
                        pdfName=os.path.basename(f).split('.')   #分割名称
                        if len(pdfName)>=2 and pdfName[1]=='pdf':  #判断是否属于PDF文件
                            if  re.match(PDFRule,os.path.basename(f).split('.')[0]) or 'A117' in f:  #判断是否满足PDF文件的指定规则
                                fp.write(os.path.join(fpaths,f)+'\n')  #保存文件列表
                                counter+=1  #计数增一
                                logging.info('>>>%s: %s'%(counter,os.path.basename(f)))
    logging.info('>>>Selectig PDF file done!')
    return pdfListPath

解析PDF文件，转换为可读取的TXT文件

#解析PDF文件，转为txt格式

def parsePDF(PDF_path,TXT_path):
    logging.info('>>>Parsing pdf file:%s ...'%os.path.basename(PDF_path))
    with open(PDF_path, 'rb')as fp: # 以二进制读模式打开
        praser = PDFParser(fp)  #用文件对象来创建一个pdf文档分析器
        doc = PDFDocument() # 创建一个PDF文档
        praser.set_document(doc) # 连接分析器与文档对象
        doc.set_parser(praser)
        # 提供初始化密码
        # 如果没有密码 就创建一个空的字符串
        doc.initialize()
        # 检测文档是否提供txt转换，不提供就忽略
        if not doc.is_extractable:
            logging.info('>>>Parsing failed...')
            raise PDFTextExtractionNotAllowed
        else:
            rsrcmgr = PDFResourceManager()# 创建PDf 资源管理器 来管理共享资源
            laparams = LAParams() # 创建一个PDF设备对象
            device = PDFPageAggregator(rsrcmgr, laparams=laparams)
            interpreter = PDFPageInterpreter(rsrcmgr, device) # 创建一个PDF解释器对象

            # 循环遍历列表，每次处理一个page的内容
            for page in doc.get_pages(): # doc.get_pages() 获取page列表
                interpreter.process_page(page)
                layout = device.get_result() # 接受该页面的LTPage对象
                # 这里layout是一个LTPage对象 里面存放着 这个page解析出的各种对象 一般包括LTTextBox, LTFigure, LTImage, LTTextBoxHorizontal 等等 想要获取文本就获得对象的text属性，
                for x in layout:
                    if (isinstance(x, LTTextBoxHorizontal)):
                        with open(TXT_path, 'a',encoding='utf-8',errors='ignore') as f:
                            results = x.get_text()
                            f.write(results+'\n')
    logging.info('>>>Done!')

遍历解析所有PDF文件

#遍历PDF列表文件完成解析

def parseAllPDF(pdfListPath,parsePDF):
    logging.info('>>>Parsing all pdf file from pdf list:%s'%pdfListPath)
    counter=0#计数
    txtPath='./../PDF2TXT'  #保存解析好的pdf文件的路径
    if os.path.exists(txtPath): #判断目录是否存在
        pass
    else:
        os.makedirs(txtPath) #创建目录
    txtList=os.listdir(txtPath)  #加载已解析的pdf txt列表
    failed_txt_path='./failedParseList.txt'  #解析失败的文件储存位置
    with open(pdfListPath,'r') as fp:
        pdfList=fp.readlines()
        for pdfPath in pdfList:
            pdfPath=pdfPath.rstrip('\n')
            existFlag=False   #解析标志
            for file in txtList:
                pdfName=os.path.basename(pdfPath).split('.')[0] #获取PDF文件名称
                if file.split('.')[0]==pdfName: #判断是否已经解析过
                    logging.info('>>>This file has been parsed befores:%s/%s: %s'%(counter,len(pdfList),pdfName+'.pdf'))
                    counter+=1
                    existFlag=True
            if not existFlag:  #未曾解析过
                counter+=1#计数
                #生成TXT路径
                file_Name=os.path.basename(pdfPath).split('.')[0]
                txt_path=os.path.join('%s/%s%s'%(txtPath,file_Name,'.txt'))
                try:
                    logging.info('>>>Parsing pdf file: %s/%s'%(counter,len(pdfList)))
                    parsePDF(pdfPath,txt_path)#解析PDF
                except:
                    logging.info('>>>Parsing PDF:%s failed.'%os.path.basename(pdfPath))
                    with open(failed_txt_path,'a') as f: #输出错误名单
                        f.write(pdfPath+'\n')
            logging.info('>>>Done!')
    logging.info('>>>Parse all pdf file Done!')
    return txtPath

从转换出来的txt文件中抽取指定内容

#提取TXT文件里的指定内容

def extractContent(TXT_path,kw_value):
    logging.info('>>>Extracting content from: %s',TXT_path)
    kwv={}#储存关键字及对应值
    #读取文本内容
    with open(TXT_path,'r',encoding='utf-8',errors='ignore')as fp_tx:
        tx_lines=fp_tx.readlines()    
    if 'A117' in TXT_path:  #判断是否属于A117文件
         for con_txt in tx_lines:
            for index,item in enumerate(con_txt.split()):
                for kw in kw_value:
                    if ' ' in kw: #判断有没有空格
                        if item==kw.split()[0] and con_txt.split()[index+1]==kw.split()[1]: #判断抽取的类型
                            if con_txt.split()[index+2]=='W': #忽略水冷类型
                                pass
                            else:
                                value=con_txt.split()[index+int(kw_value[kw][0])]
                                kwv[kw]=(kw_value[kw][1],value) #返回内容，格式为：{关键字：(列号,值)}
                    else:
                        if item==kw:  #如果关键字匹配
                            if item=='PRHO':  #特殊情况
                                value=con_txt.split()[index+int(kw_value[kw][0])]  #获得其指定位置的数据
                            else:
                                con_txt_New=con_txt.rstrip('\n')#删除行尾的换行符
                                value=con_txt_New.split()[int(kw_value[kw][0])]
                            kwv[kw]=(kw_value[kw][1],value) #返回内容，格式为：{关键字：(列号,值)}
    else:
        content=[]#储存内容文本
        #把文本内容按照空格分隔并存储到content中
        for con_txt in tx_lines:
            for item in con_txt.split():
                content.append(item)

        #在文本内容中搜索关键字，找到则返回关键字及值
        for conVal,conTxt in enumerate(content):
            for kw in kw_value:#遍历关键词列表进行匹配
                if kw==conTxt:
                    kwv[kw]=(kw_value[kw][1],content[conVal+int(kw_value[kw][0])]) #返回内容，格式为：{关键字：(列号,值)}
    logging.info('>>>Content: %s'%kwv)
    return kwv

把文件内容按照匹配原则写入Excel中

#把指定的文本内容写入到Excel表格中

def wtxl(kwv,kw_ori,book,copy_book,sheet_name,pdfSeri,xlPos):
    logging.info('>>>Writing data to Excel...')
    sheet_ori=book.sheet_by_name(sheet_name) #切换sheet
    rows=sheet_ori.nrows  #获得行数
    for row in range(rows-1):   #遍历行
        xlSeri=sheet_ori.cell(row,xlPos-1).value  #取得指定位置的数值
        if xlSeri==pdfSeri:  #序列号匹配成功
            sheet = copy_book.get_sheet(sheet_name) #通过sheet的名称切换
            #把内容写入到指定位置
            for kwvCon in kwv:
                for kw in kw_ori:#遍历关键词文本
                    if kwvCon==kw and kwv[kw][1].split('.')[0].isdigit():  #匹配关键词并且关键词后面的内容为数字
                        sheet.write(row,int(kwv[kw][0])-1,kwv[kw][1])
                        logging.info('>>>Writing item:%s'%kw)
    os.remove(ExcelPath)
    copy_book.save(ExcelPath)#保存
    logging.info('>>>Done!')

使用一个遍历程序把所有解析出来的PDF文件抽取内容并写入到Excel中

#遍历解析好的pdf文件列表提取内容并把内容写入到Excel中

def write2Excel(Type,matchA117File,txtPath,kw_value,kw_value_A117,book,copy_book,sheet_name,xlPos,pdfListPath):
    counter=0  #计数
    logging.info('>>>Running function:write2Excel...')
    txtList=os.listdir(txtPath)
    LackOfA117ListPath='./../LackOfA117List.txt' #保存缺少A117文件列表
    with open(LackOfA117ListPath,'w')as f:
        for txt in txtList:
            counter+=1
            logging.info('>>>Dealing with PDF file: %s/%s'%(counter,len(txtList)))
            txt=txt.rstrip('\n')  #取出行尾换行符
            txtpath=txtPath+'/'+txt

            if 'Common' in txtpath:  #判断是否属于Common类型文件
                TypeName=Type(txtpath)  #获得类型
                if TypeName=='Direct':
                    #更新Common文件内容
                    kwv=extractContent(txtpath,kw_value)  #抽取内容
                    pdfSeri=os.path.basename(txt).split('_')[0]
                    wtxl(kwv,kw_value,book,copy_book,sheet_name,pdfSeri,xlPos)   #写入EXCEL
                    #更新Brief文件内容
                    txtpath=txtpath.replace('Common','Brief')
                    kwv=extractContent(txtpath,kw_value)  #抽取内容
                    pdfSeri=os.path.basename(txt).split('_')[0]
                    wtxl(kwv,kw_value,book,copy_book,sheet_name,pdfSeri,xlPos)   #写入EXCEL
                else:
                    fileSeri=os.path.basename(txtpath)[0:9]  #获取文件序列号
                    a117Name=matchA117File(txtPath,fileSeri)  #获取A117文件名称
                    if not a117Name=='NO':  #该文件存在
                        a117Path=txtPath+'/'+a117Name  #获得A117文件路径
                        kwv=extractContent(a117Path,kw_value_A117)  #抽取内容
                        pdfSeri=os.path.basename(txt).split('_')[0]
                        wtxl(kwv,kw_value_A117,book,copy_book,sheet_name,pdfSeri,xlPos)   #写入EXCEL
                    else: #A117文件不存在，保存列表
                        a117Path=fileSeri+'.pdf'  #获得A117文件路径
                        f.write(a117Path+'\n')
    logging.info('>>>Done!')

为了保证程序功能模块的独立，需要另外写两个小函数，分别完成获取文件类型和匹配特定类型文件的功能，这两个属于特殊情况

#获得指定文件的类型

def Type(filePath):
    TypeName='NULL'
    with open(filePath,'r',encoding='utf-8',errors='ignore')as f:
        lines=f.readlines()
        for line in lines:#遍历行
            items=line.split()
            for index,item in enumerate(items):
                if item=='Supply':  #获得类型
                    TypeName=items[index+1]
    return TypeName


#匹配指定文件的A117文件

def matchA117File(filePath,fileSeri):
    list=os.listdir(filePath)
    a117Name='NO'
    for file in list:
        if 'A117' in file:
            seri=os.path.basename(file).split('_')[0][0:9]
            if seri==fileSeri:  #匹配
                a117Name=os.path.basename(file)
    return a117Name

程序的主函数内容

if __name__ == '__main__':
    logging.info('>>>Program is running now...')                                     #程序开始

    ###在下面添加初始化信息
    KEYWORDS_Path='./../KEYWORDS.txt'                                                   #配置文件的路径
    PDF_File_Path='PDF_File_Path'                                                    #PDF文件夹的路径
    Excel_Path='Excel_Path'                                                          #Excel文件路径
    PDF_RULE='PDF_RULE'                                                              #PDF文件提取规则
    KeyWords='KeyWords'                                                              #关键词及值
    KeyWordsA117='KeyWordsA117'                                                      #A117文件关键词
    Excel_Rule='Excel_Rule'                                                          #Excel文件提取规则
    Excel_Seri_Col='Excel_Seri_Col'                                                  #机型匹配列位置
    Excel_Sheet='Excel_Sheet'                                                        #指定sheet名称

    ###程序运行，依次按照函数执行
    Path_List=loadSettingFile(KEYWORDS_Path)                                         #加载配置文件获取路径
                                                                                     #从配置文件内容获得相应路径
    folderPath,ExcelPath,PDFRule,xlRule,kw_value,kw_value_A117,xlSeriCol,sheet_name=InitPath(Path_List,extractKW,PDF_File_Path,Excel_Path,PDF_RULE,KeyWords,KeyWordsA117,Excel_Rule,Excel_Seri_Col,Excel_Sheet) 
    folderListPath=loadFolder(folderPath)                                            #获取文件夹名称
    book,copy_book=InitExcel(ExcelPath)                                              #初始化Excel
    xlSeri=extractExcelSeri(book,sheet_name,xlRule,xlSeriCol)                        #抽取Excel中的序列号
    matchedFolderListPath=matchFolder(xlSeri,folderListPath)                         #使用Excel序列号匹配文件夹
    pdfListPath=selectPDF(matchedFolderListPath,PDFRule)                             #从文件夹列表里加载指定类型的PDF文件
    txtPath=parseAllPDF(pdfListPath,parsePDF)                                        #遍历PDF列表文件完成解析
                                                                                     #遍历解析好的pdf文件列表提取内容并把内容写入到Excel中
    write2Excel(Type,matchA117File,txtPath,kw_value,kw_value_A117,book,copy_book,sheet_name,xlSeriCol,pdfListPath)

    logging.info('>>>Program finished!')                                             #程序完成
    input('Press any key to exit...')

打包为exe可执行程序

Python程序要在没有安装Python开发包的电脑上运行的话，需要打包发布，Python提供了pyinstaller.exe程序来实现一键打包，首先下载安装pyinstaller模块，

pip install pyinstaller

安装完成后搜索找到pyinstaller.exe 复制到你想要打包的文件的位置，也就是你的.py 文件的位置，然后使用命令行执行：

cd 你的上述文件放置位置
pyinstaller.exe 你的.py文件名称

比如我的pyinstaller.exe 放在了C:/Users/fanyu/desktop/Python 路径下，同时里面还有一个TEST.py 的文件我想要打包成exe 程序，那么我的运行命令就是：

cd C:/users/fanyu/desktop/Python
pyinstaller.exe TEST.py

现在如果一切正常的话程序就会运行在当前目录下生成dist 、build 、TEST.spec 、pycache 的四个文件，需要的运行程序在dist 目录下，里面除了exe 程序外会有许多文件，那是程序运行需要的支持文件。

当然，pyinstaller.exe 还提供了更丰富的打包功能，比如加入自己的程序图标，程序运行时不显示命令行窗口等，这个就自己探索了！

程序的使用说明文档:使用说明.txt

这个工具用来实现从指定的文件夹读取文件，抽取特定的数据写入到指定的Excel文件中的功能

1.如何使用？
你需要在KEYWORDS.txt文件中填写路径以及规则，然后运行TOOL文件夹下的TOOL.exe即可

2.程序运行逻辑？
 a-->打开Excel文件按照指定的规则取得值

 b-->遍历指定的PDF文件夹，将其名称与Excel中得到的进行匹配，若匹配成功，则保存该文件或文件夹的路径到folderList.txt中

 c-->遍历上述文件夹内的按照指定规则获得的所有PDF文件并保存到pdfList.txt中

 d-->解析上面获得的PDF文件并保存到PDF2Txt文件夹中

 e-->按照指定的规则抽取d步骤获得的TXT文件中的内容

 f-->把e步骤获得的内容写入到对应的Excel位置

 g-->程序完成

3.如何配置规则？
所有规则需要在运行程序前在KEYWORDS.txt文件中配置，包括：

a-->PDF文件夹所在路径
b-->Excel文件所在路径
c-->PDF文件的提取规则
d-->Excel抽取规则
e-->Excel写入规则
f-->抽取数据位置及写入Excel位置规则

4.如何获得帮助？

联系：fanyu Email:[email protected]   QQ:1729465178

程序代码和exe程序下载

链接：http://pan.baidu.com/s/1mh77Lg8 密码：sdyx

来源：https://blog.csdn.net/zyc121561/article/details/77207038

你可能感兴趣的:(python前行者)

[729]python项目生成依赖包清单requirements .txt文件周小董 python前行者
更多精选文章，请关注公众号：python前行者文章目录生成所有依赖清单requirements.txt使用requirements.txt自动安装所有依赖包python下使用pipfreeze>requirements.txt命令迁移模块Anaconda生成所有依赖清单requirements.txt这里需要使用到的工具叫pipreqs,先安装:pipinstallpipreqs装好之后cmd到项
[273]python生成个性二维码周小董 python前行者
更多精选文章，请关注公众号：python前行者现在，我们生活中到处可以看到二维码。它有啥好处呢？它具有信息容量大、可靠性高、可表示汉字及图象多种文字信息、保密防伪性强等优点。我们生成的东西一般都在电脑上。如果弄到移动设备上，用到最多的是扫码。在移动设备浏览器中输入URL明显没有扫描二维码方便。就是这个：python有qrcode库，很容易就生成二维码。现在在需要使用Python图像库的时候一般是用
多线程编程之理财周凡杨 java 多线程生产者消费者理财
现实生活中，我们一边工作，一边消费，正常情况下会把多余的钱存起来，比如存到余额宝，还可以多挣点钱，现在就有这个情况：我每月可以发工资20000万元（暂定每月的1号），每月消费5000（租房+生活费）元（暂定每月的1号），其中租金是大头占90%，交房租的方式可以选择（一月一交，两月一交、三月一交），理财：1万元存余额宝一天可以赚1元钱，
[Zookeeper学习笔记之三]Zookeeper会话超时机制 bit1129 zookeeper
首先，会话超时是由Zookeeper服务端通知客户端会话已经超时，客户端不能自行决定会话已经超时，不过客户端可以通过调用Zookeeper.close()主动的发起会话结束请求，如下的代码输出内容 Created /zoo-739160015 CONNECTEDCONNECTED .............CONNECTEDCONNECTED CONNECTEDCLOSEDCLOSED
SecureCRT快捷键 daizj secureCRT 快捷键
ctrl + a : 移动光标到行首ctrl + e ：移动光标到行尾crtl + b: 光标前移1个字符crtl + f: 光标后移1个字符crtl + h : 删除光标之前的一个字符ctrl + d ：删除光标之后的一个字符crtl + k ：删除光标到行尾所有字符crtl + u : 删除光标至行首所有字符crtl + w: 删除光标至行首
Java 子类与父类这间的转换周凡杨 java 父类与子类的转换
最近同事调的一个服务报错，查看后是日期之间转换出的问题。代码里是把 java.sql.Date 类型的对象强制转换为 java.sql.Timestamp 类型的对象。报java.lang.ClassCastException。代码：
可视化swing界面编辑朱辉辉33 eclipse swing
今天发现了一个WindowBuilder插件，功能好强大，啊哈哈，从此告别手动编辑swing界面代码，直接像VB那样编辑界面，代码会自动生成。首先在Eclipse中点击help，选择Install New Software,然后在Work with中输入WindowBui
web报表工具FineReport常用函数的用法总结（文本函数）老A不折腾 finereport web报表工具报表软件 java报表
文本函数 CHAR CHAR(number):根据指定数字返回对应的字符。CHAR函数可将计算机其他类型的数字代码转换为字符。 Number:用于指定字符的数字，介于1Number:用于指定字符的数字，介于165535之间（包括1和65535）。示例: CHAR(88)等于“X”。 CHAR(45)等于“-”。 CODE CODE(text):计算文本串中第一个字
mysql安装出错林鹤霄 mysql安装
[root@localhost ~]# rpm -ivh MySQL-server-5.5.24-1.linux2.6.x86_64.rpm Preparing... #####################
linux下编译libuv aigo libuv
下载最新版本的libuv源码，解压后执行： ./autogen.sh 这时会提醒找不到automake命令，通过一下命令执行安装（redhat系用yum，Debian系用apt-get）： # yum -y install automake # yum -y install libtool 如果提示错误：make: *** No targe
中国行政区数据及三级联动菜单 alxw4616
近期做项目需要三级联动菜单,上网查了半天竟然没有发现一个能直接用的! 呵呵,都要自己填数据....我了个去这东西麻烦就麻烦的数据上. 哎,自己没办法动手写吧. 现将这些数据共享出了,以方便大家.嗯,代码也可以直接使用文件说明 lib\area.sql -- 县及县以上行政区划分代码（截止2013年8月31日)来源：国家统计局发布时间：2014-01-17 15:0
哈夫曼加密文件百合不是茶哈夫曼压缩哈夫曼加密二叉树
在上一篇介绍过哈夫曼编码的基础知识,下面就直接介绍使用哈夫曼编码怎么来做文件加密或者压缩与解压的软件,对于新手来是有点难度的,主要还是要理清楚步骤; 加密步骤: 1,统计文件中字节出现的次数,作为权值 2,创建节点和哈夫曼树 3,得到每个子节点01串 4,使用哈夫曼编码表示每个字节
JDK1.5 Cyclicbarrier实例 bijian1013 java thread java多线程 Cyclicbarrier
CyclicBarrier类一个同步辅助类，它允许一组线程互相等待，直到到达某个公共屏障点 (common barrier point)。在涉及一组固定大小的线程的程序中，这些线程必须不时地互相等待，此时 CyclicBarrier 很有用。因为该 barrier 在释放等待线程后可以重用，所以称它为循环的 barrier。 CyclicBarrier支持一个可选的 Runnable 命令，
九项重要的职业规划 bijian1013 工作学习
一. 学习的步伐不停止古人说，活到老，学到老。终身学习应该是您的座右铭。世界在不断变化，每个人都在寻找各自的事业途径。您只有保证了足够的技能储
【Java范型四】范型方法 bit1129 java
范型参数不仅仅可以用于类型的声明上，例如 package com.tom.lang.generics; import java.util.List; public class Generics<T> { private T value; public Generics(T value) { this.value =
【Hadoop十三】HDFS Java API基本操作 bit1129 hadoop
package com.examples.hadoop; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataInputStream; import org.apache.hadoop.fs.FileStatus; import org.apache.hadoo
ua实现split字符串分隔 ronin47 lua split
LUA并不象其它许多"大而全"的语言那样，包括很多功能，比如网络通讯、图形界面等。但是LUA可以很容易地被扩展：由宿主语言(通常是C或 C++)提供这些功能，LUA可以使用它们，就像是本来就内置的功能一样。LUA只包括一个精简的核心和最基本的库。这使得LUA体积小、启动速度快，从而适合嵌入在别的程序里。因此在lua中并没有其他语言那样多的系统函数。习惯了其他语言的字符串分割函
java-从先序遍历和中序遍历重建二叉树 bylijinnan java
public class BuildTreePreOrderInOrder { /** * Build Binary Tree from PreOrder and InOrder * _______7______ / \ __10__ ___2 / \ / 4
openfire开发指南《连接和登陆》开窍的石头 openfire 开发指南 smack
第一步官网下载smack.jar包下载地址：http://www.igniterealtime.org/downloads/index.jsp#smack 第二步把smack里边的jar导入你新建的java项目中开始编写smack连接openfire代码 p
[移动通讯]手机后盖应该按需要能够随时开启 comsci 移动
看到新的手机，很多由金属材质做的外壳，内存和闪存容量越来越大，CPU速度越来越快，对于这些改进，我们非常高兴，也非常欢迎但是，对于手机的新设计，有几点我们也要注意第一：手机的后盖应该能够被用户自行取下来，手机的电池的可更换性应该是必须保留的设计,
20款国外知名的php开源cms系统 cuiyadll cms
内容管理系统，简称CMS，是一种简易的发布和管理新闻的程序。用户可以在后端管理系统中发布，编辑和删除文章，即使您不需要懂得HTML和其他脚本语言，这就是CMS的优点。在这里我决定介绍20款目前国外市面上最流行的开源的PHP内容管理系统，以便没有PHP知识的读者也可以通过国外内容管理系统建立自己的网站。 1. Wordpress WordPress的是一个功能强大且易于使用的内容管
Java生成全局唯一标识符 darrenzhu java uuid unique identifier id
How to generate a globally unique identifier in Java http://stackoverflow.com/questions/21536572/generate-unique-id-in-java-to-label-groups-of-related-entries-in-a-log http://stackoverflow
php安装模块检测是否已安装过, 使用的SQL语句 dcj3sjt126com sql
SHOW [FULL] TABLES [FROM db_name] [LIKE 'pattern'] SHOW TABLES列举了给定数据库中的非TEMPORARY表。您也可以使用mysqlshow db_name命令得到此清单。本命令也列举数据库中的其它视图。支持FULL修改符，这样SHOW FULL TABLES就可以显示第二个输出列。对于一个表，第二列的值为BASE T
5天学会一种 web 开发框架 dcj3sjt126com Web 框架 framework
web framework层出不穷，特别是ruby/python,各有10+个,php/java也是一大堆根据我自己的经验写了一个to do list,按照这个清单，一条一条的学习，事半功倍，很快就能掌握一共25条，即便很磨蹭，2小时也能搞定一条，25*2=50。只需要50小时就能掌握任意一种web框架各类web框架大同小异:现代web开发框架的6大元素，把握主线，就不会迷路建议把本文
Gson使用三(Map集合的处理,一对多处理) eksliang json gson Gson map Gson 集合处理
转载请出自出处：http://eksliang.iteye.com/blog/2175532 一、概述 Map保存的是键值对的形式，Json的格式也是键值对的，所以正常情况下，map跟json之间的转换应当是理所当然的事情。二、Map参考实例 package com.ickes.json; import java.lang.refl
cordova实现“再点击一次退出”效果 gundumw100 android
基本的写法如下： document.addEventListener("deviceready", onDeviceReady, false); function onDeviceReady() { //navigator.splashscreen.hide(); document.addEventListener("b
openldap configuration leaning note iwindyforest configuration
hostname // to display the computer name hostname <changed name> // to change go to: /etc/sysconfig/network, add/modify HOSTNAME=NEWNAME to change permenately dont forget to change /etc/hosts
Nullability and Objective-C 啸笑天 Objective-C
https://developer.apple.com/swift/blog/?id=25 http://www.cocoachina.com/ios/20150601/11989.html http://blog.csdn.net/zhangao0086/article/details/44409913 http://blog.sunnyxx
jsp中实现参数隐藏的两种方法 macroli JavaScript jsp
在一个JSP页面有一个链接，//确定是一个链接?点击弹出一个页面，需要传给这个页面一些参数。//正常的方法是设置弹出页面的src="***.do?p1=aaa&p2=bbb&p3=ccc"//确定目标URL是Action来处理?但是这样会在页面上看到传过来的参数，可能会不安全。要求实现src="***.do"，参数通过其他方法传！//////
Bootstrap A标签关闭modal并打开新的链接解决方案 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
Bootstrap里面的js modal控件使用起来很方便，关闭也很简单。只需添加标签 data-dismiss="modal" 即可。可是偏偏有时候需要a标签既要关闭modal，有要打开新的链接，尝试多种方法未果。只好使用原始js来控制。 <a href="#/group-buy" class="btn bt
二维数组在Java和C中的区别流淚的芥末 java c 二维数组数组
Java代码： public class test03 { public static void main(String[] args) { int[][] a = {{1},{2,3},{4,5,6}}; System.out.println(a[0][1]); } } 运行结果： Exception in thread "mai
systemctl命令用法 wmlJava linux systemctl
对比表，以 apache / httpd 为例任务旧指令新指令使某服务自动启动 chkconfig --level 3 httpd on systemctl enable httpd.service 使某服务不自动启动 chkconfig --level 3 httpd off systemctl disable httpd.service 检查服务状态 service h