IT从业者张某某

数据导入与预处理-第4章-数据获取python读取pdf文档

数据导入与预处理-第4章-数据获取Python读取PDF文档

1 PDF简介
- 1.1 pdf是什么
2 Python操作PDF
- 2.1 pdfplumber库
- 2.2 pdfplumber基本操作
- - 2.2.1 打开pdf文档，并抽取文本
  - 2.2.2 打开pdf文档，并抽取表格数据
  - 2.2.3 打开pdf文档，抽取表格数据并过滤空值
- 2.3 pdfplumber操作教务数据pdf版本
- - 2.3.1 查看数据
  - 2.3.2 查看单个文件，并提取培养目标和学分学时比例说明
  - 2.3.3提取学分学时数据并保存
  - 2.3.4 完整代码如下：

1 PDF简介

1.1 pdf是什么

1、什么是pdf？
PDF（Portable Document Foramt）是一种便捷式文本格式，由Adobe系统公司开发，其文件可以在任意操作系统中保持原有的文本格式。PDF文件中可以包含图片、文本、多媒体等多种形式的内容。

pdf也是文本格式之一，最大的特点是不能直接编辑，因此建议在编辑pdf文件时转换为可编辑的格式，或者在使用编辑工具直接创建pdf文件时简单地直接使用编辑器。

PDF 是Adobe Systems为与应用程序、操作系统和硬件无关地交换文件而开发的文件格式。 PDF文件基于PostScript语言的图像模型，保证了每台打印机的正确颜色和正确打印效果。也就是说，PDF忠实地再现原稿的文字、颜色和图像。

3 .可移植的文档格式是电子文件格式

此文件格式与操作系统平台无关，即PDF文件在Windows、Unix和苹果公司的MAC操作系统中都是通用的。这个特征成为在网上发行电子文件和进行数字化信息发布的理想文件形式。越来越多的电子书、产品说明、公司文章、网络资料和电子邮件开始使用PDF格式的文档。

4 .提供网络信息发布的支持

Adobe设计了PDF文件格式，以支持跨平台多媒体集成的信息出版和分发，特别是web信息分发。为了达到这个目的，PDF有很多其他电子文档格式无法比较的优点。 PDF文件格式可以将文本、字体、格式、颜色、与设备和分辨率无关的图形图像等封装在一个文件中。该格式文件也可以包含超文本链接、声音、动画等电子信息，对应于特长文件，集成度和安全可靠性高。

二、发展趋势

1.pdf文件格式是1990年代初期开发的，可以包含文件的格式，作为内置图像的共享方法，而且可以跨平台操作，完全不同的计算机平台上的收件人不一定在相关或并用的应用程序入当时与PDF竞争跨平台文件形式，DjVu (开发中)、Envoy、Common Ground Digital Paper、在当时网络和HTML文本尚未兴起的头几年，PDF在桌面出版工作流技术中很受欢迎。

2.pdf以初始文档形式共享历史的接受程度很慢。可以阅读和生成PDF格式的程序Adobe Acrobat不是免费产品。早期版本的PDF也不支持外部链路，降低了互联网上的可用性。与整个文本格式看起来巨大的PDF文件相比，在当时用调制解调器连接的时代，下载时间变长，而且用当年性能较低的电脑渲染PDF文件的过程也非常慢。

3 .从2.0版开始，Adobe开始免费分发PDF的阅读软件Acrobat Reader (现在称为Adobe Reader，制作软件依然称为Adobe Acrobat )，但旧格式依然支持。

4、到2008年，Adobe Systems的PDF参考了版本1.7，成为了ISO 32000:1:2008，从此PDF成为了正式的国际标准。因此，现在的PDF更新版本开发(包括将来的PDF 2.0版本开发)由ISO的TC 171 SC 2 WG 8主导，但Adobe和其他相关项目的专家参加了。

2 Python操作PDF

2.1 pdfplumber库

Pandas中没有提供读取PDF文件的功能，这里需要借助第三方库pdfplumber读取PDF文件。
pdfplumber是一个完全由Python开发的PDF解析库，它不仅可以读取PDF文件中的文本数据，还可以读取PDF文件中的表格数据。若当前的环境中没有安装pdfplumber库，则需要先通过pip命令安装该库。

pip install pdfplumber

pdfplumber库主要提供了两个类PDF和Page，分别代表PDF文件和PDF文件中每一页实例。

PDF类
PDF类对象对应一个PDF文件。使用pdfplumber库中的open()方法可以创建PDF类对象实例。
Page类
Page类对象对应着PDF文件中每页的实例。Page类提供了多个从每页PDF中提取不同内容的方法。

使用pdfplumber库读取PDF文件的基本步骤：

2.2 pdfplumber基本操作

本操作基于一个集合介绍.pdf 的文档，内容截图如下：

什么内容都不重要，大家在使用的使用，可以选择任意一篇pdf文档均可。

2.2.1 打开pdf文档，并抽取文本

with pdfplumber.open(‘集合介绍.pdf’) as pdf: 打开pdf文件
pdf.pages 抽取第0页返回值为包含pdf每页实例的列表，pdf.pages[0]表示获取第0页的实例
.extract_text()表示针对页实例中提取文本数据

# pdf操作
import pdfplumber
with pdfplumber.open('集合介绍.pdf') as pdf:
    # pdf.pages[0]表示获取第0页
    # pdf.pages[0].extract_text()表示抽取第0页的所有文本数据
    print(pdf.pages[0].extract_text())

输出为：

集合
Python 的集合（set）本身是可变类型，但 Python 要求放入集合中的元素必
须是不可变类型；集合类型与列表和元组的区别是：集合中的元素无序但必须唯
一。下面分创建集合、集合的常见操作和集合推导式三部分对集合进行介绍。
集合的常见操作
集合是可变的，集合中的元素可以动态增加或删除。Python 提供了一些内置
方法来操作集合，操作集合的常见方法如下表所示。
操作集合的常见方法
常见方法说明
add(x) 向集合中添加元素x，x 已存在时不作处理
remove(x) 删除集合中的元素x，若x 不存在则抛出KeyError异常
discard(x) 删除集合中的元素x，若x 不存在不作处理
随机返回集合中的一个元素，同时删除该元素。若集合为空，
pop()
抛出KeyError异常
clear() 清空集合
copy() 拷贝集合，返回值为集合
判断集合与集合T是否没有相同的元素，没有返回True，
isdisjoint(T)
有则返回False

2.2.2 打开pdf文档，并抽取表格数据

with pdfplumber.open(‘集合介绍.pdf’) as pdf: 打开pdf文件
page.extract_tables()表示抽取每一页的表格数据

import pdfplumber
with pdfplumber.open('集合介绍.pdf') as pdf:
    for page in pdf.pages: # 遍历每一页
        for table in page.extract_tables(): # 抽取每一页的表格数据
            print(table) # 输出

输出为：

[[‘’, ‘常见方法’, ‘’, ‘’, ‘说明’, ‘’], [‘add(x)’, None, None, ‘向集合中添加元素x，x 已存在时不作处理’, None, None], [‘remove(x)’, None, None, ‘删除集合中的元素x，若x 不存在则抛出KeyError异常’, None, None], [‘discard(x)’, None, None, ‘删除集合中的元素x，若x 不存在不作处理’, None, None], [‘pop()’, None, None, ‘随机返回集合中的一个元素，同时删除该元素。若集合为空，\n抛出KeyError异常’, None, None], [‘clear()’, None, None, ‘清空集合’, None, None], [‘copy()’, None, None, ‘拷贝集合，返回值为集合’, None, None], [‘isdisjoint(T)’, None, None, ‘判断集合与集合T是否没有相同的元素，没有返回True，\n有则返回False’, None, None]]

2.2.3 打开pdf文档，抽取表格数据并过滤空值

import re
with pdfplumber.open('集合介绍.pdf') as pdf:
    for page in pdf.pages:
        for table in page.extract_tables():
            for data in table:
                # 过滤数据中的None
                clean_data = list(filter(None, data))
                # 过滤数据中的换行符
                print([re.sub("\n" ,'',value) for value in clean_data])

输出为：

[‘常见方法’, ‘说明’]
[‘add(x)’, ‘向集合中添加元素x，x 已存在时不作处理’]
[‘remove(x)’, ‘删除集合中的元素x，若x 不存在则抛出KeyError异常’]
[‘discard(x)’, ‘删除集合中的元素x，若x 不存在不作处理’]
[‘pop()’, ‘随机返回集合中的一个元素，同时删除该元素。若集合为空，抛出KeyError异常’]
[‘clear()’, ‘清空集合’]
[‘copy()’, ‘拷贝集合，返回值为集合’]
[‘isdisjoint(T)’, ‘判断集合与集合T是否没有相同的元素，没有返回True，有则返回False’]

2.3 pdfplumber操作教务数据pdf版本

2.3.1 查看数据

对接
数据导入与预处理-第4章-数据获取python读取docx文档
，在当时的项目中，文档除了doc和docx两种外，还有pdf的格式，对此，这里提供一个对pdf文件处理的方法：
查看单个文件 E:\vscode\reddemo\edudata\08\普本\01.pdf，内容如下：

01专业（本科）人才培养方案
一、专业名称：01
二、修业年限及毕业学分要求：基本学XXX求170学分。
三、授予学位：工学学士
四、培养目标：
本专业培养适应我国社会XX用型人才。
五、毕业要求：
1 工程知识：能够将XXX题。
指标1.1 能够XX问题；
指标1.2 能够XX模型；
指标1.3 能够XX方案；
2 问题分析：能够XX结论。
指标2.1 能够XX环节；
指标2.2 能够XX表达；
指标2.3 能够XX结论。
3 设计/开发解决方案：能够XX等因素。
指标3.1 掌握XX因素；
指标3.2 能够XX审核；
指标3.3 能够XX改进；
指标3.4 能XX因素。
4 研究：能够XX结论。
指标4.1 能够XX方案；
指标4.2 能够XX方案；
指标4.3 能够XX数据；
指标4.4 能够XX结论。
5 使用XX局限性。
指标5.1 了解XX性；
指标5.2 能够XX并运用于复杂工程问题；
指标5.3 能够XX其局限性。
6 工程与社会：能够XX的责任。
指标6.1 能够XX影响；
指标6.2 能够XX影响。
指标6.3 能够XX责任。
7 环境和XX的影响。
指标7.1 能够XX内涵；
指标7.2 能XX评价；
指标7.3 能够XX理念。
8 职业规范：具有XX责任。
指标8.1 能够XX国情；
指标8.2 能够XX责任。
9 个人和团队：能够XX角色。
指标9.1 能够胜任XX的任务；
指标9.2 能够与XX能力。
10 沟通：能够XX交流。
指标10.1 能够XX交流；
指标10.2 了解XX交流。
11 项目管理：理解XX应用。
指标11.1 掌握XX方法；
指标11.2 了解建XX问题；
指标11.3 能够XX控制。
12.终身学习：具有XX能力。
指标12.1 拥有健康的体魄，能够正确面对压力，快速适应社会的发展；
指标12.2 能够认识到自主学习和终身学习的重要性，拥有自主学习的能力，XX问题；
指标12.3 能够适应行业发展，具有不断跟踪和学习学科前沿的能力。
六、主干学科：
（1）管XX程
（2）土XX程
七、主要课程：
工程XX审计等。
八、学分学时比例说明：
总学分为 170 学分，其中课内学分（含课内实践）为 129 学分，占总学分的 75.88%，实践教学（含课内实践、集中实践、综合实践）学分为 61 学分，占总学分的 35.88%；选修课学分为 16 学分，占总学分的 9.4%。通识教育平台学分为 48 学分，占总学分的 28.24%，学科基础教育平台学分为 35.5 学分，占总学分的 20.88%，专业教育平台学分为 45.5 学分，占总学分的 26.76%。课内总学时（含课内实践）为 2120 学时，其中选修课学时为 256 学时，占课内总学时的 11.85%。通识教育平台学时为 832 学时，占课内总学时的 39.24%；学科基础教育平台学时为 568 学时，占课内总学时的 26.8%，专业教育平台学时为 720 学时，占课内总学时的 33.33%。
九、备注说明：
--------。
十、附表
附表1：专业XX配表
附表2：专业XX示表
附表3：实践XX平台
附表4：通识XX平台
附表5：学科XX平台
附表6：专业XX平台
附表7：毕业XX矩阵
附表8：毕业XX矩阵

2.3.2 查看单个文件，并提取培养目标和学分学时比例说明

import re
filename = r'./edudata/08/普本/01.pdf'

def read_pdf(filename):
    with pdfplumber.open(filename) as pdf:
        pages_context = ""
        pages_context_list  = []
        num = 0
        for page in pdf.pages:
            print(num)
            if num > 4:
                break
            page_context = page.extract_text()

            pages_context_list.append(page_context)
            
            num += 1
        pages_context = "".join(pages_context_list)
        print("---------------")
        # print(pages_context)
        pages_context_replace = pages_context.replace('\n','')
        pages_context_replace = re.sub(r'—.{1,2}\d.{1,2}—','',pages_context_replace)
        # print(pages_context_replace)

        print("---------------")
    
        # 第4项的数据
        re_4_start =re.compile(r".*?四.{1}培养目标(.*)五.{1}毕业要求")
        re_4_end =re.compile("^五.{1}毕业要求：")

        # 第8项的数据
        re_8_start =re.compile(r".*?八.{1}学分学时比例说明(.*)九.{1}备注说明")
        re_8_end =re.compile("^九.{1}备注说明")

        matchObj_4 = re.match(re_4_start,pages_context_replace)
        # print(matchObj_4.group(1))

        matchObj_8 = re.match(re_8_start,pages_context_replace)
        # print(matchObj_8.group(1))


        str_4_part_all = ""


        if matchObj_4:
            print('----------')
            print('matchObj_4.group() :',matchObj_4.group(1))
            str_4_part_all = matchObj_4.group(1)


        str_8_part_all = ""    

        if matchObj_8:
            print('----------')
            print('matchObj_8.group() :',matchObj_8.group(1)) 
            str_8_part_all =  matchObj_8.group(1)  

        part_all_dict_new  = {} 

        part_all_dict_new[filename]={
            "ID":filename,
            "part_4":str_4_part_all,
            "part_8":str_8_part_all,
        }

        return part_all_dict_new

filename,part_all_dict_new = filename,read_pdf(filename=filename)

df1 = pd.DataFrame(part_all_dict_new)

dfnew = df1.T
dfnew1 = dfnew.reset_index()
del dfnew1["index"]

dfnew1.to_excel("pdf_Data_T.xlsx",encoding="UTF-8")
dfnew1

输出为：

2.3.3提取学分学时数据并保存

定义一个DataFrame，用来获取part_8中的学分学时信息

dfnew1_split=pd.DataFrame(columns =['总学分','课内学分','课内学分占比','实践教学学分','实践教学占比','选修课学分',
                         '选修课学分占比','通识教育平台学分','通识教育平台学分占比','学科基础教育平台学分','学科基础教育平台学分占比',
                        '专业教育平台学分','专业教育平台学分占比','课内总学时','选修课学时','选修课学时占比','通识教育平台学时',
                          '通识教育平台学时占比','学科基础教育平台学时','学科基础教育平台学时占比','专业教育平台学时',
                          '专业教育平台学时占比','ID'])
print(dfnew1_split.shape)                        
dfnew1_split.set_index('ID',inplace=True)      
dfnew1_split

输出为：
以上代码定义了一个空的DataFrame。

遍历dfnew1的每一行数据，并对part_8列数据进行正则表达式匹配，获取学时学分数据。
dfnew1的数据如下：

dfnew1

输出为：
正则匹配输入到dfnew1_split中：

for i in range(dfnew1['ID'].count()): # 根据数据行数进行遍历
    str1 = dfnew1['ID'][i] # 获取第i行的id 即文件全路径
    # 定义正则表达式匹配数据
    # 原始数据为
    '''
    总学分为173学分，其中课内学分（含课内实践）为134学分，占总学分的77.5%，
    实践教学（含课内实践、集中实践、综合实践）学分为60.5学分，占总学分的35%；
    选修课学分为21学分，占总学分的12.1%。
    通识教育平台学分为48学分，占总学分的27.7%，
    学科基础教育平台学分为44学分，占总学分的25.4%，专业教育平台学分为42学分，占总学分的24.3%。
    课内总学时（含课内实践）为2208学时，其中选修课学时为336学时，占课内总学时的15.2%。
    通识教育平台学时为832学时，占课内总学时的37.7%；
    学科基础教育平台学时为704学时，占课内总学时的31.9%，
    专业教育平台学时为672学时，占课内总学时的30.4%。
    '''
    reg = '总学分.*课内学分.*实践教学.*选修课.*通识教育平台.*学科基础教育.*专业教育平台.*课内总学时.*选修课.*通识教育平台.*学科基础教育.*专业教育平台.*'
    if len(re.findall(reg,str(dfnew1['part_8'][i])))!=0:
        q=re.findall(r'[0-9]+\.?[0-9]*',str(dfnew1['part_8'][i]))
        # q的值为list类型，值为 '170 129 75.88 73.5 43.24 23 13.53 48 28.24 26 15.29 55 32.35 2128 368 17.29 832 39.10 416 19.55 880 41.35'
        # print(len(q))
        # print(q)
        dfnew1_split.loc[str1]=q
    else:

        dfnew1_split.loc[str1]='' 
dfnew1_split

输出为：
自此，完成匹配，如果把这段代码和
数据导入与预处理-第4章-数据获取python读取docx文档
的代码结合起来，只需要把代码合起来，完成如下：

2.3.4 完整代码如下：

from glob import glob
import re
from win32com import client as wc
# import docx
from docx import Document
import pandas as pd
import os
import numpy as np
import pdfplumber

def doc_read(file1):
    word = wc.Dispatch("Word.Application")
    doc = word.Documents.Open(file1)
    doc.SaveAs(file1+"x",12)

    doc.Close()
    word.Quit()

def docx_read(file1):
    # 定义接受当前文档的part_4和part_8
    part_all_dict_new = {}
    # print("当前文件：====>",os.path.join("",file1))
    document = Document(os.path.join("",file1))
    # df=pd.DataFrame(columns =['总学分','课内学分','课内学分占比','实践教学学分','实践教学占比','选修课学分',
    #                      '选修课学分占比','通识教育平台学分','通识教育平台学分占比','学科基础教育平台学分','学科基础教育平台学分占比',
    #                     '专业教育平台学分','专业教育平台学分占比'])
    # 所有的段落，存放list
    all_paragraphs = document.paragraphs


    start_4_part = 0
    end_4_part = 0

    start_8_part = 0
    end_8_part = 0


    start_paragraphs_num = 0

    for i in all_paragraphs:
        start_paragraphs_num +=1
        if(re.match(re_4_start,i.text)):
            start_4_part = start_paragraphs_num
        elif (re.match(re_4_end,i.text)):
            end_4_part = start_paragraphs_num
        elif(re.match(re_8_start,i.text)):
            start_8_part = start_paragraphs_num
        elif(re.match(re_8_end,i.text)):
            end_8_part = start_paragraphs_num
        else:
            pass


    # 提取第4部分内容
    str_4_part_all = ""
    if start_4_part ==0 or end_4_part ==0 :
        print(file1,"的第4部分无法匹配")
    else:
        print("start_4_part   :   ",start_4_part)
        print("end_4_part   :   ",end_4_part)

        part_4 = all_paragraphs[start_4_part:end_4_part-1]
        for  i in part_4:
            str_4_part_all = str_4_part_all+i.text
        # print(str_4_part_all,"第4段的完成匹配")
            


    # 提取第8部分内容
    str_8_part_all = ""
    if start_8_part ==0 or end_8_part ==0 :
        print(file1,"的第8部分无法匹配")
    else:
        print("start_8_part   :   ",start_8_part)
        print("end_8_part   :   ",end_8_part)
        part_8 = all_paragraphs[start_8_part:end_8_part-1]
        for i in part_8:
            str_8_part_all = str_8_part_all+i.text
        # print(str_8_part_all,"的第8部分完成匹配")

    # print()
    # part_all_dict_new[file1+".id"] = file1
    # part_all_dict_new[file1+".part_4"] = str_4_part_all
    # part_all_dict_new[file1+".part_8"] = str_8_part_all
    part_all_dict_new[file1]={
        "ID":file1,
        "part_4":str_4_part_all,
        "part_8":str_8_part_all,
    }

    return file1,part_all_dict_new

def read_pdf(file1):
    with pdfplumber.open(file1) as pdf:
        pages_context = ""
        pages_context_list  = []
        num = 0
        for page in pdf.pages:
            print(num)
            if num > 4:
                break
            page_context = page.extract_text()

            pages_context_list.append(page_context)
            
            num += 1
        pages_context = "".join(pages_context_list)
        print("---------------")
        # print(pages_context)
        pages_context_replace = pages_context.replace('\n','')
        pages_context_replace = re.sub(r'—.{1,2}\d.{1,2}—','',pages_context_replace)
        # —  4 —
        # print(pages_context_replace)

        print("---------------")
        # content=str(content).replace('\n','t')
    
        # 第4项的数据
        re_4_start =re.compile(r".*?四.{1}培养目标(.*)五.{1}毕业要求")
        re_4_end =re.compile("^五.{1}毕业要求：")



        # 第8项的数据
        re_8_start =re.compile(r".*?八.{1}学分学时比例说明(.*)九.{1}备注说明")
        re_8_end =re.compile("^九.{1}备注说明")

        matchObj_4 = re.match(re_4_start,pages_context_replace)
        # print(matchObj_4.group(1))

        matchObj_8 = re.match(re_8_start,pages_context_replace)
        # print(matchObj_8.group(1))


        str_4_part_all = ""


        if matchObj_4:
            print('----------')
            print('matchObj_4.group() :',matchObj_4.group(1))
            str_4_part_all = matchObj_4.group(1)


        str_8_part_all = ""    

        if matchObj_8:
            print('----------')
            print('matchObj_8.group() :',matchObj_8.group(1)) 
            str_8_part_all =  matchObj_8.group(1)  

        part_all_dict_new  = {} 

        part_all_dict_new[file1]={
            "ID":file1,
            "part_4":str_4_part_all,
            "part_8":str_8_part_all,
        }

        return file1,part_all_dict_new

filedirs=r'E:\vscode\reddemo\edudata' # 所有文件存在的路径

# filenames = os.listdir("str1")

part_all_dict_new = {} # 存放所有匹配到的文件中的  四.{1}培养目标" 和八.{1}学分学时比例说明  数据

def contentExtract(str1): # 内容抽取函数 
    
    files = glob(str1 + '/*') # 匹配指定目录下的所有多层目录
    print(files) 
    
    for i in files:
        print("当前文件为：",i)
        if re.findall('.docx',i): # 如果当前文件为docx结尾
            fname,part_all_dict = docx_read(str(i)) # fname为文件名称ID，part_all_dict为该文件内容抽取后匹配到的数据
            # print(part_all_dict[fname])
            part_all_dict_new[fname] = part_all_dict[fname] # 将指定文件抽取后的数据 写入 part_all_dict_new字典， 用文件名称ID作为key
            # print("part_all_dict_new[fname]",part_all_dict_new[fname])
            # print(part_all_dict)
            # part_all_dict_new.update(part_all_dict)
        elif re.findall('.doc',i): # 如果当前文件以doc结尾
            doc_read(str(i)) # 将doc文件另存为docx
            fname,part_all_dict =docx_read(str(i) + 'x') # 读取另存后的docx文件
            part_all_dict_new[fname] = part_all_dict[fname]
            # print(part_all_dict)
            # part_all_dict_new.update(part_all_dict)
        elif re.findall('.pdf',i): # 如果当前文件以pdf结尾
            print("这是一个pdf文件" + i)
            fname,part_all_dict =read_pdf(str(i))
            part_all_dict_new[fname] = part_all_dict[fname]
        elif os.path.isdir(i):
            print("当前为目录：",i)
            contentExtract(str(i)) # 迭代 如果为目录

    # print("part_all_dict_new*******",part_all_dict_new)
    return part_all_dict_new


part_all_dict_new1 = contentExtract(filedirs)

df1 = pd.DataFrame(part_all_dict_new)


dfnew1 = df1.T
dfnew1 = dfnew1.reset_index()
del dfnew1["index"]


dfnew1.to_excel("firstData_T.xlsx",encoding="UTF-8")

dfnew1_split=pd.DataFrame(columns =['总学分','课内学分','课内学分占比','实践教学学分','实践教学占比','选修课学分',
                         '选修课学分占比','通识教育平台学分','通识教育平台学分占比','学科基础教育平台学分','学科基础教育平台学分占比',
                        '专业教育平台学分','专业教育平台学分占比','课内总学时','选修课学时','选修课学时占比','通识教育平台学时',
                          '通识教育平台学时占比','学科基础教育平台学时','学科基础教育平台学时占比','专业教育平台学时',
                          '专业教育平台学时占比','ID'])
                       
dfnew1_split.set_index('ID',inplace=True)      
 


for i in range(dfnew1['ID'].count()): # 根据数据行数进行遍历
    str1 = dfnew1['ID'][i] # 获取第i行的id 即文件全路径
    #str1 = str1[26:] # 切片操作
    #str1 = str1.replace('.docx','') # 替换掉docx
    # 定义正则表达式匹配数据
    # 原始数据为
    '''
    总学分为173学分，其中课内学分（含课内实践）为134学分，占总学分的77.5%，
    实践教学（含课内实践、集中实践、综合实践）学分为60.5学分，占总学分的35%；
    选修课学分为21学分，占总学分的12.1%。
    通识教育平台学分为48学分，占总学分的27.7%，
    学科基础教育平台学分为44学分，占总学分的25.4%，专业教育平台学分为42学分，占总学分的24.3%。
    课内总学时（含课内实践）为2208学时，其中选修课学时为336学时，占课内总学时的15.2%。
    通识教育平台学时为832学时，占课内总学时的37.7%；
    学科基础教育平台学时为704学时，占课内总学时的31.9%，
    专业教育平台学时为672学时，占课内总学时的30.4%。
    '''
    reg = '总学分.*课内学分.*实践教学.*选修课.*通识教育平台.*学科基础教育.*专业教育平台.*课内总学时.*选修课.*通识教育平台.*学科基础教育.*专业教育平台.*'
    if len(re.findall(reg,str(dfnew1['part_8'][i])))!=0:
        q=re.findall(r'[0-9]+\.?[0-9]*',str(dfnew1['part_8'][i]))
        # q的值为list类型，值为 '170 129 75.88 73.5 43.24 23 13.53 48 28.24 26 15.29 55 32.35 2128 368 17.29 832 39.10 416 19.55 880 41.35'
        print(len(q))
        print(q)
        dfnew1_split.loc[str1]=q
    else:

        dfnew1_split.loc[str1]='' 

dfnew1_split.to_excel("part8.xlsx")

秒杀场景的设计思考思无邪6675 后端
秒杀场景的设计思考在学习Redis的之后，一个绕不开的话题就是秒杀系统的设计。本文将从下面几个方面展开一下个人简单的理解：秒杀场景的介绍设计的核心思路怎么限流、削峰、异步planB总结‍秒杀场景的介绍秒杀场景是大家常说的高并发场景，但是实际上其与单纯的高并发还有一点不同，主要区别就是其流量来的猛增，几乎是一个垂直的增长，而非线性增长的并发。其具有如下特点：瞬时高并发读多写少不能超卖设计的核心思路在
SQL-触发器(trigger)的详解以及代码演示 m0_74823827 面试学习路线阿里巴巴 sql 数据库服务器
一、触发器的概念触发器是一种特殊的存储过程，但是触发器不存在输入和输出参数，所以不能被显式的去调用，而是与特定的表相关联，当表中的数据发生变化时，触发器被激活并执行其定义的SQL代码。触发器可以是行级触发器（针对每一行数据变化）或语句级触发器（针对整个SQL语句的变化），行级触发器允许对每一行单独处理，而语句级触发器则在整个操作完成后执行一次。触发器的功能强化约束：触发器能够实现比CHECK语句更
华山论剑，大模型(deepseek qwq gemini)辩论人生意义 Lifeng66666666 语言模型语言模型人工智能
借助DeepDiscussion程序，通过让大模型(deepseekqwqgemini)讨论“人生意义是什么”这一挑战问题，我们得以客观观察目前这几种大模型的价值观，能力，不足。部分讨论过程：问题:人生的意义是什么？deepseek/deepseek-r1:free初始方案:针对“人生的意义是什么”这一终极问题，我的解决方案分为以下五个层次，融合东西方哲学智慧与实践心理学，并提供具体行动方向：一、
Opencv之计算机视觉一闭月之泪舞计算机视觉计算机视觉 opencv python
一、环境准备使用opencv库来实现简单的计算机视觉。需要安装两个库：opencv-python和opencv-contrib-python，版本可以自行选择，注意不同版本的opencv中的某些函数名和用法可能不同pipinstallopencv-python==3.4.18.65-ihttps://pypi.tuna.tsinghua.edu.cn/simplepipinstallopencv-
自动驾驶系统的车辆动力学建模：自行车模型与汽车模型的对比分析赛卡自动驾驶自动驾驶数学建模 python numpy matplotlib 算法
在自动驾驶系统的车辆动力学建模中，自行车模型（BicycleModel）和更复杂的汽车模型（如双轨模型或多体动力学模型）各有其适用场景和优缺点。以下是两者的详细对比及选择原因解析：1.模型定义与核心差异特性自行车模型复杂汽车模型（如双轨模型）简化假设将四轮车辆简化为两轮（前轮转向，后轮驱动）考虑四轮独立运动、悬架系统、轮胎侧偏特性自由度2-3自由度（位置x,y，航向角θ）6+自由度（含横向、俯仰、
【今日EDA行业分析】2025年3月21日知梦EDA EDA行业分析大数据人工智能半导体 EDA 行业分析
智算时代EDA行业新变局：技术突围与生态重构一、EDA产业格局剧变：技术壁垒与地缘博弈交织在半导体产业链的宏大版图中，EDA工具宛如数字时代的“工业母机”，其重要性伴随芯片复杂度的指数级攀升而愈发显著。据SEMI数据显示，2023年全球EDA市场规模成功突破200亿美元大关，中国本土市场增速更是达到了18%。然而，Synopsys、Cadence、Mentor这三大行业巨头依旧牢牢占据着超过85%
区块链在医疗数据共享中的应用：解锁安全与透明的新维度 Echo_Wish 人工智能前沿技术区块链安全
区块链在医疗数据共享中的应用：解锁安全与透明的新维度近年来，区块链技术在金融领域取得了显著的突破，然而，它的潜力不仅仅局限于数字货币和支付领域。随着医疗数据的数字化和信息化程度不断提升，区块链技术在医疗数据共享中的应用正逐渐成为一个热门话题。区块链以其去中心化、不可篡改、透明且高效的特点，为医疗行业的数据管理提供了全新的解决方案，尤其是在患者隐私保护、数据共享以及医疗服务的透明度方面。那么，区块链
XPipe：一款新型开源终端管理神器修己xj 工具开源
最近，一位朋友在使用Docker时遇到了一个问题：他对宿主机与容器之间的文件复制以及在容器内执行命令等操作感到困惑。这让我开始思考，如果有一款远程管理工具能够直接连接到容器内部，操作是否会变得更加便捷？恰巧，今天在浏览GitHub时，我发现了这样一款名为XPipe的工具。工具介绍XPipe是一款创新的Shell连接中心和远程文件管理器，它能够让你从本地机器轻松访问整个服务器基础设施。这款工具运行在
入门级带你实现一个安卓智能家居APP（2）kotlin版本一粒程序米 android kotlin 智能家居 WiFi 单片机
前言上一篇写过java版本的实现，这一篇就写一下kotlin版本的吧。效果展示本APP是通过tcp/ip协议与连了WiFi的单片机通信。其实除了主活动类和新建项目时有一丢丢不同，其他的都是一样的哈~第一步：你得会一点点kotlin基础，建议看一本书，是郭霖大神些的《第一行代码》第三版，里面除了安卓的基础教学，还有kotlin的。第二步：建议看一本书，是郭霖大神些的《第一行代码》，先入门安卓基础。不
vscode如何找letax模板_VScode如何实时预览LaTeX？ weixin_39789327
好像感觉我要火了,这个必须专业回答下啊,看完别忘了点赞啊!!用户友好型实时预览的定义即不用手动编译,不用手动刷新文档(PDF)的LaTeX写作方式.实现方式与工具目前主要用的是Latexmk这个perl脚本或者支持实时预览的Markdown编辑器.关于TeX集成系统的一个建议个人建议用TeXLive而非MikTeX甚至CTeX套装,相比而言我用TeXLive时碰到的问题最少.后两种你可能发现好好的
VSCode python 遇到的问题：vscode can't open file '': [Errno 2] No such file or dire... weixin_33984032 python 开发工具 json
代码很简单，就两行：importpandasaspdimportnetCDF4asncdataset=nc.Dataset('20150101.nc')环境：在VSCode中左下角把原环境的Python3.6.532-bit切换为Anaconda中的Python3.6.564-bit('base':conda)过程中有两种错误：（忘记截图了，都是历史记录中的google网页搜索栏找到的搜索记录）1
【测试工程师必备！】VS Code好用插件FastPytestRunner 花小田 pytest vscode
你是否还在为PythonTestExplorerforVisualStudioCode以下痛点焦头烂额？•测试扫描慢到怀疑人生，每次启动都要等待5分钟•调试时总是找不到断点入口，配置项复杂到崩溃•传统测试工具无法满足大规模测试需求•每次切换项目都要重新配置测试环境FastPytestRunner——专为测试工程师量身打造的极速测试利器来了！️实战进阶技巧：✅配置黄金法则：{"pytestRunne
Kubernetes配置全解析：从小白到高手的进阶秘籍 ivwdcwso 操作系统与云原生 kubernetes 容器云原生 k8s 配置
导语在Kubernetes（K8s）的世界里，合理且精准的配置是释放其强大功能的关键。无论是搭建集群、部署应用，还是优化资源利用，配置都贯穿始终。然而，K8s配置涉及众多参数与组件，错综复杂，令不少初学者望而却步。本文将带你一步步深入K8s配置领域，从小白进阶为配置高手，轻松驾驭K8s集群。一、Kubernetes集群配置Master节点配置kube-api-server：这是K8s集群的“门面”
【C++开源库】tinyxml2解析库使用介绍小庞在加油 C++知识 c++开源 tinyxml2解析库
TinyXML-2是一个在C++中使用的轻量级、简单且高效的XML解析库。它由LeeThomason开发，旨在提供快速解析和生成XML数据的功能，同时保持代码的简洁性和易于使用。TinyXML-2支持多种编译器和平台，包括Windows、Linux和macOS。特点与优势简单易用：TinyXML-2提供了直观的API，使得解析和生成XML文档变得简单。高性能：它经过优化，能够快速解析大型XML文件
GPT-4o mini TTS：OpenAI 推出轻量级文本转语音模型！情感操控+白菜价冲击配音圈蚝油菜花每日 AI 项目与应用实例开源人工智能
❤️如果你也关注AI的发展现状，且对AI应用开发感兴趣，我会每日分享大模型与AI领域的开源项目和应用，提供运行实例和实用教程，帮助你快速上手AI技术！AI在线答疑->智能检索历史文章和开源项目->丰富的AI工具库->每日更新->尽在微信公众号->搜一搜：蚝油菜花️“声优连夜转行送外卖！OpenAI新模型每分钟语音成本仅9分钱”大家好，我是蚝油菜花。当同行还在用机械音合成器折磨听众时，这个AI怪物已
Dify-Plus：企业级AI管理核弹！开源方案吊打SaaS，额度+密钥+鉴权系统全面集成蚝油菜花每日 AI 项目与应用实例人工智能开源开源人工智能
❤️如果你也关注AI的发展现状，且对AI应用开发感兴趣，我会每日分享大模型与AI领域的开源项目和应用，提供运行实例和实用教程，帮助你快速上手AI技术！AI在线答疑->智能检索历史文章和开源项目->丰富的AI工具库->每日更新->尽在微信公众号->搜一搜：蚝油菜花“CTO集体失眠！这个开源项目让企业AI管理进入上帝模式”大家好，我是蚝油菜花。当同行还在为API调用次数和预算超支扯皮时，这个国产神器已
C++ 实例(二) 阳光向日葵向阳 c++算法数据结构
交换两个数以下我们使用两种方法来交换两个变量：使用临时变量与不使用临时变量。实例-使用临时变量#includeusingnamespacestd;intmain(){inta=5,b=10,temp;cout#includeusingnamespacestd;intmain(){inta=5,b=10;coutusingnamespacestd;intmain(){intn;cout
我们应该用尼古拉特斯拉的振动和频率的角度去观察整个世界包括电机万物的旋转呢？热爱电气数学建模
我不能去否定任何科学，也不能说谁的定义不准确，但是我坚信而我想的是是否粒子之间的自旋会扰动时空产生概率性的量子涨落现象呢？那么我们可以想办法设想一下结合尼古拉特斯拉的引力论1.特斯拉的哲学基础：振动、能量与介质特斯拉的理论体系以三个核心概念为基础振动是一切现象的本质：物质是能量的一种振动形式，不同频率的振动对应不同的物质态。以太假说：宇宙中存在一种充满空间的“介质”（以太），它是电磁波和引力的传播
直面失能危机，众托帮守护家庭防线市场
根据中国保险行业协会发布的《中国中老年人风险保障研究》,人生不同阶段面临的风险复杂多变。45-55岁人群主要担忧重疾与高额医疗支出,而步入60岁后,失能风险一跃成为老年人心中的头等大事,与医疗、重疾风险共同构成晚年生活的挑战。中国老龄科学研究中心数据显示,截至2024年末,我国60岁及以上老年人中,失能、半失能群体已达约4400万人,且这一数字正急剧攀升。预计到2050年,失能、半失能老人数量将飙
Go 1.24 新特性一览 go资讯编程语言程序员
Go1.24震撼登场，带来显著性能提升与诸多新功能，如泛型类型别名、优化工具链及标准库增强。可借助os.Root实现安全文件系统操作，运用testing.B.Loop优化基准测试，利用runtime.AddCleanup完善资源管理，还有weak包优化内存、crypto包保障FIPS140-3合规。速升级，提升Go应用效率与安全！文章目录语言特性更新泛型类型别名(GenericTypeAliase
事务回滚核心技术 KBkongbaiKB java
一、事务回滚的数学本质与核心挑战1.1事务状态机模型操作执行持久化完成系统故障事务回滚ActivePartiallyCommittedCommittedFailedAborted1.2核心技术挑战矩阵问题维度单机事务分布式事务原子性保证存储引擎WAL日志二阶段提交协议隔离性实现MVCC多版本控制全局锁调度机制可见性管理事务ID版本链向量时钟同步回滚触发条件SQL执行异常/死锁网络分区/节点故障二、
HTML语言的贪心算法宇瞳月包罗万象 golang 开发语言后端
HTML语言的贪心算法：理论与实践引言在编程和算法研究中，贪心算法是一种广泛应用的解决问题的方法。它通过对每一阶段选择最优解的方式来构建整个问题的解决方案。贪心算法不一定能在所有情况下得到最优解，但在许多实际问题中，它能够提供一个足够好的近似解。本文将探讨贪心算法的基本概念、典型应用、优缺点，并结合HTML语言的特点，提出一些具体的实现示例和思考。一、贪心算法的基本概念贪心算法是一种求解最优化问题
前端开发：这就是终点吗？前端javascript
ReactHook深入浅出CSS技巧与案例详解vue2与vue3技巧合集VueUse源码解读让我们重新回到2021年后远程办公风潮兴起的日子，那时候，程序员岗位炙手可热。机会遍地都是，你甚至只需参加少量培训，通过面试后便能轻松收获年薪超15万的工作，还有余暇拍摄一段《程序员的一天》上传网络。经过短短一年左右的培训，你便踏上了年薪六位数的职业道路——那时候，当程序员似乎是一个人人羡慕的理想职业。然而
如何用 Python 实现树结构不辉放弃 python 开发语言
一、树结构基础认知1.1树的四大特征层级关系：父子节点的从属关系唯一根节点：访问起点无循环：从根到叶的路径不形成环N叉分支：每个节点可有多个子节点1.2核心组件解析classTreeNode:def__init__(self,data):self.data=data#节点存储的数据self.children=[]#子节点容器（多叉树特性）defadd_child(self,node):self.c
如何保证 Redis 缓存与数据库双写一致性？凌志学java 后端数据库缓存 redis 数据库
在做系统优化时，想到了将数据进行分级存储的思路。因为在系统中会存在一些数据，有些数据的实时性要求不高，比如一些配置信息。基本上配置了很久才会变一次。而有一些数据实时性要求非常高，比如订单和流水的数据。所以这里根据数据要求实时性不同将数据分为三级。第1级：订单数据和支付流水数据；这两块数据对实时性和精确性要求很高，所以不添加任何缓存，读写操作将直接操作数据库。第2级：用户相关数据；这些数据和用户相关
Python 用户账户(让用户拥有自己的数据) 钢铁男儿 Python 从入门到精通 python 数据库 sqlite
Web应用程序的核心是让任何用户都能够注册账户并能够使用它，不管用户身处何方。在本章中，你将创建一些表单，让用户能够添加主题和条目，以及编辑既有的条目。你还将学习Django如何防范对基于表单的网页发起的常见攻击，这让你无需花太多时间考虑确保应用程序安全的问题。然后，我们将实现一个用户身份验证系统。你将创建一个注册页面，供用户创建账户，并让有些页面只能供已登录的用户访问。接下来，我们将修改一些视图
Python 用户账户(让用户能够输入数据) 钢铁男儿 Python 从入门到精通 python 数据库 sqlite
Web应用程序的核心是让任何用户都能够注册账户并能够使用它，不管用户身处何方。在本章中，你将创建一些表单，让用户能够添加主题和条目，以及编辑既有的条目。你还将学习Django如何防范对基于表单的网页发起的常见攻击，这让你无需花太多时间考虑确保应用程序安全的问题。然后，我们将实现一个用户身份验证系统。你将创建一个注册页面，供用户创建账户，并让有些页面只能供已登录的用户访问。接下来，我们将修改一些视图
安卓编译安装python_一文了解如何在安卓系统上安装Pydroid 3并进行编码 weixin_39916681 安卓编译安装python
由于Pydroid3集成开发环境(IDE)，因此可以用Python进行可移植的编码。Pydroid是Python3的极简解释器，可让您执行较小的项目并在Android设备上进行最少的编码。如果您还想在没有PC的任何地方学习Python编程，同时在Android上为Python复制PC平台，那么Pydroid3是一个不错的应用程序。无论您是Python编程的新手还是专家，让我们看看使用Pydroid
python为什么需要文本编辑器-推荐几款高效的Python文本编辑器| 高效的文本编辑器的特点是什么... weixin_39991305
我们都知道程序员花费大量的时间在编写、阅读和编辑代码上，因此一定要使用高效的文本编辑器才能够提高并很好的完成工作的效率和保证工作的质量。什么是高效的文本编辑器呢？除了自己用的得心应手外，小编认为还应该包含以下几个特点：·突出代码的结构，让你在编写代码时就能够发现常见的bug；·包含自动缩进功能；·显示代码长度的标志；·用于执行常见操作的快捷键；如果你是编程新手小白，小u非常建议你使用具备上述功能而
《Hello 算法》火了！！！一本写给算法初学者的入门算法书籍遇码分享算法 hello hello算法算法书籍
曾经也放出豪言壮语，决心要刷遍力扣上的所有算法题目。然而现实就很快啪啪的打脸。不知道多少人和我有过一样的经历。在读到《Hello算法》的序中，作者靳宇栋给了我们一个“台阶”。随后就表达了针对我们的现状，他特地写了《Hello算法》这本书，代表广大算法初学者表示感激涕零。《Hello算法》为什么适合入门动画图解、一键运行的数据结构与算法教程全书采用动画图解，内容清晰易懂、学习曲线平滑，引导初学者探索
js动画html标签（持续更新中） 843977358 html js 动画 media opacity
1.jQuery 效果 - animate() 方法改变 "div" 元素的高度： $(".btn1").click(function(){ $("#box").animate({height:"300px
springMVC学习笔记 caoyong springMVC
1、搭建开发环境 a>、添加jar文件，在ioc所需jar包的基础上添加spring-web.jar,spring-webmvc.jar b>、在web.xml中配置前端控制器 <servlet> &nbs
POI中设置Excel单元格格式 107x poi style 列宽合并单元格自动换行
引用：http://apps.hi.baidu.com/share/detail/17249059 POI中可能会用到一些需要设置EXCEL单元格格式的操作小结：先获取工作薄对象: HSSFWorkbook wb = new HSSFWorkbook(); HSSFSheet sheet = wb.createSheet(); HSSFCellStyle setBorder = wb.
jquery 获取A href 触发js方法的this参数无效的情况一炮送你回车库 jquery
html如下： <td class=\"bord-r-n bord-l-n c-333\"> <a class=\"table-icon edit\" onclick=\"editTrValues(this);\">修改</a> </td>" j
md5 3213213333332132 MD5
import java.security.MessageDigest; import java.security.NoSuchAlgorithmException; public class MDFive { public static void main(String[] args) { String md5Str = "cq
完全卸载干净Oracle11g sophia天雪 orale数据库卸载干净清理注册表
完全卸载干净Oracle11g A、存在OUI卸载工具的情况下：第一步：停用所有Oracle相关的已启动的服务；第二步：找到OUI卸载工具：在“开始”菜单中找到“oracle_OraDb11g_home”文件夹中 &
apache 的access.log 日志文件太大如何解决 darkranger apache
CustomLog logs/access.log common 此写法导致日志数据一致自增变大。直接注释上面的语法 #CustomLog logs/access.log common 增加： CustomLog "|bin/rotatelogs.exe -l logs/access-%Y-%m-d.log
Hadoop单机模式环境搭建关键步骤 aijuans 分布式
Hadoop环境需要sshd服务一直开启，故，在服务器上需要按照ssh服务，以Ubuntu Linux为例，按照ssh服务如下： sudo apt-get install ssh sudo apt-get install rsync 编辑HADOOP_HOME/conf/hadoop-env.sh文件，将JAVA_HOME设置为Java
PL/SQL DEVELOPER 使用的一些技巧 atongyeye java sql
1 记住密码这是个有争议的功能，因为记住密码会给带来数据安全的问题。但假如是开发用的库，密码甚至可以和用户名相同，每次输入密码实在没什么意义，可以考虑让PLSQL Developer记住密码。位置：Tools菜单－－Preferences－－Oracle－－Logon HIstory－－Store with password 2 特殊Copy 在SQL Window
PHP：在对象上动态添加一个新的方法 bardo 方法动态添加闭包
有关在一个对象上动态添加方法，如果你来自Ruby语言或您熟悉这门语言，你已经知道它是什么...... Ruby提供给你一种方式来获得一个instancied对象，并给这个对象添加一个额外的方法。好！不说Ruby了，让我们来谈谈PHP PHP未提供一个“标准的方式”做这样的事情，这也是没有核心的一部分... 但无论如何，它并没有说我们不能做这样
ThreadLocal与线程安全 bijian1013 java java多线程 threadLocal
首先来看一下线程安全问题产生的两个前提条件： 1.数据共享，多个线程访问同样的数据。 2.共享数据是可变的，多个线程对访问的共享数据作出了修改。实例：定义一个共享数据： public static int a = 0;
Tomcat 架包冲突解决征客丶 tomcat Web
环境： Tomcat 7.0.6 win7 x64 错误表象：【我的冲突的架包是：catalina.jar 与 tomcat-catalina-7.0.61.jar 冲突，不知道其他架包冲突时是不是也报这个错误】严重: End event threw exception java.lang.NoSuchMethodException: org.apache.catalina.dep
【Scala三】分析Spark源代码总结的Scala语法一 bit1129 scala
Scala语法 1. classOf运算符 Scala中的classOf[T]是一个class对象，等价于Java的T.class,比如classOf[TextInputFormat]等价于TextInputFormat.class 2. 方法默认值 defaultMinPartitions就是一个默认值，类似C++的方法默认值
java 线程池管理机制 BlueSkator java线程池管理机制
编辑 Add Tools jdk线程池一、引言第一：降低资源消耗。通过重复利用已创建的线程降低线程创建和销毁造成的消耗。第二：提高响应速度。当任务到达时，任务可以不需要等到线程创建就能立即执行。第三：提高线程的可管理性。线程是稀缺资源，如果无限制的创建，不仅会消耗系统资源，还会降低系统的稳定性，使用线程池可以进行统一的分配，调优和监控。
关于hql中使用本地sql函数的问题（问-答） BreakingBad HQL 存储函数
转自于：http://www.iteye.com/problems/23775 问：我在开发过程中，使用hql进行查询（mysql5）使用到了mysql自带的函数find_in_set()这个函数作为匹配字符串的来讲效率非常好，但是我直接把它写在hql语句里面（from ForumMemberInfo fm,ForumArea fa where find_in_set(fm.userId,f
读《研磨设计模式》-代码笔记-迭代器模式-Iterator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.Arrays; import java.util.List; /** * Iterator模式提供一种方法顺序访问一个聚合对象中各个元素，而又不暴露该对象内部表示 * * 个人觉得，为了不暴露该
常用SQL chenjunt3 oracle sql C++c C#
--NC建库 CREATE TABLESPACE NNC_DATA01 DATAFILE 'E:\oracle\product\10.2.0\oradata\orcl\nnc_data01.dbf' SIZE 500M AUTOEXTEND ON NEXT 50M EXTENT MANAGEMENT LOCAL UNIFORM SIZE 256K ; CREATE TABLESPA
数学是科学技术的语言 comsci 工作活动领域模型
从小学到大学都在学习数学，从小学开始了解数字的概念和背诵九九表到大学学习复变函数和离散数学，看起来好像掌握了这些数学知识，但是在工作中却很少真正用到这些知识，为什么？最近在研究一种开源软件-CARROT2的源代码的时候，又一次感觉到数学在计算机技术中的不可动摇的基础作用，CARROT2是一种用于自动语言分类（聚类）的工具性软件，用JAVA语言编写，它
Linux系统手动安装rzsz 软件包 daizj linux sz rz
1、下载软件 rzsz-3.34.tar.gz。登录linux，用命令 wget http://freeware.sgi.com/source/rzsz/rzsz-3.48.tar.gz下载。 2、解压 tar zxvf rzsz-3.34.tar.gz 3、安装 cd rzsz-3.34 ; make posix 。注意：这个软件安装与常规的GNU软件不
读源码之:ArrayBlockingQueue dieslrae java
ArrayBlockingQueue是concurrent包提供的一个线程安全的队列,由一个数组来保存队列元素.通过 takeIndex和 putIndex来分别记录出队列和入队列的下标,以保证在出队列时不进行元素移动. //在出队列或者入队列的时候对takeIndex或者putIndex进行累加,如果已经到了数组末尾就又从0开始,保证数
C语言学习九枚举的定义和应用 dcj3sjt126com c
枚举的定义 # include <stdio.h> enum WeekDay { MonDay, TuesDay, WednesDay, ThursDay, FriDay, SaturDay, SunDay }; int main(void) { //int day; //day定义成int类型不合适 enum WeekDay day = Wedne
Vagrant 三种网络配置详解 dcj3sjt126com vagrant
Forwarded port Private network Public network Vagrant 中一共有三种网络配置，下面我们将会详解三种网络配置各自优缺点。端口映射(Forwarded port)，顾名思义是指把宿主计算机的端口映射到虚拟机的某一个端口上，访问宿主计算机端口时，请求实际是被转发到虚拟机上指定端口的。Vagrantfile中设定语法为： c
16.性能优化-完结 frank1234 性能优化
性能调优是一个宏大的工程，需要从宏观架构(比如拆分，冗余，读写分离，集群，缓存等)，软件设计（比如多线程并行化，选择合适的数据结构），数据库设计层面（合理的表设计，汇总表，索引，分区，拆分，冗余等）以及微观（软件的配置，SQL语句的编写，操作系统配置等）根据软件的应用场景做综合的考虑和权衡，并经验实际测试验证才能达到最优。性能水很深，笔者经验尚浅，赶脚也就了解了点皮毛而已，我觉得
Word Search hcx2013 search
Given a 2D board and a word, find if the word exists in the grid. The word can be constructed from letters of sequentially adjacent cell, where "adjacent" cells are those horizontally or ve
Spring4新特性——Web开发的增强 jinnianshilongnian spring spring mvc spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装配置tengine并设置开机启动 liuxingguome centos
yum install gcc-c++ yum install pcre pcre-devel yum install zlib zlib-devel yum install openssl openssl-devel Ubuntu上可以这样安装 sudo aptitude install libdmalloc-dev libcurl4-opens
第14章工具函数（上） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Xelsius 2008 and SAP BW at a glance blueoxygen BO Xelsius
Xelsius提供了丰富多样的数据连接方式，其中为SAP BW专属提供的是BICS。那么Xelsius的各种连接的优缺点比较以及Xelsius是如何直接连接到BEx Query的呢？以下Wiki文章应该提供了全面的概览。 http://wiki.sdn.sap.com/wiki/display/BOBJ/Xcelsius+2008+and+SAP+NetWeaver+BW+Co
oracle表空间相关 tongsh6 oracle
在oracle数据库中，一个用户对应一个表空间，当表空间不足时，可以采用增加表空间的数据文件容量，也可以增加数据文件，方法有如下几种： 1.给表空间增加数据文件 ALTER TABLESPACE "表空间的名字" ADD DATAFILE '表空间的数据文件路径' SIZE 50M; &nb
.Net framework4.0安装失败 yangjuanjava .net windows
上午的.net framework 4.0，各种失败，查了好多答案，各种不靠谱，最后终于找到答案了和Windows Update有关系，给目录名重命名一下再次安装，即安装成功了！下载地址：http://www.microsoft.com/en-us/download/details.aspx?id=17113 方法： 1.运行cmd，输入net stop WuAuServ 2.点击开

数据导入与预处理-第4章-数据获取python读取pdf文档

数据导入与预处理-第4章-数据获取Python读取PDF文档

1 PDF简介

1.1 pdf是什么

2 Python操作PDF

2.1 pdfplumber库

2.2 pdfplumber基本操作

2.2.1 打开pdf文档，并抽取文本

2.2.2 打开pdf文档，并抽取表格数据

2.2.3 打开pdf文档，抽取表格数据并过滤空值

2.3 pdfplumber操作教务数据pdf版本

2.3.1 查看数据

2.3.2 查看单个文件，并提取培养目标和学分学时比例说明

2.3.3提取学分学时数据并保存

2.3.4 完整代码如下：

你可能感兴趣的:(数据处理与数据分析,python,开发语言)