IT从业者张某某

数据导入与预处理-第4章-数据获取python读取docx文档

数据导入与预处理-第4章-pandas数据获取docx文档

1.python读取docx文档概述
- 1.1 从Word文件获取数据
- 1.2 python-docx库介绍
- - 1. Paragraph类
  - 2. Table类
2.python-docx案例
- 2.1 基本操作
- - 1.获取段落
  - 2. 获取表格
- 2.2 实战案例
- - 2.2.1 查看原始数据目录结构
  - 2.2.2 将doc文件转换成docx文件
  - 2.2.3 查看单个文件，并提取培养目标和学分学时比例说明
  - 2.2.4 获取指定目录下所有文档中的数据
  - 2.2.5 将结果字典保存到DataFrame中
  - 2.2.6 提取学分学时数据并保存

1.python读取docx文档概述

1.1 从Word文件获取数据

Word（Microsoft Office Word）是微软公司的一款文字处理软件，在日常工作、学习中常被用于处理或存储文字信息。Word文件有两种扩展名.doc和.docx，其中扩展名.doc为微软专用格式，并未对外完全授权，兼容性低；而扩展名为.docx的文件无论是从文件体积大小、响应速度、兼容性等方面都优于.doc文件。
由于Pandas库中没有提供读取Word文件的功能，这里需要借助第三方库python-docx读取Word文件（扩展名为.docx）中的数据。
python-docx是一个Python中专门用于创建和修改Word（以.docx为后缀名）文件的库，该库中提供了Word文件的全套操作，可以轻松地对Word文件进行读写操作。
如果当前的环境中没有安装过python-docx库，那么需要先通过pip命令安装该库。

pip install python-docx

1.2 python-docx库介绍

python-docx库中主要有一个Document类，Document类的对象表示一个从Word文件加载、类似文件的对象，相当于一个Word文件。不同的Document类的对象对应不同的Word文件，这些对象是独立的，相互之间没有任何影响。
一个Word文件中的内容可能包含段落、标题、表格、样式等几种结构，同样地，Document类的对象包含对应各结构的属性。

paragraphs和tables属性可用于获取Word文件中段落对象和表格对象的列表，其中段落对象是一个Paragraph类的对象，表格对象是一个Tables类的对象。

1. Paragraph类

Paragraph类对象对应Word文件的段落结构。一个Word文件可能由多个段落组成，一旦该文件中输入了一个换行符，就会产生一个新的段落。

2. Table类

Table类对象对应Word文件的表格结构。虽然一个Word文件可能包含多个表格，但每个表格都是由若干个单元格组成，通过单元格的位置即可获取对象的单元格对象。

2.python-docx案例

2.1 基本操作

使用python-docx库读取Word文件的基本步骤

1.创建一个Document类对象
2.通过Document类对象的paragraphs或tables属性获取文件对象的段落对象或表格对象
3.通过段落对象或表格对象中的属性或方法获取文件内容

有一个Word文档，名称为 集合介绍.docx，下面我们将使用python-docx库读取该文件，并提取相关信息。

1.获取段落

代码：

import pandas as pd
import numpy as np

from docx import Document
# 创建Document类的对象
docx = Document('集合介绍.docx')
# 获取段落对象
paragraphs = docx.paragraphs
for i in paragraphs:
    # 使用text属性获取段落中的字符串
    print(i.text)
    print("*"*15)

输出为：

可以看出：每个换行符都代表一个段落

2. 获取表格

代码：

from docx import Document
# 创建Document对象实例
doc = Document('集合介绍.docx')
# 获取表格对象
tables = doc.tables
for table in tables:
    for row in table.rows:                   # 获取行数据对象
        row_content = []                      # 用于保存表格数据的列表
        for cell in row.cells[:]:           # 获取单元格对象
            row_content.append(cell.text)  # 获取单元格中的字符串
        print(row_content)                   # 以列表形式显示每一行数据
        print("*"*15)

输出为：

2.2 实战案例

在一个高校里，有许多的人才培养方案，现在需要对人才培养方案统计，提取其中的
人才培养方案为大部分为word文档，格式包含doc和docx两种，部分为PDF格式，PDF格式的文件处理，将在单独写博客进行拓展，本文仅对word文件进行处理。

2.2.1 查看原始数据目录结构

在进行操作前，首先对数据进行编码，去除学院，专业信息。进入到人才培养方案目录下，执行如下命令

E:\vscode\reddemo\edudata>tree /f > tree.txt

生成tree.txt文件，该文件中内容如下：
一级目录01-14代表04个学院，每个学院下有二级目录，二级目录包括一本，普本，双学位，合作办学等多种专业设置，每个二级目录下有对应三级文件，文件为对应专业的人才培养方案。
具体内容如下：

E:.
│  tree.txt
│  
├─01
│  ├─一本
│  │      01人才培养方案（2021版）2021年9月13日 - 02.docx
│  │      02人才培养方案-2021版.doc
│  │      
│  └─普本
│          03.doc
│          04.doc
│          05.docx
│          
├─02
│  │  0224+工程造价双学位（更新后20211009）.doc
│  │  
│  ├─一本
│  │      01.docx
│  │      02.docx
│  │      
│  ├─双学位
│  │      022.doc
│  │      042.doc
│  │      
│  └─普本
│          03.docx
│          04.docx
│          05.docx
│          06.docx
│          08.docx
│          
├─03
│  ├─一本
│  │      04.docx
│  │      
│  └─普本
│          01.docx
│          02.docx
│          03.docx
│          05.docx
│          
├─04
│  ├─普本
│  │      01.doc
│  │      01.docx
│  │      02.docx
│  │      03.docx
│  │      
│  └─第二学士学位
│          012.doc
│          022.docx
│          
├─05
│  ├─一本
│  │      05.doc
│  │      
│  └─普本
│          04.docx
│          06.docx
│          
├─06
│  ├─一本
│  │      01.docx
│  │      
│  └─普本
│          01.docx
│          03.docx
│          04.docx
│          05.docx
│          
├─07
│      01.doc
│      02.docx
│      03.docx
│      04.docx
│      
├─08
│  ├─一本
│  │      06.docx
│  │      
│  └─普本
│          01.pdf
│          02.pdf
│          05.docx
│          
├─09
│  │  01.docx
│  │  02.doc
│  │  03.docx
│  │  04.docx
│  │  
│  └─合作办学
│          01.docx
│          
├─10
│      01.doc
│      02.docx
│      03.docx
│      04.docx
│      
├─11
│  └─普本
│      │  01.docx
│      │  03.docx
│      │  04.docx
│      │  
│      └─第二学士学位
│              04.docx
│              
├─12
│  ├─普本
│  │      01.docx
│  │      02.docx
│  │      03.docx
│  │      
│  └─第二学位
│          03金融数学专业第二学士学位.docx
│          
├─13
│      01.docx
│      02.docx
│      
└─14
    │  01.docx
    │  
    ├─专升本
    │      01.docx
    │      
    ├─双学位
    │      012.docx
    │      
    └─第二学士学位
            01.docx

查看单个文件 E:\vscode\reddemo\edudata\02\一本\02.docx，内容如下：

02专业（本科）人才培养方案
一、专业名称：02
二、修业年限及毕业学分要求：基本学XXX求170学分。
三、授予学位：工学学士
四、培养目标：
本专业培养适应我国社会XX用型人才。
五、毕业要求：
1 工程知识：能够将XXX题。
指标1.1 能够XX问题；
指标1.2 能够XX模型；
指标1.3 能够XX方案；
2 问题分析：能够XX结论。
指标2.1 能够XX环节；
指标2.2 能够XX表达；
指标2.3 能够XX结论。
3 设计/开发解决方案：能够XX等因素。
指标3.1 掌握XX因素；
指标3.2 能够XX审核；
指标3.3 能够XX改进；
指标3.4 能XX因素。
4 研究：能够XX结论。
指标4.1 能够XX方案；
指标4.2 能够XX方案；
指标4.3 能够XX数据；
指标4.4 能够XX结论。
5 使用XX局限性。
指标5.1 了解XX性；
指标5.2 能够XX并运用于复杂工程问题；
指标5.3 能够XX其局限性。
6 工程与社会：能够XX的责任。
指标6.1 能够XX影响；
指标6.2 能够XX影响。
指标6.3 能够XX责任。
7 环境和XX的影响。
指标7.1 能够XX内涵；
指标7.2 能XX评价；
指标7.3 能够XX理念。
8 职业规范：具有XX责任。
指标8.1 能够XX国情；
指标8.2 能够XX责任。
9 个人和团队：能够XX角色。
指标9.1 能够胜任XX的任务；
指标9.2 能够与XX能力。
10 沟通：能够XX交流。
指标10.1 能够XX交流；
指标10.2 了解XX交流。
11 项目管理：理解XX应用。
指标11.1 掌握XX方法；
指标11.2 了解建XX问题；
指标11.3 能够XX控制。
12.终身学习：具有XX能力。
指标12.1 拥有健康的体魄，能够正确面对压力，快速适应社会的发展；
指标12.2 能够认识到自主学习和终身学习的重要性，拥有自主学习的能力，XX问题；
指标12.3 能够适应行业发展，具有不断跟踪和学习学科前沿的能力。
六、主干学科：
（1）管XX程
（2）土XX程
七、主要课程：
工程XX审计等。
八、学分学时比例说明：
总学分为170学分，其中课内学分（含课内实践）为119.5学分，占总学分的70.29%，实践教学（含课内实践、集中实践、综合实践）学分为60.5学分，占总学分的35.59%；选修课学分为44学分，占总学分的25.88%。通识教育平台学分为48学分，占总学分的28.24%，学科基础教育平台学分为29.5学分，占总学分的17.35%，专业教育平台学分为42学分，占总学分的24.71%。
课内总学时（含课内实践）为1976学时，其中选修课学时为400学时，占课内总学时的20.24%。通识教育平台学时为832学时，占课内总学时的42.11%；学科基础教育平台学时为472学时，占课内总学时的23.89%，专业教育平台学时为672学时，占课内总学时的34.01%。
九、备注说明：
--------。
十、附表
附表1：专业XX配表
附表2：专业XX示表
附表3：实践XX平台
附表4：通识XX平台
附表5：学科XX平台
附表6：专业XX平台
附表7：毕业XX矩阵
附表8：毕业XX矩阵

2.2.2 将doc文件转换成docx文件

采用pywin32操做Word，doc文件转换为docx文件。安装pywin32库

pip install pywin32==227

转换代码如下：

from win32com import client as wc
def doc_read(file1):
    word = wc.Dispatch("Word.Application") # 打开word程序
    doc = word.Documents.Open(file1) # 打开word文档
    doc.SaveAs(file1+"x",12) # 另存为

    doc.Close() # 关闭 word 文档
    word.Quit() # 关闭 office

2.2.3 查看单个文件，并提取培养目标和学分学时比例说明

导入相关依赖

from glob import glob
import re
from win32com import client as wc
# import docx
from docx import Document
import pandas as pd
import os
import numpy as np

# Python glob()函数，是种文件通配符，非常常用。glob模块提供了函数用于从目录通配符搜索中生成文件列表

读取单个文件，并获取培养目标和学分学时比例说明数据

filename1 = r"E:\vscode\reddemo\edudata\02\一本\02.docx"

# 可以存储到字典中了，但字典格式可以优化下
import numpy as np
# 创建一个接受匹配不成功的反馈记录 

# 第4项的数据  培养目标
re_4_start =re.compile("^四.{1}培养目标") # 匹配用 四.{1}培养目标 开头的文本
re_4_end =re.compile("^五.{1}毕业要求：")

# 第8项的数据 学分学时比例说明数据
re_8_start =re.compile("^八.{1}学分学时比例说明")
re_8_end =re.compile("^九.{1}备注说明")

# 抽取模式，不校验数据的准确性

def docx_read(file1):
    # 定义接受当前文档的part_4和part_8
    part_all_dict_new = {}
    # print("当前文件：====>",os.path.join("",file1))
    document = Document(os.path.join("",file1))
    # df=pd.DataFrame(columns =['总学分','课内学分','课内学分占比','实践教学学分','实践教学占比','选修课学分',
    #                      '选修课学分占比','通识教育平台学分','通识教育平台学分占比','学科基础教育平台学分','学科基础教育平台学分占比',
    #                     '专业教育平台学分','专业教育平台学分占比'])
    # 所有的段落，存放list
    all_paragraphs = document.paragraphs


    start_4_part = 0 # 培养目标 起始位置
    end_4_part = 0 # 培养目标 结束位置

    start_8_part = 0 # 学分学时比例说明 起始位置
    end_8_part = 0 # 学分学时比例说明 结束位置


    start_paragraphs_num = 0 # 定义段落初始值为0

    for i in all_paragraphs: # 便利所有的段落
        start_paragraphs_num +=1
        if(re.match(re_4_start,i.text)): #  如果该段以 四.{1}培养目标 为开头
            start_4_part = start_paragraphs_num # 将该段落的值设置为 培养目标 起始位置
        elif (re.match(re_4_end,i.text)): #  如果该段以 五.{1}毕业要求： 为开头
            end_4_part = start_paragraphs_num
        elif(re.match(re_8_start,i.text)): # 如果该段以 八.{1}学分学时比例说明 为开头
            start_8_part = start_paragraphs_num
        elif(re.match(re_8_end,i.text)): # 如果该段以 九.{1}备注说明 为开头
            end_8_part = start_paragraphs_num
        else:
            pass


    # 提取第4部分内容
    str_4_part_all = ""
    if start_4_part ==0 or end_4_part ==0 :
        print(file1,"的第4部分无法匹配")
    else:
        print("start_4_part   :   ",start_4_part)
        print("end_4_part   :   ",end_4_part)

        part_4 = all_paragraphs[start_4_part:end_4_part-1] # 通过list切片的方式获取 第4部分培养目标 的全部段落数据
        for  i in part_4:
            str_4_part_all = str_4_part_all+i.text # 把所有段落拼接到一个字符串变量str_4_part_all 中
        # print(str_4_part_all,"第4段的完成匹配")
            


    # 提取第8部分内容
    str_8_part_all = ""
    if start_8_part ==0 or end_8_part ==0 :
        print(file1,"的第8部分无法匹配")
    else:
        print("start_8_part   :   ",start_8_part)
        print("end_8_part   :   ",end_8_part)
        part_8 = all_paragraphs[start_8_part:end_8_part-1]
        for i in part_8:
            str_8_part_all = str_8_part_all+i.text
        # print(str_8_part_all,"的第8部分完成匹配")

    # print()
    # part_all_dict_new[file1+".id"] = file1
    # part_all_dict_new[file1+".part_4"] = str_4_part_all
    # part_all_dict_new[file1+".part_8"] = str_8_part_all
    # ID为文件名称 part_4为第4部分数据 part_8为第8部分数据
    part_all_dict_new[file1]={
        "ID":file1,
        "part_4":str_4_part_all,
        "part_8":str_8_part_all,
    }

    return file1,part_all_dict_new

 


print("*"*10)
file1,part_all_dict_new = docx_read(filename1)
print(file1)
print(part_all_dict_new)

运行，输出为：

**********
start_4_part : 8
end_4_part : 10
start_8_part : 63
end_8_part : 66
E:\vscode\reddemo\edudata\02\一本\02.docx
{‘E:\vscode\reddemo\edudata\02\一本\02.docx’: {‘ID’: ‘E:\vscode\reddemo\edudata\02\一本\02.docx’, ‘part_4’: ‘本专业培养适应我国社会主义现代化建设需要，德智体美劳全面发展，具有扎XX领域理论基础和专业知识，并熟练XXX人才。’, ‘part_8’: ‘总学分为170学分，其中课内学分（含课内实践）为119.5学分，占总学分的70.29%，实践教学（含课内实践、集中实践、综合实践）学分为60.5学分，占总学分的35.59%；选修课学分为44学分，占总学分的25.88%。通识教育平台学分为48学分，占总学分的28.24%，学科基础教育平台学分为29.5学分，占总学分的17.35%，专业教育平台学分为42学分，占总学分的24.71%。课内总学时（含课内实践）为1976学时，其中选修课学时为400学时，占课内总学时的20.24%。通识教育平台学时为832学时，占课内总学时的42.11%；学科基础教育平台学时为472学时，占课内总学时的23.89%，专业教育平台学时为672学时，占课内总学时的34.01%。’}}

2.2.4 获取指定目录下所有文档中的数据

通过遍历的方式，获取指定目录下的所有文件，并对doc文件另存为docx文件，提取docx中的相关数据，代码如下：

filedirs=r'E:\vscode\reddemo\edudata' # 所有文件存在的路径
# filenames = os.listdir("str1")

part_all_dict_new = {} # 存放所有匹配到的文件中的  四.{1}培养目标" 和八.{1}学分学时比例说明  数据

def contentExtract(str1): # 内容抽取函数 
    
    files = glob(str1 + '/*') # 匹配指定目录下的所有多层目录
    print(files) 
    
    for i in files:
        print("当前文件为：",i)
        if re.findall('.docx',i): # 如果当前文件为docx结尾
            fname,part_all_dict = docx_read(str(i)) # fname为文件名称ID，part_all_dict为该文件内容抽取后匹配到的数据
            # print(part_all_dict[fname])
            part_all_dict_new[fname] = part_all_dict[fname] # 将指定文件抽取后的数据 写入 part_all_dict_new字典， 用文件名称ID作为key
            # print("part_all_dict_new[fname]",part_all_dict_new[fname])
            # print(part_all_dict)
            # part_all_dict_new.update(part_all_dict)
        elif re.findall('.doc',i): # 如果当前文件以doc结尾
            doc_read(str(i)) # 将doc文件另存为docx
            fname,part_all_dict =docx_read(str(i) + 'x') # 读取另存后的docx文件
            part_all_dict_new[fname] = part_all_dict[fname]
            # print(part_all_dict)
            # part_all_dict_new.update(part_all_dict)
        elif re.findall('.pdf',i): # 如果当前文件以pdf结尾
            print("这是一个pdf文件")
        elif os.path.isdir(i):
            print("当前为目录：",i)
            contentExtract(str(i)) # 迭代 如果为目录

    # print("part_all_dict_new*******",part_all_dict_new)
    return part_all_dict_new


part_all_dict_new1 = contentExtract(filedirs)
part_all_dict_new1

输出为：

Output exceeds the size limit. Open the full output data in a text editor
[‘E:\vscode\reddemo\edudata\01’, ‘E:\vscode\reddemo\edudata\02’, ‘E:\vscode\reddemo\edudata\03’, ‘E:\vscode\reddemo\edudata\04’, ‘E:\vscode\reddemo\edudata\05’, ‘E:\vscode\reddemo\edudata\06’, ‘E:\vscode\reddemo\edudata\07’, ‘E:\vscode\reddemo\edudata\08’, ‘E:\vscode\reddemo\edudata\09’, ‘E:\vscode\reddemo\edudata\10’, ‘E:\vscode\reddemo\edudata\11’, ‘E:\vscode\reddemo\edudata\12’, ‘E:\vscode\reddemo\edudata\13’, ‘E:\vscode\reddemo\edudata\14’, ‘E:\vscode\reddemo\edudata\tree.txt’]
当前文件为： E:\vscode\reddemo\edudata\01
当前为目录： E:\vscode\reddemo\edudata\01
[‘E:\vscode\reddemo\edudata\01\一本’, ‘E:\vscode\reddemo\edudata\01\普本’]
当前文件为： E:\vscode\reddemo\edudata\01\一本
当前为目录： E:\vscode\reddemo\edudata\01\一本
[‘E:\vscode\reddemo\edudata\01\一本\01人才培养方案（2021版）2021年9月13日 - 02.docx’, ‘E:\vscode\reddemo\edudata\01\一本\02人才培养方案-2021版.doc’, ‘E:\vscode\reddemo\edudata\01\一本\02人才培养方案-2021版.docx’]
当前文件为： E:\vscode\reddemo\edudata\01\一本\01人才培养方案（2021版）2021年9月13日 - 02.docx
E:\vscode\reddemo\edudata\01\一本\01人才培养方案（2021版）2021年9月13日 - 02.docx 的第4部分无法匹配
E:\vscode\reddemo\edudata\01\一本\01人才培养方案（2021版）2021年9月13日 - 02.docx 的第8部分无法匹配
当前文件为： E:\vscode\reddemo\edudata\01\一本\02人才培养方案-2021版.doc
start_4_part : 9
end_4_part : 18
E:\vscode\reddemo\edudata\01\一本\02人才培养方案-2021版.docx 的第8部分无法匹配
当前文件为： E:\vscode\reddemo\edudata\01\一本\02人才培养方案-2021版.docx
start_4_part : 9
end_4_part : 18
E:\vscode\reddemo\edudata\01\一本\02人才培养方案-2021版.docx 的第8部分无法匹配
当前文件为： E:\vscode\reddemo\edudata\01\普本
当前为目录： E:\vscode\reddemo\edudata\01\普本
[‘E:\vscode\reddemo\edudata\01\普本\03.doc’, ‘E:\vscode\reddemo\edudata\01\普本\03.docx’, ‘E:\vscode\reddemo\edudata\01\普本\04.doc’, ‘E:\vscode\reddemo\edudata\01\普本\04.docx’, ‘E:\vscode\reddemo\edudata\01\普本\05.docx’]
当前文件为： E:\vscode\reddemo\edudata\01\普本\03.doc
start_4_part : 9
end_4_part : 11
start_8_part : 21
…
end_4_part : 9
start_8_part : 22
end_8_part : 25
当前文件为： E:\vscode\reddemo\edudata\tree.txt
Output exceeds the size limit. Open the full output data in a text editor
{‘E:\vscode\reddemo\edudata\01\一本\01人才培养方案（2021版）2021年9月13日 - 02.docx’: {‘ID’: ‘E:\vscode\reddemo\edudata\01\一本\01人才培养方案（2021版）2021年9月13日 - 02.docx’,
‘part_4’: ‘’,
‘part_8’: ‘’},
‘E:\vscode\reddemo\edudata\01\一本\02人才培养方案-2021版.docx’: {‘ID’: ‘E:\vscode\reddemo\edudata\01\一本\02人才培养方案-2021版.docx’,
‘part_4’: ‘培养XX并具有自主学习和适应发展的能力。’,
‘part_8’: ‘’},
‘E:\vscode\reddemo\edudata\01\普本\03.docx’: {‘ID’: ‘E:\vscode\reddemo\edudata\01\普本\03.docx’,
‘part_4’: ‘本专业XX应用技术型人才。’,
‘part_8’: ‘总学分为170学分，XX占课内总学时的26.2%。’},
‘E:\vscode\reddemo\edudata\01\普本\04.docx’: {‘ID’: ‘E:\vscode\reddemo\edudata\01\普本\04.docx’,
‘part_4’: ‘本专业培养适应XX应用技术型人才。’,
‘part_8’: ‘总学分为170学分，其中课内XX占总学时的21%。’},
‘E:\vscode\reddemo\edudata\01\普本\05.docx’: {‘ID’: ‘E:\vscode\reddemo\edudata\01\普本\05.docx’,
‘part_4’: ‘培养适应XX才。’,
‘part_8’: ‘总学分为170学分，XX占课内总学时的15.02%。’},
‘E:\vscode\reddemo\edudata\02\0224+工程造价双学位（更新后20211009）.docx’: {‘ID’: ‘E:\vscode\reddemo\edudata\02\0224+工程造价双学位（更新后20211009）.docx’,
‘part_4’: ‘’,
‘part_8’: ‘’},
‘E:\vscode\reddemo\edudata\02\一本\01.docx’: {‘ID’: ‘E:\vscode\reddemo\edudata\02\一本\01.docx’,
‘part_4’: ‘工程管理专业培养适应XX能力。’,
‘part_8’: ‘总学分为170学分，XX占课内总学时的31.20%。’},
‘E:\vscode\reddemo\edudata\02\一本\02.docx’: {‘ID’: ‘E:\vscode\reddemo\edudata\02\一本\02.docx’,
‘part_4’: ‘本专业培养XX人才。’,
‘part_8’: ‘总学分为170学分，XX占课内总学时的34.01%。’},
‘E:\vscode\reddemo\edudata\02\双学位\022.docx’: {‘ID’: ‘E:\vscode\reddemo\edudata\02\双学位\022.docx’,
…
‘part_4’: ‘法学双学位XX工作。’,
‘part_8’: ‘总学分为50学分，XX占课内总学时的37.5%。’},
‘E:\vscode\reddemo\edudata\14\第二学士学位\01.docx’: {‘ID’: ‘E:\vscode\reddemo\edudata\14\第二学士学位\01.docx’,
‘part_4’: ‘本专业XX人才。’,
‘part_8’: ‘总学分为80学分，XX占课内总学时的51.6%。’}}

以上会返回一个字典，包含了文件名，第4部分内容，第8部分内容

2.2.5 将结果字典保存到DataFrame中

通过字典转换为DataFrame格式。

df1 = pd.DataFrame(part_all_dict_new)
df1

转置DataFrame，并重置索引

dfnew = df1.T
dfnew1 = dfnew.reset_index()

dfnew1

输出为：

删除index列

del dfnew1["index"]
dfnew1

输出为：

把数据保存到excel中

dfnew1.to_excel("firstData_T.xlsx",encoding="UTF-8")

生成的如下所示：

2.2.6 提取学分学时数据并保存

定义一个DataFrame，用来获取part_8中的学分学时信息

dfnew1_split=pd.DataFrame(columns =['总学分','课内学分','课内学分占比','实践教学学分','实践教学占比','选修课学分',
                         '选修课学分占比','通识教育平台学分','通识教育平台学分占比','学科基础教育平台学分','学科基础教育平台学分占比',
                        '专业教育平台学分','专业教育平台学分占比','课内总学时','选修课学时','选修课学时占比','通识教育平台学时',
                          '通识教育平台学时占比','学科基础教育平台学时','学科基础教育平台学时占比','专业教育平台学时',
                          '专业教育平台学时占比','ID'])
print(dfnew1_split.shape)                        
dfnew1_split.set_index('ID',inplace=True)      
dfnew1_split

输出为：
以上代码定义了一个空的DataFrame。

遍历dfnew1的每一行数据，并对part_8列数据进行正则表达式匹配，获取学时学分数据。
dfnew1的数据如下：
代码如下：

for i in range(dfnew1['ID'].count()): # 根据数据行数进行遍历
    str1 = dfnew1['ID'][i] # 获取第i行的id 即文件全路径
    str1 = str1[26:] # 切片操作
    str1 = str1.replace('.docx','') # 替换掉docx
    # 定义正则表达式匹配数据
    # 原始数据为
    '''
    总学分为173学分，其中课内学分（含课内实践）为134学分，占总学分的77.5%，
    实践教学（含课内实践、集中实践、综合实践）学分为60.5学分，占总学分的35%；
    选修课学分为21学分，占总学分的12.1%。
    通识教育平台学分为48学分，占总学分的27.7%，
    学科基础教育平台学分为44学分，占总学分的25.4%，专业教育平台学分为42学分，占总学分的24.3%。
    课内总学时（含课内实践）为2208学时，其中选修课学时为336学时，占课内总学时的15.2%。
    通识教育平台学时为832学时，占课内总学时的37.7%；
    学科基础教育平台学时为704学时，占课内总学时的31.9%，
    专业教育平台学时为672学时，占课内总学时的30.4%。
    '''
    reg = '总学分.*课内学分.*实践教学.*选修课.*通识教育平台.*学科基础教育.*专业教育平台.*课内总学时.*选修课.*通识教育平台.*学科基础教育.*专业教育平台.*'
    if len(re.findall(reg,str(dfnew1['part_8'][i])))!=0:
        q=re.findall(r'[0-9]+\.?[0-9]*',str(dfnew1['part_8'][i]))
        # q的值为list类型，值为 '170 129 75.88 73.5 43.24 23 13.53 48 28.24 26 15.29 55 32.35 2128 368 17.29 832 39.10 416 19.55 880 41.35'
        # print(len(q))
        # print(q)
        dfnew1_split.loc[str1]=q
    else:

        dfnew1_split.loc[str1]='' 
dfnew1_split

保存数据到excel

dfnew1_split.to_excel("Course_Credit.xlsx",encoding="UTF-8")

保存后的数据如下：

你可能感兴趣的:(数据处理与数据分析,python,microsoft,开发语言)

Git：Git高级特性：钩子与自定义脚本_2024-07-17_20-40-39.Tex chenjj4003 游戏开发 git elasticsearch 大数据搜索引擎 java servlet 全文检索
Git：Git高级特性：钩子与自定义脚本Git钩子简介Git钩子的基本概念Git钩子（Hooks）是Git提供的一种自动化脚本执行机制，允许你在Git的特定事件（如提交、合并、推送等）发生时运行自定义脚本。钩子脚本可以用来执行各种任务，如数据验证、环境准备、自动构建等，从而增强Git的功能，提高开发效率和代码质量。钩子的目录结构Git钩子脚本位于仓库的.git/hooks目录下。这个目录包含了多个
C++ STL 详解 ——vector 的深度解析与实践指南矛取矛求 C++c++开发语言
一、vector的核心概念与底层机制1.1动态数组的本质连续内存存储：与普通数组相同，vector使用连续的内存空间，支持O(1)时间复杂度的随机访问。动态扩容特性：通过push_back等操作自动调整容量，无需手动管理内存。与数组的区别：特性普通数组vector内存分配静态分配动态分配大小可变否是越界检查无无（需手动检查）内存管理手动释放自动管理1.2扩容策略的深度解析常见扩容方式：指数增长：每
基于PySide6与PyCatia的CATIA几何体智能重命名工具开发实践 Python×CATIA工业智造 python 开发语言 CATIA二次开发
一、工具概述本工具基于CATIAV5/V6的二次开发接口，结合PySide6图形界面框架与PyCatia自动化库，实现了三大核心功能模块：几何体前缀批量添加、后缀动态追加、智能文本替换。该工具显著提升了工程师在大型零件体设计中的几何体命名管理效率，解决了传统手动操作易出错、耗时长的问题。二、技术架构解析1.分层架构设计classStats(QMainWindow):def__init__(self
1章5节：大模型术语解读与从生成到推理的演进 DAT｜R科学与人工智能人工智能
在人工智能的浩瀚宇宙中，大模型正以前所未有的速度演进，推动着科技变革的新浪潮。从多模态到通用模型，再到行业模型，人工智能的边界不断拓展，为各行各业带来了全新的机遇与挑战。本篇文章将深入剖析大模型相关的核心术语，探讨其内涵、应用及发展趋势，并回顾大模型从生成到推理的演进历程，解析全球科技巨头与国内前沿企业在这一领域的竞争与创新。让我们一同探索大模型的演进脉络，把握智能时代的发展脉搏。一、剖析大模型相
深度学习项目--基于DenseNet网络的“乳腺癌图像识别”，准确率90%+，pytorch复现羊小猪~~ 深度学习网络 pytorch 人工智能 python 机器学习分类
本文为365天深度学习训练营中的学习记录博客原作者：K同学啊前言如果说最经典的神经网络，ResNet肯定是一个，从ResNet发布后，很多人做了修改，denseNet网络无疑是最成功的一个，它采用密集型连接，将通道数连接在一起；本文是基于上一篇复现DenseNet121模型，做一个乳腺癌图像识别，效果还行，准确率0.9+;CNN经典网络之“DenseNet”简介，源码研究与复现(pytorch)：
如何合理拆分微服务微服务
**在微服务架构中，要想做到合理拆分，需要重点关注：服务边界划分、业务耦合度控制、数据隔离策略、服务自治能力、团队组织协调。它们共同决定了微服务架构的灵活度与可维护性，其中，服务边界划分是最基础且最关键的一步。它要求我们从业务领域出发，将高度聚合、密切相关的功能抽离成单独服务，避免粗放的“大而全”式切分。在实际落地时，应当以业务语义、数据交互频率等为出发点，力求服务粒度既不会过细导致管理成本飙升，
代练系统源码小程序如何助力游戏代练行业数字化转型？ mysqlvue.jsphp
在电子竞技日益成为全球性娱乐和文化现象的今天，游戏代练服务作为连接高水平玩家与普通玩家的桥梁，其市场需求迅速增长。为满足这一需求，多客代练系统应运而生，它不仅简化了代练服务的匹配流程，还通过智能化管理提升了服务质量和用户体验。本文将深入探讨多客代练系统的核心优势、用户价值以及它如何塑造游戏竞技行业的未来。源码获取地址！！！！请点击！！！！前端框架主要负责用户界面的展示和交互。多客代练系统采用：un
C# WPF 基础知识学习(一) 埃菲尔铁塔_CV算法 c#wpf 学习人工智能图像处理计算机视觉
一、WPF简介WindowsPresentationFoundation（WPF）是微软推出的一款用于构建用户界面的框架，它为开发Windows桌面应用程序提供了统一的编程模型、语言和框架。WPF将用户界面的设计与业务逻辑分离开来，采用了XAML（可扩展应用程序标记语言）来描述界面元素，使得界面设计更加直观和灵活。与传统的WindowsForms相比，WPF在图形渲染、动画效果、数据绑定等方面具有
密码学：网络安全的基石与未来安全
在数字化时代，网络安全已成为全球关注的焦点。无论是个人隐私的保护，还是国家关键基础设施的安全，都离不开密码学这一核心技术。密码学不仅是信息安全的基石，更是现代社会中数据保密性、完整性和可用性的守护者。本文将从密码学的基本原理出发，结合最新技术发展，探讨其在网络安全中的核心作用。一、密码学的基本原理密码学的核心目标是通过数学方法保护信息的机密性、完整性和真实性。它主要分为两大领域：对称加密和非对称加
C++ 模板初阶总结矛取矛求 c++开发语言
1.泛型编程目标：编写与类型无关的通用代码，提高代码复用性。问题：传统函数重载需为每种类型编写重复代码，维护成本高。解决方案：使用模板（Template），通过编译器自动生成特定类型的代码。2.函数模板定义：templatevoidSwap(T&left,T&right){ Ttemp=left; left=right; right=temp;}typename或class声明模板类型参数。
Git 钩子自动化部署完全指南：掌握 post-receive 触发机制与生产实践窝窝和牛牛 git 自动化
文章目录Git钩子自动化部署完全指南：掌握post-receive触发机制与生产实践一、核心机制剖析1.1触发三要素1.2触发时序图二、配置全流程详解2.1目录结构规范2.2权限控制矩阵2.3标准脚本模板三、高阶调试技巧3.1手动触发测试3.2智能日志追踪四、生产级部署方案4.1多环境分流策略4.2安全回滚机制五、故障应急手册5.1常见问题速查5.2监控指标配置六、性能优化建议Git钩子自动化部署
Bilibili直播信息流：连接方法与数据解析直播弹幕哔哩哔哩
如今，市面上已经有不少开源项目可以用于连接B站直播WebSocket获取信息流。但在实际使用中，常常发现它们并不能完全满足个性化需求。为了更好地适配自己的业务场景，我决定自己动手实现一套连接方案。因此，我整理了整个实现过程的一些关键步骤和注意事项，希望能够对有相似需求的朋友们有所帮助PHP可以直接通过composer安装相关库来直接链接B站直播间并对数据进行解密，点击前往GitHub也有现成的B站
网络安全：数字时代的永恒命题安全
网络安全已成为数字时代最严峻的挑战之一。从个人隐私泄露到国家级网络攻击，网络安全威胁呈现出日益复杂和严峻的态势。2021年，全球网络犯罪造成的损失超过6万亿美元，这一数字预计将在2025年突破10万亿美元。网络安全不再仅仅是技术问题，而是关乎国家安全、经济发展和社会稳定的重大战略问题。一、网络安全威胁的演变与升级网络安全威胁的演变史就是一部攻防对抗的技术发展史。早期的网络攻击以病毒、蠕虫为主，攻击
云原生周刊：基于 KubeSphere LuBan 架构打造DeepSeek 插件云计算
开源项目推荐KubeAIKubeAI是一个K8s上的AI推理操作器，旨在简化在生产环境中部署和管理大型语言模型（LLM）、向量嵌入和语音处理等机器学习模型。它提供与OpenAI兼容的API，支持在CPU和GPU上运行，并具备按需自动扩缩容的能力。KubeAI无需依赖Istio、Knative等其他系统，能够在几乎任何K8s集群中开箱即用。此外，它内置了模型代理，优化了键值缓存利用率，从而显著提升系
2025年2月中国数据库排行榜：OceanBase迎来开门红，金仓、GBASE排名节节高
2025年2月，中国数据库流行度排行榜正式发布。在春节之际，DeepSeek凭借突破性的技术成功出圈，而在此前，各大数据库厂商便已开始探索AI与数据库的深度融合，并陆续推出了相关产品和功能。相信在这股技术革新的浪潮下，将涌现越来越多的新产品和解决方案。接下来，我们将逐一盘点各大数据库的最新动态，探索未来的潜力与挑战。一、金仓、GBASE排名再攀升，TDSQL升第九与上月相比，榜单前十的位次出现了细
Mysql高频八股——SQL语句的执行过程钢板兽高频八股 mysql sql 数据库面试后端
大家好，我是钢板兽！今天这篇文章本来想把SQL语句的执行过程和事务与undolog、redolog的联系放在一起写的。SQL语句的执行过程中会涉及到undolog、redolog，而undolog、redolog更深入的原理也是面试中经常会问到的，所以把它们放在一起再合适不过了，但是写着写着发现内容太多，于是拆成了两篇。这篇文章会带你理解SQL语句的执行过程，在探究SQL语句的执行过程前，我们要先
python webdriver-manager 实现selenium 免下载安装webdriver 小马MT python selenium 爬虫
pythonwebdriver-manager实现selenium免下载安装webdriverselenium在自动化测试中，通常需要使用浏览器驱动来与浏览器进行交互。然而，手动下载、安装、以及管理这些驱动非常麻烦，尤其是当驱动版本频繁更新时。为此，webdriver-manager库提供了一个极简的方案，自动帮我们下载、更新和管理驱动，使Selenium代码更简洁优雅。webdriver-man
python tkinter控件位置_python tkinter组件摆放方式详解 weixin_39895995 python tkinter控件位置
1.最小界面组成#导入tkinter模块importtkinter#创建主窗口对象root=tkinter.Tk()#设置窗口大小(最小值：像素)root.minsize(300,300)#创建一个按钮组件btn=tkinter.Button(root,text='屠龙宝刀，点击送')btn.pack()#加入消息循环root.mainloop()设置初始化界面大小#设置初始化界面大小root.g
python表格控件_Python使用tkinter的Treeview组件实现表格功能 weixin_39619481 python表格控件
fromtkinterimportTk,Scrollbar,Framefromtkinter.ttkimportTreeview#创建tkinter应用程序窗口root=Tk()#设置窗口大小和位置root.geometry('500x300400300')#不允许改变窗口大小root.resizable(False,False)#设置窗口标题root.title('通信录管理系统')#使用Tre
Microsoft Fabric 功能更新！更多智能优化，数据平台更强大
近期，微软MicrosoftFabric又更新了，大大增强了AI方面的功能。迅易科技作为微软13年来紧密的生态合作伙伴，为300+行业头部客户实施1000+项目。今天，我们带大家来看下，MicrosoftFabric有什么新玩法？一年前，微软正式推出了一款端到端数据平台，MicrosoftFabric（国际版）是一个集成一体化的平台，提供支持各种数据项目的人工智能驱动服务，帮助所有数据团队能够更快
该如何升级Tableau server呢？
在现代数据分析的世界中，Tableau作为一个强大的企业级数据可视化工具，受到众多公司喜爱。但是由于Tableau退出中国市场，如果仍在使用Tableau的企业，一定要做好TableauServer升级。随着技术的不断更新，升级TableauServer变得越来越重要，以确保您能够利用最新的功能和安全性。在这篇文章中，我们将详细探讨如何进行TableauServer升级，步骤、注意事项以及最佳实践
【MySQL基础-3】SQL语言详解：定义、分类、注意事项与注释 AllenBright #MySQL mysql sql
SQL（StructuredQueryLanguage，结构化查询语言）是用于管理和操作关系型数据库的标准编程语言。无论是查询数据、插入新记录、更新数据还是删除数据，SQL都是与数据库交互的核心工具。本文将深入探讨SQL语言的定义、分类、注意事项以及注释的使用，帮助你全面掌握这一强大的数据库操作语言。1.什么是SQL语言？SQL是一种专门用于管理关系型数据库的编程语言。它允许用户执行以下操作：查询
ROS机器人边缘计算：EdgeComputing与ROS AI天才研究院计算 AI大模型应用入门实战与进阶大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA 计算 AI大模型应用
1.背景介绍1.1机器人操作系统（ROS）机器人操作系统（RobotOperatingSystem，简称ROS）是一个用于机器人软件开发的灵活框架。它提供了一系列工具、库和约定，使得创建复杂且健壮的机器人应用变得更加容易。ROS的核心是一个消息传递系统，它允许不同的软件模块（称为节点）之间进行通信。这种模块化设计使得开发人员可以更容易地重用和共享代码，从而加速了机器人软件的开发过程。1.2边缘计算
从零到一：Transformer模型的原理与实战之旅樽酒ﻬق AI transformer 深度学习人工智能
目录从零到一：Transformer模型的原理与实战之旅1.Transformer原理简介1.1什么是Transformer？1.2自注意力机制的核心1.3Transformer的结构2.实战：构建Transformer模型2.1任务目标2.2环境准备2.3数据准备2.4模型构建2.5模型训练3.推理实战：完整示例与输出结果3.1完整推理代码3.2代码解析4.原理与代码的结合4.1自注意力机制的实
深入探究 Ryu REST API 漫谈网络网络技术进阶通途网络
Ryu4.34RESTAPI详细接口说明与示例Ryu4.34的RESTAPI提供了对SDN网络的核心管理功能，涵盖交换机、流表、端口、拓扑和QoS等操作。以下是详细的接口分类、功能说明及Python示例代码。1.交换机管理1.1获取所有交换机DPID端点:GET/stats/switches功能:返回当前连接到控制器的所有交换机的DPID（数据路径标识符）列表。示例:importrequestsR
最近较火的RunnerGo 与Jmeter优劣势分析
最近有一款较火的测试产品RunnerGo，它是一个基于go语言研发的开源测试平台。在这里我想从性能测试方面、结构方面以及功能方面对比两款产品。性能方面：Runner基于go语言研发，相对于jmeter来说更轻量级。所以性能测试方面RunnerGo应该是优于jmeter的这里我做了个压测对比，真实对比一下：一条使用查看新闻的场景：六个接口，使用并发模式，20的并发，执行10分钟。相同的配置下进行压测
python web开发pyramid库安装与使用范哥来了 python
为了在Python中使用Pyramid进行Web开发，你需要先安装Pyramid库。接着我会指导你如何安装它，并给出一个简单的示例来展示如何创建一个基本的Pyramid应用。安装Pyramid确保你的环境中已经安装了pip工具，然后可以通过以下命令安装Pyramid：pipinstallpyramid如果你想要开始一个新的Pyramid项目，推荐同时安装pyramid_starter模板，这可以帮
Python激活码 qq_36357944 Python
EB101IWSWD-eyJsaWNlbnNlSWQiOiJFQjEwMUlXU1dEIiwibGljZW5zZWVOYW1lIjoibGFuIHl1IiwiYXNzaWduZWVOYW1lIjoiIiwiYXNzaWduZWVFbWFpbCI6IiIsImxpY2Vuc2VSZXN0cmljdGlvbiI6IkZvciBlZHVjYXRpb25hbCB1c2Ugb25seSIsImNoZWNrQ
Unity AI 技术浅析（三）：智能代理（Agents）爱研究的小牛 AIGC—虚拟现实 AIGC—游戏制作 unity 人工智能游戏引擎 AIGC
UnityAI的智能代理（Agents）技术是实现游戏和虚拟现实应用中非玩家角色（NPC）、敌人、盟友等智能行为的核心。通过智能代理，开发者可以为虚拟角色赋予感知、决策和行动的能力，使其能够与环境和其他角色进行复杂的交互。一、智能代理的基本原理智能代理是能够在特定环境中感知、决策和行动的计算实体。在Unity中，智能代理通常用于模拟游戏中的NPC、敌人、盟友等角色。其基本原理包括以下几个方面：1.
Selenium WebDriver Manager 安装与配置完全指南 m0_74824025 selenium python 测试工具
SeleniumWebDriverManager安装与配置完全指南webdrivermanagerWebDriverManager是一个用于自动化管理Web驱动程序的Java库，可以用于自动化下载，配置和管理Web驱动程序，支持多种Web驱动程序，如ChromeDriver，FirefoxDriver，SafariDriver等，可以用于自动化测试和Web应用程序开发。[这里是图片001]项目地址
C/C++Win32编程基础详解视频下载择善Zach 编程 C++Win32
课题视频：C/C++Win32编程基础详解视频知识：win32窗口的创建 windows事件机制主讲：择善Uncle老师学习交流群：386620625 验证码：625 --
Guava Cache使用笔记 bylijinnan java guava cache
1.Guava Cache的get/getIfPresent方法当参数为null时会抛空指针异常我刚开始使用时还以为Guava Cache跟HashMap一样，get(null)返回null。实际上Guava整体设计思想就是拒绝null的，很多地方都会执行com.google.common.base.Preconditions.checkNotNull的检查。 2.Guava
解决ora-01652无法通过128（在temp表空间中） 0624chenhong oracle
解决ora-01652无法通过128（在temp表空间中）扩展temp段的过程一个sql语句后，大约花了10分钟，好不容易有一个结果，但是报了一个ora-01652错误，查阅了oracle的错误代码说明：意思是指temp表空间无法自动扩展temp段。这种问题一般有两种原因：一是临时表空间空间太小，二是不能自动扩展。分析过程：既然是temp表空间有问题，那当
Struct在jsp标签不懂事的小屁孩 struct
非UI标签介绍：控制类标签： 1：程序流程控制标签 if elseif else <s:if test="isUsed"> <span class="label label-success">True</span> </
按对象属性排序换个号韩国红果果 JavaScript 对象排序
利用JavaScript进行对象排序，根据用户的年龄排序展示 <script> var bob={ name;bob, age:30 } var peter={ name;peter, age:30 } var amy={ name;amy, age:24 } var mike={ name;mike, age:29 } var john={
大数据分析让个性化的客户体验不再遥远蓝儿唯美数据分析
顾客通过多种渠道制造大量数据，企业则热衷于利用这些信息来实现更为个性化的体验。分析公司Gartner表示，高级分析会成为客户服务的关键，但是大数据分析的采用目前仅局限于不到一成的企业。挑战在于企业还在努力适应结构化数据，疲于根据自身的客户关系管理（CRM）系统部署有效的分析框架，以及集成不同的内外部信息源。然而，面对顾客通过数字技术参与而产生的快速变化的信息，企业需要及时作出反应。要想实
java笔记4 a-john java
操作符 1，使用java操作符操作符接受一个或多个参数，并生成一个新值。参数的形式与普通的方法调用不用，但是效果是相同的。加号和一元的正号（+）、减号和一元的负号（-）、乘号（*）、除号（/）以及赋值号（=）的用法与其他编程语言类似。操作符作用于操作数，生成一个新值。另外，有些操作符可能会改变操作数自身的
从裸机编程到嵌入式Linux编程思想的转变------分而治之：驱动和应用程序 aijuans 嵌入式学习
笔者学习嵌入式Linux也有一段时间了，很奇怪的是很多书讲驱动编程方面的知识，也有很多书将ARM9方面的知识，但是从以前51形式的（对寄存器直接操作，初始化芯片的功能模块）编程方法，和思维模式，变换为基于Linux操作系统编程，讲这个思想转变的书几乎没有，让初学者走了很多弯路，撞了很多难墙。笔者因此写上自己的学习心得，希望能给和我一样转变
在springmvc中解决FastJson循环引用的问题 asialee 循环引用 fastjson
我们先来看一个例子： package com.elong.bms; import java.io.OutputStream; import java.util.HashMap; import java.util.Map; import co
ArrayAdapter和SimpleAdapter技术总结百合不是茶 android SimpleAdapter ArrayAdapter 高级组件基础
ArrayAdapter比较简单，但它只能用于显示文字。而SimpleAdapter则有很强的扩展性，可以自定义出各种效果 ArrayAdapter;的数据可以是数组或者是队列 // 获得下拉框对象 AutoCompleteTextView textview = (AutoCompleteTextView) this
九封信 bijian1013 人生励志
有时候，莫名的心情不好，不想和任何人说话，只想一个人静静的发呆。有时候，想一个人躲起来脆弱，不愿别人看到自己的伤口。有时候，走过熟悉的街角，看到熟悉的背影，突然想起一个人的脸。有时候，发现自己一夜之间就长大了。 2014，写给人
Linux下安装MySQL Web 管理工具phpMyAdmin sunjing PHP Install phpMyAdmin
PHP http://php.net/ phpMyAdmin http://www.phpmyadmin.net Error compiling PHP on CentOS x64 一、安装Apache 请参阅http://billben.iteye.com/admin/blogs/1985244 二、安装依赖包 sudo yum install gd
分布式系统理论 bit1129 分布式
FLP One famous theory in distributed computing, known as FLP after the authors Fischer, Lynch, and Patterson, proved that in a distributed system with asynchronous communication and process crashes,
ssh2整合(spring+struts2+hibernate)-附源码白糖_ eclipse spring Hibernate mysql 项目管理
最近抽空又整理了一套ssh2框架，主要使用的技术如下： spring做容器，管理了三层(dao,service,actioin)的对象 struts2实现与页面交互(MVC)，自己做了一个异常拦截器，能拦截Action层抛出的异常 hibernate与数据库交互 BoneCp数据库连接池，据说比其它数据库连接池快20倍，仅仅是据说 MySql数据库项目用eclipse
treetable bug记录 braveCS table
// 插入子节点删除再插入时不能正常显示。修改： //不知改后有没有错，先做个备忘 Tree.prototype.removeNode = function(node) { // Recursively remove all descendants of +node+ this.unloadBranch(node); // Remove
编程之美-电话号码对应英语单词 bylijinnan java 算法编程之美
import java.util.Arrays; public class NumberToWord { /** * 编程之美电话号码对应英语单词 * 题目： * 手机上的拨号盘，每个数字都对应一些字母，比如2对应ABC，3对应DEF.........，8对应TUV，9对应WXYZ， * 要求对一段数字，输出其代表的所有可能的字母组合
jquery ajax读书笔记 chengxuyuancsdn jQuery ajax
1、jsp页面 <%@ page language="java" import="java.util.*" pageEncoding="GBK"%> <% String path = request.getContextPath(); String basePath = request.getScheme()
JWFD工作流拓扑结构解析伪码描述算法 comsci 数据结构算法工作活动 J#
对工作流拓扑结构解析感兴趣的朋友可以下载附件，或者下载JWFD的全部代码进行分析 /* 流程图拓扑结构解析伪码描述算法 public java.util.ArrayList DFS(String graphid, String stepid, int j)
oracle I/O 从属进程 daizj oracle
I/O 从属进程　　I/O从属进程用于为不支持异步I/O的系统或设备模拟异步I/O.例如，磁带设备(相当慢)就不支持异步I/O.通过使用I/O 从属进程，可以让磁带机模仿通常只为磁盘驱动器提供的功能。就好像支持真正的异步I/O 一样，写设备的进程(调用者)会收集大量数据，并交由写入器写出。数据成功地写出时，写入器(此时写入器是I/O 从属进程，而不是操作系统)会通知原来的调用者，调用者则会
高级排序:希尔排序 dieslrae 希尔排序
public void shellSort(int[] array){ int limit = 1; int temp; int index; while(limit <= array.length/3){ limit = limit * 3 + 1;
初二下学期难记忆单词 dcj3sjt126com english word
kitchen 厨房 cupboard 厨柜 salt 盐 sugar 糖 oil 油 fork 叉；餐叉 spoon 匙；调羹 chopsticks 筷子 cabbage 卷心菜；洋白菜 soup 汤 Italian 意大利的 Indian 印度的 workplace 工作场所 even 甚至；更 Italy 意大利 laugh 笑 m
Go语言使用MySQL数据库进行增删改查 dcj3sjt126com mysql
目前Internet上流行的网站构架方式是LAMP，其中的M即MySQL, 作为数据库，MySQL以免费、开源、使用方便为优势成为了很多Web开发的后端数据库存储引擎。MySQL驱动Go中支持MySQL的驱动目前比较多，有如下几种，有些是支持database/sql标准，而有些是采用了自己的实现接口,常用的有如下几种: http://code.google.c...o-mysql-dri
git命令 shuizhaosi888 git
---------------设置全局用户名： git config --global user.name "HanShuliang" //设置用户名 git config --global user.email "[email protected]" //设置邮箱 ---------------查看环境配置 git config --li
qemu-kvm 网络 nat模式 (四) haoningabc kvm qemu
qemu-ifup-NAT #!/bin/bash BRIDGE=virbr0 NETWORK=192.168.122.0 GATEWAY=192.168.122.1 NETMASK=255.255.255.0 DHCPRANGE=192.168.122.2,192.168.122.254 TFTPROOT= BOOTP= function check_bridge()
不要让未来的你，讨厌现在的自己 jingjing0907 生活奋斗工作梦想
故事one 　23岁，他大学毕业，放弃了父母安排的稳定工作，独闯京城，在家小公司混个小职位，工作还算顺手，月薪三千，混了混，混走了一年的光阴。　　　　24岁，有了女朋友，从二环12人的集体宿舍搬到香山民居，一间平房，二人世界，爱爱爱。偶然约三朋四友，打扑克搓麻将，日子快乐似神仙；　　　　25岁，出了几次差，调了两次岗，薪水涨了不过百，生猛狂飙的物价让现实血淋淋，无力为心爱银儿购件大牌
枚举类型详解一路欢笑一路走 enum 枚举详解 enumset enumMap
枚举类型详解一.Enum详解 1.1枚举类型的介绍 JDK1.5加入了一个全新的类型的”类”—枚举类型，为此JDK1.5引入了一个新的关键字enum,我们可以这样定义一个枚举类型。 Demo:一个最简单的枚举类 public enum ColorType { RED
第11章动画效果（上） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Eclipse中jsp、js文件编辑时，卡死现象解决汇总 ljf_home eclipse jsp卡死 js卡死
使用Eclipse编辑jsp、js文件时，经常出现卡死现象，在网上百度了N次，经过N次优化调整后，卡死现象逐步好转，具体那个方法起到作用，不太好讲。将所有用过的方法罗列如下： 1、取消验证 windows–>perferences–>validation 把除了manual 下面的全部点掉，build下只留 classpath dependency Valida
MySQL编程中的6个重要的实用技巧 tomcat_oracle mysql
每一行命令都是用分号(;)作为结束对于MySQL，第一件你必须牢记的是它的每一行命令都是用分号(;)作为结束的，但当一行MySQL被插入在PHP代码中时，最好把后面的分号省略掉，例如： mysql_query("INSERT INTO tablename(first_name,last_name)VALUES('$first_name',$last_name')");
zoj 3820 Building Fire Stations(二分+bfs) 阿尔萨斯 Build
题目链接：zoj 3820 Building Fire Stations 题目大意：给定一棵树，选取两个建立加油站，问说所有点距离加油站距离的最大值的最小值是多少，并且任意输出一种建立加油站的方式。解题思路：二分距离判断，判断函数的复杂度是o(n)，这样的复杂度应该是o(nlogn)，即使常数系数偏大，但是居然跑了4.5s，也是醉了。判断函数里面做了3次bfs，但是每次bfs节点最多