Yooooung_Lee

应用python的docx模块解析word文件内容

- 工作问题
- 涉及知识点
- 实现过程
- - 目标
  - 调用对应的库和模块
  - 定义通用方法
  - - 1.【遍历全部的同格式文件】返回一个文件夹内，限定某类格式文件，返回全部这类文件的绝对路径
    - 2.【提取段落&表格中的文本】word文件中常见三种类型，段落，表格，图片，这里提供前两种类型的文本内容
    - 3.【正则匹配】根据正则规则提取目标文本
    - 4.*仅供参考：*【获取内容出现的频次确定XX名称内容】
- 提取过程
- - 遍历文件夹提取绝对路径
  - 文本内容提取逻辑
  - 表格内容提取逻辑
- 总结

工作问题

某协2023的工作报告调研，联合各单位要合作写行业调查白皮书，期间构造了一套完整的word问卷，并在会后邀请各单位填写结果。最后要对问卷结果进行整理和数据分析，以ppt报告，数据分析报告等多种形式展现。因为是word的问卷文件，其中还包含了各类常见的题型和格式，还需要参考不同人的数据填写习惯尽可能通用的筛选出问卷填写的结果。将大量的word格式文字重新整理，从中提取关键信息，最后存储为结构化的数据，就是我们的目标。简言之，这是次有难度的挑战。

涉及知识点

使用python语言完成目标
docx模块的基础应用
应用正则表达式解构内容

实现过程

目标

我们初始拿到的是各单位发回的问卷合计约70份，并由不同小组归类整理成不同的分组文件夹。我们要读取全部的文件内容，并将其中各个题目下填写的结果提取出来，最后把数据以结构化的形式整理出来。

调用对应的库和模块

# 系统模块
import os
import re
from collections import Counter
# pip方法下载模块
import docx
import pandas as pd
import jieba

文件分散在各个文件夹内，如果不通过代码快速筛选出每个文件的引用路径，逐个打开的过程也有较大的工作量。

定义通用方法

1.【遍历全部的同格式文件】返回一个文件夹内，限定某类格式文件，返回全部这类文件的绝对路径


def traverse_folder(folder_path, filename_suffix, blacklist = ['~'],_ = []):
    '''
    遍历文件夹中逐层下钻内容，返回全体规定后缀名的文件路径
    para:
    folder_path:根文件夹路径，层级直接用除号分割
    filename_suffix:定义后缀名，参考格式[.docx|.xlsx|.zip|.7z|.exe]
    blacklist:定义文件黑名单，当文件名中包含对应内容时自动跳过
    _:不需要重定义，仅作列表格式空容器。当递归时用于存储前一轮中的结果
    '''

    for filename in os.listdir(folder_path):
        full_path = os.path.join(folder_path, filename)
        if all(blackname not in filename for blackname in blacklist) :
            if os.path.isdir(full_path):
                # 如果是一个子目录，递归调用自己
                traverse_folder(full_path,filename_suffix, blacklist = blacklist, _ = _)
            elif filename.endswith(filename_suffix):
                # 如果是一个文件，执行你要执行的操作
                _.append(full_path)
        else:
            pass
    return _

2.【提取段落&表格中的文本】word文件中常见三种类型，段落，表格，图片，这里提供前两种类型的文本内容

# ------------------------------------------------------------------------------------
def get_table_text(document):
    '''
    提取表格文本

    para:
    document:提供一个docx库下的document类

    return:全部表格内文本,合并为一整段长文本输出
    '''
    table_text = ''
    # 遍历文档中的表格
    for table in document.tables:
        # 遍历表格中的行
        for row in table.rows:
            # 遍历行中的单元格
            for cell in row.cells:
                # 提取单元格中的文本
                for paragraph in cell.paragraphs:
                    table_text += paragraph.text
    return table_text
# ------------------------------------------------------------------------------------
def get_paragraph_text(document):
    '''
    提取段落文本

    para:
    document:提供一个docx库下的document类

    return:全部文本,合并为一整段长文本输出
    '''
    paragraph_text = ''
    for para in document.paragraphs:
        paragraph_text += para.text
    return paragraph_text

3.【正则匹配】根据正则规则提取目标文本

# ------------------------------------------------------------------------------------

def get_choice_text(document):
    '''
    根据正则条件匹配全部中文括号里的内容，并清除特殊符号仅保留内容，多选时将选项结果合并展现
    para:
    document:获取docx库中的document类
    '''
    result = re.findall(r'（\s*([a-zA-Z0-9]*?)\s*）',document.text)
        # 匹配括号中的内容，前后出现空格时消除空格
    pattern =r'（\s*([A-Za-z\s]+)\s*）'
    document = re.sub(r"\s+", "", document.text)
    match = re.search(pattern,document)
    if match:
        result =  re.compile(r'[^\s]+').findall(match.group(1))
        
    return result

# ------------------------------------------------------------------------------------

def get_blank_text(text, start_string, end_string):
    '''
    根据正则条件匹配全部前后文之间空白处的文本内容，并清除特殊符号仅返回要提取的内容
    text:提供一段文本，str格式
    start_string:限定text中目标待提取文本的内容之前的部分
    end_string:限定text中目标待提取文本的内容之后的部分
    '''
    pattern = re.escape(start_string) + '(.*?)' + re.escape(end_string)
    match = re.search(pattern, text)
    if match:
        result =  re.compile(r'[^_|\s]+').findall(match.group(1))
        return result
    else:
        return ''

4.仅供参考：【获取内容出现的频次确定XX名称内容】

（因为问卷本身设计缺陷，导致没有固定位置可以获取名称，考虑使用词汇频次提取目标内容）


def get_bank_name(text):
    '''
    根据问卷中提及次数最多的银行名称确定来源
    para:
    text:提供一段文本，str格式
    return:
    '''
    # 使用jieba分词
    words = list(jieba.cut(text))

    # 合并银行词汇
    new_list = []
    for i, s in enumerate(words):
        # 如果当前元素中包含“银行”一词，将其与前面的元素组合起来，但要分情况讨论
        if re.match(r'.+?银行(?<=银行)', s):
            if s not in ['远程银行','网上银行','电子银行','电话银行','商业银行','手机银行']:
                # 当出现高频易混淆词汇时，直接建立手工码表剔除
                new_list.append(s)
            else:
                pass
            # 银行是非独立词汇，则jieba分词成功，直接输出
            new_list.append(s)
        elif re.match(r'银行', s):
            #银行是独立词汇，则匹配前一个字符并且合并
            new_s = ''.join(words[i-1:i+1])
            if new_s not in ['远程银行','网上银行','电子银行','电话银行','商业银行','手机银行']:
                # 当出现高频易混淆词汇时，直接建立手工码表剔除
                new_list.append(new_s)
            else:
                pass
        else:
            # 如果当前元素中不包含“银行”一词
            pass


    most_common = Counter(new_list).most_common(1)
    return [most_common[0][0],most_common[0][1]]

提取过程

遍历文件夹提取绝对路径

# 调用函数来遍历文件夹

# blacklist是测试后发现的提交格式不规范的文件，~为临时文件
folder_path = 'C:/Users/xxx/Desktop/新建文件夹'  # 更改为你要遍历的文件夹路径
files_path = traverse_folder(folder_path,'.docx',blacklist=['~','CS15','NH4','CS26'],_=[])

文本内容提取逻辑

# 实例化一个dataframe
df = pd.DataFrame()

for i,file in enumerate(files_path):
    # print(i,".",file)     # 注释项：输出文件路径
    document = docx.Document(file)

    paragraph_text= get_paragraph_text(document)
    
    # 如果在预定填写位置填入了信息，则直接获取
    if '参与调研单位名称：' in paragraph_text and '问卷填写人：' in paragraph_text:
        pattern = "参与调研单位名称：(.*?)问卷填写人："
        match = re.search(pattern, paragraph_text)
        # print('choose',match.group(1))
        bank_name = match.group(1)
    
    # 如果没有填入，则依靠关键词频次获取
    else :
        table_text= get_table_text(document)
        table_boolean_result = get_bank_name(table_text)
        paragraph_text= get_paragraph_text(document)
        paragraph_boolean_result = get_bank_name(paragraph_text)
        
        if 7*table_boolean_result[1] < paragraph_boolean_result[1] :            # 人为配置权重，只有当正文中出现银行命名关键词的次数比表格出现次数7倍还多，则输出正文的判断结果，否则输出表格的【权重尺度可以在合理范围内尽可能放大】
            # print('choose',paragraph_boolean_result[0] ,'rather than',table_boolean_result[0])
            bank_name = paragraph_boolean_result[0]
        else :
            # print('choose',table_boolean_result[0] ,'rather than',paragraph_boolean_result[0])
            bank_name = table_boolean_result[0]


    # --------------------------------------------------------

    #获取所有段落
    all_paragraphs = document.paragraphs
    paragraph_length =  len(all_paragraphs)
    i=0
    answers = []
    

    while i <paragraph_length:
        if '1.（单选）问题1' in all_paragraphs[i].text:
            answer = get_choice_text(all_paragraphs[i])
            # print(answer)
            answers.append(answer)
        elif '2.（不定项）问题2' in  all_paragraphs[i].text:
            answer = get_choice_text(all_paragraphs[i])
            # print(answer)
            answers.append(answer)
        elif '3.（多选）问题3' in  all_paragraphs[i].text:
            answer = get_choice_text(all_paragraphs[i])
            # print(answer)
            answers.append(answer)
        elif '6.问题6' in  all_paragraphs[i].text:
            start_index = i
            string_list = ['文本1','文本2','文本3','文本4','文本5']
            for j in range(i,paragraph_length,1):
                if '7.（填空题）问题7' in  all_paragraphs[j].text:         # 截取到下一题开始的位置
                    end_index = j
                    break
                else :
                    pass
            # 将各段内容合成一个列表
            target_paragraph = [all_paragraphs[k].text for k in range(start_index,end_index,1)]
            # 把列表结果拼成一段话
            answer = ''.join(target_paragraph)
            for m in range(len(string_list)-1):
                answers.append(get_blank_text(answer,string_list[m], string_list[m+1]))

        elif '8.问题8' in  all_paragraphs[i].text:
            start_index = i
            for j in range(i,paragraph_length,1):
                if '9.问题9' in  all_paragraphs[j].text:         # 截取到下一题开始的位置
                    end_index = j
                    break
                else :
                    pass
            # 将各段内容合成一个列表
            target_paragraph = [all_paragraphs[k].text for k in range(start_index+1,end_index,1)]
            # 把列表结果拼成一段话
            answer = ''.join(target_paragraph)
            # answer = re.findall(re.compile(r'\n{0,}(.+?)(?=\n{1,}|$)', re.DOTALL), all_paragraphs[start_index:end_index].text)        # 备用筛选格式，正则表达式也可以实现
            # 以列表形式存储
            answer = answer.split(" ")    
            # print(answer)
            answers.append(answer)

        i += 1
    
    # 将二维列表转换为一维，看情况输出结果
    one_dim_list = [element for row in answers for element in row]
    one_dim_list = [file]+[bank_name]+one_dim_list
    # print(one_dim_list)
    
    consule = pd.Series(one_dim_list)
    df = df.append(consule, ignore_index=True)


df.to_excel('output.xlsx', index=False)
# df就是我们需要的结果，其中以dataframe的形式存储每个空白的答案（一题中出现多个空白时，一个空白占据一个dataframe单元格）

在这段代码中，

当提取选择题/填空题时，因为原始问卷格式中，预留填空位置用中文括号圈定，且一题中可能存在一个或多个括号。（详见问题1，2，3）
当提取长文本填空题时，需要在一段文本中提取下划线结构的填空题时，可以参考第6题结构，将原题按照填空空格分割为多段文本[‘文本1’,‘文本2’,‘文本3’,‘文本4’,‘文本5’]（详见问题6）
当提取主观题时，需要提取大段的内容时，可以先限定前后两题的大致范围，然后在范围内加工目标文本。（详见问题8）

表格内容提取逻辑

这里仅用第一份问卷中的内容做测试，如果想全部输出，请参考文本提取逻辑，加入外层循环

# 这里仅用第一份问卷中的内容做测试，如果想全部输出，请参考文本提取逻辑，加入外层循环
document = docx.Document(files_path[1])
# 获取文档中的所有表格
all_tables = document.tables

# 创建一个字典，分别存储表格所在段落位置和表格内容
tables_dict = {}

# 遍历所有表格
for table in all_tables:
    # 获取表格中的所有行和列
    rows = table.rows
    cols = table.columns

    # 创建一个空的列表，用于存储表格中的所有数据
    data = []
    
    # 遍历所有行和列，将表格中的数据存储到列表中
    for i, row in enumerate(rows):
        row_data = []
        for j, cell in enumerate(row.cells):
            row_data.append(cell.text)
        data.append(row_data)
    
    # 将列表转换为DataFrame，并添加到已有的数据中
    table_df = pd.DataFrame(data[1:], columns=data[0])
    table_key = table_df.columns[0]
    tables_dict[table_key] = table_df

# 打印问卷中所有表格索引结果，索引为首行首列表格内容
print(tables_dict.keys())
tables_dict['渠道']

获取了一份问卷中全部有价值的文本内容，并将内容以结构化的数据形式存储在excel中。大浪淘沙，矿床淘金，在信息中人为熵减提取价值的过程，正是数据加工处理中耗时最长，过程最枯燥，但却是一切的基石。而分析师的魅力正在于此。

总结

在问卷调查越来越方便的今天，运用问卷星，金数据，亦或是国外surveymonkey这样的工具，执行一轮调查并在后台汇总问卷结果，显然从操作上更加方便。但以如此复杂形式实现，既是为了数据本身的绝对安全和保密，也是因为市场里现有的各类问卷工具，虽然在调查题上涉猎广泛，格式全面，但距离真正的面面俱到和量身定制仍有一定距离。
数据分析过程中，往往人们专注于加工和分析的过程，而忽略了数据本身来源就是多样化的，也是杂乱无章的。数据产生于各个角落，而问卷这种古老的形式，当收集问题复杂，且电子化分卷存储时，频繁的打开关闭操作极度浪费人力。
统一回复一下为什么不用XXX解决，而要用上述的方式解决问题：
。【OCR识别】发送给每个单位的问卷是word的格式，在主观题部分，允许各团队自由发挥，且允许插入配图等内容。OCR因为格式不固定，所以没法向识别发票一样解决问题。
。【问卷星等产品】数据涉密，无法使用在线问卷调查工具。
。【待补充…】

Python 并行新思路：不移除 GIL 的多核并发之道清水白石008 python Python题库 python 服务器开发语言
Python并行新思路：不移除GIL的多核并发之道引言大家好，我是[您的名字]，一位在Python领域深耕多年的软件专家。今天，我们来探讨一个Python开发者经常面临的挑战：全局解释器锁(GIL)以及如何在它的限制下，充分利用多核CPU的并行计算能力。GIL，这个Python语言的“老朋友”，长期以来一直备受争议。它确保了在CPython解释器中，同一时刻只有一个线程执行Python字节码。这简
python学智能算法（二十四）|SVM-最优化几何距离的理解
引言前序学习过程中，已经对几何距离的概念有了认知，学习链接为：几何距离这里先来回忆几何距离δ的定义：δ=min⁡i=1...myi(w∥w∥⋅xi+b∥w∥)\delta=\min_{i=1...m}y_{i}(\frac{w}{\left\|w\right\|}\cdotx_{i}+\frac{b}{\left\|w\right\|})δ=i=1...mminyi(∥w∥w⋅xi+∥w∥b)对上
树莓派i2c通信C语言,基于I2C的STM32与树莓派通信茶话股经树莓派i2c通信C语言
传统的串口通信会丢失数据，不可靠，故采用I2C(同步串行总线)通信。树莓派上使用python脚本，后期将使用c或java重写，目前没有需求。树莓派作主机(Master)，stm32作从机(Slave)。特别需要注意的是，I2C的通信虽然只需要两根线就能通信，但是需要第三根线接地GND(提供判断低电位的能力)，否则不能正常识别stm32从机使用ArduinoIDE编程以下是STM32的代码：#inc
华为OD机试2025C卷 - 计算三叉搜索树的高度 (C++ & Python & JAVA & JS & GO) 无限码力华为OD机试真题刷题笔记华为od 华为OD机试2025C卷华为OD2025C卷华为OD机考2025C卷
计算三叉搜索树的高度华为OD机试真题目录点击查看:华为OD机试2025C卷真题题库目录｜机考题库+算法考点详解华为OD机试2025C卷100分题型题目描述定义构造三叉搜索树规则如下：每个节点都存有一个数，当插入一个新的数时，从根节点向下寻找，直到找到一个合适的空节点插入。查找的规则是：如果数小于节点的数减去500，则将数插入节点的左子树如果数大于节点的数加上500，则将数插入节点的右子树否则，将数
华为OD面试手撕真题 - 字符串解码 (C++ & Python & JAVA & JS & GO) 无限码力华为OD面试手撕代码真题合集华为od 面试手撕真题华为OD面试手撕真题
题目描述给定一个经过编码的字符串，返回它解码后的字符串。编码规则为:k[encoded_string]，表示其中方括号内部的encoded_string正好重复k次。注意k保证为正整数。你可以认为输入字符串总是有效的；输入字符串中没有额外的空格，且输入的方括号总是符合格式要求的。此外，你可以认为原始数据不包含数字，所有的数字只表示重复的次数k，例如不会出现像3a或2[4]的输入。示例1输入：s="
Python编程：从入门到实践 YC运维 Python_study python 学习开发语言
这是基于《Python编程：从入门到实践》这本书以一个初学者的视角去学习而记录的笔记，浓缩了精华的部分以及分享了一些我自己的见解。做这个既是为了让自己边学边记录也是为了保留自己的问题去和小伙伴一起谈论。一，python是什么以及核心作用Python是一种高级、解释型、面向对象的编程语言，由荷兰人GuidovanRossum于1989年圣诞节期间创建，第一个公开发行版发行于1991年。它的设计哲学强
Python打卡day6 描述性统计荣582 python学习打卡 python 开发语言机器学习
@疏锦行针对其他特征绘制单特征图和特征和标签的关系图，并且试图观察出一些有意思的结论单特征可视化importmatplotlib.pyplotaspltimportseabornassnsimportpandasaspd#读取数据，这里假设数据文件名为data.csv，你需要根据实际情况修改文件名data=pd.read_csv('data.csv')#连续变量可视化示例plt.figure(fi
【Python 语法】Python 神经网络项目常用语法一杯水果茶！人生苦短我用 Python python
基础1.导入模块和包2.修改系统路径(sys.path.append)3.命令行参数解析(argparse模块)4.assert确保正确性5.main()脚本入口点6.辅助函数生成器函数`cycle(dl)`一、常用函数1.`.cuda()`/`.cpu()`和`torch.device`2.`torch.zeros`、`torch.randn`、`torch.arrange`、`torch.po
4个阶段，10种思维，教你快速入门短视频运营书不白读
短视频领域大火，很多人争相加入，但如果仔细观察，你会发现，成功的还是当初在其他平台的头部创作者们。那为什么从一个平台到另外一个平台，他们还能如鱼得水的进行创作呢？关键点在于两个字——思维，它是内容创作的底层逻辑。秋叶大叔，作为秋叶品牌的创始人，他从PPT、Excel、Word这些职场工具的使用，到新媒体创作、社群运营等方方面面，都做的风生水起，是名副其实的跨界达人。在短视频开始走进人们的生活以后，
python中的字典类型_Python中字典数据类型石墨稀 python中的字典类型
一.创建字典方法①:>>>dict1={}>>>dict2={'name':'earth','port':80}>>>dict1,dict2({},{'port':80,'name':'earth'})方法②:从Python2.2版本起>>>fdict=dict((['x',1],['y',2]))>>>fdict{'y':2,'x':1}方法③:从Python2.3版本起,可以用一个很方便的内建
Python 中的列表（List）和元组（Tuple） shangjg3 Python python 开发语言
1.定义与语法差异1.列表的定义列表使用方括号`[]`定义，元素之间用逗号分隔。列表的元素可以是不同数据类型，甚至嵌套其他列表或元组。my_list=[1,"hello",True,[2,3]]2.元组的定义元组使用圆括号`()`定义，同样支持混合数据类型。需要注意的是，定义单元素元组时必须在元素后加逗号，以区别于数学表达式中的括号。my_tuple=(1,"world",False,(4,5))
Python 列表
列表是由一系列按特定顺序排列的元素组成。在python中用方括号（[]）来表示列表并用逗号来分隔其中的元素。例如：bicycles=['trek','cannondale','redline']。访问列表元素时，只需将该元素的索引值或位置告诉Python即可。（索引值由0开始）>>>names=['zhao','qian','sun','li']>>>print(names[0])zhao创建的大
列表简单数据类型天池小晨 python
整型浮点型布尔型容器数据类型列表元组字典集合字符串1.列表的定义列表是有序集合，没有固定大小，能够保存任意数量任意类型的Python对象，语法为[元素1,元素2,...,元素n]。关键点是「中括号[]」和「逗号,」中括号把所有元素绑在一起逗号将每个元素一一分开2.列表的创建创建一个普通列表【例子】1x=['Monday','Tuesday','Wednesday','Thursday','Frid
Python-难点-获取项目根目录
1需求2接口3示例4参考资料在Python中，“设置根目录”通常指指定项目的基准路径，以便统一管理文件路径。以下是几种常见方法，结合不同场景和兼容性需求：一、基于路径拼接（最常用）通过手动拼接路径来定义根目录，适用于结构固定的项目。importos#方法1：根据当前文件位置向上递归定义（推荐）defset_project_root():current_file=os.path.abspath(__
本周作业踮起脚尖爱_09ed
本周作业：1、以word文档形式呈现三年职业规划；2、用“”形式呈现：配班教师应具备工作态度和职业素养；3、第一组以word文档形式呈现周简报。我们只需要完成前两个，在本周五下午六点之前上交，大家尽量在周四晚上完成发给我，这样有什么问题周五还来得及修改[玫瑰]
JSON和JSONL、python操作 weixin_668 json python
JSONJSON（JavaScriptObjectNotation）是一种轻量级的数据交换格式，基于文本、易于读写，并支持多种数据结构。以下是常见的JSON格式及示例：1.简单对象（键值对）{"name":"Alice","age":25,"isStudent":true}2.嵌套对象{"person":{"name":"Bob","address":{"city":"NewYork","zipc
python 抓取小红书小五咔咔咔 python 开发语言
python相关学习资料：https://edu.51cto.com/video/3832.htmlhttps://edu.51cto.com/video/4102.htmlhttps://edu.51cto.com/video/1158.htmlPython抓取小红书数据的科普文章小红书是一个流行的社交电商平台，用户可以分享购物心得、生活点滴等。本文将介绍如何使用Python语言抓取小红书的数据
利用 Python 爬取小红书热门笔记并进行标签关键词分析程序员威哥最新爬虫实战项目 python 笔记开发语言
一、背景与目标小红书（RED）作为中国最活跃的内容社区之一，拥有大量关于美妆、穿搭、美食、旅游等领域的用户生成内容（UGC）。对于产品、品牌方或研究人员来说，提取热门笔记的标签关键词，可以有效捕捉用户关注点、消费趋势及内容热词。本项目目标：使用Python爬取小红书某个话题下的热门笔记；分析每篇笔记中的标题、正文、标签等字段；利用NLP技术提取高频关键词；对关键词进行可视化与聚类分析。二、技术难点
python JSON Lines (JSONL)的保存和读取；jsonl的数据保存和读取，大模型prompt文件保存常用格式医学小达人常用算法 NLP prompt JSON Lines JSONL jsonl jsonl文件保存读取
1.JSONLines(JSONL)文件保存将一个包含多个字典的列表保存为JSONLines(JSONL)格式的文件，每个字典对应一个JSONL文件中的一行。以下是如何实现这一操作的Python代码importjson#定义包含字典的列表data=[{"id":1,"name":"Alice","age":30,"email":"[email protected]"},{"id":2,"name"
四十行Python代码，带你爬取热门音乐评论，制作评论词云图！
请求页面数据driver.get(‘https://music.163.com/#/song?id=569213220’)#selenium无法直接获取到嵌套页面里面的数据switch_to.frame()切换到嵌套网页driver.switch_to.frame(0)让浏览器加载的时候,等待渲染页面driver.implicitly_wait(10)driver.page_source获取请求页
前后端分离项目进阶1---后端屋外雨大，惊蛰出没 java 开发语言
前端链接：前端解析一.项目目录二.关键代码分析1)Admin.javapackageimprov1.improv1.entity;publicclassAdmin{privateStringaccount;privateStringpassword;privateStringname;//构造方法、getter和setterpublicAdmin(){}publicAdmin(Stringacco
Python 处理图像并生成 JSONL 元数据文件 - 固定text版本
Python处理图像并生成JSONL元数据文件-固定text版本flyfishJSONL（JSONLines）简介JSONL（JSONLines，也称为newline-delimitedJSON）是一种轻量级的数据序列化格式，由一系列独立的JSON对象组成，每行一个有效的JSON对象，行与行之间通过换行符（\n）分隔。JSONL是传统JSON的“轻量化”变体，通过“每行一个JSON对象”的设计，解
poi html转换成word文档,poi将html转换为word文档天猪飞翔 poi html转换成word文档
如何使用apachepoi将word转化为htmlJava可以使用这个开源框架，对word进行读取合并等操作，ApachePOI是一个开源的利用Java读写Excel、WORD等微软OLE2组件文档的项目。最新的3.5版本有很多改进，加入了对采用OOXML格式的Office2007支持，如xlsx、docx、pptx文档。示例如下：importorg.apache.poi.POITextExtra
Java poi导出word文件辉_哥 Java poi word java word 开发语言
Java在导出word文件时主要对表格中内容垂直居中处理做以记录方便后续碰到类似问题解决。mavenpom.xml中添加poi依赖org.apache.poipoi-ooxml4.1.2下载后查看依赖是否成功此时当在wordutil.java类中CTPageSz报红是因为ooxml-shemas版本不对需要另外下载1.3版本然后添加到本项目依赖中即可下载ooxml-shemas1.4版本的依赖po
Word模板引擎poi-tl（poi template language）使用入门指南 enjoy编程程序员实用工具集合 Word 模板引擎 poi-tl
什么是poi-tlpoi-tl（poitemplatelanguage）是Word模板引擎，使用模板和数据创建很棒的Word文档poi-tl是一个基于ApachePOI的Word模板引擎，也是一个免费开源的Java类库，可以非常方便的集成到项目中，并使用它已经封装好的功能。为什么选择poi-tl?方案移植性功能性易用性Poi-tlJava跨平台Word模板引擎，基于ApachePOI，提供更友好的
sqlplus连接Oracle 11g 数据库 zone-- sqlplus oracle
sqlplus连接Oracle11g数据库安装如下Oracle11g安装教程//Anhighlightedblocksqlplus有几种登陆方式比如：sqlplus"/assysdba"--以操作系统权限认证的oraclesys管理员登陆sqlplus/nolog--不在cmd或者terminal当中暴露密码的登陆方式conn/assysdbaconnsys/passwordassysdbasql
JAVA 使用Apache POI合并Word文档并保留批注的实现
一、需求背景在实际工作中，我们经常需要将多个Word文档合并成一个文件。但当文档中包含批注（Comments）时，传统的复制粘贴会导致批注丢失或引用错乱。本文将介绍如何通过Java和ApachePOI库实现保留批注及引用关系的文档合并功能。二、技术选型核心依赖：org.apache.poipoi-ooxml5.3.0org.apache.poipoi-ooxml-full5.3.0三、实现原理详解
jxORM--编程指南 jxandrew jxWebUI 数据库 python jxWebUI jxORM ORM
jxORM是jxWebUI配套的数据库操作库，可以简化python程序员操作数据库。声明数据类定义数据类之前，先导入ORM修饰符：fromjxORMimportORM,DBDataType,ColType然后就可以用ORM修饰符来修饰一个类，从而定义一个数据类：@ORMclassUser:ID:DBDataType.Long=ColType.PrimaryKeyCreateTime:DBDataT
深度学习系列-----＞环境搭建（Ubuntu）二师兄用飘柔深度学习历程深度学习 ubuntu 人工智能 pytorch python
1、前言电脑基础系统硬件情况：系统：ubuntu18.04、显卡：GTX1050Ti；后续的环境搭建都在此基础上进行。此次学习选择Pytorch作为深度学习的框架，选择的原因主要由于PyTorch在研究领域特别受欢迎，较多的论文框架也是基于其开发。2、anaconda+python3安装测试在学习深度学习的过程中会涉及到使用不同版本python包的问题，而anaconda可以便捷获取包且对包能够进
Python中的enumerate()函数冉成未来 Service python 开发语言
文章目录基本用法参数说明特点实际应用与zip()的比较注意事项enumerate()是Python内置的一个非常有用的函数，它用于在遍历可迭代对象（如列表、元组、字符串等）时，同时获取元素的索引和值。基本用法fruits=['apple','banana','cherry']forindex,fruitinenumerate(fruits):print(index,fruit)输出：0apple1
关于旗正规则引擎中的MD5加密问题何必如此 jsp MD5 规则加密
一般情况下，为了防止个人隐私的泄露，我们都会对用户登录密码进行加密，使数据库相应字段保存的是加密后的字符串，而非原始密码。在旗正规则引擎中，通过外部调用，可以实现MD5的加密，具体步骤如下： 1.在对象库中选择外部调用，选择“com.flagleader.util.MD5”，在子选项中选择“com.flagleader.util.MD5.getMD5ofStr({arg1})”； 2.在规
【Spark101】Scala Promise/Future在Spark中的应用 bit1129 Promise
Promise和Future是Scala用于异步调用并实现结果汇集的并发原语，Scala的Future同JUC里面的Future接口含义相同，Promise理解起来就有些绕。等有时间了再仔细的研究下Promise和Future的语义以及应用场景，具体参见Scala在线文档：http://docs.scala-lang.org/sips/completed/futures-promises.html
spark sql 访问hive数据的配置详解 daizj spark sql hive thriftserver
spark sql 能够通过thriftserver 访问hive数据，默认spark编译的版本是不支持访问hive，因为hive依赖比较多，因此打的包中不包含hive和thriftserver,因此需要自己下载源码进行编译，将hive，thriftserver打包进去才能够访问，详细配置步骤如下： 1、下载源码 2、下载Maven,并配置此配置简单，就略过
HTTP 协议通信周凡杨 java httpclient http 通信
一：简介 HTTPCLIENT，通过JAVA基于HTTP协议进行点与点间的通信！二：代码举例测试类： import java
java unix时间戳转换 g21121 java
把java时间戳转换成unix时间戳： Timestamp appointTime=Timestamp.valueOf(new SimpleDateFormat("yyyy-MM-dd HH:mm:ss").format(new Date())) SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd hh:m
web报表工具FineReport常用函数的用法总结（报表函数）老A不折腾 web报表 finereport 总结
说明：本次总结中，凡是以tableName或viewName作为参数因子的。函数在调用的时候均按照先从私有数据源中查找，然后再从公有数据源中查找的顺序。 CLASS CLASS(object):返回object对象的所属的类。 CNMONEY CNMONEY(number,unit)返回人民币大写。 number:需要转换的数值型的数。 unit:单位，
java jni调用c++ 代码报错墙头上一根草 java C++jni
# # A fatal error has been detected by the Java Runtime Environment: # # EXCEPTION_ACCESS_VIOLATION (0xc0000005) at pc=0x00000000777c3290, pid=5632, tid=6656 # # JRE version: Java(TM) SE Ru
Spring中事件处理de小技巧 aijuans spring Spring 教程 Spring 实例 Spring 入门 Spring3
Spring 中提供一些Aware相关de接口，BeanFactoryAware、 ApplicationContextAware、ResourceLoaderAware、ServletContextAware等等，其中最常用到de匙ApplicationContextAware.实现ApplicationContextAwaredeBean，在Bean被初始后，将会被注入 Applicati
linux shell ls脚本样例 annan211 linux linux ls源码 linux 源码
#! /bin/sh - #查找输入文件的路径 #在查找路径下寻找一个或多个原始文件或文件模式 # 查找路径由特定的环境变量所定义 #标准输出所产生的结果通常是查找路径下找到的每个文件的第一个实体的完整路径 # 或是filename :not found 的标准错误输出。 #如果文件没有找到则退出码为0 #否则即为找不到的文件个数 #语法 pathfind [--
List,Set,Map遍历方式 (收集的资源,值得看一下) 百合不是茶 list set Map遍历方式
List特点：元素有放入顺序，元素可重复 Map特点：元素按键值对存储，无放入顺序 Set特点：元素无放入顺序，元素不可重复（注意：元素虽然无放入顺序，但是元素在set中的位置是有该元素的HashCode决定的，其位置其实是固定的） List接口有三个实现类：LinkedList，ArrayList，Vector LinkedList：底层基于链表实现，链表内存是散乱的，每一个元素存储本身
解决SimpleDateFormat的线程不安全问题的方法 bijian1013 java thread 线程安全
在Java项目中，我们通常会自己写一个DateUtil类，处理日期和字符串的转换，如下所示： public class DateUtil01 { private SimpleDateFormat dateformat = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); public void format(Date d
http请求测试实例（采用fastjson解析） bijian1013 http 测试
在实际开发中，我们经常会去做http请求的开发，下面则是如何请求的单元测试小实例，仅供参考。 import java.util.HashMap; import java.util.Map; import org.apache.commons.httpclient.HttpClient; import
【RPC框架Hessian三】Hessian 异常处理 bit1129 hessian
RPC异常处理概述 RPC异常处理指是，当客户端调用远端的服务，如果服务执行过程中发生异常，这个异常能否序列到客户端？如果服务在执行过程中可能发生异常，那么在服务接口的声明中，就该声明该接口可能抛出的异常。在Hessian中，服务器端发生异常，可以将异常信息从服务器端序列化到客户端，因为Exception本身是实现了Serializable的
【日志分析】日志分析工具 bit1129 日志分析
1. 网站日志实时分析工具 GoAccess http://www.vpsee.com/2014/02/a-real-time-web-log-analyzer-goaccess/ 2. 通过日志监控并收集 Java 应用程序性能数据(Perf4J) http://www.ibm.com/developerworks/cn/java/j-lo-logforperf/ 3.log.io 和
nginx优化加强战斗力及遇到的坑解决 ronin47 nginx 优化
　　　先说遇到个坑，第一个是负载问题，这个问题与架构有关，由于我设计架构多了两层，结果导致会话负载只转向一个。解决这样的问题思路有两个：一是改变负载策略，二是更改架构设计。　　　由于采用动静分离部署，而nginx又设计了静态，结果客户端去读nginx静态，访问量上来，页面加载很慢。解决：二者留其一。最好是保留apache服务器。　　　来以下优化：　　　
java-50-输入两棵二叉树A和B，判断树B是不是A的子结构 bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/25411174201011445550396/ import ljn.help.*; public class HasSubtree { /**Q50. * 输入两棵二叉树A和B，判断树B是不是A的子结构。例如，下图中的两棵树A和B，由于A中有一部分子树的结构和B是一
mongoDB 备份与恢复开窍的石头 mongDB备份与恢复
Mongodb导出与导入 1: 导入/导出可以操作的是本地的mongodb服务器,也可以是远程的. 所以,都有如下通用选项: -h host 主机 --port port 端口 -u username 用户名 -p passwd 密码 2: mongoexport 导出json格式的文件
[网络与通讯]椭圆轨道计算的一些问题 comsci 网络
如果按照中国古代农历的历法，现在应该是某个季节的开始，但是由于农历历法是3000年前的天文观测数据，如果按照现在的天文学记录来进行修正的话，这个季节已经过去一段时间了。。。。。也就是说，还要再等3000年。才有机会了，太阳系的行星的椭圆轨道受到外来天体的干扰，轨道次序发生了变
软件专利如何申请 cuiyadll 软件专利申请
软件技术可以申请软件著作权以保护软件源代码，也可以申请发明专利以保护软件流程中的步骤执行方式。专利保护的是软件解决问题的思想，而软件著作权保护的是软件代码（即软件思想的表达形式）。例如，离线传送文件，那发明专利保护是如何实现离线传送文件。基于相同的软件思想，但实现离线传送的程序代码有千千万万种，每种代码都可以享有各自的软件著作权。申请一个软件发明专利的代理费大概需要5000-8000申请发明专利可
Android学习笔记 darrenzhu android
1.启动一个AVD 2.命令行运行adb shell可连接到AVD,这也就是命令行客户端 3.如何启动一个程序 am start -n package name/.activityName am start -n com.example.helloworld/.MainActivity 启动Android设置工具的命令如下所示： # am start -
apache虚拟机配置，本地多域名访问本地网站 dcj3sjt126com apache
现在假定你有两个目录，一个存在于 /htdocs/a，另一个存在于 /htdocs/b 。现在你想要在本地测试的时候访问 www.freeman.com 对应的目录是 /xampp/htdocs/freeman ,访问 www.duchengjiu.com 对应的目录是 /htdocs/duchengjiu。 1、首先修改C盘WINDOWS\system32\drivers\etc目录下的
yii2 restful web服务[速率限制] dcj3sjt126com PHP yii2
速率限制为防止滥用，你应该考虑增加速率限制到您的API。例如，您可以限制每个用户的API的使用是在10分钟内最多100次的API调用。如果一个用户同一个时间段内太多的请求被接收，将返回响应状态代码 429 (这意味着过多的请求)。要启用速率限制, [[yii\web\User::identityClass|user identity class]] 应该实现 [[yii\filter
Hadoop2.5.2安装——单机模式 eksliang hadoop hadoop单机部署
转载请出自出处：http://eksliang.iteye.com/blog/2185414 一、概述 Hadoop有三种模式单机模式、伪分布模式和完全分布模式，这里先简单介绍单机模式，默认情况下，Hadoop被配置成一个非分布式模式，独立运行JAVA进程，适合开始做调试工作。二、下载地址 Hadoop 网址http:
LoadMoreListView+SwipeRefreshLayout（分页下拉）基本结构 gundumw100 android
一切为了快速迭代 import java.util.ArrayList; import org.json.JSONObject; import android.animation.ObjectAnimator; import android.os.Bundle; import android.support.v4.widget.SwipeRefreshLayo
三道简单的前端HTML/CSS题目 ini html Web 前端 css 题目
使用CSS为多个网页进行相同风格的布局和外观设置时，为了方便对这些网页进行修改，最好使用（）。http://hovertree.com/shortanswer/bjae/7bd72acca3206862.htm 在HTML中加入<table style=”color:red; font-size:10pt”>，此为（）。http://hovertree.com/s
overrided方法编译错误 kane_xie override
问题描述：在实现类中的某一或某几个Override方法发生编译错误如下： Name clash: The method put(String) of type XXXServiceImpl has the same erasure as put(String) of type XXXService but does not override it 当去掉@Over
Java中使用代理IP获取网址内容（防IP被封，做数据爬虫） mcj8089 免费代理IP 代理IP 数据爬虫 JAVA设置代理IP 爬虫封IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ Java语言有两种方式使用代理IP访问网址并获取内容，方式一，设置System系统属性 // 设置代理IP System.getProper
Nodejs Express 报错之 listen EADDRINUSE qiaolevip 每天进步一点点学习永无止境 nodejs 纵观千象
当你启动 nodejs服务报错： >node app Express server listening on port 80 events.js:85 throw er; // Unhandled 'error' event ^ Error: listen EADDRINUSE at exports._errnoException (
C++中三种new的用法 _荆棘鸟_ C++new
转载自：http://news.ccidnet.com/art/32855/20100713/2114025_1.html 作者: mt 其一是new operator，也叫new表达式；其二是operator new，也叫new操作符。这两个英文名称起的也太绝了，很容易搞混，那就记中文名称吧。new表达式比较常见，也最常用，例如： string* ps = new string("
Ruby深入研究笔记1 wudixiaotie Ruby
module是可以定义private方法的 module MTest def aaa puts "aaa" private_method end private def private_method puts "this is private_method" end end