小小明-代码实体

pandas读取Excel核心源码剖析，面向过程仿openpyxl源码实现Excel数据加载

作者： 小小明-代码实体

博客主页：https://blog.csdn.net/as604049322

欢迎点赞收藏 ⭐留言欢迎讨论！

今天我们将研究pandas如何使用openpyxl引擎读取xlsx格式的Excel的数据，并考虑以面向过程的形式简单的自己实现一下。

截止目前本人所使用的pandas和openpyxl版本为：

pandas：1.5.2
openpyxl：3.0.10

今天所有的测试全部基于以下文件：

pandas的read_excel核心代码

这里我使用pycharm工具对以下代码进行debug跟踪：

import pandas as pd
df = pd.read_excel("张三.xlsx")

核心就是两行代码：

io = ExcelFile(io)
return io.parse(...)

我们研究一下这两行代码所做的事：

ExcelFile构造函数

内容有很多，我们挑一些有价值的内容进行解析。默认传递的参数下，会调用inspect_excel_format函数获取文件的扩展名。

直接通过文件名获取的扩展名有可能不真实，我们可以查看pandas.io.excel._base.inspect_excel_format的源码，研究pandas判断Excel真实扩展名的实现。

个人在阅读源码后，整理出如下可以直接使用的方法：

from zipfile import ZipFile

def inspect_excel_format(filename):
    XLS_SIGNATURES = (
        b"\x09\x00\x04\x00\x07\x00\x10\x00",  # BIFF2
        b"\x09\x02\x06\x00\x00\x00\x10\x00",  # BIFF3
        b"\x09\x04\x06\x00\x00\x00\x10\x00",  # BIFF4
        b"\xD0\xCF\x11\xE0\xA1\xB1\x1A\xE1",  # Compound File Binary
    )
    ZIP_SIGNATURE = b"PK\x03\x04"
    PEEK_SIZE = max(map(len, XLS_SIGNATURES + (ZIP_SIGNATURE,)))
    with open(filename, "rb") as stream:
        peek = stream.read(PEEK_SIZE)
        if peek is None:
            raise ValueError("stream is empty")
        if any(peek.startswith(sig) for sig in XLS_SIGNATURES):
            return "xls"
        elif not peek.startswith(ZIP_SIGNATURE):
            return None
        with ZipFile(stream) as zf:
            component_names = [
                name.replace("\\", "/").lower() for name in zf.namelist()
            ]
            if "xl/workbook.xml" in component_names:
                return "xlsx"
            if "xl/workbook.bin" in component_names:
                return "xlsb"
            if "content.xml" in component_names:
                return "ods"
            return "zip"

获取到扩展名之后，get_default_engine将获取默认的处理引擎，定义如下：

_default_readers = {
    "xlsx": "openpyxl",
    "xlsm": "openpyxl",
    "xlsb": "pyxlsb",
    "xls": "xlrd",
    "ods": "odf",
}

self._engines[engine]会找到对应的处理类来处理当前文件。

而ExcelFile有个类定义：

_engines: Mapping[str, Any] = {
	"xlrd": XlrdReader,
	"openpyxl": OpenpyxlReader,
	"odf": ODFReader,
	"pyxlsb": PyxlsbReader,
}

于是就可以使用OpenpyxlReader来读取对应的Excel文件：

self._reader = OpenpyxlReader(self._io)

OpenpyxlReader的构造函数

首先判断是否安装openpyxl，然后调用父类BaseExcelReader的构造方法，其中核心代码为：

self.book = self.load_workbook(self.handles.handle)

而OpenpyxlReader的load_workbook实现为：

from openpyxl import load_workbook

return load_workbook(
	filepath_or_buffer, read_only=True, data_only=True, keep_links=False
)

可以确定pandas再调用openpyxl时，固定了这些参数。

ExcelFile.parse

跟踪可以看到内部调用了self._reader.parse，这里的核心代码为：

ret_dict = False
sheets = [sheet_name]
output = {}
for asheetname in sheets:
    if isinstance(asheetname, str):
        sheet = self.get_sheet_by_name(asheetname)
    else:
        sheet = self.get_sheet_by_index(asheetname)
    data = self.get_sheet_data(sheet, convert_float, file_rows_needed)
    parser = TextParser(data,header=header)
    output[asheetname] = parser.read(nrows=nrows)
if ret_dict:
	return output
else:
	return output[asheetname]

self.get_sheet_data使用openpyxl引擎读取出指定表格的数据，我们后面再细究。

TextParser用于解析结果，构造函数调用TextFileReader的_make_engine处理结果数据，内部使用python引擎对应的PythonParser进行解析处理，PythonParser的构造方法中，核心代码为：

columns,self.num_original_columns,self.unnamed_cols = self._infer_columns()

该代码根据header参数读取data的前N行作为列，每次调用self._next_line()读取，会改变self.pos的值即当前位置，并当前读取到的行存入self.buf。但是最终该函数会清空self.buf的值。

(index_names, self.orig_names, self.columns) = self._get_index_name(
	self.columns
)

这行代码的实现会两次调用self._next_line()读取数据，这两行的数据会存入self.buf中。

parser.read的核心代码为：

index, columns, col_dict = self._engine.read(nrows)
return DataFrame(col_dict, columns=columns, index=index)

self._engine.read调用_get_lines函数将剩余的数据都读入self.buf中并返回，最终得到处理表头以外的所有行数据content。

然后调用self._rows_to_cols(content)将所有的行数据转换为列数据：

alldata = self._rows_to_cols(content)

这行代码内部的核心实现为：

import pandas._libs.lib as lib

zipped_content = list(lib.to_object_array(content, min_width=col_len).T)

不过lib.to_object_array的底层采用其他语言实现，只能直接查看。

然后_exclude_implicit_index将列数据转换为字典，核心代码为：

{
	name: alldata[i + offset] for i, name in enumerate(names) if i < len_alldata
}

最终经过一些转换后得到最终结果。

ExcelFile.get_sheet_data

前面在OpenpyxlReader的构造函数中，通过openpyxl的load_workbook函数加载了Excel文件得到self.book。

self.get_sheet_by_name(asheetname)的实现是：

return self.book[asheetname]

self.get_sheet_by_index(asheetname)的实现是：

return self.book.worksheets[index]

可以翻译为：

sheet = self.book.worksheets[0]
data = self.get_sheet_data(sheet, convert_float, file_rows_needed)

get_sheet_data的源码：

内部核心获取数据的代码为sheet.rows，该属性是调用了openpyxl.worksheet.worksheet.Worksheet的iter_rows方法获取数据。

pandas会使用_convert_cell方法对openpyxl获取的单元格提取数值并转换，convert_float参数默认为True，作用是当一个数值可以转为整数时就是整数，并不是所有数值都转为浮点数。

然后while循环实现剔除空行。

总结

pandas读取Excel的核心代码，我们可以总结为如下形式：

from openpyxl import load_workbook
import pandas as pd
import numpy as np
import pandas._libs.lib as lib
from openpyxl.cell.cell import (
    TYPE_ERROR,
    TYPE_NUMERIC,
)


def convert_cell(cell, convert_float=True):
    if cell.value is None:
        return ""  # compat with xlrd
    elif cell.data_type == TYPE_ERROR:
        return np.nan
    elif cell.data_type == TYPE_NUMERIC:
        if convert_float:
            val = int(cell.value)
            if val == cell.value:
                return val
        else:
            return float(cell.value)
    return cell.value


workbook = load_workbook(filename="张三.xlsx", read_only=True, data_only=True, keep_links=False)
sheet = workbook.worksheets[0]
data = [[convert_cell(cell) for cell in row] for row in sheet.rows]
names = data[0]
alldata = lib.to_object_array(data[1:], min_width=len(names)).T
zipped_content = {name: alldata[i] for i, name in enumerate(names)}
df = pd.DataFrame(zipped_content)

当然pandas多余的处理代码比这些更复杂。

我们也可以进一步简化为：

from openpyxl import load_workbook
import pandas as pd

workbook = load_workbook(filename="张三.xlsx", read_only=True, data_only=True, keep_links=False)
sheet = workbook.worksheets[0]
data = [row for row in sheet.iter_rows(values_only=True)]
df = pd.DataFrame(data[1:], columns=data[0])

仿openpyxl源码读取Excel

openpyxl源码读取部分的源码相比pandas处理部分更加复杂，下面我主要对核心代码进行翻译。

load_workbook的代码为：

def load_workbook(filename, read_only=False, keep_vba=KEEP_VBA,
                  data_only=False, keep_links=True):
    reader = ExcelReader(filename, read_only, keep_vba, data_only, keep_links)
    reader.read()
    return reader.wb

ExcelReader核心：

from zipfile import ZipFile, ZIP_DEFLATED, BadZipfile

filename = r"D:\PycharmProjects\demo1\test\张三.xlsx"
archive = ZipFile(filename, 'r')
valid_files = archive.namelist()
print(valid_files)

['[Content_Types].xml', '_rels/', '_rels/.rels', 'docProps/', 'docProps/app.xml', 'docProps/core.xml', 'docProps/custom.xml', 'xl/', 'xl/_rels/', 'xl/_rels/workbook.xml.rels', 'xl/sharedStrings.xml', 'xl/styles.xml', 'xl/theme/', 'xl/theme/theme1.xml', 'xl/workbook.xml', 'xl/worksheets/', 'xl/worksheets/sheet1.xml', 'xl/worksheets/sheet2.xml', 'xl/worksheets/sheet3.xml']

read的代码为：

def read(self):
    self.read_manifest()
    self.read_strings()
    self.read_workbook()
    self.read_properties()
    self.read_theme()
    apply_stylesheet(self.archive, self.wb)
    self.read_worksheets()
    self.parser.assign_names()
    if not self.read_only:
        self.archive.close()

这里将一步步从Excel压缩包中读取需要的数据。

在处理之前，我们定义一些需要用到的常量：

ARC_CORE = 'docProps/core.xml'
PACKAGE_RELS = '_rels'
ARC_THEME = f'xl/theme/theme1.xml'
ARC_STYLE = f'xl/styles.xml'
ARC_CONTENT_TYPES = '[Content_Types].xml'
SHEET_MAIN_NS = 'http://schemas.openxmlformats.org/spreadsheetml/2006/main'
INLINE_STRING = "{%s}is" % SHEET_MAIN_NS
ROW_TAG = '{%s}row' % SHEET_MAIN_NS
VALUE_TAG = '{%s}v' % SHEET_MAIN_NS
SECS_PER_DAY = 24*60*60

read_manifest

该函数用于读取各类xml在压缩包中的路径，openpyxl使用特殊的自定义类来解析xml，我们则使用基本语法读取需要的数据：

from lxml import etree
import re

def localname(name):
    NS_REGEX = "({(?P.*)})?(?P.*)"
    return re.match(NS_REGEX, name).group('localname')


def read_manifest(archive):
    src = archive.read(ARC_CONTENT_TYPES)
    manifest = {}
    for el in etree.fromstring(src):
        manifest.setdefault(localname(el.tag), []).append(el.attrib)
    return manifest


manifest = read_manifest(archive)
manifest

{'Default': [{'Extension': 'rels', 'ContentType': 'application/vnd.openxmlformats-package.relationships+xml'},
  {'Extension': 'xml', 'ContentType': 'application/xml'}],
 'Override': [{'PartName': '/docProps/app.xml', 'ContentType': 'application/vnd.openxmlformats-officedocument.extended-properties+xml'},
  {'PartName': '/docProps/core.xml', 'ContentType': 'application/vnd.openxmlformats-package.core-properties+xml'},
  {'PartName': '/docProps/custom.xml', 'ContentType': 'application/vnd.openxmlformats-officedocument.custom-properties+xml'},
  {'PartName': '/xl/sharedStrings.xml', 'ContentType': 'application/vnd.openxmlformats-officedocument.spreadsheetml.sharedStrings+xml'},
  {'PartName': '/xl/styles.xml', 'ContentType': 'application/vnd.openxmlformats-officedocument.spreadsheetml.styles+xml'},
  {'PartName': '/xl/theme/theme1.xml', 'ContentType': 'application/vnd.openxmlformats-officedocument.theme+xml'},
  {'PartName': '/xl/workbook.xml', 'ContentType': 'application/vnd.openxmlformats-officedocument.spreadsheetml.sheet.main+xml'},
  {'PartName': '/xl/worksheets/sheet1.xml', 'ContentType': 'application/vnd.openxmlformats-officedocument.spreadsheetml.worksheet+xml'},
  {'PartName': '/xl/worksheets/sheet2.xml', 'ContentType': 'application/vnd.openxmlformats-officedocument.spreadsheetml.worksheet+xml'},
  {'PartName': '/xl/worksheets/sheet3.xml', 'ContentType': 'application/vnd.openxmlformats-officedocument.spreadsheetml.worksheet+xml'}]}

read_strings

该方法用于读取Excel中的所有常量字符串：

from defusedxml.ElementTree import iterparse

def get_text_content(node):
    snippets = []
    plain = node.find("./x:t", namespaces={"x": SHEET_MAIN_NS})
    if plain is not None:
        snippets.append(plain.text)
    for t in node.findall("./x:r/x:t", namespaces={"x": SHEET_MAIN_NS}):
        snippets.append(t.text)
    return "".join(snippets)

def read_strings(manifest, archive):
    ct = None
    SHARED_STRINGS = "application/vnd.openxmlformats-officedocument.spreadsheetml.sharedStrings+xml"
    for t in manifest["Override"]:
        if t["ContentType"] == SHARED_STRINGS:
            ct = t
            break
    shared_strings = []
    STRING_TAG = '{%s}si' % SHEET_MAIN_NS

    if ct is not None:
        strings_path = ct["PartName"][1:]
        with archive.open(strings_path) as xml_source:
            for _, node in iterparse(xml_source):
                if node.tag != STRING_TAG:
                    continue
                text = get_text_content(node).replace('x005F_', '')
                node.clear()
                shared_strings.append(text)
    return shared_strings


shared_strings = read_strings(manifest, archive)
print(shared_strings)

openpyxl的源码在这个部分使用defusedxml解析xml，如果我们使用etree解析全部加载到内存的xml，则可以使用如下代码：

def read_strings(manifest, archive):
    ct = None
    SHARED_STRINGS = "application/vnd.openxmlformats-officedocument.spreadsheetml.sharedStrings+xml"
    for t in manifest["Override"]:
        if t["ContentType"] == SHARED_STRINGS:
            ct = t
            break
    shared_strings = []
    STRING_TAG = '{%s}si' % SHEET_MAIN_NS

    if ct is not None:
        strings_path = ct["PartName"][1:]
        root = etree.fromstring(archive.read(strings_path))
        for node in root.xpath("//x:si", namespaces={"x": SHEET_MAIN_NS}):
            snippets = node.xpath(".//x:t/text()", namespaces={"x": SHEET_MAIN_NS})
            shared_strings.append("".join(snippets).replace('x005F_', ''))
    return shared_strings


shared_strings = read_strings(manifest, archive)
print(shared_strings)

使用xpath解析xml可以简化代码。

最终得到的常量字符串有：

['商品', '单价', '数量', '订单号', '订单时间', '总金额', '名称管理', '苹果', 'A', '哈密瓜', 'B', '芒果', 'C']

read_workbook

这部分的核心代码有：

wb_part = _find_workbook_part(self.package)
self.parser = WorkbookParser(self.archive, wb_part.PartName[1:], keep_links=self.keep_links)
self.parser.parse()

我们先翻译_find_workbook_part(self.package)：

def find_workbook_part_name(manifest):
    part = None
    WORKBOOK_MACRO = "application/vnd.ms-excel.{}.macroEnabled.main+xml"
    WORKBOOK = "application/vnd.openxmlformats-officedocument.spreadsheetml.{}.main+xml"
    XLTM = WORKBOOK_MACRO.format('template')
    XLSM = WORKBOOK_MACRO.format('sheet')
    XLTX = WORKBOOK.format('template')
    XLSX = WORKBOOK.format('sheet')
    for ct in (XLTM, XLTX, XLSM, XLSX):
        for t in manifest["Override"]:
            if t["ContentType"] == ct:
                return t["PartName"][1:]


workbook_part_name = find_workbook_part_name(manifest)
workbook_part_name

'xl/workbook.xml'

WorkbookParser.parser解析的数据有点多，下面我尽量只提取需要的数据：

src = archive.read(workbook_part_name)
node = etree.fromstring(src)
workbookPr = node.xpath("./x:workbookPr", namespaces={"x": SHEET_MAIN_NS})[0].attrib
print(workbookPr)

{'codeName': 'ThisWorkbook'}

import datetime

def get_epoch(workbookPr):
    MAC_EPOCH = datetime.datetime(1904, 1, 1)
    WINDOWS_EPOCH = datetime.datetime(1899, 12, 30)

    epoch = WINDOWS_EPOCH
    if "date1904" in workbookPr and workbookPr["date1904"]:
        epoch = MAC_EPOCH
    return epoch


epoch = get_epoch(workbookPr)
epoch

datetime.datetime(1899, 12, 30, 0, 0)

获取活跃表格角标：

bookViews = [el.attrib for el in node.xpath(
    "x:bookViews/x:workbookView", namespaces={"x": SHEET_MAIN_NS})]
bookViews

[{'windowWidth': '28800', 'windowHeight': '12690'}]

def get_active(bookViews):
    for view in bookViews:
        if "activeTab" in view:
            return int(view["activeTab"])
    return 0

active = get_active(bookViews)
active

获取所有工作表的名称和ID：

sheets = [{localname(k): v for k, v in el.attrib.items()} for el in node.xpath(
    "x:sheets/x:sheet", namespaces={"x": SHEET_MAIN_NS})]
sheets

[{'name': 'Sheet1', 'sheetId': '1', 'id': 'rId1'},
 {'name': 'Sheet2', 'sheetId': '2', 'id': 'rId2'},
 {'name': 'Sheet3', 'sheetId': '3', 'id': 'rId3'}]

读取命名空间的定义：

def getDefinedNames(node):
    valid_names = {}
    for el in node.xpath(
            "x:definedNames/x:definedName", namespaces={"x": SHEET_MAIN_NS}):
        name, value = el.get("name"), el.text
        if name in ("_xlnm.Print_Titles", "_xlnm.Print_Area") and "localSheetId" not in el:
            continue
        elif name == "_xlnm._FilterDatabase":
            continue
        valid_names[name] = value
    return valid_names

definedNames = getDefinedNames(node)
definedNames

{'aaa': 'Sheet1!$A$3', 'bbb': 'Sheet1!$A$2', 'ccc': 'Sheet1!$A$4'}

read_properties

用于读取文档的一些属性信息：

from openpyxl.utils.datetime import from_ISO8601

properties = {}
if ARC_CORE in valid_files:
    for el in etree.fromstring(archive.read(ARC_CORE)):
        key = localname(el.tag)
        value = el.text
        if key in ("lastPrinted", "created", "modified"):
            value = from_ISO8601(value)
        properties[key] = value
properties

{'creator': 'openpyxl',
 'lastModifiedBy': '那年&那天',
 'created': datetime.datetime(2023, 3, 8, 9, 7),
 'modified': datetime.datetime(2023, 3, 26, 15, 40, 30)}

符合ISO8601格式的时间字符串有很多种形式，上述代码直接使用openpyxl现成的实现，将2023-03-08T09:07:00Z等形式的时间字符串解析为日期时间对象。

核心代码是使用如下正则进行匹配：

ISO_REGEX = re.compile(r'''
(?P(?P\d{4})-(?P\d{2})-(?P\d{2}))?T?
(?P(?P\d{2}):(?P\d{2})(:(?P\d{2})(?P\.\d{1,3})?)?)?Z?''', re.VERBOSE)

apply_stylesheet

这个函数除了读取字体、对齐、边框、填充等各种样式数据以外，还会读取出哪些列是日期格式的列，用于后续将数值类型的列解析为时间。

对于纯数据读取而言，样式数据并不是我们需要的数据，这里只演示字体列表的读取：

fonts = []
node = etree.fromstring(archive.read(ARC_STYLE))
for el in node.xpath(
        "x:fonts/x:font", namespaces={"x": SHEET_MAIN_NS}):
    fonts.append({localname(e.tag): e.attrib for e in el})

读取出哪些列是日期格式的列，体现在openpyxl.styles.stylesheet.Stylesheet类构造函数的self._normalise_numbers()函数上。

根据custom_formats函数的实现，解析出所有的自定义格式：

node = etree.fromstring(archive.read(ARC_STYLE))
numFmts = {
    int(el.get("numFmtId")): el.get("formatCode") for el in node.xpath(
        "x:numFmts/x:numFmt", namespaces={"x": SHEET_MAIN_NS})
}
numFmts

{41: '_ * #,##0_ ;_ * \\-#,##0_ ;_ * "-"_ ;_ @_ ',
 42: '_ "￥"* #,##0_ ;_ "￥"* \\-#,##0_ ;_ "￥"* "-"_ ;_ @_ ',
 43: '_ * #,##0.00_ ;_ * \\-#,##0.00_ ;_ * "-"??_ ;_ @_ ',
 44: '_ "￥"* #,##0.00_ ;_ "￥"* \\-#,##0.00_ ;_ "￥"* "-"??_ ;_ @_ ',
 176: 'yyyy\\-m\\-d\\ h:mm:ss',
 177: '[h]:mm:ss;@'}

获取日期列的实现：

from openpyxl.styles.numbers import BUILTIN_FORMATS, STRIP_RE

date_formats = set()
cell_styles = node.xpath("x:cellXfs/x:xf", namespaces={"x": SHEET_MAIN_NS})
for idx, el in enumerate(cell_styles):
    style = el.attrib
    numFmtId = int(style["numFmtId"])
    if numFmtId in numFmts:
        fmt = numFmts[numFmtId]
    else:
        fmt = BUILTIN_FORMATS[numFmtId]
    fmt = fmt.split(";")[0]
    if re.search(r"[^\\][dmhysDMHYS]", STRIP_RE.sub("", fmt)) is not None:
        date_formats.add(idx)
date_formats

read_worksheets

这里我们已经设置了只读形式，而且我们不考虑透视图类型的工作表，那么核心代码为：

def read_worksheets(self):
    for sheet, rel in self.parser.find_sheets():
        ws = ReadOnlyWorksheet(self.wb, sheet.name, rel.target, self.shared_strings)
        ws.sheet_state = sheet.state
        self.wb._sheets.append(ws)

所需要的数据都封装到ReadOnlyWorksheet对象中。

其实所需要的数据只有表名和对应的路径，解析代码如下：

import posixpath

def get_rels_path(path):
    folder, obj = posixpath.split(path)
    filename = posixpath.join(folder, '_rels', '{0}.rels'.format(obj))
    return filename


def get_dependents(archive, filename):
    filename = get_rels_path(filename)
    folder = posixpath.dirname(filename)
    parent = posixpath.split(folder)[0]
    rels = {}
    for el in etree.fromstring(archive.read(filename)):
        r = el.attrib
        if r.get("TargetMode") == "External":
            continue
        elif r["Target"].startswith("/"):
            r["Target"] = r["Target"][1:]
        else:
            pth = posixpath.join(parent, r["Target"])
            r["Target"] = posixpath.normpath(pth)
        rels[r.get("Id")] = r
    return rels


rels = get_dependents(archive, workbook_part_name)
name2file = {}
for sheet in sheets:
    name2file[sheet["name"]] = rels[sheet["id"]]["Target"]
name2file

{'Sheet1': 'xl/worksheets/sheet1.xml',
 'Sheet2': 'xl/worksheets/sheet2.xml',
 'Sheet3': 'xl/worksheets/sheet3.xml'}

而ReadOnlyWorksheet的构造函数中，self._get_size()函数会解析整个表的大小，面向过程的实现为：

from openpyxl.utils.cell import column_index_from_string

def parse_dimensions(worksheet_path):
    source = archive.open(worksheet_path)
    for _event, element in iterparse(source):
        tag_name = localname(element.tag)
        if tag_name == "dimension":
            ref = element.get("ref")
            min_col, min_row, sep, max_col, max_row = re.match(
                "\$?([A-Za-z]{1,3})\$?(\d+)(:\$?([A-Za-z]{1,3})\$?(\d+))?", ref).groups()
            min_col, max_col = map(
                column_index_from_string, (min_col, max_col))
            min_row, max_row = map(int, (min_row, max_row))
            return min_col, min_row, max_col, max_row
        elif tag_name == "sheetData":
            break
        element.clear()
    source.close()


worksheet_path = name2file['Sheet1']
dimensions = parse_dimensions(worksheet_path)
dimensions

(1, 1, 7, 4)

该值分别代表行列的最小和最大数量：

min_col, min_row, max_col, max_row = dimensions

sheet.iter_rows是如何解析数据的

最后我们终于到了解析数据的环节，当调用ReadOnlyWorksheet对象的iter_rows方法时，到底发生了什么呢？

iter_rows实际上调用的是ReadOnlyWorksheet对象的_cells_by_row函数，核心代码为：

def _cells_by_row(self, min_col, min_row, max_col, max_row, values_only=False):
    src = self._get_source()
    parser = WorkSheetParser(src, self._shared_strings,
                             data_only=self.parent.data_only, epoch=self.parent.epoch,
                             date_formats=self.parent._date_formats)
    for idx, row in parser.parse():
        row = self._get_row(row, min_col, max_col, values_only)
        yield row
    src.close()

最终翻译过来的实现代码为：

def from_excel_time(value, epoch):
    SECS_PER_DAY = 24*60*60
    day, fraction = divmod(value, 1)
    diff = datetime.timedelta(
        milliseconds=round(fraction * SECS_PER_DAY * 1000))
    if 0 <= value < 1 and diff.days == 0:
        mins, seconds = divmod(diff.seconds, 60)
        hours, mins = divmod(mins, 60)
        dt = datetime.time(hours, mins, seconds, diff.microseconds)
    else:
        if 0 < value < 60 and epoch == WINDOWS_EPOCH:
            day += 1
        dt = epoch + datetime.timedelta(days=day) + diff
    return dt


def load_data(archive, file):
    src = archive.open(file)
    data = []
    for _, element in iterparse(src):
        tag_name = element.tag
        if tag_name != ROW_TAG:
            continue
        cells = []
        for el in element:
            data_type = el.get('t', 'n')
            coordinate = el.get('r')
            style_id = int(el.get('s', 0))
            if data_type == "inlineStr":
                child = el.find(INLINE_STRING)
                value = None
                if child is not None:
                    data_type = 's'
                    value = get_text_content(child)
            else:
                value = el.findtext(VALUE_TAG, None) or None
                if data_type == 'n':
                    if re.search("[.e]", value, flags=re.I):
                        value = float(value)
                    else:
                        value = int(value)
                    if style_id in date_formats:
                        data_type = 'd'
                        try:
                            value = from_excel_time(value, epoch)
                        except (OverflowError, ValueError):
                            data_type = "e"
                            value = "#VALUE!"
                elif data_type == 's':
                    value = shared_strings[int(value)]
                elif data_type == 'b':
                    value = bool(int(value))
                elif data_type == "str":
                    data_type = "s"
                elif data_type == 'd':
                    value = from_ISO8601(value)
            cells.append(value)
        element.clear()
        data.append(cells)
    src.close()
    return data


data = load_data(archive, name2file['Sheet1'])
data

结果：

[['商品', '单价', '数量', '订单号', '订单时间', '总金额', '名称管理'],
 ['苹果', 5.5, 1, 'A', datetime.datetime(2020, 1, 5, 12, 20), 5.5, '哈密瓜'],
 ['哈密瓜', 8, 3, 'B', datetime.time(12, 35), 24, '苹果'],
 ['芒果', 10, 2, 'C', datetime.datetime(2020, 1, 7, 9, 10), 20, '芒果']]

可以看到已经顺利的读取所需要的各种类型的数据。

注意：get_text_content在前面的read_strings一节已经实现。

最终我们终于顺利的实践了解析Excel的全过程，可以基于以上过程封装几个简易的类解决该问题。

你可能感兴趣的:(python,pandas,excel,python)

释放 DeepSeek 的力量：像专家一样本地安装与探索！ guzhoumingyue AI python
要在本地运行DeepSeek，您需要遵循以下步骤。请确保您的计算机上已安装Python和Git，并且满足DeepSeek的依赖项。步骤1:安装依赖项安装Python和pip确保您已安装Python（建议使用Python3.6及以上版本）。您可以通过在终端/命令提示符中输入以下命令来检查Python是否已安装：bash复制代码python--version或者bash复制代码python3--ver
ffmpeg-python安装 neverayever 计算机 ffmpeg python linux
centos-ffmpeg-python安装安装ffmpeg一：下载并解压wgethttp://www.ffmpeg.org/releases/ffmpeg-4.2.tar.gztar-zxvfffmpeg-4.2.tar.gz若linux服务器没网，可以在windows上直接访问http://www.ffmpeg.org/releases/ffmpeg-4.2.tar.gz就可下载，然后上传至服
Python的那些事第二十七篇：Python中的“数据魔法师”NumPy 暮雨哀尘 Python的那些事 python numpy 开发语言数据分析算法数组索引
摘要在这篇幽默风趣的论文中，我们将深入探讨NumPy——Python中最强大的数值计算库之一。它不仅提供了高性能的多维数组对象，还让复杂的数学运算变得像吃冰淇淋一样简单。本文将通过生动的代码示例和幽默的比喻，带你领略NumPy的魔法世界，让你在欢笑中掌握这个强大的工具。一、引言：为什么NumPy是程序员的“超级英雄”？1.1NumPy的起源：从“数据苦力”到“数据魔法师”想象一下，你被困在一个全是
Python爬虫TLS dme. Python爬虫零基础入门爬虫 python
TLS指纹校验原理和绕过浏览器可以正常访问，但是用requests发送请求失败。后端是如何监测得呢？为什么浏览器可以返回结果，而requests模块不行呢？https://cn.investing.com/equities/amazon-com-inc-historical-data1.指纹校验案例1.1案例：ascii2dhttps://ascii2d.net/importrequestsres
python爬虫Selenium库详细教程_python爬虫之selenium库的使用详解嘻嘻哈哈学编程程序员 python 爬虫 selenium
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化学习资料的朋友，可以戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！2.2访问页面2.3查找元素2.3.1单个元素下面
排序算法：冒泡排序（Python）娱乐不打烊丶排序算法算法数据结构
思路：大家一定都喝过汽水吧，汽水中常常有许多小小的气泡，往上飘，这是因为组成小气泡的二氧化碳比水要轻，所以小气泡才会一点一点的向上浮。而冒泡排序之所以叫冒泡排序，正是因为这种排序算法的每一个元素都可以向小气泡一样，根据自身大小，一点一点向着数组的一侧移动。一图解百惑，上图！那么，话不多说，上代码！defbubble_sort(input_list):#冒泡排序：每次循环，锁定一个最值，并朝着最大或
supervisord 命令介绍和使用案例 lisanmengmeng linux 命令工具系统运维 shell编程服务器 linux 运维
supervisord命令介绍和使用案例supervisord是一个用Python编写的进程管理工具，用于监控和管理Linux系统中的进程。它可以将普通的命令行进程转变为后台守护进程（daemon），并监控进程状态，在进程异常退出时自动重启。它通过fork/exec的方式把被管理的进程当作自己的子进程来启动。主要功能:进程管理：能够启动、停止、重启和关闭进程.自动重启：监控进程状态，并在进程崩溃时
ptython setup.py install 设置python包编译时的并行数 leo0308 基础知识 Python python pytorch3d
通过源码编译安装pytorch3d的时候，直接执行pythonsetup.pyinstall时，默认开的并行数很多，有10几个，直接导致机器卡死。通过设置下面的环境变量，可以设置较小的并行数，避免占用过多的资源。exportMAX_JOBS=4设置后，同时只有4个编译的进程。
vue根据vue-admin-template封装导出excel数据文件组件 Nikki_u vue.js 前端 javascript
（1）由于Export2Excel不仅依赖js-xlsx还依赖file-saver和script-loader。先需要安装如下命令npminstallxlsxfile-saver-Snpminstallscript-loader-S-D（2）导出表格地址https://github.com/PanJiaChen/vue-element-admin/blob/master/src/vendor/Ex
使用vue3框架vue-next-admin导出表格excel（带图片）乐多_L vue.js 前端 javascript
想要使用vue3导出表格内容并且图片显示在表格中（如图）：步骤如下：下载安装插件：安装命令：npminstalljs-table2excel引入插件：importtable2excelfrom'js-table2excel'使用插件直接上代码：onBatchExport方法中数据的key值要与data中保持一致，否则数据无法获取到，打印出的结果就回为undefined。我写了两种导出：一种是全部导
使用vue3框架vue-next-admin导出列表数据乐多_L vue.js 前端 javascript
在Vue3中实现Excel导出功能可以通过以下步骤完成，这里使用xlsx库来实现前端Excel导出：1.安装依赖npminstallxlsxfile-saver#或yarnaddxlsxfile-saver2.实现代码示例需要在当前页引入import*asXLSXfrom"xlsx";注释：我导出的数据为列表的全部数据（datum）；自定义我需要的表头，大家可以根据自己的需要进行替换。还可以只导出
python 自动化数据提取之正则表达式_python 正则提取(2) m0_60607245 程序员 python 学习面试
一、Python所有方向的学习路线Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照下面的知识点去找对应的学习资源，保证自己学得较为全面。二、Python必备开发工具工具都帮大家整理好了，安装就可直接上手！三、最新Python学习笔记当我学到一定基础，有自己的理解能力的时候，会去阅读一些前辈整理的书籍或者手写的笔记资料，这些笔记详细记载了他们对一些技术点的理
GUI编程（window系统→Linux系统）诚信爱国敬业友善心得 linux python gui
最近有个项目需要将windows系统的程序往Linux系统上面移植，由于之前程序没有考虑过多平台兼容的问题，导致部分功能不可用以下是对近期遇到的问题的总结，以及相应的解决方案和经验分享。1.Python模块安装与管理在Linux系统中，安装和管理Python模块时可能会遇到权限问题或依赖冲突。安装模块：使用pip安装模块时，建议使用--user选项，避免需要管理员权限：bash复制pipinsta
spring boot基于知识图谱的阿克苏市旅游管理系统python-计算机毕业设计 QQ1963288475 spring boot 知识图谱旅游 python vue.js django flask
目录功能和技术介绍具体实现截图开发核心技术：开发环境开发步骤编译运行核心代码部分展示系统设计详细视频演示可行性论证软件测试源码获取功能和技术介绍该系统基于浏览器的方式进行访问，采用springboot集成快速开发框架，前端使用vue方式，基于es5的语法，开发工具IntelliJIDEAx64，因为该开发工具，内嵌了Tomcat服务运行机制，可不用单独下载Tomcatserver服务器。由于考虑到
Python从0到100（三十九）：数据提取之正则（文末免费送书）是Dream呀 python mysql 开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
Python学习心得两大编程思想 lifegoesonwjl python 开发语言 pycharm 前端 c语言
一、两大编程思想：1.面向过程：功能上的封装典型代表：C语言2.面向对象：属性和行为上的封装典型代表：Python、Java二、面向过程与面向对象的异同点：1.区别：面向过程：事物比较简单，可用线性的思维去解决面向对象：事务比较复杂，使用简单的线性思维无法解决2.共同点：（1）面向过程和面向对象都是解决实际问题的一种思维方式；（2）二者相辅相成，并不是对立的；（3）解决复杂问题，通过面向对象方式便
Linux升级Anacodna并配置jupyterLab 伪_装环境部署 linux 服务器 Anaconda python jupyter
在使用Anaconda的过程中，随着项目和需求的发展，可能需要升级Anaconda的Base环境中的Python版本。本文将详细介绍如何安全地进行升级，包括步骤、代码示例与最终流程图。升级Python一、环境准备在进行任何升级之前，建议先检查当前的Python版本以及各个库的兼容性。我们可以通过以下命令检查当前的Python版本：condainfo你会看到类似以下的输出，其中包含了当前Python
【Linux】删除Conda虚拟环境不是伍壹 Linux linux conda 运维
1、查看当前系统的conda虚拟环境condainfo--envscondaenvlist2、创建虚拟的环境condacreate-n（你的环境名字）python=（你需要的版本号，如（3.7,3.8,3.10））3、查看安装了哪些包condalist4、删除虚拟环境condaremove-nname--all5、删除虚拟环境中的包condaremove--name$（需要删除的环境名字）$（需要
动态规划之背包问题--python版本我是小码搬运工 #python基础动态规划背包问题 python版本
动态规划之背包问题–python版本问题已知一个最大量的背包，给定一组给定固定价值和固定体积的物品，求在不超过最大值的前提下，能放入背包中的最大总价值。解题思路该问题是典型的动态规划问题，分为三种不同的类型（0-1背包问题、完全背包和多重背包问题）解题关键–状态转移表达式：B(k,C)=max(B(k−1,C),B(k−1,C−ci)+vi)B(k,C)=max(B(k-1,C),B(k-1,C-
Centos7 搭建 Jupyter + Nginx 服务某龙兄 python nginx linux centos
JupyterNotebook（此前被称为IPythonnotebook）是一个交互式笔记本，支持运行40多种编程语言。JupyterNotebook的本质是一个Web应用程序，便于创建和共享文学化程序文档，支持实时代码，数学方程，可视化和markdown。用途包括：数据清理和转换，数值模拟，统计建模，机器学习等等。本文讲述如何搭建Jupyter+Nginx服务,仅供学习与交流，请勿用于商业用途一
动态规划之背包问题的Python实现名侦探debug Python 数据结构 python 数据结构动态规划求解
目录1.问题描述2.动态规划之网格法3.python实现1.问题描述题目来源于《算法图解》第9章练习题9.2，如下图所示。对于背包问题，通常的做法有列举法、贪婪算法和动态规划（1）列举法：列举出所有的可能情况，再选择最优解，但当情况很多时，这种算法复杂度很高（2）贪婪算法：在容量允许范围内，每次都拿剩余物品中价值最高的，贪婪算法能够快速解决复杂度很高的问题，但通常得到的是次优解，但就对这个题目而言
总结10个Python赚钱的接单平台兼职月入5000+ begefefsef 面试学习路线阿里巴巴 android 前端后端
前言“如果说当下什么编程语言最靠谱或者比较适合搞副业？”答案肯定100%是：Pythonpython是所有语法中最简单易上手的语言，不需要特别的的英语词汇量，逻辑思维也不需要很差就能上手。而且学会了之后就能编写代码爬取各种数据，制作各种图表，提升工作效率。而且还能利用业余时间接点私活，一个月轻松收入过万不是问题，这样的生活他不香吗？今天就给大家盘点几个基本入门接私活的资源，让你轻松学python，
大学生学完python靠几个接单网站兼职，实现经济独立「已注销」 python 开发语言
大学生学完python靠几个接单网站兼职，实现经济独立程序员就是当今时代的手艺人，程序员可以通过个人的技术来谋生。而在工作之余接私单可以作为一种创富的途径，受到程序员的广泛认可。说句实在话，现在这个时代，很多人仅靠主业顶多维持基本生活，想让自己、家人生活好一点很难。我接的私活并不算多，加起来也就几万左右，只能算一半，我想把一些经验分享出来，毕竟现在生活都不容易，能赚一点是一点。一、程序员接活、新手
Python wifi 安装手机app yichengace python
目的当测试机数量越来越多时，测试包的安装会成为一个问题，用wifi安装来解决这个问题，并且用脚本语言来批量控制思路思路就是py调用pc端的adb命令，向手机发送请求，无线是因为，如果未来测试机越来越多，一台电脑的usb接口数量肯定不够准备工具python，adb，pycharm，测试用app，这里选择qq（https://qd.myapp.com/myapp/qqteam/AndroidQQ/mo
深度学习之目标检测的常用标注工具铭瑾熙人工智能机器学习深度学习深度学习目标检测目标跟踪
1LabelImgLabelImg是一款开源的图像标注工具，标签可用于分类和目标检测，它是用Python编写的，并使用Qt作为其图形界面，简单好用。注释以PASCALVOC格式保存为XML文件，这是ImageNet使用的格式。此外，它还支持COCO数据集格式。2labelmelabelme是一款开源的图像/视频标注工具，标签可用于目标检测、分割和分类。灵感是来自于MIT开源的一款标注工具Label
Python 舆论风向分析爬虫：全流程数据获取、清洗与情感剖析西攻城狮北 python 爬虫开发语言实战案例
引言在当今信息爆炸的时代，互联网上充斥着海量的用户言论和观点。了解舆论风向对于企业、政府机构以及研究者等具有重要的意义，可以帮助他们及时把握公众情绪、调整策略与决策。Python作为一种强大的编程语言，在数据爬取与分析方面具有得天独厚的优势，能够助力我们高效地实现舆情监测与深入剖析。一、环境搭建与目标确定1.环境搭建为了顺利完成爬虫与数据分析任务，首先需要确保你的开发环境已经安装了以下Python
PyCharm 集成 DeepSeek：本地运行 or API 直连？打造你的 AI 编程神器！ AI云极【AI智能系列】pycharm 人工智能 ide deepseek
在AI赋能编程的时代，如何让AI辅助写代码，提升开发效率？DeepSeek作为一款开源、强大、免费的AI编程助手，结合PyCharm，能够大幅提升Python编程体验。今天，我们就来详细讲解如何在PyCharm中接入DeepSeek，无论你想使用本地部署的DeepSeek，还是官方API版本，都能轻松实现！为什么选择DeepSeek+PyCharm？DeepSeekR1采用6710亿参数的MoE（
Python3.5源码分析-sys模块及site模块导入小屋子大侠 python Python分析 python源码
Python3源码分析本文环境python3.5.2。参考书籍>python官网Python3的sys模块初始化根据分析完成builtins初始化后，继续分析sys模块的初始化，继续分析_Py_InitializeEx_Private函数的执行，void_Py_InitializeEx_Private(intinstall_sigs,intinstall_importlib){...sysmod=
【CUDA】Pytorch_Extensions joker D888 深度学习 pytorch python cuda c++深度学习
【CUDA】Pytorch_Extensions为什么要开发CUDA扩展？当我们在PyTorch中实现自定义算子时，通常有两种选择：使用纯Python实现（简单但效率低）使用C++/CUDA扩展（高效但需要编译）对于计算密集型的操作（如神经网络中的自定义激活函数），使用CUDA扩展可以获得接近硬件极限的性能。本文将以实现一个多项式激活函数x²+x+1为例，展示完整的开发流程。完整CUDA扩展代码解
Labelbox：引领AI与人类协作的未来魏兴雄Milburn
Labelbox：引领AI与人类协作的未来labelbox-pythonLabelboxPythonClient项目地址:https://gitcode.com/gh_mirrors/la/labelbox-python项目介绍Labelbox是一款专为企业和学术研究社区设计的开源工具，旨在简化数据标注、生成高质量的人类反馈数据、评估和提升模型性能，并通过无缝结合AI与人类工作流程来自动化任务。无
关于旗正规则引擎下载页面需要弹窗保存到本地目录的问题何必如此 jsp 超链接文件下载窗口
生成下载页面是需要选择“录入提交页面”，生成之后默认的下载页面<a>标签超链接为：<a href="<%=root_stimage%>stimage/image.jsp?filename=<%=strfile234%>&attachname=<%=java.net.URLEncoder.encode(file234filesourc
【Spark九十八】Standalone Cluster Mode下的资源调度源代码分析 bit1129 cluster
在分析源代码之前，首先对Standalone Cluster Mode的资源调度有一个基本的认识：首先，运行一个Application需要Driver进程和一组Executor进程。在Standalone Cluster Mode下，Driver和Executor都是在Master的监护下给Worker发消息创建(Driver进程和Executor进程都需要分配内存和CPU，这就需要Maste
linux上独立安装部署spark daizj linux 安装 spark 1.4 部署
下面讲一下linux上安装spark，以 Standalone Mode 安装 1）首先安装JDK 下载JDK：jdk-7u79-linux-x64.tar.gz ，版本是1.7以上都行，解压 tar -zxvf jdk-7u79-linux-x64.tar.gz 然后配置 ~/.bashrc&nb
Java 字节码之解析一周凡杨 java 字节码 javap
一： Java 字节代码的组织形式类文件 { OxCAFEBABE ，小版本号，大版本号，常量池大小，常量池数组，访问控制标记，当前类信息，父类信息，实现的接口个数，实现的接口信息数组，域个数，域信息数组，方法个数，方法信息数组，属性个数，属性信息数组 } &nbs
java各种小工具代码 g21121 java
1.数组转换成List import java.util.Arrays; Arrays.asList(Object[] obj); 2.判断一个String型是否有值 import org.springframework.util.StringUtils; if (StringUtils.hasText(str)) 3.判断一个List是否有值 import org.spring
加快FineReport报表设计的几个心得体会老A不折腾 finereport
一、从远程服务器大批量取数进行表样设计时，最好按“列顺序”取一个“空的SQL语句”，这样可提高设计速度。否则每次设计时模板均要从远程读取数据，速度相当慢！！二、找一个富文本编辑软件（如NOTEPAD+）编辑SQL语句，这样会很好地检查语法。有时候带参数较多检查语法复杂时，结合FineReport中生成的日志，再找一个第三方数据库访问软件（如PL/SQL）进行数据检索，可以很快定位语法错误。
mysql linux启动与停止墙头上一根草
如何启动/停止/重启MySQL一、启动方式1、使用 service 启动：service mysqld start2、使用 mysqld 脚本启动：/etc/inint.d/mysqld start3、使用 safe_mysqld 启动：safe_mysqld&二、停止1、使用 service 启动：service mysqld stop2、使用 mysqld 脚本启动：/etc/inin
Spring中事务管理浅谈 aijuans spring 事务管理
Spring中事务管理浅谈 By Tony Jiang@2012-1-20 Spring中对事务的声明式管理拿一个XML举例 [html] view plain copy print ? <?xml version="1.0" encoding="UTF-8"?>&nb
php中隐形字符65279（utf-8的BOM头）问题 alxw4616
php中隐形字符65279（utf-8的BOM头）问题今天遇到一个问题. php输出JSON 前端在解析时发生问题:parsererror. 调试: 1.仔细对比字符串发现字符串拼写正确.怀疑是非打印字符的问题. 2.逐一将字符串还原为unicode编码. 发现在字符串头的位置出现了一个 65279的非打印字符.
调用对象是否需要传递对象(初学者一定要注意这个问题) 百合不是茶对象的传递与调用技巧
类和对象的简单的复习,在做项目的过程中有时候不知道怎样来调用类创建的对象,简单的几个类可以看清楚,一般在项目中创建十几个类往往就不知道怎么来看为了以后能够看清楚,现在来回顾一下类和对象的创建,对象的调用和传递(前面写过一篇) 类和对象的基础概念: JAVA中万事万物都是类类有字段(属性),方法,嵌套类和嵌套接
JDK1.5 AtomicLong实例 bijian1013 java thread java多线程 AtomicLong
JDK1.5 AtomicLong实例类 AtomicLong 可以用原子方式更新的 long 值。有关原子变量属性的描述，请参阅 java.util.concurrent.atomic 包规范。AtomicLong 可用在应用程序中（如以原子方式增加的序列号），并且不能用于替换 Long。但是，此类确实扩展了 Number，允许那些处理基于数字类的工具和实用工具进行统一访问。
自定义的RPC的Java实现 bijian1013 java rpc
网上看到纯java实现的RPC，很不错。 RPC的全名Remote Process Call，即远程过程调用。使用RPC，可以像使用本地的程序一样使用远程服务器上的程序。下面是一个简单的RPC 调用实例，从中可以看到RPC如何
【RPC框架Hessian一】Hessian RPC Hello World bit1129 Hello world
什么是Hessian The Hessian binary web service protocol makes web services usable without requiring a large framework, and without learning yet another alphabet soup of protocols. Because it is a binary p
【Spark九十五】Spark Shell操作Spark SQL bit1129 shell
在Spark Shell上，通过创建HiveContext可以直接进行Hive操作 1. 操作Hive中已存在的表 [hadoop@hadoop bin]$ ./spark-shell Spark assembly has been built with Hive, including Datanucleus jars on classpath Welcom
F5　往header加入客户端的ip ronin47
when HTTP_RESPONSE {if {[HTTP::is_redirect]}{ HTTP::header replace Location [string map {:port/ /} [HTTP::header value Location]]HTTP::header replace Lo
java-61-在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差. 求所有数对之差的最大值。例如在数组{2, 4, 1, 16, 7, 5, bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/2541117420116135376632/ 写了个java版的 public class GreatestLeftRightDiff { /** * Q61.在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差。 * 求所有数对之差的最大值。例如在数组
mongoDB 索引开窍的石头 mongoDB索引
在这一节中我们讲讲在mongo中如何创建索引得到当前查询的索引信息 db.user.find(_id:12).explain(); cursor: basicCoursor 指的是没有索引 &
[硬件和系统]迎峰度夏 comsci 系统
从这几天的气温来看，今年夏天的高温天气可能会维持在一个比较长的时间内所以，从现在开始准备渡过炎热的夏天。。。。每间房屋要有一个落地电风扇，一个空调(空调的功率和房间的面积有密切的关系) 坐的，躺的地方要有凉垫，床上要有凉席电脑的机箱
基于ThinkPHP开发的公司官网 cuiyadll 行业系统
后端基于ThinkPHP，前端基于jQuery和BootstrapCo.MZ 企业系统轻量级企业网站管理系统运行环境:PHP5.3+, MySQL5.0 系统预览系统下载：http://www.tecmz.com 预览地址：http://co.tecmz.com 各种设备自适应响应式的网站设计能够对用户产生友好度，并且对于
Transaction and redelivery in JMS (JMS的事务和失败消息重发机制) darrenzhu jms 事务承认 MQ acknowledge
JMS Message Delivery Reliability and Acknowledgement Patterns http://wso2.com/library/articles/2013/01/jms-message-delivery-reliability-acknowledgement-patterns/ Transaction and redelivery in
Centos添加硬盘完全教程 dcj3sjt126com linux centos hardware
Linux的硬盘识别: sda 表示第1块SCSI硬盘 hda 表示第1块IDE硬盘 scd0 表示第1个USB光驱一般使用“fdisk -l”命
yii2 restful web服务路由 dcj3sjt126com PHP yii2
路由随着资源和控制器类准备，您可以使用URL如 http://localhost/index.php?r=user/create访问资源，类似于你可以用正常的Web应用程序做法。在实践中，你通常要用美观的URL并采取有优势的HTTP动词。例如，请求POST /users意味着访问user/create动作。这可以很容易地通过配置urlManager应用程序组件来完成如下所示
MongoDB查询(4)——游标和分页[八] eksliang mongodb MongoDB游标 MongoDB深分页
转载请出自出处：http://eksliang.iteye.com/blog/2177567 一、游标数据库使用游标返回find的执行结果。客户端对游标的实现通常能够对最终结果进行有效控制，从shell中定义一个游标非常简单，就是将查询结果分配给一个变量（用var声明的变量就是局部变量），便创建了一个游标，如下所示： > var
Activity的四种启动模式和onNewIntent() gundumw100 android
Android中Activity启动模式详解　　在Android中每个界面都是一个Activity，切换界面操作其实是多个不同Activity之间的实例化操作。在Android中Activity的启动模式决定了Activity的启动运行方式。　　Android总Activity的启动模式分为四种： Activity启动模式设置： <acti
攻城狮送女友的CSS3生日蛋糕 ini html Web html5 css css3
在线预览：http://keleyi.com/keleyi/phtml/html5/29.htm 代码如下： <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>攻城狮送女友的CSS3生日蛋糕-柯乐义<
读源码学Servlet（1）GenericServlet 源码分析 jzinfo tomcat Web servlet 网络应用网络协议
Servlet API的核心就是javax.servlet.Servlet接口，所有的Servlet 类（抽象的或者自己写的）都必须实现这个接口。在Servlet接口中定义了5个方法，其中有3个方法是由Servlet 容器在Servlet的生命周期的不同阶段来调用的特定方法。先看javax.servlet.servlet接口源码： package
JAVA进阶：VO(DTO)与PO(DAO)之间的转换 snoopy7713 java VO Hibernate po
PO即 Persistence Object　　VO即 Value Object 　VO和PO的主要区别在于：　　VO是独立的Java Object。　　PO是由Hibernate纳入其实体容器（Entity Map）的对象，它代表了与数据库中某条记录对应的Hibernate实体，PO的变化在事务提交时将反应到实际数据库中。　实际上，这个VO被用作Data Transfer
mongodb group by date 聚合查询日期统计每天数据（信息量） qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 1 */ { "_id" : ObjectId("557ac1e2153c43c320393d9d"), "msgType" : "text", "sendTime" : ISODate("2015-06-12T11:26:26.000Z")
java之18天常用的类(一) Luob. Math Date System Runtime Rundom
System类 import java.util.Properties; /** * System: * out:标准输出,默认是控制台 * in:标准输入,默认是键盘 * * 描述系统的一些信息 * 获取系统的属性信息:Properties getProperties(); * * * */ public class Sy
maven wuai maven
1、安装maven：解压缩、添加M2_HOME、添加环境变量path 2、创建maven_home文件夹，创建项目mvn_ch01,在其下面建立src、pom.xml，在src下面简历main、test、main下面建立java文件夹 3、编写类，在java文件夹下面依照类的包逐层创建文件夹，将此类放入最后一级文件夹 4、进入mvn_ch01 4.1、mvn compile ,执行后会在