jiutao_tang

5.常用的数据解析组件

数据解析的过程就是从一种格式的数据文档中提取出我们需要的信息。

Word 、 Pdf 、 Excel 、 XML

1. 解析 PDF 文档

PDF （ Portable Document Format ，便携式文档格式）

PDFBox 是一个开源的，可以操作 PDF 文档的 Java PDF 类库。它可以创建新的 PDF 文档，操作现有的 PDF 文档并提取文档中的内容。

主页： http://pdfbox.apache.org/

l docs ：产品文档和说明

l src ：源代码文件

l external ：外部类文件

l lib ：核心类文件

编译时，要把 PDFBox-0.73.jar 文件放到编译路径中。通常还会用到 external 目录内的某些文件，所以为了编译通过，最稳妥的办法是把 external 和 lib 目录下的所有 jar 文件放到编译路径中。

（ 1 ） PDFBox 的 PDFTextStripper 类含有 getText 方法，用来从 PDF 文档中提取纯文本

PDDocument document = PDDocument.load("c:/java/Only you.pdf");

PDFTextStripper stripper = new PDFTextStripper();

String s = stripper.getText(Document);

（ 2 ） writeText 方法可以将 PDF 中的纯文本提取出来，写入一个输出流中，用这个方法可以很方便的把提取出的 PDF 内容输出到一个文本文件中。

示例一：提取 PDF 内容到字符串，利用 getText 方法

//PDFBoxA.java 提取 PDF 内容到字符串

import java.io.*;

import org.pdfbox.pdmodel.PDDocument;

import org.pdfbox.util.*;

public class PDFBoxA

{

public String getText(String file) throws Exception

{

String pdfFile = file;

PDDocument document = null;

String s = "";

try

{

document = PDDocument.load(pdfFile);

// 用 PDFTextStripper 来提取文本

PDFTextStripper stripper = new PDFTextStripper();

s=stripper.getText(document);

}

catch(Exception e)

{

System.out.println(e);

}

finally

{

if (document != null)

{

// 关闭 PDF Document

document.close();

}

return s;

}

public static void main(String[] args)

{

PDFBoxA a = new PDFBoxA();

try

{

String s = a.getText("D:/pdfbox/Only you.pdf");

System.out.println(s);

}

catch (Exception e)

{

e.printStackTrace();

}

示例二：提取 PDF 内容输出到文本文件中，利用 writeText 方法

//PDFBoxB.java

import java.io.*;

import org.pdfbox.pdmodel.PDDocument;

import org.pdfbox.util.*;

public class PDFBoxB

{

public void writeText(String file) throws Exception

{

String pdfFile = file;

PDDocument document = null;

try

{

// 装载文件

document = PDDocument.load(pdfFile);

// 用 PDFTextStripper 来提取文本

PDFTextStripper stripper = new PDFTextStripper();

// 提取文本，写入 pdfboxb.txt 文件

PrintWriter pw=new PrintWriter(new FileWriter("pdfboxb.txt"));

stripper.writeText(document,pw);

pw.close();

System.out.println(" 文本已经成功写入！ ");

}

catch(IOException ioe)

{

System.out.println(" 文件读写错误！ ");

System.out.println(ioe.getMessage());

}

finally

{

if (document != null)

{

// 关闭 PDF Document

document.close();

}

public static void main(String[] args)

{

PDFBoxB a = new PDFBoxB();

try

{

a.writeText("D:/pdfbox/Only you.pdf");

}

catch (Exception e)

{

e.printStackTrace();

}

示例三：标准的 PDF 解析类，以后可以直接用

2. 解析 Word

POI 有一个附加组件包 textmining ，可以用来解析 Word 文档，从中提取文本

下载：

// 创建输入流读取 DOC 文件

FileInputStream in = new FileInputStream(new File(“c:/hello.doc”));

// 创建 WordExtractor

WordExtractor extractor = new WordExtractor();

// 提取文本

String text = extractor.extractText(in);

// 写入文本文件

PrintWriter pw=new PrintWriter(new FileWriter(new File(“c:/hello.txt”)));

pw.write(text);

pw.flush();

pw.close();

3. 解析 Excel

POI 是专门用来处理 Excel 的组件。

Java Excel 也是用得较多的 Java 处理类库。

Java Excel API （简称 JExcel ）是一个开发源代码项目，用来读取 Excel 文件内容、创建新 Excel 文件、更新已存在的文件。这是纯 Java 开发的组件，因此在非 Windows 系统中也可以用来处理 Excel 。

在 Web 应用中也可以通过 JSP 、 Servlet 调用这套 API 实现对 Excel 数据表的访问。

4. 解析 XML

Java 中对 XML 的解析接口有三大类：基于 DOM 的、基于 SAX 的和基于 JDOM 的。

DOM 即文档对象模型，基于 DOM 的 XML 解析器将 XML 文档解析成一个对象模型的集合（这个集合被称为 DOM 树），应用程序通过对该对象模型的操作，实现对 XML 文档中数据的操作。

SAX （ Simple API For XML ），即 XML 简单应用程序接口，提供了一种对 XML 文档进行顺序访问的模式，这是一种快速读写 XML 数据的方式。当使用 SAX 分析器对 XML 文档进行分析时，会触发一系列事件，并激活相应的事件处理函数，从而完成对 XML 文档的访问。因此， SAX 接口也被称为事件驱动接口。

JDOM 的处理方式与 DOM 类似，是 SUN 公司方便的一种简单方便的 XML 处理接口。

基于这三种解析方式的 XML 解析器有多种，解析器实际上就是一段代码，它读入一个 XML 文档并分析其结构，目录主流的解析器有： JAXP （ Java API for XML Processing ）、 Xerces （ apache ）、 XML4J （ IBM ）、 xalan 。主流的解析器都支持 SAX 和 DOM 。

最常用的 DOM 和 SAX 解析器是 xalan.jar 和 xerces.jar ， JDOM 解析器只能用 jdom.jar ，但 jdom 在执行时需要 xerces.jar 包。

目前，对 XML 解析效果最好的解析器是 DOM4J

示例一：使用 DOM4J 解析 XML 文档

示例二： XML 文档标准解析器 ExtractorXML.java

在搜索引擎应用在，解析 XML 的最大意义是把 XML 文档解析成纯文本，然后建立索引。这种情况下，无需使用这些解析器，只要用正则表达式就可以了。借助于 Java 标准类库的正则表达式，可以将 XML 文档中所有的节点数据都提取出来。

public static String getText(String doc)

{

StringBuffer sb=new StringBuffer("");

try

{

FileReader fr=new FileReader(new File(doc));

BufferedReader br=new BufferedReader(fr);

String s=br.readLine();

while(s!=null)

{

s = s.replaceAll("<[a-zA-Z0-9]*[^<>]+>","");

s = s.trim();

sb.append(s);

s=br.readLine();

}

br.close();

}

catch(Exception e)

{

sb.append("");

}

return sb.toString();

}

5. 解析 HTML 文档

一个合乎 XML 标准的 HTML 文档就是 XHTML 文档

开源组件 HTMLParser 专门用来解析 HTML 文档

HTMLParser 是一个纯 java 写的 html 解析的库，它不依赖于其它的 java 库文件，主要用于改造或提取 HTML 。它能超高速解析 HTML ，而且不会出错。

功能：

1．信息提取　　

l 文本信息抽取，例如对 HTML 进行有效信息搜索　　

l 链接提取，用于自动给页面的链接文本加上链接的标签　　

l 资源提取，例如对一些图片、声音的资源的处理　　

l 链接检查，用于检查 HTML 中的链接是否有效　　

l 页面内容的监控　　

2．信息转换　　

l 链接重写，用于修改页面中的所有超链接　

l 网页内容拷贝，用于将网页内容保存到本地　　

l 内容检验，可以用来过滤网页上一些令人不愉快的字词　　

l HTML 信息清洗，把本来乱七八糟的 HTML 信息格式化　　

l 转成 XML 格式数据

下载： http://htmlparser.sourceforge.net/

src.zip 是源代码文件； bin 是可执行脚本程序； docs 目录下是说明和 API 文档； lib 是 jar 文件，有 6 个： junit.jar （测试）和 sax2.jar （ XML 解析）是第三方组件。其它 4 个组件是 HTMLParser 的专有组件 filterbuilder.jar 、 htmlparser.jar 、 htmllexer.jar 、 thumbelina.jar

5.1 网页编码问题

网页一般用如下语句指明编码：

HTMLParser 在解析页面时，首先提取爷们编码。如果页面中指明了编码方式，那么 HTMLParser 就按照这个编码方式去解析和显示数据，如果没有指明编码方式，就按照 ISO-8859-1 编码方式解析。

HTMLParser 处理网页的一般方法如下：

（1）获得页面的编码方式

（2）如果页面设定了编码，且编码方式正确，那么 HTMLParser 自由执行

（3）如果页面设定了编码，但编码方式错误，那么要采用编码转换方式进行解析或者对解析结果进行编码转换

（4）如果页面没设定编码，那么 HTMLParser 默认会按照 ISO-8859-1 的编码方式去解析网页。我们要改变其默认解析方式，采用编码转换的方式进行解析，或者对解析结果进行编码转换。

5.2 网页解析一般方法

（1）未设定编码的中文网页

l StringBean 类解析 BeanConvert.java

import org.htmlparser.beands.StringBean;

public static String getText(String f) throws Exception

{

StringBean sb = new StringBean ();

sb.setLinks (false);

sb.setReplaceNonBreakingSpaces (true);

sb.setCollapse (true);

sb.setURL (f);

String s = sb.getStrings ();

s = new String(s.getBytes("iso-8859-1")); // 对结果进行编码转换

return s;

}

l TextExtractingVisitor 类解析 ParserConvert.java

import org.htmlparser.Parser;

import org.htmlparser.util.ParserException;

import org.htmlparser.visitors.TextExtractingVisitor;

public static String getText(String f) throws Exception

{

Parser parser = new Parser (f);

TextExtractingVisitor visitor = new TextExtractingVisitor ();

parser.visitAllNodesWith (visitor);

String s = visitor.getExtractedText();

s = new String(s.getBytes("iso-8859-1")); // 编码转换

return s;

}

（2）设定正确编码的中文网页

l StringBean 类解析 BeanNormal.java

import org.htmlparser.beans.StringBean;

public class BeanNormal

{

public static void main (String[] args)

{

String file = "tb.htm";

String s = getText(file);

System.out.println (s);

}

public static String getText(String f)

{

StringBean sb = new StringBean ();

sb.setLinks (false);

sb.setReplaceNonBreakingSpaces (true);

sb.setCollapse (true);

sb.setURL (f);

String s = sb.getStrings ();

// 只是没有结果编码转换那一步而已

return s;

}

l TextExtractingVisitor 类解析 ParserNormal.java

//ParserNormal.java

package extractors;

import org.htmlparser.Parser;

import org.htmlparser.util.ParserException;

import org.htmlparser.visitors.TextExtractingVisitor;

public class ParserNormal

{

public static void main (String[] args) throws Exception

{

String file = "tb.htm";

String s = getText(file);

System.out.println (s);

}

public static String getText(String f) throws Exception

{

Parser parser = new Parser (f);

TextExtractingVisitor visitor = new TextExtractingVisitor ();

parser.visitAllNodesWith (visitor);

String s = visitor.getExtractedText();

// 只是没有结果编码转换那一步而已

return s;

}

（3） 设定了错误编码的页面

先去掉其编码标识，再进行解析

//ParserDelete.java

package extractors;

import org.htmlparser.Parser;

import org.htmlparser.util.ParserException;

import org.htmlparser.visitors.TextExtractingVisitor;

import java.io.*;

public class ParserDelete

{

public static void main (String[] args) throws Exception

{

String file = "ta.htm";

String s = getText(file);

System.out.println (s);

}

public static String getText(String f) throws Exception

{

// 读取文件内容

FileReader fr=new FileReader(f);

BufferedReader br=new BufferedReader(fr);

String s=br.readLine();

StringBuffer sb=new StringBuffer("");

while(s!=null)

{

sb.append(s);

s=br.readLine();

}

br.close();

// 除掉页面中原来设定的编码

s = sb.toString().toLowerCase();

s = s.replaceAll("<meta http-equive","<metaa");

// 重新解析原文件

Parser parser = new Parser (f);

parser.setEncoding("gbk"); // 多的两行，设定编码，

parser.setInputHTML(s); // 输入

TextExtractingVisitor visitor = new TextExtractingVisitor ();

parser.visitAllNodesWith (visitor);

s = visitor.getExtractedText();

return s;

}

5.3 常见解析请求

（1） 提取所有链接 linkFull.java

import org.htmlparser.NodeFilter;

import org.htmlparser.Parser;

import org.htmlparser.filters.NodeClassFilter;

import org.htmlparser.tags.LinkTag;

import org.htmlparser.util.NodeIterator;

import org.htmlparser.util.NodeList;

import org.htmlparser.util.ParserException;

public class LinkFull

{

public static void main (String[] args)throws ParserException

{

String s = getText ("td.htm");

System.out.println (s);

}

public static String getText(String f)throws ParserException

{

StringBuffer sb = new StringBuffer("");

Parser parser = new Parser (f);

NodeFilter filter = new NodeClassFilter (LinkTag.class); // 过滤标签

NodeList links = new NodeList ();

for (NodeIterator e = parser.elements (); e.hasMoreNodes (); )

{

e.nextNode ().collectInto (links, filter);

}

for (int i = 0; i < links.size (); i++)

{

LinkTag linkTag = (LinkTag)links.elementAt (i);

sb.append("/"" + linkTag.getLinkText () + "/" => ");

sb.append(linkTag.getLink ());

sb.append("/n");

}

return sb.toString();

}

（2） 只提取普通链接 LinkSimple.java 利用 LinkBean 类

//LinkSimple.java

package extractors;

import java.net.URL;

import org.htmlparser.beans.LinkBean;

public class LinkSimple

{

public static void main (String[] args)

{

String s = getText ("td.htm");

System.out.println (s);

}

public static String getText(String f)

{

StringBuffer sb = new StringBuffer("");

LinkBean lb = new LinkBean ();

lb.setURL (f);

URL[] urls = lb.getLinks ();

for (int i = 0; i < urls.length; i++)

{

sb.append(urls[i] + "/n");

}

return sb.toString();

}

（3） 提取 Email ， EmailNormal.java （编码） EmailConvert.java （未指明编码）

（4） 提取网页 title 和 body parsePage.java

import org.htmlparser.*;

import org.htmlparser.visitors.*;

import org.htmlparser.util.*;

public class ParserPage

{

public static void main (String[] args) throws ParserException

{

Parser parser = new Parser ("te.htm");

//parser.setEncoding("gbk");

HtmlPage hp = new HtmlPage(parser);

parser.visitAllNodesWith(hp);

//title

String title = hp.getTitle();

System.out.println("title:" + title);

//body--1

NodeList body = hp.getBody();

String b = body.asString();

System.out.println("body:" + b);

}

（5） 其它标签 CustomTag.java

import org.htmlparser.Node;

import org.htmlparser.Parser;

import org.htmlparser.util.ParserException;

import org.htmlparser.visitors.TagFindingVisitor;

import org.htmlparser.visitors.HtmlPage;

public class CustomTag

{

public static void main (String[] args) throws ParserException

{

Parser parser = new Parser ("te.htm");

String [] tags = {"title","body"};

TagFindingVisitor visitor = new TagFindingVisitor (tags);

parser.visitAllNodesWith (visitor);

//title

Node [] myTags = visitor.getTags(0);

String title = myTags[0].toPlainTextString();

//body

myTags = visitor.getTags(1);

String body = myTags[0].toPlainTextString();

System.out.println("title:" + title);

System.out.println("body:" + body);

}

6. 集成解析器 ExtractorAll.java

根据扩展名，选择不同的解析器

你可能感兴趣的:(html,exception,xml,String,Excel,文档)

LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
swagger访问路径 igotyback swagger
Swagger2.x版本访问地址：http://{ip}:{port}/{context-path}/swagger-ui.html{ip}是你的服务器IP地址。{port}是你的应用服务端口，通常为8080。{context-path}是你的应用上下文路径，如果应用部署在根路径下，则为空。Swagger3.x版本对于Swagger3.x版本（也称为OpenAPI3）访问地址：http://{ip
html 中如何使用 uniapp 的部分方法某公司摸鱼前端 html uni-app 前端
示例代码：Documentconsole.log(window);效果展示：好了，现在就可以uni.使用相关的方法了
高级编程--XML+socket练习题 masa010 java 开发语言
1.北京华北2114.8万人上海华东2,500万人广州华南1292.68万人成都华西1417万人（1）使用dom4j将信息存入xml中（2）读取信息，并打印控制台（3）添加一个city节点与子节点（4）使用socketTCP协议编写服务端与客户端，客户端输入城市ID，服务器响应相应城市信息（5）使用socketTCP协议编写服务端与客户端，客户端要求用户输入city对象，服务端接收并使用dom4j
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
每日一题——第九十题互联网打工人no1 C语言程序设计每日一练 c语言
题目：判断子串是否与主串匹配#include#include#include//////判断子串是否在主串中匹配//////主串///子串///boolisSubstring(constchar*str,constchar*substr){intlenstr=strlen(str);//计算主串的长度intlenSub=strlen(substr);//计算子串的长度//遍历主字符串，对每个可能得
C#中使用split分割字符串互联网打工人no1 c#
1、用字符串分隔：usingSystem.Text.RegularExpressions;stringstr="aaajsbbbjsccc";string[]sArray=Regex.Split(str,"js",RegexOptions.IgnoreCase);foreach(stringiinsArray)Response.Write(i.ToString()+"");输出结果：aaabbbc
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
四章-32-点要素的聚合彩云飘过
本文基于腾讯课堂老胡的课《跟我学Openlayers--基础实例详解》做的学习笔记，使用的openlayers5.3.xapi。源码见1032.html，对应的官网示例https://openlayers.org/en/latest/examples/cluster.htmlhttps://openlayers.org/en/latest/examples/earthquake-clusters.
DIV+CSS+JavaScript技术制作网页（旅游主题网页设计与制作）云南大理 STU学生网页设计网页设计期末网页作业 html静态网页 html5期末大作业网页设计 web大作业
️精彩专栏推荐作者主页:【进入主页—获取更多源码】web前端期末大作业：【HTML5网页期末作业(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】文章目录二、网站介绍三、网站效果▶️1.视频演示2.图片演示四、网站代码HTML结构代码CSS样式代码五、更多源码二、网站介绍网站布局方面：计划采用目前主流的、能兼容各大主流浏览器、显示效果稳定的浮动网页布局结构。网站程
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
关于城市旅游的HTML网页设计——(旅游风景云南 5页)HTML+CSS+JavaScript 二挡起步 web前端期末大作业 javascript html css 旅游风景
⛵源码获取文末联系✈Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业|游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作|HTML期末大学生网页设计作业，Web大学生网页HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScrip
HTML网页设计制作大作业（div+css）云南我的家乡旅游景点带文字滚动二挡起步 web前端期末大作业 web设计网页规划与设计 html css javascript dreamweaver 前端
Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作HTML期末大学生网页设计作业HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScript：做与用户的交互行为文章目录前端学习路线
【目标检测数据集】卡车数据集1073张VOC+YOLO格式熬夜写代码的平头哥∰ 目标检测 YOLO 人工智能
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：1073标注数量(xml文件个数)：1073标注数量(txt文件个数)：1073标注类别数：1标注类别名称:["truck"]每个类别标注的框数：truck框数=1120总框数：1120使用标注工具：labelImg标注
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
钢筋长度超限检测检数据集VOC+YOLO格式215张1类别 futureflsl 数据集 YOLO 深度学习机器学习
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：215标注数量(xml文件个数)：215标注数量(txt文件个数)：215标注类别数：1标注类别名称:["iron"]每个类别标注的框数：iron框数=215总框数：215使用标注工具：labelImg标注规则：对类别进
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
Redis系列：Geo 类型赋能亿级地图位置计算 Ly768768 redis bootstrap 数据库
1前言我们在篇深刻理解高性能Redis的本质的时候就介绍过Redis的几种基本数据结构，它是基于不同业务场景而设计的：动态字符串(REDIS_STRING)：整数(REDIS_ENCODING_INT)、字符串(REDIS_ENCODING_RAW)双端列表(REDIS_ENCODING_LINKEDLIST)压缩列表(REDIS_ENCODING_ZIPLIST)跳跃表(REDIS_ENCODI
C++ | Leetcode C++题解之第409题最长回文串 Ddddddd_158 经验分享 C++Leetcode 题解
题目：题解：classSolution{public:intlongestPalindrome(strings){unordered_mapcount;intans=0;for(charc:s)++count[c];for(autop:count){intv=p.second;ans+=v/2*2;if(v%2==1andans%2==0)++ans;}returnans;}};
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
SpringBlade dict-biz/list 接口 SQL 注入漏洞文章永久免费只为良心 oracle 数据库
SpringBladedict-biz/list接口SQL注入漏洞POC:构造请求包查看返回包你的网址/api/blade-system/dict-biz/list?updatexml(1,concat(0x7e,md5(1),0x7e),1)=1漏洞概述在SpringBlade框架中，如果dict-biz/list接口的后台处理逻辑没有正确地对用户输入进行过滤或参数化查询（PreparedSta
Linux sh命令 fengyehongWorld Linux linux
目录一.基本语法二.选项2.1-c字符串中读取内容，并执行2.1.1基本用法2.1.2获取当前目录下失效的超链接2.2-x每个命令执行之前，将其打印出来2.3结合Here文档使用一.基本语法⏹Linux和Unix系统中用于执行shell脚本或运行命令的命令。sh[选项][脚本文件][参数...]⏹选项-c：从字符串中读取内容，并执行。-x：在每个命令执行之前，将其打印出来。-s：从标准流中读取内容
Linux vi常用命令 fengyehongWorld Linux linux
参考资料viコマンド（vimコマンド）リファレンス目录一.保存系命令二.删除系命令三.移动系命令四.复制粘贴系命令一.保存系命令⏹保存并退出:wq⏹强制保存并退出:wq!⏹退出(文件未编辑):q⏹强制退出(忽略已编辑内容):q!⏹另存为:w新文件名二.删除系命令⏹删除当前行dd⏹清空整个文档gg：移动到文档顶部dG：删除到最后一行ggdG三.移动系命令⏹移动到文档顶部gg⏹移动到文档底部#方式1G
基于Python给出的PDF文档转Markdown文档的方法程序媛了了 python pdf 开发语言
注：网上有很多将Markdown文档转为PDF文档的方法，但是却很少有将PDF文档转为Markdown文档的方法。就算有，比如某些网站声称可以将PDF文档转为Markdown文档，尝试过，不太符合自己的要求，而且无法保证文档没有泄露风险。于是本人为了解决这个问题，借助GPT（能使用GPT镜像或者有条件直接使用GPT的，反正能调用GPT接口就行）生成Python代码来完成这个功能。笔记、代码难免存在
2024.9.6 Python，华为笔试题总结，字符串格式化，字符串操作，广度优先搜索解决公司组织绩效互评问题，无向图 RaidenQ python 华为 leetcode 算法力扣广度优先无向图
1.字符串格式化name="Alice"age=30formatted_string="Name:{},Age:{}".format(name,age)print(formatted_string)或者name="Alice"age=30formatted_string=f"Name:{name},Age:{age}"print(formatted_string)2.网络健康检查第一行有两个整数m
2020-8-19晨间日记：看过的电影盐大虾
今天是周三起床：6点半就寝：11点天气：晴心情：正常纪念日：周三任务清单今日完成的任务，最重要的三件事：1.整理写过的文档2.电影《电灯泡》3.这就是街舞第三季第五期改进：早睡早起习惯养成：早睡早起，看书周目标·完成进度两篇文章学习·信息·阅读电影艺术发展史相关教材健康·饮食·锻炼吃了挺多零食，还喝了果粒橙，还是得少吃，多锻炼，不然会慢慢死掉的。人际·家人·朋友淡定交流，不放在心上。工作·思考专心
spring如何整合druid连接池？惜.己 spring spring junit 数据库 java idea 后端 xml
目录spring整合druid连接池1.新建maven项目2.新建mavenModule3.导入相关依赖4.配置log4j2.xml5.配置druid.xml1)xml中如何引入properties2)下面是配置文件6.准备jdbc.propertiesJDBC配置项解释7.配置druid8.测试spring整合druid连接池1.新建maven项目打开IDE（比如IntelliJIDEA,Ecl
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
入门MySQL——查询语法练习 K_un
前言：前面几篇文章为大家介绍了DML以及DDL语句的使用方法，本篇文章将主要讲述常用的查询语法。其实MySQL官网给出了多个示例数据库供大家实用查询，下面我们以最常用的员工示例数据库为准，详细介绍各自常用的查询语法。1.员工示例数据库导入官方文档员工示例数据库介绍及下载链接：https://dev.mysql.com/doc/employee/en/employees-installation.h
HQL之投影查询归来朝歌 HQL Hibernate 查询语句投影查询
在HQL查询中，常常面临这样一个场景，对于多表查询，是要将一个表的对象查出来还是要只需要每个表中的几个字段，最后放在一起显示？针对上面的场景，如果需要将一个对象查出来： HQL语句写“from 对象”即可 Session session = HibernateUtil.openSession();
Spring整合redis bylijinnan redis
pom.xml <dependencies>  <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-redi
org.hibernate.NonUniqueResultException: query did not return a unique result: 2 0624chenhong Hibernate
参考：http://blog.csdn.net/qingfeilee/article/details/7052736 org.hibernate.NonUniqueResultException: query did not return a unique result: 2 在项目中出现了org.hiber
android动画效果不懂事的小屁孩 android动画
前几天弄alertdialog和popupwindow的时候，用到了android的动画效果，今天专门研究了一下关于android的动画效果，列出来，方便以后使用。 Android 平台提供了两类动画。一类是Tween动画，就是对场景里的对象不断的进行图像变化来产生动画效果（旋转、平移、放缩和渐变）。第二类就是 Frame动画，即顺序的播放事先做好的图像，与gif图片原理类似。
js delete 删除机理以及它的内存泄露问题的解决方案换个号韩国红果果 JavaScript
delete删除属性时只是解除了属性与对象的绑定，故当属性值为一个对象时，删除时会造成内存泄露（其实还未删除）举例： var person={name:{firstname:'bob'}} var p=person.name delete person.name p.firstname -->'bob' // 依然可以访问p.firstname，存在内存泄露
Oracle将零干预分析加入网络即服务计划蓝儿唯美 oracle
由Oracle通信技术部门主导的演示项目并没有在本月较早前法国南斯举行的行业集团TM论坛大会中获得嘉奖。但是，Oracle通信官员解雇致力于打造一个支持零干预分配和编制功能的网络即服务（NaaS）平台，帮助企业以更灵活和更适合云的方式实现通信服务提供商（CSP）的连接产品。这个Oracle主导的项目属于TM Forum Live!活动上展示的Catalyst计划的19个项目之一。Catalyst计
spring学习——springmvc（二） a-john springMVC
Spring MVC提供了非常方便的文件上传功能。 1，配置Spring支持文件上传： DispatcherServlet本身并不知道如何处理multipart的表单数据，需要一个multipart解析器把POST请求的multipart数据中抽取出来，这样DispatcherServlet就能将其传递给我们的控制器了。为了在Spring中注册multipart解析器，需要声明一个实现了Mul
POJ-2828-Buy Tickets aijuans ACM_POJ
POJ-2828-Buy Tickets http://poj.org/problem?id=2828 线段树，逆序插入 #include<iostream>#include<cstdio>#include<cstring>#include<cstdlib>using namespace std;#define N 200010struct
Java Ant build.xml详解 asia007 build.xml
1,什么是antant是构建工具2,什么是构建概念到处可查到，形象来说，你要把代码从某个地方拿来，编译，再拷贝到某个地方去等等操作，当然不仅与此，但是主要用来干这个3,ant的好处跨平台 --因为ant是使用java实现的，所以它跨平台使用简单--与ant的兄弟make比起来语法清晰--同样是和make相比功能强大--ant能做的事情很多，可能你用了很久，你仍然不知道它能有
android按钮监听器的四种技术百合不是茶 android xml配置监听器实现接口
android开发中经常会用到各种各样的监听器,android监听器的写法与java又有不同的地方; 1,activity中使用内部类实现接口 ,创建内部类实例使用add方法与java类似创建监听器的实例 myLis lis = new myLis(); 使用add方法给按钮添加监听器
软件架构师不等同于资深程序员 bijian1013 程序员架构师架构设计
本文的作者Armel Nene是ETAPIX Global公司的首席架构师，他居住在伦敦，他参与过的开源项目包括 Apache Lucene,，Apache Nutch， Liferay 和 Pentaho等。如今很多的公司
TeamForge Wiki Syntax & CollabNet User Information Center sunjing TeamForge How do Attachement Anchor Wiki Syntax
the CollabNet user information center http://help.collab.net/ How do I create a new Wiki page? A CollabNet TeamForge project can have any number of Wiki pages. All Wiki pages are linked, and
【Redis四】Redis数据类型 bit1129 redis
概述 Redis是一个高性能的数据结构服务器，称之为数据结构服务器的原因是，它提供了丰富的数据类型以满足不同的应用场景，本文对Redis的数据类型以及对这些类型可能的操作进行总结。 Redis常用的数据类型包括string、set、list、hash以及sorted set.Redis本身是K/V系统，这里的数据类型指的是value的类型，而不是key的类型，key的类型只有一种即string
SSH2整合-附源码白糖_ eclipse spring tomcat Hibernate Google
今天用eclipse终于整合出了struts2+hibernate+spring框架。我创建的是tomcat项目，需要有tomcat插件。导入项目以后，鼠标右键选择属性，然后再找到“tomcat”项，勾选一下“Is a tomcat project”即可。具体方法见源码里的jsp图片，sql也在源码里。补充1：项目中部分jar包不是最新版的，可能导
[转]开源项目代码的学习方法 braveCS 学习方法
转自： http://blog.sina.com.cn/s/blog_693458530100lk5m.html http://www.cnblogs.com/west-link/archive/2011/06/07/2074466.html 1）阅读features。以此来搞清楚该项目有哪些特性2）思考。想想如果自己来做有这些features的项目该如何构架3）下载并安装d
编程之美-子数组的最大和（二维） bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; import java.util.Random; public class MaxSubArraySum2 { /** * 编程之美子数组之和的最大值（二维） */ private static final int ROW = 5; private stat
读书笔记-3 chengxuyuancsdn jquery笔记 resultMap配置 ibatis一对多配置
1、resultMap配置 2、ibatis一对多配置 3、jquery笔记 1、resultMap配置当<select resultMap="topic_data"> <resultMap id="topic_data">必须一一对应。 (1)<resultMap class="tblTopic&q
[物理与天文]物理学新进展 comsci
如果我们必须获得某种地球上没有的矿石,才能够进行某些能量输出装置的设计和建造,而要获得这种矿石,又必须首先进行深空探测,而要进行深空探测,又必须获得这种能量输出装置,这个矛盾的循环,会导致地球联盟在与宇宙文明建立关系的时候,陷入困境怎么办呢?
Oracle 11g新特性:Automatic Diagnostic Repository daizj oracle ADR
Oracle Database 11g的FDI（Fault Diagnosability Infrastructure）是自动化诊断方面的又一增强。 FDI的一个关键组件是自动诊断库（Automatic Diagnostic Repository-ADR）。在oracle 11g中，alert文件的信息是以xml的文件格式存在的，另外提供了普通文本格式的alert文件。这两份log文
简单排序:选择排序 dieslrae 选择排序
public void selectSort(int[] array){ int select; for(int i=0;i<array.length;i++){ select = i; for(int k=i+1;k<array.leng
C语言学习六指针的经典程序，互换两个数字 dcj3sjt126com c
示例程序，swap_1和swap_2都是错误的，推理从1开始推到2，2没完成，推到3就完成了 # include <stdio.h> void swap_1(int, int); void swap_2(int *, int *); void swap_3(int *, int *); int main(void) { int a = 3; int b =
php 5.4中php-fpm 的重启、终止操作命令 dcj3sjt126com PHP
php 5.4中php-fpm 的重启、终止操作命令: 查看php运行目录命令：which php/usr/bin/php 查看php-fpm进程数：ps aux | grep -c php-fpm 查看运行内存/usr/bin/php -i|grep mem 重启php-fpm/etc/init.d/php-fpm restart 在phpinfo()输出内容可以看到php
线程同步工具类 shuizhaosi888 同步工具类
同步工具类包括信号量（Semaphore）、栅栏（barrier）、闭锁（CountDownLatch）闭锁（CountDownLatch） public class RunMain { public long timeTasks(int nThreads, final Runnable task) throws InterruptedException { fin
bleeding edge是什么意思 haojinghua DI
不止一次，看到很多讲技术的文章里面出现过这个词语。今天终于弄懂了——通过朋友给的浏览软件，上了wiki。我再一次感到，没有辞典能像WiKi一样，给出这样体贴人心、一清二楚的解释了。为了表达我对WiKi的喜爱，只好在此一一中英对照，给大家上次课。 In computer science, bleeding edge is a term that
c中实现utf8和gbk的互转 jimmee c iconv utf8&gbk编码
#include <iconv.h> #include <stdlib.h> #include <stdio.h> #include <unistd.h> #include <fcntl.h> #include <string.h> #include <sys/stat.h> int code_c
大型分布式网站架构设计与实践 lilin530 应用服务器搜索引擎
1.大型网站软件系统的特点？ a.高并发，大流量。 b.高可用。 c.海量数据。 d.用户分布广泛，网络情况复杂。 e.安全环境恶劣。 f.需求快速变更，发布频繁。 g.渐进式发展。 2.大型网站架构演化发展历程？ a.初始阶段的网站架构。应用程序，数据库，文件等所有的资源都在一台服务器上。 b.应用服务器和数据服务器分离。 c.使用缓存改善网站性能。 d.使用应用
在代码中获取Android theme中的attr属性值 OliveExcel android theme
Android的Theme是由各种attr组合而成, 每个attr对应了这个属性的一个引用, 这个引用又可以是各种东西. 在某些情况下, 我们需要获取非自定义的主题下某个属性的内容 (比如拿到系统默认的配色colorAccent), 操作方式举例一则: int defaultColor = 0xFF000000; int[] attrsArray = { andorid.r.
基于Zookeeper的分布式共享锁 roadrunners zookeeper 分布式共享锁
首先，说说我们的场景，订单服务是做成集群的，当两个以上结点同时收到一个相同订单的创建指令，这时并发就产生了，系统就会重复创建订单。等等......场景。这时，分布式共享锁就闪亮登场了。共享锁在同一个进程中是很容易实现的，但在跨进程或者在不同Server之间就不好实现了。Zookeeper就很容易实现。具体的实现原理官网和其它网站也有翻译，这里就不在赘述了。官
两个容易被忽略的MySQL知识 tomcat_oracle mysql
1、varchar(5)可以存储多少个汉字，多少个字母数字？　　相信有好多人应该跟我一样，对这个已经很熟悉了，根据经验我们能很快的做出决定，比如说用varchar(200)去存储url等等，但是，即使你用了很多次也很熟悉了，也有可能对上面的问题做出错误的回答。　　这个问题我查了好多资料，有的人说是可以存储5个字符，2.5个汉字（每个汉字占用两个字节的话），有的人说这个要区分版本，5.0
zoj 3827 Information Entropy(水题) 阿尔萨斯 format
题目链接：zoj 3827 Information Entropy 题目大意：三种底，计算和。解题思路：调用库函数就可以直接算了，不过要注意Pi = 0的时候，不过它题目里居然也讲了。。。limp→0+plogb(p)=0，因为p是logp的高阶。 #include <cstdio> #include <cstring> #include <cmath&