java xml编程 (一)

一.HTML文件转成XML文件(使用jtidy)
先运用java扩展标准库类org.w3c.tidy.Tidy中的方法实现URL网页地址的获取和转化
再运用缓冲区输入输出流类BufferedInputStream和FIleOutputStream类将HTML文件中的数据读取转化成XML文档
注:jtidy提供HTML语法检查和HTML的完美输出。当JTidy发现任何不匹配或遗漏的闭合标记,将纠正这些标记,输出一个格式良好的XML文档。只要获得相应的输入/输出并调用
parse()方法便可将HTML文件转换为XML文件。
二.DOM4j解析xml文档
DOM4j能够读取,修改以及删除xml文档中的内容。它完全支持DOM,SAX以及JAXP,
1.创建xml文档。
(1)创建document文件对象并添加元素
使用document=DocumentHelper.createDocument()方法创建document对象,
然后用rootElement=document.addElement("根节点名")向该对像添加元素,
再用element=rootElement.addElement("节点名")可向根节点添加元素;
用element=element.addElement("节点名")可递归向节点添加元素;
用element.addAttribute("属性名", "属性值")可向元素添加属性信息;
用element.setText(“内容”)可向节点添加内容,添加后如下:<节点>内容</节点>
element还有很多其他方法,参看api
(2)将document对象写入xml文档
XMLWriter writer=new XMLWriter(new FileWriter(new File(name)));
writer.write(document);
writer.close();
2.使用dom4j删除xml中的节点及属性
DOM4j支持Xpath,比如:xml中节点顺序如下:<trees><tree></tree></trees> 则可用Document文档对象的selectNodes(“/trees/tree/@id”)方法来获得id属性的列表集list,再循环获得每个id属性的信息。找到指定的id属性。根据getParent()方法获得该属性所在的节点,根据remove()方法移除该节点。实例代码如下:
List list=document.selectNodes("/trees/tree/@id"); /*@表示利用的是属性,此时list中的是属性,从下文中的循环中可看出,如果没有@的话,则表示节点,list中存放的将会是xml节点。*/
Iterator iterator=list.iterator();
    while(iterator.hasNext())
    {
    Attribute attribute=(Attribute)iterator.next();
    if(attribute.getValue().equals(id));   //id是要删除的
    {
    Element element = attribute.getParent();
    root.remove(element);
    }
    }
再用上文docunment对象写入文档的方法将document对象写入xml文件

你可能感兴趣的:(java,html,编程,xml)