html解析库 htmlcxx 应用实例

因工作需要解析html,但本人又不想使用微软的 DomApi,所以到网上去找了一把开源库,发现几个比较好的

    比如 html tidy,和htmlcxx库等。可以用的很多,不再赘述,贴上写htmlcxx的应用例子:

   解析特定的文本段落

    std::string strHtml = "dddddd 加入了对话";

    htmlcxx::HTML::ParserDom parser ;
    tree dom = parser.parseTree(strHtml) ;

   

    tree::iterator it = dom.begin();
    tree::iterator end = dom.end();
    for ( ; it != end ; ++ it)
    {
        std::string strText;
        if (it->isComment())
            continue ;

        if (it->isTag())
        {
            it->parseAttributes();
           if(it->tagName() == "font")
           {
              std::pair Size = it->attribute("size");
              std::pair Color = it->attribute("color");
              
              std::string strSize = Size.second;
              std::string strColor = Color.second;
           }
        }
    }

你可能感兴趣的:(html解析库 htmlcxx 应用实例)