lua去除HTML/css/js等代码

近期打算重新用c+lua实现以前用python写的一个简单的spider,所有规则尽可能都用lua实现,当然了,比如ocr的部份还是转调C的实现,由于对lua的不熟,花了几天,断断续续才整理出一个清理HTML等代码的函数:
function clearHTML(html)
    html = string.gsub(html, '<script[%a%A]->[%a%A]-</script>', '')
    html = string.gsub(html, '<style[%a%A]->[%a%A]-</style>', '')
    html = string.gsub(html, '<[%a%A]->', '')
    --删除空行
    html = string.gsub(html, '\n\r', '\n')
    html = string.gsub(html, '%s+\n', '\n')
    html = string.gsub(html, '\n+', '\n')
    html = string.gsub(html, '\n%s+', '\n')
    --删除前后空格
    html = string.gsub(html, '^%s+', '')
    html = string.gsub(html, '%s+$', '')
    
    return html
end





----------------------------------------------------------------

你可能感兴趣的:(lua)