几个html网页提取正文的API和开源算法

1.URL2io 提供网页信息提取服务

http://blog.url2io.com/url2io-app-samples/pageless/


2.readability

https://github.com/luin/readability


3.arex

https://github.com/ahkimkoo/arex


4.Html2Article

http://www.cnblogs.com/jasondan/p/3497757.html

你可能感兴趣的:(几个html网页提取正文的API和开源算法)