html截取摘要并补齐标签(htmlparser)一

从html里面截取摘要关键在于在截取的时候不能截断它里面的标签,所以就要想法让它在截取的时候能截全标签:方法是写一个算法让它在截取所指定长度时只计算标签

外面文本的数量而标签里面的长度不计算在内,这样才能以指定的长度截取到不会断节的标签:

  下面就是这个小算法(见笑了):

Java代码 复制代码
  1. publicstaticStringreadWithTag(Filefilename,intlength)throwsIOException{
  2. Stringcontent=readFileByLines(filename);
  3. intpos=0,len=0,count=0;
  4. Strings="";
  5. StringBuffersb=newStringBuffer();
  6. while(true)
  7. {
  8. if(count>=length)
  9. break;
  10. s=content.substring(pos,pos+1);
  11. if(s.equals("<"))
  12. {
  13. len=content.indexOf(">",pos)-pos;
  14. for(inti=0;i<len;i++)
  15. {
  16. s=content.substring(pos+i,pos+i+1);
  17. sb.append(s);
  18. }
  19. pos+=len;
  20. }
  21. else
  22. {
  23. if(count<length)
  24. {
  25. if(s.equals(">"))
  26. {
  27. sb.append(s);
  28. pos++;
  29. }
  30. sb.append(s);
  31. count++;
  32. pos++;
  33. }
  34. }
  35. }
  36. returnsb.toString();
  37. }
详情请见下一篇:html截取摘要并补齐标签二

你可能感兴趣的:(html,算法,Blog)