提取HTML代码中文字的C#函数

///


  /// 去除HTML标记
  ///

  /// 包括HTML的源码
  /// 已经去除后的文字
  public static string StripHTML(string strHtml)
  {
   string [] aryReg ={
          @"]*?>.*?",

          @"<(///s*)?!?((/w+:)?/w+)(/w+(/s*=?/s*(([""'])(//[""'tbnr]|[^/7])*?/7|/w+)|.{0})|/s)*?(///s*)?>",
          @"([/r/n])[/s]+",
          @"&(quot|#34);",
          @"&(amp|#38);",
          @"&(lt|#60);",
          @"&(gt|#62);",
          @"&(nbsp|#160);",
          @"&(iexcl|#161);",
          @"&(cent|#162);",
          @"&(pound|#163);",
          @"&(copy|#169);",
          @"&#(/d+);",
          @"-->",
          @"

你可能感兴趣的:(.NET,html,c#,string,regex)