C#.NET用正则表达式提取<span style="font-size: 14.0pt;font-family: 宋体;">泥料：原矿清水泥</span>中值

比较急，请高手指教。。。

举报该文章

相关建议 2012-04-20

å¦ææ¯æï¼ä¸ä¼ç¨æ£åè¡¨è¾¾å¼æ¥åè¿ä»¶äºãåæDOMå¯¹è±¡ç»ææèåXSLæ ·å¼æ¿æ¢ä¼ç®åå¾å¤ã

æ£åè¡¨è¾¾å¼æ¯éªè¯ä¸ä¸ªåç¬¦ä¸²æ¯å¦æ¥ææç§ç¹å®çæ ·å¼ (Pattern)ï¼æ¯å¦çµåé®ä»¶å°åï¼é½ä¼æ@ï¼@åé¢é½æ¯xx.xxxæxx.xxx.xxxä¹ç±»ï¼ä½¿ç¨æ£åè¡¨è¾¾å¼å¯ä»¥çµæ´»åç²¾ç¡®å°æè¿°è¿ç§patternãæ¯å¦å¯¹çµåé®ä»¶å°åï¼å¯ä»¥æè¿°æï¼^([\w-]+\.)*?[\w-]+@[\w-]+\.([\w-]+\.)*?[\w]+$ï¼ççã

å®ä¸æ¯ç¨æ¥æ½ååç¬¦ä¸²çï¼è½ç¶éªè¯æ ·å¼å¾å¾æ¯æ¿æ¢ææ½ååç¬¦ä¸²çåä¸æ¥ã

å¦æä½ ä¸å®è¦ä½¿ç¨æ£åè¡¨è¾¾å¼ï¼æ éå°±æ¯ç¨
<span style="font-size:\s14\.0pt;font-family:å®ä½;">(.*?)</span>æ¾å°è¿ä¸ªtagï¼ç¶ååç¨åç¬¦ä¸²å¤çå¥åºä¸é´çæåã
å¦æstyleéé¢çåå®¹ä¸æ¯åºå®çï¼å¯ä»¥è¿æ ·æ¥æ¾ä»»ææ ·å¼ç<span>æ è®°
<\s*span[^>]*>(.*?)<\s*/\s*span>

å¦å¤ï¼æ³¨ææ±åéè¦ç¨4ä½ unicode 16è¿å¶ä»£ç æ¿æ¢ï¼æ ¼å¼å¦ï¼\u0020ã

温馨提示：内容为网友见解，仅供参考

当前网址：https://aolonic.com/aa/na1gkdagg.html

其他看法

第1个回答 2012-04-21

出现乱码了，不知道你是什么意思，如果你是想从html文本中提取出纯文本的话，给你个方法你调用一下：

public string NoHTML(string Htmlstring)
{
//删除脚本
Htmlstring = Htmlstring.Replace("\r\n", "");
Htmlstring = Regex.Replace(Htmlstring, @"<script.*?</script>", "", RegexOptions.IgnoreCase);
Htmlstring = Regex.Replace(Htmlstring, @"<style.*?</style>", "", RegexOptions.IgnoreCase);
Htmlstring = Regex.Replace(Htmlstring, @"<.*?>", "", RegexOptions.IgnoreCase);
//删除HTML
Htmlstring = Regex.Replace(Htmlstring, @"<(.[^>]*)>", "", RegexOptions.IgnoreCase);
Htmlstring = Regex.Replace(Htmlstring, @"([\r\n])[\s]+", "", RegexOptions.IgnoreCase);
Htmlstring = Regex.Replace(Htmlstring, @"-->", "", RegexOptions.IgnoreCase);
Htmlstring = Regex.Replace(Htmlstring, @"<!--.*", "", RegexOptions.IgnoreCase);
Htmlstring = Regex.Replace(Htmlstring, @"&(quot|#34);", "\"", RegexOptions.IgnoreCase);
Htmlstring = Regex.Replace(Htmlstring, @"&(amp|#38);", "&", RegexOptions.IgnoreCase);
Htmlstring = Regex.Replace(Htmlstring, @"&(lt|#60);", "<", RegexOptions.IgnoreCase);
Htmlstring = Regex.Replace(Htmlstring, @"&(gt|#62);", ">", RegexOptions.IgnoreCase);
Htmlstring = Regex.Replace(Htmlstring, @"&(nbsp|#160);", "", RegexOptions.IgnoreCase);
Htmlstring = Regex.Replace(Htmlstring, @"&(iexcl|#161);", "\xa1", RegexOptions.IgnoreCase);
Htmlstring = Regex.Replace(Htmlstring, @"&(cent|#162);", "\xa2", RegexOptions.IgnoreCase);
Htmlstring = Regex.Replace(Htmlstring, @"&(pound|#163);", "\xa3", RegexOptions.IgnoreCase);
Htmlstring = Regex.Replace(Htmlstring, @"&(copy|#169);", "\xa9", RegexOptions.IgnoreCase);
Htmlstring = Regex.Replace(Htmlstring, @"&#(\d+);", "", RegexOptions.IgnoreCase);
Htmlstring = Htmlstring.Replace("<", "");
Htmlstring = Htmlstring.Replace(">", "");
Htmlstring = Htmlstring.Replace("\r\n", "");
//Htmlstring = HttpContext.Current.Server.HtmlEncode(Htmlstring).Trim();
return Htmlstring;
}

第2个回答 2012-04-24

提取'/span>' ? 那正则就直接是/pan>就好了 . 用的时候直接 Regex.Match(字符串, 正则表达式).Groups[0].Value 就可以提取了

相似回答

大家正在搜