c#正则表达式怎么抓取网页链接地址

如题所述

第1个回答  2012-02-23
/(http:\/\/\[^" ']+)/gm/href *= *['"]*(\S+)["']* */gm
但是得根据自己的试试。追问

怎么根据自己的修改

追答

先试试这个。

追问

能帮修改一下吗

第2个回答  2012-02-23
猜想你是想弄类似网络采集器之类的东西了 ....追问

不是是抓取网页数据,抓取源代码中的链接地址

追答

识别 标签

追问

我是新手,麻烦你说具体点,谢谢你了

追答

我之前写过 我看能不能吧代码找到给你哈 之前我弄的是一个数据采集器 类似网络爬虫一样的 也是采集完一个页面以后 根据页面中的 超链接 进入相应的连接页面继续采集 也是用的正则

追问

恩,谢谢了,能加一下你qq吗。学习一下我的是524198878

...请问怎么样实现提取某个网页中的所有的链接地址并且显示在listbox...
1、请求网页,2、用正则表达式匹配标记(一般通过 href 来获取Url),3、将匹配的Url和当前的层级添加到Wait列表末尾 4、获取Wait列表的第一项,重复1~4。一般要定义一个深度,比如4,只出当请求网页的层级为5层时退出循环。以上只是理论。

C# 提取网页的超链接
使用正则表达式。把所有以<a开头以<\/ a>结束的全都提取出来。这样你可以得到一个集合。然后再使用字符串的相关操作把这个集合的每个条目里面的对应的有用的信息提取出来。遍历源文件:使用HttpWebRequest和HttpWebResponse类。这两个类可以帮你把某个URL标识的网页以流或者字符串的形式读到内存里面。也...

C#怎么取到这个网址
到了这里整个源代码已经保存在source(string变量)里面了。然后再用正则表达式将需要的子字符串提取出来即可。

如何抓取网页数据、分析并且去除Html标签(C#)
第二个参数0代表第一个要解码的字节的索引,一般就从0开始;第三个参数nBytes为要解码的字节数,可以自己调整。得到了数据的字符串形式,然后可以对网页进行解析了(其实就是对字符串的各种操作和正则表达式的应用)。下面我以几个例子来说明对网页数据的解析:\/\/ 解析页面,查找链接\/\/ 此处尚需扩展,...

C#正则表达式则如何验证url?
String regEx = "^(http|https|ftp)\\\\:\/\/([a-zA-Z0-9\\\\.\\\\-]+(\\\\:[a-zA-"+ "Z0-9\\\\.&%\\\\$\\\\-]+)*@)?((25[0-5]|2[0-4][0-9]|[0-1]{1}[0-9]{"+ "2}|[1-9]{1}[0-9]{1}|[1-9])\\\\.(25[0-5]|2[0-4][0-9]|[0-1]{1}"+ "[0-9]{2...

跪求:C#提取网页中详细地址
你只要知道盛放那篇文章的容器的id就行,比如你的提问标题“跪求:C#提取网页中详细地址”是放在一个id为question_title的Div里,只要找到这个Div就可以获得里面的内容,你可以用Webbrowser或者System.Net.WebClient,建议用前者简单些,给你举个例子 \/\/Webbrowser private void button1_Click(object sender...

用C#怎么提取a标签的超链接?
第一种方法,正则表达式。如下所示 string reg = @"]*href=([""'])?(?<href>[^'""]+)\\1[^>]*>";var item = Regex.Match(str, reg, RegexOptions.IgnoreCase);Console.WriteLine(item.Groups["href"].Value);第二种使用htmlagilitypack的xpath进行提取 HtmlNodeCollection...

C#中提取网页中的网址怎么提取?
requestId=scriptId_0260892137510,这个还不明确,但是好像不会妨碍返回值,这样只要得到文章链接就可以得到你要的这两个数据了 使用httpwebrequest+httpwebresponse+正则 前2个类在System.Net命名空间中 例如:这个可以帮你读取到网页的源码 Uri uri = new Uri("http:\/\/www.baidu.com");try { Http...

c# 获取指定网页的指定位置内容,并在工具栏显示出来
这个两种办法,首先你要下载网页源代码 这个可以用WebClient类实现 也可以用WebBrowser加载实现 第二步,也是两种方法,一种是从源代码中用正则表达式查找 一种是从WebBrowser中查找HtmlElement元素获取

c#里面 随便输入一个网址怎么用 lastIndexOf()和SubString()取出域名...
0,begin);\/\/得到zhidao.baidu.com string[] ds = domain.split('.');if(ds.Length<3) return domain;else{ return ds[ds.Length-2]+"."ds[ds.Length-1];} 代码是我直接敲的,没有验证过,思路应该是对的。用lastIndexOf()就更复杂些了。一般从字符串中取得域名用正则表达式比较好。

相似回答
大家正在搜