java 如何利用正则表达式只保留html里面的标签里面的内容

java 如何利用正则表达式只保留html里面的标签里面的内容

我们都知道html里面里面就是正文内容，但是有时候也会有标签属性
例如:

No page with that title exists.

但是输出只要 No page with that tittle \n 也就是每个标签内容末尾要加个换行符，请问如何做？
我是想把html的正文内容保存成文本，并简单排版一下

举报该文章

其他看法

第1个回答推荐于2017-11-26

正则表达式：<p.*?>(.*?)
group(1)为正文内容。
输出时加上\n就行了

import java.util.regex.*;
public class Test{
public static void main(String[] args){
String str="No page with that title exists. ";
String regex="<p.*?>(.*?) ";
Pattern p =Pattern.compile(regex);
Matcher m=p.matcher(str);
while(m.find()){
System.out.println(m.group(1));
}
}
}本回答被提问者采纳

第2个回答 2008-12-04

刚我也问了这个问题
原理一样的改下语法就可以了应该..其实我还是没成功在找答案中..
http://zhidao.baidu.com/question/77876219.html

就是替换掉 然后再把 替换成 
这样子.

第3个回答 2008-12-04

其实没太看懂你的意思。
你想换行，直接用 就行了。

java 如何利用正则表达式只保留html里面的<\/p>标签里面的内容
group(1)为正文内容。输出时加上\\n就行了 import java.util.regex.*;public class Test{ public static void main(String[] args){ String str="No page with that title exists.<\/p> ";String regex="<p.*?>(.*?)<\/p> ";Pattern...

怎么清除所有的html标签,(包括图片、<\/p>、等等所有标签)只保 ...
import java.util.regex.Matcher;import java.util.regex.Pattern;public class HTMLSpirit{ publicstatic String delHTMLTag(String htmlStr){ String regEx_script="<script[^>]*?>[\\\\s\\\\S]*?<\\\\\/script>"; \/\/定义script的正则表达式 String regEx_style="<style[^>]*?>[\\\\s\\\\S]*?<\\\\...

Java中怎样用正则表达式获取metal标签里content里的内容?
如果要用正则的话，String re = "content=[\\\\"']?([^\\\\"'>]+)[\\\\"']?";String str = "<meta name=\\"keywords\\" content=\\"这里是想要的内容 \\" \/>"+"<meta content=\\"这里是想要的内容 \\" name=\\"keywords\\" \/>"+"<meta content='这里是想要的内容' name='keywords' >...

java 正则表达式提取两个字符串中的字符串
如果你需要取的字符串里并不包含其它标签，可以像下面这样做。用[^<>]来否定如果还需要包含其它标签，就不可以了 Pattern pattern = Pattern.compile("(<td class='row[0-9]'>)([^<]+?)(<\/table><\/p><hr>)");Matcher matcher = pattern .matcher("er<td class='row1'>你说什么<td...

如何用jsoup把一个页面里面的注释提取出来就是里面的...
用正则表达式，java正则如下：String regstr = "\\\\<!--(.+)--\\\\>"Pattern p=Pattern.compile("\\\\<!--(.+)--\\\\>"); String html="...";\/\/jsoup得到的html代码 Matcher m=p.matcher(html); while(m.find()){ System.out.println(m.group()); } ...

正则表达式删除html代码中的注释
java 不熟悉。用 javascript 的话这样 <script type="text\/javascript"> var sHtml = '如何用正则表达式'+ '这里还有一些内容'+ ''+ ''+ '<\/p>';sHtml = sHtml.replace(\/\/gmi,...

我想请问一下以下内容用JAVA正则表达式提取 之间的字符串的如何...
try {Pattern regex = Pattern.compile(" (.*?) ");Matcher regexMatcher = regex.matcher(subjectString);if (regexMatcher.find()) {ResultString = regexMatcher.group(1);} } catch (PatternSyntaxException ex) {\/\/ Syntax error in the regular expression}subjectString是你的...

用Java正则表达式来获取一个字符串中<>里面的内容。
String s = "dsadsadas<peter>dsadasdas<lionel>\\"www.163.com\\"<kenny><>";Pattern p = Pattern.compile("(<[^>]*>)");Matcher m = p.matcher(s);List<String> result=new ArrayList<String>();while(m.find()){ result.add(m.group());} for(String s1:result){ System.out....

java 正则表达式提取<a><\/a>标签中值
String str = "<a href=\\",5094.1\\">weblogic日志编码大全<\/a>"; Pattern p = Pattern.compile("<a[^>]*>([^<]*)<\/a>"); Matcher m = p.matcher(str); while(m.find()) { System.out.println(m.group(1)); }特意帮你写了一段若不能解决，请追问，我继...

Java中如何用正则表达式来提取string中两个\/里面之间的内容?
String s = "aaa\/b\/cc\/dd\/ff\/e\/";Pattern pattern2 = Pattern.compile("\/(.*?)\/");Matcher matcher2 = pattern2.matcher(s);while(matcher2.find()){ System.out.println(matcher2.group(1));}

相似回答

大家正在搜

java 如何利用正则表达式只保留html里面的<p></p>标签里面的内容