用replace pioneer提取html文件中的<p>和</p>之间内容之后的输出问题

提取这些段落之后输出是默认到了一个TXT文件中 。
如何让每一对符号之间提取的内容都单独一个TXT输出出来呢 ?

可以结合Replace Pioneer的文本分割功能把提取出来的文本自动分割成多个文件,详细步骤:
1. ctrl-o打开待处理html文件
2. ctrl-h打开replace窗口
* search for pattern输入<p>([^<>]*)</p>即可
* replace with pattern输入下面两行:
FILENAME:$word_no.txt
$1\n
* 去掉print unmatched unit选项
* 在右下角有一个output file编辑框,在里面添上待输出的目录和基准文件名,比如d:\test\a.txt,并把左边的<改为<< Split by Paragraph
* 选择Settings选项页
Para start选项选择Other,后面输入^FILENAME
Para end选项选择None
3. 以上步骤完整无误后,点击Replace,那么在d:\test目录下就会产生1.txt, 2.txt, 3.txt等等,看看是不是你需要的内容。追问

不能成功啊
在软件界面已经都分解成功了但是输出不到文件夹里
提示错误
我用的源是HTML转成的TXT html载入到Replace Pioneer太慢了
是不是跟这有关系

追答

我测试是成功的,你不妨试一下这个方案:
1. 在上面第3步完成后,得到以下内容
FILENAME:1.txt
...
...
FILENAME:2.txt
...
...
2. 选择File->Save As->Split by paragraph 菜单,Para start选项选择Other,后面输入^FILENAME,
Para end选项选择None
3. 点击Next,选择一个结果文件名,比如d:\test\a.txt,然后确认即可

温馨提示:内容为网友见解,仅供参考
无其他回答

...pioneer提取html文件中的<p>和<\/p>之间内容之后的输出问题
1. ctrl-o打开待处理html文件 2. ctrl-h打开replace窗口 search for pattern输入<p>([^<>]*)<\/p>即可 replace with pattern输入下面两行:FILENAME:$word_no.txt 1\\n 去掉print unmatched unit选项 在右下角有一个output file编辑框,在里面添上待输出的目录和基准文件名,比如d:\\test\\a.txt...

replace pioneer 提出HTML中指定文字替换文件名
1. 选择Tools->Batch Runner 菜单。2. 点击"Pick Files",按住shift或control选择多个文件,如果文件太多,比如几百个文件最好用"Search Files"按钮,在目录中搜所需要的文件。3. 把set output filename 中的${FILENAME}改为 ${FILENAME}{file_content,'.h4.工作经验.\/h4..h5.(\\w*?).\/h5....

replace pioneer 怎样从html文件中提取出ed2k链接,
Pioneer按照以下方法,可以提取html中类似ed2k:...\/的内容:ctrl-o打开html文件 ctrl-h打开replace窗口 在search for pattern输入ed2k:\\\/\\\/\\|file\\|.*?\\\/即可 在replace with pattern输入$match\\n即可 去掉print unmatched unit选项 点击replace,完成 ctrl-s存盘。

如何用replace pinoeer去除电影字幕文件里的中文和中文标点儿保留其他...
1. ctrl-o 打开文本文件 2. ctrl-h 打开replace窗口 把Replace Unit选成Chars,把Replace Scope选成Lines表示在每行的范围 在Search for pattern输入[^\\x00-\\xff][^\\n]*表示第一个汉字及其后的内容。3. 点击Replace即可完成,ctrl-s存盘。

如何用Replace Pioneer提取指定范围文字
用Replace Pioneer批量提取“称谓”之后的字符的详细步骤:1. 打开Tools->Batch Runner菜单 2. 把多个待处理文件从windows拖拽到batch runner窗口中 把set output filename后面的${FILENAME}改为要保存的名字如result.txt 3. 点击Fast Replace按钮 点击Add按钮增加替换规则 在search输入:.*?称谓([^...

批处理 查找文本内容 何去除文本<\/html>后面所有的内容呢?
用Replace Pioneer批量删除<\/html>后的内容的详细步骤:1. 打开Tools->Batch Runner菜单。2. 点击Pick Files把要替换的文件都选中。3. 点击Fast Replace,点击Add加入替换规则。在search=>输入"<\\\/html>.*$"(不带双引号)在Replace=>输入"<\\\/html>"(不带双引号)4. 重复第3步,直到所有的规则都...

如何用replace pioneer删除除了制定内容之外的文字?
用Replace Pioneer提取指定数字和文字的详细步骤:1. ctrl-o打开文本文件 2. ctrl-h打开replace窗口 在search for pattern输入aid=(\\d+).*?aname=(.*?)&vname即可 在replace with pattern输入$1 $2即可 去掉print unmatched unit选项 3. 点击replace完成。

怎么用Replace Pioneer提取我文档里的这些东西
你好,假定你的文件每行都是以上的格式,那么你其实就是要提取每行最前面和最后面20个字符。用Replace Pioneer提取每行最前和最后20个字符的详细步骤如下:1. ctrl-o打开文本文件 2. ctrl-h打开replace窗口 replace unit选为Line replace with pattern输入chars($match,1,20) chars($match, -20,-1...

如何用Replace Pioneer提取某批量文本当中的某含特定字符的某两行?
Pioneer批量提取文件中包含“ID号”和“串号”的行:1.打开Tools->Batch Runner菜单 2.把多个待处理文件拖拽到Batch Runner窗口中 3.点击Add添加替换规则,在search输入[^\\n]*(ID号|串号)[^\\n]*即可,在replace输入$match\\n即可,完成后点击ok 4.选中reg exp选项和extract选项 5.点击start,并选择...

Replace Pioneer提取字符串所在行文本
如何用Replace Pioneer批量提取包含指定内容的行,详细步骤如下:打开Tools->Batch Runner菜单 把待处理一个或多个文件从文件浏览器拖拽到batch runner窗口中 点击Fast Replace按钮 点击Add添加替换规则 在search输入[^\\n]*(P-address|Operating system|System type|Serial number)[^\\n]*即可 在replace输入...

相似回答
大家正在搜