python 使用BeautifulSoup库提取div标签中的文本内容

比如HTML文件中全是这种格式的内容

<div><p><span style='font-size:14.0pt'>我从事于教育行业，对于计算机算只了解皮毛，但我会制作简单的课件来补充工作中需要的信息，对于计算机它让我们方便了生活，愉乐了生活，也是说生活中不能缺少计算机与计算思维</span><br><span style= 'font-size:12.0pt;color:#CC3399'>714659079qqcom 2014/09/10 10:14</span></p></div>

如何使用BeautifulSoup将这段文本内容提取出来呢？
如果配合正则表达式又该怎样做呢？
谢谢

举报该文章

相关建议 æ¨èäº2017-12-15

å ä¸ºä½ çhtmlä¸æ¯åæ³çxmlæ ¼å¼ï¼æ ç¾æ²¡ææå¯¹åºç°ï¼åªè½ç¨htmlè§£æå¨

from bs4 import BeautifulSoup

s = """
</span><br><span style= 'font-size:12.0pt;color:#CC3399'>714659079qqcom 2014/09/10 10:14</span></p></div>
"""
soup = BeautifulSoup(s, "html.parser")
print soup
print soup.get_text()

å¦æä½ æ³ç¨æ£åçè¯ï¼åªè¦ææ ç¾å¹éæå°±å¯ä»¥äº

import re

s = """
</span><br><span style= 'font-size:12.0pt;color:#CC3399'>714659079qqcom 2014/09/10 10:14</span></p></div>
"""
dr = re.compile(r'<[^>]+>', re.S)
dd = dr.sub('', s)
print dd

å¦æè§£å³äºæ¨çé®é¢è¯·éçº³ï¼
å¦ææªè§£å³è¯·ç»§ç»è¿½é®

è¿½é®

æ©ï¼è¿ä¸ªç¡®å®è½è§£å³
ä¸è¿è¦æ¯è¿ä¸ªHTMLæä»¶ä¸æå¾å¤æ¡è¿æ ·ç
æ¯ä¸æ¡çåå®¹æè¦è½ååºæ¥åç¬å¤çï¼åºè¯¥æä¹åå¨å¢ï¼
æ¯åå°åè¡¨æèåå¸è¿æ¯ææ ·å¢ï¼
è°¢è°¢

è¿½ç

ä½ æ¯åå·¥å¤§çèå¸ï¼

è¿½é®

ä¸æ¯åï¼ææ¯å¦ç

è¿½ç

ä½ åªè¦åå°ä½ ææè¦å¤ççtagï¼ç¶åéå¯¹tagä¸ä¸ªä¸ä¸ªè·åtextå°±å¯ä»¥äºã
å·ä½çä½ å¯ä»¥åèä¸å®æ¹ææ¡£ï¼

http://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html

温馨提示：内容为网友见解，仅供参考

当前网址：https://aolonic.com/aa/15aa5dnwgndkng11w54.html

无其他回答

相似回答

大家正在搜

Python爬虫用Beautifulsoup怎么提取纯文本

如何在 python 中使用 beautifulsoup4 ...

Python如何用beautifulsoup库获取如下所示中...

怎么用python的BeautifulSoup来获取html...

如何在 python 中使用 beautifulsoup4 ...

如何在 python 中使用 beautifulsoup4 ...

python 中关于用beautifulsoup4库解析网页...

Python beautifulsoup 获取标签中的值怎...