比如HTML文件中全是这种格式的内容
<div><p><span style='font-size:14.0pt'>我从事于教育行业,对于计算机算只了解皮毛,但我会制作简单的课件来补充工作中需要的信息,对于计算机它让我们方便了生活,愉乐了生活,也是说生活中不能缺少计算机与计算思维</span><br><span style= 'font-size:12.0pt;color:#CC3399'>714659079qqcom 2014/09/10 10:14</span></p></div>
如何使用BeautifulSoup将这段文本内容提取出来呢?
如果配合正则表达式又该怎样做呢?
谢谢
å ä¸ºä½ çhtmlä¸æ¯åæ³çxmlæ ¼å¼ï¼æ ç¾æ²¡ææ对åºç°ï¼åªè½ç¨html解æå¨
from bs4 import BeautifulSoupå¦æä½ æ³ç¨æ£åçè¯ï¼åªè¦ææ ç¾å¹é æå°±å¯ä»¥äº
import reå¦æ解å³äºæ¨çé®é¢è¯·é纳ï¼
å¦ææªè§£å³è¯·ç»§ç»è¿½é®
æ©ï¼è¿ä¸ªç¡®å®è½è§£å³
ä¸è¿è¦æ¯è¿ä¸ªHTMLæ件ä¸æå¾å¤æ¡è¿æ ·ç
æ¯ä¸æ¡çå
容æè¦è½ååºæ¥åç¬å¤çï¼åºè¯¥æä¹åå¨å¢ï¼
æ¯åå°å表æè
åå
¸è¿æ¯ææ ·å¢ï¼
谢谢
ä½ æ¯å工大çèå¸ï¼
追é®ä¸æ¯åï¼ææ¯å¦ç
追çä½ åªè¦åå°ä½ ææè¦å¤ççtagï¼ç¶åé对tagä¸ä¸ªä¸ä¸ªè·åtextå°±å¯ä»¥äºã
å
·ä½çä½ å¯ä»¥åèä¸å®æ¹ææ¡£ï¼
http://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html