python 删除所有html标签,保留文字.利用自带HTMLParser

 记录一下,python利用HTMLParser删除所有html标签.

from HTMLParser import HTMLParser
 
class MyHTMLParser(HTMLParser):
    def __init__(self):
        self.reset()
        self.fed = []
    def handle_data(self, d):
        self.fed.append(d)
    def get_data(self):
        return ”.join(self.fed)
def rmhtml(html):
    html = html.replace(‘</div>’,’\r\n</div>’)
    parser = MyHTMLParser()
    parser.feed(html)
    return parser.get_data().strip()
 
print rmhtml(‘<p>aaaaaaaaaaa</p>’)

发表评论

您的电子邮箱地址不会被公开。