python 删除所有html标签,保留文字.利用自带HTMLParser

12月 5, 201812月 5, 2018 - by 欧阳逍遥 - Leave a Comment

记录一下,python利用HTMLParser删除所有html标签.

from HTMLParser import HTMLParser

class MyHTMLParser(HTMLParser):

def __init__(self):

self.reset()

self.fed = []

def handle_data(self, d):

self.fed.append(d)

def get_data(self):

return ”.join(self.fed)

def rmhtml(html):

html = html.replace(‘</div>’,’\r\n</div>’)

parser = MyHTMLParser()

parser.feed(html)

return parser.get_data().strip()

print rmhtml(‘<p>aaaaaaaaaaa</p>’)

About 欧阳逍遥

View all posts by 欧阳逍遥 →

发表回复