记录一下,python利用HTMLParser删除所有html标签.
from HTMLParser import HTMLParser
class MyHTMLParser(HTMLParser):
def __init__(self):
self.reset()
self.fed = []
def handle_data(self, d):
self.fed.append(d)
def get_data(self):
return ”.join(self.fed)
def rmhtml(html):
html = html.replace(‘</div>’,’\r\n</div>’)
parser = MyHTMLParser()
parser.feed(html)
return parser.get_data().strip()
print rmhtml(‘<p>aaaaaaaaaaa</p>’)