文章内容

2017/7/13 17:04:10,作 者: 黄兵

Beautiful Soup

Beautiful Soup是一个非常流行的Python模块。该模块可以解析网页,并提供定位内容的边界接口。

安装Beautiful Soup的方式如下:

pip install beautifulsoup4

之后开始使用,代码如下:

from bs4 import BeautifulSoup
broken_html='<ul class=Name><li>huangbing</li><li>zhan san</ul>'
#parse the Html
soup=BeautifulSoup(broken_html,'html.parser')
fixed_html=soup.prettify()
print fixed_html

ul=soup.find('ul',attrs={'class':'Name'})
print ul.find('li')

print ul.find_all('li')

显示结果如下:


从图中不经可以看出Beautiful Soup不仅能补全缺失的标签,还能查找。

黄兵的个人博客原创。

转载请注明出处:黄兵的个人博客 - Beautiful Soup

分享到:

发表评论

评论列表