文章内容

2017/9/11 16:11:18,作 者: 黄兵

Python 如何获得href值

最近在使用python写爬虫,抓取新浪博客文章,通过每页抓取链接,之后怎么也取不到href值,最后用lxml.html抽取了href值,代码如下:

import urllib
import lxml.html

con=urllib.urlopen('http://blog.sina.com.cn/s/articlelist_5971014532_0_1.html').read()
tree=lxml.html.fromstring(con)
fixed_html=lxml.html.tostring(tree,pretty_print=True)
for i in range(1,50):
title=tree.cssselect('.atc_title > a')[i].get('href')
print title

结果如下:

黄兵的个人博客原创。

转载请注明出处:黄兵的个人博客 - Python 如何获得href值

分享到:

发表评论

评论列表