Python学习记录

Python的创始人为
吉多·范罗苏姆
(Guido van Rossum)

    Python英国发音:/ˈpaɪθən/ 美国发音:/ˈpaɪθɑːn/),是一种面向对象直译式电脑程序语言。它包含了一组功能完备的标准库,能够轻松完成很多常见的任务。它的语法简单,与其它大多数程序设计语言使用大括号不一样,它使用缩进来定义语句块。

    与SchemeRubyPerlTcl动态语言一样,Python具备垃圾回收功能,能够自动管理内存使用。它经常被当作脚本语言用于处理系统管理任务和网络程序编写,然而它也非常适合完成各种高级任务。Python虚拟机本身几乎可以在所有的操作系统中运行。使用一些诸如py2exe、PyPy、PyInstaller之类的工具可以将Python源代码转换成可以脱离Python解释器运行的程序。

    Python的官方解释器是CPython,该解释器用C语言编写,是一个由社区驱动的自由软件,目前由Python软件基金会管理。

Python支持命令式程序设计面向对象程序设计函数式编程面向侧面的程序设计泛型编程多种编程范式。

lxml.etree._ElementUnicodeResult 转为字符

2017年09月12日

在爬虫过程中,使用的是lxml的xpath查找对应的字段。 address=each.xpath('.//address/text()')[0].strip() 结果用address与一般的字符进行拼接时,总是出现UnicodeDecodeError: 'ascii' codec can't decode byte 0xe4 in position 0: ordinal not in range(...

[Errno 13] Permission denied

2017年09月11日

最近在写python的时候,报如下错误:[Errno 13] Permission denied在网上查了一下,是因为:没有权限根据这个提示,查看了一下CSV文件,一看这个CSV文件打开了,直接关闭这个文件问题解决。参考网址:python报IOError: [Errno 13]Permission denied非伸手党无奈了?黄兵个人博客原创。转载请注明出处:黄兵个人博客 - [Errno 13]...

Python 如何获得href值

2017年09月11日

最近在使用python写爬虫,抓取新浪博客文章,通过每页抓取链接,之后怎么也取不到href值,最后用lxml.html抽取了href值,代码如下:import urllibimport lxml.htmlcon=urllib.urlopen('http://blog.sina.com.cn/s/articlelist_5971014532_0_1.html').read()tree=lxml.ht...

beautiful soup选择器之CSS选择器

2017年09月04日

BeautifulSoup支持大部分的CSS选择器,其语法为:向tag或soup对象的.select()方法中传入字符串参数,选择的结果以列表形式返回。   tag.select("string")   BeautifulSoup.select("string") 源代码示例: html = """<html> <head> ...

Python 爬虫遇到形如 &#x5c0f;&#x8bf4; 的编码如何转换为中文?

2017年09月04日

html> <dt>学科主题:</dt> <dd><a href="openlink.php?keyword=%E9%95%BF%E7%AF%87%E5%B0%8F%E8%AF%B4">&#x957f;&#x7bc7;&#x5c0f;&#x8bf4;</a>-&#x4e2d;&#x56fd;-&#x5f53;&#x4ee3;</dd> ...

自动爬取SF文章并推荐到掘金--Puppeteer再探

2017年09月01日

看过上篇的同学,应该都会使用Puppeteer的高级爬虫功能了,附上姐妹篇链接:爬取并生成《ES6标准入门》PDF–Puppeteer初探除了爬虫之外,也可以使用Puppeteer完成页面上任意操作,即: 可以用来做UI自动化测试开门见山,今天的目标是,爬取SF的热门文章,自动推荐到掘金!!!简要提下Puppeteer的应用场景屏幕快照,打印PDF高级爬虫(有别于传统爬虫.使用Puppeteer可...

反爬虫

2017年09月01日

在爬虫时,某些网站会有封ip的现象,所以选择利用代理伪装我们的ip进行爬虫请求,但进行爬虫时可能需要很多ip,这时就要求维护一个代理池(池也就是代理队列),可放进代理,也可取出代理。本文中选择的崔庆才老师维护的代理池,是用Flask和Redis维护的一个代理池。设计的基本思路从各大网站获取免费的有用代理用Redis来维护池的队列存储维护池,剔除无用的代理,获得有用的代理Flask是实现代理池的一个...

用python爬虫整理简书作者文章生成pdf

2017年09月01日

_(:⁍」∠)_大家好,新的一天,有没有在简书更文\学编程呀?_(:⁍」∠)_有没有更口水\向往寄几一直在默默点喜欢的作者呀?_(:⁍」∠)_有没有在写作\编程的入门之路上感到万分沮丧,甚至开始怀疑人生呀?_(:⁍」∠)_恩?你问我为什么躺着?emmmm,我想这个角度可能会有惊艳的写作思(nao)路(dong)……开始在简书写作快一个月了,看了不少知名作者分享自己的写作经验,可到了自己要写的时候,...