Web抓取分析机器人连载(三)
有同学问上一篇代码中User-Agent的内容定义怎么来的呢? 简单,祭出我们的法宝:httpfox, 在第一篇中我们说开发要准备好firefox和几个插件,不知道有同学还有印象没有,httpfox就是其中一个插件。 如果有人问httpfox怎么获取和安装,那我只有一句话送给你:你根骨不适合修行。(最近玄幻小说看多了,出口都是专业术语啊!) 在安装…
Web抓取分析机器人连载(二)
在第一篇中我们确定了几个任务, 在这一篇中我们将完成前面两个任务: 构造有效的URL 模拟浏览器获取URL端的页面 构造有效的URL 这个任务很容易,利用python的datetime库我们很容易可以合适的日期对象。 注意为了构造合法的URL,这里月和日字符串都是必须符合一定规范的,比如年需要是4个字符的,月和日都是2个字符的,例如:1月必须用01…
Web抓取分析机器人连载(一)
一般来说,如果某个网站没有提供API来获取其内容,那就只有通过模拟浏览器的行为来抓取其页面来获取我们感兴趣的信息。 理论上来说,只要网站对公共开放,其上面的内容就可以获取,但是如果需要二次验证,比如输入图形验证码或者短信验证码才能查看,这个就稍显复杂,不过也不是没有办法。 本教程关注没有特别保护的页面的抓取,用python来开发,其他语言开发者可以…
YAML simple tutorial
Introduction YAML stands for "YAML Ain't Markup Language", It’s basically a human-readable structured data format. It is less complex and ungainly than XML or JSON, …