分类: 未分类

69 篇文章

Linux终端下翻墙教程
(1) 配置和安装Shadowsocks 安装Shadowsocks pip install shadowsocks 配置Shadowsocks { "server":"Shadowsocks Server", "server_port":443, "local_address": "127.0.0.1", "local_port":1080, "…
Web抓取分析机器人连载(七)
啰里啰嗦写了好几篇了,也不知道对大家有没有帮助,这一篇应该是该系列教程的最后一篇了,希望有个好的结尾!上一篇中我们简单介绍了解析新闻索引中的新闻版块,新闻标题和新闻URL的信息,这一篇我们将根据这些信息来逐步获取真正的新闻内容。 首先,我们重新定义一个函数来获取长沙晚报新闻网的带绝对路径的URL地址,总共有两个URL,一个是新闻索引URL,一个是新…
Web抓取分析机器人连载(六)
上一篇中我们介绍了怎样用lxml和xpath来获取蓝色、绿色和棕色表格,这一篇我们将进入实质性的分析过程。 我们所抽取的信息的内容分为这么三种: 新闻版块名称 某新闻版块下的新闻标题 某新闻版块下的新闻URL 我们用python的字典来表示它们之间的关系。 A版块下的新闻列表['新闻标题A'] = 新闻的URL, 新闻版块列表[‘新闻版块A'] =…
Web抓取分析机器人连载(五)
上一篇中我们通过Firebug定位到了想要分析的内容以及其在HTML页面中处于一个什么样的位置。这一篇我们将详细介绍怎样用lxml来解析HTML页面。 lxml库的安装和配置 本人在Linux机器上开发,Linux操作系统是Oracle Linux 6 update 2, 使用下面最简单的方法安装lxml. #easy_install lxml 其…
Web抓取分析机器人连载(四)
在上一篇教程中,我们简单介绍了httpfox的使用方法,这里我补充一下,httpfox是firefox浏览器的一个插件, 前提是你必须安装firefox浏览器。这里我强烈建议希望继续这篇教程的同学马上安装firefox浏览器(或者Chrome),它简直是web开发必不可少的神兵利器。 除了可以辅助web开发,我觉得它也可以作为平时浏览网站所主要使用…
Web抓取分析机器人连载(三)
有同学问上一篇代码中User-Agent的内容定义怎么来的呢? 简单,祭出我们的法宝:httpfox, 在第一篇中我们说开发要准备好firefox和几个插件,不知道有同学还有印象没有,httpfox就是其中一个插件。 如果有人问httpfox怎么获取和安装,那我只有一句话送给你:你根骨不适合修行。(最近玄幻小说看多了,出口都是专业术语啊!) 在安装…
Web抓取分析机器人连载(二)
在第一篇中我们确定了几个任务, 在这一篇中我们将完成前面两个任务: 构造有效的URL 模拟浏览器获取URL端的页面 构造有效的URL 这个任务很容易,利用python的datetime库我们很容易可以合适的日期对象。 注意为了构造合法的URL,这里月和日字符串都是必须符合一定规范的,比如年需要是4个字符的,月和日都是2个字符的,例如:1月必须用01…
Web抓取分析机器人连载(一)
一般来说,如果某个网站没有提供API来获取其内容,那就只有通过模拟浏览器的行为来抓取其页面来获取我们感兴趣的信息。 理论上来说,只要网站对公共开放,其上面的内容就可以获取,但是如果需要二次验证,比如输入图形验证码或者短信验证码才能查看,这个就稍显复杂,不过也不是没有办法。 本教程关注没有特别保护的页面的抓取,用python来开发,其他语言开发者可以…
YAML simple tutorial
Introduction YAML stands for "YAML Ain't Markup Language", It’s basically a human-readable structured data format. It is less complex and ungainly than XML or JSON, …