互联网金融爬虫怎么写-第四课 雪球网股票爬虫(单页面多数据)

Previous on  系列教程:

互联网金融爬虫怎么写-第一课 p2p网贷爬虫(XPath入门)

互联网金融爬虫怎么写-第二课 雪球网股票爬虫(正则表达式入门)

互联网金融爬虫怎么写-第三课 雪球网股票爬虫(ajax分析)

哈哈,我又来了,话说出教程就是这么任性,咱们乘热打铁,把上节课分析完成但是没写的代码给完成了!

继续阅读“互联网金融爬虫怎么写-第四课 雪球网股票爬虫(单页面多数据)”

互联网金融爬虫怎么写-第三课 雪球网股票爬虫(ajax分析)

大家好啊,话说好久没有出来活动了,组织上安排写代码写了很久,终于又被放出来写教程了,感谢大家一直的支持和厚爱,我会一如既往的帮助大家完成爬虫工程师从入门到放弃的升华。

好,Previous on  系列教程:

互联网金融爬虫怎么写-第一课 p2p网贷爬虫(XPath入门)

互联网金融爬虫怎么写-第二课 雪球网股票爬虫(正则表达式入门)

继续阅读“互联网金融爬虫怎么写-第三课 雪球网股票爬虫(ajax分析)”

互联网金融爬虫怎么写-第二课 雪球网股票爬虫(正则表达式入门)

上一节课我们一起通过一个p2p网贷爬虫,深入了解了一下XPath以及其在最终实际使用中的写法。可以毫不夸张的说,对于写简单爬虫来说,最最重要的,就是使用好XPath,以及这一课要讲的正则表达式。

正则表达式,又称正规表示法常规表示法(英语:Regular Expression,在代码中常简写为regex、regexp或RE)

正则表达式几乎出现在每一个编程语言中,有着极其广泛的应用,比如做网页的时候,判断用户输入的是否是邮箱这样的正则。正则表达式本身写法基本在各个语言中都是一致的,不过调用方法可能略有不同,在我们教的爬虫中,正则表达式主要应用在界定列表url和内容url的格式上,就是什么url是列表url,什么url是内容url,什么url直接丢弃掉。这样做主要是为了提高整个爬虫的爬取效率,防止爬虫在无关的url花费太长的时间,当然如果希望全网爬的话,也可以不做设定。

继续阅读“互联网金融爬虫怎么写-第二课 雪球网股票爬虫(正则表达式入门)”

互联网金融爬虫怎么写-第一课 p2p网贷爬虫(XPath入门)

工具要求:教程中主要使用到了 1、神箭手云爬虫 框架  这个是爬虫的基础,2、Chrome浏览器和Chrome的插件XpathHelper 这个用来测试Xpath写的是否正确

基础知识:本教程中主要用到了一些基础的js和xpath语法,如果对这两种语言不熟悉,可以提前先学习下,都很简单

之前写了一个电商爬虫系列的文章,简单的给大家展示了一下爬虫从入门到进阶的路径,但是作为一个永远走在时代前沿的科技工作者,我们从来都不能停止在已有的成果上,所以带上你的chrome,拿起你的xpathhelper,打开你的神箭手,让我们再次踏上征战金融数据之旅吧。(上个系列相对难一些,建议如果是初学者,先看这个系列的教程)

继续阅读“互联网金融爬虫怎么写-第一课 p2p网贷爬虫(XPath入门)”

手把手教你写电商爬虫-第五课 京东商品评论爬虫 一起来对付反爬虫

系列教程:

手把手教你写电商爬虫-第一课 找个软柿子捏捏

手把手教你写电商爬虫-第二课 实战尚妆网分页商品采集爬虫

手把手教你写电商爬虫-第三课 实战尚妆网AJAX请求处理和内容提取 

手把手教你写电商爬虫-第四课 淘宝网商品爬虫自动JS渲染 


四节课过去了,咱们在爬虫界也都算见过世面的人,现在再来一些什么ajax加载之类的小鱼小虾应该不在话下了,即使是淘宝这种大量的ajax,我们祭上我们的核武器,也轻松应对了,这一课主要是来看看除了技术上的页面处理外,我们还会遇上更棘手的问题,就是反爬虫,当然现在有

各种各样的反爬虫,今天就先介绍最简单的一种:限制IP。

今天咱们的对手依然是业界大佬,马云最忌惮的男人,宅男心中爱恨交错的对象 – JD.COM

继续阅读“手把手教你写电商爬虫-第五课 京东商品评论爬虫 一起来对付反爬虫”

12