权东源

爬虫-数据抓取工具
给大家安利一个很好用的Chrome插件-Webscraper,用以快速、免费的爬取一些网页上的数据。本帖旨在让一个...
扫描右侧二维码阅读全文
04
2018/09

爬虫-数据抓取工具

给大家安利一个很好用的Chrome插件-Webscraper,用以快速、免费的爬取一些网页上的数据。
本帖旨在让一个完全不懂程序的人按照步骤能快速爬出自己想要的数据。

先说用途:

  • 分析米课海关数据的时候懒得一个一个点开看,可以使用这个插件批量下载到本地的一个文档中慢慢看,还可以分析数据。
  • 途牛旅游选项太多,可以使用这个插件批量下载到本地的一个文档中慢慢看,还可以分析数据。
  • 分析竞争对手的经销商、供应商、网站和产业链条的时候懒得一个一个点开分析,可以使用这个插件批量下载到本地的一个文档中慢慢看,还可以分析数据。
  • 只要需要爬取数据的地方都可以用这个

细节:

不同网页采用不同的刷新形式(Scroll down或者异步Ajax或者整页刷新等等),对应要使用不同的爬虫选项;有些网站比如淘宝会有反爬虫的程序,懒得折腾的话可以使用国产“八爪鱼”等爬虫软件高效爬取;大神程序猿请使用Python自己写爬虫(我最近迷Python,刚刚开始学)...

以上

个人觉得看视频会直观一些,所以贴到前面了(视频为爬取途牛旅游数据):


以下是Webscraper的一些要点(就以爬取米课海关数据为例)。比如我要爬取业内非常有名Taylor吉他的供应链体系,我先通过公司名Taylor-Listug找到他们在米课海关数据里有39个供应商,现在我们一步一步把它们爬取出来。数据爬取程序在大数量的数据下更有意义,39个人还可以一个一个复制粘贴,但是390000个人力就很难完成,这种重复性的劳动还是交给计算机好了...人类因为懒所以发明那么多好玩儿高效的东西,懒是个好东西。

层级逻辑关系

在爬取数据前需要对网站的页面结构进行分析,进而选择合适的参数进行最高效的爬取。
个人建议:多找一些网站去进行爬取练习,一方面提高熟练度多认识一些页面结构,另一方面加深对爬虫层级的理解。此外,建议去知乎、youtube等平台寻找真·大神的视频进行学习。
话不多说,下面和我一步一步来爬出想要的数据吧!

层级逻辑关系.jpg

安装Web-scraper

安装webscraper.jpg

开启Web-scraper并创建一个程序

大家可以在webscraper的菜单里随便点一点熟悉一下菜单结构,防止点过去点不回来。另外如果大家在设置参数的时候没保存就按了F12,那么设置的参数会消失,所以一定要记得保存。此外webscraper有程序导入导出的功能方面大家在另一台电脑上使用,具体操作方法很简单,大家可以自行折腾。

f12.jpg

创建Sitemap.jpg

创建sitemap注意点.jpg

创建、设置父层容器div1和小细节

不同的页面结构会对应不同的参数,这里仅以此次需要爬取的这个页面为例。其他的参数大家可以去其他网站折腾一下。

sitemap层级结构.jpg

selector选择.jpg

selector选择规则.jpg

element click.jpg

click selector.jpg

click type.jpg

Multiple.jpg

delay.jpg

创建、设置子层选择器和小细节

子容器会在父容器div1的框架中,所以只要在父容器的第一个框内选择就好,程序会给出高亮范围提示。这里不用选择multiple,否则数据会出错。

完成div1.jpg

子层设置.jpg

link小技巧.jpg

完成子层.jpg

准备工作完成,准备爬数据!

开始爬取数据!.jpg

搞定!.jpg

下载数据!.jpg

下载出数据就可以在Excel里面进行分析了。看到这里说明你一定成功了对不对?
啥,没成功?留言吧。。或者重新再来一遍?

最后修改:2018 年 12 月 07 日 10 : 49 AM
瞅啥瞅,没见过要饭的吗

发表评论