Web Scraper

发布时间: 编辑:CINDY 0人评论 114564次浏览 Chrome生产工具插件
直达下载
摘要 : Web Scraper是一款可以从网页中提取数据的chrome网页数据提取插件,是一款非常好用的爬虫工具。

Web Scraper Chrome插件背景介绍

作为小编,我们常常有种强烈的需求就是不需要编程,也能够网页抓取。新媒体运营也是,很多时候会需要用到数据来帮助工作。比如,我们登陆淘宝,京东等商务网站,抓取某一类商品的规格说明,价格,厂家等信息;我们希望可以抓取我们进入头条上的最热门的文章,也可以抓取我们自己的所有文章列表,发布时间,阅读和浏览量等信息,当然也能抓取我们的粉丝列表。 那么有没有这样一款工具存在呢?今天我们chrome插件网要为大家介绍的这款Web Scraper插件就是这样一款你不需要写任何的代码,只需点击,点击,点击,四步使用者就能通过该插件来建立页面数据提取规则,从而快速对网页中需要的内容进行提取,最后还能把抓取的结果导出为Excel可以识别的CSV格式。

Web Scraperlogo图片

Web Scraper插件使用方法

1、如果你可以进入Chrome 应用商店,那么可以选择在线安装。如下图所示:

Web Scraper插件使用方法

不能访问的话就在本站下载Web Scraper插件。其离线安装的方法参照:chrome插件的离线安装方法。最新chrome浏览器下载地址:https://huajiakeji.com/category/chrome/。

标签页输入【chrome://extensions/】进入chrome扩展程序,解压你在本页下载的Web Scraper插件,并拖入扩展程序页即可。

2、插件安装完成后,在浏览器中会出现其按钮标记。用户可以先在设置页面中对该插件的储存设置和储存类型功能进行设置。

3、用户可以使用Web Scraper插件来抓取页面,其操作方法如下:

1)、打开你要抓取的网页。

首先要使用该插件来提取网页数据需要在开发者工具模式中使用,使用快捷键Ctrl+Shift+I/F12或者点击右键,选择“检查(Inspect)”,在开发者工具下面就能看到WebScraper的Tab。如下图所示:

Web Scraper插件使用方法

2)、新建一个Sitemap。点击Create New Sitemap,里面有两个选项,import sitemap是指导入一个现成的sitemap,咱小白一般没有现成的,所以一般不选这个,选create sitemap 就好。
Web Scraper插件使用方法
然后进行这两个操作:
(1)Sitemap Name:代表你这个Sitemap是适用于哪一个网页的,所以你可以根据网页来自命名,不过需要使用英文字母,比如我抓的是今日头条的数据,那我就用toutiao来命名;
(2)Sitemap URL:把网页链接复制到Star URL这一栏,比如图片里我把「吴晓波频道」的主页链接复制到了这一栏,而后点击下方的create sitemap来新建一个Sitemap。

3)、设置这个Sitemap
整个Web Scraper的抓取逻辑是这样:设置一级 Selector,选定抓取范围;在一级 Selector 下设置二级 Selector,选定抓取字段,然后抓取。
对于文章而言,一级 Selector 就是你要把这一块文章的要素圈出来,这个要素可能包含了 标题、作者、发布时间、评论数等等,然后我们再在二级 Selector 中挑出我们要的要素,比如标题、作者、阅读数。
Web Scraper图片

下面我们来拆解这个设置一级、二级 Selector 的工作流:

Web Scraper图片

(1)点击 Add new selector 创建一级 Selector。
而后按照以下步骤操作:
-输入id:id代表你抓取的整个范围,比如这里是文章,我们可以命名为wuxiaobo-articles;
-选择Type:type 代表你抓取的这部分的类型,比如元素/文本/链接,因为这个是整个文章要素范围选取,我们需要用Element 来先整体选取(如果这个网页需要滑动加载更多,那就选 Element Scroll Down);
-勾选Multiple:勾选 Multiple 前面的小框,因为你要选的是多个元素而不是单个元素,当我们勾选的时候,爬虫插件会帮助我们识别多篇同类的文章;
-保留设置:其余未提及部分保留默认设置。

(2)点击select选择范围,按照以下步骤操作:
-选择范围:用鼠标选择你要爬取数据的范围,绿色是待选区域,用鼠标点击后变为红色,才是选中了这块区域;
-多选:不要只选一个,下面的也要选,否则爬出来的数据也只有一行;
-完成选择:记得点Done Selecting;
-保存:点击Save Selector。
Web Scraper插件使用方法
(3)设置好了这个一级的Selector之后,点进去设置二级的Selector,按照以下步骤操作:
-新建Selector:点击 Add new selector ;
-输入id:id代表你抓取的是哪个字段,所以可以取该字段的英文,比如我要选「作者」,我就写「writer」;
-选择Type:选Text,因为你要抓取的是文本;
-勿勾选Multiple:不要勾选 Multiple 前面的小框,因为我们在这里要抓取的是单个元素;
-保留设置:其余未提及部分保留默认设置。
Web Scraper插件使用方法
(4)点击 select,再点击你要爬取的字段,按照以下步骤操作:
-选择字段:这里爬取的字段是单个的,用鼠标点击该字段即可选定,比如要爬标题,那就用鼠标点击某篇文章的标题,当字段所在区域变红即为选中;
-完成选择:记得点 Done Selecting;

-保存:点击 Save Selector。

Web Scraper插件使用方法

(5)重复以上操作,直到选完你想爬的字段。
4、爬取数据
(1)之后你想要爬取数据只需要设置完所有的Selector就可以开始:
点击Scrape,然后点Start Scraping,弹出一个小窗后爬虫就会开始工作。你会得到一个列表,上面有你想要的所有数据。

(2)如果你希望把这些数据做一个排序,比如按照阅读量、赞数、作者等指标排序,让数据更一目了然,那么你可以点击 Export Data as CSV,把它导入 Excel 表里。
(3)导入 Excel 表格之后,你就可以对数据进行筛选了。

Web Scraper图片

我们这里只是简单介绍总结了Web Scraper的插件的功能,安装以及一个简单的单页面例子。其实Web Scraper的功能远远不止于此,其实还能抓取分页,还能多页多元素的抓取,还能抓取二级页面。大家自己慢慢摸索吧。

Web Scraper插件官方教程视频

http://webscraper.io/tutorials

查看更多

Web Scraper下载地址

点击下载Web Scraper

转载必须注明来自:https://huajiakeji.com/productivity/2018-05/942.html

Spider - 网页抓取工具

Spider - 网页抓取工具

0 人评论 38769 次人浏览 4.0分 4.0 分
Spider是一款智能的点击式网页抓取工具,可以一键抓取网页上的结构化数据,并导出为 JSON 和 CSV 文件,无需编码经验或配置时间。
酷鸟采集买家ID

酷鸟采集买家ID

0 人评论 24705 次人浏览 4.0分 4.0 分
酷鸟采集买家ID是一款由酷鸟卖家助手出品的可以帮助亚马逊卖家采集买家ID信息进行店铺评价管理的chrome插件。
微小宝浏览器插件

微小宝浏览器插件

1 人评论 33765 次人浏览 4.0分 4.0 分
微小宝浏览器插件又叫微小宝公众号助手,是一款可以提高公众号运营效率的利器。
XPath Helper

XPath Helper

5 人评论 196425 次人浏览 3.4分 3.4 分
XPath Helper可以支持在网页点击元素生成xpath,整个抓取使用了xpath、正则表达式、消息中间件、多线程调度框架的chrome插件。
采集助手插件

采集助手插件

0 人评论 12239 次人浏览 3.0分 3.0 分
云栈官方出品,支持在多平台采集,采集后可刊登至多个平台多个店铺,提高商品发布效率。
大作AI采集器插件 - 图片采集插件

大作AI采集器插件 - 图片采集插件

0 人评论 8876 次人浏览 3.0分 3.0 分
大作AI采集器插件是由大作官网提供的一款图片采集插件,它可以帮助你在网络上快速采集高清图片到大作网账号中收藏,在以后需要的时候随时打开大作浏览您收藏的图片。
简媒助手插件 - 新媒体运营工具

简媒助手插件 - 新媒体运营工具

0 人评论 8077 次人浏览 3.0分 3.0 分
简媒助手插件是一款一款功能十分强大的自媒体管理插件,可以帮助自媒体运营人员轻松管理15+个新媒体平台账号,支持自动登录各大平台,文章排版,一键全网分发文章,数据分析推送。
96微信编辑器

96微信编辑器

0 人评论 10982 次人浏览 3.0分 3.0 分
96微信编辑器是一款由微信在线编辑器改编的功能强大的微信公众平台在线编辑排版工具。
微小宝公众号助手插件

微小宝公众号助手插件

0 人评论 10221 次人浏览 3.0分 3.0 分
微小宝公众号助手插件是由杭州推宝科技有限公司官方推出的一款非常好用的自媒体微信公众号助手.
新媒体管家浏览器插件V7.3.1

新媒体管家浏览器插件V7.3.1

0 人评论 12036 次人浏览 3.0分 3.0 分
新媒体管家插件又叫做新媒体管家plus,是一款运行在浏览器上面的公众号运营管理插件,可直接搭载在公众号后台使用,无需跳转到第三方编辑器。
135编辑器

135编辑器

0 人评论 18883 次人浏览 3.0分 3.0 分
135编辑器是一款专门针对微信公众号所打造的在线图文快速排版工具。
新榜小助手

新榜小助手

0 人评论 23234 次人浏览 3.0分 3.0 分
新榜小助手为公众号运营者提供广告接单变现与运营工具服务,让变现更简单,让运营更有效的浏览器插件。
淘客助手:让推广更有效

淘客助手:让推广更有效

0 人评论 55888 次人浏览 3.0分 3.0 分
淘客助手是一款专为淘客们设计的一种辅助工具chrome插件,具备佣金查询、佣金计划查询等方便功能,使用淘客助手可以显著提高淘客工作效率。
芒果店长

芒果店长

0 人评论 76304 次人浏览 2.2分 2.2 分
芒果店长是一款可以帮助店长快速采集网货,轻松打包发货,抢占跨境电商市场的采集插件。
西瓜插件

西瓜插件

0 人评论 31495 次人浏览 2.0分 2.0 分
西瓜插件是一款公众号运营辅助工具,由福州西瓜文化传播有限公司开发,为运营者提供在计算机浏览器上查看公众号的预估粉丝数、头条平均阅读量,以及单篇公众号文章的阅读量、点赞量等详细数据的服务。
评论:(0)

已有 0 位网友发表了一针见血的评论,你还等什么?