任佳伟:使用「Web Scraper」抓取商品信息

任佳伟 任佳伟 7个月前 0 4 3379
摘要:某某插件 如此简单 如此方便?
转载是一种动力 分享是一种美德 关注是一种收获


之前我们讲到用Chrome插件——Instant Data Scraper来爬取亚马逊的Review,许多小伙伴已经不再满足于爬Review了。怎么办?那就要学习更厉害的工具啦,当然更厉害的工具也会更复杂。


今天要为大家介绍的也是一个Chrome插件——Web Scraper。看看它在「Chrome应用商店」的评价吧,我相信它也会给你惊喜的!



有的小伙伴可能会说,你之前不说去你的「Web Scraper!」吗?


哎呀,我就那么一说嘛。毕竟我们连亚马逊都敢做,学习怎么用一个爬虫插件有难度?不存在的!那么就我开始学习使用「Web Scraper」吧!


到底怎么添加Chrome插件?


方式1:

访问https://chrome.google.com/webstore

(需要科学上网),在页面搜索「Web Scraper」,搜索结果正第一个就是啦,点击按钮「添加至CHROME」。

方式2:

直接百度搜索「Chrome插件」找一些非Google官方的网站下载插件。点击按钮「添加至CHROME」。

方式3:

如果小主你实在找不到,私信我吧。


成功安装后你的浏览器右上角会显示

这个蜘蛛网图标。


如何使用Web Scraper?


1、打开Web Scraper


装好插件后是不是迫不及待试试看它能帮我抓到什么数据?那我们就一起来爬亚马逊的商品吧。


这里我选择的美国站Best-Sellers中的Book,打开链接后按下F12或在网页空白处点击鼠标右键—>检查。什么鬼!浏览器出现了一堆看不懂的东西?不用担心,再点击↓



这就到「Web Scraper」的界面了。



2、创建爬虫


如图点击Create new sitemapCreate Sitemap

在Sitemap name中填入自己想要为这个爬虫取的名字,如:「book」。在Start URL中填写想要爬的网站链接,这里我们填入亚马逊Best Sellers in Books的链接:https://www.amazon.com/best-sellers-books-Amazon/zgbs/books/ref=pd_dp_ts_books_1,点击「Create Sitemap」就创建了一个名为「Book」的爬虫。



3、创建选择器


完成爬虫的创建后我们就需要创建选择器了,选择器我们可以认为它是你需要爬取的范围。点击「Add new selector」,将跳转至这个页面。

「id」(即给选择器命名)我们可以自由发挥,只要你自己知道这个「ID」代表的是这个选择器(爬取范围)就OK啦!这里我们先爬取商品的标题,所以命名为title。


「Type」选择的是类型,这里我们默认为「Text」类型。


「Selector」


「Selector」就是这里的重点了!



1、我们首先点击Selector中的「Select」按钮,将鼠标移动到页面上。你会发现你的鼠标所到之处都会变成「原谅色」(绿色),这就对了。我们将鼠标移动到一本书的标题上,标题底色变红,就表示已经选取了这一本书的标题,如下图↓


别停再点旁边另一本书的名字。这样做的目的是为了让「Web Scraper」找到当前页面中所有相同属性的数据,一般情况下点击两个数据,该页面所有相同数据底色都会变红。



2、「Element preview」按钮可预览当前已选择的元素,点击后效果与上图一样。


3、「Data preview」按钮可预览当前已抓取到的数据。可我们完成上面步骤后点击「Data preview」却仅有一条数据是为啥?


看到「Multiple」没有?点一下,再按「Data preview」按钮就可以看到整页所有书籍的标题啦。


「Regex」意思是正则表达式,在这里我们默认不填。正则表达式是一个用来匹配字符串的一个模式,最简单的正则表达式就是一个简单的字符串,比如'python'这个可以用来匹配'python'这个词语。你可以用正则表达式在一串字符中来匹配一个你要查找的内容,或者替换他,或者将其分割成字符片段。对于正则表达式,以为IT大牛James Werner Zawinski曾经用some people, when confronted with a problem, think, "I know, I'll use regular expressions." Now they have two problems.”这句话来形容正则的晦涩、难懂。


「Delay」表示每次访问中的延迟时间,这里我们设置为500。


「Parent Selectors」会罗列出各选择器的层级关系。


「Save Selector」点击该按钮可以保存选择器。


4、数据抓取和保存,在完成选择器编辑并预览数据无误后,我们就可以设置爬取参数并开始抓取数据了。




如图点击「Scrape」会转至爬取参数界面。


其中「Request interval」指每次请求间隔、「Page load delay」指每次页面加载延时。这两个参数都不建议设置过小,若过快页面会出现验证码,导致我们无法抓到想要的数据。完成参数填写后点击「Start scraping」就开始爬取数据啦!

在完成爬取后,点击「Export data as CSV」就可以把数据以CSV格式保存到本地啦。至此大功告成!



今天是「Web Scraper」最最最基础的教程,因为很多新手卖家反馈说复杂的看不太懂。大家有什么问题或者想看什么类型的干货都可以留言,这边会一一回复你们!


往期精彩回顾

【Python爬虫】:使用「Selenium」+「Chromedriver」爬僵尸链接
【Python爬虫】:使用「Requests」+「bs4」写亚马逊爬虫
任佳伟:如何利用Instant Data Scraper插件抓取亚马逊评论?


好文!必须点赞
本文已被这些标签收录: 任佳伟
卖家之家倡导尊重保护知识产权。未经本站授权,任何人不得复制、转载、或以其他方式使用本网站的内容。鉴于第三方在平台发布信息数量庞大,如发现本站文章或其它信息可能存在侵权行为,请将身份、版权等证明文件以及相关质询发送邮件至complain#mjzj.com(#换为@),我们将及时沟通与处理

发表评论 未登录

说点什么...

最新评论

  • 目前暂无评论,快来抢沙发吧~

热门文章

亚马逊和谷歌达成合作,并宣布了这项计划,卖家需注意……
亚马逊和谷歌达成合作,并宣布了这项计划,卖家需注意……
亚马逊新功能上线!姐夫竟然抄袭淘宝
亚马逊新功能上线!姐夫竟然抄袭淘宝
如何应对复活节假期单量下滑导致listing排名惨跌
防火防盗防跟卖!轻松拯救被跟卖逼疯的卖家

家友评论

呵呵,我们2014年做到现在快五年了,公司名称和法人从未换过,2015年我们就开设了淘宝企业店铺,是该行业国内第一家支持淘宝拍款的服务商,这行你能看到的都是什么什么团队什么什么网络,敢把自己公司名称发出来的一只手都数的清,蓄意抹黑你也动点脑子行不行?你以为别人都跟你一样蠢?大家各做各的业务,井水不犯河水不好吗?
陕西天极网络科技有限公司- 服务商曝光台
真是明骚易躲暗贱难防啊!那就说说吧,是骗钱了还是骗感情了?聊天记录转款截图什么的总有吧?像楼下说的发出来看看呗,让大家也知道下我们是如何在这个行业骗了五年的好不好?(PS.楼下的亲也不用担心,我是天极网络公司经理,如果事后您发现被骗直接报警即可,千万别犹豫!)
陕西天极网络科技有限公司- 服务商曝光台
哇靠 刚想跟他合作的 辛亏来查了一下 
我要曝光一个测评骗子,欧壮鑫 - 聊天吹水交流
测评不是为了测评而测评的。 测评是一种方式,一个工具,在卖家手里运用得好的测评能轻易打造爆款。 如果你需要一个能配合得上你的思路你的操作的服务商,请找我!!! 出单可控,在你想要的时间下单,打造完美的出单走势! 合理的测评能带来高质的流量和高效的转化! 账号优质,操作严格控制风险,真人下单,真人收货。深圳可上门面谈! 美国\英国\德国\法国\日本\意大利,全部可接! 欢迎咨询微信:cc7904。合作不了,也希望跟各位卖家一起交流推新品的套路。       
靠谱测评服务商寻卖家合作。 - 测评资源互换
那我们这样的好刷单团队 还真是不好找 哈哈
巷口测评 - 测评资源互换
回复 神的对手:哈哈
亚马逊:年初至今已发布50种新工具和服务助力卖家销售,你get了吗 - 文章
回复 Thomas:Genau!(exactly!!)
亚马逊:年初至今已发布50种新工具和服务助力卖家销售,你get了吗 - 文章
好在先问了PP 账号,现在名字是坂美佐保
南 かなこ - 测评资源互换
不是吧,我前天刚找他们下的单??你怎么被骗的可以详细说下或者发截图看看不?
陕西天极网络科技有限公司- 服务商曝光台
赶跟卖可以找我,4年亚马逊经验赶跟卖,赶走后客户自己检查1-3天,客户再自己确认3天,没问题后,走淘宝付款,最低低至450,最长保3个月 还有很多原创经验干货和选品数据包,新品分享哟,还有其他黑料分享,申诉咨询(被投诉跟卖的不帮),加群免费享有。微信177 2794 0470·. 
Calo CC - 恶意跟卖曝光台
 最好的问候,是祝福;最好的祝福,是快乐;最好的快乐,是便宜的价格;最好的价格,尽在航程物流~ 各种各样 双清包税空海运、3-5天快递价格、自用VAT空海运等优惠价格 等您来咨询    
离英国“脱欧”还有一个多月,亚马逊物流(FBA)优惠助你做好准备! - 文章
刚合作完,16号下单,20号回评,评后返的,账号质量很好,大家放心合作
sandraclough@live.co.uk - 英国 - 测评黑名单
反正我现在对先付钱这一点是拒绝的,付了钱,态度立马变了,付了钱消息爱回不回的人不止一两个
A、一手服务商诚信接单 - 美国 - 测评黑名单
服务商名字:巷口测评
即刻跨境- 服务商曝光台
他给我返了,不是骗子,不要在诬陷他了,谢谢
接单+换群(一诺千金) - 美国 - 测评黑名单
服务商就别合作了,买家质量都不高,还不如多花点时间自己找买家。
A、一手服务商诚信接单 - 美国 - 测评黑名单
这是哪位黑人家,请拿出来证据,她都测评三年了,合作一直没有问题,值得信赖!
sunxuwei1983 - 德国 - 测评黑名单
这个达人我合作很多年的,我个人觉得挺好的, 有些人觉得不好 可能是沟通时候有误会!反正这个达人没有骗过我,每次都很诚实的测评!
Tamuna Kardava - 英国 - 测评黑名单
我的重点竟然是觉得楼主很萌?
A、一手服务商诚信接单 - 美国 - 测评黑名单
蹭点经验,那个逼也找我了。
niklasddonnerstag@gmail.com - 德国 - 测评黑名单

跨境活动会议

破局--亚马逊选品运营纯干货大会
2018年福建亚马逊卖家年终盛典
福州仓山 01-12 参加活动