搜索
  • 评论

  • 收藏

  • 微信

    微信扫一扫
  • QQ

  • 微博

  • 定制
    定制属于自己的跨境资讯
    微信扫一扫

【Python爬虫】: Selenium自动化进阶,它能做的不仅仅是爬虫

任佳伟 2018-12-26 19:00
摘要:不会爬虫的运营不是好卖家,技术干货两样都抓!!!
文章封面

哈喽,之前为大家介绍了Selenium的基本用法,使用Selenium获取网页源码再解析数据的方式来完成数据的爬取。

除此之外,它还有更多的进阶功能,今天在这里就位大家介绍用Selenium的鼠标键盘操作(ActionChains)和使用Selenium实现验证码破解。

仔细往下看,你会发现很多所谓的黑科技原来你也可以实现!



PART

01


用Selenium做自动化,有时候会遇到需要模拟鼠标操作才能进行的情况,比如单击、双击、点击鼠标右键、拖拽等等。而Selenium给我们提供了一个类来处理这类事件——ActionChains。


selenium.webdriver.common.action_chains.ActionChains(driver)


ActionChains类基本能够满足我们所有对鼠标操作的需求。


以下是罗列的ActionChains方法:


# 单击鼠标左键
click(
on_element=None)
# 点击鼠标左键,不松开
click_and_hold(
on_element=None)
# 点击鼠标右键
context_click(
on_element=None)
# 双击鼠标左键
double_click(
on_element=None)
# 拖拽到某个元素然后松开
drag_and_drop(source
, target)
# 拖拽到某个坐标然后松开
drag_and_drop_by_offset
(source
, xoffset, yoffset)
# 按下某个键盘上的键
key_down(value
, element=None)
# 松开某个键
key_up(value
, element=None)
# 鼠标从当前位置移动到某个坐标

move_by_offset(xoffset
, yoffset)
# 鼠标移动到某个元素
move_to_element(to_element)
# 移动到距某个元素(左上角坐标)多少距离的位置
move_to_element_with_offset
(to_element
, xoffset, yoffset)
# 执行链中的所有动作
perform()
# 在某个元素位置松开鼠标左键
release(
on_element=None)
# 发送某个键到当前焦点的元素
send_keys(*keys_to_send)
# 发送某个键到指定元素
send_keys_to_element
(element
, *keys_to_send)


PART

02


接下来用亚马逊相关事例,来详细说明和演示每一个方法的用法:


1、点击操作:打开亚马逊→搜索“echo→自动翻页。


import time
from selenium import webdriver
# 生成浏览器对象
browser = webdriver.Firefox()
# 使浏览器访问 https://www.amazon.com/。
browser.get('https://www.amazon.com/')
# 找到亚马逊的搜索框并输入‘echo’。
browser.find_element_by_xpath
(
'//*[@id="twotabsearchtextbox"]')
.send_keys(
'echo')
# 输入‘echo'后点击放大镜标志的搜索按钮。
browser.find_element_by_xpath
(
'//*[@id="nav-search"]/form/div[2]
/div/input'
).click()
# 在每页停顿5秒后,点击翻页按钮。
while True:
    time.sleep(
5)
    browser.find_element_by_xpath
    (
'//*[@id="pagnNextString"]').click()


2、标移动:打开亚马逊→将鼠标移动到切换语言的按钮上→将鼠标移动到登陆按钮上。


import time
from selenium import webdriver
from selenium.webdriver.common.
action_chains
import ActionChains
# 生成浏览器对象
browser = webdriver.Firefox()
# 使浏览器访问 https://www.amazon.com/。
browser.get('https://www.amazon.com/')
# 找到亚马逊主页切换语言的element。
language = browser.find_element_by_xpath
(
'//*[@id="icp-nav-flyout"]')
# 找到亚马逊主页登陆的element。
sign_in = browser.find_element_by_xpath
(
'//*[@id="nav-link-accountList"]')
# 生成ActionChains对象。
action = ActionChains(browser)
# 将鼠标移动到亚马逊主页切换语言的element。
action.move_to_element(language).perform()
time.sleep(
5)
# 将鼠标移动到亚马逊主页登陆的element。
action.move_to_element(sign_in).perform()
time.sleep(
5)
# 将鼠标移动到亚马逊主页登陆的element。
action.move_to_element(sign_in).perform()
time.sleep(
5)


3、拖拽:将亚马逊主页的Logo拖入搜索框中。(可用于破解滑块验证码中)


from selenium import webdriver
from selenium.webdriver.common.
action_chains
import ActionChains
# 生成浏览器对象
browser = webdriver.Firefox()
# 使浏览器访问 https://www.amazon.com/。
browser.get('https://www.amazon.com/')
# 找到亚马逊主页搜索框左边的亚马逊LOGO。
logo = browser.find_element_by_xpath
(
'/html/body/div[1]/header/div
/div[1]/div[1]/div/a/span[1]'
)
# 找到亚马逊搜索框
Search_Bar = browser.find_element_by_xpath
(
'//*[@id="twotabsearchtextbox"]')
# 将亚马逊logo移动到搜索框
action = ActionChains(browser)
action.drag_and_drop
(logo
, Search_Bar).perform()


温馨提示:拖拽使用时注意加等待时间,有时会因为速度太快而失败。

——贴心的小编




4、截图:配合打码平台破解亚马逊验证码。


from selenium import webdriver
from selenium.webdriver.common.
action_chains
import ActionChains
# 生成浏览器对象
browser = webdriver.Firefox()
# 使浏览器访问 https://www.amazon.com/。
browser.get('https://www.amazon.com/')
# 获取当前浏览器title
title = browser.title
# 如果浏览器title 等于 “Robot Check”
if title == 'Robot Check':
   
# 找到验证码图片element
   
code_image_div = browser.find_element_
    by_xpath(
'/html/body/div/div[1]/div[3]
    /div/div/form/div[1]/div/div/div[1]/img'
)
   
# 截取验证码图片,并以"code.png"命名保存。
   
code_image_div.screenshot('code.png')
   
# 对接打码平台 上传验证码图片。
   
rc = RClient('username',
    'password', '105391', 'softid')
    im1 =
open('a.png', 'rb').read()
   
print("正在识别验证码...")
   
# 获取返回的验证码
   
response = (rc.rk_create(im1, 2060))
    code = response[
'Result']
   
print('验证码为:' + code)
   
# 找到验证码输入框并输入验证码
   
browser.find_element_by_xpath
   (
'//*[@id="captchacharacters"]')
    .send_keys(code)
   
# 点击 确定 按钮。
   
browser.find_element_by_xpath
    (
'/html/body/div/div[1]/div[3]
    /div/d
iv/form/div[2]/
   div/span/span/button'
).click()


有了以上这些方法,我相信已经有一些同学想到用它们干什么了吧?方法有了,看你自己怎么使用它哦!


PART

03


简单一句就是Selenium可以完成大多数跟真人一样的操作。

你可以在写好程序后冲一杯咖啡,静静的看着它帮你完成点击、浏览的操作,就算出现验证码也阻挡不了它!

以上就是selenium鼠标键盘操作(ActionChains)的大部分功能以及破解亚马逊验证码的实现,有兴趣的读者朋友可以深入研究,将它利用到实际工作中。



以上就是本期的爬虫文章,谢谢阅读。


卖家之家倡导尊重保护知识产权。未经本站授权,任何人不得复制、转载、或以其他方式使用本网站的内容。 鉴于第三方在平台发布信息数量庞大,如发现本站文章或其它信息可能存在侵权行为,请将身份、 版权等证明文件以及相关质询发送邮件至complain@mjzj.com,我们将及时沟通与处理
点赞 {{voteAmount}}
参与评论
禁用 提交

家友评论

{{comment.user.nickName}} (楼主)

{{comment.time}} 回复({{comment.childAmount}}) 点赞({{comment.voteUpAmount}}) 点赞({{comment.voteUpAmount}})

{{childComment.user.nickName}} (楼主)

{{childComment.time}} 回复({{childComment.childAmount}}) 点赞({{childComment.voteUpAmount}}) 点赞({{childComment.voteUpAmount}})

还没有人评论~
没有更多了~

查看更多评论

作者头像

任佳伟

以中国亚马逊卖家为中心,引导每一个卖家,运用互联网产品运营的思维去经营自己的店铺和产品,希望能把每一家在亚马逊上卖货的公司,变成一家互联网公司。让爆单成为每个卖家日常生活的一部分。

热门服务商 更多 >
意见反馈
回到顶部
{{fullScreenAd.autoCloseSeconds}}秒后自动关闭