爬虫动态网页Ajax接口分析难?Selenium轻松帮你搞定
qiyuwang 2024-11-01 14:42 18 浏览 0 评论
Selenium是一个自动化测试工具, 利用它可以驱动浏览器执行特定的动作, 如点击、下拉等操作,同时还可以获取浏览器当前呈现的页面源代码 ,做到可见即可爬。 对于一些 JavaScript 动态渲染的页面来说, 此种抓取方式非常有效。
0、安装
(1) Selenium 的安装
pip install selenium
(2) webdriver的下载
Selenium是一个自动化测试工具,需要配合浏览器来使用,webdriver是Selenium用来驱动浏览器的。
需要根据你的浏览器的版本下载对应的webdriver驱动。比如这里使用ChromeDriver驱动,可自行百度下载。
下载完成后,它是一个可执行文件。我们可以把它加入环境变量,之后我们再构造webdriver.Chrome()时,括号里面就不用传入驱动器的路径了。
1、基本使用
2、初始化浏览器对象
from selenium import webdriver
browser = webdriver.Chrome()
3、访问页面
browser.get("https://www.baidu.com/")
# 获取网页源代码
print(browser.page_source)
browser.close()
4、查找节点
(1)查找单节点
常用以下7种:
find_element_by_id
find_element_by_class_name
find_elemnet_by_xpath
find_element_by_css_selector
find_element_by_name
find_element_by_tag_name
find_element_by_link_text
find_element_by_partial_link_text
(2)查找多节点
见上述查找单节点方法,区别是element改为elements
5、节点交互
常用的有:
(1)input.send_keys("Python") 搜索框里面输入内容,如Python
(2). input.clear() 清除搜索框里面的内容
(3). button.click() 模拟鼠标点击,button为找到的可点击的标签
6、动作链
如将下方的A放到B处:
7、执行JavaScript
对于某些操作,Selenium没有提供操作。比如下拉进度条
browser.execute_script(js代码)
8、获取节点信息
# 获取a标签的href属性
a.get_attribute("href")
# 获取节点下的所有文本信息,返回一个字符串
div.text
9、切换Frame
我们知道网页中有一种节点叫做 iframe ,也就是子Frame,相当于页面的子页面,它的结构和外部网页的结构完全一致。 Selenium 打开页面后,它默认是在父级 Frame 里面操作,而此时如果页面中还有子Frame,它是不能获取到子Frame里面的节点的,这时就需要使用 switch_to .frame()方法来切换 Frame。
# 此处根据id名切换
browser.switch_to.frame("iframeResult")
10、延时等待
在 Selenium 中,get()方法会在网页框架加载结束后结束执行, 此时如果获取 page_source ,可能并不是浏览器完全加载完成的页面, 如果某些页面有额外的 Ajax 请求, 我们在网页源代码中也不一 定能成功获取到 。 所以, 这里需要延时等待一定时间, 确保节点已经加载出来 。
这里等待的方式有两种: 一种是隐式等待, 一种是显式等待。
(1)隐式等待
即固定时间等待。如果Selenium没有在DOM中找到节点,将继续等待指定的时间,在指定的时间末尾再次检查是否有该节点,没有就抛出异常。单位是s
browser.implicitly_wait(10)
(2)显式等待
显式等待更加灵活,它可以指定最大等待时间,如果在这个时间之内返回就会继续往下运行代码。单位是s
首先利用wait = WebDriverWait(browser, 10)构建等待对象,
之后wait.until(EC.presence_of_element_located((By.CLASS_NAME, "left"))),EC是等待条件对象,presence_of_element_located是需要的等待条件,等待条件还有很多,具体见下方:
其他等待条件:
11、前进和后退
平常使用浏览器时都有前进和后退功能, Selenium 也可以完成这个操作,使用back()后退,forward()前进。示例如下:
12、Cookies
13、选项卡管理
首先执行js代码,browser.execute_script('window.open()'). 打开另一个选项卡
切换到另一个选项卡 browser.switch_to.window(browser.window_handles[1])
关闭选项卡browser.execute_script('window.close()')
再切换回来 browser.switch_to.window(browser.window_handles[0])
14、无头模式
即Selenium不再打开Chrome浏览器,通过option = webdriver.ChromeOptions()和option.add_argument('--headless')添加即可。
以上就是Selenium的全部内容了,用的时候也就那么几个参数需要设置以下即可。
相关推荐
- # 安装打开 ubuntu-22.04.3-LTS 报错 解决方案
-
#安装打开ubuntu-22.04.3-LTS报错解决方案WslRegisterDistributionfailedwitherror:0x800701bcError:0x80070...
- 利用阿里云镜像在ubuntu上安装Docker
-
简介:...
- 如何将Ubuntu Kylin(优麒麟)19.10系统升级到20.04版本
-
UbuntuKylin系统使用一段时间后,有新的版本发布,如何将现有的UbuntuKylin系统升级到最新版本?可以通过下面的方法进行升级。1.先查看相关的UbuntuKylin系统版本情况。使...
- Ubuntu 16.10内部代号确认为Yakkety Yak
-
在正式宣布Ubuntu16.04LTS(XenialXerus)的当天,Canonical创始人MarkShuttleworth还非常开心的在个人微博上宣布Ubuntu下个版本16.10的内...
- 如何在win11的wsl上装ubuntu(怎么在windows上安装ubuntu)
-
在Windows11的WSL(WindowsSubsystemforLinux)上安装Ubuntu非常简单。以下是详细的步骤:---...
- Win11学院:如何在Windows 11上使用WSL安装Ubuntu
-
IT之家2月18日消息,科技媒体pureinfotech昨日(2月17日)发布博文,介绍了3中简便的方法,让你轻松在Windows11系统中,使用WindowsSubs...
- 如何查看Linux的IP地址(如何查看Linux的ip地址)
-
本头条号每天坚持更新原创干货技术文章,欢迎关注本头条号"Linux学习教程",公众号名称“Linux入门学习教程"。...
- 怎么看电脑系统?(怎么看电脑系统配置)
-
要查看电脑的操作系统信息,可以按照以下步骤操作,根据不同的操作系统选择对应的方法:一、Windows系统通过系统属性查看右键点击桌面上的“此电脑”(或“我的电脑”)图标,选择“属性”。在打开的...
- 如何查询 Linux 内核版本?这些命令一定要会!
-
Linux内核是操作系统的核心,负责管理硬件资源、调度进程、处理系统调用等关键任务。不同的内核版本可能支持不同的硬件特性、提供新的功能,或者修复了已知的安全漏洞。以下是查询内核版本的几个常见场景:...
- 深度剖析:Linux下查看系统版本与CPU架构
-
在Linux系统管理、维护以及软件部署的过程中,精准掌握系统版本和CPU架构是极为关键的基础操作。这些信息不仅有助于我们深入了解系统特性、判断软件兼容性,还能为后续的软件安装、性能优化提供重要依据。接...
- 504 错误代码解析与应对策略(504错误咋解决)
-
在互联网的使用过程中,用户偶尔会遭遇各种错误提示,其中504错误代码是较为常见的一种。504错误并非意味着网站被屏蔽,它实际上是指服务器在规定时间内未能从上游服务器获取响应,专业术语称为“Ga...
- 猎聘APP和官网崩了?回应:正对部分职位整改,临时域名可登录
-
10月12日,有网友反映猎聘网无法打开,猎聘APP无法登录。截至10月14日,仍有网友不断向猎聘官方微博下反映该情况,而猎聘官方微博未发布相关情况说明,只是在微博内对反映该情况的用户进行回复,“抱歉,...
- 域名解析的原理是什么?域名解析的流程是怎样的?
-
域名解析是网站正常运行的关键因素,因此网站管理者了解域名解析的原理和流程对于做好域名管理、解决常见解析问题,保障网站的正常运转十分必要。那么域名解析的原理是什么?域名解析的流程是怎样的?接下来,中科三...
- Linux无法解析域名的解决办法(linux 不能解析域名)
-
如果由于误操作,删除了系统原有的dhcp相关设置就无法正常解析域名。 此时,需要手动修改配置文件: /etc/resolv.conf 将域名解析服务器手动添加到配置文件中 该文件是DNS域名解...
- 域名劫持是什么?(域名劫持是什么)
-
域名劫持是互联网攻击的一种方式,通过攻击域名解析服务器(DNS),或伪造域名解析服务器(DNS)的方法,把目标网站域名解析到错误的地址从而实现用户无法访问目标网站的目的。说的直白些,域名劫持,就是把互...
你 发表评论:
欢迎- 一周热门
- 最近发表
-
- # 安装打开 ubuntu-22.04.3-LTS 报错 解决方案
- 利用阿里云镜像在ubuntu上安装Docker
- 如何将Ubuntu Kylin(优麒麟)19.10系统升级到20.04版本
- Ubuntu 16.10内部代号确认为Yakkety Yak
- 如何在win11的wsl上装ubuntu(怎么在windows上安装ubuntu)
- Win11学院:如何在Windows 11上使用WSL安装Ubuntu
- 如何查看Linux的IP地址(如何查看Linux的ip地址)
- 怎么看电脑系统?(怎么看电脑系统配置)
- 如何查询 Linux 内核版本?这些命令一定要会!
- 深度剖析:Linux下查看系统版本与CPU架构
- 标签列表
-
- navicat无法连接mysql服务器 (65)
- 下横线怎么打 (71)
- flash插件怎么安装 (60)
- lol体验服怎么进 (66)
- ae插件怎么安装 (62)
- yum卸载 (75)
- .key文件 (63)
- cad一打开就致命错误是怎么回事 (61)
- rpm文件怎么安装 (66)
- linux取消挂载 (81)
- ie代理配置错误 (61)
- ajax error (67)
- centos7 重启网络 (67)
- centos6下载 (58)
- mysql 外网访问权限 (69)
- centos查看内核版本 (61)
- ps错误16 (66)
- nodejs读取json文件 (64)
- centos7 1810 (59)
- 加载com加载项时运行错误 (67)
- php打乱数组顺序 (68)
- cad安装失败怎么解决 (58)
- 因文件头错误而不能打开怎么解决 (68)
- js判断字符串为空 (62)
- centos查看端口 (64)