百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

Python BS4解析库用法详解

myzbx 2025-01-15 15:55 41 浏览

BeautifulSoup简称BS4(其中4表示版本号)是一个Python第三方库,它可以从HTML或XML文档中快速地提取指定的数据。BeautifulSoup语法简单,使用方便,并且容易理解,因此您可以快速地学习并掌握它。本节我们讲解BS4的基本语法。

BS4下载安装

由于BautifulSoup是第三方库,因此需要单独下载,下载方式非常简单,执行以下命令即可安装:

pip install bs41复制代码类型:[python]

由于BS4解析页面时需要依赖文档解析器,所以还需要安装lxml作为解析库:

pip install lxml1复制代码类型:[python]

Python也自带了一个文档解析库html.parser,但是其解析速度要稍慢于lxml。除了上述解析器外,还可以使用html5lib解析器,安装方式如下:

pip install html5lib1复制代码类型:[python]

该解析器生成HTML格式的文档,但速度较慢。

“解析器容错”指的是被解析的文档发生错误或不符合格式时,通过解析器的容错性仍然可以按照既定的正确格式实现解析。

BS4解析对象

创建BS4解析对象是万事开头的第一步,这非常地简单,语法格式如下所示:

#导入解析包
from bs4 import BeautifulSoup
#创建beautifulsoup解析对象
soup = BeautifulSoup(html_doc, 'html.parser')1234复制代码类型:[python]

BS4常用语法

下面对爬虫中经常用到的BS4解析方法做详细介绍。

BeautifulSoup将HTML文档转换成一个树形结构,该结构有利于快速地遍历和搜索HTML文档。下面使用树状结构来描述一段HTML文档:

<html><head><title>开课吧广场</title></head><h1>topic.kaikeba.com</h1><p><b>一个学习编程的网站</b></p></body></html>1复制代码类型:[python]

树状图如下所示:

文档树中的每个节点都是Python对象,这些对象大致分为四类:Tag,NavigableString,BeautifulSoup,Comment。其中使用最多的是Tag和NavigableString。

Tag:标签类,HTML文档中所有的标签都可以看做Tag对象。

NavigableString:字符串类,指的是标签中的文本内容,使用text、string、strings来获取文本内容。

BeautifulSoup:表示一个HTML文档的全部内容,您可以把它当作一个人特殊的Tag对象。

Comment:表示HTML文档中的注释内容以及特殊字符串,它是一个特殊的NavigableString。

1)Tag节点

标签(Tag)是组成HTML文档的基本元素。在BS4中,通过标签名和标签属性可以提取出想要的内容。

遍历节点

Tag对象提供了许多遍历tag节点的属性,比如contents、children用来遍历子节点;parent与parents用来遍历父节点;而next_sibling与previous_sibling则用来遍历兄弟节点。

find_all()与find()

find_all()与find()是解析HTML文档的常用方法,它们可以在HTML文档中按照一定的条件(相当于过滤器)查找所需内容。find()与find_all()的语法格式相似,希望大家在学习的时候,可以举一反三。

BS4库中定义了许多用于搜索的方法,find()与find_all()是最为关键的两个方法,其余方法的参数和使用与其类似。

1)find_all()

find_all()方法用来搜索当前tag的所有子节点,并判断这些节点是否符合过滤条件,最后以列表形式将符合条件的内容返回,语法格式如下:

find_all(name,attrs,recursive,text,limit)

参数说明:

name:查找所有名字为name的tag标签,字符串对象会被自动忽略。

attrs:按照属性名和属性值搜索tag标签,注意由于class是Python的关键字吗,所以要使用"class_"。

recursive:find_all()会搜索tag的所有子孙节点,设置recursive=False可以只搜索tag的直接子节点。

text:用来搜文档中的字符串内容,该参数可以接受字符串、正则表达式、列表、True。

limit:由于find_all()会返回所有的搜索结果,这样会影响执行效率,通过limit参数可以限制返回结果的数量。

2)find()

find()方法与find_all()类似,不同之处在于find_all()会将文档中所有符合条件的结果返回,而find()仅返回一个符合条件的结果,所以find()方法没有limit参数。

CSS选择器

BS4支持大部分的CSS选择器,比如常见的标签选择器、类选择器、id选择器,以及层级选择器。BeautifulSoup提供了一个select()方法,通过向该方法中添加选择器,就可以在HTML文档中搜索到与之对应的内容。


开课吧广场-人才学习交流平台

相关推荐

如何设计一个优秀的电子商务产品详情页

加入人人都是产品经理【起点学院】产品经理实战训练营,BAT产品总监手把手带你学产品电子商务网站的产品详情页面无疑是设计师和开发人员关注的最重要的网页之一。产品详情页面是客户作出“加入购物车”决定的页面...

怎么在JS中使用Ajax进行异步请求?

大家好,今天我来分享一项JavaScript的实战技巧,即如何在JS中使用Ajax进行异步请求,让你的网页速度瞬间提升。Ajax是一种在不刷新整个网页的情况下与服务器进行数据交互的技术,可以实现异步加...

中小企业如何组建,管理团队_中小企业应当如何开展组织结构设计变革

前言写了太多关于产品的东西觉得应该换换口味.从码农到架构师,从前端到平面再到UI、UE,最后走向了产品这条不归路,其实以前一直再给你们讲.产品经理跟项目经理区别没有特别大,两个岗位之间有很...

前端监控 SDK 开发分享_前端监控系统 开源

一、前言随着前端的发展和被重视,慢慢的行业内对于前端监控系统的重视程度也在增加。这里不对为什么需要监控再做解释。那我们先直接说说需求。对于中小型公司来说,可以直接使用三方的监控,比如自己搭建一套免费的...

Ajax 会被 fetch 取代吗?Axios 怎么办?

大家好,很高兴又见面了,我是"高级前端进阶",由我带着大家一起关注前端前沿、深入前端底层技术,大家一起进步,也欢迎大家关注、点赞、收藏、转发!今天给大家带来的主题是ajax、fetch...

前端面试题《AJAX》_前端面试ajax考点汇总

1.什么是ajax?ajax作用是什么?AJAX=异步JavaScript和XML。AJAX是一种用于创建快速动态网页的技术。通过在后台与服务器进行少量数据交换,AJAX可以使网页实...

Ajax 详细介绍_ajax

1、ajax是什么?asynchronousjavascriptandxml:异步的javascript和xml。ajax是用来改善用户体验的一种技术,其本质是利用浏览器内置的一个特殊的...

6款可替代dreamweaver的工具_替代powerdesigner的工具

dreamweaver对一个web前端工作者来说,再熟悉不过了,像我07年接触web前端开发就是用的dreamweaver,一直用到现在,身边的朋友有跟我推荐过各种更好用的可替代dreamweaver...

我敢保证,全网没有再比这更详细的Java知识点总结了,送你啊

接下来你看到的将是全网最详细的Java知识点总结,全文分为三大部分:Java基础、Java框架、Java+云数据小编将为大家仔细讲解每大部分里面的详细知识点,别眨眼,从小白到大佬、零基础到精通,你绝...

福斯《死侍》发布新剧照 &quot;小贱贱&quot;韦德被改造前造型曝光

时光网讯福斯出品的科幻片《死侍》今天发布新剧照,其中一张是较为罕见的死侍在被改造之前的剧照,其余两张剧照都是死侍在执行任务中的状态。据外媒推测,片方此时发布剧照,预计是为了给不久之后影片发布首款正式预...

2021年超详细的java学习路线总结—纯干货分享

本文整理了java开发的学习路线和相关的学习资源,非常适合零基础入门java的同学,希望大家在学习的时候,能够节省时间。纯干货,良心推荐!第一阶段:Java基础重点知识点:数据类型、核心语法、面向对象...

不用海淘,真黑五来到你身边:亚马逊15件热卖爆款推荐!

Fujifilm富士instaxMini8小黄人拍立得相机(黄色/蓝色)扫二维码进入购物页面黑五是入手一个轻巧可爱的拍立得相机的好时机,此款是mini8的小黄人特别版,除了颜色涂装成小黄人...

2025 年 Python 爬虫四大前沿技术:从异步到 AI

作为互联网大厂的后端Python爬虫开发,你是否也曾遇到过这些痛点:面对海量目标URL,单线程爬虫爬取一周还没完成任务;动态渲染的SPA页面,requests库返回的全是空白代码;好不容易...

最贱超级英雄《死侍》来了!_死侍超燃

死侍Deadpool(2016)导演:蒂姆·米勒编剧:略特·里斯/保罗·沃尼克主演:瑞恩·雷诺兹/莫蕾娜·巴卡林/吉娜·卡拉诺/艾德·斯克林/T·J·米勒类型:动作/...

停止javascript的ajax请求,取消axios请求,取消reactfetch请求

一、Ajax原生里可以通过XMLHttpRequest对象上的abort方法来中断ajax。注意abort方法不能阻止向服务器发送请求,只能停止当前ajax请求。停止javascript的ajax请求...