博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
python beautifulsoup4解析网页
阅读量:3898 次
发布时间:2019-05-23

本文共 639 字,大约阅读时间需要 2 分钟。

安装:

pip install bs4pip install lxml

引用:

from urllib.request import urlopenfrom bs4 import BeautifulSoupr = urlopen('https://www.boc.cn/sourcedb/whpj/')response = r.read().decode('utf-8')soup = BeautifulSoup(response, features= 'lxml')

常用的函数:

搜索文档树,选择对象节点:
**find_all( name , attrs , recursive , text , kwargs )

以下td标签为例:2021.01.30 10:30:00

选中td的方法,返回为1个list列表:

soup.find_all('td'),soup.find_all('td', class="pjrq")#如果是data-属性:soup.find_all(td, attrs={
"data-foo": "value"})

判断对象含不含一个attr,有的话输出:

td = soup.find_all('td')if td.has_attr('class'):   attr = td.get('class')[0]

输出节点内容:

soup.find_all('td')[0].stringsoup.find_all('td')[0].text

转载地址:http://xqben.baihongyu.com/

你可能感兴趣的文章
SAP HANA index type
查看>>
SAP HANA SQL GROUP BY / ORDER BY / OVER / CASE
查看>>
重学C++之路_#1_概述_总体介绍
查看>>
重学C++之路_#1_基础用法
查看>>
重学C++之路_#1_异常处理
查看>>
C/C++指针回顾
查看>>
算法之排序--希尔排序
查看>>
javascript深入浅出图解作用域链和闭包
查看>>
WebKit之Http请求
查看>>
WebKit之FrameWork层介绍
查看>>
WebKit之Http响应
查看>>
Webkit之支持WML
查看>>
Webkit之HTMLInput分析
查看>>
WebKit之UserAgent分析
查看>>
Webkit之HTMLToken处理
查看>>
Webkit之HTMLTokenizer分析
查看>>
Webkit之平台相关层
查看>>
Webkit之UI层布局
查看>>
WebKit之InlineBox绘制阶段顺序
查看>>
WebKit之图像显示分析流程
查看>>