博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
lxml简单用法 解析网页
阅读量:7052 次
发布时间:2019-06-28

本文共 603 字,大约阅读时间需要 2 分钟。

import requests

s=requests.Session()

re=s.get(lgurl,headers=headers)  #此处s可以直接换成requests

the_page=re.content  #content 为二进制文本

from lxml import etree 

html=etree.HTML(the_page)

joblistPath='//*[@id="s_position_list"]/ul/li'   #此处joblistPath可使用浏览器中的copy xpath选项中的内容

result=html.xpath(joblistPath)

result[0].tag  #获取result结果集中第一个元素的标签名称,例<a class='shjdb'  > 中的tag是a.

result[0].xpath(/a/@href) #返回根目录下a下所有子元素的属性href的值,例<a href='shjdb'  > <li href='123.com'>,中返回的是‘123.com’.

result[0].text  #返回的是元素的内容,即标签对中间的文本,例<a href="link5.html">fifth item</a>中返回的是fifth item

转载于:https://www.cnblogs.com/Ting-light/p/9548153.html

你可能感兴趣的文章
Repeater嵌套使用
查看>>
Silverlight4.0教程之轻松操作剪切板
查看>>
GIF, JPEG和PNG
查看>>
线控的原理
查看>>
Android : Must Override a Superclass Method
查看>>
浮躁的程序员
查看>>
文件和目录的访问控制(4) 审核规则
查看>>
文件和目录的访问控制(3) 访问规则
查看>>
ACM中java的使用
查看>>
LoadModule php5_module 参数导致apache不能启动
查看>>
easyui 合并单元格
查看>>
数据库的易犯的错误
查看>>
C++虚函数及虚函数表解析
查看>>
仿网易漂亮的TAB选项卡(标签)
查看>>
ylb:SQL Server中的时间函数
查看>>
【入门必备】最佳的 Node.js 学习教程和资料书籍
查看>>
UML解惑:图说UML中的六大关系--转
查看>>
ios开发FMDB导入SQLCipher加密数据库
查看>>
为什么你的代码如此难以理解(转)
查看>>
php安全编程—sql注入攻击
查看>>