博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
bs4修改html文件和保存
阅读量:5331 次
发布时间:2019-06-14

本文共 930 字,大约阅读时间需要 3 分钟。

一、需求

将2个html文件保存到本地浏览器,例如:

A页面(我的博客主页)

 

 

B页面(爬虫四大金刚)

 

然后将A页面中的爬虫链接,链接的a标签中的href属性修改成本地B页面的地址,实现在本地浏览A页面跳转到B页面

二、代码

parent_page=r"C:\Users\ffm11\Desktop\Maple_feng - 博客园.html"sub_page=r"C:\Users\ffm11\Desktop\爬虫四大金刚:requests,selenium,BeautifulSoup,Scrapy - Maple_feng - 博客园.html"with open(parent_page, 'r',encoding="utf-8") as file:    pcontent = file.read()sp = BeautifulSoup(pcontent, 'lxml')'''[置顶]    爬虫四大金刚:requests,selenium,BeautifulSoup,Scrapy'''text=sp.find_all('a',class_='postTitle2')[0].get_text()print(text)new_tag = sp.new_tag("a")new_tag.attrs = {
"href":sub_page,"class":"postTitle2"}new_tag.string = text# replace the paragraph using `replace_with` methodsp.find_all('a',class_='postTitle2')[0].replace_with(new_tag)# open another file for writingwith open(parent_page, 'w',encoding="utf-8") as fp: # write the current soup content fp.write(sp.prettify())

 

转载于:https://www.cnblogs.com/angelyan/p/11577814.html

你可能感兴趣的文章
egret3D与2D混合开发,画布尺寸不一致的问题
查看>>
freebsd 实现 tab 命令 补全 命令 提示
查看>>
struts1和struts2的区别
查看>>
函数之匿名函数
查看>>
shell习题第16题:查用户
查看>>
Redis常用命令
查看>>
2018.11.06 bzoj1040: [ZJOI2008]骑士(树形dp)
查看>>
2019.02.15 bzoj5210: 最大连通子块和(链分治+ddp)
查看>>
redis cluster 集群资料
查看>>
微软职位内部推荐-Sr. SE - Office incubation
查看>>
微软职位内部推荐-SOFTWARE ENGINEER II
查看>>
centos系统python2.7更新到3.5
查看>>
C#类与结构体究竟谁快——各种函数调用模式速度评测
查看>>
我到底要选择一种什么样的生活方式,度过这一辈子呢:人生自由与职业发展方向(下)...
查看>>
poj 题目分类
查看>>
windows 安装yaml支持和pytest支持等
查看>>
读书笔记:季羡林关于如何做研究学问的心得
查看>>
面向对象的优点
查看>>
套接口和I/O通信
查看>>
阿里巴巴面试之利用两个int值实现读写锁
查看>>