用python实现博主全部博文下载，制作成PDF电子书籍

2024年06月6日

首页知识正文

文章详情

用python实现csdn博主全部博文下载，html转pdf，有了学习的电子书了（附源码）我们学习编程，在学习的时候，会有想把有用的知识点保存下来，我们可以把知识点的内容爬下来转变成pdf格式，方便我们拿手机可以闲时翻看，是很方便的。

2.python生成epub

先来一个单个的博文下载转pdf格式的操作私信小编01即可获取大量Python学习资源

3.用python下载论文

python中将html转化为pdf的常用工具是Wkhtmltopdf工具包，在python环境下，pdfkit是这个工具包的封装类如何使用pdfkit以及如何配置呢？分如下几个步骤下载wkhtmltopdf安装包，并且安装到电脑上。

4.python写博客

我下的是这个版本，安装的时候要记住路径，之后调用要用到路径开发工具pythonpycharmpdfkit （pip install pdfkit）lxml今天目标：博主的全部博文下载，并且转pdf格式保存

5.python如何下载文献

基本思路：1、url + headers2、分析网页： CSDN网页是静态网页，请求获取网页源代码3、lxml解析获取boke_urls, author_name4、循环遍历，得到 boke_url5、xpath解析获取文件名

6.python下载文章

6、css选择器获取标签文本的主体7、构造拼接html文件8、保存html文件9、文件的转换分析网页： CSDN网页是静态网页，请求获取网页源代码start_url =“https://i1bit.blog.csdn.net/”

7.python资料pdf

为例确定网址为同步加载

8.python epub转pdf

css选择器获取标签文本的主体为代码要点部分css语法部分 html_css = parsel.Selector(响应的数据) html_content = html_css.css(要获取的部分

9.python爬虫下载文献

).get() 点开博主的一篇博文打开开发者工具

10.python 电子版

# css选择器获取标签文本的主体 html_css = parsel.Selector(response_2) html_content = html_css.css(article).get() # 构造拼接html文件 html = \

Title {}

.format(html_content) 文件的转换 config = pdfkit.configuration(wkhtmltopdf=r这里为下载wkhtmltopdf.exe的路径

) pdfkit.from_file( 第一个参数要转变的html文件, 第二个参数转变后的pdf文件, configuration=config )

# 上面这样写清楚一点，也可以直接 pdfkit.from_file( 第一个参数要转变的html文件, 第二个参数转变后的pdf文件, configuration=pdfkit.configuration(wkhtmltopdf=

r这里为下载wkhtmltopdf.exe的路径) ) 源码展示：import parsel, os, pdfkit from lxml import etree from requests_html

import HTMLSession session = HTMLSession() defmain():# 1、url + headers start_url = input(r请输入csdn博主的地址：

) headers = { User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36

} # 2、分析网页： CSDN网页是静态网页，请求获取网页源代码 response_1 = session.get(start_url, headers=headers).text

# 3、解析获取boke_urls, author_name html_xpath_1 = etree.HTML(response_1) author_name = html_xpath_1.xpath(

r//*[@id=”floor-user-profile_485″]/div/div[1]/div[2]/div[2]/div[1]/div[1]/text())[0] boke_urls = html_xpath_1.xpath(

r//article[@class=”blog-list-box”]/a/@href) # 4、循环遍历，得到 boke_urlfor boke_url in boke_urls:

# 5、请求 response_2 = session.get(boke_url, headers=headers).text # 6、xpath解析获取文件名 html_xpath_2 = etree.HTML(response_2) file_name = html_xpath_2.xpath(

r//h1[@id=”articleContentId”]/text())[0] # 7、css选择器获取标签文本的主体 html_css = parsel.Selector(response_2) html_content = html_css.css(

article).get() # 8、构造拼接html文件 html = \ Title {}

.format(html_content) # 9、创建两个文件夹，一个用来保存html 一个用来保存pdf文件ifnot os.path.exists(r{}-html.format(author_name)): os.mkdir(

r{}-html.format(author_name)) ifnot os.path.exists(r{}-pdf.format(author_name)): os.mkdir(

r{}-pdf.format(author_name)) # 10、保存html文件try: with open(r{}-html/{}.html.format(author_name, file_name),

w, encoding=utf-8) as f: f.write(html) except Exception as e: print(

文件名错误) # 11、文件的转换try: config = pdfkit.configuration(wkhtmltopdf=rC:\Program Files\wkhtmltopdf\bin\wkhtmltopdf.exe

) pdfkit.from_file( {}-html/{}.html.format(author_name, file_name),

{}-pdf/{}.pdf.format(author_name, file_name), configuration=config ) a = print(

r–文件下载成功：{}.pdf.format(file_name)) except Exception as e: continueif __name__ ==

__main__: main() 代码操作：

nxyxs

上一篇：你还在傻傻花钱编辑pdf格式？咋不用Python？(和猫妹学Python)

下一篇： Python 合成多张图片到PDF格式！很实用

相关推荐

四月实战公开课丨高效公式让小白也能做出大神级项目作品

目录： 1.四月攻势 2.四月战报 1.四月攻势全世界风靡的网课　　如何进行1V1、1VN通讯？　　如何用C4D做出dribbble大神作…

nxyxs 知识 2024-06-06

Python学习教程公开课：好玩的Python

目录： 1.python入门公开课 2.python讲课视频 3.python课程入门 4.python的优质课 5.python 课程真的…

nxyxs 知识 2024-06-06

MIT Python 公开课第三课要点-算法是怎样演进的

目录： 1.python算法课程 2.python算法教程这本书怎么样 3.python 算法导论 4.python算法基础 5.pytho…

nxyxs 知识 2024-06-06

MIT Python 公开课第四课要点-函数也是一个对象

目录： 1.mit python 2.mit python 公开课 3.mit python凯撒密码 4.mit python作业答案 5.…

nxyxs 知识 2024-06-06

清华教授用了12小时讲完的Python，整整311集，拿走不谢！

目录： 1.清华大学python视频 2.清华python用什么课本 3.python清华大学学生用书 4.清华大学出版社python 5.…

nxyxs 知识 2024-06-06

自学c4d要多久才能出去工作学习c4d建模渲染

目录： 1.自学c4d需要多久 2.学好c4d需要多久 3.c4d自学能学会么 4.自学c4d能找到工作吗 5.c4d学多久可以找工作 6.…

nxyxs 知识 2024-06-06

用python实现博主全部博文下载，制作成PDF电子书籍

目录：

1.python制作epub电子书

2.python生成epub

3.用python下载论文

4.python写博客

5.python如何下载文献

6.python下载文章

7.python资料pdf

8.python epub转pdf

9.python爬虫下载文献

10.python 电子版

1.python制作epub电子书

2.python生成epub

3.用python下载论文

4.python写博客

5.python如何下载文献

6.python下载文章

7.python资料pdf

8.python epub转pdf

9.python爬虫下载文献

10.python 电子版