爬取小说(步骤一)python

假设各位老哥已经安装好了bs4 requests这些库了
这个小说是随便挑的,各位也就不用太介意(仅供各位学习)
python3 实现,网上用python2做爬虫的太多了,但用python3的还是比较少

假设各位老哥已经安装好了bs4 requests这些库了
这个小说是随便挑的,各位也就不用太介意(仅供各位学习)
python3 实现,网上用python2做爬虫的太多了,但用python3的还是比较少

  • 爬取的链接是https://www.qu.la/book/12763/10664294.html
  • 代码长度:20行(包括了为了好看而做的东西)
  • 主要问题是:gbk编码问题
  • 注意看下一个with那,调一个自己一个有的地址就好了(至于txt文件,那个是可以自动新建的,不用担心)
  • 爬取的链接是https://www.qu.la/book/12763/10664294.html
  • 整合文章写入
  • 没有看过 步骤一 的朋友们可以点击下面的链接看看步骤一先
    点击查看步骤一
  • 没有看过 步骤二 的朋友们可以点击下面的链接看看步骤二先
    点击查看步骤二

第一步 实现了对单一章节的网页的爬取并存储

步骤三:整合文章写入

代码如下:

  • 基本实现小说爬取
  • 通过随机数来模拟休息时间,避免被禁
  • 缺点:必须要先用一个起始文章的链接来做(这个链接无所谓,反正读取的话,就是读取这个链接的文章作为起始点)

本文由上海快三发布于小说,转载请注明出处:爬取小说(步骤一)python

TAG标签:
Ctrl+D 将本页面保存为书签,全面了解最新资讯,方便快捷。