Python开发简单爬虫程序

一、需求描述

爬虫是简单的, 后果是严重的,

有时我们为了偷懒要做好多事情啊, 爬虫就是因为不想重复维护信息导致的一种懒惰程序,带来的后果可能很严重哦. 慎重

内容简介

​ 我发现几个站点书籍更新还是很频繁的, 我想将其他更新的内容抓取下来然后稍微编排一下, 生成我自己的MD格式的文章, 再将这些文章更新到我的BLOG和今日头条号中。

要抓取的网站:

​ XX资源网: xx资源网(xxURLs.com)

​ 资源分享站: 资源分享站 (94fbr.net)

抓取处理的流程:

​ 每天定时(17:00)自动启动程序 ,程序执行下面的操作流程

  • 获取首页的内容

  • 获取首页中特殊的图书Item内容

    • xx资源网

    ```

    .逻辑思维的30个技巧[MOBI|EPU 教育其他

                                </h6>
                                                    <p class="mb-1">                    <a class="badge border text-600 mr-1" href="/id/102060325821/tags/%E6%80%9D%E7%BB%B4">思维</a>                    <a class="badge border text-600 mr-1" href="/id/102060325821/tags/%E9%80%BB%E8%BE%91%E6%96%B9%E5%BC%8F">逻辑方式</a>                    <a class="badge border text-600 mr-1" href="/id/102060325821/tags/%E5%B7%A5%E5%85%B7">工具</a>                    <a class="badge border text-600 mr-1" href="/id/102060325821/tags/%E9%80%BB%E8%BE%91%E5%AD%A6">逻辑学</a></p>
    
                                <hr class="border-dashed border-bottom-0 m-2">
                            </div>
                        </div>
                    </div>
    

    ```

    • 资源分享站
  • 如果ITEM内容中含有EPUB字符的内容记录下来,保存(Json格式)到txt文件中

    • JSON格式定义: (文件名规则: <日期>_1001.json; 例如: 20220421_1001.json)

    ``` { "item_id1": {"title": "dede","href": "https://www.xxurls.com/xxx"} "item_id2": {"title": "dede","href": "https://www.xxurls.com/xxx"}

    } ```

    每个站点每天只获取一次json文件

  • 程序停顿1分钟

  • 根据json数据, 逐个访问URL页面, 获取页面内容

    • ```
                              <h4 class="my-2 text-center">.生命清单[MOBI|AZW3|EPUB]</h4>
                                <div id="view-content"><p><img src="https://ae01.alicdn.com/kf/Uda4a6c4bfbd64b1eac52d52898023c31V.jpg"></p>母亲的突然离世,使布雷特的人生一夕巨变。母亲将所有财产分给了哥哥及嫂嫂,留给布雷特的仅是一纸清单。只有在一年内实现清单上的所有梦想,她才能获得遗产。<br>那是布雷特14岁时写下的梦想, 其中10项尚未完成——<br>生一个小孩,或者两个?  不会吧。<br>做个很棒的老师?  放弃百万年薪,在教室里跟小屁孩鬼混!<br>--纽约时报《The Great Escape》畅销作者/Susan Elizabeth Phillips<br><br>斯皮尔曼的首部魅力之作。<br>--美国指标书评期刊/Kirkus Reviews</div>
                              <h5 class="fs-0 mt-4 mb-2">资源链接</h5>
                              生命清单 MOBI下载 <a href="https://n802.com/file/12242611-474859865" target="_blank">https://n802.com/file/12242611-474859865</a><br>
                              生命清单 AZW3下载 <a href="https://n802.com/file/12242611-474859866" target="_blank">https://n802.com/file/12242611-474859866</a><br>
                              生命清单 EPUB下载 <a href="https://n802.com/file/12242611-474859867" target="_blank">https://n802.com/file/12242611-474859867</a><br>
                              相关分类电子书:<br>文学小说写作: <a href="https://n802.com/dir/12242611-20442120-71a53c" target="_blank">https://n802.com/dir/12242611-20442120-71a53c</a><br>更多电子书:<br> <a href="https://n802.com/dir/12242611-20966803-5282d2" target="_blank">https://n802.com/dir/12242611-20966803-5282d2</a>                                <h5 class="fs-0 mt-4 mb-2">标签</h5>
                                <p class="mb-1"><a class="badge border text-600 mr-1" href="/id/102060325821/tags/%E8%87%AA%E6%88%91%E5%8F%91%E7%8E%B0">自我发现</a><a class="badge border text-600 mr-1" href="/id/102060325821/tags/%E5%B0%8F%E8%AF%B4">小说</a><a class="badge border text-600 mr-1" href="/id/102060325821/tags/%E5%A4%96%E5%9B%BD%E6%96%87%E5%AD%A6">外国文学</a><a class="badge border text-600 mr-1" href="/id/102060325821/tags/%E7%94%9F%E5%91%BD%E6%B8%85%E5%8D%95">生命清单</a><a class="badge border text-600 mr-1" href="/id/102060325821/tags/%E7%94%9F%E6%B4%BB%E6%96%B9%E5%BC%8F">生活方式</a><a class="badge border text-600 mr-1" href="/id/102060325821/tags/%E5%A5%BD%E4%B9%A6">好书</a><a class="badge border text-600 mr-1" href="/id/102060325821/tags/%E5%80%BC%E5%BE%97%E4%B8%80%E8%AF%BB">值得一读</a><a class="badge border text-600 mr-1" href="/id/102060325821/tags/%E7%BE%8E%E5%9B%BD%E6%96%87%E5%AD%A6">美国文学</a><a class="badge border text-600 mr-1" href="/id/102060325821/tags/%E7%BE%8E%E5%9B%BD">美国</a></p>
                                <h5 class="fs-0 mt-4 mb-2">发布日期</h5>
                                <p class="mb-1 fs--1">2021-02-24</p>
                              <h5 class="fs-0 mt-4 mb-2">擦亮日期</h5>
                                <p class="mb-1 fs--1">2022-04-21</p>
      
                                <p class="mb-1 text-center"><button class="btn btn-primary btn-lg mr-3 mb-1" onclick="view_action('refresh', 'R44910693');" type="button">擦亮</button><button class="btn btn-secondary btn-lg mr-1 mb-1" type="button" onclick="view_action('report', 'R44910693');">举报</button></p>
      
                            </div>
        ```
      
  • 解析页面内容,并获取到epub文件的下载URL

  • 通过MD模板生成文章

  • 通过人工下载文件,并将文件上传到我自己的城通网盘, 再将文件的下载地址贴到已生成好的MD文章中

二、开发实现

使用包:

​ 莫泊。


纷乱人世间,除了你一切繁华都是背景。这出戏用生命演下去,付出青春不可惜。——《我和春天有个约会》