一、需求描述
爬虫是简单的, 后果是严重的,
有时我们为了偷懒要做好多事情啊, 爬虫就是因为不想重复维护信息导致的一种懒惰程序,带来的后果可能很严重哦. 慎重
内容简介:
我发现几个站点书籍更新还是很频繁的, 我想将其他更新的内容抓取下来然后稍微编排一下, 生成我自己的MD格式的文章, 再将这些文章更新到我的BLOG和今日头条号中。
要抓取的网站:
XX资源网: xx资源网(xxURLs.com)
资源分享站: 资源分享站 (94fbr.net)
抓取处理的流程:
每天定时(17:00)自动启动程序 ,程序执行下面的操作流程
-
获取首页的内容
-
获取首页中特殊的图书Item内容
- xx资源网
```
.逻辑思维的30个技巧[MOBI|EPU 教育 • 其他
</h6> <p class="mb-1"> <a class="badge border text-600 mr-1" href="/id/102060325821/tags/%E6%80%9D%E7%BB%B4">思维</a> <a class="badge border text-600 mr-1" href="/id/102060325821/tags/%E9%80%BB%E8%BE%91%E6%96%B9%E5%BC%8F">逻辑方式</a> <a class="badge border text-600 mr-1" href="/id/102060325821/tags/%E5%B7%A5%E5%85%B7">工具</a> <a class="badge border text-600 mr-1" href="/id/102060325821/tags/%E9%80%BB%E8%BE%91%E5%AD%A6">逻辑学</a></p> <hr class="border-dashed border-bottom-0 m-2"> </div> </div> </div>```
- 资源分享站
如果ITEM内容中含有EPUB字符的内容记录下来,保存(Json格式)到txt文件中
- JSON格式定义: (文件名规则: <日期>_1001.json; 例如: 20220421_1001.json)
``` { "item_id1": {"title": "dede","href": "https://www.xxurls.com/xxx"} "item_id2": {"title": "dede","href": "https://www.xxurls.com/xxx"}
} ```
每个站点每天只获取一次json文件
程序停顿1分钟
根据json数据, 逐个访问URL页面, 获取页面内容
- ```
<h4 class="my-2 text-center">.生命清单[MOBI|AZW3|EPUB]</h4> <div id="view-content"><p><img src="https://ae01.alicdn.com/kf/Uda4a6c4bfbd64b1eac52d52898023c31V.jpg"></p>母亲的突然离世,使布雷特的人生一夕巨变。母亲将所有财产分给了哥哥及嫂嫂,留给布雷特的仅是一纸清单。只有在一年内实现清单上的所有梦想,她才能获得遗产。<br>那是布雷特14岁时写下的梦想, 其中10项尚未完成——<br>生一个小孩,或者两个? 不会吧。<br>做个很棒的老师? 放弃百万年薪,在教室里跟小屁孩鬼混!<br>--纽约时报《The Great Escape》畅销作者/Susan Elizabeth Phillips<br><br>斯皮尔曼的首部魅力之作。<br>--美国指标书评期刊/Kirkus Reviews</div> <h5 class="fs-0 mt-4 mb-2">资源链接</h5> 生命清单 MOBI下载 <a href="https://n802.com/file/12242611-474859865" target="_blank">https://n802.com/file/12242611-474859865</a><br> 生命清单 AZW3下载 <a href="https://n802.com/file/12242611-474859866" target="_blank">https://n802.com/file/12242611-474859866</a><br> 生命清单 EPUB下载 <a href="https://n802.com/file/12242611-474859867" target="_blank">https://n802.com/file/12242611-474859867</a><br> 相关分类电子书:<br>文学小说写作: <a href="https://n802.com/dir/12242611-20442120-71a53c" target="_blank">https://n802.com/dir/12242611-20442120-71a53c</a><br>更多电子书:<br> <a href="https://n802.com/dir/12242611-20966803-5282d2" target="_blank">https://n802.com/dir/12242611-20966803-5282d2</a> <h5 class="fs-0 mt-4 mb-2">标签</h5> <p class="mb-1"><a class="badge border text-600 mr-1" href="/id/102060325821/tags/%E8%87%AA%E6%88%91%E5%8F%91%E7%8E%B0">自我发现</a><a class="badge border text-600 mr-1" href="/id/102060325821/tags/%E5%B0%8F%E8%AF%B4">小说</a><a class="badge border text-600 mr-1" href="/id/102060325821/tags/%E5%A4%96%E5%9B%BD%E6%96%87%E5%AD%A6">外国文学</a><a class="badge border text-600 mr-1" href="/id/102060325821/tags/%E7%94%9F%E5%91%BD%E6%B8%85%E5%8D%95">生命清单</a><a class="badge border text-600 mr-1" href="/id/102060325821/tags/%E7%94%9F%E6%B4%BB%E6%96%B9%E5%BC%8F">生活方式</a><a class="badge border text-600 mr-1" href="/id/102060325821/tags/%E5%A5%BD%E4%B9%A6">好书</a><a class="badge border text-600 mr-1" href="/id/102060325821/tags/%E5%80%BC%E5%BE%97%E4%B8%80%E8%AF%BB">值得一读</a><a class="badge border text-600 mr-1" href="/id/102060325821/tags/%E7%BE%8E%E5%9B%BD%E6%96%87%E5%AD%A6">美国文学</a><a class="badge border text-600 mr-1" href="/id/102060325821/tags/%E7%BE%8E%E5%9B%BD">美国</a></p> <h5 class="fs-0 mt-4 mb-2">发布日期</h5> <p class="mb-1 fs--1">2021-02-24</p> <h5 class="fs-0 mt-4 mb-2">擦亮日期</h5> <p class="mb-1 fs--1">2022-04-21</p> <p class="mb-1 text-center"><button class="btn btn-primary btn-lg mr-3 mb-1" onclick="view_action('refresh', 'R44910693');" type="button">擦亮</button><button class="btn btn-secondary btn-lg mr-1 mb-1" type="button" onclick="view_action('report', 'R44910693');">举报</button></p> </div> ```解析页面内容,并获取到epub文件的下载URL
通过MD模板生成文章
通过人工下载文件,并将文件上传到我自己的城通网盘, 再将文件的下载地址贴到已生成好的MD文章中
二、开发实现
使用包:
莫泊。
纷乱人世间,除了你一切繁华都是背景。这出戏用生命演下去,付出青春不可惜。——《我和春天有个约会》
