HBTech's Blog
fx-es(ms) 吧精品贴备份

鉴于百度的尿性,指不定哪天 f 吧就被卖了,因此萌发了把 f 吧的精品贴爬下来的想法。想去自学一下 py 大法,却发现 Gayhub 上已经有这样的工具了,那就直接用咯。由于在外面,就用手机跑,用了差不多 1.2G 的流量……

翻了翻源文件,有 90% 以上是图片,甚至有些是重复的表情、广告自己签名档等无用图片,这些只好手动删除了。

再说一下爬来的数据吧,这次除了“吧务相关”这个分类的帖子,其余帖子都爬了下来,因为我觉得吧务吃屎(手动滑稽)。如下图一所示,全部爬完后,点击目录下的 index.html 即可查看。
https://hbtech.oss-cn-shenzhen.aliyuncs.com/blog/wp-1499833667580.jpg

随便点一个分类(图二),再随便点一个帖子(图三)。

可以看到只是简单的把网页爬了下来,没有把多余内容去除。上面的表情看不到是我删除了的缘故。

文件已经打包好,正在上传百度云……

忘了辣鸡百度要实名认证了,已上传到 Google Drive : https://drive.google.com/file/d/0B633MRWO7Ys8enRTSUhqcTlDSXc/view

HBTech's Blog

fx-es(ms) 吧精品贴备份
鉴于百度的尿性,指不定哪天 f 吧就被卖了,因此萌发了把 f 吧的精品贴爬下来的想法。想去自学一下 py 大法,却发现 Gayhub 上已经有这样的工具了,那就直接用咯。由于在外面,就用手机跑…
扫描二维码继续阅读
2017-07-12