博文

目前显示的是 三月, 2024的博文

关于InfoQ被删除文章的恢复方法

图片
我大概在23年12月开始,使用InfoQ写作社区,并且一直发文章,直到24年2月底,总共写了超过10篇文章。 但是,在3月初登录账号发现,账号被注销,过去写的文章也全都被删除。这件事发生的十分突然,且毫无理由。于是,我给官方发了邮件反馈此事,但至今没人回复,打电话也是无人接听。最离谱的是,我没有自己备份这些文章,文章被删除就真的找不回来了。正当我准备放弃的时候,突然发现bing自动缓存了几篇文章,接下来,又找到了几种恢复文章的方法。 1. 通过草稿箱恢复 虽然官方注销了账号,但是还可以再次申请注册,而且恢复后还是原来的账号,只不过账号下文章全被清空。 但是InfoQ的草稿箱有一个奇妙设计,每篇草稿都有一个编号,且即使在你发布文章后,草稿箱内容不会被删除。这个设计可能是为了方便用户后续修改文章内容。 我发现,InfoQ虽然只是删除或隐藏了发布的文章,但是草稿箱中内容还在。因此,如果可以找到原来的浏览器记录,那么在登录账号后,可以直接输入草稿箱的URL来访问草稿箱,查看文章内容以及图片。 但是,好巧不巧,我浏览器只保留了最近两周的浏览记录,再之前的记录全都不见了。所以只好用笨方法:爬虫。 草稿箱的url是这样的,后面这串六位数字就是每篇草稿的编号。 https://xie.infoq.cn/draft/xxxxxx 如果账号是登录状态,那么可以访问此账号下对应编号的草稿箱。如果某个编号的草稿箱不是此账号,那么打开则是空白草稿箱。 目前已知,最后两篇文章的草稿箱编号,时间间隔是1周,编号相差了800左右,大致推测,最近3个月前的文章,大致要向前遍历10000个url。最后,我用selenium成功爬取,爬了大概8000个就全部找到了。 综合其他几种方法,这种方法是最方便的,而且文章的配图也可以恢复。 2. Bing/Google快照 在bing上搜索文章名,bing有几率会缓存这篇文章,不过有效期只有2周左右,所以这个办法有时间限制。而且bing不会保存文章中的照片。 Google在今年年初时宣布停止快照的功能,虽然无法主动使用快照的功能,但其功能仍然存在,可以通过访问 https://webcache.googleusercontent.com/search?q=cache: 加上网址访问该网页的缓存[1]。只不过Google有可能没有缓存某些文章,而且缓存的文章也没有...