我使用本脚本处理httrack程序下载的phpbb2论坛页面,对下载页面中的冗余部分进行去除和合并,以达到减小文件大小,以供存储的目的。

原理是:如果两个html页面十分相似(用diff检查的差别小于定义的最大差别),那么删除其中的一个,将其余文件中指向被删除文件的链接改为指向与之相似的文件。

具体实现看代码好了。使用了Python的os,re,difflib库。

Attach:FuzzyPages.zip

发表回复