现在图书库中有1.3万本图书,其中有90%是从网上下载的各个网站的资源。书籍的meta编目信息混乱的很,标签有几千个,作者、书名、出版舍也都混乱。
因为一些网站为了推广自己而在图书的meta植入广告,如果是自己看一两本书没什么影响,几万本书的时候对资源统一管理,整理势在必行。好在calibre 可以辅助索引检索。自己人工用排序将没有意义书籍标签先处理了,处理了几千条。通过批量管理吭哧吭哧搞了一个小时,一晚上基本都在干整理标签的事。整理完以后还剩一些标签需要再规整,但先将广告标签和书名当标签的情况处理掉了。
整理书签顺道把放到出版社位置的广告也都删掉了,搞完书库的标签和出版社。后面发现作者和标题的重复人工基本无法处理,太分散,太难发现。
自己通过calibre 的插件Find Duplicates 来处理合并重名书籍,又合并了不同写法的作者和出版社。这个calibre 插件帮了一个大忙。通过拼音相同来去重合并需要人工干预和确认,但也让根本无从下手的去重合并能筛选出需要处理的部分了。
现在把该清理的标签都删除了,一大部分书籍也就变得没有书签了,以后还需要再继续整理isbn编号,然后通过权威的书籍库,把书库的metada数据进行更新。
书库扩充之路现在想着要不要招些人手来帮个忙呢?但还是需要有人给管理去重和下载内容的重复问题。
这一系列文章并没有什么具体的技术细节,开了个QQ交流群(72239907),方便大家交流读书、技术问题、图书资源共享。如果有什么软件安装等问题也可以加 calibre 交流群的QQ群(72239907)进行交流。
点击链接加入群聊【爱读书 读好书 calibre】:https://jq.qq.com/?_wv=1027&k=5vYWQsV