个人 PDF 知识仓库构建 p2:PDF 电子书的收集
坑边闲话:如果你想让一个东西永久保存下去,那是不可能的。宇宙间的原子会逐渐衰变,成为能量,而哪怕量子也不是稳定的。所以,要想让自己看过的书、学过的知识都能保留下来,是很难做到的。如何让一个物体,或者说一个信息长久保存下去,我能想到的方式就是复制很多份。哪怕有一批被摧毁,剩余的也能继续使用。这就是网络与系统安全理论中的灾备概念。
现在公开出版的纸质书籍,在英文中统称为 Copy,也就是我们说的拷贝。出版社所具有的生产拷贝的权利,被称为 Copyright. 所以复制大量的纸质书,也就从一定程度上避免了其记载信息的消亡。然而,目前的电子出版,特别是书籍的电子书版,还不算很成熟。
- 以异步社区(epubit.com)为代表的先驱出版机构,已经开始为电子书购买者创建一份独一无二的拷贝,具体的做法是把该会员的 ID 写入 PDF 电子档的页面中,这样就迫使该会员不敢轻易在互联网上公开自己的版权,否则泄露 ID 将会导致自己的 ID 被出版方追溯并惩罚。
- 以 Amazon.com 为代表的硬件绑定电子出版机构是一个另类,他们自定义了一种加密的文件结构,使得自己的电子档只能在自己生产的硬件上查看,而硬件被 TPM 所保护,实现了一定级别的硬件安全,所以从根本上保证了自己卖给用户的电子档不会被破译。当然也有部分国外大神通过抓包的形式将网络 packet 聚集,然后逆向出了部分电子档。不过,Kindle 之类的电纸书,安全性还是相当高的。同样的还有京东、天猫读书、iReader 等,他们的共同特点就是售卖与软件、硬件都归一方操作,而且软、硬、数据三位一体,不可拆分。
- 某些 Conference Proceeding 会把论文集合成册,然后由某些学术出版机构以论文合集的形式出版,这种往往可以在校园网里找到完美的 PDF 电子档。不过这种论文集合往往太多太杂,并不适合系统学习。
列举上述两三个例子,并不是为了给大家科普数字出版的一般形式,而是想告诉大家,本文所讲的一些东西在本质是是非法的,处于各种灰色地带。我也非常不提倡搞盗版、复刻之类的侵犯版权的东西,所以在此郑重声明,本文只做个人学习使用,对于恶意以此谋财的行为,本文不负任何责任。
以下所有针对的 PDF 大部分是扫描版,扫描版的高清版本能准确反映原版的样貌,在经过 OCR 处理之后也能获得类似文本的那种标注功能,如选择、复制、高亮等。而英文版 PDF 大部分都是英文原版,即可付梓印刷版本。
1. 英文版 PDF 电子档查找·
现在你在某些搜索引擎上找 PDF 电子档,如在 google.com 搜索关键字 computer networking filetype:pdf
,将会搜出一大批的有关计算机网络的 PDF 电子书、电子档,而且国外很多经典教材都是一版再版,很多电子档是可以通过一些手段找到的,寻找难度相对较低,而且只要不是太老的书,基本都能够找到完美的 PDF 档。这种方式找到的电子档一般不违法,严重侵犯版权的,都被搜索引擎屏蔽了,所以无需担心。而某些经典教材再版之后,原先的版本就在出版社的默许之下,允许自由下载了,这也相当于福利了一下学生们。而某些当下最新版,也是可以找到的。
下面推荐几个找英文 PDF 档的查找网站。
- hejizhan.com/bbs,万千合集站,号称最专业的外链学术资源收集分享网站,该网站是一个中英文都有的网站,而且是只提供外链,不提供内容下载。一般该网站可以找到相当多的有价值 PDF 电子书,特别是数学书,简直是包罗万象,无所不有。
- Google.com,谷歌,这是寻找外文 PDF 的最佳网站,也是最佳搜索引擎。注意,一定要在关键字里加上 PDF 以及版本字样,如
Computer Networking: A top down approach 7th edition filetype:pdf
,这样的搜索结果才是精确的,如精确搜索的结果太少,可以去除版本号以及filetype:
字样,就可以放宽条件,转而去某些二级网站查找。 - Academia.edu,中文名暂无,这个网站也存有大量 PDF 电子档,而且大部分质量较高,非常值得收藏该网站。而且,这个网站非常类似于 ResearchGate.com,是一种以社交为基础的文件流转平台,即用户注册、用户以发动态的形式发布电子档,然后这些用户的 follower 就可以看到该动态,然后下载。
- Scribd.com,中文名暂无,这个网站是一个会员类的内容网站,提供了很多高质量的电子出版物,但是需要在 App 内阅读、收听。另外,该网站也可以搜索某些 PDF 电子书。这个网站需要付费,而且价格较高,如长期使用可以支持一下正版。如偶尔用一次半次,可以用不同的邮箱注册,获取一个月的试用。
从目前的经验来看,寻找英文 PDF 非常具有确定性,能找到的那种可以很简单地搜索到,找不到的那种,掘地三尺也很难,所以相对比较容易。
2. 中文版 PDF 电子档查找·
中文 PDF 的查找就很多样化了,国内诸多臭不要脸的网站在没有版权的情形下还要收费下载,实在是让人汗颜。
- download.csdn.net,中文 CSDN 社区的下载板块。曾经 CSDN 有着不错的技术氛围,好多优秀的博客主也在上面定期发表博文,但是随着知乎专栏、网易博客、个人 blog 的崛起,再加上 CSDN 自身不思进取,现如今其已十分缺乏竞争力。但无可否认,CSDN 的下载板块具有很全面的资源,然而这些资源都是下载收费的,而 CSDN 的会员太昂贵,不支持单次下载,所以就要借助万能的淘宝(taobao.com),大约三、四毛钱就可以下载一次,非常便宜。个人认为这种体验还是非常好的。
- hejizhan.com/bbs,万千合集站,介绍同上。
- jb51.net/books,脚本之家的电子书板块。脚本之家的搜索、外链获取都是免费的,就是需要关注他们的公众号才能获取下载链接的密码。从名字可以看出,这个网站的下载类型局限于计算机科学,而且经验告诉我,其电子档质量比较差,大多在页面内以文本框的形式注入了广告,非常不友好。
- foundPdf.com,这是一个以付费下载为主题的下载网站,其提供的电子档质量非常高,而且大多数带有完整的电子书签,知识价格有点贵,最便宜的 10 Found 币一本,贵的要 18 Found 币,价格视页数而定。如果确实需要某些重要的电子书,这个网站是不二之选。重点:这个网站应该是自己制作的电子书,所以质量很高,而且有人工校对。
以上就是我经常访问的几个下载网站,基本上想看的都能够找到。
我们在处理学习材料的时候,就需要注意一个事实:越安全的东西越难用。这是没有办法的事情,安全本身就是一个伪命题。PDF 是一个受支持比较广的格式,我曾经也研究过 Djvu 等格式,发现他们也很一般,而且 iPad 等平台的支持不好;至于 GoodNotes、Notability 等软件确实比较方便随手记,但是不可否认,他们被局限在了某些硬件平台,这也不太靠谱。不能数据与软件分类的结构,都需要格外警惕,说不准哪天软件换架构,你也要跟着一起被动地修改。
总结:这篇文章主要介绍了若干下载 PDF 的网站,并做了相应的评价,这是为后篇做铺垫的一篇文章。毕竟巧妇难为无米之炊,没有数据,何谈管理?PDF 是集安全、防篡改、可编辑、好预览于一体的优秀格式,在接下来的几篇文章中,我会讲解:
- 高效率制作 PDF 的电子书签(5~8 分钟/本)
- 高效率给扫描版 PDF 进行 OCR 光学字符识别
- PDF 的管理与灾备
- PDF 的跨平台访问与全平台同步
敬请期待。