ZFS 记录值很重要

发表于2025-01-17|更新于2025-10-23|存储教程

|总字数:631|阅读时长:1分钟|浏览量:

坑边闲话：recordsize 是个理解上限和下限都很不平凡的概念，普通人可能认为大文件连续吞吐用大的 recordsize，小吞吐、改写就用小 recordsize，然而这并不够深入，甚至在某些场景下会造成误解。

哔哩哔哩原文

1. 深入理解 recordsize·

recordsize 并不是一个具体的概念，而是在将 dirty page 往磁盘同步时，采用的最大分片值。因此，使用大的 recordsize 会导致分块数量变少，占用的指针数量也变少，但压缩空间变大容易达成更高的压缩率。

然而，如果要对某个文件进行改写，大的 recordsize 极有可能造成恶劣影响。比如一个数据库的 .db 文件有 10GB, 但是一次只改写里面 8KB 的数据，这时如果使用了 128KiB 的 recordsize，将导致要先读出其中 128KiB 的连续内容，然后改写其中的 8KB 数据，最后申请 128KiB 的新空间并把改完的内容写进去。由此可见，一次 I/O 就造成了 128/8=16 倍的写放大。

之前我反复强调 recordsize 对 ZFS 存储占用的影响，今天有个很好的例子可以展现这一点，如图所示，4K 块的真实占用比 16K 模式多几十 GB，128K 模式要更明显。

图 1. 不同 recordsize 对压缩率的影响。

原因如下：ZFS 需要对每一个record 生成一个块指针，然后写入到 dnode（类似 inode），这个指针结构体是 128字节。所以，4K 模式的块指针数量是 128K 模式的 32 倍。

此外，压缩算法是在逻辑块内压缩，4K 块的可见范围较小，压缩起来没有大块效率高，所以压缩率上也会吃亏。

那么 4K 块的优势是什么呢？我想不太出来。毕竟是压缩型文件系统，写入时 4K 对齐这件事本身就很有难度，用小块提升小文件吞吐性能可能收益有限。而且 DMU 和 ZIO 子系统会把近期写入在虚地址和物理地址上尽量做到连续分布，以便充分利用 ARC 的读优化。所以我的结论就是保持 128K 默认设置就挺好。

如果 zdb 有办法监控某个负载（比如编译、数据库IO）的块存取顺序，然后进行物理块重排序，应该会有立竿见影的性能提升。但是这打破了存储不干涉应用层的规矩。

文章作者: Peng Liu

文章链接: http://littlenewton.uk/2025/01/tutorial-zfs-recordsize-is-important/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Peng Liu's blog！

相关推荐

数据库页面大小检查指南

坑边闲话：ZFS 是一个多功能的存储栈解决方案，作为经典的一站式本地存储系统解决方案，它必然不可能被人轻松掌握。精进技能需要长久学习和思考，以及亲自上手对真实应用场景做细致的优化测试。此前有 UP 主在 B 站批评 ZFS 无法做到开箱即用，这主要是因为他们对 ZFS 不够了解，正所谓「难者不会，会者不难」，沟通的鸿沟就在这里。在复杂的 ZFS 存储优化中，最容易上手并取得巨大收益的一项参数是 recordsize, 特别是在数据库应用场景中，不同的 recordsize 会带来巨大的性能差异。 1. 数据库页面大小检查指南· 核心目标是让数据库的 page_size 等于 ZFS 数据集的 recordsize. 为什么要这么做呢？因为数据库只是文件系统上的一个 file，但是在这个 file 内部，数据库程序会将其划分为不同的 page，数据库程序发起 I/O 的时候，以 page 的大小为基本单位。如果 page 远远小于 recordsize, 如 page_size, 4KiB, recordsize, 128KiB, 那么数据库读取一个 page，ZFS 就...

使用虚拟化方式玩转 ZFS

坑边闲话：本文最初发布于哔哩哔哩。来到英国，我就带了一个 AMD 7840HS 的零刻 GTR7 小主机，外加一台 MacBook Pro, 两者都在各自的领域里表现良好。然而对 AMD 的虚拟化 bug 使得我没办法简单地在 GTR7 上直接安装 Linux，因此如何在一个 Windows host 上使用 ZFS 变成了一个困扰我良久的问题。哔哩哔哩原文好几年前我为了不买软路由工控机，琢磨了一套不需要额外硬件的软路由方案，虽然很复杂，但确实有效。BV1Hv411H7WS 最近一段时间也想搞个 NAS，但是预算实在有限，于是用这套 GTR7 小主机搭配 Windows 10 系统打造了一个性能还挺不错的 ZFS NAS. 1. 难点在于如何使用物理硬盘。· Hyper-V 虚拟机可以直接通过块映射的方式使用雷电硬盘，基于相同原理，另一个三星 T5 用来做备份。该方法的一大好处是后续换了物理 NAS，无需迁移数据，旧的硬盘插上去就能直接使用 zpool import 导入存储池。总的来看，除了 Hyper-V 块设备虚拟化层带来了一些性能开销，其余方面还是颇为简...

ZFS 的 ARC 策略

坑边闲话：Allan Jude 是真正的存储专家，他是一位资深的程序员和开源贡献者，而且运营着一家声誉良好的公司。笔者一直 follow 他的动态。本文介绍他的一篇博客。哔哩哔哩原文最近看到 Allan Jude 的一篇关于 ARC 的很有意思的文章。 ZFS 的 ARC 缓存是一种比较高级的 cache 策略，它不同于常见的 LRU 和 MFU，反而是同时使用多种缓存策略，然后通过 P 值（可以理解为不同策略的分界线）和幽灵引用列表对两种策略的占比进行动态调整，这类似于某种滑动窗口。这一点我在之前的视频里讲过，这里就不再展开了。 Allan 的这篇文章主要介绍了 OpenZFS 2.2.0 带来的 ARC 新特性。我们知道，ARC 里缓存的不仅仅是文件，还有元数据、块引用、间接块等非文件数据（后面统一叫 metadata）。metadata 等数据在 ARC 里的占比在老版本的 ZFS 里一直是固定的 75%，这很不好，因为存储所面对的计算场景可能有自己的特殊要求，如果 75% 不够用，将会产生效能下降。那么如何优化 ZFS 才能让 metadata 占比更灵活...

四年磨一剑！关于 ZFS 的全闪存突破！

坑边闲话：本文最早发布于哔哩哔哩专栏。ZFS 凭借 ARC 缓存设计，使得它在内存足够大、足够安全的情况下性能极高。注意，并不是所有的基于内存的缓存系统都有极高的性能和良好的存储层次化兼容性。然而，在 NVMe 时代，底层设备完成了革新，NVMe 允许 64K 个队列和 64K 的队列深度，这在 SAS/SATA 时代是天文数字。ZFS 亟需革新存储底层，以适应 NVMe 设备。Direct-IO 就是迈向新时代的第一步。哔哩哔哩原文最近发现 OpenZFS 合并了一项重要的内核支持 PR：Direct-IO. 说人话就是绕过 ARC 内存级缓存，直接读写存储池。直接的好处就是对全闪存的支持变得更好了！毕竟 NVMe 硬盘自身就相当于很多的 CE 做 RAID0，而且自身支持强大的随机与多队列，因此给 NVMe 设备做缓存其实并不明智。事实上，给 NVMe 开缓存，在性能上往往适得其反。PureStorage 的 NVRAM 模块一般都只有几个 GB，足以说明问题。此前我认为这在 OpenZFS on Linux 上支持 Direct-IO 是不可能的，因为这违背...

10GB/s 的 ZFS 软阵列速度

坑边闲话：在关闭多线程之后，采用本地测试的方式，笔者发现 ZFS 呈现出了惊人的 NAND 直读、直写性能。本文介绍这一发现，但并不尝试分析原因。哔哩哔哩原文最近在跑实验，supervisor 建议我关闭超线程。找了半天 BIOS 没找到 HyperThreading 选项，最后发现 AMD 的超线程不叫 HT, 而是 SMT. 遗憾的是 SMT 的关闭与 performance tuning 的关闭是绑定的，所以 NUMA per socket 就得手动设置，最大一个 CPU 插槽 4 个 NUMA，对应两个 ZEN3 CCD. 毕竟 EPYC 7003 内部就是四组内存控制器，这很合理。有意思的来了。我看到核心连线的拓扑图，发现设置了 NPS 之后，CPU 与 NVMe 的关系变得更具体了，说人话就是 NVMe 与 CPU 的亲和性更高了。于是我顺手给这个 ZFS 跑了个分。服务器：H3C R4950g5 with dual AMD EPYC 7763 zpool 包含两个 vdev 第一个是四盘 intel 750 1.2TB MLC raid-z1 ...

ZFS 设计理念真的落后了，但它很稳定

坑边闲话：闲话哔哩哔哩原文 Debian bookworm 的 backport 频道正式推送了 OpenZFS 2.3.1, 没错，就是这么快！一般来说，作为社区 package 打包维护者，不太可能在 1.0, 2.0, 3.0 就积极引入，第一个小版本如 2.01, 3.01 才是引入的最佳时间。这种版本和大版本整数发布不会有很长的间隔功能和大版本整数版基本相同修复了整数版本无心之失产生的一些小问题我第一时间进行了更新，然后开启了 direct-IO 进行了测试。总体来看，性能表现和我预料的差不多。写操作· direct-IO 在写入方面和 buffered-IO 没有太大区别，之所以写入速度没有突飞猛进，主要是 ZFS 的瓶颈在 ZIO 后端上，把压缩、去重、加密全部关掉，速度也没有太多提升。本质上是因为 ZFS 希望尽可能多地合并写入，把多个 write 合并为一个合适的 record. 然而，这种优化逻辑是为机械阵列而生的，全 nvme 闪存并不需要这个逻辑。综上，direct-IO 并没有带来性能上的惊喜，但是这仍然属于一个重大的进步...

评论

数据加载中