RocksDB State column performance on GCP local disk #9291

jbajic · 2023-07-12T12:58:17Z

jbajic
Jul 12, 2023

Introduction

To understand if there are possibilities of improvement of RocksDB performance when using local disk instead of persistent disk. For that, we will be using fio tool for measuring SSD latency and database tool state-perf for measuring overall latency using RocksDB

Measurements on `n2-highcpu-32`

This was done on a GCP node n2-highcpu-32 with 32GB RAM with 4 local disks in raid level 0.

Before testing RocksDB measurements via the fio tool (with the same configuration as from the reference) were taken on Local Disk to get a baseline of latency, and these are the results:
clat (usec): min=129, max=2103, avg=159.21, stdev=18.98
which is similar to what results show in #9147.

Since the RocksDB is configured with 16KiB block sizes, the same was rerun with fio tool was done here, and here are the results:
clat (usec): min=168, max=2410, avg=224.98, stdev=27.79

Now that we know local disk latencies we can use database tool state-perf to measure RocksDB latency, the command being run is: cargo run --release --bin neard -- database state-perf --samples 100000 --warmup_samples 10000 and these are the results:

Local disk state column performance with 512MiB cache size

overall | avg observed_latency: 409.499µs, block_read_time: 286.813µs, samples with merge: 4744 (4.74%)
block_read_count: 0, samples: 29 (0.03%): | avg observed_latency: 18.355µs, block_read_time: 0ns, samples with merge: 0 (0.00%)
block_read_count: 1, samples: 51984 (51.98%): | avg observed_latency: 252.957µs, block_read_time: 205.209µs, samples with merge: 303 (0.58%)
block_read_count: 2, samples: 14462 (14.46%): | avg observed_latency: 437.164µs, block_read_time: 321.928µs, samples with merge: 2053 (14.20%)
block_read_count: 3, samples: 11521 (11.52%): | avg observed_latency: 565.572µs, block_read_time: 374.691µs, samples with merge: 1392 (12.08%)
block_read_count: 4, samples: 17468 (17.47%): | avg observed_latency: 650.115µs, block_read_time: 389.388µs, samples with merge: 518 (2.97%)
block_read_count: 5, samples: 3909 (3.91%): | avg observed_latency: 759.799µs, block_read_time: 470.931µs, samples with merge: 300 (7.67%)
block_read_count: 6, samples: 489 (0.49%): | avg observed_latency: 981.834µs, block_read_time: 617.097µs, samples with merge: 136 (27.81%)
block_read_count: 7, samples: 116 (0.12%): | avg observed_latency: 1.091829ms, block_read_time: 697.388µs, samples with merge: 33 (28.45%)
block_read_count: 8, samples: 17 (0.02%): | avg observed_latency: 1.209937ms, block_read_time: 702.042µs, samples with merge: 8 (47.06%)
block_read_count: 9, samples: 3 (0.00%): | avg observed_latency: 1.286925ms, block_read_time: 794.659µs, samples with merge: 1 (33.33%)
block_read_count: 10, samples: 2 (0.00%): | avg observed_latency: 1.929752ms, block_read_time: 738.867µs, samples with merge: 0 (0.00%)

Comparing the current results where we observe a latency of 409.499µs and block read time of 286.813µs, we can notice that the difference is big between those two, indicating room for improvement on RocksDB side. The Block read time is similar to the latency reported by fio.

Local disk state column performance with 1GiB cache size

Finished State perf test
overall | avg observed_latency: 281.689µs, block_read_time: 228.935µs, samples with merge: 4744 (4.74%)
block_read_count: 0, samples: 246 (0.25%): | avg observed_latency: 14.759µs, block_read_time: 0ns, samples with merge: 5 (2.03%)
block_read_count: 1, samples: 85956 (85.96%): | avg observed_latency: 250.758µs, block_read_time: 207.144µs, samples with merge: 689 (0.80%)
block_read_count: 2, samples: 9591 (9.59%): | avg observed_latency: 431.123µs, block_read_time: 353.735µs, samples with merge: 3320 (34.62%)
block_read_count: 3, samples: 2962 (2.96%): | avg observed_latency: 544.535µs, block_read_time: 391.983µs, samples with merge: 628 (21.20%)
block_read_count: 4, samples: 1045 (1.04%): | avg observed_latency: 622.972µs, block_read_time: 401.042µs, samples with merge: 81 (7.75%)
block_read_count: 5, samples: 77 (0.08%): | avg observed_latency: 788.241µs, block_read_time: 572.193µs, samples with merge: 15 (19.48%)
block_read_count: 6, samples: 111 (0.11%): | avg observed_latency: 1.227657ms, block_read_time: 572.156µs, samples with merge: 4 (3.60%)
block_read_count: 7, samples: 10 (0.01%): | avg observed_latency: 1.162339ms, block_read_time: 629.54µs, samples with merge: 2 (20.00%)
block_read_count: 10, samples: 2 (0.00%): | avg observed_latency: 1.88152ms, block_read_time: 749.256µs, samples with merge: 0 (0.00%)

Local disk state column performance 2GiB cache size

Finished State perf test
overall | avg observed_latency: 274.767µs, block_read_time: 226.985µs, samples with merge: 4744 (4.74%)
block_read_count: 0, samples: 1341 (1.34%): | avg observed_latency: 14.487µs, block_read_time: 0ns, samples with merge: 23 (1.72%)
block_read_count: 1, samples: 92216 (92.22%): | avg observed_latency: 260.748µs, block_read_time: 213.995µs, samples with merge: 944 (1.02%)
block_read_count: 2, samples: 5815 (5.82%): | avg observed_latency: 494.308µs, block_read_time: 436.811µs, samples with merge: 3302 (56.78%)
block_read_count: 3, samples: 470 (0.47%): | avg observed_latency: 733.324µs, block_read_time: 665.383µs, samples with merge: 430 (91.49%)
block_read_count: 4, samples: 42 (0.04%): | avg observed_latency: 917.645µs, block_read_time: 843.676µs, samples with merge: 41 (97.62%)
block_read_count: 5, samples: 8 (0.01%): | avg observed_latency: 862.647µs, block_read_time: 521.366µs, samples with merge: 3 (37.50%)
block_read_count: 6, samples: 101 (0.10%): | avg observed_latency: 1.339155ms, block_read_time: 648.724µs, samples with merge: 1 (0.99%)
block_read_count: 7, samples: 5 (0.01%): | avg observed_latency: 1.629989ms, block_read_time: 929.181µs, samples with merge: 0 (0.00%)
block_read_count: 10, samples: 2 (0.00%): | avg observed_latency: 2.100714ms, block_read_time: 996.388µs, samples with merge: 0 (0.00%)

Local disk state column performance with 4GiB cache size

Finished State perf test
overall | avg observed_latency: 272.404µs, block_read_time: 222.766µs, samples with merge: 4744 (4.74%)
block_read_count: 0, samples: 1600 (1.60%): | avg observed_latency: 15.149µs, block_read_time: 0ns, samples with merge: 26 (1.62%)
block_read_count: 1, samples: 92048 (92.05%): | avg observed_latency: 259.38µs, block_read_time: 210.637µs, samples with merge: 971 (1.05%)
block_read_count: 2, samples: 5739 (5.74%): | avg observed_latency: 492.74µs, block_read_time: 433.242µs, samples with merge: 3280 (57.15%)
block_read_count: 3, samples: 459 (0.46%): | avg observed_latency: 718.085µs, block_read_time: 648.815µs, samples with merge: 425 (92.59%)
block_read_count: 4, samples: 38 (0.04%): | avg observed_latency: 970.298µs, block_read_time: 889.445µs, samples with merge: 38 (100.00%)
block_read_count: 5, samples: 8 (0.01%): | avg observed_latency: 890.823µs, block_read_time: 533.058µs, samples with merge: 3 (37.50%)
block_read_count: 6, samples: 101 (0.10%): | avg observed_latency: 1.256071ms, block_read_time: 587.713µs, samples with merge: 1 (0.99%)
block_read_count: 7, samples: 5 (0.01%): | avg observed_latency: 1.667892ms, block_read_time: 995.653µs, samples with merge: 0 (0.00%)
block_read_count: 10, samples: 2 (0.00%): | avg observed_latency: 2.002258ms, block_read_time: 666.028µs, samples with merge: 0 (0.00%)

Local disk state column performance with 8GiB cache size

Finished State perf test
overall | avg observed_latency: 264.949µs, block_read_time: 216.591µs, samples with merge: 4744 (4.74%)
block_read_count: 0, samples: 1600 (1.60%): | avg observed_latency: 14.308µs, block_read_time: 0ns, samples with merge: 26 (1.62%)
block_read_count: 1, samples: 92048 (92.05%): | avg observed_latency: 252.339µs, block_read_time: 204.766µs, samples with merge: 971 (1.05%)
block_read_count: 2, samples: 5739 (5.74%): | avg observed_latency: 477.721µs, block_read_time: 421.182µs, samples with merge: 3280 (57.15%)
block_read_count: 3, samples: 459 (0.46%): | avg observed_latency: 698.714µs, block_read_time: 634.494µs, samples with merge: 425 (92.59%)
block_read_count: 4, samples: 38 (0.04%): | avg observed_latency: 924.956µs, block_read_time: 853.958µs, samples with merge: 38 (100.00%)
block_read_count: 5, samples: 8 (0.01%): | avg observed_latency: 858.897µs, block_read_time: 519.075µs, samples with merge: 3 (37.50%)
block_read_count: 6, samples: 101 (0.10%): | avg observed_latency: 1.26683ms, block_read_time: 589.622µs, samples with merge: 1 (0.99%)
block_read_count: 7, samples: 5 (0.01%): | avg observed_latency: 1.647336ms, block_read_time: 975.373µs, samples with merge: 0 (0.00%)
block_read_count: 10, samples: 2 (0.00%): | avg observed_latency: 2.03938ms, block_read_time: 666.342µs, samples with merge: 0 (0.00%)

With increased column cache size we can see drastic improvements in performance even with 1GiB cache size we see 86% of blocks being read on the first try, and with 2GiB we get 92%, the first jump is definitely the biggest and most significant one and the second one is smaller. After that, increasing cache size does not bring much benefit. As explained previously the reason behind that is that most of the filter and index blocks are being cached and it reduces the miss rate drastically.

Measurements on `n2-highcpu-8`

This was done on a GCP node n2-highcpu-8 with 8GB RAM with 4 local disks in raid level 0. The reason for that was to reduce the filesystem caching during test execution and to compare the results with the node with 32 GB RAM.

Same as previous measurements first we do fio test just to make sure that the baseline latencies are also the same:
clat (usec): min=131, max=5689, avg=199.10, stdev=64.10
which is somewhat similar to the results we get for the other machine, taking into account standard deviation.

Next, we do the same state-perf run on that machine with different cache sizes to get an understanding of how the increase in cache size reflects performance on a smaller RAM machine.

Local disk state column performance with 512MiB cache size

overall | avg observed_latency: 447.929µs, block_read_time: 313.007µs, samples with merge: 4744 (4.74%)
block_read_count: 0, samples: 29 (0.03%): | avg observed_latency: 23.89µs, block_read_time: 0ns, samples with merge: 0 (0.00%)
block_read_count: 1, samples: 51984 (51.98%): | avg observed_latency: 280.804µs, block_read_time: 225.941µs, samples with merge: 303 (0.58%)
block_read_count: 2, samples: 14462 (14.46%): | avg observed_latency: 477.752µs, block_read_time: 350.63µs, samples with merge: 2053 (14.20%)
block_read_count: 3, samples: 11521 (11.52%): | avg observed_latency: 615.145µs, block_read_time: 406.747µs, samples with merge: 1392 (12.08%)
block_read_count: 4, samples: 17468 (17.47%): | avg observed_latency: 703.986µs, block_read_time: 422.292µs, samples with merge: 518 (2.97%)
block_read_count: 5, samples: 3909 (3.91%): | avg observed_latency: 822.367µs, block_read_time: 509.137µs, samples with merge: 300 (7.67%)
block_read_count: 6, samples: 489 (0.49%): | avg observed_latency: 1.060516ms, block_read_time: 665.665µs, samples with merge: 136 (27.81%)
block_read_count: 7, samples: 116 (0.12%): | avg observed_latency: 1.184328ms, block_read_time: 765.622µs, samples with merge: 33 (28.45%)
block_read_count: 8, samples: 17 (0.02%): | avg observed_latency: 1.320869ms, block_read_time: 775.698µs, samples with merge: 8 (47.06%)
block_read_count: 9, samples: 3 (0.00%): | avg observed_latency: 1.427229ms, block_read_time: 892.488µs, samples with merge: 1 (33.33%)
block_read_count: 10, samples: 2 (0.00%): | avg observed_latency: 1.947216ms, block_read_time: 713.665µs, samples with merge: 0 (0.00%)

Local disk state column performance with 1GiB cache size

overall | avg observed_latency: 296.335µs, block_read_time: 236.196µs, samples with merge: 4744 (4.74%)
block_read_count: 0, samples: 246 (0.25%): | avg observed_latency: 19.809µs, block_read_time: 0ns, samples with merge: 5 (2.03%)
block_read_count: 1, samples: 85956 (85.96%): | avg observed_latency: 263.652µs, block_read_time: 213.477µs, samples with merge: 689 (0.80%)
block_read_count: 2, samples: 9591 (9.59%): | avg observed_latency: 452.927µs, block_read_time: 365.303µs, samples with merge: 3320 (34.62%)
block_read_count: 3, samples: 2962 (2.96%): | avg observed_latency: 575.389µs, block_read_time: 407.329µs, samples with merge: 628 (21.20%)
block_read_count: 4, samples: 1045 (1.04%): | avg observed_latency: 662.538µs, block_read_time: 417.824µs, samples with merge: 81 (7.75%)
block_read_count: 5, samples: 77 (0.08%): | avg observed_latency: 827.685µs, block_read_time: 588.989µs, samples with merge: 15 (19.48%)
block_read_count: 6, samples: 111 (0.11%): | avg observed_latency: 1.306602ms, block_read_time: 629.411µs, samples with merge: 4 (3.60%)
block_read_count: 7, samples: 10 (0.01%): | avg observed_latency: 1.258792ms, block_read_time: 650.586µs, samples with merge: 2 (20.00%)
block_read_count: 10, samples: 2 (0.00%): | avg observed_latency: 2.013736ms, block_read_time: 731.463µs, samples with merge: 0 (0.00%)

Local disk state column performance with 2GiB cache size

overall | avg observed_latency: 285.593µs, block_read_time: 229.723µs, samples with merge: 4744 (4.74%)
block_read_count: 0, samples: 1341 (1.34%): | avg observed_latency: 20.253µs, block_read_time: 0ns, samples with merge: 23 (1.72%)
block_read_count: 1, samples: 92216 (92.22%): | avg observed_latency: 271.457µs, block_read_time: 216.828µs, samples with merge: 944 (1.02%)
block_read_count: 2, samples: 5815 (5.82%): | avg observed_latency: 507.399µs, block_read_time: 438.952µs, samples with merge: 3302 (56.78%)
block_read_count: 3, samples: 470 (0.47%): | avg observed_latency: 745.492µs, block_read_time: 663.176µs, samples with merge: 430 (91.49%)
block_read_count: 4, samples: 42 (0.04%): | avg observed_latency: 934.662µs, block_read_time: 843.888µs, samples with merge: 41 (97.62%)
block_read_count: 5, samples: 8 (0.01%): | avg observed_latency: 929.899µs, block_read_time: 550.796µs, samples with merge: 3 (37.50%)
block_read_count: 6, samples: 101 (0.10%): | avg observed_latency: 1.386381ms, block_read_time: 662.799µs, samples with merge: 1 (0.99%)
block_read_count: 7, samples: 5 (0.01%): | avg observed_latency: 1.573719ms, block_read_time: 953.31µs, samples with merge: 0 (0.00%)
block_read_count: 10, samples: 2 (0.00%): | avg observed_latency: 1.986186ms, block_read_time: 741.871µs, samples with merge: 0 (0.00%)

The increase of cache size on smaller RAM machine also exhibits big improvements in how any block was read with only one read which reduces overall latency drastically throughout the benchmark.

References

This is a continuation of measurements:

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

RocksDB State column performance on GCP local disk #9291

{{title}}

{{editor}}'s edit

{{editor}}'s edit

Replies: 0 comments

Select a reply

RocksDB State column performance on GCP local disk #9291

jbajic Jul 12, 2023

Introduction

Measurements on n2-highcpu-32

Measurements on n2-highcpu-8

References

Replies: 0 comments

jbajic
Jul 12, 2023

Measurements on `n2-highcpu-32`

Measurements on `n2-highcpu-8`