字符串类的实现 folly::fbstring

作者: 张志强 , 2019-09-16 , 共 1389 字

folly::fbstring是一个完全兼容std::string的类，可以做到无缝替换，而且性能更高。其代码参见https://github.com/facebook/folly/blob/master/folly/FBString.h。

fbstring的高性能在于，它用最紧凑的内存布局同时实现了SSO(small string optimization)优化和COW(copy on write)优化：

当字符串长度小于 24 时，它使用它自己的就地空间（ in-situ ）存储，不会另外分配单独的空间来存储字符串内容。此时被认为是小字符串。
当字符串长度大于 254 时，它将启用COW优化。当复制字符串时，在修改之前，将共享空间，减少内存占用以及复制操作。此时认为是大字符串。
长度位于中间的，被认为是中字符串。

它的栈上空间存储的实现尤其精妙。folly::fbstring本身占用 24 个字节，却能支持最长 23 字节的栈上字符串，没有一个字节的浪费（因为还需要一个存储 0 的结束字节）。与之相比的是，std::string占用 32 个字节，其栈上字符串的长度只有 16。

1、内存布局

folly::fbstring能以更小的空间实现更长的就地字符串，主要原因是使用了union结构如下：

union {
    struct {
        char* data;
        size_t size;
        size_t capacity;
    } heap;

    struct {
        char data[23];
        int8_t length;    // align 1
    } stack; 
};

最重要的是，如何区分就地和堆。说穿了也很简单，无论是堆还是栈的情况，都用不到最后一个字节的最后两位（一个字节共八位）：

堆上情况，最后两位是size_t capacity的最后两位，capacity不可能大到用到这两位，否则将大于 $2^{62}$ ，至少在目前，这是不可能的。
就地的情况，最后两位是int8_t length的最后两位，而length在 0 到 23 之间，因此也用不到这两位。

因此可使用最后一个字节的最后两个位作为标志位。如果最后两个标志位都是 0 ，则认为是栈上的小字符串。如果第一个标志位是 1 ，表示堆上的中字符串，如果第二个标志位是 1 ，表示堆上的大字符串。

然后这里面还有一个很细微的技巧，使得栈上字符串长度可以达到 23 （而不是 22 ！）。其原因在于，栈上存储的length实际为23-size()。这使得size()=23时，length刚好为 0 ，作为char data[]的结束符！

我们还可以对照std::string的内存结构，可以看到，sizeof(std::string)等于 32 ，但只提供了 15 字节长度的小字符串优化：

struct basic_string {
    char* heap;
    size_t size;
    union {
        size_t capacity;
        char sso_buffer[16];
    };
};

【未完待续】

Q. E. D.

类似文章：

栈上字符串类 folly::FixedString 相似度: 0.341

2019-12-05, 编程 » C++, folly

高效程序总是尽量避免频繁触碰在堆上分配和释放内存，所以无论是std::string还是folly:fbstring都做了SSO（ small string optimization ）。而folly::FixedString是一个很有意思的实现，它可以把任意长度的字符串都放在堆上。代码可见https://github.com/facebook/folly/blob/master/folly/FixedString.h。

Folly 的 small_vector 容器相似度: 0.288

2019-12-29, 编程 » folly, C++, 数据容器

由 Facebook 开发和维护的 C++库 Folly 提供folly::small_vector，代码文件地址：https://github.com/facebook/folly/blob/master/folly/small_vector.h。

Folly 的 MicroLock 使用方法和实现相似度: 0.159

2019-11-30, 编程 » folly, 自旋锁, 多线程编程, C++

由 Facebook 开发和维护的 C++库 Folly 提供了锁folly::MicroLock，代码文件地址：https://github.com/facebook/folly/blob/master/folly/MicroLock.h。

folly 的 sorted_vector_set 和 sorted_vector_map 相似度: 0.154

2019-09-02, 编程 » folly, C++, 数据容器

由 Facebook 开发和维护的 C++库 Folly 提供folly::sorted_vector_set和folly::sorted_vector_map，是std::map和std::set在小数据集上的优化版。代码见： https://github.com/facebook/folly/blob/master/folly/sorted_vector_types.h。

Folly 的 MicroSpinLock 使用方法和实现相似度: 0.113

2019-12-31, 编程 » folly, 自旋锁, 多线程编程, C++

由 Facebook 开发和维护的 C++库 Folly 提供了自旋锁的实现folly::MicroSpinLock，代码文件地址：https://github.com/facebook/folly/blob/master/folly/synchronization/MicroSpinLock.h。

动态数据类型 folly::dynamic 相似度: 0.107

2019-09-15, 编程 » C++, 数据容器, folly

folly::dynamic提供类似于C++的动态类型。和std::any可以容纳任意类型不一样，folly::dynamic只支持保存以下几种类型：

std::tuple 实现原理以及反序存储相似度: 0.100

2019-11-15, 编程 » C++, C++标准库

std::tuple的原理并不复杂，但有些细节非常有意思。其中有一个是至少在gnu C++ std的实现中，std::tuple是倒序存储的：

单个位的 spinlock 实现 folly::PicoSpinLock 相似度: 0.100

2020-01-05, 编程 » C++, folly, 自旋锁

之前提到单字节且为 POD 结构的自旋锁实现folly::MicroSpinLock，而folly:PicoSpinLock则只需要一个位！实现代码在https://github.com/facebook/folly/blob/master/folly/synchronization/PicoSpinLock.h。

snprintf 和 strncpy 的细节区别相似度: 0.087

2020-11-06, 编程 » C++

现在一般不能用 sprintf 和 strcpy ，推荐使用 snprintf 和 strncpy ，以防止缓冲区溢出：

loki::AssocVector 保留插入顺序的关系型结构相似度: 0.086

2019-09-10, 编程 » C++, 数据容器

我们知道在javascript以及Python 3.6+中，所有的dict都保留了插入顺序。但在 C++中，无论是std::map还是std::unordered_map，都没有保留插入顺序。当遍历时，std::map得到的是一个根据键值排序的有序序列，而std::unordered_map则基本是乱序。

前一篇：动态数据类型 folly::dynamic

2019-09-15, 编程 » C++, 数据容器, folly

folly::dynamic提供类似于C++的动态类型。和std::any可以容纳任意类型不一样，folly::dynamic只支持保存以下几种类型：

后一篇：香山北门 - 东门景区路线（6 公里爬升 500 米）

2019-09-26, 户外 » 亲子徒步路线, 香山片区, 徒步强度1.0

爬升约 500 米。景区内路线只有 5 到 6 公里，但若停车在公园 2 公里开外的大转盘，整体路线长度可到 9 到 10 公里，爬升也会增加约 50 米。