TCS 课堂笔记：数据库存储问题

作者: 张志强 , 2007-05-08 , 共 626 字

理论计算机(I)课上讲的一个问题，很有意思。

已经一个 n ， m 和 $\{1,2,\cdots, m\}$ 里 n 个数，设计一种保存这 n 个元素的表的数据结构形式，使得对 $\{1,2,\cdots, m\}$ 中任何一个数，可以最少的查询次数（每次查询，可以选择一个位置，然后你能知道表中这个位置的数据），获知这个数是否在表中。

如果设计这个表为有序表，用二分法需要 $\log n$ 次查询。

有序表是最优的么？

举一个例子，一个保存 1 ， 2 ， 3 里面的两个数的有序表，要想知道 2 是否在这个表里面，至少需要两次查询。可不可以用一种特定的数据结构，使得一次查询就能判定任何一个数是不是在数据库里面？

结论是可能的，见下图：

$sorted table$

一般的，假如表里的 n 个数的范围是 1 ， 2 ，...， 2n-2 ，即 $m=2n-2$ ，可以设计一种方法，使得，对于任何一个数，只需要查询一次，便能知道这个数是否在这个表里面。

课堂上有同学当场就想出设计方法，向他致敬！

另外，利用广义的 Ramsey 定理，对于固定的 n ，能够证明当 m 足够大时，无论你怎么设计那个表的结构，也至少需要 $\log n$ 的查询次数。

一个很神奇的问题。相关论文Should Table be Sorted?, 上面的图片也来自这篇文章。

Q. E. D.

类似文章：

编程的核心是数据结构，而不是算法相似度: 0.114

2008-02-28, 计算机科学 » 数据结构, 算法，编程理念

Rob Pike, 最伟大的 C 语言大师之一 , 在Notes on C Programming(英文原文)中从另一个稍微不同的角度表述了 Unix 的哲学:

folly 的 sorted_vector_set 和 sorted_vector_map 相似度: 0.113

2019-09-02, 编程 » folly, C++, 数据容器

由 Facebook 开发和维护的 C++库 Folly 提供folly::sorted_vector_set和folly::sorted_vector_map，是std::map和std::set在小数据集上的优化版。代码见： https://github.com/facebook/folly/blob/master/folly/sorted_vector_types.h。

C++ 推荐使用 memset 置零数据结构相似度: 0.112

2020-09-01, 编程 » C++

假设在 C++里有一个数据结构：

数据库查询是 NP-Hard 问题相似度: 0.111

2009-12-23, 计算机科学 » 数据库, 算法复杂度

问题来自美人他爹和Wangjianshuo's blog

TCS: 拜占庭将军问题 (The Byzantine Generals Problem) 相似度: 0.110

2006-09-22, 计算机科学 » The Byzantine Generals Problem, 拜占庭将军问题, 理论计算机课堂笔记

这个问题在 Yao 的理论计算机课上整整讨论了 2 节课。它是一个算法设计问题，也极具趣味性。下面是它的一些介绍和解决方案([1])。

数据库里的日期处理相似度: 0.109

2020-04-09, 编程 » 数据库

可参考：https://www.mssqltips.com/sqlservertip/1145/date-and-time-conversions-using-sql-server/。

Excel 数据源的多表合并和 SQL 查询相似度: 0.099

2012-09-03, 编程 » Excel, 办公自动化, 数据库

Excel 多表合并和查询是一个应用很广泛的问题。下面是一个简单的例子，我们需要从两张数据表里，得出每个行业的股票波动率平均值。第一个数据表保存了股票和行业的对应关系，有两列，第一列为股票名，第二列为每只股票对应的行业。第二张表保存了各个股票在各个交易日的收盘价和前收盘价，有四列，第一列是股票名，第二列为交易日，第三列和第四列分别为股票在这个交易日的前收盘价和收盘价。