RSYNC 不会比较文件内容 - 阅微堂

作者: 张志强 , 2019-01-22 , 共 1131 字

在同步一个超大文件时，发现 rsync 并没有按照预期的同步一个文件。而使用md5sum检验文件内容时，原始文件和目标文件的内容并不一样。

1、`rsync`的默认算法

在man rsync的文档里可以看到：

Rsync finds files that need to be transferred using a "quick check" algorithm (by default) that looks for files that have changed in size or in last-modified time.

Any changes in the other preserved attributes (as requested by options) are made on the destination file directly when the quick check indicates that the file』s data does not need to be updated.

即默认rsync只会比较文件大小和最后修改时间，只要这两者一样，rsync即认为文件相同。其它属性（包括文件内容）的不同，并不会让rsync同步该文件！

2、用参数控制`rsync`的比较算法

通过设置合适的参数，可以控制 rsync 的比较算法。事实上， rsync 有三步来比较文件：

比较文件大小。
比较文件最后修改日期。
比较文件内容，通过checksum（比如md5sum）。

我们可以用参数来控制 rsync 执行上面的哪些步骤：

默认的算法只执行 1 和 2。
参数--size-only只检查 1 ，亦即只要文件一样大，即使修改日期不一样，就认为文件一样，更不会去检查文件内容。
参数--ignore-times是忽略所有检查，直接认为文件都不一样，然后总是复制文件。
参数--checksum是在 1 的基础上执行 3 ，比较文件内容。如果文件大小不一样，可以确保内容不一样。如果文件大小一样，那么直接比较文件内容，不会执行 2 中的比较修改日期。该方法最安全，但需要读取两边的文件内容，某些情况下要慢很多（尤其是最后比较出来的文件内容一样的情况）。

详细的算法可参考 TR-CS-96-05 The rsync algorithm。

该使用什么参数：

大部分情况下用默认参数即可。
如果会出现文件大小和修改时间一样，但内容不一样的情况，此时需要用--checksum。
确定文件内容大概率不一样需要同步，可以直接使用--ignore-times，这比--checksum省去了检查文件内容的时间。

Q. E. D.

类似文章：

忽略 rsync 的文件属性同步错误相似度: 0.342

2023-10-23, 编程 » Linux, rsync

在一个rsync命令同步文件夹时：

复制计划任务 crontab 到其它服务器相似度: 0.103

2021-09-03, IT » cronjob

第一步，在当前服务器导出计划任务：

查找不包含给定字符串的文件相似度: 0.103

2022-12-13, IT » Linux, grep

最简单的方式是使用grep的-L参数，查找当前目录下不包含指定字符串的文件：

命令行的速记工具 cheat 相似度: 0.092

2021-06-01, IT » Linux, cheatsheets

cheat 提供命令行的速记记录，在命令行下，随时增加笔记随时查看，用的时间越长越强大！

Linux 常见命令常用用法相似度: 0.082

2021-05-15, IT » gnu, Linux

简单列一些 Linux 自带的 GNU 命令的常用用法，可以当做 cheatsheet 使用。

Ubuntu 账号密码过期后果很严重相似度: 0.077

2020-09-23, IT » Ubuntu

之前一直没有意识到，等到发生了才后悔莫及。Ubuntu 账号密码过期后果很严重：

在 C++ 中实时获取程序占用的内存量相似度: 0.060

2019-02-09, 编程 » C++, 内存检查, Linux, 代码片段

获取程序占用的内存量，是一个诡异的需求。但程序写多了，有时候还真需要，尤其是代码运行出现问题的时候。

命令行最大长度以及如何批量删除大量匹配文件？相似度: 0.060

2022-03-04, IT » Linux

假设一个目录下有很多很多".bak"文件，如果我们直接用rm命令删除：

Matlab 的传值调用的效率问题相似度: 0.052

2010-09-21, 编程 » Matlab, 编程和算法效率

本文结论：不要过度担心 Matlab 的传值调用的效率问题。

前一篇：设置 Bash on Windows 的 SSHD 服务并开机启动

2019-01-18, IT » WSL, SSH

世界上最好的 Linux 发行版 Bash on Windows 已经升级到了 Ubuntu 18.04 ，并且提供越来越多的功能。下面是笔记，记录如何启动子系统的 SSHD 服务并设置开机自动启动，也顺带开机自动启动了子系统。

后一篇：囚犯测试毒药

2019-02-03, 数学 » 头脑风暴, 数学游戏

这是一个老问题，最近有老同学问起，就在这里提一下吧。