Bug fixed in the progress bar display.
[finddup.git] / finddup.1
index 840c977..faaef4d 100644 (file)
--- a/finddup.1
+++ b/finddup.1
@@ -61,19 +61,35 @@ show the real path of the files
 .TP
 \fB-i\fR, \fB--same-inodes-are-different\fR
 files with same inode are considered as different
+.TP
+\fB-m\fR, \fB--md5\fR
+use MD5 hashing (if compiled with the option)
 
 .SH "BUGS"
 
 None known, probably many. Valgrind does not complain though.
 
+The MD5 hashing is not satisfactory. It is computed for a file only if
+the said file has to be read fully for a comparison (i.e. two files
+match and we have to read them completely).
+
+Hence, in practice lot of partial MD5s are computed, which costs a lot
+of cpu and is useless. This often hurts more than it helps. The only
+case when it should really be useful is when you have plenty of
+different files of same size, and lot of similar ones, which does not
+happen often.
+
+Forcing the files to be read fully so that the MD5s are properly
+computed is not okay neither, since it would fully read certain files,
+even if we will never need their MD5s.
+
+Anyway, it has to be compiled in with 'make WITH_MD5=yes', and even in
+that case it will be off by default
+
 .SH "WISH LIST"
 
 The format of the output should definitely be improved. Not clear how.
 
-The comparison algorithm could maybe be improved with some MD5 kind of
-signature. However, most of the time is taken by comparison for
-matching files, which are requires even when using a hash.
-
 Their could be some fancy option to link two instances of the command
 running on different machines to reduce network disk accesses. Again,
 this may not help much, for the reason given above.