Added a sentence to say that it first compares sizes.
[finddup.git] / finddup.1
index 54034b6..4ba1807 100644 (file)
--- a/finddup.1
+++ b/finddup.1
@@ -19,6 +19,14 @@ files found in it. With two directories, it prints either the files
 common to both DIR1 and DIR2, or with the `not:' prefix, the ones
 present in DIR1 and not in DIR2.
 
+It compares files by first comparing their sizes, hence goes
+reasonably fast.
+
+When looking for identical files,
+.B finddup
+by default associates a group ID to every content, and prints it along
+the file names.
+
 .SH "OPTIONS"
 .TP
 \fB-h\fR
@@ -31,15 +39,57 @@ ignore files and directories starting with a dot
 do not show which files from DIR2 corresponds to files from DIR1
 .TP
 \fB-g\fR
-show the file group IDs (one group for each content)
+do not show the file group IDs
+.TP
+\fB-p\fR
+show progress information in stderr
 .TP
 \fB-r\fR
-shows the real path of the files
+show the real path of the files
 
 .SH "BUGS"
 
-Every pair of different files with same content are listed, which
-results in K^2 printed lines when K files are similar.
+None known, probably many. Valgrind does not complain though.
+
+.SH "WISH LIST"
+
+The format of the output should definitely be improved. Not clear how.
+
+The comparison algorithm could definitely use some MD5 kind of
+signature. I doubt it would really speed up a lot.
+
+Their should be some fancy option to run two instances of the command
+on different machines so that comparison could be done without disk
+access where the disk are physically.
+
+.SH "EXAMPLES"
+
+.B finddup -cg blah something
+
+.fi
+List files found in
+.B ./blah/
+which have a matching file with same content in
+.B ./something/
+without the group IDs
+
+.P
+.B finddup sources not:/mnt/backup
+
+.fi
+List all files found in
+.B ./sources/
+which do not have content-matching equivalent in
+.B /mnt/backup
+
+.P
+.B finddup tralala cuicui
+
+.fi
+List groups of files with same content which exist both in
+.B ./tralala/
+and
+.B ./cuicui/
 
 .SH "AUTHOR"