Cosmetics.
authorFrancois Fleuret <francois@fleuret.org>
Wed, 17 Mar 2010 17:51:52 +0000 (18:51 +0100)
committerFrancois Fleuret <francois@fleuret.org>
Wed, 17 Mar 2010 17:51:52 +0000 (18:51 +0100)
finddup.1

index 691e910..840c977 100644 (file)
--- a/finddup.1
+++ b/finddup.1
@@ -15,17 +15,19 @@ finddup \- Find files common to two directories (or not)
 .SH "DESCRIPTION"
 
 With a single directory argument, \fBfinddup\fP prints the duplicated
 .SH "DESCRIPTION"
 
 With a single directory argument, \fBfinddup\fP prints the duplicated
-files found in it. With two directories, it prints either the files
-common to both DIR1 and DIR2, or with the `not:' prefix, the ones
-present in DIR1 and not in DIR2. The and: prefix is assumed by default
-and necessary only if you have a directory name starting with `not:'.
+files found in it.
+
+With two directories, it prints either the files common to both DIR1
+and DIR2 or, with the `not:' prefix, the ones present in DIR1 and not
+in DIR2. The and: prefix is assumed by default and necessary only if
+you have a directory name starting with `not:'.
 
 This command compares files by first comparing their sizes, hence goes
 reasonably fast.
 
 
 This command compares files by first comparing their sizes, hence goes
 reasonably fast.
 
-When looking for identical files, \fBfinddup\fP associates by default
-a group ID to every content, and prints it along the file names. Use
-the \fB-g\fP to switch it off.
+When looking for identical files, \fBfinddup\fP associates a group ID
+to every content, and prints it along the file names. Use the \fB-g\fP
+to switch it off.
 
 Note that
 .B finddup DIR
 
 Note that
 .B finddup DIR
@@ -68,11 +70,13 @@ None known, probably many. Valgrind does not complain though.
 
 The format of the output should definitely be improved. Not clear how.
 
 
 The format of the output should definitely be improved. Not clear how.
 
-The comparison algorithm could definitely use some MD5 kind of
-signature. However, I doubt it would improve speed much.
+The comparison algorithm could maybe be improved with some MD5 kind of
+signature. However, most of the time is taken by comparison for
+matching files, which are requires even when using a hash.
 
 
-Their should be some fancy option to link two instances of the command
-running on different machines to reduce network disk accesses.
+Their could be some fancy option to link two instances of the command
+running on different machines to reduce network disk accesses. Again,
+this may not help much, for the reason given above.
 
 .SH "EXAMPLES"
 
 
 .SH "EXAMPLES"
 
@@ -80,7 +84,8 @@ running on different machines to reduce network disk accesses.
 
 .fi
 List duplicated files in directory ./blah/, show a progress bar,
 
 .fi
 List duplicated files in directory ./blah/, show a progress bar,
-ignore empty files and files and directories starting with a dot.
+ignore empty files, and ignore files and directories starting with a
+dot.
 
 .P
 .B finddup sources not:/mnt/backup
 
 .P
 .B finddup sources not:/mnt/backup
@@ -90,11 +95,12 @@ List all files found in \fB./sources/\fR which do not have
 content-matching equivalent in \fB/mnt/backup/\fR.
 
 .P
 content-matching equivalent in \fB/mnt/backup/\fR.
 
 .P
-.B finddup tralala cuicui
+.B finddup -g tralala cuicui
 
 .fi
 List groups of files with same content which exist both in
 
 .fi
 List groups of files with same content which exist both in
-\fB./tralala/\fR and \fB./cuicui/\fR.
+\fB./tralala/\fR and \fB./cuicui/\fR. Do not show group IDs, instead
+write an empty lines between groups of files of same content.
 
 .SH "AUTHOR"
 
 
 .SH "AUTHOR"