Rechercher les doubons d’images de facon rapide

Avant d’utiliser Digikam, il est plus facile de supprimer les images identiques via un simple script :

find Images/  -type f -exec md5sum '{}' ';' | sort | uniq --all-repeated=separate -w 15 > dupes.txt

awk '/^$/{getline;print;}' dupes.txt | awk '{print $2 " " $3 " " $4}' | xargs gvfs-trash {}

Il est aussi possible d’utiliser :

fdupes -rSm Images

L’option -d permet la suppression.

Ensuite on peut utiliser Digikam, qui lui permet de reconnaitre des images identiques mais n’ayant pas la même taille.

Digikam : sqlite3 lecture des tables afin de supprimer les images similaires

J’ai fait une petite lecture des tables de Dikikam afin de faire un export des images similaires avec un taux à 1.0 :

$ sqlite3 
SQLite version 3.22.0 2018-01-22 18:45:57
Enter ".help" for usage hints.
Connected to a transient in-memory database.
Use ".open FILENAME" to reopen on a persistent database.
sqlite> .open similarity.db
sqlite> .tables
ImageHaarMatrix     ImageSimilarity     SimilaritySettings
sqlite> .schema ImageSimilarity
CREATE TABLE ImageSimilarity
                    (imageid1 INTEGER NOT NULL,
                    imageid2 INTEGER NOT NULL,
                    algorithm INTEGER,
                    value DOUBLE,
                    CONSTRAINT Similar UNIQUE(imageid1, imageid2, algorithm));
sqlite> .schema ImageHaarMatrix
CREATE TABLE ImageHaarMatrix
                    (imageid INTEGER PRIMARY KEY,
                    modificationDate DATETIME,
                    uniqueHash TEXT,
                    matrix BLOB);
CREATE TRIGGER delete_similarities DELETE ON ImageHaarMatrix
                    BEGIN
                        DELETE FROM ImageSimilarity
                            WHERE ( ImageSimilarity.imageid1=OLD.imageid OR ImageSimilarity.imageid2=OLD.imageid )
                              AND ( ImageSimilarity.algorithm=1 );
                    END;
sqlite> .schema SimilaritySettings
CREATE TABLE SimilaritySettings
                    (keyword TEXT NOT NULL UNIQUE,
                    value TEXT);
sqlite> .open digikam4.db
sqlite> .tables
AlbumRoots          ImageHistory        ImageRelations      Settings          
Albums              ImageInformation    ImageTagProperties  TagProperties     
DownloadHistory     ImageMetadata       ImageTags           Tags              
ImageComments       ImagePositions      Images              TagsTree          
ImageCopyright      ImageProperties     Searches            VideoMetadata     
sqlite> .schema Images
CREATE TABLE Images
                    (id INTEGER PRIMARY KEY,
                    album INTEGER,
                    name TEXT NOT NULL,
                    status INTEGER NOT NULL,
                    category INTEGER NOT NULL,
                    modificationDate DATETIME,
                    fileSize INTEGER,
                    uniqueHash TEXT,
                    manualOrder INTEGER,
                    UNIQUE (album, name));
CREATE INDEX dir_index  ON Images (album);
CREATE INDEX hash_index ON Images (uniqueHash);
CREATE INDEX image_name_index ON Images (name);
CREATE TRIGGER delete_image DELETE ON Images
                    BEGIN
                        DELETE FROM ImageTags          WHERE imageid=OLD.id;
                        DELETE From ImageInformation   WHERE imageid=OLD.id;
                        DELETE From ImageMetadata      WHERE imageid=OLD.id;
                        DELETE From VideoMetadata      WHERE imageid=OLD.id;
                        DELETE From ImagePositions     WHERE imageid=OLD.id;
                        DELETE From ImageComments      WHERE imageid=OLD.id;
                        DELETE From ImageCopyright     WHERE imageid=OLD.id;
                        DELETE From ImageProperties    WHERE imageid=OLD.id;
                        DELETE From ImageHistory       WHERE imageid=OLD.id;
                        DELETE FROM ImageRelations     WHERE subject=OLD.id OR object=OLD.id;
                        DELETE FROM ImageTagProperties WHERE imageid=OLD.id;
                        UPDATE Albums SET icon=null    WHERE icon=OLD.id;
                        UPDATE Tags SET icon=null      WHERE icon=OLD.id;
                    END;
sqlite>  .schema ImageInformation
CREATE TABLE ImageInformation
                    (imageid INTEGER PRIMARY KEY,
                    rating INTEGER,
                    creationDate DATETIME,
                    digitizationDate DATETIME,
                    orientation INTEGER,
                    width INTEGER,
                    height INTEGER,
                    format TEXT,
                    colorDepth INTEGER,
                    colorModel INTEGER);
CREATE INDEX creationdate_index ON ImageInformation (creationDate);
sqlite> .schema Albums
CREATE TABLE Albums
                    (id INTEGER PRIMARY KEY,
                    albumRoot INTEGER NOT NULL,
                    relativePath TEXT NOT NULL,
                    date DATE,
                    caption TEXT,
                    collection TEXT,
                    icon INTEGER,
                    UNIQUE(albumRoot, relativePath));
CREATE TRIGGER delete_album DELETE ON Albums
                BEGIN
                    DELETE FROM Images
                    WHERE Images.album = OLD.id;
                END;
sqlite> attach 'digikam4.db' as db1;
sqlite> attach 'similarity.db' as db2;
sqlite> select count(*) from db1.Images as A, db2.ImageSimilarity as B, db1.Albums as C where B.imageid2 = A.id and B.algorithm = 1.0 and A.album = C.id;
36796
sqlite> select relativePath || '/' || name from db1.Images as A, db2.ImageSimilarity as B, db1.Albums as C where B.imageid2 = A.id and B.algorithm = 1.0 and A.album = C.id group by relativePath;
...
sqlite> .output file_duplicate.txt
sqlite> select '.' || relativePath || '/' || name from db1.Images as A, db2.ImageSimilarity as B, db1.Albums as C where B.imageid2 = A.id and B.algorithm = 1.0 and A.album = C.id group by relativePath;

sqlite> select count(*) from db1.Images as A, db2.ImageSimilarity as B, db1.Albums as C where B.imageid2 = A.id and A.album = C.id and relativePath = '/2019/11/28';
654
sqlite> select count(*) from db1.Images as A, db2.ImageSimilarity as B, db1.Albums as C where B.imageid1 = A.id and A.album = C.id and relativePath = '/2019/11/28';
2545
sqlite> .output file_duplicate_2.txt
sqlite> select '.' || relativePath || '/' || name from db1.Images as A, db2.ImageSimilarity as B, db1.Albums as C where B.imageid2 = A.id and B.algorithm > 0.96 and A.album = C.id;
sqlite> .output file_duplicate_3.txt
sqlite> select '.' || relativePath || '/' || name from db1.Images as A, db2.ImageSimilarity as B, db1.Albums as C where B.imageid1 = A.id and B.algorithm > 0.96 and A.album = C.id;
sqlite> .quit

Ensuite pour la suppression j’ai fait :

$ cat file_duplicate_3.txt |  sed 's/ /\\ /g' > file_duplicate_3_2.txt
...
$ xargs rm -r  <file_duplicate_3_2.txt
...
$ wc -l file_duplicate_3_2.txt
37060 file_duplicate_3_2.txt

Ensuite je fini par :

$ time exiftool -v -r "-filemodifydate<datetimeoriginal" "-filecreateddate<datetimeoriginal" . 
$ sortphotos -r . . --sort %Y/%m/%d 

Et je relance Digikam pour lui refaire faire une analyse complète.

Quelle usine, mais cela fonctionne.

Ubuntu : Compression et dimenssion des photos

Sous Mac OS j’avais fait plusieurs articles …Mais sous Ubuntu c’est plus simple, voici les commandes que j’utilise :

$ du -sh Images/
$ find Images/ -iname '*.jpg' -exec mogrify \{} -verbose -resize 1920x1080\> \{} \;
$ 

Je considère que la résolution max est 1920×1080 (on peut aussi prendre 2048×1536). Il est vivement conseillé d’avoir un backup avant de lancer les commandes. Et je vous conseille cette lecture  : https://fr.wikipedia.org/wiki/Impression_photo_num%C3%A9rique

A noter aussi que je déplace toutes les vidéos avant de lancer la commandes :

$ find Images/ -iname *.mp4  -exec mv "{}" ./Vidéos/. \;
$ find Images/ -iname *.mov  -exec mv "{}" ./Vidéos/. \;
$ find Images/ -iname *.avi  -exec mv "{}" ./Vidéos/. \;
$ find Images/ -iname *.mpg  -exec mv "{}" ./Vidéos/. \;
$ find Images/ -iname *.3gp  -exec mv "{}" ./Vidéos/. \;
$ find Images/ -iname *.3g2  -exec mv "{}" ./Vidéos/. \;

A noter aussi que je conseille vivement cette commande afin de voir si le répertoire contient que des images :

$ find Images/ -type f | sed -n 's/..*\.//p' | sort | uniq -c
     36 bmp
      5 db
     10 gif
      2 GIF
    466 jpeg
  61698 jpg
      1 Jpg
  47063 JPG
     47 png
    118 PNG

A noter aussi que pour classer mes vidéos, j’ai le même process que pour mes photos :

/Vidéos$ fdupes -rdN .
/Vidéos$ time exiftool -v -r "-filemodifydate<datetimeoriginal" "-filecreateddate<datetimeoriginal" *.* 
/Vidéos$ sortphotos -r . . --sort %Y/%m/%d
/Vidéos$  

Maintenant je vais utiliser Digikam pour me faire une base de donnée d’images identique (mais avec une compression différente) … et utiliser sqllite3 pour exploiter cette base.

$ sudo apt-get install sqlite3 libsqlite3-dev
$ sqlite3 similarity.db 
SQLite version 3.22.0 2018-01-22 18:45:57
Enter ".help" for usage hints.
sqlite> .table
ImageHaarMatrix     ImageSimilarity     SimilaritySettings
sqlite> .quit

A suivre

Changer la date de modification et de création de photo avec exiftool

Suite à la compression via Digikam, toutes les nouvelles images compressées ont eu une mauvaise date. Ce qui donne sur le timeline ceci :

Le pic de 2019, n’a pas lieu d’être … j’ai donc essayer de lancer une ligne de commande pour changer la date de modification et de création des images.

$ time exiftool -v -r "-filemodifydate<datetimeoriginal" "-filecreateddate<datetimeoriginal" Images/
...
 3214 directories scanned
119812 image files updated
15783 image files unchanged
  203 files weren't updated due to errors

real	22m59,695s
user	22m0,499s
sys	0m21,394s

Ensuite j’ai refait un scan avec Digikam :
Je n’ai pas remarqué de changement sur la courbe … misère.

J’ai donc décidé de d’abord faire un classement des photos par répertoire, et ensuite j’ai relancer Digikam :

$ sudo pip install sortphotos
$ mkdir ImagesSorts
$ sortphotos -r ./Images/ ./ImagesSorts/ --sort %Y/%m/%d
$ mv ./Images/ /datadisk/.
$ mv ./ImagesSorts/ ./Images/

Puis j’ai chercher les doublons via un script, cela m’a permis de trouver 26 Go de doublons …

#!/bin/bash

# Save default separator definitions
oIFS=$IFS
# define new line as a separator, filenames can have spaces
IFS=$'\n';

# For each file (f) listed as duplicated by fdupes, recursively
  for f in `fdupes -r -f Images/`
  do
    # Log the files I'm moving
    echo "Moving $f to folder Duplicates" >> ~/log.txt
    # Move the duplicated file, keeping the original in the original folder
    mv $f /datadisk/Images/Duplicates/.
  done

# restore default separator definitions
IFS=$oIFS

Ensuite j’ai essayé une optimisation …:

$ du -sh Images/
206G	Images/

$ find Images/ -name "*.jpg" -print0 | xargs -0 jpegoptim -m 80
....
$ du -sh Images/
187G	Images/

Bref, je galère.

J’ai aussi déplacer les videos …