Limpieza de Metadatos en Drupal8, WordPress, …

En general si usamos mat (apt-get install mat) y algunas otras herramientas vamos a poder automatizar la comprobación de los archivos que tenemos subidos en un wordpress y los archivos que tenemos subidos en un drupal con la finalidad de ver cuantos de ellos contienen metadatos que no han sido borrados.

Si quieres que funcione bien con pdf mira esta entrada: https://mierda.tv/2017/07/24/mat-0-6-1-limpiando-metadatos-de-pdf-y-que-funcione-con-mat/

Es poco probable que la gente se ponga cada vez que va a subir un archivo a limpiar los metadatos y es por eso que es bueno que en el lado del servidor dejemos un cron que haga cosas como las que vamos a explicar a continuación.

¿Qué son los metadatos?

Por ejemplo un jpg realizado desde una cámara digital o un smartphone llevará algo más que el contenido de la foto. Suelen incluirse en los archivos una serie de cabeceras que incorporan datos como por ejemplo el modelo de la cámara, la coordenada gps, … o en el caso de software de edición como gimp o photoshop pues pueden incorporar author, el nombre del software de retoque que se ha usado,

Los archivos PDF por ejemplo suelen llevar metadatos con campos como Author, Creator, … que suelen desvelar muchas veces el nombre de usuario de las maquinas en las que se generan. Se pueden obtener muchas otras datos de las impresoras usadas.

Pongamos un chorro de metadatos de ejemplo.

Un ejemplo en el que vemos que un PDF incorpora una miniatura de imagen en su interior y en formato jpg:

PDF Version : 1.6
Creator Tool : Adobe Illustrator CS2
Thumbnail Width : 244
Thumbnail Height : 256
Thumbnail Format : JPEG
Thumbnail Image : (Binary data 25874 bytes)
Producer : Adobe PDF library 7.77

 

Antiguamente e incluso en otros formatos como ps se ha usado lo de que el thumbnail esté en el interior del pdf como metadato. Lo interesante de esto es que es posible tener una preview del contenido sin que cueste procesarlo. En la actualidad con los equipos que tiene el personal es posible realizarlo aunque sigue siendo un gasto de ciclos de cpu innecesario.
La cosa es que no es interesante dejar el thumbnail algunas veces.

Otro ejemplo de pdf:

PDF Version : 1.4
Producer : Acrobat Distiller 7.0.5 (Windows)
Creator : Benito camelas Gracia
Company : Ayto. de Noseque sitio

 

Aparte del nombre de un empleado y la empresa podremos obtener de manera indirecta el sistema operativo que utilizan.

 

Comprobar automáticamente

 

Un ejemplo usando mat:

find /home/user/directorio/sites/default/files/ -name "*.jpg" -exec mat -c {} \; > /home/fanta/jpg-metadatos.txt

 

Cambiamos jpg por png o docx por ejemplo y tendría que comprobar igualmente. Si en vez de volcarlo dejamos que salga por pantalla mejor que mejor.

mat -c comprobará. con mat -d mostraremos los metadatos sin borrarlos.

Mat si no le añadimos un argumento se cepillará los metadatos. Por eso es importante primero comprobar cuantos de estos tenemos para poder justificar la limpieza.

 

Generar una pequeña tabla para añadir a un informe

 

 

Siempre que podamos es bueno generarnos una tabla para tener presente cuantos metadatos solemos no limpiar de los archivos que se suben a un wordpres, drupal, etc…

 

Programarlo en cron

Eso es lo más interesante al final de cuentas. En Cron lo podemos añadir y disfrutar mientras todas las noches se borran los metadatos.

 

Resumen

Mat no puede con todo tipo de archivos pero si con unos cuantos. Con Exiftools vamos a poder trabajar otros y al final el resultado es que lo automatizaremos todo para que por la noche se limpien un poco.

De esta forma limpiamos un poco y en cierto modo reducimos algo de tamaño en los archivos (muy poco pero en unos cuantos cientos de pdfs empiezan a ser ya megas lo que vas ganando de espacio).

 

 

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *