Hexdump (registro hexadecimal) es una utilidad que muestra el contenido de los archivos binarios en hexadecimal, decimal, octal o ASCII. Es una utilidad para inspección y se puede usar para recuperación de datos, ingeniería inversa y programación.
Aprendiendo lo básico
Hexdump proporciona información con muy poco esfuerzo de tu parte y, dependiendo del tamaño del archivo que estés viendo, puede haber mucha información. Para los fines de este artículo, crearemos un archivo PNG 1×1. Puedes hacerlo con una aplicación de gráficos como GIMP o Mtpaint, o puedes crearlo en una terminal con ImageMagick.
Aquí hay un comando para generar un PNG de 1×1 píxeles con ImageMagick:
1 |
$ convert -size 1x1 canvas:black pixel.png |
Puedes confirmar que este archivo es un PNG con el comando file:
1 2 |
$ file pixel.png pixel.png: PNG image data, 1 x 1, 1-bit grayscale, non-interlaced |
Quizás te preguntes cómo el comando de file puede determinar qué tipo de archivo es. Casualmente, eso es lo que revelará hexdump. Por ahora, se puede ver el gráfico de un píxel en el visor de imágenes de tu elección (que se parece a esto: .), O se puede ver lo que hay dentro del archivo con hexdump:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 |
$ hexdump pixel.png 0000000 5089 474e 0a0d 0a1a 0000 0d00 4849 5244 0000010 0000 0100 0000 0100 0001 0000 3700 f96e 0000020 0024 0000 6704 4d41 0041 b100 0b8f 61fc 0000030 0005 0000 6320 5248 004d 7a00 0026 8000 0000040 0084 fa00 0000 8000 00e8 7500 0030 ea00 0000050 0060 3a00 0098 1700 9c70 51ba 003c 0000 0000060 6202 474b 0044 dd01 138a 00a4 0000 7407 0000070 4d49 0745 07e3 081a 3539 a487 46b0 0000 0000080 0a00 4449 5441 d708 6063 0000 0200 0100 0000090 21e2 33bc 0000 2500 4574 7458 6164 6574 00000a0 633a 6572 7461 0065 3032 3931 302d 2d37 00000b0 3532 3254 3a30 3735 353a 2b33 3231 303a 00000c0 ac30 5dcd 00c1 0000 7425 5845 6474 7461 00000d0 3a65 6f6d 6964 7966 3200 3130 2d39 3730 00000e0 322d 5435 3032 353a 3a37 3335 312b 3a32 00000f0 3030 90dd 7de5 0000 0000 4549 444e 42ae 0000100 8260 0000102 |
Lo que estás viendo es el contenido del archivo PNG de muestra a través de un lente que quizás nunca hayas usado antes. Son exactamente los mismos datos que ves en un visor de imágenes, codificados de una manera que probablemente no te resulte familiar.
Extraer “strings” familiares
El hecho de que el volcado de datos predeterminado no tenga sentido, eso no significa que esté desprovisto de información valiosa. Puedes traducir esta información o al menos las partes que realmente se traducen, a un conjunto de caracteres más familiar con la opción –canonical:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 |
$ hexdump --canonical foo.png 00000000 89 50 4e 47 0d 0a 1a 0a 00 00 00 0d 49 48 44 52 |.PNG........IHDR| 00000010 00 00 00 01 00 00 00 01 01 00 00 00 00 37 6e f9 |.............7n.| 00000020 24 00 00 00 04 67 41 4d 41 00 00 b1 8f 0b fc 61 |$....gAMA......a| 00000030 05 00 00 00 20 63 48 52 4d 00 00 7a 26 00 00 80 |.... cHRM..z&...| 00000040 84 00 00 fa 00 00 00 80 e8 00 00 75 30 00 00 ea |...........u0...| 00000050 60 00 00 3a 98 00 00 17 70 9c ba 51 3c 00 00 00 |`..:....p..Q<...| 00000060 02 62 4b 47 44 00 01 dd 8a 13 a4 00 00 00 07 74 |.bKGD..........t| 00000070 49 4d 45 07 e3 07 1a 08 39 35 87 a4 b0 46 00 00 |IME.....95...F..| 00000080 00 0a 49 44 41 54 08 d7 63 60 00 00 00 02 00 01 |..IDAT..c`......| 00000090 e2 21 bc 33 00 00 00 25 74 45 58 74 64 61 74 65 |.!.3...%tEXtdate| 000000a0 3a 63 72 65 61 74 65 00 32 30 31 39 2d 30 37 2d |:create.2019-07-| 000000b0 32 35 54 32 30 3a 35 37 3a 35 33 2b 31 32 3a 30 |25T20:57:53+12:0| 000000c0 30 ac cd 5d c1 00 00 00 25 74 45 58 74 64 61 74 |0..]....%tEXtdat| 000000d0 65 3a 6d 6f 64 69 66 79 00 32 30 31 39 2d 30 37 |e:modify.2019-07| 000000e0 2d 32 35 54 32 30 3a 35 37 3a 35 33 2b 31 32 3a |-25T20:57:53+12:| 000000f0 30 30 dd 90 e5 7d 00 00 00 00 49 45 4e 44 ae 42 |00...}....IEND.B| 00000100 60 82 |`.| 00000102 |
En la columna derecha, verás los mismos datos que están a la izquierda, pero presentados como ASCII. Si observas detenidamente, puedes seleccionar información útil. Por ejemplo, el formato del archivo (PNG) y, hacia abajo, la fecha y la hora en que se creó y modificó por última vez.
Los puntos representan símbolos que no están presentes en el conjunto de caracteres ASCII. Esto es de esperarse porque los formatos binarios no están restringidos a letras y números mundanos.
El comando file sabe de los primeros 8 bytes qué son de este archivo. La especificación libpng alerta a los programadores qué deben buscar. Puedes ver que dentro de los primeros 8 bytes de este archivo de imagen, específicamente, está el string (caedena) PNG. Ese hecho es significativo porque revela cómo el comando file sabe sobre qué tipo de archivo informar.
También puedes controlar la cantidad de bytes que muestra hexdump, lo cual es útil con archivos de más de un píxel:
1 2 3 |
$ hexdump --length 8 pixel.png 0000000 5089 474e 0a0d 0a1a 0000008 |
No tienes que limitar hexdump a PNG o archivos gráficos. Puedes ejecutar hexdump con binarios que ejecutas diariamente, como ls, rsync o cualquier formato binario que desees inspeccionar.
Implementando cat con hexdump
Si lees la especificación PNG, puedes notar que los datos en los primeros 8 bytes se ven diferentes de lo que proporciona hexdump. En realidad, son los mismos datos, pero se presentan usando una conversión diferente. Entonces, la salida de hexdump es verdadera, pero no siempre es directamente útil para ti, dependiendo de lo que estés buscando. Por esa razón, hexdump tiene opciones para formatear y convertir los datos sin procesar que extrae.
Las opciones de conversión pueden ser complejas, por lo que es útil practicar primero con algo trivial. Aquí hay una introducción suave al formateo de la información de hexdump reimplementando el comando cat.
Primero, ejecuta hexdump en un archivo de texto para ver los datos sin procesar. Por lo general, puedes encontrar una copia de la licencia GNU General Public License (GPL) en algún lugar de tu disco duro. También puedes usar cualquier archivo de texto que tengas a mano. Tu salida puede diferir, pero aquí te mostramos cómo encontrar una copia de la GPL en tu sistema (o al menos parte de ella):
1 2 |
$ find /usr/share/doc/ -type f -name "COPYING" | tail -1 /usr/share/doc/libblkid-devel/COPYING |
Debes ejecutar hexdump ahora:
1 2 3 4 5 6 7 8 9 10 11 |
$ hexdump /usr/share/doc/libblkid-devel/COPYING 0000000 6854 7369 6c20 6269 6172 7972 6920 2073 0000010 7266 6565 7320 666f 7774 7261 3b65 7920 0000020 756f 6320 6e61 7220 6465 7369 7274 6269 0000030 7475 2065 7469 6120 646e 6f2f 0a72 6f6d 0000040 6964 7966 6920 2074 6e75 6564 2072 6874 0000050 2065 6574 6d72 2073 666f 7420 6568 4720 0000060 554e 4c20 7365 6573 2072 6547 656e 6172 0000070 206c 7550 6c62 6369 4c0a 6369 6e65 6573 0000080 6120 2073 7570 6c62 7369 6568 2064 7962 [...] |
Si la salida del archivo es muy larga, debes usar –length (o -n para abreviar) para que sea manejable por ti mismo.
Los datos sin procesar probablemente no significan nada para ti, pero ya sabes cómo convertirlos a ASCII:
1 2 3 4 5 6 7 8 9 10 |
hexdump --canonical /usr/share/doc/libblkid-devel/COPYING 00000000 54 68 69 73 20 6c 69 62 72 61 72 79 20 69 73 20 |This library is | 00000010 66 72 65 65 20 73 6f 66 74 77 61 72 65 3b 20 79 |free software; y| 00000020 6f 75 20 63 61 6e 20 72 65 64 69 73 74 72 69 62 |ou can redistrib| 00000030 75 74 65 20 69 74 20 61 6e 64 2f 6f 72 0a 6d 6f |ute it and/or.mo| 00000040 64 69 66 79 20 69 74 20 75 6e 64 65 72 20 74 68 |dify it under th| 00000050 65 20 74 65 72 6d 73 20 6f 66 20 74 68 65 20 47 |e terms of the G| 00000060 4e 55 20 4c 65 73 73 65 72 20 47 65 6e 65 72 61 |NU Lesser Genera| 00000070 6c 20 50 75 62 6c 69 63 0a 4c 69 63 65 6e 73 65 |l Public.License| [...] |
Resultado
Esa información es útil pero difícil de manejar y difícil de leer. Para formatear la salida de hexdump más allá de sus propias opciones, utiliza –format (o -e) junto con códigos de formateo especializados. La abreviatura utilizada para formatear es similar a la que usa el comando printf. Por lo tanto, si estás familiarizado con las sentencias printf, puedes encontrar que el formato hexdump es más fácil de aprender.
En hexdump, la secuencia de caracteres % _p le dice a hexdump que imprima un carácter en el conjunto de caracteres predeterminado de tu sistema. Toda la notación de formato para la opción –format debe estar entre comillas simples:
1 2 3 4 5 6 7 |
$ hexdump -e'"%_p"' /usr/share/doc/libblkid-devel/COPYING This library is fre* software; you can redistribute it and/or.modify it under the terms of the GNU Les* er General Public.License as published by the Fre* Software Foundation; either.version 2.1 of the License, or (at your option) any later.version..* The complete text of the license is available in the..* /Documentation/licenses/COPYING.LGPL-2.1-or-later file.. |
Esta información es mejor, pero sigue siendo inconveniente para leer. Tradicionalmente, los archivos de texto UNIX asumen un ancho de salida de 80 caracteres (porque hace mucho, los monitores solían ajustarse en solo 80 caracteres).
Si bien esta información no está vinculada por el formato, puedes forzar a hexdump para procesar 80 bytes a la vez con opciones adicionales. Específicamente, dividiendo 80 entre uno, puedes decirle a hexdump que trate 80 bytes como una unidad:
1 2 3 4 5 6 |
$ hexdump -e'80/1 "%_p"' /usr/share/doc/libblkid-devel/COPYING This library is free software; you can redistribute it and/or.modify it under the terms of the GNU Lesser General Public.License as published by the Free Software Foundation; either.version 2.1 of the License, or (at your option) any later.version...The complete text of the license is available in the.../Documentation/licenses/COPYING.LGPL-2.1-or-later file.. |
Ahora el archivo se procesa en fragmentos de 80 bytes, pero ha perdido la sensación de nuevas líneas. Puedes agregar el tuyo propio con el carácter \n , que en UNIX representa una nueva línea:
1 2 3 4 5 6 |
$ hexdump -e'80/1 "%_p""\n"' This library is free software; you can redistribute it and/or.modify it under th e terms of the GNU Lesser General Public.License as published by the Free Softwa re Foundation; either.version 2.1 of the License, or (at your option) any later. version...The complete text of the license is available in the.../Documentation/ licenses/COPYING.LGPL-2.1-or-later file.. |
Ahora has implementado (aproximadamente) el comando cat con formato hexdump.
Controlando la información
Formatear es, de manera realista, cómo hacer que hexdump sea útil. Ahora que estás familiarizado, al menos en principio, con el formato hexdump, puedes hacer que la salida de hexdump -n8 coincida con la salida del encabezado PNG. Yal como se describe en la especificación oficial de libpng.
Primero, sabes que deseas que hexdump procese el archivo PNG en fragmentos de 8 bytes. Además, puedes saber mediante el reconocimiento de enteros que la especificación PNG está documentada en decimal. Esta está representada por %d de acuerdo con la documentación hexdump:
1 2 |
$ hexdump -n8 -e'8/1 "%d""\n"' pixel.png 13780787113102610 |
Puedes hacer que la salida sea perfecta agregando un espacio en blanco después de cada entero:
1 2 |
$ hexdump -n8 -e'8/1 "%d ""\n"' pixel.png 137 80 78 71 13 10 26 10 |
El resultado ahora coincide perfectamente con la especificación PNG.
Hexdumping para diversión y ventajas
Hexdump es una herramienta fascinante que no solo le enseña más sobre cómo las computadoras procesan y convierten la información. Este también te muestra cómo funcionan los formatos de archivo y los binarios compilados. Debes intentar ejecutar hexdump en archivos al azar durante el día mientras trabajas. Nunca se sabe qué tipo de información puedes encontrar, ni cuándo tener esa información puede ser útil.