Cómo crear un volumen deduplicado en Ubuntu?

bunch of disks

Qué es la deduplicación?
La deduplicación de datos permite a los usuarios reducir los datos redundantes y administrar de manera más efectiva la actividad de respaldo, además de garantizar respaldos más efectivos, ahorros de costos y beneficios de equilibrio de carga. BIen, esa es la definición, por ahora solo tenga en mente que es ideal para sistemas de backups, entenderá el por qué muy pronto…

Tipos de deduplicación

  • Hay más de un tipo de deduplicación de datos. En su forma más básica, el proceso ocurre a nivel de archivos individuales, eliminando archivos idénticos. Esto también se denomina almacenamiento de instancia única (*SIS- Single instance storage*) o deduplicación a nivel de archivo.
  • En el siguiente nivel, la deduplicación identifica y elimina los segmentos redundantes de datos que son iguales, incluso cuando los archivos en los que se encuentran no son completamente idénticos. Esto se denomina deduplicación a nivel de bloque o deduplicación de subarchivos y libera espacio de almacenamiento. En este mundillo cuando las personas se refieren a la deduplicación, se refiere a la deduplicación a nivel de bloque. Si se refieren a la deduplicación a nivel de archivo, usarán ese modificador.

Deduplicación de datos explicada
La mayoría de la deduplicación a nivel de bloque se aplica a bloques de tamaños fijos (usualmente el tamaño manejado es de 4KB). Pero también hay deduplicación de longitud variable o deduplicación de bloque variable, donde los datos se dividen en límites de bloque no fijos. Una vez que el conjunto de datos se ha dividido en una serie de pequeños fragmentos de datos, el resto del proceso suele permanecer igual.

El sistema de deduplicación le aplica a cada fragmento un algoritmo hash, como SHA-1, SHA-2 o SHA-256, que crea un código alfanumérico criptográfico (denominado hash) para el fragmento. Luego, el valor de ese hash se compara con una tabla hash o una base de datos hash para ver si existe. Si no existe, el nuevo fragmento se escribe en el almacenamiento y el hash se agrega a la tabla/base de datos hash; si ya existe, se descarta y se agrega una referencia adicional a la tabla hash/base de datos.

Beneficios de la deduplicación
Imagíne cuántas veces se realiza un pequeño cambio en un documento. Una copia de seguridad incremental hará una copia de seguridad de todo el archivo, aunque haya cambiado solo un byte. Cada activo empresarial crítico tiene el potencial de contener datos duplicados.

En muchas organizaciones, hasta el 80 por ciento de los datos corporativos están duplicados.

Ejemplos de la vida real donde la deduplicación puede ayudar mucho

  • Bien, hasta ahora se ha hablado de la teoría, pero… Imagine que el gerente de una empresa envía 500 copias del mismo archivo de 10 MB (a quién no le ha ocurrido que el volumen de almacenamiento del servidor de correos se llena?), un informe de perspectivas financieras con gráficos, a toda la empresa. El servidor de correo electrónico de la empresa ahora almacena las 500 copias de ese archivo. Si todas las bandejas de entrada de correo electrónico utilizan un sistema de copia de seguridad de datos, las 500 copias se guardan, consumiendo 5000 MB de espacio en el servidor. Incluso un sistema básico de deduplicación de datos a nivel de archivo guardaría solo una instancia del informe. Todas las demás instancias solo se refieren a esa única copia almacenada. Esto significa que el ancho de banda final y la carga de almacenamiento en el servidor son solo 1 MB de los datos únicos.
  • Otro ejemplo es lo que sucede cuando las empresas realizan copias de seguridad incrementales de archivos completos, donde solo han cambiado unos pocos bytes, y ocasionalmente realizan copias de seguridad completas debido a desafíos de diseño antiguos en los sistemas de copia de seguridad. Un servidor de archivos de 10 TB crearía 80 TB de copias de seguridad solo a partir de ocho salvas completas semanales y probablemente otros 8 TB más o menos de copias de seguridad incrementales durante el mismo período de tiempo. Un buen sistema de deduplicación puede reducir estos 88 TB a menos de 20 TB, sin reducir la velocidad de restauración.

Ejemplo de cuanto espacio se podría salvar usando deduplicación
Digamos que tiene dos emails guardados en formato electrónico. Ambos emails tienen el mismo encabezado (dirección, fecha, etc.) y cierre, pero tienen diferentes asuntos y cuerpos. En un volumen regular, ambos emails ocuparían su tamaño completo en el disco. En un volumen deduplicado, el primer email se escribe en su totalidad, y el segundo email contiene solo el saludo y el cuerpo con punteros al encabezado y cierre en la primera letra. Ambos aparecen con el asunto, saludo, cuerpo y cierre correctos cuando se abren. Si observa los tamaños de archivo de ambos archivos, verá que el tamaño del segundo archivo es más pequeño que el tamaño del archivo original. Si se tuviera queguardar emails adicionales con el mismo encabezado y cierre, esos nuevos archivos ocupan incluso menos espacio. A medida que agrega más datos deduplicados/comunes al disco, ahorra más espacio (Tabla 1).

EmailDeduplicaciónTamaño/Tamaño sin DeduplicaciónCuánto se ahorra
Email 120K20K/20K0K
Email 216K36K/40K4K
Email 316K52K/60K8K
Email 416K68K/80K12K

A primera vista, esto puede no parecer un gran ahorro, pero cuando se trata de grandes conjuntos de datos, puede almacenar grandes cantidades de datos en una minúscula cantidad de espacio. Es muy posible lograr una tasa de deduplicación de 20x, por lo que se podría almacenar 10 TB de datos en 500 GB de espacio en disco.

Dado que el mismo patrón de bytes puede ocurrir docenas, cientos o incluso miles de veces, piense en la cantidad de veces que realiza solo pequeños cambios en un archivo de PowerPoint, la cantidad de datos duplicados puede ser significativa.

Instalando VDO en Ubuntu

Una vez concluida la parte teórica, viene la parte práctica. Por lo tanto, lo primero es hacer un update y un upgrade, para luego instalar algunos paquetes necesarios:

Compilación de kvdo

Ahora es necesario upgradear el kernel de Ubunut 20.04 (por defecto viene el kernel 5.4) al 5.9, el siguiente comando los clona, instala y luego aplica un reinicio para que el sistema aplique los cambios necesarios:

Ahora se procede a descargar y compilar kvdo que no es más que el módulo para el kernel de vdo (la herramienta del userspace que nos permitirá manipular los volúmenes creados):

Una vez termine el proceso se adjunta el Module.symvers generado al que esta usando nuestro kernel:

Ahora se copian los módulos compilados para que nuestro sistema sea capaz de utilizarlos:

Haciendo uso de depmod le indicamos al kernel que actualice sus módulos para que sea capaz de utilizarlos (correr el siguiente comando puede tomarse su tiempo, puede agregársele el argumento –verbose para ver exactamente qué hace):

Una vez haya terminado lo anterior intentamos ver si el módulo esta en uso, para ello ejecutamos el siguiente comando y si vemos que no recibimos respuesta, es que está correctamente instalado:

Se pueden revisar los logs del sistema con el **dmesg** en busca de los módulos:

Se comprueba la versión:

Compilación de vdo

Ya se instalaron las herramientas del kernel, ahora se necesitan las del userspace (o sea, los comandos que corremos):

Y se comprueba a ver si se compilo correctamente:

Se comprueba la version:

Creación de un volumen VDO

Ya se sabe qué es y como funciona la deduplicación, y ya se sabe que la herramienta que se utilizar es vdo. En este laboratorio se tiene una VM la cual tiene un disco (sdb) de 10GB, sobre este disco es sobre el cual se creará el volumen vdo.

Se procede a crear el volumen vdo, donde el argumento –vdoLogicalSize será el espacio que nosotros le impongamos. En la documentación oficial recomiendan utilizar x3 cuando se va a utilizar como volumen para salvas de ficheros, y un x10 cuando se va a utilizar como volumen para salvas de VMs:

De un disco de 10GB ahora tenemos uno de 30!!!!!!!!!!!!!!!!!!

Una vez creado, se le da formato al volumen, se crea la carpeta de montaje y se monta:

Si se desea que se automonte con cada inicio:

Para ver el estado del volumen actual:

Al ser un hdd de tan solo 10G el vdo introduce un encabezado de unos 4G. Lo que nos permite utilizar unos 6G deduplicados!!! Piense cuando el volumen sea de teras!!!

Probar el funcionamiento:

Para probar el funcionamiento se procede a copiarle un mismo archivo (un comprimido) solo con el nombre cambiado, para ver cuanto aumenta. El primer archivo copiado (1.3G):

Podremos checkear el estado del volumen vdo con:

Se procede a copiar el segundo (1.3G) (nótese que, al copiar el mismo archivo, la velocidad de la copia se aumenta notablemente):

Y se comprueba el estado:

Como se puede apreciar, el volumen no creció en espacio!!!. Se puede comprobar con:

 

Ahora, voy a copiar un .rar (1.6G) similar a los anteriores (le agregué un archivo extra a la carpeta antes de comprimirla), una vez terminada la copia:

La suma total de los 3 archivos que copiamos es: 1.3G+1.3G+1.6G = 4.2G. A esto hay que sumarle los 4G de encabezados que introduce el vdo, 4.2G+4G = 8.2G, sin embargo el vdostats nos muestra que tiene ocupado 6.9G en total, salvando unos 8.2G-6.9 = 1.3G!!!

Si comprobamos el espacio del volumen con:

Veremos como se tiene un volumen de 30G el cual se va llenando poco a poco.

Borrar archivos

Qué pasaría si borramos uno de los archivos duplicados?

Se procede a borrarlo (hay que tener en cuenta que no se debe de borrar uno de los archivos idénticos, no tiene sentido si se piensa):

Y checkeamos el estado del vdo:

Como se aprecia, no se ha borrado del volumen deduplicado (sin embargo, si checeka con dh -Th sí muestra el espacio con el archivo borrado). Para recuperar la capacidad que se ha quedado huérfana al eliminar los archivos, hay q agregar la opcion discard a la linea de /etc/fstab en donde se monta el el volumen, se modifica la línea y quedaría:

Si se desea hacer en el momento, hay que correr :

El comando demora en aplicarse

Para ver el estado del volumen actual:

Y listo!!!

Vale recalcar que esta es sólo la base, se pueden hacer muchas cosas más, como aplicar cuotas, habilitar compresión….

++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

Autores:

  • Frank Morales
  • Franco Díaz

Agradecimientos especiales: @geekmidget y @H3R3T1C

¿De cuánta utilidad te ha parecido este contenido?

¡Haz clic en una estrella para puntuar!

Promedio de puntuación 5 / 5. Recuento de votos: 1

Hasta ahora, ¡no hay votos!. Sé el primero en puntuar este contenido.

Sé el primero en comentar

Dejar una contestacion

Tu dirección de correo electrónico no será publicada.


*