Optimizando la imagen de un VPS |

En este artículo hablaré un poco sobre cómo optimizar el servicio de VPS para personas naturales que proporciona ETECSA, la empresa de telecomunicaciones de Cuba. El procedimiento es aplicable para cualquier VPS que se base en una máquina virtual, pero quise ejemplificarlo con este caso concreto, aprovechando que me lo tropecé.

Una breve introducción

Un servidor privado virtual (Virtual Private Server, de ahí las siglas VPS) es muy útil para un administrador de redes, porque a los efectos prácticos equivale a disponer de un servidor tan funcional como uno real, pero hospedado en un centro de datos usualmente con buen hardware y buenos enlaces, respaldo eléctrico y posibilidad de hacer salvas de seguridad, por un precio razonable. Por estos motivos, me entusiasmé cuando vi que ETECSA había comenzado a comercializar este servicio para personas naturales, y lo contraté.

Impresiones y motivación

El equipamiento físico como tal es bueno, al menos según informan lspci y lshw los equipos usados tienen microprocesador Intel(R) Xeon(R) E5-2658A v3 de 128 núcleos, y cuentan con 64 bancos de memoria, o sea que potencia y escalabilidad deben poder ofrecer. No obstante, la elección predeterminada de hardware virtual es un poco extraña.

Como controlador de almacenamiento el servicio tiene declarado un Broadcom / LSI 53c1030 PCI-X Fusion-MPT Dual Ultra320 SCSI que obliga a cargar módulos del kernel que de otra forma serían innecesarios, cuando vSphere desde hace tiempo permite elegir como controlador SCSI uno conocido como VMware Paravirtual, específicamente diseñado para integrarse eficientemente a un entorno corporativo de virtualización, o al menos podría haberse elegido el controlador LSI Logic SAS, que también es eficiente.

Como adaptador gráfico hay declarado un VMWare SVGA II con regiones de memoria establecidas en 128 MB y 8 MB. Como el adaptador es virtual, seguramente esto es lo que provoca que la instancia nunca termine teniendo la capacidad de RAM con que se solicite implementar, porque una parte se reserva para uso del adaptador gráfico. Dado que el panel no permite modificar la capacidad de RAM reservada para este, si se desea crear una instancia con una capacidad de memoria mínima específica, más vale sumar memoria extra para compensar la pérdida, pero lamentablemente ETECSA acaba de restringir el redimensionamiento por saltos de 512 MB.

En cuando al servicio, he estado experimentando con el desde marzo para comprobar su fiabilidad, usando varias instancias con diferentes distribuciones, y funciona razonablemente bien, con algunas observaciones:

Por algún motivo que desconozco, hay días que el panel de gestión Web se pasa horas dando un error de certificado (el navegador reporta que el certificado excede la longitud máxima permitida). Esto impide siquiera cargar la página, por tanto a los efectos prácticos se pierde el control de las instancias en caso de algún fallo en estas.
Iniciar sesión por SSH falla tanto que llega a volverse un fastidio; para que esto ocurra tan frecuentemente, la configuración del cortafuegos o sistema de detección de intrusos en la red nacional de ETECSA no debe estar bien ajustada, porque de accederse a través de una VPN internacional, suele funcionar al instante, sin fallar.
Las imágenes de sistemas operativos disponibles son mas bien escasas, por ejemplo no aparecen Debian o FreeBSD, muy utilizados para servicios. Podría argumentarse que esto es porque carecen de respaldo corporativo, pero aparece CentOS, que dejó de existir como proyecto para ser reemplazado por Alma Linux, que no está disponible en el catálogo. También aparece Ubuntu 16.04 al cual Canonical dejó de darle soporte oficial estándar en abril (en otras palabras, ya no se proporcionarán gratuitamente más actualizaciones de seguridad para esta versión). El servicio para naturales tampoco permite utilizar imágenes alternativas, como sí lo permite el servicio para instituciones.
El servicio no permite acceso al cortafuegos a nivel de centro de datos (conocido como Edge, y disponible sólo para el servicio de Centros de Datos Virtuales para instituciones), de modo que si una instancia recibe un ataque coordinado de inundación de paquetes, aunque uno declare reglas en el cortafuegos de la propia instancia para bloquearlo, el tráfico sigue llegando a la interfaz pública de red y ETECSA lo descuenta de la cuota mensual.
Para la asistencia técnica aún no se proporciona al cliente un sistema de tickets, solo una dirección de correo electrónico. Esto tiene varios inconvenientes: no puede conocerse si una incidencia reportada ha sido revisada o asignada a algún técnico, si se está trabajando en ella o se ha descartado por improcedente, etc. Además, algunos problemas reportados no se verifican de manera realista. Por poner un ejemplo, cuando Cuba cambió al horario de verano, reporté que el panel de gestión estaba desfasado y cualquier operación que uno hiciera, aparecía como iniciada hacía una hora. Me respondieron diciendo que sus equipos estaban debidamente sincronizados y que no encontraban discrepancia alguna entre la hora que reportaba el panel y la real. De modo que desde el 14 de marzo el panel continúa dando un estimado incorrecto de la duración de las operaciones y estamos a 30 de junio.
Las opciones de Apagar y Reiniciar en el panel Web, dependen de que el sistema esté funcionando correctamente y con VMTools en ejecución (a nadie se le ocurra ejecutar el comando halt). Si por algún motivo la máquina virtual queda en un estado corrupto, se dependerá del soporte técnico para solucionar el problema.

En cualquier caso, la imagen de Ubuntu 20.04 disponible en el catálogo parecía adecuada para mi, pero tenía un consumo de recursos más bien alto, comparado con lo que estaba habituado a ver con otros proveedores internacionales de este tipo de servicio.

Habría preferido utilizar una de las imágenes cloud distribuidas por la propia Canonical para consumo reducido de recursos, pero como no estaban disponibles en el catálogo ni yo podía subirlas, solo me quedó intentar optimizar la imagen proporcionada, eliminando paquetes que no suelo utilizar. No obstante, incluso tras varios intentos de ensayo-error con diferentes instancias aprovisionadas incluso en los 3 centros de datos disponibles en el servicio, no quedé del todo satisfecho, pues el consumo de RAM aun seguía siendo alto para mi gusto.

Entonces, concluí que lograr una buena limpieza con una imagen ya cargada de aplicaciones y configuraciones sería más trabajoso que preparar desde cero una imagen virtual y luego reemplazar con ésta en caliente el sistema en uso. De manera que esta fue la variante que finalmente elegí, y que terminó convirtiéndose en mi motivación para escribir este artículo.

Comenzando

El primer paso debería ser realizar una salva o snapshot desde el panel de gestión Web, para tener un punto funcional al cual revertir, en caso de problemas. Como yo haría el procedimiento en limpio, salté este paso, así que después de haber solicitado la implementación de una nueva instancia de Ubuntu 20.04 en el centro de datos de La Habana, puse manos a la obra.

Para no tener que estar ejecutando constantemente los comandos con sudo, cambié a superusuario:

$ sudo -i

Luego, comprobé el tamaño de la imagen:

# du -sh /

[sudo] password for cloud:
du: cannot access '/proc/1250/task/1250/fd/4': No such file or directory
du: cannot access '/proc/1250/task/1250/fdinfo/4': No such file or directory
du: cannot access '/proc/1250/fd/3': No such file or directory
du: cannot access '/proc/1250/fdinfo/3': No such file or directory
8.4G /

Como me entró curiosidad por conocer cómo se estaba distribuyendo casi la mitad del espacio de almacenamiento (el servicio asigna 20 GB por instancia), pensé que sería buena idea instalar ncdu, que permite visualizar cómodamente en un árbol el uso del almacenamiento. Pero antes, necesitaba actualizar la lista de repositorios y verificar si la imagen activa tenía paquetes corruptos:

# apt update
# apt --fix-broken install

Este último comando devolvió algo curioso:

Reading package lists... Done
Building dependency tree
Reading state information... Done
The following packages were automatically installed and are no longer required:
  eatmydata libeatmydata1 python3-importlib-metadata python3-jinja2
  python3-json-pointer python3-jsonpatch python3-jsonschema python3-markupsafe
  python3-more-itertools python3-pyrsistent python3-zipp
Use 'sudo apt autoremove' to remove them.

De modo que había en el sistema paquetes residuales innecesarios; aparentemente no tuvieron la precaución de limpiarlos antes de colocar la imagen en el catálogo, así que lo hice yo, para entonces instalar ncdu:

# apt autoremove --purge
# apt install ncdu

Una vez instalado, ejecuté ndcu sobre la raíz del disco:

# ncdu /

El directorio /usr estaba un poco cargado, lo cual no es del todo atípico, pero al examinarlo, vi que bajo el subdirectorio /usr/lib había más de 1 GB entre módulos del kernel y archivos de firmware:

Tanto espacio usado para firmware me llamó la atención, y al examinar este subdirectorio, noté que había muchos archivos genéricos para varios adaptadores gráficos, e incluso para controladores WiFi, cuando el servicio no tiene este tipo de interfaz:

Lo otro sobre lo cual tomé nota, es que snapd ocupa su buen espacio en disco y personalmente no lo utilizo en un VPS. Tan sólo el directorio /snap consumía una cantidad de espacio considerable:

Al explorar el árbol, noté que también en /var/lib había más de 500 MB ocupados en el subdirectorio snapd/:

Ejecuté entonces htop para ver como se desglosaba el consumo de RAM:

# htop -s PERCENT_MEM

Una buena parte de la memoria la consumía el software de aprovisionamiento de aplicaciones de vSphere, que personalmente tampoco uso (prefiero instalar y configurar manualmente los paquetes, para tener mejor control).

Para mayor consistencia con la imagen que pretendía crear, elegí entonces vi como editor por defecto:

# update-alternatives --set editor /usr/bin/vim.tiny

Luego purgué el paquete snapd para aligerar la base sobre la cual estaría trabajando, y eliminé cualquier paquete residual:

# apt purge snapd
# apt autoremove --purge

Entonces, actualicé mi instancia y reinicié para asegurarme de que se cargara el kernel recién actualizado:

# apt -o APT::Get::Assume-Yes="true" -o Dpkg::Options::="--force-confnew" full-upgrade
# apt --fix-broken install
# apt autoremove --purge
# reboot

Tras volver a iniciar sesión por SSH, volví a modo superusuario e instalé los paquetes necesarios para preparar la nueva imagen:

$ sudo -i
# apt install debootstrap rsync schroot

Elegí schroot porque es más flexible y fácil de usar que chroot, ya que realiza automáticamente tareas engorrosas como el montaje de los directorios /dev y /proc, entre otras ventajas.

Creé entonces un directorio para el chroot:

# mkdir -p /chroot

Creación de la base

El siguiente paso fue preparar con debootstrap una base mínima con solo algunos paquetes adicionales a fin de poder realizar ciertos ajustes y recibir información sobre posibles comandos faltantes:

# debootstrap --variant=minbase --arch=amd64 --components=main,restricted,universe,multiverse --include=command-not-found,cron,dialog,grub-pc,initramfs-tools,sudo,systemd-sysv,vim-tiny focal /chroot http://archive.ubuntu.com/ubuntu/

Preparación del entorno para schroot

A continuación preparé el entorno para schroot. Los archivos de configuración para el perfil predetermindo están en /etc/schroot/default/, pero creé un directorio personalizado (custom) para colocar archivos específicos:

# mkdir -p /etc/schroot/custom

El archivo fstab predeterminado me convenía casi tal cual, a excepción del punto de montaje /home (que no me interesaba preservar):

# grep -vE '^/home' /etc/schroot/default/fstab > /etc/schroot/custom/fstab

De los archivo nssdatabases y copyfiles realmente no me interesaba nada, así que los creé vacíos:

# touch /etc/schroot/custom/nssdatabases
# touch /etc/schroot/custom/copyfiles

Finalmente creé el archivo del perfil:

# editor /etc/schroot/chroot.d/custom.conf

Como contenido dejé esto, incluyendo el usuario cloud para consistencia con mi instancia:

[custom]
type=directory
directory=/chroot
root-groups=root
users=cloud
setup.fstab=custom/fstab
setup.nssdatabases=custom/nssdatabases
setup.copyfiles=custom/copyfiles

Cambio a chroot

Entonces, ejecuté schroot declarando el entorno custom que había preparado:

# schroot -c custom

El cambio al entorno virtual (una operación donde es fácil cometer errores, a veces irrecuperables) funcionó sin incidencia alguna, lo cual reafirmó lo acertado de haber elegido el comando schroot en lugar de chroot.

Configuración inicial

Una vez en la instancia virtual, edité /etc/sources.list para agregarle los repositorios security, updates y backports:

# editor /etc/apt/sources.list

Quedó de esta manera:

deb http://archive.ubuntu.com/ubuntu focal main restricted universe multiverse
deb http://archive.ubuntu.com/ubuntu focal-security main restricted universe multiverse
deb http://archive.ubuntu.com/ubuntu focal-updates main restricted universe multiverse
deb http://archive.ubuntu.com/ubuntu focal-backports main restricted universe multiverse

Luego actualicé la lista de repositorios, y me aseguré de que todos los paquetes estuvieran actualizados:

# apt update
# apt --fix-broken install
# apt -o APT::Get::Assume-Yes="true" -o Dpkg::Options::="--force-confnew" full-upgrade
# apt autoremove --purge

A continuación creé el usuario cloud y le asigné la misma contraseña de mi instancia activa:

# useradd -e "" -f -1 -m -s /bin/bash -u 1000 -U -G adm,sudo cloud
# passwd cloud

Luego me cercioré de marcar las opciones de pam (exceptuando cualquiera relativa a systemd), para entonces deshabilitar los servicios systemd-logind y getty-static (no necesitaba múltiples instancias de agetty consumiendo recursos):

# pam-auth-update
# systemctl mask systemd-logind
# systemctl mask getty-static

Lo próximo que hice fue modificar la configuración de los logs para que se reenviaran a syslog:

# sed -i -r 's/^#?(Storage)=.*$/\1=none/' /etc/systemd/journald.conf
# sed -i -r 's/^#?(ForwardToSyslog)=.*$/\1=yes/' /etc/systemd/journald.conf

Una vez terminado esto, creé un archivo de configuración para optimizar ciertos parámetros del kernel:

# editor /etc/sysctl.d/local.conf

Como contenido, dejé estas entradas (entre ellas, deshabilité IPv6, ya que muchas subredes cubanas tienen equipamiento que no permite usarlo):

kernel.pid_max = 65535
net.ipv4.ip_forward = 0
net.core.default_qdisc = fq
net.ipv4.tcp_congestion_control = bbr
net.ipv4.tcp_syncookies = 1
net.ipv4.tcp_synack_retries = 3
net.ipv4.tcp_timestamps = 1
net.netfilter.nf_conntrack_helper = 0
net.netfilter.nf_conntrack_max = 2000000
net.netfilter.nf_conntrack_tcp_be_liberal = 0
net.ipv4.conf.all.log_martians = 1
net.ipv4.conf.default.log_martians = 1
net.ipv4.tcp_fin_timeout = 20
net.ipv4.tcp_tw_recycle = 0
net.ipv4.tcp_tw_reuse = 1
net.ipv4.icmp_echo_ignore_broadcasts = 1
net.ipv4.icmp_ignore_bogus_error_responses = 1
net.ipv4.ip_local_port_range = 16384 64991
net.netfilter.nf_conntrack_tcp_timeout_established = 21600
net.netfilter.nf_conntrack_tcp_timeout_fin_wait = 20
net.ipv6.conf.all.disable_ipv6 = 1
net.ipv6.conf.default.disable_ipv6 = 1
vm.swappiness = 5
vm.overcommit_memory = 2

Entonces, modifiqué la configuración de initramfs para que se cargaran solo las dependencias requeridas:

# sed -i -r 's/^(MODULES)=most$/\1=dep/' /etc/initramfs-tools/initramfs.conf

Luego quité las opciones «quiet splash» de la configuración de grub:

# sed -i -r 's/^(GRUB_CMDLINE_LINUX_DEFAULT)=.+/\1=""/' /etc/default/grub

Para que el proceso de generación de initramfs no causara errores, exporté esta variable:

# export RUNLEVEL=1

Instalación y configuración de paquetes adicionales

A continuación instalé el otro grupo de paquetes que me faltaban, todo esto sólo con las dependencias estrictamente necesarias:

# apt -o APT::Install-Recommends="false" -o APT::Install-Suggests="false" -o APT::Get::Assume-Yes="true" -o Dpkg::Options::="--force-confnew" install bind9-dnsutils binutils ca-certificates console-data dnsmasq dropbear ferm gawk gesftpserver ifupdown iputils-ping less libterm-readline-gnu-perl linux-virtual locales lvm2 mtr-tiny net-tools open-vm-tools pv rsync telnet-ssl traceroute tzdata wget

Tras instalar algunos paquetes, apareció un mensaje preguntando si se desea habilitar ferm al inicio; eso justamente era lo que quería, así que confirmé, y el proceso de instalación continuó hasta terminar sin errores.

Tras esto, elegí el idioma inglés estadounidense en UTF-8 (la mayor parte del software soporta esta localización):

# locale-gen --purge en_US.UTF-8

El próximo paso fue ajustar el servidor de horario y especificar la zona horaria (elegí America/Havana):

# sed -i -r 's/#?(NTP)=.*$/\1=cu\.pool\.ntp\.org/' /etc/systemd/timesyncd.conf
# dpkg-reconfigure tzdata

Lo próximo fue configurar dropbear para escuchar en un puerto alto (por ejemplo el 60022) a fin de minimizar intentos no autorizados de acceso. Además, impedir acceso SSH como root y cerrar la conexión tras 20 minutos de inactividad.

# sed -i -r 's/^#?(DROPBEAR_PORT)=.*$/\1=60022/' /etc/default/dropbear
# sed -i -r 's/^#?(DROPBEAR_EXTRA_ARGS)=.*$/\1="-w -I 1200"/' /etc/default/dropbear

También preparé un enlace simbólico para que gesftpserver funcionara de manera transparente como sftp-server:

# ln -s /usr/libexec/gesftpserver /usr/lib/sftp-server

El siguiente paso fue configurar dnsmasq, que entre otras, ofrece la ventaja de permitir declarar nameservers por zonas. Pero antes, necesitaba averiguar qué nameservers utiliza ETECSA para las diferentes zonas (en caso que se haga este procedimiento para otro ISP, deben usarse los nameservers que este brinda).

Comencé por la propia zona de los VPS:

# dig +short ns vps.etecsa.cu.

ns1.cd.etecsa.cu.
ns0.cd.etecsa.cu.
ns2.cd.etecsa.cu.

Consulté entonces a un nameserver de la zona por las direcciones IP:

# dig +short @ns0.cd.etecsa.cu. ns{0..2}.cd.etecsa.cu.

190.6.81.253
181.225.233.203
190.92.115.133

Luego, la zona etecsa.cu:

# dig +short ns etecsa.cu.

ns1.etecsa.cu.
ns2.etecsa.cu.

Repitiendo la resolución de las direcciones IP:

# dig +short @ns1.etecsa.cu. ns{1,2}.etecsa.cu.

200.55.152.131
190.92.127.6

Finalmente, consulté los nameservers predeterminados para resolución del resto de las zonas:

# dig +short ns etecsa.net.

ns4.etecsa.net.
ns1.etecsa.net.cu.
ns1.etecsa.net.
ns2.etecsa.net.cu.
ns2.etecsa.net.
ns5.etecsa.net.
ns4.etecsa.net.cu.
ns3.etecsa.net.
ns5.etecsa.net.cu.
ns3.etecsa.net.cu.

Repetí la resolución de las direcciones IP solo para etecsa.net (los nameservers para etecsa.net y etecsa.net.cu coinciden):

# dig +short @ns1.etecsa.net. ns{1..5}.etecsa.net.

200.55.128.3
200.55.128.4
200.55.128.10
200.55.128.11
181.225.231.195

Una vez obtenida la información necesaria, creé mi archivo de configuración para dnsmasq:

# editor /etc/dnsmasq.d/local.conf

El contenido lo dejé así (los nameservers públicos de CloudFlare y Google los agregué como respaldo):

except-interface=ens192
bind-dynamic
no-resolv
bogus-priv
domain-needed
strict-order
rev-server=152.206.177.0/24,190.6.81.253
rev-server=152.206.177.0/24,181.225.233.203
rev-server=152.206.177.0/24,190.92.115.133
server=/vps.etecsa.cu/190.6.81.253
server=/vps.etecsa.cu/181.225.233.203
server=/vps.etecsa.cu/190.92.115.133
server=/etecsa.cu/200.55.152.131
server=/etecsa.cu/190.92.127.6
server=200.55.128.3
server=200.55.128.4
server=200.55.128.10
server=200.55.128.11
server=181.225.231.195
server=1.1.1.1
server=1.0.0.1
server=8.8.8.8
server=8.8.4.4
log-queries

En este caso, excluí la escucha del servicio en la interfaz pública porque no pretendía montar un nameserver.

Entonces, deshabilité systemd-resolved para evitar conflictos con dnsmasq una vez reiniciara y eliminé /etc/resolv.conf (un enlace simbólico) para crearlo manualmente:

# sed -i -r 's/^#?(DNSStubListener)=.*/\1=no/' /etc/systemd/resolved.conf
# systemctl mask systemd-resolved
# rm -f /etc/resolv.conf
# echo -e "nameserver 127.0.0.1\nsearch vps.etecsa.cu" > /etc/resolv.conf

No hice este paso antes, para no arriesgarme a perder la resolución de nombres de dominio en medio del proceso y que esto afectara la descarga de los últimos paquetes.

Pasé entonces a modificar el archivo /etc/network/interfaces:

# sed -i -r 's/^(source\-directory\s+.+)$/\nauto lo\niface lo inet loopback\n\n\1/' /etc/network/interfaces

El siguiente paso fue obtener información sobre la interfaz pública y las tabla de rutas:

# ip address show

1: lo:  mtu 65536 qdisc noqueue state UNKNOWN group default qlen 1000
    link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00
    inet 127.0.0.1/8 scope host lo
       valid_lft forever preferred_lft forever
    inet6 ::1/128 scope host
       valid_lft forever preferred_lft forever
2: ens192:  mtu 1500 qdisc fq_codel state UP group default qlen 1000
    link/ether 00:50:56:bb:c9:cf brd ff:ff:ff:ff:ff:ff
    inet 152.206.177.191/24 brd 152.206.177.255 scope global ens192
       valid_lft forever preferred_lft forever
    inet6 fe80::250:56ff:febb:c9cf/64 scope link
       valid_lft forever preferred_lft forever

# ip route show

default via 152.206.177.1 dev ens192 proto static
152.206.177.0/24 dev ens192 proto kernel scope link src 152.206.177.191

Con esta información, creé entonces el archivo para la interfaz pública:

# editor /etc/network/interfaces.d/ens192

El contenido lo dejé así (utilizando para la resolución de nombres de dominio el nameserver local que había preparado mediante dnsmasq):

auto ens192
iface ens192 inet static
  address 152.206.177.191
  netmask 255.255.255.0
  gateway 152.206.177.1
  dns-search vps.etecsa.cu
  dns-nameservers 127.0.0.1

A continuación pasé a configurar el cortafuegos, en este caso utilizando ferm, un excelente front-end a iptables. Como aun no tenía ningún servicio, solamente declaré los puertos UDP para traceroute y el puerto TCP para SSH que definí al configurar dropbear. Para esto, creé un archivo de reglas personalizadas:

# editor /etc/ferm/ferm.d/local.conf

El contenido lo dejé así:

@hook post '/usr/sbin/sysctl --system > /dev/null 2>&1';
@def $VPS_IF = ens192;
@def $VPS_IP = 152.206.177.191;
@def $TCP_SSH = 60022;
@def $UDP_TR = 33434:33534;
domain ip {
  table raw chain PREROUTING interface $VPS_IF {
    daddr ! $VPS_IP DROP;
    saddr $VPS_IP DROP;
    mod addrtype src-type (
      UNSPEC BLACKHOLE UNREACHABLE
      BROADCAST MULTICAST
    ) DROP;
    proto icmp icmp-type echo-request {
      mod length length ! 0:128 DROP;
      mod hashlimit hashlimit-mode srcip
        hashlimit-above 4/minute hashlimit-burst 4
        hashlimit-name lim_ping DROP;
    }
    proto tcp mod tcp {
      syn dport ! $TCP_SSH DROP;
      tcp-flags ALL ALL DROP;
      tcp-flags ALL NONE DROP;
      tcp-flags (SYN FIN) (SYN FIN) DROP;
      tcp-flags (SYN RST) (SYN RST) DROP;
      tcp-flags (SYN PSH) (SYN PSH) DROP;
      tcp-flags (SYN URG) (SYN URG) DROP;
      tcp-flags (FIN RST) (FIN RST) DROP;
      tcp-flags (ACK FIN) FIN DROP;
      tcp-flags (ACK RST) RST DROP;
      tcp-flags (ACK PSH) PSH DROP;
      tcp-flags (ACK URG) URG DROP;
    }
  }
  table mangle chain PREROUTING {
    mod conntrack ctstate INVALID DROP;
    interface $VPS_IF mod conntrack ctstate NEW {
      fragment DROP;
      protocol icmp icmp-type ! echo-request DROP;
      protocol udp dport ! $UDP_TR DROP;
      protocol tcp RETURN;
      DROP;
    }
  }
  table filter {
    chain INPUT {
      policy DROP;
      interface lo ACCEPT;
      mod conntrack ctstate (ESTABLISHED RELATED) ACCEPT;
      interface $VPS_IF mod conntrack ctstate NEW {
        proto (icmp tcp) ACCEPT;
        proto udp REJECT;
      }
    }
    chain FORWARD policy DROP;
    chain OUTPUT {
      policy ACCEPT;
      outerface $VPS_IF {
        saddr ! $VPS_IP DROP;
        mod addrtype dst-type (LOCAL BROADCAST) DROP;
      }
    }
  }
}
domain ip6 {
  chain INPUT {
    policy DROP;
    interface lo ACCEPT;
    mod conntrack ctstate INVALID DROP;
    mod conntrack ctstate (RELATED ESTABLISHED) ACCEPT;
  }
  chain FORWARD policy DROP;
  chain OUTPUT policy ACCEPT;
}

Sobre las primeras líneas: tras probar anteriormente utilizar crontab para que se mantuvieran persistentes los ajustes de sysctl tras un reinicio, descubrí que usando un hook de ferm se lograba lo mismo de una manera más elegante. El uso de variables al inicio es para facilitar modificar fácilmente la configuración sin tener que estar tocando reglas.

Una vez creadas mis reglas personalizadas, modifiqué el archivo de configuración predefinido, así:

# echo "@include ferm.d/;" > /etc/ferm/ferm.conf

Luego, me cercioré de que initramfs no incluyese módulos del kernel innecesarios:

# find /lib/modules/$(uname -r) -type f -iname "*.ko" -execdir strip --strip-unneeded {} +

Con esto, quedó una base funcional con algunos de los comandos más frecuentemente utilizados. Me cercioré entonces de limpiar cualquier paquete residual para salir del entorno chroot:

# apt --fix-broken install
# apt autoremove --purge
# apt clean
# exit

Combrobación del chroot

Me quedaba entonces probar el entorno chroot, pero como usuario cloud, a fin de comprobar que una vez que remplazara los archivos, no perdería el acceso a la instancia:

# exit
$ schroot -c custom

Apareció un mensaje de error mencionando que no se encontró un grupo con cierto gid. Esto no tiene mayor importancia siempre y cuando el comando sudo funcione, así que para comprobar, intenté listar la raíz del sistema como superusuario:

$ sudo ls -a /

Como todo parecía estar bien ya, salí definitivamente del entorno chroot:

$ exit

Reemplazo del sistema

Antes de realizar el próximo paso, tomé la precaución de cambiar a superusuario y detener algunos servicios:

$ sudo -i
# systemctl stop unattended-upgrades
# systemctl stop vmware_vra_software_agent
# systemctl stop fail2ban
# systemctl stop systemd-timesyncd
# systemctl stop accounts-daemon
# systemctl stop systemd-logind
# systemctl stop networkd-dispatcher

Una vez terminado esto, podía remplazar el sistema de archivos. En realidad había directorios que no necesitaba remplazar, como /dev, /proc, /sys, /run. Tampoco necesitaba incluir el directorio /boot porque en la imagen de Ubuntu 20.04 que proporciona ETECSA, este directorio se encuentra en una partición dedicada. Los directorios que sí quería reemplazar entre otros eran /usr, /var y /etc pero este último tomando precaución de no eliminar información como por ejemplo la configuración de LVM.

De modo que con todo ya listo, me dispuse a realizar el paso más delicado, consistente en reemplazar los archivos de la instancia en ejecución con la imagen que había preparado, para lo cual, me apoyé en rsync:

# rsync -av --delete --delete-after --progress --exclude /etc/fstab --exclude /etc/hostname --exclude /etc/hosts --exclude /etc/lvm --exclude /etc/motd --exclude /etc/debian_chroot --exclude /etc/vmware-tools /chroot/{etc,home,opt,root,srv,usr,var} /

El proceso tardó poco menos de un minuto; rsync es eficiente, porque no reemplaza archivos si son iguales. Entonces, antes de proceder a regenerar el initramfs, listé los archivos en el directorio /boot:

# ls -la /boot

Varios archivos estaban relacionados con una versión vieja del kernel, la 5.4.0-42-generic, y otros eran enlaces simbólicos con extensión «old». De modo que mandé a eliminar dichos archivos:

# find /boot -depth -iname "*-5.4.0-42-generic" -delete
# find /boot -depth -iname "*.old" -delete

Entonces regeneré el initramfs y actualicé la configuración de grub:

# update-initramfs -u -k $(uname -r) -v
# update-grub

Reinicio, comprobaciones y ajustes

Finalmente, mandé a reiniciar, y crucé los dedos:

# reboot

En mi caso al menos, el sistema reinició sin problemas, solo que esta vez para el acceso SSH tuve que utilizar el puerto alto que había declarado para drobear.

Tras confirmar que el sistema funcionaba normalmente, cambié a superusuario y eliminé el directorio /chroot, que a estas alturas era innecesario:

$ sudo -i
# rm -fr /chroot

Una vez más, me aseguré de que no hubiese actualizaciones o paquetes incorrectamente instalados:

# apt update
# apt --fix-broken install

Entonces, instalé los mismos paquetes que había utilizado para diagnosticar la imagen original, y vacié los archivos residuales:

# apt -o APT::Install-Recommends="false" -o APT::Install-Suggests="false" -o APT::Get::Assume-Yes="true" -o Dpkg::Options::="--force-confnew" install htop ncdu
# apt autoremove --purge
# apt clean

Aunque a estas alturas la imagen había reducido notablemente su tamaño, me propuse reducir además el tamaño de la swap. En el caso de Ubuntu 20.04 ETECSA afortunadamente preparó la swap en un archivo dentro del volumen lógico principal de LVM, lo cual me facilitó redimensionarla a 2 GiB exactos:

# swapoff /swap.img
# rm /swap.img
# dd if=/dev/zero bs=1M count=2048 | pv | dd of=/swap.img
# chmod 600 /swap.img
# mkswap /swap.img
# swapon /swap.img

Como último paso, eliminé los logs para liberar cualquier espacio que estuviesen ocupando (podría haberles hecho antes una salva, pero como la instancia era limpia, no me interesaba conservar el historial):

# find /var/log -depth -type f -delete

También podría haber optado por un acercamiento más conservador y vaciar los logs en lugar de eliminarlos (algo mucho más recomendable en un sistema en producción):

# find /var/log -depth -type f -execdir truncate -s 0 {} +

Resultados

Una vez terminado todos estos pasos, comprobé el tamaño resultante de la imagen:

# ncdu /

Finalmente, verifiqué el consumo de memoria tras un arranque en limpio:

# reboot
$ sudo htop -s PERCENT_MEM

Ya con estos valores, finalmente me sentí satisfecho.

Espero que este artículo haya resultado de interés para quienes tengan este tipo de servicio y deseen optimizarlo; que por cierto, recomiendo realizar la operación de madrugada o a primera hora de la mañana, pues a partir de mediodía el servicio no siempre alcanza los 100 mbps que supuestamente debe garantizar.

Y bueno, incluso para quienes no tengan el servicio, con que el artículo haya servido para ilustrar la flexibilidad que permite GNU/Linux, es suficiente.

Nota: Ligera edición del procedimiento (2022-05-10).

Relacionado

Felipe
20 marzo, 2022 a las 9:54 am
Google Chrome 84.0.4147.89 Android 8.0.0
Mozilla/5.0 (Linux; Android 8.0.0; LDN-LX2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Mobile Safari/537.36
Un pregunta, permite este servicio de tecsa virtualizacion anidada?
Responder
Gustavo Luque
15 noviembre, 2021 a las 11:54 am
Google Chrome 95.0.4638.69 Windows 10 x64 Edition
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36
Excelente articulo me ha ayudado mucho, me gustaría contactar con el Autor, para algunas dudas que tengo y no encuentro información al respecto
Responder
- Hugo Florentino
  9 enero, 2022 a las 9:46 am
  Firefox 91.0 Windows 10 x64 Edition
  Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:91.0) Gecko/20100101 Firefox/91.0
  No había visto este comentario, disculpa. Expon tus dudas aqui mismo, o contactame por telegram: https://t.me/geekmidget
  Responder
  - Alexander Rivas Alpizar
    9 enero, 2022 a las 7:46 pm
    Firefox 95.0 Windows 10 x64 Edition
    Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:95.0) Gecko/20100101 Firefox/95.0
    Como me gusta verte usando windows 10 pillin..jajajaja….regresa al grupo anda que me aburro sin tu oposicion y humor inteligente
    alex out
    Responder
    - AnonymousWebHacker
      3 febrero, 2022 a las 11:54 am
      Google Chrome 97.0.4692.99 GNU/Linux x64
      Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.99 Safari/537.36
      y tu tambien con win-bug 10 hahahah
      Responder
Eidy
4 agosto, 2021 a las 9:32 pm
Firefox 90.0 Windows 10 x64 Edition
Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:90.0) Gecko/20100101 Firefox/90.0
Muy bueno el tutorial, felicidades al autor
Responder
octavio
6 julio, 2021 a las 11:30 am
Firefox 78.0 GNU/Linux
Mozilla/5.0 (X11; Linux i686; rv:78.0) Gecko/20100101 Firefox/78.0
amigo usted seria un excelente maestro para etecsa a ver si algun día oyen a sus usuarios y arreglan esos errocitos que presentan a veces y no quieren arreglar jeje
Responder
- Hugo Florentino
  7 julio, 2021 a las 7:53 am
  Google Chrome 91.0.4472.124 Windows 10 x64 Edition
  Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36
  Dudo que ETECSA carezca de personal capacitado, lo que en una empresa con este nivel de complejidad estructural, probablemente cualquier cambio tiene que pasar por múltiples capas de aprobaciones burocráticas.
  Responder
  - octavio
    7 julio, 2021 a las 9:17 am
    Firefox 78.0 GNU/Linux
    Mozilla/5.0 (X11; Linux i686; rv:78.0) Gecko/20100101 Firefox/78.0
    jaja asi mismo, la burocracia nos mata, saludos
    Responder
Yunel del Toro
6 julio, 2021 a las 8:34 am
Firefox 89.0 Windows 10 x64 Edition
Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:89.0) Gecko/20100101 Firefox/89.0
Buena Guía. Ya había hecho mi optimización solo eliminando todo lo instalado que NO es esencial así deje una instalación minima
Responder
- Hugo Florentino
  7 julio, 2021 a las 7:31 am
  Firefox 78.0 Windows 10 x64 Edition
  Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:78.0) Gecko/20100101 Firefox/78.0
  Esa fue la primera variante que utilicé. Incluso, descargué una imagen cloud y le extraje el listado de paquetes que usaba, para entonces hacer un diff contra los paquetes en el VPS, y obtener el listado de los que sobraban (mas de 200).
  Pero aun después de eliminar los paquetes sobrantes, no conseguía que el consumo de RAM bajara de 100 MB, sospecho que tenia que ver con ajustes y archivos residuales. Entonces, como no sabía exactamente que habian hecho ni si estaba bien, opté por generar yo una imagen en limpio a mi gusto; así estoy 100% seguro de que contiene.
  Responder
Jorge Elian Martinez Perdomo
1 julio, 2021 a las 11:16 am
Firefox 89.0 Windows 10 x64 Edition
Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:89.0) Gecko/20100101 Firefox/89.0
usted es un genio colega, hice el proceso y quedo de maravilla la neuva imagen, optimizandome el hardware a full. saludos y gracias por el magnifico tuto.
Responder

Optimizando la imagen de un VPS