joseangelfernandez.es

Automatiza el despliegue de tu servidor CycleCloud con Bicep

2022-10-27T00:00:00+00:00

CycleCloud proporciona la forma más sencilla de aprovisionar en Azure clústeres de computación de alto rendimiento (High Performance Computing, HPC) basados en los planificadores más utilizados en el mercado como por ejemplo: Slurm, PBS o LSF.

De forma general, CycleCloud se despliega como una máquina virtual a partir de la imagen base disponible en el Marketplace de Azure. Tras ello, para completar la instalación, es necesario seguir un asistente web de tres sencillos pasos.

En la mayor parte de los casos, este despliegue manual es suficiente ya que es un proceso que se realiza una única vez. Sin embargo, en algunos casos es posible que nos interese automatizar el proceso de instalación sin necesidad de acceder a la interfaz gráfica. Especialmente aquellos clientes que emplean la estrategia de Infraestructura como Código (IaC) para desplegar múltiples entornos u entornos efímeros.

Este artículo se basa en los scripts de configuración de Ansible empleados por Azure HPC On-Demand Platform y permite desplegar tu servidor de CycleCloud de forma automática. En primer lugar, se explica paso a paso la configuración necesaria para a continuación proporcionar una implementación mínima en Bicep lista para ser desplegada.

Información necesaria para la configuración inicial

Para tener una instalación funcional de CycleCloud es necesario proporcionar los siguientes datos:

Nombre del usuario y contraseña de la cuenta de usuario inicial que tendrá el rol administrador del servidor.
Clave SSH pública asociada a dicho usuario que se empleará para configurar el acceso remoto a los nodos de los clústeres.
Datos de la subscripción de Azure que se utilizará para desplegar los recursos asociados a los clústeres.

Configurar la cuenta de administrador

CycleCloud permite modificar la configuración del servidor de forma dinámica a través de ficheros JSON. Estos ficheros, al ser colocados en la carpeta /data/config dentro del directorio de instalación de CycleCloud son automáticamente importados. Si la configuración se ha importado correctamente veremos que el nombre del fichero se habrá modificado con la extensión .json.imported. Este funcionalidad permite proporcionar los datos necesarios para automatizar la instalación.

En primer lugar, para configurar la cuenta de administador crearemos un nuevo fichero que llamaremos account_data.json. El nombre es indiferente por lo que es posible escoger cualquier otro nombre. El fichero será necesario crearlo en /opt/cycle_server/config/data/.

El contenido será el siguiente:

[
  {
    "AdType": "Application.Setting",
    "Name": "cycleserver.installation.initial_user",
    "Value": <YourUserName>
  },
  {
    "AdType": "AuthenticatedUser",
    "Name": <YourUserName>
    "RawPassword": <YourUserPassword>,
    "Superuser": true
  },
  {
    "AdType": "Credential",
    "CredentialType": "PublicKey",
    "Name": "<YouUserName>/public"
    "PublicKey": <YourPublicKeyInformation>,
  },
  {
    "AdType": "Application.Setting",
    "Name": "cycleserver.installation.complete",
    "Value": true
  }
]

En primer lugar se esvoge el nombre de usuario administrador de CycleCloud, su contraseña y la clave de acceso pública asociada. La última propiedad indica a CycleCloud que no muestre la pantalla de configuración inicial ya que la configuración se ha realizado correctamente.

Una vez guardado el fichero, comprobaremos que su extensión es modificada a .imported indicando que los cambios se han aplicado.

Configurar la subscripción de Azure

Tras configurar el administrador de CycleCloud, el siguiente paso es proporcionar los datos de la suscripción de Azure que usaremos para desplegar los clústeres. Crearemos un fichero JSON que llamaremos azure_data.json. Esta vez, sin embargo, no lo haremos en dicho directorio sino en nuestra $HOME.

El contenido del fichero será el siguiente:

{
    "Environment": "public",
    "AzureRMUseManagedIdentity": true,
    "AzureResourceGroup": <ResourceGroupWhereForCycleCloudResources>,
    "AzureRMApplicationId": " ",
    "AzureRMApplicationSecret": " ",
    "AzureRMSubscriptionId": <AzureSubscriptionId>,
    "AzureRMTenantId": <AzureTenantId>,
    "DefaultAccount": true,
    "Location": <DefaultLocation>,
    "Name": "azure",
    "Provider": "azure",
    "ProviderId": "fd6abe95-c55e-44c8-9085-68002a27c1bb",
    "RMStorageAccount": <ExistinStorageAccountName>
    "RMStorageContainer": <CycleCloudLockerContainerName>
  }

Es importante mencionar que CycleCloud soporta dos formas de autenticarse contra Azure:

Utilizando un Service Principal (Application) y su contraseña (Secret)
Utilizando una identidad gestionada por Azure.

La segunda opción es la recomendada ya que toda la gestión del ciclo de vida de la identidad y de los secretos es gestionada de forma automática por Azure. En este ejemplo utilizaremos esta opción. Si por algún motivo es necesario utilizar un Service Principal, únicamente tendrás que proporcionar sus datos en las propiedades AzureRMApplicationId y AzureRMApplicationSecret, y modificar a false la propiedad AzureRMUseManagedIdentity

No obstante, en cualquiera de las dos opciones es importante acordarse de asignar los permisos de RBAC dentro de nuestra suscripción para desplegar los recursos. En este ejemplo utilizaremos el rol de Contributor a nivel de la suscripción.

Tras asegurarnos que los permisos están correctamente configurados será necesario ejecutar el siguiente comando.

/usr/local/bin/cyclecloud account create -f $HOME/azure_data.json

Tras ello, si accedemos al portal de CycleCloud con los datos del usuario administrador, podremos ver que funcionan y que en la opción de Configuración (1) > Suscripciones (2), la suscripción se ha configurado correctamente (3) y está recuperando la información necesaria (4).

Un ejemplo mínimo de automatización con Bicep

Todo el proceso anterior ha servido para entender cuáles son los pasos necesarios para automatizar la instalación sin hacer uso de la interfaz de usuario. Sin embargo, hemos seguido realizando de forma manual cada uno de los pasos. Esto son:

Crear la máquina virtual desde el MarketPlace con la imagen de referencia de CycleCloud
Configurar la máquina virtual para que haga uso de las identidades gestionadas
Asignar los permisos RBAC a la identidad gestionada para que tenga acceso a la suscripción de Azure
Generar el fichero de configuración del usuario administrador de CycleCloud en la carpeta /data/config.
Importar la configuración de Azure con el comando cyclecloud account

Los tres primeros puntos es posible automatizarlos con una plantilla de Bicep. Los dos últimos podemos escribir nuestros propios scripts, o, como comentábamos al principio, aprovechar el trabajo existente de az-hop.

No queremos reinventar la rueda por lo que usaremos el fichero configure.py que incorpora además validaciones extras ante posibles fallos y la inicialización de la CLI de CycleCloud. Para nuestro caso particular, únicamente será necesario modificar la línea 230 para reemplazar:

--url=https://localhost/cyclecloud"

por

--url=https://localhost/"

ya que la instalación por defecto es a nivel raíz del servidor.

Si quieres ver el código, está disponible en jangelfdez/cyclecloud-bicep. Para desplegarlo en tu suscripción, únicamente necesitarás ejecutar el siguiente comando reemplazando los valores de los siguiente parámetros:

location: región de Azure donde se realizará el despliegue.
resourceGroupname: grupo de recursos donde se creará la máquina virtual de CycleCloud.
vnetName y subnetName: datos de la red donde la máquina virtual se desplegará.
vnetResourceGroupName: si vuestra red virtual está en otro grupo de recursos diferente, es necesario indicarlo con este parámetro. Si está en el mismo lo puedes omitir.
storageAccountName: nombre de la cuenta de almacenamiento que CycleCloud utilizará como locker.
tenantId: identificador de vuestro tenant *.onmicrosoft.com.
adminUsername, adminPassword, publicKey: los datos de acceso del usuario administrador de CycleCloud que coincidirán con los de la VM en este caso.


az deployment sub create --location <location> --template-file .\main.bicep --parameters resourceGroupName=<rgName> vnetName=<vnetName> subnetName=<subnetName> vnetResourceGroupName=<netRgName> storageAccountName=<saname> tenantId=<tenantId> adminUsername=<username> publicKey='<publicKey>'

Si quieres entender lo que sucede, la estructura es la siguiente:

El fichero main.bicep orquesta el resto del despliegue. Esto es así ya que necesitamos desplegar recursos tanto a nivel de suscripción como a nivel de grupo de recursos. Bicep únicamente lo permite configurando el targetscope a nivel de suscripción del fichero principal y luego usando módulos con scopes personalizados.

En primer lugar, se despliegua la máquina virtual junto con sus discos, tarjeta de red e IP a nivel del grupo de recursos pasado por parámetro. Una vez que ha terminado, se asigna a nivel de subscripción el rol de Contributor a la identidad gestionada asociada a la VM. Finalmente, se termina la instalación desplegando de nuevo a nivel del grupo de recursos de la extensión CustomScript que ejecuta el script de Python para inicializar CycleCloud.

Si en lugar de asignar los permisos a nivel de suscripción únicamente fuera necesario asignarlo a nivel del grupo de recursos, sería posible simplificar el despliegue en un único fichero con todos los recursos en él sin necesidad de usar múltiples módulos y scopes.

Si has llegado hasta aquí, ¡felicidades!, ya conoces los principios básicos de cómo automatizar el despliegue de CycleCloud para integrarlo en tus propios scripts.

Despliega una workstation Linux para visualización 3D en Azure

2022-10-18T00:00:00+00:00

Azure dispone de varias opciones a la hora de desplegar una máquina virtual con soporte de GPUs para aceleración gráfica en entornos de visualización remota. Desde la serie original NV, con las NVIDIA Tesla M60, hasta la quinta generación de con la serie NVadsA10 basda en las NVIDIA A10. Esta serie es laprimera que introduce el soporte al uso de GPUs particionadas con un mínimo de 1/6 de los recursos de la GPU en la versión Standard_NV6ads_A10_v5, hasta un máximo de 2 GPUs completas por máquina virtual en las Standard_NV72ads_A10_v5. Además, esta nueva generación está basada en los últimos procesadores AMD EPYC 74F3V (Milan) con una frecuencia base de 3.2 GHz y una pico de 4.0 GHz.

Todo ello hace de esta serie una de las más interesantes a día de hoy para cubrir tanto las necesidades más básicas de visualización hasta las más demandantes. Si necesitas configurar un entorno Linux para ello, este artículo te guía paso a paso. La configuración está basada en CentOS 7.9 como sistema operativo, emplea la versión de los drivers 510.73 debido a los requisitos impuestos porla versión GRID 14.1, y proporciona acceso remoto a través de TurboVNC junto con VirtualGL para la aceleración 3D.

El URN de la imagen exacta empleada es “OpenLogic:CentOS:7_9-gen2:latest”. Es importante tenerlo en cuenta ya que existen múltiples variantes tanto en la versión del sistema operativo, como de la generación, como el software que lleva instalado por defecto (i.e. OpenLogic:CentOS-HPC:7_9-gen2:latest)

El proceso se basa en los scripts de configuración en las imágenes usadas por Azure HPC On-Demand Platform con drivers y versiones del software actualizadas.

Preparación del sistema operativo

En este primer paso actualizaremos la imagen base disponible en Azur. También será necesario instalar las cabeceras del kernel de Linux y el soporte a Dynamic Kernel Module (DKMS). Estos dos últimos son empleados por los drivers de NVIDIA para generar el módulo necesario y cargarlo sin necesidad de modificar el kernel de forma completa.

La versión del kernel empleada es la 3.10.0-1160.76.1

sudo yum update -y 
sudo yum install -y kernel-devel
# DKMS únicamente está disponible en los repos EPEL de Fedora.
sudo rpm -Uvh https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm
sudo yum install -y dkms

sudo reboot

Este reinicio permite que el sistema operativo coja los cambios tras la actualización y evitar errores más adelante. Por ejemplo, el instalador de NVIDIA no encontrará las cabeceras del kernel correctamente de forma automática.

Instalación de los drivers NVIDIA GRID

Dado que vamos a utilizar los drivers propietarios de NVIDIA, el primer paso es evitar que el kernel cargue los drivers Nouveau de código abierto. Es posible ejecutar lo siguiente como root o editar el fichero directamente con tu editor de texto preferido (i.e. nano, vim, etc.).

cat <<EOF >/etc/modprobe.d/nouveau.conf
blacklist nouveau
blacklist lbm-nouveau
EOF

Tras ello, instalamos los drivers de NVIDIA GRID. Es muy importante hacer uso del instalador proporcionado directamente por Microsoft en lugar de los disponibles en la página de NVIDIA. Esta versión incluye ya el licenciamiento GRID para ser utilizado en Azure configurado. Si utilizar los drivers propios de NVIDIA tendrás que configurar un servidor de licenciamiento y adquirir las licencias correspondientes, algo que no tiene sentido al estar incluidas ya en el precio de la máquina virtual.

wget -O NVIDIA-Linux-x86_64-grid.run https://download.microsoft.com/download/6/2/5/625e22a0-34ea-4d03-8738-a639acebc15e/NVIDIA-Linux-x86_64-510.73.08-grid-azure.run 
chmod +x NVIDIA-Linux-x86_64-grid.run
sudo ./NVIDIA-Linux-x86_64-grid.run -s 

Una vez instalado con éxito, es necesario modificar la configuración de NVIDIA GRID. Para ello utilizaremos el fichero de ejemplo proporcionado por NVIDIA:

sudo cp /etc/nvidia/gridd.conf.template /etc/nvidia/gridd.conf

Será necesario realizar los siguientes cambios:

Comentar la sección de FeatureType ya que no es necesario en esta versión personalizada de los drivers en Azure
Deshabilitar la interfaz de licenciamiento en nvidia-settings con EnableUI=FALSE ya que es gestionado automáticamente en Azure.
Añadir IgnoreSP=FALSE, este último no he sido capaz de encontrar el porqué más allá de que la documentación lo pide.

sudo su -
cat <<EOF >>/etc/nvidia/gridd.conf
IgnoreSP=FALSE
EnableUI=FALSE 
EOF
sed -i '/FeatureType=0/d' /etc/nvidia/gridd.conf

reboot

Tras reiniciar, para permitir que el kernel emplee los nuevos drivers recién instalados, podremos ver que la tarjeta está correctamente configurada.

nvidia-smi

+-----------------------------------------------------------------------------+
| NVIDIA-SMI 510.73.08    Driver Version: 510.73.08    CUDA Version: 11.6     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  NVIDIA A10-4Q       On   | 0000E7AB:00:00.0 Off |                    0 |
| N/A   N/A    P8    N/A /  N/A |      0MiB /  4096MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                                  |
|  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
|        ID   ID                                                   Usage      |
|=============================================================================|
|  No running processes found                                                 |
+-----------------------------------------------------------------------------+

Instalación del acceso remoto por VNC con TurboVNC y VirtualGL

Las imágenes de Linux del marketplace de Azure no vienen por defecto con un entorno gráfico. Es por ello que necesitaremos instalar tanto el gestor de ventanas de X.org como un entorno de escritorio. En ese caso, utilizaremos Xfce debido a su bajo consumo de recursos, ideal para un entorno de trabajo remoto en la nube.

sudo yum groupinstall -y "X Window system"
sudo yum groupinstall -y xfce

Una vez instalado el entorno gráfico, lo siguiente será configurar el acceso por VNC. Emplearemos TurboVNC ya que se encuentra optimizado para entornos de trabajo de vídeo y 3D. Su integración con VirtualGL permite disponer de una solución robusta y de alto rendimiento para este tipo de aplicaciones sobre cualquier tipo de red.

sudo yum install -y https://jztkft.dl.sourceforge.net/project/turbovnc/3.0.1/turbovnc-3.0.1.x86_64.rpm

sudo wget --no-check-certificate "https://virtualgl.com/pmwiki/uploads/Downloads/VirtualGL.repo" -O /etc/yum.repos.d/VirtualGL.repo

sudo yum install -y VirtualGL turbojpeg xorg-x11-apps

A la hora de configurar VirtualGL, para que los cambios de permisos aplicados sean efectivos, es necesario parar el gestor de ventanas y descargar los módulos del kernel. Si no, el asistente de configuración te indicará que los cambios no serán efectivos hasta que lo hagas.

sudo service gdm stop
sudo rmmod nvidia_drm nvidia_modeset nvidia
sudo /usr/bin/vglserver_config -config +s +f -t
sudo service gdm start

Tras ello, configuramos que por defecto systemd arranque en modo gráfico y, para evitar un reinicio, lo arrancamos directamente en la sesión actual.

sudo systemctl set-default graphical.target
sudo systemctl isolate graphical.target

El último paso es indicar qué queremos ejecutar cuando accedamos por TurboVNC y genere un nuevo display en el servidor de las X. En nuestro caso, queremos una nueva sesión de Xfce para poder trabajar.

cd $HOME
echo "xfce4-session" > ~/.Xclients
chmod a+x ~/.Xclients

Tras ello, solo tienes que instalar el cliente de TurboVNC en tu máquina local y conectarte a la IP o DNS asociado a tu máquina virtual desplegada en Azure. El resultado será este:

Configuraciones extra recomendadas

Actualización PCI Bus

Si reiniciamos nuestra máquina virtual o esta es redesplegada en otro host por un fallo de hardware, el identificador del bus PCI puede variar. Esto provocará que nuestro entorno gráfico no funcione correctamente al no ser posible encontrar la tarjeta gráfica.

Para evitarlo, es recomendable configurar este script que ajusta la configuración del BusPCI cada vez que se inicia la máquina virtual para asegurarnos de que se mantiene sincronizado.

sudo su -
cat <<EOF >/etc/rc.d/rc3.d/busidupdate.sh
#!/bin/bash
BUSID=\$(nvidia-xconfig --query-gpu-info | awk '/PCI BusID/{print \$4}')
nvidia-xconfig --enable-all-gpus --allow-empty-initial-configuration -c /etc/X11/xorg.conf --virtual=1920x1200 --busid \$BUSID -s
# https://virtualgl.org/Documentation/HeadlessNV
sed -i '/BusID/a\    Option         "HardDPMS" "false"' /etc/X11/xorg.conf
EOF
chmod +x /etc/rc.d/rc3.d/busidupdate.sh
/etc/rc.d/rc3.d/busidupdate.sh

Create a vglrun alias

A la hora de configurar la acelaración de nuestro entorno gráfico lo podemos hacer a nivel de toda la sesión o a nivel de aplicación. Empleando Xfce como entorno de escritorio no es necesario lo primero y podemos dedicar todos los recursos de la GPU para nuestras aplicaciones.

Para asegurarnos de que las aplicaciones hacen uso de la acelaración, es necesario ejecutarlas a través del comando vglrun. Para hacer el proceso más sencillo y asegurarnos de utilizar todas las GPUs disponibles en el nodo, este script genera un alias con la configuración necesaria.

sudo su -
cat <<EOF >/etc/profile.d/vglrun.sh 
#!/bin/bash
ngpu=\$(/usr/sbin/lspci | grep NVIDIA | wc -l)
alias vglrun='/usr/bin/vglrun -d :0.\$(( \${port:-0} % \${ngpu:-1}))'
EOF

Incrementar el tamaño de los buffers de red

Es posible que la configuración predeterminada de red y dispositivo de red de Linux no proporcione un rendimiento (ancho de banda) y latencia óptimos para escenarios de trabajo en paralelo. Es por ello que es recomendable incrementar el tamaño de los buffers de escritura y lectura a nivel del sistema operativo.

cat << EOF >>/etc/sysctl.conf
net.core.rmem_max=2097152
net.core.wmem_max=2097152
EOF

Si has llegado aquí, ¡felicidades!, ya tienes disponible tu workstation Linux para visualización 3D en Azure. El siguiente paso será instalar las aplicaciones necesarias para tu caso de uso concreto.

Opciones de salida a Internet en Azure: ¿Load Balancer o NAT Gateway?

2021-02-21T00:00:00+00:00

Azure proporciona por defecto conectividad de salida a Internet a cualquier máquina virtual desplegada dentro de una subred. Esto simplifica la configuración inicial cuando necesitamos que nuestras máquinas virtuales accedan a contenido fuera de Azure. Si no necesitamos nada más, con el comportamiento por defecto sería más que suficiente. Sin embargo, ¿qué sucede cuándo necesitamos tener un mayor control de nuestros flujos de salida? Por ejemplo, ¿qué podemos hacer para asegurarnos que siempre sale por la misma IP? ¿cómo podemos controlar mejor el agotamiento de los puertos para SNAT?

En estos escenarios tenemos dos alternativas, desplegar un balanceador de carga o un NAT Gateway que nos proporcione capacidades avanzadas. Sin embargo, ¿cuál de los dos debería escoger?

Si este es tu caso y no sabes qué opción es la más recomendable, la siguiente tabla resume las principales diferencias entre ambos:

	Load Balancer	NAT Gateway
Configuración	Detallada. Compleja.	Sencilla.
Alcance	Recursos en un pool de balanceo.	Todos los recursos de la subred.
Timeout	4 minutos por defecto. Configurable (4-30min). Opción de TCP Reset en estado Idle.	4 minutos por defecto. Configurable (4-120min). TCP Reset con paquetes inesperados.
Flujos de tráfico	Únicamente de salida. Compatibilidad con LB o PIP	Entrada y salida
Frontend	Public IP, Public IP Prefix.	Public IP, Public IP Prefix.
Zonas de disponibilidad	Opcional. Redudante de zona, zonal. Stateless.	Opcional. Zonal. Stateful.
Ancho de banda	Sin limitaciones tráfico de salida.	50Gbps.
Nº IPs	Nº máquinas x SKU.	Hasta 16 direcciones IP.
Nº Flujos	Límite de la máquina virtual.	Hasta 1M de flujos concurrentes.
Coste	Instancia, reglas de balanceo y datos procesados.	Instancia y datos procesados.

Por regla general, si nuestras instancias van a publicar algún tipo de servicio hacia Internet la opción recomendada es utilizar un balanceador de carga; por el contrario, si únicamente son instancias internas, la solución sería un NAT Gateway. El principal problema es que los costes de la segunda solución puede ser mayores que la primera al tener un mayor coste por hora y por tráfico procesado.

Es por eso necesario comparar las características de ambas soluciones y escoger aquella que mejor se ajusta a nuestro escenario, no solo en funcionalidad si no también en precio.

Photo by form PxHere

Regresión lineal en detalle, los primeros pasos en Machine Learning

2020-12-27T00:00:00+00:00

El primer paso para cualquier persona que quiera empezar con el Aprendizaje Automático o Machine Learning es bastante probable que sea la regresión lineal. Si realmente su uso entra en la categoría del Aprendizaje Automático o, en su lugar, es simplemente una herramienta de modelado estadístico daría para otra conversación. Yo personalmente me decanto más por la versión del Machine Learning como la mezcla entre la estadística y la probabilidad, algo más allá de ese halo místico que parece envolver a todo lo relacionado con la Inteligencia Artificial. Sin embargo, visto así parece que se le quita toda la magia y la mercadotecnia.

Recientemente acabé el Máster Universatrio en Métodos Análiticos para Datos Masivos: Big Data de la Universidad Carlos III. Una forma de salir del día a día en el mundo de la infraestructura y el despliegue de aplicaciones en el que he estado los últimos diez años, al tan relevante nuevo mundo del dato, la piedra angular de las organizaciones para los próximos años.

Trabajar y estudiar no es algo sencillo y una de las cosas que me arrepiento es no poder haber disfrutado de más tiempo para bajar al detalle en los conceptos y las técnicas que nos enseñaron. Como por ejemplo, el motivo detrás de este artículo: conocer más en profundidad los detalles que hay detrás de una regresión lineal, más allá de la facilidad que algunas librerías como Scikit-learn nos proporciona con su split, fit y predict.

En este artículo la idea es conocer qué tipo de problemas son candidatos para aplicar una regresión lineal, qué condiciones tienen que cumplir los datos de los que disponemos para que realmente el resultado del modelo tenga algún valor para sacar conclusiones y las opciones matemáticas a la hora de resolverlo. Es posible que información similar aparezca por la Wikipedia u otros sitios webs; sin embargo, leerlo no implica saberlo por lo que no hay nada mejor que intentar explicarlo para ver hasta qué punto se ha comprendido.

¿Qué problemas son candidatos para una regresión lineal?

Los modelos de aprendizaje automático basados en el uso de una regresión lineal se emplean para predecir el valor de una variable respuesta, $Y$, a un conjunto de variables denominadas predictores, $X_i$. También se le conoce respectivamente como variable dependiente y variables independientes. Como bien indica su nombre, la relación entre ellas será una relación lineal en los parámetros y se puede expresar según la ecuación \eqref{eq:rl}.

\[\begin{equation} Y = \beta_0 + \beta_1 X + ... + \beta_p X_p + \epsilon = \beta_0 + \sum_{i=1}^p \beta_iX_i + \epsilon \label{eq:rl}\end{equation}\]

Estos parámetros $\beta_i$ serán los que tendremos que obtener a partir de los datos disponibles de nuestro problema. La linealidad de la regresión va asociado a dichos parámetros, no a las variables predictoras. Es decir, el siguiente caso también es una regresión lineal aunque pudiera parecer lo contrario ya que sus parámetros son lineales.

\[Y = \beta_0 + \beta_1 \log X + ... + \beta_p X_p^2 + \epsilon\]

En cuanto a $\epsilon$, se considera una variable aleatoria que modela la interferencia de otros posibles predictores que afecten a nuestra relación lineal pero que no son considerados en nuestro modelo. Es posible verlo como el error de nuestra predicción respecto a la realidad si consideráramos todas las variables que afectarían a nuestro problema; en la mayor parte de los casos esas variables no incluídas ni siquiera son conocidas. Dicho error tendrá una media nula y es independiente de los predictores $X_p$.

¿Puedo utilizar una regresión lineal con los datos que tengo?

Una regresión lineal asume que los datos cumplen una serie de propiedades probabilísticas que nos permitan extraer conclusiones válidas a partir de los resultados obtenidos. Es decir, que las predicciones que realicemos con el modelo se ajusten a nuestro escenario real y tengan algún sentido.

Esto se debe a que los datos con los que contamos son una muestra de todos los posibles valores existentes de nuestro escenario completo. Si los datos no cumplen esas propiedades probabilísticas, no podremos extrapolar los resultados obtenidos a partir de la muestra a todo el conjunto completo de datos.

Las propiedades que tienen que cumplirse son: linealidad, homocedasticidad, normalidad e independencia de los errores. Pero, ¿qué implica cada una de ellas?

Linealidad

Cuando hablamos de linealidad, nos referimos a que la variable que predecimos debe de mantener una relación lineal con cada una de las variables predictoras. Expresado de forma matemática, la esperanza de la variable predicha equivale a una combinación lineal de las predictoras.

\[\mathbb{E}[Y | X_1 = x_1, ..., X_p = x_p] = \beta_0 + \beta_1 x_i + ... + \beta_p x_p\]

Esto es así ya que como mencionabamos anteriormente, la media del error es nula

\[\mathbb{E}[\epsilon |X_1 = x_1, ..., X_p = x_p ] = 0\]

En el caso de una regresión lineal simple con un solo predictor, la forma más sencillo de comprobarlo es utilizando un diagrama de dispersión (scatterplot) en el que se apreciará la relación entre el predictor y la variable respuesta. Sin embargo, en el caso de una regresión lineal múltiple, su forma de validarlo es comparando en un diagrama similar los residuos con el valor predicho. Más detalles de lo que es un residuo se pueden encontrar más adelante.

Homocedasticidad

Probablemente de las palabras más trabalenguas que conozco para decirla bien a la primera. Sin embargo, su explicación es más sencilla. Los residuos deben de tener una varianza constante para cualquier valor de entrada. Expresado de forma matemática.

\[\mathbb{Var}[\epsilon | X_1 = x_1, ..., X_p = x_p] =\sigma^2\]

Es posible comprobarlo igual que antes con un diagrama de dispersión de los residuos comparado con los valores predichos. Su imcumplimiento provoca que no se pueda predecir de forma certera los errores de las predicciones que realiza nuestro modelo.

Normalidad

A partir de lo que hemos visto en los dos puntos anteriores tenemos esta tercera condición.

\[\epsilon \sim \mathcal{N}(0,\sigma^2)\]

Es decir, los errores siguen una distribución normal de media nula y varianza $\sigma^2$. Si esto no sucede, afecta a la hora de calcular los intervalos de confianza y considerar las probabilidades de que el error de una predicción excede un valor particular.

Independencia de los errores

Los residuos obtenidos no deben de tener ninguna correlación entre ellos. Es decir, son independientes. Generalmente esto sucede en casos en los que los datos proceden de algún tipo de serie temporal en el que un valor tiene dependencia o correlación con los anteriores o posteriores. La forma más sencillo de diagnosticarlo es a través de un gráfico con las autocorrelaciones de los residuos. La mayor parte de los valores deberían caer entorno al cero.

¿Resolución analítica o numérica?

En este punto disponemos ya de nuestros datos de entrada y hemos verificado que cumplen las propiedades necesarias para que los resultados de la regresión lineal tengan sentido. ¿Cómo obtenemos entonces ahora los coeficientes asociados a nuestros predictores, solución de nuestro modelo de regresión lineal?. Desde el punto de vista matemático, contamos con dos opciones para ello: la resolución analítica o la resolución numérica.

En el primer escenario, buscamos una ecuación o conjunto de ecuaciones que nos permitan calcular la solución del problema de regresión lineal para cualquier valor de los predictores que empleemos. De esta manera, únicamente será necesario reemplazar los valores de nuestro problema específico en el conjunto de ecuaciones y tendremos la solución. En el segundo, por el contrario, en lugar de buscar una serie de ecuaciones universales nos centraremos en obtener la solución para los valores específicos de nuestros predictores.

Comparando ambas opciones, parece que el camino más adecuado es el primero: obtener una solución analítica que nos permita obtener la solución en cualquier escenario que nos encontremos. Sin embargo, mientras que esto es sencillo para el escenario de una regresión lineal simple donde únicamente tenemos un predictor, la situación se complica cuando necesitamos resolver una regresión lineal múltiple en la que el número de predictores aumenta. En estos casos es posible que el coste computacional para obtener la solución sea tan alto que necesitemos resolverlo numéricamente de forma más eficiente.

Veamos a continuación los detalles de ambos casos:

Resolución analítica

En primer lugar obtendremos la resolución analítica para el caso más sencillo: la regresión lineal simple. Como hemos visto anteriormente en el artículo, ésta se puede representar en forma de ecuación de la siguiente manera.

\[Y = \beta_0 + \beta_1 X + \epsilon\]

Los datos de entrenamiento que tenemos para nuestro modelo podemos representarlos como el conjunto de tuplas $(X_1,Y_1),…,(X_n,Y_n)$ en el que para cada valor del predictor, $X_i$, conocemos el valor real de la respuesta, $Y_i$. De esta manera, necesitaremos encontrar los valores adecuados de los parámetros desconocidos $\beta_0,\beta_1$.

Utilizando el razonamiento geométrico, en la regresión lineal simple la solución es la línea recta que minimiza la distancia entre ella y cada una de las tuplas de entrada. Esta distancia se puede representar como la diferencia entre el valor real conocido de nuestra respuesta, $Y_i$, y el valor predicho por nuestro modelo, $\hat Y_i$.

La diferencia entre ambos valores, $Y_i - \hat Y_i$, se conoce como el residuo. En nuestro caso nos interesará minimizar la suma de todos los residuos obtenidos a partir de los datos de entrada. Al ser una diferencia, nos encontraremos resultados positivos y negativos que tenderán a anularse, por lo que se emplea el cuadrado de la diferencia a la hora de minimizar esa suma. Este concepto se le denomina como la suma de los residuos al cuadrado, o como se encuentra habitualmente en inglés: RSS (Residual Sum of Squares).

Los valores reales de $(\beta_0, \beta_1)$ únicamente los podríamos conocer si tuviéramos los detalles de todas las tuplas asociadas a nuestro problema; es decir, conociéramos toda la población. Sin embargo, este nunca será el caso, únicamente tendremos una muestra de la población por lo que los valores que obtendremos serán una aproximación a ellos. Es por ese motivo que nos referiremos a ellos como $(\hat\beta_0,\hat\beta_1)$.

Representado de forma matemática, nuestros dos parámetros $(\hat\beta_0,\hat\beta_1)$ serán aquellos que minimicen la suma de los residuos al cuadrado de todas las tuplas que disponemos.

\[(\hat\beta_0,\hat\beta_1) = \underset{(\beta_0,\beta_1)\in\Re} {\operatorname{arg\,min\,RSS}} (\beta_0,\beta_1) := \underset{(\beta_0,\beta_1)\in\Re} {\operatorname{arg\,min}}(\sum_{i=1}^n(Y_i - \hat Y_i)^2)\]

Reemplazando el valor de nuestra estimación, $\hat Y_i$, por su expresión matemática, el problema quedaría planteando de la siguiente manera.

\[(\hat\beta_0,\hat\beta_1) = \underset{(\beta_0,\beta_1)\in\Re} {\operatorname{arg\,min}}(\sum_{i=1}^n(Y_i - \hat\beta_0 - \hat\beta_1X_i )^2)\]

Nos encontramos ante un problema de optimización en el que buscamos el valor mínimo de esa expresión. Del cálculo numérico sabemos que el mínimo o máximo de una función se da cuando la derivada de la misma es igual a $0$. Por lo tanto, el mínimo de dicha expresión para cada uno de nuestros dos parámetros $(\hat\beta_0, \hat\beta_1)$ quedará definido como:

\[\frac \partial{\hat\beta_0} [\sum_{i=1}^n(Y_i - \hat\beta_0 - \hat\beta_1X_i )^2)] = 0\] \[\frac \partial{\hat\beta_1} [\sum_{i=1}^n(Y_i - \hat\beta_0 - \hat\beta_1X_i )^2)] = 0\]

Por lo tanto, el siguiente paso será resolver cada una de estas expresiones por separado. Comenzaremos primero con la derivada respecto $\beta_0$. Dado que la derivada es una operación lineal, la derivada de una suma se puede representar como la suma de sus derivadas.

\[\frac \partial{\hat\beta_0} [\sum_{i=1}^n(Y_i - \hat\beta_0 - \hat\beta_1X_i )^2] = \sum_{i=1}^n [\frac \partial{\hat\beta_0} (Y_i - \hat\beta_0 - \hat\beta_1X_i )^2]\]

Para simplificar, dado que únicamente nos interesa $\hat\beta_0$, haremos la siguiente sustitución en la ecuación $C=Y_i -\hat\beta_1X_i$.

\[\sum_{i=1}^n [\frac \partial{\hat\beta_0} (C - \hat\beta_0)^2)]\]

Aplicando la propiedad del cuadrado de la diferencia que indica que $(a-b)^2 = a^2 - 2ab + b^2$, nuestra ecuación se transfomará de la siguiente manera.

\[\sum_{i=1}^n [\frac \partial{\hat \beta_0} (C^2 -2C\hat\beta_0 + \hat\beta_0^2)]\]

Derivamos cada uno de los términos de la ecuación.

\[\sum_{i=1}^n [\frac \partial{\hat\beta_0} (C^2) - \frac \partial{\hat\beta_0} (2C\hat\beta_0) + \frac \partial{\hat\beta_0}(\hat\beta_0^2)] = \sum_{i=1}^n [ 0 - 2C + 2\hat\beta_0]\]

Deshacemos el cambio anterior de $C=Y_i -\hat\beta_1X_i$

\[-2\sum_{i=1}^n(C) + 2\sum_{i=1}^n\hat\beta_0 = -2\sum_{i=1}^n(Y_i -\hat\beta_1X_i) + 2n\hat\beta_0\]

Obteniendo finalmente la siguiente expresión.

\[2(n\hat\beta_0 -\sum_{i=1}^nY_i + \hat\beta_1\sum_{i=1}^nX_i)\]

Una vez que llegamos a esta expresión de la derivada, nos queda por lo tanto igualar el resultado a $0$ y despejar $\hat\beta_0$.

\[2(n\hat\beta_0 -\sum_{i=1}^nY_i + \hat\beta_1\sum_{i=1}^nX_i) = 0\] \[\hat\beta_0 = \frac 1 n {\sum_{i=1}^nY_i} - \frac 1 n \hat\beta_1\sum_{i=1}^nX_i\]

Siendo $\frac 1 n {\sum_{i=1}^nA_i}$ la expresión de la media aritmética, podemos reducir la expresión analítica de $\hat\beta_0$ a su versión final.

\[\begin{equation} \hat\beta_0 = \bar Y - \hat\beta_1 \bar X \end{equation}\]

A continuación, tendremos que realizar el mismo proceso para resolver la derivada parcial respecto a $\hat\beta_1$.

\[\frac \partial{\hat\beta_1} [\sum_{i=1}^n(Y_i - \hat\beta_0 - \hat\beta_1 X_i)^2] = \sum_{i=1}^n [\frac \partial{\hat\beta_1} (Y_i - \hat\beta_0 - \hat\beta_1X_i)^2]\]

Reemplazaremos el valor anterior obtenido de $\hat\beta_0$ en la ecuación.

\[\sum_{i=1}^n [\frac \partial{\hat\beta_1} (Y_i - \bar Y + \hat\beta_1 \bar X - \hat\beta_1X_i)^2] = \sum_{i=1}^n [\frac \partial{\hat\beta_1} (Y_i - \bar Y - \hat\beta_1 ( X_i - \bar X ) )^2]\]

Aplicaremos de nuevo la propiedad del cuadrado de la diferencia para transformar nuestra expresión.

\[\sum_{i=1}^n [\frac \partial{\hat\beta_1} ((Y_i - \bar Y)^2 - 2(Y_i - \bar Y)\hat\beta_1( X_i - \bar X ) + \hat\beta_1^2 ( X_i - \bar X )^2) ]\]

Derivamos cada uno de los términos de la ecuación.

\[\sum_{i=1}^n [0 - 2(Y_i - \bar Y)( X_i - \bar X ) + 2\hat\beta_1 ( X_i - \bar X )^2) ]\]

El último paso es igualar el resultado de nuestra derivada parcial en $\hat\beta_1$ a $0$.

\[-2\sum_{i=1}^n [(Y_i - \bar Y)( X_i - \bar X ) - \hat\beta_1 ( X_i - \bar X )^2] = 0\] \[\sum_{i=1}^n (Y_i - \bar Y)( X_i - \bar X ) - \sum_{i=1}^n \hat\beta_1 ( X_i - \bar X )^2 = 0\]

Si despejamos respecto a $\hat\beta_1$

\[\hat\beta_1 = \frac{\sum_{i=1}^n (Y_i - \bar Y)( X_i - \bar X )}{\sum_{i=1}^n ( X_i - \bar X )^2}\]

Multiplicando y dividiendo por $\frac 1 n$, las expresiones del numerador y denominador coinciden con las de la $Cov(X,Y)$ y la $Var(X)$ respectivamente.

\[\begin{equation} \hat\beta_1 = \frac{\frac 1 n \sum_{i=1}^n (Y_i - \bar Y)( X_i - \bar X )}{\frac 1 n \sum_{i=1}^n ( X_i - \bar X )^2} = \frac{Cov(X,Y)}{Var(X)} \end{equation}\]

Por lo tanto, para la regresión lineal simple, los dos parámetros se pueden obtener como:

\[\begin{equation} \hat\beta_0 = \bar Y - \hat\beta_1 \bar X \\ \hat\beta_1 = \frac{Cov(X,Y)}{Var(X)} \end{equation}\]

Tras obtener el resultado para una regresión lineal, es el momento ahora de obtener la solución analítica en el caso de una regresión lineal múltiple. En este caso, en lugar de un único predictor, tendremos $n$ predictores.

\[Y = \beta_0 + \beta_1 X + ... + \beta_p X_p + \epsilon = \beta_0 + \sum_{i=1}^p \beta_iX_i + \epsilon\]

Los datos de entrenamiento en este caso serán $(X_{11}, X_{12}, \dots,X_{1p},Y_1), \dots ,(X_{n1}, X_{n2}, \dots,X_{np},Y_n)$, por lo que necesitaremos encontrar los valores adecuados de los parámetros desconocidos $(\beta_0, \dots, \beta_p)$.

Siguiendo el mismo razonamiento geométrico, en la regresión lineal múltiple la solución es la intersección de los $p$ hiperplanos definidos por cada uno de los predictores. Mientras que en tres dimensiones es interpretable gráficamente, para valores de $p$ mayores no es posible. Aún así, siguendo siendo aplicable la teoría de los residuos anterior en la que buscaremos minimizar la diferencia entre el valor real conocido de nuestra respuesta, $Y_i$, y el valor predicho por nuestro modelo, $\hat Y_i$.

\[(\hat\beta_0, \dots, \hat\beta_p) = \underset{(\beta_0, \dots, \beta_p)\in\Re} {\operatorname{arg\,min\,RSS}} (\beta_0,\dots,\beta_p) := \underset{(\beta_0, \dots, \beta_p)\in\Re} {\operatorname{arg\,min}}(\sum_{i=1}^n(Y_i - \hat Y_i)^2)\]

Si consideramos que $r_i = Y_i - \hat Y_i$, siendo $r_i$ el residuo para la tupla $i$.

Podemos comprobar que $\sum_{i=1}^n r_i^2 = r^Tr$ ya que:

\[r^Tr = \begin{bmatrix} r_1 & r_2 & \dots & r_n \\ \end{bmatrix} \begin{bmatrix} r_1 \\ r_2 \\ \vdots \\ r_n \end{bmatrix} = \sum_{i=1}^n r_i^2\]

Por lo tanto, igual que en el caso de la regresión lineal simple tendremos que minimizar la expresión respecto a $\hat\beta$. Sin embargo, no resulta práctico esta expresión a la hora de operar matemáticamente con ello. Trabajaremos en su lugar con su representación matricial.

Podemos representar las ecuaciones del sumatorio en $i$ de la siguiente manera.

\[\begin{bmatrix} \hat Y_1 \\ \hat Y_2 \\ \vdots \\ \hat Y_n \end{bmatrix} = \begin{bmatrix} 1 & X_{11} & X_{12} & \dots & X_{1p}\\ 1 & X_{21} & X_{22} & \dots & X_{2p}\\ \vdots & \vdots & \vdots & \ddots & \vdots \\ 1 & X_{n1} & X_{n2} & \dots & X_{np} \end{bmatrix} \begin{bmatrix} \hat\beta_0 \\ \hat\beta_1 \\ \vdots \\ \hat\beta_p \end{bmatrix} + \begin{bmatrix} \epsilon_1 \\ \epsilon_2 \\ \vdots \\ \epsilon_n \end{bmatrix}\]

En versión más compacta.

\[\boldsymbol{\hat Y = X \hat\beta + \epsilon}\]

Por lo tanto, la expresión anterior puede reescribirse en forma de matrices.

\[(\hat\beta_0, \dots, \hat\beta_p) = \underset{(\beta_0, \dots, \beta_p)\in\Re} {\operatorname{arg\,min}}( \boldsymbol{(Y_i - \hat Y_i)^T(Y_i - \hat Y_i)})\] \[\frac \partial{\hat\beta} [\boldsymbol{(Y_i - \hat Y_i)^T(Y_i - \hat Y_i)}] = \frac \partial{\hat\beta} [\boldsymbol{(Y_i - X\hat\beta)^T(Y_i - X\hat\beta)}] = 0\]

Aplicando cálculo matricial desarrollaremos la expresión a derivar.

\[\boldsymbol{(Y_i - X\hat\beta)^T(Y_i - X\hat\beta)=(Y_i^T - \hat\beta^TX^T)(Y_i - X\hat\beta)=}\] \[\boldsymbol{Y_i^TY_i - Y_i^TX\hat\beta - \hat\beta^TX^TY_i + \hat\beta^TX^TX\hat\beta}\]

Teniendo en cuenta que $\boldsymbol{(Y_i^TX\hat\beta) = (\hat\beta^TX^TY_i)^T}$ y que su dimensión es igual a $(1 \times n)(n \times p)(p\times1) = 1$, llegamos a la conclusión de que el valor de la matriz y su traspuesta es el mismo por lo que entonces se pueden suman entre sí.

\[\boldsymbol{Y_i^TY_i - 2\hat\beta^TX^TY_i + \hat\beta^TX^TX\hat\beta}\]

Finalmente.

\[\frac \partial{\hat\beta} [\boldsymbol{Y_i^TY_i - 2\hat\beta^TX^TY_i + \hat\beta^TX^TX\hat\beta}] = \boldsymbol{0 - 2X^TY_i + 2X^TX\hat\beta} = 0\]

Asumiendo que la matrix $X$ es invertible, podemos calcular los parámetros $\hat\beta$ de la siguiente manera.

\[\begin{equation} \boldsymbol{\hat\beta = (X^TX)^{-1}X^TY_i} \label{eq:betamlr} \end{equation}\]

El cálculo de la matriz inversa para matrices de pequeña dimensión es fácil de calcular si cumple las propiedades necesarias para ser invertible. Sin embargo, cuando la dimensión de la matriz aumenta hasta miles, cientos de miles o millones de filas y columnas esta aproximación no es tan sencilla. Es por eso que es muchas veces más fácil resolve el sistema de ecuaciones $\boldsymbol{Ax=b}$ que hacer el cálculo de la inversa.

No entraré en más detalles al respecto pero sí que os recomiendo leer el artículo “Why Shouldn’t I Invert That Matrix?” de Gregory Gundersen y las referencias que se incluyen al artículo “Don’t invert that matrix”, al artículo “Don’t invert that matrix” – why and how” o a esta conversación en Hacker News.

Resolución numérica

Dado que la aproximación analítica prácticamente es solo útil en el caso de la regresión lineal simple, es necesario buscar una alternativa para problemas de regresión lineal más complejos. Partiendo de la expresión $\eqref{eq:betamlr}$ que obtuvimos en el apartado anterior, podemos representarla en la forma general $\boldsymbol{Ax=b}$. De esta manera, nuestro problema quedaría enunciado de la siguiente manera.

\[\boldsymbol{(X^TX)\hat\beta = X^TY_i}\]

Existen diferentes técnicas a la hora de resolver este sistema de ecuaciones. No entraremos en detalle de todas ellas en este artículo ya que nos saldríamos del objetivo principal y entraríamos en el territorio del álgebra lineal. Sin embargo, es interesante hacer una revisión de cómo lo resuelve uno de los frameworks más utilizados en el área del aprendizaje automático: Scikit-learn.

En este caso concreto, el modelo que expone Scikit-learn envuelve el método de cálculo del problema Ordinary Least Squares dentro del paquete de álgebra lineal de SciPy (scipy.linalg.lstsq). Si revisamos la documentación de SciPy de éste método, podemos ver que su objetivo es calcular la solución de mínimos cuadrados de la ecuación $\boldsymbol{Ax=b}$ obteniendo el vector $x$ y minimizando su norma euclídea, $||b-Ax||_2$.

Para realizar esta minimización, este método de SciPy recubre a su vez la implementación en Fortran 90 de la librería LAPACK para problemas líneales de mínimos cuadradros. El método scipy.linalg.lstsq permite escoger entre tres posibles opciones a la hora de realizar el cálculo:

gelss: emplea la descomposición en valores singulares de la matriz $A$.
gelsd: emplea también la descomposición en valores singulares de la matriz $A$ pero en este caso con un algoritmo de divide y vencerás.
gelsy: emplea una factorización ortogonal completa de la matriz $A$

Si queréis seguir profundizando más en los detalles específicos os recomiendo revisar cada uno de los artículos de la documentación enlazados anteriormente. Por cada función incluyen una breve introducción donde explican a alto nivel la implementación. Si no es suficiente y existe alguna duda, el siguiente paso sería revisar un buen libro de álgebra lineal.

Las opciones de almacenamiento en Azure de un vistazo

2020-12-13T00:00:00+00:00

Empiezo a pensar que tengo algo de apego especial por los servicios de almacenamiento de Azure. Intentando refrescar en mi mente todos los servicios y funcionalidades nuevas que se han incluido en el último año relacionados con el almacenamiento, me he dado cuenta que esta idea era recurrente. Justo en la Azure Bootcamp de 2018 presentamos una sesión Iria y yo sobre el almacenamiento en Azure.

Revisando los detalles de la misma veo que la descripción viene completamente a cuento de este artículo:

Storage es uno de los primeros servicios disponibles en Azure desde su lanzamiento y muchas veces uno de los menos conocidos. En los últimos meses se ha incorporado cada vez más funcionalidades creando un cierto caos entre qué se puede hacer con cada tipo de almacenamiento y qué no. En esta sesión pondremos un poco de luz sobre lío y sentar las bases para optimizar tu consumo de almacenamiento en Azure.

Han pasado dos años y la sensación vuelve a ser la misma. Una serie de servicios que en un principio consideraríamos que son “simples” ya que deberían servir para almacenar nuestros datos; pero que sin embargo, con el paso del tiempo, esa simpleza se complica al incluirse nuevas características y funcionalidades que se entrecruzan.

Tirando de la documentación de Azure junto con un poco de papel y boli he tomado algunas notas y dibujado unos esquemas para que con un vistazo rápido pudiera refrescarlo en cualquier momento. Algo frecuente ya que cada vez resulta más complicado retener todo en la cabeza debido al ritmo de crecimiento de Azure.

Dado que es posible que a alguien más le pueda resultar útil, he consolidado esos esquemas en una única imagen que tenéis a continuación. Podéis abrirla a tamaño original si hacéis click en ella para ver mejor los detalles.

El servicio más destacado, como era de esperar, es Azure Storage y la gran variedad de tipos de almacenamiento que incluye en él. Destaca especialmente Azure Blob Storage y , dentro de él, el servicio de Azure Blob Block Storage como base para otros servicios tan relevantes como Azure Data Lake Gen 2.

Alrededor de de Azure Storage, podemos encontrar los servicios para ingesta y exportación de datos de la familia Data Box, los sistemas de caché de alto rendimiento para entornos HPC con la familia de servicios basados en Avere y los servicios de copia de seguridad y protección frente a desastres con los Recovery Services.

Además de los propios servicios de Azure también he añadido los detalles de las capas de rendimiento y de acceso que soporta cada uno de ellos ya que dependiendo de lo que escojamos, quedarán definidos sus niveles de rendimiento y los límites máximos.

Espero que os sea útil.

Photo by form PxHere

Evitar el throttling listando ficheros de Azure File Shares desde la CLI

2020-10-04T00:00:00+00:00

A la hora de trabajar con Azure Files es posible que tengamos la necesidad de listar los ficheros que se encuentran alojados dentro del servicio. Desde la CLI podemos realizarlo de forma sencilla a través de un comando similar al siguiente:

az storage file list --share-name MyShare --account-name MyStorageAccountName

Si es algo puntual, es posible que no te encuentres ningún problema; sin embargo, si lo tenéis integrado en algún script que hace varias consultas en un corto periodo de tiempo os podéis encontrar con la limitación de ARM de realizar un máximo de operaciones de tipo List de 100 cada 5 minutos.

¿Por qué salta esta limitación si únicamente tendría que estar leyendo datos de la API de Azure a través del método GET correspondiente? Como siempre, todo tiene su motivo.

La razón es que si no se incluyen los detalles de autenticación de la cuenta de almacenamiento a la que estamos accediendo, el comando automáticamente lanza una operación para listar sus claves de acceso y autenticar la petición.

Si queremos evitar este problema, únicamente será necesario utilizar alguna de las opciones alternativas disponibles con el mismo comando para proporcionarle esos datos:

# Empleando la clave de la cuenta
az storage file list --share-name MyShare --account-name MyStorageAccountName  –account-key [your-key]

# Empleando la cadena de conexión completa
az storage file list --share-name MyShare –connection-string [your-connection-string]

# Empleando un token SAS específico
az storage file list --share-name MyShare --account-name MyStorageAccountName f –sas-token [your-sas]

De esta manera, la CLI no necesitará ejecutar esas consultas extras y se autenticará directamente evitando así la limitación de la API.

Photo by form PxHere

Opciones para clonar un proyecto de Custom Vision

2020-09-13T00:00:00+00:00

Como comentaba en un artículo previo sobre Custom Vision: “Los servicio cognitivos de Microsoft facilitan la incorporación de inteligencia artificial de forma sencilla en nuestros proyectos. Uno de estos servicios es el de *Custom Vision*, con él es posible construir clasificadores o detectores de objetos a partir de un número reducido de imágenes para su entrenamiento inicial.

Sin embargo, podemos encontrarnos situaciones en las que no queramos tener únicamente un modelo de Custom Vision sino que nos interese a partir de un conjunto de imágenes base poder generar más de un modelo. De esta manera, se puede afinar cada uno ellos para un aspecto concreto empleando como base de entrenamiento el mismo conjunto de datos etiquetados.

Es decir, imaginemos que tenemos un proyecto A con varios cientos de imágenes clasificadas con varias decenas de objetos ya etiquetados, ¿qué puedo hacer si tengo un proyecto B en el que necesitamos un subconjunto de estos objetos ya clasificados en esos cientos de imágenes?

Lo ideal sería que existiera un botón que permitiera clonar automáticamente un proyecto de Custom Vision en uno nuevo manteniendo todo el conjunto de datos y listo para empezar a ser entrenado; sin embargo, a día de hoy no es una opción que se encuentre disponible ni en el portal ni a través de los SDKs. Para habilitar esta opción de clonación sería necesario emplear las APIs REST del servicio de Custom Vision para extraer esa información y volver a cargarla de nuevo.

El artículo anterior proporcionaba una guía sobre los métodos concretos de la API a usar y cómo invocarlos. Sin embargo, implica realizar un desarrollo a medida para el proceso iterativo de descargar todos los datos y volver a ingestarlos. No os preocupéis, alguien pasó por lo mismo anteriormente a vosotros y en el repositorio de GitHub de ejemplos de Azure podéis encontrar “Custom Vision Move Project”, una solución automatizada basada en el SDK de Python para exportar toda la información de un proyecto existente y generar una copia exacta en otro nuevo listo para empezar a entrenarlo.

El código es bastante claro y sencillo de leer por si tenéis algún miedo de que borre los datos o modifique la información. Básicamente es un único fichero que genera dos clientes de Custom Vision, origen y destino, y se encarga de leer del primero los datos para escribirlos en el segundo. Algo sencillo de implementar por uno mismo pero que siempre viene bien que alguien lo haya hecho con anterioridad. Así puedes centrarte en lo de verdad importante para tu proyecto y no perder tiempo en la preparación de la infraestructura o elementos necesarios ;)

Leído: ‘The Unicorn Project’ de Gene Kim

2020-08-18T00:00:00+00:00

Si disfrutaste con la lectura de The Phoenix Project, encontrarás en este libro una cierta continuidad que te resultará interesante. Si no, encontrarás un relato que te conocido y que es común a las empresas de hoy en día que se encuentren en busca de la tan ansiada transformación digital. Una historia en la que probablemente te encuentres identificado si trabajas en el sector: la lucha entre negocio e IT para dar respuestas a las necesidades de la organización, habitualmente, de forma insuficiente.

Si en el primer libro la aventura se centraba en los retos de Bill Palmer, manager de IT en Parts Unlimited que es promocionado a Vicepresidente de Operaciones y que gracias a la aplicación de las metodologías ágiles y de DevOps consigue salvar el futuro de su compañía en el último momento. En este segundo libro la aventura se ve desde los ojos de Maxine Chambers, arquitecta de software y desarrolladora senior. Un mismo reto, un nuevo proyecto y esta vez enfocado desde el punto de vista del mundo del desarrollo en lugar de IT.

Me ha resultado interesante la mezcla entre la parte didáctica que intenta proporcionar el libro sobre los Cinco Ideales de DevOps, con la parte épica de cómo un equipo que parte desde cero consigue darle la vuelta a la tortilla al más puro estilo de Los Goonies. Tan épica que probablemente sea imposible en los tiempos que mencionan, pero que realidad no estropee una buena historia.

Si tenéis tiempo y queréis pasar un fin de semana tranquilo de lectura la recomiendo. Sin embargo, ¡cuidado!, es probable que después de leer el mundo idealista que consiguen generar desde cero para salvar a Parts Unlimited de la quiebra, te frustres al volver a tu realidad de hacer despliegues copiando ficheros a mano al servidor de producción.

Avisado quedas.

Leído: ‘Weapons of Math Destruction’ de Cathy O’Neil

2020-08-14T00:00:00+00:00

La tecnología evoluciona de forma tan rápida que cada vez resulta más complicado llegar a conocer los detalles de todo lo que se encuentra por debajo de cosas cotidianas que hacemos; por ejemplo, realizar una llamada desde nuestro teléfono móvil o arrancar el coche por la mañana para ir a trabajar. Este proceso de estratificación hace que de forma general nos quedemos en la cara más visible de la tecnología (i.e. darle a llamar en nuestro teléfono o girar la llave para arrancar el coche) y solo si somos algo curiosos, nos adentremos en las capas inferiores para entender lo que sucede.

Este desconocimiento, desde mi punto de vista, llega a convertirnos en vulnerables. Quedamos a merced de terceros cuando algo falla, no funciona como se espera o posiblemente peor, cuando funciona correctamente pero no somos conscientes de lo que está sucediendo por debajo. ¿Os suenan las cookies y la trazabilidad de la gente a través de internet? ¿La descarga de aplicaciones gratuitas y las “sorpresas” que muchas veces vienen dentro?. Si trabajas o estás interesado en este sector probablemente sea así, ¿pero tus familiares y amigos son conscientes?

Después de esto diréis, ¿qué tiene que ver lo anterior con este libro? Bien, la relación se encuentra en el enfoque del libro sobre uno de los aspectos de la tecnología que nos encontramos en el día a día y del que no somos conscientes del impacto que tiene en nuestra vida: los algoritmos y el Big Data.

Para muchas personas de nuestro alrededor, la mayor interacción consciente con sistemas “inteligentes” son las preguntas que realizan a su asistente en el móvil para conocer el tiempo o las recomendaciones que recibe de Netflix, Spotify o Amazon sobre el contenido que consumir a continuación. Experiencias que en algunos casos es posible que les hagan cuestionarse hasta qué punto de verdad existe “inteligencia” en ellos, si no, ¿cómo es posible que Amazon te recomiende de nuevo el mismo producto que ya has comprado?.

Sin embargo, existe un gran número de algoritmos, más sútiles e incluso impercetibles, que tienen un impacto mayor en nuestro día a día sin que seamos conscientes de ellos. Estos algoritmos son los que Cathy O’Neil denomina como “weapons of math destruction”: una colección de modelos opacos, no controlados por ningún tipo de regulación, difíciles de corregir si se equivocan con nosotros y con una escalabilidad tan alta que afectan a un gran número de personas.

Estos algoritmos se encuentran en muchos de nuestros escenarios cotidianos. Cathy escoge situaciones como la búsqueda de trabajo, la obtención de préstamos, la contratación de seguros médicos privados o los sistemas de la policía para prevenir la delicuencia y crímenes. Sí que es cierto que son muy particulares del mercado estadounidense, por lo que en algunos casos resulta complicado seguirlos en detalle al no conocerlos de primera mano. Aún así, es fácil seguir el hilo y entender cómo estos modelos, si no son diseñados correctamente, pueden llegar a ser armas peligrosas que condicionen el futuro de los ciudadanos desde que son prácticamente niños.

Un matiz relevante es que en los casos concretos del libro siempre salen perjudicados los mismos: aquellos pertenecientes a clases bajas, con una educación limitada y con recursos económicos reducidos. Algo normal porque al final estos modelos recogen los mismos prejuicios de las personas que los diseñaron pero camuflados con una capa de neutralidad al estar basado en un modelo matemático. Los números no mienten, ¿no?

Aunque tras acabar de leer el libro el panorama puede parecer algo desolador, sí que es cierto que existen movimientos para lograr evitar muchos de los problemas que menciona como el impuso de Explanable AI (xAI) o Responsible AI. Avances que nos permitan tener esa visión tan anti Big Data o anti IA como la que puede llegar a extraerse de él.

No obstante, es una lectura interesante para ser consciente de a dónde nos puede dirigir este mundo liderado por modelos de aprendizaje automático si no se tienen en cuenta unos principios básicos de responsabilidad por parte de las personas que los crean.

Gestión de registros A en Azure DNS con el mínimo privilegio posible

2020-08-03T00:00:00+00:00

Azure Role Based Access Control proporciona un gran número de roles por defecto para gestionar nuestros recursos en Azure. Sin embargo, en algunas ocasiones es posible que éstos sean demasiado amplios para lo que nos interesa y necesesitemos limitar su alcance. Para ello, será necesario que hagamos uso de los roles personalizados.

En esta situación me he encontrado hoy cuando únicamente se deseaba permitir la gestión de los registros de tipo A dentro de una zona de Azure DNS y nada más. Como estoy seguro que en el futuro lo volveré a necesitar, qué mejor que dejarlo registrado aquí:

  "permissions": [
            {
                "actions": [
                    "Microsoft.Network/privateDnsZones/read",
                    "Microsoft.Network/privateDnsZones/write",
                    "Microsoft.Network/privateDnsZones/A/read",
                    "Microsoft.Network/privateDnsZones/A/write"
                ],
                "notActions": [
                    "Microsoft.Network/privateDnsZones/A/delete"
                ],
                "dataActions": [],
                "notDataActions": []
            }
        ]

El proceso de saber qué acciones son las que necesitamos activar o cuáles bloquear, no era una tarea fácil. Sin embargo, si aún no lo habéis probado os recomiendo que le echés un ojo al editor de roles personalizados disponible en el portal.

Si aún así preferís la experiencia dura, ya no es necesario consultar a través del CLI las operaciones que un proveedor de recursos tiene habilitadas, ahora se encuentran incluídas en la documentación. ¡Ojo! Creo que probablemente sea la página más larga de las que he visto en la documentación oficial :)

Photo by form PxHere