¡Hola Scalians!
El pasado martes 28 de Noviembre tuve la oportunidad de asistir en al Data+AI World Tour Madrid, evento organizado por Databricks sobre el mundo de los datos y de la inteligencia artificial, ¡y fue increible!
El foco del evento estuvo centrado en principalmente en dos puntos:
- Gobierno de datos
- IA Generativa
¿Queréis que os cuente como transcurrió la explicación de cada uno de ellos? ¡Seguid leyendo!
Gobierno de Datos
Por la parte de gobierno de datos finalmente, compartieron con la comunidad un avance clave desde la presentación del Unity Catalog de Databricks. Este catálogo, que inicialmente permitía ofrecer cierta confidencialidad sobre los datos en el datalake, ahora brinda la flexibilidad de crear nuestro propio metastore a nivel de catálogo y esquema. Este cambio proporciona un mayor aislamiento de datos y un control total sobre el proceso, atendiendo a las necesidades que la comunidad venía solicitando con insistencia. Ya que, cuando creabas un Unity Catalog, tenías que vincularlo si o si a un Hive Metastore compartido.
Afortunadamente, esta situación ha cambiado, ya que ahora tenemos la capacidad de crear nuestro propio metastore tanto a nivel de catálogo como a nivel de esquema. ¡Excelente noticia! Esto nos brinda un amplio aislamiento de datos y un control total sobre los mismos.
Otro de los puntos a destacar dentro de la gobernabilidad de los datos es el concepto de Delta Sharing. Este evita tener que replicar la información cuando queremos hacerla visible a los usuarios u otros equipos de trabajo. Además, nos permite de una manera sencilla otorgar permisos (siguiendo el estándar ANSI SQL) a alguien de manera inmediata. ¿A quién me refiero?
- Accesos desde otros workspaces de Databricks que estén levantados en diferente región.
- Acceso desde diferentes compañías.
- Acceso desde diferentes proveedores Cloud.
- Acceso desde plataformas de datos de terceros.
Este enfoque me parece super interesante. También me hace pensar que clientes como el Santander, donde la arquitectura de data se basa en Databricks, necesitarán trabajar en realizar un cambio hacia este modelo de gobernanza, por lo que debemos estar atentos en estar a la última en arquitecturas con Unity Catalog.
La evolución de la IA generativa
El otro punto en el que se centró este interesante evento fue la evolución de la IA generativa, y la demo que tuve oportunidad de ver que entrelaza perfectamente con al menos uno de los casos de uso que tenemos con nuestro cliente Arcelor Mittal.
En dicha demo se mostraba como desde la plataforma podemos ser capaces de indexar documentos y entrenar modelos para posteriormente haciendo uso de lo que ellos llaman “Asistente” (viene a ser un chatbot) que, mediante el lenguaje natural, se podía generar y ejecutar consultas SQL y, por supuesto, realizar preguntas sobre cualquier información almacenada en el Lakehouse.

También, pude ver como hacían una comparativa a nivel de costes donde comparaban soluciones basadas en Kubernetes vs soluciones en Databricks, donde el ganador evidentemente, ¿sabéis quien fue? ¡Databricks! 🙂
En resumen y concluyendo, gracias a la experiencia de poder asistir a este interesante evento, considero que el producto de Databricks ha vivido una evolución muy positiva y significativa durante este último año. Merece la pena que desde el CoE de Scalian Spain, sigamos estando al día de todas sus novedades, tanto por la parte de Data como por la parte de IA, ya que este tiene gran presencia en los grandes proveedores Cloud, los cuales se están abriendo al sector para facilitar la integración de la plataforma con nuevos clientes y productos. 🚀
Autor: Alvaro Solana, experto en Big Data en Scalian Spain.