Presente y futuro del almacenamiento en la nube: Una conversación con Qumulo

por | 11/3/2025

MASV y Qumulo ha anunciado recientemente una integración para proporcionar ingesta de datos en la nube de alto rendimiento y de nivel empresarial a la plataforma de almacenamiento en la nube Cloud Native Qumulo (CNQ).

La nueva integración permite a los profesionales con necesidades de datos masivos combinar MASVcon los servicios de gestión de archivos totalmente gestionados de Qumulo en AWS.

No hay nada mejor, ¿verdad? Pues espera: Puede que sí.

Eso se debe a que Qumulo también está lleno de gente extremadamente inteligente con los dedos en el pulso de las últimas tendencias en torno a la nube y el almacenamiento y rendimiento de los datos. Hace poco nos sentamos con Daniel Beres, estratega técnico de Qumulo, para conocer su opinión sobre dónde están las cosas y hacia dónde se dirigen en lo que respecta al almacenamiento en la nube y los flujos de trabajo de big data.

Vamos a ello.

Nota: Esta entrevista ha sido ligeramente editada para mayor extensión y claridad.

Salta a la sección:

Título CTA

La CTA debe ser una frase corta, ágil y relevante para el tema o la sección del blog.

¿Cómo ayuda Qumulo a gestionar archivos masivos en almacenamiento, especialmente para flujos de trabajo de M&E e IA?

Daniel Beres: Lo que ha hecho Qumulo es observar el sector en su conjunto y centrarse en diferentes áreas del mismo, como M&E, IA y otras ofertas masivas de datos no estructurados. Y esa es la clave aquí: Datos no estructurados. Cuando observamos hacia dónde ha ido el almacenamiento a lo largo de los años, se ha pasado de las bases de datos y la información estructurada a algo más basado en archivos o no estructurado.

Y una de esas áreas clave es M&E. Si nos fijamos en lo que se rodaba con grabadoras de vídeo hace 20 años, la cantidad de datos que realmente se almacenaban no era tanta. Pero con 4K, 8K e incluso más resoluciones, estamos ante cantidades ingentes de datos. Una cosa es utilizar los sistemas de archivos del pasado, pero haciendo eso te limitas a ti mismo -no sólo en rendimiento, sino en escalabilidad- y ahí es donde Qumulo es único en la industria.

Aprende a enviar archivos de forma segura con esta guía

Caso práctico de Blended Sense

Cómo MASV "desbloqueó" todo el potencial del taller de producción de vídeo de Blended Sense, y le ayudó a retener a sus autónomos más valiosos mediante transferencias fáciles, rápidas y sin dramas.

Leer más

¿Cuáles son los mayores cuellos de botella de almacenamiento que frenan a los equipos de producción hoy en día?

DB: Creo que se trata de la velocidad para poner nuevos activos en manos del editor, o de los departamentos de efectos visuales para que empiecen a trabajar en ellos lo antes posible. Lo que estamos viendo en la industria no es tanto cuánto almacenamiento tienes, sino lo rápido que puedes llevar esa información al almacenamiento.

¿Por qué el Visión 2030 de MovieLabs ¿importante para el futuro de la producción?

DB: Podemos volver atrás y ver cómo la seguridad ha afectado a diferentes estrenos de películas en el pasado, en los que se han filtrado ciertos elementos a la prensa, y eso ha causado una buena o mala impresión a los clientes que realmente iban a ver estas diferentes producciones.

Así que lo que buscamos desde el punto de vista de la seguridad es asegurarnos de que sólo las personas que necesitan acceder a esos activos de vídeo, a esos elementos, puedan tener acceso a ellos. O que, cuando un estudio comparta información con otro, sólo compartan entre los dos lo que necesiten, para que ninguna de las dos personas pueda salir y hacer algo que pueda comprometer la seguridad.

¿Qué es Qumulo Cloud Data Fabric y cómo contribuye a la seguridad y el rendimiento?

DB: Tejido de datos en la nube es nuestra implementación de un espacio de nombres global. En el pasado, los espacios de nombres globales han sido una capa sobre los sistemas de archivos, tanto si accedían a los sistemas de archivos como bloques de información o como archivos de información. En realidad, no funcionaban bien para poder compartir datos en todo el mundo a gran velocidad.

Así que integramos nuestra versión de un espacio de nombres global en el tejido de nuestro almacenamiento en la nube, nuestro Tejido de Datos en la Nube. Esto te permite acceder a esos bloques de información -no sólo archivos- en cualquier lugar del mundo, ya sea una ubicación periférica, una ubicación centralizada o quizás diferentes estudios. Cada uno de ellos puede tener acceso directo a los bloques que necesitas para crear esos activos para esos creativos, para quien los necesite.

Imagen de marcador de posición

¿Qué tendencias observas en torno a las implantaciones on prem, totalmente en la nube e híbridas?

DB: Vemos muchas instalaciones híbridas ahí fuera. No es sólo que tengan que estar en la nube. No es que necesiten estar on prem. Necesitan estar en ambas. Y al tener la capacidad de estar en ambos lugares al mismo tiempo, sin tener que replicar datos, copiarlos, moverlos y, literalmente, poder almacenarlos donde más se necesitan, todo el mundo tiene acceso a ellos. Realmente hace que el Tejido de Datos en la Nube que hemos implementado tenga un alcance global mucho más amplio.

¿Por qué siguen siendo tan frecuentes los flujos de trabajo híbridos?

DB: Esto es lo que vemos: La naturaleza híbrida de nuestros clientes, que utilizan tanto la nube como on prem, no consiste tanto en tener acceso a los datos dondequiera que estén. Quieren tener acceso a los datos donde estén. Y tener esa capacidad en cualquier momento es realmente lo que hace que una instalación híbrida de tejidos de datos en la nube sea el camino a seguir.

¿Cuáles son algunos de los errores más comunes sobre el almacenamiento en la nube?

DB: Una de ellas es que cuesta mucho dinero pasarse a la nube. Y sí, si tomas lo que estás ejecutando hoy en prem y literalmente lift-and-shift directamente a la nubepagarás mucho más. Tienes que ver cómo la nube puede proporcionarte las economías de lo que han construido en sus entornos. Una de ellas es la capacidad de escalar bajo demanda en cualquier momento en función de tu flujo de trabajo. Una de ellas podría ser una renderización en ráfaga: No necesitas 300 ó 1.000 máquinas ahí fuera esperando a que muevas los datos y las utilices realmente, y que luego se queden inactivas cuando termines. Puedes utilizar la capacidad de la nube para asignar dinámicamente y crear estos diferentes tipos de escenarios para el renderizado en ráfaga. Puedes pasar de 300 nodos a quizás 1.000 nodos en cualquier momento. Esto te permite no gastar el dinero cuando no estás utilizando esos sistemas.

Cloud Native Qumulo hace exactamente lo mismo: si sólo utilizas una cierta cantidad de rendimiento cada día, no lo amplíes. No añadas nodos adicionales a nuestra infraestructura. Literalmente, hazlo funcionar tal cual hasta que necesites hacer un trabajo más pesado, y en ese momento amplía el rendimiento. Porque el almacenamiento back-end en la nube siempre va a ser S3, que, por su naturaleza, sólo se expande cuando lo utilizas y se contrae automáticamente cuando no lo haces.

¿Cómo ayuda el sistema de archivos de Qumulo a mejorar el rendimiento del almacenamiento en la nube S3?

DB: Cloud Native Qumulo ayuda a eliminar algunos de los cuellos de botella que puedes tener con S3. Algunos de ellos podrían ser la relación archivo-objeto. Muchos clientes escribirán realmente un archivo en un objeto cuando lo escriban en S3, y eso está bien si estás almacenando datos de archivo, pero cuando lo miras desde un punto de vista transaccional, digamos que estás renderizando un elemento concreto, o quizás estás haciendo edición en línea de diferentes aspectos dentro de una línea de tiempo. Pues bien, necesitas ese proceso iterativo de poder revisar, mover bloques, cambiar lo que un archivo está haciendo realmente en cualquier momento, cosa que un sistema basado en objetos no te permite hacer.

Así que lo hemos dividido. En realidad estamos escribiendo bloques de información en S3. Esto es diferente. Lo hacemos a propósito, porque no todos los bloques son los bloques más calientes a los que necesitas acceder en cualquier momento. Hacemos que esos bloques calientes permanezcan en nuestro mecanismo de caché integrado en CNQ. Tener esos bloques calientes disponibles para cualquiera en cualquier momento evita que tengas que ir y venir constantemente al S3 para coger esos bloques de información. Y tenemos la capacidad de comprender cómo estás utilizando el sistema de archivos, de modo que no se trata tanto de los bloques que estás utilizando ahora mismo, sino de cuáles son los siguientes bloques, o los otros bloques de información, no sólo los archivos, sino los bloques dentro de esos archivos a los que podrías necesitar acceder al mismo tiempo que estás accediendo a los que estás utilizando ahora mismo.

¿Y por qué es importante? Bueno, no estás constantemente trayendo archivos y vaciándolos y trayendo archivos y vaciándolos de nuevo. Literalmente, sólo utilizas los bloques que necesitas. La mayoría de ellos se quedan en la caché, y cuando están en la caché, otras personas también pueden utilizarlos. Así que tus renders pasan de horas a tal vez minutos.

¿Cómo ha afectado la IA al almacenamiento y a los flujos de trabajo relacionados?

DB: Lo que estamos viendo es este cambio en los grandes datos, que se aleja de la antigua forma de hacer análisis por lotes, para adoptar un enfoque más moderno de "enseñemos a la IA a salir y analizar los datos por nosotros". Lo bueno de la IA es que ahora vemos formas únicas de analizar nuestros datos a partir de secuencias de vídeo. Estamos viendo formas mejores de hacer formaciones de nubes u olas en el océano. Todo ello se genera a partir de cantidades ingentes de datos que hemos adquirido a lo largo de los años. Algunos son actividad sísmica. Algunos son análisis de formas de onda. Algunos son aspectos diferentes que hemos visto en otras películas y que están mejor representados en producciones más recientes.

Pero esa implementación de la IA que estamos viendo requiere cantidades ingentes de datos, y esos datos están en silos por todas partes. La mayor parte de ellos necesitan llegar a una ubicación central para que podamos empezar a acceder a ellos y hacer algo con ellos. Así que veo algunos de los retos no sólo en la carga de esos datos, sino también en la capacidad de acceder a ellos una vez cargados.

¿Cómo aborda Qumulo la cuestión de la escalabilidad acumulativa, específicamente en torno al entrenamiento de la IA?

DB: Si retrocedemos unos 10 años, cuando tenías que aumentar el rendimiento con almacenamiento en la nube al mismo tiempo para poder sacar esa información, un nodo significaba más almacenamiento dentro de lo que estás haciendo, o más almacenamiento, lo que significaba que tenías que tener más potencia de cálculo detrás. Desagregar esas dos cosas y separarlas en función de tus necesidades de utilización nos permite construir el clúster de mejor rendimiento, para que puedas acceder a tus datos, o incluso el almacenamiento en la nube para ello. Estos van a un modelo más centrado en la nube, lo que significa que si necesitas más capacidad de rendimiento, necesitas salir y analizar datos porque tienes miles de nodos intentando averiguar cuál es el nuevo modelo, estupendo. Escálalo en la nube con tantos recursos diferentes como necesites para hacerlo. Pero cuando hayas terminado, vuelve a escalarlos. Pero como ese almacenamiento está completamente separado de ahí, ese almacenamiento es sólo la cantidad que necesitas en ese momento para hacer lo que estás haciendo.

En otras palabras, si sólo son 100 terabytes de datos, no añadas más nodos para 100 terabytes de datos, porque no los necesitas. Si sólo son 10 terabytes de datos, o son 10 petabytes, 100 petabytes, no necesitas tener todos estos nodos de rendimiento en el frente para poder acceder a esos datos. En realidad, depende de cómo quieras acceder a ellos y de lo rápido que quieras hacerlo.

En los próximos cinco años, ¿cuáles crees que van a ser las tendencias en almacenamiento?

DB: Es difícil decirlo. Pero lo que he visto que ha ocurrido hasta ahora, y donde veo que continúa esa dirección, es que los datos no estructurados van a aumentar aún más de escala.

Cuando observamos a nuestros clientes, ya estén en la industria de la IA, en la del petróleo y el gas o en la de la sanidad, todos almacenan cada vez más información a mayor resolución para poder analizar mejor o hacer algo con esos datos. Eso significa más almacenamiento. Significa crecimiento de ese almacenamiento, pero también significa con qué rapidez puedo acceder a esos datos y con qué rapidez puedo cargar esa información desde dondequiera que esté creando esos datos. Todo esto va a influir en el futuro. Va a ser enorme.

En tu opinión, ¿qué diferencia a MASV de otras soluciones de transferencia de archivos?

DB: En lo que veo que MASV es un poco diferente es en cómo lo hacen, y la información que pueden asignar a los datos a medida que se cargan. La otra parte es poder distribuir un único archivo a varios lugares al mismo tiempo, si es necesario, para que los interesados puedan trabajar en lo que acaban de subir.

Y desde el punto de vista de lo que he visto en la industria, tener esta capacidad de -si estás conectado por un dispositivo móvil sobre el terrenoy necesitas subir un archivo, y asegurarte de que se entrega por completo: no te quedas esperando y te aseguras de que está realmente en la nube o dondequiera que necesites entregarlo. MASV ha dado realmente el mayor paso en esa dirección, junto con asegurarse de que esos archivos se entregan correctamente y a las personas adecuadas cuando es necesario.

Eso es un Wrap...

Nos gustaría dar las gracias a Daniel por dedicar unos minutos de su apretada agenda a compartir sus conocimientos sobre almacenamiento en la nube, almacenamiento híbrido y flujos de trabajo relacionados. Puedes obtener más información sobre la integración MASV-Qumulo y lo que puede hacer por tus flujos de trabajo ávidos de datos, aquí.

También puede inscríbete gratis en MASV para probar esta integración, o cualquiera de nuestras docenas de otras integraciones en la nube y on-prem, ahora mismo.

Transferencia de archivos para flujos de trabajo de Big Data

MASV es la solución de transferencia de archivos grandes más rápida, fiable y fácil de usar del mercado.