-ADVERTISEMENT-

Netflix

Próxima generación de plataforma de procesamiento y movimiento de datos en Netflix

-ADVERTISEMENT-

Próxima generación de plataforma de procesamiento y movimiento de datos en Netflix

-ADVERTISEMENT-

ingeniería de netflix publicado recientemente en un blog de tecnología sobre cómo usaron malla de datos arquitectura y principios como la próxima generación de plataforma y procesamiento de datos para liberar más oportunidades y casos de uso comercial.

La malla de datos es el nuevo cambio de paradigma en la gestión de datos que permite a los usuarios importar y utilizar datos fácilmente sin transportarlos a una ubicación centralizada como un lago de datos. Se centra en la descentralización y la distribución de la propiedad de los datos en diferentes dominios comerciales. Cada dominio administra y gobierna sus datos como un producto, haciéndolos reconocibles y confiables en función de los requisitos comerciales. objetivos de nivel de servicio (SLO).

La arquitectura de malla de datos en Netflix se compone de dos capas principales. Uno es el plano de control (controladores) y el otro es el plano de datos (canalizaciones de datos). Se define en la publicación del blog simplemente como:

El controlador recibe las solicitudes de los usuarios e implementa y organiza las canalizaciones. Una vez desplegada, la canalización realiza el verdadero trabajo pesado de procesamiento de datos. El aprovisionamiento de una canalización implica diferentes recursos. El controlador delega la responsabilidad a los microservicios correspondientes para gestionar su ciclo de vida.

El siguiente diagrama muestra la arquitectura de alto nivel de la malla de datos en Netflix:

Arquitectura de malla de datos de alto nivel de Netflix

Las principales operaciones se realizan en oleoductos. Pipeline lee datos de varios recursos, aplica algoritmos y los transporta al destino. Los controladores son responsables de averiguar los recursos asociados con las tuberías y calcular la configuración correcta. El siguiente diagrama muestra un ejemplo de la arquitectura de canalización:

Arquitectura de alto nivel de tuberías

Las fuentes de datos son datos de dominio relacionados con cada unidad de negocio y procesados ​​por diferentes procesadores en el sistema. Los ingenieros utilizan principalmente Apache Flink para el procesamiento de datos en tiempo real. Los conectores son el elemento principal para iniciar la transferencia de datos. Supervisan las fuentes de datos y producen cambiar la captura de datos (CDC) eventos a la malla de datos. apache kafka actúa como el componente principal para los transportadores de datos en la malla de datos. El esquema y el catálogo de datos son muy importantes para proporcionar capacidad de búsqueda y visibilidad de los datos entre diferentes dominios comerciales. usos de netflix apache avro como el esquema estándar entre dominios.

Muchas empresas ya han comenzado a cambiar a este paradigma en función de sus necesidades. chris damouruno de los lectores mencionados en el comentarios de publicaciones de blogs :

También hemos implementado las funciones para rastrear el linaje de datos para que nuestros usuarios puedan tener una mejor idea del uso general de datos. Me encantaría ver un blog sobre eso, la procedencia de los datos ha sido una verdadera lucha en nuestras mallas de datos, obtenemos “lo mismo”.

Las empresas ahora están planificando y cambiando su plataforma de datos en función de esta arquitectura, que incluye intuir y Zalando. A muchos proveedores de nube les gusta Amazonas, Googley microsoft también están proporcionando soluciones y servicios de redes de datos para sus clientes.

-ADVERTISEMENT-