18th Apr 2024 Lectura de 21 minutos Cómo convertirse en ingeniero de Big Data Gustavo du Mortier carrera en ciencia de datos ingeniería de datos Índice ¿Qué es Big Data? Hay demanda de ingenieros de Big Data Beneficios de Big Data ¿Qué hace un ingeniero de Big Data? Habilidades y herramientas necesarias para convertirse en ingeniero de Big Data Big Data, SQL y bases de datos relacionales Bases de datos NoSQL Almacenes de datos Plataformas y marcos de Big Data Cómo pilotar una plataforma de Big Data En la cabina Herramientas y plataformas de Big Data Spark Flink Storm Cassandra Pig BigQuery Tus próximos pasos para convertirte en ingeniero de Big Data ¿Qué es un ingeniero de Big Data y en qué se diferencia de un ingeniero de datos? En este artículo, exploramos las herramientas y plataformas que necesitará dominar como ingeniero de Big Data. Para pasar de ser un ingeniero de datos normal a un ingeniero de Big Data, tendrá que adquirir varias habilidades nuevas y aprender a utilizar varias herramientas nuevas. La buena noticia es que Big Data sigue permitiéndole utilizar sus viejos conocimientos de SQL para manipular y obtener información de los repositorios de datos. Pero primero, ¿por qué querrías pasar de la ingeniería de datos normal a la ingeniería de Big Data? Te lo explicaré con un ejemplo. Para transportar pequeños grupos de personas en distancias cortas y sin mucha prisa, puedes arreglártelas conduciendo un autobús. Pero si necesitas transportar a muchas personas a largas distancias y en un tiempo mínimo, tendrás que aprender a pilotar un avión. Claro que será más difícil. Tendrás más responsabilidades, pero te dará más satisfacciones y ganarás mucho más dinero. La misma diferencia existe entre el trabajo de un ingeniero de datos convencional y el de un ingeniero de Big Data. ¿Qué es Big Data? Como puede imaginar, Big Data se refiere a conjuntos de datos enormes. La definición exacta de "enorme" puede variar en función de a quién se pregunte, pero es normal que los repositorios de Big Data contengan más de 10 terabytes de datos. Y cada vez es más frecuente oír hablar de volúmenes que alcanzan el orden de los petabytes (1 petabyte = 1.024 terabytes). Pero Big Data no se refiere sólo a grandes volúmenes. También incluye una gran variedad de datos (estructurados, semiestructurados y no estructurados) y altas velocidades de procesamiento y acceso. Estas cualidades se conocen comúnmente como "las tres V": volumen, velocidad y variedad. A las tres V anteriores suelen añadirse dos atributos más. "Veracidad", o la fiabilidad de los datos, es importante para evitar información incompleta, sucia (es decir, llena de errores) o inexacta. "Valor" se refiere a la importancia de extraer información valiosa que permita tomar decisiones informadas y generar oportunidades de negocio. Las particularidades mencionadas implican que un ingeniero de Big Data debe utilizar marcos especiales además de las herramientas convencionales de ingeniería de datos como SQL. Si eres principiante en SQL, puedes iniciarte realizando un curso online sobre consultas SQL; si quieres dominar el lenguaje, seguir un completo itinerario de aprendizaje de SQL que te enseñará todo lo que necesitas es el camino a seguir. Más adelante en este artículo, hablaremos de las principales tecnologías de Big Data. Por ahora, respondamos a otra pregunta: ¿cuáles son las perspectivas laborales de los ingenieros de Big Data? Hay demanda de ingenieros de Big Data La buena noticia para los ingenieros de Big Data es que el crecimiento del empleo en Big Data muestra cifras positivas. Y la demanda de trabajadores cualificados en Big Data supera con creces la oferta. Como ingeniero de datos, probablemente podrá encontrar un trabajo razonablemente bien pagado. Pero las oportunidades laborales en Big Data apuntan a salarios mucho más altos; puede apostar a que el término "Big Data" estará cada vez más presente en el futuro de todo ingeniero de datos. Para que te hagas una idea, Glassdoor indica que (en marzo de 2024), el salario base medio para un ingeniero de datos con un trabajo tradicional en bases de datos en Estados Unidos era de 144.00 dólares al año. El salario base medio para un ingeniero de Big Data, también en Estados Unidos, era de 157 .000 dólares al año. Estas cifras son sólo promedios. El salario base anual de un ingeniero de Big Data puede ascender hasta los 197.000 dólares, y si tienes la suerte de conseguir un puesto de ingeniero de Big Data en Google o Apple, tu salario base podría superar los 230.000 dólares al año. Todo indica que las tendencias salariales de Big Data seguirán subiendo y alejándose del nivel salarial convencional de la ingeniería de datos. Beneficios de Big Data Si te preguntas por qué las empresas están dispuestas a pagar mucho más dinero por un ingeniero de Big Data, la respuesta es que también esperan mucho más a cambio. Big Data es algo más que grandes conjuntos de datos: es una herramienta que crea información de muy alto valor, que puede dar a las empresas una ventaja decisiva en su negocio o generar avances muy grandes en sus objetivos. Para explicar por qué, veamos algunos ejemplos: Negocios: El Big Data es una herramienta indispensable para entender el comportamiento de los consumidores y anticiparse a las tendencias del mercado. La integración y correlación de distintas fuentes de datos masivos -como detalles de compras y solicitudes de asistencia, informes de crédito, actividad en redes sociales y resultados de encuestas- ofrece perspectivas de mercado que sólo pueden obtenerse recopilando, procesando y analizando cantidades ingentes de información. Sanidad: Los macrodatos se han convertido en una herramienta vital para el sector sanitario. La monitorización en tiempo real de los datos de los sensores de los pacientes hospitalizados y el análisis predictivo del riesgo de los pacientes dados de alta son sólo dos ejemplos de las muchas aplicaciones de Big Data en este ámbito. Administración pública: El Big Data se utiliza para cosas como la identificación de patrones delictivos, la optimización del tráfico urbano y la gestión de crisis medioambientales. También se utiliza para detectar el fraude en la recaudación de impuestos y perfeccionar los programas de acercamiento al contribuyente. Finanzas: La detección del fraude es uno de los principales usos de Big Data en finanzas. Otros usos son la segmentación de clientes, la optimización de costes y la generación de modelos financieros predictivos. Minería, petróleo y gas: El uso intensivo de herramientas de Big Data para procesar grandes volúmenes de información sísmica y microsísmica proporciona ventajas decisivas en la exploración y descubrimiento de yacimientos minerales y petrolíferos. ¿Qué hace un ingeniero de Big Data? Un ingeniero de Big Data es básicamente un ingeniero de software que también debe tener un profundo conocimiento de la ingeniería de datos. Gran parte del trabajo de un ingeniero de Big Data consiste en diseñar e implementar sistemas de software capaces de recopilar y procesar volúmenes gigantescos de datos. Muchos de estos sistemas implican procesos de Extracción-Transformación-Carga (ETL), que utilizan conjuntos de reglas de negocio para limpiar y organizar los datos "en bruto" (sin procesar) y prepararlos para su almacenamiento y uso en procesos de análisis y aprendizaje automático (ML). Otras tareas de un ingeniero de Big Data son Diseñar arquitecturas adecuadas para manejar grandes volúmenes de datos, alineadas con los objetivos de negocio. Investigar nuevos métodos para mejorar la calidad y seguridad de los datos. Crear soluciones de datos basadas en ecosistemas de Big Data (véase más adelante) y sus herramientas de desarrollo y visualización. Colaborar con analistas de datos, científicos de datos y otros profesionales para facilitar el acceso y la visualización de los resultados de los procesos de Big Data. Existen áreas de responsabilidad comunes entre estos profesionales, por lo que merece la pena hacer una comparación entre el trabajo de un analista de datos y el de un ingeniero de datos. Habilidades y herramientas necesarias para convertirse en ingeniero de Big Data Un ingeniero de Big Data debe tener una licenciatura en un campo relacionado con la tecnología de la información (TI) o la ciencia de datos. Un máster en sistemas o analítica de Big Data puede ser de gran ayuda para conseguir puestos mejor remunerados y más oportunidades de promoción profesional. Al final de este artículo, sugiero algunas trayectorias profesionales para guiarte en tu camino para convertirte en ingeniero de Big Data. Más allá de su titulación, los ingenieros de Big Data deben poseer varias habilidades esenciales. Un conocimiento profundo de algoritmos, estructuras y determinados lenguajes de programación es fundamental. También lo es una comprensión básica de los sistemas distribuidos. Para trabajar con grandes volúmenes de datos y proporcionar un acceso eficaz a su información, el ingeniero de Big Data necesita habilidades y herramientas mucho más diversas que un ingeniero de datos convencional. Un ingeniero de datos convencional puede hacer carrera conociendo sólo SQL y gestionando los sistemas de gestión de bases de datos más populares. (Por cierto, si planeas conseguir un trabajo como programador de SQL, asegúrate de prepararte para la prueba de evaluación de SQL. Puede que quieras tener a mano nuestra hoja de trucos de conceptos básicos de SQL cuando no recuerdes los detalles de un comando SQL específico). Además de tener conocimientos de SQL para Big Data, un ingeniero de Big Data debe conocer las bases de datos NoSQL, los datos estructurados y no estructurados, los almacenes de datos (y sus variantes, como los data marts y los data lakes), y algo conocido como Big Data Frameworks. Veamos cómo influye cada una de estas habilidades en el trabajo diario de un ingeniero de Big Data. Big Data, SQL y bases de datos relacionales El lenguaje de consulta estructurado (SQL) nació con las bases de datos relacionales y está íntimamente ligado a ellas. Todo profesional con certificaciones convencionales en ingeniería de datos sabe que las bases de datos relacionales están diseñadas con el propósito principal de almacenar información estructurada y priorizar la preservación de la integridad de los datos en el procesamiento de transacciones. Esto las hace inadecuadas cuando las prioridades pasan a ser la escalabilidad, la velocidad de acceso y los flujos en tiempo real, que es lo que ocurre cuando se pasa de las bases de datos convencionales a los repositorios de Big Data. ¿Significa eso que aprender a trabajar con bases de datos SQL habrá sido en vano cuando te conviertas en ingeniero de Big Data? En absoluto. Los ingenieros de Big Data seguirán utilizando SQL en el análisis de datos durante muchos años. Así que el futuro del lenguaje SQL es brillante. Está tan extendido que se ha convertido en un estándar de facto para la gestión de datos, ya sean grandes o pequeños. Las nuevas tecnologías creadas especialmente para Big Data no pueden ignorar este hecho. Por eso, todas ofrecen herramientas de acceso a datos que permiten ver los repositorios de Big Data como si tuvieran una estructura de base de datos relacional. A continuación veremos algunas de las tecnologías basadas en SQL utilizadas en entornos Big Data. Bases de datos NoSQL NoSQL (que significa "no sólo SQL") es una familia de tecnologías de bases de datos cuyo objetivo es superar las limitaciones de las bases de datos relacionales y permitir la velocidad, el volumen y la variedad de Big Data explicados anteriormente. Por eso, a menudo son preferibles a las bases de datos relacionales para implementar soluciones de Big Data. Aunque las bases de datos NoSQL varían en sus formas de implementación, todas tienen algunas características compartidas: Sin esquema: Las bases de datos NoSQL pueden almacenar información sin necesidad de que la estructura de datos esté predefinida - a diferencia de las bases de datos relacionales, en las que el esquema (tablas y sus relaciones) debe definirse antes de que puedan poblarse con información. Escalabilidad: Varias arquitecturas de bases de datos NoSQL están diseñadas con la escalabilidad horizontal como principal objetivo. Esto significa que una base de datos NoSQL puede residir en un sistema de archivos distribuido (como el sistema de archivos distribuido Hadoop) que puede crecer en volumen de datos simplemente añadiéndole más nodos. En tiempo real: Varias implementaciones de bases de datos NoSQL (por ejemplo, Firebase, Redis o DynamoDB) destacan por su alto rendimiento, escalabilidad y disponibilidad; esto satisface las necesidades básicas de cualquier aplicación de datos en tiempo real. A pesar de su nombre, las bases de datos NoSQL utilizan dialectos de SQL, lo que refuerza la idea de que SQL sigue siendo relevante incluso cuando no se utilizan bases de datos relacionales. Almacenes de datos Los almacenes de datos surgieron hace varias décadas como una forma de recopilar información y centralizarla para su procesamiento analítico. Tienen algunas similitudes con el Big Data: ambas tecnologías están diseñadas para albergar grandes volúmenes de datos y garantizar la veracidad de la información. También garantizan la obtención de valor empresarial a partir de estos grandes volúmenes de información. La diferencia entre Big Data y data warehousing radica en que los almacenes de datos están diseñados para ser construidos sobre esquemas relacionales y alimentados con información procedente de sistemas transaccionales (que también se basan en bases de datos relacionales). No están preparados para manejar información no estructurada y menos aún para manejar datos en tiempo real. Aunque Big Data es una tecnología más moderna y completa que un almacén de datos, este último no desaparecerá ni quedará obsoleto. Ambas tecnologías son complementarias y resuelven casos de uso diferentes; si necesita realizar un tratamiento analítico de datos estructurados (por ejemplo, información de ventas o producción), un almacén de datos es la solución más aconsejable. Por otro lado, supongamos que necesita realizar un procesamiento analítico de información variada y no estructurada, como correos electrónicos, datos de redes sociales, registros de aplicaciones en tiempo real o resultados de encuestas. En ese caso, sin duda debe optar por una solución de Big Data. También existen tecnologías de almacén de datos que operan sobre repositorios de Big Data, tendiendo un puente entre ambas tecnologías. Una de las más populares es DBT, una herramienta de modelado/análisis de datos que se integra con proveedores de datos en la nube y ejecuta la transformación de datos dentro del almacén de datos. Plataformas y marcos de Big Data En las bases de datos relacionales, existe una entidad central denominada sistema de gestión de bases de datos relacionales o RDBMS, que reside en un servidor y gestiona la información almacenada en bases de datos con estructuras predefinidas (esquemas). El RDBMS proporciona mecanismos para consultar y actualizar la información que reside en las bases de datos, principalmente mediante comandos SQL. Todas las responsabilidades de almacenamiento y utilización de los datos recaen en el RDBMS monolítico. En Big Data, las responsabilidades se distribuyen entre diferentes entidades que se encargan del almacenamiento, procesamiento, coordinación y explotación de los datos. Hace poco más de una década, este concepto fue materializado por la Apache Software Foundation en un ecosistema denominado Hadoop. La pieza fundamental de cualquier ecosistema de Big Data (y de Hadoop en particular) es un sistema de ficheros capaz de almacenar cantidades masivas de información. Este sistema de archivos no puede depender de una única unidad física de almacenamiento. En su lugar, utiliza múltiples nodos capaces de trabajar coordinadamente para proporcionar escalabilidad, redundancia y tolerancia a fallos. En Hadoop, este sistema de archivos se denomina HDFS (Hadoop Distributed File System). El manejo de cantidades tan masivas de información requiere un modelo de programación basado en tareas capaces de ejecutarse en paralelo. Su ejecución se distribuye entre múltiples nodos de procesamiento. En Hadoop, este modelo de programación se denomina MapReduce y está basado en tecnología Java. Con tantos nodos de almacenamiento y procesamiento, hay una pieza que no puede faltar: un coordinador u orquestador que mantenga el orden en el ecosistema Big Data y asegure que cada tarea dispone de los recursos que necesita. En Hadoop, esta pieza se llama YARN (Yet Another Resource Negotiator). En cualquier ecosistema de Big Data, estas tres piezas básicas -almacenamiento, procesamiento y coordinación- se completan con herramientas que permiten explotar los datos que residen en el ecosistema. Muchas de estas herramientas se diseñaron para funcionar sobre Hadoop, complementando el ecosistema y mejorando algunas de sus carencias. Como nota al margen, cabe mencionar que Hadoop es la plataforma de Big Data más "veterana"; ha sido superada en varios aspectos por herramientas más nuevas y eficientes. Uno de los principales aspectos negativos de Hadoop que otras tecnologías han intentado solucionar es su elevada complejidad y costes de instalación, operación, puesta a punto y escalado. Cómo pilotar una plataforma de Big Data Volvamos al concepto de conductor de autobús y piloto de avión del principio de este artículo. Si usted es un ingeniero de datos convencional, probablemente esté acostumbrado a empezar cada día de trabajo abriendo su cliente SQL favorito, conectándose a las bases de datos con las que necesita trabajar y ejecutando comandos SQL. Es casi como el conductor de un autobús que gira la llave para arrancar el motor, abre la puerta para que suban los pasajeros y los transporta a su destino. Pero si usted es ingeniero de Big Data, está al timón de un gigantesco ecosistema de datos. Los datos y los procesos están distribuidos en cientos o miles de nodos que deben coordinarse cuidadosamente para ofrecer valor a los usuarios. Piense como el piloto de una aerolínea: antes de abrir las puertas para que los pasajeros embarquen y comiencen su viaje, debe asegurarse de que varios sistemas están plenamente operativos y funcionan de forma coordinada. La vida de sus pasajeros y la suya propia dependen de ello. ¿Está seguro de que quiere seguir el camino del piloto de avión? En la cabina Si todavía está leyendo esto, imagino que ha respondido afirmativamente a la pregunta anterior. Enhorabuena. Veamos el camino a seguir para que puedas convertirte en el piloto de una máquina de Big Data. En tu cabina podrás encontrar una enorme cantidad y variedad de herramientas diseñadas para la explotación de datos en repositorios Big Data. Tomemos sólo una de ellas llamada Hive. Se trata de un framework que permite manipular fácilmente grandes cantidades de datos con un lenguaje de consulta llamado HQL (HiveQL), que está basado en SQL. En concreto, HQL convierte comandos SQL en trabajos MapReduce para que puedan ejecutarse en un clúster Hadoop. El lenguaje de consulta Hive guarda muchas similitudes con el SQL estándar. Además del comando SELECT con todas sus cláusulas (WHERE, GROUP BY, ORDER BY, LIMIT, etc.), admite comandos DML (como INSERT, UPDATE y DELETE) y comandos DDL (como CREATE, ALTER y DROP) para gestionar un esquema de pseudotablas. Cuando se ejecuta un comando en Hive, como cualquier SELECT ... FROM ..., Hive no devuelve los resultados inmediatamente. En su lugar, envía un trabajo MapReduce a YARN. YARN se asegura de que el trabajo dispone de los recursos necesarios (procesamiento, almacenamiento, memoria) y lo pone en cola para su ejecución. Hive espera hasta que el trabajo se haya completado antes de enviarle los resultados de la consulta. Para ti, será como si hubieras ejecutado ese SELECT en tu cliente SQL favorito. Pero debajo, había toda una gigantesca maquinaria dando servicio a esa simple petición. Herramientas y plataformas de Big Data Hemos dicho que Hadoop es una plataforma antigua y que ha sido superada por otras más modernas y eficientes. Esto no quiere decir que Hadoop esté obsoleto. Lo bueno del Big Data es que sus tecnologías nacieron en el mundo del código abierto, por lo que la evolución de los ecosistemas de Big Data es rápida y constante. Además de varias grandes empresas, existen comunidades de desarrolladores que se encargan de impulsar esta evolución, partiendo de soluciones ya existentes y mejorándolas y complementándolas constantemente. A continuación se detallan algunas de las herramientas y tecnologías que se perfilan como las apuestas de aprendizaje más seguras para afianzarse en la ingeniería Big Data. Spark Spark surgió en 2014 para hacer frente a las limitaciones de rendimiento de MapReduce. Su principal optimización era su capacidad para ejecutarse en clústeres en memoria en lugar de almacenar los resultados en disco. Spark es compatible con varios lenguajes comunes (Python, Java, Scala y R) e incluye bibliotecas para una gran variedad de tareas, desde SQL hasta streaming y aprendizaje automático. Puede ejecutarse en un ordenador portátil o en un clúster con miles de servidores. Esto hace que sea fácil empezar con una pequeña implementación y escalar hasta el procesamiento masivo de datos en una amplia gama de aplicaciones. Aunque Spark se diseñó para ejecutarse en múltiples gestores de clúster, históricamente se utilizaba principalmente con YARN y se integraba en la mayoría de las distribuciones de Hadoop. A lo largo de los años, ha habido múltiples iteraciones importantes de Spark. Con el auge de Kubernetes como mecanismo popular de programación, Spark se ha convertido en un ciudadano de primera clase de Kubernetes y recientemente ha eliminado su dependencia de Hadoop. Para el usuario, Apache Spark expone un ecosistema de componentes adaptados a diferentes casos de uso. El componente central es Spark Core, el motor de ejecución de la plataforma Spark que proporciona la infraestructura para la computación en memoria, así como funciones básicas de E/S, programación, monitorización y gestión de fallos. Alrededor de Spark Core hay componentes con funciones más específicas, como Spark SQL, Spark Streaming, MLlib, SparkR y GraphX. Flink Apache Flink es un motor de procesamiento de datos de alto rendimiento y baja latencia que prioriza el cálculo en memoria, la alta disponibilidad, la eliminación de puntos únicos de fallo y la escalabilidad horizontal. Flink proporciona algoritmos y estructuras de datos para soportar tanto el procesamiento acotado como el no acotado, todo ello a través de una única interfaz de programación. Las aplicaciones que procesan datos no limitados se ejecutan de forma continua, mientras que las que procesan datos limitados finalizan su ejecución cuando consumen todos sus datos de entrada. Storm Apache Storm facilita el procesamiento fiable de flujos ilimitados de datos, haciendo para el procesamiento en tiempo real lo que Hadoop hizo para el procesamiento por lotes. Sus principales cualidades son la sencillez, la posibilidad de utilizarlo con cualquier lenguaje de programación y un enfoque de la manipulación de datos fácil de usar para los desarrolladores. Los casos de uso de Storm incluyen análisis en tiempo real, aprendizaje automático en línea, computación continua, RPC distribuido (llamadas a procedimientos remotos) y ETL. Es uno de los motores de ejecución de Big Data más rápidos, con más de un millón de tuplas procesadas por segundo y nodo. Otras de sus cualidades son la alta escalabilidad, la tolerancia a fallos, el procesamiento de datos garantizado y la facilidad de configuración y uso. Cassandra Apache Cassandra es una base de datos NoSQL orientada a columnas especialmente diseñada para Big Data. Gracias al uso de almacenamiento en columnas anchas, es capaz de manejar grandes cantidades de datos a través de clusters de servidores commodity, proporcionando una alta disponibilidad sin puntos únicos de fallo. Cassandra emplea una arquitectura peer-to-peer que facilita la distribución de datos, lo que le permite escalar horizontalmente y manejar fácilmente cantidades crecientes de datos y tráfico. Además, ofrece consistencia escalable, lo que significa que los clientes pueden elegir el nivel exacto de consistencia que necesitan para cada operación. Pig Apache Pig es una plataforma de alto nivel utilizada para crear programas MapReduce que se ejecutan sobre Hadoop. Utiliza un lenguaje de scripting sencillo llamado Pig Latin. Este lenguaje permite a los desarrolladores escribir tareas complejas de procesamiento de datos de forma concisa y sencilla, abstrayéndolas de las complejidades de MapReduce y proporcionando algunas similitudes con SQL. Los desarrolladores pueden ampliar la funcionalidad de Pig Latin con UDF (funciones definidas por el usuario) que pueden escribirse en otros lenguajes como Java, Python, JavaScript o Ruby. El motor Pig traduce los scripts de Pig Latin en una serie de tareas MapReduce que pueden ejecutarse en clusters Hadoop, lo que les permite manejar grandes cantidades de datos. BigQuery BigQuery es un almacén de datos a escala de petabytes, de bajo coste y sin servidor que forma parte de Google Cloud Platform. Se trata de un servicio totalmente gestionado, lo que significa que sus usuarios no tienen que preocuparse por los recursos de almacenamiento, procesamiento o red. Desde su lanzamiento en 2010, Google Big Query ha ganado adeptos en organizaciones que necesitan analizar grandes cantidades de información rápidamente y comparar sus resultados con datos estadísticos disponibles públicamente. Hoy en día, muchas organizaciones exigen conocimientos de BigQuery a sus candidatos para puestos relacionados con los datos. Una parte importante de BigQuery son sus funciones ventana, también llamadas funciones analíticas o funciones OVER; éstas forman parte del estándar SQL desde 2003. Aprender a utilizar las funciones ventana en Google Big Query es un activo importante para un analista de datos o un puesto similar. He aquí algunos recursos útiles: Sintaxis SQL de Google BigQuery: Guía completa ¿Por qué se necesita SQL para trabajar con Google BigQuery? Visión general de las funciones de texto SQL en Google BigQuery Tus próximos pasos para convertirte en ingeniero de Big Data Como hemos comentado anteriormente, la mayoría de los ingenieros de datos tienen al menos una licenciatura en un campo de TI o de datos. A continuación, puede cursar un máster en Big Data, eligiendo una de las docenas disponibles en línea. También hay disponibles cientos de cursos y certificaciones en Big Data, muchos de ellos proporcionados directamente por empresas tecnológicas como Google o IBM. Y lo que es más importante, muchos de ellos son gratuitos. También es una buena idea mantener al día tus conocimientos de SQL, para lo que te recomiendo que aproveches nuestro paquete SQL de Todo, para siempre . Te permite acceder a todos los cursos actuales y futuros de LearnSQL.es, lo que garantiza tu conocimiento de los principales dialectos de SQL y te ofrece miles de ejercicios prácticos interactivos. Una vez que tengas conocimientos básicos de Big Data -aunque aún no hayas obtenido suficientes diplomas y certificaciones para llenar tu currículum- podrás empezar a acumular experiencia trabajando en proyectos de Big Data del mundo real. Para ello, necesitarás grandes repositorios de Big Data, y eso no es algo que puedas construir por tu cuenta. Afortunadamente, existen multitud de conjuntos de Big Data de uso gratuito a los que puede recurrir para poner en práctica sus conocimientos. El mundo de Big Data evoluciona constantemente, así que no crea que puede sentarse y relajarse una vez que haya acumulado suficientes títulos, certificaciones y horas de práctica. Tendrá que mantenerse al día, leyendo blogs, siguiendo a personas influyentes en Big Data y participando activamente en comunidades de entusiastas de Big Data. Quién sabe, quizá te conviertas tú mismo en un gurú de los datos que ayude al mundo a hacer un mejor uso de las gigantescas cantidades de información que circulan por sus redes. Tags: carrera en ciencia de datos ingeniería de datos