Postagens

Mostrando postagens de 2021

Criando um data source personalizado para o Apache Spark

Imagem
O Spark é uma ferramenta de processamento para grandes volumes de dados que permite o uso de diversas fontes de dados. É uma plataforma muito flexível, onde conseguimos ler e escrever arquivos em diversos formatos (CSV, JSON, Parquet, etc.), bancos de dados (MySQL, SQL Server, DynamoDB, etc.) e até ferramentas de streaming / mensageria (Kafka, etc.). Esses providers podem ser adicionados como bibliotecas externas ao Spark e, caso você não encontre nenhum que atenda os seus requisitos, o Spark permite a criação dos seus próprios data sources implementando a API DataSourceV2, introduzida na versão 2.3 do Spark. É com a ideia de exercitar esse conceito que eu resolvi criar um data source para escrever em uma fila da AWS (SQS). O código fonte pode ser encontrado em  https://github.com/fabiogouw/spark-aws-messaging e o componente foi disponibilizado como uma biblioteca pública no repositório central do Maven . Criando seu próprio data source O diagrama abaixo mostra as classes que foram ne

.NET com Apache Spark

Imagem
Olá, pessoal! Este final de semana tive a honra de participar de uma live no canal DX Lab para falar um pouco sobre Apache Spark e como podemos utilizar .NET com essa ferramenta. Sim, não é apenas de Scala e Python que vive essa plataforma de processamento distribuído que é o Spark! No vídeo, comentamos um pouco dos cenários de uso onde o Spark nos auxilia, um pouco da sua arquitetura e demonstramos dois exemplos de uso: um para processamento batch (ETL) e outro para processamento de fluxo contínuo de eventos (streaming). []'s

Impressões sobre a prova SAA-C02 (AWS Solutions Architect Associate)

Há algumas semanas atrás eu passei na prova de certificação de arquiteto da AWS, a SAA-C02, e como de costume eu gostaria de relatar aqui as impressões que eu tive com a prova pra ajudar um pouco quem está se preparando para tirar este exame. Meu objetivo aqui não é fazer uma análise profunda dos tópicos e das questões, mas sim passar alguns pontos que entendo serem importantes receber um reforço e atenção durante os estudos. Estrutura da Prova Como várias provas de certificação, o exame consiste em questões do tipo múltipla escolha, a maioria delas com apenas uma alternativa correta, mas outras com mais de uma opção para selecionar. Não existe separação de seções na prova, ou seja, não existem partes da prova que você não consiga voltar quando terminar de responder todas as questões e for começar as revisões. Tópicos Relacionados Todo o material requisitado para a prova pode ser consultado neste link  https://aws.amazon.com/pt/certification/certified-solutions-architect-associate/ . D