Alteração de um sistema de processamento de dados em batch para stream

CAMPOS, Pedro Felipe Bellini de

Use este identificador para citar ou linkar para este item: https://ric.cps.sp.gov.br/handle/123456789/38000

Título:	Alteração de um sistema de processamento de dados em batch para stream
Autor(es):	CAMPOS, Pedro Felipe Bellini de
Orientador(es):	MACEDO, Rita de Cássia Catini de
Outro(s) contribuidor(es):	MACEDO, Rita de Cássia Catini de MACEDO, Paulo Cesar de ARMELIN, Sandro Roberto
Tipo documental:	Monografia
Palavras-chave:	Desenvolvimento de software;Tecnologia da comunicação
Data do documento:	7-Dez-2024
Editor:	163
Referência Bibliográfica:	CAMPOS, Pedro Felipe Bellini de. Alteração de um sistema de processamento de dados em batch para stream. 2024. Trabalho de Graduação (Curso de Tecnologia de Análise e Desenvolvimento de Sistemas) – Faculdade de Tecnologia de Mogi Mirim, Mogi Mirim, 2024.
Resumo:	A VOLL, uma empresa de gestão de despesas e viagens corporativas, busca modernizar seu pipeline de dados para atender à demanda de clientes por informações em tempo real e aproveitar oportunidades em modelos preditivos, como detecção de fraudes e identificação de novas oportunidades de vendas. Atualmente, os dados são processados em batch a partir de backups diários do banco MongoDB, utilizando Apache Spark, o que limita a frequência de atualização e introduz riscos de falhas no processo. A solução proposta elimina a dependência do banco transacional e dos backups, utilizando Apache Flink integrado ao Kafka para processar dados continuamente e com baixa latência. O novo sistema lê dados diretamente dos tópicos do Kafka, processa-os em tempo real e salva os resultados no BigQuery. Desenvolvido em Scala, o projeto inclui desserialização, manipulação e cruzamento de dados em múltiplas streams, além de serialização em formato Avro, garantindo compatibilidade com o BigQuery. A solução opera de forma robusta e segura, utilizando recursos gerenciados do Google Cloud Platform, como monitoramento, escalabilidade e sistemas de tolerância a falhas, assegurando alta disponibilidade e continuidade do serviço. Essa modernização não só aumenta a frequência e a confiabilidade dos dados para análises e relatórios, mas também posiciona a VOLL como uma empresa com infraestrutura tecnológica avançada, pronta para expandir suas capacidades de inteligência de negócios e inovação. VOLL, a corporate expense and travel management company, aims to modernize its data pipeline to meet customer demand for real-time information and leverage opportunities in predictive models, such as fraud detection and identifying new sales opportunities. Currently, data is processed in batch mode from daily backups of the MongoDB database using Apache Spark, which limits the update frequency and introduces risks of process failures. The proposed solution eliminates dependence on the transactional database and backups by using Apache Flink integrated with Kafka to process data continuously with low latency. The new system reads data directly from Kafka topics, processes it in real-time, and saves the results in BigQuery. Developed in Scala, the project includes deserialization, manipulation, and joining of data from multiple streams, as well as serialization in Avro format, ensuring compatibility with BigQuery. The solution operates robustly and securely, leveraging managed resources from Google Cloud Platform, such as monitoring, scalability, and fault-tolerant systems, ensuring high availability and service continuity. This modernization not only increases the frequency and reliability of data for analysis and reporting but also positions VOLL as a company with advanced technological infrastructure, ready to expand its business intelligence and innovation capabilities.
URI:	https://ric.cps.sp.gov.br/handle/123456789/38000
Aparece nas coleções:	Trabalhos de Conclusão de Curso

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
TG2 - Bacth para Stream.pdf Restricted Access	TG - Bacth para Stream	1.83 MB	Adobe PDF	Visualizar/Abrir Solictar uma cópia

Mostrar registro completo do item Recomendar este item Visualizar estatísticas