Use este identificador para citar ou linkar para este item:
https://ric.cps.sp.gov.br/handle/123456789/38000| Título: | Alteração de um sistema de processamento de dados em batch para stream |
| Autor(es): | CAMPOS, Pedro Felipe Bellini de |
| Orientador(es): | MACEDO, Rita de Cássia Catini de |
| Outro(s) contribuidor(es): | MACEDO, Rita de Cássia Catini de MACEDO, Paulo Cesar de ARMELIN, Sandro Roberto |
| Tipo documental: | Monografia |
| Palavras-chave: | Desenvolvimento de software;Tecnologia da comunicação |
| Data do documento: | 7-Dez-2024 |
| Editor: | 163 |
| Referência Bibliográfica: | CAMPOS, Pedro Felipe Bellini de. Alteração de um sistema de processamento de dados em batch para stream. 2024. Trabalho de Graduação (Curso de Tecnologia de Análise e Desenvolvimento de Sistemas) – Faculdade de Tecnologia de Mogi Mirim, Mogi Mirim, 2024. |
| Resumo: | A VOLL, uma empresa de gestão de despesas e viagens corporativas, busca
modernizar seu pipeline de dados para atender à demanda de clientes por
informações em tempo real e aproveitar oportunidades em modelos preditivos, como
detecção de fraudes e identificação de novas oportunidades de vendas. Atualmente,
os dados são processados em batch a partir de backups diários do banco MongoDB,
utilizando Apache Spark, o que limita a frequência de atualização e introduz riscos de
falhas no processo. A solução proposta elimina a dependência do banco transacional
e dos backups, utilizando Apache Flink integrado ao Kafka para processar dados
continuamente e com baixa latência. O novo sistema lê dados diretamente dos tópicos
do Kafka, processa-os em tempo real e salva os resultados no BigQuery.
Desenvolvido em Scala, o projeto inclui desserialização, manipulação e cruzamento
de dados em múltiplas streams, além de serialização em formato Avro, garantindo
compatibilidade com o BigQuery. A solução opera de forma robusta e segura,
utilizando recursos gerenciados do Google Cloud Platform, como monitoramento,
escalabilidade e sistemas de tolerância a falhas, assegurando alta disponibilidade e
continuidade do serviço. Essa modernização não só aumenta a frequência e a
confiabilidade dos dados para análises e relatórios, mas também posiciona a VOLL
como uma empresa com infraestrutura tecnológica avançada, pronta para expandir
suas capacidades de inteligência de negócios e inovação. VOLL, a corporate expense and travel management company, aims to modernize its data pipeline to meet customer demand for real-time information and leverage opportunities in predictive models, such as fraud detection and identifying new sales opportunities. Currently, data is processed in batch mode from daily backups of the MongoDB database using Apache Spark, which limits the update frequency and introduces risks of process failures. The proposed solution eliminates dependence on the transactional database and backups by using Apache Flink integrated with Kafka to process data continuously with low latency. The new system reads data directly from Kafka topics, processes it in real-time, and saves the results in BigQuery. Developed in Scala, the project includes deserialization, manipulation, and joining of data from multiple streams, as well as serialization in Avro format, ensuring compatibility with BigQuery. The solution operates robustly and securely, leveraging managed resources from Google Cloud Platform, such as monitoring, scalability, and fault-tolerant systems, ensuring high availability and service continuity. This modernization not only increases the frequency and reliability of data for analysis and reporting but also positions VOLL as a company with advanced technological infrastructure, ready to expand its business intelligence and innovation capabilities. |
| URI: | https://ric.cps.sp.gov.br/handle/123456789/38000 |
| Aparece nas coleções: | Trabalhos de Conclusão de Curso |
Arquivos associados a este item:
| Arquivo | Descrição | Tamanho | Formato | |
|---|---|---|---|---|
| TG2 - Bacth para Stream.pdf Restricted Access | TG - Bacth para Stream | 1.83 MB | Adobe PDF | Visualizar/Abrir Solictar uma cópia |
Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.