02/07/2018

Gerência de Dados Complexos em Larga Escala

Responsáveis: Robson Leonardo Ferreira Cordeiro e José Fernando Rodrigues Junior

Resumo: Apresentação de fundamento em BigData, que poderia abordar a teoria do porque o Google adotou a troca dos paradigmas tradicionais de software que são “Fetch Architecture” (pilha tradicional storage + db relacional + app server) e “Schema on Write” para lidar em BigData usando “Locality strategy” (aplicação vai até onde o dado está) e “Schema on Read”, assim, resolvendo problemas maiores com menor custo. Demonstrar como o Hadoop surgiu da observação dos papers do Google, o que cada componente pretende resolver para lidar com dados em larga escala. É possível abordar também como evoluiu o processamento em clusters, demonstrando como funciona o MapReduce e a evolução para jobs mais abrangentes usando Spark que vão além do MapReduce comum e permitem uso de cache de dados em memória, programação interativa e construção de algoritmos iterativos favorecendo a execução de Machine Learning.

Machine Learning em streaming de dados, permitindo demonstrar que modelos e predições podem rodar em paralelo, permitindo que o modelo se “molde” conforme os dados são recebidos em tempo “near realtime”. A tecnologia empregada seria Kafka, Spark Streaming, Spark Structured Streaming, Spark ML, com diversos algoritmos, podendo ser em classificação, regressão ou agrupamento.