Gradient Boosting x
Modelos de IA Generativa

em Cenários de Produção

Muitas pessoas me procuram para saber o que estudar e trabalhar com ciência de dados e machine learning. Porém é comum o interesse em modelos de IA generativa. Apesar do hype ao redor dos métodos de IA, impulsionados principalmente pelo ChatGPT e outros modelos da OpenAI, as Gradient Boosting Machines (GBMs) seguem sendo uma das abordagens mais utilizadas no campo da ciência de dados e machine learning. 

Os métodos XGBoost, LightGBM e Catboost na prática alcançam excelentes resultados em uma variedade de cenários. De fato, esses métodos estão envolvidos em inúmeras vitórias em competições de machine learning, como as realizadas pela Kaggle, que também mostra seu amplo uso na Kaggle Data Science & ML Survey 2022. Uma das grandes vantagens é que esses modelos geram como saída não apenas um score, mas também é possível saber quais fatores ou atributos foram usados para a tomada de decisão pelo modelo.

Além disso, no mercado, GBMs são muitas vezes preferidos por seu baixo custo de implantação em produção. Diferente dos métodos de Inteligência Artificial Generativa que surgiram recentemente e estão na moda, os GBMs possuem um custo computacional significativamente mais baixo e requerem menos recursos para treinamento e inferência.

O Custo da Inferência: GBMs x Modelos de Linguagem de Grande Escala (LLMs)

Ao comparar os custos de inferência entre modelos rasos como GBMs, contra as LLMs (como o GPT entre outros), a diferença é gritante:

   • GBMs: um modelo que processa um volume moderado de dados (digamos, 500 elementos de entrada), o custo estimado de inferência em um ambiente de produção está entre 0,0001 a 0,0005 dólares por predição. Isso ocorre porque os GBMs são leves em termos de uso de memória e CPU, sendo mais rápidos para entregar resultados. O tempo de resposta também é baixo permitindo aplicações online (em que a resposta precisa ser dada para a conclusão de uma operação), sendo possíveis respostas entre 50 e 100ms.

   • LLMs (Modelos de Linguagem de Grande Escala): para inferir uma entrada de 500 tokens, mais o overhead necessário da entrada, o custo pode variar dependendo da arquitetura e do tamanho do modelo, mas pode custar entre 0,01 a 0,5 dólar por predição, ou seja de 10 a 100 vezes mais. Esses modelos demandam não apenas mais poder de processamento, mas também GPUs especializadas, o que aumenta substancialmente o custo de produção. Os tempos também não ajudam aqui, e atualmente esses modelos não seriam adequados para aplicações online de larga escala.

 

Individualmente o valor pode parecer baixo. Porém numa empresa como o Mercado Livre, é comum processar 200 transações por segundo em alguns produtos. Considerando um exemplo de 250 mil transações num dia, um modelo GBM gastaria 425 dólares para processar esses dados, enquanto se deixamos a cargo de uma LLM esse valor sobe para 12,5 mil dólares. 

Conclusão

Assim, embora a indústria esteja explorando cada vez mais as fronteiras da inteligência artificial generativa, os Gradient Boosting Machines continuam a ser uma escolha sólida e altamente eficiente para muitos casos de uso do mundo real. Os GBMs são uma solução comprovada, enquanto os LLMs devem ser utilizados com cautela, especialmente em cenários onde o orçamento para recursos computacionais é limitado.