Subset modelling: A domain partitioning strategy for data-efficient machine-learning

machine learning
Autores

Vitor Ribeiro

Eduardo Pena

Raphael Saldanha

Reza Akbarinia

Patrick Valduriez

Falaah Khan

Julia Stoyanovich

Fabio Porto

Data de Publicação

25 de setembro de 2023

Referência

RIBEIRO, V. et al. Subset Modelling: A Domain Partitioning Strategy for Data-Efficient Machine-Learning. Anais Do XXXVIII Simpósio Brasileiro de Bancos de Dados. Anais...Porto Alegre, RS, Brasil: SBC, 2023.

Resumo

O sucesso de sistemas de aprendizado de máquina (ML) depende da disponibilidade, volume e qualidade dos dados, além de recursos computacionais eficientes. Um desafio nesse contexto é reduzir custos computacionais mantendo uma acurácia adequada dos modelos. Este artigo apresenta um arcabouço para enfrentar esse desafio. A ideia é identificar “subdomínios” no espaço de entrada e treinar modelos locais que produzam melhores predições para amostras daquele subdomínio específico, em vez de treinar um único modelo global com a base completa. Avaliamos experimentalmente nossa abordagem em duas bases de dados reais. Nossos resultados indicam que a modelagem por subconjuntos (i) melhora o desempenho preditivo em comparação com um único modelo global e (ii) permite treinamento eficiente em termos de dados.

De volta ao topo