23 JULY / TUESDAY / 14:12
FCUP PT 
 EN
 
 
INFORMATION
STAFF
EDUCATION
RESEARCH
LIBRARY
NEWS
CONTACTS

Algortimos Paralelos de Indução de Árvores de Decisão

Nuno Reis Amado

Mestrado em Inteligência Artificial e Computação
Universidade do Porto

Janeiro 2002


Resumo

Actualmente, nos campos da Extracção do Conhecimento e da Aprendizagem Automática a quantidade de dados disponível para a construção de procedimentos de classificação está a crescer a um ritmo bastante rápido. Para a construção de um procedimento de classificação, uma maior quantidade de dados aumenta a possibilidade de se obterem procedimentos com maior precisão de classificação. Contudo, também implica um custo maior no tempo e na complexidade de obtenção de tais classificadores. Desta forma, existe uma grande necessidade de algoritmos capazes de construir classificadores a partir de conjuntos de dados bastante grandes e, simultaneamente, serem computacionalmente eficientes e escalonáveis. Uma possível solução é a utilização de algoritmos paralelos de forma a reduzir a quantidade de tempo utilizada na construção de procedimentos de classificação a partir de conjuntos de dados bastante grandes e, desta forma, manter a precisão de classificação.

Neste trabalho, são apenas considerados os procedimentos de classificação baseados em árvores de decisão dado que estas têm sido extensamente utilizadas em diversas áreas e têm sido consideradas como os modelos mais adequados para a extracção do conhecimento e para a Aprendizagem Automática. São descritas algumas das estratégias utilizadas para a implementação de algoritmos de indução de árvores de decisão em paralelo baseados em técnicas como o paralelismo de controlo, paralelismo nos dados e paralelismo híbrido.

Algumas das ideias e estratégias apresentadas, assim como o algoritmo de indução de árvores de decisão do sistema C4.5, serviram como suporte para o desenvolvimento de um novo algoritmo paralelo de construção de árvores de decisão, à sua implementação usando MPI e análise de desempenho num cluster de memória distribuída.


FCUP 2024