Abstract:
This article conducts a comparative analysis of classification algorithms and natural
language processing (NLP) techniques for text mining on social network X (formerly
Twitter). The study aims to identify the most effective combination of classification
algorithm and NLP techniques, employing methods like Bag of Words, TF-IDF,
lemmatization, and stemming, in conjunction with Logistic Regression, Naive Bayes,
and Support Vector Machine (SVM) algorithms. Through rigorous methodology, the
research compares the efficacies of these techniques and algorithms, offering
practical insights applicable in various fields ranging from digital marketing to
sentiment analysis and public opinion research. The findings highlight the superiority
of the Logistic Regression model, particularly when combined with the Bag of Words
technique and lemmatization approach, proving to be a robust strategy for sentiment
classification in tweets across multiple languages.
Description:
Este artigo apresenta uma análise comparativa de algoritmos de classificação e
técnicas de processamento de linguagem natural (PLN) aplicadas à mineração de
textos na rede social X (anteriormente conhecida como Twitter). A pesquisa foca em
identificar a combinação mais eficaz de algoritmo de classificação e técnicas de
PLN, utilizando métodos como Bag of Words, TF-IDF, lematização e stemização,
junto com algoritmos Logistic Regression, Naive Bayes e Support Vector Machine
(SVM). Através de uma metodologia rigorosa, o estudo compara as eficácias dessas
técnicas e algoritmos, fornecendo insights práticos aplicáveis em diversas
disciplinas, desde marketing digital até análise de sentimentos e opinião pública. Os
resultados destacam a superioridade do modelo Logistic Regression, especialmente
quando combinado com a técnica de Bag of Words e a abordagem de lematização,
demonstrando ser uma prática robusta para classificação de sentimentos em tweets
em múltiplos idiomas.