7
esta misma etapa, se podría incorporar la preservación de
emoticones puesto que encapsulan sentimientos y
reacciones. Un problema frecuente es el uso del lenguaje
figurativo que utiliza recursos como sarcasmo, ironía y
metáforas, los cuales pueden afectar la clasificación del
sentimiento (Ghosh et al., 2015). Como solución, se
sugiere incorporar modelos basados en léxico de
detección de ironía que consideran contenido emocional y
psicológico (Hernández-Farías et al., 2016). Incorporando
estos trabajos futuros, el proceso propuesto se vuelve más
robusto y óptimo. Brindando un programa útil en diversas
aplicaciones políticas como ser análisis de satisfacción
ciudadana, predicciones electorales e identificación de
amenazas.
La principal delimitación del enfoque propuesto es el
requerimiento de un etiquetado manual de los datos de
entrenamiento, lo que restringe el tamaño de muestra
disponible. Existen bases de datos previamente generadas
con este fin, pero no en el contexto de Honduras. Otra
alternativa para ello es utilizar técnicas de aprendizaje no
supervisado, sin embargo, esto no permitiría medir el
rendimiento.
5. Conclusión
Se desarrolló un proceso de análisis automático de
sentimiento en tuits de política de Honduras, mediante la
comparación del rendimiento de técnicas de aprendizaje
de máquina supervisado. Estos métodos incluyeron SVM
lineal, regresión logística y MNB. El proceso presentado
abarca la recolección de datos, el etiquetado y
preprocesamiento de datos, el procesamiento del lenguaje
natural con BOW y TF-IDF y los métodos automatizados.
Concluyendo que el MNB fue el método más efectivo
para el conjunto de datos recolectado por sus resultados
de F1 y reducido tiempo de entrenamiento. Sin embargo,
la brecha de rendimiento entre clasificadores fue reducida.
6. Contribución de los Autores
AF y SS realizaron la recolección, preprocesamiento y
etiquetado de datos. NR hizo la experimentación y
elaboración del manuscrito. Todos los autores leyeron y
aprobaron la última versión del manuscrito.
7. Reconocimientos
Al Ph.D. Kenny Dávila por su asesoría en el desarrollo
del proyecto y elaboración del manuscrito.
8. Conflictos de Interés
Los autores declaran no tener ningún conflicto de
interés.
9. Referencias Bibliográficas
Appel, O., Chiclana, F., & Carter, J. (2015). Main concepts, state of the
art and future research questions in sentiment analysis. Acta
Polytechnica Hungarica, 12(3).
https://dx.doi.org/10.12700/APH.12.3.2015.3.6
Baviera, T. (2017). Técnicas para el análisis del sentimiento en Twitter:
aprendizaje automático supervisado y sentistrength. Dígitos, 1(3),
33-50. https://revistadigitos.com/index.php/digitos/article/view/74
Bibi, M., Abbasi, W. A., Aziz, W., Khalil, S., Uddin, M., Iwendi, C., &
Gadekallu, T. R. (2022). A novel unsupervised ensemble framework
using concept-based linguistic methods and machine learning for
twitter sentiment analysis. Pattern Recognition Letters, 158.
https://dx.doi.org/10.1016/j.patrec.2022.04.004
Boiy, E., & Moens, M.-F. (2009). A machine learning approach to
sentiment analysis in multilingual Web texts. Information Retrieval,
12, 526-558. https://dx.doi.org/10.1007/s10791-008-9070-z
Chang, C.-H., Monselise, M., & Yang, C. C. (2021). What are people
concerned about during the pandemic? Detecting evolving topics
about COVID-19 from Twitter. Journal of Healthcare Informatics
Research, 5, 70-97. https://dx.doi.org/10.1007/s41666-020-00083-3
Chauhan, P., Sharma, N., & Sikka, G. (2021). The emergence of social
media data and sentiment analysis in election prediction. Journal of
Ambient Intelligence and Humanized Computing, 12, 2601-2627.
https://dx.doi.org/10.1007/s12652-020-02423-y
Chew, C., & Eysenbach, G. (2010). Pandemics in the age of Twitter:
content analysis of Tweets during the 2009 H1N1 outbreak. PLOS
ONE, 5(11), e14118.
https://dx.doi.org/10.1371/journal.pone.0014118
Cotarelo, R. (2013). Ciberpolítica. Las nuevas formas de acción y
comunicación políticas (1er. ed.). Tirant Humanidades.
Devika, M. D., Sunitha, C., & Ganesh, A. (2016). Sentiment analysis: a
comparative study on different approaches. Procedia Computer
Science, 87, 44-49. https://dx.doi.org/10.1016/j.procs.2016.05.124
Ghosh, A., Li, G., Veale, T., Rosso, P., Shutova, E., Barnden, J., & Reyes,
A. (2015). Sentiment analysis of figurative language in Twitter.
Proceedings of the 9th International Workshop on Semantic
Evaluation (SemEval 2015), 470-478.
https://dx.doi.org/10.18653/v1/S15-2080
Giachanou, A., & Crestani, F. (2016). Like it or not: a survey of Twitter
sentiment analysis methods. ACM Computing Surveys, 49(2), 1-41.
https://dx.doi.org/10.1145/2938640
HaCohen-Kerner, Y., Miller, D., & Yigal, Y. (2020). The influence of
preprocessing on text classification using a bag-of-words
representation. PLOS ONE, 15(5), e0232525.
https://dx.doi.org/10.1371/journal.pone.0232525
Hernańdez-Farías, D. I., Patti, V., & Rosso, P. (2016). Irony detection in
Twitter: the role of affective content. ACM Transactions on Internet
Technology, 16(3), 1-24. https://dx.doi.org/10.1145/2930663
Hu, M., & Liu, B. (2004). Mining and summarizing customer reviews.
Proceedings of the Tenth ACM SIGKDD International Conference
on Knowledge Discovery and Data Mining, 168-177.
https://dx.doi.org/10.1145/1014052.1014073
Indurkhya, N., & Damerau, F. J. (2010). Handbook of natural language
processing (2do. ed.). Taylor & Francis.
Internet Live Stats. (2022). Twitter Usage Statistics.
https://www.internetlivestats.com/twitter-statistics/
Jungherr, A. (2015). Analyzing political communication with digital
trace data: The role of twitter messages in social science research.
Springer.
Kepios. (2022, julio). The k Twitter statistics: everything you need to
now. DataReportal – Global Digital Insights.
https://datareportal.com/essential-twitter-stats