Минск, Беларусь
Рассматривается специфика регламентации сентимент-анализа как актуального направления автоматизированной обработки естественного языка. Цель – охарактеризовать лингвистический потенциал регламентации предобработки языкового материала. Связанная с этим деятельность характеризуется значимыми достижениями практического характера, однако ее теоретическое обоснование недостаточно упорядоченно и дискуссионно. Несмотря на динамичное развитие множества направлений сферы информационных технологий, принципиальные основы такой деятельности по-прежнему тесно коррелируют с лингвистической системой знаний. Практически безальтернативен методологический приоритет прикладной традиции языкознания с учетом интердисциплинарной специфики сферы современной коммуникации. Комплексный характер исследования во многом обеспечен разносторонним инструментарием компьютерной лингвистики. Сложность проблемной области обуславливает ориентацию метаописания на алгоритмизацию и моделирование процедуры оценки тональности текста. Результативность процедуры существенно детерминирована ее оптимальной конфигурацией. Обоснованной представляется регламентация процедуры предобработки материала с последовательным выявлением метаструктуры, определением референтности, уровневой ориентацией и выбором модели анализа. Описаны основные шаги алгоритма предобработки и их особенности, выявлена и охарактеризована специфика соответствующей практики. Исследование будет способствовать продуктивной теоретической рефлексии и оптимизации практической деятельности по оценке тональности текста, или сентимент-анализу. В широком контексте целесообразное раскрытие лингвистического потенциала актуально для всей сферы автоматизированной обработки естественного языка.
сентимент-анализ, автоматизированная обработка, естественный язык, лингвистическая специфика, регламентация, предобработка, модель, алгоритм
1. Баркович А. А. Интернет-дискурс: метаязыковые модели практики. Вестник Волгоградского государственного университета. Серия 2, Языкознание. 2015. № 5. С. 171-183. https://doi.org/10.15688/jvolsu2.2015.5.21
2. Большакова Е. И., Клышинский Э. С., Ландэ Д. В., Носков А. А., Пескова О. В., Ягунова Е. В. Автоматическая обработка текстов на естественном языке и компьютерная лингвистика. М.: МИЭМ, 2011. 272 с. https://elibrary.ru/tdhfwd
3. Котельников Е. В., Разова Е. В., Котельникова А. В., Вычегжанин С. В. Современные словари оценочной лексики для анализа мнений на русском и английском языках (аналитический обзор). Научно-техническая информация. Сер. 2. Информационные процессы и системы. 2020. № 12. С. 16-33. https://doi.org/10.36535/0548-0027-2020-12-3
4. Кулагин Д. И. Открытый тональный словарь русского языка КартаСловСент. Компьютерная лингвистика и интеллектуальные технологии: ежегодная Междунар. конф. «Диалог». (Москва, 16-19 июня 2021 г.) М.: РГГУ, 2021. Вып. 20. С. 1106-1119. https://doi.org/10.28995/2075-7182-2021-20-1106-1119
5. Майорова Е. В. О сентимент-анализе и перспективах его применения. Социальные и гуманитарные науки. Отечественная и зарубежная литература. Серия 6: Языкознание. Реферативный журнал. 2020. № 4. С. 78-87. https://www.elibrary.ru/tagobd
6. Пазельская А. Г., Соловьев А. Н. Метод определения эмоций в текстах на русском языке. Компьютерная лингвистика и интеллектуальные технологии: ежегодная Междунар. конф. «Диалог». (Бекасово, 25-29 мая 2011 г.) М.: РГГУ, 2011. Вып. 10. С. 510-522. https://www.elibrary.ru/pjsrlj
7. Полетаева Н. Г. Классификация систем машинного обучения. Вестник Балтийского федерального университета им. И. Канта. Сер.: Физико-математические и технические науки. 2020. № 1. С. 5-22. https://www.elibrary.ru/rchveu
8. Семина Т. А. Анализ тональности текста: современные подходы и существующие проблемы. Социальные и гуманитарные науки. Отечественная и зарубежная литература. Серия 6: Языкознание. Реферативный журнал. 2020. № 4. C. 47-64. https://www.elibrary.ru/icgxzf
9. Харламов А. А., Ермоленко Т. В., Жонин А. А. Моделирование динамики процессов на основе анализа последовательности текстовых выборок. Инженерный вестник Дона. 2013. № 4. URL: http://ivdon.ru/ru/magazine/archive/n4y2013/2047 (accessed 30 Mar 2023). https://www.elibrary.ru/sblkbn
10. Чернышевич М. В. Классификация тональности мнений для задачи автоматического сентимент-анализа текста. Ученые записки УО «ВГУ им. П. М. Машерова». 2018. Т. 28. С. 136-140. https://www.elibrary.ru/vxagrm
11. Araque O., Zhu G., Iglesias C. A. A semantic similarity-based perspective of affect lexicons for sentiment analysis. Knowledge-Based Systems, 2019, (165): 346-359. https://doi.org/10.1016/j.knosys.2018.12.005
12. Bancken W., Alfarone D., Davis J. Automatically detecting and rating product aspects from textual customer reviews. Interactions between Data Mining and Natural Language Processing: Proc. 1st Intern. Workshop (DMNLP 2014), Nancy, 15 Sep 2014. CEUR-WS, 2014, 1-16.
13. Barkovich A. A. Informational linguistics: the new communicational reality. Cambridge: Cambridge Scholars, 2020, 271. https://www.elibrary.ru/sjdauu
14. Beigi G., Hu X., Maciejewski R., Liu H. An overview of sentiment analysis in social media and its applications in disaster relief. Sentiment analysis and ontology engineering: an environment of computational intelligence, eds. Pedrycz W., Chen S.-M. Cham: Springer, 2016, 313-340. https://doi.org/10.1007/978-3-319-30319-2_13
15. Bradley M. M., Lang P. J. Affective Norms for English Words (ANEW): instruction manual and affective ratings. Technical Report C-1. The Center for Research in Psychophysiology, University of Florida, 1999, 48.
16. Dodds P. S., Clark E. M., Desu S., Frank M. R., Reagan A. J., Williams J. R., Mitchell L., Harris K. D., Kloumann I. M., Bagrow J. P., Megerdoomian K., McMahon M. T., Tivnan B. F., Danforth C. M. Human language reveals a universal positivity bias. PNAS, 2015, 112(8): 2389-2394. https://doi.org/10.1073/pnas.1411678112
17. Géron A. Hands-on machine learning with Scikit-Learn, Keras, and TensorFlow. 2nd ed. Sebastopol: O'Reilly Media, 2019, 856.
18. Kim S.-M., Hovy E. Extracting opinions, opinion holders, and topics expressed in online news media text. Proceedings of the Workshop on Sentiment and Subjectivity in Text (SST '06), Sidney, 22 Jul 2006. Stroudsburg: ACL, 1-8. http://dx.doi.org/10.3115/1654641.1654642
19. Liu B. Corpus-based approach. Sentiment analysis and opinion mining. San Rafael: Morgan & Claypool, 2012, 95-99.
20. Nasukawa T., Yi J. Sentiment analysis: capturing favorability using natural language processing. Proceedings of the 2nd International Conference on Knowledge Capture (K-CAP'03), Sanibel, 23-25 Oct 2003. NY: ACM, 2003, 70-77. https://doi.org/10.1145/945645.945658
21. Pang B., Lee L. Opinion mining and sentiment analysis. Foundations and Trends in Information Retrieval, 2008, 2(1-2): 1-135. http://dx.doi.org/10.1561/1500000011
22. Paramonov I. V., Poletaev A. Yu. Adaptation of semantic rule-based sentiment analysis approach for Russian language. Proceedings of the 30th Conference of Open Innovations Association FRUCT, Oulu, 27-29 Oct 2021. IEEE, 2021, 155-164. http://dx.doi.org/10.23919/FRUCT53335.2021.9599992
23. Poria S., Hazarika D., Majumder N., Mihalcea R. Beneath the tip of the iceberg: current challenges and new directions in sentiment analysis research. IEEE Transactions on Affective Computing, 2020, 14(1): 108-132. https://doi.org/10.1109/TAFFC.2020.3038167
24. Rana M. R. R., Nawaz A., Iqbal J. A survey on sentiment classification algorithms, challenges and applications. Acta Universitatis Sapientiae, Informatica, 2018, 10(1): 58-72. http://dx.doi.org/10.2478/ausi-2018-0004
25. Reagan A. J., Danforth C. M., Tivnan B., Williams J. R., Dodds P. S. Sentiment analysis methods for understanding large-scale texts: a case for using continuum-scored words and word shift graphs. EPJ Data Science, 2017, 6. https://doi.org/10.1140/epjds/s13688-017-0121-9
26. Taboada M., Brooke J., Tofiloski M., Voll K., Stede M. Lexicon-based methods for sentiment analysis. Computational linguistics, 2011, 37(2): 267-307. http://dx.doi.org/10.1162/COLI_a_00049
27. Wilks Y., Bien J. Beliefs, points of view, and multiple environments. Cognitive science, 1983, 7(2): 95-119. https://doi.org/10.1207/s15516709cog0702_1