Туртуріка Віктор
Науковий керівник: канд. ф.-м. наук, доцент Паращук С.Д.
Центральноукраїнський державний педагогічний університет імені Володимира Винниченка, м. Кропивницький, Україна
В статті розглядається застосування сучасної техніки представлення текстової інформації у векторному просторі – word embeddings, для розв’язання задач інтелектуального аналізу тексту. Окрім того, стаття містить детальний опис однієї із реалізацій word embeddings – групи алгоритмів word2vec. До опису роботи word2vec також додається детальний огляд відповідної архітектури штучних нейронних мереж. Також у статті подається порівняння техніки word embeddings із іншими принципами представлення тексту, що застосовуються у галузі інтелектуального аналізу тексту (text mining).
Ключові слова: інтелектуальний аналіз тексту, машинне навчання, нейронні мережі, word embeddings, word2vec, Continuous Bag of Words, Skip-gram model.
The usage of Word embeddings algorithm group for presentation of the text information
V. Turturika
Scientific supervisor: Candidate of Physics and Mathematics Sciences, Docent Parashchuk S.D.
The article deals with the application of modern presentation technique of text information in vector space, that called word embeddings and used for solving problems of text mining. Also, the article contains a detailed description of one of the implementations of word embeddings – word2vec group of algorithms. A description of the work of word2vec also includes a detailed overview of the corresponding architecture of artificial neural networks. Also, the article compares the technology of word embeddings with other principles of presentation of text used in the field of text mining.
Key words: text mining, machine learning, artificial neural networks, word embeddings, word2vec, Continuous Bag of Words, Skip-gram model.