ВИКОРИСТАННЯ ГРУПИ АЛГОРИТМІВ WORD EMBEDDINGS ДЛЯ ПРЕДСТАВЛЕННЯ ТЕКСТОВОЇ ІНФОРМАЦІЇ

Віктор Ігорович Туртуріка

Анотація


В статті розглядається застосування сучасної техніки представлення текстової інформації у векторному просторі – word embeddings, для розв’язання задач інтелектуального аналізу тексту. Окрім того, стаття містить детальний опис однієї із реалізацій word embeddings – групи алгоритмів word2vec. До опису роботи word2vec також додається детальний огляд відповідної архітектури штучних нейронних мереж. Також у статті подається порівняння техніки word embeddings із іншими принципами представлення тексту, що застосовуються у галузі інтелектуального аналізу тексту (text mining).


Повний текст:

PDF

Посилання


Bag of Tricks for Efficient Text Classification [Електронний ресурс] / A.Joulin, E. Grave, P. Bojanowski, T. Mikolov – Режим доступу до ресурсу: https://arxiv.org/pdf/1607.01759.pdf.

Harris Z. Distributional structure [Електронний ресурс] – Режим доступу до ресурсу: https://link.springer.com/chapter/10.1007/978-94- 017-6059- 1_36

Efficient Estimation of Word Representations in Vector Space [Електронний ресурс] / T.Mikolov, K. Chen, G. Corrado, J. Dean – Режим доступу до ресурсу: https://arxiv.org/pdf/1301.3781.pdf.

Pennington J. GloVe: Global Vectors for Word Representation [Електронний ресурс] / J. Pennington, R. Socher, C. Manning – Режим доступу до ресурсу: http://www.aclweb.org/anthology/D14-1162.

tf–idf [Електронний ресурс] – Режим доступу до ресурсу: https://en.wikipedia.org/wiki/Tf%E2%80%93idf.


Посилання

  • Поки немає зовнішніх посилань.