Word2vec

Word2vec es un grupo de modelos relacionados que se utilizan para producir incrustaciones de palabras. Estos modelos son redes neuronales poco profundas de dos capas que están capacitadas para reconstruir contextos lingüísticos de palabras. Word2vec toma como entrada un gran corpus de texto y produce un espacio vectorial, típicamente de varios cientos de dimensiones, a cada palabra única en el corpus se le asigna un vector correspondiente en el espacio. Los vectores de palabras se colocan en el espacio vectorial de manera que las palabras que comparten contextos comunes en el cuerpo se ubican muy cerca unas de otras en el espacio. 
Resultado de imagen para word2vec
Los sistemas de procesamiento de imágenes o de audio trabajan con conjuntos de datos multidimensionales muy ricos en información que se codifican como vectores. Estos vectores tendrán, por ejemplo, las intensidades de los pixeles en los distintos colores, o coeficientes espectrales para audio. Sin embargo, cuando se trata de procesamiento de lenguaje natural, las palabras se tratan como símbolos individuales y discretos. Así por ejemplo, podríamos representar “sol” con id343 y “luna” con id432. Las codificaciones son arbitrarias y no proporcionan información sobre las relaciones que pueden existir en entre las distintas entidades. Peor aún, la representación como ids discretos tiene como consecuencia una dispersión de los datos importante por lo que implica que los entrenamientos necesitan más datos para ofrecer buenos modelos.
Word2vec fue creado por un equipo de investigadores dirigido por Tomas Mikolov en Google y patentado. El algoritmo ha sido posteriormente analizado y explicado por otros investigadores. La incorporación de vectores creados con el algoritmo Word2vec tiene muchas ventajas en comparación con los algoritmos anteriores, como el análisis semántico latente.

Referencias
https://www.tensorflow.org
https://medium.com/@gruizdevilla/introducci%C3%B3n-a-word2vec-skip-gram-model-4800f72c871f
https://www.tensorflow.org/tutorials/representation/word2vec

Comentarios

Entradas más populares de este blog

ESCANEO DEL CODIGO PDF417 DEL DNI (Documento Nacional de Identidad digital)

¿Que tipos de Mensajes de HL7 hay?

¿Que es Razor?