Cuando lees el título de este artículo, debes preguntarte de qué estoy hablando cuando digo: "¡Eso está enfermo!"

Tiene sentido si acabo de presenciar un accidente automovilístico tan atroz que me hizo sentir mal del estómago. Sin embargo, también tiene sentido si acabo de ver a Sidney Crosby anotar el gol del juego ganador de la medalla de oro en los Juegos Olímpicos de Socchi 2014. Una dificultad con la lingüística es que la misma palabra puede tener múltiples significados..

En el idioma inglés, la palabra "enfermo" se define en el diccionario de Oxford de la siguiente manera: "afectado por una enfermedad física o mental". Lo que no encontrará en el diccionario de Oxford es la jerga que significa "enfermo", que el diccionario urbano define como "loco; genial; loco".

Bueno o malo?

¿Cómo puede una máquina descifrar si estamos hablando de "buenos enfermos" o de "malos enfermos"??

Demos un paso atrás, ¿cómo pueden los humanos saber de qué "enfermos" estamos hablando? Los seres humanos reciben ayuda de cosas como: el lenguaje corporal, el tono de la voz del comunicador, el contacto visual, la expresión facial, así como los símbolos culturales como la ropa, el peinado y la ubicación..

La tecnología de procesamiento de lenguaje natural como la minería de textos no puede utilizar los métodos de comunicación mencionados anteriormente. Simplemente no es posible ... Todavía. En unos 5-10 años, cuando el reconocimiento de imágenes y el análisis de emociones se vuelven más avanzados, podemos comenzar a recibir señales del lenguaje corporal y el tono de voz..

La minería de textos debe basarse en la comprensión contextual de la oración para distinguir la diferencia entre los dos significados de la misma palabra..

Las palabras que rodean "enfermo" y el orden de estas otras palabras se atribuyen a la comprensión contextual de una oración. Echemos un vistazo a un par de ejemplos:

Ejemplo 1 - "Mirar ese accidente me hizo sentir mal"

Un motor de minería de texto sabe que cuando la palabra "sentir" se coloca antes de la palabra "enfermo", "enfermo" se etiqueta con sentimiento negativo. El motor sabe que sentirse mal es malo..

Ejemplo 2 - "¡Guau, la meta de Crosby estaba enferma!"

Motor de mineria de texto

Un motor de minería de texto sabrá que un "objetivo" no puede estar "enfermo" por definición. Una meta no es una cosa viva, no puede ser afectada por una enfermedad, por lo tanto, una meta no puede estar enferma. (La mayoría de los motores de minería de textos hacen referencia a sus conocimientos de algún tipo de ontología semántica. Este es un ejemplo de la matriz del concepto de minería de textos de Lexalytics).

Sin embargo, si está trabajando con un conjunto de datos sobre deportes, puede entrenar el motor para llevar un sentimiento positivo a la palabra "enfermo" siempre que aparezca en una oración cerca de la palabra "objetivo".

Esta no es la solución "todo es el fin". Las palabras con significados múltiples, doble sentido y sarcasmo son cosas muy difíciles de resolver cuando se trata de la minería de textos. Un día, tendremos una máquina impecable programada con todos los dialectos, idiomas y jerga conocidos; Literalmente todo lo que engloba el lenguaje.!

Pero por el momento, es realmente genial que tengamos la capacidad de entrenar una máquina para entender el contexto como un humano.

  • Scott Van Boeyen es el administrador de la comunidad de Lexalytics y Semantria. Con el objetivo de ayudar a los periodistas / reporteros con contenido relacionado con big data y análisis, escribir, bloguear y proporcionar liderazgo de pensamiento a través de las redes sociales..