Los algoritmos informáticos modernos han sido capaces de "ver" el mundo durante algún tiempo. El software Chauffeur de Google en sus autos automáticos utiliza un láser de 64 haces para mapear el terreno circundante y combinar los datos con una biblioteca de mapas de alta resolución.

Las aspiradoras robóticas Roomba usan sensores IR y mecánicos para evitar obstáculos en su hogar; El sensor Kinect de Microsoft utiliza el reconocimiento facial para identificar automáticamente a los usuarios y activar sus perfiles.

Pero pocos algoritmos de reconocimiento visual son capaces de aprender activamente sobre el mundo que los rodea o de entender las relaciones entre personas, lugares y objetos..

¿Cómo, por ejemplo, una computadora sabe cómo se ve un automóvil? Solo lo sabemos Hemos acumulado ese conocimiento a lo largo del tiempo al observar muchos autos. En consecuencia, sabemos que no todos los coches se ven iguales. Sabemos que vienen en diferentes formas, tamaños y colores. Pero generalmente podemos reconocer un automóvil porque tienen elementos consistentes y definibles: ruedas, llantas, un motor, un parabrisas y espejos laterales, viajan en carreteras, etc..

NEIL es un programa de computadora simple

¿Podría una computadora aprender toda esta información de la misma manera? Un equipo que trabaja en la Universidad Carnegie Mellon en los Estados Unidos cree que sí. Ha desarrollado un sistema llamado NEIL (Never Ending Image Learner), un ambicioso programa de computadora que puede descifrar el contenido de las fotos y hacer conexiones visuales entre ellas sin ser enseñado. Al igual que un humano lo haría.

Según Xinlei Chen, un estudiante de doctorado que trabaja con NEIL, el software "utiliza un algoritmo de aprendizaje semi-supervisado que descubre de manera conjunta relaciones de sentido común. '- y marca las instancias de las categorías visuales dadas ... La entrada es una gran colección de imágenes y la salida deseada está extrayendo patrones significativos o interesantes en los datos visuales; por ejemplo, el automóvil se detecta con frecuencia en pistas de rodadura. Estos patrones nos ayudan a extraer relaciones de sentido común . "

Como lo sugiere la parte "sin fin" de su nombre, NEIL se ejecuta de forma continua y funciona mediante el saqueo de los datos de Búsqueda de imágenes de Google para acumular una biblioteca de objetos, escenas y atributos. La gama actual de información incluye todo, desde portaaviones hasta cebras, basílicas y hospitales, texturas moteadas y patrones distintivos de tartán..

A partir de una imagen de una computadora de escritorio, por ejemplo, NEIL hará referencia a las imágenes existentes de las computadoras en su base de datos más cualquier imagen que se haya especificado como perteneciente a una computadora de escritorio, como monitores, teclados y ratones..

NEIL puede aprender la conexión entre imágenes

En consecuencia, puede aprender que 'Los monitores son parte de la computadora de escritorio' y 'El teclado es parte de la computadora de escritorio'. De hecho, al analizar las imágenes de esta manera, NEIL puede formar cuatro tipos diferentes de relación visual: objeto a objeto ('BMW 320 es un tipo de Coche'), objeto a atributo ('Oveja es / tiene blanco), escena a objeto ('Bus se encuentra en el almacén de autobuses') y escena a atributo ('Océano es azul'). Puede ver los resultados en curso del progreso de catalogación de imágenes de NEIL en el sitio web del proyecto.

Durante los primeros dos meses y medio de su vida operativa, el equipo de Carnegie Mellon dejó que NEIL perdiera 200 procesadores. Desde el 15 de julio, ha analizado más de cinco millones de imágenes, ha marcado 500,000 imágenes y se han formado más de 3,000 relaciones de sentido común. Estos incluyen los siguientes supuestos correctos: 'Agra puede tener Taj_mahal', 'Mudflat puede tener Seagull', 'Sydney puede tener Sunny_weather' y 'Tent_indoor puede ser / puede tener Cone_shape'.

Por supuesto, el enfoque de NEIL no es perfecto y, dependiendo de la naturaleza de las imágenes de origen, a menudo puede hacer afirmaciones incorrectas. Estos incluyen: 'El molino de viento puede tener un helicóptero' (las velas de un molino de viento se parecen a las palas del rotor ...) y 'El radiador puede ser una parte del acordeón' (los fuelles plegados de un acordeón pueden parecer similares al diseño corrugado de un típico Radiador.) Así que el proceso de aprendizaje de la imagen no es completamente autónomo. Hay un grado de moderación humana correctiva involucrada para purificar los datos semánticos.

Dicho esto, la tasa de éxito de NEIL es sorprendentemente buena. En una muestra aleatoria, el 79 por ciento de las relaciones formadas por NEIL se consideraron correctas, mientras que el 98 por ciento de los datos visuales extraídos de las imágenes de Google también se etiquetaron correctamente.

¿Cuál es el punto de todo esto? Ya existen bases de datos visuales establecidas, como ImageNet, que tiene más de 14 millones de imágenes. Mientras que el proyecto Visipedia de Caltech se define a sí mismo como una "enciclopedia visual" colectiva.

Según Chen, NEIL es "un intento de desarrollar la base de conocimiento visual estructurada más grande del mundo con un esfuerzo mínimo de etiquetado humano, que refleje el contenido objetivo de las imágenes en Internet, y que sería útil para muchos esfuerzos de inteligencia artificial y visión artificial".

El proyecto NEIL se une a la iniciativa de investigación NELL (Aprendizaje de idiomas que nunca termina) en Carnegie Mellon. Esto intenta desarrollar un sistema que aprende a 'leer la web' y extraer un conjunto de hechos verdaderos y estructurados de las páginas que analiza..

NELL ha estado funcionando desde 2010 y ha acumulado una base de conocimientos de 2,069,313 cosas que cree que son ciertas. Estos incluyen 'scrap_booking es una forma de arte visual' y 'Gujarat es un estado o provincia ubicada en el país India'.

La trivialidad de la reserva de chatarra y las piezas de automóviles pueden no parecer avances tecnológicos, pero estos avances en la visión por computadora y el aprendizaje automático (aunque con asistencia humana) ayudarán a investigar los algoritmos de búsqueda inteligente y las inteligencias artificiales del futuro..

Ahora, ¿por qué no leer? ¿Se está convirtiendo la inteligencia artificial en una mercancía??