El proyecto "Candide" era un sistema experimental de traducción automática en desarrollo en el Centro de Investigación IBM TJ Watson a principios de la década de 1990. Fui miembro de este grupo entre 1992 y 1995. Un documento de encuesta (disponible en su totalidad en forma de postscript y solo en resumen en html ) describe el sistema prototipo que construimos. Un artículo considerablemente más largo aborda algunas aplicaciones de máxima entropía en la traducción automática y el resumen de una patente basada en ese trabajo. También está disponible una bibliografía altamente selectiva para la traducción automática estadística.
En 1949, Warren Weaver propuso que las técnicas estadísticas del campo emergente de la teoría de la información podrían permitir el uso de computadoras digitales modernas para traducir texto de un lenguaje natural a otro automáticamente. Aunque el esquema de Weaver fracasó en la realidad rocosa de los recursos informáticos limitados de la época, un grupo de investigadores de IBM a fines de la década de 1980 consideró que el aumento de la potencia de la computadora en los últimos cuarenta años hizo una nueva mirada razonable a la aplicabilidad de las técnicas estadísticas a Traducción. Así, el proyecto "Candide", destinado a desarrollar un sistema de traducción automática experimental, nació en el Centro de Investigación IBM TJ Watson.
La traducción automática (MT) se considera ampliamente entre las tareas más difíciles en el procesamiento del lenguaje natural y en la inteligencia artificial en general, porque la traducción precisa parece imposible sin una comprensión del texto a traducir. Al menos, esto es lo que muchos investigadores prominentes concluyeron en la década de 1960 después de algunos intentos infructuosos de crear sistemas de MT en funcionamiento, momento en el cual levantaron las manos derrotados. El camino hacia el desarrollo de un sistema de MT que funcione, por lo que se pensó, requirió décadas de gramáticas, diccionarios y reglas de traducción hechas a mano en estrecha consulta con expertos en traducción humana.
La idea rectora del proyecto Candide era admitir desde el principio que este enfoque es completamente insostenible. Después de todo, un traductor humano no puede establecer con suficiente detalle el "algoritmo" que aplica al traducir un documento. En cambio, la idea era dejar que un sistema aprendiera por sí mismo cómo traducir. Dada una vasta colección de documentos en inglés y francés (los procedimientos del parlamento canadiense, conocido como "Hansards" son una fuente especialmente conveniente), el sistema Candide aprende automáticamente cómo se relacionan el inglés y el francés. Como nota histórica, la mayoría de los miembros del grupo Candide hablaban poco o nada de francés.
El grupo Candide adoptó una perspectiva teórica de la información sobre el problema de MT, que es la siguiente. Al hablar una oración francesa F, un hablante francés originalmente pensó una oración E en inglés, pero en algún lugar en el ruidoso canal entre su cerebro y su boca, la oración E se "corrompió" a su traducción francesa F. La tarea de un sistema MT es descubrir E * = argmax (E ') p (F | E') p (E '); es decir, la oración óptima en inglés MAP, dada la oración francesa observada. Este enfoque implica construir un modelo de oraciones probables en inglés y un modelo de cómo las oraciones en inglés se traducen a oraciones en francés. Ambas tareas se realizan automáticamente con la ayuda de una gran cantidad de texto bilingüe.
Por extraño que parezca esta perspectiva, no es más extraño que la opinión de que una oración en inglés se corrompe en una señal acústica al pasar del cerebro de la persona a su boca, y esta perspectiva ahora es esencialmente universal en el reconocimiento automático del habla.
El proyecto "Candide" era un sistema experimental de traducción automática en desarrollo en el Centro de Investigación IBM TJ Watson a principios de la década de 1990. Fui miembro de este grupo entre 1992 y 1995. Un documento de encuesta (disponible en su totalidad en forma de postscript y solo en resumen en html ) describe el sistema prototipo que construimos. Un artículo considerablemente más largo aborda algunas aplicaciones de máxima entropía en la traducción automática y el resumen de una patente basada en ese trabajo. También está disponible una bibliografía altamente selectiva para la traducción automática estadística.
La traducción automática (MT) se considera ampliamente entre las tareas más difíciles en el procesamiento del lenguaje natural y en la inteligencia artificial en general, porque la traducción precisa parece imposible sin una comprensión del texto a traducir. Al menos, esto es lo que muchos investigadores prominentes concluyeron en la década de 1960 después de algunos intentos infructuosos de crear sistemas de MT en funcionamiento, momento en el cual levantaron las manos derrotados. El camino hacia el desarrollo de un sistema de MT que funcione, por lo que se pensó, requirió décadas de gramáticas, diccionarios y reglas de traducción hechas a mano en estrecha consulta con expertos en traducción humana.
La idea rectora del proyecto Candide era admitir desde el principio que este enfoque es completamente insostenible. Después de todo, un traductor humano no puede establecer con suficiente detalle el "algoritmo" que aplica al traducir un documento. En cambio, la idea era dejar que un sistema aprendiera por sí mismo cómo traducir. Dada una vasta colección de documentos en inglés y francés (los procedimientos del parlamento canadiense, conocido como "Hansards" son una fuente especialmente conveniente), el sistema Candide aprende automáticamente cómo se relacionan el inglés y el francés. Como nota histórica, la mayoría de los miembros del grupo Candide hablaban poco o nada de francés.
El grupo Candide adoptó una perspectiva teórica de la información sobre el problema de MT, que es la siguiente. Al hablar una oración francesa F, un hablante francés originalmente pensó una oración E en inglés, pero en algún lugar en el ruidoso canal entre su cerebro y su boca, la oración E se "corrompió" a su traducción francesa F. La tarea de un sistema MT es descubrir E * = argmax (E ') p (F | E') p (E '); es decir, la oración óptima en inglés MAP, dada la oración francesa observada. Este enfoque implica construir un modelo de oraciones probables en inglés y un modelo de cómo las oraciones en inglés se traducen a oraciones en francés. Ambas tareas se realizan automáticamente con la ayuda de una gran cantidad de texto bilingüe.
Por extraño que parezca esta perspectiva, no es más extraño que la opinión de que una oración en inglés se corrompe en una señal acústica al pasar del cerebro de la persona a su boca, y esta perspectiva ahora es esencialmente universal en el reconocimiento automático del habla.