Traducción Automática Basada en Corpus

Lunes, 15 Septiembre   

La traducción automática a partir corpus lingüísticos se basa en el análisis de muestras reales con sus respectivas traducciones. Entre los mecanismos que utilizan corpus se incluyen los métodos estadísticos y los basados en ejemplos.

Estadística
El objetivo de la traducción automática estadística es generar traducciones a partir de métodos estadísticos basados en corpus de textos bilingües, como por ejemplo las actas del parlamento europeo, que se encuentran traducidas en todos los idiomas oficiales de la UE Si la existencia de estos corpus fuese mayor se podrían conseguir resultados excelentes al traducir textos de ámbitos similares.

El primer programa de traducción automática estadística fue CANDIDE, desarrollado por IBM. Hoy en día Google usa SYSTRAN, pero está trabajando en un método de traducción estadística para sus futuras traducciones automáticas. Recientemente han mejorado sus capacidades traductoras al añadir 200 billones de palabras de las Naciones Unidas que permitirán entrenar el sistema.

Aunque la exactitud de las traducciones, tanto las estadísticas como las que no, se ha incrementado con los años, la gran cantidad de posibilidades que tiene una palabra de ser traducida de un idioma a otro relega la traducción automática a un método que tan solo permite transmitir la idea esencial.

Basada en ejemplos
La traducción automática basada en ejemplos, se caracteriza por el uso de un corpus bilingüe como principal fuente de conocimiento en tiempo real. Es esencialmente una traducción por analogía y puede ser interpretada como una implementación del razonamiento por casos base empleado en el aprendizaje automático, que consiste en la resolución de un problema basándose en la solución de problemas similares.