Traducció automàtica

De WikiLingua.net

La traducció automàtica (TA), també cridada MT (de l'anglès Machine Translation), és un àrea de la lingüística computacional que investiga l'ús de programari per a traduir text o parla d'un llenguatge natural a un altre. En un nivell bàsic, la traducció per computadora realitza una substitució simple de les paraules atòmiques d'un llenguatge natural per les d'un altre. Per mitjà de l'ús de corpora lingüístics es poden intentar traduccions més complexes, el que permet un maneig més apropiat de les diferències en la tipologia linguística, el reconeixement de frases, la traducció d'expressions idiomáticas i l'aïllament d'anomalies.

Taula de continguts

[editar] Visió General

Normalment, els sistemes de traducció automàtica actuals permeten establir paràmetres (per exemple, limitant el rang de substitucions permeses) d'acord amb el domini o la professió en la qual es fa la traducció, el que efectivament millora el resultat. Aquesta tècnica és particularment útil en camps on s'empra un llenguatge formal o basat en formularis, com els reportis del temps i els documents legals o administratius, però el seu ús no és viable en la traducció de converses o altres textos menys estandarizados.

En les últimes dècades hi ha hagut un fort impuls en l'ús de tècniques estadístiques per al desenvolupament de sistemes de traducció automàtica. Per a l'aplicació d'aquestes tècniques a un parell de llengües donat, es requereix la diponibilidad d'un corpus paral·lel per a dit parell. Mitjançant aquest corpus s'estimen paràmetres de sengles models estadístics que estableixen la probabilitat amb la qual certes paraules són susceptibles de traduir-se per unes altres, així com les posicions més probables que tendeixen a ocupar les paraules de la llengua destino en funció de les paraules corresponents de la frase origen. L'atractiu d'aquestes tècniques radica que el desenvolupament d'un sistema per a un parell de llengües donat pot fer-se de manera molt automàtica, amb una molt reduïda necessitat de treball expert per part especialistes en lingüística.

La intervenció humana pot millorar la qualitat de la sortida: per exemple, alguns sistemes poden traduir amb major exactitud si el \[usuari] ha identificat prèviament les paraules que corresponen a noms propis. Amb l'ajuda d'aquestes tècniques, la traducció per computadora ha mostrat ser un auxiliar útil per als [traductors] humans. No obstant això, i encara quan en alguns casos poden produir resultats utilizables «tal com», els sistemes actuals són incapaços de produir resultats de la mateixa qualitat que un traductor humà, particularment quan el text a traduir usa [llenguatge col·loquial] o familiar.

En aquesta adreça, recentment estan cobrant especial interès les tècniques estadístiques de traducció assistida basades en una aproximació interactiva-predictiva, en la qual el computador i el traductor humà treballen en estreta col·laboració mútua. Prenent com base el text font a traduir, el sistema ofereix suggeriments sobre possibles traduccions a la llengua destino. Si alguna d'aquests suggeriments és acceptable, l'usuari la selecciona i, en cas contrari, corregeix el necessari fins a obtenir un fragment correcte. A partir d'aquest fragment, el sistema produeix millors prediccions. El procés contínua d'aquesta manera fins a obtenir una traducció completament acceptable per l'usuari. Segons les avaluacions realitzades amb usuaris reals en el projecte TransType-2, aquest procés permet reduir considerablemte el temps i esforç necessaris per a obtenir traduciones de qualitat.

[editar] La traducció com problema

La traducció és avui dia el principal coll d'ampolla de la societat de la informació i la seva mecanización suposa un important avanç enfront del problema del devessall informatiu i la necessitat de la comunicació translingüística.

Els primers desenvolupaments informàtics reseñables es van realitzar en el famós ordinador ENIAC en 1946. Entre els investigadors pioners cal citar a Warren Weaver, de la Fundació Rockefeller. Ell va ser qui va donar a conèixer públicament la disciplina anticipant possibles mètodes científics per a abordar-la: l'ús de tècniques criptográficas, l'aplicació dels teoremas de Shannon i la utilitat de l'estadística, així com la possibilitat d'aprofitar la lògica subyacente al llenguatge humà i les seves aparents propietats universals.

[editar] Actualitat

En l'actualitat s'obtenen alts nivells de qualitat per a la traducció entre llengües romanços (espanyol, portuguès, català o gallec, etc.). No obstant això, els resultats empitjoren ostensiblemente quant més tipológicamente allunyades siguin les llengües entre si, com és el cas de la traducció entre espanyol i anglès o alemany.

Un altre factor molt influent en la qualitat és el grau d'especialització dels sistemes de traducció, que milloren en la mesura en què s'adeqüen al tipus de text i vocabulario que es vagi a traduir. Un sistema que s'especialitzi en la traducció de parts meteorològics aconseguirà altes cotes de qualitat fins i tot per a traduir textos entre llengües tipológicamente molt disparaes, però serà inservible per a abordar, per exemple, cròniques esportives o financeres.

Traduir és una de les arts més elevades i que més talent i dedicació requereix. No n'hi ha prou amb substituir una paraula per una altra, sinó que s'ha de ser capaç de reconèixer totes les paraules d'una frase i la influència que tenen les unes sobre les altres. Els llenguatges humans consten de morfología (la forma en què es construeixen les paraules a partir de petites unitats proveïdes de significat), sintaxis (l'estructura d'una frase) i semàntica (el significat). Fins al text més simple pot estar plagat d'ambigüitats. També cal considerar qüestions d'estil i de discurs o pragmáticas.

No obstant això, hi ha mètodes estadístics que realitzen traduccions sense reparar en qüestions gramaticales. En l'actualitat la tendència és a integrar tot tipus de metodologies: lingüístiques, estadístiques, o unes altres, a la base de dades d'un corpus.

[editar] Història de la traducció automàtica

L'aspiració d'obtenir artilugios mecànics que serveixin per a superar les barreres lingüístiques ve d'antic. En el segle XVII es parla de la utilització de diccionaris mecànics (basats en codis numèrics universals) per a superar les barreres del llenguatge, dintre d'un moviment a favor de la creació d'una “llengua universal” no ambigua, basada en principis lògics i símbols icónicos, que permetés comunicar-se a tota la humanitat. Aquesta obstinació precedeix per bastant temps a la pròpia existència de l'ordinador. Per això, es pot entendre que des del moment en què un ordinador va estar disponible en la dècada de 1940, la traducció automàtica va passar a convertir-se immediatament en una de les aplicacions estavella de la informàtica.

El món sortia d'una guerra mundial que en el plànol científic havia incentivat el desenvolupament de mètodes computacionales per a desxifrar missatges en clau. A Weaver se li atribueix haver dit "quan veig un article escrit en rus em dic, això en realitat està en anglès, encara que codificado amb estranys símbols. Anem a descodificarlo ara mateix!" (citat per Barr i Feigenbaum, 1981). No fa falta dir que tant els ordinadors com les tècniques de programació d'aquells anys eren molt rudimentarias (es programava mitjançant el cableado de taulers en llenguatge màquina), pel que les possibilitats reals de provar els mètodes eren mínimes.

Des de llavors, ha donat temps a realitzar nombrosos experiments, petits i grans, així com inversions institucionals i industrials sustanciosas. Un referent obligat per a conèixer amb més detalli l'evolució de la traducció automàtica és l'acadèmic britànic John Hutchins, que la seva bibliografía pugues, per sort, ser consultada lliurement en Internet. En l'article principal se segueix l'esquema simplificado de Johnatan Slocum, que aborda la història de la TA per dècades.

[editar] Tipus de traducció automàtica

Si disposen de suficient informació, les traduccions automàtiques poden funcionar bastant bé, permetent que persones amb una llengua materna determinada siguin capaces de fer-se una idea del que ha escrit una altra persona en el seu idioma. El problema principal resideix a obtenir la informació adient per a cadascun dels mètodes de traducció.

Segons la seva aproximació, els sistemes de traducció automàtica es poden classificar entre dos grans grups: els quals es basen en regles lingüístiques per una part, i els quals utilitzen corpus textuals per una altra.

[editar] Traducció automàtica basada en regles

Esquema que muestra la relación entre los diferentes paradigmas de traducción automática basada en reglas.
Esquema que mostra la relació entre els diferents paradigmes de traducció automàtica basada en regles.

La traducció automàtica mitjançant regles consisteix a realitzar transformacions a partir de l'original, reemplaçant les paraules pel seu equivalent més apropiat.

En general, en una primera fase s'analitzarà un text, normalment creant una representació simbòlica interna. Depenent de l'abstracció d'aquesta representació també podem trobar diferents graus: des dels directes, que bàsicament fan traduccions paraula per paraula, fins a interlingua, que utilitza una representació intermèdia completa.

special requirements for children

[editar] Transferència

En la traducció per transferència, l'anàlisi de l'original juga un paper més important, i dóna pas a una representació interna que és la qual s'utilitza com enllaci per a traduir entre idiomes distints.

[editar] Llenguatge intermedi

La traducció automàtica a partir d'un llenguatge intermedi és un cas particular de la traducció automàtica basada en regles. El llenguatge original, per exemple un text que ha de ser traduït, és transformat a un llenguatge intermedi, l'estructura del qual és independent a la del llenguatge original i a la del llenguatge final. El text en el llenguatge final s'obté a partir de la representació del text en el llenguatge intermedi.

[editar] Traducció automàtica basada en corpus

La traducció automàtica a partir corpus lingüístics es basa en l'anàlisi de mostres reals amb les seves respectives traduccions. Entre els mecanismes que utilitzen corpus s'inclouen els mètodes estadístics i els basats en exemples.

[editar] Estadística

L'objectiu de la traducció automàtica estadística és generar traduccions a partir de mètodes estadístics basats en corpus de textos bilingües, com per exemple les actes del parlament europeu, que es troben traduïdes en tots els idiomes oficials de la UE Si l'existència d'aquests corpus fos major es podrien aconseguir resultats excel·lents al traduir textos d'àmbits similars.

El primer programa de traducció automàtica estadística va ser CANDIDE, desenvolupat per IBM. Avui dia Google usa SYSTRAN, però està treballant en un mètode de traducció estadística per a les seves futures traduccions automàtiques. Recentment han millorat les seves capacitats traductores a l'afegir 200 bilions de paraules de les Nacions Unides que permetran entrenar el sistema.

Encara que l'exactitud de les traduccions, tant les estadístiques com les quals no, s'ha incrementat amb els anys, la gran quantitat de possibilitats que té una paraula de ser traduïda d'un idioma a un altre relega la traducció automàtica a un mètode que tan sol permet transmetre la idea essencial.

[editar] Basada en exemples

La traducció automàtica basada en exemples, es caracteritza per l'ús d'un corpus bilingüe com principal font de coneixement en temps real. És essencialment una traducció per analogía i pot ser interpretada com una implementación del raonament per casos basi emprat en l'aprenentatge automàtic, que consisteix en la resolució d'un problema basant-se en la solució de problemes similars.

[editar] Traducció automàtica basada en el context

La traducció automàtica basada en el context utilitza tècniques basades a trobar la millor traducció per a una paraula fixant-se en la resta de paraules que l'envolten, bàsicament aquest mètode es basa a tractar el text en unitats d'entre 4 i 8 paraules, de manera que es tradueix cadascuna d'elles per la seva traducció a l'idioma destino i s'eliminen les traduccions que han generat una "frase" sense sentit. Després es mou la finestra una posició (paraula), retraduciendo la majoria d'elles de nou i tornant a filtrar deixant sol les frases coherents. Es repeteix dit pas per a tot el text. I després es passa a concatenar els resultats de dites finestres de manera que s'assoleixi una única traducció del text. El filtrat que es realitza on es decideix si és una frase amb sentit utilitza un corpus del llenguatge destino, on s'expliquen el nombre d'aparicions de la frase buscada.

És per tant un mètode basat en idees bastant simple que ofereix uns molt bons resultats en comparació a altres mètodes. Com avantatges aporta també la facilitat d'afegir noves llengües. Ja que és sol necessari:

  • un bon diccionari, que pot ser qualsevol versió comercial adaptada mitjançant regles gramaticales per a tenir els verbs conjugats i els nomenis/adjectius amb les seves variacions en nombre i gènere.
  • un Corpus en el llenguatge destino, que es pot treure per exemple d'Internet. Sense que sigui necessari traduir cap part, com en els mètodes estadístics.

[editar] La traducció automàtica a Espanya

La investigació a Espanya ha passat a través de tres etapes importants. Des de 1985, s'inicia la investigació amb un interès sobtat a Espanya. Després d'un any a la seva entrada a la Comunitat Europea. Van ser tres companyies transnacionales qui van finançar la creació de diversos grups d'investigació. IBM, SIEMENS i FUJITSU. Paradoxalment, 1992, que era l'any de la celebració del 5to centenari del descobriment d'Amèrica i dels jocs olímpics també es duien a terme a Barcelona. Primer IBM i després SIEMENS, van formar en 1985 grups d'I+D en els seus laboratoris de Madrid i Barcelona, liderats per Luis de Sopeńa i Montserrat Meya, respectivament. IBM va utilitzar el Centre d'Investigació en intel·ligència artificial de la Universitat Autònoma de Madrid com seu d'un equip especialitzat en llenguatge natural. Aquest equip va prendre part primer en el disseny del prototip MENTOR, juntament amb un altre centre IBM d'Israel, i més tarda en l'adaptació a l'espańol de LMT, sistema dissenyat en el T.J. Watson Research Center d'Estats Units. A tenor de les publicacions del grup en la revista Processament del llenguatge natural, entre els anys 1985 i 1992 van treballar en els projectes d'IBM almenys els següents especialistes: Teo Rodó, Pilar Rodríguez, Isabel Zapata, Celia Villar, Alfonso Alcalá, Carmen Valladares, Enrique Torrejón, Begoña Carranza, Gerardo Arrarte i Chelo Rodríguez.

Per la seva banda, SIEMENS va decidir apropar a Barcelona el desenvolupament del mòdul espanyol del seu prestigiós sistema METALL. Montserrat Meya, que fins a llavors havia treballat en els laboratoris centrals de SIEMENS en Munich, va contactar amb el filólogo i enginyer Juan Alberto Alonso, i junts van formar el nucli d'un equip en el qual després participaria una interminable llista de col·laboradors: Xavier Gómez Guinovart, Juan Bosco Camón, Begoña Navarrete, Ramón Fanlo, Clair Corbishley, Begońa Vázquez, etc. Després de 1992 el grup dedicat a projectes lingüístics es va constituir en empresa independent, INCYTA. Després d'un conveni amb la Generalitat de Catalunya i la Universitat Autònoma de Barcelona, es va desenvolupar el mòdul català, que és ara la seva principal línia d'activitat.

A la fi de 1986 es van crear a Barcelona i Madrid dos nous grups entre qui es va repartir el desenvolupament dels mòduls del sistema EUROTRA, finançat per la Comissió Europea. Ramón Cerdá va reunir en la Universitat de Barcelona a un nodrit grup d'especialistes, integrat per, entre uns altres, Jesús Vidal, Juan Carlos Ruiz, Toni Badia, Sergi Balari, Marta Carulla i Nuria Bel. Mentre aquest grup s'ocupava de les qüestions de sintaxis i semàntica, un altre grup s'encarregava a Madrid dels aspectes de morfología i lexicografía, liderats per Francisco Marcs Marín. Col·laboraven amb ell, entre uns altres, Antonio Moreno, Pilar Salamanca i Fernando Sánchez-Lleó.

Un ańo més tard, en 1987, es va formar en els laboratoris d'I+D de l'empresa FUJITSU a Barcelona un cinquè grup per al desenvolupament dels mòduls de traducció a l'espańol del sistema japonès ATLAS. Aquest grup estava liderat per l'enginyer Jorge Vivaldi i els filólogos José Soler, procedent d'EUROTRA, i Joseba Abaitua. Junts crearan l'embrió d'un equip al que més avanci es van incorporar Elisabet Cayuelas, Lluis Hernández, Xavier Vaig plorar i Ana d'Aguilar-Amat. L'empresa va interrompre aquesta línia d'investigació en 1992.

Un altre grup dedicat a la traducció automàtica per aquells ańus va anar el format per Isabel Herrero i Elisabeth Nebot en la Universitat de Barcelona. Aquest grup, tutelat per Juan Alberto Alonso, va crear un prototip de traducció àrab - espanyol en col·laboració amb la Universitat de Tunis.

Està clar que la traducció automàtica va ser el principal catalitzador del naixement de la lingüística computacional en Espańa. No és casualitat que la Societat Espanyola per al Processament del Llenguatge Natural (SEPLN) es constituís en 1983. Al costat de Felisa Verdejo, altres dues persones es van destacar en la seva fundació, els citats Montserrat Meya i Luis de Sopeńa, qui per aquell llavors lideraven, com s'ha dit, grups de traducció automàtica. El tercer congrés de l'associació (llavors encara sota la denominació de Ťjornades tècniquesť) es va celebrar al juliol de 1987 en la Universitat Politécnica de Catalunya, amb dos plats forts sobre traducció automàtica: una conferència de Sergei Nirenburg, llavors adscrit al Center for Machine Translation de la Universitat Carnegie Mellon, i una taula rodona participada per Jesús Vidal i Juan Carlos Ruiz (d'EUROTRA), Luis de Sopeńa (d'IBM), Juan Alberto Alonso (de SIEMENS), i el propi Nirenburg.

Algunes dades estadístiques constaten la rellevància de la traducció automàtica en la SEPLN entre els ańus 1987 i 1991. Durant aquells ańus, dels 60 articles publicats en la revista de l'associació, Processament del llenguatge natural, 23 (més d'un terç) van versar sobre traducció automàtica. El nivell de participació reflecteix la rellevància dels grups: 8 descriuen EUROTRA, 7 les investigacions d'IBM, 4 METALL, de SIEMENS, i 3 ATLAS, de FUJITSU. Només un dels articles publicats, dels 23, era aliè als quatre projectes estavella. Aquest va ser el presentat en el congrés de 1990 per Gabriel Amors, actual investigador de l'àrea de traducció automàtica, amb els resultats de la seva investigació en el Centri for Computational Linguistics d'UMIST . S'han citat 35 persones i aquesta xifra dóna una idea de l'activitat. En una estimació aproximada, es pot calcular que en 1989 la investigació en traducció automàtica explicava a Espanya amb un pressupost anual d'uns 200 milions de pessetes., una xifra que, per modesta que sembli, multiplica diverses vegades la quantitat que es maneja avui dia en el nostre país, una dècada després.

Des de 1998, el Departament de Llenguatges i Sistemes Informàtics de la Universitat d'Alacant desenvolupa sistemes de traducció automàtica entre llengües romàniques; aquests sistemes estan accessibles lliurement per Internet: interNOSTRUM, entre l'espanyol i el català; Traductor Universia, entre l'espanyol i el portuguès, i, més recentment, Apertium, un sistema de traducció automàtica de codi obert desenvolupat en col·laboració amb un consorci d'empreses i universitats espanyoles, que actualment tradueix entre les llengües de l'Estat Espanyol i altres llengües romàniques.


[editar] Recursos de la TA

[editar] Enllaços externs

[editar] Vegi's també

[editar] Bibliografía