Hoe werkt Google Translate?

Ook al zijn vertalingen van Google Translate verre van perfect, ze geven de gebruiker wel een idee van de inhoud van brontekst. De vertalingen zijn dus zeker bruikbaar: niet om te publiceren, maar om een idee te krijgen van de inhoud van een tekst in een vreemde taal. Gebruikers kunnen al naargelang de uitkomst bijvoorbeeld zelf bepalen of zij willen overgaan op het aanvragen van een professionele vertaling van de brontekst. Wanneer je weet hoe Google Translate werkt, is het eenvoudiger te begrijpen waarom het programma op een bepaalde manier vertaalt, om wellicht specifieke terugkomende taalfouten te doorgronden. Met een beter begrip van de opbouw van Google Translate, kun je je eigen gebruik en opinie van het programma hieraan aanpassen.

Het gebruik van een tussentaal

Google Translate is een computervertaalprogramma dat de vertaling tussen 80 talen ondersteunt: totaal 6320 talencombinaties. Dit getal is natuurlijk hoog, maar men dient in acht te nemen dat de meeste teksten via het Engels worden vertaald. Een vertaling tussen bijvoorbeeld het Zweeds en het Nederlands wordt gedaan door eerst de Zweedse brontekst naar het Engels te vertalen, en vervolgens de Engelse tekst naar het Nederlands te vertalen. Het gebruik van een tussentaal bij vertalingen vergroot de kans op vertaalfouten, en ook kan er meer informatie verloren gaan dan bij een rechtstreekse vertaling. Rechtstreekse vertalingen zijn ideaal, maar met de grote hoeveelheid aangeboden talencombinaties van Google Translate is het niet vreemd gedwongen te zijn een tussentaal te gebruiken.

Het vertaalmodel

De keuze van het Engels als tussentaal komt voort uit de werking van Google Translate. Google Translate is een statistisch vertaalprogramma, gebaseerd op parallelle corpora (tekstverzamelingen). Google Translate zoekt op het internet naar teksten die zijn vertaald in een andere taal. Dit kan een "oefencorpus" worden genoemd. Parallelle zinnen worden op woordniveau gealigneerd (verbonden), vervolgens worden er frasen (dit hoeven geen taalkundige frasen te zijn, maar kunnen een aantal woorden zijn) onderscheiden, die opeenvolgend zijn en met de woordalignatie overeenkomen. Dan wordt berekend hoe waarschijnlijk het is dat de frase in de doeltekst een vertaling is van de frase in de brontekst. Dit model is het vertaalmodel. Dit proces wordt bij elke nieuwe parallelle tekst herhaald, en op den duur heeft Google Translate een databank vol met frasen om vertalingen van te produceren.

Het taalmodel

Wanneer Google Translate een brontekst krijgt te vertalen wordt de tekst in frasen opgedeeld en de meest waarschijnlijke vertalingen van deze frasen worden als doeltekst opgesteld. Maar dan is de vertaling nog niet af. De doeltekst moet nu worden bijgeschaafd aan de hand van een taalmodel, gebaseerd op een eentalig corpus. Aan de hand van het eentalige corpus in de doeltaal, berekent Google Translate de waarschijnlijkheid van de uiteindelijk geproduceerde doeltaalzin, en kiest uiteindelijk de meest waarschijnlijke doeltaalzin, bijv. met een andere woordvolgorde.
Ook andere factoren hebben invloed op de uiteindelijke vertaling, zoals het aantal woorden en frasen.

Vertaalkwaliteit

De kwaliteit van een vertaling door Google Translate is afhankelijk van verschillende factoren. Omdat Google Translate afhankelijk is van reeds vertaalde teksten, is de toegang tot parallelle corpora in een bepaalde talencombinatie van grote invloed op de vertaalkwaliteit in die talencombinatie. Zijn er veel parallelle corpora beschikbaar in een bepaalde talencombinatie, dan kan Google Translate veel vertaalde frasen in zijn systeem opnemen, en hiervan vertalingen produceren. Des te meer teksten beschikbaar, des te beter de vertaling wordt. Een vertaling tussen twee kleine talen is niet mogelijk als er geen parallelle teksten voor te vinden zijn, maar dankzij een tussentaal kunnen deze talen toch (indirect) worden vertaald. Natuurlijk is Google Translate ook afhankelijk van de kwaliteit van deze gevonden parallelle teksten, omdat het systeem deze vertalingen gebruikt als oefencorpus. Fouten die Google Translate maakt kunnen afhankelijk zijn van fouten in die parallelle teksten.

Ook de taalsoort heeft invloed op de vertaalkwaliteit. Sommige talen zijn gewoonweg beter geschikt voor computervertalen, afhankelijk van hun eigenschappen. Een doeltaal met een complexe morfologie kan een probleem zijn als bijv. de brontaal niet zo specifiek is, terwijl de doeltaal dit wel vereist. Een voorbeeld hiervan is het Engelse werkwoord work, waarvan de vertaling in het Nederlands zowel de persoonsvormen werk als werken kan zijn. Dit probleem komt andersom minder voor, omdat een specifieke brontaal de vertaling in de doeltaal juist kan helpen. Echter is het dan wel belangrijk een groot oefencorpus te hebben, zodat alle specifieke vormen wel eerder verschenen zijn en opgenomen zijn door Google Translate. Woorden in sommige talen kunnen een hele reeks uitgangen bevatten die een betekenis bemiddelen, en als zo'n reeks niet eerder in het oefencorpus is voorgekomen, kan Google Translate het niet vertalen. Een voorbeeld van zo'n taal is het Fins.

Andere probleemvoorbeelden waar computervertalers te maken mee kunnen krijgen, zijn betekenisspecificaties die in de brontaal niet of alleen in de context worden weergegeven, en die in de doeltaal wel worden weergegeven. Zo wordt in het Zweeds altijd weergegeven of bijv. oma de grootmoeder is van vaderskant of van moederskant, terwijl dit in het Nederlands niet wordt weergegeven. Een vergelijkbaar voorbeeld is de vertaling van you uit het Engels naar het Nederlands, dat o.a. je of u kan betekenen.

Hoe werkt Google Translate?

Het gebruik van een tussentaal

Het vertaalmodel

Het taalmodel

Vertaalkwaliteit

Bronnen en referenties