Czytelnia / Technologie tłumaczeniowe

Próba określenia definicji tłumaczenia maszynowego opartego na przykładzie

John Hutchins

tłum. Beata Wojciechowska

Streszczenie

Metoda tłumaczenia maszynowego oparta na przykładzie zyskuje coraz większą popularność. Niemniej jednak, ze względu na różnorodność stosowanych technik i metod, trudno jest rozpoznać i zrozumieć w całości koncepcję tego, czym w rzeczywistości jest tłumaczenie maszynowe oparte na przykładzie (EBMT) i/lub jak postrzegają je użytkownicy. Pomimo, że definicje systemów tłumaczenia maszynowego (MT) są znane ze swojego zróżnicowania, próbuje się określić EBMT, zestawiając je z innymi strukturami tłumaczenia maszynowego (MT) (RBMT i SMT).

1. Wstęp: dlaczego potrzebujemy definicji

Do późnych lat 80. dominował schemat tego, co teraz nazywamy tłumaczeniem maszynowym „opartym na regułach” (RBMT). Od tamtego czasu badania naukowe poświęcane są głównie metodom bazującym na korpusach językowych, wśród których rozróżnia się z jednej strony statystyczne tłumaczenie maszynowe (SMT), oparte głównie na częstotliwości występowania i kombinacjach słowem, i z drugiej - maszynowe tłumaczenie oparte na przykładzie (EBMT), bazujące na uzyskiwaniu i łączeniu zwrotów (lub innych krótkich części tekstu).

Ogólne pojęcie SMT jest obecnie dość znane - w istocie wszystkie opisane modele pochodzą z projektu sformułowanego po raz pierwszy w 1988 przez grupę IBM (Brown 1988) [1]. Najpierw wyrównywane są zdania oparte na korpusie dwujęzycznym, następnie poszczególne słowa tekstu źródłowego i docelowego, tj. ustala się ich zgodność. Na podstawie tych działań powstaje „model tłumaczeniowy” częstotliwości: tekst źródłowy - tekst docelowy (SL-TL) i „model językowy” sekwencji wyrazu tekstu źródłowego. Tłumaczenie dotyczy wyboru najbardziej prawdopodobnych słów TL dla każdego terminu wprowadzanego i określeniu odpowiedniego ciągu tak wybranych słów w języku docelowym. Podstawowymi składnikami systemów SMT są wyrazy; ale w ostatnim czasie uwzględnia się również dłuższe sekwencje (patrz ustęp 8 poniżej).

Model EBMT jest zdefiniowany nieco mniej dokładnie od SMT. Ogólnie (jeśli nie pobieżnie), system nazywa się modelem EBMT, jeśli zastosowane są w nim części (sekwencje wyrazów [ciągi], a nie poszczególne wyrazy) tekstów języka źródłowego (SL), otrzymane z korpusu tekstowego (jego przykładowej bazy danych), w celu zbudowania tekstów w języku docelowym (TL) o tym samym znaczeniu. Podstawowymi składnikami dla EBMT są więc sekwencje wyrazów (wyrażenia).

W obrębie systemu EBMT istnieje również ogromna liczba metod i różnorodność technik, spośród których wiele powstaje dzięki innemu podejściu do zagadnienia: metody stosowane w systemach RBMT, zawarte w SMT, wybrane techniki stosowane w pamięciach tłumaczeniowych (TM) itd. Przede wszystkim nie ma wyraźnej zgody na temat tego, czym jest EBMT. We wstępie do zbioru prac dotyczących EBMT (Carl i Way 2003), redaktorzy - być może słusznie - unikają próby zdefiniowania EBMT, twierdząc, że dziedziny naukowe mogą równie dobrze istnieć bez wyraźnie sprecyzowanego schematu, a nawet lepiej się wtedy rozwijają, ponieważ nie zostały zdefiniowane.

--

[1] Ten „model” SMT nie jest jedynym możliwym, lecz inne były rzadko stosowane, jeśli w ogóle.