Czytelnia / Technologie tłumaczeniowe

Argumentem przemawiającym za dalszym badaniem metod EBMT jest fakt, że opiera się ono na rzeczywistych tekstach, a tłumaczenia wyjściowe powinny być bardziej czytelne i dostosowywane do kontekstów niż systemy RBMT, tzn. musi wzrosnąć jakość idiomatyczności i poprawność tekstów. Drugim argumentem jest to, że systemy EBMT można z łatwością udoskonalać, poprzez dodawanie większej liczby przykładów z korpusu dwujęzycznego; podczas gdy ulepszenie systemów RBMT pociąga za sobą modyfikację i dodanie złożonych reguł i jednostek leksykalnych. Trzeci argument jest uzasadniony tym, że EBMT nie wywołuje żadnych zawiłości transferu leksykalnego lub strukturalnego, jakie można znaleźć we współczesnych systemach RBMT, tzn. elementarna struktura EBMT jest prostsza i mniej podatna na niepowodzenia od struktury RBMT. Jako czwartą zaletę EBMT wymienia się to, że można za pomocą tych metod wykonać tłumaczenie zawierające złożone różnice strukturalne i niewielki dobór słów, z którymi RBMT często sobie nie radzi. Ogólnie rzecz biorąc, argumentem przemawiającym na korzyść EMBT jest jego zdolność do skuteczniejszego generowania zdań w języku docelowym.

3. Definicje EBMT Somersa, Turcata i Popowicha


Punktem wyjścia przy podjęciu próby zdefiniowania tłumaczenia maszynowego opartego na przykładzie (EBMT), może być krótka analiza artykułu Harolda Somersa (1999), przedrukowanego w poprawionym wydaniu w zbiorze Carla i Waya. W tym znakomitym przeglądzie EBMT autor kreśli charakterystykę głównych procesów i metod, jakie można napotkać, prowadząc badania nad EBMT. Charakterystyka ta zawiera treści, rozmiar oraz organizację baz danych równoległych korpusów dwujęzycznych - sposoby wybierania (np. według dziedziny, jako teksty kontrolowane), edycji (np. w celu zmniejszenia redundancji i potencjalnie szkodliwych „nienaturalnych” przykładów), metody wyrównywania, informacje, czy teksty są znakowane, analizowane jako interpretacje drzewkowe itd. W podobny sposób istnieją opcje w procesach dopasowywania (oparte na znaku, wyrazie, strukturze), wskaźniki podobieństwa (np. statystyczne i/lub przez odniesienie do słowników terminów), dostosowanie wybranych przykładów i ich „rekombinacja” do stworzenia zdań w języku docelowym (TL).

Autor podkreśla, że „rekombinacja”, pomimo jej istotnej roli w tłumaczeniu EBMT (którego głównym zamierzeniem jest tworzenie lepszej jakości tekstu wyjściowego niż RBMT), jest najbardziej zaniedbywanym obszarem badań nad EBMT- a zbiór Carla i Waya (2003) niejako to potwierdza. W końcu Somers przedstawia zarys rzeczywistych i możliwych zastosowań technik tłumaczenia EBMT (oraz podobnych do EBMT) i metod w innych strukturach tłumaczenia maszynowego, głównie pochodzenie słowników i reguł gramatycznych dla systemów RBMT oraz rolę EBMT w systemach wielosilnikowych i „hybrydowych”.

Somers słusznie zauważa, że użycie metod, które, jak się przyjmuje, stanowią „metody EBMT” nie oznacza, że są to systemy tłumaczenia EBMT. Różnorodność współgrających technik oraz sposobów wskazuje na rozwijające się produktywne struktury badań, lecz nie upraszcza ich pojęcia. Co według Somersa stanowi istotę problemu? Po pierwsze, „użycie korpusu dwujęzycznego to część definicji, ale nie jest wystarczające”, gdyż prawie wszystkie obecne badania dotyczące tłumaczenia maszynowego (MT) (w tym systemów RBMT) wykorzystują zbiory tekstów dla zdefiniowania i ograniczenia lub zahamowania zakresu badań, które mają objąć przynajmniej w początkowych fazach rozwoju. Jako bliższą Somers przedstawia następującą definicję: „EBMT oznacza, że podstawa wiedzy wynika z przykładów”. Jednak zdania przykładowe mogą być użyte w systemach RBMT jako dane źródłowe, z których powstają uogólnione reguły i wzory [4], a bazy danych systemów maszynowego tłumaczenia statystycznego (STM) również wywodzą się ze zbiorów tekstów „przykładowych”. Bardziej ograniczająca i definiująca charakterystyka EBMT wiąże się z tym, że „przykłady są używane na bieżąco”. Jak zauważa Somers, ta definicja wyklucza SMT ze schematu EBMT, jako że dane zastosowane w SMT powstają przed procesem tłumaczeniowym. W dodatku opcja „na bieżąco” wydaje się wykluczać wiele systemów EBMT opisanych w zbiorze Carla-Waya.

W artykule wydanym po publikacji Somersa, Davide Turcato i Fred Popowich negują definicję poprzednika. Ich zamierzeniem jest wyznaczenie schematu definiowania głównych procesów EBMT, tzn. identyfikacja lub wyodrębnienie tego, co czyni ten system opartym na przykładzie w przeciwieństwie do tego opartego na regule. Najpierw autorzy zgadzają się, że użycie baz danych przykładów w systemie tłumaczenia maszynowego nie uzasadnia wcale nazywania systemu EBMT, gdyż (tak twierdzą autorzy) sposób, w jaki wiedza systemu jest nabywana lub wyrażana nie jest istotny; naprawdę ważne jest to, jak wiedzę zastosuje się w praktyce.

--
[4] Carbonell et al. (2002) i Lavoie et al. (2001) opisują obecne systemy RBMT, które opierają się na korpusach językowych.