Czytelnia / Technologie tłumaczeniowe

Leksykon pojęciowy i informacja semantyczna w leksykonach analizy i generowania (np. definiująca wymogi semantyczne) są niezależne od języka, lecz charakterystyczne dla danej dziedziny. Istotą systemu jest reprezentacja interlingua tekstów w postaci sieci propozycji. Pochodzą one z procesu analizy semantycznej i interaktywnego ujednoznacznienie wykonanego przez „urządzenie do uogólnień” w oparciu o dziedzinę wiedzy „leksykonu pojęciowego”. Do końca lat 80-tych zespół Carnegie-Mellon w pełni rozwinął prototyp systemu KANT i był gotowy do stworzenia systemu operacyjnego opartego na wiedzy (patrz sekcja 10 poniżej).

9. Badania MT oparte na korpusach od 1989 do czasów obecnych


Dominujący kierunek badań MT aż do końca lat 80-tych był oparty głównie na regułach językowych różnego rodzaju: na regułach syntaktycznych, leksykalnych, transferu leksykalnego, generowania składniowego, morfologii, itd. Podejście oparte na regułach było najbardziej widoczne w systemach transferowych (Ariane, Metal, SUSY, Mu i Eurotra) ale było podstawą dla różnych systemów interlingua – zarówno tych zorientowanych językoznawczo (DLT i Rosetta), jak i tych opartych na wiedzy (KANT).

Jednakże od 1989 roku dominacja podejść opartych na regułach została złamana przez pojawienie się nowych metod i strategii, które są obecnie swobodnie nazywane „metodami opartymi na korpusach”. Najpierw, grupa z IBM opublikowała w 1988 roku wyniki badań nad systemem opartym jedynie na metodach statystycznych. Efektywność tej metody była znacznym zaskoczeniem dla wielu badaczy i skłoniła innych do eksperymentów z metodami statystycznymi różnego rodzaju w latach następnych. W tym czasie japońska grupa zaczęła publikować wstępne rezultaty, używając metod opartych na korpusach przykładowych tłumaczeń, tj. stosując podejście obecnie znane jako tłumaczenie „oparte na przykładach”. Głównym założeniem obu podejść jest brak używania składniowych lub semantycznych reguł w analizie tekstów lub w selekcji ekwiwalentów semantycznych.

Najbardziej gwałtowny rozwój związany był z odrodzeniem podejścia MT opartego na statystyce w postaci projektu Candide firmy IBM. Metody statystyczne były powszechne we wcześniejszym okresie badań nad MT, w latach 60-tych (patrz sekcja 3 powyżej) ale ich rezultaty przynosiły zazwyczaj rozczarowanie. Wraz z sukcesem nowszych technik stochastycznych w rozpoznawaniu mowy, grupa IBM z Yorktown Heights zaczęła ponownie poszukiwać ich zastosowania dla MT. Cechą charakterystyczną Candide jest to, że metody statystyczne są używane jako jedyny środek służący do analizy i generowania; nie stosuje się żadnych reguł językowych. Badania IBM są oparte na ogromnych korpusach tekstów francuskich i angielskich zawartych w raportach kanadyjskich debat parlamentarnych (Canadian Hansard). Istotą tych metod jest po pierwsze układanie zdań, grupowanie zdań i poszczególnych słów w tekstach równoległych i, następnie, obliczanie prawdopodobieństwa dla jednego słowa w zdaniu odpowiadającego słowu/słowom w zdaniu przetłumaczonym, które jest układane drugim języku.

Tym, co zdumiało wielu badaczy (zwłaszcza tych zajmujących się podejściami opartymi na regułach), były tak zadowalające rezultaty: prawie połowa przetłumaczonych zdań albo dokładnie pasowała do tłumaczeń z korpusu, albo miała taki sam sens wyrażony w nieco innych słowach, albo była innymi w równym stopniu zrozumiałymi tłumaczeniami. Oczywiście badacze chcieli udoskonalić rezultaty - grupa IBM zaproponowała wprowadzenie bardziej zaawansowanych metod statystycznych ale zamierzała zastosować również podstawowe informacje językowe, np. wykorzystanie wszystkich wariantów morfologicznych czasownika jako jednego wyrazu oraz użycie transformacji syntaktycznych w celu zbliżenia struktur źródłowych do struktur języka docelowego.