Czytelnia

2.3. Dodatkowe filtrowanie statystyczne

Jako trzeci krok dodatkowo stosujemy filtrowanie statystyczne, aby jeszcze uprościć porządkowanie badanych grup czasownikowych.

Jak dotychczas eksperymentowaliśmy tylko z jedną możliwą metodą tej filtracji. Algorytm Apriori (Agrawal i in. 1993) został stworzony w celu wsparcia sprzedaży: zawiera listę transakcji (zestawienie nabytych artykułów). Apriori ustala typowe zależności, takie jak: „Ktoś, kto kupuje chleb, kupuje też zazwyczaj masło”. Produkty algorytmu Apriori mogą być ewentualnie interpretowane jako lista najczęstszych podzbiorów transakcji. W naszym przypadku jego zastosowanie jest proste: każda (uporządkowana) grupa czasownikowa odpowiada transakcji, a każda para modyfikacji artykułowi. Podtransakcje (podzbiory struktury tłumaczenia) zasugerowane przez algorytm Apriori są z kolei gromadzone w słowniku.

Jako kolejnej opcji tej filtracji moglibyśmy użyć jednej z metod opisanych w pracy Zemana i Sarkara (2000), aby automatycznie rozpoznać modyfikacje typowe dla czasowników (takie jak dopełnienia). Powszechne modyfikacje i ich przekłady powinny być gromadzone w słowniku (typowe modyfikacje mają typowe tłumaczenie), podczas gdy tłumaczenie okoliczników mogłoby być przechowywane dla wszystkich czasowników razem.

3. Ocena

Aby ocenić jakość opisanych metod gromadzenia i filtracji, przygotowaliśmy niewielki korpus, składający się ze 140 zdań zawierających 400 zastosowań 200 różnych czasowników. Korpus ten zawiera w sumie 1005 modyfikacji czasownika, które zostały ręcznie dopasowane do angielskich odpowiedników.

3.1. Ocena algorytmów

Kompletny system tłumaczenia maszynowego nadal się rozwija, dlatego też wprowadziliśmy trzy proste algorytmy, które przypisują tłumaczenie na język angielski każdej modyfikacji czasownika w języku czeskim, a także danego czasownika w języku czeskim i wszystkich jego modyfikacji [2]. Algorytmy opierają się na tej samej wersji utworzonego słownika (tj. na tym samym zbiorze uporządkowanych i przefiltrowanych grup tłumaczenia).

--

[2] Oczywiście mogą istnieć bardziej poprawne tłumaczenia czeskich zdań, więc możliwe jest użycie różnych czasowników angielskich i innych form modyfikacji. Dla ułatwienia nie bierzemy tego pod uwagę i korzystamy tylko z jednego źródła tłumaczenia.