Czytelnia / Technologie tłumaczeniowe

Gęstość siatki w tabeli nr 1 jest definiowana jako liczba łuków w siatce podzielona przez bazową długość segmentu, która została uśredniona po wszystkich występujących segmentach. Jest ona mierzona po determinizacji i minimalizacji oryginalnych siatek. Częstość występowania błędów wyliczana w oparciu o wykres ARM stanowi minimalny współczynnik błędu rozpoznawania słów (ang. Word Error Rate, WER) spośród wszystkich ścieżek siatki. Dla oceny udostępniono 16 translacji referencji poprawnych transkrypcji.

Testowaliśmy również nasz system w przypadku dużego zbioru słownictwa – wykonywaliśmy tłumaczenie maszynowe mów parlamentarnych wygłoszonych na Sesjach Plenarnych Parlamentu Europejskiego. Korpus szkoleniowy dla tego zadania został uzyskany w ramach europejskiego projektu badawczego TC-STAR (Technology and Corpora for Speech to Speech Translation). Zawiera on ponad 30 mln słów w języku hiszpańskim i ich odpowiedników w języku angielskim. W marcu 2005 została przeprowadzona w ramach projektu ocena jakości działania tłumaczenia maszynowego. Zaprezentowany tutaj system Statystycznego Tłumaczenia Maszynowego (ang. Statistical Machine Translation, SMT) opartego na frazach wykazał najlepsze tłumaczenie, w szczególności w warunkach translacji dosłownie przytoczonego tekstu oraz pojedynczego najlepszego wyniku rozpoznawania otrzymanego podczas realizacji przekładu. Prezentujemy wyniki badawcze tłumaczenia z języka angielskiego na hiszpański. Korzystamy z tego samego korpusu testowego co podczas oceny TC-STAR w 2005 roku, dla której udostępniono dwa tłumaczenia referencyjne, używamy jednak danych wyjściowych RWTH ASR (pojedyncze słowa będące najlepszym uzyskanym wynikiem rozpoznawania oraz siatki takich słów) zamiast oficjalnych danych dotyczących oceny jakości ARM. Dane statystyczne dla tego zadania zostały przedstawione w tabeli nr 2. W zakres tłumaczonego słownictwa wchodzi aż 125 tys. słów. Słownictwo zastosowane dla rozpoznawania mowy w języku angielskim jest już mniej obszerne – obejmuje około 50 tys. słów. Utworzony korpus został wybrany w celu uzyskania podobnego współczynnika występowania błędnych wyrazów w ramach ARM do testowanego korpusu.

5.2. Kryteria oceny

Przy ocenie automatycznej wykorzystano współczynnik błędu rozpoznawania słów (WER) współczynnik błędu rozpoznawania słów niezależny od pozycji (ang. position-independent word error rate, PER) oraz wynik najlepszego liniowego nieobciążonego estymatora. Ten ostatni mierzy dokładność, i tak np. wyższe wyniki są doskonalsze. Współczynniki i wyniki błędu zostały obliczone w związku z wielokrotnymi tłumaczeniami referencji. W obydwu zadaniach szkolenie i ocenę przeprowadzono za pomocą korpusu i referencji pisanych małymi literami i bez znaków interpunkcyjnych.

5.3. Przekład korpusu tekstowego zawierającego podstawowe wypowiedzi używane podczas podróży, zapisane w języku włoskim wraz z ich tłumaczeniami na język angielski (BTEC)

W ramach zadania dotyczącego przekładu korpusu tekstowego zawierającego podstawowe wypowiedzi używane podczas podróży zapisane w języku włoskim i angielskim, określiliśmy i wykorzystaliśmy w badaniu model docelowego języka przekładu opartego na 4-gramach. Aby objąć cechy modelu języka źródłowego, w niektórych eksperymentach poszerzyliśmy każdą siatkę słów o wyniki wzoru języka bazującego na trigramach oraz zastosowaliśmy usuwanie jednolitych strumieni w powstałym automacie, co zostało opisane w rozdziale 4.3.

Wyniki badania korpusu zawierającego podstawowe wypowiedzi używane podczas podróży zostały przedstawione w tabeli nr 3, w której rezultaty pogrupowano według typu optymalizacji dokonanej na podstawie modelu logarytmiczno – liniowego. W pierwszej grupie eksperymentów optymalny zbiór parametrów translacji λ został określony w ramach poprawnego tekstu poprzez minimalizację częstości występowania błędnych słów. Następnie użyliśmy tych parametrów do przekładu najlepszego pojedynczego wyniku rozpoznawania oraz zauważyliśmy, że częstotliwość występowania błędnych słów przy tłumaczeniu poprawnego tekstu jest niższa niż w przypadku najlepszego pojedynczego przekładu w ramach ARM względnie o ok. 26%.