Czytelnia / Technologie tłumaczeniowe

Współczynniki te są optymalizowane wielokrotnie za pomocą algorytmu Downhill Simplex poprzez wykonanie 100 – 200 tłumaczeń zbiorów badawczych, w oparciu o minimalizację błędu popełnianego podczas procesu uczenia [5]. Kryterium optymalizacji stanowi obiektywny miernik błędów występujących podczas tłumaczeń, jak np. współczynnik błędu rozpoznawania słów (ang. Word Error Rate, WER) czy też wynik najlepszego liniowego nieobciążonego estymatora (ang. Best Linear Unbiased Estymator, BLUE). Wykorzystywane są tutaj ujemne logarytmy prawdopodobieństw.

Prawdopodobieństwo image jest prawdopodobieństwem akustycznym hipotezy słowa image w siatce słów ARM, która stanowi odpowiednik elementuimage wektorów akustycznych [4]. Prawdopodobieństwoimagejest prawdopodobieństwem źródłowego języka przekładu opartego na m-gramach. Oba mogą ulec skalowaniu za pomocą funkcji wykładniczej; wówczas cecha modelu języka docelowego oraz cecha akustyczna uzyskają odpowiednio współczynniki skalujące image i image.

Cechy modelu translacji i wzór języka docelowego podlegają skalowaniu za pomocą zbioru funkcji wykładniczych image. Ich wartości mogą być optymalizowane wraz z współczynnikami skalującymi dla cech modelu rozpoznawania image i image równocześnie w jednym modelu logarytmiczno – liniowym. Współczynniki te są optymalizowane wielokrotnie za pomocą algorytmu Downhill Simplex poprzez wykonanie 100 – 200 tłumaczeń zbiorów badawczych, w oparciu o minimalizację błędu popełnianego podczas procesu uczenia [5]. Kryterium optymalizacji stanowi obiektywny miernik błędów występujących podczas tłumaczeń, jak np. współczynnik błędu rozpoznawania słów (ang. Word Error Rate, WER) czy też wynik najlepszego liniowego nieobciążonego estymatora (ang. Best Linear Unbiased Estymator, BLUE). Wykorzystywane są tutaj ujemne logarytmy prawdopodobieństw.

 

4. Praktyczne aspekty translacji opartej na frazach

4.1. Tworzenie siatki słów

Stosowane tutaj systemy rozpoznawania mowy tworzą siatki słów, których kąty są oznaczone czasem początkowym i końcowym, rozpoznanym elementem (słowo, hałas, zawahanie, cisza), prawdopodobieństwem ujemnego logarytmu akustycznych wektorów pomiędzy czasem początkowym i końcowym danego elementu. Pierwszym krokiem było odwzorowanie wszystkich elementów niebędących wypowiedzianymi wyrazami na znaczniku kąta zerowego ε. Nie korzystamy w naszej metodzie z informacji dotyczących czasu, dlatego usunęliśmy je z siatek i skompresowaliśmy strukturę stosując ε-anulowanie, determinizację i minimalizację. We wszystkich tych operacjach posługujemy się kompletem skończenie stanowych transduktorów [2], wdrażanych „na życzenie”. Ten krok znacząco zredukował czas trwania operacji, nie wpływając na efekty.

4.2. „Wydobywanie” frazy

Nawet jeśli ograniczymy maksymalną długość frazy (np. do 12 słów), liczba różnych par fraz, które mogą być wydobyte z dwujęzycznego korpusu tekstów treningowych jest bardzo duża. Dla efektywności translacji, potencjalne pary fraz muszą być jednak przechowywane w głównej pamięci. Aby przezwyciężyć ten problem, dla eksperymentów off-line wydobywane są jedynie te pary, w których fraza źródłowa pojawia się w próbnym korpusie danych wejściowych. W przypadku danych źródłowych dotyczących siatki słów w automatycznym rozpoznawaniu mowy, zmniejszamy wymogi pamięci następującą metodą. Siatka jest przecinana dla każdej próbnej wypowiedzi. Wydobywane są tylko te frazy, które pasują do (pod)szeregów kątów w siatce, a załadowane zostaną jedynie te, które mogą zostać użyte podczas tłumaczenia. W metodzie alternatywnej, para fraz może być zachowana tylko w przypadku, gdy każde słowo w potencjalnej frazie źródłowej jest zawarte w słownictwie siatki. Jest ono mniej obszerne niż słownictwo systemu ARM, ponieważ zawiera w zasadzie jedynie te słowa, które pojawiają się w siatce. Zaletą tej metody jest brak konieczności szukania siatek przed rozpoczęciem tłumaczenia.