Czytelnia

Tłumaczenie oparte na frazach na bazie siatki słów systemu rozpoznawania mowy przy wykorzystaniu kombinacji modelu logarytmiczno-liniowego

Evgeny Matusov, Hermann Ney, Ralph Schlüter

Katedra Informatyki VI, Wydział Informatyki
Politechnika Akwizgrańska (ang. Rhenish-Westphalian Technical University;
niem. Rheinisch Westfälische Technische Hochschule, RWTH)
52056 Akwizgran, Niemcy
 
tłum. Sylwia Korfanty


Streszczenie

Niniejszy artykuł zajmuje się systemem tłumaczenia mowy, opartym na frazach, który łączy w sobie leksykon fraz, język oraz cechy modelu akustycznego w modelu logarytmiczno – liniowym. Automatyczne rozpoznawanie mowy i tłumaczenie maszynowe są połączone poprzez używanie dużych siatek słów jako danych przeznaczonych do przetłumaczenia. Po raz pierwszy wszystkie te elementy są bezpośrednio włączone w proces dekodowania. Waga elementów jest wielokrotnie optymalizowana, co umożliwia obiektywny pomiar błędu. Naszym celem jest udowodnienie, że wyniki akustycznego rozpoznawania słów na siatce wraz z wynikiem modelu języka źródłowego mają znaczący i pozytywny wpływ na jakość tłumaczenia. Prezentujemy korzyści płynące z wykorzystania kombinacji modelu logarytmiczno – liniowego dla optymalizacji współczynników skalujących. Informujemy o nieustannych postępach translacyjnych w ramach pojedynczego najlepszego wyniku rozpoznawania, otrzymanego podczas realizacji przekładu z języka włoskiego na angielski. Pierwsze zachęcające rezultaty zostały osiągnięte w tłumaczeniach dużego zbioru słownictwa z zakresu europejskich mów parlamentarnych.

1. Wprowadzenie

W latach ubiegłych udowodniono, iż automatyczne rozpoznawanie mowy (ang. automatic speech recognition, ASR) oraz tłumaczenie maszynowe (ang. machine translation, MT) mogą zostać połączone w celu bezpośredniego tłumaczenia wypowiedzi ustnych na inny język. Prezentujemy podstawowe zasady tłumaczenia opartego na frazach (ang. phrase – based translation), bazując na siatkach słów systemu automatycznego rozpoznawania mowy (ARM). Modele ARM i tłumaczenia maszynowego (TM) mogą tutaj zostać efektywnie połączone celem podniesienia jakości tłumaczenia.

W przeszłości proponowano i badano różnorodne metody tłumaczenia mowy. [8] prezentuje zintegrowany system tłumaczenia mowy do zastosowań w projekcie Eutrans. Osiągnięte rezultaty badawcze były jednak niespójne, gdyż system ten zadziałał znacznie gorzej niż system transferu danych rzeczywistych. [4] przedstawiał jedynie teorię zintegrowanego tłumaczenia mowy i nie omówił efektów badania. Niedawno [7] wywnioskował, że ściślejsze połączenie wspomnianych modeli może przynieść sukces jedynie wtedy, gdy siatki słów w ARM są rzadkie, tzn. jeśli istnieje tylko kilka hipotetycznych słów odpowiadających jednemu mówionemu w siatce. Oznaczałoby to, że w pełni zintegrowane tłumaczenie mowy w ogóle by nie zadziałało. [3] zaprezentował metodę łącznego prawdopodobieństwa dla tłumaczenia mowy opartego na ważonych skończenie stanowych transduktorach (ang. weighted finite-state transducers, WFSTs). W ramach trzech różnych przekładów wykazały one konsekwentny i znaczący postęp w jakości translacji, używając bardzo gęstych siatek za pomocą wyników modelu akustycznego.

System translacji [3] wytworzył hipotezy o pojedynczym wyniku; zostało też podkreślone, iż optymalizacja współczynnika skalującego jest decydującym czynnikiem wpływającym zarówno na sukces tłumaczenia, jak i na dobry wynik modelu akustycznego. W metodzie zaprezentowanej w [11] modele logarytmiczno – liniowe o wielokrotnych cechach zostały użyte do translacji mowy. W przeciwieństwie do naszych badań, współczynniki skalujące dla przyszłych funkcji były tam zoptymalizowane w kolejnej procedurze tworzenia grafu słów używanego podczas translacji, który powstał za pomocą systemu tłumaczenia opartego na pojedynczym słowie. Tutaj bezpośrednio łączymy ze sobą wszystkie modele, w tym słownictwo oparte na frazach oraz na pojedynczych wyrazach, a także cechy rozpoznawania w procesie dekodowania.