Czytelnia / Technologie tłumaczeniowe

4.3. Usuwanie zbędnych elementów

System tłumaczenia opartego na frazie, którego dane wejściowe może stanowić siatka słów o wysokiej gęstości, tworzy ogromną przestrzeń poszukiwań, w związku z czym konieczne jest usuwanie zbędnych elementów. W naszym systemie stosujemy tzw. oczyszczanie zawartości (porównywane są ze sobą hipotezy odpowiadające temu samemu zbiorowi słów źródłowych) i wyrównywanie histogramu. Wymienione metody bazują na całkowitych kosztach hipotez. Ich wartość bezwzględna zależna jest od współczynników skalujących indywidualnych modeli. Ponieważ wartości współczynnika skalującego o znacząco różnym wymiarze są testowane podczas optymalizacji, może dojść do usunięcia niewłaściwej liczby hipotez. Aby tego uniknąć, regulujemy współczynniki skalujące w każdej wielokrotności procedury optymalizacji tak, aby ich suma wynosiła 1.

Koniecznością może być również usunięcie siatek słów jako danych wejściowych. W naszych eksperymentach mamy osobne współczynniki skalujące dla cech modelu języka akustycznego i źródłowego. W tym celu kąty siatek słów są oznaczone wynikami modelu akustycznego. Następnie, w trakcie procesu tłumaczeniowego, wagi kątów w siatce rozpoznawania są poszerzone o wyniki modelu języka źródłowego. Bezpośrednio po tej operacji, zostaje usunięty powstały automat za pomocą stosunkowo długiego strumienia (usuwanie siatek w oparciu wyłącznie o wyniki akustyczne nie przyniosłoby oczekiwanych rezultatów). Współczynniki skalujące, które zostaną „wypróbowane” w procesie optymalizowania, muszą zostać rozważone przy wybieraniu progu usuwania zbędnych składowych.

 

  Język włoski
Język angielski
Trening: Zdania
66107
Bieżące słowa
410275-
Słownictwo1598310918
Singletony6386
3974
Rozwój: Zdania
253
Bieżące słowa
14721510

Częstość występowania słów,

których nie ma w słowniku [%]

3,10,8
ASR WER
23,3-
Gęstość podziału siatki
49
-

Częstość występowania błędu

w oparciu o wykres ASR

15,6
-
Test: Zdania
253
Bieżące słowa1459
1513

Częstość występowania słów,

których nie ma w słowniku [%]

2,5
0,8
ASR WER21,4
-
Gęstość podziału siatki59
-

Częstość występowania błędu

w oparciu o wykres ASR

15,4
-

Tabela 1.Dane statystyczne korpusu tekstów BTEC.