Czytelnia / Technologie tłumaczeniowe

5. Wyniki badawcze

5.1. Dane statystyczne dotyczące korpusu tekstów

Badania nad tłumaczeniem mowy zostały przeprowadzone dla dwóch różnych zadań i opierały się na dwujęzycznym korpusie uporządkowanym w ten sposób, że każdemu zdaniu w języku źródłowym odpowiada dokładnie jedno zdanie przekładu na język docelowy.

The Basic Travel Expression Korpus (BTEC) to korpus tekstów zawierający podstawowe wypowiedzi używane podczas podróży, zapisane w języku włoskim wraz z ich tłumaczeniami na język angielski. Otrzymaliśmy go dzięki uprzejmości ITC-irst. Dane statystyczne dotyczące korpusu tekstów dla tego zadania są podane w tabeli nr 1. Siatki słów testowanego korpusu obejmującego 506 zdań również zostały uwzględnione. Korpus podzielono na dwie równe części, z których jednej użyto jako zespołu ulepszeń, aby dostroić wzorcowe współczynniki skalujące.

 

  Język angielski
Język hiszpański
Trening: Zdania
1652174
Bieżące słowa
31148131 32554806
Słownictwo 80125 124192
Singletony 27631 41148
Rozwój: Zdania
500
Bieżące słowa
68996446

Częstość występowania słów,

których nie ma w słowniku [%]

0,2 0,1
ASR WER
14,5
-
Gęstość podziału siatki
8
-

Częstość występowania błędu

w oparciu o wykres ASR

6,3
-
Test: Zdania
792
Bieżące słowa 19306
19047

Częstość występowania słów,

których nie ma w słowniku [%]

1,6
-
ASR WER 14,6
-
Gęstość podziału siatki 17
-

Częstość występowania błędu

w oparciu o wykres ASR

18,7
-

Tabela 2. Dane statystyczne korpusu tekstów EPPS.