Czytelnia / Technologie tłumaczeniowe

Warto zaznaczyć, że w praktyce można nie zauważyć istnienia wyraźnych różnic pomiędzy etapami, a niektóre z nich mogą w ogóle nie wystąpić. W wielu systemach RBMT następuje połączenie przetwarzania i otrzymywania; niektóre procesy rzeczywiście łączą analizę i usuwanie w jednym „transferze” (model transformatora lub „bezpośredniej translacji”).

W wielu systemach EBMT (lub założeniach) można zauważyć połączenie dopasowywania i usuwania - w rzeczywistości stwierdzamy, że „dopasowywanie” nie jest częścią „analizy”, bo nie wiąże się z dekompozycją (czy też zachodzi po procesie dekompozycji), lecz jest nieodłączną częścią fazy głównej (przetwarzania lub „transferu”). W wielu systemach EBMT analiza może być tak nieznaczna jak w SMT, składająca się po prostu z dzielenia zdań na frazy lub ciągi wyrazów na podstawie „znaczników” (np. przyimków, spójników, interpunkcji; patrz np. Gough i Way 2004). Jednakże w większości przypadków części wytworzonych segmentów są dalej przetwarzane na szablony lub struktury drzewkowe (tzn. „normalizowane”) bez procesu dopasowywania.

5. Baza danych

Pomimo tych rozważań, definicja jest jeszcze niepełna. Ważną cechą każdej translacji jest dostęp do informacji o odpowiednikach słownictwa w tekstach SL i TL  - w rezultacie zamierzonego zachowania „ekwiwalencji znaczeniowej”. Informacje te zawarte w bazie danych mogą pochodzić z różnorodnych źródeł (tekstów jedno- lub dwujęzycznych czy ze słowników, zasad gramatyki, słowników znaczeniowych itp.)
Przed pojawieniem się sposobu opartego na korpusie językowym (SMT i EBMT) przyznawano, że system MT powinien posiadać jakiś dwujęzyczny słownik i zestaw reguł do dostrzegania (przynajmniej) różnic szyku wyrazów między SL i TL.

W SMT słownik został w dużym stopniu zastąpiony dwujęzycznym korpusem językowym (wyrównanym w celu zestawienia wyrazów i zdań w SL i  TL) i reguły zostały zastąpione informacjami o częstotliwości zestawień pomiędzy wyrazami w SL i w TL („model translacyjny”), a kolokacjami wyrazów w TL w tekstach („model językowy”). W EBMT słownik został w dużym stopniu zastąpiony wyrównanym dwujęzycznym korpusem (zestaw „przykładów”), a reguły przykładami ciągów TL w korpusie tekstu. Zarówno w SMT, jak i w EBMT mogą być stosowane słowniki dwujęzyczne, prawdopodobnie również jednojęzyczne słowniki znaczeniowe. Jeśli lingwiści i użytkownicy takich słowników potwierdzą, że zawierają one uogólnione analizy, zaczerpnięte z wcześniejszego czytania tekstów, wtedy dwujęzyczne słowniki RBMT są również otrzymywane z korpusów językowych tekstów [7]. W tym świetle, różnice pomiędzy RBMT a SMT i EBMT, dotyczące użycia słowników dwujęzycznych  i korpusów językowych stają się również kwestiami drugorzędnymi.

Czy możemy stwierdzić, że istotne jest, by mieć dostęp to informacji niezbędnych do rozkładu (analizy) i łączenia (generowania) zdań? Przed pojawieniem się EBMT i SMT zakładano, że systemy wymagają wiedzy z dziedziny morfologii i składni (i prawdopodobnie również semantyki) zarówno SL jak i TL. Reguły zastosowane w RBMT powstały (jawnie i niejawnie, pośrednio) z obserwacji częstotliwości wzoru między językami. W EBMT i SMT informacje o poprawnej budowie zdań i ciągów zdaniowych są niejawnie włączane do dwujęzycznych baz danych. Informacje te są w sposób niewidoczny „uzyskiwane” dla dopasowywania i przetwarzania w takim stopniu, w jakim początkowe ciągi wyrazów muszą odpowiadać wytycznym SL, w przeciwnym razie nie przebiegną procesy dopasowywania. Podobne informacje są niezauważalnie wykorzystywane w fazach syntezy poprzez odniesienie do jednojęzykowego „modelu” (w SMT) i poprzez uzyskanie poprawnie zbudowanych fragmentów TL (w EBMT). Podsumowując, wiedza o tworzeniu zdań, jawna w RBMT, jest nadal niejawna w systemach EBMT i SMT.

--

[7] Okazuje się, że, jak podkreślają Somers i Turcato-Popowich, systemy RBMT mogą również wykorzystywać korpusy dwujęzykowe zamiast słowników dwujęzycznych (otrzymanych manualnie lub automatycznie).