Czytelnia / Technologie tłumaczeniowe

Często różnice strukturalne współgrają z różnicami leksykalnymi, np. tłumaczenie know na francuski i niemiecki, gdzie wybór pomiędzy connaître (kennen) lub savoir (wissen) wpływa zarówno na strukturę (Je connais l’homme), Ich kenne den Mann: Je sais ce qu’il s’appelle, Ich weiss wie er heisst) i tłumaczenie innych elementów leksykalnych (what jako ce que i wie).

Dostępne narzędzia znane są z innych dziedzin językoznawstwa komputerowego: zapewnienie słowników z informacją leksykalną, gramatyczną i tłumaczeniową, użycie analizy morfologicznej i składniowej do rozwiązania dwuznaczności w jednym języku i wyciągnięcia strukturalnych reprezentacji, użycie informacji w kontekście cech semantycznych, oznaczenie przypadków, informacji pozajęzykowych (świat realny) w celu rozwiązania dwuznaczności semantycznych. Wymagana do rozwiązania informacja  może być stosowana na każdym etapie: podczas analizy tekstu SL, podczas generowania tekstu w TL lub na etapie transferu.

Słowniki zawierają potrzebne informacje dla analizy SL (warianty morfologiczne, funkcje składniowe, cechy semantyczne, itd.) i dla syntezy TL (ekwiwalenty tłumaczeniowe, problemy związane ze składnią i słowotwórstwem TL, itd.). Może występować jedynie słownik dwujęzyczny, tak jak w wielu dawnych  „bezpośrednich” systemach lub częściej mogą istnieć oddzielne słowniki dla analizy (jednojęzyczny słownik SL), transferu (dwujęzyczny słownik SL-TL) i syntezy (jednojęzyczny słownik TL). Słowniki mogą zawierać terminy w pełnej formie bądź tylko bazowej „kanonicznej” lub rdzeniowej) nie odmienionych  formach, jeśli takowe mogą być bez problemu zidentyfikowane z form odmienionych . Ogólnie mówiąc, formy nieregularne są zamieszczane w całości.

Analiza morfologiczna dotyczy rozpoznania podstawowych form z form odmiennych, zarówno regularnych (fake:faked) jak i nieregularnych (make:made). Może ona również zawierać rozpoznanie form pochodnych (np. ang. –ly jako przysłówek utworzony z przymiotnika, niem. –heit jako rzeczownik od przymiotnika). Wszystkie systemy TM mają problemy z nieznanymi słowami, przede wszystkim neologizmami (zwłaszcza w literaturze naukowej i technicznej) ale również nieprzewidzianymi kombinacjami. Jeśli elementy pochodne mogą zostać poprawnie rozpoznane to można próbować tłumaczyć, szczególnie w przypadku „międzynarodowych” przedrostków i przyrostków (np. fr. demi- i ang. semi-, fr. –ique i ang. –ic). Analiza morfologiczna często zawiera segmentacje złożeń np. w języku niemieckim. Segmentacja jednak może sprawiać problemy, np. extradition może zostać przeanalizowana jako extradit+ion lub ex+tradition, cooperate jako co+operate lub cooper+ate. Problemy w powyższych przykładach mogą być rozwiązane po konsultacji słownika, jakkolwiek czasami alternatywne segmentacje są również możliwe (niem. Wachtraum może oznaczać guard room (Wacht+Raum) lub day dream (Wach+Traum). (Więcej o analizie morfologicznej w rozdziale 2.)

W innych obszarach językoznawstwa komputerowego uznaje się trzy podstawowe podejścia do analizy struktury składniowej. Pierwsza obiera sobie za cel identyfikację poprawnych sekwencji kategorii gramatycznych, np. angielskiego rodzajnika, przymiotnika i rzeczownika. Podejście to przyczyniło się do rozwoju analizatorów składniowych opartych na analizie przypuszczającej, gdzie sekwencja kategorii pozwala na przewidzenie następnej kategorii.