Czytelnia

Tworzenie grup czasownikowych w tłumaczeniu

Ondřej Bojar i Jan Hajič
Instytut Lingwistyki Formalnej i Stosowanej
Malostranskě náměstí 25, Praha 1, CZ-118 00, Czechy
(bojar, hajic)@ufal.mmf.cuni.cz
tłum. Elżbieta Trumińska


Streszczenie

W poniższym tekście przedstawiamy metodę tworzenia w tłumaczeniu grup czasownikowych (paralelnych subkategorii gramatycznych) z paralelnego drzewka syntaktycznego. Powstałe grupy są ważną częścią słownika tłumaczenia maszynowego dla systemu strukturalnego TM. Samodzielnie oceniliśmy naszą metodę, używając określonego ręcznie zbioru danych. Doszliśmy także do wniosku, iż jakość automatycznego dopasowywania wyrazów jest przyczyną wydłużenia całego procesu.

1. Wstęp


Strukturalne tłumaczenie komputerowe (w przeciwieństwie do statystycznego) jest bardzo wrażliwe na jakość słowników tłumaczenia, zarówno pod względem szczegółowego określania, jak również kategorii znaczeniowej. Niestety, manualne utworzenie lub unowocześniane tych słowników jest bardzo żmudnym zadaniem.

Dla naszej pary języków - czeskiego i angielskiego niedostępne są elektroniczne urządzenia do tłumaczenia komputerowego. Istnieją słowniki odczytywane komputerowo, (patrz: Svoboda 2001) np. słownik WinGED [1]. Były one jednak przeznaczone dla zwykłych użytkowników i albo nie zawierają żadnych wymaganych informacji, albo informacje podane są w nieformalnym stylu. Naukowcy (tacy jak Čmejrek i in. 2003), pracujący nad strukturalnym tłumaczeniem maszynowym, także musieli korzystać z bardzo ograniczonych słowników, zawierających tłumaczenia tylko pojedynczych wyrazów.

Naszym celem jest stworzenie systemu odpowiedzialnego za wykonywanie tłumaczeń z języka czeskiego na angielski, zawierającego więcej szczegółowych informacji syntaktycznych. W szczególności musimy wesprzeć angielską adaptację systemu Ruslan MT (Hajič 1987). Wymaga on przede wszystkim dokładnej znajomości grup czasownikowych i ich tłumaczenia.

Używamy Praskiego Czesko-Angielskiego Drzewka Syntaktycznego (PCEDT, (Čmejrek i inni 2004)) do automatycznego tłumaczenia grup czasownikowych, aby w słowniku znalazły się (określone) konstrukcje syntaktyczne.

W przeszłości prowadzono obszerne badania nad subklasyfikacją tworzenia owych grup opartych na korpusie językowym lub strukturach drzewkowych. Szczegóły i dokładne porównanie obu metod można znaleźć w pracy A.Korhonen (2002) lub Zemana i Sarkara z 2000 r., a także w opracowaniach kilku innych autorów. Nasz cel jest jednak inny niż wyżej wymienionych autorów. Zamiast badać, czy modyfikacja czasownika jest właściwą kategorią gramatyczną (np. dopełnienie), lub czy może występować z czasownikiem (okolicznik), musimy znaleźć odpowiedź na pytanie: „Jakiego rodzaju modyfikacji, czyli której formy i jakiego przyimka powinien użyć system w tłumaczeniu czasownika z języka czeskiego na angielski?”.

--

[1] http://www.rewin.cz