Czytelnia

2. Metoda

Terminu GRUPA CZASOWNIKOWA W TŁUMACZENIU używamy do oznaczenia pary czeskich i angielskich wyrażeń, które towarzyszą czasownikowi (PARY MODYFIKACYJNE). Definicja ta oznacza, że liczba słów w grupie czasownikowej zarówno w języku angielskim, jak i czeskim musi być taka sama. Pary modyfikacyjne ukrywają podstawowe informacje morfologiczne i syntaktyczne, takie jak przyimek czy przypadek. Poniżej przedstawiamy przykład tłumaczenia czasownika z jedną tylko parą modyfikacji.

• dělit = divide na + accusative = into

Do automatycznego tworzenia grup czasownikowych w tłumaczeniu potrzebujemy paralelnego korpusu zależności odpowiedniego do danego poziomu słów. W tym przypadku projekt PCEDT doskonale pasuje do tego zadania, ale dostosowanie „słowo w słowo” musi być dodane. Wykorzystaliśmy komplet narzędzi GIZA++ ((Och & Ney 03)), chociaż nigdy nie były one używane do naszej specyficznej pary języków.

2.1. Badanie grup w tłumaczeniu


W pierwszym kroku BADANE GRUPY W TŁUMACZENIU otrzymujemy w następujący sposób: każde użycie czeskich czasowników jest analizowane. Jeśli program GIZA++ automatycznie dopasował czasownik czeski do angielskiego, ich modyfikacje są ze sobą zgodne. Każdej z nich w języku czeskim przypisana jest modyfikacja danych w języku angielskim, co powinno także ulepszyć jakość badanych grup w tłumaczeniu. Oczywiście ten nazbyt uproszczony sposób ma swoje ograniczenia; szczegóły patrz Rozdział 4.

2.2. Uporządkowanie badanych grup czasownikowych

Druga faza polega na uporządkowaniu i poprawieniu statystyki badanych grup. Eksperymentowaliśmy z wieloma technikami, włączając ich kombinacje:

  • bez uporządkowania (oznaczona jako raw): badane grupy czasownikowe są użyte bezpośrednio;
  • usunięcie rzadko używanych typów modyfikacji (freq): wszystkie badane grupy są uproszczone (pomniejszone przez usunięcie par modyfikacji, które według obserwacji nie występują wystarczająco często (nie licząc czasownika);
  • usunięcie źle dopasowanych zdań (giza): program GIZA++ zapewnia każdemu zdaniu pewność dopasowania. Stosujemy tę miarę do zebrania badanych grup czasownikowych tylko ze zdań, które nie sprawiają kłopotu.
  • jedynie bardzo proste zdania w języku czeskim (vss): stosujemy system oparty na regułach (Bojar 2003), aby usunąć wszystkie pary zdań, które w języku czeskim mają zbyt skomplikowaną budowę i zminimalizować ryzyko błędnej automatycznej analizy syntaktycznej, związanej z modyfikacją czasownika. Metoda ta znacznie poprawia dokładność analizy składniowej (kosztem zmniejszenia dostępnych danych), tak jak zostało to zademonstrowane we wspomnianej pracy Bojara. Ponieważ zdania w języku czeskim są analizowane automatycznie, selekcja danych powinna także ulepszyć jakość badanych grup w tłumaczeniu.