Czytelnia

Zdarzają się jednak sytuacje, kiedy różnica nie może być przypisana tylko wytycznym objaśnienia. [Analiza zależności przez redukcję (Lopatková 2005) proponuje kryteria do udowodnienia oraz formalną podstawę dla rozróżnienia. Jednak ten rodzaj analizy nie może być jeszcze przeprowadzony automatycznie]. Przedstawiamy przykład, w którym główny czasownik w języku angielskim został „przeniesiony” do zdania podrzędnego w języku czeskim.

5. Podsumowanie i dalsze badania

Opisaliśmy automatyczną procedurę działania słownika służącego do tworzenia grup czasownikowych w tłumaczeniu z paralelnego drzewa syntaktycznego. Oceniliśmy różne metody filtracji danych oraz doszliśmy do wniosku, że jakość dopasowania wyrazów jest przyczyną wydłużenia całego procesu. Przedstawiliśmy także pewne syntaktyczne rozbieżności pomiędzy językiem czeskim i angielskim, którym powinno się poświęcać więcej uwagi.
W przyszłości planujemy zająć się stosowną metodą opracowywania rozbieżności zdaniowych przez przystosowanie nieparalelnych badań lub przynajmniej automatyczne rozpoznanie różnic i usunięcie ich z danych. Chcemy także ulepszyć proces dopasowywania słów dla naszej pary języków poprzez zwracanie większej uwagi na aspekty językoznawcze.


Bibliografia


(Agrawal et al. 93) Rakesh Agrawal. Tomasz Imieliński, and Arun Swami. Mining assiciation rules between sets of items in large databases. In SIGMOD ’93: Proceedings of the 1993 ACM SIGMOD international conference of Management of data, pages 207-216, New York, NY, USA, 1993. ACM Press.

(Bojar 03) Ondřej Bojar. Towards Automatic Extraction of Verb Frames. Prague Bulletin of Mathematical Linguistics, (79-80): 101-120, 2003.

(Čmejrek et al. 03) Martin Čmejrek, Jan Cuřín, and Jiří Havelka. Czech-English Dependency-based Machine Translation. In EACL 2003 Proceedings of the Conference, pages 83-90. Association for Computational Linguistics, April 12-17 2003. MSM113200006, LN00A063.

(Čmejrek et al. 04) Martin Čmejrek, Jan Cuřín, Jiří Havelka, Jan Hajič, and Vladislav Kuboň. Prague Czech-English Dependency Treebank: Syntactically Annotated Resources for Machine Translation. In Proceedings of LREC 2004, Lisbon, May 26-28 2004.

(Hajič 87) Jan Hajič. RUSLAN: an MT system between closely related languages. In Computational Linguistics, pages 113-117. Association for Computational Linguistics, 1987.

(Korhonen 02) Anna Korhonen. Subcategorization Acquisition. Technical Report UCAM-CL-TR-530, University of Cambridge, Computer Laboratory, Cambridge, UK, February 2002.