Czytelnia / Technologie tłumaczeniowe

Tworzenie korpusu do celów tłumaczeniowych
Michael Wilkinson

tłum. Mateusz Kalinowski

Źródło: http://accurapid.com/journal/35corpus.htm

W poprzednich wydaniach Translation Journal (czerwiec 2005; październik 2005) pokazałem w jaki sposób narzędzia do analizy korpusów mogą być pomocne w wykonywaniu tłumaczeń. Jednak zanim zaczniemy używać takich narzędzi potrzebujemy jednego lub kilku korpusów.. Mamy dwie możliwości: albo zdobędziemy gotowy korpus, albo przygotujemy własny korpus DIY („Do it Yourself” – zrób to sam”).

Gotowe korpusy i ich ograniczenia


Przez ostatnie dekady duża ilość angielskojęzycznych korpusów, jak również korpusów w innych językach, została skompilowana do formatu elektronicznego. Strona internetowa "Gateway to Corpus Linguistics on the Internet" pod adresem http://www.corpus-linguistics.de/ stanowi użyteczny zbiór najbardziej znanych korpusów wraz z informacją o autorze, czasie powstania, rozmiarze, zawartości i dostępności.

Jednakże większość korpusów udostępnionych w serwisie "Gateway", pomimo ogromnej wartości dla lingwistów, nie będzie zbyt pomocna dla tłumaczy, ponieważ przedstawione informacje są często zbyt ogólne bądź przestarzałe; ponadto, niektóre zbiory składają się z tekstów mówionych bądź tekstów historycznych, które nie są przydatne podczas tłumaczenia współczesnego języka pisanego. Co więcej, niektóre korpusy nie są dostępne dla ogółu społeczeństwa, większość jest stosunkowo droga, wymaga subskrypcji lub zakupu płyty CD.

Serwis "Gateway" przedstawia kilka "megakorpusów" składających się z wielu milionów słów. Niektóre z nich były wykorzystywane do tworzenia słowników, inne do badań lingwistycznych. Jednym z najlepiej znanych megakorpusów języka brytyjskiego jest British National Corpus (BNC), zbiór 100 milionów słów oraz przykładów języka pisanego i mówionego z różnych dziedzin, skonstruowany w taki sposób, by przedstawić różnorodność współczesnego języka angielskiego. Korpus ten został udostępniony po raz pierwszy w 1995 roku.

Część pisemna (90%) obejmuje, na przykład, wycinki z gazet regionalnych i ogólnokrajowych, czasopism specjalistycznych, czasopism dla wszystkich grup wiekowych i różnych zainteresowań, książek edukacyjnych i beletrystyki, opublikowanych i nie opublikowanych listów i notatek, esejów szkolnych i akademickich. Jednakże, pomimo dużego rozmiaru, BNC posiada poważne ograniczenia jako pomoc tłumaczeniowa przy tłumaczeniu tekstów specjalistycznych języka współczesnego.

Browker i Pearson (2002, str. 46-47) podają dobry przykład na poparcie powyższego twierdzenia. Jeśli tłumaczylibyśmy tekst o budowie maszyn i chcielibyśmy wyszukać słowo "nut" i jego różnorodne kolokacje, to korpus BNC obejmujący 100 milionów słów podałby nam 670 przykładów. Jednakże zauważamy, że większość wyników wyszukiwania jest dla nas mało przydatna. Są to bowiem przykłady terminu "nut" oznaczające orzech jadalny bądź ekscentryczną osobę.

Pomimo że niektóre wyniki wyszukiwania opisują "nuts" (nakrętki) mające zastosowanie w inżynierii, to znalezienie ich zajmuje dużo czasu; istnieją liczne nieścisłości, ponieważ słowo "nut" jest homonimem - posiada wiele znaczeń - a „oddzielenie ziarna od plew jest czasochłonne”.