Czytelnia / Teoria tłumaczenia

2. Korpusy językowe i narzędzia służące do ich analizy

Elektroniczny korpus językowy jest rozumiany jako ogromny zbiór tekstów odczytywanych komputerowo, które zostały zebrane według specjalnych kryteriów. W kontekście tłumaczeniowym odpowiedni korpus zawierałby teksty odpowiadające zamierzonym celom i zadaniom tekstu docelowego (to jest specyficznym rodzajom tekstów, które zostały publikowane w określonym przedziale czasowym i dotyczą danego tematu). W ten sposób korpus upodabnia się do publikowanych konwencjonalnych tekstów paralelnych [1] używanych przez wielu tłumaczy (patrz Schäffner 1998; Williams 1996). Jednak elektroniczny korpus językowy jest dużo większy od drukowanego. Ponadto może być przetwarzany za pomocą skomputeryzowanych narzędzi, znanych jako narzędzia do analizy korpusu [2]. Takie narzędzia pozwalają użytkownikowi kontrolować i pokazywać informacje zawarte w korpusie na wiele przydatnych sposobów. Większość tego typu pomocy zawiera co najmniej dwa główne elementy: częstotliwość występowania wyrazu i funkcję konkordancji.

Wykaz częstotliwości występowania wyrazu pozwala użytkownikowi dowiedzieć się, jak wiele różnych słów znajduje się w korpusie oraz jak często każde z nich występuje. Te dwa elementy są nawiązaniem do typów i znaków. Weźmy jako przykład zdanie „Ja bardzo lubię tłumaczenia, ponieważ ja uważam, że tłumaczenia są bardzo, bardzo interesujące”. To zdanie składa się z trzynastu słów, zatem można powiedzieć, że zawiera ono trzynaście znaków. Jednakże niektóre wyrazy występują w zdaniu więcej niż jeden raz (to jest „ja”, „bardzo”, „tłumaczenia”). Dlatego też zdanie składa się tylko z dziewięciu różnych słów, a te zwane są typami. W wykazie częstotliwości występowania wyrazu typy są przedstawione w formie listy, a liczba znaków (to jest częstość występowania danego słowa) jest wyświetlana obok typu, jak przedstawiono w tabeli 1.

Wykaz częstotliwości występowania wyrazu może być przetwarzany na wiele sposobów. Można je ułożyć w porządku alfabetycznym lub według częstotliwości rosnącej lub malejącej. Słowa należące do tego samego wykazu hasłowego (to jest słów, które mają jeden rdzeń i należą do tej samej części mowy, różniących się tylko pisownią lub odmianą) mogą być liczone razem lub oddzielnie, podobnie jak słowa zaczynające się wielkimi lub małymi literami. Listy słów, które możemy zignorować także mogą być użyteczne. Przykładowo można tego dokonać w celu wyeliminowania wspólnych wyrazów funkcyjnych, takich jak przyimki czy spójniki.

Informacja o częstotliwości występowania wyrazu może pomóc zadecydować tłumaczom, którego terminu użyć, gdy pojawia się wiele potencjalnych synonimów lub ekwiwalentów. Ten rodzaj danych może na przykład pomóc tłumaczom w ustaleniu, czy dany termin jest powszechnie używany przez ekspertów z konkretnej dziedziny, czy też jest to po prostu indywidualny wybór jednego autora.

TABELA 1

Przykład wykazu częstotliwości występowania wyrazu, pokazujący typy i znaki według częstotliwości.

DVD 765

is 341

will 208

it 177

drive 154

video 126

we 121

have 116

market 100

digital 97

not 89

said 85

consumer 83

PC 82

MPEG 81

player 80

all 79

technology 75

computer 73

chip 71



[1] Teksty paralelne są to dokumenty drukowane utworzone osobno w języku docelowym, ale mające tę samą funkcję komunikatywną co powstające tłumaczenie.

[2] Oprogramowanie służące do analizy korpusu, wykorzystywane do prowadzenia badań opisanych w tym artykule to WordSmith Tools, opracowane przez Mike’a Scotta na Uniwersytecie w Liverpoolu i jest ono rozprowadzane przez Oxford University Press