Czytelnia / Teoria tłumaczenia

3.3. Korpus ilościowy

Korzystając z konwencjonalnych źródeł, takich jak teksty paralelne, większość oceniających zaprzestaje poszukiwań po wybraniu materiałów przypominających korpus jakościowy, jak zostało to opisane powyżej. Jednakże istnieje wiele powodów, dla których nie powinno się wyłącznie polegać na korpusie jakościowym przy ocenie tłumaczenia. Po pierwsze dlatego, że jest to względnie mały zbiór. Nie można mieć pewności, czy wybrane teksty naprawdę reprezentują konkretny rodzaj, lub czy autorzy tych tekstów użyli w nich ogólnie przyjętej terminologii, stylu itd. Po drugie, teksty znajdujące się w korpusie jakościowym czasem mogą być nieco starsze od tych, które mają rzeczywistą wartość merytoryczną (jak wspomniano o tym w rozdziale 3.2.). Jednak przyjmuje się, że z czasem pojęcia tracą swoje znaczenie, zatem te, które były poprawne w przeszłości, nie mogą być dłużej odpowiednie.

Zatem korpus ilościowy został stworzony po to, aby dostarczyć większą ilość bardziej reprezentatywnych próbek języka fachowego. Niestety, kwestia wielkości i reprezentatywności nie jest całkowicie jasna. Czynniki zewnętrzne, takie jak czas i dostęp do informacji będą miały na to wpływ, ale co powinni rozumieć szkoleniowcy pod pojęciem idealnych warunków? Prawdą jest, że jeśli chodzi o korpus językoznawczy, większy wcale nie oznacza lepszy. Mały, lecz dobrze zaprojektowany korpus może dostarczyć więcej przydatnych danych, niż obszerny, ale mniej przemyślany. Niemniej jednak korpus składający się z kilku krótkich tekstów nie przytoczy wystarczająco dużo przykładów użycia terminu, aby móc rozpoznać schemat. Z doświadczenia wiem, że korpusy ilościowe o rozmiarach od 20 000 do 200 000 słów okazują się przydatne. Korpusy większe są trudne do opracowania, a mniejsze nie zawierają wystarczająco dużo interesujących informacji. Oczywiście korpusy zawierające 200 000 słów dostarczają większą ilość danych, szczególnie z dziedzin, które nie są zbyt zawężone. Jednak ich utworzenie zazwyczaj zajmuje więcej czasu. Warto przygotować korpus takiego rozmiaru, zwłaszcza gdy będziemy z niego korzystać przez dłuższy okres (np. dłużej niż jeden semestr).

Korpusy składające się z 20 000 słów nadal są interesujące, szczególnie w bardzo wyspecjalizowanych dziedzinach, gdzie język jest ściśle określony, a duże ilości informacji mogą być trudno dostępne. Ponadto, jeśli korpus będzie używany nie więcej niż raz czy dwa razy, nie warto poświęcać zbyt wiele czasu na opracowanie go. Mimo to, że rozmiar jeszcze większych korpusów ilościowych może wydawać się mały w porównaniu z ogólnymi korpusami językoznawczymi (które często składają się z wielu milionów słów), przyjmuje się, że korpusy mające specjalne zastosowanie mogą być mniejsze od tych, których używa się do ogólnych badań językoznawczych (patrz Engwall 1994: 51).

Teksty zawarte w korpusie ilościowym powinny być względnie aktualne, jednak ich aktualność będzie zależała od dziedziny. Teksty z szybko rozwijających się dziedzin tematycznych nie powinny być starsze niż dwu-, trzyletnie, ale teksty pięcio- lub sześcioletnie z dziedzin bardziej stałych mogą być nadal wartościowe. O ile to możliwe, teksty z każdego przedziału czasowego (np. z każdego roku kalendarzowego) powinny być mniej więcej porównywalne, aby umożliwić tłumaczom lub oceniającym zaobserwowanie zmian w terminologii wraz z upływem czasu. Dlatego też można by podzielić korpus ilościowy na dalsze podkorpusy - jeden na każdy rok. Narzędzie służące do analizy korpusu, takie jak WordSmith (patrz rozdział 2) pozwala użytkownikom skonfrontować jednocześnie wielorakie korpusy, więc wszystkie podkorpusy mogą być przejrzane dla uzyskania ogólnego zarysu. Można także zbadać osobno każdy podkorpus, aby sprawdzić częstotliwość użycia konkretnego terminu w danym okresie.