Czytelnia

Należy dodać, że zasadniczym narzędziem do analizy materiału korpusowego są programy konkordancyjne, zwane potocznie konkordancerami, które umożliwiają tworzenie konkordancji (zestawień słów kluczowych w kontekście). Konkordancje pozwalają określić pewne stałe wzorce leksykalne i występują najczęściej w formacie KWiC (ang. Key Word in Contexf), w którym słowo kluczowe znajduje się w pozycji centralnej z kontekstem prawo i lewostronnym.

Programy konkordancyjne projektowane są przy tym w taki sposób, by umożliwić dostosowanie wielkości kontekstu do potrzeb użytkownika (kontekst można dowolnie poszerzać), a także sortowanie konkordancji (np. według porządku alfabetycznego, według form fleksyjnych danego leksemu itd.).

Ponieważ korpusy są również znakowane morfosyntaktycznie (wyrazom przyporządkowuje się określone kategorie gramatyczne, np. trybu, liczby czy przypadka), narzędzia konkordancyjne umożliwiają także wyszukiwanie określonych wzorców gramatycznych (np. związków wyrazowych składających się z przyimka i rzeczownika, np. on evidence, at noon, in numberś).

Ponieważ wykorzystanie informacji morfosyntaktycznej wymaga jednak od użytkownika pewnej wiedzy metajęzykowej oraz praktycznych umiejętności w posługiwaniu się oprogramowaniem obsługującym korpus, w niniejszej pracy pominę bardziej zaawansowane techniki wyszukiwania.

2.2. Struktura Brytyjskiego Korpusu Narodowego

Brytyjski Korpus Narodowy (http://www.natcorp.ox.ac.uk) to korpus synchroniczny obejmujący ponad 100 milionów wyrazów, przygotowany w oparciu o teksty pochodzące z roku 1975 lub okresu późniejszego. Zawiera on 4124 próbki tekstowe równej długości, które tworzą ściśle określoną strukturę.

Tabela 1. Struktura Brytyjskiego Korpusu Narodowego

 Typ tekstów w BNC Gatunek i styl tekstów w BNC
 90% tekstów pisanych •   75%) tekstów publicystycznych
  •   25%o tekstów literackich
 •   60% książek
 •   35%o czasopism
 •   5%o materiałów niepublikowanych
 •   30%) stylu literackiego
 •   45%o stylu potocznego
 •   25%o stylu nieformalnego
 10% tekstów mówionych

 •   2,000 godzin nagrań (w formie transkrypcji),

przeprowadzonych przez 124 ochotników z 38

regionów Wielkiej Brytanii

Jak można zauważyć, korpus obejmuje nie tylko teksty pisane, ale także wybór tekstów mówionych. Nagrania uzyskane z większość regionów Wielkiej Brytanii reprezentują angielszczyznę 4 grup społeczno-ekonomicznych, zarówno kobiet, jak i mężczyzn, w wieku do 15 do ponad 60 lat. Podobnie jak w przypadku tekstów pisanych, celem zróżnicowania regionalnego i społecznego próbek języka mówionego jest podniesienie reprezentatywności, a stąd i użyteczności, korpusu.