Czytelnia / Technologie tłumaczeniowe

Większość profesjonalnych i akademickich czasopism będzie wymagała subskrypcji lub zakupu wybranych artykułów. Jednakże studenci i kadra wykładowców instytucji akademickich mają często darmowy dostęp do różnorodnych czasopism poprzez sieć lokalną swojego instytutu. Większość artykułów w tych czasopismach jest w formacie PDF, który może zostać ściągnięty i zapisany przy pomocy programu Acrobat Reader. Możemy zaznaczyć tekst i skopiować go do dokumentu Word, a ostatecznie zapisać jako zwykły tekst. Używanie schowka Office do zbierania fragmentów tekstu celem późniejszego ich wklejenia przyspieszy cały proces.

Wiele instytucji edukacyjnych pozwala także swoim studentom i pracownikom na dostęp poprzez Internet do źródeł książkowych czy encyklopedii takich jak the Encyclopedia Britannica, Grove Dictionary of Art oraz Grove Dictionary of Music and Musicians, gdzie można szukać odpowiednich artykułów do naszego korpusu.

Przeszukiwanie Internetu

Internet oferuje także dużo innych przydatnych materiałów do kompilacji korpusu poza wymienionymi wyżej gazetami, magazynami i czasopismami elektronicznymi.
Trudnym zadaniem jest wybranie z pośród miliardów stron w Internecie odpowiednich tekstów potrzebnych do stworzenia korpusu. Ponadto, jeśli znajdziemy juz odpowiednie teksty, ich obróbka i wklejanie do Worda zajmuje dużo czasu. Ogólnie rzecz biorąc, im strona jest bardziej atrakcyjna i wyrafinowana, tym trudniej będzie nam zebrać i przetworzyć z niej informacje ze względu na skomplikowany system odnośników..
Bowker (2002): "... dobra struktura graficzna stron WWW nie ułatwia pracy przy budowie korpusu!"

Tworzenie anglojęzycznego korpusu turystycznego

Sposób w jaki ja skompilowałem korpus angielskiego języka turystycznego, składającego się z 670 tys. słów, może stanowić pomoc, jak stworzyć własny korpus specjalistyczny.

Teksty do korpusu turystycznego pochodziły głównie z broszur pobranych z Internetu w formacie PDF. W wielu przypadkach przekonwertowanie tych dokumentów na format zwykłego tekstu było proste. Jednak czasami zadanie to wymagało dodatkowej edycji, ponieważ nagłówki i tytuły zmieniały pozycje w tekście. W niektórych przypadkach całe akapity zmieniały swoje położenie. Nie był to problem, gdy hasła były przeglądane w widoku „słowo kluczowe w kontekście” (KWIC display), gdzie tekst towarzyszący ("zakres") jest ograniczony do 4-5 słów z każdej strony wyszukiwanego terminu. Ostatecznie wersy należy ułożyć w odpowiedniej kolejności, by zapewnić szerszy kontekst. Radziłbym przeprowadzać wszystkich poprawki w dokumencie Word (*.doc), ponieważ format ten pozwala zachować czcionki i kolory, co ułatwia edycję tekstu. Dopiero później zalecałbym zapisywanie dokumentu sformatowanego na zwykły tekst (*.txt).

Jednakże niektóre broszury, szczególnie te składające się z kilku kolumn i mające wymyślny układ graficzny, sprawiały problemy podczas konwertowania na format tekstowy z powodu zawartej w nich grafiki. Im bardziej wymyślna struktura broszury, tym trudniej zapisać w formacie tekstowym. Wiersze z jednej kolumny mogą się pomieszać z wierszami innej części strony. W takich przypadkach można skorzystać z programu FineReader do optycznego rozpoznawania znaków(OCR).

FineReader może być używany do skanowania i analizy optycznej materiałów drukowanych, jak również do przetwarzania plików PDF. FineReader najpierw zeskanował plik PDF a następnie rozpoznał i oddzielił tekst od grafiki. Podczas gdy konwertowanie do formatu Word przy pomocy programu Adobe Acrobat stwarzało problemy z formatowaniem tekstu, FineReader umożliwiał rozpoznanie struktury broszury nawet w jej wersji tekstowej. Ponadto korekta wydawała się prostsza przy wykorzystaniu FineReadera, ponieważ tekst był nadal przedstawiony w swoim oryginalnym układzie, a rozpoznany tekst mógł być w łatwy sposób zweryfikowany z oryginałem.