Poprzednia

ⓘ Narodowy Korpus Języka Polskiego




Narodowy Korpus Języka Polskiego
                                     

ⓘ Narodowy Korpus Języka Polskiego

Narodowy Korpus Języka Polskiego – składający się z ponad półtora miliarda słów korpus języka polskiego, uruchomiony w 2012 roku. Korpus został opracowany przez Instytut Podstaw Informatyki PAN, Instytut Języka Polskiego PAN, Wydawnictwo Naukowe PWN oraz Zakład Językoznawstwa Komputerowego i Korpusowego Uniwersytetu Łódzkiego. Projekt został zrealizowany na zlecenie Ministerstwa Nauki i Szkolnictwa Wyższego.

Korpus zawiera ponad pół miliarda słów w tym literaturę polską, czasopisma codzienne oraz specjalistyczne, jak również nagrania dialogów oraz teksty z internetu. NKJP jest korpusem zróżnicowanym, to znaczy zawiera teksty z wielu różnych gatunków, rejestrów oraz styli językowych.

NKJP umożliwia analizę morfosyntaktyczną przy pomocy specjalnego tagera o nazwie PANTERA stworzonego specjalnie na potrzeby projektu.