Poprzednia

ⓘ Stylistyka kwantytatywna




                                     

ⓘ Stylistyka kwantytatywna

Stylistyka kwantytatywna – dyscyplina naukowa z pogranicza stylistyki, retoryki, gramatyki i matematyki, która bada za pomocą metod matematycznych teksty w różnych językach i na tej podstawie formułuje ogólnie obowiązujące prawa dotyczące stylu, zwane normą stylistyczną. Jest ona spadkobierczynią starożytnych leksykografii, retoryki i gramatyki, a wyodrębniła się z nich na przełomie XIX i XX wieku. Jej normy są ujęte w twierdzenia, prawa i wzory oparte na statystycznej analizie tekstów.

Do podstawowych norm stylistyki kwantytatywnej należą zasada używania w 85% tekstu do 1000 podstawowych słów pochodzących z trzonu języka, zasada rozłożenia wyrazów w tekście zgodnie z prawem Estoupfa-Zipfa oraz zasada właściwego zastosowania proporcji w tekście między tzw. hápax legómenon i słowa kluczowe.

                                     

1.1. Historia Starożytność

Za twórców stylistyki kwantytatywnej uważa się greckich gramatyków z Aleksandrii, którzy w III wieku p.n.e. zaczęli liczyć słowa używane przez Homera w Iliadzie i Odysei. Zauważyli oni, że chociaż zdecydowana większość zapisanych wyrazów – w badanych przez nich dwóch poematach – powtarza się wielokrotnie, to jednak Homer używał także słów, które pojawiały się bardzo rzadko albo tylko raz. Zaczęli więc tworzyć zestawienia wyrazów homeryckich, szczególną wagę nadając tym, które były używane rzadko lub wyjątkowo.

Na ustalenia aleksandryjskich leksykografów uwagę zwrócili retorzy i gramatycy łacińscy, szczególnie Cyceron, Kwintylian, Donat i Pryscjan. Związane to było z ich własnymi badaniami nad tropami i figurami retorycznymi, które określali jako odstępstwo od normy stylistycznej. Norma taka nie została jednak określona, stąd w swoich pracach poszukiwali definicji tego, czym owa norma powinna być. Doszli jednak do wniosku, że chociaż w poszczególnych zdaniach można taką normę wyznaczyć, to niepodobna jej zdefiniować dla dłuższego tekstu, a tym bardziej całego języka.

                                     

1.2. Historia Nowożytność

Do XIX wieku badania nad sformułowaniem obiektywnych zasad norm stylistycznych nie wyszły poza ustalenia starożytne. Dopiero postulat filozofii analitycznej stworzenia obiektywnego języka oraz rozwój stenografii i badania nad tym zjawiskiem doprowadziły do wysunięcia nowych tez. Po koniec XIX wieku francuski stenograf i leksykograf Jean-Baptiste Estoup, badając zasady stenografii, ustalił podstawowe zasady statystyczne dotyczące stylistyki tekstu. Twierdzenia francuskiego badacza zweryfikował i uściślił amerykański lingwista, zwolennik filozofii analitycznej, George Kingsley Zipf. Uważa się go za twórcę nowożytnej stylistyki kwantytatywnej. W XX wieku zaczęły powstawać pierwsze katedry tej dyscypliny na uczelniach amerykańskich, francuskich i niemieckich. Do najważniejszych jej przedstawicieli zalicza się między innymi Gabriela Altmanna, Otto Behaghela, Wilhelma Fucksa, Petera Grzybka, Gustava Herdana, Helmuta Meiera, Paula Menzeratha, Raijmunda G. Piotrowskiego, Juhana Tuldavę czy Eberharda Zwirnera. W Polsce problematyką stylistyki kwantytatywnej zajmowali się między innymi Kazimierz Wyka np. w pracy Słowa-klucze z 1969 roku i Jerzy Ziomek.

Eberhard Zwirner działał także na polu nauki pokrewnej – lingwistyki kwantytatywnej. Wspólnie z Kurtem Zwirnerem odkrył prawo bloków tekstowych. Na podstawie badań, dzieląc dłuższy tekst na bloki jednakowej długości sprawdzili, częstość występowania określonych jednostek językowych w blokach tekstowych. Zgodnie z hipotezą dźwięki w blokach tekstowych zachowują się zgodnie z prawem małych liczb rozkładem Poissona.

                                     

2. Norma użycia liczby słów

Podstawowe twierdzenie stylistyki kwantytatywnej, oparte na wyliczeniach leksykografów, głosi, że wyrazy występują w mowie z częstotliwością stałą. Około 85% tekstu w jakimkolwiek języku wyrażane jest przy użyciu około 1000 najczęściej używanych słów. Ta właściwość pozwala wyodrębnić w danym języku podstawowy zespół wyrazów, stanowiący jego trzon.

Twierdzenie to poparte jest badaniami nad pojemnością i zasadami działania ludzkiego mózgu, jak również ludzkiej psychiki. Przeciętny człowiek jest zdolny do bezproblemowego używania w mowie około 1000 wyrazów. Jedynie w specyficznych sytuacjach wymawia lub zapisuje inne słowa. Gdy wskutek nauczania lub działalności zawodowej dodaje do swojego codziennego słownictwa nowe wyrazy, zaprzestaje używania innych, dzięki czemu liczba stosowanych słów nadal oscyluje około liczby 1000. Również odbiorca mowy lub tekstu bez problemu może je zrozumieć, jeżeli 85% użytych w nim słów stanowi około powszechnie znanych 1000 wyrazów. Jeżeli te proporcje zostaną zachwiane, przekaz może być źle zrozumiany albo niezrozumiany wcale.

Sformułowana na podstawie tych badań zasada stylistyczna głosi, że tekst napisany zgodnie z normą stylistyczną w 85% swojej objętości powinien używać zbioru do 1000 najczęściej używanych słów. 15% tekstu powinny stanowić wyrazy spoza podstawowego trzonu języka. Zachwianie tej zasady prowadzi do niestylistyczności tekstu. Użycie zbyt wielu rzadko używanych wyrazów, wyraźnie poza normę wynoszącą 15%, skutkuje najczęściej tym, że tekst jest zbyt skomplikowany i niezrozumiały dla odbiorcy. Natomiast zaniżenie normy poniżej 15% powoduje zbytnie uproszczenie stylistyczne tekstu, jego dwuznaczność i niejasność.



                                     

3.1. Norma częstotliwości użycia słów Prawo Estoupfa-Zipfa

Zasada częstotliwości użycia w dowolnym języku poszczególnych wyrazów została opisana w tzw. prawie Estoupfa-Zipfa. Głosi ono, że jeżeli dla jakiegokolwiek tekstu lub grupy teksów ustala się wykaz wyrazów ułożonych w malejącym porządku częstotliwości ich występowania, to częstotliwość powinna być proporcjonalna do rangi to znaczy numeru na wykazie a iloczyn częstotliwości i rangi powinien być wielkością stałą.

Prawo to zostało matematycznie wyrażone w równaniu Estoupfa-Zipfa

r × f = constans {\displaystyle r\times f={\mbox{constans}}}

gdzie r {\displaystyle r} jest to ranga wyrazu w tekście lub grupie tekstów a f {\displaystyle f} częstotliwość jego występowania.

Wartość stałej jest zależna od długości tekstu. Równanie ma zastosowanie przede wszystkim do tekstów o średniej długości. W dziełach krótkich tekst jest z oczywistych względów bardziej zróżnicowany, natomiast w tekstach długich mniej, co wpływa na wartość stałej.

                                     

3.2. Norma częstotliwości użycia słów Rozkład teoretyczny a rozkład empiryczny

Rozkład Zipfa stosowany jest jako wzorzec, nie występujący w praktyce w sposób idealny. Informuje on o rozkładzie teoretycznym wyrazów w tekście. Dane pochodzące z konkretnego tekstu lub zbioru tekstu tworzą rozkład empiryczny. Porównanie obu rozkładów pozwala na ocenę stylu autora lub autorów. Im większa jest różnica między rozkładem teoretycznym a empirycznym, tym styl autora jest bardziej niezrozumiały. Gdy odchylenia są minimalne, styl zbliża się do doskonałości.

Na przykład, gdy w danym tekście 100. wyraz został użyty 314 razy tzn. r ⋅ f = 31400 {\displaystyle r\cdot f=31400}, z kolei 200. wyraz został użyty 158 razy r ⋅ f = 31600 {\displaystyle r\cdot f=31600}, to odchylenie od normy stylistycznej między setnym a dwusetnym wyrazem – zgodnie z prawem Estoupfa-Zipfa – wynosi około 0.008%.

                                     

4. Hápax legómenon i słowa kluczowe

Dla stylistyki kwantytatywnej szczególne znaczenie mają terminy hápax legómenon oraz słowa kluczowe. Starożytni gramatycy i retorzy zauważyli, że dla stylu tekstu decydujące są słowa używane w nim rzadko, a szczególnie takie, które zostały użyte zaledwie raz. Ich zdaniem świadczyły one o predylekcjach autora, szukającego wyrazów rzadkich, niezużytych. Z drugiej strony, na styl autora wpływały również słowa używane nader często, nawet częściej niż należałoby tego oczekiwać.

Hápax legómenon jest to określenie wyrazu występującego w tekście lub zbiorze tekstów zaledwie raz. Po grecku oznacza dosłownie jeden raz powiedziane. Wyróżnia się hápax legómenon występujące w pojedynczym tekście, we wszystkich tekstach danego autora, w zbiorze tekstów poświęconym określonemu tematowi, a nawet we wszystkich dostępnych tekstach danego języka.

Słowa kluczowe natomiast są to wyrazy szczególnie ważne i szczególnie często występujące w tekście lub zbiorze tekstów, których częstotliwość użycia jest odchyleniem od standardowej normy występowania danego słowa w zbiorze wszystkich tekstów języka. Badacze wykazali, że np. dla Baudelairea słowami kluczowymi były anioł i serce, a dla Gajcego gromnica i nietoperz. Słowa kluczowe to odpowiednik angielskiego terminu keywords, francuskiego les mots-clefs oraz niemieckiego Schlüsselwörter.

Użycie hápax legómenon i słów kluczowych wpływa na stosunek między ilością informacji a liczbą słów użytych w tekście. Im więcej słów kluczowych, tym dla przekazania tej samej informacji trzeba użyć więcej słów. Zjawisko to nazywa się redundancją. Natomiast im więcej hápax legómenon, tym za pomocą mniejszej liczby słów przekazujemy większą porcję informacji.



                                     

5. Norma proporcji między informacją a liczbą słów

W stylistyce kwantytatywnej stosunek między ilością przekazanych w tekście informacji a długością tekstu określany jest terminem redundancja. Tekst redundantny to taki, który jest za długi w stosunku do zawartych w nim informacji. Natomiast tekst nieredundantny to taki, w którym zawarto maksimum informacji przy minimum treści.

                                     

5.1. Norma proporcji między informacją a liczbą słów Miara informacji

Miarą informacji, przyjętą w stylistyce kwantytatywnej, jest prawdopodobieństwo wystąpienia słowa w tekście. Jeżeli wystąpienie jakiegoś słowa w tekście jest absolutnie pewne czyli prawdopodobieństwo tego zdarzenia równa się 1, to słowo nie niesie ze sobą żadnej informacji informacja równa się 0. Natomiast wartość informacji rośnie w miarę tego, jak maleje prawdopodobieństwo wystąpienia słowa w tekście.

Informacja zawarta w tekście jest na tej podstawie definiowana jako entropia ze znakiem ujemnym, nazywana niekiedy negentropią. Matematycznie miarę informacji przekazywaną w danym języku ujmuje się równaniem:

H = − log 2 ⁡ p i {\displaystyle H=-\log _{2}p_{i}}

gdzie H {\displaystyle H} jest informacją mierzoną w bitach, p i {\displaystyle p_{i}} prawdopodobieństwem wystąpienia słowa i {\displaystyle i}.

W praktyce nie można ustalić prawdopodobieństwa wystąpienia danego słowa w tekście, gdyż liczba wyrazów w danym języku jest teoretycznie nieskończona, choć w sposób niedefiniowalny ograniczona przez różne zasady wymowy, od których z kolei istnieją wyjątki. Dlatego najczęstszym sposobem obliczenia ilości informacji, którą przenosi dany język jest obliczanie jej na podstawie liczby znaków, które używane są w tekście albo liczby wymawianych głosek. Jeżeli tekst składa się z 32 znaków, to ilość informacji przypadająca na poszczególny znak, przy założeniu, że wystąpienie każdego znaku jest równie prawdopodobne, wynosi 5 bitów. Natomiast przy założeniu, że istnieje różne prawdopodobieństwo wystąpienia każdego znaku w tekście, informacja w znaku równa się 4.75 bita.

                                     

5.2. Norma proporcji między informacją a liczbą słów Redundancja

Redundancję obliczamy w procentach na podstawie wzoru:

R = 1 − H r H % {\displaystyle R=1-{\frac {Hr}{H}}\%}

gdzie R {\displaystyle R} oznacza redundancję, H {\displaystyle H} – ilość informacji przy równym prawdopodobieństwie znaków, H r {\displaystyle Hr} – ilość informacji przy nierównym prawdopodobieństwie znaków.

Jeżeli pod powyższy wzór podstawimy dane o ilości informacji dla języka używającego 32 znaki, to uzyskamy dla niego modelową redundancję wynoszącą 5%. Tekst w takim języku powinien dążyć do tak wyliczonej normy stylistycznej. Im bliższy jest normie, tym styl tekstu jest bardziej poprawny i zrozumiały dla odbiorcy.

W praktyce każdy tekst jest redundantny powyżej normy 5% lub nieredundantny poniżej normy 5%. Typowymi przykładami nieredundantości są teksty prawnicze. Skrajnie taki tekst może mieć redundancję równą 0%. Przykładem jest spis numerów rejestracyjnych samochodów wydanych w urzędzie. Każdy zanotowany w nim numer jest hápax legómenon. Wartość informacyjna tego tekstu wynosi 1, ale redundancja 0%, wskutek czego treść tekstu jest całkowicie niezrozumiała. Z kolei w Trenach Jana Kochanowskiego długość tekstu wynosi 3740 słów, ale zawiera on tylko 769 hápax legómenon. Daje to redundancję na poziomie 13%, wskutek czego wiersze te mogą być dla przeciętnego czytelnika w dużym stopniu niezrozumiałe.