You are on page 1of 30

Міністерство освіти і науки України

Національний університет «Львівська політехніка»


Інститут комп’ютерних наук та інформаційних технологій

Кафедра прикладної лінгвістики

Курсова робота
на тему:
«Створення частотного словника новел «За простибі» та «Весільна»
Романа Іваничука»

Виконала:
ст. гр.ФЛПЛ-11
Гнатів Марія
Перевірила:
к. філол. н., доц. Таран О. С.

Львів 2020
1
Зміст
ВСТУП……………………………………………………………………..3
Розділ 1. ТЕОРЕТИЧНІ АСПЕКТИ УКЛАДАННЯ ЧАСТОТНИХ
СЛОВНИКІВ…………………………………………………………………….5
1.1.Загальна характеристика й принципи укладання частотних
словників…………………………………………………………………5
1.2. Переклад матеріалів з книги Ладислава Згасти «Manual of
Lexicography» (Розділ 6 (Monolingual dictionaries) ст. 224-231)……..7
1.3. Загальномовні / авторські частотні словники — Частотний
словник роману Івана Франка «Перехресні стежки» (Бук С., Ровенчак
А.), Частотний словник окремого корпусу текстів (Фольклорні
тексти; Демонологічні розповіді Буковини), Частотний словник
сучасної української публіцистики...…………………………………14
Розділ 2. СТВОРЕННЯ ЧАСТОТНОГО СЛОВНИКА МОВИ Р.
ІВАНИЧУКА (НОВЕЛИ «ЗА ПРОСТИБІ» ТА «ВЕСІЛЬНА»)…………21
2.1. Мікроструктура словникової статті……………………….21
2.2. Етапи укладання…………………………………………….22
2.3. Матеріали до частотного словника творів Р. Іваничука…25
Висновки………………………………………………………………….29
Список використаних джерел………………………………………….30

2
ВСТУП
Актуальність теми курсової роботи зумовлена великою сферою
застосувань частотних словників. З розвитком технологій інтерес до
статистичного обстеження великих сукупностей текстів постійно зростав і як
наслідок у науці лексикографії виникає нова галузь, яка одержала назву
статистичної. Статистична лексикографія, у свою чергу, сприяє
укладанню частотних словників. Статистичні дані парадигм слів, що наведені
у цьому виді словника, забезпечують можливість здійснення великого
спектру граматичних досліджень. За свою порівняно невелику історію
укладання (вона не налічує й століття), у світі видано понад 400 частотних
словників для майже усіх індоєвропейських мов. Спершу, метою укладання
таких словників було удосконалення систем стенографії та відбір лексичного
мінімуму. Тепер, укладання частотних словників зумовлене не лише
потребою суспільства у практичному застосуванні надбань мовознавства, а
також необхідністю детальніше пізнати закономірності функціонування
мовних одиниць у тексті. Надзвичайно корисним є застосування частотних
словників у машинному перекладі та інформаційному пошуку, однак сфера
використання є значно ширша. Особливим видом частотних словників є
словники мови письменника. У них представлено лексико-фразеологічний
склад одного, кількох або усіх творів певного письменника (рідше – багатьох
авторів). Ці словники використовують для вивчення творчості письменника,
дослідження відповідних етапів в історії національної літературної мови і
суспільної атмосфери певної епохи. В Україні вийшли: Словник мови
Шевченка, Словник мови творів Г. Квітки-Основ'яненка, Лексика «Енеїди»
І.Котляревського, Словник поетичної мови Василя Стуса, Лексика поетичних
творів І.Франка та багато інших. Над розробкою частотних словників
працювали Н. Дарчук, В. Перейбийніс, М.Муравницька, Т.Грязнухіна, С. Бук
та інші.

3
Курсова робота є частиною комплексної роботи з компʼютерної
лексикографії на кафедрі прикладної лінгвістики НУ «Львівська
політехніка».
Об’єкт дослідження — частотний словник.
Предмет дослідження — мікроструктура частотного словника.
Джерельною базою послугували друковані тексти новел Р.Іванчука
(«За простибі», «Весільна»). Вони були перетворені в електронний варіант
(обсяг — 2580 друкованих знаків з проміжками).
Мета курсової роботи — підготувати матеріали до частотного
словника мови творів Р.Іванчука («За простибі», «Весільна»).
Поставлена мета передбачає розв’язання таких завдань:
1. Описати теоретичне підґрунтя створення частотного словника мови
Р.Іванчука.
2. На основі проаналізованих частотних словників мови письменників
розробити мікроструктуру частотного словника творів Р.Іванчука
3. Визначити етапи й інструменти створення частотного словника.
4. Укласти матеріали до частотного словника мови творів Р.Іванчука
У курсовій роботі використано такі дослідницькі методи й прийоми:
 аналізу – мислене або практичне розчленування цілого на
частини;
 синтезу – мисленнєве або практичне з’єднання частин у ціле;
 описовий, його мета – планомірна інвентиризація одиниць мови і
пояснення особливостей їх будови та функціонування на певному
етапі розвитку мови, тобто в синхронії. Суть методу полягає в
інвентаризації та систематизації мовних одиниць;
A також компʼютерна програма Exel.
Практичне значення курсової роботи полягає в тому, що укладені
матеріали до частотного словника творів Р.Іванчука є частиною майбутнього
частотного словника мови цього митця.

4
Розділ 1
ТЕОРЕТИЧНІ АСПЕКТИ УКЛАДАННЯ ЧАСТОТНИХ
СЛОВНИКІВ
1.1. Загальна характеристика і принципи укладання частотних
словників
Багато науковців та експертів не здивовані швидкістю, з якою
електронні словники замінили своїх друкованих попередників, адже це
відповідало вимогам часу та новітнім технологічним досягненням та
можливостям. Як влучно відмітив Б.Л. Ван-дер-Варден, «Сучасне
мовознавство все ширше застосовує математичний інструментарій та
комп’ютерні технології в контексті переходу від описових до аналітичних
методів дослідження. Відповідно до цього сучасна філологічна освіта
немислима без опертя на обчислювальну лінгвістику як для осмислення
отриманих наукових результатів, так і для проведення самостійного
лінгвістичного експерименту з використанням чисельних методів». Дійсно,
статистичний аналіз є найбільш поширеним та доступним кількісним
методом аналізу тексту. Проте, розробники електронних словників все ж
стикаються з деякими проблемами, найбільшою з яких є задоволення потреб
користувачів. Часові та фінансові витрати на збір матеріалу, його обробку,
емпіричні дослідження і так далі також є проблематичним моментом для
укладачів електронних словників. Незважаючи на це, укладання електронних
словників відбувається досить інтенсивно та плідно.
З розвитком мовознавства, в сукупності з іншими науками, з’являється
статистична лексикографія, яка у свою чергу дає початок створенню та
укладанню частотних словників. За визначенням, поданим Ю. Ковалем у
його Літературознавчій енциклопедії, частотний словник – це словник, у
якому щодо кожного слова визначено кількість його вживання в обмежених
текстах. Він упорядковується для мовознавчих студій на підставі теорії та
методів статистичної лексикографії. Використання частотних словників може
бути різноманітним та ефективним, якщо знати певні статистичні правила і
5
закони, нескладні й цілком доступні тим, хто не має вищої математичної
освіти.
Загалом, структура частотного словника має низку особливостей.
Одиницями частотних підрахунків найчастіше є словоформи і лексеми.
Частотний словник словоформ уважається простішим для укладання і менш
досконалим, оскільки він не вимагає лематизації. Характер вибірки кожного
словника визначається хронологічною та жанрово-тематичною
приналежністю. Обсяг вибірки може варіюватись (наприклад, в частотному
словнику сучасної української художньої прози - 500 000 слововживань, в
частотному словнику сучасної української поетичної мови - 300 000
слововживань, в частотному словнику сучасної української публіцистики -
300 000 слововживань). Характер подачі матеріалу у всіх словниках
алфавітно-частотний (звичайний або інверсійний). Вказуються такі
статистичні характеристики як абсолютна частота, середня частота, міра
коливання середньої частоти та коефіцієнт стабільності.
Сфера застосування частотних словників досить широка та
різноманітна. Частотний словник можна використати і для стилістичних
студій, і для атрибуції не підписаних рукописів, і для автоматичного
опрацювання текстової інформації. Частотні словники також сприяють
оптимізації процесу викладання іноземної мови. Було встановлено, що 1000
найбільш вживаних слів англійської мови покриває 80,5% слововживань у
середньостатистичних текстах, 2000 слів – приблизно 86% слововживань, а
3000 – відповідно 90%. Ще одною важливою сферою застосування частотних
словників є стилеметрія, тобто визначення приналежності даного тексту до
одного з фіксованих класів текстів.
Словник мови письменника – теж є видом частотних словників, який
має широкий спектр застосування: від реконструкції особливості мовлення
певного періоду (створення реєстру слів словника мови того часу) до
встановлення авторства творів чи їх фрагментів (оскільки кожен автор має
свої так звані «улюблені» слова чи конструкції, які в його творчості мають
6
найвищу частотність. І, навпаки, можна визначити ті слова, які не
функціонували в суспільстві у період його діяльності, тому не могли
трапитися в його творчості). Словник мови письменника також дає
інформацію про стилістичні особливості письменника (А. Бєлий уклав
частотні списки іменників, прикметників та дієслів на позначення сонця,
місяця, неба, повітря, води в поезіях А. Пушкіна, Є. Баратинського і Ф.
Тютчева. Після упущення слововживань, характерних усім трьом авторам,
оперуючи рештою з них, він показав особливості сприйняття природи
кожним із поетів).

1.2. Переклад матеріалів з книги Ладислава Згасти «Manual of


Lexicography» (Розділ 6 (Monolingual dictionaries) ст. 224-231)
Це формулювання визначається певною мірою послідовністю
одиничних фаз самої роботи; спочатку ми повинні мати матеріал, щоб мати
можливість робити будь-яку подальшу роботу, і ми повинні спочатку
вибрати словникові статті для включення до словника, перш ніж ми зможемо
їх сконструювати. У реальному житті, однак, спостерігається хороша
кількість паралелізму між фазами. Оскільки, наприклад, лише декілька
лексикографів (особливо тих, хто працює на ниві живих мов) зупиняють
цілий уривок абсолютно тоді, коли вони вибрали записи та розпочали роботу
над їх побудовою, їм доведеться передбачити необхідність додавання деяких
нових вказівок до записів попередньо як закінчені. Лексикограф не повинен
надмірно збентежуватися цією обставиною, оскільки з усієї попередньої
дискусії повинно бути видно, що (a) всі факти мови не відображаються в
даних одночасно, і що (b) мова постійно змінюється , щоб завжди з’являлися
нові дані. З іншого боку, кількість паралелізмів між фазами не повинна
перевищувати певної межі, тому що, якщо необхідно швидко і неодноразово
переробляти те, що було зроблено, і якщо завжди потрібні нові зміни
попередніх рішень, значна втрата часу і грошей майже неминуча.
Неможливо точно вказати, що є необхідним, що вважається розумним, що
7
перекривається, і ні. Символічно можна констатувати наступні "правила":
якщо задній витяг або інформація лише нечасто додає до побудованих ними
записів, і якщо ці доповнення складаються, як правило, із специфікацій,
головним чином у контекстних нюансах та переносному значенні, немає
причина хвилюватися; якщо, однак, заднє вилучення інформації часто
змушує лексикографа змінити всю конструкцію деяких записів, або покаже
йому, що в сфері загальної мови є певні прямі відчуття деяких лексичних
одиниць (сфера технічної термінології не так важлива і небезпечний у цьому
відношенні), якого він не знав, то, ймовірно, матеріалу, на якому
лексикограф, що ґрунтується на його побудові записів, не визріло, було
недостатньо. Те саме стосується підбору записів: нові, раніше невідомі,
лексичні одиниці з’являться постійно; якщо більшість із них не є вибіркою
для включення до словника за принципами, що регулювали вихідний відбір, і
якщо є лише випадкові доповнення, лексикограф може бути змістом; з
іншого боку, відбір записів був, ймовірно, зроблений з недостатнього
матеріалу, якщо постійно з’являються необхідні нові доповнення, якщо
тільки доповнення, безсумнівно, нещодавно не були вигадані, успішні і тому
швидко стабілізували неологізми.
Збір матеріалу
6.3 Якщо лексикограф працює над великим проектом, хорошою
порадою буде розробити певні зразки словникових статей, коли він вважає,
що його матеріалу вистачає. Проте збір матеріалу триває, і лексикограф
помічає вплив нового матеріалу на зразки словникових статей. Якщо
результати його спостереження негативні (у сенсі попередніх приміток), то
збір матеріалу повинен залишатися основним завданням і нові зразки мають
бути зроблені пізніше. Ці зразки можуть відрізнятися за розміром
(наприклад, можна виробити тільки деякі ізольовані записи, або, бажано,
деякі послідовності записів) і вони можуть використовуватися різними
способами: як невеликі проекти вони обмінюються і обговорюються членами
команди, але як більші проекти їх варто публікувати і обговорювати
8
більшому числу науковців.
6.3.1 Основна форма збору матеріалу - відбір уривків тексту. При
відборі уривків лексикограф виймає з тексту лексичні одиниці (слова), які
представляють інтерес і накладає їх на одиничні листки паперу; відбір має
значення передусім, якщо - або, швидше, тільки якщо лексична одиниця
(слово), про яке йде мова, цитується з його лексикографічним контекстом і
(бажано) якщо додані інші індикації, такі як цитування джерела відбору і так
далі. Оскільки як одномовні, так і двомовні словники того типу, який є
предметом нашого інтересу (загальний, стандартно-описовий або загально-
описовий), як правило, складаються для мов, які мають, принаймні деяку
письмову літературу, це в першу чергу письмові тексти, з яких робиться
відбір; але якщо текстів, написаних на цій мові, немає або мало, то ситуація
принципово не відрізняється: починають, як правило, з тих усних текстів, які
можна назвати «усною літературою», тобто з оповідей і тому побідного, з
більш менш фіксованим тексом. Але (як повідомляє Зіма з різних регіонів
Африки) мова цієї «усної літератури» часто відрізняється (а іноді значно
відрізняється) від дійсно розмовної. Тому лексикографу належить зібрати і
розмовний матеріал в істинному значенні цього слова (не лише монологи, але
і спровоковані відповіді, а бажано і діалоги, бесіди, дискусії, переговори по
справах у бізнесі і офісі і т.д.).
Стандарт літературної національної мови, або ми вирішуємо, що
враховуватимемо і розмовні форми; У останньому випадку необхідно
вивчити розмовний різновид як мову саму по собі, тобто відібрати усні
тексти, і т.д.
Якщо розмовна форма мови не сильно відрізняється від письмової, то
акцент, зроблений на письмових текстах, не впадає у вічі, хоча словник, який
не дає повного звіту про розмовні форми, як про літературні, не є повністю
описовим в точному сенсі цього терміну. Але оскільки колоквіуми часто є
більш менш епізодичними або ефемерними, словник, за винятком, ймовірно,
спеціального обмеженого словника колоквіумів, у будь-якому випадку
9
триматиме багато з них осторонь, навіть якщо вони були відібрані. Але це,
безумовно, правильно, якщо важливіші і - що є першим занепокоєнням -
стабілізовані колоквіуми включені в загальний словник; спосіб їх отримання
описаний нижче.
Лексикографічний контекст, який повинен цитуватися, - це та частина
словесного контексту, яка дозволяє нам сприймати, в якому значенні
застосовується це слово, і сприймати, хоч деякі його семантичні особливості
і граматичні властивості; лексикографічний контекст має бути якомога
коротшим, але основне - якомога чіткішим.
Не усі словесні контексти мають однакове значення та цінність. Такий
контекст, як he painted the window, показує, що вікно, як мінімум, може бути
об'єктом живопису; але контекст не натякає на те, як зрозуміти дієслово (1°:
«to colour the surface of something», 2°: «to produce a picture of something» і
так далі), так що його цінність досить низька. Якщо опрацьовувати,
наприклад, різні слова мови Гінді для різних типів дощу (Ccf. Вище,
контекст, такий як jis rat bariS kotl, usse oge din use chutti ho jafi, «he used to
get his free day after those nights when there was rain» нічого не говорить нам
про тип дощу, bariS. З іншого боку, якщо ми опрацюємо контекст типу adriya
pluhar jaise nihsvar panfacho ke sahare ur rdhhi «the invisible rain flew as if on
noiseless wings» ми багато що дізнаємося про слово pluhar, тому що це не міг
бути проливний дощ, а швидше навпаки.
Вказати, який за розміром має бути лексикографічний контекст -
неможливо. Дуже часто можна зрозуміти реальне значення слова тільки якщо
взяти до уваги не лише безпосередній контекст, але і те, що вказано на
сторінках до або після. Припустимо, що ми намагаємося встановити сенс
такої лексичної одиниці як palsy-walsy. Якщо в романі ми читаємо речення
типу «They were quite palsy-walsy, you know», то ми не отримуємо багато
інформації; може бути, що існує багато глав між описом самої поведінки
відповідних осіб і його короткою характеристикою як palsy-walsy в нашому
реченні; або ж може бути, що в обраній книзі, жоден уривок не дає підказок
10
про значення слова. Таким чином, речення, схоже до цитованого, не є
хорошим лексикографічним контекстом, хоча воно й надає певну незначну
інформацію, наприклад, що palsy-walsy стоїть одне, без допоміжних слів, без,
скажімо, together. Тому, тільки у випадку відсутності кращих контекстів,
схожого цитованого уривку має бути достатньо.
При вивченні мертвих мов досить часто буває, що просто не збереглося
хорошого, ілюстративного контексту, з якого можна було б встановити
лексичне значення невідомого слова. У такому разі використовується так
званий етимологічний метод: лінгвіст намагається зрозуміти значення
відповідного слова зі значення слів, з якими воно пов'язане, із загального
значення кореня, з якого воно отримане, і т. д. Хоча інтерпретація,
наприклад, Ріґведа і Гомера показує певні успішні випадки застосування
цього методу, краще використовувати його тільки за відсутності контексту
або тільки для можливого підтвердження.
Зрозуміло, що ставлення лексикографа до бідних, неінформативних
контекстів буде іншим: якщо (і тільки якщо) підготовлений словник спробує
наблизитися до статусу тезауруса, потрібно все цитувати. У історичному
словнику контекст, який сам по собі нічого не дає, може бути дуже важливий
просто тому, що він старий, або тому, що він свідчить про виникнення
певного значення у певний період, хоча зміст не може бути встановлений з
лише цього контексту, без залучення інших уривків; великий загальний
описовий словник, можливо, повинен свідчити про наявність слова в різних
сферах. Але для самого завдання лексикографа, тобто для встановлення
значення слова, саме ті контексти, з яких може бути отримана конкретна
дефініція, мають первинне значення.
Як вже відзначалося, дійсно значний лексикографічний контекст слова
не обов'язково має бути знайдений "близько" до нього. Навпаки, іноді може
бути оманливим розглядати тільки те, що безпосередньо передує слову або
йде після нього. Одного прикладу буде достатньо, щоб проілюструвати цю
точку зору. Прикметник semantic вперше зустрічається в другому виданні "A
11
Discourse concerning Prodigies" Джона Спенсера (опубліковано в 1665 році).
Oxford Eng. Diet, (s.v.) належним чином вказує цей факт і визначає значення
прикметника таким чином: «relating to signs of the weather». Речення, у якому
зустрічається прикметник (і яке цитується, в дещо скороченому виді, по
OED) наступне: (а) «Twere easie to shew how much this Semantick Philosophy, in
all parts of it, was studied ... etc». Не потрібно наголошувати, що ніяких
підказок про значення semantic в цьому реченні ми не знаходимо. Вказівка
значення в OED, без сумніву, грунтована на тому, що безпосередньо передує
цьому реченню, а саме: (b) «Thus Castor and Pollux (those twin - lights, so
called, seen sometimes about ships in the silences of the night) were anciently
received as the indications of a quiet passage; because any disposition in the air to
motion would soon have divorced those gentle fires». Базуючись на цьому
уривку, визначення значення semantic в OED («relating to signs of the
weather») представляється цілком правильним. Якщо ми, проте, повернемося
на чотири сторінки назад, ми знайдемо наступне твердження: (c) «Moreover,
Philosophy will very probably direct us to the true Original of Divination by
Prodigies, and the other Species thereof, Chiromancy, Capnomancy,
Oneiromancy, Haruspicina, Augury all these curious arts contain under them the
good liquor of a useful Philosophy». Далі слідують чотири сторінки
опрацювання цих пунктів; речення (b) є останнім з цих різних прикладів, а
речення (а) є завершенням усього уривка. Тому (а) «Semantick Philosophy, in
all parts of it» (зверніть увагу на явне посилання на те, що поняття є
складним) не відноситься безпосередньо тільки до попереднього уривка (b)
«indications of a quiet passage» (тобто weather), але на увесь попередній
приклад, і разом з ним на віддалений уривок (c) який є дійсно остаточним
лексикографічним контекстом прикметника semantic: «concerned with the
interpretation of various phenomena as symptoms of future events.»
Лексикограф також має бути дуже обережний з реальною метою
уривку, з якого взято контекст. Наприклад, якщо обирається речення на
кшталт французького «C 'est joli!», Eng. «What a nice thing to say!», ніхто не
12
може сказати потрібно розуміти joli, nice в іронічному сенсі або ні: тільки
набагато ширший контекст може це вирішити. Дуже часто такі контексти
показують лише епізодичні контекстні нюанси сенсу; але навіть якщо це так,
для лексикографа корисно про це знати, тому що воно може бути недоречним
або навіть ввести в оману. Якщо, наприклад, цитувати якраз такий уривок,
начебто це слово використовувалося тут у прямому значенні. проте іноді такі
застосування настільки часті, що іронічний сенс можна вважати
стабілізованим: cf., наприклад, Eng, nice, іронічний сенс якого розцінюється і
сприймається як стабілізований багатьма англійськими словниками.
Тому, дійсно хороший відбір вимагає знати увесь обраний текст, брати
до уваги усі відповідні уривки, а не тільки безпосереднє середовище слова, і
ретельно розуміти мету відповідного уривка і, як наслідок, остаточний
конкретний контекстний нюанс слова в його конкретному застосуванні.
Ще дещо, що слід враховувати під час відбору і при використанні
контексту - наступна відмінність. При вивченні такого слова, як, наприклад,
Eng. horse, ми, з одного боку, можемо зустрітися реченням
The horse jumped over the fence with easiness,
а з іншого боку, реченням типу
The English word horse has the same meaning as cheval in French.
У першому реченні автор використав слово для того, щоб говорити про
позначену їм річ; у другому реченні він говорить про саме слово. Очевидно,
що дані речення відрізняються, але різниця не так велика для цілей
лексикографа. Насправді, друге речення є вираженням думки і тому відкрите
для можливої помилки, упередженості, фальсифікації абощо з боку людини,
яка його склала. Але ці випадки не такі небезпечні, як здавалося б, якщо
використовувати схожі твердження з належною обережністю. Навпаки, дуже
часто такі контексти, що містять короткі, спонтанні, поміщені в дужки
пояснення того або іншого слова, є найбільш корисними, так само як і
контексти, в яких можна вивчати синоніми (близькі синоніми) або антоніми
тощо відповідного слова.
13
1.3. Загальномовні / авторські частотні словники – Частотний
словник роману Івана Франка «Перехресні стежки » (Бук С.,
Ровенчак А.), Частотний словник окремого корпусу текстів
(Фольклорні тексти; Демонологічні розповіді Буковини),
Частотний словник сучасної української публіцистики
Частотний словник роману Івана Франка «Перехресні стежки» (Бук
С., Ровенчак А.)
Іван Франко залишив по собі неймовірну спадщину, яка, за
попередніми обчисленнями, становить орієнтовно 8 млн. слововживань.
Тому, опрацювання мови цього письменника неможливе без технічних
засобів. Зважаючи на складність правописного питання текстів І. Франка,
(сам автор у різні періоди творчості писав різними правописами, а сучасні
редактори, з метою наближення до сучасного мовлення, вносили ще й свої
правки), джерелами частотного словника Франка (далі ЧСФ) є академічне
«Зібрання творів» у 50-ти томах, а також видання творів, що до нього не
ввійшли (Франко І. Я. Мозаїка : Із творів, що не ввійшли до Зібрання творів у
50-ти томах / І. Франко – Львів, 2002.)
У ЧСФ окремим словом вважається послідовність літер (тут апостроф і
дефіс розглядаються як літери) між двома пропусками чи розділовими
знаками, тому складні числівники виступають як різні слова. Це стосується
займенників типу абихто, які в непрямих відмінках з прийменником
втрачають єдність написання (аби з ким). Написання через дефіс
розглядається як одне слово (з-поміж, байдужно-спокійний, адвокат-русин
тощо). ЧСФ подає інформацію про словникові одиниці (тобто леми або
слова, зведені до початкової форми) і про словоформи: парадигматичні
форми і фонетичні варіанти слів.
Формування ЧСФ зроблено за графічним збігом лем, і кожна частина
мови має свою схему об’єднання словоформ під лемою:
 Іменник – до називного відмінка однини зводимо форми всіх
відмінків однини та множини. Частоту множинних іменників
14
зводиться до форми називного відмінка множини;
 прикметник – до називного відмінка однини чоловічого роду
зводяться відмінкові форми всіх родів в однині та множині, вищий і
найвищий ступені порівняння, за винятком суплетивних форм, які
зводяться окремо до називного відмінка однини чоловічого роду
вищого ступеня, наприклад, БІЛЬШИЙ, НАЙБІЛЬШИЙ зведено до
БІЛЬШИЙ;
 займенник – відмінкові форми зводяться відповідно до типу
відмінювання;
 числівник – відмінкові форми зводяться відповідно до типу
відмінювання;
 дієслово – зводяться до інфінітива синтетичні форми часу
(теперішній, минулий і майбутній), форми наказового способу і
дієприслівник, а також неособові форми на -но, -то;
 дієприкметник – до називного відмінка однини чоловічого роду
зводяться відмінкові форми всіх родів в однині та множині,
оскільки, за І. Вихованцем, автори розглядають його як різновид
віддієслівного прикметника із властивими йому основними
категоріями (рід, число, відмінок) та типовою синтаксичною роллю
означення;
 прислівник – зводиться вищий і найвищий ступені порівняння, за
винятком суплетивних форм;
 розмежовуєються лексична та лексико-граматична (іменник МАТИ
і дієслово МАТИ) омонімія, зокрема омографи (наймúти (дієслово
зі значенням «найняти») і нáймити (іменник у множині)); гóрод і
горóд, мукá і мýка). У цих випадках для розрізнення в дужках
подається або вказівку на значення (МІЛЯ (ім’я)), або на частино-
мовну належність (МАТИ (ім.) і МАТИ (дієсл.)). Біля абревіатур та
скорочень у дужках вказуються розшифрування;

15
 наголос у словнику подається лише коли він відіграє
смислорозрізнювальну роль (СÁМИЙ і САМИ́Й);
 лексеми, написані некириличною графікою лематизуємо відповідно
до граматики тієї мови, до якої вони належать. Числа, написані
цифрами, вважаємо окремим словом.
Частотний словник мови Франка багатий на інформацію як про
словоформи як такі, доступно їх роз’яснюючи. Він також дає змогу
характеризувати діалект визначного письменника.
Частотний словник окремого корпусу текстів (Фольклорні тексти;
Демонологічні розповіді Буковини)
Цей електронний частотний словник корпусу окремих текстів можна
знайти на онлайн-порталі MOVA.info. Інтерфейс словника побудований
досить просто і зрозуміло. Зліва бачимо список корпусів, з яких можемо
обрати. Серед них – Законодавчі тексти, Наукові тексти, Поетична мова,
Публіцистика, Фольклорні тексти та Художня проза. Посередині
знаходяться частотні словники словоформ та лексем.

Мал.1 Інтерфейс частотного словника корпусу окремих текстів


Як ми бачимо, для частотних словників словоформ та лексем присутня
опція сортування. Словник словоформ можна посортувати за частотою або
алфавітом, словник лексем – за частотою, алфавітом та семами. Семи
надають додаткову коротку інформацію про лексему. Застосувати фільтр
можна лише до словника лексем, якщо ми хочемо побачити статистику лиш
за одною частиною мови.

16
Наступний крок – обираємо корпус тексту, який нас цікавить,
натискаючи на відповідну стрілочку. Я обрала Фольклорні тексти, зокрема
Демонологічні розповіді Буковини.

Мал.2 Вибір корпусу тексту


Перед нами інформація по обраному корпусу тексту. Під заголовком
зліва подається коротка інформація про приблизну кількість словоформ, рік
та місце видання, а також жанр. У частотному словнику словоформ
подається їх кількість. Я обрала сортування за частотою. У частотному
словнику лексем також подається їх кількість. Тут я також обрала сортування
за частотою. Застосувала також фільтр, щоб відсіяти усі частини мови, окрім
іменника. Одержала наступну інформацію:

Мал.3 Одержана інформація


17
Частотний словник словоформ подає інформацію про їх абсолютну
частоту. Частотний словник лексем, окрім абсолютної частоти, подає
додаткову інформацію про сему відповідної лексеми.
Загалом, ідея словника та вибір корпусів доволі цікаві. Інформація
подається стисло та зрозуміло. Сам словник простий та зручний у
користуванні. Недоліком можна назвати те, що відсутня опція самостійного
вводу словоформи або лексеми.
Частотний словник сучасної української публіцистики
Частотний словник сучасної української публіцистики є першою в
українській лексикографічній практиці роботою, яка відтворює лексичний
склад мови періодичних видань з повними статистичними характеристиками
вживаності кожного слова реєстру. На підставі одержаних статистичних
даних можна визначити шар лексики, характерний для публіцистичного
стилю, виявити неологізми і шляхи їх утворення, а також не властиві
українській мові слова, небажані для широкого вжитку. Це сприятиме
формуванню необхідних навичок користування лексичним багатством рідної
мови і, як наслідок, розвиткові і вдосконаленню мови суспільно-політичного
спілкування.
Словник репрезентує лексику публіцистичного стилю, одержану на вибірці
текстів з центральних періодичних видань обсягом 300тис. слововживань.
Текстові масиви: «Урядовий кур’єр», «Голос України», «Сільські вісті»,
«Культура і життя», «Україна молода», «Літературна Україна», «Молодь
України», «Вісті з України», «Республіка», «Золоті ворота» за 1995 рік.
Будовою словника передбачено наведення статистичних даних як для
парадигматичних форм, які зустрілися в текстах, так і для узагальнення
словникових одиниць, що забезпечує можливість здійснення великого
спектру граматичних досліджень.
У першому стовпчику – слова з граматичними характеристиками і
словоформи. Наступні чотири стовпчики – статистичні характеристики.
Кожна з цих характеристик дає певну інформацію про функціонування слова
18
(словоформи) і може бути використана для подальших досліджень. Першою,
вихідною інформацією, на якій базуються всі інші характеристики, є
абсолютна частота (f). Середня частота (х) - це інформація для статистичних
зіставлень слів і словоформ між собою в одній чи кількох вибірках. Загальна
частотність вживання тієї чи іншої лексеми, навіть обрахована на великій
вибірці, не є показником «ядерності» позиції, яку займає лексема в мові,
оскільки лексема може мати високу частоту, але в межах одного тексту.
Точнішим є значення, яке враховує розподіл лексеми за текстами.
Міра коливання середньої частоти (сігма середньої частоти) дає уявлення
про рівномірність розподілу в обстеженому корпусі текстів (для слів і
словоформ з частотою 1 ця характеристика не подається).
Стабільність вживання слова (або словоформи) у корпусі текстів або
сталість її статистичної поведінки відображена в коефіцієнті стабільності
абсолютної частоти (D), для зручності округленому і представленому у
вигляді цілого числа. Найвище значення – 10, означає гранично рівномірний
розподіл.
У масиві публіцистичних текстів довжиною 300000
слововживань зафіксовано 20824 різних слова або 42748 різних словоформи.

Мал.4 Інтерфейс частотного словника сучасної української


публіцистики
19
Висновки до Розділу 1
У Розділі 1 розглядалась загальна характеристика та принципи
укладання частотних словників. Революційний перехід від друкованих до
електронних словників посприяв, а також у багатьох аспектах спростив
укладання словників, частотних зокрема. З розвитком технологій та
філологічних наук, розивалась і статистична лексикографія, даючи поштовх
до створення частотних словників, а також словників мови письменників.
Сфера застосування таких словників є досить розмаїта, їх можна
використовувати у викладанні іноземних мов, вивченні закономірностей
функціонування мовних одиниць у тексті, атрибуцій не підписаних рукописів
та текстів, характеризації стилістичних особливостей письменника і так далі.
Представлено переклад фрагменту одного з розділів книги Ладислава
Згасти «Manual of Lexicography», а саме Розділу 6 про одномовні словники.
Тут також розкривається специфіка збору матеріалу для словника, особливо
роботи з відбором уривків з контексту для представлення прикладів
використання тої чи іншої лексичної одиниці.
Проаналізовано три частотних словники – Частотний словник роману
Івана Франка «Перехресні стежки» (Бук С., Ровенчак А.), Частотний
словник окремого корпусу текстів (Фольклорні тексти; Демонологічні
розповіді Буковини) і Частотний словник сучасної української публіцистики.
Вказано особливості та структуру кожного з них.

20
Розділ 2
СТВОРЕННЯ ЧАСТОТНОГО СЛОВНИКА МОВИ Р.
ІВАНИЧУКА (НОВЕЛИ «ЗА ПРОСТИБІ» ТА «ВЕСІЛЬНА»)
2.1. Мікроструктура словникової статті
Частотний словник мови Р. Іваничука розроблявся у програмі Excel,
адже вона має широкий спектр інструментів, які роблять оперування
інформацією зручним і доволі швидким.
Загалом, словникові статті новел розміщені на двох аркушах – «Лист 1»
для «На простибі», «Лист 2» – для «Весільна». Два наступні аркуші виділені
на власне розрахунки частотності різних частин мови («Лист 3» – для «За
простибі», «Лист 4» – для «Весільна»).
Присутні 7 стовпчиків з наступними назвами – Ім’я файла, Номер
речення, Речення, Номер словоформи, Словоформа, Лема та Частина мови.
Назва новели підписана у стовпчику Ім’я файла. Стовпчик Речення містить
кожне з речень новели, виписані з великої букви. Кожне з цих речень розбите
на словоформи, вони вписані під стовпчиком Словоформа у тій формі, в якій
вони трапляються у речення. Кожна з цих словоформ подана збоку у своїй
початковій формі (Лема):
 Іменники – у називному відмінку (однини або множини, в
залежності від контексту);
 Займенники – у називному відмінку (однини або множини, в
залежності від контексту);
 Прикметники (а також займенники з властивостями прикметника,
дієприкметники та числівники) – у чоловічому роді називного
відмінку (однини або множини, в залежності від контексту);
 Дієприслівники – без змін.
Усі слова, окрім власних назв вписуються з малої букви у стопчик
Лема.
Умовних позначень та скорочень немає, частина мови вписується
повністю.
21
2.2. Етапи укладання
Укладання частотного словника за відповідною структурою
здійснювалось у декілька етапів.

I. На початковому етапі були одержані новели Р. Іваничука «За


простибі» та «Весільна» у форматі doc.
II. Другий етап полягав у внесенні інформації з одержаних файлів у
таблиці Excel. На двох окремих аркушах для кожної новели були
сформовані таблиці з 7-ма стовпчиками, які називались
наступним чином: Ім’я файла, Номер речення, Речення, Номер
словоформи, Словоформа, Лема та Частина мови. Назви новел
були внесені у стовпчик Ім’я файла. Два окремих аркуші були
створені для внесення інформації про частотність.
III. Наступне завдання полягало у внесенні інформації з одержаного
файлу в таблиці Excel. Кожна новела була розбита на речення, а
ті, у свою чергу, були розбиті на словоформи. Кожне речення
було пронумеровано і внесено у стовпчик Речення. Кожна
словоформа, також пронумерована, вносилась у стовпчик
Словоформа у такому вигляді, в якому вона траплялась в реченні.
Кожна словоформа, окрім власних назв та перших слів у реченні
були внесені з малої літери.
IV. Четвертий етап полягав у лематизації. У стовпчику Лема
вносились початкові форми усіх словоформ, усі з малої літери,
окрім власних назв. Під час цього етапу я постійно
консультувалась та звірялась з контекстом, щоб правильно
визначити лему. Після внесення лем, у стовпчику Частина мови,
визначала частиномовну приналежність слова, користуючись
онлайн-ресурсами (в більшості http://lcorp.ulif.org.ua/dictua/,
проте також http://sum.in.ua/).
V. П’ятий етап полягав у визначенні частотності. На окремих
аркушах визначала частотність для частин мови в обох новелах.
22
Мал.5 Фрагмент результату під час роботи з новелою «За простибі» у
програмі Excel

Мал.6 Фрагмент результату під час роботи з новелою «Весільна» у програмі


Excel

23
Мал.7 Розрахована частотність для новели «За простибі»

Мал.8 Розрахована частотність для новели «Весільна»

24
2.3. Матеріали до частотного словника Р. Іваничука
Нижче подаються фрагменти матеріалів до частотного словника Р.
Іваничука. Для прикладу обрала два рандомних речення. Перше речення
взято з новели «За простибі», друге – з новели «Весільна»
Старий кіт сидів у Маріїних ногах, підігнувши хвоста, він поблажливо
блимав на бабу зеленкуватими очима: смішні думки снує його газдиня, нікуди
вона не поїде, про тих своїх рідних онуків торочила й тоді, як Мурчик ще
малим кошеням дряпався по ліжнику, що он висить на жердці, вічно про них
балакала, а чужих колисала.
1 Старий старий прикметник
2 кіт кіт іменник
3 сидів сидіти дієслово
4 у у прийменник
5 Маріїних Марія іменник
6 ногах ноги іменник
7 підігнувши підігнути дієслово
8 хвоста хвіст іменник
9 він він іменник
10 поблажливо поблажливо прислівник
11 блимав блимати дієслово
12 на на прийменник
13 бабу баба іменник
14 зеленкуватими зеленкуваті прикметник
15 очима очі іменник
16 смішні смішні прикметник
17 думки думки іменник
18 снує снувати дієслово
19 його він займенник
20 газдиня газдиня іменник
21 нікуди нікуди прислівник
22 вона вона займенник
23 не не частка
24 поїде поїхати дієслово
25 про про прийменник
26 тих ті займенник
27 своїх свої займенник
28 рідних рідні іменник
29 онуків онуки іменник
30 торочила торочити дієслово
31 й й сполучник
32 тоді тоді прислівник
33 як як частка
25
34 Мурчик Мурчик іменник
35 ще ще прислівник
36 малим малий прикметник
37 кошеням кошеня іменник
38 дряпався дряпатись дієслово
39 по по прийменник
40 ліжнику ліжник іменник
41 що що сполучник
42 он он частка
43 висить висіти дієслово
44 на на прийменник
45 жердці жердка іменник
46 вічно вічно прислівник
47 про про прийменник
48 них вони займенник
49 балакала балакати дієслово
50 а а сполучник
51 чужих чужі прикметник
52 колисала колисати дієслово
Дерево трупішіє на землі, лежать нікому не потрібні мерці, вміли зрубати,
та не змогли стягти звідси ялиці, і назвали люди дикий цвинтар Погарем —
згарищем, і кублились на ньому тепер лише гадюки, а небо хмурилось тут
завжди, дивлячись на людське безглуздя.
1 Дерево дерево іменник
2 трупішіє трупішіти дієслово
3 на на прийменник
4 землі земля іменник
5 лежать лежати дієслово
6 нікому ніхто займенник
7 не не частка
8 потрібні потрібні прикметник
9 мерці мерці іменник
10 вміли вміти дієслово
11 зрубати зрубати дієслово
12 та так сполучник
13 не не частка
14 змогли змогти дієслово
15 стягти стягти дієслово
16 звідси звідси прислівник
17 ялиці ялиці іменник
18 і і сполучник
19 назвали назвати дієслово
20 люди люди іменник
21 дикий дикий прикметник
22 цвинтар цвинтар іменник

26
23 Погарем Погар іменник
24 згарищем згарище іменник
25 і і сполучник
26 кублились кублитись дієслово
27 на на прийменник
28 ньому він займенник
29 тепер тепер прислівник
30 лише лише частка
31 гадюки гадюки іменник
32 а а сполучник
33 небо небо іменник
34 хмурилось хмуритися дієслово
35 тут тут прислівник
36 завжди завжди прислівник
37 дивлячись дивлячись дієприслівник
38 на на прийменник
39 людське людський прикметник
40 безглуздя безглуздя іменник

27
Висновки до Розділ 2
Цей розділ повністю присвячений практичній частині курсової, а саме
– укладанню частотного словника мови Романа Іваничука на базі двох з його
новел – «За простибі» та «Весільна» з допомогою програми Excel.
Детально описано мікроструктуру словника: як виглядають словникові
статті, яка інформація присутня у таблицях та що містить кожен заголовок.
Зокрема, розписано яка саме робота проводилась над самим текстом та над
присутніми в ньому словоформами.
Подано етапи укладання частотного словника. Усі 5 етапів пояснено та
розкрито: від одержання матеріалів, їх обробки і до здійснення основного
завдання практичної частини курсової – розрахунок частотності.
У розділі присутні знімки екрану, які наглядно демонструють виконану
роботу.
Також додані матеріали до частотного словника Романа Іваничука у
вигляді тексту з програми Excel.

28
Висновки
Розвиток гуманітарних та точних наук, а також революційні технології
впливають і видозмінюють світ довкола. Не уникнула змін і наука
лексикографії, з якої поступово відгалузилась статистична лексикографія.
Електронні словники почали швидко заміняти своїх друкованих
попередників. Прагнення суспільства до практичного застосування
мовознавчих надбань та досліджень мовних одиниць у тексті маніфестує себе
в створенні та укладанні частотних словників. Частотний словник — це тип
словника, в якому наводиться частота вживання слів, словоформ чи
словосполучень у певній сукупності текстів. Сфера їх застосування досить
об’ємна і не вимагає у користувачів глибоких математичних знань, тобто
вони є зрозумілі та відносно прості у користуванні. Словники мови
письменників також є корисними для суспільства – з їх допомогою бачимо
стилістичні особливості письменника, його індивідуальність.
Аналіз частотних словників авторів показав, що мікроструктура
кожного з них містить словоформи або лексеми, алфавітно-частотний
(звичайний або інверсійний) характер подачі матеріалу, абсолютну та/або
середню частоту та ін. Деякі словники також можуть подавати роз’яснення
до певних лексем (як наприклад це робить Частотний словник окремого
корпусу текстів).

29
Список використаних джерел
1) Бук С. Квантитативна параметризація текстів Івана Франка:
Проект та його реалізація, Вісник Львівського університету.
Серія філологічна. 2013. Випуск 58. С. 290–307
2) Бук С., Ровенчак А. Частотний словник роману Івана Франка
«Перехресні стежки»
3) Єрмолова Я. А., Частотні словники та їх використання, 2012 р., м.
Харків. — Х. : ХНУ ім. В. Н. Каразіна, 2012. — С. 116–117
4) Ковалів Ю. Літературознавча енциклопедія: У двох томах, Т.2,
2007. С. 574
5) Корпус текстів української мови [Електронний ресурс]. URL:
http://www.mova.info/corpus2.aspx
6) Частотний словник [Електронний ресурс]. URL:
https://uk.wikipedia.org/wiki/%D0%A7%D0%B0%D1%81%D1%82
%D0%BE%D1%82%D0%BD%D0%B8%D0%B9_%D1%81%D0%
BB%D0%BE%D0%B2%D0%BD%D0%B8%D0%BA
7) Частотний словник сучасної української публіцистики
[Електронний ресурс]. URL:
http://www.mova.info/Page2.aspx?l1=91
8) Частотні словники [Електронний ресурс]. URL:
http://www.mova.info/article.aspx?l1=69&DID=75
9) Zgusta, Ladislav «Manual of Lexicography», 1962

30

You might also like