УДК 811.161.

2'1'324'38 (038)
Квантитативна параметризація текстів Івана Франка:
спроба проекту
Соломія Бук
Кандидат філол. наук, доцент кафедри загального мовознавства
Львівського національного університету імені Івана Франка
вул. Університетська, 1, Львів 79000, тел. 239-47-56, факс.
297-16-68, e-mail: solomija@gmail.com

У статті заманіфестовано проект квантитативної параметризації усіх текстів І.
Франка, що можливо реалізувати, створивши частотний словник усіх творів
письменника і лише із застосуванням сучаних комп'ютерних розробок. Вказано сфери
застосування, етапи, методику, принципи і специфіку укладання частотного словника
мови другої половини ХІХ — поч. ХХ ст., якою писав І. Франко. Описано
співвідношення частотного словника І. Франка із словником мови письменника та
корпусом текстів.

Ключові слова: частотний словник (ЧС), словник мови письменника, ідіостиль І.
Франка, лінгвостатистичний аналіз тексту, корпус текстів.

Якщо зіставити кількість літературознавчих та мовознавчих досліджень
творчості Івана Франка, то шалька терезів схилиться у сторону перших. Лінгвістичні
ж напрямки аналізу доробку письменника торкались багатьох питань: ролі Івана
Франка в творенні літературної мови1§, внеску в ономастику2§,розуміння взаємозв'язку
мови і духовності3§, деяких проблем загального мовознавства у його науковій

1 Франко З.Т. Мова творів Івана Франка. // Курс історії української літературної мови. - Т. 1. - К.: Вид-во АН УРСР, 1958. С. 476-519; Гузар О. Іван Франко і становлення єдиного українського правопису // Іван Франко — письменник, мислитель,
громадянин. Матеріали міжнародної наукової конференції (Львів 25-27 вересня 1996) / Ред. М. Ільницький, Б. Якимович.—
Львів: Світ, 1998.— С. 721-722.
2 Vlasenko-Bojchun A. Franko's contribution to onomastics // Іван Франко — мислитель і митець: Зб. доп. для відзначення 125річчя народин і 85-річчя смерті Івана Франка.— Нью-Йорк; Париж; Сідней; Торонто, 1981.— С. 120-127.
3 Сербен^ка О.А. Основи мовотворчості журналіста в інтерпретації Івана Франка: Текст лекцій. - Львів: Pед.-вид. відділ
Львів. ун-ту, 1992. - 112 с.

М. Франка. мислитель. І Франка.121. громадянин. Франка в різних родах і жанрах.— К.— С. — 2G с. думка. .. 1981.— Bratislava: Veda. мислитель. Західно-українські елементи мови в ранній творчості Івана Франка ^ Іван Франко — мислитель і митець: Збірка доповідей для відзначення 125-річчя народин і 85-річчя смерті Івана Франка У Pедакцiя Є. З. 1965. 58. . наук. Наприклад. Синтаксис языка призведений Ивана Франко.— Кн. 121-14G. Внесок Івана Франка у розвиток науки про українські діалекти ^ Іван Франко — письменник. Париж.— B. Франко про вирішення правописних питань у Галичині ^ Іван Франко і національне відродження. Zinenko S. 662-666. Статті і матеріали.— Львів: ЛДУ ім. Рабш-Карпижька С. мислитель. Wortkomplexität im Ukrainischen und ihre linguistische Bedeutung ^ Zeitschrift für Slavische Philologie. Genzor. S. Wortlängen in Gedichten des ukrainischen Autors Ivan Franko ^ Pange lingua. 12.— 1963. Із цього погляду особливої уваги заслуговує задум створення "Словника мови Івана Франка" науковцями Львівського університету під керівництвом проф.— К. МацюкГ. зокрема. 7 Ovcharenko M. Stress in Ivan Franko's poetry ^ Annals of the Ukrainian Academy of Arts and Science in U. Цхоцький І.— Vol.— С. Я.— Львов. 1977. 8 Закрев^ка М. 187-188. Говори Дрогобиччини з узглядненням говірки села Нагуєвичі. залишаються майже невирішені. 97-1G3. Лев В.— С. У лінгвістиці зламу ХХ-ХХІ століть особливо актуальними стали міждисциплінарні дослідження мови.-H.— P.— Т. філол. 1991. незважаючи на згадане широке коло опрацьованих питань у творчості Генія. 691-7GG. мислитель.. До вивчення прикметникової та прислівникової синоніміки в художніх творах І.— Львів. Ковалика.— 196G. 128-138. Бацевич Ф. 9 Горбач О. 682-686. до яких належить й застосування статистичних методів до мовних об'єктів.— С. Best K.— С. анотованого корпусу його текстів.. 5 Кочан І. мислитель.. 1965. Термінологічні проблеми у працях Івана Франка ^ Іван Франко — письменник. П.-H. 11 Петличный И.— XÏÏ. филолог. І. що творчість Івана Франка привертає увагу не лише українських науковців. Івано-Франківська область ^ Іван Франко — мислитель і митець. 197- 102G6. результати дослідження довжини слів у листах і поетичних творах Івана Франка наведено в німецькомовних працях12§. вживання діалектизмів8§. Чи не найширшого висвітлення отримала стилістика творів6§. . 113 . Л. — № 1-2 (25-26).спадщині4§ та термінології5§. громадянин. 4. — 1998. Проблеми загального мовознавства в науковій спадщині Івана Франка ^ Іван Франко — письменник.— 167 с.. Zborník na pocest' Viktora Krupu У J. Галенко І.: Наук. канд. І. Федоренка. Франка ^ Питання українського мовознавства. Наукова лінгвістична проблематика в працях Івана Франка ^ Іван Франко. Ін-т франкознавства. 1999.— С. На материале художественной прозы: Автореферат дисс. — створення словника мови І. Зазначимо. S. І.— С. Торонто. 6 Полюга Л. — Львів.— S.— Нью-Йорк. 2G1-213. зокрема наголосу в поезії7§. Мовна характеристика персонажів у прозі Івана Франка: Автореф. Слово у поетичному тексті Івана Франка. 177 (117).— С. 2GG4. 196G. Серед них. Медвiдь А. Зважаючи на величезний обсяг творчості І. громадянин. дослідження синтаксису творів11§..— С. І. а також квантитативне дослідження творів письменника.— S.-С..— 32 с. громадянин. Імпліцитні текстові засоби в повістях Івана Франка ^ Іван Франко — письменник. Ковалик розробив 4 Ковалик І. 7G1-7G3. Першою фазою створення лексикону справедливо визначили укомплектування реєстру слів.— Зб. синонімів10§. Проте. Zinenko S. Проф. наук.. 652-656. було вирішено видати спочатку словник поезії. дис. докт. громадянин. Сідней. арготизмів9§. Іван Франко: поняття рідної мови ^ Іван Франко — письменник. Вулично-тюремні арготизми у Франковій прозі ^ Записки НТШ. Ondrejovic. 1G Ощипко І. 8. 12 Best K. 1G7-123.

14 Ковалик 1. 16 Передмова // Там само. Л. 3. Коротко оглянемо словники. єдиним лексикографічним опрацюванням ідіостилю І. 15 Ковалик 1. об'єктом опису яких є текст письменника. матеріал подано єдиним списком за алфавітом. Ковалик І.) та ін. На основі словопокажчика поезій І.Й. Цей модифікований тип словника поєднує тлумачну та 13Ковалик 1. Про укладання словника мови поетичних творів Івана Франка // Іван Франко і світова культура.— Львів.І. симпозіуму ЮНЕСКО (Львів.1. відповідно до мети і можливостей укладачів представлені різними типами: словник мови письменника. об'єктом опису яких є текст письменника.) Лексика поетичних творів Івана Франка.— Вип. Статті і матеріали. М. Словник мови художніх творів Івана Франка. Франка // Іван Франко і національне відродження. 19 Словарь языка Достоевского. фонетичні. 26. 1996. що дає підстави вважати проблему створення словника мови цього письменника відкритою. Теоретичні засади укладання словників мови письменників / Українська історична та діалектологічна лексика / Ін-т українознавства ім. 1990. думка. . скільки роботи виконано для виявлення лише списку слів кількістю понад 35 000. Вказане видання залишається досі. 1968. об'єктом опису яких є текст письменника У сучасній лексикографії словники. Д. Гринчишин (гол. 17. 11-15 вересня 1986). Статистичний аналіз лексики поетичних творів І. а І.1. Іван Франко.— С. Огляд українських словників.— Львів. Квітки-Основ'яненка18§. Іван Франко. 5. Наукові філологічні основи укладання і побудови Словника мови художніх творів Івана Франка // Українське літературознавство. морфологічні і граматичні написання. що побачив світ у книзі "Лексика поетичних творів.— Вип. Карткування віршованої спадщини відбувалося вручну.— С.— Львів: ЛДУ ім.— М. Ощипко порівняла дані зі словниками мови Т. 1972. Шевченка та Г. Принципи укладання Словника мови творів Івана Франка // Українське літературознавство.— 264 с.— Вып. ред. 1. ред. Ін-т франкознавства. 4. 189-200.принципи та наукові основи укладання словника13§.. базуючись на яких було видано пробний зошит мови художніх творів І. "Мета цього реєстру на основі підрахунків. 1. Іван Франко. Статті і матеріали.— С.— С. Матеріали Міжнар. Найповніший опис лексико-фразеологічного складу творів пропонує словник мови письменника20§."15§. Лексический строй идиолекта / Гл. 18 Ощипко І. Франка Л.1. конкорданс. 164-166. І. 82. Караулов.. Полюга (уклад. Н. Крип'якевича: редкол.— Львів: ЛНУ. Статті і матеріали. 63-99. на жаль.: Наук. частотний словник та порівняно новий тип — лексична будова ідіолекту19§. 1990. 20 Лесюк М.. 2001. Пробний зошит // Українське літературознавство..— С. 17 Полюга Л.— С.— Вип.— Львів. 1976. Франка.— Львів. то ж можна тільки уявити... 174-183. У словнику свідомо збережено діалектні. Ощипко І. словопокажчик. Методичні вказівки з розвитку лексики. 1991. Й. Полюга здійснив короткий статистичний аналіз лексики його поезій 17§.— Вип.— К. Франка14§. подати всю українську лексику поетичних творів Івана Франка та вказати на частотність використання кожного слова"16§. 3-10.— С.— Кн. Ю. І Франка. наявних у картотеці слів.

— Т. 1961. Лексика п'єс та од І.— 93 с. держ.: Олег Ільницький. 23 ЖовтобрюхМ. Д. Бурячок А. Т. П. Лесі Українки26§. Бурячка. С. Лексика мови Архипа Тесленка.— К. П. В Україні вийшли друком словопокажчики до творів Т. 26 Бойко М. В. випр.— Т. Квітки-Основ'яненка23§. П. "Цей словник має значення як для вивчення творчості самого письменника. Котляревського25§. ун-т.: Наукова думка.: Вища школа.. Ф. Й. Т.— 566 с. У ньому зафіксовано 18 21 Тараненко О. Глосарій — зібрання глос. СеверинМ. Петрова П.. М. ХІХ. сторінку і в деяких випадках на рядок. ред. 1: А-кладовити (1978).— 207 с. де подано тлумачення складної для розуміння лексики з творів письменника.— Т. Залишко А.) Словник поетичної мови Василя Стуса (Рідковживані слова та індивідуально-авторські новотвори). О. 1970. Шевченкова лексика. як українська. Бажана. І. М. так і для дослідження відповідного етапу історії національної літературної мови та суспільної атмосфери того періоду"21§. Петрова П. А. (ред. 30 Оліфіренко Л..: Вво Харківського ун-ту. Квітки-Основ'яненка: У 3 т. С. Конкорданс подає усі або вибіркові контексти вживання певного слова чи словоформи.— К. 1972.— С. Ротач А.— 484 с.: Видавництво АН УРСР.: В. (відп. Тесленка27§.— К. наприклад. Медведев Ф. 2004. 24 Ващенко В. Федьковича29§.: Абрис. 25 Ващенко В.— 131 с. Стефаника. О. М. . За таким принципом описано лексикони Т. Ощипко І. Мови письменника словник // Українська мова: Енциклопедія / редкол.— 90 с. 28 Ковалик І. Т.— 2ге вид. а саме авторських неологізмів. Г. 2004. де в "Кобзарі". Матеріали для Словопокажчика до новел В. (уклад.) Словник мови Шевченка. так і російська"31§. О. Словопокажчик оповідань. 2: кланятися-приклад (1979). Покажчик слововживання.. Русанівський та інші. і в яких текстуальних обставинах появляється кожна вжита Шевченком словоформа. Суттєвою рисою словника мови письменника є те. слів та пояснень чи коментарів до них. У 4-х тт. (гол. 355. 2003.— 188 с. конкорданс поетичних творів Тараса Шевченка "точно відмічає.: в-во Українська енциклопедія ім.— 101 с. що він подає тільки ті значення. Словопокажчик драматичних творів Лесі Українки. 1974. Котляревського. 27 Сизько Т. Ю.— Торонто. 2. де функціонує слово у конкретній словоформі.— Дніпропетровськ. ред. Шевченка.. 1961.: Харків. До цього лексикографічного типу можна зарахувати "Словник поетичної мови Василя Стуса"30§.— 106 с. 2001. Шевченка. А. 31 Конкорданція поетичних творів Тараса Шевченка / Ред.. Шевченка24§. 22 Ващенко В. Лексика «Енеїди» І. С.— 54 с.. Т. а також на частоту уживання кожної одиниці. 3: прикладати-Я (1979)..— К. і упоряд. Методичний посібник.І. Котляревського / За ред. А. Юрій Гавриш. Словопокажчик до поезій Т.) Юрій Федькович: Словопокажчик мови творів письменника. тобто незрозумілих. 1.. Художнє слово Василя Стефаника.— К. з погляду укладачів..) Словник мови творів Г. 1978. А. і доп. діалектизмів та інших рідковживаних слів. Словопокажчик вказує на том.— Х. В.— Львів: Вид-во Львівського ун-ту. 1964.: Видавництво Київського державного університету ім. Шевченка22§ та Г..— Х. Т.— К. архаїзмів та історизмів.— Чернівці: Місто. 1955.письменницьку лексикографічні праці. 1. 29 Лук'янюкК. О.— С. в яких слово реалізовано у творах письменника. Стефаника28§.

Мовознавці зазначають.. що ". 34 Великодворская З. и. у якому першим стоїть слово з найбільшою частотою. Для того.— С.: Наукова думка. Проте є декілька суттєвих рис. але насправді принципових.. Муравицька М. 33 Їх огляд див. філол.01 / Львівський національний університет імені Івана Франка. и др. Звичайно він складається з декількох списків: списків слів. на перший погляд.— С. ДарчукМ. Н. розташованих за спадом частот і за алфавітом. як правило. П. — 380 с. тобто частоту певної одиниці мови в обстежених текстах. тобто список. Толстого "Война и мир" / М-во просвещения РСФСР. що й у словнику мови письменника. Н. у словниках мови письменників та у словопокажчиках. наприклад. що не дозволяють прирівнювати частотний словник із вказаними працями — це послідовність розміщення словникових статей. на відміну від описаних вище праць. —Тула: Б. формальних. Словникову статтю глосарія будують за таким самим зразком. проте аналога ЧС письменника чи його окремого твору як.. а також з таких самих списків для словоформ. 2004. скажімо. тільки реєстр слів добирають за іншими критеріями. можна констатувати перше застосування статистичних методів до виявлення лексичних особливостей творів української літератури зі середини ХХ ст. зведених до початкової форми. Дис. Той факт. Лексична основа української мови: виділення та системно-структурна організація. Опрацювання матеріалу здійснено з використанням комп'ютерних програм. він обов'язково повинен містити ранговий список одиниць. д.: Бук С. укладаючи словник мови письменника.— К.02..) Частотный словарь романа Л. канд.. Таким чином. Номер слова за порядком називається 32 ПеребийнісВ. де наведено кількість вживань. 78. наук: 10. Н. 1985.— Рукопис.. Частотний словник (далі — ЧС) — тип словника. Толстого34§. 1978. що би словник можна було вважати частотним..401 лексичну одиницю і подано 83 731 випадки їхнього вживання. С. ЧС є важливим інструментом дослідження закономірностей функціонування лексичної системимови в різних текстах. . зближає їх із частотним словником. 31.. В українській лексикографії існують ЧС шести функціональних стилів33§. ще не створено. (ред. кількість уживань кожного слова.. Усі перелічені вище типи словників тісно пов'язані між собою.— Львів. на другому — друге за частотністю і т. для розрізнення значень слів та їхньої ілюстрації послуговуються контекстними даними конкордансу. П. що словопокажчик і словник мови подають. ЧС "Войны и мира" Л. Частотні словники та їх використання."32§. так.

С. а також на відсутність теорії. Для цього доведеться опрацювати все видання і вручну шукати й виписувати слова за спадом частот. і виявити найчастотнішу лексику можливо тільки після громіздкої ручної роботи.— С. 36 Перебийніс В. 2002. Ця проблема поглиблюється ще й тим фактом. Для чого ж потрібні і як можна використовувати частотні словники певного твору чи письменника? Спробуємо коротко окреслити теоретичні та практичні сфери застосування ЧС. багатство словника. на відсутність гіпотез. на безпорадність неточного способу вираження. тоді як переважна кількість одиниць є низькочастотними (закон переваги)36§. наприклад. Вона виявляється у тому." — зауважив знаний німецький лінгвіст Ґ. 6. природна мова.— Чернівці: Рута. . Екстраполюючи це 35 Альтман Ґ. заради чого. і укладаються ці лексикографічні праці. доведено ще на початку ХХ ст. Те. Словник мови письменника і словопокажчик подають реєстр слів за алфавітом. зокрема текст. Насамперед. що не дає можливості не те що обчислити важливих статистичних характеристик тексту. Така форма подання інформації дає можливість визначити обсяг словника слів і словоформ. Статистичні методи для лінгвістів: Навчальний посібник. індексів винятковості й концентрації та інше. "Шлях дисципліни вглиб рано чи пізно наштовхується неминуче на обмеженість якісних методів.зокрема. має власні квантитативні закономірності. що вказані словники існують лише в паперовій формі. які часто використовуються і становлять ядро будь-якої мовної чи мовленнєвої підсистеми. 3-11. що розподіл частоти одиниць мови в тексті має певну регулярність і може бути описаний за допомогою певних моделей і теоретичних формул. 2005. а навіть визначити найчастотніших одиниць. Сфери застосування частотного словника творів письменника 1.— С.рангом.— Вінниця: "Нова книга". Альтманн35§. 7. Мода та істина в лінгвістиці // Проблеми квантитативної лінгвістики. тому лінгвістичні дослідження із врахуванням лише якісної її оцінки буде нерізностороннім і неповним.— С. що словесне наповнення будь-якого достатньо довгого тексту має власну статистичну структуру. мова і мовлення надають перевагу невеликій кількості одиниць. величину покриття тексту.

а також таких статистичних характеристик лексикону як багатство словника чи індекс різноманітності (відношення обсягу словника лексем до обсягу тексту). П. Деякі закономірності у функціонуванні частин мови встановлено для твору О. С. найвищою — на лексичному та синтаксичному"38§. на іменниковій основі творяться тексти розповідного та описового типу: пейзажі. індекс концентрації (відношення кількості слів у словнику з абсолютною частотою 10 і більше до загального обсягу тексту).правило на словник письменника. стильових різновидів української мови засвідчив.— 2-ге вид.: В. недоведеними) до того часу. В. тобтовідмінностей між стилями порівнюваних письменників37§.. стислість. і доп. суб'єктивними. Бажана.— К. У науковій літературі (як літературознавчій. портретні характеристики. що вони відрізняються одиницями всіх рівнів мови. випр. Статистична стилістика // Українська мова: Енциклопедія / редкол. Ці твердження залишаються голослівними (або відносними. "Статистичний аналіз сучасних українських текстів. . Завдяки іменникам досягається статичність опису. так і мовознавчій) часто у дослідженнях оперують такими фразами як "лексика цього письменника багатша за лексику іншого". думка. Прикметники ж увиразнюють 37 Статистичні параметри стилів / за ред. але стилерозрізнювальна потужність цих одиниць різна: найнижчою вона є на фонемному рівні. М. що в кожного автора існує строге співвідношення більш і менш частотних лексем. Довженка "Поема про море": ".. ніж той" і т. "цей письменник використовує більше епітетів. лаконізм. Різниця між статистичною структурою текстів є критерієм унаочнення відмінностей між ними. д.: в-во Українська енциклопедія ім..— К.: Наук.— С. 2. Зазначене співвідношення більш і менш частотних лексем у певних письменників читач інтуїтивно сприймає як різноманітний чи одноманітний словниковий запас творів. М.— 260 с. 1967.. 2004. Саме частотний словник дає можливість об'єктивно визначити ці величини. індекс винятковості (відношення кількості слів із частотою 1 до загального обсягу тексту) . 38 Перебийніс В. Власне статистичну структуру лексичного рівня певного твору чи мови письменника і виявляє ЧС. Русанівський та інші. можна стверджувати. 644. Перебийніс. С. поки не здійснено конкретних досліджень. зокрема порівнянь співвідношення частин мови у творах певного письменника з аналогічним співвідношенням в творах іншого.

води в поезіях Пушкіна.— Дніпропетровськ: Видавництво Дніпропетровського ун-ту. П.111т> 39 Дарчук Н. наприклад. Словник сполучуваності слів української мови (найуживаніша лексика). 40 От Нестора до Фонвизина. 42 Сахно І. На жаль. які не функціонували в суспільстві у період його діяльності. явищ. 5. канд. філол. 2004.— 544 с. прикметників та дієслів на позначення сонця. А. 40 Баевский В. повітря. П.. у сучасній лексикографії і дидактичній літературі.02. 1976. 1994. наприклад.: «Прогресс».— Львів. що вивчає цю мову. тому не могли трапитися в його творчості40§.— С. 03 січня 2006]. І.— Доступно з <http://feb-web. В. Статистичний підхід до виокремлення словників-мінімумів має довгу традицію в Європі41§.— С. ЧС письменника (або конкретного його твору) дає інформацію про інші стилістичні особливості письменника на рівні лексики. які в його творчості мають найвищу частотність.Йгп1?стс1=р. характерних усім трьом авторам. С. ін. ЧС письменників і т. місяця.. Сахно М. Новые методы определения авторства / Под ред. Справочнные труды по поэзии Пушкина и его современников. ЧС письменників допомагають встановити (ідентифікувати) авторство творів чи їх фрагментів. 102. 41 Бук С. неба.— Рукопис. можна з високою ймовірністю визначити лексичну основу мови.. 1425. можна визначити ті слова. оперуючи рештою з них.: Наукова думка. Баратинського і Тютчева. 3. Статистичні характеристики лексики як відображення структури тексту // Мовознавчі студії. він показав особливості сприйняття природи кожним з 40 поетів . оскільки кожен автор має свої так звані "улюблені" слова чи конструкції. Після опущення слововживань. наук: 10. Бєлий уклав частотні списки іменників.— К. пов'язаний з описом діяльності людини. Н. ..ru/feb/pushkin/serial/v91/ у91-065-. кількість слів із територіальних чи соціальних діалектів. які слід насамперед засвоїти іноземцеві.— [Цит. Лексична основа української мови: виділення та системно-структурна організація. різними процесами"39§. тобто об'єктивно найбільш уживані слова. Дис. добираючи лексикон інтуїтивно (див. На дієслівній основіорганізовується текст. 4.01 / Львівський національний університет імені Івана Франка. послуговуючись назвою "найуживаніша лексика". навпаки.— М.ознаки предметів. М. Милова. праці Сахнів42§). Л. автори часто не вказують принципів відбору слів до словника. На основі порівняння ЧС різних функціональних стилів. 1999. Скажімо. їхня частота вживання тощо.

Зважаючи на складність правописного питання текстів І. Франка (їх розглядаємо у кожномуконкретному випадку). Франка за попередніми обчисленнями становить орієнтовно 8 млн. а також видання творів. З. Франка (далі — ЧСФ). Також це зумовлює визначення основних етапів здійснення задуму: опрацювання художньої прози. у процесі роботи над ЧС "Перехресних стежок" було зіставлено прижиттєвий першодрук роману 1900 р. зокрема передбачено опрацювання першодруків та прижиттєвих видань І. Тому з метою комплексного квантитативного опису ідіостилю письменника насамперед було вирішено укласти повний ЧС текстів І. тобто визначити реєстр слів до історичного словника того часу. що.Т. Зібрання творів. У 43 Франко І. М. об'єктом опису яких є текст письменника. джерелами ЧСФ є академічне Зібрання творів у 50-ти томах43§. 44 Франко І. а сучасні редактори. зіставлення їх текстів. 2002. з метою наближення до сучасного мовлення. ЧС подає різносторонню статистичну інформацію про текст і має суттєві переваги у виявленні особливостей функціонування усіх одиниць лексичного рівня твору у порівнянні з іншими лексикографічними працями. У 50-ти томах. 1979. Львів: Каменяр. літературно-критичних праць. можна реконструювати особливості мовлення певного періоду. поезії.: Наукова думка. . є особливо складним для реалізації. Франка. Мозаїка: Із творів.— К. допускаємо ширше охоплення матеріалу.Г. та академічне його перевидання 1979 р.Василенко. епістолярію. очевидно. ЧС укладається для кожного окремого твору у межах кожного з цих родів літератури.6. наприклад. що до нього не ввійшли44§. слововживань. вносили ще й свої правки).Я. Усвідомлюючи неповноту цих джерел. У подальшій перспективі можливе й електронне опрацювання рукописів. що вирішити вказане завдання без використання комп'ютера неможливо. що не ввійшли до Зібрання творів у 50-ти томах / Упоряд. (сам автор у різні періоди творчості писав різними правописами. На основі зіставлення частотних словників письменників. Методика укладання частотного словника текстів Франка Обсяг спадщини І. що були сучасниками. Отже.Франко. Так.— 432 с. наукових розвідок. то ж у зв'язку зі стрімким розвитком технічних засобів опрацювання мови стає зрозуміло.

іменників середнього роду "-нє". молодїж). використання початкової літери "и" (иньший) та інші (фіртка. 3 000 найчастотніших слів розмовно-побутового стилю сучасної української мови / Наук. до схочу. ґрунт. абнеґація. А. С. ґешефт. використання "ї" на позначення пом'якшення попереднього приголосного на місці сучасного "і" (лїкар. латинської мов (ґратулювати. ґімназияльний. ред. Бацевич. Принципи створення ЧСФ розроблено із врахуванням практики укладаннятрьох ЧС функціональних стилів української мови46§.: Наукова думка.. 1974. запозичених з польської. Реґіна. ґазета) і давніших. репутацию. важливо. а також із врахуванням графічних та граматичних відмінностей текстів І.в. зокрема відновлено написання літери "ґ" у власних назвах (Ваґман. добре засвоєних у мові. Бук С. в низу. Частотний словник офіційно-ділового стилю: принципи укладання та статистичні характеристики // Лінгвістичні студії: Зб. Рессельберґ. написання сучасних прислівників.— К. використання закінчення Н. дївчата. написання часток б і ж через дефіс з попереднім словом (коли-б. Для того. Бук С. праць. житє). а також ті. від разу. Оскільки ці принципи дещо 45 Якубайтис Т. ґрасувати. 3 000 найчастотніших слів наукового стилю сучасної української мови / Наук. німецької. що би ЧС кожного твору було укладено за єдиною методикою: "відмінності. Серед них — написання зворотної дієслівної частки -ся з дієсловом окремо (а частки -сь — разом). що частка -ся у повісті трапляється 2496 разів у 1485 дієслівних словоформах — це друге (!) за частотою значення після І / Й. які не впливають на статистичну структуру тексту: написання назв національностей з великої літери (Русини. С. усї.результаті виявлено основні відмінності тексту вказаних видань. повинна-б.. ґречно). у методиці побудови словників сильно ускладнюють їх коректне порівняння"45§. чого-ж. Ф. З'ясовано правописні відмінності. 184-188. в десятеро. усьміх). окремо ( з далека. 2006. Ґенцьо. Поляки).— Випуск 14. до дому. Жиди. се-ж). інколи вельми відчутні. Франка від сучасної літературної мови.— 192 с.— С. ґатунок. . що починаються колишніми прийменниками. наук.— 180 с. які мають такий вплив. "-ття" (напружене. Ф. ред. Бацевич.— 2006. резиґнація. недїлї.— Львів: ЛНУ імені Івана Франка.— Львів: ЛНУ імені Івана Франка. ґуст. Ґоттесман). ведлуґ. О статистических пластах лексики // Вопросы статистической стилистики. 46 Бук С. "-тє" на місці сучасного "-ння". як найшвидше). запозиченнях (ґанок. Цікаво. істория. 2006. морґ (міра площі). — С. щоби результати статистичного опису творів можна було коректно порівнювати між собою. у двоє. словах. 300.

Принципи укладання частотного словника творів Франка Як було сказано. Написання через дефіс розглядаємо як одне слово (з-поміж. Це стосується займенників типу абихто. взято з цього твору. адвокат-русин тощо). байдужноспокійний. Частоту множинних іменників зводимо до форми називного відмінка множини. НАЙБІЛЬШИЙ зведено до БІЛЬШИЙ. які в непрямих відмінках з прийменником втрачають єдність написання (аби з ким). ЧС становить собою впорядкований список слів. зведені до початкової форми) і про словоформи: парадигматичні форми і фонетичні варіанти слів. Іменник — до називного відмінка однини зводимо форми всіх відмінків однини та множини. за винятком суплетивних форм.модифікувалися і відшліфовувались у процесі укладання ЧС роману "Перехресні стежки". наведені для наочності. забезпечений даними про частоту їх вживаності в тексті. розмовно-побутового стилю). Суплетивні форми прикметників та прислівників не зводились до звичайного ступеня і в більшості вищезгаданих словопокажчиках і словниках. РУСИНИ. як і в частотних словниках художньої прози. які зводимо окремо до називного відмінка однини чоловічого роду вищого ступеня. наприклад. і жіночої статі. У ЧСФ окремим словом вважаємо послідовність літер (тут апостроф і дефіс розглядаються як літера) між двома пропусками чи розділовими знаками. то приклади. вищий і найвищий ступені порівняння. тому складні числівники виступають як різні слова. публіцистики. їх не об'єднуємо із одниною ані чоловічого. МІЩАНИ і їм подібні позначають осіб і чоловічої. Прикметник — до називного відмінка однини чоловічого роду зводимо відмінкові форми всіх родів в однині та множині. і кожна частина мови має свою схему об'єднання словоформ під лемою (аналогічну. Оскільки такі форми іменників як СЕЛЯНИ. . БІЛЬШИЙ. ані жіночого роду. Формування ЧСФ здійснено за графічним збігом лем. ЧСФ подає інформацію про словникові одиниці (тобто леми або слова. ЖИДИ. Займенник — відмінкові форми зводимо відповідно до типу відмінювання.

коли початкову форму слова однозначно відтворити складно. (так далі). Великодворської48§. зберігаємо словоформу у тому вигляді. —Тула: Б. .)).д. колупнули-таки до КОЛУПНУТИ. 47Вихованець І. У ЧСФ намагаємося розмежувати лексичну та лексико-граматичну (іменник МАТИ і дієслово МАТИ) омонімію. за І. -то.— 2003. або на частиномовну приналежність (МАТИ (ім. зокрема омографи (наймити (дієслово зі значенням "найняти") і наймити (іменник у множині). 54-60. минулий і майбутній).) і МАТИ (діесл. . У цих випадках для розрізнення в дужках подаємо або вказівку на значення (МІЛЯ (ім 'я)). -но.бо. Як окремі слова залишаємо також випадкивживання синтетичних особових форм дієслова: ЯКБИ-СТЕ [купували].. Д-Р (доктор) і т.. 1978.). АЛЕ-БО. В окремих випадках. и др.. город і город. число. в якому вона функціонує в тексті: ПАНЦЮ (ПАНЦЬО?). Н. [потрактував] БИ-С. и. (отець). Дієприкметник — до називного відмінка однини чоловічого роду зводимо відмінкові форми всіх родів в однині та множині. Вихованцем.Числівник — відмінкові форми зводимо відповідно до типу відмінювання. Д. Частиномовний статус дієприкметників // Українська мова. 8. пор. 48 Великодворская З. Прислівник — зводимо вищий і найвищий ступені порівняння. за винятком суплетивних форм. Біля абревіатур та скорочень в дужках вказуємо їх розшифрування: Т. відмінок) та типовою синтаксичною роллю означення47§. Аналітичні форми часу вважаємо синтаксичними утвореннями.— С. а також неособові форми на -но. кожну складову яких зареєстровано як окреме слово. Дієслово — зводимо до інфінітива синтетичні форми часу (теперішній. КОЛИСЬ-ТО.. -таки. (ред. форми наказового способу і дієприслівник. брешіть-бо до БРЕХАТИ. Толстого "Война и мир" / М-во просвещения РСФСР. Н.. розглядаємо його як різновид віддієслівного прикметника із властивими йому основними категоріями (рід.— № 2. мука і м>ка). -то реалізуємо так: самостійні частини мови зводимо до початкових форм (говоріть-бо до ГОВОРИТИ. у службових частинах мови ці частки зберігаємо (ДУЖЕ-ТО.) Частотный словарь романа Л.). ходи-но до ХОДИТИ. також словник З. О. — С. оскільки. Лематизацію слів з частками .

зокрема просторічні. ГУЛЬД[ЕНІВ]. Натомість форми. де чергування початкових чи кінцевих літер пов'язане з милозвучністю мови. частки Ж / ЖЕ. оскільки загальна акцентуація мовлення Галичини зламу ХІХ-ХХ ст.: Наукова думка. З / ІЗ / ЗІ / ЗО. коли він відіграє смислорозрізнювальну роль (САМИЙ і САМИЇ Й. сполучники ЩОБ / ЩОБИ. прийменники У / В. З[ОЛОТИХ] Р[ИНСЬКИХ]). ІТИ / ЙТИ. Б / БИ. — С. польською (38). Т[АК] ЗВ[АНИЙ]. вважаємо окремим словом.— Т. Числа. ТРОХИ / ТРОХА. записаних цифрами. чеською (9). ГУЛЬДЕНІВ).— К. 14-15. ПІД / ПІДО та деякі інші. 1: Поезія. написані некириличною графікою лематизуємо відповідно до граматики тієї мови. КАЗЕТА і ҐАЗЕТА). які у 50-томнику розшифровано у квадратних дужках (КС[ЬОНДЗ]. подаємо окремо (АДУКА(Н)Т і АДВОКАТ. СКІЛЬКО. вимагає окремого дослідження. Цікаво. Лексеми. написані цифрами. До одної початкової форми (найчастотнішої) зводимо фонетичні варіанти слів. враховуємо як повну форму (КСЬОНДЗ. що в одному лише романі "Перехресні стежки" зафіксовано 45 слів. а також слова з відповідними префіксами (ВЕСЬ / УВЕСЬ / ВВЕСЬ. оскільки у прижиттєвому виданні 1900 року послідовно вжито форми ТІЛЬКО. ЛЕДВО) залишено у прямій мові. а також 49 Від редакційної колегії // Франко І. латинською (55). до якої вони належать. 1976. У 50-томнику розрізнення вказаних форм є штучним49§: авторську форму (ТІЛЬКО. Наголос у словнику подаємо лише в тому випадку.Ті скорочення. СКІЛЬКО та інші. . які відображають особливості мовлення персонажів. їдиш (4). а саме: дієслова з постфіксами -СЯ / -СЬ. ВСЯКИЙ / УСЯКИЙ). також попередній абзац) або поданий у тексті ([річ] НАБУТНА). французькою (14). І / Й. написаних латинською графікою: німецькою (87). ТІЛЬКИ / ТІЛЬКО і подібні подаємо в одній словниковій статті. ВИЇ КЛИКАТИ і ВИКЛИКАТИ див. ПЕРЕГРАФ і ПАРАГРАФ. Зібрання творів у 50-ти томах. Лексеми ЛЕДВЕ / ЛЕДВО. та 208 слів. а сучасну літературну норму подано в інших випадках.

леми). оскільки звичайні програми перевірки орфографії не розраховані на тексти західноукраїнського варіанту української мови кінця XIX ст. Цікавим є також міжмовний омонім на — прийменник в українській мові та частина єврейського словосполучення на хайрем (слово честі). за Результатами цієї операції стають частотний список словоформ за спадом частот.) та вилученням підсторінкових редакційних приміток. мов велике. доцент кафедри теоретичної фізики Львівського національного університету імені Івана Франка. тобто зведення словоформ до словникової форми (початкової форми.) й a (польськ. Серед них також трапляються омоніми: in (лат. Франка укладаємо напіватоматичним способом у декілька етапів: 1. Лематизацію.) й in (нім. наприклад. Таким чином ці слова стають графічно різними.один раз — у контексті: "Та ось поперек його дороги простягається чорна стрічка. словоформи АДВОКАТА. латинське maxima функціонує один раз як прикметник (жін. АДВОКАТОВІ. і програма рахує частоту вживання кожного з них окремо. АДВОКАТАМИ. 3. Створення електронної форми тексту шляхом сканування з подальшим детальним його вичитуванням (графічна та граматична специфіка текстів І.). АДВОКАТАМ. Франка вимагає надзвичайно ретельного підходу до цього завдання. плазом покладене S". Аналізу підлягають усі слова текстів. Ровенчак. закривлена по обох краях обрію. 50 Автор-розробник — А. . включно з написаннями латинською графікою та цифрами. а другий раз — як іменник (множина від maximum). АДВОКАТИ. німецькі означені артиклі die (жіночого роду і множини). Етапи укладання ЧС ЧС кожного твору І. a (лат. роду від maximus). Автоматичний допомогою підрахунок спеціально абсолютної написаної частоти комп'ютерної кожної словоформи програми50§. Усунення омонімії шляхом додавання до одного із омонімічної пари умовної позначки. 4.). 2.

слоня). С.АДВОКАТОМ — до леми "АДВОКАТ" здійснюємо напівавтоматично. зокрема зі спеціальності "прикладна лінгвістика". Процак. Таким чином. Так. усї). 52 Бук С. ЧС кожного окремого твору І. М. немає підсумованих морфологічно неоднозначних словоформ (омонімів) західного варіанту української літературної мови зламу ХІХ-ХХ ст. Ціхоцький. 3) ЧС слів за алфавітом. д. етап 3).К. 2) ЧС словоформ за спадом частот.Широков.О. Розташування всіх зведених лем шляхом сортування в алфавітному порядку. у чистому вигляді застосувати до творів І. стилістичні та лексикографічні виміри роману "Перехресні стежки") / Ф. Останній виконує допоміжну роль для знаходження слова.: Довіра. 6. Результатом цієї операції стають ЧС слів за спадом частот. Частотний словник роману І. лїс.В. Франка повинен мати три списки: 1) ЧС слів за спадом частот. О. . Бук. казок "Вовк війтом". Ровенчак А. ХХ ст. Н. Автоматичний підрахунок абсолютної частоти кожної леми за допомогою спеціально написаної комп'ютерної програми (див.Львів: Видавничий центр ЛНУ імені Івана Франка. Франко вживав його як іменник І відміни жіночого роду однини (зі значенням пані.Розділ 5. Результатом цієї операції стають допоміжні списки ЧС слів за алфавітом. На сьогодні створено ЧС роману "Перехресні стежки"52§. І.А. Л. по-друге. "Ворона і Гадюка"..поч. Франка неможливо через те. письменник писав західним варіантом літературної мови другої половини ХІХ . . 2005. (аналогічно до курча. що уможливлює неправильну їх автоматичну лематизацію. словоформу ПАНЯ за правилами літературної мови програма мала би вважати іменником IV відміни середнього роду однини в Н. тоді як І.. по-перше.. 5. 2007. в. які доступні в 51 Корпусна лінгвістика / В. жінка). ред). А. Л. . скажімо. Т. "Мавка". "Лисичка-Кума". Бацевич (наук. що. Франка "Перехресні стежки" // Стежками Франкового тексту (комунікативні. 5. словоформу мойого як слово із прикметниковим закінченням могла звести до мойий і т. "Три міхи хитрощів". Сваричевська. по-четверте. До нього залучено студентів філологічного факультету Львівського національного університету імені Івана Франка.Бугаков.— С. А. навмисне використовував неправильні форми слів у мовленні персонажів. . Л. Ю.Грязнухіна та ін. по-третє. 138-369. його правопис має графічні особливості (наприклад. зорієнтовані на сучасну загальнолітературну норму. що Проект повної квантитативної параметризації текстів Івана Франка триватиме не один рік. Повністю автоматичну систему розмітки української мови51§. С. Очевидно. Ровенчак.

Rovenchak. на підставі чого підтверджено закон Менцерата(-Альтманна). S. До речі. за даними розподілу "ранґ-частота" розраховано параметри законів Ціпфа і Ціпфа-Мандельброта54§ Наступним етапом роботи над "Перехресними стежками" заплановано аналіз на рівні ієрархії "складне речення — підрядне речення — слово". Частотний словник творів І. ін. Франка і корпус текстів І. A. стежки" зокрема вже зроблено проаналізовано низку частотні розподілисловоформ залежно від кількості складів і фонем.— К. Одним зі способів розв'язання цієї проблеми є розширення набору теґів для врахування паралельних словоформ. що запропонованого О. 2005. 2007. 39-48.lviv. ун-т ім. а також — у перспективі — для позначення різних правописних систем української мови. Повний список слів та словоформ. Таврійськ.— С. автори і редактори яких використовують часом дещо різні правописні норми. під час лематизації словоформ виявлено. 111-140. Зокрема.— P. Франка 53 Бук С. наук. укладеного на підставі оригінальних видань. присвяченій цьому лінґвостатистичному дослідженню: http://www.: Інститут української мови національної академії наук України. так і для створення корпусу текстів Івана Франка.ktf. Вернадського. Корпус текстів Івана Франка: спроба визначення основних параметрів // Прикладна лінгвістика та лінгвістичні технології: MegaLing-2006: Зб. за ред.— К. ДемськоюКульчицькою55§ набору теґів морфологічної анотації недостатньо для вичерпного маркування текстів такого типу. Широкова.— Berlin. мовн.ua/~andrij/science/ Franko/. Визначено основні параметри створення корпусу текстів Івана Франка53§. 54 Buk. / НАН України. нац. як частотний. 72-82. Statistical Parameters of the Novel Perekhresni stezky (The Cross-Pathes) by Ivan Franko // Quantitative Linguistics. А. . у вказаній схемі не враховано різних форм займенника мого / мойого.: Довіра.franko.— V. а також повні тексти вказаних творів можна знайти на веб-сторінці.-інформ. фонд. пр. так й алфавітний. В.електронній формі. 55 Демська-Кульчицька О. Такий розширений набір теґів буде корисним як для розмітки сучасних текстів.— С. свого / свойого і т. морфологічне теґування тексту. що в перспективі дозволить виконувати згадані вище процедури лематизації автоматично. New York. В.. 62: Exact Methods in the Study of Language and Text. На основі лінґвостатистичних ЧС роману "Перехресні досліджень. Укр. І. 2006. Основи національного корпусу української мови. як досліджуваний.

навіщо спочатку лематизовувати словоформи для ЧС (плодити ще один зайвий(?) продукт). сама приймала рішення. час.. F.— К.471 с.— 168 s. .) співзвучне з процедурою лематизації у ЧС. якщо міститиме усі тексти письменника в електронній формі. 2002. для дієслів і т.. оскільки дає можливість переконатися. Корпус текстів І. яка опрацьовує такі складні тексти. що інтерфейс програми.Широков. безпомилково зведе її до правильної леми (про розрізнення омонімів див.Грязнухіна та ін.О.8.— Cambridge: Cambridge University Press. а після завершення роботи програми 56 Meyer C. Корпусна лінгвістика / В. 2005. якщо пізніше фактично цю ж процедуру доведеться виконувати для корпусу текстів? Чому відразу не протеґувати текст? Відповідь на це питання лежить у площині співвідношення кількості словоформ (обчислених комп'ютерною програмою автоматично) і кількості слововживань (тобто окремих слів у тексті). розмітка) — це позначення в тексті морфологічної. Так. тобто щоби у спірних випадках (наприклад. English Corpus Linguistics: An Introduction. Опрацювавши ці словоформи. що кількість словоформ майже у п'ять разів менша від кількості слововживань: 93 885 / 19 390 = 4. натрапивши на цю словоформу в тексті. збалансованості. Інакше машина помилково присвоїть слову неправильний теґ. теґування. тобто у площині обсягів необхідної обробки матеріалу. а людина. вище). стандартності56§. Франка буде репрезентативним і збалансованим. розміченості (анотованості). Основи національного корпусу української мови. Podstawy jezykoznawstwa korpusowego / Red. вводимо їх разом з початковою формою у словник програми теґування. і вона. натрапивши на морфологічно неоднозначні форми) машина ставила питання.. Морфологічне маркування (вказівка на рід. чи результати "ручної" роботи і машини збігаються. Відповідно можна порахувати. 19 390 різних словоформ і 9964 різних слів. що відповідає вимогам репрезентативності. Виникає питання. обов'язково повинен бути людиноконтрольований. .: Інститут української мови національної академії наук України.— Lodz: Wydawnictwo Uniwersytetu Lödzskiego.Під корпусом текстів розуміють зібрання електронних текстів.К.А. число. 2005. семантичної інформації (теґів).— 306 s. Суттєво зазначити. ЧС роману "Перехресні стежки" зафіксував його обсяг 93 885 слововживань. 2005. враховуючи контекстний аналіз.— 219 с. синтаксичної. д. .. Демська-Кульчицька О.Бугаков. відмінок для іменників. Анотація (маркування. О. вид. Ця процедура також виконує функцію контролю. як Франківські. B. спосіб .: Довіра. Lewandowska-Tomaszczyk.В. Т.

— Вип. Слід також зазначити.57§. науковим. Крип'якевича. Національний корпусукраїнської мови Інституту української мови НАНУ на даному етапі також теґують вручну . може слугувати одним з етапів роботи над словником мови письменника (етап визначення реєстру слів). то дуже складно. а також над створенням повного корпусу текстів І. епістолярним.виявити його буде якщо не неможливо. Quantitative parametrization of texts written by Ivan Franko: An attempt of the project Solomiya Buk In the article. оскільки письменник послуговувався багатьма функціональними стилями у різних царинах людського духу. зокрема художнім.the beginning of the 20th century. Франка. XVII ст.— 251 с. що поетапно реалізовується у створенні ЧС творів письменника. окрім самостійної теоретичної й практичної ваги. Реалізація цього проекту.— К.— С. Отже. Наприклад. methodology. 58 Демська-Кульчицька О. the project of quantitative parametrization of all texts by Ivan Franko is manifested. XVII ст. квантитативна параметризація текстів Івана Франка. The paper describes the application spheres. що "ручний" спосіб розмітки не зовсім вийшов з ужитку. 57 Словник української мови XVI — першої пол. principles and peculiarities in the compilation of the frequency dictionary of the second half of the 19th century . stages. . дає якісно новий матеріал для лінгвостатистичного дослідження його стилю. на зразок Словника української мови XVI — першої пол. 111-140.— Львів. публіцистичним. Така праця виявить цінні дані для укладання словника української мови зламу ХІХ-ХХ ст. проте вважається більш якісним. 2005. І. Основи національного корпусу української мови. 1996. The relation between the Ivan Franko frequency dictionary. It can be made only by using modern computer techniques after the frequency dictionaries for all Franko's works are compiled. explanatory dictionary of writer's language and text corpus is discussed. Ін-т українознавства ім. 3.: Інститут української мови Національної академії наук України. / НАН України. оскільки хоча й вимагає непорівнянно більше часу.