THEORETICAL FOUNDATIONS OF CORPUS LINGUISTICS: PRINCIPLES OF STRUCTURE OF TEXT CORPUSES
DOI:
https://doi.org/10.31471/2304-7402-2025-21(77)-33-48Keywords:
corpus linguistics, text corpus, representativeness, machine-readability, corpus annotation, digital technologies.Abstract
This research article explores the theoretical foundations of corpus linguistics, outlines key principles of text corpus construction, and identifies the main directions of contemporary corpus-based research. Based on the analysis of works by Ukrainian and international scholars, the definition of a "text corpus" is clarified, and its key parameters are specified (machine-readability, authenticity, representativeness, balance, selectivity, standardization, and processing efficiency, among others). The article reviews the typical stages of corpus development such as tokenization, lemmatization, syntactic parsing, and annotation, as well as challenges in building large-scale corpus resources. Special attention is given to practical applications of corpora across fields such as lexicography, translation studies, sociolinguistics, language education, stylistics, forensic linguistics, and language variation analysis. Emphasis is placed on the significance of the corpus-based approach in modern linguistics, particularly the shift from introspection toward empirical analysis of authentic language data. The article also outlines the main requirements for corpora, provides an overview of typological features, and discusses the prospects for further development of corpus research in Ukraine and worldwide.
References
1. Войтко Г. Корпусна лінгвістика: історія формування і перспективи розвитку. Теоретичні засади лінгвістичних досліджень. 2014. № 6. С. 208-214.
2. Демська О. М. Текстовий корпус: поняття і визначення. Дивослово. 2011. № 10. С. 35-37.
3. Демська-Кульчицька О.М. Британський національний корпус і національний корпус української мови. Філологічні студії. Луцьк, 2004. № 4. С. 89-95.
4. Демська-Кульчицька О. Основи національного корпусу української мови: монографія. К.: Інститут української мови HAH України, 2005. 218 с.
5. Карпіловська Є. Лексична картотека і корпус як інструмент лексикографічного моделювання слова. Лексикографічний бюлетень. 2015. Вип. 24. С. 15-22. Режим доступу: http://nbuv.gov.ua/UJRN/lecbu_2015_24_5
6. Лук’янець Г. Основні напрямки сучасних корпусних досліджень мови. Наукові праці НУХТ. 2012. № 44. С. 127–132.
7. Лінгвістично-інформаційні студії: праці Українського мовно-інформаційного фонду НАН України: у 5 т. / В. А. Широков та ін. Т. 4: Корпусна та когнітивна лінгвістика. Київ: Український мовно-інформаційний фонд НАН України, 2018. 246 с.
8. Луцак С. М., Юрчак Г. М. Тенденції розвитку прикладної лінгвістики в контексті розвитку наукових галузей. Digital transformations in culture: Scientific monograph. Riga, Latvia: «Baltija Publishing», 2023. P. 255-268.
9. Таран А. Пошукова система й корпус як інструмент дослідження семантики слів. Вісник Черкаського національного університету імені Богдана Хмельницького. Серія: Філологічні науки. 2019. Вип. 1. С. 99-103. Режим доступу: http://nbuv.gov.ua/UJRN/VchuF_2019_1_16
10. Жуковська В. В. Вступ до корпусної лінгвістики. Житомир: Вид-во ЖДУ ім. І. Франка, 2013. 142 с. Режим доступу: https://doi.org/10.30525/978-9934-26-319-4-15
11. Baker M. Corpora in translation studies. An overview and suggestions for future research. Target. 1995. № 7(2) . P. 223-243.
12. Biber D., Conrad S., Reppen R. Corpus linguistics: Investigating language structure and use. Cambridge: Cambridge University Press, 2001. 312 p.
13. Busa R. The Annals of the Index Thomisticus. In: Computers and the Humanities. 1980. 14(2), pp. 83–90.
14. Chomsky N. Syntactic Structures. Second Edition With an Introduction by David W. Lightfoot. Mouton de Gruyter. Berlin, New York, 2002. 119 р. https://tallinzen.net/media/readings/chomsky_syntactic_structures.pdf
15. Hunston S. Corpora in Applied Linguistics. Cambridge: Cambridge University Press. 2012. 477 р.
16. Kennedy G. An Introduction to Corpus Linguistics. II. Series: Studies in language and linguistics (London, England). Routledge, 1998. 328 р.
17. McEnery T., Hardie, A. Corpus Linguistics: Method, Theory and Practice. Cambridge: Cambridge University Press, 2012. 294 р.
18. McEnery T., Wilson A. Corpus Linguistics. An Introduction. Edinburgh: Edinburgh University Press, 2001. 234 p. https://uogbooks.wordpress.com/wp-content/uploads/2014/10/tony_mcenery_andrew_wilson_corpus_linguisticsbook4you-org.pdf
19. The Brown Standart Corpus of American English. Brown, 1964. 386 р.