Szociológiai Szemle
2020/1. szám
Az automatizált szövegelemzés perspektívája a társadalomtudományokban
Németh Renáta – Katona Eszter Rita – Kmetty Zoltán
Cikkünkben a „Big Data” paradigma térnyerésével párhuzamosan rohamosan terjedő természetesnyelv-feldolgozási (NLP) módszereket tekintjük át. Bemutatjuk a társadalomkutatási szempontból leginkább perspektivikus eszközöket, a hozzájuk illeszthető társadalomkutatási kérdéseket és azokat a technikai-módszertani jellegzetességeket, amelyek a klasszikus kvantitatív kutatáshoz képest az NLP specifikumát jellemzik. Ezek a módszerek lényegesen túllépnek a szógyakoriság-elemzésen alapuló
klasszikus kvantitatív szövegelemzésen, és a gépi tanulási paradigmán alapuló modellezési logikájuk gyökeresen eltér a magyarázatot / oksági hatás kimutatását elérni kívánó klasszikus társadalomkutatási logikától. Célunk, hogy ebbe az itthon még kevéssé intézményesült területbe betekintést engedve inspirációt nyújtsunk a hazai társadalomkutatók számára, mert meggyőződésünk szerint a szövegbányászat néhány éven belül standard eszköze lesz a nemzetközi alkalmazott társadalomkutatásnak.
In our paper, we present an overview of Natural Language Processing (NLP) methods, which developed parallel with the spread of ‘Big Data’ paradigm. We present the most promising methods for social sciences, the specific research questions they can answer and the methodological features that distinguish them from classic quantitative methods. These methods go far beyond classic
quantitative text analysis based on simple word frequencies. Their modelling logic arises from machine learning methods; hence, it is substantially differing from the classic social science logic that seeks for explanation and casual effects. Our goal is to inspire Hungarian social scientists by providing an insight into a less-institutionalized area, since we believe that at an international level, text mining will be a standard method for empirical social science research within a few years.
Kulcsszavak: kvantitatív szövegelemzés, természetes nyelvfeldolgozás, szövegbányászat, számítógépes szövegelemzés
Keywords: quantitative text analysis, natural language processing, textmining, computational text analysis