1. 들어가며
토픽모델링은 단어의 통계를 기반으로 특정 문서 집합에 내재된 추상적인 주제를 발견하는 비지도 기계학습 모델(Unsupervised Learning Model)이다. 이 방법론은 단어 하나의 빈도보다는 함께 나타나는 단어들의 집합을 확률적으로 추적하기 때문에 텍스트에서 반복되는 모티프에 대한 깊은 탐색을 가능하게 함은 물론 문학 분석의 해석 가능성과 세밀함을 증진시킬 수 있는 것으로 알려져 있다. 토픽모델링을 활용한 텍스트 분석은 최근 10여년간 문학, 문화 연구에서 꾸준히 주목받아 왔다. 2013년 매튜 조커스(Matthew Jockers)는 19세기 영미소설에 토픽모델링분석을 시도하여 문학작품이 쓰여진 시대의 지배적인 문화적 조류를 밝혀내었다. 그의 연구는 주제 분포와 빈도 등의 양적 척도를 사용하여도덕성, 자연, 남성성 등과 같은 주제가 어떤 방식으로 다양한 작가와 작품을 관통하며 변형되어 왔는지를 보여주었다. 같은 해 리사 로디(Lisa Rhody)는 비유적 언어의 비중이 큰 시 장르에 토픽모델링을 적용하여 의미적으로 불명료하게 나타나는 토픽들을 토대로 새로운 해석 가능성을 탐색하였다. 로디는 토픽모델링이 비유적 언어와 같은 시적이고 복잡한 텍스트를 빈도나 통계로 변환시킴에 따라 본래의 깊은 의미를 완전히 포착하지 못하지만, 그 과정에서 나타나는 모순과 한계는 오히려 기존 연구 방법론을 보완하거나 재고하게 만드는 계기가 된다고 주장한다. 최근 국내에서도 토픽모델링을 도입한 문학연구가 등장하고 있는데, 그 중에서도 직접적인 문학텍스트의 주제 분석보다는 문학작품 바깥에서 이루어지는 문학 담론의 생산과 순환 구조를 탐구하는 일련의 연구들이 눈에 띈다. 대표적인 예로 이재연(2021)과 윤미선(2023)은 1920년대 조선과 18세기 런던에서 발행된 문학 잡지를 각각 분석하여, 문학이라는 제도가 다양한 매체의 형식과 물질성을 통해 사회적으로 구성되고 있음을 강조하였다. 이들 정기간행물 연구는 정전(定典) 바깥의 텍스트를 대상으로 삼아 문학 연구의 지평을 확장하고 있으며, 문학 작품의언어와 그를 둘러싼 비평담론의 복합적이고 다층적인 관계까지도 살펴봄으로써 디지털 인문학 연구의 형식주의적 한계를 넘어서려 시도한다는 점에서 의미를 지닌다.
이처럼 최근 토픽모델링 연구에 대한 학계의 관심이 높아지는 가운데, 본 연구는 버지니아 울프의 1915년부터 1941년까지의 일기를 대상으로 LDA 기반 토픽모델링 기법을 적용하였다. 일차적으로 주요 주제의 클러스터링과 핵심 키워드 분석을 통해 울프의 개인적 관심사와 내면세계를 구조적으로 조명하고자 하였다. 나아가 코사인 유사도와 단어 빈도분석을 활용하여 ‘자연’과 ‘전쟁’과 같은 공통주제를 중심으로 일기와 소설 간의 상호텍스트성, 그리고 사적 언어와 공적 언어 간의 관계성을 밝혀보는 것을 주요 목표로 삼았다. 본 논문은 기본적으로 작품의 언어가 문학과 “비문학을 포함한 더 큰 언어의 구체적인 생산과 유통 회로” 속에 위치하며 따라서 문학작품의 바깥까지도 고려해야 한다는 윤미선의 주장과 결을 같이 한다(85). 작가의 공책이라는 지극히 사적인 공간에서 물질화되고 텍스트화되는 일기의 경우, 공적 영역에서 유통되는매체와 비교해 ‘덜’ 사회적일 수 있지만 문학작품이 생산되는 사회, 문화적 맥락과 밀접하게 연관된 일상적이고 개인적인 언어 실천의 중요한사례이다. 요컨대 버지니아 울프라는 작가의 일기는 작가의 창작 과정과 여성 지식인으로서의 삶을 직간접적으로 반영하는 텍스트이며, 바로이 고유의 기록성과 사적 성격이 넓은 의미에서는 역설적으로 문학 텍스트 생산의 사회사를 드러낸다고 할 수 있다.[1] 정기간행물을 통해 동시대 공적 담론장을 파악할 수 있다면, 일기를 통해서도 작품과 작가의 창작 환경, 당대의 언어 및 문화적 조건, 그리고 개인적 경험이 어떻게교차했으며 영향을 주고받았는지 탐색 가능하기 때문이다. 이러한 맥락에서 디지털 텍스트 분석 기법을 활용하여 일기의 언어를 작품의 언어와 연결지어 분석하면 작가의 사적 언어가 사회역사적 맥락 속에서 어떻게 진화하는지, 그 언어가 작품 내에서 어떤 방식으로 변형되고 재구성되었는지에 대한 단서를 찾을 수 있을 것으로 가정하였다.
본 연구는 디지털 분석도구를 사용해 문화 텍스트 연구의 지평을 확장하는 것에서 나아가 일기라는 다소 소외되어온 장르 분석을 통해 기존 울프 연구에 기여하는 것을 목표로 한다. 버지니아 울프의 모더니즘 소설은 1980년대 역사주의 비평가들과 페미니즘 학자들의 대대적인 재평가가 이루어진 이후 크게 주목받아왔고 학계에서 활발히 연구되어왔다. 하지만 그의 일기는 자주 인용되어 왔음에도 불구하고 최근까지도학술적 연구 대상으로는 그다지 많은 조명을 받지 못해왔다. 짐작건대 60만 단어에 육박하는 방대한 양과 불규칙적으로 분포된 주제들, 일기라는 장르 특유의 주관성이 그 이유일 것이다. 엘리자베스 퍼드닉스(Elizabeth Podnieks)와 조앤 티드웰(Joanne Tidwell)의 저서는 울프의 일기가전통적인 서사 구조를 거부하고 열린 결말과 입체적 내러티브를 허용하는 장르로서 울프의 모더니즘 문학에 상당한 영향을 끼쳤다고 주장한다. 이들은 단순히 비문학적 기록이 아니라 작가의 문학적, 사회적, 정치적 관점을 통합하고 작가의 정체성을 형성하는 매체로서 일기의 역할을 강조하는 몇 안 되는 중요한 연구들이다. 이들 논의의 연장선상에서 이 논문에서는 울프의 일기를 관통하는 주제와 키워드를 중심으로 작가의 사적언어와 문학적언어–사적 페르소나와 공적 페르소나–의 연결 지점을 살펴보려한다. 일기란 작가 자신이 스스로의 주체성과 자아를정의내리는 자유롭고 격식없는 글이며, 작가가 그리는 실제 삶 속 자기 모습을 가감없이 관찰할 수 있다는 점에서 지극히 개인적이다. 한편 일기는 언제나 공적 맥락속에서 존재하며, 그 속에서 구성된 자아는 사회적일 수밖에 없다는 사실을 언어적 맥락을 통해 지속적으로 드러낸다.페미니스트, 평화주의자, 에세이스트, 우울증 환자, 호가스 출판사 운영자, 소설가, 블룸스버리 멤버 등 울프를 지칭하는 많은 수식어들 가운데, 그가 스스로 자신의 인생을 기록하며 선택한 단어들과 주제어들은 무엇이며, 그의 일상에 지배적으로 각인을 남긴 키워드는 무엇인가? 울프의 일상은 그의 문학적 인생과 어떤 관계가 있는가? 주제라는 측면에서 일기는 문학작품과 “양적으로” 어떤 상호텍스트적 연결성이 있으며, 일기라는 텍스트가 주는 전기적 또는 사회적 문맥을 통해 문학작품을 새로 읽을 수 있는 지점이 있을까?
이러한 질문에 답하기 위한 일환으로 본 연구는 1910년 이후 ‘자연’과 ‘전쟁’이라는 키워드가 울프의 삶과 작품에 중요한 배경으로 작용했다는 점에 주목하며, 휴머니스트이자 평화주의자로서 울프가 만들어낸 사회적이고 정치적인 언어의 형성 과정을 탐구한다. 특히, 전쟁으로인해 황폐해진 시대적 배경 속에서도 삶의 가치와 의미를 모색하려 했던 그의 노력이 어떻게 이들 두 주제를 중심으로 나타났는지 알아보고자 한다. 무엇보다 자연 관련 주제의 등장은 기존의 울프 연구의 지평을 확장한다는 점에서 흥미롭다. 그동안 학계에서 울프는 주로 도시문화를 중심으로 논의되었으며, 대중에게도 런던을 기반으로 활동한 여작가이자 블룸즈버리 그룹의 일원으로 더 잘 알려져 왔다. 그러나 본 연구의 파일럿 테스트(LDA 모델링, 코사인 유사도 및 빈도분석) 결과, 울프의 일기와 문학작품에 등장하는 주요 키워드 중 자연, 시골, 식물 관련 어휘가 부각되었고, 이들은 울프의 문학과 일기 사이의 상호텍스트적 관계를 매개하는 중요한 요소로서 나타났다. 이에 본 연구는 ‘멀리서 읽기’(distant reading)의 방법론을 활용하여 울프 텍스트의 주제 및 키워드를 구조화 및 시각화하는 동시에, ‘자세히 읽기’(close reading)를 통해 전쟁, 자연과 같은 특정 주제어들이 어떻게 의미화되는지 그 구체적인 양상 또한 추적하고자 한다.
2. LDA모델과 단어 빈도분석: 방법론에 대하여
1) LDA모델
텍스트의 키워드와 특정 키워드가 나타나는 경향을 파악하기 위해 잠재 디리클레 할당(Latent Dirichlet Allocation, LDA)이라는 확률적 모델과 단어 빈도분석이 주요 방법론으로 사용되었다. LDA는 단어가 특정 토픽과 연결될 확률과 문서에 특정 토픽이 존재할 확률을 결합확률로추정하여 토픽을 추출하는 대표적인 알고리즘이다. 한편 단어 빈도분석은 텍스트 내 단어 출현 빈도를 분석하는 기법으로, 특정 문서에서 자주 출현하는 단어를 파악하여 핵심 단어를 추출하기 위한 목적으로 수행된다. 두 방법론의 개념, 효용성과 한계에 대해서는 이미 수많은 논의가 진행되었으므로 일반적인 설명은 생략하고 왜 이 연구에 이들 방법론을 사용하였으며, 디지털 분석을 진행하면서 특별히 고려해야 했던사항 위주로 간략하게 짚고 넘어가려 한다.[2]
LDA모델은 초기에는 소셜 미디어 데이터에서 사용자의 반응을 파악하거나 특정 주제에 대한 뉴스 및 연구동향을 분석하는 데 주로 쓰였다(Gerrish and Blei 2010; 박자현, 송민 2013). 하지만 최근에는 인문학자들도 문학, 비문학 텍스트에 토픽모델링을 적용해 문학사에서 시대별 주제 변화나 특정 장르의 주제적 특성 등을 고찰하는 연구를 다수 진행하고 있다 (Blevins 2014; Schöch 2017; Underwood 2019). LDA의 경우 토픽의수가 미리 정해져 있지 않고 텍스트나 모델 설정에 따라 너무 일반적이거나 무관한 토픽을 산출하는 등 정확도가 일정하지 않다는 단점이 있어 최근에는 더욱 정교한 주제 추출이 가능한 대규모 언어 모델 기반의 LLM(Large Language Model)방식도 많이 사용하는 추세이다. 그러나 본연구에서는 해석하는 사람의 역량을 중시하는 인문학 연구에는 접근성이 높으며, 문서-토픽 간 관계에 대한 명확한 데이터를 제공하는 LDA가 충분히 유용하다고 판단하였다. 특히 텍스트의 멀리서 읽기와 자세히 읽기를 병행하기 위해서는 문서 내 토픽이 얼마만큼의 확률로 분포되어 있는지 제시해주는 LDA의 기능이 문서를 추적, 선별하기 위한 대략의 기준을 마련해 주었다.
일반적으로 LDA모델에 적합한 텍스트는 길수록, 그리고 많을수록 좋으며, 학자마다 의견은 분분하지만 보통 문서의 길이는 최소 200단어이상, 문서의 개수는 최소 100개 이상이 되어야 좋은 결과를 도출할 수 있다고 본다. 울프의 일기는 총 1614개의 문서로 이루어져 있으며, 각 문서의 길이는 평균 300에서 400단어로 LDA모델이 정상적으로 작동하기 위한 자료의 기준을 갖추었다.[3] 다만 이후에 소설에 LDA모델을 적용할 때, 소설처럼 길이가 지나치게 긴 문서는 노이즈 발생 확률이 높아 LDA모델이 일관된 패턴을 찾기 어렵다는 사실을 발견하였다. 울프의 소설은 대부분 5만에서 10만 단어로 이루어져 있다. 문서가 지나치게 짧으면 문맥이 손실되고 개별 조각에서 의미 있는 주제가 드러나지 않을 수있지만, 반대로 너무 길면 여러 주제가 섞이면서 분석이 흐려질 위험이 있다. 따라서 500이나 1000단어 단위로 문서를 나누면 주제 분석의 정밀도를 높이고 모델의 성능을 최적화할 수 있다는 조커스의 블로그 글을 참고하여, 울프의 소설 9권을 미리 500단어 조각으로 분할하는 작업을하였다(Jockers “Secret”).[4] 일기와 마찬가지로 소설 또한 전체적 경향을 보기 위해 9개의 소설을 모두 하나의 코퍼스로 간주하고 토픽모델링을진행하였다.
토픽의 개수를 몇 개로 고정할 것인가는 토픽모델링을 적용하면서 가장 고심했던 문제 중 하나이다. LDA는 비지도(unsupervised) 학습방법의 일종으로 토픽의 최적 개수가 미리 주어지지 않는다. 따라서 본 연구에서는 일관성 점수(coherence score)가 높고 복잡성 점수(perplexity score)가 낮은 구간을 참고하여 주제의 분화도, 의미 해석 가능성, 그리고 연구 목적과의 적합성을 종합적으로 고려해 개수를 선정하였다.[5] U_Mass, C_V, Perplexity로 대표되는 세 지표를 Z-점수로 표준화하여 통합 점수를 산출하였으며, 이를 기반으로 변동성이 감소하는 엘보우 포인트(elbow point) 및 정체구간(plateau)을 분석하였다. 그 결과, 통계적으로 가장 높은 점수를 보인 것은 5개의 토픽 모델이었으나, 해당 모델은 주요 주제가생략되는 경향이 있어 해석력 측면에서 적절하지 않았다. 이에 본 연구에서는 통합 점수의 상승 폭이 안정화되기 시작하는 엘보우 포인트이자, 주제 해석의 명확성과 분화도가 유지되는 k=10을 최종 토픽 수로 결정하였다. 또한 LDA의 특성상 토픽모델링을 실행할 때마다 토픽의 구성이 달라지는 것을 방지하기 위해 LDA모델을 실행할 때마다 특정 난수 값(random state)을 지정하였다.[6]
물론 토픽을 추출하고도 어떤 주제어 위주로 토픽 표제를 정할 것인지 하는 문제가 남아있다. 실제로 울프의 일기에서 추출한 각각의 토픽을 이름 붙이는 작업은 쉬운 일이 아니었는데, 주제어의 빈도가 높은 순서대로 정렬 시 주제어 구성에 있어서 토픽 간의 차이가 별로 나타나지않았기 때문이다. 이에 pyLDAvis모듈을 사용해 시각화를 한 후 가중치 조정 변수인 람다(λ) 값의 조정을 통해 각 주제어의 전체 중요도와 토픽별 특이성 사이의 균형을 조절하였다.[7] 물론 적정 람다 값에 대한 정답은 없기 때문에 연구자는 여러가지 요소를 고려해서 최선의 판단을 해야 하였으며, 이 연구에서 람다값은 0.6으로 고정하였다.
일기와 문학 코퍼스 정제시 품사 선택도 중요하게 고려해야 할 점 중 하나였다. 보통 주제(theme)는 명사로 결정되므로 (보통)명사만을 추출해 모델을 만드는 경우가 많다. 하지만 일기의 경우 보통명사만 추출하자 각 토픽에 속한 단어들이 서로 너무 유사해서 토픽 간 특수성을 구별하기 힘들었다. 아마도 일기의 특성상 단어 사용이 반복적이고 어휘와 표현의 수도 제한적이기 때문이라 짐작된다. 그리하여 3절의 주제어분석을 위해 일기 텍스트를 정제할 때는 장소나 인물 등의 고유명사를 포함해서 각 토픽의 문맥을 구분할 수 있도록 하였다. 결국 이 연구에서가장 중점을 둔 것은 울프의 삶이므로, 그의 삶에서 주로 언급되는 인물과 장소는 해석에 주요한 정보를 제공할 것이라 판단하였기 때문이다.이와 반대로 소설을 토픽모델링할 때 고유명사를 포함하자 등장인물 이름이 토픽 대부분을 차지하게 되는 문제가 발생하였으므로, 이후 4절에서 소설과 일기 코퍼스의 토픽 유사도를 비교할 때는 두 텍스트 모두 보통명사만을 포함하였다.
2) SBERT 방식을 활용한 코사인 유사도 측정 및 단어 빈도분석
토픽모델링을 통해 일기의 전체적 주제를 연계하여 구조화한 후에는 일기와 소설의 토픽간 코사인 유사도를 분석한 후, 이를 의미적 차원에서 보완하기 위해 마지막 섹션에서 소설을 대상으로 한 단어 빈도분석을 진행하였다. 우선 코사인 유사도 측정 단계에서는 앞에서와 마찬가지로 LDA기반 토픽모델링을 사용해 일기와 소설의 토픽 및 키워드 시퀀스를 추출한 후, 이에 추가로 SBERT (Sentence-BERT) 기반 임베딩을활용하여 각 토픽을 보다 고차원적 의미 공간에서 비교할 수 있게 하였다. LDA 기반 토픽모델링은 문서 내 단어들의 동시 출현 빈도를 바탕으로 주제를 추출하는 데 효과적이지만, 단어 간 의미적 유사성이나 문맥을 반영하지 못한다는 한계가 있다. 이러한 문제를 극복하기 위해 문맥과 의미 기반의 비교가 가능한 SBERT 임베딩을 도입하여, 토픽이 단순히 동일한 단어를 포함하는지 여부를 넘어 주제가 문맥적으로 얼마나유사한지까지도 평가하고자 하였다.
토픽모델링이 ‘함께’ 등장한 단어 집합의 빈도를 보는 것이라면, 단어 빈도분석 및 핵심어 추출은 개별단어의 빈도와 상대적 빈도인 핵심도(keyness)을 보는 데 사용된다. 개별단어의 빈도와 핵심도를 살펴봄으로써 (고유명사를 제외한) 텍스트 내 주제어의 중요도를 간접적으로 살펴볼 수 있고, 그리하여 토픽모델링에서 추출된 주제어들이 실제로 얼마만큼 텍스트에서 큰 비중을 차지하고 있는지를 재확인할 수 있다. 본 연구에서 채택한 AntConc 프로그램의 플롯(plot)기능과 KWIC(keyword in context) 기능은 소설별 빈도분포와 단어가 속한 문맥까지도 한눈에 볼수 있게 해 준다는 장점이 있다. 특정 단어 또는 단어 집합의 빈도가 소설이 출간된 연도별로 어떻게 변화했는지, 특정 단어가 어떤 뉘앙스로사용되었는지를 손쉽게 살펴볼 수 있어 빈도분석을 기반으로 자세히 읽기를 할 때 주된 도구로 사용하였다.
3) 키워드의 정의
마지막으로 키워드라는 단어의 정의에 관해 간략하게 언급하고자 한다. 본 연구에서 사용되는 키워드(keyword)라는 용어는 토픽모델링과단어 빈도분석에서 다소 다른 의미를 지닌다. 토픽모델링에서 키워드는 특정 토픽을 구성하는 핵심단어로, 주제(topic)를 대표하며 함께 등장하는 단어들을 의미한다. 그에 반해 단어 빈도분석에서의 키워드는 특정 코퍼스나 텍스트 집합에서 ‘상대적으로’ 유의미하게 많이 등장하는주요 단어들을 의미한다. 혼동을 피하고자 본 연구에서는 토픽모델링에서의 키워드를 주제어로, 단어 빈도분석에서 핵심도가 높은 단어를 핵심어로 구분하여 사용할 것이다. 비록 방법론에 따라 정의는 조금씩 다르지만, 두 경우 모두 키워드는 텍스트의 주요 개념과 핵심 주제를 직관적으로 파악하는 데 중요한 역할을 한다는 점에서 공통점을 지닌다.
여기서 한 걸음 더 나아가 본 논문은 울프의 글에서 뽑아낸 키워드가 더 넓은 사회문화적 변화를 반영하고 끊임없이 의미를 형성한다는 점에 주목한다. 울프의 작품과 일기에서 반복적으로 등장하는 개념들은 단순히 고정된 단어가 아니라 레이먼드 윌리엄스(Raymond Williams)가말하는 살아 움직이며 바깥으로 확장되는 키워드와 일맥상통하는 면이 있다(xxviii). 키워드를 추상적이고 관념적인 어휘보다는 보통 사람들의 일상생활에서 쓰이는 단어들에서 찾는 윌리엄스는, 익숙한 단어들이 우리의 다양한 경험을 어떻게 반영하며, 우리가 사회를 바라보는–명료하고도 모호한–방식을 어떻게 구성해 왔는지에 깊은 관심을 가진다. 무엇보다도 그의 키워드를 통한 개념사 연구는 단어들 사이의 상호 관계를 통해 특정 키워드의 내적 구조와 발전 과정을 탐구했다는 점에서 문화연구가 특유의 통찰을 보여준다. 만약 토픽모델링이 단어들이 함께 출현하는 패턴을 분석하여 의미적 구조를 밝혀낼 수 있다면, 울프의 텍스트에서도 의미 형성 과정을 정량적·정성적으로 분석함으로써 키워드들이 어떻게 충돌하고 변형되는지 추적할 수 있을 것으로 기대한다. 이어지는 논의에서는 이를 바탕으로 울프의 일기와 소설에서 반복되는 키워드를 비교분석하여, 작가가 사회문화적 개념을 텍스트에서 어떻게 형성했는지, 또한 개인적 성찰과 창작이 어떤 키워드를 중심으로연결되며 변화하는지 조명하고자 한다.
3. 전쟁과 자연: LDA를 이용한 버지니아 울프의 일기 속 주제어 멀리서 읽기
<표 1>은 LDA모델인 파이썬 Gensim패키지를 사용하여 울프의 일기로부터 10개의 토픽을 추출한 후 시각화 작업을 거쳐 재정리한 10개의주제이다. 개별 토픽은 30개의 주제어로 구성하였으며 순서가 앞에 올수록 해당 주제를 형성하는 데 있어 주도적 역할을 하는 단어로 볼 수 있다. 토픽모델링 실행시 각 주제별로 주요 단어들이 도출되지만, 주제의 이름이 자동으로 정해지는 것은 아니다. 따라서, 분석자는 도출된 주요단어를 참고하여 직접 의미론적 해석을 기반으로 주제명을 아래 괄호와 같이 지정하였다.[8]
| Topic 0 (블룸즈버리 그룹과 사회적 관계): clive, nessa, maynard, man, night, lydia, julian, mary, woman, tom, life, duncan, story, shaw, year, eye, lady, stephen, time, room, leonard, world, talk, society, orlando, william, sense, raymond, letter, gs |
| Topic 1 (일상과 글쓰기): week, helen, yesterday, lytton, letter, today, idea, morning, tomorrow, party, tea, angelica, head, end, night, sunday, page, play, fiction, mind, people, margery, time, year, brain, chapter, edith, clive, tonight, roger |
| Topic 2 (감정과 사색): life, feeling, way, thing, morning, mind, year, time, work, death, ethel, letter, nessa, charleston, article, month, criticism, yesterday, summer, writing, people, problem, note, age, money, headache, child, reader, love, brain |
| Topic 3 (문학과 비평): murry, desmond, people, story, eliot, hardy, novel, ottoline, ott, tea, man, club, time, eye, sydney, katherine, james, tom, thing, letter, word, lytton, literature, work, squire, henry, friend, question, review, morgan |
| Topic 4 (전쟁과 가족): morning, week, louie, today, miss, yesterday, time, till, letter, roger, angelica, room, war, julian, london, way, nessa, child, lewes, house, battle, afternoon, moment, bomb, thing, table, quentin, paper, service, bowl |
| Topic 5 (전쟁 속 런던): london, street, gun, raid, hitler, night, man, house, sqre, miss, roger, window, mabel, party, artist, clive, nessa, yesterday, air, end, people, dinner, lunch, bob, shelter, room, work, morgan, tomorrow, john |
| Topic 6 (자연과 시골풍경): tree, house, church, man, road, hill, hotel, sea, river, country, wind, rain, sun, sky, grass, nick, town, field, garden, farm, stone, woman, light, barbara, girl, water, asheham, tea, saxon, red |
| Topic 7 (도시풍경과 예술활동): square, sibyl, pavement, bbc, gordon, thing, door, room, soldier, time, house, baby, street, wave, year, action, poetry, london, hand, form, servant, people, roger, moment, column, music, pleasure ,painting, clothe, month |
| Topic 8 (문학창작과 글쓰기): vita, pen, scene, lord, word, mushroom, brain, dotty, sentence, terrace, year, harold, pargiters, summer, king, wave, hugh, nelly, morning, night, idea, down, waves, mind, writing, rodmell, august, evening, page, reflection |
| Topic 9 (일상과 인간관계): life, woman, thing, lytton, people, way, room, time, man, house, night, year, mind, friend, talk, ralph, carrington , hour, bed, eye, lady, truth, view, love, month, death, lottie, karin, leonard, course |
표 1. LDA로 추출한 버지니아 울프의 일기 토픽
10가지 토픽을 살펴보았을 때 서로 겹치는 부분도 존재하며, 그다지 관련없어 보이는 주제어들이 군집하여 확실하게 토픽을 이름붙이기힘든 경우도 있다. 예를 들어 시간(time)과 같은 주제어는 토픽 5,6,8을 제외한 모든 토픽에 등장하며, 토픽 7의 경우, 울프의 지인들의 이름(sibyl, roger)과 런던의 거리(pavement, street, london), 1930년대 울프가 집필하던 소설인 파도(The Waves)와 세월(The Years), 공영방송(BBC), 집(Gordon Square, house) 등의 주제어가 한데 섞여 명확한 표제를 붙이기는 쉽지 않다. 그럼에도 비교적 뚜렷한 주제어 집합과 고유명사를 단서로 삼아 주요 주제를 몇 가지로 구분해 보았을 때, 일상에서의 인간관계(토픽 0, 2, 7, 9), 글쓰기와 작가들과의 교류(토픽1, 3, 8), 전쟁(토픽 4, 5), 자연과 시골풍경(토픽 6)이라는 네 개의 범주를 얻을 수 있었다.
위에서 추출한 10개의 토픽의 관계 및 비중을 한눈에 파악할 수 있도록 pyLDAvis 모듈을 실행해 <그림1>과 같이 토픽 분포를 시각화하였다. 토픽분포도를 읽을 때 주의해야 할 점은 LDA 모델의 출력 결과에서는 토픽 번호가 0부터 할당되어 0~9의 숫자가 사용된 것과는 달리 위의LDA 시각화에서는 토픽의 번호가 1부터 시작하므로 각 토픽 번호는 이제 +1이 된 값인 1~10까지의 값을 가진다는 것이다. 토픽분포도에서 좌측에 원으로 나타난 토픽을 선택하면 토픽을 구성하는 30개의 단어를 확인할 수 있다. 원이 클수록 해당 토픽의 비중이 크다는 것을 뜻한다. 원의 크기를 보았을 때, 일기라는 장르의 특성을 드러내듯 일상에서의 인간관계를 나타내는 토픽 9(10번째 원)가 가장 비중이 크며, 그다음으로작가들과의 인맥과 자연과 관련된 토픽 3과 6(4, 7번째 원)이 비슷한 수준인 것을 알 수 있다. 그 아래로 사회관계, 글쓰기, 전쟁 관련 토픽 0, 2, 4, 5(1, 3, 5, 6번째 원)도 유사한 비중을 차지하며, 30년대 런던에서의 생활과 집필활동을 주제로 하는 토픽7(8번째 원)이 가장 비중이 적었다.
그림 1. 토픽 간 거리 및 비중 시각화

원들 사이의 거리는 토픽들이 주제의 내용 차원에서 서로 얼마나 다른지를 보여준다. 만약 두 개의 원이 겹친다면, 이 두 개의 토픽은 유사한 토픽이라는 의미이다. 일상적 인간관계와 관련된 토픽9(10번째 원)와 블룸즈버리 클럽 및 작가들 관련 토픽인 0, 3(1, 4번째 원)이 가장 근접하며, 그 주변으로 일과 글쓰기 등의 활동과 관련한 토픽 2, 8(3, 9번째 원)이 둘러싸고 있다. 울프에게 있어 친밀한 사람들과 공간, 글쓰기 활동은 작가의 삶의 한 가운데에서 서로를 구성하는 밀접한 요소들이었던 것으로 보인다. 그에 반해 자연 관련 주제어가 많은 토픽6(7번째 원)과 30년대 런던의 사회상과 울프의 집필활동을 나타내는 토픽7(8번째 원)이 가장 멀리 떨어져 있고, 전쟁 관련 토픽 4, 5(5, 6번째 원)도 다른 주제들에 비해 상대적으로 동떨어져 있는 것이 눈에 띈다.
본 연구는 이 중에서도 자연과 전쟁 관련 토픽의 비중이 상대적으로 크고 독립적으로 분포되어 있다는 사실에 주목한다. 이 두 토픽은 다른 토픽과 중복되는 주제어가 적고 뚜렷한 특수성을 지니고 있다는 점에서 두드러진다. 일반적으로 ‘작가의 일기’에서 주로 다룰 법한 작가 인맥, 글쓰기, 사교모임, 일상의 문제 이외에도 전쟁과 자연이라는 외부현상이 얼마나 울프의 삶에서 주요한 일부분을 차지했으며, 그의 내적 사색을 촉진하는 주요한 주제가 되었는지를 간접적으로 확인할 수 있는 지점이다. 자연과 관련된 토픽(토픽 6)에서는 울프가 신혼 초 자주 주말을 보냈던 교외 별장 아쉠 하우스(asheham house), 레너드 울프의 정원(garden), 유럽여행을 암시하는 호텔(hotel) 등의 주제어가 관찰된다. 울프가다양한 경험을 통해 자연에 관한 사색을 지속해 왔음을 짐작할 수 있다. 전쟁과 관련된 토픽을 살펴보면, 토픽 4는 ‘전쟁’, ‘런던’, ‘폭탄’ 등의 어휘를 포함하지만 동시에 언니와 조카들 같은 가족 구성원의 이름이나 일상적 공간이 주요 주제어로 나타난다. 즉, 토픽 4를 통해서는 울프가개인적으로 체험한 불안과 공포를 강조하고 있다는 해석이 가능하다. 한편, 토픽 5에서는 ‘런던’, ‘총’, ‘공습’, ‘히틀러’ 등 전쟁 관련 어휘가 상위권에 위치하며, 클라이브 벨(Clive Bell), E. M. 포스터(Edward Morgan Foster), 로저 프라이(Roger Fry), 존 케인즈(John Maynard Keynes) 등 블룸즈버리 동료들의 이름이 포함되어 있다는 점이 눈에 띈다. 이는 당대의 정치적 상황을 지식인이나 예술가로서 인식하고 반응했던 울프의 시각을반영하는 것으로 해석할 수 있다. 실제로 울프는 1930년대 급속도로 확산하는 전체주의를 비롯한 다양한 국제정세에 깊은 관심을 가졌으며,블룸즈버리 그룹의 동료들과 활발한 정치적 토론을 나누었다. 또한, 정치에세이 『세 기니』(Three Guineas) 등의 집필을 통해 끊임없이 반전메시지를 전달한 것으로도 알려져 있다.
이어서 자연과 전쟁에 대한 울프의 관심은 그녀의 삶 속에서 얼마나 지속되었으며, 어떤 패턴으로 나타났는지를 알아보기 위해 해당 토픽을 선택해 시간에 따른 토픽분포도를 꺾은선 그래프 형식으로 시각화하였다.
그림 2. 시간에 따른 정규화된 토픽 4, 5, 6, 9 분포

우선 자연 관련 주제어가 지배적인 토픽 6, 전쟁과 국제정세 관련 단어가 많이 언급된 토픽 4, 5, 울프의 일기에서 가장 비중을 많이 차지하는 일상에서의 인간관계 관련 주제인 토픽 9의 시간별 확률 변화를 <그림 2>와 같이 정규화하여 비교하였다.[9] 울프의 일기에서 무려 20퍼센트에 달하는 토큰(token)을 차지하는 토픽 9는 다른 토픽들에 비해 거의 상시 일정하게 20퍼센트 이상의 높은 비중을 유지한다. 그러나 시간이흐를수록 전쟁과 삭막한 도시의 이슈들이 일상을 압도하는 모습이 관찰된다. 1920년초에 30퍼센트까지 비중을 늘렸던 일상 관련 토픽 9는1934년 즈음에는 이미 서서히 상승하고 있던 전쟁 관련 토픽 4, 5와 교차하며 하향세를 보인다. 1934년은 아돌프 히틀러가 독일의 국가총리로취임한 해이며, 당시 이미 유럽은 전체주의가 빠르게 확산하고 있었다. 스페인 전쟁이 발발한 이듬해인 1937년 9월 25일의 일기에서 울프는 그가 총애한 조카 줄리안 벨이 앨뷸런스 운전병으로 참전했다 사망했다는 소식을 듣고 조카의 “어처구니없는 소멸”(extraordinary extinction)이 삶의 모든 의미를 앗아가 버렸다며 한탄한다. 실제로 토픽 4와 5가 나타난 양상을 추적해 보면 울프의 일기에서 일상 속 폭력의 존재감은 일기 전반에 걸쳐 언급되고 있다. 1920년 10월 25일 울프는 “우리 세대에게 삶 자체가 너무나도 비극적이라는 것을 나는 가끔씩 생각한다—신문 가판대마다 누군가의 비명과 고통이 울려 퍼지고 있다…불행은 어디에나 존재하며, 문밖에서도, 혹은 그보다 더 끔찍한 어리석음 속에서도 발견된다”(I think sometimes, for us in our generation so tragic—no newspaper placard without its shriek of agony from some one…Unhappiness is everywhere; just beyond the door; or stupidity which is worse)라고 언급하며 영국이 이미 아일랜드와 노동자 계층 탄압으로 가담하고 있었던 국가적 폭력에 대한 비판적 입장을 견지한다. 세계 2차 대전의 전운이 드리운 1940년 8월 31일에는 독일군 비행기가 영국을 공습하는 “완벽하고 조용한 더운 저녁”(a perfect quiet hot evening)에 잠자리에 드는 아이러니한 경험을 기록하며 일상과 공존하는 전쟁의 공포를 담담히 표현한다.
하지만 울프는 전운이 엄습한 1930년대에도 전쟁의 공포를 피하고자 순진한 애국심이나 맹목적인 영국 우월주의에 기대기보다는 현실적이고 정면으로 시대를 바라보는 태도를 유지한다. 이러한 태도는 특히 토픽 5를 대표하는 일기들에서 잘 나타난다. 그는 1935년 4월 티타임에방문한 위그람(Wigram) 부부와의 대화를 기록하면서, 히틀러와 독일의 군사력 강화, 영국 사회의 위기의식 결여, 그리고 영국 지배층의 무능함을 신랄하게 비판한다: “만약 우리를 인도하는 사람들이 위그람 같은 착한 공립학교 출신들이라면, 옥스퍼드 스트리트가 독가스로 뒤덮이는날이 오더라도 이상할 것이 없을 것이다.”(If we have only nice public schoolboys like W. to guide us, there is some reason I suppose to expect that Oxford Street will be flooded with poison gas one of these days.) 울프는 단순히 강력한 군사력과 기계적인 권력으로 유럽을 장악하는 히틀러를 경계할 뿐만아니라 다가오는 위기 속에서도 매너리즘에 빠진 영국사회를 날카롭게 진단한다. 1930년 10월 영국에서 인도로 향하던 R101 비행기 참사 희생자들의 국장(國葬)을 기록한 일기에서 또한 영국의 과도한 애국심 조장과 획일적인 정치적 의례에 회의적인 울프의 입장을 확인할 수 있다: “왜 우리는 그들을 영웅으로 불러야 하는가? . . . 왜 온 나라가 오직 이 사건만 생각해야 하고, 사람들이 거리를 메우고 웨스트민스터 홀을 행진해야 하며,…축구 선수들이 2분간 묵념해야 하는가?”(But why ‘heroes’? . . .why the Nation should be requested to think of nothing else; why the people should line the streets & parade through Westminster Hall, . . . the footballers stop for two minutes’ silence?) 울프는 위선적인 제국주의자들의 단순 사고사를 “영웅”의 죽음으로 포장하고 국민에게 노골적으로 애도를 강요하는 국가적 프로파간다를 부조리하다고 보며, 개인의 “작은 감정의 불씨를눌러버리는 거대한 [국가적] 의식의 무게”(the heap of a ceremony on ones little coal of feeling)에 대한 불편한 심기를 드러낸다.
이러한 맥락에서 자연 관련 토픽 6이 후반으로 갈수록 전쟁 관련 주제들과 맞물리는 패턴은 울프의 일기에서 자연이라는 주제에 대한 새로운 해석 가능성을 제시한다. <그림 2>에서 자연 관련 주제어의 빈도는 울프가 30대 초반이던 1916-7년 즈음에 폭발적으로 급증하지만, 그 이후 10퍼센트 미만으로 미미하게 나타나다 1930년대 부터 서서히 상승하는 추세를 보인다. 그러다가 1938-9년부터 울프가 죽기 직전인 1941년사이에는 일상적 삶과 관련한 토픽9와 함께 가파르게 상승한다. 앞에서 언급했듯이 토픽 6이 1910년대와 1930년대에 상승세를 보이는 것은 초반에 울프가 주로 지내던 교외 별장과 1930년대 이후 창작활동과 휴식을 위해 떠난 국내외 여행들이 미친 영향이 큰 것으로 보인다. 하지만1938년 이후 급격하게 늘어난 자연에 대한 언급은 무엇을 의미하는 것일까? 이러한 패턴 변화는 울프의 텍스트 내에서 자연이라는 주제와 그주제어들의 의미구조를 드러낼 수 있을까?
토픽 6과 관련된 주제어의 비중이 높은 일기를 선별해 시기별로 분석한 결과, 1910년대와 1930-40년대의 자연 묘사에는 언어적·의미적으로뚜렷한 차이가 나타났다. 1910년대 울프의 일기에서는 실제 경험을 비교적 있는 그대로 기록하여 자연에 대한 묘사가 상당히 직설적이고 건조한 편이다. 그러나 시간이 흐르면서 울프는 많은 경우 자연을 단순한 삶의 배경이 아니라 감정의 균형을 조율하는 심리적 요소이자 생명력으로 충만한 공간으로 인식한다. 1917년 8월 3일에 애쉬햄에 도착한 울프의 기록은 다음과 같다: “애쉬햄 하우스. 애쉬햄에 도착했다. 루이스에서걸어 나왔다. 일요일 이후 처음으로 비가 그쳤다. 남자들이 애쉬햄에서 담과 지붕을 수리하고 있었다. 윌은 앞쪽 화단을 파헤쳐 달리아 한 송이만 남겼다. 다락방 굴뚝에 벌들이 있다.”(Came to Asheham. Walked out from Lewes. Stopped raining for the first time since Sunday. Men mending the wall & roof at Asheham. Will has dug up the bed in front, leaving only one dahlia. Bees in attic chim[n]ey) 그러나 1932년 6월 13일 벌떼를 묘사한 일기에서 울프는 로드멜에서의 교외생활이 절대적으로 안전하고 완전한 자율성이 보장된 “온전한 우리만의 공간(the place to ourselves)”을 제공하면서도 생명의 진동과 에너지가 충만한 장임을 역설한다. “욕망의 화살처럼 격렬하고 성적인”(like arrows of desire:fierce, sexual) 벌들의 움직임에 대한 울프의 감각적인 묘사는 벌떼가 단순한 곤충 집단이 아니라 움직이는 생명의 덩어리임을 시사하며, 울프가 지속적으로 맞서 싸워야 했던 죽음 충동을 극복할 수 있게 돕는 상징적 이미지로서 기능한다. 벌들의 역동적 움직임 가운데 공기마저도 “진동으로 가득 차 있고, 아름다움이 있고, 욕망이 있고, 속도가 있는”(the whole air full of vibration: of beauty, of this burning arrowy desire; & speed) 공간으로 변모한다.
1940년대 일기를 살펴보면, 이러한 의미가 더욱 확장되어 자연은 전쟁과 문명의 폭력에서 벗어나고자 하는 울프의 욕망을 응축한 매개로역할하게 된다. 1940년 5월 30일의 일기에서 병원 열차와 머리 위로 지나가는 비행기 떼를 목격한 후 울프는 전쟁이 일상의 일부가 되어버린 현실을 기록하며 다음과 같이 적고 있다: “나는 바람에 휩싸이는 이 감각을 좋아한다. 따뜻한 바람이 모든 틈을 씻어내는 기분—런던에서는 절대느낄 수 없는 공기의 청량함, 그것은 비누와 물이 주는 청결함과는 전혀 다른 것이다.”(And I like the windblown state of ones body in the open air—wind, warm wind washing all the crevices, a feeling one doesn’t have in London, an air cleanliness, not a soap & water one.) 울프에게 자연의 바람은 도시의인공적인 청결함보다 더 근본적이고 순수한 존재의 감각을 제공하며, 진정한 자유와 해방 가능성을 다시 인식하게 할 수 있게 한다. 같은 해 1월의 일기에서, 울프는 추운 겨울 햇살 아래 고요한 강둑을 걸으며, 황홀하면서도 초월적인 풍경의 아름다움을 다음과 같이 묘사한다: “6월의어느 날, 영하 10도의 서리가 내린 채 모든 것이 고요했다. 마치 다른 세상에서 온 것처럼. 새도, 마차도, 사격하는 남자도 없었다. 전쟁에 반대하는 이 표본, 이 무정하면서도 완벽한 아름다움. 버드나무는 녹슨 붉은색이 아닌 진홍빛으로, 깃털처럼 부드럽게 흩어져 있었고, 모든 지붕은 주황색과 붉은색, 그리고 언덕은 하얗게 빛났다.”(A June day. 10 degrees of frost. All silent, as if offered from another world. No birds, no carts, men shooting. This specimen against the war. This heartless & perfect beauty. The willows ruby red, no rust red; plumed; soft; & all the roofs orange & red; & the hills white.) 여기서 자연은 단순한 미적 대상이 아니라 화자의 불안감과 공허함을 반영하는 동시에 전쟁의 참혹함과는 대비되는 무언가임을 암시한다. 6월의 낮, 영하 10도의 서리와 침묵은 혼란스러운 외부 세계를 살아가는 작가의 내면에 도사리고 있는 불안정함을 드러낸다. 그러나 울프에게 순수하고 완벽한 자연의 아름다움은 또한 “전쟁에 반대하는 표본”으로서 인간이 만든 전쟁의 혼란과 폭력과는 동떨어진, 때로는 그것에 대항하는 힘을 상징한다. 이렇듯 초반에 자연이라는 키워드는 울프의 실질적 경험이 일어나는 단순한 배경으로서 재현되지만, 점차 진화하여 나중에는 작가의 삶의 의지를 투영하는 살아있는 존재이자, 사회적 위기 속에서도 저항할 수 있는 희망과 평화의 가능성을 암시하는 주요한 상징적 매개로서 기능하게 된다.
4. 일기와 소설의 상호텍스트성: 울프의 텍스트에서 나타난 일상 속 자연
다음으로는 울프의 일기와 소설 간 주제적 유사성을 알아보기 위해 각각의 텍스트 집합에서 LDA모델을 통해 토픽을 추출, 정렬해 SBERT 임베딩을 기반으로 코사인 유사도를 분석하였다.[10] 울프는 생애에 걸쳐 총 9편의 장편 소설을 썼으며, 그의 작품은 내면 심리와 감성 재현을통해 인간 존재, 시간의 상대성, 여성의 경험, 사회적 억압, 자아의 탐색 등 다양한 주제를 탐구한 것으로 잘 알려져 있다. 울프의 소설은 이 심오한 주제를 평범한 삶의 재현을 통해 구현했다는 것으로 유명한데, 이 섹션에서는 문학 장르인 소설을 사적 장르인 일기와 비교했을 때 일기와중첩되거나 전혀 다르게 나타나는 주제어는 무엇인지 살펴볼 것이다. 그 중에서도 앞에서 살펴본 일기 텍스트에서 지배적으로 나타난 전쟁과자연 관련 주제가 소설이라는 문학 장르에서도 주요 주제로 나타나는지, 만약 그렇다면 해당 키워드의 의미화 또는 재의미화가 어떤 양상으로 일어나는지에 중점을 두고 분석하려 한다.
우선 양쪽 텍스트 각각 10개의 토픽을 추출하였다. 버지니아 울프의 일기 토픽은 (0. 일상과 독서), (1. 자연과 전쟁풍경), (2. 사교모임과 사회적 관계), (3. 개인적 사색과 글쓰기), (4. 글쓰기), (5. 일상의 삶), (6. 자연과 감정). (7. 독서와 지적활동), (8. 자연/도시 풍경), (9. 문학과 삶) 이며, 소설에서의 토픽은 (0. 문학과 가치), (1. 인간관계), (2. 실내공간과 사교모임), (3. 가정과 가족), (4. 일상활동과 자연), (5. 실내와 거리풍경), (6. 자연과 인간), (7. 자연과 실내 공간), (8. 자연풍경), (9. 내면적 사색)으로 나눌 수 있다. 지면 관계상 본 논문에는 각 토픽의 표제어만 제시하고, 구체적인 주제어는 특정 토픽을 분석하면서 필요시에만 표기하기로 한다.
계속해서 <그림 3>과 같이 각 토픽 간 코사인 유사도 행렬을 시각화하였다. 코사인 유사도(Cosine Similarity)는 두 벡터 간의 유사성을 측정하는 방법으로, 특히 문서 간의 주제적 유사성을 비교할 때 널리 사용된다. 이는 두 벡터(문서 또는 토픽의 특정 벡터)가 이루는 각도의 코사인값을 계산하여 유사도를 수치화하는 방식으로, 토픽모델링을 통해 추출한 토픽의 상관관계를 파악하는데 용이하다. 여기서는 단순히 단어빈도로 비교하는 LDA방식을 보완하기 위해 단어 의미의 유사성을 효과적으로 반영하는 Transformer 기반의 사전 훈련된 문장 임베딩 모델인SBERT를 차용하였다.[11] 각 칸 속의 숫자가 높을수록, 색깔이 붉은색에 가까울수록 두 토픽 간의 상관관계가 높음을 의미하며, 일반적으로0.5-0.8은 다소 유사 0.8이상은 강한 유사성을 지닌다고 해석할 수 있다. 이런 맥락에서 <그림 3>에서 제시된 일기와 소설의 주제 정렬 및 매핑에서, 상당히 많은 주제쌍이 0.6 이상의 수치를 가지며 붉은색으로 유사하게 나타남을 알 수 있다.

그림 3 일기와 소설 토픽 코사인 유사도 정렬
소설의 토픽을 기준으로 할 때, 내면적 사색과 일상적 감정을 가리키는 소설 토픽 9는 일기에서의 여러 토픽 (0, 3, 4, 5, 6, 9)과 가장 유사도가높으며 일상의 삶과 문학 활동을 가리키는 토픽 5와 각각 0.79의 높은 상관관계를 보인다. 소설 토픽 9에 속한 시간, 삶, 마음, 순간, 방식, 생각과같은 키워드는 일기와 소설이 시간에 대한 성찰과 주관적이고 감정적인 경험을 탐구하고 있음을 시사한다.
새로운 LDA모델을 실행했음에도 전쟁 관련 주제어가 남아있는 일기 토픽과 비교했을 때, 소설에서는 일기와는 달리 전쟁이나 폭력을 나타내는 토픽은 딱히 눈에 띄지 않는 것이 특징이다. 한편, 일기와 소설 간의 높은 상관관계를 보여주는 또 다른 중요한 요소가 자연 관련 토픽이라는 점은 흥미롭다. 소설에서는 무려 네 개의 토픽(4, 6, 7, 8)이 자연 혹은 자연 풍경과 연관되며, 매트릭스 분석에서도 소설의 토픽 6과 7이일기의 토픽 6과 각각 0.82, 0.73의 높은 유사도를 보인다. 이들 토픽에서 tree, sea, flower, wind, light, air, sky, field 등 자연에 대한 묘사가 두드러지는 점을 고려할 때, 자연에 대한 탐구가 두 텍스트에서 공통적으로 주요한 주제로 자리 잡고 있음을 확인할 수 있다. 특히 이들 토픽에서는 여성의 일상을 암시하는 life, woman, child, happiness, house 등의 키워드가 반복적으로 등장하며, 식물과 관계된 flower, tree, garden, grass와 같은 단어들이 상위권에 주로 나타나 추후 연구에서 더욱 심층적인 분석이 가능함을 시사한다. 두 텍스트에서 자연이라는 주제는 단순한 배경적 요소를 넘어 여성과 실내 공간, 식물적 존재 등 젠더적 경험과 연결될 여지가 있기 때문이다. 나무와 꽃으로 대변되는 자연 관련 주제는 젠더적 상징성을 지닐 뿐만 아니라, 이성 중심의 인간 문명을 비판적으로 조망하는 생태주의적 접근의 가능성까지도 내비친다.
본 연구에서는 울프의 작품에서 자연이 젠더, 공간, 생태학적 사유가 교차하는 중요한 담론적 장으로 기능한다는 가설을 체계적으로 증명하는 데까지는 이르지 않지만, 추가적으로 단어 빈도분석을 수행하여 소설에서 자연과 관련된 키워드의 비중을 계량적으로 확인하고, 그 의미적 패턴의 변화를 일정 부분 탐색해 보고자 하였다. 전치사와 대명사 등 기능어 위주의 불용어 처리를 한 일기와 소설 코퍼스에서 <표 2>과같이 자연 관련 고빈도 어휘와 핵심어를 추출하였다. 일기와 소설이 각각 61만 89만 단어로 길이가 2:3으로 차이가 난다는 것을 고려하더라도, 소설에서 자연과 관련된 단어의 어휘 빈도(frequency)와 통계적 유의미성을 나타내는 핵심도(keyness)가 상대적으로 높다는 사실을 알 수 있었다.
| 일기 자연 관련어휘 빈도 순위 | 일기 자연 관련핵심도 순위 | 소설 자연 관련어휘 빈도 순위 | 소설 자연 관련어휘 핵심도순위 |
| 146. tree157. garden166. rain195. wind | 152. rain192. garden254. trees274. wind324. sun | 48. tree93. flower108. water124. sea126. wave157. sun174. wind179. sky | 57. trees76. flowers90. tree113. leaves140. sky141. grass142. waves145. sea146. flower186. sun |
표 2. 일기와 소설에서 나타난 자연 관련 어휘 빈도와 핵심도
<표 2>에서 일기의 경우 빈도가 200위 안에 드는 자연 관련 단어는 tree, garden, rain, wind로 4개였으며, British National Corpus(BNC)와 비교해서 핵심어를 추출했을 때, 핵심도가 역시 200위 이하인 관련 단어는 rain, garden, tree, wind, sun으로 5개였다.[12] 소설의 경우 위에서 LDA로 도출한 10개의 토픽 중 4개의 토픽이 자연과 관련된 만큼, 자연 관련 단어 빈도가 두드러졌으며 그 순위도 높았다. tree, flower, water 등 200위 내 고빈도 단어가 8개 포함되었으며, 핵심어도 trees, flowers, tree, leaves 등 200위 내 단어가 11개나 관찰되었으며 단어 대부분이 식물과 물과 관련된 단어들이었다.
소설에서 자연과 관련된 고빈도 단어들의 분포 양상이 LDA로 측정한 토픽 분포와 얼마나 유사한지 확인하기 위해, <그림 4>의 LDA 분석을 통해 도출한 시간별 자연 관련 토픽 비중 변화 그래프와 <그림 5>의 단어 빈도분석에서 추출한 자연 관련 키워드(tree(s), river, sea, light, flower(s), grass, sky, garden, hill, house, sun, cloud, leaves, field, earth, stone, air, water)의 빈도 및 정규화된 빈도를 시각화한 그래프를 비교하였다. 두 그래프는 울프의 소설별 텍스트 길이 편차가 큰 점을 고려하여 데이터를 정규화하여 진행하였다.[13]
그림 4. 소설과 일기 자연 관련 토픽 분포


그림 5. 울프 소설의 자연 관련 어휘 빈도
소설의 경우, <그림 4>의 주황색 실선으로 표시된 토픽모델링 기반 토픽 분포의 시간적 추이와 <그림 5>의 파란색 실선으로 나타낸 울프소설의 어휘 빈도 변화가 놀라울 만큼 유사한 양상을 보인다. 다소 굴곡은 있지만, 1915년, 1922년, 1927년, 1933년, 1941년에 출판된 소설을 중심으로 자연 관련 토픽 비중과 어휘 빈도는 전체적으로 우상향하는 경향을 나타낸다. <그림 4>의 초록색 점선이 나타내는 일기에서는 1920년대-1930년대 초보다는 세계 1차대전 직후인 1910년대와 세계 2차대전 직전인 1930년 중반 이후에 자연 관련 토픽이 급격히 증가하는 모습을 보이지만, 소설에서는 1920년대에도 자연, 식물, 환경, 풍경과 관련된 언어가 점차 증가하며 지속적으로 발전했음을 토픽분포와 단어빈도 모두를 통해 확인할 수 있다. 비록 이 두 그래프를 통해 일기와 소설의 명확한 계량적 상관관계를 도출하기는 어렵지만, 초기부터 일기에 기록된 자연 속 삶의 경험이 꾸준히 울프에게—특히 심리적, 문학적으로—영향을 미쳤음을 알 수 있다, 무엇보다도 이 두 그래프는 일기와 소설의 장르적 특성 또한 반영한다. 전쟁과 여행 등 외부의 사건에 즉각 반응하는 일기 텍스트와는 달리 소설의 경우 장기간에 걸쳐 축적되어온 자연이라는 키워드에 대한 끊임없는 내적 탐구와 미적 실험이 거듭되면서 텍스트적 진화를 이루어 냈을 가능성을 시사한다.
소설에서 자연 관련 토픽의 의미 패턴을 추적하기 위해 일기와 소설 모두에서 빈도와 핵심도 순위가 가장 높게 나타난 ‘나무(tree)’라는 단어를 중심으로 자세히 읽기를 진행하였다. 1928년 8월 12일자 일기에서 울프는 자신이 찰스턴의 나무들에 깊이 매료되어 있음을 자각하며, 왜 나무들에서 눈을 뗄 수 없는지 의문을 품는다: “왜 나무들이 내 시선을 사로잡지? 사물들의 모습은 내게 강한 영향을 미친다.”(Why did my eye catch the trees? The look of things has a great power over me.) 나무의 저항할 수 없는 이러한 존재감은 그의 소설 텍스트에도 지속적으로 나타난다. 나무의등장은 이야기의 중심 플롯에 큰 영향을 미치지는 않지만, 소설의 인물들(특히 여성과 주변화된 인물들)의 의식 변화에 중요한 순간을 제공하며, 많은 경우 클라이맥스에 가까운 정도의 강렬한 인상을 남긴다.
울프의 소설에서 나무는 수동적이거나 타자화된 배경으로서가 아니라, 주로 일상적인 인식을 교란하는 강력한 자율적 존재로서 그려진다. 예를 들어 울프의 첫 장편 소설 『출항』(Voyage Out)에서 가장 해석이 분분한 장면은 주인공 레이첼이 갑작스러운 “나무의 침범”(interruption of a tree)에 놀라는 순간이다. 그녀는 평범한 나무(ordinary tree)를 보지만, 그 순간 그것은 마치 세상에서 유일한 나무(the only tree)처럼 보인다. 이 순간 자연스럽게 흘러가던 시간은 정지하는 듯하며, 나무는 그녀가 다시 일상으로 돌아가기 전까지 알 수 없는 초월성으로 그녀를 압도한다. 인간의 통제를 넘어서는 외부의 힘으로서의 나무는 1931년 출간된 『파도』(The Waves)에서도 다시 출현하며, 필연적인 시간의흐름 속에서 인간이 거스를 수 없는 연속성과 순환성을 나타낸다. 예를 들어 “세상이 마치 기차가 출발할 때 생울타리 둑이 스쳐 지나가듯 내곁을 지나가기 시작하고, …나무가 다가오는 것은 피할 수 없는 일처럼 보인다.”(The world is beginning to move past me like the banks of a hedge when the train starts, …and it seems inevitable that the tree should come.)라는 구절이나, “우리 모두는 사과나무에, 우리가 결코 지나칠 수 없는 그 가차없는 나무에 의해 운명 지어져 있다.”([W]e are doomed, all of us, by the apple trees, by the immitigable tree which we cannot pass.)라는 구절에서 나무들은 인간에 의해서 운명이 결정되는 것이 아닌, 오히려 인간의 삶을 좌지우지할 수 있는 영향력을 가진 자연적 존재들로서 묘사된다.
주로 울프의 20년대 작품들에서 나무는 또한 폭력적이고 틀에 박힌 인간 문명의 대립항으로서 그려진다. 1922년 집필된 『제이콥의 방』(Jacob’s Room)은 이러한 자연과 문화의 갈등을 선명하게 드러낸다. 제이콥의 나비와 나방 컬렉션을 묘사하는 장면에서 “그가 [나방]을 잡은 밤, 나무는 쓰러져 있었다.”(The tree had fallen the night he caught [the moth])라는 문장은 나무의 쓰러짐과 인간의 행동 사이의 관계를 암시하며, 자연이 인간의 폭력적 경험에 희생되는 순간을 간접적으로 보여준다. 이와 유사하게 1925년 작 『댈러웨어 부인』(Mrs. Dalloway)에서 셉티머스의“인간은 나무를 베어서는 안돼. 신이 존재하고 있어.”(Men must not cut down trees. There is a God.)라는 문장은 나무가 단순한 생태적 요소를 넘어서는 신성한 의미를 지님을 암시한다. 나무를 베는 행위는 단순한 환경적 훼손이 아니라 문화적, 종교적 윤리의 문제와도 연결되어 있는 것이다. 이러한 시각은 1929년 12월 26일 일기에서 또다시 “전쟁을 반대하는 표상”으로서의 자연을 상기시키는 방식으로 재현된다. 울프에게 “나무를 베고 망쳐놓는 일(cutting down trees)”은 터키에서 자행된 아르메니안 대학살만큼이나 참혹하고 비극적인 일이다.
하지만 그의 소설에서 나무는 단순히 인간 세계에 적대적인 존재로 인간의 이성과 문명에 대한 혐오를 의미하지만은 않는다. 오히려 새로운 관계의 비전을 제시하며 인간사회의 변화 가능성을 촉발시키는 존재이다. 앞서 『댈러웨이 부인』에서 셉티머스는 “나뭇잎은 살아 있었고, 나무도 살아 있었다. 그리고 그 나뭇잎들은 수백만 개의 섬유질로 그의 몸과 연결되어 있었다.”(Leaves were alive, trees were alive. And the leaves being connected by millions of fibres with his own body.)라는 식물과 관련된 예언자적인 발언을 계속하는데, 이 구절은 조화로운 연결망을 추구하는 자연 속에서 분리와 단절의 늪에 빠진 문명에 대한 고민이 이루어지는 과정을 보여준다. 이는 울프의 텍스트에서, 문화와 자연의 이분법이 해체된다는 보니 킴 스캇(Bonnie Kime Scott)의 주장처럼(5-9), 자연과 문화가 단절된 것이 아니라 서로에게 영향을 주고받는 유기적 관계에 있음을 암시한다. 앞서 일기에서도 살펴보았듯이 울프에게 나무를 포함한 자연은 늘 생명력으로 충만하며 연속성을 통한 공동체의 회복이라는 중요한 은유로서 역할한다.
특히 이러한 울프의 문학적 비전은 후기 작품으로 갈수록 더욱 뚜렷이 드러난다. 울프의 마지막 소설 『막간』(Between the Acts)에서 나무는 단순한 자연적 요소를 넘어 인간 문명과 결합하는 매개체로 그려진다. 소설 초반, 화자는 시골 저택 포인츠 홀(Pointz Hall)을 소개하며 다음과 같이 묘사한다: “자연은 집을 지을 자리를 마련해 주었고, 인간은 그 움푹 팬 곳에 집을 지었다…테라스는 거대한 나무 하나의 그림자가 완전히 드리울 만큼 넓었다.”(Nature had provided a site for a house; man had built his house in a hollow…The terrace was broad enough to take the entire shadow of one of the great trees laid flat.) 자연은 인간이 거주할 터전을 제공하고, 인간은 그 위에 건축물을 세운다. 테라스가 나무의 그림자를 온전히 담을수 있도록 설계된 것은 자연과 문화의 공존을 암시한다. 이처럼 문명은 자연을 억압하는 동시에, 인간이 자연이라는 거대한 힘에 적응해가는과정이자 자연과 인간 사이의 창조적 상호작용으로서 나타난다. 이러한 양상은 영국 역사극을 감독하는 라 트로브(Miss La Trobe)가 술집에서자신의 예술 세계에 대해 고민하던 중, 갑작스럽게 내면의 통찰을 얻게 되는 같은 소설의 마지막 장면에서 더욱 두드러진다. 이때 그에게 결정적인 비전을 보여주는 것은 바로 “찌르레기가 뒤덮인 나무”(tree [] pelted with starlings)의 모습이다. 나무의 모습을 떠올리며 그는 다음 작품의 “첫번째 단어”를 듣게 되는데, 이는 나무가 상징하는 인간의 인습에 얽매이지 않는 자유로움과 인간의 개별성을 뛰어넘는 일상적이면서도 보편적인 힘의 영향력을 암시한다. 소설은 이러한 자연의 힘이야말로 궁극적으로 인간이 새롭게 건설할 문명과 언어의 토대가 될 것임을 시사한다.
5. 나가며
본 연구는 토픽모델링과 단어 빈도분석을 활용하여 버지니아 울프의 일기에서 주요 키워드의 생성과 변형 과정을 탐색하고 일기와 소설간의 주제적 연속성과 차이를 분석하였다. 방대한 텍스트를 한눈에 조망하여 주요 주제를 추출하는 계량적 방법론은 울프의 일기와 소설이역사적·문학적 맥락과 어떻게 연결되는지를 탐구하는 데 있어 효과적인 방향을 제시해 준다. 그러나 물론 로디(Rhody)가 지적하듯, 울프의 일기와 소설처럼 문학적 사유와 표현이 중심이 되는 텍스트에서는 과학 논문이나 신문 기사에서 기대되는 수준의 주제적 명확성을 발견하기 어려웠다. 실제로 울프의 텍스트에서는 주요 주제어들이 여러 토픽에 걸쳐 중첩되는 경향을 보였으며, 동일한 단어라도 문맥에 따라 미묘한 의미 차이를 형성하고 있었다. 예를 들어, 두 개의 토픽으로 나뉜 ‘전쟁’ 관련 키워드는 유사해 보이지만, 하나는 작가 개인의 불안과 연결되고, 다른 하나는 지식인으로서의 비판적 시선과 결부되어 각기 다른 해석이 가능했다. 마찬가지로 ‘자연’이라는 토픽 내의 키워드들은 시간의 흐름에 따라 단어의 상징성이 짙어지고 의미가 점진적으로 변화하는 양상을 보였다. 이를 통해, 토픽모델링을 활용한 거시적 주제 탐색에는 세밀한 해석이 보완되어야 함을 다시금 확인할 수 있었다.
이 연구는 또한 일기라는 사적 언어와 소설이라는 공적 언어의 공시적·통시적 관계를 일부분 규명하고자 했다. 울프의 일기와 소설은 단순히 분리된 텍스트가 아니라, 작가의 삶과 문학적 상상력이 교차하는 지점에 위치해 있다. 일기는 소설 창작의 원천이자 중요한 해석적 맥락을제공하며, 소설 또한 허구적 창작을 넘어 개인적 경험과 정서적 흐름을 반영하는 장치로 기능한다. 특히 일기 토픽모델링을 시작으로 본 연구에서 면밀히 살펴본 ‘자연‘이라는 주제는 울프의 문학과 사유에서 핵심적 요소임이 확인되었다. 크리스틴 프라울라(Christine Froula)가 주장하듯, 울프는 전쟁과 폭력으로 점철된 인간 문명의 대안적 가치 체계를 모색하는 과정에서 자연과 나무를 반복적으로 묘사하며 이를 문학적 탐구의 중요한 장치로 활용했다. 본 연구는 이러한 기존 논의를 재확인하는 동시에, 그동안 기존 울프 연구에서 충분히 조명되지 않았던 일상 속자연과 생태학적 주제의 중요성을 부각했다는 점에서 의의가 있다.
이러한 성과에도 불구하고, 본 연구는 코사인 유사도 분석에서 부분적으로 SBERT를 도입한 것을 제외하고는 비교적 단순한 토픽모델링기법, 즉 단순 단어집합(bag-of-words) 방식을 주로 사용했기 때문에 토픽의 추출과 의미화 과정 추적 또한 단순한 패턴에 기댈 수밖에 없었다는한계가 있다. 더욱더 정교한 토픽 수와 키워드 추출을 위해 향후 연구에서는 단어의 문맥까지도 고려하는 단어 임베딩(word embedding) 기법이나 대규모 언어 모델을 토픽 추출 단계에서부터 활용하는 방향을 고려할 수 있을 것이다. 또한 울프의 에세이, 단편소설, 편지 등을 포함하여코퍼스를 확장하고, 이번 연구에서는 다루지 않았으나 유의미하게 나타난 키워드—‘집’, ‘시간’, ‘인간’, ‘머리’, ‘손’, ‘런던’, ‘눈’, ‘감정’, ‘정신’, ‘글쓰기’ 등—를 공기어 연결망(co-ocurrence network) 등을 사용하여 심층적으로 분석한다면, 울프의 사상과 언어사용에 대한 보다 정밀한 연구가 가능할 것이다. 나아가 이러한 분석을 동시대 지식인과 문인들의 언어사용과 비교함으로써 20세기 초 지성사에 대한 비교 연구로 확장하는 것도의미 있는 후속 연구 방향이 될 것이다.
인용 문헌
김명관. 「카뮈와 생텍쥐페리의 문학작품 핵심어 비교 연구」. 『건지인문학』 27 (2020): 83-106.
남춘호. 「일기자료 연구에서 토픽모델링 기법의 활용가능성 검토」. 『비교문화연구』 22.1 (2016): 89–135.
박자현, 송민. 「토픽모델링을 활용한 국내 문헌정보학 연구동향 분석」. 『정보관리학회지』 30.1 (2013): 7–32,
https://doi.org/10.3743/KOSIM.2013.30.1.007.
이재연. 「키워드와 네트워크: 토픽모델링으로 본 『개벽』의 주제 지도 분석」. 『상허학보』 46 (2016): 277–334.
윤미선. 「인문 ‘스몰 데이터’ 연구 방법론과 사례 연구: 19세기 말 영국 정기간행물 비평 담론 – 주간지 『런던』을 중심으로」. 『영미문학연구』 44 (2023): 83–135.
전보미. 「코퍼스 분석을 기반으로 한 『출항』의 문체 연구: 초기 모더니즘 소설의 장르적 변형을 중심으로」. 『인문언어』 24.1 (2022): 89-115.
Blevins, Cameron. “Space, Nation, and the Triumph of Region: A View of the World from Houston.” Journal of American History, vol. 101, no. 1, June 2014, pp. 122–147.
Froula, Christine. Virginia Woolf and the Bloomsbury Avant-Garde: War, Civilization, Modernity. Columbia UP, 2005.
Gerrish, Sean, and David Blei. “A Language-Based Approach to Measuring Scholarly Impact.” Proceedings of the National Academy of Sciences, vol. 10, 2010, pp. 375–382.
Jockers, Matthew L. Macroanalysis: Digital Methods and Literary History. U of Illinois P, 2013.
—. “Secret Recipe for Topic Modeling Themes.” Matthew L. Jockers, 12 Apr. 2013,
https://www.matthewjockers.net/2013/04/12/secret-recipe-for-topic-modeling-themes/.
Langford, Rachael, and Russell West-Pavlov. “Introduction: Diaries and Margins.” Marginal Voices, Marginal Forms: Diaries in European Literature and History, Rodopi, 1999.
Li, Defeng, Kan Wu, and Victoria L. C. Lei. “Applying Topic Modeling to Literary Analysis: A Review.” Digital Studies in Language and Literature, vol. 1, no. 1–2, 2024, pp. 113–141,
https://doi.org/10.1515/dsll-2024-0010.
Podnieks, Elizabeth. Daily Modernism: The Literary Diaries of Virginia Woolf, Antonia White, Elizabeth Smart, and Anaïs Nin. McGill-Queen’s UP, 2000.
Rhody, Lisa M. “Topic Modeling and Figurative Language.” Journal of Digital Humanities, vol. 2, no. 1, 2012,
http://journalofdigitalhumanities.org/2-1/topic-modeling-and-figurative-language-by-lisa-m-rhody/.
Schöch, Christof. “Topic Modeling Genre: An Exploration of French Classical and Enlightenment Drama.” Digital Humanities Quarterly, vol. 11, no. 2, 2017, pp. §1–53,
http://www.digitalhumanities.org/dhq/vol/11/2/000291/000291.html.
Scott, Bonnie Kim. In the Hollow of the Wave: Virginia Woolf and Modernist Uses of Nature. U of Virginia P, 2012.
Tidwell, Joanne. Politics and Aesthetics in The Diary of Virginia Woolf. Routledge, 2007.
Underwood, Ted. Distant Horizons: Digital Evidence and Literary Change. U of Chicago P, 2019.
Williams, Raymond. Keywords: A Vocabulary of Culture and Society. Oxford UP, 2015.
Woolf, Virginia. Virginia Woolf: The Complete Works. Kindle ed., Classics for All, Amazon Digital Services, n.d.
Abstract
Reading Keywords in Virginia Woolf’s Diaries and Novels through Topic Modeling and Word Frequency Analysis
Bomi Jeon
This study applies topic modeling to Virginia Woolf’s diaries from 1915 to 1941 to analyze key themes and keywords. By clustering major topics, the research aims to structurally illuminate Woolf’s personal interests and inner world while also exploring the intertextual relationship between her diaries and novels through shared themes. Focusing on the significance of nature and war as central themes in Woolf’s life and works after 1910, this study examines the formation of her social and political language as a humanist and pacifist. In particular, it investigates how Woolf sought to explore the values and meanings of life despite the devastation of war, with these two themes serving as focal points in her writing. To achieve this, the study combines LDA-based topic modeling with SBERT-based semantic similarity analysis and keyword frequency analysis, allowing for both thematic clustering and quantitative comparison between texts. Employing the methodology of distant reading, this study seeks to structure and visualize the key themes and keywords in Woolf’s texts. At the same time, through close reading of the representative passages, it traces the concrete ways in which specific themes—such as war and nature—are contextualized and given meaning within her works.
Key Words
Topic Modeling, LDA, Word Frequency Analysis, Virginia Woolf’s Diary, Intertextuality, Nature, Keyword Analysis
[1] 일기라는 장르를 “경계”로서 정의내리는 랭포드(Langford)와 웨스트-파블로프(West-Pavlov)에 따르면 “결국, 경계란 서로 다른 영역이 만나는 장소이며, 여기에서 ‘여기’에서 ‘저기’로, 동일성과 타자성 사이의 넘나듦이 끊임없이 협상되고, 상호 의존적인 자아와 타자의 정의가 계속해서 재구성되는 공간”으로 사회적 실천 영역의 경계에 위치한 일기는 현대 문화의 기후를 보여주는 주요한 지표가 된다(7).
[2] 토픽모델링과 관련해서는 LDA모델을 문학 연구에 적용한 사례와 장단점등을 기술한 Defung Li 외 2인의 2024년 연구와 LDA로 일기자료 분석을 연구한 남춘호의 논문 “일기자료 연구에서 토픽모델링 기법의 활용가능성 검토”(2016)가 있으며, 단어 빈도분석과 관련해서는 필자의 2022년 논문 “코퍼스 분석을 기반으로 한 『출항』의 문체 연구”와 김명관의 “카뮈와 생텍쥐페리의 문학작품 핵심어 비교 연구”(2020) 등이 있다.
[3] 울프의 일기는 그가 본격적으로 작가 활동을 시작할 때부터인 1915년부터 사망한 해인 1941년까지의 일기를 사용하였다.
[4] “토픽모델링을 위한 비법”이라는 제목의 글에서 조커스는 토픽모델링이 단어 순서를 고려하지 않고 문서를 단순한 단어들의 집합(“bag of words”)으로 간주하기 때문에, 소설과 같은 긴 텍스트를 500-1000단어 단위로 나누는 것이 중요하다고 말한다. 이렇게 하면 특정 주제가 소설 전체가 아니라 특정 부분에서어떻게 나타나는지를 더 잘 포착할 수 있으며, 지나치게 일반적인 주제만 추출되는 것을 방지할 수 있다.
[5] 일관성 점수(coherence score)는 주어진 토픽 모델이 사람의 직관과 얼마나 일치하는지 측정하는 지표로, 높은 coherence 값은 토픽이 의미있고 일관성 있게구성되었음을 나타낸다. 반면, 복잡성 점수(perplexity score)는 모델이 데이터를 예측하는 능력을 평가하는 지표로, 낮은 perplexity 값은 모델이 데이터를 잘예측한다고 볼 수 있다.
[6] 난수 값은 모델이 초기화될 때 생성되는 무작위성을 통제하는 역할을 하며, 동일한 값을 설정하면 동일한 결과를 재현할 수 있도록 도와준다. 이 연구에서난수값은 0으로 설정하였다.
[7] 분석자는 임의로 람다(λ)값을 조절할 수 있는데, 람다가 1에 가까울수록 토픽별로 가장 자주 등장하는 단어들을 우선적으로 키워드로 선택하며, 0에 가까울수록 토픽 간에 차이가 많이 나는 단어를 선택한다는 의미이다. 람다가 1에 가깝다면 키워드의 빈도수는 높지만 a, the등 차별성이 없는 단어가 선택될 가능성이 있고, 람다가 0에 가깝다면 토픽의 특수성이 부각되더라도 문서 전체에서 빈도수가 지나치게 낮을 수가 있기 때문에, 토픽의 해석력을 높이려면 양면을 모두 고려해서 람다(λ )값을 조절하는 것이 바람직하다. 예를 들어, 울프의 문학 활동과 동시대 작가들과의 교류를 나타내는 토픽 3의 경우, λ 값을 0.1로 설정했을 때에는 Murry, Hardy, Ott, Eliot, Katherine, Sydney, Hamilton, Ottoline, Desmond, Fredegond 등 작가의 이름과 같은 고유명사 중심의 단어들이 주요 상위어로 나타났다. 반면, λ 값을 0.9로 설정한 경우에는 people, man, time, tea, thing 등과 같이 빈도는 높지만 지나치게 일반적이고 맥락성이 낮은 단어들이 포함되었다. 이에 본 연구에서는 단어의 특수성과 출현 빈도를 균형 있게 반영하기 위해 λ 값을 0.6으로 설정하였다.
[8] 토픽 라벨링은 다음의 절차를 따라 수행되었다. 첫째, 각 토픽에 대해 상위 30개 키워드를 확인 후 대표 키워드를 중심으로 토픽이 지시하는 주제 영역을 유추하였다. 둘째, 인명, 장소, 정서적 표현, 사건 등 개별 키워드의 성격과 조합을 분석하였다. 셋째, 유사한 주제적 성격을 공유하는 키워드를 범주화하여, 사회적 관계, 전쟁, 예술활동, 자연 묘사, 문학 창작 등 의미 범주를 정의하였다. 넷째, 해석에 혼동이 있는 토픽의 경우, 해당 토픽의 확률이 높은 대표 문서를확인하여 맥락 기반의 추가 정보를 확보하였다. 마지막으로 각 토픽에 대해 주제명을 초안으로 부여한 후, 전체 토픽 간 주제 중복이나 혼동을 방지하기 위해 주제명을 비교, 조정하였다.
[9] 이 그래프에서 일컫는 정규화는 상대적 정규화로서, 특정 토픽이 해당 연도 전체 토픽 분포 중에서 얼마나 큰 비중을 차지했는지를 나타낸다. 즉 특정 연도에서 토픽 t의 평균 확률은, 그 해에 작성된 모든 문서에서 해당 토픽이 차지한 확률들의 총합을 문서 수로 나눈 값이다. 울프의 일기 특성상 연도마다 작성된 양(문서 수)이 27개부터 127개까지 불균형하므로, 연도 내 토픽 확률의 총합을 기준으로 각 토픽의 상대적 비중을 계산하는 방식이 시기별 담론 구성의상대적 구조를 보다 정밀하게 보여줄 수 있다는 판단 때문이었다. 본 연구에서는 담론 구성의 상대적 구조에 초점을 맞추고자 하였으므로 Z-score나 전체토큰 대비 정규화 대신 연도 내 비율 정규화를 채택하여 특정 연도에서 어떤 주제가 다른 주제들이 비해 얼마나 중심적으로 나타났는지를 분석하고자 하였다.
[10] 토픽 정렬 또는 토픽매핑은 서로 다른 코퍼스(예: 버지니아 울프의 일기와 소설)에서 별도로 훈련된 LDA모델이 생성한 토픽을 비교하기 위해 사용하는기법이다. 별도로 훈련된 모델의 토픽은 직접적으로 일치하지 않을 수 있으므로(예: 일기 모델의 Topic 1이 소설 모델의 Topic 3과 대응) 이를 정렬하여 두모델 간에 의미 있는 비교를 할 수 있다.
[11] LDA 토픽 모델은 단어의 동시 출현 빈도를 기반으로 토픽을 구성하기 때문에, 단어가 문서에서 얼마나 자주 함께 등장하는지에 따라 토픽이 형성된다. 하지만 이 방식은 단어의 의미적 유사성을 직접적으로 반영하지 못한다. 반면, SBERT (Sentence-BERT) 임베딩을 사용하면 각 단어 또는 문장이 의미적으로얼마나 가까운지를 벡터 공간에서 계산할 수 있으므로 보다 더 직관적인 방식으로 LDA모델이 추출한 주제 비교가 가능하다.
[12] BNC는 100 million words(1억 개 단어)로 이루어진 대규모 코퍼스로, 1990년대 영국 영어 사용을 대표하는 다양한 장르의 텍스트를 포함하고 있다. BNC는spoken(구어)과 written(문어)로 나뉘는데, 이 연구에서 사용한 문어 버전은 전체 코퍼스의 약 90%를 차지하며, 신문기사, 논문, 문학작품, 행정 및 실용문서등 다양한 서면 자료를 포함하고 있다.
[13] 그림 5의 그래프에서 하늘색 점선은 단순 빈도를, 파란색 실선은 정규화된 빈도를 나타낸다. 단순 빈도 상으로 보았을 때는, 소설 중 가장 길이가 짧은 1941년작 『막간』에서 자연 관련 어휘 빈도가 두 번째로 낮은 수치를 보이지만, 모든 소설의 길이를 정규화하여 보면, 『막간』에서 자연 이미지의 비중이 두번째로 높음을 알 수 있다.
Journal of English Studies in Korea
48 (2025): 24-41
Leave a comment