Category: 영미문학연구 48호

  • 1. 들어가며 토픽모델링은 단어의 통계를 기반으로 특정 문서 집합에 내재된 추상적인 주제를 발견하는 비지도 기계학습 모델(Unsupervised Learning Model)이다. 이 방법론은 단어 하나의 빈도보다는 함께 나타나는 단어들의 집합을 확률적으로 추적하기 때문에 텍스트에서 반복되는 모티프에 대한 깊은 탐색을 가능하게 함은 물론 문학 분석의 해석 가능성과 세밀함을 증진시킬 수 있는 것으로 알려져 있다. 토픽모델링을 활용한 텍스트 분석은 최근 10여년간 문학, 문화 연구에서 꾸준히 주목받아 왔다. 2013년 매튜 조커스(Matthew Jockers)는 19세기 영미소설에 토픽모델링분석을 시도하여 문학작품이 쓰여진 시대의 지배적인 문화적 조류를 밝혀내었다. 그의 연구는 주제 분포와 빈도 등의 양적 척도를 사용하여도덕성, 자연, 남성성 등과 같은 주제가 어떤 방식으로 다양한 작가와 작품을 관통하며 변형되어 왔는지를 보여주었다. 같은 해 리사 로디(Lisa Rhody)는 비유적 언어의 비중이 큰 시 장르에 토픽모델링을 적용하여 의미적으로 불명료하게 나타나는 토픽들을 토대로 새로운 해석 가능성을 탐색하였다. 로디는 토픽모델링이 비유적 언어와 같은 시적이고 복잡한 텍스트를 빈도나 통계로 변환시킴에 따라 본래의 깊은 의미를 완전히 포착하지 못하지만, 그 과정에서 나타나는 모순과 한계는 오히려 기존 연구 방법론을 보완하거나 재고하게 만드는 계기가 된다고 주장한다. 최근 국내에서도 토픽모델링을 도입한 문학연구가 등장하고 있는데, 그 중에서도 직접적인 문학텍스트의 주제 분석보다는 문학작품 바깥에서 이루어지는 문학 담론의 생산과 순환 구조를 탐구하는 일련의 연구들이 눈에 띈다. 대표적인 예로 이재연(2021)과 윤미선(2023)은 1920년대 조선과 18세기 런던에서 발행된 문학 잡지를 각각 분석하여, 문학이라는 제도가 다양한 매체의 형식과 물질성을 통해 사회적으로 구성되고 있음을 강조하였다. 이들 정기간행물 연구는 정전(定典) 바깥의 텍스트를 대상으로 삼아 문학 연구의 지평을 확장하고 있으며, 문학 작품의언어와 그를 둘러싼 비평담론의 복합적이고 다층적인 관계까지도 살펴봄으로써 디지털 인문학 연구의 형식주의적 한계를 넘어서려 시도한다는 점에서 의미를 지닌다. 이처럼 최근 토픽모델링 연구에 대한 학계의 관심이 높아지는 가운데, 본 연구는 버지니아 울프의 1915년부터 1941년까지의 일기를 대상으로 LDA 기반 토픽모델링 기법을 적용하였다. 일차적으로 주요 주제의 클러스터링과 핵심 키워드 분석을 통해 울프의 개인적 관심사와 내면세계를 구조적으로 조명하고자 하였다. 나아가 코사인 유사도와 단어 빈도분석을 활용하여 ‘자연’과 ‘전쟁’과 같은 공통주제를 중심으로 일기와 소설 간의 상호텍스트성, 그리고 사적 언어와 공적 언어 간의 관계성을 밝혀보는 것을 주요 목표로 삼았다. 본 논문은 기본적으로 작품의 언어가 문학과 “비문학을 포함한 더 큰 언어의 구체적인 생산과 유통 회로” 속에 위치하며 따라서 문학작품의 바깥까지도 고려해야 한다는 윤미선의 주장과 결을 같이 한다(85). 작가의 공책이라는 지극히 사적인 공간에서 물질화되고 텍스트화되는 일기의 경우, 공적 영역에서 유통되는매체와 비교해 ‘덜’ 사회적일 수 있지만 문학작품이 생산되는 사회, 문화적 맥락과 밀접하게 연관된 일상적이고 개인적인 언어 실천의 중요한사례이다. 요컨대 버지니아 울프라는 작가의 일기는 작가의 창작 과정과 여성 지식인으로서의 삶을 직간접적으로 반영하는 텍스트이며, 바로이 고유의 기록성과 사적 성격이 넓은 의미에서는 역설적으로 문학 텍스트 생산의 사회사를 드러낸다고 할 수 있다.[1] 정기간행물을 통해 동시대 공적 담론장을 파악할 수 있다면, 일기를 통해서도 작품과 작가의 창작 환경, 당대의 언어 및 문화적 조건, 그리고 개인적 경험이 어떻게교차했으며 영향을 주고받았는지 탐색 가능하기 때문이다. 이러한 맥락에서 디지털 텍스트 분석 기법을 활용하여 일기의 언어를 작품의 언어와 연결지어 분석하면 작가의 사적 언어가 사회역사적 맥락 속에서 어떻게 진화하는지, 그 언어가 작품 내에서 어떤 방식으로 변형되고 재구성되었는지에 대한 단서를 찾을 수 있을 것으로 가정하였다. 본 연구는 디지털 분석도구를 사용해 문화 텍스트 연구의 지평을 확장하는 것에서 나아가 일기라는 다소 소외되어온 장르 분석을 통해 기존 울프 연구에 기여하는 것을 목표로 한다. 버지니아 울프의 모더니즘 소설은 1980년대 역사주의 비평가들과 페미니즘 학자들의 대대적인 재평가가 이루어진 이후 크게 주목받아왔고 학계에서 활발히 연구되어왔다. 하지만 그의 일기는 자주 인용되어 왔음에도 불구하고 최근까지도학술적 연구 대상으로는 그다지 많은 조명을 받지 못해왔다. 짐작건대 60만 단어에 육박하는 방대한 양과 불규칙적으로 분포된 주제들, 일기라는 장르 특유의 주관성이 그 이유일 것이다. 엘리자베스 퍼드닉스(Elizabeth Podnieks)와 조앤 티드웰(Joanne Tidwell)의 저서는 울프의 일기가전통적인 서사 구조를 거부하고 열린 결말과 입체적 내러티브를 허용하는 장르로서 울프의 모더니즘 문학에 상당한 영향을 끼쳤다고 주장한다. 이들은 단순히 비문학적 기록이 아니라 작가의 문학적, 사회적, 정치적 관점을 통합하고 작가의 정체성을 형성하는 매체로서 일기의 역할을 강조하는 몇 안 되는 중요한 연구들이다. 이들 논의의 연장선상에서 이 논문에서는 울프의 일기를 관통하는 주제와 키워드를 중심으로 작가의 사적언어와 문학적언어–사적 페르소나와 공적 페르소나–의 연결 지점을 살펴보려한다. 일기란 작가 자신이 스스로의 주체성과 자아를정의내리는 자유롭고 격식없는 글이며, 작가가 그리는 실제 삶 속 자기 모습을 가감없이 관찰할 수 있다는 점에서 지극히 개인적이다. 한편 일기는 언제나 공적 맥락속에서 존재하며, 그 속에서 구성된 자아는 사회적일 수밖에 없다는 사실을 언어적 맥락을 통해 지속적으로 드러낸다.페미니스트, 평화주의자, 에세이스트, 우울증 환자, 호가스 출판사 운영자, 소설가, 블룸스버리 멤버 등 울프를 지칭하는 많은 수식어들 가운데, 그가 스스로 자신의 인생을 기록하며 선택한 단어들과 주제어들은 무엇이며, 그의 일상에 지배적으로 각인을 남긴 키워드는 무엇인가? 울프의 일상은 그의 문학적 인생과 어떤 관계가 있는가? 주제라는 측면에서 일기는 문학작품과 “양적으로” 어떤 상호텍스트적 연결성이 있으며, 일기라는 텍스트가 주는 전기적 또는 사회적 문맥을 통해 문학작품을 새로 읽을 수 있는 지점이 있을까?  이러한 질문에 답하기 위한 일환으로 본 연구는 1910년 이후 ‘자연’과 ‘전쟁’이라는 키워드가 울프의 삶과 작품에 중요한 배경으로 작용했다는 점에 주목하며, 휴머니스트이자 평화주의자로서 울프가 만들어낸 사회적이고 정치적인 언어의 형성 과정을 탐구한다. 특히, 전쟁으로인해 황폐해진 시대적 배경 속에서도 삶의 가치와 의미를 모색하려 했던 그의 노력이 어떻게 이들 두 주제를 중심으로 나타났는지 알아보고자 한다. 무엇보다 자연 관련 주제의 등장은 기존의 울프 연구의 지평을 확장한다는 점에서 흥미롭다. 그동안 학계에서 울프는 주로 도시문화를 중심으로 논의되었으며, 대중에게도 런던을 기반으로 활동한 여작가이자 블룸즈버리 그룹의 일원으로 더 잘 알려져 왔다. 그러나 본 연구의 파일럿 테스트(LDA 모델링, 코사인 유사도 및 빈도분석) 결과, 울프의 일기와 문학작품에 등장하는 주요 키워드 중 자연, 시골, 식물 관련 어휘가 부각되었고, 이들은 울프의 문학과 일기 사이의 상호텍스트적 관계를 매개하는 중요한 요소로서 나타났다. 이에 본 연구는 ‘멀리서 읽기’(distant reading)의 방법론을 활용하여 울프 텍스트의 주제 및 키워드를 구조화 및 시각화하는 동시에, ‘자세히 읽기’(close reading)를 통해 전쟁, 자연과 같은 특정 주제어들이 어떻게 의미화되는지 그 구체적인 양상 또한 추적하고자 한다.  2. LDA모델과 단어 빈도분석: 방법론에 대하여 1) LDA모델 텍스트의 키워드와 특정 키워드가 나타나는 경향을 파악하기 위해 잠재 디리클레 할당(Latent Dirichlet Allocation, LDA)이라는 확률적 모델과 단어 빈도분석이 주요 방법론으로 사용되었다. LDA는 단어가 특정 토픽과 연결될 확률과 문서에 특정 토픽이 존재할 확률을 결합확률로추정하여 토픽을 추출하는 대표적인 알고리즘이다. 한편 단어 빈도분석은 텍스트 내 단어 출현 빈도를 분석하는 기법으로, 특정 문서에서 자주 출현하는 단어를 파악하여 핵심 단어를 추출하기 위한 목적으로 수행된다. 두 방법론의 개념, 효용성과 한계에 대해서는 이미 수많은 논의가 진행되었으므로 일반적인 설명은 생략하고 왜 이 연구에 이들 방법론을 사용하였으며, 디지털 분석을 진행하면서 특별히 고려해야 했던사항 위주로 간략하게 짚고 넘어가려 한다.[2] LDA모델은 초기에는 소셜 미디어 데이터에서 사용자의 반응을 파악하거나 특정 주제에 대한 뉴스 및 연구동향을 분석하는 데 주로 쓰였다(Gerrish and Blei 2010; 박자현, 송민 2013). 하지만 최근에는 인문학자들도 문학, 비문학 텍스트에 토픽모델링을 적용해 문학사에서 시대별 주제 변화나 특정 장르의 주제적 특성 등을 고찰하는 연구를 다수 진행하고 있다 (Blevins 2014; Schöch 2017; Underwood 2019). LDA의 경우 토픽의수가 미리 정해져 있지 않고 텍스트나 모델 설정에 따라 너무 일반적이거나 무관한 토픽을 산출하는 등 정확도가 일정하지 않다는 단점이 있어 최근에는 더욱 정교한 주제 추출이 가능한 대규모 언어 모델 기반의 LLM(Large Language Model)방식도 많이 사용하는 추세이다. 그러나 본연구에서는 해석하는 사람의 역량을 중시하는 인문학 연구에는 접근성이 높으며, 문서-토픽 간 관계에 대한 명확한 데이터를 제공하는 LDA가 충분히 유용하다고 판단하였다. 특히 텍스트의 멀리서 읽기와 자세히 읽기를 병행하기 위해서는 문서 내 토픽이 얼마만큼의 확률로 분포되어 있는지 제시해주는 LDA의 기능이 문서를 추적, 선별하기 위한 대략의 기준을 마련해 주었다. 일반적으로 LDA모델에 적합한 텍스트는 길수록, 그리고 많을수록 좋으며, 학자마다 의견은 분분하지만 보통 문서의 길이는 최소 200단어이상, 문서의 개수는 최소 100개 이상이 되어야 좋은 결과를 도출할 수 있다고 본다. 울프의 일기는 총 1614개의 문서로 이루어져 있으며, 각 문서의 길이는 평균 300에서 400단어로 LDA모델이 정상적으로 작동하기 위한 자료의 기준을 갖추었다.[3] 다만 이후에 소설에 LDA모델을 적용할 때, 소설처럼 길이가 지나치게 긴 문서는 노이즈 발생 확률이 높아 LDA모델이 일관된 패턴을 찾기 어렵다는 사실을 발견하였다. 울프의 소설은 대부분 5만에서 10만 단어로 이루어져 있다. 문서가 지나치게 짧으면 문맥이 손실되고 개별 조각에서 의미 있는 주제가 드러나지 않을 수있지만, 반대로 너무 길면 여러 주제가 섞이면서 분석이 흐려질 위험이 있다. 따라서 500이나 1000단어 단위로 문서를 나누면 주제 분석의 정밀도를 높이고 모델의 성능을 최적화할 수 있다는 조커스의 블로그 글을 참고하여, 울프의 소설 9권을 미리 500단어 조각으로 분할하는 작업을하였다(Jockers “Secret”).[4] 일기와 마찬가지로 소설 또한 전체적 경향을 보기 위해 9개의 소설을 모두 하나의 코퍼스로 간주하고 토픽모델링을진행하였다. 토픽의 개수를 몇 개로 고정할 것인가는 토픽모델링을 적용하면서 가장 고심했던 문제 중 하나이다. LDA는 비지도(unsupervised) 학습방법의 일종으로 토픽의 최적 개수가 미리 주어지지 않는다. 따라서 본 연구에서는 일관성 점수(coherence score)가 높고 복잡성 점수(perplexity score)가 낮은 구간을 참고하여 주제의 분화도, 의미 해석 가능성, 그리고 연구 목적과의 적합성을 종합적으로 고려해 개수를 선정하였다.[5] U_Mass, C_V, Perplexity로 대표되는 세 지표를 Z-점수로 표준화하여 통합 점수를 산출하였으며, 이를 기반으로 변동성이 감소하는 엘보우 포인트(elbow point) 및 정체구간(plateau)을 분석하였다. 그 결과, 통계적으로 가장 높은 점수를 보인 것은 5개의 토픽 모델이었으나, 해당 모델은 주요 주제가생략되는 경향이 있어 해석력 측면에서 적절하지 않았다. 이에 본 연구에서는 통합 점수의 상승 폭이 안정화되기 시작하는 엘보우 포인트이자, 주제 해석의 명확성과 분화도가 유지되는 k=10을 최종 토픽 수로 결정하였다. 또한 LDA의 특성상 토픽모델링을 실행할 때마다 토픽의 구성이 달라지는 것을 방지하기 위해 LDA모델을 실행할 때마다 특정 난수 값(random state)을 지정하였다.[6] 물론 토픽을 추출하고도 어떤 주제어 위주로 토픽 표제를 정할 것인지 하는 문제가 남아있다. 실제로 울프의 일기에서 추출한 각각의 토픽을 이름 붙이는 작업은 쉬운 일이 아니었는데, 주제어의 빈도가 높은 순서대로 정렬 시 주제어 구성에 있어서 토픽 간의 차이가 별로 나타나지않았기 때문이다. 이에 pyLDAvis모듈을 사용해 시각화를 한 후 가중치 조정 변수인 람다(λ) 값의 조정을 통해 각 주제어의 전체 중요도와 토픽별 특이성 사이의 균형을 조절하였다.[7] 물론 적정 람다 값에 대한 정답은 없기 때문에 연구자는 여러가지 요소를 고려해서 최선의 판단을 해야 하였으며, 이 연구에서 람다값은 0.6으로 고정하였다. 일기와 문학 코퍼스 정제시 품사 선택도 중요하게 고려해야 할 점 중 하나였다. 보통 주제(theme)는 명사로 결정되므로 (보통)명사만을 추출해 모델을 만드는 경우가 많다. 하지만 일기의 경우 보통명사만 추출하자 각 토픽에 속한 단어들이 서로 너무 유사해서 토픽 간 특수성을 구별하기 힘들었다. 아마도 일기의 특성상 단어 사용이 반복적이고 어휘와 표현의 수도 제한적이기 때문이라 짐작된다. 그리하여 3절의 주제어분석을 위해 일기 텍스트를 정제할 때는 장소나 인물 등의 고유명사를 포함해서 각 토픽의 문맥을 구분할 수 있도록 하였다. 결국 이 연구에서가장 중점을 둔 것은 울프의 삶이므로, 그의 삶에서 주로 언급되는 인물과 장소는 해석에 주요한 정보를 제공할 것이라 판단하였기 때문이다.이와 반대로 소설을 토픽모델링할 때 고유명사를 포함하자 등장인물 이름이 토픽 대부분을 차지하게 되는 문제가 발생하였으므로, 이후 4절에서 소설과 일기 코퍼스의 토픽 유사도를 비교할 때는 두 텍스트 모두 보통명사만을 포함하였다. 2) SBERT 방식을 활용한 코사인 유사도 측정 및 단어 빈도분석 토픽모델링을 통해 일기의 전체적 주제를 연계하여 구조화한 후에는 일기와 소설의 토픽간 코사인 유사도를 분석한 후, 이를 의미적 차원에서 보완하기 위해 마지막 섹션에서 소설을 대상으로 한 단어 빈도분석을 진행하였다. 우선 코사인 유사도 측정 단계에서는 앞에서와 마찬가지로 LDA기반 토픽모델링을 사용해 일기와 소설의 토픽 및 키워드 시퀀스를 추출한 후, 이에 추가로 SBERT (Sentence-BERT) 기반 임베딩을활용하여 각 토픽을 보다 고차원적 의미 공간에서 비교할 수 있게 하였다. LDA 기반 토픽모델링은 문서 내 단어들의 동시 출현 빈도를 바탕으로 주제를 추출하는 데 효과적이지만, 단어 간 의미적 유사성이나 문맥을 반영하지 못한다는 한계가 있다. 이러한 문제를 극복하기 위해 문맥과 의미 기반의 비교가 가능한 SBERT 임베딩을 도입하여, 토픽이 단순히 동일한 단어를 포함하는지 여부를 넘어 주제가 문맥적으로 얼마나유사한지까지도 평가하고자 하였다. 토픽모델링이 ‘함께’ 등장한 단어 집합의 빈도를 보는 것이라면, 단어 빈도분석 및 핵심어 추출은 개별단어의 빈도와 상대적 빈도인 핵심도(keyness)을 보는 데 사용된다. 개별단어의 빈도와 핵심도를 살펴봄으로써 (고유명사를 제외한) 텍스트 내 주제어의 중요도를 간접적으로 살펴볼 수 있고, 그리하여 토픽모델링에서 추출된 주제어들이 실제로 얼마만큼 텍스트에서 큰 비중을 차지하고 있는지를 재확인할 수 있다. 본 연구에서 채택한 AntConc 프로그램의 플롯(plot)기능과 KWIC(keyword in context) 기능은 소설별 빈도분포와 단어가 속한 문맥까지도 한눈에 볼수 있게 해 준다는 장점이 있다. 특정 단어 또는 단어 집합의 빈도가 소설이 출간된 연도별로 어떻게 변화했는지, 특정 단어가 어떤 뉘앙스로사용되었는지를 손쉽게 살펴볼 수 있어 빈도분석을 기반으로 자세히 읽기를 할 때 주된 도구로 사용하였다. 3) 키워드의 정의…

  • 1. 들어가며 찰스 디킨스(1812~70)가 『올리버 트위스트』(Oliver Twist)의 연재를 시작한 1837년은 공교롭게도 빅토리아 여왕이 즉위한 해다. 빅토리아조(1837~1901)의 공식적 개막과 함께 본격적인 소설 집필활동을 개시한 것이다. 소설가, 언론인, 개혁가로서 당대 영국 사회에 대한 비판적발언을 아끼지 않으며 열정적으로 현실 정치에 개입했던 인물인 디킨스의 생애에 관한 연구는 그 자체로 19세기 소설장르에 대한 연구라 할수 있다. 즉, 디킨스의 소설이 쓰여지고 읽힌 문화적, 역사적 맥락을 파악함으로써 19세기 영국 문화사에 중요한 통찰을 얻을 수 있으며, 디킨스의 편지는 그 작업에 중요한 자료를 제공한다. 전화와 인터넷이 존재하기 전, 19세기 영국인들에게 핵심적인 비대면 소통수단은 단연 편지였다. 21세기 한국인의 카카오톡이나 인스타그램 등 SNS 사용량을 고려하면, 몇몇 19세기의 인물들이 현대인이 보기에 경이로울 정도의 편지를 남긴 것은 자연스러운 일이다. 물론 그편지가 모두 살아남지는 못했다. 제인 오스틴(Jane Austen)의 언니 카산드라(Cassandra)는 오스틴과 교환한 서신의 상당 부분을 오스틴 사후불에 태워버렸다. 카산드라처럼 편지를 완전히 없애 버리지는 않더라도, 작가의 가족들은 작가의 이미지를 위해 편지를 세심하게 고르고 때로는 수정하여 세상에 내놓기도 했다. 디킨스의 처제 조지나 호가스(Georgina Hogarth)와 큰딸 메이미 디킨스(Mamie Dickens)는 그의 사후 서간집(The Letters of Charles Dickens, 1879)을 출판할 때 적극적인 선별 및 수정작업을 거쳤다.[1] 그럼에도 20세기 편집자들은 디킨스의 편지를발굴, 복원, 편집하는 데 진심이었다. 그렇게 완성된 그들의 노력의 결실은 1965년부터 2002년에 거쳐 총 12권으로 집대성되어 ‘필그림 에디션’(Pilgrim Edition)이라 불린다. 현재까지 발견되어 출판된 디킨스 편지는 5,000통이 훌쩍 넘으며, 새로운 편지도 온라인 데이터베이스에 꾸준히 추가되고 있다. 필그림에디션 출간 후 새롭게 발견된 편지는 리트박(Leon Litvack), 크레이그(Lydia Craig), 제러미 패럿(Jeremy Parrott), 캐디(Scott Caddy)의 찰스 디킨스 편지 프로젝트’(The Charles Dickens Letters Project, 이후 DLP)에 무료 공개되어 있다.[2] 이 방대한 분량의 편지는 연구자료로서 가지는가치에도 불구하고 전기에 활용되거나 논문에 가끔 인용되는 수준을 넘지 못했다. 달리 말해, 그 자체로 진지한 연구의 대상이 된 적은 드물다. 이 논문을 작성하며 편지를 직접 읽은 경험에 비추어 볼 때, 한 명의 연구자가 필그림 에디션 12권 전권에 수록된 편지를 전부 읽는 것은그 자체로 거대한 과업에 가깝다. 경이로울 정도로 활동적이었던 디킨스가 영국과 유럽대륙, 아메리카 대륙을 누비며 만나 편지를 교환한 사람들이 어떤 인물인지 간단하게라도 확인하며 편지를 읽으려 한다면, 적어도 반년은 다른 일을 하지 않고 편지만 읽어야 할 것이다. 특정 연구주제와 관련된 일부를 선별하여 연구에 활용하는 것도 의미있는 작업이지만, 이 서간집이 담아내는 19세기 영국을 좀 더 포괄적으로 조망하기 위해서는 일반적인 문학 텍스트 중심의 논문과는 완전히 다른 접근법이 요구된다고 하겠다. 이 연구는 새로운 접근법을 디지털 인문학에서 찾으려 하며, 디킨스의 편지 연결망 일부를 사회 연결망 분석에 사용되는 툴 게피(Gephi)를 사용하여 분석한다. 연구대상은 디킨스가 『올리버 트위스트』 연재 시작 직전 13개월(1836년 1월~1837년 1월) 동안 남긴 편지다. 숫자 상으로 19세기 중반인 1836~1837년은, 학술적으로 통용되는 시대 구분으로 장기 18세기의 끝자락이자 장기 19세기의 한 가운데를 차지하는 시기로 낭만주의와 빅토리아조의 경계에 있는 시기다. 이 논문은 신인 작가의 편지 연결망을 통해 빅토리아조 개막 직전 장기 18세기와 장기 19세기가 중첩되는 시기 영국(주로 잉글랜드, 그 중에서도 런던)의 문화 및 출판계의 지형를 살핌으로써, 작가로서 디킨스의 성숙 과정이 이 시기의 독특한 사회적 분위기와 개인적 경험에 어떻게 빚졌는지 고찰하고 초기 디킨스의 핵심작 『올리버 트위스트』가 이 시기의 창작물로서 가지는 특징적인 면모를 분석한다. 게피를 사용한 디지털 인문학 논문이지만, 이 논문은 연결망 분석에 대한 이론적 설명이나 분석 도구의구체적인 사용법보다, 1) 도구를 사용하여 구현한 시각화 결과물이 연구의 방향을 설정하는 데 어떻게 활용될 수 있는지, 2) 양적연구가 앞서축적된 질적연구의 결과와 어떻게 맞닿으며 보완의 가능성을 열어주는지 보여주는 것을 목표로 작성되었다. 달리 말해, 가설을 먼저 세우고그 가설을 증명하는 것보다, 데이터에서 연구주제를 발굴하는 데 중점을 둔 탐색적 성격을 가진 글임을 밝힌다. 2. 방법론과 데이터 정리 과정 연결망 분석은 사회과학에서 발전시킨 연구분야이자 방법론이다. 행위자를 노드(node)로, 행위자 사이를 잇는 선을 에지(edge)로 부르며, 아래의 그림들에서 보듯 동그라미(노드)가 선(에지)으로 연결된 형태를 취한다.[3] 한국에서도 1980년대에 이미 연결망 분석이 언론, 사회, 정치 등 여러 사회과학 분야의 연구에 등장했다. 국내 사회관계망 연구의 대표적 초기 연구자인 김용학은 연결망 개념의 기초 소개(1987)부터대중가요 가사 핵심어 연결망 분석(2015)까지 다양한 층위와 분야에서 연결망 분석 논문을 발표해 왔다. 강명구, 김용호, 김정아는 1993년 신문기사를 데이터로 한국 정치권력을 연결망 분석으로 구조화하는 연구를 발표한 바 있다. 2000년대 이후 인문학 분야에서도 디지털적 방법론에 대한 관심이 확산되면서 문학연구에 연결망 분석이 도입되었다. 문학에서 연결망분석을 활용한 대표적인 국내 연구로 이재연의 논문(2014)을 들 수 있다. 이재연은 작가집단과 투고 및 발표 지면에 주목하여 1920년대 ‘근대작가’가 형성되는 과정을 연결망 분석으로 추적한다. 1930년대 후반 시인과 그들이 시를 발표한 동인시지를 연구한 이유미, 김바로의 논문(2022)도 이 방법론을 사용한다. 영문학계에서는 비평이론 인용문헌 연결망으로 한국 영문학계 학술장의 지형도를 그린 김용수의 연구(2022)가 주목할 만하며, 문학 텍스트 속 인물 관계의 연결망을 분석한 논문으로 오스틴(Jane Austen)의 『엠마』(Emma)에 관한 원영선의 논문(2023)이 있다. 이 논문이 기초 데이터로 삼는 편지는 역사 문헌을 활용한 연결망 분석의 고전적이며 대표적 재료다. 21세기 디지털 인문학의 발흥이 추동한 데이터베이스화 작업의 대표적 성과로, 유럽과 아메리카 대륙의 지식인 간의 편지 연결망을 통해 계몽주의 지성사를 시각화하는 스탠포드 대학의 “문필 공화국 지도 그리기”(Mapping the Republic of Letters)를 들 수 있다. 시기별로 변화하는 연결망을 시각화한 연구로 알브레히트(Kim Albrecht), 애너트(Ruth Ahnert), 애너트(Sebastian E. Ahnert)의 “튜더 연결망”(Tudor Networks)을 들 수 있다. 이 기획은 1509년부터 1603년까지, 헨리 8세부터 엘리자베스 1세의 재위 기간 약 백 년 간 튜더 왕조의 정부가 보낸 편지의 연결망을 분석하기 위해 편지를 시기별로 구획화한 시계열 그래프를 그린다.[4] 이 논문은 편지 연결망에 기반한 문화사 연구인 한편, 편지 내부에 언급된 인물과 문학, 문화 텍스트를 소환하여 수신자-발신자 연결망에추가한다는 점에서 일반적인 편지 연결망 연구방법론을 수정하며, 이 수정은 연결망 분석을 활용한 이전의 문학연구들과 궤를 같이 한다. 앞서 소개한 국내 연구에서 본 바 같이, 문학연구에 연결망 분석이 활용될 때 작가, 텍스트, 매체, 출판사 등이 노드로 설정되는 일이 잦다. 이런방법론적 설계는 해외 빅토리아조 문학연구에서도 종종 볼 수 있다. 휴스턴은 빅토리아조의 시 출판망을 추적하면서 작가와 출판사를 노드로 두는데, 이들 사이에 에지가 있으면 특정 작가가 자신과 에지로 연결된 출판사에서 책을 출판했음을 뜻한다(503). 편지를 직접 읽어, 편지에 언급되는 인물과 텍스트를 찾아내어 데이터셋을 만들었다는 데 이 논문의 방법론적 특징이 있다. 200통 가까이되는 편지를 꼼꼼하게 읽어, 스프레드 시트에 옮겨 적었다.[5] 데이터 정리 방식과 연구 설계 측면에서 버클스(Peter Buckles)의 2023년 논문을참고했다. 버클스는 1800년을 전후로 활동한 서인도제도 상인이자 대농장주인 존 피니(John Pinney)의 네비스-브리스턴 연결망을 그의 회계장부를 근거로 재구성한다. 그는 피니의 사업에서 여성이 수행한, 그러나 겉으로 드러나지 않았던 역할을 조명하는 것을 목표로 한다(894). 버클스는 회계장부를 2년씩 쪼개어 분석한 시계열 그래프를 그리고, 피니를 중심으로 재구성한 연결망에서 피니를 ‘걷어내어’ 당대의 상업연결망의 한 단면을 되살린다. 이 논문은 피니 중심의 연결망에서 피니를 걷어내는 버클스의 작업에서 착안하여, 디킨스 중심의 데이터에서 디킨스를 걷어내어 시각화한 결과를 보여준다. 저자는 버클스와 달리 특정한 가설 없이 데이터 정리에 착수했다. 가설은 없으되, 시각화한 편지 연결망을 이 시기 디킨스의 삶과 작품에 대해 누적되어 온 연구 결과와 비교하겠다는 목표는 있었다. 디킨스는 작품에 대해 축적된 연구도 방대하지만, 여러 권의전기가 발간되었으며, 생애사가 꾸준히 연구되는 작가다. 편지 연결망 그리기라는 작업이 시도된 적 없을 뿐, 이 거대한 작업에 착수하여 그리기만 하면, 그 연결망이 보여주는 관계도가 개입할 수 있는 기존 서사가 충분하다는 뜻이다. 정리하자면, 질적연구의 결과물을 양적연구가재확인해주는 것도, 질적연구를 비껴간 관계를 양적연구를 통해 발견하는 것도 모두 학술적으로 가치가 있다는 입장에서 데이터에 접근했으므로 구체적인 가설을 세우지 않았다. 시각화 결과물에서 흥미로운 지점을 선행연구와의 관계 속에서 점검하면서 논문 주제를 발전시켰다. 한편, 버클스는 회계장부 같은 특정인 중심의 자료가 연결망 작성의 기초가 될 때 ‘자아 중심성’(egocentriticy)의 문제가 발생한다고 지적하는데(897-98), 편향성을 완화하기 위해 이 논문은 버클스를 따라 중심인물 디킨스를 걷어 낸 그래프를 그려보았다.[6] 모든 편지의 작성자로서 디킨스가 모든 관계를 매개하므로, 디킨스를 걷어 내고 남은 연결망은 여전히 간접적인 연결망이다. 그럼에도 이렇게 재구성된 연결망을 통해 당대 문화계 연결망의 한 단면을 간접적으로나마 들여다볼 수 있다는 점에서 이 작업은 의미가 있다. 이 연구는 세 개의 에지 리스트를 만들어 게피에 업로드, 분석했다. 세 스프레드시트 모두 두 열로 구성된 가장 단순한 형태로 작성했다. 다음은 에지 리스트를 작성하며 터득한 노하우를 포함한 일종의 가이드라인이다.  스프레드 시트①은 A열의 디킨스를, B열에는 수신인의 이름을 채워 넣는 단순 반복적인 작업으로 완성할 수 있다. 스프레드 시트②부터는 적극적인 텍스트 해석이 요구된다.[7] 기본 절차는 다음과 같다. 스프레드 시트①을 복사한 후, 편지를 읽으면서언급되는 (실존)인물과 문학, 문화 텍스트를 찾아내어 C열에는 인물을, D열에는 텍스트를 채워 넣는다. 텍스트 제목 앞 정관사는 생략하여라벨 길이를 줄인다. 사람이나 텍스트가 언급될 때마다 행을 하나씩 추가한다.…

  • 1. Introduction This paper argues that women’s success, when pursued within structures of neoliberal capitalism or racialized performance culture, often demands ethical betrayal—of solidarity, of ancestral memory, and of the self. Drawing on cultural memory theory and tragic framework of moral insight, I examine Caryl Churchill’s Top Girls (1982) and Sun Mee Chomet’s Asiamnesia (2008) as dramatic enactments of…