김희진
1. 들어가며: 텍스트 시각화와 매체의 전환
‘디지털 도전 이후의 영문학 연구와 교육’이라는 특집 주제는 독특한 시간성을 내포한다. “도전 이후”라는 시공간은 도전의 시기와 그 이후의 시기를 구분 짓고, 도전을 넘어선 무엇을 요청한다. 지난 10여 년간 이어진 담론 또는 방법론으로서 디지털인문학에 대한 심층적 논의는 이제 담론적 차원이 아닌 실증적 차원에서 인문학 연구에 기여하기를 기대하는 듯하다. 디지털인문학의 방법론이 인문학 연구와는 태생적으로 이질적인 측면을 지니는 것은 부인할 수 없으며, 이러한 한계는 디지털인문학의 다양한 분석 도구가 텍스트의 차원에서 적용되었을 때 피상적 차원에 머문다는 지적을 불러일으켰다. 또한 서사 속 등장인물을 시각화하여 분석하는 것은 텍스트라는 다층적 공간 안에서 언어의 복잡한 의미망을 거쳐 재현된 등장인물을 2차원의 공간 안에 도식적으로 재단하는 성격이 짙다. 숫자의 조합으로 재가공된 햄릿(Hamlet)의 독백은 어떠한 차원에서도 독백의 단어 하나하나가 당대의 종교, 역사, 철학적 맥락과 함께 구성하는 중층적 의미망을 풀어낼 수 없다. 시각화는 텍스트의 계량적 측면을 포착하여 문자를 도식으로 변형하는 매체(medium)의 전환 작업이며, 이 과정은 한 매체가 지닌 특수한 의미체계를 전혀 다른 체계로 대체하는 것이므로 텍스트의 특수성은 상실될 수밖에 없다.
하지만 다른 한편으로 하나의 의미체계를 다른 매체로 전치하는 작업은 텍스트의 시각화에 한정된 것이 아니다. 셰익스피어(William Shakespeare)의 희곡이 일차적으로는 독서를 위해 쓰인 작품이 아니라 공연을 위한 대본이었다는 것은 셰익스피어 생전에 공연된 36편의 작품 중 적어도 18편이 셰익스피어 사후에 텍스트로 처음 출판되었다는 점에서 알 수 있다.1) 셰익스피어를 텍스트로 ‘읽는’ 작업은 한편으로는 당대의 극단, 배우, 극장, 관객이 역동적으로 구축하는 의미망을 문자의 층위에 한정시키는 것일 수도 있다. 셰익스피어 극단의 광대역 배우인 켐프(William Kempe)가 텍스트에 기록된 대사를 어떻게 즉석에서 광대 연기로 공연했는지는 공연이 텍스트로 전환되는 과정에서 상실되는 부분이다. 셰익스피어의 극단이 새롭게 확보한 블랙프라이어즈(Blackfriars) 실내극장에 막(act)이 없는 장(scene)으로만 구성된 극을 올리며 작품을 5막으로 재구성한 것은 어두운 실내를 밝히는 양초 심지를 자르는 주기에 맞춰진 것으로 추정되는데, 이는 매체의 물질성이 어떻게 작품의 의미망 형성에 관여하는지 보여주는 사례다.2) 셰익스피어 텍스트의 시각화는 텍스트의 언어적 특수성을 포착할 수 없지만, 이는 출판된 텍스트가 연극의 공연성을 담아낼 수 없는 것과 같이 매체의 전환 과정에 수반되는 유실이다.
하지만 매체의 전환이 반드시 유실만을 가져오는 것은 아니다. 1623년 극 36편을 수록한 셰익스피어 전집의 출판은 단지 공연의 텍스트를 기록의 형태로 보전해 셰익스피어의 극이 문화적 유산으로 자리잡게 해준 것뿐만 아니라, 무대 위에서 대화로 전달될 때 파악하기 힘든 언어의 깊이를 ‘읽기’ 행위를 통해 탐구할 수 있게 해주었다. 셰익스피어 극의 등장인물 관계망(character network) 시각화도 이처럼 ‘읽기’ 대신 ‘세기’ 그리고 ‘보기’를 통해 포착 가능한 새로운 의미의 층위를 탐구할 수 있게 한다. 수를 센다는 것은 어떤 측면에서 반문자적 행위로 보일 수도 있지만, 문자 역시 기호의 조합을 통해 이루어져 있으며 수의 조합은 문자의 조합과는 다른 종류의 의미 관계망을 드러낼 수 있다. 무엇보다도 모든 희곡 텍스트에 전제된 수적 기본 단위는 대사를 연기하는 배우의 수일 것이다. 실제로 셰익스피어 시대의 희곡 텍스트는 연기하는 배우들에게 각자 맡은 부분만 잘라내서 주어졌고, 각 배우는 공연이 시작되기 얼마 전 리허설을 할 때에야 전체 텍스트를 다른 배우의 연기를 통해 확인할 수 있었던 것으로 밝혀졌다.3) 텍스트에서 등장인물은 연속적으로 전개되는 서사 텍스트에서 대화의 단락을 구분하는 대사 접두어(speech prefix)에 불과할지 모르지만, 공연에서 등장인물은 연기자의 몸을 통해 극의 서사를 체현하는 핵심 단위다. 등장인물 간의 관계망은 사건의 연속적 인과관계로 파악될 수 있는 텍스트 내적 서사구조와는 다른 종류의 의미망을 구축하며, 극의 생산・유통・수용 과정의 물질적 조건과 맞닿아 당대의 역사적・문화적・경제적 맥락을 담을 수 있다.
2. 중세 유랑극단의 등장인물 관계망과 신고전주의적 통일성
튜더왕조 시대 희곡에 나타나는 등장인물과 극의 서사구조 사이의 관계에 대한 베빙턴(David Bevington)의 연구는 유랑극단의 물질적 조건 때문에 소수의 배우로만 공연된 초기 튜더시대 희곡이 어떻게 1580년대를 거쳐 말로(Christopher Marlowe)가 활동하던 1590년대의 극으로 발전했는지를 추적하는데, 등장인물 관계망 분석이 르네상스 희곡을 연구하는 데 어떠한 의미를 지니는지 보여준다. 베빙턴에 따르면 도덕극을 비롯한 대부분의 16세기 초중기 극은 네 명에서 여섯 명의 배우로 구성된 유랑극단으로도 공연이 가능하다. 한 배우가 1인 2역 또는 3역을 소화함으로써 10여 명의 등장인물로 구성된 극도 소규모 극단이 공연할 수 있는데, 두 배역이 무대에 동시에 등장하지 않는 것이 이를 가능하게 하는 충족 요건이다. 베빙턴의 연구는 1570년대까지 대부분의 극이 이러한 극단의 물질적 제약을 따랐으며 주요 등장인물을 제외한 여타 인물이 두 집단으로 군집하는 형태를 취한다는 점을 밝힌다. 또한 더 이상 유랑극단이 아닌 런던에 상주하는 극단이 1580년과 1590년에 걸쳐 공연했던 말로의 극에도 이러한 등장인물 군집 형태가 잔존함을 지적한다.4) 등장인물 관계망 분석을 바탕으로 16세기 희곡 서사구조의 역사적 변천 과정을 추적하는 이러한 베빙턴의 연구는 극의 서사구조를 텍스트를 통해 ‘읽을’ 수 있는 사건의 연속적 인과관계를 통해서가 아니라, 배우로 구성된 극단의 물질적 조건과 연결해 읽을 수 있는 지점을 제공한다. 또한 이는 더 나아가 르네상스 극의 서사구조를 지탱하는 ‘통일성’이 무엇인지 다시 살펴보게 한다.
아리스토텔레스(Aristotle)는 『시학』(Poetics)에서 “잘 구성된 서사는 이중적이 아니라 단일적이어야 한다”면서 서사의 통일성을 강조한다.5) “태양의 일회 공전”(a single revolution of the sun) 시간 아래 짜인 서사 등으로 구체화되는 아리스토텔레스의 고전적 통일성 원칙은 르네상스 희곡의 서사구조에 지속적으로 영향을 끼쳤다.6) 1595년 출판된 『시의 옹호』(A Defence of Poetry)에서 시드니(Philip Sidney)는 “아리스토텔레스의 원칙과 상식에 따라 무대는 언제나 하나의 장소를 재현해야 하며, 여기에 상정된 궁극적 시간은 하루여야 한다”면서 르네상스 희곡은 고전적 통일성을 따라야 한다고 주장한다.7) 하지만 도런(Madeleine Doran)은 일부 신고전주의적 희곡을 예외로 하는 많은 르네상스 희곡이 아리스토텔레스의 고전적 통일성을 따르기보다는 “다양성과 순차적 사건”(multiplicity and sequential action)을 특징으로 하는 중세적 서사를 전승한다고 본다.8) 베빙턴과 도런의 통시적 연구는 르네상스의 주요 기획 중 하나인 신고전주의적 접근이 어떻게 중세적 특성과 단절하지 않고 이를 계승하는 방식으로 전개되었는지를 밝혀내어 르네상스 희곡의 중층결정(overdetermination) 양태를 드러낸다. 이 글은 셰익스피어 극의 등장인물 관계망을 등장인물의 군집 양상을 집단마다 다른 색상과 모양을 써서 직관적 방식으로 시각화하고, 군집성의 정도를 수치화하여 여러 희곡을 비교분석함으로써, 신고전주의적 통일성과 유랑극단의 물질적 조건에 바탕을 둔 중세적 서사구조가 셰익스피어의 극에서 어떠한 긴장관계 속에서 나타나는지를 추적하는 통시적 디지털인문학 연구의 일환이다.
3. 연구방법: 등장인물 관계망의 구성 요소
셰익스피어 극의 등장인물 관계망을 구축하기 위해 사용된 극의 요소는 두 가지다.9) 첫째, 극이 전개되는 서사 시간 선상에서 무대에 동시에 존재하는 등장인물 간의 관계, 둘째, 각 등장인물 사이에 오고간 대화의 양이다. 이 두 가지 요소는 통시적 서사구조를 연구하기 위한 관계망 구축의 기본 요소를 명확한 일관성을 지닌 형태로 제시한다는 점에서 『햄릿』(Hamlet)의 등장인물 관계망을 시각화한 모레티(Franco Moretti)의 선행 연구와 차이를 보인다. 모레티는 “만약 두 등장인물이 서로 대화하거나 같이 있다면 둘은 하나의 관계를 이룬다”는 전제 아래 “전적으로 손으로 만든”(all made by hand) 관계망을 그려내는데, 이는 한 번 대화를 나눈 것이나 다수의 대화를 나눈 것, 대화의 양과 내용 등을 무차별적으로 “하나의 관계”로 설정하는 것으로서 이를 바탕으로 한 관계망의 시각화는 해석의 주관성을 배제할 수 없다.10) 예를 들어 모레티는 시각화된 관계망을 근거로 “한쪽 편의 선왕 햄릿, 포틴브라스(Fortinbras)와 다른 쪽 편의 클로디어스(Claudius) 사이에는 완전한 불균형이 있다. 일반적인 힘의 균형이 존재하지 않는다”와 같은 해석을 하는데, 등장인물 사이의 거리 설정이 처음부터 주관적으로 이루어진 것임을 고려하면 이를 근거로 한 주관적 해석은 논리적 오류에서 벗어나기 어렵다.11) 본 연구는 관계망 시각화에 사용된 등장인물 사이의 거리 설정의 근거를 명확히 함으로써 텍스트의 계량적 근거를 바탕으로 객관적 시각화를 시도하고, 시각화된 등장인물 관계망과 중세적 서사구조 사이의 관계성을 추적한다.
무대에 동시에 존재하는 등장인물 간의 관계를 고려하는 첫 번째 구성 요소는 베빙턴의 선행 연구방법론을 차용한다.12) 베빙턴은 무대에 동시에 오르지 않는 등장인물 사이의 관계 분석을 통해 르네상스 극에 드러난 중세적 서사구조를 연구하는데, 본 연구는 베빙턴의 연구를 디지털인문학의 계량적 시각화 방법에 적용하기 위해 [표1]과 같이 등장인물이 무대에 있을 경우를 1로, 없을 경우를 0으로 표기한다.13) 또한 서사의 시간을 막 또는 장이 전환되는 단위보다 더 정교하게 구분하기 위해 텍스트의 각 행을 하나의 시간 단위로 설정한다. 즉 4167행으로 이루어진 『햄릿』은 4167개의 시간 단위로 나뉘며 첫 행에 등장하는 버나도(Bernado)와 프란시스코(Francisco)는 첫 번째 시간 단위에서 1로 표기되고 다른 등장인물은 모두 0으로 표기된다.14) 또한 프란시스코의 경우 22행에서 무대 밖으로 퇴장하기까지 1행부터 21행까지 모두 1로 표기된다. 『햄릿』 1막 1장의 경우 38명의 등장인물에 해당하는 38개의 행과 4167개의 시간 단위를 의미하는 4167개의 열로 이루어진 15만 8346개 칸의 표는 등장인물의 무대 입장과 퇴장을 기록하는 무대 지시(stage direction) 내역을 행 정보와 연계해 자동 추출하는 방식으로 수집되었다. [그림1]과 같은 폴저 셰익스피어 도서관(Folger Shakespeare Library)이 제공하는 TEI-XML 형태의 텍스트는 원문 텍스트와 연계 정보를 인식할 수 있도록 구조화한 것으로서 프로그래밍을 통해 자동 추출할 수 있다.15)[그림2]는 이를 위한 프로그래밍 코드의 일부로서 텍스트의 행 정보와 무대 정보를 추출하는 과정의 일부를 보여준다.16) 『햄릿』의 예시에서 보여진 것과 같은 방식을 통해 셰익스피어의 희곡 38편에 대해 38개의 표를 만들었다.



[표2]는 각 등장인물이 무대 위에 서 있는지를 0과 1로 기록한 [표1]을 바탕으로 각 등장인물 간의 무대 동시성을 수치화한 것이다. 『햄릿』의 [표1]을 예로 들자면, 프란시스코와 버나도는 1행에서 무대에 동시에 올라와 있으므로 1행에 대해 프란시스코와 버나도는 서로 1의 수치를 지닌다. 1막에서 두 등장인물은 21행까지 동시에 무대에 있으므로 합 21을 기록한다. 이 두 등장인물은 극 전체에서 1막을 제외하고는 동시에 무대에 서지 않기 때문에 최종적으로 21이라는 수치를 무대 동시성 수치로 가진다. 이러한 계산방식으로 햄릿과 클로디어스의 동시성 수치인 802는 두 등장인물이 4167행으로 이루어진 극 전체에서 802행에 걸쳐 무대에 동시에 존재함을 의미한다. [표2]의 38행과 38열로 구성된 행렬(matrix)은 『햄릿』의 등장인물 38명에 대해 각각의 무대 동시성을 수치화한 것이다. [표2]와 같이 등장인물이 행과 열을 구성하고 등장인물 사이의 관계를 수치로 표현하는 행렬은 사회관계망(socialnetwork) 구축에 기반이 되는 자료가 된다.17)

관계망 구축에 사용된 첫 번째 구성 요소인 무대 동시성에 기반한 [표2]와 다르게, [표3]은 두 번째 구성 요소인 등장인물 사이의 대화량을 기반으로 한다. 두 등장인물 사이의 대화는 먼저 한 등장인물의 대사에 포함된 단어 수의 총합을 구한 후, 이 대사가 이루어진 시점에 무대 위에 존재하는 다른 모든 등장인물을 청자로 설정하고 수치화한다. 『햄릿』 1행을 예로 들면, 버나도가 “Who’s there?”라고 말하는 시점에 무대에는 프란시스코가 같이 있다. 따라서 1행의 두 단어에 대해 버나도와 프란시스코는 2라는 수치를 획득한다. 이어지는 2행에서 프란시스코는 7개 단어로 이루어진 대사를 하고 이에 대해 버나도가 청자로 설정되어 두 등장인물 사이의 관계는 2행까지 9라는 수치를 지니게 된다. [표3]의 행렬에서 버나도와 프란시스코는 최종적으로 52라는 수치를 가지는데, 이는 버나도와 프란시스코가 작품 전체에서 총 52개 단어의 대화를 주고받았음을 의미한다. 이와 같은 방법으로 화자로 설정된 모든 등장인물의 대사에 대해 청자로 설정된 등장인물 사이의 관계를 대사의 단어 총수로 수치화한 것이 대화량에 기반한 행렬이며, 이러한 방식으로 셰익스피어의 작품 38편에 대해 프로그래밍을 통해 38개의 표를 만들었다.

4. 등장인물 무대 동시성과 군집 분석
0과 1의 조합으로 등장인물의 무대 동시성을 행렬로 제시하는 [표1]에 대한 시각화는 등장인물의 무대 동시성에 대한 직관적 이해를 돕는다. [그림3]은 『햄릿』의 등장인물 무대 동시성을 시각화한 것의 일부로서 1막 1장부터 3장에 이르는 1행부터 472행까지의 서사 시간 동안 햄릿을 제외하고는 1막 1장과 3장에 등장하는 버나도, 프란시스코, 마셀러스(Marcellus), 호레이쇼(Horatio), 유령(Ghost)으로 이루어진 일군의 등장인물과 1막 2장에 등장하는 폴로니어스(Polonius), 레어티즈(Laertes), 거트루드(Gertrude), 클로디어스, 코닐리어스(Cornelius)로 이루어진 집단이 완전히 분리되어 순차적으로 교차하는 것을 시각적으로 확인할 수 있다. 부분적인 예시에 불과하지만, 『햄릿』 1막의 이러한 등장인물 군집 형태는 도런이 지적한 중세 서사의 “순차적 사건” 전개의 형태를 17세기 전환기 셰익스피어 극에서도 확인할 수 있는 것으로 볼 수 있다. 또한 이러한 분리된 군집 형태는 여러 배역을 한 배우가 소화할 수 있는 형태로 구조화된 퀸스멘(Queen’s Men)과 같은 유랑극단의 서사구조가 역병의 시기를 제외하고는 런던에 상주했던 셰익스피어의 극단에도 부분적으로 이분된 등장인물 군집 형태로 남아 있는 것으로 해석할 수 있다.18)
셰익스피어 극 38편에 대한 [그림3]과 같은 시각화는 개별 작품이 각 행의 단위에서 어떻게 등장인물이 군집하는지 직관적인 자료를 부분적으로 제공하지만, 작품 전체의 군집성을 파악하고 한 작품과 다른 작품을 군집성 중심으로 비교하는 데는 한계를 지닌다. K-평균 군집화(K-means clustering)는 주어진 K 군집의 숫자에 따라 모든 데이터 포인트를 가장 적절하게 분할하는 알고리즘으로, K값을 2로 하여 두 개의 집단으로 극의 모든 등장인물을 최적으로 분할하는 방법을 찾는 데 활용되었다.19) K-평균 군집화를 통해 분석된 등장인물 관계망이 주어진 K개의 집단에 얼마나 정확히 들어맞는지는 실루엣 점수(silhouette score)를 통해 측정할 수 있다.20) 이 연구에서 실루엣 점수는 한 명의 등장인물이 가장 가까운 다른 집단에 속한 등장인물들과의 평균거리와 같은 집단 내 다른 등장인물들과의 평균거리를 기반으로 측정한다.21) 실루엣 점수는 -1.00부터 1.00 사이의 값을 지니는데, 1.00은 주어진 K개의 집단으로 관계망이 완전히 구분되는 것을, 0.00에 근접한 값은 집단 구분의 경계선에 근접하게 위치하는 것을, -1.00에 근접한 값은 잘못된 집단에 속한 것을 의미한다. [그림4]는 셰익스피어 작품 38편에 대해 K값을 2로 지정할 때, 즉 등장인물의 관계망을 두 집단으로 나눌 때 얼마나 잘 구분될 수 있는지를 실루엣 점수를 기반으로 보여주는 것이다. 이는 르네상스 희곡에 남아 있는 중세 희곡의 이분적 구조라는 베빙턴의 가설을 계량적 연구방법으로 살펴보려는 시도다. [그림4]에서 38편의 작품은 작성 연도를 기준으로 나열되어 있으며, 막대그래프의 색은 희극(하늘색), 비극(회색), 역사극(빨간색)이라는 세 개의 장르를 나타낸다.22) [그림4]는 실루엣 점수와 작품의 작성 연도 사이에 유의미한 상관관계가 없음을 보여준다. 즉 셰익스피어 초기극이 후기극보다 더 이분적 구조를 지니지 않는다.

반면 실루엣 점수가 높은 다수의 작품이 빨간색으로 표시된 역사극이라는 사실은 [그림4]에서 확인된다. 이분적 극의 구조와 장르 사이의 유의미한 상관관계는 [그림5]에서 살펴볼 수 있듯이, 0.90을 넘어서 1.00에 가까운 실루엣 점수를 가진 작품이 모두 역사극임을 알 수 있고, 역사극의 중위수(median)가 0.50이 안 되는 다른 장르의 작품과 달리 유일하게 0.50을 넘어서는 0.78을 나타내는 것을 통해 증명된다. 셰익스피어의 역사극이 다른 장르에 비해 이분적 극 구조를 지니고 있다는 점은 베빙턴의 선행 연구와 문학사적 맥락을 공유한다. 베빙턴은 르네상스 초기 역사극이 선과 악으로 이분화된 극의 구조를 지닌 중세 희곡의 장르 “영혼의 전쟁”(Psychomachia)의 영향을 받았음을 밝히며, 중세 희곡으로부터 르네상스 희곡으로의 계승 과정에서 역사극의 역할에 특히 주목한다.23) 베빙턴의 연구는 1590년대 초기 말로의 작품까지만 이러한 중세와 르네상스 사이의 영향 관계를 다루지만, 실루엣 점수를 시각화한 [그림4]와 [그림5]는 셰익스피어의 역사극에서도 유사한 영향 관계를 발견할 수 있다는 가능성을 보여준다. 그러나 K-평균 군집화와 실루엣 점수를 기반으로 한 계량적 방법을 무대 동시성에 기반한 등장인물 군집성으로 직접 적용하는 데는 여러 한계가 있다. 예를 들어 『리처드3세』의 경우 2막 3장에서 세 명의 시민(Citizen)이 등장해 셋이서만 대화를 주고받고 무대에서 사라진다.24) 이러한 경우 이 셋은 다른 등장인물과는 완전히 분리된 집단으로 나뉠 수 있고, 이에 따라 약 0.90이 넘는 실루엣 점수를 가진다. 실루엣 점수에 따르면 『리처드3세』는 등장인물이 거의 완전히 두 개의 집단으로 분리될 수 있는 극이고, 실제로 시민 역을 맡은 등장인물은 다른 어떠한 등장인물도 맡을 수 있는 전형적인 1인 2역을 수행할 수 있다. 그러나 극 전체에서 이 세 조연이 가지는 비중이 미미하기에 『리처드3세』 극 전체가 두 개의 집단으로 나뉘는지에 대해서는 지엽적인 정보만을 제공할 뿐이다. [그림6]은 따라서 『리처드3세』의 세 시민과 같은 극단치(outlier)를 제외한 자료를 바탕으로 실루엣 점수를 측정하고 이를 시각화한 것이다. [그림6]에서는 [그림5]와 다르게 실루엣 점수가 0.70이 넘는 극이 없으며, 작품의 연도 또는 장르와 실루엣 점수 사이의 유의미한 상관관계를 찾기 힘들다. 이러한 차이는 등장인물의 군집성을 실루엣 점수 측정이라는 네트워크 분석에서 널리 사용되는 분석법을 적용하는 것이 르네상스 희극의 이분적 극의 구조를 측정하는 특수한 문학연구에는 한계를 지닌다는 것을 뜻한다. 따라서 추후 실루엣 점수 측정이라는 범용 분석틀이 아닌 희곡 구조 연구에 최적화된 분석틀을 새로 개발해야 할 필요성이 있다.



5. 등장인물 관계망 시각화와 군집 양상
등장인물 간의 무대 동시성에 기반한 [표2]와 대화의 양에 기반한 [표3]과 같은 행렬은 등장인물들 간의 관계를 숫자로 나타내며, 높은 숫자는 더 밀접한 관계를 낮은 숫자는 더 먼 관계를 의미한다. 관계망을 더 직관적으로 드러내는 일반적인 방법은 각 등장인물을 하나의 노드(node)로 설정하고, 등장인물들을 엣지(edge)로 연결하는 관계망 시각화하는 것이다. 등장인물 간의 관계를 설정하는 데 기반이 되는 행렬의 숫자는 노드의 크기를 크거나 작게 함으로써 관계의 밀접성을 시각화할 수도 있고, 두 노드 사이의 거리를 멀거나 가깝게 함으로써 드러낼 수도 있다. 스프링 레이아웃(spring layout)은 노드들 사이에 마치 스프링이 있는 것처럼 밀접한 관계가 있는 노드들은 서로 잡아당기고 반대의 경우에는 밀어내는 방식으로 노드들을 배치한다.25) 스프링 레이아웃은 시각화된 관계망에서 노드들 사이의 거리를 수학적인 근거를 통해 측정한다는 점에서 모레티의 관계망 시각화가 지닌 임의성을 개선할 수 있다. [그림7]은 무대 동시성에 기반한 『햄릿』의 등장인물 관계망을 시각화한 것이다. 네모로 표시된 노드들과 동그라미로 표시된 노드들은 K-평균 군집화 알고리즘을 적용하여, 각 모양에 따라 등장인물을 두 개의 집단으로 구분한다. 여러 색으로 구분된 노드들은 루뱅 집단분석(Louvain communities) 알고리즘을 활용해서 각 집단마다 다른 색을 부여해 집단을 구분한 것이다.26) 식별할 집단의 숫자를 미리 지정하는 K-평균 군집화와 다르게 집단 식별(community detection) 방법의 하나로 널리 이용되는 루뱅 기법(Louvain method)은 최적의 집단 수를 알고리즘에 기반해 자동으로 추출한다. 루뱅 기법은 2차원의 공간에 노드로 표현된 등장인물들을 집단 분할 강도의 척도인 모듈성(modularity)을 가장 크게 향상시키는 집단으로 이동시키는 작업을 더 이상 모듈성이 향상되지 않을 때까지 반복한다.

무대 동시성에 기반한 [그림7]에서 K-평균을 활용해 『햄릿』의 등장인물 관계망을 두 집단으로 나누는 경우 햄릿, 호레이쇼, 거트루드, 클로디어스, 오필리아(Ophelia) 등 주연 배역이 대부분 포함된 동그라미로 표시된 하나의 집단과 유령, 버나도, 무덤지기(Grave Digger) 등 조연 배역이 대체적으로 포함된 네모로 표시된 다른 하나의 집단으로 구분되는 것을 볼 수 있다. 이러한 군집 형태는 주서사(main plot)와 보조서사(subplot)가 순차적으로 교차하는 양상에 따라 조연 배역으로 이루어진 집단이 주연 배역 집단과 구분된 결과다. 이는 도런이 『친절이 죽인 여자』(A Woman Killed with Kindness)를 예로 들며 보조서사가 “주서사와 다른 시간대에서” “핵심적인 연결고리 없이” 이어지는 것을 특징으로 하는 중세부터 이어진 16세기 희곡의 서사구조가 르네상스 희곡 중에서도 일반적으로 예외적 지위를 부여받는 『햄릿』에 희미하게나마 남아 있는 것으로 해석할 수 있다.27) 한편 집단 식별 분석을 통해 다른 색으로 등장인물을 구분했을 때는 앞서와 다르게 햄릿과 호레이쇼와 유령 등이 같은 집단에 포함되고, 거트루드・클로디어스 등이 다른 하나의 집단, 그리고 극중극(a play within a play)의 배우들 등이 또 다른 하나의 집단으로 이루어진 세 개의 집단으로 나뉘는 것을 볼 수 있다. 이는 햄릿과 클로디어스로 크게 나뉘는 두 집단 사이에서 대부분 극중극의 등장인물로 이루어진 제3의 집단이 서사의 중심부에 얼마나 깊숙이 자리잡고 있는지를 특징적으로 보여준다.28) 극중극은 영어로 쓰인 최초의 세속극이라고 불리는 메드월(Henry Medwall)의 『풀젠스와 루크레스』(Fulgens and Lucrece)에서뿐만 아니라 『햄릿』과 같은 복수극이라는 측면에서 밀접하게 연결된 키드(Thomas Kyd)의 『스페인 비극』(Spanish Tragedy)에서도 사용된다. 『풀젠스와 루크레스』는 라틴어 논고(tract)에 바탕을 두고 있고 『스페인 비극』은 세네카(Seneca)의 라틴극 영향을 강하게 받았다는 점에서 극중극의 전통은 고전극과 연결되는 지점이 있다.29)
[그림8]은 등장인물의 무대 동시성 정보를 바탕으로 시각화한 [그림1]부터 [그림7]까지와는 다르게, 두 번째 요소인 등장인물 사이에 서로 주고받은 대화의 양을 나타낸 [표3]을 히트맵의 형태로 시각화한다. 『햄릿』의 각 등장인물의 전체 대사량을 기준으로 내림차순으로 정렬한 [그림8]에서 각 행은 발화자로서의 등장인물이며, 각 열은 청자로서의 등장인물을 나타낸다. 예를 들어 1열 3행의 칸은 햄릿이 호레이쇼에게 6742개의 단어에 해당하는 양의 대사를 했으며, 짙은 파란색은 이 대화가 극 전체에서 가장 많이 이루어졌음을 시각적으로 보여준다. [그림8]은 또한 506개의 단어로 이루어진 햄릿의 독백이 작품 전체에서 상당 부분을 차지하고 있으며, 단 18개 단어의 클로디어스와 더불어 독백을 하는 등장인물은 단 두 명이라는 것을 보여준다. 『햄릿』에서 독백의 중요성을 생각하면 이는 당연한 결과인 듯하지만 셰익스피어의 극 38편을 전체 독백의 양을 기준으로 내림차순으로 정리한 [그림9]는 『햄릿』의 독백이 38편의 극 중 29번째에 해당하는 것을 드러낸다.30) 또한 『햄릿』과 함께 극의 도입부 리처드 3세의 독백으로 잘 알려진 『리처드 3세』도 독백의 전체 양을 기준으로는 25번째에 불과하다는 것을 알 수 있는데, 이 두 극의 특징은 작품의 제목과 동일한 남성 주인공이 독백을 대체로 독점한다는 점이다. 반면 독백은 초기 르네상스 극에서 악역에 해당하는 등장인물이 자신이 앞으로 벌일 악행을 관객에게 미리 귀띔해줘 관객과 극중 등장인물 사이의 정보 격차를 만들어내고 이를 통해 극의 긴장감을 상승시키는 역할을 했다. 긴 독백으로 현대 독자에게 깊은 인상을 남긴 『햄릿』과 『리처드 3세』는 모두 독백의 형태에서 초기 르네상스 극과 차이점을 만들어냈다는 점을 고려할 필요가 있음을 [그림9]의 시각정보를 통해 알 수 있다.


[그림10]은 무대 동시성에 기반한 [그림7]과 다르게 등장인물의 대화량에 기반한 [표3]을 시각화한 것이다. [그림10]에서 햄릿은 관계망의 중앙에 위치해 있으면서도 그를 둘러싸고 있는 다른 등장인물은 다른 색으로 표시된 집단으로 구분되는 것을 볼 수 있다. 이는 네 집단으로 구분된 『햄릿』의 관계망에서 거의 유일하게 모든 집단과 관계를 맺는 동시에 홀로 무대에 남아 긴 독백을 쏟아내는 등장인물 햄릿의 특이성에서 기인한다고 볼 수 있다. 관계망의 정점에 주인공이 자리잡고 있지만 다른 집단과 동떨어져 있는 『햄릿』의 특이성은 셰익스피어의 다른 극과 비교했을 때 더 명확해진다.

예를 들어 [그림11]에서 『헨리 6세 2부』의 관계망을 살펴보면 주인공에 해당하는 헨리 6세는 관계망의 중앙에 위치했을 뿐만 아니라 헨리 6세를 둘러싸고 있는 다른 주요 인물과 같이 모두 하나의 집단으로 식별되고 주변인물 집단은 각 집단이 등장하는 장에 따라 대체로 따로 식별되는 것을 볼 수 있다. 이는 중세 도덕극의 형태가 1560년대 프레스턴(Thomas Preston)의 『캄비세스』(Cambises)를 거쳐 1590년에 출판된 말로의 『탬벌레인 1부』(Tamburlaine 1)로 전승되는 과정에서 극의 통일성을 확보하기 위해 순차적으로 등장하는 주변집단과 다르게 몇몇 주요 인물 집단이 작품 전체에 걸쳐 유지되었다고 하는 베빙턴의 분석과 맞닿는다.31) 이러한 점에서 『헨리 6세 2부』의 관계망은 『탬벌레인 1부』의 연속선상에서 중세 “영혼의 전쟁” 극의 서사구조가 조금 더 직접적인 형태로 흔적을 남기고 있는 반면, 『햄릿』은 작품의 내용만큼이나 관계망으로 드러나는 서사구조에서 예외적 위치를 차지하고 있다고 볼 수 있다.

6. 등장인물 관계망과 중심성
등장인물 관계망이 얼마나 한 등장인물을 중심으로 응집되어 있는지는 연결 중심성(degree centrality)을 통해 수치화할 수 있다.32) 먼저 각 등장인물에 대해 다른 등장인물과 연결된 횟수의 총합으로 연결 중심성을 측정할 수 있다. 무대 동시성을 기반으로 한 [표2]의 경우 햄릿은 유령과 192행에 걸쳐 무대에 동시에 등장하는데, 이와 같이 다른 모든 등장인물에 대해서 연결성을 합하면 햄릿은 연결 중심성 수치로 17854를 갖는다. 이러한 연결 중심성은 모든 등장인물 각각에 대해서 구할 수 있는데, 극 전체 관계망의 중심성을 구하기 위해서 먼저 가장 높은 연결 중심성 수치를 가진 등장인물을 식별한다. 『햄릿』의 경우에는 주인공 햄릿이 가장 높은 수치를 지니는 것으로 나오는데, 작품 전체의 중심성을 측정하기 위해서 햄릿의 중심성과 햄릿을 제외한 모든 등장인물의 연결 중심성 수치 간의 차이를 합산한다. 그리고 이 합계를 사용해 동일한 크기의 관계망에서 이론적으로 달성 가능한 차이의 최대 합계를 정규화(normalize)하여 작품 전체의 연결 중심성을 측정할 수 있다. 작품의 연결 중심성 1.00은 별 모양의 관계망과 같이 한 등장인물은 다른 모든 등장인물과 연결되어 있고, 다른 모든 등장인물은 서로 전혀 연결되지 않는 경우다. 반대로 0.00인 경우는 원형 구조의 관계망에서와 같이 모든 등장인물이 서로 동등한 연결성만을 지닌 완전히 분산된 관계망이다. [그림12]는 셰익스피어의 작품 38편에 대해 대화량에 기반한 관계망의 연결 중심성을 구한 후 비교분석을 위해 이를 시각화한 것이다. [그림12]는 『햄릿』뿐만 아니라 『줄리어스 시저』(Julius Caesar) 『코리올레이너스』(Coriolanus) 등의 비극과 『리처드 3세』 『존 왕』 등의 역사극이 높은 관계망 중심성을 지닌다는 것을 드러낸다. 도런은 르네상스 희곡이 중세극의 순차적 서사구조를 계승하면서도 아리스토텔레스적 통일성과는 다른 종류의 극적 통일성을 부여한다고 한다. 그는 인물의 “흥망성쇠”(rise and fall)를 중심으로 하는 서사구조를 통해 통일성의 문제를 해결하는 양상을 『리처드 3세』와 『리처드 2세』를 예로 들며 설명한다.33) 극 38편의 연결 중심성을 장르 중심으로 구분한 [그림12]은 비극(빨간색) 및 역사극(회색)과 희극(하늘색) 장르의 유의미한 차이를 보여줌으로써 중세극의 전통이 르네상스 극으로 계승되는 과정에서 장르적 특성이 발현되었다는 도런의 주장을 어느 정도 뒷받침하는 측면이 있다.

7. 나가며
본 연구는 폴저 셰익스피어 도서관의 TEI-XML 양식의 텍스트를 사용하여 셰익스피어 희곡 38편에 대해 등장인물 관계망을 구축해 시각화하고, 이를 통해 중세부터 르네상스로 이어지는 극의 서사구조 변화 양상을 추적했다. 집단 식별을 통해 등장인물 관계망의 군집 형태를 분석하고, 이를 유랑극단의 이분적 극의 구조와 연결함으로써 집단 식별 알고리즘의 문학연구 활용법을 모색했다. 또한 실루엣 및 연결 중심성 수치를 통해 관계망에 대한 시각화를 넘어서 여러 관계망을 비교분석했다. 하지만 이 글은 르네상스 희곡에서 발견되는 고전극과 중세극의 복합적 양상에 대한 기존의 논의를 계량적인 방법으로 부분적으로 재확인하는 것에 불과하다. 계량적 근거에 기반해 몇 편의 작품에 대해서만 시도된 단편적인 해석은 꼼꼼히 읽기에 기반한 체계적인 비교분석이나 심도 있는 작품 분석을 따라갈 수 없다. 계량적 방법을 활용한 연구가 의미를 지니기 위해서는 38편의 셰익스피어 극을 넘어서 연구 대상을 최소 수백 편으로 확대해 중세부터 르네상스까지 이어지는 통시적 연구로 확장할 필요가 있다. 하지만 초기 근대 온라인 영어 서적 텍스트 생성 파트너십(Early English Books Online-Text Creation Partnership)이 보유한 1475년부터 1700년까지 출판된 12만 5000여 개의 전자 텍스트는 등장인물의 입장 퇴장에 관한 무대 지시를 출판된 원전 그대로 표기하는데, 일반적으로 원전은 입장한 등장인물의 퇴장을 지시하는 표기가 누락되어 있는 경우가 많다. 폴저 셰익스피어 도서관의 텍스트는 누락된 부분을 편집자가 적절하게 교정하여 무대 정보를 프로그래밍으로 추출할 때 오류가 생기지 않지만, 텍스트 생성 파트너십의 텍스트는 무대 정보의 부정확성 때문에 분석 결과에 오류가 따른다. 추후 연구에서는 셰익스피어가 아닌 다른 작가의 텍스트가 지닌 이러한 부족함을 보완해 르네상스 이전 극의 관계망을 생성하고 이를 다른 극의 관계망과 직접 비교분석하는 통시적 관계망 분석이 필요하다. 더 나아가 여러 작품 간의 비교분석을 위해 사용한 실루엣 또는 연결 중심성 수치 등은 관계망 이론을 발전시킨 사회과학 연구로부터 많은 부분을 차용했으며, 문학연구에 유의미한 해석틀로서 사용하기에는 한계가 있다. “디지털 도전 이후의 영문학 연구와 교육”이라는 당면한 과제는 사회과학 또는 공학의 방법론을 인문학 연구에 수입하는 것을 넘어서 인문학 연구를 위한 고유의 연구방법론 개발을 요청한다고 생각한다.
1) 셰익스피어의 희곡이 출판을 우선적으로 염두에 두고 쓰여진 것인지 아니면 공연을 위한 것인지에 대한 논의는 다음을 참조. Bart van Es, Shakespeare in Company (Oxford: Oxford UP, 2013).
2) Gary Taylor, “The Structure of Performance: Act-Intervals in the London Theatres, 1576-1642,” Shakespeare Reshaped: 1606-1623 (Oxford: Oxford UP, 1993) 3~50면 참조.
3) Tiffany Stern, Shakespeare in Parts (Oxford: Oxford UP, 2007).
4) David M. Bevington, From Mankind to Marlowe: Growth of Structure in the Popular Drama of Tutor England (Cambridge: Harvard UP, 1962).
5) Aristotle, Poetics, trans. Stephen Halliwell (Harvard: Harvard UP, 1995) 71면 참조.
6) 같은 책 47면.
7) Philip Sidney, Miscellaneous Prose of Sir Philip Sidney, ed. Katherine Duncan-Jones and Jan Van Dorsten (Oxford: Oxford UP, 1973) 113면 참조.
8) Madeleine Doran, Endeavors of Art: A Study of Form in Elizabethan Drama (Madison: U of Wisconsin P, 1954) 17면 참조.
9) 등장인물 관계망 분석(character network analysis)은 사회관계망 분석(social network analysis)의 방법론을 차용하고 발전시킨 것으로서, 관계망 분석 개관은 다음 글을 참조. Mark Newman, Networks (Oxford: Oxford UP, 2018); Menczer, Filippo, Santo Fortunato, Clayton A. Davis, A First Course in Network Science (Cambridge: Cambridge UP, 2020); John Scott and Peter J. Carrington ed., The Sage Handbook of Social Network Analysis (London: Sage, 2011); Vincent Labatute and Xabier Boste, “Extraction and Analysis of FictionalCharacter Networks: A Survey,” ACM Computing Surveys 52.5 (2019) 89:1~89:40면.
10) Franco Moretti, “Network Theory, Plot Analysis,” Distant Reading (London: Verso, 2013) 214면 참조.
11) 같은 책 223면 참조.
12) 1962년에 출판된 베빙턴의 연구는 디지털인문학의 방법론을 활용하지 않지만, 계량적 분석의 결과를 기반으로 문학사적의 의의를 탐색한다는 점에서 디지털인문학 관계망 분석 연구에 지향점을 제시한다.
13) [표1]은 지면 관계상 『햄릿』의 첫 11행만 부분적으로 나타낸다. 이 연구에 활용된 셰익스피어의 희곡 38편에 대한 전체 결과는 다음 웹페이지에 공개한다. https://hkim1596.github.io/shakespearean_character_network/.
14) 셰익스피어의 모든 극은 연속행(through line number, TLN)으로 표기한다. 행 표기는 다음 판본을 따른다. Charlton Hinman ed., The First Folio of Shakespeare, 2nd ed. (New York: Norton, 1996).
15) 폴저 셰익스피어 도서관의 XML 텍스트는 다음 웹페이지에서 다운로드할 수 있다. https://www.folgerdigitaltexts.org/download/xml.html. XML 파일은 Sublime Text, Oxygen XML 등의 소프트웨어로 열람 및 수정할 수 있다.
16) 이 연구에 사용된 모든 프로그래밍 코드는 다음 웹페이지에 공개한다. https://github.com/hkim1596/shakespearean_character_network/.
17) 행렬을 통한 사회관계망 구축에 대한 방법론적 개관은 Newman, 앞의 책 105~ 57면 참고.
18) 16세기 말 퀸스멘이 공연한 극의 구조와 셰익스피어, 말로 사이의 관계에 대한 연구는 다음을 참고. Scott McMillin and Sally-Beth MacLean, Queen’s Men and Their Plays (Cambridge: Cambridge UP, 1998).
19) K-평균 군집화를 처음으로 제시한 논문은 다음을 참고. Stuart P. Llyod, “Least Squares Quantization in PCM,” IEEE Transactions on Information Theory 28.2 (1982) 129~37면. K-평균 군집화 방법 및 다양한 블록모델링 방법에 대한 개관은 다음을 참고. Anuška Ferligoj et al., “Positions and Roles,” The Sage Handbook of Social Network Analysis, ed. John Scott and Peter J. Carrington (London: Sage, 2011) 434~46면. K-평균 군집화 및 다양한 군집 분석 기법 활용을 위한 프로그래밍 코드는 다음을 참고. Benjamin Bengfort et al., “Clustering for TextSimilarity,” Applied Text Analysis with Python: Enable Language–Aware Data Products with Machine Learning (Boston: O’Reilly, 2018) 97~123면.
20) Aurélien Géron, Hands–On Machine Learning with Scikit–Learn, Keras, and TensorFlow: Concepts, Tools, and Techniques to Build Intelligent Systems (Boston: O’Reilly, 2023) 259~81면 참고.
21) 이 연구에 사용된 실루엣 점수 계산 방식은 다음을 참고. Pedregosa et al. “Scikit-learn: Machine Learning in Python,” Journal of Machine Learning Research 12 (2011) 2825~30면. https://scikit-learn.org/stable/modules/generated/sklearn.metrics.silhouette_score.html.
22) 작성 연도는 다음 책의 추정 연도를 따른다. Gary Taylor, “The Canon and Chronology of Shakespeare’s Works,” The New Oxford Shakespeare Authorship Companion, ed. Gary Taylor and Gabriel Egan (Oxford: Oxford UP, 2017). 장르 구분은 1623년에 출판된 셰익스피어 전집의 구분을 따른다.
23) Bevington, 앞의 책 170~89면.
24) 폴저 셰익스피어 도서관의 텍스트는 3막 7장에서 등장하는 ‘시민들’은 2막 3장의 시민1, 시민2, 시민3과 다른 등장인물로 간주한다.
25) 스프링 레이아웃을 포함한 여러 관계망 시각화 방법에 대한 개관은 Scott, 앞의 책 558~77면 참고. 이 연구에서 사용된 스프링 레이아웃 알고리즘은 다음을 참고. https://networkx.org/documentation/stable/reference/generated/networkx.drawing.layout.spring_layout.html.
26) 집단 식별에 대한 개관은 Newman, 앞의 책 493~568면 참고. 이 연구에서 사용된 루뱅 집단분석 알고리즘은 다음을 참고. https://networkx.org/documentation/stable/reference/algorithms/generated/networkx.algorithms.community.louvain.louvain_communities.html.
27) Doran, 앞의 책 437면. 셰익스피어의 희곡이 지닌 예외적 특이성에 대한 논의는 다음을 참고. Jonathan Bate, The Genius of Shakespeare (Oxford: Oxford UP, 1998).
28) 극중극 등장인물이 서사에서 중심적인 위치를 차지하는 데는 발화자를 제외한 무대 위의 모든 등장인물을 청자로 설정한 점이 중요하게 작용한다. 청자 설정을 특정 등장인물 한두 명만을 지정하는 모레티의 방식으로 한다면 극중극 등장인물은 서사에서 거의 완전히 분리된 결과로 나온다. 극중극 등장인물을 비롯해 등장인물의 관계망은 엣지를 설정하는 방식에 따라 변한다.
29) 극중극과 고전극의 관계에 대한 문학사적 논의는 몇몇 르네상스 희곡에 나타난 특징을 단편적으로 기록하는 것을 넘어선 연구가 필요하다.
30) 본 연구에서 독백은 등장인물의 종류를 가리지 않고 무대에서 단독으로 대사를 하는 것으로 정의한다. 이러한 정의 방식에서는 프롤로그 역할을 하는 등장인물이 작품의 시작 부분에서 하는 대사도 독백으로 간주한다. 하지만 초기 르네상스 극에서 관객에게 직접 대화를 건네는 역할도 독백이 했다는 것을 고려하면, 이러한 정의 방식은 독백의 통시적 변천 과정을 살피는 데 유용하다.
31) Bevington, 앞의 책 199~217면.
32) 연결 중심성 및 관계망 측정에 대한 개관은 Newman, 앞의 책 126~30, 158~ 217면 참고.
33) Doran, 앞의 책 288~94면.
金熙晋 경북대 영어영문학과 조교수. 최근 논문으로 “Revision and Duplication in Early Modern Plays: A Reevaluation of the ‘Minus’ Hypothesis”(2023)가 있다.
Leave a comment