- 연구센터 설립 취지
-
흔히 빅데이터는 '21세기의 원유'로 비유된다. 빅데이터는 2012년 세계경제포럼에서 차세대 10대 기술 중에서 첫 번째로 꼽힌 기술이다. 리서치 기업인 IDC에 따르면, 첨단기술 공급시장은 연30% 이상 급성장, 2016년까지 240억 달러규모에 달할 것으로 예측된다. 또한 매킨지 등 유수의 글로벌 컨설팅 기업이 빅데이터를 향후 경제지형을 바꿀 핵심 기술로 꼽았다. 가트너는 지난 2011년 “2015년까지 포춘 선정 500대 기업의 85%가 경쟁우위 확보에서 빅데이터를 활용하는 데 실패할 것”이라고 전망했다. 바꿔 말한다면, 빅데이터를 활용하는 데 성공한 소수의 기업만이 살아남을 것이라는 전망이다.
기업의 입장에서 이전까지 그냥 양산되는 것에 불과한 데이터에서 의미 있는 패턴을 읽어낸다면 이것은 새로운 수익의 원천이 될 수 있다. 대형 테크놀로지 기업과 창업기업들이 데이터 분석기법 개발을 위한 공격적 경영을 추구하고 있는 이유이기도 하다.
이처럼 데이터로부터 의미를 발견하고 정부기관과 기업 등 조직의 의사결정을 하기 위한 빅데이터 의존도가 점점 높아지고 있다. 현재 빅데이터 분석의 수요는 여론분석, 마케팅, 광고, 의학, 과학, 정치, 범죄예방, 공중보건, 스포츠 등 모든 분야에 걸쳐 일어나고 있다. 특히 소셜네트워크서비스(SNS)의 확산과 더불어 데이터량이 폭증하면서 데이터를 분석하고 의미를 찾아내는 전문가들의 필요성이 대두되고 있다.
여기서 우리는 두 가지 점을 주목한다.
첫째는 데이터 마이닝 방법론 자체는 공학적 기술이지만, 분석의 대상이 인문사회과학의 영역에 속하는 것들이라는 점이다. 따라서 인문사회과학자들의 참여가 절대적으로 요구된다 하겠다. 특히 분석된 결과가 소통되지 않으면 아무런 소용이 없기 때문에, 정보를 시각화하는 디자인 전문가와 콘텐츠를 인문학적으로 분석하는 연구자와 분석 결과를 조직의 구성원과 대중에게 정리하여 소통시키는 스토리텔링 전문가, 그리고 콘텐츠의 기획 및 정책 입안을 담당하는 전문가 등이 필요하다. 컨설팅 기업인 맥킨지 글로벌 인스티튜트는 2020년까지 미국 내 14만~19만 명의 데이터 전문분석가, 즉 데이터 사이언티스트(Data Scientist)와 150만명 이상의 데이터 매니지먼트 전문가가 필요하다고 예측했는데, 이는 우리의 분석과 정확히 일치한다.
둘째는 상기한 분야의 빅데이터는 언어 텍스트, 즉 정형화되지 않은 형태로 되어 있다는 점, 그래서 언어 처리라는 기술을 한 단계 더 요구하는 텍스트 마이닝의 기술이 요구되고 있다는 점이다. 여기에는 언어학자의 참여가 요구된다 하겠다. 그런데, 현재 국내외 모두에서 이처럼 빅데이터의 텍스트 마이닝을 위해 꼭 필요한 전문가들이 모두 함께 모여 연구하는 연구센터는 없는 것 같다. 이 같은 현실에서 우리는 데이터마이닝 전문가(손경아)와 언어학자(박만규, 이상신), 스토리텔링 전문가(박정식), 자료를 객관적으로 분석하는 역사학자(이상국), 문화콘텐츠 기획 및 정책 전문가(김민규, 손정훈), 그리고 정보 시각화 전문가(이경원)가 함께 모여 연구하기 위해 연구센터를 설치하고자 한다.
본 연구센터는 내적 구성의 적절성 외에도 하나의 장점을 더 갖추고 있는데, 그것은 기존의 방식보다 크게 향상된 언어처리 모형의 구축을 지향한다는 점이다. 사실 텍스트 마이닝의 질적 수준은 구축되는 대규모 어휘 데이터 베이스의 질적 수준에 달려 있다고 할 수 있다. 단순한 어휘 목록의 구축만으로는 텍스트로부터 필요한 의미 분석을 얻어낼 수 없으며, 어휘들의 가능한 조합들이라는 문장 형성 차원의 통사 및 의미정보가 구축되어 있을 때 이를 활용하여 텍스트의 정확한 의미 추출이 가능한 것이다. 그런데 현재 시행되고 있는 방식은 키워드에 의존하는 방식이라 많은 문제점을 안고 있다. 예컨대 ‘희망’은 긍정적인 감정을 나타내는 어휘이지만 ‘없다’나 ‘잃다’와 결합하면 ‘희망이 없다’, ‘희망을 잃다’가 되어 도리어 ‘절망’을 나타내게 되는 것이다. 현재의 키워드 방식은 이를 여전히 ‘희망’으로 인식하여 잘못된 의미 분석을 도출하게 만든다. 따라서 이를 반드시 개선시킬 필요가 있으며, 이를 시행하는 연구그룹이 장차 텍스트 마이닝 기술을 선도하게 될 것이다. 본 연구센터의 두 명의 언어학 전공자들은 이 같은 새로운 개념의 어휘 데이터베이스를 구축할 예정이다.
본 연구센터는 두 가지 목적을 위해 추구한다. 첫째는 기존의 시스템보다 크게 개선된 새로운 텍스트 마이닝 시스템을 구축하는 것이고, 둘째는 그 시스템을 활용하여 사회 여론과 문화 소비자의 의식을 보다 정확하게 분석하고 이를 통해 여론 형성과 소비자 의식 형성의 메커니즘을 구축함으로써 사회 각 분야에 걸쳐 새로운 정책과 전략을 입안하고 기획하는 것이다.
현재 국내에서 텍스트 마이닝 연구를 수행하고 있는 연구그룹 가운데 주목할 만한 그룹은 연세대 HK사업단이라고 할 수 있다. 이는 문헌정보학 전공 교수와 언어학 전공 교수들로 구성된 그룹으로, ‘대선후보들의 언어 분석’ 등과 같은 비교적 소규모 주제에 대한 연구에 치중하고 있다. 전체적으로 언어학적 방법론에 입각한 문헌 분석에 경도되어 있으며, 그 방법론도 기존의 방식에서 벗어나지 않고 있음을 확인할 수 있다. 특히 산업화에 대한 관심과 의지가 없으며, 인문사회과학의 폭넓은 분석이 뒷받침되고 있지 않다.
한편 유럽에는 프랑스 Grenoble 3대학이 중심이 되고 독일의 Köln대학과 Osnabrück대학이 함께 참여하여 구축하고 있는 다국어 감정 어휘 데이터베이스(영어, 불어, 독일어, 스페인어, 러시아어 등) EmoBase 구축 프로젝트가 있다. 언어학적 모델로는 우리가 벤치마킹할 필요가 있는 대단히 정밀한 기술과 대규모의 어휘 기술을 담고 있는 데이터베이스라 할 수 있다. 다만 이는 텍스트 마이닝 시스템 개발과 인문학적 분석이 동반하지 않는 순수하게 언어학적 시도일 뿐이라는 점에서 우리 연구그룹과는 구분된다.
이처럼 국내외적으로 볼 때 아직 우리와 같은 연구진 구성과 연구 목표를 가진 그룹은 보이지 않고 있다. 요컨대 텍스트마이닝에 대한 관심이 국내외적으로 높은 상황임에도 이를 인문학적 시각에서 본격적으로 연구를 진행하는 연구집단이나 연구센터가 보이지 않는 실정이라 할 수 있다. 따라서 미래 연구분야에서 선도적인 역할을 수행할 수 있으며 해당 분야에서 선점할 수 있다고 판단된다. 본 연구센터는 인문·사회분야 뿐만 아니라 공학기술 분야 등과 융합하여 해당 학문분야를 선도할 수 있으며, 산학 협력을 통해 본 연구센터 연구 결과의 부가가치를 높일 수 있다고 판단한다.
연구센터의 필요성 및 연구 목표
필요성
현대 사회의 복잡하고 다양한 인간 관계망은 빅데이터라 불리는 거대한 정보를 양산하고 있다. 이 같은 거대한 데이터를 질적으로 분석하는 사회적 요구가 증대되고 있으나, 현재 키워드 중심의 표면적인 분석인 데이터마이닝에 머물러 있는 실정이다. 이에 정보가 표현되어 있는 비정형 텍스트를 형태-통사론 및 의미론적 패턴 분석화를 통하여 분석하는 인문학적 접근이 필요하다. 이러한 인문학적 접근을 통해 빅데이터가 함유하고 있는 복잡하고 다양한 인간의 행위, 의도, 판단, 표현 등을 패턴화 하고, 이를 바탕으로 현대 사회에서 실체적 존재로서 인간에 대한 심도있는 이해를 하고자 한다. 따라서 현재의 사회적 수요와 미래적 가치를 선도하기 위한 다양한 전공의 연구 역량을 집중하고 활성화하기 위해 본 연구센터의 설치가 필요하다.
목표
빅데이터 분석을 통해 인간과 사회의 다양한 경향성을 파악하고 이를 통해 미래를 예측하는 모델을 구축하는 것을 목표로 한다.
연구센터 연구 범위
의미화 과정 분석을 위한 텍스트마이닝 구조화 모델 연구
- 언어 구조와 의미망 체계에 대한 연구
- 맥락적 위치에 따른 표현 활용의 분류 및 관계적 속성 연구
- 감성 표현과 의도성에 따른 용례에 대한 분류 체계 연구
- 텍스트의 종류 및 속성에 따른 공통과 차이의 적용 방식 연구
- 감정 표현의 핍진성으로서 이모티콘의 사용과 기존 텍스트와의 맥락성 연구
- 감성동사 의미망사전 구축 (텍스트마이닝)
- 반어법의 의미 검출(오피니언마이닝)
- 인터넷 사용에서의 언어 파괴 현상의 의미매핑(오피니언마이닝)
- 텍스트마이닝 구조화 모델 연구
의미화 과정 분석을 위한 텍스트마이닝 프로그램 개발
- 텍스트의 맥락적 관계에 대한 속성 부여 방식 기술
- 다의성 의미망 체계의 기술적 적용 설계
- 텍스트별 범용성 및 전문성에 따른 맞춤형 적용 방식 연구
- 텍스트마이닝의 시각화 방식에 대한 연구
- 텍스트의 수집과 분류를 위한 맥락적 탐색 로봇 연구
- Automated SNS Text Data Collecting Tool (텍스트마이닝)
- 다차원척도 분석법을 이용한 감성어휘 의미지도 구축(정보시각화)
- Visualizing Keywords in Context(정보시각화)
- Visual Analysis of Controversy in User-generated Encyclopedias(정보시각화)
- 맥락성 텍스트마이닝 프로그램 개발
연구센터 연구의 활용 범위
인문사회 분야의 연구 분야 및 범위 확대
- 광대한 규모의 텍스트 분석 (텍스트의 유형, 관계, 속성 등)
- 텍스트에 대한 광대한 규모의 이용자 분석
- 텍스트에 대한 이용자의 반응에 대한 실시간 분석 및 행위 예측 분석
- 예측도의 향상에 의해 사회 행위에 대한 시물레이션 방법론 향상
공학과 기술 분야의 연구 분야 및 범위 확대
- 감성, 표현, 의도 등 정량화 또는 기술적 적용 기술의 심화
- 기존 AI 기술의 심화
- 맥락적 검색 기술의 진화
인문학과 기술공학이 결합한 미래지향적 융복합 연구 선도
마케팅 및 시장 분석의 적합도 향상
- (정치마케팅) 유권자의 개인별 속성에 따른 맞춤형 마케팅 적용
- (시장마케팅) 소비자 동향 및 맥락적 속성과 행위 예측도 분석
- 소비생태계에 대한 구체성 모델링 분석
- 소비성향의 변화에 따른 소비트렌드 예측 분석
- (제품 개발) 지능형 상호작용 상품 개발 응용 (예, 완구, 게임 등)
연구센터의 발전 가능성
- 텍스트마이닝에 대한 관심이 국내외적으로 높은 상황임에도 이를 인문학적 시각에서 본격적으로 연구를 진행하는 연구센터가 드문 실정이다.
- 미래 연구분야에서 선도적인 역할을 수행할 수 있으며 해당 분야에서 선점할 수 있다.
- 인문·사회분야 뿐만 아니라 공학기술 분야 등과 융합하여 해당 학문분야를 선도할 수 있으며, 산학 협력을 통해 본 연구센터 연구 결과의 부가가치를 높일 수 있다.
- 미래창조과학부의 5대 핵심전략 가운데 첫째 과제인 창조경제 생태계 조성 가운데 빅데이터 분야가 들어 있다. 미래창조과학부 등의 미래 기술 R&D 과제와 연관성이 높아 해당 분야에서 연구과제를 수주할 가능성 높다.