연구업적

진행 중인 연구 분야


오래된 문서를 판독하기 위한 띄어 쓰기

우리의 조상들은 지금과 같은 쉼표나 마침표 물음표를 사용하여 글을 남기지 않았습니다. 
그들의 머릿속에 남아 있는 구조 그대로 아주 오래된 문헌의 글자를 해석하는 것은 힘든 작업입니다. 
잘 보이지도 않는 글자, 알기도 어려운 한자 때문에 재미없어 보이는 수만권의 책들... 여기서 어떤 규칙을 찾을 수 있을까요?
우리는 조건부 임의 영역(!) 이라는 알고리즘을 사용하여 성급한 / 차분한 / 사려깊은 어구 식별 프로토타입을 개발하고 적용합니다.
러시아의 수학자 토마스 마코프의 재미있는 “동굴속 엘프” 동화에서 시작되고 발전된 조건부 임의 영역 알고리즘은 스탠포드 자연어 처리 연구소에서 어구 식별을 처리하는 방식으로 활용되고 있습니다.
저희 인문인공지능 연구소에서도 이러한 임의 영역 알고리즘 방식을 사용한 연구를 하고 있습니다.

비슷한 것과 연관된 것 - 그 모든 것의 거리

"어머니"의 연관어는 "아버지" 하지만 비슷한 말은 아닙니다. 
어머니의 반대말은 아버지이고 또 아들이라면 아버지와 아들은 동일한 말인가요?
이 끝도 없는 물음에 대해서 세계 여러 나라 사람들은 자신만의 바벨탑을 쌓아 올립니다. 
어휘의 설명과 각각의 어휘 관계들에 대해서 아직까지 완성된 바벨탑은 없고 언어학에서 이러한 각각의 바벨탑 이름은 word-net 이라고 불립니다.
러시아 과학자 토마스 미코로프가 구글에서 워드벡터를 제안했을 때 영국 과학자 팰릭스 힐은 캠브리지대학(이후엔 딥마인드)에서 연관어 사이의 심리적 거리를 측정해서 발표합니다. 
그리고 심렉스999 라는 엄청난 사이즈의 데이터를 만듭니다.
이러한 것에 인사이트를 받아 우리 연구소는 현재까지 20만 쌍 연관어 데이터를 수집하고 측정했습니다.  
이 멋진 바벨탑은 국립국어원 말뭉치 전시실에 잘 보관되었습니다.

담화와 내포명제에 대한 확신성 - 전제와 함의 관계 

상대방이 내 말을 장 이해하고 있다고 느낀 순간은 언제일까요?
우리의 말이나 문장의 구조나 형식을 좌우하는 중요한 요소는 무엇일까요?
우리가 남기는 그 많은 글과 내용의 엣센스는 무엇일까요?
Natural Language General Understanding 이라고 하는 이 영역은 아직도 어렵고 거친 영역입니다.
제대로 시도되거나 내말을 잘 이해하고 내 머릿속의 보호림과 불확실성 마저 이해해주는 친절한 AI 를 우리는 만들고자 합니다.
여기에 대한 자세한 내용은 역시 국립국어원 말뭉치 전시실에 잘 보관되어 있습니다.