• 맑음속초6.2℃
  • 맑음-1.5℃
  • 맑음철원-2.1℃
  • 맑음동두천-0.7℃
  • 맑음파주-0.5℃
  • 맑음대관령-5.2℃
  • 맑음춘천-0.9℃
  • 맑음백령도8.7℃
  • 맑음북강릉6.1℃
  • 맑음강릉6.5℃
  • 맑음동해3.9℃
  • 맑음서울3.6℃
  • 맑음인천6.5℃
  • 맑음원주1.4℃
  • 구름조금울릉도8.7℃
  • 맑음수원1.3℃
  • 맑음영월-0.9℃
  • 맑음충주-0.5℃
  • 맑음서산2.3℃
  • 맑음울진6.6℃
  • 맑음청주3.6℃
  • 맑음대전1.9℃
  • 맑음추풍령0.6℃
  • 맑음안동2.0℃
  • 구름조금상주0.1℃
  • 맑음포항6.4℃
  • 구름조금군산5.2℃
  • 맑음대구2.8℃
  • 맑음전주6.3℃
  • 맑음울산5.5℃
  • 맑음창원7.1℃
  • 맑음광주7.2℃
  • 맑음부산9.4℃
  • 구름조금통영8.4℃
  • 맑음목포9.1℃
  • 맑음여수10.9℃
  • 맑음흑산도12.4℃
  • 구름조금완도8.8℃
  • 맑음고창5.6℃
  • 맑음순천1.2℃
  • 박무홍성(예)0.3℃
  • 맑음-0.1℃
  • 맑음제주13.7℃
  • 맑음고산12.7℃
  • 구름많음성산16.6℃
  • 구름조금서귀포14.9℃
  • 맑음진주2.5℃
  • 구름조금강화1.1℃
  • 구름조금양평0.7℃
  • 맑음이천-0.7℃
  • 맑음인제-1.2℃
  • 맑음홍천-1.5℃
  • 맑음태백-3.5℃
  • 맑음정선군-3.4℃
  • 맑음제천-2.3℃
  • 맑음보은-1.2℃
  • 맑음천안-0.5℃
  • 맑음보령5.1℃
  • 구름조금부여0.8℃
  • 맑음금산0.0℃
  • 맑음1.8℃
  • 맑음부안3.9℃
  • 맑음임실0.7℃
  • 맑음정읍4.1℃
  • 맑음남원3.1℃
  • 맑음장수-0.9℃
  • 구름조금고창군5.2℃
  • 맑음영광군4.0℃
  • 구름조금김해시6.3℃
  • 맑음순창군2.2℃
  • 맑음북창원6.5℃
  • 구름조금양산시5.2℃
  • 구름조금보성군4.5℃
  • 맑음강진군6.6℃
  • 구름조금장흥3.8℃
  • 맑음해남10.5℃
  • 구름많음고흥5.1℃
  • 맑음의령군2.7℃
  • 맑음함양군0.3℃
  • 맑음광양시8.0℃
  • 맑음진도군12.5℃
  • 맑음봉화-0.6℃
  • 맑음영주-0.9℃
  • 맑음문경-0.1℃
  • 맑음청송군-2.1℃
  • 맑음영덕4.6℃
  • 맑음의성-1.2℃
  • 맑음구미1.3℃
  • 맑음영천0.7℃
  • 맑음경주시1.8℃
  • 맑음거창-0.4℃
  • 맑음합천2.6℃
  • 맑음밀양3.1℃
  • 맑음산청1.2℃
  • 구름조금거제6.6℃
  • 구름조금남해7.9℃
  • 맑음4.4℃
기상청 제공

2024년 11월 25일 (월)

인공지능이 고문헌 원문을 읽고 띄어쓰기해 준다!

인공지능이 고문헌 원문을 읽고 띄어쓰기해 준다!

초서체 한자와 옛 한글, 국한문 혼용문 자동 인식 프로그램 개발 공개
<자동 표점 서비스>, 1000자 분량의 한문 원문도 1초 이내에 표점 처리

[한의신문] 지능형 데이터 전문 기업 (주)누리아이디티(대표 배성진)는 인공지능(AI) 기술을 기반으로 초서체 한자와 옛 한글, 국한문 혼용문을 자동 인식하는 <고문헌 OCR 서비스> 3종과 고문헌 원문 한문을 띄어쓰기해 주는 <자동 표점 서비스>를 출시했다고 3일 밝혔다.

 

누리IDT는 지난해 5월 AI 모델이 고문헌의 해서체와 행서체 한자를 평균 98%의 정확도로 자동 인식하여 디지털 텍스트로 변환해 주는 <고성능 한자 OCR 서비스>를 개발하여 언론과 학계의 호평을 받은 바 있다.

 

AI 기반 초서, 옛 한글, 국한문 혼용 등 고문헌 OCR 3종 추가 개발

 

이번에 흘려쓴 손글씨인 초서체 한자를 AI가 인식하여 정자(正字)로 자동 변환해 주는 <초서 OCR>, 한글 고문헌을 읽어주는 <옛 한글 OCR>, 한자와 한글이 혼용된 고문헌 문서를 읽어주는 <국한문 혼용 OCR> 등 3종의 AI 기반 OCR 모델을 새로 개발해 기존 해서/행서체 고문헌 한자 OCR 서비스에 추가해 출시한 것이다.

 

이에 따라 대부분 원문 이미지 아카이브 형태로 구축되어 있는 국내 고문헌 자료를 간편하고 효율적으로 디지털 텍스트로 변환해 활용하거나 데이터베이스로 구축할 수 있게 됐다.

 

특히 <초서 OCR>은 난해한 초서 글자를 AI 모델이 자동 인식하여 정자로 바꿔 준다는 점에서 이 서비스의 출시 이전부터 사용자들의 주목과 기대를 받아 왔다. 손글씨로 흘려쓴 초서 필사본은 <승정원일기>와 같은 국가 공식 기록물을 비롯해 각종 공문서, 개인 문집, 일기류, 서한 등 전통 고문헌의 상당 부분을 차지하고 있지만 소수의 초서 전문가들이 일일이 탈초(정자로 옮겨쓰기)해 주기 전에는 고문헌 연구자들도 판독하기 어려워하는 대상이었다.

 

하지만 이번 프로그램 개발에 따라 초서 원문을 본 <초서 OCR> 서비스를 이용해 연구자들을 포함해 누구나 좀 더 쉽고 간편하게 읽고 디지털 텍스트로 활용할 수 있게 됐다. 다만 초서 자료는 워낙 유형이 다양한 까닭에 OCR 인식률을 크게 높이기 어려운 한계가 있다.

 

누리IDT는 AI 모델 알고리즘의 개선 및 보다 많은 초서 학습 데이터의 확보를 통해 OCR 성능을 지속적으로 향상시켜 나갈 예정이다.

고문헌.jpg

 

 <초서 OCR 서비스>의 초서 원문 이미지 자동 인식과 텍스트 출력

 

국내 기업 최초로 고성능 고문헌 한문 자동 표점 프로그램 개발, 서비스 공개

 

누리IDT는 이 신규 <고문헌 OCR 서비스>와 함께 고문헌 원문 한문의 <자동 표점 서비스>도 새로 개발해 출시했다. 표점이란 원문 전체가 하나의 문장처럼 붙여쓰여 작성된 고전 한문 텍스트에 대해 의미 단위로 띄어쓰기하고 온점(。마침표)과 반점(, 쉼표) 등 구두점을 찍어 문장을 구분하는 것을 말한다.

 

이러한 표점 작업은 한문 원문을 정확하게 해석하거나 현대어로 번역하자면 반드시 선행돼야 하는 과정으로, 지금까지는 전문 연구자들이 원문 텍스트 한 줄 한 줄에 대해 꼼꼼히 읽고 의미 단위마다 일일이 구두점을 찍는 고된 작업을 해 왔다. 대표적으로 표점과 번역에 20년 이상이 걸린 <조선왕조실록>, 완료하기까지 앞으로도 40년 이상이 더 소요될 <승정원일기> 번역 사업 등이 그렇게 진행되고 있다.

 

누리IDT의 고성능 <자동 표점 서비스>는 전문가들만이 할 수 있는 고되고 오랜 시간 걸리는 표점 작업을 AI가 자동으로 순식간에, 매우 정확하게 처리해 준다. 누리IDT는 이를 위해 트랜스포머 계열의 최신 자연어처리(NLP) 모델로 1억 자 이상의 한문 데이터를 학습시킨 자동 표점 AI 모델을 개발하여 웹서비스로 공개했다.

 

1,000자 분량의 한문 원문 텍스트를 붙여 넣거나 파일 불러오기로 입력하면 1초 이내에 표점을 처리해 주며, 표점의 정확도는 90% 이상으로서 관련 전공 석사 수준을 능가하는 고성능을 시현한다. 표점이 잘못 처리된 경우에는 사용자가 결과 화면에서 곧바로 수정 입력할 수 있는 기능도 제공하므로 이 서비스를 이용하면 전문가가 한 달 넘게 전념해야 할 표점 작업을 단 하루 만에 마칠 수가 있다.

고문헌3.png

 

<고문헌 자동 표점 서비스>의 원문 텍스트 입력과 자동 표점 텍스트 출력

 

고문헌 문자 인식 – 자동 표점 – 자동 번역을 목표로 하는 고문헌 토털 솔루션

 

우리나라의 고문헌 자료는 문화 콘텐츠의 보고로 알려져 있지만 300만 점 이상으로 추산되는 국내 고문헌 자료는 약 50% 정도가 디지털 원문 이미지만 구축되어 있을 뿐이고 원문의 텍스트화는 5% 수준을 밑돌고 있다. 고문헌 자료가 문화 콘텐츠로서 널리 활용되기 위해서는 원문이 디지털 텍스트로 전환되어 검색과 공유가 용이해져야 하며, 원문 텍스트가 현대어로 번역되어 누구나 쉽게 접근하고 읽을 수 있어야 한다.

 

누리IDT의 <고문헌한자시스템>은 고문헌 자료의 자동 문자인식 ▷자동 표점 ▷자동 번역의 자동 처리 토털 솔루션을 목표로 하는 서비스이다.

 

<고문헌 OCR> 3종과 <자동 표점 서비스>를 신규 출시하면서 누리IDT의 배성진 대표는 “작년에 <고문헌 한자 OCR>을 출시한 이후 지속적인 투자로 고문헌 토털 솔루션의 두 번째 단계에 도달하게 됐다”면서 “이번에 새롭개 공개한 OCR과 표점 서비스가 고문헌 자료의 텍스트화와 활용에 적극 사용되기를 바란다”고 밝혔다. 

=누리IDT 고문헌한자시스템 바로가기(https://ocr.nuriidt.co.kr/)

 

고문헌4.png

 

관련기사

가장 많이 본 뉴스

더보기

최신뉴스

더보기

뉴스

더보기