속초20.0℃
22.1℃
철원23.3℃
동두천23.8℃
파주22.3℃
대관령20.3℃
춘천22.1℃
백령도22.9℃
북강릉21.8℃
강릉21.6℃
동해23.0℃
서울24.1℃
인천23.9℃
원주21.3℃
울릉도23.7℃
수원24.8℃
영월21.5℃
충주24.1℃
서산25.3℃
울진22.7℃
청주22.6℃
대전23.7℃
추풍령23.8℃
안동23.0℃
상주23.1℃
포항23.6℃
군산24.7℃
대구24.8℃
전주25.5℃
울산25.2℃
창원25.2℃
광주24.7℃
부산25.8℃
통영24.5℃
목포24.4℃
여수22.7℃
흑산도23.6℃
완도24.9℃
고창24.8℃
순천24.1℃
홍성(예)24.6℃
19.7℃
제주24.9℃
고산22.5℃
성산24.4℃
서귀포24.3℃
진주23.6℃
강화23.0℃
양평22.2℃
이천23.0℃
인제20.6℃
홍천20.5℃
태백22.2℃
정선군19.2℃
제천21.1℃
보은21.0℃
천안21.8℃
보령25.5℃
부여22.0℃
금산23.0℃
22.0℃
부안24.2℃
임실23.1℃
정읍24.0℃
남원23.8℃
장수22.6℃
고창군23.4℃
영광군23.4℃
김해시25.7℃
순창군23.0℃
북창원26.5℃
양산시26.7℃
보성군25.0℃
강진군24.9℃
장흥24.8℃
해남25.5℃
고흥25.5℃
의령군24.5℃
함양군22.7℃
광양시25.3℃
진도군25.0℃
봉화21.8℃
영주22.1℃
문경22.9℃
청송군23.1℃
영덕23.9℃
의성24.5℃
구미24.9℃
영천23.7℃
경주시25.3℃
거창22.8℃
합천23.4℃
밀양25.3℃
산청22.5℃
거제23.6℃
남해22.1℃
26.1℃

기상청 제공

2026년 06월 15일 (월)

인공지능이 고문헌 원문을 읽고 띄어쓰기해 준다!

sns 공유
공유
공유창 닫기
목록
메일발송
프린트
가 가 가 글자크기
글자크기 설정
공유창 닫기
- 가
- 글씨크기 작게
- 글씨크기 크게
- 가

홈
뉴스

인공지능이 고문헌 원문을 읽고 띄어쓰기해 준다!

초서체 한자와 옛 한글, 국한문 혼용문 자동 인식 프로그램 개발 공개
<자동 표점 서비스>, 1000자 분량의 한문 원문도 1초 이내에 표점 처리

하재규 기자
등록 2024.05.03 08:53

[한의신문] 지능형 데이터 전문 기업 (주)누리아이디티(대표 배성진)는 인공지능(AI) 기술을 기반으로 초서체 한자와 옛 한글, 국한문 혼용문을 자동 인식하는 <고문헌 OCR 서비스> 3종과 고문헌 원문 한문을 띄어쓰기해 주는 <자동 표점 서비스>를 출시했다고 3일 밝혔다.

누리IDT는 지난해 5월 AI 모델이 고문헌의 해서체와 행서체 한자를 평균 98%의 정확도로 자동 인식하여 디지털 텍스트로 변환해 주는 <고성능 한자 OCR 서비스>를 개발하여 언론과 학계의 호평을 받은 바 있다.

AI 기반 초서, 옛 한글, 국한문 혼용 등 고문헌 OCR 3종 추가 개발

이번에 흘려쓴 손글씨인 초서체 한자를 AI가 인식하여 정자(正字)로 자동 변환해 주는 <초서 OCR>, 한글 고문헌을 읽어주는 <옛 한글 OCR>, 한자와 한글이 혼용된 고문헌 문서를 읽어주는 <국한문 혼용 OCR> 등 3종의 AI 기반 OCR 모델을 새로 개발해 기존 해서/행서체 고문헌 한자 OCR 서비스에 추가해 출시한 것이다.

이에 따라 대부분 원문 이미지 아카이브 형태로 구축되어 있는 국내 고문헌 자료를 간편하고 효율적으로 디지털 텍스트로 변환해 활용하거나 데이터베이스로 구축할 수 있게 됐다.

특히 <초서 OCR>은 난해한 초서 글자를 AI 모델이 자동 인식하여 정자로 바꿔 준다는 점에서 이 서비스의 출시 이전부터 사용자들의 주목과 기대를 받아 왔다. 손글씨로 흘려쓴 초서 필사본은 <승정원일기>와 같은 국가 공식 기록물을 비롯해 각종 공문서, 개인 문집, 일기류, 서한 등 전통 고문헌의 상당 부분을 차지하고 있지만 소수의 초서 전문가들이 일일이 탈초(정자로 옮겨쓰기)해 주기 전에는 고문헌 연구자들도 판독하기 어려워하는 대상이었다.

하지만 이번 프로그램 개발에 따라 초서 원문을 본 <초서 OCR> 서비스를 이용해 연구자들을 포함해 누구나 좀 더 쉽고 간편하게 읽고 디지털 텍스트로 활용할 수 있게 됐다. 다만 초서 자료는 워낙 유형이 다양한 까닭에 OCR 인식률을 크게 높이기 어려운 한계가 있다.

누리IDT는 AI 모델 알고리즘의 개선 및 보다 많은 초서 학습 데이터의 확보를 통해 OCR 성능을 지속적으로 향상시켜 나갈 예정이다.

<초서 OCR 서비스>의 초서 원문 이미지 자동 인식과 텍스트 출력

국내 기업 최초로 고성능 고문헌 한문 자동 표점 프로그램 개발, 서비스 공개

누리IDT는 이 신규 <고문헌 OCR 서비스>와 함께 고문헌 원문 한문의 <자동 표점 서비스>도 새로 개발해 출시했다. 표점이란 원문 전체가 하나의 문장처럼 붙여쓰여 작성된 고전 한문 텍스트에 대해 의미 단위로 띄어쓰기하고 온점(。마침표)과 반점(, 쉼표) 등 구두점을 찍어 문장을 구분하는 것을 말한다.

이러한 표점 작업은 한문 원문을 정확하게 해석하거나 현대어로 번역하자면 반드시 선행돼야 하는 과정으로, 지금까지는 전문 연구자들이 원문 텍스트 한 줄 한 줄에 대해 꼼꼼히 읽고 의미 단위마다 일일이 구두점을 찍는 고된 작업을 해 왔다. 대표적으로 표점과 번역에 20년 이상이 걸린 <조선왕조실록>, 완료하기까지 앞으로도 40년 이상이 더 소요될 <승정원일기> 번역 사업 등이 그렇게 진행되고 있다.

누리IDT의 고성능 <자동 표점 서비스>는 전문가들만이 할 수 있는 고되고 오랜 시간 걸리는 표점 작업을 AI가 자동으로 순식간에, 매우 정확하게 처리해 준다. 누리IDT는 이를 위해 트랜스포머 계열의 최신 자연어처리(NLP) 모델로 1억 자 이상의 한문 데이터를 학습시킨 자동 표점 AI 모델을 개발하여 웹서비스로 공개했다.

1,000자 분량의 한문 원문 텍스트를 붙여 넣거나 파일 불러오기로 입력하면 1초 이내에 표점을 처리해 주며, 표점의 정확도는 90% 이상으로서 관련 전공 석사 수준을 능가하는 고성능을 시현한다. 표점이 잘못 처리된 경우에는 사용자가 결과 화면에서 곧바로 수정 입력할 수 있는 기능도 제공하므로 이 서비스를 이용하면 전문가가 한 달 넘게 전념해야 할 표점 작업을 단 하루 만에 마칠 수가 있다.

<고문헌 자동 표점 서비스>의 원문 텍스트 입력과 자동 표점 텍스트 출력

고문헌 문자 인식 – 자동 표점 – 자동 번역을 목표로 하는 고문헌 토털 솔루션

우리나라의 고문헌 자료는 문화 콘텐츠의 보고로 알려져 있지만 300만 점 이상으로 추산되는 국내 고문헌 자료는 약 50% 정도가 디지털 원문 이미지만 구축되어 있을 뿐이고 원문의 텍스트화는 5% 수준을 밑돌고 있다. 고문헌 자료가 문화 콘텐츠로서 널리 활용되기 위해서는 원문이 디지털 텍스트로 전환되어 검색과 공유가 용이해져야 하며, 원문 텍스트가 현대어로 번역되어 누구나 쉽게 접근하고 읽을 수 있어야 한다.

누리IDT의 <고문헌한자시스템>은 고문헌 자료의 자동 문자인식 ▷자동 표점 ▷자동 번역의 자동 처리 토털 솔루션을 목표로 하는 서비스이다.

<고문헌 OCR> 3종과 <자동 표점 서비스>를 신규 출시하면서 누리IDT의 배성진 대표는 “작년에 <고문헌 한자 OCR>을 출시한 이후 지속적인 투자로 고문헌 토털 솔루션의 두 번째 단계에 도달하게 됐다”면서 “이번에 새롭개 공개한 OCR과 표점 서비스가 고문헌 자료의 텍스트화와 활용에 적극 사용되기를 바란다”고 밝혔다.

=누리IDT 고문헌한자시스템 바로가기(https://ocr.nuriidt.co.kr/)