NHẬN DẠNG CHỮ VIẾT: NHỮNG THÀNH TỰU, THÁCH THỨC VÀ HƯỚNG TIẾP CẬN

Optical character recognition: achievements, challenges and approaches

Tóm tắt:

Trong lĩnh vực nhận dạng thì nhận dạng chữ đang ngày càng có nhiều ứng dụng trong đời sống xã hội. Cho đến nay, bài toán nhận dạng chữ in đã được giải quyết gần như trọn vẹn (sản phẩm FineReader 12.0 của hãng ABBYY có thể nhận dạng chữ in theo 20 ngôn ngữ khác nhau, phần mềm nhận dạng chữ Việt in VnDOCR 4.0 của Viện Công nghệ Thông tin Hà Nội có thể nhận dạng được các tài liệu chứa hình ảnh, bảng và văn bản với độ chính xác trên 98%). Tuy nhiên, trên thế giới cũng như ở Việt Nam thì bài toán nhận dạng chữ viết tay vẫn còn là vấn đề thách thức lớn đối với các nhà nghiên cứu. Bài báo này sẽ tổng hợp những thành quả đạt được và những tồn tại, thách thức hiện nay trong lĩnh vực nhận dạng chữ viết đồng thời nêu lên những hướng tiếp cận mới cho hướng nghiên cứu này.

Từ khóa: Nhận dạng chữ in; nhận dạng chữ viết tay; OCR.hận dạng chữ;

Abstract:

In the field of recognition, Optical Character Recognition (OCR) has had more and more applications in the social life. Up to now, the problem of recognizing printed characters has been almost completely solved (its product ABBYY FineReader 12.0 can recognize printed letters in 20 different languages, the Vietnamese printed character recognition software VnDOCR 4.0 of Ha Noi Institute of Information technology can identify documents containing images, tables and texts with an accuracy level of over 98%). However, in the world as well as in Vietnam, the problem of handwriting recognition still remains a big challenge for researchers. This paper is to present an overview of the achievements, shortcomings and challenges in this field of OCR as well as propose some new approaches for this type of research.

Keywords: printed character recognition; handwriting recognition; OCR.

Các bài báo khác của tác giả được đăng trên tạp chí

Số thứ tự Bài báo Tạp chí Trang Ngày đăng
120(03).201610730-09-16