Реальність і перспективи автоматичного читання рукописів

Засоби природного спілкування людини з комп'ютером як і раніше продовжують привертати увагу фахівців...
Надійність автоматизованого введення
Якість рукописних символів
Бази зображень символів
процес розпізнавання
можливості автоматизації
можливі рішення
застосування
наступні кроки
Читання злитих текстів
Обробка реальних документів
Читання текстів on-line
ВИСНОВОК
література
Історія розробки

Засоби природного спілкування людини з комп'ютером як і раніше продовжують привертати увагу фахівців інформаційної індустрії і одним з найпомітніших явищ тут є автоматичне читання рукописних документів, яке давно минуло стадію експериментів та перетворилося на реальну технологію обробки даних, яка застосовується державними та комерційними організаціями.
Сьогодні досить широко поширився оборот - «розпізнавання рукописного тексту» або розпізнавання рукописи, хоча термін «розпізнавання», строго кажучи, можна віднести лише до окремих об'єктів: символам, графема і т.д. Точніше буде говорити про процес автоматичного читання рукописних текстів. Цей процес складається з декількох ланок і розпізнавання лише одне з них. Але для стислості і дотримуючись традицій, будемо користуватися також терміном розпізнавання, застосовуючи його до всього тексту.

Про що йде мова

Тема читання рукописних текстів серйозно стала обговорюватися на рубежі 50-х і 60-х років одночасно з появою тоді публікаціями по розпізнаванню образів. Першими великими проектами були обробка поштової кореспонденції, перепис населення, анкетування. Для реалізації процесу обробки застосовувалися дорогі апаратні засоби - оптичні читають пристрої. Поступово їх стали поєднувати з керуючими машинами, і в кінцевому підсумку, система автоматичного читання перетворилася в об'єднання сканера і одного або декількох ПК. Сфера застосування технології розширилася, збільшилася гнучкість, впала вартість, і отримали розвиток роботи і меншого масштабу, орієнтовані на корпоративні потреби.

Однак, всупереч початковим очікуванню, прогрес в розпізнаванні йшов значно повільніше, ніж розвиток комп'ютерної галузі в цілому. Стало зрозуміло, що читання злитого рукописного тексту ще не досягло необхідного для застосування рівня, тому практично всі реальні проекти використовували спеціальні машинозчитувані бланки з виділеними знакомісць. Ці знакомісця позначалися точковими рамками або виділялися кольором, що не сприймаються як сканером. Таким чином, завдання читання природного рукописного тексту зводилася до більш простий - розпізнаванню ізольованих рукописних символів.

Таке завдання має цілком прийнятні практичні рішення, але для отримання необхідної надійності доводиться вводити обмеження на свободу написання. Найбільш простий шлях - введення стилізованого зображення, як на поштових конвертах не приніс очікуваного успіху, так як людині не властиво постійно і у всьому слідувати рекомендаціям-обмеженням. Надалі, багато поштові відомства зробили спробу послабити вимоги до стилю написання і досягли помітного успіху, але говорити про остаточне рішення проблеми поки не доводиться. В умовах необмеженого контингенту пишуть дуже важко розраховувати на їх вміння і свідомі обмеження при листі. Виявилося, що навіть в таких проектах як перепис населення або опитування громадян, де бланки заповнюють спеціально навчені люди, далеко не завжди дотримується елементарна акуратність. Таким чином, незважаючи на реальні і помітні успіхи проектів, побудованих на читанні рукописи, проблема підвищення надійності розпізнавання і зниження вимог до стилю і акуратності заповнення далеко не вичерпана. Причому, найгостріше вона стоїть при обробці документів, призначених для населення і заповнюваних незалежно від грамотності, свідомості, віку і навіть стану пишуть на момент заповнення.

Надійність автоматизованого введення

Коректна оцінка надійності використовує два показники: рівень відмов від розпізнавання і рівень помилок. Відмови пред'являються оператору, який вручну виконує корекцію. (Такий процес часто називають верифікацією даних). Чим більше встановлюється рівень відмов, тим менше виявляється помилок, але в усьому потрібна міра, наприклад, при рівні відмов 100% система не зробила б жодної помилки, але оператор був би змушений ввести всі дані вручну. Звичайне співвідношення - це рівень відмов в кілька разів вище рівня помилок.

Які абсолютні показники? Природно, вони дуже сильно залежать від якості текстів і умов експлуатації. У реальних, жорстких умовах проведення перепису в багатьох регіонах одночасно кількість помилок, за відомостями Держкомстату, в середньому було менше однієї на тисячу знаків, а на матеріалах попередньої перепису, при дотриманні деяких цілком посильних вимог (писати акуратно і використовувати хороший пише інструмент) одна помилка припадала на кілька тисяч і більше знаків. Для збільшення надійності введення в цілому проводиться автоматичний контроль за формально-логічним або орфографічним правилам, які, щонайменше, в декілька разів знижують рівень помилок. При правильно організованій технології автоматизованого введення рукописних даних надійність виявляється істотно вище, ніж при чисто ручному введенні, а, з огляду на стомлюваність операторів під час робочої зміни, ця різниця може зрости ще більше.

Якість рукописних символів

Отже, надійність розпізнавання дуже сильно залежить від якості зображень символів, яке визначається формою символів або стилем написання і способом виконання.

Хороший стиль написання означає, що знак за формою легко пізнаваний, не містить зайвих деталей (декоративних прикрас, рис. 1), але всі необхідні елементи присутні. Крім того, форма не повинна викликати конфліктів при визначенні людиною приналежності символу до цілком певного класу (рис. 2). Реально виявляється, що символи, написані різними людьми, відрізнити за класами дуже важко або взагалі неможливо.

Хороші по виконанню знаки мають на увазі нерозривність штрихів, гладкість країв (відсутність «бахроми»), відсутність помилкових торкань або повних запливів (рис. 3). Якість виконання залежить не тільки від людини, але і від пише інструменту, від паперу і процесу сканування. Додаткові перешкоди виникають від фону на формі, що дозволяє.

Реально вимоги до якості символів повністю не виконуються, тому прямі помилки і конфліктні ситуації усуваються шляхом логічних і словникових перевірок і втручання операторів.

Бази зображень символів

Розробка системи розпізнавання, її тестування, а також порівняння систем між собою неможливо без баз зображень символів. Ідеально, такі бази повинні містити три частини:

різноманітні за стилем, але позбавлені конфліктів за формою і хороші по виконанню символи;
конфліктні за формою символи з гарною якістю виконання;
символи з порушенням вимог до якості виконання.

Кожна з цих частин виконує свою задачу при розробці та тестуванні. На жаль, нам невідомі коректні за змістом і доступні розробникам бази. (Зазвичай це внутрішні бази для розробників, виконані в спеціальному форматі і не пропонуються для зовнішнього застосування. Розробники з різних компаній, будучи конкурентами не обмінюються цими даними). Відкрита база, пропонована американським інститутом стандартів NIST, не задовольняє цим методологічним вимогам, досить одноманітна за стилями і, до того ж, містить прямі помилки. Тому довелося створювати власну базу шляхом цілеспрямованого заповнення та збору вихідних даних, а також безпосередньо при виконанні проектів. Зараз ця база містить кілька мільйонів символів і постійно поповнюється.

процес розпізнавання

Розпізнавання рукописних символів помітно відрізняється від аналогічного процесу обробки друкованих знаків. Ця різниця зумовлена високою варіативністю форми рукописного варіанту і методи, прийняті для друкованого тексту, тут не працездатні.

Основою методів розпізнавання, що визначає успіх в цілому, є способи опису символів. Чи не торкаючись деталей, можна виділити дві складові такого опису: опис базових форм символів у вигляді структурних елементів і їх відносин; завдання діапазону змін параметрів елементів і їх відносин.

Типи структурних елементів багаторазово описані в літературі (наприклад, [1]). Серед таких використовуються відрізки прямих, дуги, опуклості, угнутості, перетину, кінці і деякі інші. Вирішальним тут є правильний вибір деякого мінімального набору типу структурних елементів, параметрів, що описують їх, і методів вимірювання. Удача в рішенні цієї задачі цілком залежить від кваліфікації, досвіду і інтуїції розробників.

Базові форми (рис. 4) змінюються, коли в символах виникають нові сполуки або розриви штрихів, або ж пропадають або з'являються деякі деталі на зображеннях символів.

Знайомство з базою форми як списку певних структурних елементів разом з таблицями діапазону параметрів утворює еталон, а набір всіх еталонів даного класу представляє повне еталонне опис класу.

У процесі розпізнавання кожен вхідний символ представляється аналогічним з базовими формами чином, а потім знаходиться найкраще збіг вхідного символу і якогось еталона з точки зору відповідності їх структурних елементів. Якщо задовільного збігу немає, то відбувається відмова від розпізнавання. Якщо два або більше еталонів різних класів дають близьке збіг, то відповідь - невизначений і видаються кілька гіпотез. Для вибору єдиної відповіді проводиться більш тонке порівняння, але не на всіх стандартах, а тільки на висунутих гіпотезах. При цьому до уваги беруться елементи зображення, що відрізняють схожі накреслення різних класів. Наприклад, цифра «З» відрізняється від «Е» наявністю западини справа. Однак реально такі здавалося б очевидні характеристики бувають настільки нестійкими, що доводиться вдаватися до більш тонким і цілеспрямованим вимірам, що залежать від вже висловленої гіпотези. Ми називаємо цей механізм «нав'язуванням». Якщо і ця процедура не призводить до єдиного вибору, то правильна гіпотеза визначається в процесі автоматичного контролю або вручну оператором.

Для досягнення оптимального поєднання співвідношення продуктивність-надійність часто застосовують систему двох розпізнають «експертів». Перший працює набагато швидше, але частина вхідних символів залишає у вигляді сумнівних, другий експерт працює повільніше, але більш ретельно.

можливості автоматизації

Кілька слів варто сказати про те, що собою представляють вихідні рукописні документи, придатні для сучасних систем введення. При вирішенні реальних завдань по введенню рукописних документів робота йде не з гладким текстом, а з добре структурованою інформацією: анкети, квитанції, митні декларації і т.п. У них задаються поля з однорідними за змістом даними: прізвища, імена, адреси, суми платежів, найменування товарів, дати і т.д. Однак читання такого роду документів ускладнене трьома проблемами:

наявністю суцільних ліній, які задають позиціонування інформації, на які може накладатися текст;
злитим написанням слів, багато разів ускладнює завдання виділення окремих символів;
недбалістю і неоднозначністю написання текстів.

Загальноприйнятим рішенням, істотно знижує гостроту проблеми, є введення спеціального виду машиночитаємих структурованих документів, що містять виділені знакомісця, на які наносяться рукописні символи. Ці знакомісця позначаються точковими рамками або виділяються кольором, що не сприймаються як сканером. Видалення точок є істотно простіший і однозначною проблемою, ніж знаходження суцільних ліній в традиційних бланках.

Проблема акуратності написання багато в чому вирішується самим способом роздільного розміщення символів, які змушують людей на інтуїтивному рівні писати більш ретельно, ніж при злитої скоропису. Крім рукописних символів в таких бланках часто використовуються мітки, що наносяться у вигляді жирних рисок, галочок, хрестів і т.д. Для зручності позиціонування в кутах бланків наносяться маркери, які мають легко впізнавані конфігурації у вигляді кутів, квадратів і т.д. У деяких випадках позиціонування робиться за інформацією загального вигляду, що є на бланках, проте цей спосіб менш надійний і вимагає додаткового часу для обробки. На рис. 5 наведені приклади машиночитаємих документів для перепису населення і для Єдиного державного іспиту).

Машиночитні бланки можуть тиражуватися друкарським способом, як для перепису, або генеруватися і друкуватися на місці за індивідуальними вимогами, як в задачі контролю знань учня.

можливі рішення

Побажання споживача щодо системи введення рукописних текстів досить зрозумілі і могли б бути сформульовані всього в декількох позиціях:

зручність і простота в освоєнні і в роботі;
істотне зниження витрат при введенні;
надійність процесу обробки;
мінімальна вартість системи;
можливість конфігурації і настройки під замовника;
можливість швидкої модифікації існуючої системи, якщо коштів настройки недостатньо для задоволення вимог споживача.

Система введення зазвичай реалізується у вигляді програмно-апаратного комплексу, що виконує завершений технологічний цикл: сканування паперових оригіналів; розпізнавання машинозчитуваних бланків; формально-логічний і словниковий автоматичний контроль розпізнаної інформації; ручна верифікація даних; запис вихідної інформації в необхідному форматі і її зберігання. У комплекс включаються також кошти проектування машинописних бланків та налаштування функцій автоматичного контролю.

Залежно від особливостей застосування пропонуються діаметрально протилежні по конфігурації рішення: з централізованим введенням і високопродуктивним сканером; з розподіленим введенням і сканером з ручною або повільної подачею.

Перший спосіб придатний при накопиченні великих обсягів документів і значних обмеженнях на час введення (перепис населення, соціологічне опитування), другий - при обробці даних безпосередньо на місцях їх подачі (прийом заяв від громадян, оцінка письмових відповідей учнів).

Централізований спосіб обробки був застосований для перепису населення 2002 року. Комплекс введення та обробки «Звід М1» був поставлений в кілька десятків регіонів і був задіяний в ході збору первинних документів.

Розподілений спосіб обробки застосовується для проекту щодо Єдиного державного іспиту, де інформація вводиться безпосередньо на місцях її виникнення, т. Е. В навчальних закладах.

застосування

Існуючими та потенційними сферами застосування автоматичного читання є будь-які області, де ручне введення рукописних текстів неприпустимий з точки зору витрат часу і зусиль.

Перша група застосувань характеризуються тим, що кількість людей, що заповнюють документи, може бути велике, але має цілком певні рамки. Сам же документ строго формалізований або при прийомі документів проводиться їх строгий контроль за якістю текстів. Зазвичай, це спеціальні проекти (перепис населення, соціологічне опитування, прийом податкових декларацій) або корпоративні проекти (медичні та освітні установи). Особливістю цих проектів є, як правило, можливість ретельної підготовки документів та технології обробки.

Друга група застосувань більш численна. Її умовно можна назвати - застосування для роботи з громадянами. «Людини з вулиці» неможливо ні навчити, ні змусити писати строго відповідно до вимог - йому можна тільки запропонувати легко розуміється і просто заповнюють машиночитаемую форму, але стиль реального написання і його якість вимагають від системи принципово більш високої надійності автоматизованого введення.

Альтернатива автоматичному розпізнаванню у вигляді роботи оператора за первинними документами або заявами громадян створює труднощі при масовому обслуговуванні населення, а інші способи введення, що використовують вельми різноманітні і погано структуровані друковані документи або персональний доступ в Internet, не здатні в найближчому майбутньому змінити цю ситуацію.

Приклади роботи з населенням надзвичайно численні:

прийом страхових заяв;
прийом квитанцій про комунальні та інші Платежі;
реєстрація автомобілів при постановці на облік і зняття з него, обробка документів про дорожньо-транспортних стане в нагоді;
прийом заяв громадян у організаціях самоврядування та чисельності конторах по обслуговуванню житлового фонду;
прийом рекламних оголошень;
реєстрація населення в паспортних столах;
прийом Запитів в будь-якіх КОМЕРЦІЙНИХ фірмах, Які Надаються послуги;
Реєстраційні палати всіх видів; прийом всіх видів заяв и анкет в кадрових агентствах, навчальний заклад, Військових комісаріатах и т. д.;
обробка поштовий відправлень;
реєстрація пріїжджіх и біженців;
підготовка документів в нотаріальних конторах; прийом митних декларацій;
прийом візових заяв; и т.п.

Особливістю цих досить різноманітних застосувань є те, що введення, як правило, здійснюється на місцях і розподілений спосіб обробки є найбільш підходящим.

На даний момент більш значні досягнення по впровадженню отримані в першій групі, проте останнім часом помітний суттєвий прогрес і в другій, яка характеризується більшою динамічністю.

наступні кроки

Підвищення надійності розпізнавання символів

Новий рівень надійності розпізнавання означає поліпшення ефективності його застосування в традиційних сферах і відкриває для використання інші області, які раніше вважалися непридатними через низьку якість заповнення документів. Як наслідок, це означає, з одного боку, зниження або ліквідацію неприємних наслідків через проникнення помилок у вихідні дані і зменшення витрат на введення, а з іншого, значне розширення ринку застосувань.

Підвищення надійності відбувається як шляхом регулярного поліпшення опису знаків на постійно розширюється вибірці, так і введенням більш досконалих методів розпізнавання і обробки символів.

У планах такий потужний прийом підвищення якості розпізнавання як настройка на індивідуальні особливості почерку. Ця операція покращує стійкість процесу розпізнавання, дозволяє врахувати рідко зустрічаються особливості написання і, найголовніше, уникнути конфліктів близького написання символів різних класів. Ці конфлікти часто зустрічаються у різних людей, але кожна людина зазвичай уникає таких написань у власному тексті просто на інтуїтивному рівні, без спеціального навчання. Налаштування відбувається автоматично по мірі накопичення знань про особливості почерку. До мінусів такого підходу ставиться його низька ефективність при малих обсягах текстів.

Як певний компромісний варіант може працювати схема налаштування на найбільш типові стилі для даного регіону, даної країни і т. Д. Відомо, наприклад, що деякі способи написання дуже рідко зустрічаються для однієї спільності людей і дуже характерні для іншого.

Читання злитих текстів

Виявляється, що навіть в машиночитаних документах, що вимагають роздільного написання символів людям важко бездоганно виконати цю вимогу. Тому, поряд з підвищенням надійності обробки ізольованих символів, актуальною для просування технології розпізнавання текстів є завдання читання слів зі злиттями знаків. На щастя, в більшості випадків ці торкання знаків є частковими і рідко поширюються на всі слово.

Читання слів зі злиттями спирається на два процеси: виділення знаків в слові і їх розпізнавання і перевірка всього слова за словником. При цьому доводиться перевіряти всі варіанти розподілу і наявності відповідних слів в словнику. При обробці чисто цифрових записів завдання обробки злиттів ускладнюється, однак і там можуть бути певні правила: допустимі значення цифр і чисел, довжини записів, контрольні суми, обмеження на ширину і положення знаків і т.д. Інакше кажучи, вкрай рідко бувають абсолютно Бесконтекстние ситуації.

Обробка реальних документів

Реальні рукописні документи помітно відрізняються від машиночитаних:

в слові символи мають торкання;
знакомісця виділяються не для символів, а для одного або декількох слів;
знакомісця визначаються не точковими рамками або нечитабельним кольором, а суцільними чорними лініями;
текст може бути написаний досить недбало.

На щастя, більшість існуючих рукописних документів має явно виражену структуру, а багато символів написані ізольовано, що, мабуть, інтуїтивно асоційоване у людей з розбірливим заповненням документів. Приклади таких документів ми знаходимо в відомостях, журналах, накладних, дорожніх листів, формалізованих протоколах.

Про завдання читання слів зі злиттями ми вже говорили, однак наявність чорних позиціонують ліній ускладнює завдання. Лінії виділяються як об'єкти, що мають характерну форму довгих відрізків, яка помітно відрізняється від зображень символів. Якщо ці лінії накладаються на деякі зі штрихів, що утворюють символи, то завдання розпізнавання стає неоднозначною і вимагає перебору варіантів.

В цілому, загальні підходи до вирішення завдання читання реальних рукописних документів або достатньо вільних за формою машиночитаємих бланків цілком зрозумілі і реалізовані. Є приклади обнадійливих експериментальних результатів, однак практичні досягнення поки помітно поступаються традиційним рішенням зі строгими машиночитаному формами. Дозрівання ринку для більш широкого застосування технологій автоматичного читання рукописи буде стимулом для наступного кроку, який викличе переклад наукових результатів в практичну площину.

Читання текстів on-line

Це завдання є цілком реалізовується на основі методів, використовуваних для off-line читання. Сьогодні отримані цілком обнадійливі проміжні результати, однак подальша розробка гальмується через відсутність досить великого і прогнозованого ринку споживання таких систем. Поки що обсяг продажів комп'ютерів з ручним введенням текстів невеликий, а якість програм розпізнавання російською мовою залишає бажати кращого.

Слід сказати, що для on-line розпізнавання проблема читання злитих текстів набагато більш актуальна, ніж для off-line, але зате вона має більш стійкі рішення, так як при русі пера є інформація про породжує траєкторії і, отже, про послідовність введення окремих знаків.

ВИСНОВОК

Ще років десять тому мало хто міг собі уявити можливості масового застосування систем рукописного розпізнавання. Компанії КРОК вдалося створити і впровадити технологію розпізнавання рукописних документів, яка знайшла широке застосування при автоматизації процесів голосування, перепису населення, виконання різних проектів Держкомстату та Єдиного державного іспиту), а також в ряді інших проектів для комерційних і державних організацій. Створена технологія і окремі рішення на її основі можуть бути налаштовані на конкретне застосування в задачах, що спираються на читання рукописних документів.

література

К. Фу. Структурні методи в розпізнаванні образів. М .: МИР, 1977

Андрій Шаїн ( [email protected] ) - заступник директора департаменту інформаційних технологій компанії КРОК, Борис Мазо ( [email protected] ) - керівник проектів по розпізнаванню компанії КРОК.

Розрізняють два види технології розпізнавання рукописи: традиційний напрям читання паперових документів, зване «автономним» (off-line), і більш пізніше - «оперативне» (on-line), в якому в якості інструмента використовуються перо і спеціальний екран або панель, сприйнятливі до руху пера і фіксують його траєкторію. Знання про траєкторії дають додаткову і дуже істотну інформацію для розпізнавання. У даній статті розглядаються тільки off-line процеси, але багато методи розпізнавання носять універсальний характер і можуть бути успішно перенесені на розпізнавання в режимі on-line.

Історія розробки

У компанії КРОК вдалося зібрати разом фахівців з розпізнавання символів, багато з яких були піонерами таких досліджень в країні (перший досвід успішного впровадження відноситься ще до 60-х років). Базова технологія розроблялася в компанії ОКРУС, що привернула фахівців з декількох організацій, які працювали над проблемою обробки текстів. Пізніше всі отримані напрацювання були сконцентровані в КРОК, де вони були, зокрема, використані в проектах: ГАС «Вибори», комплекс первинної обробки рукописних документів Всеросійського перепису населення 2002 року «Звід М1», програмне забезпечення для проекту по автоматизації ЄДІ (Єдиний державний іспит).

Які абсолютні показники?

Рекрутинговая компания Consulting: Поиск и подбор персонала