3.3. Концепція технології оброблення матеріалів Всеукраїнського перепису населення 2001 року
Концепція технології оброблення даних Всеукраїнського перепису населення 2001
року містила основні принципи створення та розвитку програмного, технічного та
технологічного забезпечення, які були необхідні для виконання робіт з оброблення
даних Всеукраїнського перепису населення 2001 року. Зроблений у Концепції вибір
програмно-технічного комплексу був орієнтований на створення технологічних
дільниць у складі діючих в системі органів державної статистики локальних
обчислювальних мереж регіонального та державного рівнів.
Технічні засоби оброблення матеріалів перепису населення, організаційно
об'єднані у локальну мережу, мали включати у себе: пристрої оптичного зчитування
інформації; робочі станції для управління введенням даних з пристроїв оптичного
зчитування інформації; робочі станції для контролю та коригування інформації
переписних листів; мережеві файл-сервери для збереження програмного та
інформаційного забезпечень; пристрої створення страхових копій та відповідні
мережеві засоби.
Технологія оброблення даних перепису передбачала використання сертифікованих
технічних та програмних засобів, що відповідали вимогам відкритих систем
взаємодії.
АС “Перепис-2001” – автоматизована система обробки даних перепису населення мала
трирівневу архітектуру "клієнт-сервер", причому в якості системи керування
базами даних використовувався SYBASE Adaptive Server Enterprise 12.0. Основна
обробка даних виконувалася на сервері, на робочих станціях підтримувався
графічний інтерфейс користувача для доступу до бази даних. Серверна частина
системи була розроблена з використанням мов програмування Transact-SQL, С ++ ,
Visual Basic. Останні дві з них використовувалися також для розробки клієнтської
частини.
Слід зауважити, що розробка програмного забезпечення державного рівня з метою
забезпечення незалежності оброблення матеріалів перепису населення передбачала
встановлення додаткових технічних засобів (сервери і робочі станції) для прийому
даних від територіальних управлінь статистики, їх контролю та обробленню. Для
матеріалів перепису мінімальною порцією введення, суцільного контролю та
вивантаження даних був портфель з переписними листами, мінімальною порцією
фрагментарного контролю – переписний лист.
На регіональному та державному рівнях для створення страхових та архівних копій
даних перепису населення застосовувалися засоби архівації, для контролю
цілісності даних – засоби ручної і автоматизованої реєстрації документів, файлів
даних та технологічних операцій при передачі інформації з однієї ділянки на
іншу, з одного рівня на другий (передача даних з регіонального рівня на
державний виконувалася на машинних носіях (кур'єром). Для захисту інформації
було вжито заходи щодо забезпечення розмежування прав доступу до даних перепису
та недопущення несанкціонованого доступу до них. Інформаційна сумісність даних
перепису забезпечувалася використанням загальнодержавних класифікаторів
інформації та таблиць зв'язку локальних довідників перепису населення із
загальнодержавними класифікаторами.
Відповідно до Концепції, опрацювання даних Всеукраїнського перепису населення
2001 року починалося після завершення усіх заходів з підготовки матеріалів до
автоматизованого оброблення. Першим етапом робіт з оброблення інформації було
введення даних з паперових носіїв пристроями оптичного зчитування з проведенням
контролю (в обмеженому обсязі), підготовка файлів переписних листів для
завантаження в базу даних; формування архіву графічних зображень. Цей етап
виконувався за допомогою програмно-технічного комплексу сканерного введення
переписних документів, що був побудований на основі програмного забезпечення
Eyes&Hands Forms шведської компанії ReadSoft.
Цей комплекс був призначений для:
- сканерного введення переписних документів;
- автоматичного (комп’ютерного) розпізнавання переписних документів;\
- перевірки автоматичного розпізнавання та забезпечення первинного контролю
даних переписних документів;
- формування текстового файлу з інформацією, що підлягає обробці на подальших
етапах;
- запису графічних образів переписних документів, отриманих у результаті
сканування
Комплекс розроблено для використання на персональних комп’ютерах класу Pentium
III, HDD-15Gb, RAM-128Mb з операційною системою MS Windows 2000 Professional, що
входять у домен із сервером домену на ОС MS Windows 2000 Server. Для сканування
переписних форм до одного з цих комп’ютерів підключався сканер, сумісний з даним
комплексом. Для запису графічних образів переписних форм на лазерні диски один з
цих комп’ютерів мав пристрій запису – CD Recorder. На комп’ютері, що був
призначений для запису лазерних дисків, під час запису не виконувалися інші
роботи.
Комплекс було реалізовано за модульною технологією з поетапним виконанням робіт.
Це дозволяло організувати виконання етапів процесу сканування на декількох
комп’ютерах із розподіленням його у часі. Кількість одночасно запущених модулів
Eyes&Hands Forms мала не перевищувати восьми. Перед початком сканування
портфелів певного масиву в обов’язковому порядку в АС “Перепис-2001” вводилися
дані з відповідної форми М.
До складу програмного комплексу сканування входило 5 модулів Eyes&Hands Forms:
Manager, Scan, Interpret, Verify, Transfer та окремий модуль запису графічних
образів CensusCDR. Наведена нижче таблиця містить короткий опис даних модулів:
Назва модулю
|
Призначення модулю
|
Manager (Керування)
|
Опис переписних форм. Видалення невдало оброблених переписних документів та очищення внутрішньої бази переписних документів
|
Scan (Сканування)
|
Сканування переписних документів портфелю
|
Interpret (Розпізнавання)
|
Розпізнавання просканованих переписних документів
|
Verify (Перевірки)
|
Перевірка оператором правильності розпізнавання
|
Transfer (Трансформації)
|
Формування вихідного файлу та каталогу графічних образів переписних документів по перевіреному портфелю
|
CensusCDR (Запису дисків)
|
Запис графічних образів переписних документів на лазерний диск
|
Роботу з комплексом здійснювали дві категорії операторів: сканування та
верифікації. Оператор сканування виконував сканування переписних документів,
запуск модулів Interpret та Transfer, запис графічних образів переписних
документів. Оператор верифікації – запуск модулю Verify та перевірку
правильності розпізнавання цифрових символів переписних документів за допомогою
модуля Verify.
Усі інші етапи оброблення виконувалися з використанням програмного забезпечення
АС “Перепис-2001”:
- формування звітної документації про хід оброблення матеріалів перепису;
реєстрація та повернення оброблених портфелів переписних листів до сховищ.
Інформацію про хід оброблення матеріалів перепису населення відповідальний
працівник відділу перепису населення територіального управління статистики о
восьмій годині передавав засобами електронної пошти до Держкомстату України і
одночасно доповідав керівництву територіального управління статистики;
- завантаження файлів переписних листів до бази даних, формування протоколів
завантаження. Підготовлені на етапі оптичного зчитування файли завантажувалися
до бази даних. Одиницею завантаження був портфель. Під час завантаження
проводився контроль цілісності та правильності комплектації портфелю, результати
контролю та завантаження оформлювалися у вигляді протоколу. До бази даних
записувалися ті портфелі, які повністю або частково відповідали вимогам
цілісності та правильності комплектації;
- контроль переписних листів, формування протоколів контролю переписних листів,
коригування даних переписних листів на основі протоколів контролю з
використанням архіву графічних зображень; виконання повторного контролю;
формування звітної документації про хід оброблення даних перепису населення.
Контроль переписних листів поділявся на два основні види: суцільний і
фрагментарний. Як вже зазначалося, одиницею суцільного контролю був портфель,
одиницею фрагментарного контролю – переписний лист. Після завантаження до бази,
дані портфелю проходили суцільний контроль. У разі виявлення помилок контролю
виконувалася процедура звернення до архіву графічних зображень, після чого
переписні листи перевірялися на відповідність графічному зображенню. У разі
виявлення розбіжностей між графічним зображенням та інтерпретованими даними
переписних листів, що були записані до бази даних, здійснювалося коригування або
довведення переписних листів у базу в інтерактивному режимі. Для невизначених та
помилкових даних переписних листів проводилося автокоригування за сталими
алгоритмами, результати якого фіксувалися в протоколі. Після завершення
довведення або коригування довведені та відкориговані переписні листи підлягали
фрагментарному (частковому) контролю. Перед формуванням зведених даних (вихідних
таблиць) переписні листи, за якими проводилося зведення, повинні були пройти
повторний суцільний контроль, якщо в дані портфелю після завантаження вносились
будь-які зміни;
- формування зведених даних у розрізі масивів, проведення їх внутрішньотабличного,
міжрозрізного та міжтабличного контролів; формування звітної документації про
хід оброблення даних перепису населення. На регіональному рівні після завершення
суцільного контролю переписних листів, що відносилися до одного району,
проводилося формування зведених даних, вихідних таблиць та їх
внутрішньотабличний, міжрозрізний та міжтабличний контроль. У випадку виявлення
помилок за допомогою системи нерегламентованих запитів локалізувалося джерело
помилки і повторювався попередній етап оброблення даних;
- формування територіального файла (частини територіального файла) для відсилки
(передачі) на державний рівень; створення архівних копій. Після завершення
внутрішньотабличного, міжрозрізного та міжтабличного контролів в цілому по
регіону (у розрізі районів) шляхом вивантаження даних з бази даних формувалися
територіальні файли. Територіальний файл готувався для запису на технічні носії
або для передачі засобами електронної пошти, формувався пакет даних для передачі
(відсилки). Після формування та відсилки територіального файлу або його частини
створювалася архівна копія як з бази даних, так і з територіального файлу або
його частини;
- отримання від територіального управління статистики, реєстрація та антивірусний
контроль територіального файла на державному рівні; складання довідок про хід
надходження територіальних файлів; підготовка територіального файла для
завантаження до центральної бази даних. На державному рівні отримані
територіальні файли реєструвалися, проходили антивірусний контроль та контроль
на повноту і готувалися для завантаження. За результатами виконання цих операцій
надавався дозвіл на завантаження територіального файлу до центральної бази даних
перепису населення, або територіальний файл повторно запитувався від
територіального управління статистики. Перед початком завантаження з
територіального файлу робилася архівна копія. Кожен повторний запит, повний або
частковий, реєструвався, фіксувалася причина його подання. Для територіального
файлу, який отримувався на державному рівні як відповідь на повторний запит, цей
етап повторювався знову;
- завантаження територіального файла до центральної бази даних перепису населення,
формування протоколів завантаження. Блокування завантаження передбачалося при
виявленні випадків порушення внутрішньої структури територіального файлу. При
виникненні таких ситуацій діагностувалася причина порушення, локалізувалося
місце порушення та робився повторний запит територіального файлу на регіональний
рівень. Після завершення завантаження отримувався протокол або довідка про склад
даних, що надійшли;
- виконання контролю переписних листів, що входять до територіального файлу,
формування протоколів контролю переписних листів; можливо, повторні запити
територіальних файлів чи їх частин; формування звітної документації про хід
оброблення даних перепису населення (про якість територіальних файлів). Після
завантаження кожного територіального файлу до бази даних проводився суцільний
контроль переписних листів цього територіального файлу, отримувався протокол
контролю та довідка про якість даних. В залежності від кількості й типу помилок
приймалося рішення щодо необхідності повторного запиту територіального файлу з
регіонального рівня чи виправлення помилок безпосередньо на державному рівні.
Після коригування перед виконанням наступного етапу суцільний контроль
повторювався;
- формування зведених даних (вихідних таблиць), проведення їх
внутрішньотабличного, міжрозрізного та міжтабличного контролів. На державному
рівні формування зведених даних (вихідних таблиць) виконувалося після завершення
контролю усіх даних перепису населення. Після формування всіх вихідних таблиць
проводився їх внутрішньотабличний, міжрозрізний та міжтабличний контроль. У
випадку виявлення помилок за допомогою системи нерегламентованих запитів
локалізувалося джерело помилки і визначалася необхідність повторного запиту
територіального файлу з регіонального рівня чи виправлення помилок безпосередньо
на державному рівні;
- друк вихідних таблиць. Після завершення внутрішньотабличного,
міжрозрізного та міжтабличного контролю, за відсутності помилок, вихідні таблиці могли бути
роздруковані та виведені на технічні носії. Передбачався, як повний так і
частковий друк і виведення вихідних таблиць;
- формування інформації для користувачів даних. Для поширення інформації
передбачалося її формування як у вигляді друкарських видань, так і на оптичних
дисках з відповідними програмами візуалізації. Програми візуалізації мали
поставлятися на тому ж оптичному носії;
- формування регіональних фрагментів центральної бази даних перепису населення та
відсилка (передача) їх в територіальні управління статистики для подальшого
використання; друк зведених даних (вихідних таблиць) в територіальних
управліннях статистики. В рамках виконання робіт з оброблення матеріалів
перепису населення передбачалося формування фрагментів центральної бази даних з
інформацією вихідних таблиць для подальшої обробки на регіональному рівні.
Порядок формування та відсилки регіональних фрагментів аналогічний формуванню
територіального файлу. У територіальному управлінні статистики, отримані засобами
електронної пошти регіональні фрагменти реєструвалися, проходили антивірусний
контроль, готувалися для завантаження. За результатами виконання цих операцій
надавався дозвіл на завантаження регіональних фрагментів до бази даних або
регіональні фрагменти повторно запитувалися з державного рівня. Перед початком
завантаження з регіонального фрагменту робилася архівна копія. Після завершення
завантаження до бази даних міг виконуватися
друк вихідних таблиць та виведення
їх на технічні носії;
- підготовка матеріалів Всеукраїнського перепису населення для поширення
друкарськими засобами, засобами Іпtеrпеt і формування файлів на магнітних і
оптичних дисках. Цей етап передбачав підготовку програмного забезпечення
візуалізації інформації, інформаційних файлів на машинних носіях та статистичних
матеріалів до друкарських видань.
Виходячи з наведеного вище, програмно – технічний комплекс оброблення даних
перепису населення регіонального рівня повинен був забезпечувати:
- завантаження до бази даних інформації, одержаної шляхом сканерного введення і
формування протоколу завантаження;
- утворення архіву графічних зображень та отримання даних з нього в межах
зовнішнього інтерфейсу для обробки переписних листів;
- зручну систему навігації по даних перепису населення;
- перегляд та друк нормативно – довідкової інформації;
- інтерактивне введення та коригування переписних листів;
- суцільний та фрагментарний контроль переписних листів з формуванням протоколу;
- автокоригування переписних листів з формуванням протоколу;
- формування довідок про склад бази даних, якість даних, стан проходження
обробки матеріалів перепису населення та іншої інформації
для прийняття
організаційних рішень під час опрацювання даних;
- формування зведених даних (вихідних таблиць);
- проведення внутрішньотабличного, міжрозрізного та міжтабличного контролів
вихідних таблиць з формуванням протоколу;
- повний та частковий друк протоколів контролю;
- систему підтримки нерегламентованих запитів до бази даних;
- систему копіювання та відновлення матеріалів перепису населення, ведення та
оновлення архівних копій;
- формування територіальних файлів для передачі на державний рівень;
- відсилку відкоригованої інформації (фрагментів територіальних файлів) на
державний рівень наявними засобами зв’язку;
- завантаження регіональних фрагментів центральної бази даних перепису
населення;
- друк вихідних таблиць у необхідних розрізах та їх виведення на технічні носії;
- систему підтримки адміністрування та розмежування прав доступу до даних
перепису населення.
Схема технологічного процесу оброблення матеріалів
перепису населення у територіальному управління статистики

Програмно-технічний комплекс оброблення даних Перепису для державного рівня
повинен був виконувати те ж саме коло функцій, що і регіонального рівня, і
додатково забезпечувати:
- введення та коригування нормативно-довідкової інформації;
- завантаження територіальних файлів до центральної бази даних перепису
населення;
- вивантаження регіональних фрагментів центральної бази даних перепису
населення;
- формування інформації перепису населення для користувачів даних.
Схема технологічного процесу оброблення матеріалів
на державному рівні

Розглянувши технологічний процес оброблення матеріалів перепису населення та
його реалізацію в АС ”Перепис-2001”, можна зробити висновки про якості, які
притаманні цій системі. В процесі експлуатації АС ”Перепис-2001” часто
змінюються (накопичуються) як її функціональні можливості, так і оброблювані
дані. Об’єм даних, накопичених в процесі роботи з системою, має колосальний
розмір, але для аналізу та вивчення доступні лише ті дані, які передбачені
функціональними можливостями системи (фіксований перелік як вихідних таблиць,
так і розрізів, за якими вони будуються). Такі якості притаманні системам, які
відносять до класу операційних, тобто тих, основним призначенням яких є
полегшення повсякденної діяльності людини. Відповідно такі програмні комплекси
називають OLTP-системами (On-Line Transaction Processing – Оперативна Обробка
Трансакцій).
На відміну від OLTP-систем, призначення OLAP-систем (On-Line Analytical
Processing) полягає у підтримці процесів прийняття рішень чи пошуку певних
закономірностей за рахунок надання можливостей швидкого аналізу великих обсягів
обробленої інформації. Іншими словами, призначення OLAP-систем полягає у пошуку
залежностей між даними (наприклад, можна визначити залежність між роком
народження респондента та отриманою ним освітою). Такі системи характеризуються
наступними ознаками:
- додавання нових даних до системи відбувається відносно не часто і великими
блоками (наприклад, нова переписна інформація за новий період часу);
- дані, що додаються до системи, зазвичай, ніколи не знищуються;
- перед завантаженням даних до системи вони проходять процес валідації, що
виключає можливість додавання дублюючих чи некоректних даних;
- запити до системи є нерегламентованими і, як правило, достатньо складними;
дуже часто новий запит формується аналітиком для уточнення результату,
отриманого за даними попереднього запиту;
- важливою є швидкість виконання запитів.
Тому після розробки та впровадження АС ”Перепис-2001” виникла необхідність у
створенні на базі застосування OLAP-технології нової системи – АС ”Перепис-2001
Аналітик”.
Основним призначенням цієї системи стане надання можливості проводити аналіз
даних консолідованої бази даних АС ”Перепис-2001” широкому колу фахівців з
демографії, перепису населення та інших галузей статистики.
Для цього при роботі з даними Всеукраїнського перепису населення 2001 року
системою забезпечувалася реалізація наступних задач:
- побудова вихідних таблиць за довільно сформованим розрізом;
- надання зручного візуального інтерфейсу керування процесом формування даних;
- надання зручного образно-візуального інтерфейсу відображення сформованих
даних;
- мінімізація витрат часу при отриманні статистичних даних;
- полегшення аналізу даних завдяки оперативності їх отримання та образності
відображення.
Як операційна система АС “Перепис-2001 Аналітик” використовуватиме русифіковані
Windows 2000 Professional для робочих станцій та Windows 2000 Server для
серверів.
Як засоби, що розширюють можливості операційної системи АС “Перепис-2001
Аналітик”, використовуватимуться:
- система управління базами даних Sybase ASE 12.0;
- сховище даних Sybase IQ 12.4;
- система підтримки прийняття рішень Microsoft Analysis Services;
- система побудови гнучких запитів Microsoft Excel Pivot Table.
Система управління базами даних Sybase ASE 12.0 Server буде встановлена на
сервері державного рівня АС „Перепис-2001”. Передбачається, що сховище даних
Sybase IQ 12.4 встановлюватиметься на виділеному сервері державного рівня.
Система підтримки прийняття рішень Microsoft Analysis Services
встановлюватиметься на окремий сервер державного рівня. Система побудови гнучких
запитів – на всі клієнтські станції.
Функціональні підсистеми прикладного забезпечення АС “Перепис-2001 Аналітик”
наведені у наступній таблиці.
№ з.п.
|
Назва
|
1
|
Підсистема трансформації даних АС “Перепис-2001” в сховище даних АС “Перепис-2001 Аналітик”
|
2
|
Підсистема побудови багатовимірного кубу
|
3
|
Підсистема побудови гнучких запитів
|
4
|
Адміністративна підсистема
|
Робота з АС “Перепис-2001 Аналітик” проводитиметься таким чином.
За допомогою першої із зазначених підсистем, користувач виконуватиме
трансформування даних консолідованої бази даних АС ”Перепис-2001” з одночасним
їх збереженням у таблицях вимірів спеціалізованого сховища даних АС
“Перепис-2001 Аналітик”. Трансформування та збереження даних виконуватиметься за
підготовленою схемою, алгоритм та структуру якої закладено безпосередньо в даній
підсистемі. Виміри сховища є відображенням таблиць даних консолідованої бази
даних АС ”Перепис-2001”, відомості яких підлягатимуть аналізу. Виміром сховища є
таблиця, що містить у собі всі необхідні відомості по однотиповим об’єктам
даних. Таблиця вимірів містить всі унікальні комбінації значень полів записів.
Виміри використовуються для побудови таблиці фактів за схемою ”зірка”.
За допомогою другої із зазначених підсистем, користувач матиме можливість
виконувати побудову зі сховища даних кубів по респондентах, домогосподарствах,
сімейних осередках і населених пунктах. Грані кожного куба даних є відображенням
вимірів, які застосовувались для побудови таблиці фактів.
Підсистема побудови гнучких запитів надає користувачу аналітичну інформацію, яка
може бути представлена у вигляді динамічної вихідної таблиці довільного розрізу
або у вигляді численних видів діаграм, графіків, гістограм, які візуально
демонструють закономірності розподілу даних в залежності від певних обраних
розрізів. Excel надає користувачам можливості зручної навігації по OLAP-кубу,
вибірки аналітичних даних по різних вимірах, аналізу отриманих результатів та їх
представлення у графічному вигляді. Функції збільшення та зменшення рівня
деталізації даних для окремого виміру дозволяють отримувати дані з різним рівнем
деталізації, що надзвичайно важливо з огляду на необхідність дотримання
конфіденційності переписної інформації. Накладання фільтрів надає можливості
відбору підмножини даних з наявного набору.
Адміністративна підсистема покликана вирішувати завдання авторизації користувача
та функції підтримки працездатності АС “Перепис-2001 Аналітик”.
[ Зміст ] [ Попередня ] [ Наступна ]
|
© Державний комітет статистики України, 2004 © Інститут демографії та соціальних досліджень Національної академії наук України, 2004 © ТОВ "Інтелектуальні Системи ГЕО" (електронна версія), 2004
|