3.3. Концепція технології оброблення матеріалів Всеукраїнського перепису населення 2001 року

Концепція технології оброблення даних Всеукраїнського перепису населення 2001 року містила основні принципи створення та розвитку програмного, технічного та технологічного забезпечення, які були необхідні для виконання робіт з оброблення даних Всеукраїнського перепису населення 2001 року. Зроблений у Концепції вибір програмно-технічного комплексу був орієнтований на створення технологічних дільниць у складі діючих в системі органів державної статистики локальних обчислювальних мереж регіонального та державного рівнів.

Технічні засоби оброблення матеріалів перепису населення, організаційно об'єднані у локальну мережу, мали включати у себе: пристрої оптичного зчитування інформації; робочі станції для управління введенням даних з пристроїв оптичного зчитування інформації; робочі станції для контролю та коригування інформації переписних листів; мережеві файл-сервери для збереження програмного та інформаційного забезпечень; пристрої створення страхових копій та відповідні мережеві засоби.

Технологія оброблення даних перепису передбачала використання сертифікованих технічних та програмних засобів, що відповідали вимогам відкритих систем взаємодії.

АС “Перепис-2001” – автоматизована система обробки даних перепису населення мала трирівневу архітектуру "клієнт-сервер", причому в якості системи керування базами даних використовувався SYBASE Adaptive Server Enterprise 12.0. Основна обробка даних виконувалася на сервері, на робочих станціях підтримувався графічний інтерфейс користувача для доступу до бази даних. Серверна частина системи була розроблена з використанням мов програмування Transact-SQL, С ++ , Visual Basic. Останні дві з них використовувалися також для розробки клієнтської частини.

Слід зауважити, що розробка програмного забезпечення державного рівня з метою забезпечення незалежності оброблення матеріалів перепису населення передбачала встановлення додаткових технічних засобів (сервери і робочі станції) для прийому даних від територіальних управлінь статистики, їх контролю та обробленню. Для матеріалів перепису мінімальною порцією введення, суцільного контролю та вивантаження даних був портфель з переписними листами, мінімальною порцією фрагментарного контролю – переписний лист.

На регіональному та державному рівнях для створення страхових та архівних копій даних перепису населення застосовувалися засоби архівації, для контролю цілісності даних – засоби ручної і автоматизованої реєстрації документів, файлів даних та технологічних операцій при передачі інформації з однієї ділянки на іншу, з одного рівня на другий (передача даних з регіонального рівня на державний виконувалася на машинних носіях (кур'єром). Для захисту інформації було вжито заходи щодо забезпечення розмежування прав доступу до даних перепису та недопущення несанкціонованого доступу до них. Інформаційна сумісність даних перепису забезпечувалася використанням загальнодержавних класифікаторів інформації та таблиць зв'язку локальних довідників перепису населення із загальнодержавними класифікаторами.

Відповідно до Концепції, опрацювання даних Всеукраїнського перепису населення 2001 року починалося після завершення усіх заходів з підготовки матеріалів до автоматизованого оброблення. Першим етапом робіт з оброблення інформації було введення даних з паперових носіїв пристроями оптичного зчитування з проведенням контролю (в обмеженому обсязі), підготовка файлів переписних листів для завантаження в базу даних; формування архіву графічних зображень. Цей етап виконувався за допомогою програмно-технічного комплексу сканерного введення переписних документів, що був побудований на основі програмного забезпечення Eyes&Hands Forms шведської компанії ReadSoft.

Цей комплекс був призначений для:

Комплекс розроблено для використання на персональних комп’ютерах класу Pentium III, HDD-15Gb, RAM-128Mb з операційною системою MS Windows 2000 Professional, що входять у домен із сервером домену на ОС MS Windows 2000 Server. Для сканування переписних форм до одного з цих комп’ютерів підключався сканер, сумісний з даним комплексом. Для запису графічних образів переписних форм на лазерні диски один з цих комп’ютерів мав пристрій запису – CD Recorder. На комп’ютері, що був призначений для запису лазерних дисків, під час запису не виконувалися інші роботи.

Комплекс було реалізовано за модульною технологією з поетапним виконанням робіт. Це дозволяло організувати виконання етапів процесу сканування на декількох комп’ютерах із розподіленням його у часі. Кількість одночасно запущених модулів Eyes&Hands Forms мала не перевищувати восьми. Перед початком сканування портфелів певного масиву в обов’язковому порядку в АС “Перепис-2001” вводилися дані з відповідної форми М.

До складу програмного комплексу сканування входило 5 модулів Eyes&Hands Forms: Manager, Scan, Interpret, Verify, Transfer та окремий модуль запису графічних образів CensusCDR. Наведена нижче таблиця містить короткий опис даних модулів:

Назва модулю

Призначення модулю

Manager (Керування)

Опис переписних форм. Видалення невдало оброблених переписних документів та очищення внутрішньої бази переписних документів

Scan (Сканування)

Сканування переписних документів портфелю

Interpret (Розпізнавання)

Розпізнавання просканованих переписних документів

Verify (Перевірки)

Перевірка оператором правильності розпізнавання 

Transfer (Трансформації)

Формування вихідного файлу та каталогу графічних образів переписних документів по перевіреному портфелю

CensusCDR (Запису дисків)

Запис графічних образів переписних документів на лазерний диск

Роботу з комплексом здійснювали дві категорії операторів: сканування та верифікації. Оператор сканування виконував сканування переписних документів, запуск модулів Interpret та Transfer, запис графічних образів переписних документів. Оператор верифікації – запуск модулю Verify та перевірку правильності розпізнавання цифрових символів переписних документів за допомогою модуля Verify.

Усі інші етапи оброблення виконувалися з використанням програмного забезпечення АС “Перепис-2001”:

Виходячи з наведеного вище, програмно – технічний комплекс оброблення даних перепису населення регіонального рівня повинен був забезпечувати:

Схема технологічного процесу оброблення матеріалів перепису населення у територіальному управління статистики

Програмно-технічний комплекс оброблення даних Перепису для державного рівня повинен був виконувати те ж саме коло функцій, що і регіонального рівня, і додатково забезпечувати:

Схема технологічного процесу оброблення матеріалів на державному рівні

Розглянувши технологічний процес оброблення матеріалів перепису населення та його реалізацію в АС ”Перепис-2001”, можна зробити висновки про якості, які притаманні цій системі. В процесі експлуатації АС ”Перепис-2001” часто змінюються (накопичуються) як її функціональні можливості, так і оброблювані дані. Об’єм даних, накопичених в процесі роботи з системою, має колосальний розмір, але для аналізу та вивчення доступні лише ті дані, які передбачені функціональними можливостями системи (фіксований перелік як вихідних таблиць, так і розрізів, за якими вони будуються). Такі якості притаманні системам, які відносять до класу операційних, тобто тих, основним призначенням яких є полегшення повсякденної діяльності людини. Відповідно такі програмні комплекси називають OLTP-системами (On-Line Transaction Processing – Оперативна Обробка Трансакцій).

На відміну від OLTP-систем, призначення OLAP-систем (On-Line Analytical Processing) полягає у підтримці процесів прийняття рішень чи пошуку певних закономірностей за рахунок надання можливостей швидкого аналізу великих обсягів обробленої інформації. Іншими словами, призначення OLAP-систем полягає у пошуку залежностей між даними (наприклад, можна визначити залежність між роком народження респондента та отриманою ним освітою). Такі системи характеризуються наступними ознаками:

Тому після розробки та впровадження АС ”Перепис-2001” виникла необхідність у створенні на базі застосування OLAP-технології нової системи – АС ”Перепис-2001 Аналітик”.

Основним призначенням цієї системи стане надання можливості проводити аналіз даних консолідованої бази даних АС ”Перепис-2001” широкому колу фахівців з демографії, перепису населення та інших галузей статистики.

Для цього при роботі з даними Всеукраїнського перепису населення 2001 року системою забезпечувалася реалізація наступних задач:

Як операційна система АС “Перепис-2001 Аналітик” використовуватиме русифіковані Windows 2000 Professional для робочих станцій та Windows 2000 Server для серверів.

Як засоби, що розширюють можливості операційної системи АС “Перепис-2001 Аналітик”, використовуватимуться:

Система управління базами даних Sybase ASE 12.0 Server буде встановлена на сервері державного рівня АС „Перепис-2001”. Передбачається, що сховище даних Sybase IQ 12.4 встановлюватиметься на виділеному сервері державного рівня. Система підтримки прийняття рішень Microsoft Analysis Services встановлюватиметься на окремий сервер державного рівня. Система побудови гнучких запитів – на всі клієнтські станції.

Функціональні підсистеми прикладного забезпечення АС “Перепис-2001 Аналітик” наведені у наступній таблиці.

№ з.п.

Назва

1

Підсистема трансформації даних АС “Перепис-2001” в сховище даних АС “Перепис-2001 Аналітик” 

2

Підсистема побудови багатовимірного кубу

3

Підсистема побудови гнучких запитів

4

Адміністративна підсистема 

Робота з АС “Перепис-2001 Аналітик” проводитиметься таким чином.

За допомогою першої із зазначених підсистем, користувач виконуватиме трансформування даних консолідованої бази даних АС ”Перепис-2001” з одночасним їх збереженням у таблицях вимірів спеціалізованого сховища даних АС “Перепис-2001 Аналітик”. Трансформування та збереження даних виконуватиметься за підготовленою схемою, алгоритм та структуру якої закладено безпосередньо в даній підсистемі. Виміри сховища є відображенням таблиць даних консолідованої бази даних АС ”Перепис-2001”, відомості яких підлягатимуть аналізу. Виміром сховища є таблиця, що містить у собі всі необхідні відомості по однотиповим об’єктам даних. Таблиця вимірів містить всі унікальні комбінації значень полів записів. Виміри використовуються для побудови таблиці фактів за схемою ”зірка”.

За допомогою другої із зазначених підсистем, користувач матиме можливість виконувати побудову зі сховища даних кубів по респондентах, домогосподарствах, сімейних осередках і населених пунктах. Грані кожного куба даних є відображенням вимірів, які застосовувались для побудови таблиці фактів.

Підсистема побудови гнучких запитів надає користувачу аналітичну інформацію, яка може бути представлена у вигляді динамічної вихідної таблиці довільного розрізу або у вигляді численних видів діаграм, графіків, гістограм, які візуально демонструють закономірності розподілу даних в залежності від певних обраних розрізів. Excel надає користувачам можливості зручної навігації по OLAP-кубу, вибірки аналітичних даних по різних вимірах, аналізу отриманих результатів та їх представлення у графічному вигляді. Функції збільшення та зменшення рівня деталізації даних для окремого виміру дозволяють отримувати дані з різним рівнем деталізації, що надзвичайно важливо з огляду на необхідність дотримання конфіденційності переписної інформації. Накладання фільтрів надає можливості відбору підмножини даних з наявного набору.

Адміністративна підсистема покликана вирішувати завдання авторизації користувача та функції підтримки працездатності АС “Перепис-2001 Аналітик”.


Зміст ] Попередня ] Наступна ]


 

© Державний комітет статистики України, 2004
© Інститут демографії та соціальних досліджень Національної академії наук України, 2004
© ТОВ "Інтелектуальні Системи ГЕО" (електронна версія), 2004