logo
Береза Підр

7.1. Основні поняття класифікації інформації

Методи організації і пошуку економічної інформації в умовах її автоматизованої обробки потребують попередньої класифікації і кодування.

Класифікація – обов’язковий етап попередньої підготовки економічних даних до автоматизованої обробки, а також передумова раціо­нальної організації інформаційної бази і моделювання інформаційних процесів. ЇЇ можна схарактеризувати як складову інформаційного забезпечення будь-якої інформаційної системи, яка належить до мовних засобів управління. Тому класифікація – поділ множини об’єктів на підмножини за їх подібністю або відмінністю згідно з прийнятими методами класифікації – і є основою для кодування інформації і наступного її пошуку за допомогою обчислювальної техніки.

Під класифікацією інформації розуміємо не лише інформацію, яка є у масивах і повідомленнях, а й класифікацію безпосередньо інформаційних повідомлень (документів) і масивів.

Система класифікації є сукупність методів і правил класифікації та її результат.

Об’єкт класифікації – елемент класифікаційної множини (предмети, поняття, властивості тощо).

Ознака (критерій) класифікації – властивість чи характеристика об’єкта, за яким здійснюється класифікація. Кількісні та якісні вирази ознаки класифікації є її значенням.

Класифікаційне групування – підмножина об’єктів, які отримані в результаті класифікації.

Залежно від того, як розглядається дана множина об’єктів – послідовно чи одночасно за всіма ознакам основи поділу,– використовують ієрархічний чи фасетний метод класифікації.

Ієрархічний метод класифікації – послідовний поділ множини об’єктів на підлеглі класифікаційні групування.

Множину, яка класифікується, поділяють на підпорядковані підмножини спочатку за деякою ознакою (основою поділу) на великі групування, потім кожну з них – на ряд наступних групувань, які в свою чергу поділяють на дрібніші, поступово конкретизуючи об’єкт класифікації. Між цими угруповуваннями встановлюються відношення підпорядкованості (ієрархії).

Рис. 7.1. Схема побудови коду за ієрархічним методом класифікації

Ієрархічна класифікація характеризується кількістю ступенів класифікації, глибиною, обсягом і гнучкістю.

Сукупність класифікаційних групувань є ступенем класифікації.

Кількість ступенів класифікації визначає глибину класифікації, яку встановлюють залежно від ступеня конкретизації групування і кількості ознак, необхідних для розв’язання конкретних задач.

Від глибини класифікації й кількості групувань, які створюються на кожному ступені класифікації, залежить обсяг класифікації.

Як правило, найбільша кількість групувань, на яку може поділятися дане групування, що встановлюється постійним для всієї класифікації чи для даного ступеня, звичайно є кратною десяти.

Переваги: логічність побудови, чіткість виділення ознак, великий інформаційний обсяг, традиційність і звичність використання, добра пристосованість для ручної обробки інформації, можливість створення мнемонічних кодів, які несуть смислове навантаження.

Недоліки: жорстка структура, зумовлена фіксованістю ознак і заздалегідь встановленим порядком їх проходження, які не допускають включення за відсутності резервного обсягу нових об’єктів, класи-фікаційних групувань і ознак; неможливість групувати за будь-якою, наперед не заданою ознакою; для стабільності класифікаторів потрібні великі резервні обсяги.

Фасетний метод класифікації – паралельний поділ множини об’єктів на незалежні класифікаційні групування.

При цьому множина об’єктів, що характеризується деяким набором однакових для всіх об’єктів ознак (фасет), значення яких відповідають конкретним виразам зазначених ознак, може поділятися багаторазово і незалежно. У класифікаторах фасети найчастіше розміщуються простим переліком і мають свій код (рис. 7.2).

Рис. 7.2. Схема побудови коду за фасетним методом класифікації

Класифікаційні групування створюються з об’єктів, які мають конкретні комбінації ознак, взяті з відповідних фасет. Послідовність розміщення фасет при створенні класифікаційного групування задається фасетною формулою

.

У кожному окремому випадку фасетна формула визначається залежно від характеру розв’язуваних задач і алгоритму обробки даних. Можуть створюватись одночасно різні незалежні підмножини класифікаційних групувань:

,

,

,

.

Обсяг залежить від кількості фасет і кількості конкретних значень ознак у фасеті. Фасети у створюваному класифікаторі мають строго фіксоване місце. Їх ідентифікують за кодовим позначенням фасета, найчастіше це його порядковий номер.

Переваги: гнучкість структури, яка може пристосовуватися до змін у задачах; можна включати нові фасети чи видаляти старі.

Недоліки: недостатньо повне використання обсягу через відсутність практично багатьох із можливих комбінацій фасет; нетрадиційність і незвичність при використанні для ручної обробки даних.

Вибраний метод класифікації має задовольняти такі вимоги.

1. Мати достатній обсяг і необхідну повноту, які б гарантували охоплення всіх об’єктів класифікації в заданих межах.

2. Не перетинати груп об’єктів, які виділяються.

3. Мати достатню та економічно обгрунтовану глибину.

4. Мати гнучкість і надмірність для можливого збільшення множини об’єктів, які класифікуються.

5. Забезпечувати розв’язання всього комплексу задач.

6. Забезпечувати сполучення з іншими класифікаціями однорідних об’єктів.

7. Бути погодженим з алгоритмами і забезпечувати найбільшу ефективність обробки.

8. Забезпечувати простоту і автоматизацію процесу ведення класифікатора.

9. Лаконічність, чіткість і ясність класифікаційних ознак.