logo
DEK

18. Види візуалізаторів даних

ВІЗУАЛІЗАЦІЯ ДЖЕРЕЛ ДАНИХ.

В джерелі даних, перед їх завантаженням в аналітичну систему, аналітикові потрібновізуально оцінити наступне:

Візуальний аналіз джерела даних дозволяє:

Окрім цього, візуалізація джерел даних дозволяє визначити метод завантаження данихв аналітичний додаток і параметри, які повинні бути при цьому використані. Наприклад, длякоректного завантаження даних з текстового файлу з розділювачами необхідно правильновизначити елемент-розділювач, формат дати і часу, розташування заголовків стовпців тощо.Неправильний вибір хоча б одного з цих параметрів призведе до некоректногозавантаження, що не дозволить провести аналітичну обробку.

ВІЗУАЛІЗАЦІЯ ЗАВАНТАЖЕНОЇ ВИБІРКИ.

Після завантаження даних з джерел в аналітичний додаток робота із завантаженоювибіркою також починається з візуального аналізу. Проте тепер цілі, завдання і методивізуального аналізу будуть дещо іншими, ніж в попередньому кроці. Після завантаженняданих з джерела, потрібно переконатися, що дані завантажилися правильно: не з’явилисяпропуски, збереглася структура рядків і стовпців. Спотворення даних при завантаженні можестатися через невідповідність типів, неправильних налаштувань параметрів завантаження.Інтерес представляє пошук фрагментів даних з деякими особливостями. Окрім цього,більшість аналітичних систем пропонують користувачеві можливість отримання статистичниххарактеристик: мінімального і максимального значень, дисперсії і середньоквадратичноговідхилення. За результатами візуального аналізу початкової вибірки робляться висновки продоцільність застосування тих чи інших методів очищення і трансформації даних.

ВІЗУАЛІЗАЦІЯ ДАНИХ В ПРОЦЕСІ ЇХ АНАЛІТИЧНОЇ ОБРОБКИ.

Складні аналітичні процедури є багатокроковими. Це означає, що в процесі аналізу доданих послідовно застосовується декілька алгоритмів або моделей. Наприклад, дані спочаткупіддаються попередній обробці з метою згладжування і нормалізації, потім до вибіркизастосовується нейромережу, до результатів нейромережевої обробки – кластеризацію і такдалі. При цьому вибірка, що формується на виході кожного алгоритму або моделі, можеподаватися на вхід наступного процесу обробки. Очевидно, що якщо дані обробки, щопоступили з попереднього етапу, виявляться некоректними, то подальша обробка втрачаєсенс. Тому дуже важливо в процесі аналітичної обробки передбачити візуалізацію проміжнихрезультатів з метою перевірки коректності моделей та алгоритмів, які були використанні.

До простих засобів візуалізації відносяться:

1. Таблиця – класичне представлення інформації в стовпцях та колонках. ВDeductor таблиця підтримує складну структуру, об’єднання по колонках,різноманітне форматування.

2. Статистика – надає інформацію про статистичні характеристикидосліджуваної вибірки. Як правило, вона представлена в табличній формі таведеться для кожного поля вибірки. Статистичні характеристики частодозволяють висувати гіпотези про поведінку даних та наявні закономірності,контролювати результати обробки даних на різних етапах аналітичного процесу.

3. Діаграма – як правило використовуються для візуалізації дискретного(скінченого) набору значень (в той же час, як графіки в основномувикористовують для відображення неприривних числовихзначень, хочапринципової різниці між першим (діаграмою) та другим (графіком) нема). Якправило, в діаграмах по горизонтальній осі Х відкладають категорії, а повертикальній Y – значення. Різновидами діаграми є: стовпчикова, лінійна, кругова та листкова.

4. Гістограма – є різновидом діаграми (зазвичай, стовпчиковою), яка відображаєчастоту появи тієї або іншої події в загальній сукупності всіх можливих подій.Наприклад, якщо вважати подією те, що досліджувана величина набуває деякогозначення або потрапляє в деякий діапазон значень, то кожен елемент гістограмипоказує, скільки разів дана подія відбувається. Гістограми широко використовуються в статистиці для визначення найбільш вірогідних значень,яких може набувати деяка величина, а також для виявлення законів розподілу,яким підкоряється випадкова величина.

5. OLAP-куб – фактично це крос-таблиця, яка служить для відображеннябагатовимірних процесів.

6. Загальні відомості – відображають загальну інформацію про виконану операцію– вузла (імпорту, обробки, експорту тощо). Загальні відомості є, наприклад,єдиним візуалізатором, який створюється при завантажені даних у сховище. Взагальних відомостях виводиться характеристика вузла, об’єкта та виконаноїоперації.