logo
ІТ ТА СИСТЕМИ в коммерч

5.3.8. Аналіз даних

Розподіл частоти - це частота трапляння різних значень однієї змінної, виражена в %. Основні статистичні функції, які використо­вуються для опису розподілу частот: середнє, мода, медіана, амплітуда (range), амплітуда середини (interquartile range), варіація, стандартна девіація та коефіцієнт варіації.

Крос-табуляція - це метод, який описує дві чи більше змінні одночасно. Результатом є таблиця, яка відображає спільний розподіл змінних, які мають обмежену кількість категорій або дискретних значень. Розглянемо випадок двох змінних на такому прикладі:

Досліджуємо взаємозв'язок між сімейним станом та покупками стильного одягу. В результаті дослідження отримали наступні результати (табл. 5.4).

Звідки можна припустити, що неодружені частіше попадають в категорію "частих покупців", ніж одружені. З введенням третьої змінної можливо отримати один з наступних результатів:

  1. Вдосконалення асоціації між двома змінними.

  2. Відсутність асоціації між двома змінними, хоча початково певна асоціація спостерігалася. Іншими словами доведення, що початкова асоціація була хибною.

  1. Показує певну асоціацію, хоч спочатку не було ніякої.

  2. Ніяких змін в початковій асоціації.

Приклад. В дослідженні про залежність між сімейним станом та покупками стильного одягу введемо ще одну змінну - стать. Отримуємо (табл. 5.5):

Таблиця 5.5 Дані про сімейний стан та статевий склад населення та про його покупки стильного одягу

Покупка стильного одягу

Чоловіки

Жінки

Сімейний стан

Сімейний стан

Одружений

Неодружений

Одружена

Неодружена

Часто Рідко

35% 65%

40% 60%

25% 75%

60% 40%

Разом

Кількість випадків

100% 400

100% 120

100% 300

100% 180

Звідси видно, що твердження про схильність неодружених частіше попадати в категорію "частих покупців" в набагато більшій мірі відно­ситься до жінок, ніж до чоловіків.

Статистичні операції асоційовані з крос-табуляцією:

Хі-квадрат тест (Chi-Square test) - ч2.

Визначає статистичну значимість залежності в крос-табуляції. Тобто Допомагає визначити чи існує систематична залежність між двома змін­ними

Для

проведення цього тесту необхідно:

1 • Сформулювати початкову гіпотезу: Но - між двома змінними не

1СнУє ніякого взаємозв'язку.

2. Обчислити очікувану частоту випадання певної клітини за умови,

між змінними немає ніякого взаємозв'язку.

298

Кластерный аналіз - це тип аналізу первинною ціллю якого є класифікувати об'єкти в відносно гомогенні групи (кластери), основані на певній системі змінних. Елементи кожного кластеру подібні один д0 другого та відрізняються від елементів іншого кластеру. Використання кластерного аналізу:

  1. Сегментація ринку.

  2. Розуміння поведінки покупця.

  3. Визначення перспектив для нових продуктів.

  4. Вибір ринків для тестування.

  5. Зменшення кількості даних.

Проведення кластерного аналізу складається з наступних кроків: Формулювання проблеми - вибір змінних, на яких повинні базуватися кластери. Вибір відстані чи міри подібності.

Об'єкти з меншою відстанню більш подібні між собою ніж з більшою. Вибір процедури розбиття на кластери.