
Зібрана інформація в процесі наукового дослідження підлягає ретельній обробці. Обробці підлягає весь зібраний матеріал від першої до останньої сторінки, – це і є первинна суцільна обробка матеріалу. Вона повинна передувати написанню тексту. З її допомогою можна уявити загальну картину всієї роботи, створюючи тим самим сприятливі умови для написання тексту на відповідному науковому рівні.
Цей важливий етап науково-дослідної роботи складається з декількох стадій:
1) систематизація матеріалу;
2) оцінка придатності інформації;
3) перевірка достовірності і значущості інформації;
4) співставлення інформації;
5) побудова попередніх і остаточних висновків.
Види аналізів:
- Кореляційний
- Регресійний
- Дисперсійний
- Факторний
- Кластерний
Перевірка статистичних гіпотез полягає у перевірці припущень про характер розподілу випадкових величин та про зв’язок між ними, про належність даних до однієї генеральної сукупності, про значимість відмінностей тощо.
Кореляційний аналіз призначений для оцінювання форми, знаку й тісноти зв’язку між кількома ознаками або факторами, що досліджуються. При визначенні форми зв’язку розглядається її лінійність або нелінійність.
Мета кореляційного аналізу — виявити чи існує істотна залежність однієї змінної від інших.
Головні завдання кореляційного аналізу:
- оцінка за вибірковими даними коефіцієнтів кореляції
- перевірка значущості вибіркових коефіцієнтів кореляції або кореляційного відношення
- оцінка близькості виявленого зв’язку до лінійного
- побудова довірчого інтервалу для коефіцієнтів кореляції.
Обмеження кореляційного аналізу
Кореляція відображає лише лінійну залежність величин, але не відображає їх функціональної зв’язаності. Наприклад, якщо обчислити коефіцієнт кореляції між величинами A = sin(x) та B = cos(x), він буде наближений до нуля, тобто залежність між величинами відсутня. Між тим, величини А та В очевидно зв’язані між собою за законом sin²(x) + cos²(x) = 1.
Використання можливе у випадку наявності достатньої кількості випадків для вивчення: для конкретного типу коефіцієнту кореляції становить від 25 до 100 пар спостережень.
Кореляція не означає причинність.
Регресійний аналіз — розділ математичної статистики, присвячений методам аналізу залежності однієї величини від іншої. На відміну від кореляційного аналізу не з’ясовує чи істотний зв’язок, а займається пошуком моделі цього зв’язку, вираженої у функції регресії.
Регресійний аналіз використовується в тому випадку, якщо відношення між змінними можуть бути виражені кількісно у виді деякої комбінації цих змінних. Отримана комбінація використовується для передбачення значення, що може приймати цільова (залежна) змінна, яка обчислюється на заданому наборі значень вхідних (незалежних) змінних. У найпростішому випадку для цього використовуються стандартні статистичні методи, такі як лінійна регресія. На жаль, більшість реальних моделей не вкладаються в рамки лінійної регресії. Наприклад, багато факторів можуть залежати від комплексу взаємозв’язків множин змінних. Таким чином, необхідні комплексні методи для передбачення майбутніх значень.
Дисперсійний аналіз полягає у виділенні й оцінюванні окремих факторів, що викликають зміну досліджуваної випадкової величини. При цьому проводиться розклад сумарної вибіркової дисперсії на складові, обумовлені незалежними факторами. Кожна з цих складових є оцінкою дисперсії генеральної сукупності. Щоб дати оцінку дієвості впливу даного фактору, необхідно оцінити значимість відповідної вибіркової дисперсії у порівнянні з дисперсією відтворення, обумовленою випадковими факторами. Перевірка значимості оцінок дисперсії проводять з допомогою критерію Фішера.
При дисперсійному аналізі кожне спостереження служить для одночасної оцінки всіх факторів та їх взаємодії.
Факторний аналіз – метод багатофакторної математичної статистики, який застосовується при дослідженні статистично пов’язаних ознак з метою виявлення певної кількості прихованих від безпосереднього спостереження факторів. Розроблений для потреб психології, факторний аналіз згодом набув широкого розповсюдження в економіці, медицині, соціологи та інших науках, які мають величезну кількість; змінних, з яких необхідно виділити провідні.
Кластерний аналіз (англ. Data clustering) — задача розбиття заданої вибірки об’єктів (ситуацій) на підмножини, що називаються кластерами, так, щоб кожен кластер складався з схожих об’єктів, а об’єкти різних кластерів істотно відрізнялися. Завдання кластеризації відноситься до статистичної обробки, а також до широкого класу завдань навчання без вчителя. Кластерний аналіз — це багатовимірна статистична процедура, яка виконує збір даних, що містять інформацію про вибірку об’єктів і потім упорядковує об’єкти в порівняно однорідні групи — кластери (Q-кластеризация, або Q-техника, власне кластерний аналіз).
Основна мета кластерного аналізу — знаходження груп схожих об’єктів у вибірці. Спектр застосувань кластерного аналізу дуже широкий: його використовують в археології, антропології, медицині, психології, хімії, біології, державному управлінні, філології, маркетингу, соціології та інших дисциплінах. Однак універсальність застосування привела до появи великої кількості несумісних термінів, методів і підходів, що утруднюють однозначне використання і несуперечливу інтерпретацію кластерного аналізу.