Методологія аналізу даних соціологічного дослідження
Вступ
Перетворення соціології в один із ведучих напрямків сучасної наукової думки зумовлює різке підвищення вимог щодо якості проведення соціологічних досліджень. Сьогодні такі дослідження проводять всі, починаючи від управлінських працівників і закінчуючи публіцистами та журналістами. Дехто навіть став називати себе соціологом, хоч насправді соціології ніколи не вивчав ( цей предмет був включений до навчальних планів вузівських курсів в середині 90-х років ХХ ст.). Насправді ж соціологічне дослідження справа досить серйозна, яка вимагає високої фахової підготовки, володіння методологією і методикою наукового пошуку.
Як і в будь-якій іншій галузі наукового пізнання, дослідження соціальних явищ і процесів починається з розробки програми. Програма соціологічного дослідження — це науковий документ, який регламентує всі етапи, стадії підготовки, організації та проведення соціологічного дослідження. Можна сказати, що програма — це викладення загальної концепції пошукового проекту, яке включає в себе поетапне програмування та правила процедур науково-практичної дослідницької діяльності. Програма відображує розуміння і знання того, що треба зробити, за допомогою чого виконати задумане, як виконати задумане.
У світовій соціологічній науці немає єдиних взаємоприйнятних підходів до визначення як окремих компонентів програми, так і принципів їх взаємодії. Тому спершу слід визначитись із тлумаченням змістових ознак найчастіше вживаних компонентів програми, а вже потім розглядати їх структурні елементи.
1. Міри центральної тенденції та міри варіації: порівняльний аналіз
В одних сукупностях індивідуальні значення ознаки щільно групуються навколо центра розподілу, в інших — значно відхиляються. Чим менші відхилення, тим однорідніша сукупність, а отже, тим більш надійні й типові характеристики центра розподілу, передусім середня величина. Вимірювання ступеня коливання ознаки, її варіації — невід’ємна складова аналізу закономірностей розподілу.
На основі характеристик варіації оцінюється інтенсивність структурних зрушень, щільність взаємозв’язків соціально-економічних явищ, точність результатів вибіркового обстеження.
Для вимірювання та оцінювання варіації використовуються абсолютні та відносні характеристики. До абсолютних належать: варіаційний розмах, середнє лінійне та середнє квадратичне відхилення, дисперсії; відносні характеристики подаються низкою коефіцієнтів варіації, локалізації, концентрації.
Особливості статистичної сукупності знаходять своє відображення в її розподілі. Вивчення закономірностей розподілу є одним з важливіших завдань статистики. Вирішити це завдання можна за допомогою узагальнюючих характеристик, які можна поділити на:
1) характеристики центру розподілу (середня, мода, медіана);
2) характеристики міри і ступеня варіації;
3) характеристики типу (форми) розподілу.
Як відомо, характеристики центру розподілу відображають типовий рівень ознаки в якісно однорідній сукупності. Проте ці характеристики не відображають міри ”розсіювання” індивідуальних значень ознаки у відношенні до середньої. Можуть бути випадки, коли середні значення ознаки двох сукупностей однакові, а характер розподілу цих сукупностей різний.
Наприклад, розподіл студентів за результатами письмового екзамену з статистики:
Оцінка | Число студентів | |
1–2 група | 3–4 група | |
2 | 7 | 2 |
3 | 12 | 14 |
4 | 19 | 30 |
5 | 12 | 4 |
Разом | 50 | 50 |
Середній бал виявився однаковим X1,2 = 3,7 бала. Проте характер розподілу цих сукупностей різний. Група 3–4 являє собою статистичну сукупність порівняно з групою 1–2 більш якісно однорідну стосовно отриманих оцінок. В цій групі 88 % студентів отримали оцінки «3» і «4», тому можна сказати, що середній бал для цього потоку є характеристикою більш надійною, яка узагальнила характерний рівень успішності, властивий студентам 3–4 груп.
Саме тому виникає необхідність при здійсненні соціально-економічного аналізу обчислювати показники, які характеризували б міру варіації, тобто міру відхилень індивідуальних значень ознаки від середньої. Такими показниками і є характеристики другої групи.
Основні характеристики міри і ступеня варіації:
1) Розмах варіації:
R = Xmax – Xmin.
Цей показник, як бачимо, базується на крайніх значеннях ознаки. Може статись, що одне з цих значень є цілком випадкове, тому R не є надійним показником варіації.
Абсолютно коректними в цьому відношенні є такі характеристики, як дисперсія і середнє квадратичне відхилення.
2) Дисперсія (середній квадрат відхилення)
(при умові обчислення з первинних даних),
(дані згруповані).
Дисперсія – величина абстрактна (не має одиниці виміру).
3) Середнє квадратичне відхилення
За економічним змістом середнє квадратичне відхилення і середнє лінійне відхилення однакові, а за числовим значенням, при умові симетричного розподілу вони мають такий зв’язок:
Наведені вище характеристики є показниками міри варіації. Вони не можуть бути використані для порівняння міри варіації по двох сукупностях при різних середніх та для порівняння міри варіації різних ознак по одній і тій же сукупності.
Міра центральної тенденції розподілу — це узагальнювальні характеристики центру розподілу елементів сукупності за значенням ознаки (бали), що визначають центр тяжіння ряду.
Першим кроком статистичної обробки даних є визначення міри центральної тенденції, у нашому випадку – середнього арифметичного. Основна функція первинних описових статистик, до яких належить і середнє арифметичне, замінити багатство значень ознаки, виміряної на вибірці, одним числом (наприклад, середнім значенням як мірою центральної тенденції). Компактний опис групи за допомогою первинних статистик дозволяє інтерпретувати виміряні результати.
Середнє (Mean) (Мх – вибіркове середнє, середнє арифметичне) – визначається як сума всіх значень виміряної ознаки, поділена на кількість сумованих значень.
Кожна міра центральної тенденції володіє характеристиками, котрі роблять її цінною в певних умовах. Міри центральної тенденції частіше за все використовуються для порівняння груп по рівню вираження ознаки.
Вибіркове середнє можна порівняти, якщо виконуються наступні умови:
групи достатньо великі, щоб робити висновки про форму розподілу;
розподіл симетричний;
«викиди» (надто великі або надто малі значення змінної) відсутні.
2. Функціональна та кореляційна залежності. Приклад
В силу неоднозначності статистичної залежності між X та Y для досліду являє цікавість усереднена за х схема залежності, тобто закономірність у зміні умовного математичного сподівання Mx(Y) (математичного сподівання випадкової величини Y, що його обчислено у припущенні, що змінна Х прийняла значення х) в залежності від х.
Кореляційною залежністю між двома змінними називається функціональна залежність між значеннями однієї з них та умовним математичним сподіванням іншої.
Кореляційна залежність може бути представлена у вигляді
Mx(Y)=φ(x)
MY(X)=ψ(y) (1)
де φ(x)≠const, ψ(y)≠const.
Рівняння (1) називають модельними рівняннями регресії (або просто рівняннями регресії) відповідно Y по X та X по Y. Функції φ(x), ψ(y) – модельними функціями регресії (або просто функціями регресії), а їх графіки – лініями регресії.
Для відшукання рівнянь регресії необхідно мати закон розподілу двовимірної випадкової величини (X,Y), проте на практиці, як правило має місце лише пари значень (xi,yj). В такому випадку мова може йти лише про оцінку функції регресії. Найкращою оцінкою (з точки зору методів найменших квадратів) є вибіркова крива регресії Y по X.
yx= φ˜(x, b0, b1, … bp) (2)
де yx – умовна (групова) вибіркова середня змінної Y при фіксованому значенні змінної Х=х; b0, b1, … bp – параметри кривої.
Аналогічно визначається вибіркова крива регресії Х по Y.
xy= ψ˜(y, c0, c1, … cp) (3)
де xy – умовна (групова) вибіркова середня змінної X при фіксованому значенні змінної Y=y; c0, c1, … cp – параметри кривої.
Рівняння (2) (3) також називають вибірковими рівняннями регресії.
Статистичні зв’язки між змінними можна вивчати методами кореляційного (встановлення наявності зв’язку між двома випадковими величинами та оцінка її тісноти) та регресійного (встановлення виду залежності між змінними) аналізів.
Дані про статистичну залежність зручно задавати у вигляді кореляційної таблиці. (xi та yj – середини відповідних інтервалів, ni та nj – відповідні частоти). Якщо зобразити отриману залежність графічно точками на координатній площині – отримаємо так зване поле кореляції.
Для кожного значення хі (і=1,2,…,l), тобто для кожного рядка кореляційної таблиці обчислимо групові середні
де nij – частоти пар (xi,yj) та m – кількість інтервалів по змінній Y.
Також це можна зробити для кожного значення yі (і=1,2,…,l)
де nij – частоти пар (xi,yj) та l – кількість інтервалів по змінній X.
Функціональна залежність (далі часто ФЗ) — концепція, що лежить в основі багатьох питань, пов’язаних з реляційними базами даних, включаючи, зокрема, їхнє проектування. Математично являє собою бінарне відношення між множинами атрибутів даного відношення і є, по суті, зв’язком типу «багато-до-одного». ФЗ забезпечує основу для наукового підходу до розв’язання деяких проблем, оскільки володіє багатим набором цікавих формальних властивостей.
Її традиційне визначення в статистиці зводиться приблизно до наступного: функціональна залежність між явищами має місце тоді, коли одне явище, що іменується об’ємним показником, можна представити у вигляді добутку двох інших показників, один з яких є кількісним, другий – якісним. Класичний приклад такої залежності: загальна вартість певного товару (Q) дорівнює виробленій кількості даного продукту (q), помноженій на його ціну (р): Q = рq.
Математичним елементом відображення функціональної залежності між двома явищами виступає відносна величина, обчислена з співвідношення даних явищ. Наприклад, щоб сукупність А виразити функціонально залежною від сукупності Б, досить скласти рівняння: А = Б (А/Б). Але основне призначення індексного методу полягає не в складанні і розв’язанні подібних рівнянь, а в попередньому осмисленні питання про те, чи мають вони економічне значення і пізнавальну цінність. Важливість аналізу взаємозв’язків, по суті, полягає в тому, щоб за математичною формою відображення функціональної залежності бачити причинно-наслідковий зв’язок між явищами. Разом з тим такий зв’язок часто відсутній не тільки між незалежними, але і взаємопов’язаними явищами. Скажімо, такі сукупності, як чисельність населення N і наявність житлової площі S, пов’язані між собою самим безпосереднім чином, але функціональну залежність типу NS (N/S) не можна вважати реальною в причинно-наслідковому сенсі, оскільки чисельність населення безпосередньо не зумовлюється наявністю житлової площі.
Спробуємо здійснити певну класифікацію індексних взаємозв’язків відповідно до їх внутрішнього змісту, використавши в якості об’ємного показника кількість електроенергії (Е), що виробляється за рік. Виразимо його через залежність від наступних показників:
- E = K(E/K);
- E = R(E/R);
- E = N(E/N);
- E = X(E/X);
де К – кількість електростанцій, що діяли; R – кількість споживачів електроенергії; N – середньорічна чисельність населення; X – протяжність ліній електропередач.
Всі кількісні показники, що знаходяться в правій частині рівнянь, так чи інакше пов’язані з обсягом виробництва електроенергії, а тому моделі в математичному відношенні коректні. Але вони далеко не рівнозначні з точки зору причинно-наслідкової залежності.
Оскільки функціональна залежність має місце тоді, коли зміна величини одного явища слугує реальною передумовою зміни величини іншого, можна з упевненістю сказати, що цій умові відповідає лише рівняння 1. Дійсно, зміна кількості електроенергії безпосередньо залежить від зміни кількості електростанцій та їх середньорічної потужності, адже будівництво нових електростанцій саме і переслідує мету розширити виробництво електроенергії.
Друга модель, що відбиває залежність кількості електроенергії від кількості її споживачів, викликає суперечливе почуття: в якійсь мірі залежність здається реальною і в той же час нереальною. Невизначеність в оцінці даної залежності посилюється тим, що її можна трактувати і в зворотному напрямку, тобто як залежність зміни кількості споживачів електроенергії від зміни обсягу електроенергії, що виробляється. Іншими словами, причину і наслідок встановити однозначно тут не досить проблематично.
Третя модель, що відбиває залежність обсягу електроенергії від чисельності населення, виглядає зовсім надуманою, оскільки важко уявити, яким чином зміна чисельності населення в ту або іншу сторону може адекватно відбитися на кількості електроенергії, що виробляється.
Четверта модель, що відбиває залежність обсягу електроенергії від протяжності ліній електропередач, спотворена у напрямі, бо насправді реальною є зворотна залежність: протяжність ліній електропередач залежить від кількості електроенергії, що виробляється та середньої відстані передачі кожної одиниці електроенергії.
Розглянутий приклад свідчить: якщо навіть абстрагуватися від явно спотворених моделей функціональної залежності, можна виділити принаймні три її різновиди:
а) реальну в причинно-наслідковому сенсі (модель 1);
б) невизначену з точки зору однозначного розпізнавання причини і наслідку (модель 2);
в) такої, що не має економічного значення (модель 4).
Для їх розмежування введемо відповідно поняття:
а) однозначно детермінований;
б) обопільно детермінований;
в) недетермінований взаємозв’язок між явищами.
3. Призначення коефіцієнтів асоціації та контингенції
Для оцінки тісноти зв’язку використовується ряд показників, одні з яких називаються емпіричними або непараметричними, а інші, (що виводяться строго математично) — теоретичними.
Коефіцієнт контингенції завжди менший за коефіцієнт асоціації. Зв’язок вважається підтвердженим, якщо A≥0,5 або K≥0,3.
Силу зв’язку можна оцінити обчисленням та аналізом коефіцієнтів спряженості (Пірсона, Чупрова, Крамера). Значення цих коефіцієнтів перебувають в інтервалі від нуля до одиниці та мають такий зміст: чим ближче значення до одиниці, тим тісніший зв’язок. Якщо обидві ознаки, між якими вивчають зв’язок, мають лише по два значення (тобто фіксують наявність або відсутність даної ознаки в об’єкті), то для таких «чотириклітинкових» таблиць обчислюють коефіцієнти асоціації та контингенції.
Коефіцієнт контингенції обраховується за формулою:
Розглянемо недоліки та переваги запропонованого підходу, які обумовлюють використання коефіцієнту контингенції у якості міри зв’язку між кількістю покупців, що бачили рекламу (або на них вплинули інші види маркетингових комунікацій), та кількістю покупок.
Недоліки підходу
- Дослідник має бути впевненим, що на протязі періоду дослідження на покупця не впливають інші фактори, окрім маркетингових комунікацій.
- Числове значення коефіцієнту контингенції інтерпретувати достатньо важко.
- Можливість оцінки валідності коефіцієнту контингенції теоретично відсутня, що спонукає дослідника провадити накопичення даних на протязі всього періоду, коли комунікації діють. Тобто дослідник повинен зважати на період життя реклами або інших видів комунікацій, а також — оцінювати час їхньої післядії.
Переваги підходу:
- Висновок щодо ефективності комунікацій можна зробити після вже після однократного вимірювання коефіцієнту контингенції.
- Коефіцієнт контингенції надає більш обережну оцінку у порівнянні, наприклад, із коефіцієнтом асоціації.
- Вимірювання ряду динаміки коефіцієнтів контингенції для різних випадків застосування маркетингових комунікацій дозволяє досліджувати зміни у динаміці ефективності.
- Якщо вимірювання коефіцієнту контингенції проводиться на базі інформації щодо всього періоду дії комунікацій, у дослідника виникає можливість коректно порівнювати між собою результати комунікаційних кампаній з різними видами медіа-плану, довжинами періодів та застосуванням різних медіа.
- Накопичення даних не потребує розробки складного інструментарію та може бути проведено малокваліфікованим персоналом.
- Чотириклітинкова таблиця не потребує інформації з минулого, тобто дослідник має почати реєструвати дані з моменту, коли на його думку, маркетингові комунікації починають діяти.
- Момент початку дії комунікацій можна виявити, наприклад, за допомогою питань типу «Чи бачили Ви таку-то рекламу?». При перевищенні порігового значення кількості респондентів, які ствердно відповідають на питання, наприклад на протязі дня, можна вважати, що комунікації почали діяти. Момент закінчення дії комунікацій може бути виявлено, коли кількість респондентів, що бачили рекламу впаде до якогось порігового значення.
- Дані починають реєструватися вже після виходу реклами, що скорочує витрати праці.
Висновки
Важливим у системному аналізі є встановлення сукупності чинників, які впливають на об’єкт і визначають напрями і тенденції його функціонування та розвитку. Тому дослідник повинен виокремити та описати якнайбільше цих чинників, встановити їх значення, зв’язок, силу і специфіку впливу. Загалом чинники класифікують на загальні (характерні для всього класу подібних об’єктів), специфічні (характерні для конкретного об’єкта), зовнішні (знаходяться у навколишньому середовищі), внутрішні (містяться у самому об’єкті), функціональні (визначають функціональні зв’язки елементів об’єкта), структурні (забезпечують спосіб зв’язку елементів об’єкта), генетичні (зумовлюють походження і послідовність станів об’єкта), об’єктивні (їх дія не залежить від функціонування об’єкта), суб’єктивні (залежать від функціонування об’єкта), прямі (результати їх впливу виявляються безпосередньо), опосередковані (результати їх впливу проявляються у взаємодії з іншими факторами), індивідуальні (пов’язані з діяльністю окремих учасників), колективні (пов’язані з діяльністю соціальної спільноти, групи, колективу).
Аналізуючи отриману інформацію, дослідник проводить зворотну соціологічну процедуру (послідовно аналізуючи значення індикаторів, він поступово повертається на рівень теоретичних понять і робить висновки щодо досліджуваної проблеми). Тому рух від теорії до уточнення смислу, побудови емпіричних показників і повернення знову до теоретичного тлумачення отриманих даних є складним пізнавальним процесом, який не можна повністю формалізувати. На цьому етапі важливу роль відіграють професіоналізм, досвід, загальна і професійна культура дослідника.
Список використаної літератури
- Герасимчук А. Соціологія: Навчальний посібник/ Андрій Гера-симчук, Юрій Палеха, Оксана Шиян,; Ред. В. Я. Пипченко, Н. М. Труш. -3-є вид., вип. й доп.. -К.: Вид-во Європейського ун-ту, 2003. -245 с.
- Дворецька Г. Соціологія: Навч. посібник / Київський національний економічний ун-т. — 2-ге вид., перероб.і доп. — К. : КНЕУ, 2002. — 472с.
- Кузьменко Т. Соціологія : навч. посібник / Тетяна Кузьменко, 2010. — 319 с.
- Лукашевич М. Соціологія : основи загальної, спеціальних і галузевих теорій [Текст] : підручник для студентів вищих навч. закл. / Микола Лукашевич, Микола Туленков, Юрій Яковенко, 2008. — 543 с.
- Лукашевич М. Соціологія: Загальний курс: Підручник / Микола Лукашевич, Микола Туленков,, 2006. — 407 с.
- Сірий Є. Соціологія: загальна теорія та методологія, історія розвитку, спеціальні та галузеві теорії: навчальний посібник / Євген Сірий, 2009. — 491 с.
- Соціологія : навчальний посібник / Вілен Чорноволенко [та ін.] ; ред. : Сергій Макеєв, 2008. — 566 с.
- Соціологія : Підручник / ред. : Віктор Городяненко, 2008. — 542 с.
- Шейко В. Організація та методика науково-дослідницької діяльності [Текст] : підручник / Василь Шейко, Наталя Кушнаренко, 2008. — 310 с. (Введено зміст)
- Юрій, Михайло Федорович. Соціологія: Підручник / Михайло Федорович Юрій, 20072009. — 287 с.