Освіта та самоосвіта

Реферати, дослідження, наукові статті онлайн

Аналіз категоріальних даних

Вступ

Планові кількісні показники можливо розраховувати за допомогою декількох способів. Найбільш простим є «регресійний», тобто розрахунок шляхом екстраполяції від досягнутого рівня. Тією ж мірою малообґрунтованою представляється орієнтація показників на результати найбільш успішно діючих філій чи опора на зобов´язання, взяті самими філіями.

Регресійний метод аналізу вирішує два основні завдання :

— визначають за допомогою рівнянь регресії аналітичного форму зв’язку між варіацією ознак X i Y,

— встановлюють ступінь щільності зв’язку між ознаками.

Регресійні моделі бувають декількох видів:

  • лінійна однофакторна регресійна модель (модель першого порядку);
  • квадратична параболічна однофакторна регресійна модель (модель другого порядку) – характерна для багатьох процесів в текстильній промисловості;
  • непараболічна однофакторна регресійна модель, перетворена в лінійну;
  • параболічна однофакторна регресійна модель (поліномінальна модель любого порядку).

При обробці даних однофакторного експерименту здійснюються наступні операції:

1.Виключення даних, які різко відрізняються.

2.Перевірка гіпотези про нормальний розподіл випадкових величин.

3.Перевірка гіпотези про однорідність дисперсій в дослідах матриці.

4.Визначення середньої дисперсії вихідного параметру в дослідах матриці.

5.Визначеня виду регресійної моделі.

6.Визначення коефіцієнтів регресії.

7.Визначення адекватності отриманого рівняння (за критерієм Фішера).

8.Визначення значимості коефіцієнтів регресії та їх довірчих інтервалів (за критерієм Стьюдента).

  1. Визначення довірчих інтервалів середніх значень вихідного параметру при фіксованому значенні фактора.
  2. Визначення довірчих інтервалів для індивідуальних значень вихідного параметру при кожному рівні фактора.

1. Задачі регресивного аналізу

Регресійний аналіз займає провідне місце в статистичних методах економетрики. До регресійного аналізу слід проводити кореляційний аналіз, в процесі якого оцінюється тіснота статистичного зв’язку між досліджуваними змінними. Від тісноти зв’язку залежить прогностичної сили регресійної моделі.

Регресійний аналіз — розділ математичної статистики, присвячений методам аналізу залежності однієї величини від іншої. На відміну від кореляційного аналізу не з’ясовує чи істотний зв’язок, а займається пошуком моделі цього зв’язку, вираженої у функції регресії.

Регресійний аналіз використовується в тому випадку, якщо відношення між змінними можуть бути виражені кількісно у виді деякої комбінації цих змінних. Отримана комбінація використовується для передбачення значення, що може приймати цільова (залежна) змінна, яка обчислюється на заданому наборі значень вхідних (незалежних) змінних. У найпростішому випадку для цього використовуються стандартні статистичні методи, такі як лінійна регресія. На жаль, більшість реальних моделей не вкладаються в рамки лінійної регресії. Наприклад, розміри продажів чи фондові ціни дуже складні для передбачення, оскільки можуть залежати від комплексу взаємозв’язків множин змінних. Таким чином, необхідні комплексні методи для передбачення майбутніх значень.

Основне завдання регресійного аналізу полягає в дослідженні залежності досліджуваної змінної від різних факторів і відображенні їх взаємозв’язку у формі регресійної моделі.

У регресійних моделях залежна (пояснюється) змінна Y може бути представлена у вигляді функції ƒ (Х1, Х2,..,Xk), де Х1, Х2,..,Xk — незалежні (що пояснюють) змінні, або фактори.

Зв’язок між змінною Y і k незалежними факторами X можна охарактеризувати функцією регресії Y= ƒ (Х1, Х2,..,Xk), яка показує, як буде в середньому значення змінної Y, якщо змінні Хi  приймуть конкретні значення. Дана обставина дозволяє використовувати модель регресії не тільки для аналізу, але і для прогнозування економічних явищ.

Сформулюємо регресійну задачу для випадку однієї факторної ознаки.

Нехай є набір значень двох змінних: Y = (у1, у2, уn) — пояснюється мінлива і Х = (х1, х2, хn) — пояснююча змінна, кожна з яких містить п спостережень. Нехай між змінними Х і Y теоретично існує певна лінійна залежність

Y= ƒ (Х)= ƒ (Х1, Х2,..,Xk) = α + βx.

Це рівняння будемо називати «справжнім» рівнянням регресії.

Як вже відзначалось, зв’язок між взаємозалежними змінними величинами Х і Y має математичний вираз у вигляді: у = f (х). Наведене рівняння характеризує кореляційний характер зв’язків між Х і Y і, водночас, відображає регресійну особливість, тобто є регресивним рівнянням. Це рівняння дозволяє визначити середні значення однієї ознаки (Y) за відповідними значеннями іншої ознаки (Х). В правій частині даного рівняння коефіцієнт (f) є числовим значенням, яке фіксує, наскільки змінюється значення (Y) відносно значення (Х). Це є коефіцієнт регресії або міра регресії. Він показує, на яке число збільшиться значення (Y) при збільшенні (Х) на відповідну одиницю міри. При графічному зображенні від величини (f) залежить крутість розміщення лінії, що з’єднує одержані значення (Y) (рис. 1).

Рис. 1. Зміни положення значень (у) в залежності від значення f) і сталого коефіцієнта (а) у випадках:

  1. а = 1,0; f= 2; у = а + 2 (х)
  2. а = 1,0; f= 0,5; у = а + 0,5 (х)

Для всіх значень (х), що аналізуються, цей коефіцієнт в разі прямолінійної залежності завжди лишається постійним коефіцієнтом, що визначає міру збільшення або зменшення (у) щодо значень (х) або (х) щодо (у). Фактичне положення лінії (Y) відрізняється від лінії (Х) на відповідну сталу величину (а), від якої залежить положення лінії f (x) в системі координат. Отже, лінія регресії в системі координат в разі залежності у = f (х) буде визначатись формулою прямої лінії у = а + bx, де (а) − сталий коефіцієнт, а (b) − коефіцієнт пропорційності, який зветься коефіцієнтом регресії або мірою регресії.

Коефіцієнт (а) означає рівень регресії, тобто її положення над віссю абсцис, який відраховується на початку координат від осі (х). Коефіцієнт (b) вказує наскільки збільшиться (або зменшиться) значення змінної ознаки (у), якщо значення (х) зміниться на одиницю виміру.

Мета регресійного аналізу:

  • Визначення ступеня детермінованості варіації критеріальної (залежної) змінної предикторами (незалежними змінними).
  • Пророкування значення залежної змінної за допомогою незалежної.
  • Визначення внеску окремих незалежних змінних у варіацію залежної.

Регресійний аналіз не можна використовувати для визначення наявності зв’язку між змінними, оскільки наявність такого зв’язку і є передумова для застосування аналізу.

2. Крива регресії

Регресія  – форма зв’язку між випадковими величинами. Закон зміни математичного очікування однієї випадкової величини залежно від значень іншої. Розрізняють прямолінійну, криволінійну, ортогональну, параболічну та ін. Р., а також лінію і площину регресії.

Крива регресії Y на Х є залежність умовного математичного очікування величини Y від заданого значення Х:

my/x = φ (х, а, b, c, …),

де а, b, c, … — параметри рівняння регресії.

лінія регресії — емпірична в моделі аналітичного групування і теоретична в моделі регресійного аналізу. Емпірична лінія регресії представлена груповими середніми результативної ознаки , кожна з яких належить до відповідного інтервалу значень групувального фактора хj. Теоретична лінія регресії описується певною функцією  яку називають рівнянням регресії, а Y — теоретичним рівнем результативної ознаки.

На відміну від емпіричної, теоретична лінія регресії неперервна. Так, уважають, що маса дорослої людини в кілограмах має бути на 100 одиниць менша за її зріст у сантиметрах. Співвідношення між масою і зростом можна записати у вигляді рівняння: , де у — маса; х — зріст.

Безперечно, така форма зв’язку між масою та зростом людини надто спрощена. Насправді збільшення маси не жорстко пропорційне до збільшення зросту. Люди одного зросту мають різну масу, проте в середньому зі збільшенням зросту маса зростає.

Рис. 2. Лінійні регресії

Рівняння регресії в такому вигляді описує числове співвідношення варіації ознак х і у в середньому. Коефіцієнт пропорційності при цьому відіграє визначальну роль. Він показує, на скільки одиниць у середньому змінюється у зі зміною х на одиницю. У разі прямого зв’язку b — величина додатна, у разі оберненого — від’ємна.

Подаючи у як функцію х, тим самим абстрагуються від множинності причин, штучно спрощуючи механізм формування варіації у. Аналіз причинних комплексів здійснюється за допомогою множинної регресії.

Залежно від кількості змінних величин виділяють різні види регресійного аналізу. Якщо змінна величина завжди одна, то змінних може бути як одна, так і декілька. Виходячи з цього, виділяють два види регресійного аналізу: парний (простий ) регресійний аналіз і регресійний аналіз на основі множинної регресії, або багатофакторний.

Парний регресійний аналіз – вид регресійного аналізу, що включає у себе розгляд однієї незалежної змінної величини, а багатофакторний – відповідно дві величини і більше.

Зважаючи на характер зв’язку, в регресійному аналізі можуть використовуватися лінійні та нелінійні функції. Для визначення характеру залежності та, відповідно, побудови рівняння регресії доцільно застосувати графічний метод, порівняння рівнобіжних рядів вихідних даних, табличний метод.

Так, графічний метод дає найбільш наочну картину розміщення крапок на графіку, завдяки чому можна виявити напрям і вид залежності між досліджуваними показниками: прямолінійна чи криволінійна.

Основне змістовне навантаження в рівнянні регресії несе коефіцієнт регресії. Найчастіше застосовуються лінійні рівняння або приведені до лінійного вигляду. Коефіцієнт регресії – це кутовий коефіцієнт у прямолінійному рівнянні кореляційного зв’язку. У лінійній функції рівняння регресії він показує на скільки одиниць в середньому зміниться результативна ознака (у) при зміні факторної ознаки (х) на одиницю свого натурального виміру. Тобто, коефіцієнт регресії – це варіація у, яка припадає на одиницю варіації х. Коефіцієнт регресії має одиницю виміру результативної ознаки. За наявності прямого зв’язку коефіцієнт регресії є додатною величиною, а за зворотного зв’язку – від’ємною.

3. Пряма регресія

В регресійному аналізі розрізняють рівняння парної (простої) та множинної (багатофакторної) регресії. Коли зв’язок із результативною ознакою у здійснюється з одним видом факторної ознаки х, то рівняння регресії має назву рівняння парної регресії. Якщо результативна ознака у пов’язана з декількома видами факторних ознак х, (j=l-m), то така залежність має назву рівняння множинної регресії. Обмежимось розглядом рівнянь парної регресії, як найбільш простим випадком зв’язку між ознаками, що достатньо широко використовується в статистичній практиці обстеження економічних явищ.

Відображення зв’язку між двома випадковими величинами x і y у вигляді залежності  називають регресією у на х, і навпаки: у випадку  кажуть про регресію х на у. Якщо лінії регресії є прямими, то регресію називають лінійною, в іншому випадку – нелінійною. Випадок прямої регресії є найпростішим, а тому найуживанішим в аналізі експериментальних даних.

Головною властивістю рівняння регресії є те, що вона (регресія) мінімізує суму квадратів (дисперсію) відхилень точок на лінії від експериментальних даних

4. Криволінійні зв’язки

Регресійний аналіз проводиться на основі побудованого рівняння регресії і визначає внесок кожної незалежної змінної у варіацію досліджуваної (прогнозованої) залежної змінної величини.

Криволінійна регресія має місце тоді, коли із зміною (Х) на відповідну одиницю виміру (Y) з кожним наступним збільшенням (Х) змінюється не на сталу величину, а на якусь частинку більше або менше. Розмір цієї частинки регламентується ще одним коефіцієнтом «С», перемноженим на (х2), тобто Сх2. Тоді формула лінійної регресії приймає вигляд у = a + bx + Сx2, а крива на графіку буде відповідно згинатись від ординати (Х) вверх (якщо значення Сx2 буде додатнім) або вниз (значення Сx2 − від’ємне). Криволінійність регресій може бути більш складною в порівнянні з наведеною. Тоді у математичну формулу регресії будуть включатись коефіцієнти, перемножені на наступні степені (х) − х3; х4 і т.д.

Відображення характеру залежності ознак (Y) і (Х) відповідним математичним рівнянням зветься її апроксимацією (апроксимація − від лат. approximatio − зближення, тобто наближене зображення одних математичних об’єктів іншими, наприклад: ламаних ліній − кривими.)

Лінія регресії і відповідно до неї формула апроксимації обираються згідно, характером залежності одержаних експериментальних даних, який апробується за даними ранжированих рядів розподілу, а краще – за характером їх графічного виразу.

Звичайно за лінію вирівнювання приймають геометрично найбільш прості лінії: пряму, параболічну, логарифмічну, для яких за експериментальними даними складають рівняння зв’язку.

При цьому можуть бути такі випадки.

  1. Якщо із збільшенням однієї ознаки спостерігається пропорційне збільшення або зменшення другої ознаки, за лінією вирівнювання обирається пряма лінія, тобто парабола першого порядку:

y = a+bx.

  1. Якщо зміна залежного показника виражається плавною кривою з одним вигином, для вирівнювання беруть параболу другого порядку:

y = a+bx+cx2.

  1. В більш складних випадках – для кривих ~ образної форми, що мають два вигини, для вирівнювання експериментальних даних використовують параболу третього порядку:

y = a+bx+cx2+dx3.

  1. Якщо із збільшенням незалежної ознаки спостерігається уповільнене збільшення другої ознаки, застосовують логарифмічну криву:
  2. Коли залежна ознака при збільшенні незалежної поступово зростає і це зростання переходить в пропорційне збільшення, для вирівнювання береться крива типу

В наведених формулах х − незалежна змінна; у − залежна змінна; a, b, c – постійні коефіцієнти, які підлягають визначенню.

Дуже часто ознаки біологічних об’єктів знаходяться в зворотній залежності одна від одної. Таку залежність обраховують рівняннями гіперболи:

Доцільно перед проведенням розрахунків рівнянь залежності графічно встановити відповідність характеру розподілу ознак тієї або іншої кривої розподілу.

Метод регресійного аналізу вважається найдосконалішим з усіх використовуваних нині нормативно-параметричних методів. Він широко застосовується для аналізу та встановлення рівня і співвідношень вартості продукції, яка характеризується наявністю одного або декількох техніко-економічних параметрів, що характеризують головні споживчі якості. Регресивний аналіз надає можливість знайти емпіричну форму залежності ціни від техніко-економічних параметрів товарів і виробів. При цьому він виступає в ролі цільової функції параметрів.

Метод регресійного аналізу особливо ефективний за умови здійснення розрахунків за допомогою сучасних інформаційних технологій і систем.

Висновки

Вибір та обґрунтування функціонального виду регресії ґрунтується на теоретичному аналізі суті зв’язку. Нехай вивчається зв’язок між урожайністю та кількістю опадів. Надто мала і надто велика кількість опадів спричинюють зниження врожайності, максимальний її рівень можливий за умови оптимальної кількості опадів, тобто зі збільшенням факторної ознаки (опади) урожайність спершу зростає, а потім зменшується. Залежність такого роду описується параболою Y = a + bx + cx2.

Зауважимо, що теоретичний аналіз суті зв’язку, хоча й дуже важливий, лише окреслює особливості форми регресії і не може точно визначити її функціонального виду. До того ж у конкретних умовах простору і часу межі варіації взаємозв’язаних ознак х і у значно вужчі за теоретично можливі. І якщо кривина регресії невелика, то в межах фактичної варіації ознак зв’язок між ними досить точно описується лінійною функцією. Цим значною мірою пояснюється широке застосування лінійних рівнянь регресії.

Список використаної літератури

  1. Бессалов А. В. Эконометрика [Текст] : Учебное пособие для студентов вузов / А. В. Бессалов, 2007. — 195 с.
  2. Грубер Й. Економетрія: В 2 т: Навчальний посібник : Пер. з рос. Т.1 : Вступ до множинної регресії та економетрії, 1998. — 381 с.
  3. Економетрія : Навчальний посібник / В. І. Жлуктенко, Н. К. Водзянова, С. С. Савіна та ін.; За заг. ед. С. І. Наконечного, 2005. — 548 с.
  4. Песаран М. Динамическая регрессия: теория и алгоритмы : монографія / М. Песаран, Л. Слейтер, 1984. — 310 с.
  5. Петрович М. Регрессионный анализ и его математическое обеспечение на ЕС ЭВМ : (Практ. руководство) / М. Л. Петрович,, 1982. — 199 с. с.
  6. Себер Дж. А. Ф. Линейный регрессионный анализ [Текст] / Дж. Себер, 1980. — 456 с. с.
  7. Уланова Е. Методы корреляционного и регрессионного анализа в агрометеорологии [Текст] / Е. С. Уланова, В. Н. Забелин, 1990. — 206,[1] с. с.
  8. Ферстер Э. Методы корреляционного и регрессионного анализа [Текст] : Руководство для экономистов / Э. Ферстер, Б. Ренц, 1983. — 302 с.