КАТЕГОРИИ:
АстрономияБиологияГеографияДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРиторикаСоциологияСпортСтроительствоТехнологияФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника
|
Лекція 4-5. Початкова обробка данихПри дослідженні в різних галузях науки, техніки чи виробництва ми отримуємо набір даних, які необхідно зберігати та використовувати. Дослідники отримують в найпростішому випадку задану функцію у вигляді таблиці. Наприклад, отримані такі результати 12 вимірів з постійним інтервалом зміни аргументу.
Часто при цьому виникають такі задачі: 1. Знайти значення функції Y для будь-якого значення X 2. Економно відобразити отриманий набір даних. Перша проблема вирішується методами апроксимації та інтерполяції, а друга – методами апроксимації. Розглянемо методи апроксимації функції, яка задана таблично. Апроксимація – це пошук аналітичного виразу (формули ), яка відображає отриманий набір даних. Найчастіше ми шукаємо параметри найпростішої функціональної залежності, тобто лінійної функції: Y=F(X) = ax + b ( 1 ) Якщо ми отримаємо параметри лінійної функції ( a, b), то можемо знайти значення функції Y для будь-якого значення аргументу. До того ж зберігати потрібно тільки два параметри, а не всю таблицю. Найпростіший метод пошуку параметрів – це метод двох точок. Суть методу полягає в проведені прямої між двома точками. Як правило, ми використовуємо першу і останню точки. Але в тих випадках, коли ці точки значно відрізняються від основних даних, то можна взяти інші точки. Для визначення параметрів ( a, b) запишемо значення функції в крайніх точках y1 = a x1 + b yn = a xn + b Тут n позначає індекс останнього елементу набору даних. З цих двох рівнянь легко визначити невідомі параметри:
Цей метод покажемо на малюнку 1. Червоною лінією ми відображаємо наші табличні дані.
Мал.1 З малюнку видно, що тільки крайні точки збігаються з лінією, а всі останні точки розташовані поза лінією, тобто існує похибка, яку можна записати так: ei = yi - a xi –b ( 3 ) Недоліком цього методу полягає в тому, що крім двох точок всі останні не використовуються для визначення параметрів апроксимуючої функції. Більш точно відображає набір даних пряма визначена методом нульової похибки. Суть методу полягає в створенні двох рівнянь з невідомими параметрами апроксимуючої функції. Для цього знайдемо суму похибок першої та другої половини даних і прирівняємо їх 0.
n div 2 n S ei = 0 S ei = 0 4 ) i = 1 i = n div 2 +1 Маємо два рівняння і дві невідомі – параметри лінії - ( a, b)
n div 2 n S (yi - a xi –b) = 0 S (yi - a xi –b) = 0 ( 5 ) i = 1 n div 2 +1
З цих рівнянь легко визначити параметри прямої лінії.
n div 2 n n div 2 n a = ( S yi - S yi ) /( Sxi – S xi ) ( 6 ) i = 1 i = n div 2 +1 i = 1 n div 2 +1 або a = (S1 – S2)/(S3-S4) ( 7 ) де
Визначивши a легко знайти і параметр b b = (S1- aS2)/n ( 8 ) Цей метод значно кращий за попередній, бо враховує значення всіх точок. До того ж сума похибок як для першої половини даних, так і для другої дорівнює нулю. Але ці похибки мають різні знаки і можуть сягати великих значень. Щоб уникнути великих відхилень, розглянемо суму квадратів похибок: G(a,b) =S (ei)2 =S (yi - a xi –b)2 (i= 1…n) (9 ) Звича йно, ми не зможемо отримати dG(a,b)/da = 0 dG(a,b)/db = 0 dG(a,b)/da = -2S ((yi - a xi –b) xi) =0 dG(a,b)/db = -2S ((yi - a xi –b) =0 S1 –bS2 = aS3 S4 –bn =aS2 Графічна інтерпретація апроксимації Ця функціональна (аналітична) залежність повинна з достатньою точністю відповідати початковій табличній залежності. Критерієм точності для досягнення «хорошого» наближення можуть слугувати декілька умов. Позначимо через fi значення, обчислене з функціональної залежності для x = xi, та співставимо з yi. Одну з умов узгодження можна записати так: S = (fi-yi) min , тобто, сума відхилень табличних та функціональних значень для однакових x=xi повинна бути мінімальною (метод середніх). Відхилення можуть мати різні знаки, тому достатня точність в ряді випадків не досягається. Використання критерію S =S|fi-yi| min , також неприпустимо, оскільки абсолютне значення не має похідної в точці мінімуму. Тому використовують критерій найменших квадратів, тобто визначають таку функціональну залежність, за якої сума квадратів похибок має мінімум: min S = min å(fi-yi)2 , (1) В якості функціональної залежності розглянемо поліном: f(x)=C0 + C1X + C2X2+...+CMXM. (2) Формула (1) має вигляд S = ( C0 + C1Xi + C2Xi2+...+CMXiM - Yi ) 2 Умови мінімуму S можна записати, прирівнюючи часткові похідні S за незалежними змінними С0,С1,...СМ : SC0 = 2 ( C0 + C1 Xi + C2 Xi2+...+CM XiM - Yi ) = 0 , SC1 = 2 ( C0 + C1 Xi + C2 Xi2+...+CM XiM - yi ) Xi = 0 , (3) SCM = 2 ( C0 + C1 Xi + C2 Xi2+...+CM XiM - Yi ) XiM = 0 , Тоді з (3) можна отримати систему нормальних рівнянь. C0 (N+1) + C1× Xi + C2× Xi2 +...+ CM× XiM = Yi , C0× Xi + C1× Xi2 + C2× Xi3 +...+ CM× XiM+1 = Yi Xi , × × × × × × × × × × × × × × × × × × × × × × × × × × × × × × × × × × × × × × × × × × × × × × × × × × × × × × × × × × (4) C0× XiM + C1× XiM+1 + C2× XiM+2 +...+ CM× Xi2M = Yi XiM . Для визначення коефіцієнтів Сi, та таким чином шуканої залежності (2), необхідно обчислити суми та вирішити систему рівнянь (4). Матриця системи (4) називається матрицею Грама та є симетричною та додатною відносно визначеної. Ці корисні властивості використовуються при її розв’язанні.
Неважко побачити, що для формування розширеної матриці (4а) достатньо обчислити тільки елементи першого рядка та двох останніх стовпців, усі інші елементи не є «оригінальними» та заповнюються за допомогою циклічного присвоєння. Найпростіша залежність – лінійна,
|