![]() КАТЕГОРИИ:
АстрономияБиологияГеографияДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРиторикаСоциологияСпортСтроительствоТехнологияФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника
|
Однофакторный дисперсионный анализ. Имеется количественная переменная у, определяемая качественной переменной, иначе фактором, принимающим р дискретных значений (уровней)Стр 1 из 16Следующая ⇒ Имеется количественная переменная у, определяемая качественной переменной, иначе фактором, принимающим р дискретных значений (уровней). Так, фактором может быть «поставщик», уровнями – определенные фирмы-поставщики, переменной у– срок службы поставляемого товара. В качестве исходных данных выступает выборка, содержащая ряд наблюдений на каждом из уровней (по нескольку экземпляров определенного товара от каждого поставщика). Необходимо ответить на вопрос – различаются ли по сроку службы объекты от разных поставщиков. Модель однофакторного анализа: где Модель (5.1) не позволяет однозначно оценить параметры, поскольку можно добавить к m и вычесть из ai произвольную константу. Неоднозначность снимается условием репараметризации N1a1+N2a2+…+Npap=0. (5.2) Оценивание параметров производится по методу наименьших квадратов (МНК). Для минимизации остаточной суммы квадратов
Обозначим
(Точка на месте индекса означает усреднение по этому индексу.) Результаты измерений принято представлять в виде табл.11. Таблица 11
В ДА основной интерес представляет не столько сами оценки, сколько их сравнение и, в первую очередь, проверка гипотезы Н0: а1=а2=…=ар=0, означающей одинаковость, неразличимость, воздействий всех р уровней. Со статистической точки зрения задачу ДА можно сформулировать так: для каждой из р генеральных совокупностей получено по выборке объемом Ni и необходимо сопоставить р значений выборочных средних. ДА базируется на разложении общей суммы квадратов S0 отклонений наблюдений
Подобное разложение получается следующим образом. Обе части тождества возводят в квадрат и суммируют по i и j:
Последнее слагаемое в правой части формулы (5.4) обращается в нуль в силу выполнения следующей очевидной цепочки равенств:
Соотношение (5.4) приобретает вид S0=Sму+Sву. Суммы S0 ,Sму ,Sву имеют N-1, p-1, N-p степеней свободы соответственно. Если имеет место проверяемая гипотеза Н0, то каждое из отношений: может служить оценкой дисперсии s2 случайных возмущений. В силу нормальности возмущений отношение Таблица 12
Гипотеза Н0: а1=а2=…=ар=0 отвергается при выбранном уровне надежности (обычно, 95%), если Fр>FТ, где FТ – табличное значение F-распределения при ЧСС числителя и знаменателя p-1 и
Исследуемая переменная у определяется теперь двумя факторами A и В с p и q уровнями соответственно. На каждой из pq комбинаций уровней доступно по одному наблюдению. Для N=pq выборок единичного объема постулируется модель где m, ai, bj – параметры, uij – случайная компонента с теми же свойствами, что и в однофакторном ДА. Условий репараметризации здесь два: Применяя МНК, находят оценки параметров:
Основная задача двухфакторного ДА – проверка равенства нулю параметров ai и bj, т.е. проверка гипотез: НА: а1=а2=…=ар=0 и НВ: b1=b2=…=bq=0. Как и в однофакторном ДА, общую сумму квадратов S0 отклонений от общего среднего можно разложить на составляющие – теперь уже три: SA= Схема вывода соотношения S0=SA+SB+SR (5.5) та же, что и в однофакторном ДА. За основу положено тождество: Исходные данные и результаты двухфакторного ДА принято представлять в виде табл.13 и 14. Таблица13
Таблица 14
Гипотеза НА (НВ) считается приемлемой, если FA£FТА (FВ£FТВ), где FТА , FТВ – табличные значения F-распределения с ЧСС числителя и знаменателя в соответствии с табл.14.
Все многообразие критериев планирования эксперимента можно разбить на две большие группы Вторую группу составляют критерии, зародившиеся в практике планирования эксперимента и ориентированные на удобство расчетов и организации проведения экспериментов (критерии ортогональности и композиционности). Смысл перечисленных критериев можно пояснить, используя понятие эллипсоида рассеяния случайного вектора. Для случайного вектора а размерности описывающим эллипсоид в Критерий ортогональности Критерий ортогональности требует выбора плана Критерий композиционности Критерий композиционности требует выбора плана, который включал бы в себя точки оптимального плана моделей более низкого порядка. Это обеспечивает сокращение числа опытов при поэтапном усложнении модели. На практике желательно использовать планы, удовлетворяющие одновременно нескольким критериям. В общем случае такого сочетания свойств не наблюдается. В теории планирования эксперимента доказано, что непрерывный D-оптимальный план является также G-оптимальным. Условие D-оптимальности дискретного плана Если для дискретного D-оптимального плана имеет место Построение D-оптимальных планов является сложной вычислительной задачей. Аналитический путь здесь оказывается возможным в некоторых простейших случаях (полиномиальная модель от одной переменной, квадратичная регрессия от
Все многообразие критериев планирования эксперимента можно разбить на две большие группы. Первую составляют критерии, непосредственно учитывающие точностные свойства получаемых оценок. Среди них можно выделить критерии, связанные с точностью нахождения коэффициентов регрессии (критерии A- и D-оптимальности), и критерии, требующие максимальной точности оценки выходной переменной (критерий G-оптимальности). Смысл перечисленных критериев можно пояснить, используя понятие эллипсоида рассеяния случайного вектора. Для случайного вектора а размерности описывающим эллипсоид в Критерий А-оптимальности Поскольку точностной характеристикой вектора коэффициентов регрессии является ковариационная матрица, а критерии планирования желательно иметь в скалярной форме, то необходима некоторая свертка ковариационной матрицы. Критерий A-оптимальности в качестве такой свертки использует след матрицы Известно, что сумма диагональных элементов матрицы равняется сумме её собственных значений. Поскольку квадраты длины осей эллипсоида рассеяния пропорциональны собственным значениям ковариационной матрицы, то критерий A-оптимальности требует минимизации диагонали параллелепипеда, описанного у эллипсоида рассеяния. Критерий D-оптимальности Критерий D-оптимальности требует такого расположения точек в области планирования Известно, что объем Чем меньше величина определителя, тем меньше, как правило, разброс оценок коэффициентов относительно их математических ожиданий. Исключением является случай, когда эллипсоид рассеяния имеет сильно вытянутую форму. Критерий G-оптимальности План
Этапы факторного анализа Вычислительный аспект факторного анализа связан с определением факторного отображения В, дисперсий характерных факторов и оценкой значений общих факторов. Оценка этих параметров производится на основании экспериментальных данных, полученных в ходе наблюдений над N объектами (индивидами). Результаты наблюдений представляются в виде матрицы исходных данных, аналогичной (11.1). По матрице Х вычисляется корреляционная матрица R. Затем начинаются этапы собственно факторного анализа. Первый этап – оценка общностей. Если общности оценены, то по формуле (11.5) можно оценить характерности, а следовательно, и матрицу W, которая является диагональной согласно предпосылкам факторного анализа. Заменяя диагональные элементы матрицы R на оценки общностей, получают матрицу Выделение факторов. Выделение факторов предполагает установление числа и направления осей координат, соответствующих общим факторам, необходимым для отображения корреляции исходных переменных. С алгебраической точки зрения проблема факторов означает определение ранга матрицы А и оценивание ее элементов. Для решения задачи выделения факторов разработано достаточно много методов, однако основными в настоящее время следует признать два: метод главных факторов, наиболее широко употребляемый на практике, и метод максимального правдоподобия, имеющий прочный математико-статистический фундамент. Метод главных факторов. Как следует из фундаментальной теоремы факторного анализа (11.3), Матричное уравнение (11.6) имеет множество решений: любое ортогональное преобразование Т, переводящее матрицу В в G, т.е. G = ВТ, удовлетворяет (11.6). Действительно, в силу ортогональности Т имеет место
Как известно из линейной алгебры, ортогональное преобразование системы координат означает поворот системы как целого на некоторый угол вокруг начала координат. Выделяя некоторое предпочтительное направление и фиксируя тем самым угол поворота системы координат, можно обойти проблему неоднозначности решения системы (11.6). Вернемся на время к методу главных компонент. Выбор осей координат здесь подчинен определенному требованию: каждая следующая ось ориентирована по направлению максимальной дисперсии в пространстве, ортогональном предыдущим главным компонентам. Матрица весовых коэффициентов А при этом составлена из собственных векторов ковариационной (корреляционной R) матрицы. Следовательно,
где Обозначим через
Сравнивая (11.6) и (11.8), получаем, что в качестве оценки матрицы В можно взять матрицу Таким образом, матрица факторных нагрузок получается из матрицы, составленной из собственных векторов корреляционной матрицы исходных признаков, с последующим умножением элементов собственного вектора, отвечающего i-му собственному значению Матрицы B и Q имеют разный порядок: Посчитав матрицу W равной нулю, мы для оценки матрицы B воспользовались моделью главных компонент. Строго говоря, под методом главных факторов понимают способ расчета, принятый в методе главных компонент, но примененный к матрице 0ценка числа общих факторов. ……. Метод максимального правдоподобия. В этом методе по выборочной корреляционной матрице
имела диагональный вид. Это условие соответствует требованию метода главных факторов о взаимной ортогональности факторов и их ориентации по направлению максимума дисперсии. Система (11.9) может быть приведена к виду, удобному для вычислений итерационным путем:
Скорость сходимости итерационной процедуры является весьма медленной и зависит от начального приближения B и W. В методе максимального правдоподобия проблема определения числа факторов также существует. Пусть расчеты по (11.10) проведены для m общих факторов. Для проверки гипотезы о существовании m общих факторов можно воспользоваться критерием c В этой формуле
Дробный факторный эксперимент (ДФЭ)Из-за показательного роста числа экспериментов с увеличением размерности пространства Чем выше размерность пространства Пусть, к примеру, исследуется объект из трех переменных
что дало основание воспользоваться ДФЭ С учетом (6.5) сгруппируем подобные члены в модели (6.3): Сравнивая (6.6) и (6.4) , видим, что при оценивании линейной модели (6.4) получаются не чистые оценки свободного члена Таким образом, платой за сокращение числа экспериментов стала совместность оценок. Если же поставить дополнительно четыре эксперимента с генератором
Восемь оценок В отсутствии априорной информации о значимости взаимодействий предпочтение отдается генераторам, отвечающим взаимодействиям высокого порядка, поскольку коэффициенты регрессии при них по абсолютной величине, как правило, меньше. К достоинствам факторных планов следует отнести их хорошие точностные свойства. Легко доказать, что они являются D-, G-, A- оптимальными. К примеру, у ПФП
Отсюда
Критерий D-оптимальности Критерий D-оптимальности требует такого расположения точек в области планирования Известно, что объем Чем меньше величина определителя, тем меньше, как правило, разброс оценок коэффициентов относительно их математических ожиданий. Исключением является случай, когда эллипсоид рассеяния имеет сильно вытянутую форму. Критерий G-оптимальности План На практике желательно использовать планы, удовлетворяющие одновременно нескольким критериям. В общем случае такого сочетания свойств не наблюдается. В теории планирования эксперимента доказано, что непрерывный D-оптимальный план является также G-оптимальным. Условие D-оптимальности дискретного плана Если для дискретного D-оптимального плана имеет место
Рассматривается функция одной переменной y=f(x). Предпола-гается, что функция имеет только один экстремум (унимодальна); интервал поиска ограничен: Далее для определенности будем полагать, что ищется максимум функции. Эквидистантные планыНачальный отрезок делится на (N-1) равных частей, опыты проводятся при значениях:
В зависимости от вида функции поиск прекращается при различных i, так что средняя эффективность составит E=(N–1)/2. Метод деления отрезка пополам (метод последовательной дихотомии) Эксперименты ставят парами в точках, отстоящих по обе стороны от середины отрезка. Координаты первой пары:
Если Заметим, что при наличии случайного компонента значение e не должно быть малым, что иллюстрируется рис.3.
Рис. 3. Метод деления отрезка пополам Если в точке х1 случайная компонента окажется отрицательной, а в точке х2 положительной, и значительной по величине в обеих точках, результаты сравнения значений отклика в этих точках направят поиск в противоположную сторону, Вот почему применение метода деления отрезка пополам в этих условиях становится проблематичным. Поиск с использованием чисел ФибоначчиЧисла Фибоначчи задаются по следующим правилам:
На первом шаге ставятся два эксперимента в точках x1=a+(b-a)q и x2=b-(b-a)q при q=FN-2/FN , (6.10) где N выбирается заранее. При Легко показать, опираясь на определение чисел Фибоначчи, что одна из координат, подсчитанная по формулам, аналогичным (6.10), будет совпадать с одной из предыдущих точек. Далее происходит сравнение значений функций в этих двух точках и процесс повторяется. Мера эффективности метода составляет Так, при N=10 Метод золотого сеченияЭтот метод базируется на методе Фибоначчи и не требует предварительного задания числа экспериментов. В методе золотого сечения вместо величины Мера эффективности метода
|