Студопедия

КАТЕГОРИИ:

АстрономияБиологияГеографияДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРиторикаСоциологияСпортСтроительствоТехнологияФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника


Метод динамического программирования




4.1. Принцип оптимальности

Рассмотрим систему

(4.1)

и функционал

(4.2)

который требуется минимизировать. Правый конец фазовых координат является свободным.

Наряду с этой вариационной задачей рассмотрим вспомогательную, когда процесс рассматривается в интервале и минимизируется функционал

. (4.3)

Пусть сначала найден минимум (4.2) и соответствующее ему оптимальное управление (рис. 14а):

(4.4)

а потом – минимум (4.3) и оптимальное управление (рис. 14б):

. (4.5)

В последнем случае предполагается, что в момент процесс начинается с состояния , достигнутого к моменту времени при оптимизации процесса в интервале .

Вообще говоря, управления и отличаются интервалом и значениями. Принцип оптимальности утверждает, что оптимальные управления и в общей части интервала совпадают, не зависимо от предыстории процесса и вполне определяются состоянием в момент .

В случае со свободным правым концом принцип оптимальности доказывается. В самом деле, допустим, что на участке управления и не совпадают и

u0
u00
t
t
T
T

(4.6)

Рис. 14а Рис.14б

Тогда для первой задачи введем управление

(4.7)

и вычислим функционал

При управлении (4.7) функционал(4.2) принимает меньшее значение, чем при (4.4). Но управление является оптимальным. Поэтому допущение (4.6) неверно.

A предположение

противоречит тому, что - управление, минимизирующее (4.3).

Таким образом, остается, что

,

и если оптимальное управление единственное, то

.

Кратко принцип оптимальности можно сформулировать так: последний участок оптимальной траектории является оптимальным независимо от предыстории процесса.

 

4.2. Основное уравнение метода динамического программирования

Применим принцип оптимальности к решению вариационной задачи (4.1), (4.2). Для этого сначала рассмотрим функционал (4.3). Наименьшее значение его при связях (4.1) обозначим:

. (4.8)

Если - оптимальное управление, то

.

Оптимальное управление зависит от начального состояния в момент . Следовательно, является функцией от и : , а от управления и его вариаций функция не зависит. Она вполне определяется значениями .

Интервал разделим на два интервала и и выражение (4.8) запишем в виде:

.

Согласно принципу оптимальности последний участок также является оптимальным:

(4.9)

Обозначим:

, (4.10)

где - приращение вектора фазовых координат за время . Оно определяется согласно уравнениям движения (4.1). Подставляя из (4.10) в равенство (4.9), получим:

.

Хотя функция зависит только от фазовых координат и времени, ее нельзя выносить за знак . Значение приращения за время зависит от управления в интервале . Но не зависит от управления в интервале и ее можно внести под знак . Введем под знак минимума и разделим на :

.

Учитывая, что

;

,

получим основное уравнение метода динамического программирования:

(4.11)

Это соотношение состоит из двух утверждений:

1) Выражение достигает минимума. Это утверждение служит для определения оптимального управления ;

2) Выражение при оптимальном управлении равняется нулю. Утверждение служит для определения функции .

Если - управление, минимизирующее выражение , то основное уравнение метода динамического программирования

(4.12)

Здесь зависит от управления по определению, функция же не зависит от него. Тем не менее, производная от управления зависит. В этом можно убедиться, если ее представить в виде

и заменить согласно системе (4.1):

. (4.13)

Подставляя (4.13) в (4.12) получим уравнение Р.Беллмана:

. (4.14)

Это уравнение в частных производных относительно , которое после подстановки становится нелинейным. Согласно определению (4.8) при должно выполняться конечное условие

.

В случае бесконечного интервала при процесс должен быть асимптотически устойчивым, т.е. .

В том случае, когда рассматривается функционал Больца

(4.15)

Уравнение (4.12) сохраняет силу, функция v в момент должна удовлетворять условию

. (4.16)

 

4.3. Две задачи оптимального управления

 

В теории оптимального управления различают задачи двух типов: программного управления и синтеза. В первой задаче оптимальное управление строится в виде функции времени для конкретных начальных и конечных условий, если они заданы. Зависимость рассматривается как программа.

Во второй задаче оптимальное управление строится для каждого момента времени как функция вектора фазовых координат т.е. в виде

. (4.17)

Построение такой зависимости является целью задачи синтеза. Значение второй задачи в том, что зависимость дает уравнение обратной связи или оптимального регулятора, замыкающего систему. Она применяется при оптимальном управлении переходным процессом.

Программное управление и управление по обратной связи осуществляются технически по-разному. Первое может осуществляться программным часовым механизмом, по жесткому закону, как функция времени . Это управление никак не реагирует на возможные отклонения состояний объекта от идеального, желательного. Управление по обратной связи осуществляется при помощи регулятора, который по результатам измерения реального состояния фазовых координат вырабатывает сигнал, согласно которому отклоняется управляющий орган.

Обе задачи взаимосвязаны. Решение одной можно выразить через другое. Однако отметим, что принцип максимума обычно приводит к представлению управления в виде программы, а метод динамического программирования – в виде синтеза.

Значительное развитие получила задача синтеза оптимального управления процессами, описываемыми линейной системой дифференциальных уравнений, при минимизации интегральных квадратичных функционалов. Она называется задачей аналитического конструирования оптимальных регуляторов (АКОР), или задачей А.М.Летова.

 

4.4. Задача аналитического конструирования оптимальных регуляторов

Предположим уравнения возмущенного движения системы имеют вид

(4.18)

Матрицы , размерности и , соответственно, имеют в качестве своих элементов известные функции .

Предполагается также, что состояние системы (4.18) в каждый момент времени известно.

В качестве критерия оптимальности рассматривается квадратичный функционал Больца

, (4.19)

где - симметричные неотрицательно определенные матрицы, - положительно определенная матрица; *) - индекс транспонирования.

Требуется найти оптимальное (минимизирующее функционал 4.19) управление, являющееся функцией текущего состояния .

Для решения этой задачи можно воспользоваться принципом максимума, но наиболее короткий путь – метод динамического программирования.

В соответствии с этим методом нужно найти функцию , удовлетворяющего уравнению

. (4.20)

В общем случае – это сложная задача, однако для линейных систем с квадратичным критерием оптимальности функцию можно искать в виде некоторой квадратичной формы.

(4.21)

где - есть некоторая, пока неизвестная, квадратичная форма, удовлетворяющая в силу (4.16) конечному условию

. (4.22)

Таким образом, для линейных систем задача сводится к отысканию функции . Дифференцируя (4.21) с учетом (4.18) получим

Тогда

(4,23)

Минимизируя (4.23) по , получим

или

(4.24)

Так как , то управление (4.24) действительно доставляет минимум выражению .

Подставляя (4.24) в (4.23), получим

. (4.25)

Квадратичная форма (4.25) равна нулю при любых только в том случае, когда равна нулю матрица, ее образующая. Таким образом, получаем уравнение для определения матрицы

(2.26)

с граничным условием (4.22).

Интегрируя уравнение (4.26) в обратном направлении, получим , а значит и параметры оптимального управления (4.24). Нетрудно показать, что матрица - симметричная матрица. Для этого достаточно транспонировать уравнение (4.26). Тогда

откуда с учетом симметричности матриц следует, что .

Замечание 1. В том случае, когда система (4.18) стационарна (матрицы A и B – числовые матрицы), матрицы - числовые матрицы, (рассматривается установившийся режим). Матрица тоже числовая и удовлетворяет алгебраическому уравнению

Замечание 2. Из выражения (4.24) следует, что для реализации оптимального управления необходима полная и точная информация о состоянии управляемого процесса . В том случае, когда эту информацию получить невозможно, для реализации оптимального управления используются оценки состояния, получаемые на основе имеющейся неполной информации.

 

4.5. Синтез локально-оптимального управления

При проектировании систем управления часто бывает необходимо, чтобы поведение системы было оптимальным в некотором смысле в любой текущий момент времени.

Рассмотрим непрерывный управляемый процесс, описываемый системой дифференциальных уравнений (4.18).

Пусть задан функционал (функция) параметрически зависящий от времени и определенный на множестве функций и .

Требуется найти уравнение , минимизирующее , где - текущий момент времени. Такое управление называется локально-оптимальным.

В качестве критерия оптимальности рассмотрим функционал

, (4.27)

матрица удовлетворяют тем же требованиям, что и в параграфе 4.4.

Нетрудно показать [6], что локально-оптимальное уравнение с необходимостью удовлетворяет условию

. (4.28)

Воспользуемся этим условием.

Тогда, дифференцируя (4.27) в силу (4.18), найдем выражение для определения производной

(4.29)

Учитывая далее, что силу симметричности матрицы

,

из условия найдем локально-оптимальное управление

(4.30)

Найденное управление действительно доставляет производной , так как

.

Из выражения (4.30) следует, что локально-оптимальное управление полностью определяется матрицами , а для реализации его необходима полная информация о состоянии процесса . Задаваясь различными матрицами весовых функций , можно обеспечить те или иные свойства управляемого процесса, в частности свойства устойчивости или асимптотической устойчивости.

Потребуем, например, чтобы на локально-оптимальном управлении выполнялось условие

. (4.31)

Тогда, подставляя (4.30) в (4.29), из (4.31) найдем

(4.32)

Из условия (4.32) следует, что оно будет выполнено, если матрица будет определена из условия

(4.33)

Пусть теперь рассматривается управляемое движение на отрезке , где - некоторый фиксированный момент времени. Потребуем также, чтобы в момент времени матричная функция удовлетворяла конечному условию

(4.34)

 

Тогда из сравнения формул (4.24), (4.26), (4.22) и (4.30), (4.33), (4.34) следует, что локально-оптимальное управление(4.30) по критерию (4.27) с матрицей , определяемой из уравнения (4.33) с условием (4.34) совпадает с управлением (4.24), оптимальным по квадратичному критерию (4.19) на интервале .

 

5. Оптимальное управление стохастическими системами в условиях неопределенности.

 

5.1. Характеристики случайных сигналов

В пособие в качестве математических моделей возмущающих воздействий и погрешностей измерений используются стохастические (случайные) процессы и последовательности.

Случайный процесс - это такая функция, значение которой в фиксированный момент есть случайная величина, т.е. случайный процесс можно рассматривать как случайную величину, зависящую от параметра . В том случае, когда параметр меняется дискретно, случайный процесс называют случайной последовательностью.

Через будем обозначать реализацию случайного процесса .

Следует отметить, что многие статистические характеристики случайных процессов и последовательностей совпадают.

Как известно, наиболее полной характеристикой случайного процесса является - мерный закон распределения

(5.1)

или -мерная плотность распределения

(5.2)

Здесь символом обозначается вероятность события, заключенного в скобках. Значение может быть любым от I до . Для произвольного случайного процесса такую информацию иметь невозможно. Однако существует класс случайных процессов (последовательностей), называемых марковскими, для которых статистические характеристики полностью определяются двумерным законом распределения или двумерной плотностью распределения.

Часто, особенно в прикладных задачах, для статистического описания случайных процессов используют начальные и центральные моменты -гo порядка. Здесь символом обозначена операция осреднения (математического ожидания). Наиболее важную роль играют следующие моменты:

- математическое ожидание (среднее значение)

; (5.3)

- дисперсия случайного процесса

; (5.4)

- второй начальный момент

, (5.5)

где - центрированный случайный процесс с нулевым математическим ожиданием;

- среднеквадратичное отклонение

. (5.6)

Из определения , , и следует, что эти величины характеризуют случайный процесс только в фиксированном сечении . Для характеристики связи двух различных сечений случайного процесса используется корреляционная функция;

. (5.7)

Если математическое ожидание случайного процесса не зависит от времени, а корреляционная функция является функцией одного аргумента , то такой процесс называется стационарным в широком смысле.

Если плотность распределения имеет гауссовский характер, то такой процесс называют гауссовским

.

Гауссовский процесс полностью определяется заданием математического ожидания и корреляционной функции .

Важной характеристикой стационарного случайного процесса в широком смысле является спектральная плотность - плотность распределения дисперсии (энергии) по частотам.

Спектральная плотность и корреляционная функция связаны прямым и обратным преобразованием Фурье:

; (5.8)

. (5.9)

Чисто случайный процесс (последовательность) - это процесс, для которого случайные величины взаимно независимы при любых значениях аргументов. Такой процесс полностью характеризуется одномерной функцией распределения. Чисто случайный стационарный процесс называют белым шумом, если корреляционная функция имеет вид - функции. Спектральная плотность такого процесса постоянна по всем частотам. Так как , то нетрудно видеть, что дисперсия белого шума является бесконечно большой. Такие процессы в природе реально не существуют. Однако реальный шум по его воздействию на систему может быть заменен белым шумом. Кроме того, реальный случайный процесс можно представить как выходной сигнал некоторой системы (формирующего фильтра), на вход которой поступает белый шум. Поэтому задача статистического анализа или синтеза систем с реальными характеристиками случайных воздействий может быть сведена к задаче статистического анализа или синтеза, когда входным сигналом является белый шум. В настоящем учебном пособии, как правило, будут использоваться модели белых шумов и чисто случайных последовательностей.

Наряду со скалярными случайными процессами можно рассматривать и векторные случайные процессы:

, (5.10)

где каждая компонента является случайным процессом. Для характеристики векторного случайного процесса вводятся следующие векторы и матрицы:

- математическое ожидание :

; (5.11)

- дисперсионная матрица :

(5.12)

с элементами

; (5.13)

- ковариационная матрица :

(5.14)

с элементами

; (5.15)

- матрица

(5.16)

с элементами

. (5.17)

Здесь означает транспонирование.

Непосредственно из определения матрицы видно, что на ее диагонали расположены дисперсии составляющих случайного процесса.

Матрицы , и обладают следующими свойствами:

; (5.18)

для всех и (5.I9)

. (5.20)

Для стационарного векторного случайного процесса вводится матрица спектральных плотностей как преобразование Фурье ко вариационной матрицы , т.е.

. (5.21)

Матрица обладает следующим свойством:

(5.22)

 

5.2. Математическое описание линейных систем при случайных возмущениях.

 

В общем виде уравнение управляемой динамической системы может быть записано в виде:

, (5.23)

где - оператор (или в частном случае функция) системы, т.е. совокупность правил, по которым преобразуются начальное условие , управляющие воздействия , возмущающие воздействия в выход системы в момент .

Если параметр меняется непрерывно, то такую систему будем называть непрерывной; если меняется дискретно, то система называется дискретной.

Если оператор не зависит от параметров и , то такую систему называют стационарной. Оператор может быть линейным или нелинейным, однородным или неоднородным и может задаваться в различной форме, например, в форме дифференциальных и интегродифференциальных уравнений, с помощью передаточных функций и разностных уравнений.

В данном учебном пособии будут рассматриваться только линейные системы.

Рассмотрим системы, описываемые дифференциальными уравнениями.

Обозначим через -мерный вектор состояния системы; через - -мерный вектор управляющих воздействий; через - -мерный вектор возмущений. Тогда уравнение движения линейной непрерывной динамической системы можно записать в следующей дифференциальной форме:

. (5.24)

Здесь , , - матрицы размерностей соответственно. Элементами этих матриц являются непрерывные функции. Если матрицы и являются постоянными, то управляемая система называется стационарной. Уравнения (5.24) обычно называют уравнениями состояния, так как они описывают изменение переменных состояния системы во времени.

Для целей управления необходимо знать состояние системы в любой текущий момент времени. Однако с помощью измерителей можно получить информацию, как правило, только о некоторых составляющих процессах или их комбинациях. Кроме того, наблюдаемые (выходные) переменные могут содержать погрешности измерения. В дальнейшем будем предполагать, что уравнения измерений имеют вид:

, (5.25)

где - -мерный наблюдаемый сигнал; - матрица размерности , характеризующая способ измерения; - погрешность измерения. Если ( - единичная матрица) и , то говорят, что измерение полное и точное.

В некоторых случаях удобно представить решение системы (5.24) в интегральной форме через фундаментальную матрицу решений , которая удовлетворяет следующему матричному уравнению:

(5.26)

В интегральной форме решение системы (5.24), в соответствии с формулой Коши, можно представить в следующем виде:

(5.27)

В выражении (5.27) первая составляющая учитывает свободное движение, обусловленное начальным условием , вторая составляющая учитывает вынужденное движение, обусловленное управляющими воздействиями на интервале времени , третья составляющая характеризует вынужденное движение, обусловленное возмущениями на интервале .

Относительно системы (5.24), (5.25) сделаем следующие предположения:

1) матрицы не являются случайными;

2) случайные процессы и и случайное начальное состояние системы не коррелированы между собой и имеют следующие статистические характеристики:

(5.28)

Из соотношений (5.28) видно, что случайные процессы и являются процессами типа белого шума. Матрицы и вектор считаются известными. Предполагаются известными в каждый момент времени и управляющие воздействия.

Одним из видов динамических систем являются дискретные системы, которые можно разделить на два типа:

а) собственно дискретные системы, такие как ЦВМ, автоматы различных типов и т.д.;

б) дискретные системы, которые получаются в результате использования непрерывных систем в дискретные моменты времени, в частности, при использовании в контуре управления вычислительных машин. Поведение дискретных систем обычно описывают разностными уравнениями, которые являются аналогом дифференциальных уравнений для непрерывных систем.

t0
t1
t2
t3
t4
t5
t
U
Рис. 15
Рассмотрим поведение непрерывной системы с дискретным управлением, которое можно представить в виде кусочно-постоянной вектор-функции (рис. 15), т.е. управляющие воздействия можно записать в следующем виде:

 

для (5.29)

где - последовательность моментов времени, не обязательно равноотстоящих друг от друга.

Если нас интересует состояние системы только в дискретные моменты времени , то непрерывную систему (5.24) в эти моменты, используя соотношение (5.27), можно записать в следующем виде:

(5.30)

Учитывая (5.29), соотношение (5.30) перепишем в виде:

(5.31)

Третье слагаемое в соотношении (5.3I) можно рассматривать как некоторую случайную последовательность. В том случае, когда случайный процесс типа белого шума, то справедливо следующее соотношение:

,

где - чисто случайная последовательность.

Вводя обозначения

(5.32)

систему уравнений (5.31) запишем в виде:

(5.33)

Матрицы называются переходными матрицами по состоянию, управлению и возмущению соответственно; - дискретное время.

Уравнение измерений, соответственно, можно записать в виде:

. (5.34)

Иногда систему (5.33) - (5.34) записывают в следующем виде:

, (5.35)

. (5.36)

Относительно систем (5.33), (5,34) будем предполагать, что:

1) матрицы являются неслучайными;

2) случайные последовательности являются чисто случайными и некоррелированными между собой, а также некоррелированными со случайным начальным условием , т.е.:

(5.37)

Пример. Рассмотрим вращательное движение тела вокруг одной из осей под действием возмущающего момента . Уравнения движения имеют вид:

, (5.38)

где - момент инерция тела; - угол поворота тела в некоторой инерциальной системе координат. Вводя новые переменные

(5.39)

получим уравнения движения объекта в нормальной форме:

(5.40)

Для этой системы уравнений фундаментальная матрица состоит из двух вектор-столбцов решений следующей системы уравнений

с начальными условиями

Отсюда следует, что матрица имеет вид:

(5.41)

Этот же результат получается, если искать матрицу в виде ряда:

Рассмотрим поведение системы (5.40) через равные промежутки времени в моменты , т.е. .

На основании соотношений (5.3I) - (5.33), полагая, что постоянно на шаге дискретности, получим следующую эквивалентную дискретную систему:

(5.42)

(5.43)

(5.44)

В дальнейшем необходимо получить зависимость не только от и , но от и всех предшествующих . Используя соотношения (5.33), для различных можно записать:

Продолжая соответствующие выкладки, можно получить соотношение

, (5.45)

где матрица определяется следующим образом:

, (5.46)

причем при .

Полученные соотношения (5.45), (5.46) будут использованы при статистическом анализе дискретных систем.

 

5.3. Уравнения моментов для линейных систем

 

Сначала рассмотрим непрерывные системы. Пусть уравнения движения имеют вид;

. (5.47)

Относительно возмущающих воздействий и начального состояния будем предполагать, что они удовлетворяют условиям (5.28).

При получении соотношений для математического ожидания состояния системы осредним уравнение (5.47):

Учитывая (5.28), получим:

. (5.48)

На основании (5.47), (5.48) уравнение для центрированной составляющей имеет вид:

. (5.49)

Теперь найдем уравнение для дисперсионной матрицы . Дифференцируя по матрицу и учитывая, что матрицы и не случайные, получим:

(5.50)

Для вычисления математического ожидания используем формулу Коши (5.27):

. (5.51)

Умножив выражение (5.51) справа на , осреднив и учитывая (5.28), получим:

(5.52)

С учетом того, что

, (5.53)

уравнение (5.50) примет вид;

(5.54)

с начальным условием .

Теперь пусть поведение системы описывается дискретным уравнением

. (5.55)

Будем полагать, что начальное условие и возмущающие воздействия удовлетворяют соотношениям (5.37). Найдем уравнения для математического ожидания и дисперсионной матрицы.

Осредняя (5.55) и учитывая (5.37), получим:

(5.56)

Уравнение для центрированной составляющей имеет вид:

. (5.57)

Используя (5.57) и (5.37), найдем уравнение для дисперсионной матрицы :

(5.58)

Определим математическое ожидание , используя соотношение (5.45) и свойства (5.37):

(5.59)

Аналогично

.

Таким образом, уравнение для определения матрицы имеет вид:

(5.60)

 

5.4. Задача оптимальной фильтрации и ее решение методом Калмана

Как было показано раньше, для оптимального управления по принципу обратной связи необходимо иметь полную информацию о состоянии системы. Однако измерению доступны лишь некоторые функции состояния или их комбинации. Кроме того, наблюдаемый сигнал содержит погрешности измерений. В такой ситуации важной является задача получения наилучшей оценки состояния системы по результатам измерений – задача оптимальной фильтрации.

Предположим, что динамический процесс описывается совокупностью дифференциальных уравнений

, (5.61)

где - -мерный вектор состояния, - -мерный вектор возмущающих воздействий, и матрицы соответствующих размерностей.

Пусть измерению поддается -мерный вектор некоторых комбинаций функций состояния (5.25)

, (5.62)

где - погрешность измерения.

Относительно свойств случайных процессов и начального состояния будет предполагать, что они удовлетворяют условиям (5.28), т.е. будет предполагать, что это случайные процессы типа белого шума, не коррелированные друг с другом и начальным состоянием системы.

Математически задача оптимальной фильтрации ставится как задача отыскания оценки состояния системы (5.61) на основе имеющейся информации .

Калман предложил искать уравнение фильтра в виде линейной системы на вход которой подается наблюдаемый сигнал . Тогда уравнения движения такой системы можно описать совокупностью уравнений

(5.63)

где матрицы и подлежат определению, т.е. структура фильтра задается, а параметры структуры и начальное состояние определяются из дополнительных условий.

Так как , то всегда будет ошибка оценки

.

Тогда для определения искомых матриц и можно использовать условие несмещенности оценки

(5.64)

и условие ее оптимальности

Поделиться:

Дата добавления: 2015-04-04; просмотров: 138; Мы поможем в написании вашей работы!; Нарушение авторских прав





lektsii.com - Лекции.Ком - 2014-2024 год. (0.007 сек.) Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав
Главная страница Случайная страница Контакты