Студопедия

КАТЕГОРИИ:

АстрономияБиологияГеографияДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРиторикаСоциологияСпортСтроительствоТехнологияФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника


Методы графического разведочного анализа данных. Средства Statistica для проведения графического разведочного анализа данных.




Ответ:

С помощью графических методов можно находить зависимости, тренды и смещения, "скрытые" в неструктурированных наборах данных.

К методам визуализации относятся:

- представление данных в виде столбчатых, линейных диаграмм в многомерном пространстве;

- наложение и объединение нескольких изображений;

- идентификация и маркировка подгрупп данных, удовлетворяющих определенным условиям;

- расщепление или слияние подгрупп данных на графике;

- агрегирование данных;

- сглаживание данных;

- построение пиктографиков;

- создание мозаичных структур;

- спектральных плоскостей, карт линий уровня; методы динамического вращения и динамического расслоения трехмерных изображений; выделение определенных наборов и блоков данных и т.д.

Типы графиков в Statistica:

§ двумерные графики;(гистограммы)

§ трехмерные графики;

§ категоризованные графики; (радиальные диаграммы)

§ матричные графики;

§ пиктографики.

4. Что такое категоризованный график? Какие типы категоризованных графиков реализованы в системе Statistica?

Ответ:Эти графики представляют собой наборы двумерных, трехмерных, тернарных или n-мерных графиков (таких как гистограммы, диаграммы рассеяния, линейные графики, поверхности, круговые диаграммы), по одному графику для каждой выбранной категории (подмножества) наблюдений.

График представляет собой набор графиков, круговые диаграммы для каждой определенной категории выбранной переменной (2 пола – по 2м полам).

Структура категоризированных данных может быть обработана аналогичным образом. : например накоплена статистика о покупателях и необходимо провести анализ суммы покупки по различным категориям (мужчины-женщины, старики-зрелые-молодежь).

В статистике – гистограммы, диаграммы рассеяния, линейные графики, круговые диаграммы, 3мерные графики, 3мерные тернарные графики

В

Как вы можете видеть, эта переменная в целом имеет для каждой группы (типа цветов) нормальное распределение.

 

5. Какую информацию о природе данных можно получить при анализе диаграмм рассеяния и категоризованных диаграмм рассеяния?

Ответ:

Диаграммы рассеяния обычно используются для выявления природы взаимосвязи двух переменных (например, прибыль и фонд заработной платы), поскольку они предоставляют гораздо больше информации, чем коэффициент корреляции.

Если предполагается, что один из параметров зависит от другого, то обычно значения независимого параметра откладывается по горизонтальной оси, а значения зависимого — по вертикальной. Диаграммы рассеяния используются для демонстрации наличия или отсутствия корреляции между двумя переменными.

Каждая точка, отмеченная на диаграмме, включает две характеристики, например возраст и доход индивида, отложенные каждая по своей оси. Нередко это помогает выяснить, существует ли какая-либо значимая статистическая связь между этими характеристиками и какой тип функции имеет смысл подбирать. А

 

6. Какую информацию о природе данных можно получить на основе анализа гистограмм и категоризованных гистограмм?

Ответ

:Гистограммы используются для изучения распределений частот значений переменных. Такое частотное распределение показывает, какие именно конкретные значения или диапазоны значений исследуемой переменной встречаются наиболее часто, насколько различаются эти значения, расположено ли большинство наблюдений около среднего значения, является распределение симметричным или асимметричным, многомодальным (т.е. имеет две или более вершины) или одномодальным и т.д. Гистограммы также используются для сравнения наблюдаемых и теоретических или ожидаемых распределений.

Категоризованные гистограммы представляют собой наборы гистограмм, соответствующих различным значениям одной или нескольких категоризующих переменных или наборам логических условий категоризации.

Гистограмма, это способ представления статистических данных в графическом виде – в виде столбчатой диаграммы. Она отображает распределение отдельных измерений параметров изделия или процесса. Иногда ее называют частотным распределением, так как гистограмма показывает частоту появления измеренных значений параметров объекта.

Высота каждого столбца указывает на частоту появления значений параметров в выбранном диапазоне, а количество столбцов – на число выбранных диапазонов.

Важное преимущество гистограммы заключается в том, что она позволяет наглядно представить тенденции изменения измеряемых параметров качества объекта и зрительно оценить закон их распределения. Кроме того, гистограмма дает возможность быстро определить центр, разброс и форму распределения случайной величины. Строится гистограмма, как правило, для интервального изменения значений измеряемого параметра.

7. Чем принципиально отличаются категоризованные графики от матричных графиков в системе Statistica?

Ответ:

Матричные графики также состоят из нескольких графиков; однако здесь каждый из них основывается (или может основываться) на одном и том же множестве наблюдений, и графики строятся для всех комбинаций переменных из одного или двух списков.

атричные графики. На матричных графиках изображаются зависимости между несколькими переменными в форме матрицы XY-графиков. Наиболее распространенным типом матричного графика является матрица диаграмм рассеяния, которую можно считать графическим эквивалентом корреляционной матрицы.

Матричные графики - Диаграммы рассеяния. На матричном графике этого типа изображаются 2М диаграммы рассеяния, организованные в форме матрицы (значения переменной по столбцу используются в качестве координат X, а значения переменной по строке - в качестве координат Y). Гистограммы, изображающие распределение каждой переменной, располагаются на диагонали матрицы (в случае квадратных матриц) или по краям (в случае прямоугольных матриц).

См. также раздел Сокращение объема выборки.

 

Для категоризованных графиков требуется такой же выбор переменных, как и для некатегоризованных графиков соответствующего типа (например, две переменных для диаграммы рассеяния). В то же время для категоризованных графиков необходимо указать по крайней мере одну группирующую переменную (или способ разбиения наблюдений на категории), где содержалась бы информация о принадлежности каждого наблюдения к определенной подгруппе. Группирующая переменная не будет непосредственно изображена на графике (т.е. не будет построена), однако она будет служить критерием для разделения всех анализируемых наблюдений на отдельные подгруппы. Для каждой группы (категории), определяемой группирующей переменной, будет построен один график.

 

8. В чем достоинства и недостатки графических методов разведочного анализа данных?

Ответ:+ Наглядность и простота.

Наглядность (многомерное графическое представление данных, по которому аналитик сам выявляет закономерности и отношения между данными).

- Методы дают приближенные значения.

n - Высокая доля субъективизма в интерпретации результатов.

n Отсутствие аналитических моделей.

 

9. Какие аналитические методы первичного разведочного анализа данных вы знаете?

Ответ:Статистические методы, нейронные сети.

 

10. Как проверить гипотезу о согласии распределения выборочных данных с моделью нормального распределения в системе Statistica?

Ответ:Распределение x2 (хи-квадрат) с n степенями свободы - это распределение суммы квадратов n независимых стандартных нормальных случайных величин.

Хи-квадрат - это мера различия. Задаем уровень ошибки, равный a=0,05. Соответственно, если значение p>a , то распределение оптимально.

- для проверки гипотезы о согласии распределения выборочных данных с моделью нормального распределения с помощью критерия хи-квадрат выберите пункт меню Statistics/Distribution Fittings. Затем в диалоговом окне Fitting Contentious Distribution задайте вид теоретического распределения - Normal, выберите переменную - Variables, задайте параметры анализа - Parameters.

 

11. Какие основные статистические характеристики количественных переменных вы знаете? Их описание и интерпретация в терминах решаемой задачи.

Ответ:Основные статистические характеристики количественных переменных:

математическое ожидание (среднее среди выборки, сумма значений\n ,седнирй объем производства среди предприятий)

медиана(середина значений. )

среднее квадратичное отклонение (Квадратный корень из дисперсии)

дисперсия (мера разброса данной случайной величины, т.е. её отклонения от математического ожидания)

коэффициент асимметрии (Определяем смещение относительно центра симметрии по правилу: если B1>0, то смещение влево, иначе - вправо.)

коэффициента эксцесса (близость к нормальному распределению)

минимальное выборочное значение, максимальное выборочное значение,

разброс

выборочные верхнюю и нижнюю квартили

Мода (пиковое значение)

12. Какие измерители связи применяются для измерения степени тесноты связи между количественными и порядковыми переменными? Их расчет в Statistica и интерпретация.

Ответ:Корреляция - статистическая взаимосвязь двух или нескольких случайных величин.

При этом изменения одной или нескольких из этих величин приводят к систематическому изменению другой или других величин. Мерой корреляции двух случайных величин служит коэффициент корреляции.

Количественные:

Коэффициент корреляции - это показатель характера изменения двух случайных величин.

Коэффициента корреляции Пирсона (измеряет степень линейных связей между переменными. Можно сказать, что корреляция определяет степень, с которой значения двух переменных пропорциональны друг другу.)

Частный коэффициент корреляции (измеряет степень тесноты между переменными, при условии что значения остальных переменных зафиксированы на постоянном уровне).

Качественные:

Коэффициент ранговой корреляции Спирмена (используется с целью статистического изучения связи между явлениями. Изучаемые объекты упорядочиваются в отношении некоторого признака т. е. им приписываются порядковые номера - ранги.)

 


Поделиться:

Дата добавления: 2015-04-18; просмотров: 387; Мы поможем в написании вашей работы!; Нарушение авторских прав





lektsii.com - Лекции.Ком - 2014-2024 год. (0.007 сек.) Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав
Главная страница Случайная страница Контакты