Строительство и ремонт

Виды зависимостей исследуемых в многомерном статистическом анализе. Многомерный статистический анализ (128,00 руб.)

Внедрение ПЭВМ в управление народным хозяйством предполагает переход от традиционных методов анализа деятельности предприятий в более совершенных моделей управления экономикой, которые позволяют раскрыть ее глубинные процессы.

Широкое использование в экономических исследованиях методов математической статистики дает возможность углубить экономический анализ, повысить качество информации в планировании и прогнозировании показателей производства и анализа его эффективности.

Сложность и разнообразие связей экономических показателей обусловливают многомерность признаков и в связи с этим требуют применения наиболее сложного математического аппарата - методов многомерного статистического анализа.

Понятие "многомерный статистический анализ" подразумевает объединение ряда методов, призванных исследовать сочетание взаимосвязанных признаков. Речь идет о расчленении (разбиение) рассматриваемой совокупности, которая представлена многомерными признаками на относительно небольшую их количество.

При этом переход от большого количества признаков к меньшей преследует цель снижения их размерности и повышения информативной емкости. Такая цель достигается путем выявления информации, повторяется, порождаемой взаимосвязанными признаками, установлением возможности агрегирования (объединения, суммирование) по некоторым признакам. Последнее предполагает превращение фактической модели в модель с меньшим количеством факторных признаков.

Метод многомерного статистического анализа позволяет выявлять объективно существующие, но явно не выражены закономерности, которые проявляются в тех или иных социально - экономических явлениях. С этим приходится сталкиваться при решении ряда практических задач в области экономики. В частности, сказанное имеет место, если необходимо накапливать (фиксировать) одновременно значения нескольких количественных характеристик (признаков) по изучаемому объекту наблюдения, когда каждая характеристика склонна к неконтролируемой вариации (в разрезе объектов), несмотря на однородность объектов наблюдения.

Например, исследуя однородные (по природно-экономическими условиями и типом специализации) предприятия по ряду показателей эффективности производства, убеждаемся, что при переходе от одного объекта к другому почти каждый из отобранных характеристик (идентичных) имеет неодинаковое числовое значение, то есть находит так сказать неконтролируемый (случайный) разброс. Такое "случайное" варьирования признаков, как правило, подчиняется некоторым (закономерным) тенденциям как в плане достаточно определенных размеров признаков, вокруг которых осуществляется вариация, так и в плане степени и взаимозависимости самого варьирования.

Сказанное выше приводит к определению многомерной случайной величины как набора количественных признаков, значение каждой из которых подвергается неконтролируемом разброса при повторениях данного процесса, статистического наблюдения, опыта, эксперимента и др.

Ранее было сказано, что многомерный анализ объединяет ряд методов; назовем их: факторный анализ, метод главных компонент, кластерный анализ, распознавание образов, дискриминантный анализ и и др. Первые три из названных методов рассматриваться в следующих параграфах.

Как и другие математико - статистические методы, многомерный анализ может быть эффективным в своем применении при условии высокого качества исходной информации и массовости данных наблюдений, обрабатываются с помощью ПЭВМ.

Основные понятия метода факторного анализа, суть решаемых им задач

При анализе (в равной степени и исследованы) социально - экономических явлений приходится часто встречаться со случаями, когда среди разнообразия (багатопараметричности) объектов наблюдения необходимо исключать долю параметров, или заменить их меньшим количеством тех или других функций, не причинив вреда целостности (полноте) информации. Решение такой задачи имеет смысл в рамках определенной модели и обусловлено ее структурой. Примером такой модели, которая наиболее подходит ко многим реальным ситуациям, является модель факторного анализа, методы которого позволяют сконцентрировать признаки (информацию о них) путем "конденсации" большого числа в меньше, информационное более емкое. При этом полученный "конденсат" информации должен быть представлен наиболее существенными и определяющими количественными характеристиками.

Понятие "факторный анализ" не надо смешивать с широким понятием анализа причинно - следственных связей, когда изучается влияние различных факторов (их сочетаний, комбинаций) на результативный признак.

Суть метода факторного анализа заключается в исключении описания множественных характеристик изучаемых и замене его меньшим количеством информационно более емких переменных, которые называются факторами и отражают наиболее существенные свойства явлений. Такие переменные являются некоторыми функциями исходных признаков.

Анализ, по словам Я. Окуня 9, позволяет иметь первые приближенные характеристики закономерностей, лежащих в основе явления, сформулировать первые, общие выводы о направлениях, в которых нужно вести дальнейшее исследование. Далее он указывает на основное предположение факторного анализа, которое сводиться к тому, что явление, несмотря на свою разнородность и изменчивость можно описывать небольшим количеством функциональных единиц, параметров или факторов. Эти сроки называют по - разному: влияние, причины, параметры, функциональные единицы, способности, основные или независимые показатели. Использование того или иного срока обусловлено

Окунь Я. Факторный анализ: Пер. с. пол. М.: Статистика, 1974.- С.16.

контекстом о факторе и знанием сути изучаемого явления.

Этапами факторного анализа являются последовательные сопоставления различных наборов факторов и вариантов группам с их включением, выключением и оценкой достоверности различий между группами.

В.М.Жуковська и И.Б.Мучник 10, говоря о сути задач факторного анализа, утверждают, что последний не требует априорного подразделения переменных на зависимые и независимые, поскольку все переменные в нем рассматриваются как равноправные.

Задача факторного анализа сводится к определенному понятию, числа и природы наиболее существенных и относительно независимых функциональных характеристик явления, его измерителей или базовых параметров - факторов. По мнению авторов, важной отличительной особенностью факторного анализа является то, что он позволяет одновременно исследовать большое число взаимосвязанных переменных без допущения о "неизменности всех других условий", так необходимого при использовании ряда других методов анализа. В этом большое преимущество факторного анализа как ценного инструмента исследования явления, обусловленного сложной разнообразием и взаемопереплетенням связей.

Анализ опирается в основном на наблюдения над естественным варьированием переменных.

1. При использовании факторного анализа совокупность переменных, которые изучаются с точки зрения связей между ними, не выбирается произвольно: этот метод позволяет выявлять основные факторы, которые осуществляют существенное влияние в данной области.

2. Анализ не требует предварительных гипотез, наоборот, он сам может служить методом выдвижения гипотез, а также выступать критерием гипотез, опирающихся на данные, полученные другими методами.

3. Анализ не требует априорных догадок относительно того, какие переменные независимы, а зависимые, он не гипертрофирует причинные связи и решает вопрос об их мере в процессе дальнейших исследований.

Перечень конкретных задач, решаемых с использованием методов факторного анализа будет таким (по В.М.Жуковською). Назовем основные из них в области социально-экономических исследований:

Жуковская В.М., Мучник И.Б. Факторный анализ в социально-Экономическим исследованиях. -Статистика, 1976. С.4.

1. Определение основных аспектов различий между объектами наблюдения (минимизация описание).

2. Формулировка гипотез о природе различий между объектами.

3. Выявление структуры взаимосвязей между признаками.

4. Проверка гипотез о взаимосвязи и взаимозаменяемости признаков.

5. Сопоставление структур наборов признаков.

6. Расчленение объектов наблюдения за типичными признаками.

Изложенное свидетельствует о больших возможностях факторного анализа в

исследовании общественных явлений, где, как правило, невозможно проконтролировать (экспериментально) влияние отдельных факторов.

Достаточно эффективным является использование результатов факторного анализа в моделях множественной регрессии.

Имея предварительно сформированную корреляционно-регрессионную модель изучаемого явления в виде коррелированных признаков, с помощью факторного анализа можно такой набор признаков превратить в значительно меньшую их количество путем агрегирования. При этом следует отметить, что такое преобразование ни в коей мере не ухудшает качество и полноту информации об изучаемом явлении. Созданные агрегированные признаки некоррелированы и представляют линейную комбинацию первичных признаков. С формальной математической стороны постановка задач в таком случае может иметь бесконечную множественную решений. Но нужно помнить, что при изучении социально - экономических явлений полученные агрегированные признаки должны иметь экономически обоснованное трактовки. Иначе говоря, в каком - либо случае использования математического аппарата в первую очередь выходят из знаний экономической сути изучаемых явлений.

Таким образом, сказанное выше позволяет резюмировать, что факторный анализ является специфическим методом исследования, который осуществляется на базе арсенала приемов математической статистики.

Свое практическое применение факторный анализ впервые нашел в области психологии. Возможность свести большое количество психологических тестов к небольшому количеству факторов позволило объяснить способности человеческого интеллекта.

При исследовании социально-экономических явлений, где есть трудности в изолировании влияния отдельных переменных, успешно может быть использован факторный анализ. Применение его приемов позволяет путем определенных расчетов "профильтровать" несущественные признаки и продолжить исследования в направлении его углубления.

Эффективность этого метода очевидна при исследовании таких вопросов (проблем): в экономике - специализация и концентрация производства, интенсивность ведения хозяйства, бюджет семей работников, построение различных обобщающих показателей. и т.д

По эконометрике

Многомерный статистический анализ


В многомерном статистическом анализе выборка состоит из элементов многомерного пространства. Отсюда и название этого раздела эконометрических методов. Из многих задач многомерного статистического анализа рассмотрим две - восстановления зависимости и классификации.

Оценивание линейной прогностической функции

Начнем с задачи точечного и доверительного оценивания линейной прогностической функции одной переменной.

Исходные данные – набор n пар чисел (t k , x k), k = 1,2,…,n, где t k – независимая переменная (например, время), а x k – зависимая (например, индекс инфляции, курс доллара США, объем месячного производства или размер дневной выручки торговой точки). Предполагается, что переменные связаны зависимостью

x k = a (t k - t ср)+ b + e k , k = 1,2,…,n,

где a и b – параметры, неизвестные статистику и подлежащие оцениванию, а e k – погрешности, искажающие зависимость. Среднее арифметическое моментов времени

t ср = (t 1 + t 2 +…+t n) / n

введено в модель для облегчения дальнейших выкладок.

Обычно оценивают параметры a и b линейной зависимости методом наименьших квадратов. Затем восстановленную зависимость используют для точечного и интервального прогнозирования.

Как известно, метод наименьших квадратов был разработан великим немецким математиком К. Гауссом в 1794 г. Согласно этому методу для расчета наилучшей функции, приближающей линейным образом зависимость x от t, следует рассмотреть функцию двух переменных


Оценки метода наименьших квадратов - это такие значения a* и b*, при которых функция f(a,b) достигает минимума по всем значениям аргументов.

Чтобы найти эти оценки, надо вычислить частные производные от функции f(a,b) по аргументам a и b, приравнять их 0, затем из полученных уравнений найти оценки: Имеем:

Преобразуем правые части полученных соотношений. Вынесем за знак суммы общие множители 2 и (-1). Затем рассмотрим слагаемые. Раскроем скобки в первом выражении, получим, что каждое слагаемое разбивается на три. Во втором выражении также каждое слагаемое есть сумма трех. Значит, каждая из сумм разбивается на три суммы. Имеем:


Приравняем частные производные 0. Тогда в полученных уравнениях можно сократить множитель (-2). Поскольку

(1)

уравнения приобретают вид

Следовательно, оценки метода наименьших квадратов имеют вид

(2)

В силу соотношения (1) оценку а* можно записать в более симметричном виде:

Эту оценку нетрудно преобразовать и к виду

Следовательно, восстановленная функция, с помощью которой можно прогнозировать и интерполировать, имеет вид

x*(t) = a*(t - t ср)+ b*.

Обратим внимание на то, что использование t ср в последней формуле ничуть не ограничивает ее общность. Сравним с моделью вида

x k = c t k + d + e k , k = 1,2,…,n.

Ясно, что

Аналогичным образом связаны оценки параметров:

Для получения оценок параметров и прогностической формулы нет необходимости обращаться к какой-либо вероятностной модели. Однако для того, чтобы изучать погрешности оценок параметров и восстановленной функции, т.е. строить доверительные интервалы для a*, b* и x*(t), подобная модель необходима.

Непараметрическая вероятностная модель. Пусть значения независимой переменной t детерминированы, а погрешности e k , k = 1,2,…,n, - независимые одинаково распределенные случайные величины с нулевым математическим ожиданием и дисперсией

неизвестной статистику.

В дальнейшем неоднократно будем использовать Центральную Предельную Теорему (ЦПТ) теории вероятностей для величин e k , k = 1,2,…,n (с весами), поэтому для выполнения ее условий необходимо предположить, например, что погрешности e k , k = 1,2,…,n, финитны или имеют конечный третий абсолютный момент. Однако заострять внимание на этих внутриматематических "условиях регулярности" нет необходимости.

Асимптотические распределения оценок параметров. Из формулы (2) следует, что

(5)

Согласно ЦПТ оценка b* имеет асимптотически нормальное распределение с математическим ожиданием b и дисперсией

оценка которой приводится ниже.

Из формул (2) и (5) вытекает, что

Последнее слагаемое во втором соотношении при суммировании по i обращается в 0, поэтому из формул (2-4) следует, что

(6)

Формула (6) показывает, что оценка

является асимптотически нормальной с математическим ожиданием и дисперсией

Отметим, что многомерная нормальность имеет быть, когда каждое слагаемое в формуле (6) мало сравнительно со всей суммой, т.е.


Из формул (5) и (6) и исходных предположений о погрешностях вытекает также несмещенность оценок параметров.

Несмещенность и асимптотическая нормальность оценок метода наименьших квадратов позволяют легко указывать для них асимптотические доверительные границы (аналогично границам в предыдущей главе) и проверять статистические гипотезы, например, о равенстве определенным значениям, прежде всего 0. Предоставляем читателю возможность выписать формулы для расчета доверительных границ и сформулировать правила проверки упомянутых гипотез.

Асимптотическое распределение прогностической функции. Из формул (5) и (6) следует, что

т.е. рассматриваемая оценка прогностической функции является несмещенной. Поэтому

При этом, поскольку погрешности независимы в совокупности и

, то

Таким образом,

Пример

Имеются данные о выпуске продукции группой предприятий по месяцам (млн. руб.):

Для выявления общей тенденции роста выпуска продукции произведем укрупнение интервалов. Для этой цели исходные (месячные) данные о выработке продукции объединяем в квартальные и получаем показатели выпуска продукции группой предприятий по кварталам:

В результате укрупнения интервалов общая тенденция роста выпуска продукции данной группой предприятий выступает отчетливо:

64,5 < 76,9 < 78,8 < 85,9.

Выявление общей тенденции ряда динамики можно произвести также путем сглаживания ряда динамики с помощью метода скользящей средней . Сущность этого приема состоит в том, что по исходным уровням ряда (эмпирическим данным) определяют расчетные (теоретические) уровни. При этом посредством осреднения эмпирических данных индивидуальные колебания погашаются, и общая тенденция развития явления выражается в виде некоторой плавной линии (теоретические уровни).

Основное условие применения этого метода состоит в вычислении звеньев подвижной (скользящей) средней из такого числа уровней ряда, которое соответствует длительности наблюдаемых в ряду динамики циклов.

Недостатком способа сглаживания рядов динамики является то, что полученные средние не дают теоретических закономерностей (моделей) рядов, в основе которых лежала бы математически выраженная закономерность и это позволяло бы не только выполнить анализ, но и прогнозировать динамику ряда на будущее.

Значительно более совершенным приемом изучения общей тенденции в рядах динамики является аналитическое выравнивание . При изучении общей тенденции методом аналитического выравнивания исходят из того, что изменения уровней ряда динамики могут быть с той или иной степенью точности приближения выражены усреднённо с помощью определенных математических функций. Путем теоретического анализа выявляется характер развития явления, и на этой основе выбирается то или иное математическое выражение типа изменения явления: по прямой, по параболе второго порядка, показательной (логарифмической) кривой и т.п.

Очевидно, что уровни временных рядов формируются под совокупным влиянием множества длительно и кратковременно действующих факторов, в т.ч. различного рода случайностей. Изменение условий развития явления приводит к более или менее интенсивной смене самих факторов, к изменению силы и результативности их воздействия и, в конечном счете, к вариации уровня изучаемого явления во времени.



Многомерный статистический анализ - раздел статистики математической, посвященный математическим методам, направленным на выявление характера и структуры взаимосвязей между компонентами исследуемого многомерного признака и предназначенным для получения научных и практических выводов. Исходным массивом многомерных данных для проведения такого анализа обычно служат результаты измерения компонент многомерного признака для каждого из объектов исследуемой совокупности, т.е. последовательность многомерных наблюдений. Многомерный признак чаще всего интерпретируется как многомерная величина случайная, а последовательность многомерных наблюдений - как выборка из генеральной совокупности. В этом случае выбор метода обработки исходных статистических данных производится на основе тех или иных допущений относительно природы закона распределения изучаемого многомерного признака.

1. Анализ многомерных распределений и их основных характеристик охватывает ситуации, когда обрабатываемые наблюдения имеют вероятностную природу, т.е. интерпретируются как выборка из соответствующей генеральной совокупности. К основным задачам этого подраздела относятся: оценивание статистическое исследуемых многомерных распределений и их основных параметров; исследование свойств используемых статистических оценок; исследование распределений вероятностей для ряда статистик, с помощью которых строятся статистические критерии проверки различных гипотез о вероятностной природе анализируемых многомерных данных.
2. Анализ характера и структуры взаимосвязей компонент исследуемого многомерного признака объединяет понятия и результаты, присущие таким методам и моделям, как анализ регрессионный, анализ дисперсионный, анализ ковариационнй, анализ факторный, анализ латентно-структурный, анализ логлинейный, поиск взаимодействий . Методы, принадлежащие к этой группе, включают как алгоритмы, основанные на предположении о вероятностной природе данных, так и методы, не укладывающиеся в рамки какой-либо вероятностной модели (последние чаще относят к методам анализа данных).

3. Анализ геометрической структуры исследуемой совокупности многомерных наблюдений объединяет понятия и результаты, свойственные таким моделям и методам, как анализ дискриминантный, анализ кластерный, шкалирование многомерное. Узловым для этих моделей является понятие расстояния, либо меры близости между анализируемыми элементами как точками некоторого пространства. При этом анализироваться могут как объекты (как точки, задаваемые в признаковом пространстве), так и признаки (как точки, задаваемые в объектном пространстве).

Прикладное значение многомерного статистического анализа состоит в основном в обслуживании следующих трех проблем:

Проблемы статистического исследования зависимостей между рассматриваемыми показателями;

Проблемы классификации элементов (объектов или признаков);

Проблемы снижения размерности рассматриваемого признакового пространства и отбора наиболее информативных признаков.

Многомерный статистический анализ применяют при решении следующих задач:

  • * исследование зависимости между признаками;
  • * классификация объектов или признаков, заданных векторами;
  • * снижение размерности пространства признаков.

При этом результат наблюдений - вектор значений фиксированного числа количественных и иногда качественных признаков, измеренных у объекта. Количественный признак - признак наблюдаемой единицы, который можно непосредственно выразить числом и единицей измерения. Количественный признак противопоставляется качественному - признаку наблюдаемой единицы, определяемому отнесением к одной из двух или более условных категорий (если имеется ровно две категории, то признак называется альтернативным). Статистический анализ качественных признаков - часть статистики объектов нечисловой природы. Количественные признаки делятся на признаки, измеренные в шкалах интервалов, отношений, разностей, абсолютной.

А качественные - на признаки, измеренные в шкале наименований и порядковой шкале. Методы обработки данных должны быть согласованы со шкалами, в которых измерены рассматриваемые признаки.

Целями исследования зависимости между признаками являются доказательство наличия связи между признаками и изучение этой связи. Для доказательства наличия связи между двумя случайными величинами Х и У применяют корреляционный анализ. Если совместное распределение Х и У является нормальным, то статистические выводы основывают на выборочном коэффициенте линейной корреляции, в остальных случаях используют коэффициенты ранговой корреляции Кендалла и Спирмена, а для качественных признаков - критерий хи-квадрат.

Регрессионный анализ применяют для изучения функциональной зависимости количественного признака У от количественных признаков x(1), x(2), … , x(k). Эту зависимость называют регрессионной или, кратко, регрессией. Простейшая вероятностная модель регрессионного анализа (в случае k = 1) использует в качестве исходной информации набор пар результатов наблюдений (xi, yi), i = 1, 2, … , n, и имеет вид

yi = axi + b + еi, i = 1, 2, … , n,

где еi - ошибки наблюдений. Иногда предполагают, что еi - независимые случайные величины с одним и тем же нормальным распределением N(0, у2). Поскольку распределение ошибок наблюдения обычно отлично от нормального, то целесообразно рассматривать регрессионную модель в непараметрической постановке, т.е. при произвольном распределении еi.

Основная задача регрессионного анализа состоит в оценке неизвестных параметров а и b, задающих линейную зависимость y от x. Для решения этой задачи применяют разработанный еще К.Гауссом в 1794 г. метод наименьших квадратов, т.е. находят оценки неизвестных параметров моделиa и b из условия минимизации суммы квадратов

по переменным а и b.

Дисперсионный анализ применяют для изучения влияния качественных признаков на количественную переменную. Например, пусть имеются k выборок результатов измерений количественного показателя качества единиц продукции, выпущенных на k станках, т.е. набор чисел (x1(j), x2(j), … , xn(j)), где j - номер станка, j = 1, 2, …, k, а n - объем выборки. В распространенной постановке дисперсионного анализа предполагают, что результаты измерений независимы и в каждой выборке имеют нормальное распределение N(m(j), у2) с одной и той же дисперсией.

Проверка однородности качества продукции, т.е. отсутствия влияния номера станка на качество продукции, сводится к проверке гипотезы

H0: m(1) = m(2) = … = m(k).

В дисперсионном анализе разработаны методы проверки подобных гипотез.

Гипотезу Н0 проверяют против альтернативной гипотезы Н1, согласно которой хотя бы одно из указанных равенств не выполнено. Проверка этой гипотезы основана на следующем «разложении дисперсий», указанном Р.А.Фишером:

где s2 - выборочная дисперсия в объединенной выборке, т.е.

Таким образом, первое слагаемое в правой части формулы (7) отражает внутригрупповую дисперсию. Наконец, - межгрупповая дисперсия,

Область прикладной статистики, связанную с разложениями дисперсии типа формулы (7), называют дисперсионным анализом. В качестве примера задачи дисперсионного анализа рассмотрим проверку приведенной выше гипотезы Н0 в предположении, что результаты измерений независимы и в каждой выборке имеют нормальное распределение N(m(j), у2) с одной и той же дисперсией. При справедливости Н0 первое слагаемое в правой части формулы (7), деленное на у2, имеет распределение хи-квадрат с k(n-1) степенями свободы, а второе слагаемое, деленное на у2, также имеет распределение хи-квадрат, но с (k-1) степенями свободы, причем первое и второе слагаемые независимы как случайные величины. Поэтому случайная величина

имеет распределение Фишера с (k-1) степенями свободы числителя и k(n-1) степенями свободы знаменателя. Гипотеза Н0 принимается, если F < F1-б, и отвергается в противном случае, где F1-б - квантиль порядка 1-б распределения Фишера с указанными числами степеней свободы. Такой выбор критической области определяется тем, что при Н1 величина F безгранично увеличивается при росте объема выборок n. Значения F1-б берут из соответствующих таблиц.

Разработаны непараметрические методы решения классических задач дисперсионного анализа, в частности, проверки гипотезы Н0.

Следующий тип задач многомерного статистического анализа - задачи классификации. Они делятся на три принципиально различных вида - дискриминантный анализ, кластер-анализ, задачи группировки.

Задача дискриминантного анализа состоит в нахождении правила отнесения наблюдаемого объекта к одному из ранее описанных классов. При этом объекты описывают в математической модели с помощью векторов, координаты которых - результаты наблюдения ряда признаков у каждого объекта. Классы описывают либо непосредственно в математических терминах, либо с помощью обучающих выборок. Обучающая выборка - это выборка, для каждого элемента которой указано, к какому классу он относится.

Рассмотрим пример применения дискриминантного анализа для принятия решений в технической диагностике. Пусть по результатам измерения ряда параметров продукции необходимо установить наличие или отсутствие дефектов. В этом случае для элементов обучающей выборки указаны дефекты, обнаруженные в ходе дополнительного исследования, например, проведенного после определенного периода эксплуатации. Дискриминантный анализ позволяет сократить объем контроля, а также предсказать будущее поведение продукции. Дискриминантный анализ сходен с регрессионным - первый позволяет предсказывать значение качественного признака, а второй - количественного. В статистике объектов нечисловой природы разработана математическая схема, частными случаями которой являются регрессионный и дискриминантный анализы.

Кластерный анализ применяют, когда по статистическим данным необходимо разделить элементы выборки на группы. Причем два элемента группы из одной и той же группы должны быть «близкими» по совокупности значений измеренных у них признаков, а два элемента из разных групп должны быть «далекими» в том же смысле. В отличие от дискриминантного анализа в кластер-анализе классы не заданы, а формируются в процессе обработки статистических данных. Например, кластер-анализ может быть применен для разбиения совокупности марок стали (или марок холодильников) на группы сходных между собой.

Другой вид кластер-анализа - разбиение признаков на группы близких между собой. Показателем близости признаков может служить выборочный коэффициент корреляции. Цель кластер-анализа признаков может состоять в уменьшении числа контролируемых параметров, что позволяет существенно сократить затраты на контроль. Для этого из группы тесно связанных между собой признаков (у которых коэффициент корреляции близок к 1 - своему максимальному значению) измеряют значение одного, а значения остальных рассчитывают с помощью регрессионного анализа.

Задачи группировки решают тогда, когда классы заранее не заданы и не обязаны быть «далекими» друг от друга. Примером является группировка студентов по учебным группам. В технике решением задачи группировки часто является параметрический ряд - возможные типоразмеры группируются согласно элементам параметрического ряда. В литературе, нормативно-технических и инструктивно-методических документах по прикладной статистике также иногда используется группировка результатов наблюдений (например, при построении гистограмм).

Задачи классификации решают не только в многомерном статистическом анализе, но и тогда, когда результатами наблюдений являются числа, функции или объекты нечисловой природы. Так, многие алгоритмы кластер-анализа используют только расстояния между объектами. Поэтому их можно применять и для классификации объектов нечисловой природы, лишь бы были заданы расстояния между ними. Простейшая задача классификации такова: даны две независимые выборки, требуется определить, представляют они два класса или один. В одномерной статистике эта задача сводится к проверке гипотезы однородности.

Третий раздел многомерного статистического анализа - задачи снижения размерности (сжатия информации). Цель их решения состоит в определении набора производных показателей, полученных преобразованием исходных признаков, такого, что число производных показателей значительно меньше числа исходных признаков, но они содержат возможно большую часть информации, имеющейся в исходных статистических данных. Задачи снижения размерности решают с помощью методов многомерного шкалирования, главных компонент, факторного анализа и др. Например, в простейшей модели многомерного шкалирования исходные данные - попарные расстояния между k объектами, а цель расчетов состоит в представлении объектов точками на плоскости. Это дает возможность в буквальном смысле слова увидеть, как объекты соотносятся между собой. Для достижения этой цели необходимо каждому объекту поставить в соответствие точку на плоскости так, чтобы попарные расстояния sij между точками, соответствующими объектам с номерами i и j, возможно точнее воспроизводили расстояния сijмежду этими объектами. Согласно основной идее метода наименьших квадратов находят точки на плоскости так, чтобы величина

достигала своего наименьшего значения. Есть и многие другие постановки задач снижения размерности и визуализации данных.

вероятность математический статистика качество