Xreferat.com » Рефераты по науке и технике » Классификация объектов нечисловой природы на основе непараметрических оценок плотности

Классификация объектов нечисловой природы на основе непараметрических оценок плотности

           

            В СССР в середине 70-х годов активно ведутся работы по статистическому анализу нечисловых данных [1]. В настоящее время во Всесоюзном центре статистических методов и информатики мы при разработке методических документов и программных продуктов по прикладной статистике делим ее на четыре части соответственно виду обрабатываемых статистических данных: на статистику случайных величин, многомерный статистический анализ, статистику временных рядов и случайных процессов, статистику объектов нечисловой природы (другими словами, статистику нечисловых данных).

            Вероятностный и статистический анализ нечисловых данных сопровождали теорию вероятностей и математическую статистику с самого начала их развития. Типичными примерами являются урновые схемы и изучение рождаемости. Испытание Бернулли- вероятностная модель простейшего объекта нечисловой природы. Наиболее массовым применением статистических методов является, видимо, выборочный контроль качества продукции по альтернативному признаку (т. е. по признаку "годен” - “не годен"), относящийся, очевидно, к статистике объектов нечисловой природы [2].

            Развитие прикладных исследований привело к необходимости рассмотрения в качестве статистических данных различных объектов нечисловой природы. Этот термин применяем к объектам, которые нецелесообразно рассматривать как описанные числами. Другими словами, речь идет об элементах пространства, не являющихся линейными (векторными). Примеры: бинарные отношения (ранжировки, разбиения, толерантности и т. д.); множества; нечеткие множества; результаты измерений в шкалах, отличной от абсолютной; как обобщение перечисленных объектов - элементы пространств общей природы. Для результатов наблюдений, являющихся объектами нечисловой природы, рассматривают [1] классические задачи статистики: описание данных (включая классификацию) оценивание (параметров, характеристик, плотности распределения, регрессионной зависимости и т. д.).

            Математический аппарат статистики объектов нечисловой природы основан не на свойстве линейности пространства, а на применении симметрик и метрик в нем, поэтому существенно отличается от классического.

            В прикладных работах наиболее распространенный пример объектов нечисловой природы - разнотипные данные. В этом случае реальный объект описывается вектором, часть координат которого - значения количественных признаков, а часть - качественных (номинальных и порядковых).

            Основная цель настоящего раздела - обосновать новый подход [3] к классификации в пространствах произвольной природы, основанный на построении не параметрических оценок плотности распределений вероятности в таких пространствах [4].

" Пусть Классификация объектов нечисловой природы на основе непараметрических оценок плотности - измеримое пространство,.  и Классификация объектов нечисловой природы на основе непараметрических оценок плотности. суть Классификация объектов нечисловой природы на основе непараметрических оценок плотности -конечные меры на ., причем Классификация объектов нечисловой природы на основе непараметрических оценок плотности абсолютно непрерывна относительно , т. е. из равенства. Классификация объектов нечисловой природы на основе непараметрических оценок плотности. =0 следует равенство Классификация объектов нечисловой природы на основе непараметрических оценок плотности=0, где .. В этом случае на Классификация объектов нечисловой природы на основе непараметрических оценок плотности существует неотрицательная измеримая функция  такая, что

Классификация объектов нечисловой природы на основе непараметрических оценок плотности

для любого Классификация объектов нечисловой природы на основе непараметрических оценок плотности Функция называется производной Родона-Никодима меры Классификация объектов нечисловой природы на основе непараметрических оценок плотности по мере , а в случае, когда Классификация объектов нечисловой природы на основе непараметрических оценок плотности - вероятностная мера, также плотностью вероятности Классификация объектов нечисловой природы на основе непараметрических оценок плотности  по отношению к . " [5]

                                          Будем считать, что в пространстве объектов нечисловой природы фиксирована некоторая мера Классификация объектов нечисловой природы на основе непараметрических оценок плотности, а мера Классификация объектов нечисловой природы на основе непараметрических оценок плотности соответствует распределению Р случайного элемента Классификация объектов нечисловой природы на основе непараметрических оценок плотности со знаниями в измеримом пространстве , т. е.

Классификация объектов нечисловой природы на основе непараметрических оценок плотности

Если - Классификация объектов нечисловой природы на основе непараметрических оценок плотности пространство из конечного числа точек, то в качестве меры Классификация объектов нечисловой природы на основе непараметрических оценок плотности можно использовать считающую меру (приписывающую единичный вес каждой точке), т. е. Классификация объектов нечисловой природы на основе непараметрических оценок плотности, или

Классификация объектов нечисловой природы на основе непараметрических оценок плотности

                                          В случае считающей меры значение плотности в точке  совпадает с вероятностью попасть в точку Классификация объектов нечисловой природы на основе непараметрических оценок плотности, т. е.

              Многие методы классификации используют расстояния или меры близости между объектами или признаками. Такие методы пригодны и для классификации объектов нечисловой природы, лишь бы в соответствующем пространстве было определено расстояние или мера близости. Таким образом, широко известные иерархические агломеративные алгоритмы ближайшего соседа, дальнего соседа, средней связи и др., результатом работы которых являются дендрограммы, на самом деле относятся к статистике объектов нечисловой природы.

              Не пытаясь рассмотреть все многообразие методов классификации в статистике объектов нечисловой природы (см., например, [6, 7]), сосредоточимся на тех из них, которые используют плотности распределения и их оценки. Зная плотности распределения классов, можно решать основные задачи классификации - как задачи выделения кластеров, так и задачи диагностики. В задачах кластер-анализа можно находить моды плотности и принимать их за центры кластеров или за начальные точки итерационных методов типа динамических сгущений. В задачах диагностики (дискриминации, распознавания образов с учителя) можно принимать решения о классификации объектов на основе отношения плотностей, соответствующих классам. При неизвестных плотностях представляется естественным использовать их состоятельные оценки. Корректность такой постановки, как правило, нетрудно обосновать, например, в стиле [8]. Таким образом, для переноса на пространства произвольной природы основных методов классификации рассматриваемого типа достаточно уметь оценивать плотность распределения вероятности в таких пространствах.

              Методы оценивания плотности вероятности в пространствах общего вида предложен и первоначально изучены в [4]. В частности, в задачах классификации объектов нечисловой природы предлагаем использовать непараметрические ядерные оценки плотности типа Парзена-Розенблатта (этот вид оценок и его название введены нами в [4]):

Классификация объектов нечисловой природы на основе непараметрических оценок плотности,

где К: Классификация объектов нечисловой природы на основе непараметрических оценок плотности - ядерная функция  - выборка по которой оценивается плотностью,  - расстояние между элементом выборки  и точкой Классификация объектов нечисловой природы на основе непараметрических оценок плотности, в которой оценивается плотность последовательность Классификация объектов нечисловой природы на основе непараметрических оценок плотности показателей размытости такова, что при 0 и nКлассификация объектов нечисловой природы на основе непараметрических оценок плотности, а  - нормирующий множитель, обеспечивающий выполнение условия

Классификация объектов нечисловой природы на основе непараметрических оценок плотности

              Оценки типа Парзена-Розенблатта - частный случай линейных оценок [4]. В теоретическом плане они выделяются тем, что удается получать результаты такого же типа, что в классическом одномерном случае (), но, разумеется, с помощью совсем иного математического аппарата.

              Одна из основных идей состоит в том, чтобы согласовать между собой расстояние  и меры Классификация объектов нечисловой природы на основе непараметрических оценок плотности. А именно, рассмотрим шары радиуса Классификация объектов нечисловой природы на основе непараметрических оценок плотности

Классификация объектов нечисловой природы на основе непараметрических оценок плотности

и их меры

Классификация объектов нечисловой природы на основе непараметрических оценок плотности

              Предположим, что Классификация объектов нечисловой природы на основе непараметрических оценок плотности как функция  при фиксированном Классификация объектов нечисловой природы на основе непараметрических оценок плотности непрерывна и строго возрастает. Введем функцию

Классификация объектов нечисловой природы на основе непараметрических оценок плотности

              Это - монотонное преобразование расстояния, а потому  - метрика или симметрика (т. е. неравенство треугольника может быть не выполнено), которую, как и , можно рассматривать как меру близости между  и Классификация объектов нечисловой природы на основе непараметрических оценок плотности.

              Введем

Классификация объектов нечисловой природы на основе непараметрических оценок плотности.

              Поскольку Классификация объектов нечисловой природы на основе непараметрических оценок плотности определена однозначно, то

Классификация объектов нечисловой природы на основе непараметрических оценок плотности^

где Классификация объектов нечисловой природы на основе непараметрических оценок плотности., а потому

Классификация объектов нечисловой природы на основе непараметрических оценок плотности

              Переход от Классификация объектов нечисловой природы на основе непараметрических оценок плотности к  напоминает классическое преобразование, использованное Н. В. Смирновым, , переводящее случайную величину Классификация объектов нечисловой природы на основе непараметрических оценок плотности с непрерывной функцией распределения  в случайную величину Классификация объектов нечисловой природы на основе непараметрических оценок плотности, равномерно распределенную на [ 0, 1]. Оба рассматриваемых преобразования существенно упрощают дальнейшие рассмотрения.

              Преобразование Классификация объектов нечисловой природы на основе непараметрических оценок плотности зависит от точки , что не влияет на дальнейшие рассуждения, поскольку ограничиваемся изучением сходимости в точке.

              Функцию Классификация объектов нечисловой природы на основе непараметрических оценок плотности, для которой мера шара радиуса Классификация объектов нечисловой природы на основе непараметрических оценок плотности равна , называют [4] естественным показателем различия или естественной метрикой. В случае пространства Классификация объектов нечисловой природы на основе непараметрических оценок плотности и евклидовой метрики  имеем

Классификация объектов нечисловой природы на основе непараметрических оценок плотности

где Классификация объектов нечисловой природы на основе непараметрических оценок плотности-объем шара единичного радиуса в .

              Поскольку можно записать, что

Классификация объектов нечисловой природы на основе непараметрических оценок плотности

где

Классификация объектов нечисловой природы на основе непараметрических оценок плотности

то переход от Классификация объектов нечисловой природы на основе непараметрических оценок плотности к  соответствует переходу от Классификация объектов нечисловой природы на основе непараметрических оценок плотности к . Выгода от такого перехода заключается в том, что утверждения приобретают более простую формулировку.

              ТЕОРЕМА 1. Пусть Классификация объектов нечисловой природы на основе непараметрических оценок плотности - естественная метрика,

Классификация объектов нечисловой природы на основе непараметрических оценок плотности

Плотность Классификация объектов нечисловой природы на основе непараметрических оценок плотности непрерывна в  и ограничена на Классификация объектов нечисловой природы на основе непараметрических оценок плотности, причем Классификация объектов нечисловой природы на основе непараметрических оценок плотности. Тогда , оценка Классификация объектов нечисловой природы на основе непараметрических оценок плотности является состоятельной, т. е. по вероятности при Классификация объектов нечисловой природы на основе непараметрических оценок плотности,

Классификация объектов нечисловой природы на основе непараметрических оценок плотности

Теорема 1 доказана в [4]. Однако остается открытым вопрос о скорости сходимости ядерных оценок, т. е. о поведении величины

Классификация объектов нечисловой природы на основе непараметрических оценок плотности

и об оптимальном выборе показателей размытости Классификация объектов нечисловой природы на основе непараметрических оценок плотности.

              Введем круговое распределение Классификация объектов нечисловой природы на основе непараметрических оценок плотности и круговую плотность .

              ТЕОРЕМА 2. Пусть ядерная функция Классификация объектов нечисловой природы на основе непараметрических оценок плотности непрерывна и при Классификация объектов нечисловой природы на основе непараметрических оценок плотности. Пусть круговая плотность допускает разложение

Классификация объектов нечисловой природы на основе непараметрических оценок плотности

причем остаточный член равномерно ограничен [0, 1,...., ]. Пусть

Классификация объектов нечисловой природы на основе непараметрических оценок плотности

Тогда

Классификация объектов нечисловой природы на основе непараметрических оценок плотности

              Величина Классификация объектов нечисловой природы на основе непараметрических оценок плотности достигает минимума, равного

Классификация объектов нечисловой природы на основе непараметрических оценок плотности

при

Классификация объектов нечисловой природы на основе непараметрических оценок плотности

что совпадает с классическими результатами для Классификация объектов нечисловой природы на основе непараметрических оценок плотности (см. [9, с316]). Заметим, что для уменьшения смещения оценки приходится применять знакопеременные ядра .

             

Похожие рефераты: