Снижение размерности и отбор наиболее информативных переменных. Снижение размерности признакового пространства. Сущность проблемы снижения размерности и различные методы ее решения

  • В статистике, машинном обучении и теории информации снижение размерности - это преобразование данных, состоящее в уменьшении числа переменных путём получения главных переменных. Преобразование может быть разделено на отбор признаков и выделение признаков.

Связанные понятия

Упоминания в литературе

– загрузка и предобработка входных данных, – ручная и автоматическая разметка стимульных материалов (выделение зон интереса), – алгоритм вычисления матрицы представления преемника, – построение расширенной таблицы данных со значениями входных переменных, необходимых для последующего анализа, – метод снижения размерности пространства признаков (метод главных компонент), – визуализация компонентных нагрузок для выбора интерпретируемых компонент, – алгоритм обучения дерева решений, – алгоритм оценки предсказательной способности дерева, – визуализация дерева решений.

Связанные понятия (продолжение)

Техники спектральной кластеризации используют спектр (собственные значения) матрицы сходства данных для осуществления понижения размерности перед кластеризацией в пространствах меньших размерностей. Матрица сходства подаётся в качестве входа и состоит из количественных оценок относительной схожести каждой пары точек в данных.

Спектральные методы - это класс техник, используемых в прикладной математике для численного решения некоторых дифференциальных уравнений, возможно, вовлекая Быстрое преобразование Фурье. Идея заключается в переписи решения дифференциальных уравнений как суммы некоторых «базисных функций» (например, как ряды Фурье являются суммой синусоид), а затем выбрать коэффициенты в сумме, чтобы удовлетворить дифференциальному уравнению, насколько это возможно.

Математи́ческий ана́лиз (классический математический анализ) - совокупность разделов математики, соответствующих историческому разделу под наименованием «анализ бесконечно малых», объединяет дифференциальное и интегральное исчисления.

Дифференциа́льная эволю́ция (англ. differential evolution) - метод многомерной математической оптимизации, относящийся к классу стохастических алгоритмов оптимизации (то есть работает с использованием случайных чисел) и использующий некоторые идеи генетических алгоритмов, но, в отличие от них, не требует работы с переменными в бинарном коде.

Метод дискретного элемента (DEM, от англ. Discrete element method) - это семейство численных методов предназначенных для расчёта движения большого количества частиц, таких как молекулы, песчинки, гравий, галька и прочих гранулированных сред. Метод был первоначально применён Cundall в 1971 для решения задач механики горных пород.

Машинное обучение — это не что иное, как область обучения, которая позволяет компьютерам «учиться», как люди, без необходимости явного программирования.

Что такое прогнозирующее моделирование: прогнозирующее моделирование — это вероятностный процесс, который позволяет нам прогнозировать результаты на основе некоторых предикторов. Эти предикторы в основном являются функциями, которые вступают в игру при определении окончательного результата, то есть результата модели.

Что такое уменьшение размерности?

В задачах классификации машинного обучения часто слишком много факторов, на основании которых делается окончательная классификация. Эти факторы в основном переменные, называемые признаками. Чем больше функций, тем сложнее визуализировать тренировочный набор и затем работать над ним. Иногда большинство этих функций взаимосвязаны и, следовательно, являются избыточными. Это где алгоритмы уменьшения размерности вступают в игру. Уменьшение размерности — это процесс уменьшения числа рассматриваемых случайных величин путем получения набора главных переменных. Это может быть разделено на выбор особенности и извлечение особенности.

Почему уменьшение размерности важно в машинном обучении и прогнозном моделировании?

Интуитивно понятный пример уменьшения размерности можно обсудить с помощью простой задачи классификации электронной почты, где нам необходимо определить, является ли электронная почта спамом или нет. Это может включать большое количество функций, например, имеет ли электронное письмо общий заголовок, содержание электронного письма, использует ли электронное письмо шаблон и т. Д. Однако некоторые из этих функций могут перекрываться, В другом состоянии проблема классификации, которая зависит как от влажности, так и от осадков, может быть сведена в одну основную характеристику, поскольку оба из вышеупомянутых коррелируют в высокой степени. Следовательно, мы можем уменьшить количество функций в таких задачах. Проблему трехмерной классификации трудно представить, в то время как двумерную можно сопоставить с простым двумерным пространством, а задачу одномерной — с простой линией. Приведенный ниже рисунок иллюстрирует эту концепцию, где трехмерное пространство признаков разделяется на два одномерных пространства признаков, и позже, если обнаружено, что они коррелированы, число признаков может быть уменьшено еще больше.

Компоненты уменьшения размерности

Существует два компонента уменьшения размерности:

  • Выбор характеристик: в этом разделе мы пытаемся найти подмножество исходного набора переменных или функций, чтобы получить меньшее подмножество, которое можно использовать для моделирования проблемы. Обычно это включает три способа:
    1. Фильтр
    2. обертка
    3. внедренный
  • Извлечение признаков: Это уменьшает данные в многомерном пространстве до более низкого измерения, то есть пространства с меньшим номером. размеров.

Методы уменьшения размерности

Различные методы, используемые для уменьшения размерности, включают в себя:

  • Анализ основных компонентов (PCA)
  • Линейный Дискриминантный Анализ (LDA)
  • Обобщенный дискриминантный анализ (GDA)

Уменьшение размерности может быть как линейным, так и нелинейным, в зависимости от используемого метода. Основной линейный метод, называемый анализ главных компонентов, или PCA, обсуждается ниже.

Анализ главных компонентов

Этот метод был введен Карлом Пирсоном. Он работает при условии, что, хотя данные в пространстве более высокого измерения отображаются в данные в пространстве более низкого измерения, дисперсия данных в пространстве более низкого измерения должна быть максимальной.

Он включает в себя следующие шаги:

  • Построить ковариационную матрицу данных.
  • Вычислить собственные векторы этой матрицы.
  • Собственные векторы, соответствующие наибольшим собственным значениям, используются для восстановления большой части дисперсии исходных данных.

Следовательно, у нас осталось меньшее количество собственных векторов, и в процессе могла произойти некоторая потеря данных. Но наиболее важные отклонения должны сохраняться оставшимися собственными векторами.

Преимущества уменьшения размерности

  • Это помогает в сжатии данных, и, следовательно, уменьшает пространство для хранения.
  • Это уменьшает время вычислений.
  • Это также помогает удалить избыточные функции, если таковые имеются.

Недостатки уменьшения размерности

  • Это может привести к некоторой потере данных.
  • PCA имеет тенденцию находить линейные корреляции между переменными, что иногда нежелательно.
  • PCA терпит неудачу в случаях, когда среднее значение и ковариация недостаточны для определения наборов данных.
  • Мы можем не знать, сколько основных компонентов следует придерживаться на практике, применяются некоторые правила большого пальца.

Эта статья предоставлена Ананней Уберой . Если вы как GeeksforGeeks и хотели бы внести свой вклад, вы также можете написать статью с помощью contribute.geeksforgeeks.org или по почте статьи [email protected]. Смотрите свою статью, появляющуюся на главной странице GeeksforGeeks, и помогите другим вундеркиндам.

Глава 13. МЕТОД ГЛАВНЫХ КОМПОНЕНТ

13.1. Сущность проблемы снижения размерности и различные методы ее решения

В исследовательской и практической статистической работе приходится сталкиваться с ситуациями, когда общее число признаков регистрируемых на каждом из множества обследуемых объектов (стран, городов, предприятий, семей, пациентов, технических или экологических систем), очень велико - порядка ста и более. Тем не менее имеющиеся многомерные наблюдения

следует подвергнуть статистической обработке, осмыслить либо ввести в базу данных для того, чтобы иметь возможность их использовать в нужный момент.

Желание статистика представить каждое из наблюдений (13.1) в виде вектора Z некоторых вспомогательных показателей с существенно меньшим (чем ) числом компонент рбывает обусловлено в первую очередь следующими причинами:

необходимостью наглядного представления (визуализации) исходных данных (13.1), что достигается их проецированием на специально подобранное трехмерное пространство плоскость или числовую прямую (задачам такого типа посвящен раздел IV);

стремлением к лаконизму исследуемых моделей, обусловленному необходимостью упрощения счета и интерпретации полученных статистических выводов;

необходимостью существенного сжатия объемов хранимой статистической информации (без видимых потерь в ее информативности), если речь идет о записи и хранении массивов типа (13.1) в специальной базе данных.

При этом новые (вспомогательные) признаки могут выбираться из числа исходных или определяться по какому-либо правилу по совокупности исходных признаков, например как их линейные комбинации. При формировании новой системы признаков к последним предъявляв юте я разного рода требования, такие, как наибольшая информативность (в определенном смысле), взаимная некоррелированность, наименьшее искажение геометрической структуры множества исходных данных и т. п. В зависимости от варианта формальной конкретизации этих требований (см. ниже, а также раздел IV) приходим к тому или иному алгоритму снижения размерности. Имеется, по крайней мере, три основных типа принципиальных предпосылок, обусловливающих возможность перехода от большого числа исходных показателей состояния (поведения, эффективности функционирования) анализируемой системы к существенно меньшему числу наиболее информативных переменных. Это, во-первых, дублирование информации, доставляемой сильно взаимосвязанными признаками; во-вторых, неинформативность признаков, мало меняющихся при переходе от одного объекта к другому (малая «вариабельность» признаков); в-третьих, возможность агрегирования, т. е. простого или «взвешенного» суммирования, по некоторым признакам.

Формально задача перехода (с наименьшими потерями в информативности) к новому набору признаков может быть описана следующим образом. Пусть - некоторая р-мерная вектор-функция исходных переменных и пусть - определенным образом заданная мера информативности -мерной системы признаков Конкретный выбор функционала зависит от специфики решаемой реальной задачи и опирается на один из возможных критериев: критерий автоинформативности, нацеленный на максимальное сохранение информации, содержащейся в исходном массиве относительно самих исходных признаков; и критерий внешней информативности, нацеленный на максимальное «выжимание» из информации, содержащейся в этом массиве относительно некоторых других (внешних) показателей.

Задача заключается в определении такого набора признаков Z, найденного в классе F допустимых преобразований исходных показателей что

Тот или иной вариант конкретизации этой постановки (определяющий конкретный выбор меры информативности ) и класса допустимых преобразований) приводит к конкретному методу снижения размерности: к методу главных компонент, факторному анализу, экстремальной группировке параметров и т. д.

Поясним это на примерах.

13.1.1. Метод главных компонент (см. § 13.2-§ 13.6).

Именно к первым главным компонентам придет исследователь, если в качестве класса допустимых преобразований F определит всевозможные линейные ортогональные нормированные комбинации исходных показателей, т. е.

(здесь ) - математическое ожидание а в качестве меры информативности -мерной системы показателей выражение

(здесь D, как и ранее, знак операции вычисления дисперсии соответствующей случайной величины).

13.1.2. Факторный анализ (см. гл. 14).

Как известно (см. § 14.1), модель факторного анализа объясняет структуру связей между исходными показателями тем, что поведение каждого из них статистически зависит от одного и того же набора так называемых общих факторов т. е.

где - «нагрузка» общего фактора на исходный показатель - остаточная «специфическая» случайная компонента, причем - попарно некоррелированы.

Оказывается, если F определить как класс всевозможных линейных комбинаций с учетом упомянутых ограннченнй на а в качестве меры информативности -мерной системы показателей выбрать величину то решение оптимизационной задачи (13.2) совпадает с вектором общих факторов в модели факторного анализа. Здесь - корреляционная матрица исходных показателей корреляционная матрица показателей - евклидова норма матрицы А.

13.1.3. Метод экстремальной группировки признаков (см. п. 14.2.1).

В данном методе речь идет о таком разбиении совокупности исходных показателей на заданное число групп что признаки, принадлежащие одной группе, были бы взанмокоррелнрованы сравнительно сильно, в то время как признаки, принадлежащие к разным группам, были бы коррелнрованы слабо. Одновременно решается задача замены каждой группы сильно взаимокоррелированных исходных показателей одним вспомогательным «равнодействующим» показателем который, естественно, должен быть в тесной корреляционной связи с признаками своей группы. Определив в качестве класса допустимых преобразований F исходных показателей все нормированные линейные комбинации ищем решение максимизируя (по S и ) функционал

где - коэффициент корреляции между переменными .

13.1.4. Многомерное шкалирование (см. гл. 16).

В ряде ситуаций и в первую очередь в ситуациях, когда исходные статистические данные получают с помощью специальных опросов, анкет, экспертных оценок, возможны случаи, когда элементом первичного наблюдения является не состояние объекта, описываемого вектором а характеристика попарной близости (отдаленности) двух объектов (или признаков) соответственно с номерами

В этом случае исследователь располагает в качестве массива исходных статистических данных матрицей размера (если рассматриваются характеристики попарной близости объектов) или (если рассматриваются характеристики попарной близости признаков) вида

где величины интерпретируются либо как расстояния между объектами (признаками) i и либо как ранги, задающие упорядочение этих расстояний. Задача многомерного шкалирования состоит в том, чтобы «погрузить» наши объекты (признаки) в такое -мерное пространство , т. е. так выбрать координатные оси чтобы исходная геометрическая конфигурация совокупности анализируемых точек-объектов (или точек-признаков), заданных с помощью (13.1) или (13.5), оказалась бы наименее искаженной в смысле некоторого критерия средней «степени искажения» взаимных попарных расстояний.

Одна из достаточно общих схем многомерного шкалирования определяется критерием

где - расстояние между объектами в исходном пространстве, - расстояние между теми же объектами в искомом пространстве меньшей размерности - свободные параметры, выбор конкретных значений которых производится по усмотрению исследователя.

Определив меру информативности искомого набора признаков Z, например, как величину, обратную упомянутой выше величине степени искажения геометрической структуры исходной совокупности точек, сведем эту задачу к общей постановке (13.2), полагая

13.1.5. Отбор наиболее информативных показателей в моделях дискриминантного анализа (см. § 1.4; 2.5).

Приведенные выше функционалы являются измерителями автоинформативности соответствующей системы признаков. Приведем теперь примеры критериев внешней информативности. В частности, нас будет интересовать информативность системы показателей с точки зрения правильности классификации объектов по этим показателям в схеме дискриминантного анализа. При этом класс допустимых преобразований F определим исходя из требований, что в качестве могут рассматриваться лишь представители набора исходных показателей, т. е.

Распространенным исходным тезисом при решении задачи выявления наиболее информативных показателей из исходного набора является утверждение, что вектор показателей заданной размерности тем более информативен, чем больше различие в законах его вероятностного распределения, определенных в разных классах в рассматриваемой задаче классификации. Если ввести меру попарного различия законов описывающих распределение вероятностей вектора признаков в классах с номерами то можно формализовать вышеприведенный принцип отбора наиболее информативных показателей определяя их из условия максимизации (по ) величины

Наиболее употребительные меры различия между законами распределения вероятностей - это расстояние информационного типа (расстояние Кульбака, расстояние Махаланобиса), а также «расстояние по вариации» (подробнее об этом см. в .

13.1.6. Отбор наиболее информативных переменных в моделях регрессии (см. ).

При построении зависимостей регрессионного типа одним из центральных оказывается вопрос выявления сравнительно небольшого числа переменных (из априорного набора наиболее существенно влияющих на поведение исследуемого результирующего признака у.

Таким образом, как и в предыдущем пункте, класс F состоит из всевозможных наборов переменных отобранных из исходного множества факторов-аргументов и имеем дело с критерием внешней информативности таких наборов. Его вид обычно задается с помощью множественного коэффициента детерминации - характеристики степени тесноты связи показателя у с набором переменных При этом для фиксированной размерности набор переменных будет, очевидно, считаться наиболее информативным (с точки зрения точности описания поведения показателя у), если значение меры информативности на этом наборе достигает максимума.