Факторный анализ /Глосарий
Факторный анализ - метод многомерного статистического анализа, позволяющий на основе экспериментального наблюдения признаков объекта выделить группу переменных, определяющих корреляционную взаимосвязь между признаками. Например, при проведении элементного анализа предельных углеводородов можно отдельно измерять массовую долю углерода и массовую долю водорода - два признака. Однако, эти признаки не являются независимыми (коррелируют между собой) и оба определяются длиной углеродной цепи. В этом и состоит суть факторного анализа - на основе исследования корреляционных взаимосвязей признаков находить причины, определяющие эти взаимосвязи.
В общем случае моделью описываемой взаимосвязи является набор линейных уравнений. Коэффициентами этих уравнений являются так называемые нагрузки, которые показывают "вес" каждого из факторов для данного признака. В матричном виде эта система уравнений может быть записана как X = S*F E (1) где X - матрица признаков (или переменных), S - матрица нагрузок, F - матрица новых - "латентных" - переменных, E - матрица остатков. Это уравнение, по сути, описывает переход от первичных переменных (признаков) к новым переменным (факторам). Такое преобразование позволяет:
1. Выделить переменные, определяющие исследуемый набор признаков, проанализировать их число и природу
2. Сжать данные - вместо большого объема переменных система полностью описывается несколькими факторами. Так, например, спектр поглощения смеси красителей представляет собой массив данных - значений интенсивности для различных длин волн. Этот же спектр можно описать значениями концентраций компонентов смеси.
Факторный анализ часто применяется при решении задач классификации, а также при простроении многомерных градуировочных моделей. В качестве недостатков этого метода можно перичислить следующие:
1. Нет однозначного подхода к определению числа значимых переменных. Экспериментальные данные, как правило, содержат случайную ошибку, что вызывает появление дополнительных факторов, которые по сути бесполезны и описывают погрешность эксперимента. Существует множество способов отделения значимых переменных от незначимых, однако в кадом конкретном случае требуется индивидуальный подход.
2. Сложность интерпретации переменных - преобразование (1) можно провести бесконечным множеством способов, при этом выяснить физическую суть каждой новой переменной довольно сложно, а часто и невозможно. Так, например, если применить факторное преобразование к спектру смеси красителей, то каждая новая переменная, скорее всего, будет представлять собой не сами концентрации индивидуальных красителей, а некую линейную комбинацию концентраций.
Наиболее распространенные алгоритмы факторного анализа - метод главных компонент (principal component analysis, PCA) и разложение по сингулярным значениям (singular value decomposition, SVD).