Масштабирование и нормализация
Дипломы, курсовые и прочее / Расчет квантово-химических параметров ФАВ и определение зависимости "структура-активность" на примере сульфаниламидов / Математические методы расчета констант органических молекул и видов проявляемой физиологической активности / Дипломы, курсовые и прочее / Расчет квантово-химических параметров ФАВ и определение зависимости "структура-активность" на примере сульфаниламидов / Математические методы расчета констант органических молекул и видов проявляемой физиологической активности / Масштабирование и нормализация Масштабирование и нормализация

Для преобразования данных, полученных разными датчиками, к виду, удобному для обработки, необходимо выбрать масштаб и выполнить нормализацию. Эти преобразования особенно важны, когда данные получены из разных источников. В этом случае они могут отличаться на несколько порядков величины, так что большие по величине дескрипторы будут подавлять малые. Этот недостаток может быть устранен путем автоматического выбора масштаба [17].

После преобразования масштаба желательно таким образом преобразовать данные, чтобы измерения, дающие больший вклад в кластеризацию, имели соответственно большие веса. Одним из простейших методов такого преобразования является метод дисперсионного взвешивания.

Хотя процедуры типа масштабирования могут уменьшить эффект разнородности исходных данных, а в методе дисперсионного взвешивания признаки получают веса, соответствующие их вкладу в кластеризацию, обе эти операции изменяют исходные данные одинаково.

Одним из недостатков методов предварительной обработки данных является то, что они учитывают все признаки, в том числе и те, которые могут не иметь отношения к рассматриваемой классификационной задаче. В результате возможно попадание в весьма неблагоприятную ситуацию, особенно в том случае, если несущественные признаки будут увеличивать ошибку процедуры классификации, не говоря уже о сложности и стоимости этих преобразований. Поскольку не все признаки существенны для решения рассматриваемой задачи, необходимо найти метод уменьшения их количества. Такой метод называется отбором признаков.

В результате выполнения этих преобразований мы переходим в новое пространство, в котором интересующий нас класс имеет минимальное внутриклассовое расстояние, а дисперсионная матрица выборки данных диагональная. Признаки, имеющие наименьшие значения дисперсии (диагональные элементы дисперсионной матрицы), считаются наиболее существенными для кластеризации. «Оптимальное» подмножество данных формируется из n признаков, имеющих наименьшие значения дисперсии.

Существуют еще несколько методов отбора наиболее информативных признаков. Такие критерии, как дивергенция помогают выделить наиболее существенные дескрипторы. Некоторые из этих методов основаны на гипотезе о виде распределения данных. Если такая гипотеза ошибочна, то результаты статистического анализа могут оказаться ненадежными. Еще одно затруднение заключается в том, что для выбора наилучшего набора дескрипторов должны быть проверены все возможные комбинации исходного набора дескрипторов. Такая проверка практически трудноосуществима в случае наборов признаков, объем которых n превышает 20, поскольку число вычислительных итераций возрастает как n!. Это приводит к дальнейшему снижению ценности рассматриваемых процедур. Требуются такие методы отбора признаков, которые, с одной стороны, были бы близки к оптимальным, а, с другой, не были бы сопряжены с большими объемами вычислений.

Часто необходимые сведения могут быть получены с помощью значительно более простых методов. Одним из таких методов является оценка прогнозирующей способности отдельных признаков. Прогнозирующие способности отдельных признаков могут быть рассчитаны с помощью следующего алгоритма:

1. Значения дескрипторов упорядочиваются по возрастанию.

2. Начиная с наименьшего значения, отмечают количество элементов на класс, превышающее и не достигающее этого значения.

3. Выбирают следующее по величине значение дескриптора и повторяют расчеты до тех пор, пока не будут перебраны все значения данного дескриптора.

4. Отмечают наибольший процент правильных предсказаний для всей выборки и для каждого класса.

При отборе отдельных признаков полезно сопоставить значения различных статистических характеристик системы. Так, для каждого класса без труда могут быть рассчитаны выборочное среднее, стандартное отклонение, наибольшее значение, наименьшее значение и общее количество отличных от нуля значений. Таким образом, можно составить представление об информативности анализируемых данных, а также решить вопрос о том, оправдано ли включение в систему данного дескриптора.

Еще одним полезным критерием является коэффициент корреляции. Сильно коррелированные дескрипторы могут содержать в сущности одну и ту же информацию. Если несколько дескрипторов сильно коррелированны, то можно оставить какой-либо один из них при условии, что после такого отбора общее количество информации не изменится.

Смотрите также

Простые эфиры. Краун-эфиры. Представления о межфазном катализе. Реакции простых эфиров
...

Монослой на основе фуллеренов и краун-эфиров
Проведенные исследования [3-5] показали, что молекулы С60 при степени покрытия 0,4-0,5 начинают агрегировать уже в газовой фазе, что исключает возможность формирования монослоя и, как следствие, во ...

Насыщенные альдегиды и кетоны
Альдегиды и кетоны относятся к карбонильным соединениям (содержат группу >С=О) Они имеют общую формулу: для альдегидов R1=H. Изомерия кетонов связана со строением радикалов и с п ...