Ю. В. Гончаров, Минимаксная задача выбора признаков для построения клас- сификатора методом опорных векторов, Ж. вычисл. матем. и матем. физ., 2010, том 50, номер 5, 967–976

(1)

Math-Net.Ru

Общероссийский математический портал

Ю. В. Гончаров, Минимаксная задача выбора признаков для построения клас- сификатора методом опорных векторов, Ж. вычисл. матем. и матем. физ., 2010, том 50, номер 5, 967–976

Использование Общероссийского математического портала Math-Net.Ru подразумевает, что вы прочитали и согласны с пользовательским соглашением

http://www.mathnet.ru/rus/agreement Параметры загрузки:

IP: 178.128.90.69

6 ноября 2022 г., 01:48:49

(2)

ЖУРНАЛ ВЫЧИСЛИТЕЛЬНОЙ МАТЕМАТИКИ И МАТЕМАТИЧЕСКОЙ ФИЗИКИ, 2010, том 50, № 5, с. 967–976

967 1. ВВЕДЕНИЕ

Данная статья является продолжением работы [1], в которой сформулирована задача выбора признаков при обучении классификации методом опорных векторов (SVM). Алгоритм решения задачи сводится к поиску минимакса выпукло%вогнутой функции. В [1] доказано существование подмножества седловых решений среди множества всех решений задачи, проведен анализ седло%

вых решений и разработан алгоритм их поиска. Множество седловых точек является подмноже%

ством минимаксных решений. Для решения задачи выбора признаков достаточно найти произ%

вольное минимаксное решение. Полученный в [1] результат о свойстве “целочисленности” сед%

ловых решений переносится в настоящей статье на произвольные минимаксные решения задачи. Рассматривается зависимость решений задачи от параметра селективности признаков.

Алгоритм поиска седловых решений использует условия гладкости выпукло%вогнутой функции в задаче выбора признаков. В статье рассматривается подход к поиску произвольных решений задачи с помощью метода недифференцируемой оптимизации субградиентного типа. В этом ме%

тоде на минимизируемую выпуклую функцию не накладываются требования гладкости. Следо%

вало ожидать, что седловой алгоритм для решения задачи выбора признаков должен был быть более эффективным, чем субградиентный. Однако практические вычисления показали, что суб%

градиентный алгоритм быстрее попадает в некоторую окрестность решения задачи, чем седло%

вой алгоритм. Седловой алгоритм более эффективен вблизи решения. С логической точки зре%

ния некорректно объединять оба алгоритма в гибридный, в котором сначала субградиентным методом вычисляется точка в окрестности минимаксного решения, а затем она служит началь%

ной точкой для седлового алгоритма. Субградиентным методом вычисляется точка из окрестно%

сти решения, которое не обязательно является седловым. В настоящей статье предложен гибрид%

ный алгоритм, который вместе с точкой в окрестности решения вычисляет начальную точку для седлового алгоритма. В том случае, когда субградиентная часть гибридного алгоритма вычисляет точку достаточно близкую к решению, то эта точка выдается в качестве решения задачи выбора признаков и перехода к седловой части гибридного алгоритма не происходит.

Условия гладкости для сходимости алгоритма поиска седловых решений в [1] формулируются в виде трех неравенств Липшица с общей константой M. Усиление условий гладкости, наклады%

ваемых на функцию, ведет к улучшению вычислительных свойств алгоритма поиска седловых решений. В настоящей статье описан седловой алгоритм для функции, удовлетворяющей нера%

венствам Липшица с различными константами M₁, M₂ и M₃.

МИНИМАКСНАЯ ЗАДАЧА ВЫБОРА ПРИЗНАКОВ ДЛЯ ПОСТРОЕНИЯ КЛАССИФИКАТОРА

МЕТОДОМ ОПОРНЫХ ВЕКТОРОВ

(119333 Москва, ул. Вавилова, 40, ВЦ РАН) e#mail: Goncharov.Yuri@gmail.com Поступила в редакцию 28.09.2009 г.

Переработанный вариант 23.12.2009 г.

Рассмотрена минимаксная задача выбора признаков для построения классификатора мето%

дом опорных векторов. Проведен анализ свойств решений задачи. Предложено усовершен%

ствование алгоритма поиска седловой точки с помощью увеличения границы для параметра шага. Разработан новый алгоритм недифференцируемой оптимизации, который вместе с ал%

горитмом поиска седловой точки образует гибридный алгоритм решения задачи выбора при%

знаков. Произведена экспериментальная оценка эффективности алгоритма вычисления про%

екций Дейкстры при решении задачи выбора признаков. Библ. 8. Табл. 1.

Ключевые слова: задача выбора признаков, минимаксная задача, метод опорных векторов, алгоритм поиска седловой точки, субградиентный алгоритм.

УДК 519.7

(3)

В обеих составляющих гибридного алгоритма необходимо вычислять проекции на некоторые множества. В [1] было описано применение быстрого алгоритма вычисления проекций Дейкст%

ры на множества из задачи выбора признаков. В настоящей статье анализируется вычислитель%

ная эффективность алгоритма Дейкстры в серии экспериментов. Эксперименты по оценке ре%

шений задачи выбора признаков с точки зрения качества распознавания описаны в [1], [3].

2. ЗАДАЧА ВЫБОРА ПРИЗНАКОВ

Признаками в нашем случае являются координаты пространства ⺢ⁿ, которому принадлежат векторы x. Координата x^j является j%м признаком объекта, представленного вектором x. Для за%

дания подмножества признаков используется вектор z = (z₁, z₂, …, z_n), где z_j принимают значения из отрезка [0, 1]. Равенство z_j = 0 означает, что j%й признак удален, неравенство z_j > 0 означает, что j%й признак выбран. Поиск решающей функции классификации ведется по обучающей выборке (x₁, y₁), (x₂, y₂), …, (x_l, y_l), где x_i∈⺢ⁿ^{, y}i∈ {1; –1}, i = 1, 2, …, l. Элемент обучающей выборки состоит из вектора x_i и y_i – признака принадлежности одному из двух классов. При y_i = 1 считается, что вектор x_i принадлежит к первому классу, а при y_i = –1 – ко второму. Встречающиеся далее обо%

значения нормы вектора и матрицы подразумевают, соответственно, стандартную евклидову норму вектора и подчиненную ей матричную норму.

В [1] задача выбора признаков сводится к следующей задаче минимизации модифицирован%

ного критерия опорных векторов:

(1)

(2)

Пусть z*, w*, b*, ␦* – решение задачи (1), (2). Для классификации вектора x вычисляется следую%

щая величина:

При S ≥ 0 вектор x относится к первому классу, в противном случае – ко второму. Целевая функ%

ция задачи выбора признаков (1), (2) отличается от целевой функции классической постановки SVM наличием штрафа на подмножество выбранных признаков. Присутствие в ограни%

чениях (2) операции взятия квадратного корня необходимо для того, чтобы целевая функция двойственной к (1), (2) задачи была линейной по z. Задача (1), (2) при фиксированном z факти%

чески является классической задачей SVM, в которой элементы обучающей выборки предвари%

тельно шкалируются с помощью вектора z следующим способом:

Можно считать, что процедура решения задачи (1), (2) состоит из поиска оптимальной шкалы признаков и оптимальной разделяющей гиперплоскости в новом шкалированном пространстве.

Задача (1), (2) имеет невыпуклые ограничения. Можно заменить задачу минимизации по со%

вокупности всех переменных на эквивалентную задачу последовательной минимизации:

(3) 1

2 w ² C δi i=1

l

∑

^A ^z^j

j=1 n

∑

+ +

⎝ ⎠

⎜ ⎟

⎛ ⎞

,

z w, , ,minb␦

y_i w_jx_i^j z_j+b

j=1

∑

n

⎝ ⎠

⎜ ⎟

⎛ ⎞

1–δi,

≥

δi≥0, x_i∈⺢ⁿ^, ^yi∈{1; –1}, i = 1 2, , ,… l, A>0, z_j∈[0 1, ], j = 1 2, , ,… n.

S w_j*x^j z_j*

j=1

∑

n ⁺^b*.

=

AΣj=1

n z_j

z_j

x_i^j x_i^j z_j, i = 1 2, , ,… l, j = 1 2, , ,… n.

minψ( )z ,

0≤ ≤z_j 1, j = 1 2, , ,… n,

(4)

ЖУРНАЛ ВЫЧИСЛИТЕЛЬНОЙ МАТЕМАТИКИ И МАТЕМАТИЧЕСКОЙ ФИЗИКИ том 50 № 5 2010

МИНИМАКСНАЯ ЗАДАЧА ВЫБОРА ПРИЗНАКОВ 969

где значение ψ(z) получается в результате решения следующей задачи:

(4)

Задача (4) может быть записана в двойственной форме

(5)

Теорема 1 (см. [1]). Функция ψ(z) в задаче (5) является выпуклой.

Используя двойственное представление (5) для ψ(z), задачу (3), (4) можно представить в фор%

ме минимаксной задачи (3), (5) и записать в виде

(6)

L(z, ␭) – выпукло%вогнутая функция, т.е. выпуклая по z при фиксированном значении ␭ и вогну%

тая по ␭ при фиксированном z. Рассмотрим задачу поиска седловой точки (z*, ␭*) ∈ Z × Λ: (7) В [1] доказано, что седловая точка в задаче (7) существует. Для седловой точки справедливо ра%

венство

(8) Опираясь на это равенство, можно заменить задачу поиска минимакса на задачу поиска седло%

вой точки. Следующее замечание используется далее при доказательстве теоремы 2.

Замечание 1. Пусть (z⁰, ␭⁰) – решение минимаксной задачи (6), (z*, ␭*) – седловая точка функции L(z, ␭). То%

гда из общих свойств седловых точек (см. [2]) следует, что (z⁰, ␭*) – седловая точка функции L(z, ␭).

3. СВОЙСТВА РЕШЕНИЙ ЗАДАЧИ ВЫБОРА ПРИЗНАКОВ

Рассмотрим свойство “целочисленности” решений задачи выбора признаков и влияние пара%

метра А на множество удаленных признаков. В [1] доказана теорема, которая утверждает суще%

ствование седловой точки (z*, ␭*) в задаче (7), и приведены условия, при которых координаты z*

равны 0 или 1. Справедлива аналогичная теорема о “целочисленности” решений задачи (6).

ψ( )z 1

2 w ² C δi A z_j

j=1

∑

n

+

i=1

∑

l

⎝ + ⎠

⎜ ⎟

⎛ ⎞

,

w, ,b␦

= min

y_i w_jx_i^j z_j+b

j=1 n

⎝

∑

⎠

⎜ ⎟

⎛ ⎞

1–δi,

≥

δi≥0, i = 1 2, , ,… l, A>0.

ψ( )z λi

1

2 y_iy_k z_jx_i^jx_k^j

j=1 n

⎝

∑

⎠

⎜ ⎟

⎛ ⎞

λiλk k=1

l i=1

∑

l

∑

– A z_j

j=1 n

∑

+

i=1 l

⎝

∑

⎠

⎜ ⎟

⎛ ⎞

␭ ,

= max

λiy_i

i=1

∑

l ⁼ ^0, ⁰^{≤ ≤}^λⁱ ^C, ⁱ ⁼ ^{1 2}^{, , ,}^… ^l.

L z( ,␭),

␭∈Λ

max

z∈Z

min L z( ,␭) λi

1

j=1

∑

n

⎝ ⎠

⎜ ⎟

⎛ ⎞

λiλk k=1

∑

l i=1

∑

l

– A z_j,

j=1

∑

n

+

i=1

∑

l

=

Z = {z 0≤ ≤z_j 1 j, = 1 2, , ,… n}, Λ ␭ λiy_i

i=1

∑

l ⁼ ^{0 0}^, ^{≤ ≤}^λⁱ ^{C i}^, ⁼ ^{1 2}^{, , ,}^… ^l

⎩ ⎭

⎨ ⎬

⎧ ⎫

= ,

L z*( ,␭)≤L z*( ,␭*)≤L z( ,␭*) ∀z∈Z, ∀␭∈Λ.

L z( ,␭)

␭∈Λ

max

z∈Z

min L z( ,␭)

z∈Z

␭∈Λmin

max L z*( ,␭*).

= =

(5)

Теорема 2. Пусть (z⁰, ␭⁰) – решение минимаксной задачи (6), (z*, ␭*) – седловая точка задачи (7), тогда справедливы следующие импликации:

(9)

(10)

(11) Доказательство. Так как (z⁰, ␭⁰) – минимаксное решение, (z*, ␭*) – седловая точка, то соглас%

но замечанию 1 имеем, что (z⁰, ␭*) седловая точка. В [1] доказано, что соотношения (9)–(11) справедливы для седловой точки (z⁰, ␭*). Теорема доказана.

Посмотрим, каким образом влияет параметр A в задаче (6) на множество удаленных призна%

ков. Следующее предложение показывает, что, устанавливая достаточно большое значение пара%

метра A в задаче (6), можно получить решение (z⁰, ␭⁰), в котором для произвольного j будет вы%

полнено равенство = 0.

Предложение 1. Пусть величина A в задаче (6) вычислена по формуле

где ε – произвольное положительное число и (z⁰, ␭⁰) – решение задачи (6). Тогда выполняется равен#

ство = 0.

Доказательство. Так как (z⁰, ␭⁰) – решение задачи на минимакс, то существует седловая точка (z⁰, ␭*) в задаче (7). Справедливо соотношение

Из (10) теоремы 2 следует необходимое равенство = 0.

4. АЛГОРИТМ ПОИСКА СЕДЛОВЫХ РЕШЕНИЙ

Здесь представлено усовершенствование алгоритма поиска седловой точки из [1] с помощью увеличения границы для параметра шага. Пусть некоторая выпукло%вогнутая функция L(z, ␭) определена на декартовом произведении выпуклых замкнутых множеств Z × Λ и для некоторых констант M₁ > 0, M₂ > 0, M₃ > 0 удовлетворяет неравенствам

(12) (13) (14) Пусть πZ, π_Λ – операторы проектирования на множества Z и Λ, т.е. πZ(z) – это проекция точки z на множество Z и, аналогично, π_Λ(␭) – проекция точки ␭ на множество Λ.

y_iy_kx_i^jx_k^jλi*λk*

k=1

∑

l i=1

∑

l ^>^2A^⇒^z^j⁰ ⁼ ^1,

k=1

∑

l i=1

∑

l ^<^2A^⇒^z^j⁰ ⁼ ^0,

0 z_j⁰ 1 y_iy_kx_i^jx_k^jλi*λk*

k=1

∑

l i=1

∑

l

⇒ = 2A.

< <

z_j⁰

A 1

2 y_iy_kx_i^jx_k^jλiλk+ε,

k=1

∑

l i=1

∑

l

max␭

=

␭∈Λ, ε>0,

z_j⁰

k=1

∑

l i=1

∑

l ^yⁱ^y^k^xⁱ^j^x^k^j^λⁱ^λ^k k=1

∑

l i=1

∑

l

maxλ

≤ = 2A–2ε<2A.

z_j⁰

L z( ,␭+h)–L z( ,␭) ∂L

∂λ z( ,␭),h

– 1

2M₁ h ²,

≤ L z( +h,␭)–L z( ,␭) ∂L

∂z

z( ,␭),h

– 1

2M₂ h ²,

≤

∂L

∂z

z( ,␭+h) ∂L

∂z z( ,␭)

– ≤M₃ h .

(6)

В [1] предложен алгоритм поиска седловой точки в задаче (7), в котором одна итерация алго%

ритма состоит из трех шагов:

(15)

В [1] доказана теорема о сходимости алгоритма (15). Одним из условий сходимости является вы%

полнение неравенств (12)–(14) с общей константой M в правых частях неравенств, т.е. при M₁ = M, M₂ = M, M₃ = M. Величина параметра шага α в алгоритме (15) должна выбираться из условия 0 <

<α < 1/(2M). Использование различных констант вместо одной в неравенствах (12)–(14) позво%

ляет увеличить верхнюю границу допустимых значений α и выполнять более крупные шаги в ал%

горитме (15). Справедлива

Теорема 3. Пусть L(z, ␭) – выпукло#вогнутая функция на Z × Λ, множества Z и Λ выпуклые, замкну#

тые, L(z, ␭) удовлетворяет неравенствам (12)–(14), выполнены неравенства

Тогда для любой начальной точки z₀∈ Z, ␭⁰∈ Λ последовательность (z^k, ␭^k), k = 1, 2, …, вычисляемая по формулам (15), сходится к (z*, ␭*) – седловой точке функции L(z, ␭).

Доказательство теоремы проводится аналогично доказательству теоремы 3, содержащемуся в [1]. Теорема 3 может быть распространена на случай, когда неравенство (13) выполняется при M₂ = 0. В этом случае в качестве константы Липшица в неравенстве (13) можно также взять M₂ = ε, где ε > 0 – произвольно малая величина. Для достаточно малой величины ε условие на величину параметра шага α в теореме 3 принимает вид

Будем пользоваться последним условием на величину α при M₂ = 0.

Пусть определены матрицы

(16) (17) тогда константы M₁, M₂ и M₃ в (12)–(14) для L(z, ␭) из (7) вычисляются по следующим формулам:

(18) Вывод соотношений (18) содержится в [1].

5. ГИБРИДНЫЙ АЛГОРИТМ РЕШЕНИЯ ЗАДАЧИ ВЫБОРА ПРИЗНАКОВ

Дадим описание алгоритма недифференцируемой оптимизации при решении задачи выбора признаков. Опираясь на свойство выпуклости функции ψ(z), можно использовать субградиент%

ный алгоритм оптимизации для решения задачи (3), (4). В [3] дан обзор различных алгоритмов поиска седловой точки и описан опыт использования алгоритма субградиентного типа в задаче поиска седловой точки (7). Расчеты показали, что такой алгоритм позволяет быстрее получать точки вблизи решения, чем алгоритм поиска седловой точки (15). Однако вблизи решения эф%

фективность субградиентного алгоритма может падать. Описываемый субградиентный алгоритм z^k πZ z^k α∂L

∂z

z( ^k,␭^k)

⎝ – ⎠

⎛ ⎞,

=

␭^k⁺¹ π_Λ ␭^k α∂L

z∂λ( ^k,␭^k)

⎝ + ⎠

⎛ ⎞,

=

z^k⁺¹ πZ z^k α∂L

∂z

z( ^k,␭^k⁺¹)

⎝ – ⎠

⎛ ⎞.

=

0 α min 1 M₂

–M₁+ M₁²+8M₃² 4M₃²

,

⎝ ⎠

⎜ ⎟

⎛ ⎞

< < .

0 α –M₁+ M₁²+8M₃² 4M₃²

.

< <

G = {g_ij= y_ix_i^j i= 1 2, , , ,… l j =1 2, , ,… n}, R^j = {R_ik^j =y_iy_kx_i^jx_k^j i k, =1 2, , ,… l}, j = 1 2, , ,… n,

M₁ G ², M₂ 0, M₃ Cl R^j .

j=1

∑

n

= = =

(7)

использует элемент эвристики при вычислении шага и формально не является сходящимся. От%

метим, что некоторые теоретически сходящиеся алгоритмы субградиентного типа оказались не%

пригодными на практике, так как не обеспечивали сходимости вычислительного процесса к ре%

шению задачи (3), (4). В реальных вычислениях используется гибридный алгоритм, где на пер%

вой стадии вычислений выполняется заданное количество итераций субградиентного алгоритма, а на второй стадии работает алгоритм поиска седловой точки. В некоторых случаях решение находится уже на первой стадии вычислений. В этом случае мы получаем (z⁰, ␭⁰) – ре%

шение задачи на минимакс. Для вычисления шага в субградиентном алгоритме решается двой%

ственная ей задача на максимин. После окончания первой фазы гибридного алгоритма имеются текущие значения z = z¹ в минимаксной и ␭ = ␭¹ в максиминной задаче. Точка (z¹, ␭¹) берется в качестве начальной во второй стадии вычислений.

Вектор ∂f(x) ∈⺢ⁿ называется субградиентом функции f(x) в точке x, если выполняется следую%

щее неравенство:

Суперградиентом вогнутой функции f(x) называется субградиент выпуклой функции – f(x) взятый с отрицательным знаком. Будем также обозначать через ∂f(x) суперградиент вогнутой функции f(x). Смысл обозначения будет ясен из выпуклости или вогнутости f(x).

Рассмотрим функцию

Предложение 2. Функция ϕ(␭) – вогнутая.

Доказательство предложения аналогично доказательству теоремы 1.

Итерация субградиентного алгоритма минимизации функции ψ(z) имеет вид

(19) где k – номер итерации, ∂ψ(z^k) – субградиент функции ψ(z) в точке z^k, πZ(z) – проекция точки z∈⺢ⁿ на множество Z = {0 ≤ z_j≤ 1, j = 1, 2, …, n}. Скалярные величины задают величину шагов.

Для вычисления используется оценка оптимального значения минимизируемой функции.

Опишем вычисление значения . Пусть нам известно минимальное значение ψ(z*), где z* – ре%

шение задачи (3), тогда согласно теореме 7.2 из [4] можно задать в виде

(20) Такой выбор гарантирует сходимость последовательности (19) к z*. В том случае, когда мини%

мальное значение не известно, предлагается использовать эвристику, в которой вместо мини%

мального значения функции используют нижнюю оценку для ψ(z*) (см. § 5.3 и § 7.2 в [4]). В [5]

показано, что если нижняя оценка строго меньше ψ(z*) и остается неизменной на всех итераци%

ях, то алгоритм гарантированно не сходится к решению. Поэтому нужно стремиться к получе%

нию как можно более точной нижней оценки для ψ(z*) в процессе итераций. Очевидно, что вы%

полняются соотношения

(21) Из (21) видно, что любое значение ϕ(␭) будет нижней оценкой для ψ(z*). Для получения все бо%

лее точной нижней оценки будем решать задачу максимизации функции ϕ(␭). Алгоритм супер%

градиентной максимизации вычисляет последовательность точек по формуле f x( +y)≥f x( )+y^т∂f x( ) ∀y∈Rⁿ.

ϕ( )␭ L z( ,␭),L z( ,␭)

z

min λi

1

j=1

∑

n

⎝ ⎠

⎜ ⎟

⎛ ⎞

λiλk k=1

∑

l i=1

∑

l

– A z_j, 0

j=1

∑

n ^{≤ ≤}^z^j ^1, ^j⁼ ^{1 2}^{, , ,}^… ⁿ

+

i=1

∑

l ^.

= =

z^k⁺¹ πZ z^k αk z∂ψ( )z^k

( – ),

=

αk z

αk

z ψ( ) ψz^k – ( )z*

∂ψ( )z^k ²

.

=

ψ( ) ϕz ≤ ( )␭ , ∀z∈Z, ␭∈Λ, ψ( )z* ψ( )z

z∈Z

min ϕ( )␭

␭∈Λ

max ϕ( )␭* .

= = =

␭^k⁺¹ π_Λ ␭^k αk

λ∂ϕ( )␭^k

( + ),

=

(8)

где ∂ϕ(␭^k) – суперградиент функции ϕ(␭) в точке ␭^k, π_Λ(␭) – проекция точки ␭∈⺢^l на множество Λ = { = 0, 0 ≤ λi≤ C, i = 1, 2, …, l}, – скалярные величины, задающие величину шагов.

Пусть ϕ^rec – максимальное значение ϕ(␭), достигнутое в процессе максимизации за k итера%

ций. Таким образом, ϕ^rec дает нам нижнюю оценку для ψ(z*) и мы имеем следующую формулу для параметра шага:

Аналогично получаем формулу, задающую величину шагов по λ:

где ψ^rec – минимальное значение ψ(z), достигнутое за k итераций.

Для вычисления ∂ψ(z) – субградиента функции ψ(z) в точке z необходимо получить ␭^max – реше%

ние следующей задачи:

и вычислить производную функции L(z, ␭^max) по z.

Формула для компоненты j субградиента ∂ψ(z) имеет вид

Для вычисления ∂ϕ(␭) – суперградиента функции ϕ(␭) в ␭ необходимо получить z^min – решение задачи линейного программирования

и вычислить производную функции L(z^min, ␭) по ␭. Формула для компоненты i суперградиента

∂ϕ(␭) имеет вид

Для нахождения z^min вычисляем коэффициенты линейной по z функции L(z, ␭):

и вычисляем = λiy_i

i=1

∑

l ^α^k^λ

αk

z ψ( ) ϕz^k – ^rec

∂ψ( )z^k ²

= .

αk

λ ψ^rec–ϕ( )␭^k

∂ϕ( )␭^k ²

,

=

L z( ,␭),L z( ,␭)

max␭ λi

1

j=1

∑

n

⎝ ⎠

⎜ ⎟

⎛ ⎞

λiλk A z_j,

j=1

∑

n

+

k=1

∑

l i=1

∑

l

–

i=1

∑

l

=

λiy_i

i=1

∑

l ⁼ ^0, ⁰^{≤ ≤}^λⁱ ^C, ⁱ ⁼ ^{1 2}^{, , ,}^… ^l,

∂ψ( )z

∂z_j

1

2 y_iy_kx_i^jx_k^jλi maxλk

max+A.

k=1

∑

l i=1

∑

l

–

=

L z( ,␭) minz

x ,L z( ,␭) λi

1

j=1

∑

n

⎝ ⎠

⎜ ⎟

⎛ ⎞

λiλk c z_j,

j=1

∑

n

+

k=1

∑

l i=1

∑

l

–

i=1

∑

l

=

0≤ ≤z_j 1, j = 1 2, , ,… n,

∂ϕ( )␭

∂λi

1 y_iy_k z_j^minx_i^jx_k^j

j=1

∑

n

⎝ ⎠

⎜ ⎟

⎛ ⎞

λk.

k=1

∑

l

–

=

p_j A 1

2 y_iy_kx_i^jx_k^jλiλk,

k=1

∑

l i=1

∑

l

–

=

z_j^min 1, p_j<0, 0, p_j≥0.

⎩⎨

⎧

(9)

Описанный субградиентный алгоритм содержит элемент эвристики при выборе параметра . Этот алгоритм может быть заменен на аналогичный, для которого доказана сходимость. В [5]

предложен субградиентный алгоритм, где параметр вычисляется по формуле

(22) При d ≥ψ(z*) последовательность z^k, вычисляемая по формулам (19), (22), сходится к точке z_d, в которой выполняется неравенство ψ(z_d) ≤ d. В этом случае параметр d считается “удачной” ап%

проксимацией оптимального значения функции ψ(z). При d < ψ(z*) последовательность z^k не сходится и d считается “неудачной” аппроксимацией. В алгоритме есть процедура, которая за конечное число шагов определяет факт “неудачной” аппроксимации. Алгоритм находит отре%

зок, левый конец которого есть “удачная”, а правый конец – “неудачная” аппроксимации d значения ψ(z*). Тогда методом деления отрезка вычисляется сколь угодно близкая аппроксима%

ция ψ(z*). Недостатком алгоритма является наличие “холостых” итераций, в которых устанавли%

вается факт “неудачной” аппроксимации d значения ψ(z*).

6. БЫСТРОЕ ВЫЧИСЛЕНИЕ ПРОЕКЦИЙ

Оценим эффективность алгоритма вычисления проекций Дейкстры при решении задачи вы%

бора признаков. В [1] описано быстрое вычисление проекции точки на множество Λ алгоритмом чередующихся проекций Дейкстры (см. [6]). Обычно для вычисления проекции на множество, задаваемое системой линейных ограничений, решается задача квадратичного программирова%

ния. Множество Λ является пересечением гиперплоскости куба:

(23) Алгоритм Дейкстры вычисляет проекцию точки на пересечение гиперплоскости куба с помо%

щью простых формул, в которых используются легко вычисляемые проекции отдельно на гипер%

плоскость и на куб. Проекция точки x₀∈⺢^M на гиперплоскость c^тx = 0, c ∈⺢^M, вычисляется по формуле

(24) Проекция точки на куб {0 ≤ λj≤ C, j = 1, 2, …, l} вычисляется по формуле

(25)

Алгоритм Дейкстры нахождения проекции точки x на множество Λ имеет вид

(26)

где k ≥ 1 – номер итерации алгоритма, A = { = 0}, B = {0 ≤ λj≤ C, j = 1, 2, …, l} и проекции πA и πB на множества A и B вычисляются по формулам (24) и (25). Последовательности a_k, b_k схо%

дятся к πΛ(x) – проекции точки x на множество Λ.

Число операций сложения и умножения на одной итерации алгоритма (26) равны, соответ%

ственно, 5l и (l + 1). В практических вычислениях обычно достаточно не более 10 итераций для αk

z

αk z

αk

z ψ( )z^k –d

∂ψ( )z^k ²

.

=

Λ ␭ λiy_i

i=1 l

∑

⁼ ^{0 0}^, ^{≤ ≤}^λⁱ ^{C i}^, ⁼ ^{1 2}^{, , ,}^… ^l

⎩ ⎭

⎨ ⎬

⎧ ⎫

= .

x₀^pr x₀ c^тx₀ c^тc –c.

=

␭ˆ

λj pr

0, λˆ

j<0, λˆ

j, 0 λˆ

j C, j

≤ ≤ = 1 2, , ,… l.

C, λˆ

j>C,

⎩⎪

⎨⎪

⎧

=

b₀ = x, q₀ = 0, a_k = πA(b_k_–₁),

b_k = πB(a_k+q_k_–₁), q_k = a_k+q_k_–₁–b_k, Σj=1

l λjy_j

(10)

нахождения проекции на множество Λ с точностью 10^–10. Таким образом, можно считать, что для вычисления проекции необходимо 50l операций сложения и 10(l + 1) операций умножения. При подсчете числа операций сложения и умножения на одной итерации алгоритма (26) предполага%

ется, что вычисление проекции на куб не требует операций сложения или умножения. Для оцен%

ки вычислительной эффективности применения алгоритма Дейкстры была проведена серия экспериментов. В каждом эксперименте для различных значений объема выборки l и размерно%

сти n два раза решалась задача выбора признаков (1), (2). Первый раз для вычисления проекций использовался алгоритм Дейкстры, во второй раз применялся алгоритм квадратичного програм%

мирования. Алгоритм квадратичного программирования являлся реализацией метода внутрен%

ней точки (см. [7]). Искусственным способом было сделано так, чтобы во всех экспериментах ал%

горитм решения задачи выполнял 300 итераций субградиентного и 1000 итераций седлового ал%

горитмов. Измерялось время, которое затрачивалось на суммарные 1300 итераций гибридного алгоритма. Подчеркнем, что не анализировалось качество получаемых решений задачи выбора признаков. Обучающая модельная выборка была сгенерированна согласно работе [8]. Хотя в данном эксперименте также не имело значения происхождения обучающей выборки. При опре%

деленных значениях l и n операция вычисления проекции выполнялась определенное число раз вне зависимости от состава обучающей выборки. Из определения (23) множества Λ видно, что затрачиваемое время для вычисления проекции на множество Λ не зависит от размерности n. Ру%

ководствуясь данным соображением, в экспериментах выбирали небольшие значения размерно%

сти n. Количество арифметических операций при вычислении проекции алгоритмом квадратич%

ного программирования можно оценить снизу величиной порядка O(l^4.5) (см. [7]). Таким обра%

зом, скорость вычисления проекции алгоритмом Дейкстры можно оценить, как более высокую в O(l^3.5) раз. В таблице приведены результаты экспериментов.

В первой колонке указан номер эксперимента, во второй – размерность пространства n, в тре%

тьей – объем обучающей выборки l; в последней колонке таблицы вычислено, во сколько раз уменьшается время решения задачи выбора признаков гибридным алгоритмом за счет примене%

ния алгоритма Дейкстры. Например, в пятом эксперименте время решения задачи выбора при%

знаков уменьшается в 1.27 раз за счет применения алгоритма Дейкстры. Видно, что алгоритм Дейкстры позволяет сокращать общее время работы гибридного алгоритма.

СПИСОК ЛИТЕРАТУРЫ

1. Гончаров Ю.В., Мучник И.Б., Шварцер Л.В. Алгоритм выбора признаков в задаче обучения классифи%

кации методом опорных векторов // Ж. вычисл. матем. и матем. физ. 2008. Т. 48. № 7. С. 1318–1336.

2. Демьянов В.Ф., Малоземов В.Н. Введение в минимакс. М.: Наука, 1972.

3. Goncharov Y., Muchnik I., Shvartser L. Simultaneous feature selection and margin maximization using saddle point approach // DIMACS Techn. Rept. 2004. № 2004%08.

Таблица

Эксперимент n l QP/Dykstra

1 1 113 2.20

2 5 124 1.43

3 2 129 1.67

4 2 135 1.60

5 7 136 1.27

6 4 140 1.41

7 2 187 1.39

8 1 196 1.50

9 1 202 1.62

10 5 224 1.20

11 3 226 1.27

12 1 227 1.71

(11)

4. Поляк Б.Т. Введение в оптимизацию. М.: Наука, 1983.

5. Combettes P., Luo J. An adaptive level set method for nondifferentiable constrained image recovery // IEEE Trans. Image Processing. 2002. V. 11. P. 1295–1304.

6. Bauschke H.H., Borwein J.M. Dykstra’s alternating projection algorithm for two sets // J. Approximat. Theory.

1994. V. 79. № 3. P. 418–443.

7. Измайлов А.Ф., Солодов М.Ф. Численные методы оптимизации. М.: Физматлит, 2005.

8. Weston J., Mukherjee S., Chapelle O. et al. Feature selection for SVMs // Advances in Neural Information Pro%

cessing Systems. 2000. V. 13. P. 668–674.

Сдано в набор 12.01.2010 г. Подписано к печати 29.03.2010 г. Формат бумаги 60 × 88¹/₈ Цифровая печать Усл. печ. л. 24.0 Усл. кр.%отт. 5.8 тыс. Уч.%изд. л. 24.0 Бум. л. 12.0

Тираж 235 экз. Зак. 220

Учредители: Российская академия наук, Вычислительный центр им. А.А. Дородницына РАН Издатель: Российская академия наук. Издательство “Наука”, 117997, Москва, Профсоюзная ул., 90

Оригинал%макет подготовлен МАИК “Наука/Интерпериодика”