Math-Net.Ru
Общероссийский математический портал
Л. В. Канторович, О методе Ньютона, Тр. МИАН СССР, 1949, том 28, 104–144
Использование Общероссийского математического портала Math-Net.Ru подразуме- вает, что вы прочитали и согласны с пользовательским соглашением
http://www.mathnet.ru/rus/agreement Параметры загрузки:
IP: 139.59.245.186
6 ноября 2022 г., 06:59:18
М А Т Е М А Т И Ч Е С К О Г О И Н С Т И Т У Т А И М Е Н И В. А. С Т Е К Л О В А 1949 г., том XXVIII
Л. В. КАНТОРОВИЧ О МЕТОДЕ НЬЮТОНА
Одним из наиболее эффективных методов нахождения корней алге
браических уравнений в случае, когда для корня известно приближен
ное значение, является метод Ньютона, иногда называемый также методом касательных. В этом методе последовательные приближения определяются формулами вида:
Сходимость этого метода была исследована Коши, а затем А. Ost
rowski t1"3] .
Этот метод был распространен на системы алгебраических уравне
ний. Условия сходимости его для этого случая были даны Willers [4], Стениным [5], Ostrowski [6].
Однако оказывается возможным применить этот метод и для слу
чая любых нелинейных уравнений. В частности, по моему предложе
нию, для случая нелинейных интегральных уравнений он был приме
нен Д. М. Загадским [7'8].
Чтобы охватить одновременно все случаи, наиболее удобно развить его и исследовать в общем виде — для любых функциональных урав
нений. С целью облегчить чтение работы читателю, незнакомому с тео
рией операций, в § 1—3 мы приводим те сведения, которые для нас существенны.
В § 4 излагается основная теорема о сходимости процесса Ньютона.
В ней даются, в некотором смысле, окончательные условия сходи
мости метода и устанавливается быстрота сходимости. Эта теорема представляет одновременно некоторую теорему существования и един
ственности для нелинейных уравнений, а потому имеет и чисто теоре
тический интерес.
В § 5 изложен модифицированный метод, имеющий в некоторых случаях определенное преимущество.
В § 6 даны применения метода к алгебраическим уравнениям и систе
мам, а в § 7 к нелинейным интегральным уравнениям; § 8 содержит изложение некоторого метода нахождения собственных чисел и векторов, получающегося в результате применения к этой задаче про
цесса Ньютона.
§ 1. Линейные функциональные операции*
Линейным нормированным пространством называется линейное или векториальное множество, т. е. множество X = {х} элементов любой природы, для которых определены операции сложения х+у и умно
жения элемента на вещественное число X*, подчиненные обычным законам алгебры, а также определена норма элемента || х ||—число", обладающее обычными свойствами длины вектора.
Точнее говоря, для нормы должны быть удовлетворены следующие условия:
1) Il x II > 0 и II x II = 0 тогда и только тогда, когда х = 0;
2 ) | | * + Я 1 < И*Н +
IIIii
3)Ц А* И =
I
XI
| U | | .Наличие нормы позволяет определить понятие сходимости: говорят, что хп х, или lim хп = х, если || хп — х || - > 0 при п -> ос. Пространство
П - > OD
называется полным или типа В (по имени С. Банаха), если для схо
димости выполнен принцип Коши, т. е. из того, что lim ||л:я — х , || = 0 »
равномерно относительно р следует сходимость последовательности к некоторому элементу х, т. е. хп->х. Приведем примеры пространств, которыми нам придется пользоваться.
1. Множества вещественных или комплексных чисел представляют очевидным образом пространства типа S, если операции х+у и Хх определить как обычно для чисел и за норму принять модуль числа, т. е. H x II = I x I.
2. Пространство Эвклида кп или, что то же самое, пространство я-мерных векторов
представляет пространство типа В, если операции х+у и Хл: произ
водить, как обычно, для векторов (по компонентам), а в качестве нормы принять длину вектора
и * » - K ( W + ( W + ...+(s
( n ))
2-
3. Из тех же элементов, что и в предыдущем примере, мы можем образовать другое пространство пгп, определив иным образом норму — взяв в качестве нее максимальную из абсолютных величин ком
понент
| | * | | = max
I
* По поводу основных понятий функционального анализа см., например, статьк>
Л. А. Люстерника [9].
Очевидно, и в этом случае все условия будут соблюдены. В част
ности, пространство будет полным и сходимость последовательности хт^х будет означать здесь, также как и в предыдущем случае,
покоординатную сходимость: -> при оо {i = 1, 2 , . . .
4. Пространство С непрерывных функций, определенных в неко
тором промежутке (а, Ь), где принята норма Il x Н = m a x I x{t) I .
Это также полное пространство и сходимость в нем есть равно
мерная сходимость: хп -> х означает, что последовательность функций xn(t) равномерно сходится к x(t).
5 . Пространство L2 интегрируемых с" квадратом функций, опреде
ленных в промежутке (а, Ь), где норма
а сходимость означает сходимость в среднем.
Операцией, переводящей одно такое пространство X в другое К, или оператором, называется функция y = U (х), которая каждому элементу х пространства X относит элемент у пространства Y.
В частности, если Y — пространство вещественных чисел, то операция называется функционалом. Операция у = U (х) называется линейной, если она аддитивна:
U{x1 + x2) = U{x1) + U{x2)
и непрерывна, т. е. если U(xn)-*U{x) при хп->х. Линейная операция однородна. Это означает, что U (Ах) = At/ (л:).
Вместо непрерывности можно поставить равносильное условие — наличие такой постоянной С, что
1 1 £ / ( * ) 1 1 < С | | * | | .
Наименьшая постоянная С, обеспечивающая выполнение этого неравенства, называется нормой данной линейной операции и обозна
чается H U II .
Отметим основное неравенство
II U (х) | | < II £ / II -11*11. (1) Множество линейных операций, переводящих X в К, будем обо
значать (X->Y); оно само представляет также линейное множество и полное нормированное пространство, если норму || U || определить, как указано выше.
Оператором, обратным данному у = £/ (х), называется оператор х= U~~x (у), отображающий Y в X такого рода, что
Такой обратный оператор существует не всегда. Отметим случай, когда его существование обеспечено, С. Банах [1 0].
Если U — линейный оператор, отображающий X в X с нормой
\\и\\<\
и / — тождественный оператор в X, т. е. Ix = х, то оператор / — U имеет обратный и при этом
Д ( / - £ / Гд1 1 < - (2)
Для доказательства рассмотрим оператор Hx = x + Ux + U2x + . . .
Этот ряд сходится и определяет линейный оператор, так как мы имеем:
l l ^ n < i i * i i +
e t / i H i * l i t l i t / i n i * i i + - > - < ll \ \
J li l l f f K i z T O T «
Далее, очевидно,
(I-U)Hx = (x + Ux + U2x + ...) —(Ux + U2x + ...) = x, a это показывает, что H есть оператор, обратный / — U. Итак,
(1-иГ
1=Н;
11 ( / - t / Г1 11 ==11 Я [1 < lJ
l u^ .
Приведем некоторые примеры линейных операций.
П р и м е р 1. Рассмотрим линейные операции у = U(х), переводя
щие пространство Х = тпв K = mv. Введем элементы хг = ( 1 , 0 , 0 , . . . ,0),
*2 5 = 8 (0, 1 , 0 , . . . , 0 ) , . . . , хп = (0, 0, 0 , . . . . 1) и пусть
yt = U (xt) = (ап, ai2,..., af V) Ii = 1, 2 , . . . , n).
Тогда для любого
* _ - ( Ç< 4. . . , Ç W ) - имеем:
^ - У ( * ) - ( ч
( , ), ч ® . . . , ^ (3)
где
л
1( / )=
SfrA*
0 ( j = l , 2 , . . . , v ) . г = 1Таким образом, операция U есть линейное преобразование, опреде
ляемое матрицей
А = Н а ,у И (/ = 1 , . . . , nt j = 1 , . . . , v).
Покажем теперь, что норма этой операции определяется так:
| | £ / [ | = m a x 2 U / ; l • (4)
Действительно, имеем:
п
IIУ II = II U (х) И - max | т )( / ) | = max
2
5( 0 ац << max I I max
2
I au
I = m a x2
I au
I ) II * II •Отсюда, собственно, ^следует, что || U || не превосходит правой части (4), но легко проверить, что удовлетворяется и равенство.
Из (4) следует, очевидно, оценка
WUWKnL; Z = max | аи | . (4а)
П р и м е'р 2. Рассмотрим случай, когда X = Rn, Y = Rs — эвклидовы пространства. В'этом случае линейная операция дается в той же форме линейного преобразования (3) и лишь норма ее определяется иным образом. Можно показать, что в случае/ когда матрица А сим
метрична,
Н£Л1 = | ЛЛ| , (5)
где Ап — наибольшее по модулю собственное значение этой матрицы.
В случае, если матрица А не симметрична, то
II и и = VÄ
ny(6)
где Ал — наибольшее собственное значение матрицы АА*. Эти факты легко получаются на основании теорем об экстремальных свойствах собственных значений матриц, устанавливаемых в алгебре, Глибо на основании соображений, подобных приведенным ниже, при рассмотре
нии примера 5.
Кроме точного выражения нормы, может оказаться полезной и следующая оценка ее:
II U \ \ < [
il S
а,А 1 .
(7)Последняя устанавливается так:
' S 2 ß i/ ) l U ! l2.
чу = i * = i /
П р и м е р 3. Рассмотрим линейные операции в пространстве комп
лексных чисел Х = {х}; х = хг + ix2. Такая операция, вообще говоря, определяется некоторой матрицей, но мы ограничимся операциями частного вида:
у = и
(x) = wx, (8)где w — комплексное число. Тогда очевидно, что
\ y \ ~ l w \ \ x \ .
Так как в данном случае норма элемента равна модулю числа, то, очевидно,
Il U II = I w I . (9)
П р и м е р 4. Рассмотрим операции, отображающие С в С. Здесь мы ограничимся только операциями интегрального типа:
i
v = U (x); у (s) = \ К (5, t)x(t) dt, (10)
о
*
причем K(s,f) считаем непрерывным. Эта операция, очевидно адди
тивна. Оценим ее норму:
i
l\y\\ = max \y(s) | = т а х | \K(S, t)x(t)dt\^
s s о
< II x II max \ I К (s, t) \ dt.
C L < * < i ( f
Мы видим, что норма U не превосходит второго множителя, но нетрудно показать, что она равна ему:
i
И = m a x Л \K(s,t)\dt. (11)
0 < 5 < 1 о
В частности,
Il U II < Ж , если I К (s, t) I < Ж . (Па) П р и м е р 5 . Пусть теперь X = Y = £2 есть пространство интегри
руемых с квадратом функций. Ограничимся рассмотрением только операций частного вида:
i
y(s) = x(s) — \ К (s, t) x {t) dt, (12)
о
сначала для случая, когда ядро K(s,t) симметрично.
Обозначим через X, собственные числа ядра К (s, t), и через ^(t) — собственные функции его. Дополним систему функций {<&(£)} функ
циями 90 {t), 9_х (t),... так, чтобы в результате получилась полная система в L2. При этом будем считать Х0 = Х _х = Х _2 = . . . = оо. Далее обозначим через и ч\г коэффициенты Фурье функций x (t) YL у (t) по системе Тогда, подставляя билинейное разложение для К и разло
жения для х и у
= 2 "У* ; * W = 2 * л ( 0 ; .v 0 ) = 2 W
в выражение оператора (12), найдем:
Ч| = 5|
Отсюда ясно, что, принимая L равным точной верхней границе чисел
имеем:
и (х) и * = и у и г = 2 v = 2 0 - i )
2v <^ 2 v = £
2и х и«.
Следовательно, в данном случае
H £ / | | < I = sup 1 (13)
Если I К (s, t) I < M, то из I \ I >-JJ. следует неравенство:
| | ü | | < l + A f . (13а) Также легко оценить отсюда и норму обратного оператора. Дейст
вительно, имеем:
* Ö 2 =
2 V = 2
iгде 1х = sup
0 4 )
Следовательно,
' - v i
II
IT
1 II Ix = sup 1 l —(14)
где
В случае несимметричного ядра К (s, t) легко убедиться, что
J
у* {s) ds = \ x2(s) & — J J ( и , О ж
(a) x (t) du dt,К ( и , t) =*K(a,t) + K (t, и ) - \ к (s, t) К (s, и) ds. (15) Поэтому, если через Л, обозначить собственные числа симметричного ядра К (и, t), то, рассуждая как и выше, найдем:
L T1 H < sup
1 V\4iï
( 1 6 )
(17)
§ 2 . Билинейные операции Рассмотрим линейную операцию
и = В(х),
переводящую пространство X в пространство линейных операций, отображающих Л' в К, т. е. и6 {X^Y}. Вычислим ее значение для произвольного элемента х' 6 X. Тогда, полагая
В(х9х') = и(х') = В(х)(х'), (1)
получаем, очевидно, операцию, определенную для пары элементов х и х\ аддитивную по каждому аргументу и такую, что
II В(х, х') И < И в II II х' и < Ц В II И x II И x' II . (2>
Операция, удовлетворяющая последним условиям, называется били
нейной, а наименьший допустимый постоянный множитель в нера
венстве типа (2) —ее нормой.
Обратно, пусть дана некоторая билинейная операция В (х, л;%
аддитивная по обоим аргументам и удовлетворяющая условию
\\В(х,х')\\^С\\хЦ \1х'\\..
Тогда ясно, что при х постоянном В(х} х') представляет некоторую*
линейную операцию и(х'), переводящую X в Y. Полагая В(х) = и, имеем:
\\В(х)\\ = \\и\\^С\\х\\.
При этом, так как В(х) — аддитивная операция от х, тои=В{#) есть линейная операция, отображающая X в {X->Y) с нормой | | ß | | * < C - Таким образом, из сказанного ясно, что по существу эквивалентно рассматривать В как операцию, отображающую X в (X-+Y) или как билинейную. Значение нормы в обоих случаях также одно и то же..
Приведем примеры билинейных операций.
П р и м е р 1. Рассмотрим билинейную операцию, переводящую пространство Х=гпп в Y = #zv. Легко усмотреть, что она имеет вид:
у = В(х9хГ)=\%аилЬу\ , (3>
4 , 7 = 1 J * = l , 2 N
т. е. ее значение есть вектор у, компоненты которого — квадратичные формы. Ясно, что
\\У\\ = \\В{х,х')\\ = ш а х
k
откуда следует, что
I I B I K m a x 2 \*цк\<п*М9 (4)
* * - , / = *
где 1 ацк I < М. Однако эти оценки не дают точного значения нормы^
2 amlilj max
к 1,1=1
au* 1 ) Il x H II x' II
П р и м е р 2. Билинейная операция, отображающая Rn в / ?v, имеет тот же вид, что и в предыдущем случае. Однако норма ее опреде
ляется и оценивается иначе.
Именно:
2 */**<V
Отсюда
l>)tl v H4i*-)(i b , )(J v )
IJ,II*=IIB (X,^)II«=2(S
a^ / f < 2 S н * и * u *'н
и, следовательно
2
ß n < ( 2 2
ÖÜ <»v^.
\ft=i i9 / = i /
(5)
если все | aj i f e | < £ .
П р и м е р 3. Если X и К — пространства комплексных чисел, то примером билинейной операции будет операция вида:
у = в
(х, х*) = wxx', (6)где w — комплексное число. Легко убедиться, что для такой операции
II В II == I w
I .
(7)П р и м е р 4. Примером билинейной операции, отображающей С в С, является интегральная операция вида:
у = В(х,х'); y{s)= J ^K(s,t,u)x{t)x' {и) dt du. (8) i i
S S
о о Ее норма оценивается так:
i i
II filKsupJ ^\K{s,t,u)\dtdu^M, (9)
s о о
если I К {sу t, и) I < М.
П р и м е р 5. Ту же операцию (8) можно рассматривать как опера
цию, отображающую L2 в L2. В этом случае ее норма может быть оценена так:
в\ \ < \ \ \ [K
щ
2(s,t,u)dsdtdu\ • (10)Lo о о
§ 3 . Дифференцирование нелинейных операций Пусть
У = Р(х)
-—нелинейная операция, переводящая пространство X в У. Говорят что она дифференцируема (в смысле Eréchet [u] ) при данном значе
нии х, если имеется такая линейная операция U€(X->Y)9 что
II [Р(х + Ах)-Р{х)] - U (Ах) И < H àx H е( H àx » ); ( l ) здесь s (8) — функция, стремящаяся к нулю, когда 8 - * 0 . Эту опера
цию U называют производной для операции Р(х) при данном х:
P'(x) = U. (2)
Как сказано, F (х) есть элемент пространства {Х-> Y).
В свою очередь, U = Р1 (х) есть нелинейная операция, переводящая пространство X в пространство (X-*>Y). Она также может оказаться дифференцируемой. Ее производная называется по отношению к нели
нейной операции Р(х) второй производной:
V = [P(x))' = Р"(х). (3) Эта вторая производная представляет элемент пространства
[Х-*-(XY)], т. е. пространства линейных операций, переводящих X в (X-±Y)» Как мы видели (§ 2), рассмотрение такой операции экви
валентно рассмотрению билинейной операции, отображающей прост
ранства X в К, так что Р"(х) можно рассматривать как такую би
линейную операцию. В соответствии с этим под || Р\(х) || и || Р"(х) \\
следует понимать нормы, взятые соответственно в пространствах (X-+Y) или [X-*(X-*Y)\. (См. Гавурин М . К. [17]).
Отметим некоторые предложения о производных, которыми нам придется пользоваться.
1. Если у = 9 (x), a z = F {у) = Р[у{х)]9 причем функции у и F дифференцируемы, то
fr w i f м- w
Здесь следует разуметь, что написанные рядом линейные операции J y - и d-~- должны применяться последовательно (правило дифферен
цирования сложной функции).
Это правило устанавливается так же, как в случае обычных про
изводных функций одного или нескольких переменных.
2. Если у == Р (х) — линейная операция, отображающая X в К, то, очевидно,
Р(х) = Р; Р"(*) = 0, (5) т. е. производная линейной операции совпадает с ней самой.
8 Т р у д ы м а т е м а т . и н - т а
3. Если U —• линейная операция, отображающая Y в Z , то
[LT (Р ( * ) ) ] ' = t f ( P ' ( * ) ) , (6) т. е. постоянную операцию можно выносить за знак производной.
Это вытекает сразу из правил 1 и 2. При этом
U{P' (x))=V£{X->Z) и ! / ( * ' ) = £/[(/>' (*))(*')].
4. Если Р (я) — дифференцируемая операция, то справедливо нера
венство [1 2]:
II Р
(Je
+ Ад:) - Р (x) H < sup II Р (x) II » Их || , (7)3 T = x + 6 A x ;
0 < 6 < 1 ,представляющее оценку приращения, подобную той, которая для обычной функции получается из формулы конечных приращений.
Для доказательства положим:
Р{х + Ах) — Р(х) = у1
и подберем, что всегда возможно [9], такой линейный функционал Т в пространстве Г, для которого
II ГЦ = 1 ; Т{у) = \ \ у \ \ .
Рассмотрим вещественную функцию вещественного переменного U f(t)=T[P(x + tAx)].
Для ее производной, пользуясь при дифференцировании правилами 1 и 3, находим выражение:
/'(t) = TP1 (x + tax) Ax.
Далее, пользуясь определением f(t) и применяя обычную формулу конечных приращений, имеем:
Т{у) = Т [Р (х + Ах) - Р (x)) = f (1 ) - / (0) = / ' (в) = • TP (х + QAx) Ах.
Отсюда ясно, что
\\Р(х + Ах)-Р(х) II = \\У\\ =Т(у)<С
< II 741 \\ Р'(x + QAx) \\ II Ад: | | < sup | | Р ' И II IIд * I I, 0 < 6 < 1 . x = x + QAx.
5. Если Р(х) — дважды дифференцируемая функция, то справедливо следующее неравенство:
H р { х + Ах)-Р (х) - Р (х) Ах | | < i sup||P" (х) И H Ах II 2, (8) x = x + QAx,
связанное с формулой Тэйлора, подобно тому, как предыдущее свя
зано с формулой конечных приращений.
Доказательство проводится аналогично предыдущему. Обозначая через у элемент в левой части (8), норму которого надлежит оценить, вводим такой линейный функционал Г, что [| Т\\ = 1 и Т (у) = \\у\\.
Далее строим вспомогательную функцию
f(t) = T[P(x + tAx)].
Для нее
f ( t ) = T[P,(x + tAx)Ax]f f * ( ? ; ) = Г [Pf ' (x + tAx) AxAx]f
где выражение в квадратных скобках означает, что билинейная опе
рация Рп (х + tax) должна быть вычислена от пары аргументов, рав
ных Ад:. Теперь, применяя обычную формулу Тэйлора, находим, что
\\Р(х + Ах)-Р{х)-Р<{х)Ах\\ = \\у\\ = Т{у)=
= / ( 1 ) - / (0) - / ' ( 0 ) = (8) < i К Г H sup H P"{x+tAx) \\\\ Ах I I * ;
0 < * < 1 . "
Приведем теперь некоторые примеры на дифференцирование опе
раций.
П р и м е р 1. Рассмотрим нелинейную операцию, переводящую я-мерное пространство в v-мерное. Она определяется совокупностью v функций от п переменных:
j / = P ( * ) ,
^ / ^ х Д ^ . - Л ) ,
( * = l , 2 , . . . , v ) . (9) Будем предполагать, что функции fk имеют непрерывные частные производные 2-го порядка. Тогда для дифференциалов имеем:^ = 2 ^ 7 ^ (* = l , 2 , . . . , v ) , (10)
а приращение Ау = { A T JÄ}Ä=1)2, . . . , V выражается такой же системой форм от дифференциалов с точностью до бесконечно-малых высших поряд
ков. Отсюда ясно, что в данном случае Р' {х) дается матрицей част
ных производных:
dfk (И)
/ = = 1 , 2 , n v
A r = l , 2 , v
точнее говоря, Pf (x) есть линейное преобразование, соответствующее этой матрице [ср. § 1, (2)].
Аналогичном образом рассматривая приращение Р'(х) при прира
щении аргумента Ах' = ( А ^ ' , . . . , АСЛ'), убедимся, что вторая производ
ная определяется матрицей, зависящей от трех индексов:
Р" (х) =
A l l (
12)
dÇ/dÇy / , / = 1 , 2 л '
J Ä = l , 2 , . . . , v 8*
Если рассматривать ее как билинейную операцию, то она будет опре
деляться системой v билинейных форм:
Ч * - 1 °чиЧ >k=l,2, . . . . v
При выборе определенной нормы в /i-мерных пространствах, соот
ветствующих нормировке R" или тп> можно на основании результа
тов § § 1 и 2 указать оценки для || Р (x) II и || Р" (x) II .
П р и м е р 2. Если в пространстве комплексных чисел рассмотреть аналитическую функцию
У = Р{*)>
то в данном случае
Ду = р '
(х) Ахс точностью до бесконечно малых высшего порядка, поэтому опера
ция Р' (х) есть умножение на комплексное число Р' (x), а норма ее
II Р Ч * ) II = I Р{х) I . (14)
Таким же образом в данном случае и вторая производная совпа
дает с обычной второй производной, если последнюю рассматривать как билинейную операцию над парой комплексных чисел Рп(х)*х*х'*
П р и м е р 3 . Рассмотрим нелинейную интегральную операцию:
У=Р(х); y(s) = JK(s,t,x(t))dt, (15)
о
где К (s, t, и) — дважды непрерывно-дифференцируемая функция своих аргументов. Тогда, с точностью до малых высших порядков, имеем
i
АУ (S) = J Кх (s, t, x (t)) Ax (t) dt,
о
откуда ясно, что Р' (х) в данном случае есть линейная интегральная операция с ядром К (s, t) = Кх* (s, t, x (t)):
i i
P ' (x) Ax=\K (s, t) Ax (t) dt = J K* (s 11; x (t)) Ax (t) dt. ( 1 6 )
о 0
Придавая теперь x(t) приращение A'x(t), убеждаемся в том, что с точностью до малых высших порядков
[Pr (x + А'х) - Р* (х)] Ах = [АР' (x)] Ах=
J
К* (s, *, x (t)) А'х (t) Ах (t) dt,о
откуда ясно, что вторая производная в данном случае есть билиней
ная интегральная операция специального вида:
i
Р " (х) Ах Ах' = J Кг (S, t) Ах (t) А'х (t) dt,
о
гле
^ ( М ) = ^ ( 5, / , х й ) . ( 1 7 )
§ 4 . Сходимость процесса Ньютона
Рассмотрим применение процесса Ньютона к нелинейному функци
ональному уравнению
/>(*)=» 0, (1) где Р (л) — операция, переводящая пространство X в Y, которая пред
полагается дважды дифференцируемой. Формулы, связывающие после
довательные приближения, строятся на основании соображений, ана
логичных тому, как это делается в случае вещественных уравнений.
Пусть х0 — начальное приближение к решению. Заменяя прираще
ния Р(х) — Р(х0) на дифференциал в точке х0, заменим данное урав
нение приближенно на линейное:
Р(х)хР(xQ) + Р' (х0) (х-х0) = 0. (2) Решение хг этого уравнения и дает новое приближенное значение
корня. Если оператор Р'{х0) имеет обратный [Pf ( х0) ] -1€ ( }г- > А ' ) , то, пользуясь им, выражение хг можно получить в явном виде. Действи
тельно, применяя указанный оператор [Р* {х0)]-х к обеим частям равенства (2), найдем:
Xi = xQ-[P'(x0)]-*P(x0). (3)
Аналогичным образом выражаются последовательно одно через другое и дальнейшие приближения:
xn+1 = xn^[Pf(xn)]^P(xn). (4)
Условия сходимости последовательности хп к точному , решению уравнения (1) и одновременно достаточные условия для существова
ния этого решения даются следующей теоремой.
Теорема 1. О с у щ е с т в о в а н и и р е ш е н и я и о с х о д и м о с т и п р о ц е с с а Н ь ю т о н а . Пусть еыполнены следующие условия:
1) для элемента х0 — начального приближения, Р' (х0) — опера
тору отображающий X в Y, имеет обратный Г0 = [Р* (х^]"1, и известна оценка для его нормы:
1 1 Г0У < Я0; (5)
2) элемент х0 удовлетворяет приближенно уравнению (1), при
чем известна оценка выражения Т0Р(х0):
1 1 Г0Р ( х0) | | < ч0; (6)
3) вторая производная Р" (х) ограничена в интересующей нас области, определяемой неравенством (9), именно:
\\Р"(х)\\<К\ (7)
4) постоянные BQ, TQ0, К удовлетворяют соотношению
ho = B0i\QK<j. ( 8 )
Тогда уравнение (1) имеет решение х*, которое находится в области вблизи xQ, определяемой неравенством
Il x*-х0 II <W( А0)Y Î0 = l - V \ - 2 h . ^9 (g) и последовательные приближения процесса Ньютона хп сходятся
к нему, причем быстрота сходимости характеризуется оценкой:
\\x
n^x*\\<-^
r(2h
0)^
ly
lo. (Ю)
Д о к а з а т е л ь с т в о . Введем обозначение:
Р0(х) = х-Г0Р(х). (11)
Пользуясь им, соотношение (3), связывающее хх и хй, можем записать так:
* i = *о - 1р' (*о)1-1 Р (*о) = Л> (*„)• ( 12) Покажем, что когда мы переходим от значения х0 к хъ все условия 1—4 будут выполняться попрежнему. Прежде всего имеем:
l l * i - * o I I = 1 1 Г0Р( *0) 1 1< Ч о - (13) Далее, применяя аналог формулы Лагранжа (§ 3 (7)) к Р' (х), полу
чаем оценку для нормы следующего оператора, переводящего X вХ:
II Г0 [Р' (х0) - Р' (хх)] И < В0 sup И Р" (х) И Н хг - х01|< В0 Къ = К < h
х = хг + Ъ(х0 — хг). (14)
Отсюда на основании предложения С Банаха [§ 1, (2)] следует, что существует обратный оператор
Я = [ / - Г0( Р Ч х0) - Р ' ( * , ) ) ] - ! ,
где / — единичный оператор, отображающий X в X, я что для его нормы справедлива оценка
1!^11 <г4л
0- (15)
Отсюда, полагая 1\ = НТ0 и пользуясь для операторов правилом [AB]-1 = В-1 А-1, находим:
Г, = Я Г0 = { / - Г0 [Р1 (х0) - Р' (x,)}}-1 [Р1 ( х0) ] - 1 =
= {Р' (х0) (I - Г0[Р' (х0) - Р> (х,)])}-1 = [Р' (Ь)]-1,
что и доказывает существование этого обратного оператора. При этом, на основании неравенства (15), получаем оценку для него:
II
т
г il =и
[Р9Ю Г
il < ^ =в
г.
(16)Условие 1 проверено.
Теперь, пользуясь тем, что
/ У( * о ) = / - Г0Р ' ( * о ) = 0 (17)
(на основании правил 2 и 3 § 3), а также используя (11) для х — х1У имеем:
- Г0 Р (хг) - F0 (хг) - F0 (х0) - F0' (х0) (хг - х0).
Тогда, применяя для Р = F0 и àx = хг — х0 аналог формулы Тэйлора (8)
§ 3, находим:
II Г0Р (хг) II < Isup II / V (x) Il II xl-x0 H2 =
= i-sup II Г0Р"(х) » II х г- х0 II 2<^В0Кг\о2= ~/1оЪг (18) (х = х0 + Ь(х1 — х0)).
Наконец, пользуясь (15) и (18), имеем:
II ГгР(х,) II = II НТ0Р(хг) If < II Я H II Г0Р(Х1) II < у n z ro = %. (19) Условие 3 будет выполнено для точки х1У так как соответствующая ей сфера, как мы убедимся ниже, не выходит за пределы сферы, определяемой неравенством (9).
Наконец, непосредственно проверяем и условие 4, пользуясь (16) и (19). Действительно,
A
1= ^ = Ä i Ä
0^ = 2 i r ^ <
2 Äo
2< \> ( 2 0 )
так как
А
0<; .
Итак, для х = хг выполнены условия вида условий 1—4 с заме
ной чисел B0f f]0 и А0 на Blt % и й2. Это дает возможность продолжать последовательное определение элементов хп и связанных с ними чисел Вю г\п и Ал, которые будут связаны друг с другом формулами, аналогичными (13), (16), (19) и ( 2 0 ) .
II хп — Хп+\ II < * ] / . ; (13а)
^ = 1 т ^ 7 ' (1 9 А>
Л - 1 /
Далее для них будем иметь следующие оценки:
A2< 2 Ä1 2< 8 A0 4; А л < ^ ( 2 А0)2 Л; (21)
г1п= Y _"П 1 *]я-1 ^ АЯ- 1 у\п-\ <С • • • Ar t_iAr t-2 • . . А0 г\0 <^
< ^ r ( 2 Ä o )2" 1 (2Ä0)2" 2. . . ( 2 А0) т )0< ^ ( 2 А0) *я 1 щ. (22) Наконец, отметим следующее тождество
4„N(ha)-rin+lN(hn+l)=yiat (23)
которое проверяется непосредственным вычислением:
"л+1
2 ( 1 - Ä „ )a 1 — hn — V~l —2hn Kri. .
= ^ ^ =4nN(hn) - v
Используя (13a), (23) и (22), находим:
II хя + /, — . * „ H < II A V H — *л II + II хя + 2 — xn+i II + . . . + II xn+P —
— Xn+p-\ l l < Чя + %-н + . . . + = N (Ая) % —
- W (hn+p)>qn+p < W (Ая) % < 2% < - j l p (2Ä0) V (24) Это доказывает существование предела
lim хп = х*. (25)
Отсюда также, беря р - * о о , устанавливаем справедливость неравен
ства (10) и, беря затем # = 0, — и справедливость (9).
То обстоятельство, что л:* —корень уравнения (1), получаем, пере
ходя к пределу в соотношении,
Р' (Хя%Хп+1 —Хп)+Р (ХЯ) = 0.
Действительно, исходя из того, что || xn+i — хп II - » 0 , а || Р'{х„) ||
ограничена, так как
II Р' (Хп) II < II Р' ( *0) H + H Р' ( *я) - > ( *0) H < H Р' ( Х0)
и
+ # II ХП- Х0 и< И Р ' Ю \\+КМ(Н
0)щ
9получаем, что || Р (хп) II 0, и так как д:я->л:*, то по непрерывности Р(х)
Р(х*) = 0.