Л. В. Канторович, О методе Ньютона, Тр. МИАН СССР, 1949, том 28, 104–144

(1)

Math-Net.Ru

Общероссийский математический портал

Л. В. Канторович, О методе Ньютона, Тр. МИАН СССР, 1949, том 28, 104–144

Использование Общероссийского математического портала Math-Net.Ru подразуме- вает, что вы прочитали и согласны с пользовательским соглашением

http://www.mathnet.ru/rus/agreement Параметры загрузки:

IP: 139.59.245.186

6 ноября 2022 г., 06:59:18

(2)

М А Т Е М А Т И Ч Е С К О Г О И Н С Т И Т У Т А И М Е Н И В. А. С Т Е К Л О В А 1949 г., том XXVIII

Л. В. КАНТОРОВИЧ О МЕТОДЕ НЬЮТОНА

Одним из наиболее эффективных методов нахождения корней алге

браических уравнений в случае, когда для корня известно приближен

ное значение, является метод Ньютона, иногда называемый также методом касательных. В этом методе последовательные приближения определяются формулами вида:

Сходимость этого метода была исследована Коши, а затем А. Ost

rowski t¹"³] .

Этот метод был распространен на системы алгебраических уравне

ний. Условия сходимости его для этого случая были даны Willers [⁴], Стениным [⁵], Ostrowski [⁶].

Однако оказывается возможным применить этот метод и для слу

чая любых нелинейных уравнений. В частности, по моему предложе

нию, для случая нелинейных интегральных уравнений он был приме

нен Д. М. Загадским [⁷'⁸].

Чтобы охватить одновременно все случаи, наиболее удобно развить его и исследовать в общем виде — для любых функциональных урав

нений. С целью облегчить чтение работы читателю, незнакомому с тео

рией операций, в § 1—3 мы приводим те сведения, которые для нас существенны.

В § 4 излагается основная теорема о сходимости процесса Ньютона.

В ней даются, в некотором смысле, окончательные условия сходи

мости метода и устанавливается быстрота сходимости. Эта теорема представляет одновременно некоторую теорему существования и един

ственности для нелинейных уравнений, а потому имеет и чисто теоре

тический интерес.

В § 5 изложен модифицированный метод, имеющий в некоторых случаях определенное преимущество.

В § 6 даны применения метода к алгебраическим уравнениям и систе

мам, а в § 7 к нелинейным интегральным уравнениям; § 8 содержит изложение некоторого метода нахождения собственных чисел и векторов, получающегося в результате применения к этой задаче про

цесса Ньютона.

(3)

§ 1. Линейные функциональные операции*

Линейным нормированным пространством называется линейное или векториальное множество, т. е. множество X = {х} элементов любой природы, для которых определены операции сложения х+у и умно

жения элемента на вещественное число X*, подчиненные обычным законам алгебры, а также определена норма элемента || х ||—число", обладающее обычными свойствами длины вектора.

Точнее говоря, для нормы должны быть удовлетворены следующие условия:

1) Il x II > 0 и II x II = 0 тогда и только тогда, когда х = 0;

2 ) | | * + Я 1 < И*Н +

IIIii

3)Ц А* И =

I

^X

I

| U | | .

Наличие нормы позволяет определить понятие сходимости: говорят, что х^п х, или lim х^п = х, если || х^п — х || - > 0 при п -> ос. Пространство

П - > OD

называется полным или типа В (по имени С. Банаха), если для схо

димости выполнен принцип Коши, т. е. из того, что lim ||л:^я — х , || = 0 »

равномерно относительно р следует сходимость последовательности к некоторому элементу х, т. е. х^п->х. Приведем примеры пространств, которыми нам придется пользоваться.

1. Множества вещественных или комплексных чисел представляют очевидным образом пространства типа S, если операции х+у и Хх определить как обычно для чисел и за норму принять модуль числа, т. е. H x II = I x I.

2. Пространство Эвклида к^п или, что то же самое, пространство я-мерных векторов

представляет пространство типа В, если операции х+у и Хл: произ

водить, как обычно, для векторов (по компонентам), а в качестве нормы принять длину вектора

и * » - K ( W + ( W + ...+(s

^{( n )}

)

²

-

3. Из тех же элементов, что и в предыдущем примере, мы можем образовать другое пространство пг^п, определив иным образом норму — взяв в качестве нее максимальную из абсолютных величин ком

понент

| | * | | = max

I

* По поводу основных понятий функционального анализа см., например, статьк>

Л. А. Люстерника [9].

(4)

Очевидно, и в этом случае все условия будут соблюдены. В част

ности, пространство будет полным и сходимость последовательности х^т^х будет означать здесь, также как и в предыдущем случае,

покоординатную сходимость: -> при оо {i = 1, 2 , . . .

4. Пространство С непрерывных функций, определенных в неко

тором промежутке (а, Ь), где принята норма Il x Н = m a x I x{t) I .

Это также полное пространство и сходимость в нем есть равно

мерная сходимость: х^п -> х означает, что последовательность функций xⁿ(t) равномерно сходится к x(t).

5 . Пространство L² интегрируемых с" квадратом функций, опреде

ленных в промежутке (а, Ь), где норма

а сходимость означает сходимость в среднем.

Операцией, переводящей одно такое пространство X в другое К, или оператором, называется функция y = U (х), которая каждому элементу х пространства X относит элемент у пространства Y.

В частности, если Y — пространство вещественных чисел, то операция называется функционалом. Операция у = U (х) называется линейной, если она аддитивна:

U{x¹ + x²) = U{x¹) + U{x²)

и непрерывна, т. е. если U(xⁿ)-*U{x) при х^п->х. Линейная операция однородна. Это означает, что U (Ах) = At/ (л:).

Вместо непрерывности можно поставить равносильное условие — наличие такой постоянной С, что

1 1 £ / ( * ) 1 1 < С | | * | | .

Наименьшая постоянная С, обеспечивающая выполнение этого неравенства, называется нормой данной линейной операции и обозна

чается H U II .

Отметим основное неравенство

II U (х) | | < II £ / II -11*11. (1) Множество линейных операций, переводящих X в К, будем обо

значать (X->Y); оно само представляет также линейное множество и полное нормированное пространство, если норму || U || определить, как указано выше.

Оператором, обратным данному у = £/ (х), называется оператор х= U~~^x (у), отображающий Y в X такого рода, что

(5)

Такой обратный оператор существует не всегда. Отметим случай, когда его существование обеспечено, С. Банах [^{1 0}].

Если U — линейный оператор, отображающий X в X с нормой

\\и\\<\

и / — тождественный оператор в X, т. е. Ix = х, то оператор / — U имеет обратный и при этом

Д ( / - £ / Гд1 1 < - (2)

Для доказательства рассмотрим оператор Hx = x + Ux + U²x + . . .

Этот ряд сходится и определяет линейный оператор, так как мы имеем:

l l ^ n < i i * i i +

e t / i H i * l i t l i t / i n i * i i + - > - < l

l \ \

^{J l}

i l l f f K i z T O T «

Далее, очевидно,

(I-U)Hx = (x + Ux + U²x + ...) —(Ux + U²x + ...) = x, a это показывает, что H есть оператор, обратный / — U. Итак,

(1-иГ

¹

=Н;

11 ( / - t / Г¹ 11 ==11 Я [1 <^l

J

^{l u}

^ .

Приведем некоторые примеры линейных операций.

П р и м е р 1. Рассмотрим линейные операции у = U(х), переводя

щие пространство Х = т^пв K = m^v. Введем элементы х^г = ( 1 , 0 , 0 , . . . ,0),

*^{2 5 = 8} (0, 1 , 0 , . . . , 0 ) , . . . , х^п = (0, 0, 0 , . . . . 1) и пусть

y^t = U (x^t) = (а^п, aⁱ²,..., a^{f V}) Ii = 1, 2 , . . . , n).

Тогда для любого

* _ - ( Ç< 4. . . , Ç W ) - имеем:

^ - У ( * ) - ( ч

⁽ ^, ⁾

, ч ® . . . , ^ (3)

где

л

1^{( / )}=

SfrA*

⁰ ( j = l , 2 , . . . , v ) . г = 1

Таким образом, операция U есть линейное преобразование, опреде

ляемое матрицей

А = Н а ,^у И (/ = 1 , . . . , nt j = 1 , . . . , v).

Покажем теперь, что норма этой операции определяется так:

| | £ / [ | = m a x 2 U / ; l • (4)

(6)

Действительно, имеем:

п

IIУ II = II U (х) И - max | т )( / ) | = max

2

⁵^{( 0}^а^ц^<

< max I I max

2

^I^a

u

^{I =} ^m ^a ^x

2

^I^a

u

^{I )} II * II •

Отсюда, собственно, ^следует, что || U || не превосходит правой части (4), но легко проверить, что удовлетворяется и равенство.

Из (4) следует, очевидно, оценка

WUWKnL; Z = max | а^и | . (4а)

П р и м е'р 2. Рассмотрим случай, когда X = Rⁿ, Y = R^s — эвклидовы пространства. В'этом случае линейная операция дается в той же форме линейного преобразования (3) и лишь норма ее определяется иным образом. Можно показать, что в случае/ когда матрица А сим

метрична,

Н£Л1 = | Л^Л| , (5)

где А^п — наибольшее по модулю собственное значение этой матрицы.

В случае, если матрица А не симметрична, то

II и и = VÄ

^ny

(6)

где А^л — наибольшее собственное значение матрицы АА*. Эти факты легко получаются на основании теорем об экстремальных свойствах собственных значений матриц, устанавливаемых в алгебре, Глибо на основании соображений, подобных приведенным ниже, при рассмотре

нии примера 5.

Кроме точного выражения нормы, может оказаться полезной и следующая оценка ее:

II U \ \ < [

il S

^а,

А ¹ .

⁽⁷⁾

Последняя устанавливается так:

' S 2 ß i/ ) l U ! l².

чу = i * = i /

П р и м е р 3. Рассмотрим линейные операции в пространстве комп

лексных чисел Х = {х}; х = х^г + ix². Такая операция, вообще говоря, определяется некоторой матрицей, но мы ограничимся операциями частного вида:

у = и

(x) = wx, (8)

(7)

где w — комплексное число. Тогда очевидно, что

\ y \ ~ l w \ \ x \ .

Так как в данном случае норма элемента равна модулю числа, то, очевидно,

Il U II = I w I . (9)

П р и м е р 4. Рассмотрим операции, отображающие С в С. Здесь мы ограничимся только операциями интегрального типа:

i

v = U (x); у (s) = \ К (5, t)x(t) dt, (10)

о

*

причем K(s,f) считаем непрерывным. Эта операция, очевидно адди

тивна. Оценим ее норму:

i

l\y\\ = max \y(s) | = т а х | \K(S, t)x(t)dt\^

s s^о

< II x II max \ I К (s, t) \ dt.

C L < * < i ( f

Мы видим, что норма U не превосходит второго множителя, но нетрудно показать, что она равна ему:

i

И = m a x Л \K(s,t)\dt. (11)

0 < 5 < 1 о

В частности,

Il U II < Ж , если I К (s, t) I < Ж . (Па) П р и м е р 5 . Пусть теперь X = Y = £² есть пространство интегри

руемых с квадратом функций. Ограничимся рассмотрением только операций частного вида:

i

y(s) = x(s) — \ К (s, t) x {t) dt, (12)

о

сначала для случая, когда ядро K(s,t) симметрично.

Обозначим через X, собственные числа ядра К (s, t), и через ^(t) — собственные функции его. Дополним систему функций {<&(£)} функ

циями 9⁰ {t), 9_х (t),... так, чтобы в результате получилась полная система в L². При этом будем считать Х⁰ = Х _^х = Х _² = . . . = оо. Далее обозначим через и ч\^г коэффициенты Фурье функций x (t) YL у (t) по системе Тогда, подставляя билинейное разложение для К и разло

жения для х и у

= 2 "У* ; * W = 2 * л ( 0 ; .v 0 ) = 2 W

(8)

в выражение оператора (12), найдем:

Ч| = 5|

Отсюда ясно, что, принимая L равным точной верхней границе чисел

имеем:

и (х) и * = и у и г = 2 v = 2 0 - i )

²

v <^ 2 v = £

²

и х и«.

Следовательно, в данном случае

H £ / | | < I = sup 1 (13)

Если I К (s, t) I < M, то из I \ I >-JJ. следует неравенство:

| | ü | | < l + A f . (13а) Также легко оценить отсюда и норму обратного оператора. Дейст

вительно, имеем:

* Ö ² =

2 V = 2

ⁱ

где 1^х = sup

0 4 )

Следовательно,

' - v i

II

IT

¹ II Ix = sup¹ l —

(14)

где

В случае несимметричного ядра К (s, t) легко убедиться, что

J

у* {s) ds = \ x²

(s) & — J J ( и , О ж

(a) x (t) du dt,

К ( и , t) =*K(a,t) + K (t, и ) - \ к (s, t) К (s, и) ds. (15) Поэтому, если через Л, обозначить собственные числа симметричного ядра К (и, t), то, рассуждая как и выше, найдем:

L T¹ H < sup

1 V\4iï

( 1 6 )

(17)

(9)

§ 2 . Билинейные операции Рассмотрим линейную операцию

и = В(х),

переводящую пространство X в пространство линейных операций, отображающих Л' в К, т. е. и6 {X^Y}. Вычислим ее значение для произвольного элемента х' 6 X. Тогда, полагая

В(х⁹х') = и(х') = В(х)(х'), (1)

получаем, очевидно, операцию, определенную для пары элементов х и х\ аддитивную по каждому аргументу и такую, что

II В(х, х') И < И в II II х' и < Ц В II И x II И x' II . (2>

Операция, удовлетворяющая последним условиям, называется били

нейной, а наименьший допустимый постоянный множитель в нера

венстве типа (2) —ее нормой.

Обратно, пусть дана некоторая билинейная операция В (х, л;%

аддитивная по обоим аргументам и удовлетворяющая условию

\\В(х,х')\\^С\\хЦ \1х'\\..

Тогда ясно, что при х постоянном В(х^} х') представляет некоторую*

линейную операцию и(х'), переводящую X в Y. Полагая В(х) = и, имеем:

\\В(х)\\ = \\и\\^С\\х\\.

При этом, так как В(х) — аддитивная операция от х, тои=В{#) есть линейная операция, отображающая X в {X->Y) с нормой | | ß | | * < C - Таким образом, из сказанного ясно, что по существу эквивалентно рассматривать В как операцию, отображающую X в (X-+Y) или как билинейную. Значение нормы в обоих случаях также одно и то же..

Приведем примеры билинейных операций.

П р и м е р 1. Рассмотрим билинейную операцию, переводящую пространство Х=гп^п в Y = #z^v. Легко усмотреть, что она имеет вид:

у = В(х⁹хГ)=\%а^илЬу\ , (3>

4 , 7 = 1 J * = l , 2 N

т. е. ее значение есть вектор у, компоненты которого — квадратичные формы. Ясно, что

\\У\\ = \\В{х,х')\\ = ш а х

k

откуда следует, что

I I B I K m a x 2 \*цк\<п*М⁹ (4)

* * - , / = *

где 1 ацк I < М. Однако эти оценки не дают точного значения нормы^

2 amlilj max

к 1,1=1

au* 1 ) Il x H II x' II

(10)

П р и м е р 2. Билинейная операция, отображающая Rⁿ в / ?^v, имеет тот же вид, что и в предыдущем случае. Однако норма ее опреде

ляется и оценивается иначе.

Именно:

**2 */<V

Отсюда

l>)tl ^v **H4i*-)(i ^{b ,} )(J** ^v )

IJ,II*=IIB (X,^)II«=2(S

^a

**^ / f < 2 S н * и * u *'н**

и, следовательно

2

ß n < ( 2 2

^Ö

Ü <»v^.

\ft=i i⁹ / = i /

(5)

если все | a^{j i f e} | < £ .

П р и м е р 3. Если X и К — пространства комплексных чисел, то примером билинейной операции будет операция вида:

у = в

(х, х*) = wxx', (6)

где w — комплексное число. Легко убедиться, что для такой операции

II В II == I w

I .

(7)

П р и м е р 4. Примером билинейной операции, отображающей С в С, является интегральная операция вида:

у = В(х,х'); y{s)= J ^K(s,t,u)x{t)x' {и) dt du. (8) i i

S S

о о Ее норма оценивается так:

i i

II filKsupJ ^\K{s,t,u)\dtdu^M, (9)

s о о

если I К {sу t, и) I < М.

П р и м е р 5. Ту же операцию (8) можно рассматривать как опера

цию, отображающую L² в L². В этом случае ее норма может быть оценена так:

в\ \ < \ \ \ [K

щ

²(s,t,u)dsdtdu\ • (10)

Lo о о

(11)

§ 3 . Дифференцирование нелинейных операций Пусть

У = Р(х)

-—нелинейная операция, переводящая пространство X в У. Говорят что она дифференцируема (в смысле Eréchet [^u] ) при данном значе

нии х, если имеется такая линейная операция U€(X->Y)⁹ что

II [Р(х + Ах)-Р{х)] - U (Ах) И < H àx H е( H àx » ); ( l ) здесь s (8) — функция, стремящаяся к нулю, когда 8 - * 0 . Эту опера

цию U называют производной для операции Р(х) при данном х:

P'(x) = U. (2)

Как сказано, F (х) есть элемент пространства {Х-> Y).

В свою очередь, U = Р¹ (х) есть нелинейная операция, переводящая пространство X в пространство (X-*>Y). Она также может оказаться дифференцируемой. Ее производная называется по отношению к нели

нейной операции Р(х) второй производной:

V = [P(x))' = Р"(х). (3) Эта вторая производная представляет элемент пространства

[Х-*-(XY)], т. е. пространства линейных операций, переводящих X в (X-±Y)» Как мы видели (§ 2), рассмотрение такой операции экви

валентно рассмотрению билинейной операции, отображающей прост

ранства X в К, так что Р"(х) можно рассматривать как такую би

линейную операцию. В соответствии с этим под || Р\(х) || и || Р"(х) \\

следует понимать нормы, взятые соответственно в пространствах (X-+Y) или [X-*(X-*Y)\. (См. Гавурин М . К. [¹⁷]).

Отметим некоторые предложения о производных, которыми нам придется пользоваться.

1. Если у = 9 (x), a z = F {у) = Р[у{х)]⁹ причем функции у и F дифференцируемы, то

fr w i f м- w

Здесь следует разуметь, что написанные рядом линейные операции J y - и^d-~- должны применяться последовательно (правило дифферен

цирования сложной функции).

Это правило устанавливается так же, как в случае обычных про

изводных функций одного или нескольких переменных.

2. Если у == Р (х) — линейная операция, отображающая X в К, то, очевидно,

Р(х) = Р; Р"(*) = 0, (5) т. е. производная линейной операции совпадает с ней самой.

8 Т р у д ы м а т е м а т . и н - т а

(12)

3. Если U —• линейная операция, отображающая Y в Z , то

[LT (Р ( * ) ) ] ' = t f ( P ' ( * ) ) , (6) т. е. постоянную операцию можно выносить за знак производной.

Это вытекает сразу из правил 1 и 2. При этом

U{P' (x))=V£{X->Z) и ! / ( * ' ) = £/[(/>' (*))(*')].

4. Если Р (я) — дифференцируемая операция, то справедливо нера

венство [^{1 2}]:

II Р

(Je

+ Ад:) - Р^(x) H < sup II Р (x) II » Их || , (7)

3 T = x + 6 A x ;

0 < 6 < 1 ,

представляющее оценку приращения, подобную той, которая для обычной функции получается из формулы конечных приращений.

Для доказательства положим:

Р{х + Ах) — Р(х) = у1

и подберем, что всегда возможно [⁹], такой линейный функционал Т в пространстве Г, для которого

II ГЦ = 1 ; Т{у) = \ \ у \ \ .

Рассмотрим вещественную функцию вещественного переменного U f(t)=T[P(x + tAx)].

Для ее производной, пользуясь при дифференцировании правилами 1 и 3, находим выражение:

/'(t) = TP1 (x + tax) Ax.

Далее, пользуясь определением f(t) и применяя обычную формулу конечных приращений, имеем:

Т{у) = Т [Р (х + Ах) - Р (x)) = f (1 ) - / (0) = / ' (в) = • TP (х + QAx) Ах.

Отсюда ясно, что

\\Р(х + Ах)-Р(х) II = \\У\\ =Т(у)<С

< II 741 \\ Р'(x + QAx) \\ II Ад: | | < sup | | Р ' И II IIд * I I, 0 < 6 < 1 . x = x + QAx.

5. Если Р(х) — дважды дифференцируемая функция, то справедливо следующее неравенство:

H р ^{ ^х + Ах)-Р (х) - Р (х) Ах | | < i sup||P" (х) И H Ах II 2, (8) x = x + QAx,

связанное с формулой Тэйлора, подобно тому, как предыдущее свя

зано с формулой конечных приращений.

(13)

Доказательство проводится аналогично предыдущему. Обозначая через у элемент в левой части (8), норму которого надлежит оценить, вводим такой линейный функционал Г, что [| Т\\ = 1 и Т (у) = \\у\\.

Далее строим вспомогательную функцию

f(t) = T[P(x + tAx)].

Для нее

f ( t ) = T[P^,(x + tAx)Ax]^f f * ( ? ; ) = Г [P^f ' (x + tAx) AxAx]^f

где выражение в квадратных скобках означает, что билинейная опе

рация Р^п (х + tax) должна быть вычислена от пары аргументов, рав

ных Ад:. Теперь, применяя обычную формулу Тэйлора, находим, что

\\Р(х + Ах)-Р{х)-Р<{х)Ах\\ = \\у\\ = Т{у)=

= / ( 1 ) - / (0) - / ' ( 0 ) = (8) < i К Г H sup H P"{x+tAx) \\\\ Ах I I * ;

0 < * < 1 . "

Приведем теперь некоторые примеры на дифференцирование опе

раций.

П р и м е р 1. Рассмотрим нелинейную операцию, переводящую я-мерное пространство в v-мерное. Она определяется совокупностью v функций от п переменных:

j / = P ( * ) ,

^ / ^ х Д ^ . - Л ) ,

( * = l , 2 , . . . , v ) . (9) Будем предполагать, что функции f^k имеют непрерывные частные производные 2-го порядка. Тогда для дифференциалов имеем:

^ = 2 ^ 7 ^ (* = l , 2 , . . . , v ) , (10)

а приращение Ау = { A T J^Ä}^Ä⁼¹⁾², . . . , V выражается такой же системой форм от дифференциалов с точностью до бесконечно-малых высших поряд

ков. Отсюда ясно, что в данном случае Р' {х) дается матрицей част

ных производных:

dfk (И)

/ = = 1 , 2 , n^v

A r = l , 2 , v

точнее говоря, P^f (x) есть линейное преобразование, соответствующее этой матрице [ср. § 1, (2)].

Аналогичном образом рассматривая приращение Р'(х) при прира

щении аргумента Ах' = ( А ^ ' , . . . , АС^Л'), убедимся, что вторая производ

ная определяется матрицей, зависящей от трех индексов:

Р" (х) =

A l l (

¹²

)

dÇ/dÇy / , / = 1 , 2 л '

J Ä = l , 2 , . . . , v 8*

(14)

Если рассматривать ее как билинейную операцию, то она будет опре

деляться системой v билинейных форм:

Ч * - 1 °чиЧ >k=l,2, . . . . v

При выборе определенной нормы в /i-мерных пространствах, соот

ветствующих нормировке R" или т^п> можно на основании результа

тов § § 1 и 2 указать оценки для || Р (x) II и || Р" (x) II .

П р и м е р 2. Если в пространстве комплексных чисел рассмотреть аналитическую функцию

У = Р{*)>

то в данном случае

Ду = р '

(х) Ах

с точностью до бесконечно малых высшего порядка, поэтому опера

ция Р' (х) есть умножение на комплексное число Р' (x), а норма ее

II Р Ч * ) II = I Р{х) I . (14)

Таким же образом в данном случае и вторая производная совпа

дает с обычной второй производной, если последнюю рассматривать как билинейную операцию над парой комплексных чисел Р^п(х)*х*х'*

П р и м е р 3 . Рассмотрим нелинейную интегральную операцию:

У=Р(х); y(s) = JK(s,t,x(t))dt, (15)

о

где К (s, t, и) — дважды непрерывно-дифференцируемая функция своих аргументов. Тогда, с точностью до малых высших порядков, имеем

i

АУ (S) = J Кх (s, t, x (t)) Ax (t) dt,

о

откуда ясно, что Р' (х) в данном случае есть линейная интегральная операция с ядром К (s, t) = К^х* (s, t, x (t)):

iⁱ

P ' (x) Ax=\K (s, t) Ax (t) dt = J K* (s¹1; x (t)) Ax (t) dt. ( 1 6 )

о 0

Придавая теперь x(t) приращение A'x(t), убеждаемся в том, что с точностью до малых высших порядков

[P^r (x + А'х) - Р* (х)] Ах = [АР' (x)] Ах=

J

К* (s, *, x (t)) А'х (t) Ах (t) dt,

о

откуда ясно, что вторая производная в данном случае есть билиней

ная интегральная операция специального вида:

i

Р " (х) Ах Ах' = J Кг (S, t) Ах (t) А'х (t) dt,

о

гле

^ ( М ) = ^ ( 5, / , х й ) . ( 1 7 )

(15)

§ 4 . Сходимость процесса Ньютона

Рассмотрим применение процесса Ньютона к нелинейному функци

ональному уравнению

/>(*)=» 0, (1) где Р (л) — операция, переводящая пространство X в Y, которая пред

полагается дважды дифференцируемой. Формулы, связывающие после

довательные приближения, строятся на основании соображений, ана

логичных тому, как это делается в случае вещественных уравнений.

Пусть х⁰ — начальное приближение к решению. Заменяя прираще

ния Р(х) — Р(х⁰) на дифференциал в точке х⁰, заменим данное урав

нение приближенно на линейное:

Р(х)хР(x^Q) + Р' (х⁰) (х-х⁰) = 0. (2) Решение х^г этого уравнения и дает новое приближенное значение

корня. Если оператор Р'{х⁰) имеет обратный [P^f ( х⁰) ] -¹€ ( }^г- > А ' ) , то, пользуясь им, выражение х^г можно получить в явном виде. Действи

тельно, применяя указанный оператор [Р* {х⁰)]-^{х к} обеим частям равенства (2), найдем:

Xi = x^Q-[P'(x⁰)]-*P(x⁰). (3)

Аналогичным образом выражаются последовательно одно через другое и дальнейшие приближения:

xⁿ⁺¹ = xⁿ^[P^f(xⁿ)]^P(xⁿ). (4)

Условия сходимости последовательности х^п к точному , решению уравнения (1) и одновременно достаточные условия для существова

ния этого решения даются следующей теоремой.

Теорема 1. О с у щ е с т в о в а н и и р е ш е н и я и о с х о д и м о с т и п р о ц е с с а Н ь ю т о н а . Пусть еыполнены следующие условия:

1) для элемента х⁰ — начального приближения, Р' (х⁰) — опера

тору отображающий X в Y, имеет обратный Г⁰ = [Р* (х^]"¹, и известна оценка для его нормы:

1 1 Г⁰У < Я⁰; (5)

2) элемент х⁰ удовлетворяет приближенно уравнению (1), при

чем известна оценка выражения Т⁰Р(х⁰):

1 1 Г⁰Р ( х⁰) | | < ч⁰; (6)

3) вторая производная Р" (х) ограничена в интересующей нас области, определяемой неравенством (9), именно:

\\Р"(х)\\<К\ (7)

(16)

4) постоянные B^Q, TQ⁰, К удовлетворяют соотношению

ho = B⁰i\^QK<j. ( 8 )

Тогда уравнение (1) имеет решение х*, которое находится в области вблизи x^Q, определяемой неравенством

Il x*-х⁰ II <W( А⁰)Y Î⁰ = ^l - V \ - 2 h . ^⁹ (g) и последовательные приближения процесса Ньютона х^п сходятся

к нему, причем быстрота сходимости характеризуется оценкой:

\\x

ⁿ

^x\\<-^*

^r

(2h

⁰

)^

^l

y

^lo

. (Ю)

Д о к а з а т е л ь с т в о . Введем обозначение:

Р⁰(х) = х-Г⁰Р(х). (11)

Пользуясь им, соотношение (3), связывающее х^х и х^й, можем записать так:

* i = *о - 1^р' (*о)1-¹ Р (*о) = Л> (*„)• ( 12) Покажем, что когда мы переходим от значения х⁰ к х^ъ все условия 1—4 будут выполняться попрежнему. Прежде всего имеем:

l l * i - * o I I = 1 1 Г⁰Р( *⁰) 1 1< Ч о - (13) Далее, применяя аналог формулы Лагранжа (§ 3 (7)) к Р' (х), полу

чаем оценку для нормы следующего оператора, переводящего X вХ:

II Г⁰ [Р' (х⁰) - Р' (х^х)] И < В⁰ sup И Р" (х) И Н х^г - х⁰1|< В⁰ Къ = К < h

х = х^г + Ъ(х⁰ — х^г). (14)

Отсюда на основании предложения С Банаха [§ 1, (2)] следует, что существует обратный оператор

Я = [ / - Г⁰( Р Ч х⁰) - Р ' ( * , ) ) ] - ! ,

где / — единичный оператор, отображающий X в X, я что для его нормы справедлива оценка

1!^11 <г4л

⁰

- (15)

Отсюда, полагая 1\ = НТ⁰ и пользуясь для операторов правилом [AB]-¹ = В-¹ А-¹, находим:

Г, = Я Г⁰ = { / - Г⁰ [Р¹ (х⁰) - Р' (x,)}}-¹ [Р¹ ( х⁰) ] - 1 =

= {Р' (х⁰) (I - Г⁰[Р' (х⁰) - Р> (х,)])}-¹ = [Р' (Ь)]-¹,

(17)

что и доказывает существование этого обратного оператора. При этом, на основании неравенства (15), получаем оценку для него:

II

т

^г^{il =}

^и

^[Р⁹

^{Ю Г}

il < ^ =

в

^г

.

⁽¹⁶⁾

Условие 1 проверено.

Теперь, пользуясь тем, что

/ У( * о ) = / - Г⁰Р ' ( * о ) = 0 (17)

(на основании правил 2 и 3 § 3), а также используя (11) для х — х^1У имеем:

- Г⁰ Р (х^г) - F⁰ (х^г) - F⁰ (х⁰) - F⁰' (х⁰) (х^г - х⁰).

Тогда, применяя для Р = F⁰ и àx = х^г — х⁰ аналог формулы Тэйлора (8)

§ 3, находим:

II Г⁰Р (х^г) II < Isup II / V (x) Il II x^l-x⁰ H² =

= i-sup II Г⁰Р"(х) » II х ^г- х⁰ II²<^В⁰Кг\о²= ~/1оЪг (18) (х = х⁰ + Ь(х¹ — х⁰)).

Наконец, пользуясь (15) и (18), имеем:

II ГгР(х,) II = II НТ0Р(хг) If < II Я H II Г⁰Р(Х1) II < у n z ro = %. (19) Условие 3 будет выполнено для точки х1У так как соответствующая ей сфера, как мы убедимся ниже, не выходит за пределы сферы, определяемой неравенством (9).

Наконец, непосредственно проверяем и условие 4, пользуясь (16) и (19). Действительно,

A

¹

= ^ = Ä i Ä

⁰

^ = 2 i r ^ <

² ^Ä

o

²

< \> ( 2 0 )

так как

А

⁰

<; .

Итак, для х = х^г выполнены условия вида условий 1—4 с заме

ной чисел B^0f f]⁰ и А⁰ на B^lt % и й². Это дает возможность продолжать последовательное определение элементов х^п и связанных с ними чисел Вю г\п и Ал, которые будут связаны друг с другом формулами, аналогичными (13), (16), (19) и ( 2 0 ) .

II х^п — Хп+\ II < * ] / . ; (13а)

^ = 1 т ^ 7 ' (1 9 А>

Л - 1 /

(18)

Далее для них будем иметь следующие оценки:

A²< 2 Ä^{1 2}< 8 A^{0 4}; А л < ^ ( 2 А⁰)^{2 Л}; (21)

г1п= Y _"^{П 1} *]я-1 ^ А^Я- 1 у\п-\ <С • • • A^{r t}_iA^{r t}-2 • . . А⁰ г\⁰ <^

< ^ r ( 2 Ä o )²"¹ (2Ä⁰)2"². . . ( 2 А⁰) т )⁰< ^ ( 2 А⁰) *^{я 1} щ. (22) Наконец, отметим следующее тождество

4„N(h^a)-ri^n+lN(h^n+l)=yi^at (23)

которое проверяется непосредственным вычислением:

"л+1

2 ( 1 - Ä „ )^a 1 — hⁿ — V~l —2hⁿ^K^rⁱ. .

= ^ ^ =4nN(hⁿ) - v

Используя (13a), (23) и (22), находим:

II х^{я + /}, — . * „ H < II A V H — *л II + II х^{я + 2} — xⁿ+i II + . . . + II xⁿ+^P —

— Xn+p-\ l l < Чя + %-н + . . . + = N (А^я) % —

- W (h^n+p)>q^n+p < W (А^я) % < 2% < - j l p (2Ä⁰) V (24) Это доказывает существование предела

lim х^п = х*. (25)

Отсюда также, беря р - * о о , устанавливаем справедливость неравен

ства (10) и, беря затем # = 0, — и справедливость (9).

То обстоятельство, что л:* —корень уравнения (1), получаем, пере

ходя к пределу в соотношении,

Р' (Х^я%Хп+1 —Хп)+Р (Х^Я) = 0.

Действительно, исходя из того, что || xⁿ+i — х^п II - » 0 , а || Р'{х„) ||

ограничена, так как

II Р' (Хп) II < II Р' ( *⁰) H + H Р' ( *^я) - > ( *0) H < H Р' ( Х⁰)

и

^{+ # II}^Х^П^{- Х}⁰^и

< И Р ' Ю \\+КМ(Н

⁰

)щ

⁹

получаем, что || Р (х^п) II 0, и так как д:^я->л:*, то по непрерывности Р(х)

Р(х*) = 0.

Л. В. Канторович, О методе Ньютона, Тр. МИАН СССР, 1949, том 28, 104–144

Math-Net.Ru

Общероссийский математический портал