„Differentialrechnung“ – Versionsunterschied

Versionsgeschichte interaktiv durchsuchen

[gesichtete Version]

← Zum vorherigen Versionsunterschied

Inhalt gelöscht Inhalt hinzugefügt

VisuellWikitext

Inline

Aktuelle Version vom 22. Mai 2024, 20:59 Uhr

Die Differential- oder Differenzialrechnung ist ein wesentlicher Bestandteil der Analysis und damit ein Gebiet der Mathematik. Zentrales Thema der Differentialrechnung ist die Berechnung lokaler Veränderungen von Funktionen. Während eine stetige Funktion ihren Eingabewerten kontinuierlich gewisse Ausgangswerte zuordnet, wird durch die Differentialrechnung ermittelt, wie stark sich die Ausgabewerte nach sehr kleinen Veränderungen der Eingabewerte ändern. Sie ist eng verwandt mit der Integralrechnung, mit der sie gemeinsam unter der Bezeichnung Infinitesimalrechnung zusammengefasst wird.

Die Ableitung einer Funktion dient der Darstellung lokaler Veränderungen einer Funktion und ist gleichzeitig Grundbegriff der Differentialrechnung. Anstatt von der Ableitung spricht man auch vom Differentialquotienten, dessen geometrische Entsprechung die Tangentensteigung ist. Die Ableitung ist nach der Vorstellung von Leibniz der Proportionalitätsfaktor zwischen infinitesimalen Änderungen des Eingabewertes und den daraus resultierenden, ebenfalls infinitesimalen Änderungen des Funktionswertes. Eine Funktion wird als differenzierbar bezeichnet, wenn ein solcher Proportionalitätsfaktor existiert. Äquivalent wird die Ableitung in einem Punkt als die Steigung derjenigen linearen Funktion definiert, die unter allen linearen Funktionen die Änderung der Funktion am betrachteten Punkt lokal am besten approximiert. Entsprechend wird mit der Ableitung in dem Punkt eine lineare Näherung der Funktion gewonnen. Die Linearisierung einer möglicherweise komplizierten Funktion hat den Vorteil, dass eine einfacher behandelbare Funktion entsteht als die ursprüngliche Funktion oder überhaupt erst eine Handhabbarkeit.

In vielen Fällen ist die Differentialrechnung ein unverzichtbares Hilfsmittel zur Bildung mathematischer Modelle, die die Wirklichkeit möglichst genau abbilden sollen, sowie zu deren nachfolgender Analyse.

Das Verhalten von Bauelementen mit nicht-linearer Kennlinie wird bei kleinen Signaländerungen in der Umgebung eines Bezugspunktes durch ihr Kleinsignalverhalten beschrieben; dieses basiert auf dem Verlauf der Tangente an die Kennlinie im Bezugspunkt.
Die Ableitung nach der Zeit ist im untersuchten Sachverhalt die momentane Änderungsrate. So ist beispielsweise die Ableitung der Orts- beziehungsweise Weg-Zeit-Funktion eines Teilchens nach der Zeit seine Momentangeschwindigkeit, und die Ableitung der Momentangeschwindigkeit nach der Zeit liefert die momentane Beschleunigung.
In den Wirtschaftswissenschaften spricht man auch häufig von Grenzraten anstelle der Ableitung, zum Beispiel Grenzkosten oder Grenzproduktivität eines Produktionsfaktors.

In der Sprache der Geometrie ist die Ableitung eine verallgemeinerte Steigung. Der geometrische Begriff Steigung ist ursprünglich nur für lineare Funktionen definiert, deren Funktionsgraph eine Gerade ist. Die Ableitung einer beliebigen Funktion an einer Stelle $x_{0}$ kann man als die Steigung der Tangente im Punkt $(x_{0},f(x_{0}))$ des Graphen von $f$ definieren.

In der Sprache der Arithmetik schreibt man $f'(x)$ für die Ableitung einer Funktion $f(x)$ an der Stelle $x$ . Sie gibt an, um welchen Faktor von $\Delta x$ sich $f(x)$ ungefähr ändert, wenn sich $x$ um einen „kleinen“ Betrag $\Delta x$ ändert. Für die exakte Formulierung dieses Sachverhalts wird der Begriff Grenzwert oder Limes verwendet.

Einführung[Bearbeiten | Quelltext bearbeiten]

Heranführung anhand eines Beispiels[Bearbeiten | Quelltext bearbeiten]

Fährt ein Auto auf einer Straße, so kann anhand dieses Sachverhalts eine Tabelle erstellt werden, in der zu jedem Zeitpunkt die Strecke, die seit dem Beginn der Aufzeichnung zurückgelegt wurde, eingetragen wird. In der Praxis ist es zweckmäßig, eine solche Tabelle nicht zu engmaschig zu führen, d. h. zum Beispiel in einem Zeitraum von 1 Minute nur alle 3 Sekunden einen neuen Eintrag zu machen, was lediglich 20 Messungen erfordern würde. Jedoch kann eine solche Tabelle theoretisch beliebig engmaschig gestaltet werden, wenn jeder Zeitpunkt berücksichtigt werden soll. Dabei gehen die vormals diskreten, also mit einem Abstand behafteten Daten, in ein Kontinuum über. Die Gegenwart wird dann als Zeitpunkt, d. h. als ein unendlich kurzer Zeitabschnitt, interpretiert. Gleichzeitig hat das Auto aber zu jedem Zeitpunkt eine theoretisch bekannte Strecke zurückgelegt, und wenn es nicht bis zum Stillstand abbremst oder gar zurück fährt, wird die Strecke kontinuierlich ansteigen, also zu keinem Zeitpunkt dieselbe sein wie zu einem anderen.

Exemplarische Darstellung einer Tabelle, alle 3 Sekunden wird eine neue Messung eingetragen. Unter solchen Voraussetzungen können lediglich durchschnittliche Geschwindigkeiten in den Zeiträumen 0 bis 3, 3 bis 6 usw. Sekunden berechnet werden. Da die zurückgelegte Strecke stets zunimmt, scheint der Wagen nur vorwärts zu fahren.
Übergang zu einer beliebig engmaschigen Tabelle, die nach Eintragung aller Punkte die Gestalt einer Kurve annimmt. Jedem Zeitpunkt zwischen 0 und 60 Sekunden wird ein Punkt auf der Kurve zugeordnet. Regionen, innerhalb derer die Kurve steiler nach oben verläuft, entsprechen Zeitabschnitten, in denen eine größere Strecke pro Zeitspanne zurückgelegt wird. In Regionen mit nahezu gleich bleibender Strecke, zum Beispiel im Bereich 15–20 Sekunden, fährt das Auto langsam und die Kurve verläuft flach.

Die Motivation hinter dem Begriff der Ableitung einer Weg-Zeit-Kurve oder -Funktion ist, dass nun angegeben werden kann, wie schnell sich das Auto zu einem momentanen Zeitpunkt bewegt. Aus einem Weg-Zeit-Verlauf soll also der passende Geschwindigkeit-Zeit-Verlauf abgeleitet werden. Hintergrund ist, dass die Geschwindigkeit ein Maß dafür ist, wie stark sich die zurückgelegte Strecke im Laufe der Zeit ändert. Bei einer hohen Geschwindigkeit ist ein starker Anstieg in der Kurve zu sehen, während eine niedrige Geschwindigkeit zu wenig Veränderung führt. Da jedem Messpunkt auch eine Strecke zugeordnet wurde, sollte eine solche Analyse grundsätzlich möglich sein, denn mit dem Wissen über die zurückgelegte Strecke $\Delta s$ innerhalb einem Zeitintervall $\Delta t$ gilt für die Geschwindigkeit

v={\frac {\Delta s}{\Delta t}}.

Sind also $t_{0}$ und $t_{1}$ zwei unterschiedliche Zeitpunkte, so lautet „die Geschwindigkeit“ des Autos im Zeitintervall zwischen diesen

v={\frac {s(t_{1})-s(t_{0})}{t_{1}-t_{0}}}.

Die Differenzen in Zähler und Nenner müssen gebildet werden, da man sich nur für die innerhalb eines bestimmten Zeitintervalls $t_{1}-t_{0}$ zurückgelegte Strecke $s(t_{1})-s(t_{0})$ interessiert. Dennoch liefert dieser Ansatz kein vollständiges Bild, da zunächst nur Geschwindigkeiten für Zeitintervalle mit auseinander liegendem Anfangs- und Endpunkt gemessen wurden. Eine momentane Geschwindigkeit, vergleichbar mit einem Blitzerfoto, hingegen bezöge sich auf ein unendlich kurzes Zeitintervall. Dementsprechend ist der oben stehende Begriff „Geschwindigkeit“ durch „durchschnittliche Geschwindigkeit“ zu präzisieren. Auch wenn mit echten Zeitintervallen, also diskreten Daten, gearbeitet wird, vereinfacht sich das Modell insofern, als für ein Auto innerhalb der betrachteten Intervalle keine schlagartige Ortsänderung und keine schlagartige Geschwindigkeitsänderung möglich ist. (Auch eine Vollbremsung benötigt Zeit, und zwar länger als die Zeit, in der die Reifen quietschen.) Damit ist auch in der Zeichnung der stillschweigend durchgehend eingetragene Kurvenzug ohne Sprung und ohne Knick gerechtfertigt.

Zum Zeitpunkt 25 Sekunden bewegt sich das Auto momentan mit ca. 7,6 Metern pro Sekunde, umgerechnet 27 km/h. Dieser Wert entspricht der Steigung der Tangente der Weg-Zeit-Kurve an der entsprechenden Stelle. Weitere detailliertere Erklärungen zu dieser *geometrischen Interpretation* werden weiter unten gegeben.

Soll hingegen zu einem „perfekt passenden“ Geschwindigkeit-Zeit-Verlauf übergegangen werden, so muss der Terminus „durchschnittliche Geschwindigkeit in einem Zeitintervall“ durch „Geschwindigkeit zu einem Zeitpunkt“ ersetzt werden. Dazu muss zunächst ein Zeitpunkt $t_{0}$ gewählt werden. Die Idee ist nun, „ausgedehnte Zeitintervalle“ in einem Grenzwertprozess gegen ein unendlich kurzes Zeitintervall laufen zu lassen und zu studieren, was mit den betroffenen durchschnittlichen Geschwindigkeiten passiert. Obwohl der Nenner $t_{1}-t_{0}$ dabei gegen 0 strebt, ist dies anschaulich kein Problem, da sich das Auto in kürzer werdenden Zeitabschnitten bei stetigem Verlauf immer weniger weit bewegen kann, womit sich Zähler und Nenner gleichzeitig verkleinern, und im Grenzprozess ein unbestimmter Term „ ${\tfrac {0}{0}}$ “ entsteht. Dieser kann unter Umständen als Grenzwert Sinn ergeben, beispielsweise drücken

{\tfrac {5\ \mathrm {Meter} }{\mathrm {Sekunde} }}\ {\text{ und }}\ {\tfrac {5\ \mathrm {Millimeter} }{\mathrm {Millisekunde} }}\ {\text{ und }}\ {\tfrac {5\ \mathrm {Nanometer} }{\mathrm {Nanosekunde} }}\ {\text{ usw.}}

exakt dieselben Geschwindigkeiten aus. Nun gibt es zwei Möglichkeiten beim Studium der Geschwindigkeiten. Entweder, sie lassen in dem betrachteten Grenzwertprozess keine Tendenz erkennen, sich einem bestimmten endlichen Wert anzunähern. In diesem Fall kann der Bewegung des Autos keine zum Zeitpunkt $t_{0}$ gültige Geschwindigkeit zugeordnet werden, d. h., der Term „ ${\tfrac {0}{0}}$ “ hat hier keinen eindeutigen Sinn. Gibt es hingegen eine zunehmende Stabilisierung in Richtung auf einen festen Wert, so existiert der Grenzwert

{\frac {\mathrm {d} s}{\mathrm {d} t}}(t_{0}):=\lim _{t_{1}\to t_{0}}{\frac {s(t_{1})-s(t_{0})}{t_{1}-t_{0}}}=\lim _{\Delta t\to 0}{\frac {s(t_{0}+\Delta t)-s(t_{0})}{\Delta t}}

und drückt die exakt im Zeitpunkt $t_{0}$ bestehende Geschwindigkeit aus. Der unbestimmte Term „ ${\tfrac {0}{0}}$ “ nimmt in diesem Fall einen eindeutigen Wert an. Die dabei entstehende Momentangeschwindigkeit wird auch als Ableitung von $s$ an der Stelle $t_{0}$ bezeichnet; für diese wird häufig das Symbol $s'(t_{0})$ benutzt. Mit dem Grenzwert wird die Momentangeschwindigkeit zu einem beliebigen Zeitpunkt definiert als

v={\frac {\mathrm {d} s}{\mathrm {d} t}}.

Prinzip der Differentialrechnung[Bearbeiten | Quelltext bearbeiten]

Schaubild der Zeit-Strecke-Funktion $s(t)=2t$ (in Blau). Verstreicht eine Sekunde (in Rot), so nimmt die zurückgelegte Strecke um 2 Meter zu (in Orange). Daher bewegt sich das Auto mit „2 Meter pro Sekunde“. Die Geschwindigkeit entspricht der Steigung. Das Steigungsdreieck lässt sich beliebig verkleinern, ohne dass sich an der Proportion von Höhe und Grundseite etwas ändert.

Das Beispiel des letzten Abschnitts ist dann besonders einfach, wenn die Zunahme der zurückgelegten Strecke mit der Zeit gleichförmig, also linear verläuft. Dann liegt speziell eine Proportionalität zwischen der Veränderung der Strecke und der Veränderung der Zeit vor. Die relative Veränderung der Strecke, also ihre Zunahme im Verhältnis zur Zunahme der Zeit, ist bei dieser Bewegung immer gleichbleibend. Die mittlere Geschwindigkeit ist zu jedem Zeitpunkt auch die momentane Geschwindigkeit. Beispielsweise legt das Auto zwischen 0 und 1 Sekunden eine gleich lange Strecke zurück wie zwischen 9 und 10 Sekunden und die zehnfache Strecke zwischen 0 und 10 Sekunden. Als Proportionalitätsfaktor über den ganzen Weg gilt die konstante Geschwindigkeit $v$ , wobei sie im nebenstehenden Bild $v=2\,\mathrm {m/s}$ beträgt. Die zwischen beliebig weit auseinanderliegenden Zeitpunkten $t$ und $t+\Delta t$ zurückgelegte Strecke beträgt

\Delta s=s(t+\Delta t)-s(t)=v\cdot (t+\Delta t)-v\cdot t=v\cdot \Delta t

.

Allgemein bewegt sich das Auto in der Zeitspanne $\Delta t$ um die Strecke $\Delta s=v\,\Delta t$ vorwärts. Speziell bei $\Delta t=5\,\mathrm {s}$ ergibt sich ein Wegstück $\Delta s=v\,\Delta t=2\,\mathrm {{\tfrac {m}{s}}\cdot 5\,s=10\,m}$ .

Falls der Startwert bei $t=0$ nicht $s(0)=0$ sondern $s(0)=c\neq 0$ beträgt, ändert dies nichts, da sich in der Beziehung $s=v\,t+c$ die Konstante $c$ durch die Differenzbildung aus $\Delta s$ stets heraussubtrahiert. Auch anschaulich ist dies bekannt: Die Startposition des Autos ist unerheblich für seine Geschwindigkeit.

Werden statt der Variablen $t$ und $s$ allgemein die Variablen $x$ und $y$ betrachtet, so lässt sich also festhalten:

Lineare Funktionen: Bei Linearität hat die betrachtete Funktion die Gestalt $y=f(x)=mx+c$ . (Für eine lineare Funktion ist nicht notwendig eine Ursprungsgerade erforderlich!) Als Ableitung gilt hieran die relative Veränderung, mit einem anderen Wort der Differenzenquotient ${\tfrac {\Delta y}{\Delta x}}$ . Sie hat in jedem Punkt denselben Wert $m$ . Die Ableitung lässt sich aus dem Ausdruck $mx+c$ direkt ablesen. Insbesondere hat jede konstante Funktion $f(x)=c$ die Ableitung ${\tfrac {\Delta y}{\Delta x}}=0$ , da sich mit einer Änderung des Eingabewertes nichts am Ausgabewert ändert.

Schwieriger wird es, wenn eine Bewegung nicht gleichförmig verläuft. Dann ist das Diagramm der Zeit-Strecken-Funktion nicht geradlinig. Für derartige Verläufe muss der Ableitungsbegriff erweitert werden. Denn es gibt keinen Proportionalitätsfaktor, der überall die lokale relative Veränderung ausdrückt. Als einzig mögliche Strategie ist die Gewinnung einer linearen Näherung für die nicht-lineare Funktion gefunden worden, zumindest an einer interessierenden Stelle. (Im nächsten Bild ist das die Stelle $x=1$ .) Damit wird das Problem auf eine wenigstens an dieser Stelle lineare Funktion zurückgeführt. Die Methode der Linearisierung ist die Grundlage für den eigentlichen Kalkül der Differentialrechnung. Sie ist in der Analysis von sehr großer Bedeutung, da sie dabei hilft, komplizierte Vorgänge lokal auf leichter verständliche Vorgänge, nämlich lineare Vorgänge, zu reduzieren.^[1]

$x$	0,5	0,9	0,99	0,999	1	1,001	1,01	1,1	1,5	2
$f=x^{2}$	0,25	0,81	0,9801	0,998001	1	1,002001	1,0201	1,21	2,25	4
$g=2x-1$	0	0,8	0,98	0,998	1	1,002	1,02	1,2	2	3
$g(x)-f(x)$	−0,25	−0,01	−0,0001	−0,000001	0	−0,000001	−0,0001	−0,01	−0,25	−1
${\Big \|}{\tfrac {g(x)-f(x)}{x-1}}{\Big \|}$	50 %	10 %	1 %	0,1 %		0,1 %	1 %	10 %	50 %	100 %

Graphische Darstellung der Approximation von $f(x)=x^{2}$ an der Stelle $x=1$ durch $g(x)=2x-1$ . Letztere ist die Gleichung der Tangente von $f$ an dieser Stelle.

Die Strategie soll exemplarisch an der nicht-linearen Funktion $f(x)=x^{2}$ erläutert werden.^[2] Die Tabelle zeigt Werte für diese Funktion und für ihre Näherungsfunktion an der Stelle $x=1$ , das ist $g(x)=2x-1$ . Darunter enthält die Tabelle die Abweichung der Näherung von der ursprünglichen Funktion. (Die Werte sind negativ, weil in diesem Fall die Gerade immer unter der Kurve liegt – außer im Berührpunkt.) In der letzten Zeile steht der Betrag der relativen Abweichung, das ist die Abweichung bezogen auf die Entfernung der Stelle $x$ vom Berührpunkt bei $x=1$ . Diese kann am Berührpunkt nicht berechnet werden. Aber die Werte in der Umgebung zeigen, wie sich die relative Abweichung einem Grenzwert nähert, hier dem Wert null. Diese Null bedeutet: Selbst wenn sich $x$ ein wenig (infinitesimal) vom Berührpunkt entfernt, entsteht noch kein Unterschied zwischen $g(x)$ und $f(x)$ .

Die lineare Funktion $g(x)$ ahmt das Verhalten von $f(x)$ nahe der Stelle $x=1$ gut nach (besser als jede andere lineare Funktion). Die relative Veränderung ${\tfrac {\Delta g}{\Delta x}}$ hat überall den Wert $m=2$ . Die nicht so einfach zu ermittelnde relative Veränderung ${\tfrac {\Delta f}{\Delta x}}$ stimmt aber im Berührpunkt mit dem Wert $m=2$ überein.

Es lässt sich also festhalten:

Nicht-lineare Funktionen: Soll die relative Veränderung einer nicht-linearen Funktion in einem bestimmten Punkt ermittelt werden, so wird sie (wenn möglich) dort linear genähert. Die Steigung der linearen Näherungsfunktion ist die an dieser Stelle vorliegende Steigung der betrachteten nicht-linearen Funktion, und es gilt dieselbe Anschauung wie bei Ableitungen linearer Funktionen. Dabei ist nur zu beachten, dass sich die relative Veränderung einer nicht-linearen Funktion von Punkt zu Punkt ändert.

Während im Beispiel oben (Fahrzeugbewegung) für die durchschnittliche Geschwindigkeit die Zeitspanne

\Delta t

angemessen willkürlich gewählt werden kann, ist die momentane Geschwindigkeit, wenn sie veränderlich ist, nur für kleine

\Delta t

angebbar. Wie klein

\Delta t

gewählt werden muss, hängt ab von der Anforderung an die Qualität der Näherung. In mathematischer Perfektion wird sie infinitesimal. Bei dieser wird für die relative Veränderung (wie schon oben angegeben) anstelle des Differenzenquotienten

{\tfrac {\Delta y}{\Delta x}}

der Differenzialquotient

{\tfrac {\mathrm {d} y}{\mathrm {d} x}}

geschrieben (in vereinfachter Schreibweise

y'

oder

f'

).

Die Gewinnung der linearen Näherung einer nicht-linearen Funktion an einer bestimmten Stelle ist zentrale Aufgabe des Kalküls der Differentialrechnung. Bei einer mathematisch angebbaren Funktion (im Beispiel war das $f(x)=x^{2}$ ) sollte sich die Ableitung ausrechnen lassen. Im Idealfall ist diese Berechnung sogar so allgemein, dass sie auf alle Punkte des Definitionsbereichs angewendet werden kann. Im Falle von $f(x)=x^{2}$ besitzt jede Stelle $x$ als beste lineare Näherung die Steigung $m=2x$ . Mit der Zusatzinformation, dass die lineare Funktion mit der Kurve im Punkt $(x_{0},f(x_{0}))$ übereinstimmen muss, kann dann die vollständige Funktionsgleichung der linearen Näherungsfunktion aufgestellt werden.

Der Ansatz zur Bestimmung des Differentialquotienten liegt in der Berechnung des Grenzwerts (wie oben bei der momentanen Geschwindigkeit):

\lim _{\Delta x\to 0}{\frac {f(x_{0}+\Delta x)-f(x_{0})}{\Delta x}}=f'(x_{0})\quad

oder in anderer Schreibweise

\quad \lim _{h\to 0}{\frac {f(x+h)-f(x)}{h}}=f'(x).

Bei einigen elementaren Funktionen wie Potenzfunktion, Exponentialfunktion, Logarithmusfunktion oder Sinusfunktion ist jeweils der Grenzwertprozess durchgeführt worden. Dabei ergibt sich jeweils eine Ableitungsfunktion. Darauf aufbauend sind Ableitungsregeln für die elementaren und auch für weitere Funktionen wie Summen, Produkte oder Verkettungen elementarer Funktionen aufgestellt worden.

Damit werden die Grenzübergänge nicht in jeder Anwendung neu vollzogen, sondern für die Rechenpraxis werden Ableitungsregeln angewendet. Die „Kunst“ der Differentialrechnung besteht „nur“ darin, kompliziertere Funktionen zu strukturieren und auf die Strukturelemente die jeweils zutreffende Ableitungsregel anzuwenden. Ein Beispiel folgt weiter hinten.

Berechnung von Grenzwerten[Bearbeiten | Quelltext bearbeiten]

Jeder Differenzialquotient an einer vorgesehenen Stelle erscheint als unbestimmter Ausdruck vom Typ „ ${\tfrac {0}{0}}$ “. Zu seiner Berechnung wird vom Differenzenquotient ausgegangen, und dessen Verhalten in der Umgebung der vorgesehenen Stelle wird untersucht, ob er die Tendenz hat, einen bestimmten Wert anzunehmen. Einige Grenzwerte, die für Ableitungsregeln benötigt werden, werden nachfolgend hergeleitet. Selbstverständlich dürfen dazu keine Regeln der Differenzialrechnung verwendet werden, da diese erst nach der Kenntnis der Grenzwerte aufgestellt werden können.

Ein einfacher Fall 1 $\quad f(x)=x^{2}$

Ausgangspunkt ist der Differenzenquotient für die vorgesehene Funktion.

{\frac {\Delta f}{\Delta x}}={\frac {f(x+h)-f(x)}{(x+h)-x}}={\frac {(x+h)^{2}-x^{2}}{h}}

Wird die binomische Formel $(x+h)^{2}=x^{2}+2xh+h^{2}$ eingesetzt, so kürzt sich ein Summand heraus.

{\frac {\Delta f}{\Delta x}}={\frac {x^{2}+2xh+h^{2}-x^{2}}{h}}={\frac {2xh+h^{2}}{h}}

Für $h=0$ ist dieser Bruch unbestimmt. Aber für $h\neq 0$ (dann und nur dann!) können Zähler und Nenner durch $h$ dividiert werden.

{\frac {\Delta f}{\Delta x}}=2x+h

Für jedes $h\neq 0$ ist dieser Ausdruck bestimmt, auch wenn man dem Wert $h=0$ nahe kommt. Er strebt im Grenzübergang nach

\lim _{h\to 0}{\frac {\Delta f}{\Delta x}}=2x

Im Weiteren werden hier nur Grenzwerte berechnet, und ihre Einsetzung in Differenzenquotienten erfolgt weiter hinten im Abschnitt Ableitungsberechnung.

Veranschaulichung zur Grenzwertableitung am Einheitskreis

Fall 2 $\quad {\frac {\sin h}{h}}$

Für $h=0$ ist dieser Bruch unbestimmt. Zur Berechnung bei $h>0$ wird die Fläche eines Kreissektors mit dem Bogen $h$ verglichen mit den Flächen eines innen liegenden und eines außen liegenden Dreiecks gemäß der Zeichnung. Im gezeigten Quadranten gilt offensichtlich^[3]

{\frac {1}{2}}\sin h\cdot \cos h<\pi \cdot {\frac {h}{2\pi }}<{\frac {1}{2}}\tan h\cdot 1

Bei $\sin h\neq 0$ kann diese Ungleichung mit ${\frac {2}{\sin h}}$ multipliziert werden.

\cos h<{\frac {h}{\sin h}}<{\frac {1}{\cos h}}

Für $h\to 0$ streben sowohl der linke als auch der rechte Ausdruck gegen eins. Damit muss auch der dazwischen liegende Ausdruck gegen eins streben. Für seinen Kehrwert gilt das ebenfalls. Für $h>0$ strebt er im Grenzübergang nach

\lim _{h\to 0}{\frac {\sin h}{h}}=1

Zwischenüberlegung $\quad \left(1+{\frac {1}{n}}\right)^{n}$

Der Logarithmus dieses Ausdrucks, das ist $n\cdot \log(1+{\frac {1}{n}})$ , strebt für $n\to \infty$ gegen „ $\infty \cdot 0$ “. Dieser Logarithmus ist dort unbestimmt und damit auch der Ausdruck selber. Es ist aber bewiesen, dass

\lim _{n\to \infty }\left(1+{\frac {1}{n}}\right)^{n}

einen bestimmten endlichen Wert annimmt, der als Eulersche Zahl $\mathrm {e}$ bezeichnet wird. Dieses wird unter dem verlinkten Stichwort behandelt und hier als bekannt vorausgesetzt.

Fall 3 $\quad {\frac {a^{h}-1}{h}}$

Für $h=0$ ist dieser Bruch unbestimmt. Aber für $a>1$ und $h>0$ ist die Substitution^[4]

a^{h}-1={\frac {1}{z}}

,

\quad a^{h}=1+{\frac {1}{z}}

zulässig. Aufgelöst nach $h$ unter Verwendung des natürlichen Logarithmus ergibt das

h={\frac {\ln(1+{\frac {1}{z}})}{\ln a}}

{\frac {a^{h}-1}{h}}={\frac {\ln a}{z\,\ln(1+{\frac {1}{z}})}}={\frac {\ln a}{\ln \left(1+{\frac {1}{z}}\right)^{z}}}

Für $h\to 0$ streben $z\to \infty$ und der Nenner gegen $\ln \mathrm {e} =1$ . Für jedes $h>0$ ist dieser Ausdruck bestimmt, auch wenn man dem Wert $h=0$ nahe kommt. Er strebt im Grenzübergang nach

\lim _{h\to 0}{\frac {a^{h}-1}{h}}=\ln a

Als Voraussetzung für diese Herleitung muss $z$ positiv sein. Für $0<a<1$ ist dieses erfüllt mit negativem $h$ . Nähert man sich bei $0<a<1$ dem Wert $h=0$ von der Seite $h<0$ her, so gilt derselbe Grenzübergang.

Fall 4 $\quad {\frac {\log(1+h)}{h}}$

Für $h=0$ ist dieser Bruch unbestimmt. Aber für $h>0$ ist die Substitution $h={\frac {1}{z}}$ zulässig.^[5]

{\frac {\log(1+h)}{h}}=z\,\log \left(1+{\frac {1}{z}}\right)=\log \left(1+{\frac {1}{z}}\right)^{z}

Für $h\to 0$ strebt $z\to \infty$ . Für jedes $h>0$ ist dieser Ausdruck bestimmt, auch wenn man dem Wert $h=0$ nahe kommt. Er strebt im Grenzübergang nach

\lim _{h\to 0}{\frac {\log(1+h)}{h}}=\log \mathrm {e}

Einordnung der Anwendungsmöglichkeiten[Bearbeiten | Quelltext bearbeiten]

Extremwertprobleme[Bearbeiten | Quelltext bearbeiten]

Eine wichtige Anwendung der Differentialrechnung besteht darin, dass mit Hilfe der Ableitung lokale Extremwerte einer Kurve bestimmt werden können. Anstatt also anhand einer Wertetabelle mechanisch nach Hoch- oder Tiefpunkten suchen zu müssen, liefert der Kalkül in einigen Fällen eine direkte Antwort. Liegt ein Hoch- oder Tiefpunkt vor, so besitzt die Kurve an dieser Stelle keinen „echten“ Anstieg, weshalb die optimale Linearisierung eine Steigung von 0 besitzt. Für die genaue Klassifizierung eines Extremwertes sind jedoch weitere lokale Daten der Kurve notwendig, denn eine Steigung von 0 ist nicht hinreichend für die Existenz eines Extremwertes (geschweige denn eines Hoch- oder Tiefpunktes).

In der Praxis treten Extremwertprobleme typischerweise dann auf, wenn Prozesse, zum Beispiel in der Wirtschaft, optimiert werden sollen. Oft liegen an den Randwerten jeweils ungünstige Ergebnisse, in Richtung „Mitte“ kommt es aber zu einer stetigen Steigerung, die dann irgendwo maximal werden muss. Zum Beispiel die optimale Wahl eines Verkaufspreises: Bei einem zu geringen Preis ist die Nachfrage nach einem Produkt zwar sehr groß, aber die Produktion kann nicht finanziert werden. Ist er andererseits zu hoch, so wird es im Extremfall gar nicht mehr gekauft. Daher liegt ein Optimum irgendwo „in der Mitte“. Voraussetzung dabei ist, dass der Zusammenhang in Form einer (stetig) differenzierbaren Funktion wiedergegeben werden kann.

Die Untersuchung einer Funktion auf Extremstellen ist Teil einer Kurvendiskussion. Die mathematischen Hintergründe sind im Abschnitt Anwendung höherer Ableitungen bereitgestellt.

Mathematische Modellierung[Bearbeiten | Quelltext bearbeiten]

In der mathematischen Modellierung sollen komplexe Probleme in mathematischer Sprache erfasst und analysiert werden. Je nach Fragestellung sind das Untersuchen von Korrelationen oder Kausalitäten oder auch das Geben von Prognosen im Rahmen dieses Modells zielführend.

Besonders im Umfeld sog. Differentialgleichungen ist die Differentialrechnung zentrales Werkzeug bei der Modellierung. Diese Gleichungen treten zum Beispiel auf, wenn es eine kausale Beziehung zwischen dem Bestand einer Größe und deren zeitlicher Veränderung gibt. Ein alltägliches Beispiel könnte sein:

Je mehr Einwohner eine Stadt besitzt, desto mehr Leute wollen dort hinziehen.

Etwas konkreter könnte dies zum Beispiel heißen, dass bei $1\,000\,000$ jetzigen Einwohnern durchschnittlich $1\,000\,000$ Personen in den kommenden 10 Jahren zuziehen werden, bei $1\,000\,001$ Einwohnern durchschnittlich $1\,000\,001$ Personen in den kommenden 10 Jahren usw. – um nicht alle Zahlen einzeln ausführen zu müssen: Leben $n$ Personen in der Stadt, so wollen so viele Menschen hinzuziehen, dass nach 10 Jahren weitere $n$ hinzukommen würden. Besteht eine derartige Kausalität zwischen Bestand und zeitlicher Veränderung, so kann gefragt werden, ob aus diesen Daten eine Prognose für die Einwohnerzahl nach 10 Jahren abgeleitet werden kann, wenn die Stadt im Jahr 2020 zum Beispiel $1\,000\,000$ Einwohner hatte. Es wäre dabei falsch zu glauben, dass dies $2\,000\,000$ sein werden, da sich mit steigender Einwohnerzahl auch die Nachfrage nach Wohnraum wiederum zunehmend steigern wird. Der Knackpunkt zum Verständnis des Zusammenhangs ist demnach erneut dessen Lokalität: Besitzt die Stadt $1\,000\,000$ Einwohner, so wollen zu diesem Zeitpunkt $1\,000\,000$ Menschen pro 10 Jahre hinzuziehen. Aber einen kurzen Augenblick später, wenn weitere Menschen hinzugezogen sind, sieht die Lage wieder anders aus. Wird dieses Phänomen zeitlich beliebig engmaschig gedacht, ergibt sich ein „differentieller“ Zusammenhang. Allerdings eignet sich die kontinuierliche Herangehensweise in vielen Fällen auch bei diskreten Problemstellungen.^[6]

Mit Hilfe der Differentialrechnung kann aus so einem kausalen Zusammenhang zwischen Bestand und Veränderung in vielen Fällen ein Modell hergeleitet werden, was den komplexen Zusammenhang auflöst, und zwar in dem Sinne, dass zum Schluss eine Bestandsfunktion explizit angegeben werden kann. Setzt man in diese Funktion dann zum Beispiel den Wert 10 Jahre ein, so ergibt sich eine Prognose für die Stadtbewohneranzahl im Jahr 2030. Im Falle oberen Modells wird eine Bestandsfunktion $B$ gesucht mit $B(t)=B'(t)$ , $t$ in 10 Jahren, und $B(0)=1\,000\,000$ . Die Lösung ist dann

B(t)=1\,000\,000\,e^{t}

mit der natürlichen Exponentialfunktion (natürlich bedeutet, dass der Proportionalitätsfaktor zwischen Bestand und Veränderung einfach gleich 1 ist) und für das Jahr 2030 lautet die geschätzte Prognose $B(1)\approx 2{,}718$ Mio. Einwohner. Die Proportionalität zwischen Bestand und Veränderungsrate führt also zu exponentiellem Wachstum und ist klassisches Beispiel eines selbstverstärkenden Effektes. Analoge Modelle funktionieren beim Populationswachstum (Je mehr Individuen, desto mehr Geburten) oder der Verbreitung einer ansteckenden Krankheit (Je mehr Erkrankte, desto mehr Ansteckungen). In vielen Fällen stoßen diese Modelle jedoch an eine Grenze, wenn sich der Prozess aufgrund natürlicher Beschränkungen (wie eine Obergrenze der Gesamtbevölkerung) nicht beliebig fortsetzen lässt. In diesen Fällen sind ähnliche Modelle, wie das logistische Wachstum, geeigneter.^[7]

Numerische Verfahren[Bearbeiten | Quelltext bearbeiten]

Die Eigenschaft einer Funktion, differenzierbar zu sein, ist bei vielen Anwendungen von Vorteil, da dies der Funktion mehr Struktur verleiht. Ein Beispiel ist das Lösen von Gleichungen. Bei einigen mathematischen Anwendungen ist es notwendig, den Wert einer (oder mehrerer) Unbekannten $x$ zu finden, die Nullstelle einer Funktion $f$ ist. Es ist dann $f(x)=0$ . Je nach Beschaffenheit von $f$ können Strategien entwickelt werden, eine Nullstelle zumindest näherungsweise anzugeben, was in der Praxis meist vollkommen ausreicht. Ist $f$ in jedem Punkt differenzierbar mit Ableitung $f'$ , so kann in vielen Fällen das Newton-Verfahren helfen. Bei diesem spielt die Differentialrechnung insofern eine direkte Rolle, als beim schrittweisen Vorgehen immer wieder eine Ableitung explizit berechnet werden muss.^[8]

Ein weiterer Vorteil der Differentialrechnung ist, dass in vielen Fällen komplizierte Funktionen, wie Wurzeln oder auch Sinus und Kosinus, anhand einfacher Rechenregeln wie Addition und Multiplikation gut angenähert werden können. Ist die Funktion an einem benachbarten Wert leicht auszuwerten, ist dies von großem Nutzen. Wird zum Beispiel nach einem Näherungswert für die Zahl ${\sqrt {26}}$ gesucht, so liefert die Differentialrechnung für $f(x)={\sqrt {x}}$ die Linearisierung

f(25+h)\approx f(25)+hf'(25)={\sqrt {25}}+{\frac {h}{2{\sqrt {25}}}}=5+{\frac {h}{10}},

denn es gilt nachweislich $f'(x)={\tfrac {1}{2{\sqrt {x}}}}$ . Sowohl Funktion als auch erste Ableitung konnten an der Stelle $25$ gut berechnet werden, weil es sich dabei um eine Quadratzahl handelt. Einsetzen von $h=1$ ergibt ${\sqrt {26}}\approx 5+{\tfrac {1}{10}}=5{,}1$ , was mit dem exakten Ergebnis ${\sqrt {26}}=5{,}09901\dots$ bis auf einen Fehler kleiner als ${\tfrac {1}{1000}}$ übereinstimmt.^[9] Unter Einbezug höherer Ableitungen kann die Genauigkeit solcher Approximationen zusätzlich gesteigert werden, da dann nicht nur linear, sondern quadratisch, kubisch usw. angenähert wird, siehe auch Taylor-Reihe.

Reine Mathematik[Bearbeiten | Quelltext bearbeiten]

Auch in der reinen Mathematik spielt die Differentialrechnung als ein Kern der Analysis eine bedeutende Rolle. Ein Beispiel ist die Differentialgeometrie, die sich mit Figuren beschäftigt, die eine differenzierbare Oberfläche (ohne Knicke usw.) haben. Zum Beispiel kann auf eine Kugeloberfläche in jedem Punkt tangential eine Ebene platziert werden. Anschaulich: Steht man an einem Erdpunkt, so hat man das Gefühl, die Erde sei flach, wenn man seinen Blick in der Tangentialebene schweifen lässt. In Wahrheit ist die Erde jedoch nur lokal flach: Die angelegte Ebene dient der (durch Linearisierung) vereinfachten Darstellung der komplizierteren Krümmung. Global hat sie als Kugeloberfläche eine völlig andere Gestalt.

Die Methoden der Differentialgeometrie sind äußerst bedeutend für die theoretische Physik. So können Phänomene wie Krümmung oder Raumzeit über Methoden der Differentialrechnung beschrieben werden. Auch die Frage, was der kürzeste Abstand zwischen zwei Punkten auf einer gekrümmten Fläche (zum Beispiel der Erdoberfläche) ist, kann mit diesen Techniken formuliert und oft auch beantwortet werden.

Auch bei der Erforschung von Zahlen als solchen, also im Rahmen der Zahlentheorie, hat sich die Differentialrechnung in der analytischen Zahlentheorie bewährt. Die grundlegende Idee der analytischen Zahlentheorie ist die Umwandlung von bestimmten Zahlen, über die man etwas lernen möchte, in Funktionen. Haben diese Funktionen „gute Eigenschaften“ wie etwa Differenzierbarkeit, so hofft man, über die damit einhergehenden Strukturen Rückschlüsse auf die ursprünglichen Zahlen ziehen zu können. Es hat sich dabei häufig bewährt, zur Perfektionierung der Analysis von den reellen zu den komplexen Zahlen überzugehen (siehe auch komplexe Analysis), also die Funktionen über einem größeren Zahlenbereich zu studieren. Ein Beispiel ist die Analyse der Fibonacci-Zahlen $0,1,1,2,3,5,8,13,21,\dots$ , deren Bildungsgesetz vorschreibt, dass eine neue Zahl stets aus der Summe der beiden vorangehenden entstehen soll. Ansatz der analytischen Zahlentheorie ist die Bildung der erzeugenden Funktion

F(x)=0+1x+1x^{2}+2x^{3}+3x^{4}+5x^{5}+8x^{6}+13x^{7}+\dotsb ,

also eines „unendlich langen“ Polynoms (einer sog. Potenzreihe), dessen Koeffizienten genau die Fibonacci-Zahlen sind. Für hinreichend kleine Zahlen $x$ ist dieser Ausdruck sinnvoll, weil die Potenzen $x^{n}$ dann viel schneller gegen 0 gehen als die Fibonacci-Zahlen gegen Unendlich, womit sich langfristig alles bei einem endlichen Wert einpendelt. Es ist für diese Werte möglich, die Funktion $F$ explizit zu berechnen durch

F(x)={\frac {x}{1-x-x^{2}}}.

Das Nennerpolynom $1-x-x^{2}$ „spiegelt“ dabei genau das Verhalten $f_{n}-f_{n-1}-f_{n-2}=0$ der Fibonacci-Zahlen $f_{n}$ „wider“ – es ergibt sich in der Tat $F(x)-xF(x)-x^{2}F(x)=x$ durch termweises Verrechnen. Mit Hilfe der Differentialrechnung lässt sich andererseits zeigen, dass die Funktion $F$ ausreicht, um die Fibonacci-Zahlen (ihre Koeffizienten) eindeutig zu charakterisieren. Da es sich aber um eine schlichte rationale Funktion handelt, lässt sich dadurch die für jede Fibonacci-Zahl $f_{n}$ gültige exakte Formel

f_{n}={\frac {\Phi ^{n}-\left(-{\frac {1}{\Phi }}\right)^{n}}{\sqrt {5}}}

mit dem goldenen Schnitt $\Phi ={\tfrac {1+{\sqrt {5}}}{2}}$ herleiten, wenn $f_{0}=0,f_{1}=1$ und $f_{n}=f_{n-1}+f_{n-2}$ gesetzt wird. Die exakte Formel vermag eine Fibonacci-Zahl zu berechnen, ohne die vorherigen zu kennen. Der Schluss wird über einen sog. Koeffizientenvergleich gezogen und nutzt aus, dass das Polynom $x^{2}+x-1$ als Nullstellen $-\Phi$ und ${\tfrac {1}{\Phi }}$ besitzt.^[10]

Der höherdimensionale Fall[Bearbeiten | Quelltext bearbeiten]

Die Differentialrechnung kann auf den Fall „höherdimensionaler Funktionen“ verallgemeinert werden. Damit ist gemeint, dass sowohl Eingabe- als auch Ausgabewerte der Funktion nicht bloß Teil des eindimensionalen reellen Zahlenstrahls, sondern auch Punkte eines höherdimensionalen Raums sind. Ein Beispiel ist die Vorschrift

\left({x \atop y}\right)\mapsto \left({x^{2}+y^{2} \atop x^{2}-2y}\right)

zwischen jeweils zweidimensionalen Räumen. Das Funktionsverständnis als Tabelle bleibt hier identisch, nur dass diese mit „vier Spalten“ $(x,y,x^{2}+y^{2},x^{2}-2y)$ „deutlich mehr“ Einträge besitzt. Auch mehrdimensionale Abbildungen können in manchen Fällen an einem Punkt linearisiert werden. Allerdings ist dabei nun angemessen zu beachten, dass es sowohl mehrere Eingabedimensionen als auch mehrere Ausgabedimensionen geben kann: Der korrekte Verallgemeinerungsweg liegt darin, dass die Linearisierung in jeder Komponente der Ausgabe jede Variable auf lineare Weise berücksichtigt. Das zieht für obere Beispielfunktion eine Approximation der Form

f(x,y):=\left({x^{2}+y^{2} \atop x^{2}-2y}\right)\approx \left({m_{1}(x-x_{0})+m_{2}(y-y_{0})+c_{1} \atop m_{3}(x-x_{0})+m_{4}(y-y_{0})+c_{2}}\right)

nach sich. Diese ahmt dann die gesamte Funktion in der Nähe der Eingabe $(x_{0},y_{0})$ sehr gut nach.^[11] In jeder Komponente wird demnach für jede Variable eine „Steigung“ angegeben – diese wird dann das lokale Verhalten der Komponentenfunktion bei kleiner Änderung in dieser Variablen messen. Diese Steigung wird auch als partielle Ableitung bezeichnet.^[12] Die korrekten konstanten Abschnitte $c_{1},c_{2}$ berechnen sich exemplarisch durch $c_{1}=x_{0}^{2}+y_{0}^{2}$ bzw. $c_{2}=x_{0}^{2}-2y_{0}$ . Wie auch im eindimensionalen Fall hängen die Steigungen (hier $m_{1},m_{2},m_{3},m_{4}$ ) stark von der Wahl des Punktes (hier $(x_{0},y_{0})$ ) ab, an dem abgeleitet wird. Die Ableitung ist demnach keine Zahl mehr, sondern ein Verband aus mehreren Zahlen – in diesem Beispiel sind es vier – und diese Zahlen sind im Regelfall bei allen Eingaben unterschiedlich. Es wird allgemein für die Ableitung auch

f'(x_{0},y_{0})={\begin{pmatrix}m_{1}&m_{2}\\m_{3}&m_{4}\end{pmatrix}}

geschrieben, womit alle „Steigungen“ in einer sog. Matrix versammelt sind. Man bezeichnet diesen Term auch als Jacobi-Matrix oder Funktionalmatrix.^[13]

Beispiel: Wird oben $(x_{0},y_{0})=(1,0)$ gesetzt, so kann man zeigen, dass folgende lineare Approximation bei sehr kleinen Änderungen von $x$ und $y$ sehr gut ist:

f(x,y)=\left({x^{2}+y^{2} \atop x^{2}-2y}\right)\approx \left({2x-1 \atop 2x-2y-1}\right).

Zum Beispiel gilt

f(1{,}003;0{,}002)=\left({1{,}006013 \atop 1{,}002009}\right)

und

\left({2\cdot 1{,}003-1 \atop 2\cdot 1{,}003-2\cdot 0{,}002-1}\right)=\left({1{,}006 \atop 1{,}002}\right).

Hat man im ganz allgemeinen Fall $n$ Variablen und $m$ Ausgabekomponenten, so gibt es kombinatorisch gesehen insgesamt $n\cdot m$ „Steigungen“, also partielle Ableitungen. Im klassischen Fall $n=m=1$ gibt es wegen $1\cdot 1=1$ eine Steigung $f'(x_{0})$ und im oberen Beispiel $n=m=2$ sind es $2\cdot 2=4$ „Steigungen“.^[14]

Geschichte[Bearbeiten | Quelltext bearbeiten]

Die Aufgabenstellung der Differentialrechnung bildete sich als Tangentenproblem ab dem 17. Jahrhundert heraus. Hierunter versteht man die Aufgabe, bei einer beliebigen Kurve in einem beliebigen Punkt die Tangente zu bestimmen.^[15] Ein naheliegender Lösungsansatz bestand darin, die Tangente an eine Kurve durch ihre Sekante über einem endlichen (endlich heißt hier: größer als null), aber beliebig kleinen Intervall zu approximieren. Dabei war die technische Schwierigkeit zu überwinden, mit einer solchen infinitesimal kleinen Intervallbreite zu rechnen. Die ersten Anfänge der Differentialrechnung gehen auf Pierre de Fermat zurück. Er entwickelte um 1628 eine Methode, Extremstellen algebraischer Terme zu bestimmen und Tangenten an Kegelschnitte und andere Kurven zu berechnen. Seine „Methode“ war rein algebraisch. Fermat betrachtete keine Grenzübergänge und schon gar keine Ableitungen. Gleichwohl lässt sich seine „Methode“ mit modernen Mitteln der Analysis interpretieren und rechtfertigen, und sie hat Mathematiker wie Newton und Leibniz nachweislich inspiriert. Einige Jahre später wählte René Descartes einen anderen algebraischen Zugang, indem er an eine Kurve einen Kreis anlegte. Dieser schneidet die Kurve in zwei nahe beieinanderliegenden Punkten; es sei denn, er berührt die Kurve. Dieser Ansatz ermöglichte es ihm, für spezielle Kurven die Steigung der Tangente zu bestimmen.^[16]

Ende des 17. Jahrhunderts gelang es Isaac Newton und Gottfried Wilhelm Leibniz mit unterschiedlichen Ansätzen unabhängig voneinander, widerspruchsfrei funktionierende Kalküle zu entwickeln. Während Newton das Problem physikalisch über das Momentangeschwindigkeitsproblem anging,^[17] löste es Leibniz geometrisch über das Tangentenproblem. Ihre Arbeiten erlaubten das Abstrahieren von rein geometrischer Vorstellung und werden deshalb als Beginn der Analysis betrachtet. Bekannt wurden sie vor allem durch das Buch Analyse des Infiniment Petits pour l’Intelligence des Lignes Courbes^[18] des Adligen Guillaume François Antoine, Marquis de L’Hospital, der bei Johann I Bernoulli Privatunterricht nahm und dessen Forschung zur Analysis so publizierte. Darin heißt es:

„Die Reichweite dieses Kalküls ist unermesslich: Er lässt sich sowohl auf mechanische als auch geometrische Kurven anwenden; Wurzelzeichen bereiten ihm keine Schwierigkeiten und sind oftmals sogar angenehm im Umgang; er lässt sich auf so viele Variablen erweitern, wie man sich nur wünschen kann; der Vergleich unendlich kleiner Größen aller Art gelingt mühelos. Und er erlaubt eine unendliche Zahl an überraschenden Entdeckungen über gekrümmte wie geradlinige Tangenten, Fragen De maximis & minimis, Wendepunkte und Spitzen von Kurven, Evoluten, Spiegelungs- und Brechungskaustiken, &c. wie wir in diesem Buch sehen werden.“^[19]

Die heute bekannten Ableitungsregeln basieren vor allem auf den Werken von Leonhard Euler, der den Funktionsbegriff prägte.

Newton und Leibniz arbeiteten mit beliebig kleinen positiven Zahlen.^[20] Dies wurde bereits von Zeitgenossen als unlogisch kritisiert, beispielsweise von George Berkeley in der polemischen Schrift The analyst; or, a discourse addressed to an infidel mathematician.^[21] Erst in den 1960ern konnte Abraham Robinson diese Verwendung infinitesimaler Größen mit der Entwicklung der Nichtstandardanalysis auf ein mathematisch-axiomatisch sicheres Fundament stellen. Trotz der herrschenden Unsicherheit wurde die Differentialrechnung aber konsequent weiterentwickelt, in erster Linie wegen ihrer zahlreichen Anwendungen in der Physik und in anderen Gebieten der Mathematik. Symptomatisch für die damalige Zeit war das von der Preußischen Akademie der Wissenschaften 1784 veröffentlichte Preisausschreiben:

„… Die höhere Geometrie benutzt häufig unendlich große und unendlich kleine Größen; jedoch haben die alten Gelehrten das Unendliche sorgfältig vermieden, und einige berühmte Analysten unserer Zeit bekennen, dass die Wörter unendliche Größe widerspruchsvoll sind. Die Akademie verlangt also, dass man erkläre, wie aus einer widersprechenden Annahme so viele richtige Sätze entstanden sind, und dass man einen sicheren und klaren Grundbegriff angebe, welcher das Unendliche ersetzen dürfte, ohne die Rechnung zu schwierig oder zu lang zu machen …“^[22]

Erst zum Anfang des 19. Jahrhunderts gelang es Augustin-Louis Cauchy, der Differentialrechnung die heute übliche logische Strenge zu geben, indem er von den infinitesimalen Größen abging und die Ableitung als Grenzwert von Sekantensteigungen (Differenzenquotienten) definierte.^[23] Die heute benutzte Definition des Grenzwerts wurde schließlich von Karl Weierstraß im Jahr 1861 formuliert.^[24]

Definition[Bearbeiten | Quelltext bearbeiten]

Sekanten- und Tangentensteigung[Bearbeiten | Quelltext bearbeiten]

Ausgangspunkt für die Definition der Ableitung ist die Näherung der Tangentensteigung durch eine Sekantensteigung (manchmal auch Sehnensteigung genannt). Gesucht sei die Steigung einer Funktion $f$ in einem Punkt $(x_{0},f(x_{0}))$ . Man berechnet zunächst die Steigung der Sekante an $f$ über einem endlichen Intervall $[x_{0},x_{0}+\Delta x]$ der Länge $\Delta x$ :

Sekantensteigung =

{\frac {f(x_{0}+\Delta x)-f(x_{0})}{(x_{0}+\Delta x)-x_{0}}}={\frac {f(x_{0}+\Delta x)-f(x_{0})}{\Delta x}}

.

Die Sekantensteigung ist also der Quotient zweier Differenzen; sie wird deshalb auch Differenzenquotient genannt. Mit der Kurznotation $\Delta y$ für $f(x_{0}+\Delta x)-f(x_{0})$ kann man die Sekantensteigung abgekürzt als ${\tfrac {\Delta y}{\Delta x}}$ schreiben. Der Ausdruck $\Delta x$ verdeutlicht also die beliebig klein werdende Differenz zwischen der Stelle, an der abgeleitet werden soll, und einem benachbarten Punkt. In der Literatur wird jedoch, wie auch im Folgenden, in vielen Fällen aus Gründen der Einfachheit das Symbol $h$ statt $\Delta x$ verwendet.

Um eine Tangentensteigung zu berechnen, muss man die beiden Punkte, durch die die Sekante gezogen wird, immer weiter aneinander rücken. Dabei gehen sowohl $\Delta x$ als auch $\Delta y$ gegen Null. Der Quotient ${\tfrac {\Delta y}{\Delta x}}$ bleibt aber in vielen Fällen endlich. Auf diesem Grenzübergang beruht die folgende Definition.

Differenzierbarkeit[Bearbeiten | Quelltext bearbeiten]

Eine Funktion $f\colon U\to \mathbb {R}$ , die ein offenes Intervall $U$ in die reellen Zahlen abbildet, heißt differenzierbar an der Stelle $x_{0}\in U$ , falls der Grenzwert

\lim _{x\to x_{0}}{\frac {f(x)-f(x_{0})}{x-x_{0}}}=\lim _{h\to 0}{\frac {f(x_{0}+h)-f(x_{0})}{h}}

(mit

h=x-x_{0}

)

existiert. Dieser Grenzwert heißt Differentialquotient oder Ableitung von $f$ nach $x$ an der Stelle $x_{0}$ und wird als

f'(x_{0})

oder

\left.{\frac {\mathrm {d} f(x)}{\mathrm {d} x}}\right|_{x=x_{0}}

oder

{\frac {\mathrm {d} f}{\mathrm {d} x}}(x_{0})

oder

{\frac {\mathrm {d} }{\mathrm {d} x}}f(x_{0})

notiert.^[25]^[26] Gesprochen werden diese Notationen als „f Strich von x null“, „d f von x nach d x an der Stelle x gleich x null“, „d f nach d x von x null“ respektive „d nach d x von f von x null“. Im später folgenden Abschnitt Notationen werden noch weitere Varianten angeführt, um die Ableitung einer Funktion zu notieren.

Im Laufe der Zeit wurde folgende gleichwertige Definition gefunden, die sich im allgemeineren Kontext komplexer oder mehrdimensionaler Funktionen als leistungsfähiger erwiesen hat: Eine Funktion heißt an einer Stelle $x_{0}$ differenzierbar, falls eine Konstante $L$ existiert, sodass

\lim _{h\to 0}{\frac {f(x_{0}+h)-f(x_{0})-Lh}{h}}=0.

Der Zuwachs der Funktion $f$ , wenn man sich von $x_{0}$ nur wenig entfernt, etwa um den Wert $h$ , lässt sich also durch $Lh$ sehr gut approximieren. Man nennt deshalb die lineare Funktion $g\colon x\mapsto f(x_{0})+L(x-x_{0})$ , für die also $g(x_{0}+h)=f(x_{0})+Lh$ für alle $h$ gilt, auch die Linearisierung von $f$ an der Stelle $x_{0}$ .^[27]

Eine weitere Definition ist: Es gibt eine an der Stelle $x_{0}$ stetige Funktion $r$ mit $r(x_{0})=0$ und eine Konstante $L$ , sodass für alle $x$ gilt

f(x)=f(x_{0})+L(x-x_{0})+r(x)(x-x_{0})

.

Die Bedingungen $r(x_{0})=0$ und dass $r$ an der Stelle $x_{0}$ stetig ist, bedeuten gerade, dass das „Restglied“ $r(x)$ für $x$ gegen $x_{0}$ gegen $0$ konvergiert.^[27]

In beiden Fällen ist die Konstante $L$ eindeutig bestimmt und es gilt $f'(x_{0})=L$ . Der Vorteil dieser Formulierung ist, dass Beweise einfacher zu führen sind, da kein Quotient betrachtet werden muss. Diese Darstellung der besten linearen Approximation wurde schon von Karl Weierstraß, Henri Cartan und Jean Dieudonné konsequent angewandt und wird auch Weierstraßsche Zerlegungsformel genannt.

Bezeichnet man eine Funktion als differenzierbar, ohne sich auf eine bestimmte Stelle zu beziehen, dann bedeutet dies die Differenzierbarkeit an jeder Stelle des Definitionsbereiches, also die Existenz einer eindeutigen Tangente für jeden Punkt des Graphen.

Jede differenzierbare Funktion ist stetig, die Umkehrung gilt jedoch nicht.^[27] Noch Anfang des 19. Jahrhunderts war man überzeugt, dass eine stetige Funktion höchstens an wenigen Stellen nicht differenzierbar sein könne (wie die Betragsfunktion). Bernard Bolzano konstruierte dann als erster Mathematiker tatsächlich eine Funktion, die später Bolzanofunktion genannt wurde, die überall stetig, aber nirgends differenzierbar ist, was in der Fachwelt allerdings nicht bekannt wurde. Karl Weierstraß fand dann in den 1860er Jahren ebenfalls eine derartige Funktion (siehe Weierstraß-Funktion), was diesmal unter Mathematikern Wellen schlug. Ein bekanntes mehrdimensionales Beispiel für eine stetige, nicht differenzierbare Funktion ist die von Helge von Koch 1904 vorgestellte Koch-Kurve.^[28]

Ableitungsfunktion[Bearbeiten | Quelltext bearbeiten]

Die Ableitung der Funktion $f\colon U\to \mathbb {R}$ an der Stelle $x_{0}$ , bezeichnet mit $f'(x_{0})$ , beschreibt lokal das Verhalten der Funktion in der Umgebung der betrachteten Stelle $x_{0}$ . In einigen Fällen ist es möglich, an jedem Punkt des Funktionsgraphen eine Linearisierung vorzunehmen. Dies erlaubt die Definition einer Ableitungsfunktion (oder kurz Ableitung) $f'\colon U\to \mathbb {R}$ , die jedem Element des Definitionsbereichs $U$ der Ausgangsfunktion $f$ die Steigung der dortigen Linearisierung zuordnet. Man sagt in diesem Falle, „ $f$ ist in $U$ differenzierbar“.^[29]

Beispielsweise hat die Quadratfunktion $f\colon \mathbb {R} \to \mathbb {R}$ mit $f(x)=x^{2}$ an einer beliebigen Stelle $x_{0}$ die Ableitung $f'(x_{0})=2x_{0},$ die Quadratfunktion ist also auf der Menge der reellen Zahlen differenzierbar. Die zugehörige Ableitungsfunktion $f'$ ist gegeben durch $f'\colon \mathbb {R} \to \mathbb {R}$ mit $f'(x)=2x$ .

Die Ableitungsfunktion ist im Normalfall eine andere Funktion als die ursprünglich betrachtete. Einzige Ausnahme sind die Vielfachen $x\mapsto k\cdot e^{x}$ der natürlichen Exponentialfunktion mit beliebigem $k\in \mathbb {R}$ – unter denen, wie die Wahl $k=e^{-a}$ zeigt, auch alle Funktionen $x\mapsto e^{x-a}$ mit beliebigem $a\in \mathbb {R}$ enthalten sind (deren Graph aus dem der Exponentialfunktion $x\mapsto e^{x}$ durch „seitliche“ Verschiebung um $a$ entsteht und zu diesem daher kongruent ist).

Ist die Ableitung stetig, dann heißt $f$ stetig differenzierbar. In Anlehnung an die Bezeichnung $C(U)$ für die Gesamtheit (den Raum) der stetigen Funktionen mit Definitionsmenge $U$ wird der Raum der auf $U$ stetig differenzierbaren Funktionen mit $C^{1}(U)$ abgekürzt.^[30]

Notationen[Bearbeiten | Quelltext bearbeiten]

Geschichtlich bedingt gibt es unterschiedliche Notationen, um die Ableitung einer Funktion darzustellen.

Lagrange-Notation[Bearbeiten | Quelltext bearbeiten]

In diesem Artikel wurde bisher hauptsächlich die Notation $f'$ für die Ableitung von $f$ verwendet. Diese Notation geht auf den Mathematiker Joseph-Louis Lagrange zurück, der sie 1797 einführte.^[31] Bei dieser Notation wird die zweite Ableitung von $f$ mit $f''$ und die $n$ -te Ableitung mittels $f^{(n)}$ bezeichnet.

Newton-Notation[Bearbeiten | Quelltext bearbeiten]

Isaac Newton – neben Leibniz der Begründer der Differentialrechnung – notierte die erste Ableitung von $x$ mit ${\dot {x}}$ , entsprechend notierte er die zweite Ableitung durch ${\ddot {x}}$ .^[32] Heutzutage wird diese Schreibweise häufig in der Physik, insbesondere in der Mechanik, für die Ableitung nach der Zeit verwendet.^[33]

Leibniz-Notation[Bearbeiten | Quelltext bearbeiten]

Gottfried Wilhelm Leibniz führte für die erste Ableitung von $f$ (nach der Variablen $x$ ) die Notation ${\tfrac {\mathrm {d} f(x)}{\mathrm {d} x}}$ ein.^[34] Gelesen wird dieser Ausdruck als „d f von x nach d x“. Für die zweite Ableitung notierte Leibniz ${\tfrac {\mathrm {d} ^{2}f(x)}{\mathrm {d} x^{2}}}$ und die $n$ -te Ableitung wird mittels ${\tfrac {\mathrm {d} ^{n}f(x)}{\mathrm {d} x^{n}}}$ bezeichnet.^[35] Bei der Schreibweise von Leibniz handelt es sich nicht um einen Bruch. Die Symbole $\mathrm {d} f(x)$ und $\mathrm {d} x$ werden „Differentiale“ genannt, haben aber in der modernen Differentialrechnung (abgesehen von der Theorie der Differentialformen) lediglich eine symbolische Bedeutung und sind nur in dieser Schreibweise als formaler Differentialquotient erlaubt. In manchen Anwendungen (Kettenregel, Integration mancher Differentialgleichungen, Integration durch Substitution) rechnet man mit ihnen aber so, als wären sie gewöhnliche Terme.

Euler-Notation[Bearbeiten | Quelltext bearbeiten]

Die Notation $\mathrm {D} f$ oder $\mathrm {D} _{x}f(x)$ für die erste Ableitung von $f$ geht auf Leonhard Euler zurück. Dabei wird die Ableitung als Operator – also als eine besondere Funktion, die selbst auf Funktionen arbeitet, aufgefasst. Diese Idee geht auf den Mathematiker Louis François Antoine Arbogast zurück. Die zweite Ableitung wird in dieser Notation mittels $\mathrm {D} ^{2}f$ oder $\mathrm {D} _{x}^{2}f(x)$ und die $n$ -te Ableitung durch $\mathrm {D} ^{n}f$ oder $\mathrm {D} _{x}^{n}f(x)$ dargestellt.^[36]

Ableitungsberechnung[Bearbeiten | Quelltext bearbeiten]

Das Berechnen der Ableitung einer Funktion wird Differentiation oder Differenziation genannt; sprich, man differenziert diese Funktion.

Um die Ableitung elementarer Funktionen (z. B. $x^{n}$ , $\sin(x)$ , …) zu berechnen, hält man sich eng an die oben angegebene Definition, berechnet explizit einen Differenzenquotienten und lässt dann $h$ gegen Null gehen. Dieses Verfahren ist jedoch meistens umständlich. Bei der Lehre der Differentialrechnung wird diese Art der Rechnung daher nur wenige Male vollzogen. Später greift man auf bereits bekannte Ableitungsfunktionen zurück oder schlägt Ableitungen nicht ganz so geläufiger Funktionen in einem Tabellenwerk nach (z. B. im Bronstein-Semendjajew, siehe auch Tabelle von Ableitungs- und Stammfunktionen) und berechnet die Ableitung zusammengesetzter Funktionen mit Hilfe der Ableitungsregeln.

Ableitungen elementarer Funktionen[Bearbeiten | Quelltext bearbeiten]

Für die Berechnung der Ableitungsfunktion einer elementaren Funktion an einer vorgesehenen Stelle $x$ wird der zugehörige Differenzenquotient gebildet, der in der Umgebung $x+h$ mit $h\neq 0$ gültig ist, und dann wird der Grenzübergang $h\to 0$ vollzogen.

Natürliche Potenzen[Bearbeiten | Quelltext bearbeiten]

Der Fall $f(x)=x^{2}$ ist bereits weiter oben behandelt worden. Der zugehörige Differenzenquotient ergibt sich zu

{\frac {\Delta f}{\Delta x}}={\frac {f(x+h)-f(x)}{(x+h)-x}}={\frac {x^{2}+2xh+h^{2}-x^{2}}{h}}.

Wenn $h\neq 0$ ist, lässt sich $h$ kürzen,

{\frac {\Delta f}{\Delta x}}=2x+h,

und die Annäherung $h\to 0$ führt auf

f'(x)=\lim _{h\to 0}{\frac {\Delta f}{\Delta x}}=2x.

Allgemein für eine natürliche Zahl $n$ mit $f(x)=x^{n}$ wird der binomische Lehrsatz herangezogen:

(x+h)^{n}=\sum _{k=0}^{n}{\binom {n}{k}}x^{n-k}h^{k}=x^{n}+nhx^{n-1}+h^{2}g_{n}(x,h).

{\frac {\Delta f}{\Delta x}}={\frac {(x+h)^{n}-x^{n}}{h}}={\frac {x^{n}+nhx^{n-1}+h^{2}g_{n}(x,h)-x^{n}}{h}}=nx^{n-1}+hg_{n}(x,h).

Wenn $(x+h)^{n}$ für alle endlichen Werte von $h$ endlich ist, ist auch $g_{n}(x,h)$ endlich. Der in der letzten Gleichung vor $g_{n}(x,h)$ stehende Faktor $h$ führt auf $hg_{n}(x,h){\overset {h\to 0}{\longrightarrow }}0$ . Damit entsteht

f'(x)=\lim _{h\to 0}{\frac {\Delta f}{\Delta x}}=nx^{n-1}

Zwei Ergänzungen:

Ein konstanter Summand $m$ in $\quad f(x)=x^{n}+m\quad$ kürzt sich in $f(x+h)-f(x)$ heraus, noch bevor der Grenzübergang vollzogen wird.
Ein konstanter Faktor $m$ in $\quad f(x)=m\,x^{n}\quad$ kann in $f(x+h)-f(x)$ ausgeklammert und vor den Bruch gezogen werden.

Exponentialfunktion[Bearbeiten | Quelltext bearbeiten]

Mit der Exponentialfunktion $f(x)=a^{x}=\exp _{a}x$ ergibt sich der Differenzenquotient

{\frac {\Delta f}{\Delta x}}={\frac {f(x+h)-f(x)}{(x+h)-x}}={\frac {a^{x+h}-a^{x}}{h}}

Für jedes $a>0$ gilt

a^{x+h}=a^{x}\cdot a^{h}.

Damit kann im Zähler $a^{x}$ ausgeklammert werden.

{\frac {\Delta f}{\Delta x}}=a^{x}\,{\frac {a^{h}-1}{h}}.

Mit dem oben hergeleiteten Grenzübergang

\lim _{h\to 0}{\frac {a^{h}-1}{h}}=\ln a

entsteht

f'(x)=\lim _{h\to 0}{\frac {\Delta f}{\Delta x}}=a^{x}\,\ln a.

Darin ist $\ln a=\log _{\mathrm {e} }a$ der natürliche Logarithmus von $a$ . Speziell für die Eulersche Zahl $\mathrm {e}$ ist $\ln \mathrm {e} =1$ . Damit entsteht die auszeichnende Zusatzeigenschaft

\exp '_{\mathrm {e} }x=\exp _{\mathrm {e} }x.

Logarithmus[Bearbeiten | Quelltext bearbeiten]

Mit der Logarithmusfunktion $f(x)=\log _{a}x$ zur Basis $a>0,\ a\neq 1$ ergibt sich der Differenzenquotient

Der Logarithmus von $x$ (hier der natürliche Logarithmus $\ln x$ ) existiert nur bei $x>0$

{\frac {\Delta f}{\Delta x}}={\frac {\log _{a}(x+h)-\log _{a}x}{(x+h)-x}}={\frac {\log _{a}\left(x\cdot (1+{\frac {h}{x}})\right)-\log _{a}x}{h}}

Für jedes $a>0$ gilt

\log _{a}(u\cdot v)=\log _{a}u+\log _{a}v.

{\frac {\Delta f}{\Delta x}}={\frac {\log _{a}x+\log _{a}(1+{\frac {h}{x}})-\log _{a}x}{h}}={\frac {\log _{a}(1+{\frac {h}{x}})}{{\frac {h}{x}}\;x}}.

Mit dem oben hergeleiteten Grenzübergang

\lim _{u\to 0}{\frac {\log(1+u)}{u}}=\log \mathrm {e}

und mit der Basisumrechnung $\log _{a}\mathrm {e} ={\frac {1}{\log _{\mathrm {e} }a}}$ entsteht

f'(x)=\lim _{h\to 0}{\frac {\Delta f}{\Delta x}}={\frac {1}{x}}\,\log _{a}\mathrm {e} ={\frac {1}{x\,\ln a}}

Dieses existiert nur für $x>0$ . Für $x<0$ existiert die Funktion $g(x)=\log _{a}(-x)$ .^[37] Mit der Substitution $z(x)=-x>0$ und der Kettenregel ergibt ihre Ableitung

g'(x)={\frac {\mathrm {d} g}{\mathrm {d} z}}\,{\frac {\mathrm {d} z}{\mathrm {d} x}}={\frac {1}{z\,\ln a}}\cdot (-1)={\frac {1}{x\,\ln a}}.

Beide Ableitungen können zusammengefasst werden für $x\neq 0$ zu

{\frac {\mathrm {d} \log _{a}|x|}{\mathrm {d} x}}={\frac {1}{x\,\ln a}}.

Speziell für den natürlichen Logarithmus gilt

\ln '|x|={\frac {1}{x}}.

Sinus und Kosinus[Bearbeiten | Quelltext bearbeiten]

Mit der Sinusfunktion $f(x)=\sin x$ ergibt sich der Differenzenquotient

{\frac {\Delta f}{\Delta x}}={\frac {\sin(x+h)-\sin x}{(x+h)-x}}.

Mit dem Additionstheorem

\sin u-\sin v=2\cos {\frac {u+v}{2}}\sin {\frac {u-v}{2}}

gilt

{\frac {\Delta f}{\Delta x}}=2{\frac {\cos {\frac {2x+h}{2}}\sin {\frac {h}{2}}}{h}}=\cos {\tfrac {2x+h}{2}}\cdot {\frac {\sin {\frac {h}{2}}}{\tfrac {h}{2}}}.

Mit dem oben hergeleiteten Grenzübergang

\lim _{u\to 0}{\frac {\sin u}{u}}=1

und mit $u={\tfrac {h}{2}}$ entsteht

f'(x)=\lim _{h\to 0}{\frac {\Delta f}{\Delta x}}=\cos {\frac {2x}{2}}\cdot 1=\cos x.

Für die Kosinusfunktion führt eine entsprechende Rechnung mit

\cos u-\cos v=-2\sin {\frac {u+v}{2}}\sin {\frac {u-v}{2}}

auf $\quad {\frac {\Delta f}{\Delta x}}={\frac {\cos(x+h)-\cos x}{(x+h)-x}}=-\sin {\tfrac {2x+h}{2}}\cdot {\frac {\sin {\frac {h}{2}}}{\tfrac {h}{2}}}.$

f'(x)=\lim _{h\to 0}{\frac {\Delta f}{\Delta x}}=-\sin x.

Weitere elementare Funktionen[Bearbeiten | Quelltext bearbeiten]

Mit den vorstehenden Ableitungen können Ableitungsfunktionen für weitere Funktionen aufgestellt werden. Dazu werden zusätzlich die Ableitungsregeln für die Grundrechenarten, die Kettenregel und die Umkehrregel benötigt.

Allgemeine Potenzen[Bearbeiten | Quelltext bearbeiten]

Die Funktion $f(x)=x^{n}$ ist bisher nur für $n$ als natürliche Zahl abgeleitet worden. Die Anwendbarkeit der zugehörigen Ableitungsregel lässt sich bei $x>0$ auf reelle Exponenten erweitern. Mit der Substitution^[38]

z(x)=n\,\ln x

ist $\;f(x)=x^{n}=\mathrm {e} ^{z}.$

Wird dieses mit der Kettenregel differenziert, so entsteht das bekannte Ergebnis:

f'(x)={\frac {\mathrm {d} f}{\mathrm {d} z}}\,{\frac {\mathrm {d} z}{\mathrm {d} x}}=\mathrm {e} ^{z}\cdot n\;{\frac {1}{x}}=n\;{\frac {f}{x}}=n\,x^{n-1}.

Eine Anwendung ist die Ableitung der Wurzelfunktion. Für $f(x)={\sqrt[{m}]{x}}=x^{\frac {1}{m}}$ gilt mit $n={\tfrac {1}{m}}$

f'(x)={\frac {1}{m}}{\frac {f}{x}}={\frac {1}{m}}\;{\frac {\sqrt[{m}]{x}}{x}}.

Der Fall $m=2$ betrifft die Quadratwurzel:

Für $f(x)={\sqrt {x}}\quad$ gilt $\quad f'(x)={\frac {1}{2{\sqrt {x}}}}.$

Tangens und Kotangens[Bearbeiten | Quelltext bearbeiten]

Mit Hilfe der Quotientenregel und den Ableitungsfunktionen für Sinus und Kosinus können auch die Ableitungsfunktionen für Tangens und Kotangens aufgestellt werden. Es gilt

\tan 'x=\left({\frac {\sin x}{\cos x}}\right)'={\frac {\sin 'x\cos x-\cos 'x\sin x}{\cos ^{2}x}}={\frac {\cos ^{2}x+\sin ^{2}x}{\cos ^{2}x}}={\frac {1}{\cos ^{2}x}}=1+\tan ^{2}x.

Dabei wurde die als „Trigonometrischer Pythagoras“ bezeichnete Formel $\sin ^{2}x+\cos ^{2}x=1$ verwendet. Ebenso wird gewonnen

\cot 'x={\frac {-\sin ^{2}x-\cos ^{2}x}{\sin ^{2}x}}={\frac {-1}{\sin ^{2}x}}=-1-\cot ^{2}x.

Arkussinus und Arkuskosinus[Bearbeiten | Quelltext bearbeiten]

Arkussinus und Arkuskosinus sind als Umkehrfunktionen von Sinus und Kosinus definiert. Die Ableitungen werden mittels der Umkehrregel berechnet. Setzt man $x=\sin y$ , so folgt im Bereich $|x|<1$

\arcsin 'x={\frac {1}{\sin 'y}}={\frac {1}{\cos y}}={\frac {1}{\sqrt {1-\sin ^{2}y}}}={\frac {1}{\sqrt {1-x^{2}}}}.

Für den Arkuskosinus ergibt sich mit $x=\cos y$ ebenso

\arccos 'x={\frac {1}{\cos 'y}}={\frac {1}{-\sin y}}=-{\frac {1}{\sqrt {1-\cos ^{2}y}}}=-{\frac {1}{\sqrt {1-x^{2}}}}.

Arkustangens und Arkuskotangens[Bearbeiten | Quelltext bearbeiten]

Arkustangens und Arkuskotangens sind als Umkehrfunktionen von Tangens und Kotangens definiert. Setzt man $x=\tan y$ , so folgt mittels der Umkehrregel

\arctan 'x={\frac {1}{\tan 'y}}={\frac {1}{1+\tan ^{2}y}}={\frac {1}{1+x^{2}}}.

Für den Arkuskotangens ergibt sich mit $x=\cot y$ ebenso

\operatorname {arccot} 'x={\frac {1}{\cot 'y}}={\frac {1}{-1-\cot ^{2}y}}=-{\frac {1}{1+x^{2}}}.

Zusammengesetzte Funktion[Bearbeiten | Quelltext bearbeiten]

Zusammengesetzte Funktionen lassen sich so weit strukturieren, bis sich zu jedem Strukturelement die jeweils zutreffende elementare Ableitungsregel finden lässt. Dazu gibt es die Summenregel, die Produktregel, die Quotientenregel und die Kettenregel. Da diese in eigenen Artikeln erläutert werden, wird hier nur ein Beispiel vorgestellt.

f(x)=(1+\sin 2x)^{2}

$f(x)=f(u)=u^{2}\quad$	mit $u=1+\sin 2x\quad$	$f(u)$ ist ableitbar nach $u$ als Potenz	$f'=2u$
$u=u(v)=1+v$	mit $v=\sin 2x$	$u(v)$ ist ableitbar nach $v$ als Summe mit einer Konstanten	$u'=1$
$v=v(w)=\sin w$	mit $w=2x$	$v(w)$ ist ableitbar nach $w$ als trigonometrische Funktion	$v'=\cos w$
$w=w(x)=2x$		$w(x)$ ist ableitbar nach $x$ als Potenz mit konstantem Faktor	$w'=2$

Nach der Kettenregel ergibt sich

f'(x)=4\,(1+\sin 2x)\,\cos 2x

Zusammenfassung[Bearbeiten | Quelltext bearbeiten]

Hier werden die Ableitungsregeln elementarer und zusammengesetzter Funktionen zusammengefasst. Eine ausführliche Liste findet sich unter Tabelle von Ableitungs- und Stammfunktionen.

$f(x)$	$f'(x)$	Anmerkung
$x$	$1$	Elementares
$ax$	$a$	konstanter Faktor bleibt erhalten
$x+a$	$1$	konstanter Summand verschwindet
$x^{n}$	$n\,x^{n-1}$	Potenzfunktion
$\mathrm {e} ^{x}$	$\mathrm {e} ^{x}$	Exponentialfunktion
$a^{x}$	$a^{x}\,\ln a\quad (a>0)$	Exponentialfunktion
$\ln \|x\|$	${\frac {1}{x}}$	Logarithmusfunktion
$\log _{a}\|x\|$	${\frac {1}{x}}\,{\frac {1}{\ln a}}$	Logarithmusfunktion
$\sin x$	$\cos x$	Trigonometrische Funktionen
$\cos x$	$-\sin x$
$\tan x$	${\frac {1}{\cos ^{2}x}}=1+\tan ^{2}x$
$\cot x$	$-{\frac {1}{\sin ^{2}x}}=-(1+\cot ^{2}x)$
$\arcsin x$	${\frac {1}{\sqrt {1-x^{2}}}}\quad (\|x\|<1)$
$\arccos x$	${\frac {-1}{\sqrt {1-x^{2}}}}\quad (\|x\|<1)$
$\arctan x$	${\frac {1}{x^{2}+1}}$
$\operatorname {arccot} x$	${\frac {-1}{x^{2}+1}}$
$\sinh x$	$\cosh x$	Hyperbelfunktionen
$\cosh x$	$\sinh x$
$\tanh x$	${\frac {1}{\cosh ^{2}x}}=1-\tanh ^{2}x$
$\coth x$	${\frac {-1}{\sinh ^{2}x}}=1-\coth ^{2}x$
$\operatorname {arsinh} x$	${\frac {1}{\sqrt {x^{2}+1}}}$
$\operatorname {arcosh} x$	${\frac {1}{\sqrt {x^{2}-1}}}\quad (x>1)$
$\operatorname {artanh} x$	${\frac {1}{1-x^{2}}}\quad (\|x\|<1)$
$\operatorname {arcoth} x$	${\frac {1}{1-x^{2}}}\quad (\|x\|>1)$
$u(x)+v(x)$	$u'+v'$	Summenregel
$u(x)\cdot v(x)$	$u'v+v'u$	Produktregel
$u(x):v(x)$	${\frac {u'v-v'u}{v^{2}}}$	Quotientenregel
$u[v(x)]$	$f'(u)\cdot u'(v)\cdot v'(x)$ oder ${\frac {\mathrm {d} f}{\mathrm {d} x}}={\frac {\mathrm {d} f}{\mathrm {d} u}}\,{\frac {\mathrm {d} u}{\mathrm {d} v}}\,{\frac {\mathrm {d} v}{\mathrm {d} x}}$	Kettenregel mit $f=f(u),u=u(v),v=v(x)$
$f(x)$	${\frac {1}{(f^{-1})'(y)}}$ oder ${\frac {\mathrm {d} y}{\mathrm {d} x}}={\frac {1}{\frac {\mathrm {d} x}{\mathrm {d} y}}}$	Umkehrregel mit $y=f(x)$ oder nach $x$ aufgelöst $\quad \ x=f^{-1}(y)$

Höhere Ableitungen[Bearbeiten | Quelltext bearbeiten]

Ist die Ableitung $f'$ einer Funktion $f$ wiederum differenzierbar, so lässt sich die zweite Ableitung von $f$ als Ableitung der ersten definieren. Auf dieselbe Weise können dann auch dritte, vierte etc. Ableitungen definiert werden. Eine Funktion kann dementsprechend einmal differenzierbar, zweimal differenzierbar etc. sein.

Ist die erste Ableitung eines Weges nach der Zeit eine Geschwindigkeit, so kann die zweite Ableitung als Beschleunigung und die dritte Ableitung als Ruck interpretiert werden.

Wenn Politiker sich über den „Rückgang des Anstiegs der Arbeitslosenzahl“ äußern, dann sprechen sie von der zweiten Ableitung (Änderung des Anstiegs), um die Aussage der ersten Ableitung (Anstieg der Arbeitslosenzahl) zu relativieren.

Höhere Ableitungen können auf verschiedene Weisen geschrieben werden:

f''=f^{(2)}={\frac {\mathrm {d} ^{2}f}{\mathrm {d} x^{2}}},\quad f'''=f^{(3)}={\frac {\mathrm {d} ^{3}f}{\mathrm {d} x^{3}}},\quad \ldots

oder im physikalischen Fall (bei einer Ableitung nach der Zeit)

{\ddot {x}}(t)={\frac {\mathrm {d} ^{2}x}{\mathrm {d} t^{2}}},\quad {\overset {...}{x}}(t)={\frac {\mathrm {d} ^{3}x}{\mathrm {d} t^{3}}}.

Für die formale Bezeichnung beliebiger Ableitungen $f^{(n)}$ legt man außerdem $f^{(1)}=f'$ und $f^{(0)}=f$ fest.

Höhere Differentialoperatoren[Bearbeiten | Quelltext bearbeiten]

Ist $n$ eine natürliche Zahl und $U\subset \mathbb {R}$ offen, so wird der Raum der in $U$ $n$ -mal stetig differenzierbaren Funktionen mit $C^{n}(U)$ bezeichnet. Der Differentialoperator ${\tfrac {\mathrm {d} }{\mathrm {d} x}}$ induziert damit eine Kette von linearen Abbildungen

C^{n}(U)\,\,\,\,{\overset {\tfrac {\mathrm {d} }{\mathrm {d} x}}{\longrightarrow }}\,\,\,\,C^{n-1}(U)\,\,\,\,{\overset {\tfrac {\mathrm {d} }{\mathrm {d} x}}{\longrightarrow }}\,\,\,\,C^{n-2}(U)\,\,\,\,{\overset {\tfrac {\mathrm {d} }{\mathrm {d} x}}{\longrightarrow }}\,\,\,\,\cdots \,\,\,\,{\overset {\tfrac {\mathrm {d} }{\mathrm {d} x}}{\longrightarrow }}\,\,\,\,C^{0}(U),

und damit allgemein für $k\leq n$ :

C^{n}(U)\,\,\,\,{\overset {\tfrac {\mathrm {d} ^{k}}{\mathrm {d} x^{k}}}{\longrightarrow }}\,\,\,\,C^{n-k}(U).

Dabei bezeichnet $C^{0}(U)$ den Raum der in $U$ stetigen Funktionen. Exemplarisch: Wird ein $f\in C^{n}(U)$ durch Anwenden von ${\tfrac {\mathrm {d} }{\mathrm {d} x}}$ einmal abgeleitet, kann das Ergebnis $f'$ im Allgemeinen nur noch $(n-1)$ -mal abgeleitet werden usw. Jeder Raum $C^{k}(U)$ ist eine $\mathbb {R}$ -Algebra, da nach der Summen- bzw. der Produktregel Summen und auch Produkte von $k$ -mal stetig differenzierbaren Funktionen wieder $k$ -mal stetig differenzierbar sind. Es gilt zudem die aufsteigende Kette von echten Inklusionen

\cdots \,\,\,\,C^{n}(U)\,\,\,\,\subsetneq \,\,\,\,C^{n-1}(U)\,\,\,\,\subsetneq \,\,\,\,C^{n-2}(U)\,\,\,\,\subsetneq \,\,\,\,\cdots \,\,\,\,\subsetneq \,\,\,\,C^{0}(U),

denn offenbar ist jede mindestens $n$ -mal stetig differenzierbare Funktion auch $(n-1)$ -mal stetig differenzierbar usw., jedoch zeigen die Funktionen

f_{n}(x)={\begin{cases}x^{n+1}\sin \left({\frac {1}{x}}\right),&x\in U\setminus \{0\},\\0,&x=0,\end{cases}}

exemplarisch Beispiele für Funktionen aus $C^{n-1}(U)\setminus C^{n}(U)$ , wenn – was ohne Beschränkung der Allgemeinheit möglich ist – $0\in U$ angenommen wird.^[39]

Höhere Ableitungsregeln[Bearbeiten | Quelltext bearbeiten]

Leibnizsche Regel

Die Ableitung $n$ -ter Ordnung für ein Produkt aus zwei $n$ -mal differenzierbaren Funktionen $f$ und $g$ ergibt sich aus

(fg)^{(n)}=\sum _{k=0}^{n}{n \choose k}f^{(k)}g^{(n-k)}

.

Die hier auftretenden Ausdrücke der Form ${\tbinom {n}{k}}$ sind Binomialkoeffizienten. Die Formel ist eine Verallgemeinerung der Produktregel.

Formel von Faà di Bruno

Diese Formel ermöglicht die geschlossene Darstellung der $n$ -ten Ableitung der Komposition zweier $n$ -mal differenzierbarer Funktionen. Sie verallgemeinert die Kettenregel auf höhere Ableitungen.

Taylorformeln mit Restglied[Bearbeiten | Quelltext bearbeiten]

Ist $f$ eine in einem Intervall $I$ $(n+1)$ -mal stetig differenzierbare Funktion, dann gilt für alle $a$ und $x$ aus $I$ die sogenannte Taylorformel:

f(x)=T_{n}(a;x)+R_{n+1}(a;x)

mit dem $n$ -ten Taylorpolynom an der Entwicklungsstelle $a$

{\begin{aligned}T_{n}(a;x)&=\sum _{k=0}^{n}{\frac {f^{(k)}(a)}{k!}}(x-a)^{k}\\&=f(a)+{\frac {f'(a)}{1!}}(x-a)+{\frac {f''(a)}{2!}}(x-a)^{2}+\dotsb +{\frac {f^{(n)}(a)}{n!}}(x-a)^{n}\end{aligned}}

und dem $(n+1)$ -ten Restglied

R_{n+1}(a;x)={\frac {f^{(n+1)}(\xi )}{(n+1)!}}(x-a)^{n+1}

mit einem $\xi =\xi (x)\in (\min\{a,x\},\max\{a,x\})\subset I$ .^[40] Eine beliebig oft differenzierbare Funktion wird glatte Funktion genannt. Da sie alle Ableitungen besitzt, kann die oben angegebene Taylorformel zur Taylorreihe von $f$ mit Entwicklungspunkt $a$ erweitert werden:

{\begin{aligned}(Tf)(a;x)&:=f(a)+f'(a)(x-a)+{\frac {f''(a)}{2}}(x-a)^{2}+\dotsb +{\frac {f^{(n)}(a)}{n!}}(x-a)^{n}+\dotsb \\&=\sum _{n=0}^{\infty }{\frac {f^{(n)}(a)}{n!}}(x-a)^{n}.\end{aligned}}

Es ist jedoch nicht jede glatte Funktion durch ihre Taylorreihe darstellbar, siehe unten.

Glatte Funktionen[Bearbeiten | Quelltext bearbeiten]

Funktionen, die an jeder Stelle ihres Definitionsbereichs beliebig oft differenzierbar sind, bezeichnet man auch als glatte Funktionen. Die Menge aller in einer offenen Menge $U\subset \mathbb {R}$ glatten Funktionen $f\colon U\to \mathbb {R}$ wird meist mit $C^{\infty }(U)$ bezeichnet. Sie trägt die Struktur einer $\mathbb {R}$ -Algebra (skalare Vielfache, Summen und Produkte glatter Funktionen sind wieder glatt) und ist gegeben durch

C^{\infty }(U)=\bigcap _{n\in \mathbb {N} }C^{n}(U),

wobei $C^{n}(U)$ alle in $U$ $n$ -mal stetig differenzierbaren Funktionen bezeichnet.^[30] Häufig findet man in mathematischen Betrachtungen den Begriff hinreichend glatt. Damit ist gemeint, dass die Funktion mindestens so oft differenzierbar ist, wie es nötig ist, um den aktuellen Gedankengang durchzuführen.

Analytische Funktionen[Bearbeiten | Quelltext bearbeiten]

Der obere Begriff der Glattheit kann weiter verschärft werden. Eine Funktion $f\colon U\to \mathbb {R}$ heißt reell analytisch, wenn sie sich in jedem Punkt lokal in eine Taylorreihe entwickeln lässt, also

f(x)=\sum _{n=0}^{\infty }{\frac {f^{(n)}(a)}{n!}}(x-a)^{n}

für alle $a\in U$ und alle hinreichend kleinen Werte von $|x-a|$ . Analytische Funktionen haben starke Eigenschaften und finden besondere Aufmerksamkeit in der komplexen Analysis. Dort werden dementsprechend keine reell, sondern komplex analytischen Funktionen studiert. Ihre Menge wird meist mit $C^{\omega }(U)$ bezeichnet und es gilt $C^{\omega }(U)\subsetneq C^{\infty }(U)$ . Insbesondere ist jede analytische Funktion glatt, aber nicht umgekehrt. Die Existenz aller Ableitungen ist also nicht hinreichend dafür, dass die Taylorreihe die Funktion darstellt, wie das folgende Gegenbeispiel

f(x)={\begin{cases}0&{\text{falls }}x=0\\\mathrm {e} ^{-1/x^{2}}&{\text{falls }}x\neq 0\end{cases}}

einer nicht analytischen glatten Funktion zeigt.^[41] Alle reellen Ableitungen dieser Funktion verschwinden in 0, aber es handelt sich nicht um die Nullfunktion. Daher wird sie an der Stelle 0 nicht durch ihre Taylorreihe dargestellt.

Anwendungen[Bearbeiten | Quelltext bearbeiten]

Eine wichtige Anwendung der Differentialrechnung in einer Variablen ist die Bestimmung von Extremwerten, meist zur Optimierung von Prozessen, wie etwa im Kontext von Kosten, Material oder Energieaufwand.^[42] Die Differentialrechnung stellt eine Methode bereit, Extremstellen zu finden, ohne dabei unter Aufwand numerisch suchen zu müssen. Man macht sich zu Nutze, dass an einer lokalen Extremstelle $x_{0}$ notwendigerweise die erste Ableitung der Funktion $f$ gleich 0 sein muss. Es muss also $f'(x_{0})=0$ gelten, wenn $x_{0}$ eine lokale Extremstelle ist. Allerdings bedeutet andersherum $f'(x_{0})=0$ noch nicht, dass es sich bei $f(x_{0})$ um ein Maximum oder Minimum handelt. In diesem Fall werden mehr Informationen benötigt, um eine eindeutige Entscheidung treffen zu können, was meist durch Betrachten höherer Ableitungen bei $x_{0}$ möglich ist.

Eine Funktion kann einen Maximal- oder Minimalwert haben, ohne dass die Ableitung an dieser Stelle existiert, jedoch kann in diesem Falle die Differentialrechnung nicht verwendet werden. Im Folgenden werden daher nur zumindest lokal differenzierbare Funktionen betrachtet. Als Beispiel nehmen wir die Polynomfunktion $f$ mit dem Funktionsterm

f(x)={\frac {1}{3}}x^{3}-2x^{2}+3x={\frac {x}{3}}(x-3)^{2}.

Die Abbildung zeigt den Verlauf der Graphen von $f$ , $f'$ und $f''$ .

Horizontale Tangenten[Bearbeiten | Quelltext bearbeiten]

Besitzt eine Funktion $f\colon (a,b)\to \mathbb {R}$ mit $(a,b)\subset \mathbb {R}$ an einer Stelle $x_{0}\in (a,b)$ ihren größten Wert, gilt also für alle $x$ dieses Intervalls $f(x_{0})\geq f(x)$ , und ist $f$ an der Stelle $x_{0}$ differenzierbar, so kann die Ableitung dort nur gleich Null sein: $f'(x_{0})=0$ . Eine entsprechende Aussage gilt, falls $f$ in $x_{0}$ den kleinsten Wert annimmt.

Geometrische Deutung dieses Satzes von Fermat ist, dass der Graph der Funktion in lokalen Extrempunkten eine parallel zur $x$ -Achse verlaufende Tangente, auch waagerechte Tangente genannt, besitzt.

Es ist somit für differenzierbare Funktionen eine notwendige Bedingung für das Vorliegen einer Extremstelle, dass die Ableitung an der betreffenden Stelle den Wert 0 annimmt:

f^{\prime }(x_{0})=0

Umgekehrt kann aber daraus, dass die Ableitung an einer Stelle den Wert Null hat, noch nicht auf eine Extremstelle geschlossen werden, es könnte auch beispielsweise ein Sattelpunkt vorliegen. Eine Liste verschiedener hinreichender Kriterien, deren Erfüllung sicher auf eine Extremstelle schließen lässt, findet sich im Artikel Extremwert. Diese Kriterien benutzen meist die zweite oder noch höhere Ableitungen.

Bedingung im Beispiel[Bearbeiten | Quelltext bearbeiten]

Im Beispiel ist

f'(x)=x^{2}-4\cdot x+3=(x-1)\cdot (x-3).

Daraus folgt, dass $f^{\prime }(x)=0$ genau für $x=1$ und $x=3$ gilt. Die Funktionswerte an diesen Stellen sind $f(1)={\tfrac {4}{3}}$ und $f(3)=0$ , d. h., die Kurve hat in den Punkten $(1,{\tfrac {4}{3}})$ und $(3,0)$ waagerechte Tangenten, und nur in diesen.

Da die Folge

f(0)=0,\quad f(1)={\frac {4}{3}},\quad f(3)=0,\quad f(4)={\frac {4}{3}}

abwechselnd aus kleinen und großen Werten besteht, muss in diesem Bereich ein Hoch- und ein Tiefpunkt liegen. Nach dem Satz von Fermat hat die Kurve in diesen Punkten eine waagerechte Tangente, es kommen also nur die oben ermittelten Punkte in Frage: Also ist $(1,{\tfrac {4}{3}})$ ein Hochpunkt und $(3,0)$ ein Tiefpunkt.

Kurvendiskussion[Bearbeiten | Quelltext bearbeiten]

Mit Hilfe der Ableitungen lassen sich noch weitere Eigenschaften der Funktion analysieren, wie die Existenz von Wende- und Sattelpunkten, die Konvexität oder die oben schon angesprochene Monotonie. Die Durchführung dieser Untersuchungen ist Gegenstand der Kurvendiskussion.

Termumformungen[Bearbeiten | Quelltext bearbeiten]

Neben der Bestimmung der Steigung von Funktionen ist die Differentialrechnung durch ihren Kalkül ein wesentliches Hilfsmittel bei der Termumformung. Hierbei löst man sich von jeglichem Zusammenhang mit der ursprünglichen Bedeutung der Ableitung als Anstieg. Hat man zwei Terme als gleich erkannt, lassen sich durch Differentiation daraus weitere (gesuchte) Identitäten gewinnen. Ein Beispiel mag dies verdeutlichen:

Aus der bekannten Partialsumme

\sum _{k=0}^{n}x^{k}=1+x+x^{2}+\dotsb +x^{n}={\frac {x^{n+1}-1}{x-1}}

der geometrischen Reihe soll die Summe

\sum _{k=1}^{n}kx^{k-1}=1+2x+3x^{2}+\dotsb +nx^{n-1}

berechnet werden. Dies gelingt durch Differentiation mit Hilfe der Quotientenregel:

\sum _{k=1}^{n}kx^{k-1}=\sum _{k=0}^{n}kx^{k-1}={\frac {\mathrm {d} }{\mathrm {d} x}}\sum _{k=0}^{n}x^{k}={\frac {\mathrm {d} }{\mathrm {d} x}}{\frac {x^{n+1}-1}{x-1}}={\frac {(n+1)x^{n}(x-1)-(x^{n+1}-1)}{(x-1)^{2}}}={\frac {nx^{n+1}-(n+1)x^{n}+1}{(x-1)^{2}}}

Alternativ ergibt sich die Identität auch durch Ausmultiplizieren und anschließendes dreifaches Teleskopieren, was aber nicht so einfach zu durchschauen ist.

Zentrale Aussagen der Differentialrechnung einer Variablen[Bearbeiten | Quelltext bearbeiten]

Fundamentalsatz der Analysis[Bearbeiten | Quelltext bearbeiten]

Die wesentliche Leistung Leibniz’ war die Erkenntnis, dass Integration und Differentiation zusammenhängen. Diese formulierte er im Hauptsatz der Differential- und Integralrechnung, auch Fundamentalsatz der Analysis genannt, der besagt:

Ist $I\subset \mathbb {R}$ ein Intervall, $f\colon I\to \mathbb {R}$ eine stetige Funktion und $a\in I$ eine beliebige Zahl aus $I$ , so ist die Funktion

F\colon I\to \mathbb {R} ,\;x\mapsto \int _{a}^{x}f(t)\,\mathrm {d} t

stetig differenzierbar, und ihre Ableitung $F'$ ist gleich $f$ .

Hiermit ist also eine Anleitung zum Integrieren gegeben: Gesucht ist eine Funktion $F$ , deren Ableitung $F'$ der Integrand $f$ ist. Dann gilt:^[43]

\int _{a}^{b}f(x)\,\mathrm {d} x=F(b)-F(a).

Mittelwertsatz der Differentialrechnung[Bearbeiten | Quelltext bearbeiten]

Ein weiterer zentraler Satz der Differentialrechnung ist der Mittelwertsatz, der 1821 von Cauchy bewiesen wurde.^[44]

Es sei $f\colon [a,b]\to \mathbb {R}$ eine Funktion, die auf dem abgeschlossenen Intervall $[a,b]$ (mit $a<b$ ) definiert und stetig ist. Außerdem sei die Funktion $f$ im offenen Intervall $(a,b)$ differenzierbar. Unter diesen Voraussetzungen gibt es mindestens ein $x_{0}\in (a,b)$ , sodass

f'(x_{0})={\frac {f(b)-f(a)}{b-a}}

gilt – geometrisch-anschaulich: Zwischen zwei Schnittpunkten einer Sekante gibt es auf der Kurve einen Punkt mit zur Sekante paralleler Tangente.^[45]

Monotonie und Differenzierbarkeit[Bearbeiten | Quelltext bearbeiten]

Ist $a<b$ und $f\colon (a,b)\to \mathbb {R}$ eine differenzierbare Funktion mit $f'(x)\not =0$ für alle $a<x<b$ , so gelten folgende Aussagen:^[46]

Die Funktion $f$ ist strikt monoton.
Es ist $f((a,b))=(c,d)$ mit irgendwelchen $c<d$ .
Die Umkehrfunktion $f^{-1}\colon (c,d)\to \mathbb {R}$ existiert, ist differenzierbar und erfüllt $(f^{-1})'(f(x))={\frac {1}{f'(x)}}$ .

Daraus lässt sich herleiten, dass eine stetig differenzierbare Funktion $f\colon (a,b)\to f((a,b))$ , deren Ableitung nirgends verschwindet, bereits einen Diffeomorphismus zwischen den Intervallen $(a,b)$ und $f((a,b))$ definiert. In mehreren Variablen ist die analoge Aussage falsch. So verschwindet die Ableitung der komplexen Exponentialfunktion $z\mapsto \mathrm {exp} (z)$ , nämlich sie selbst, in keinem Punkt, aber es handelt sich um keine (global) injektive Abbildung $\mathbb {C} \to \mathrm {exp} (\mathbb {C} )$ . Man beachte, dass diese als höherdimensionale reelle Funktion $\mathbb {R} ^{2}\to \mathrm {\exp } (\mathbb {R} ^{2})$ aufgefasst werden kann, da $\mathbb {C}$ ein zweidimensionaler $\mathbb {R}$ -Vektorraum ist.

Allerdings liefert der Satz von Hadamard ein Kriterium, mit dem in manchen Fällen gezeigt werden kann, dass eine stetig differenzierbare Funktion $F\colon \mathbb {R} ^{n}\to \mathbb {R} ^{n}$ ein Homöomorphismus ist.

Die Regel von de L’Hospital[Bearbeiten | Quelltext bearbeiten]

Als eine Anwendung des Mittelwertsatzes lässt sich eine Beziehung herleiten, die es in manchen Fällen erlaubt, unbestimmte Terme der Gestalt ${\tfrac {0}{0}}$ oder ${\tfrac {\infty }{\infty }}$ zu berechnen.^[47]

Seien $f,g\colon (a,b)\to \mathbb {R}$ differenzierbar und $g$ habe keine Nullstelle. Ferner gelte entweder

\lim _{x\to a}f(x)=\lim _{x\to a}g(x)=0

oder

\lim _{x\to a}f(x)=\lim _{x\to a}g(x)=\pm \infty

.

Dann gilt

\lim _{x\to a}{\frac {f(x)}{g(x)}}=\lim _{x\to a}{\frac {f'(x)}{g'(x)}},

unter der Bedingung, dass der letzte Grenzwert in $\mathbb {R} \cup \{\pm \infty \}$ existiert.

Differentialrechnung bei Funktionenfolgen und Integralen[Bearbeiten | Quelltext bearbeiten]

In vielen analytischen Anwendungen hat man es nicht mit einer Funktion $f$ , sondern mit einer Folge $(f_{n})_{n\in \mathbb {N} }$ zu tun. Dabei muss geklärt werden, inwieweit sich der Ableitungsoperator mit Prozessen wie Grenzwerten, Summen oder Integralen verträgt.

Grenzfunktionen[Bearbeiten | Quelltext bearbeiten]

Bei einer konvergenten, differenzierbaren Funktionenfolge $(f_{n})_{n\in \mathbb {N} }$ ist es im Allgemeinen nicht möglich, Rückschlüsse auf den Grenzwert der Folge $(f_{n}')_{n\in \mathbb {N} }$ zu ziehen, selbst dann nicht, wenn $(f_{n})_{n\in \mathbb {N} }$ gleichmäßig konvergiert. Die analoge Aussage in der Integralrechnung ist hingegen richtig: Bei gleichmäßiger Konvergenz können Limes und Integral vertauscht werden, zumindest dann, wenn die Grenzfunktion „gutartig“ ist.

Aus dieser Tatsache kann zumindest Folgendes geschlossen werden: Sei $f_{n}\colon [a,b]\to \mathbb {R}$ eine Folge stetig differenzierbarer Funktionen, sodass die Folge der Ableitungen $f_{n}'\colon [a,b]\to \mathbb {R}$ gleichmäßig gegen eine Funktion $g\colon [a,b]\to \mathbb {R}$ konvergiert. Es gelte außerdem, dass die Folge $f_{n}(x_{0})$ für mindestens einen Punkt $x_{0}\in [a,b]$ konvergiert. Dann konvergiert $f_{n}\colon [a,b]\to \mathbb {R}$ bereits gleichmäßig gegen eine differenzierbare Funktion $g\colon [a,b]\to \mathbb {R}$ und es gilt $f'=g$ .^[48]

Vertauschen mit unendlichen Reihen[Bearbeiten | Quelltext bearbeiten]

Sei $f_{n}\colon [a,b]\to \mathbb {R}$ eine Folge stetig differenzierbarer Funktionen, sodass die Reihe $\textstyle \sum _{n=1}^{\infty }||f_{n}'||_{\infty }$ konvergiert, wobei $||f_{n}'||_{\infty }:=\sup _{x\in [a,b]}|f_{n}'(x)|$ die Supremumsnorm bezeichnet. Konvergiert außerdem die Reihe $\textstyle \sum _{n=1}^{\infty }f_{n}(x_{0})$ für ein $x_{0}\in [a,b]$ , dann konvergiert die Funktionenreihe $\textstyle g_{N}:=\sum _{n=1}^{N}f_{n}$ gleichmäßig gegen eine differenzierbare Funktion, und es gilt^[49]

\left(\sum _{n=1}^{\infty }f_{n}\right)'(x)=\sum _{n=1}^{\infty }f_{n}'(x).

Das Resultat geht auf Karl Weierstraß zurück.^[50]

Vertauschen mit Integration[Bearbeiten | Quelltext bearbeiten]

Es sei $f\colon [a,b]\times [c,d]\to \mathbb {R}$ eine stetige Funktion, sodass die partielle Ableitung

(t,x)\mapsto {\frac {\partial }{\partial x}}f(t,x)

existiert und stetig ist. Dann ist auch

g(x):=\int _{a}^{b}f(t,x)\mathrm {d} t

differenzierbar, und es gilt

g'(x)=\int _{a}^{b}{\frac {\partial }{\partial x}}f(t,x)\mathrm {d} t.

Diese Regel wird auch als Leibnizsche Regel bezeichnet.^[51]

Differentialrechnung über den komplexen Zahlen[Bearbeiten | Quelltext bearbeiten]

Bisher wurde nur von reellen Funktionen gesprochen. Alle behandelten Regeln lassen sich jedoch auf Funktionen mit komplexen Eingaben und Werten übertragen. Dies hat den Hintergrund, dass die komplexen Zahlen $\mathbb {C}$ genau wie die reellen Zahlen einen Körper bilden, dort also Addition, Multiplikation und Division erklärt ist. Diese zusätzliche Struktur bildet den entscheidenden Unterschied zu einer Herangehensweise mehrdimensionaler reeller Ableitungen, wenn $\mathbb {C}$ bloß als zweidimensionaler $\mathbb {R}$ -Vektorraum aufgefasst wird. Ferner lassen sich die euklidischen Abstandsbegriffe der reellen Zahlen (siehe auch Euklidischer Raum) auf natürliche Weise auf komplexe Zahlen übertragen. Dies erlaubt eine analoge Definition und Behandlung der für die Differentialrechnung wichtigen Begriffe wie Folge und Grenzwert.^[52]

Ist also $U\subset \mathbb {C}$ offen, $f\colon U\to \mathbb {C}$ eine komplexwertige Funktion, so heißt $f$ an der Stelle $z\in U$ komplex differenzierbar, wenn der Grenzwert

\lim _{h\to 0}{\frac {f(z+h)-f(z)}{h}}

existiert.^[53] Dieser wird mit $f'(z)$ bezeichnet und (komplexe) Ableitung von $f$ an der Stelle $z$ genannt. Es ist demnach möglich, den Begriff der Linearisierung ins Komplexe weiterzutragen: Die Ableitung $f'(z)$ ist die „Steigung“ der linearen Funktion, die $f$ bei $z$ optimal approximiert. Allerdings ist darauf zu achten, dass der Wert $h$ im Grenzwert nicht nur reelle, sondern auch komplexe Zahlen (nahe bei 0) annehmen kann. Dies hat zur Folge, dass der Terminus der komplexen Differenzierbarkeit wesentlich restriktiver ist als jener der reellen Differenzierbarkeit. Während im Reellen nur zwei Richtungen im Differenzenquotienten betrachtet werden mussten, sind es im Komplexen unendlich viele Richtungen, da diese keine Gerade, sondern eine Ebene aufspannen. So ist beispielsweise die Betragsfunktion $z\mapsto |z|$ nirgends komplex differenzierbar. Eine komplexe Funktion ist genau dann komplex differenzierbar in einem Punkt, wenn sie dort die Cauchy-Riemannschen Differentialgleichungen erfüllt und total differenzierbar ist.^[54]

Trotz (bzw. gerade wegen) des viel einschränkenderen Begriffs der komplexen Differenzierbarkeit übertragen sich alle üblichen Rechenregeln der reellen Differentialrechnung in die komplexe Differentialrechnung. Dazu gehören die Ableitungsregeln, also zum Beispiel Summen-, Produkt- und Kettenregel, wie auch die Umkehrregel für inverse Funktionen. Viele Funktionen, wie Potenzen, die Exponentialfunktion oder der Logarithmus, haben natürliche Fortsetzungen in die komplexen Zahlen und besitzen weiterhin ihre charakteristischen Eigenschaften. Von diesem Gesichtspunkt her ist die komplexe Differentialrechnung mit ihrem reellen Analogon identisch.

Wenn eine Funktion $f$ in ganz $U$ komplex differenzierbar ist, nennt man sie auch eine in $U$ holomorphe Funktion.^[55] Holomorphe Funktionen haben bedeutende Eigenschaften. So ist zum Beispiel jede holomorphe Funktion bereits (in jedem Punkt) beliebig oft differenzierbar. Die daraus aufkommende Klassifizierungfrage holomorpher Funktionen ist Gegenstand der Funktionentheorie. Es stellt sich heraus, dass im komplex-eindimensionalen Fall der Begriff holomorph äquivalent zum Begriff analytisch ist. Demnach ist jede holomorphe Funktion analytisch, und umgekehrt. Ist eine Funktion sogar in ganz $\mathbb {C}$ holomorph, so nennt man sie ganz. Beispiele für ganze Funktionen sind die Potenzfunktionen $z\mapsto z^{n}$ mit natürlichen Zahlen $n$ sowie $z\mapsto e^{z}$ , $z\mapsto \sin(z)$ und $z\mapsto \cos(z)$ .

Differentialrechnung mehrdimensionaler Funktionen[Bearbeiten | Quelltext bearbeiten]

Alle vorherigen Ausführungen legten eine Funktion in einer Variablen (also mit einer reellen oder komplexen Zahl als Argument) zugrunde. Funktionen, die Vektoren auf Vektoren oder Vektoren auf Zahlen abbilden, können ebenfalls eine Ableitung haben. Allerdings ist eine Tangente an den Funktionsgraph in diesen Fällen nicht mehr eindeutig bestimmt, da es viele verschiedene Richtungen gibt. Hier ist also eine Erweiterung des bisherigen Ableitungsbegriffs notwendig.

Mehrdimensionale Differenzierbarkeit und die Jacobi-Matrix[Bearbeiten | Quelltext bearbeiten]

Richtungsableitung[Bearbeiten | Quelltext bearbeiten]

Es sei $U\subset \mathbb {R} ^{n}$ offen, $f\colon U\to \mathbb {R} ^{m}$ eine Funktion, $x_{0}\in U$ und $v\in \mathbb {R} ^{n}\setminus \{0\}$ ein (Richtungs-)Vektor. Aufgrund der Offenheit von $U$ gibt es ein $\varepsilon >0$ mit $x_{0}+hv\in U$ für alle $|h|<\varepsilon$ , weshalb die Funktion $(-\varepsilon ,\varepsilon )\to \mathbb {R} ^{m}$ mit $h\mapsto f(x_{0}+hv)$ wohldefiniert ist. Ist diese Funktion in $h=0$ differenzierbar, so heißt ihre Ableitung Richtungsableitung von $f$ an der Stelle $x_{0}$ in der Richtung $v$ und wird meistens mit $D_{v}f(x_{0})$ bezeichnet.^[56] Es gilt:

D_{v}f(x_{0})=\lim _{h\to 0}{\frac {f(x_{0}+hv)-f(x_{0})}{h}}.

Es besteht ein Zusammenhang zwischen der Richtungsableitung und der Jacobi-Matrix. Ist $f$ differenzierbar, dann existiert $D_{v}f(x_{0})$ und es gilt in einer Umgebung von $x_{0}$ :

f(x_{0}+hv)=f(x_{0})+J_{f}(x_{0})(hv)+o(||hv||)=f(x_{0})+hJ_{f}(x_{0})v+o(|h|),

wobei die Schreibweise $o$ das entsprechende Landau-Symbol bezeichnet.^[57]

Es werde als Beispiel eine Funktion $\mathbb {R} ^{3}\to \mathbb {R}$ betrachtet, also ein Skalarfeld. Diese könnte eine Temperaturfunktion sein: In Abhängigkeit vom Ort wird die Temperatur im Zimmer gemessen, um zu beurteilen, wie effektiv die Heizung ist. Wird das Thermometer in eine bestimmte Raumrichtung bewegt, ist eine Veränderung der Temperatur festzustellen. Dies entspricht genau der entsprechenden Richtungsableitung.

Partielle Ableitungen[Bearbeiten | Quelltext bearbeiten]

Die Richtungsableitungen in spezielle Richtungen $e_{j}$ , nämlich in die der Koordinatenachsen mit der Länge $||e_{j}||=||v||=1$ , nennt man die partiellen Ableitungen.

Insgesamt lassen sich für eine Funktion in $n$ Variablen $n$ partielle Ableitungen errechnen:^[58]

{\frac {\partial f(x_{1},\dots ,x_{n})}{\partial x_{i}}}=\lim _{h_{i}\to 0}{\frac {f(x_{1},\dots ,x_{i}+h_{i},\dots ,x_{n})-f(x_{1},\dots ,x_{i},\dots ,x_{n})}{h_{i}}};\quad i\in \{1,\dots ,n\}

Die einzelnen partiellen Ableitungen einer Funktion lassen sich auch gebündelt als Gradient oder Nablavektor anschreiben:^[59]

\mathrm {grad} (f)(x_{1},\dots ,x_{n})=\nabla f(x_{1},\dots ,x_{n})=\left({\frac {\partial f(x_{1},\dots ,x_{n})}{\partial x_{1}}},{\frac {\partial f(x_{1},\dots ,x_{n})}{\partial x_{2}}},\dots ,{\frac {\partial f(x_{1},\dots ,x_{n})}{\partial x_{n}}}\right).

Meist wird der Gradient als Zeilenvektor (also „liegend“) geschrieben. In manchen Anwendungen, besonders in der Physik, ist jedoch auch die Schreibweise als Spaltenvektor (also „stehend“) üblich. Partielle Ableitungen können selbst differenzierbar sein und ihre partiellen Ableitungen lassen sich dann in der sogenannten Hesse-Matrix anordnen.

Totale Differenzierbarkeit[Bearbeiten | Quelltext bearbeiten]

Eine Funktion $f\colon U\subset \mathbb {R} ^{n}\to \mathbb {R} ^{m}$ mit $(x_{1},\dots ,x_{n})\mapsto (f_{1}(x_{1},\dots ,x_{n}),\dots ,f_{m}(x_{1},\dots ,x_{n}))$ , wobei $U$ eine offene Menge ist, heißt in einem Punkt $x_{0}\in U$ total differenzierbar (oder auch nur differenzierbar, manchmal auch Fréchet-differenzierbar^[56]), falls eine lineare Abbildung $L\colon \mathbb {R} ^{n}\to \mathbb {R} ^{m}$ existiert, sodass

\lim _{h\to 0}{\frac {f(x_{0}+h)-f(x_{0})-L(h)}{\|h\|}}=0

gilt.^[60] Für den eindimensionalen Fall stimmt diese Definition mit der oben angegebenen überein. Die lineare Abbildung $L$ ist bei Existenz eindeutig bestimmt, ist also insbesondere unabhängig von der Wahl äquivalenter Normen. Die Tangente wird daher durch die lokale Linearisierung der Funktion abstrahiert. Die Matrixdarstellung der ersten Ableitung von $f$ nennt man Jacobi-Matrix. Es handelt sich um eine $(m\times n)$ -Matrix. Für $m=1$ erhält man den weiter oben beschriebenen Gradienten.

Zwischen den partiellen Ableitungen und der totalen Ableitung besteht folgender Zusammenhang: Existiert in einem Punkt die totale Ableitung, so existieren dort auch alle partiellen Ableitungen. In diesem Fall stimmen die partiellen Ableitungen mit den Koeffizienten der Jacobi-Matrix überein:

L=J_{f}(x_{0})={\begin{pmatrix}{\frac {\partial f_{1}}{\partial x_{1}}}(x_{0})&{\frac {\partial f_{1}}{\partial x_{2}}}(x_{0})&\ldots &{\frac {\partial f_{1}}{\partial x_{n}}}(x_{0})\\\vdots &\vdots &\ddots &\vdots \\{\frac {\partial f_{m}}{\partial x_{1}}}(x_{0})&{\frac {\partial f_{m}}{\partial x_{2}}}(x_{0})&\ldots &{\frac {\partial f_{m}}{\partial x_{n}}}(x_{0})\end{pmatrix}}.

Umgekehrt folgt aus der Existenz der partiellen Ableitungen in einem Punkt $x_{0}$ nicht zwingend die totale Differenzierbarkeit, ja nicht einmal die Stetigkeit. Sind die partiellen Ableitungen jedoch zusätzlich in einer Umgebung von $x_{0}$ stetig, dann ist die Funktion in $x_{0}$ auch total differenzierbar.^[61]

Rechenregeln der mehrdimensionalen Differentialrechnung[Bearbeiten | Quelltext bearbeiten]

Kettenregel[Bearbeiten | Quelltext bearbeiten]

Es seien $U\subset \mathbb {R} ^{n}$ und $V\subset \mathbb {R} ^{m}$ offen sowie $f\colon U\to \mathbb {R} ^{m}$ und $g\colon V\to \mathbb {R} ^{\ell }$ in $x_{0}\in U$ bzw. $y_{0}:=f(x_{0})$ differenzierbar, wobei $f(U)\subset V$ . Dann ist $h\colon U\to \mathbb {R} ^{\ell }$ mit $h(x):=g(f(x))$ in $x_{0}$ differenzierbar mit Jacobi-Matrix

J_{h}(x_{0})=J_{g\circ f}(x_{0})=J_{g}(f(x_{0}))J_{f}(x_{0}).

Mit anderen Worten, die Jacobi-Matrix der Komposition $h=g\circ f$ ist das Produkt der Jacobi-Matrizen von $g$ und $f$ .^[62] Es ist zu beachten, dass die Reihenfolge der Faktoren im Gegensatz zum klassischen eindimensionalen Fall eine Rolle spielt.

Produktregel[Bearbeiten | Quelltext bearbeiten]

Mit Hilfe der Kettenregel kann die Produktregel auf reellwertige Funktionen mit höherdimensionalem Definitionsbereich verallgemeinert werden.^[63] Ist $U\subset \mathbb {R} ^{n}$ offen und sind $f,g\colon U\to \mathbb {R}$ beide in $x_{0}\in U$ differenzierbar, so folgt

J_{fg}(x_{0})=f(x_{0})J_{g}(x_{0})+g(x_{0})J_{f}(x_{0})

oder in der Gradientenschreibweise

\nabla (fg)(x_{0})=f(x_{0})\nabla g(x_{0})+g(x_{0})\nabla f(x_{0}).

Funktionenfolgen[Bearbeiten | Quelltext bearbeiten]

Sei $U\subset \mathbb {R} ^{n}$ offen. Es bezeichne $f_{k}$ eine Folge stetig differenzierbarer Funktionen $f_{k}\colon U\to \mathbb {R} ^{m}$ , sodass es Funktionen $f\colon U\to \mathbb {R} ^{m}$ und $g\colon U\to {\mathcal {L}}(\mathbb {R} ^{n},\mathbb {R} ^{m})$ gibt (dabei ist ${\mathcal {L}}(\mathbb {R} ^{n},\mathbb {R} ^{m})$ der Raum der linearen Abbildungen von $\mathbb {R} ^{n}$ nach $\mathbb {R} ^{m}$ ), sodass Folgendes gilt:

$(f_{k})$ konvergiert punktweise gegen $f$ ,
$(J_{f_{k}})$ konvergiert lokal gleichmäßig gegen $g$ .

Dann ist $f$ stetig differenzierbar auf $U$ und es gilt $J_{f}(x)=g(x)$ .^[64]

Implizite Differentiation[Bearbeiten | Quelltext bearbeiten]

Ist eine Funktion $x\mapsto y(x)$ durch eine implizite Gleichung $F(x,y(x))=0$ gegeben, so folgt aus der mehrdimensionalen Kettenregel, die für Funktionen mehrerer Variablen gilt,

F_{x}+F_{y}y'=0.

Für die Ableitung der Funktion $y$ ergibt sich daher

y'=-{\frac {F_{x}}{F_{y}}}

mit $F_{x}={\frac {\partial F}{\partial x}},F_{y}={\frac {\partial F}{\partial y}}$ und $F_{y}\neq 0.$

Zentrale Sätze der Differentialrechnung mehrerer Veränderlicher[Bearbeiten | Quelltext bearbeiten]

Satz von Schwarz[Bearbeiten | Quelltext bearbeiten]

Die Differentiationsreihenfolge ist bei der Berechnung partieller Ableitungen höherer Ordnung unerheblich, wenn alle partiellen Ableitungen bis zu dieser Ordnung (einschließlich) stetig sind. Dies bedeutet konkret: Ist $U\subset \mathbb {R} ^{n}$ offen und die Funktion $f\colon U\to \mathbb {R}$ zweimal stetig differenzierbar (d. h., alle zweifachen partiellen Ableitungen existieren und sind stetig), so gilt für alle $1\leq j,k\leq n$ und $x\in U$ :

{\frac {\partial }{\partial x_{j}}}{\frac {\partial }{\partial x_{k}}}f(x_{1},\dots ,x_{n})={\frac {\partial }{\partial x_{k}}}{\frac {\partial }{\partial x_{j}}}f(x_{1},\dots ,x_{n}).

Der Satz wird falsch, wenn die Stetigkeit der zweifachen partiellen Ableitungen weggelassen wird.^[65]

Satz von der impliziten Funktion[Bearbeiten | Quelltext bearbeiten]

Der Satz von der impliziten Funktion besagt, dass Funktionsgleichungen auflösbar sind, falls die Jacobi-Matrix bezüglich bestimmter Variablen lokal invertierbar ist.^[66]

Mittelwertsatz[Bearbeiten | Quelltext bearbeiten]

Über den höherdimensionalen Mittelwertsatz gelingt es, eine Funktion entlang einer Verbindungsstrecke abzuschätzen, wenn die dortigen Ableitungen bekannt sind. Seien $U\subset \mathbb {R} ^{n}$ offen und $f\colon U\to \mathbb {R} ^{m}$ differenzierbar. Gegeben seien zudem zwei Punkte $x,y\in U$ , sodass die Verbindungsstrecke $\{x+t(y-x)\mid 0\leq t\leq 1\}$ eine Teilmenge von $U$ ist. Dann postuliert der Mittelwertsatz die Ungleichung:^[67]

||f(y)-f(x)||\leq \sup _{0\leq t\leq 1}||J_{f}(x+t(y-x))||\cdot ||y-x||.

Eine präzisere Aussage ist indes für den Fall reellwertiger Funktionen in mehreren Veränderlichen möglich, siehe auch Mittelwertsatz für reellwertige Funktionen mehrerer Variablen.

Höhere Ableitungen im Mehrdimensionalen[Bearbeiten | Quelltext bearbeiten]

Auch im Fall höherdimensionaler Funktionen können höhere Ableitungen betrachtet werden. Die Konzepte haben jedoch einige starke Unterschiede zum klassischen Fall, die besonders im Falle mehrerer Veränderlicher in Erscheinung treten. Bereits die Jacobi-Matrix lässt erkennen, dass die Ableitung einer höherdimensionalen Funktion an einer Stelle nicht mehr die gleiche Gestalt wie der dortige Funktionswert haben muss. Wird nun die erste Ableitung $x\mapsto J_{f}(x)$ erneut abgeleitet, so ist die erneute „Jacobi-Matrix“ im Allgemeinen ein noch umfangreicheres Objekt. Für dessen Beschreibung ist das Konzept der multilinearen Abbildungen bzw. des Tensors erforderlich. Ist $\partial ^{0}f:=f$ , so ordnet $\partial f\colon U\to {\mathcal {L}}(\mathbb {R} ^{n},\mathbb {R} ^{m})$ jedem Punkt eine $(m\times n)$ -Matrix (lineare Abbildung von $\mathbb {R} ^{n}$ nach $\mathbb {R} ^{m}$ ) zu. Induktiv definiert man für die höheren Ableitungen

\partial ^{\ell }f(x_{0}):=\partial (\partial ^{\ell -1}f)(x_{0})\in {\mathcal {L}}(\mathbb {R} ^{n},{\mathcal {L}}^{\ell -1}(\mathbb {R} ^{n},\mathbb {R} ^{m}))={\mathcal {L}}^{\ell }(\mathbb {R} ^{n},\mathbb {R} ^{m}),

wobei ${\mathcal {L}}^{\ell }(\mathbb {R} ^{n},\mathbb {R} ^{m})$ der Raum der $\ell$ -multilinearen Abbildungen von $\underbrace {\mathbb {R} ^{n}\times \cdots \times \mathbb {R} ^{n}} _{\ell -\mathrm {mal} }$ nach $\mathbb {R} ^{m}$ bezeichnet. Analog wie im eindimensionalen Fall definiert man die Räume der $\ell$ -mal stetig differenzierbaren Funktionen auf $U\subset \mathbb {R} ^{n}$ durch $C^{\ell }(U,\mathbb {R} ^{m})$ , und die glatten Funktion via^[68]

C^{\infty }(U,\mathbb {R} ^{m}):=\bigcap _{\ell =1}^{\infty }C^{\ell }(U,\mathbb {R} ^{m}).

Auch die Konzepte der Taylor-Formeln und der Taylorreihe lassen sich auf den höherdimensionalen Fall verallgemeinern, siehe auch Taylor-Formel im Mehrdimensionalen bzw. mehrdimensionale Taylorreihe.

Anwendungen[Bearbeiten | Quelltext bearbeiten]

Fehlerrechnung[Bearbeiten | Quelltext bearbeiten]

Ein Anwendungsbeispiel der Differentialrechnung mehrerer Veränderlicher betrifft die Fehlerrechnung, zum Beispiel im Kontext der Experimentalphysik. Während man im einfachsten Falle die zu bestimmende Größe direkt messen kann, wird es meistens der Fall sein, dass sie sich durch einen funktionalen Zusammenhang aus einfacher zu messenden Größen ergibt. Typischerweise hat jede Messung eine gewisse Unsicherheit, die man durch Angabe des Messfehlers zu quantifizieren versucht.^[69]

Bezeichnet zum Beispiel $V\colon \mathbb {R} _{>0}^{3}\to \mathbb {R}$ mit $(l,b,h)\mapsto lbh$ das Volumen eines Quaders, so könnte das Ergebnis $V$ experimentell ermittelt werden, indem man Länge $l$ , Breite $b$ und Höhe $h$ einzeln misst. Treten bei diesen die Fehler $\Delta l$ , $\Delta b$ und $\Delta h$ auf, so gilt für den Fehler in der Volumenberechnung:

\Delta V=bh\Delta l+hl\Delta b+lb\Delta h.

Allgemein gilt, dass wenn eine zu messende Größe funktional von einzeln gemessenen Größen $x_{1},\dots ,x_{n}$ durch $f\colon \mathbb {R} ^{n}\to \mathbb {R}$ abhängt und bei deren Messungen jeweils die Fehler $\Delta x_{k}$ entstehen, der Fehler der daraus errechneten Größe ungefähr bei

\Delta f=\sum _{k=1}^{n}\left|{\frac {\partial f}{\partial x_{k}}}({\boldsymbol {m}})\right|\Delta x_{k}

liegen wird. Dabei bezeichnet der Vektor ${\boldsymbol {m}}$ die exakten Terme der einzelnen Messungen.^[69]

Lösungsnäherung von Gleichungssystemen[Bearbeiten | Quelltext bearbeiten]

Viele höhere Gleichungssysteme lassen sich nicht algebraisch geschlossen lösen. In manchen Fällen kann man aber zumindest eine ungefähre Lösung ermitteln. Ist das System durch $f({\boldsymbol {x}})={\boldsymbol {0}}$ gegeben, mit einer stetig differenzierbaren Funktion $f\colon \mathbb {R} ^{m}\to \mathbb {R} ^{m}$ , so konvergiert die Iterationsvorschrift

{\boldsymbol {x}}_{n+1}:={\boldsymbol {x}}_{n}-J_{f}({\boldsymbol {x}}_{n})^{-1}f({\boldsymbol {x}}_{n})

unter gewissen Voraussetzungen gegen eine Nullstelle. Dabei bezeichnet $J_{f}({\boldsymbol {x}}_{n})^{-1}$ das Inverse der Jacobi-Matrix zu $f$ . Der Prozess stellt eine Verallgemeinerung des klassischen eindimensionalen Newton-Verfahrens dar. Aufwendig ist allerdings die Berechnung dieser Inversen in jedem Schritt. Unter Verschlechterung der Konvergenzrate kann in manchen Fällen die Modifikation $J_{f}({\boldsymbol {x}}_{0})^{-1}$ statt $J_{f}({\boldsymbol {x}}_{n})^{-1}$ vorgenommen werden, womit nur eine Matrix invertiert werden muss.^[70]

Extremwertaufgaben[Bearbeiten | Quelltext bearbeiten]

Auch für die Kurvendiskussion von Funktionen $f\colon \mathbb {R} ^{m}\to \mathbb {R}$ ist die Auffindung von Minima bzw. Maxima, zusammengefasst Extrema, ein wesentliches Anliegen. Die mehrdimensionale Differentialrechnung liefert Möglichkeiten, diese zu bestimmen, sofern die betrachtete Funktion zweimal stetig differenzierbar ist. Analog zum Eindimensionalen besagt die notwendige Bedingung für die Existenz für Extrema, dass im besagten Punkt ${\boldsymbol {x}}$ alle partiellen Ableitungen 0 sein müssen, also

{\frac {\partial f}{\partial x_{j}}}({\boldsymbol {x}})=0

für alle $1\leq j\leq m$ . Dieses Kriterium ist nicht hinreichend, dient aber dazu, diese kritischen Punkte als mögliche Kandidaten für Extrema zu ermitteln. Unter Bestimmung der Hesse-Matrix, der zweiten Ableitung, kann anschließend in manchen Fällen entschieden werden, um welche Art Extremstelle es sich handelt.^[71] Im Gegensatz zum Eindimensionalen ist die Formenvielfalt kritischer Punkte größer. Mittels einer Hauptachsentransformation, also einer detaillierten Untersuchung der Eigenwerte, der durch eine mehrdimensionale Taylor-Entwicklung im betrachteten Punkt gegebenen quadratischen Form lassen sich die verschiedenen Fälle klassifizieren.^[72]

Optimierung unter Nebenbedingungen[Bearbeiten | Quelltext bearbeiten]

Häufig ist bei Optimierungsproblemen die Zielfunktion $f\colon \mathbb {R} ^{m}\to \mathbb {R}$ lediglich auf einer Teilmenge $D\subset \mathbb {R} ^{m}$ zu minimieren, wobei $D$ durch sog. Nebenbedingungen bzw. Restriktionen bestimmt ist. Ein Verfahren, das zur Lösung solcher Probleme herangezogen werden kann, ist die Lagrangesche Multiplikatorregel.^[73] Diese nutzt die mehrdimensionale Differentialrechnung und lässt sich sogar auf Ungleichungsnebenbedingungen ausweiten.^[74]

Beispiel aus der Mikroökonomie[Bearbeiten | Quelltext bearbeiten]

In der Mikroökonomie werden beispielsweise verschiedene Arten von Produktionsfunktionen analysiert, um daraus Erkenntnisse für makroökonomische Zusammenhänge zu gewinnen. Hier ist vor allem das typische Verhalten einer Produktionsfunktion von Interesse: Wie reagiert die abhängige Variable Output $y$ (z. B. Output einer Volkswirtschaft), wenn die Inputfaktoren (hier: Arbeit und Kapital) um eine infinitesimal kleine Einheit erhöht werden?

Ein Grundtyp einer Produktionsfunktion ist etwa die neoklassische Produktionsfunktion. Sie zeichnet sich unter anderem dadurch aus, dass der Output bei jedem zusätzlichen Input steigt, dass aber die Zuwächse abnehmend sind. Es sei beispielsweise für eine Volkswirtschaft die Cobb-Douglas-Funktion

F(K,L)=T\cdot K^{\alpha }L^{1-\alpha }

mit

\alpha \in (0,1)

maßgebend. Zu jedem Zeitpunkt wird in der Volkswirtschaft unter dem Einsatz der Produktionsfaktoren Arbeit $L$ und Kapital $K$ mithilfe eines gegebenen Technologielevels $T$ Output produziert. Die erste Ableitung dieser Funktion nach den Produktionsfaktoren ergibt:

{\frac {\partial F(K,L)}{\partial L}}=(1-\alpha )\cdot T\cdot K^{\alpha }L^{-\alpha }

{\frac {\partial F(K,L)}{\partial K}}=\alpha \cdot T\cdot K^{-(1-\alpha )}L^{1-\alpha }

.

Da die partiellen Ableitungen aufgrund der Beschränkung $\alpha \in (0,1)$ nur positiv werden können, sieht man, dass der Output bei einer Erhöhung der jeweiligen Inputfaktoren steigt. Die partiellen Ableitungen 2. Ordnung ergeben:

{\frac {\partial ^{2}F(K,L)}{\partial L^{2}}}=-\alpha (1-\alpha )\cdot T\cdot K^{\alpha }L^{-(1+\alpha )}

{\frac {\partial ^{2}F(K,L)}{\partial K^{2}}}=-\alpha (1-\alpha )\cdot T\cdot K^{-(2-\alpha )}L^{1-\alpha }

.

Sie werden für alle Inputs negativ sein, also fallen die Zuwachsraten. Man könnte also sagen, dass bei steigendem Input der Output unterproportional steigt. Die relative Änderung des Outputs im Verhältnis zu einer relativen Änderung des Inputs ist hier durch die Elastizität $\eta _{i}\equiv {\tfrac {\partial f(x)}{\partial x_{i}}}{\tfrac {x_{i}}{f(x)}}$ gegeben. Vorliegend bezeichnet $\eta _{K}\equiv {\tfrac {\partial F(K,L)}{\partial K}}{\tfrac {K}{F(K,L)}}$ die Produktionselastizität des Kapitals, die bei dieser Produktionsfunktion dem Exponenten $\alpha$ entspricht, der wiederum die Kapitaleinkommensquote repräsentiert. Folglich steigt der Output bei einer infinitesimal kleinen Erhöhung des Kapitals um die Kapitaleinkommensquote.

Weiterführende Theorien[Bearbeiten | Quelltext bearbeiten]

Differentialgleichungen[Bearbeiten | Quelltext bearbeiten]

Eine wichtige Anwendung der Differentialrechnung besteht in der mathematischen Modellierung physikalischer Vorgänge. Wachstum, Bewegung oder Kräfte haben alle mit Ableitungen zu tun, ihre formelhafte Beschreibung muss also Differentiale enthalten. Typischerweise führt dies auf Gleichungen, in denen Ableitungen einer unbekannten Funktion auftauchen, sogenannte Differentialgleichungen.

Beispielsweise verknüpft das newtonsche Bewegungsgesetz

{\vec {F}}(t)=m{\vec {a}}(t)=m{\ddot {\vec {r}}}(t)=m{\frac {\mathrm {d} ^{2}{\vec {r}}(t)}{\mathrm {d} t^{2}}}

die Beschleunigung ${\vec {a}}$ eines Körpers mit seiner Masse $m$ und der auf ihn einwirkenden Kraft ${\vec {F}}$ . Das Grundproblem der Mechanik lautet deshalb, aus einer gegebenen Beschleunigung die Ortsfunktion eines Körpers herzuleiten. Diese Aufgabe, eine Umkehrung der zweifachen Differentiation, hat die mathematische Gestalt einer Differentialgleichung zweiter Ordnung. Die mathematische Schwierigkeit dieses Problems rührt daher, dass Ort, Geschwindigkeit und Beschleunigung Vektoren sind, die im Allgemeinen nicht in die gleiche Richtung zeigen, und dass die Kraft von der Zeit $t$ und vom Ort ${\vec {r}}$ abhängen kann.

Da viele Modelle mehrdimensional sind, sind bei der Formulierung häufig die weiter oben erklärten partiellen Ableitungen sehr wichtig, mit denen sich partielle Differentialgleichungen formulieren lassen. Mathematisch kompakt werden diese mittels Differentialoperatoren beschrieben und analysiert.

Differentialgeometrie[Bearbeiten | Quelltext bearbeiten]

Zentrales Thema der Differentialgeometrie ist die Ausdehnung der klassischen Analysis auf höhere geometrische Objekte. Diese sehen lokal so aus wie zum Beispiel der euklidische Raum $\mathbb {R} ^{n}$ , können aber global eine andere Gestalt haben. Der Begriff hinter diesem Phänomen ist die Mannigfaltigkeit. Mit Hilfe der Differentialgeometrie werden Fragestellungen über die Natur solcher Objekte studiert – zentrales Werkzeug ist weiterhin die Differentialrechnung. Gegenstand der Untersuchung sind oftmals die Abstände zwischen Punkten oder die Volumina von Figuren. Beispielsweise kann mit ihrer Hilfe der kürzestmögliche Weg zwischen zwei Punkten auf einer gekrümmten Fläche bestimmt und gemessen werden, die sogenannte Geodätische. Für die Messung von Volumina wird der Begriff der Differentialform benötigt. Differentialformen erlauben unter anderem eine koordinatenunabhängige Integration.

Sowohl die theoretischen Ergebnisse als auch Methoden der Differentialgeometrie haben bedeutende Anwendungen in der Physik. So beschrieb Albert Einstein seine Relativitätstheorie mit differentialgeometrischen Begriffen.

Verallgemeinerungen[Bearbeiten | Quelltext bearbeiten]

In vielen Anwendungen ist es wünschenswert, Ableitungen auch für stetige oder sogar unstetige Funktionen bilden zu können. So kann beispielsweise eine sich am Strand brechende Welle durch eine partielle Differentialgleichung modelliert werden, die Funktion der Höhe der Welle ist aber noch nicht einmal stetig. Zu diesem Zweck verallgemeinerte man Mitte des 20. Jahrhunderts den Ableitungsbegriff auf den Raum der Distributionen und definierte dort eine schwache Ableitung. Eng verbunden damit ist der Begriff des Sobolew-Raums.

Der Begriff der Ableitung als Linearisierung lässt sich analog auf Funktionen $f$ zwischen zwei normierbaren topologischen Vektorräumen $X$ und $Y$ übertragen (s. Hauptartikel Fréchet-Ableitung, Gâteaux-Differential, Lorch-Ableitung): $f$ heißt in $\xi$ Fréchet-differenzierbar, wenn ein stetiger linearer Operator $L_{\xi }\in {\mathcal {L}}(X,Y)$ existiert, sodass

\lim _{h\to 0}{\frac {\|f(\xi +h)-f(\xi )-L_{\xi }h\|}{\|h\|}}=0

.

Eine Übertragung des Begriffes der Ableitung auf andere Ringe als $\mathbb {R}$ und $\mathbb {C}$ (und Algebren darüber) führt zur Derivation.

Siehe auch[Bearbeiten | Quelltext bearbeiten]

Formelsammlung Analysis

Literatur[Bearbeiten | Quelltext bearbeiten]

Differentialrechnung ist ein zentraler Unterrichtsgegenstand in der Sekundarstufe II und wird somit in allen Mathematik-Lehrbüchern dieser Stufe behandelt.

Lehrbücher für Mathematik-Studierende[Bearbeiten | Quelltext bearbeiten]

Henri Cartan: Differentialrechnung. Bibliographisches Institut, Mannheim 1974, ISBN 3-411-01442-3.
Henri Cartan: Differentialformen. Bibliographisches Institut, Mannheim 1974, ISBN 3-411-01443-1.
Henri Cartan: Elementare Theorien der analytischen Funktionen einer und mehrerer komplexen Veränderlichen. Bibliographisches Institut, Mannheim 1966, 1981, ISBN 3-411-00112-7.
Richard Courant: Vorlesungen über Differential- und Integralrechnung. 2 Bände. Springer 1928, 4. Auflage 1971, ISBN 3-540-02956-7.
Jean Dieudonné: Grundzüge der modernen Analysis. Band 1. Vieweg, Braunschweig 1972, ISBN 3-528-18290-3.
Gregor M. Fichtenholz: Differential- und Integralrechnung I–III. Verlag Harri Deutsch, Frankfurt am Main 1990–2004, ISBN 978-3-8171-1418-4 (kompletter Satz).
Otto Forster: Analysis 1. Differential- und Integralrechnung einer Veränderlichen. 7. Auflage. Vieweg, Braunschweig 2004, ISBN 3-528-67224-2.
Otto Forster: Analysis 2. Differentialrechnung im $\mathbb {R} ^{n}$ . Gewöhnliche Differentialgleichungen. 6. Auflage. Vieweg, Braunschweig 2005, ISBN 3-528-47231-6.
Konrad Königsberger: Analysis. 2 Bände. Springer, Berlin 2004, ISBN 3-540-41282-4.
Wladimir I. Smirnow: Lehrgang der höheren Mathematik (Teil 1–5). Verlag Harri Deutsch, Frankfurt am Main, 1995–2004, ISBN 978-3-8171-1419-1 (kompletter Satz).
Steffen Timmann: Repetitorium der Analysis. 2 Bände. Binomi, Springe 1993, ISBN 3-923923-50-3, ISBN 3-923923-52-X.
Serge Lang: A First Course in Calculus. Fifth Edition, Springer, ISBN 0-387-96201-8.

Lehrbücher für das Grundlagenfach Mathematik[Bearbeiten | Quelltext bearbeiten]

Rainer Ansorge, Hans Joachim Oberle: Mathematik für Ingenieure. Band 1. Akademie-Verlag, Berlin 1994, 3. Auflage 2000, ISBN 3-527-40309-4.
Günter Bärwolff (unter Mitarbeit von G. Seifert): Höhere Mathematik für Naturwissenschaftler und Ingenieure. Elsevier Spektrum Akademischer Verlag, München 2006, ISBN 3-8274-1688-4.
Lothar Papula: Mathematik für Naturwissenschaftler und Ingenieure. Band 1. Vieweg, Wiesbaden 2004, ISBN 3-528-44355-3.
Klaus Weltner: Mathematik für Physiker 1. Springer, Berlin 2011, ISBN 978-3-642-15527-7.
Peter Dörsam: Mathematik anschaulich dargestellt für Studierende der Wirtschaftswissenschaften. 15. Auflage. PD-Verlag, Heidenau 2010, ISBN 978-3-86707-015-7.

Weblinks[Bearbeiten | Quelltext bearbeiten]

Commons: Differentialrechnung – Sammlung von Bildern, Videos und Audiodateien

Wikibooks: Mathe für Nicht-Freaks: Ableitung und Differenzierbarkeit – Lern- und Lehrmaterialien

Wiktionary: Differentialrechnung – Bedeutungserklärungen, Wortherkunft, Synonyme, Übersetzungen

Einzelnachweise[Bearbeiten | Quelltext bearbeiten]

↑ Herbert Amann, Joachim Escher: Analysis 1. 3. Auflage. Birkhäuser, S. 316.
↑ Serge Lang: A First Course in Calculus. Fifth Edition. Springer, S. 59–61.
↑ Fritz Wicke: Einführung in die Höhere Mathematik: unter besonderer Berücksichtigung der Bedürfnisse des Ingenieurs. Band 1. Springer, 1927, Seite 103.
↑ Carl Spitz: Erster Cursus der Differential- und Integralrechnung. C. F. Winter’sche Verlagshandlung, 1871, Seite 15
↑ Carl Spitz: Erster Cursus der Differential- und Integralrechnung. C. F. Winter’sche Verlagshandlung, 1871, Seite 16
↑ T. Arens et al.: Mathematik. Spektrum, S. 422.
↑ T. Arens et al.: Mathematik. Spektrum, S. 170.
↑ T. Arens et al.: Mathematik. Spektrum, S. 292.
↑ Serge Lang: A First Course in Calculus. Fifth Edition. Springer, S. 463–464.
↑ John Stillwell: Mathematics and Its History, Third Edition, Springer, S. 192–194.
↑ Serge Lang: Calculus of Several Variables, Third Edition, Springer, S. 439.
↑ Serge Lang: Calculus of Several Variables, Third Edition, Springer, S. 434.
↑ Herbert Amann, Joachim Escher: Analysis 2. 2. Auflage. Birkhäuser, S. 161.
↑ Serge Lang: Calculus of Several Variables, Third Edition, Springer, S. 435–436.
↑ Hans Wußing, Heinz-Wilhelm Alten, Heiko Wesemüller-Kock, Eberhard Zeidler: 6000 Jahre Mathematik: Von den Anfängen bis Newton und Leibniz. Springer, 2008, S. 429.
↑ Thomas Sonar: 3000 Jahre Analysis, Springer, S. 247–248.
↑ Thomas Sonar: 3000 Jahre Analysis, Springer, S. 378.
↑ Marquis de L’Hospital: Analyse des Infiniment Petits pour l’Intelligence des Lignes Courbes. Preface, S. ix–x: « L’Étendue de ce calcul est immense: … »; archive.org.
↑ Ernst Hairer, Gerhard Wanner: Analysis in historischer Entwicklung. Springer, S. 87.
↑ John Stillwell: Mathematics and its history, Third Edition, Springer, S. 157.
↑ Thomas Sonar: 3000 Jahre Analysis, Springer, S. 424–425.
↑ Hans Wußing, Heinz-Wilhelm Alten, Heiko Wesemüller-Kock, Eberhard Zeidler: 6000 Jahre Mathematik: Von Euler bis zur Gegenwart. Springer, 2008, S. 233.
↑ Thomas Sonar: 3000 Jahre Analysis, Springer, S. 506–514.
↑ Ernst Hairer, Gerhard Wanner: Analysis in historischer Entwicklung, Springer, S. 91.
↑ T. Arens et al.: Mathematik. Spektrum, S. 284.
↑ Bronstein et al.: Taschenbuch der Mathematik, Verlag Harri Deutsch, S. 394.
↑ ^a ^b ^c Herbert Amann, Joachim Escher: Analysis 1. 3. Auflage. Birkhäuser, S. 318.
↑ Jeremy Gray: The Real and the Complex: A History of Analysis in the 19th Century, Springer, S. 271–272.
↑ Herbert Amann, Joachim Escher: Analysis 1. 3. Auflage. Birkhäuser, S. 323.
↑ ^a ^b Herbert Amann, Joachim Escher: Analysis 1. 3. Auflage. Birkhäuser, S. 324.
↑ Differentialrechnung. In: Guido Walz (Hrsg.): Lexikon der Mathematik. 1. Auflage. Spektrum Akademischer Verlag, Mannheim/Heidelberg 2000, ISBN 3-8274-0439-8.
↑ Ernst Hairer, Gerhard Wanner: Analysis in historischer Entwicklung, Springer, S. 90.
↑ Harro Heuser: Lehrbuch der Analysis. Teubner, Wiesbaden 2003, ISBN 3-519-62233-5, S. 269.
↑ Thomas Sonar: 3000 Jahre Analysis, Springer, S. 408.
↑ Lokenath Debnath: The Legacy of Leonhard Euler – A Tricentennial Tribute, Imperial College Press, S. 26.
↑ Ali Mason: Advanced Differential Equations. EDTECH, 1019, ISBN 1-83947-389-4, S. 67.
↑ Karl Bosch: Mathematik für Wirtschaftswissenschaftler. 14. Auflage, Oldenbourg, 2003, S. 77
↑ Klaus Hefft: Mathematischer Vorkurs zum Studium der Physik. 2. Auflage. Springer, 2018, S. 97.
↑ Herbert Amann, Joachim Escher: Analysis 1. 3. Auflage. Birkhäuser, S. 329.
↑ Herbert Amann, Joachim Escher: Analysis 1. 3. Auflage. S. 358.
↑ Herbert Amann, Joachim Escher: Analysis 1. 3. Auflage. Birkhäuser, S. 330–331.
↑ T. Arens et al.: Mathematik. Spektrum, S. 304.
↑ Herbert Amann, Joachim Escher: Analysis 2. 2. Auflage. Birkhäuser, S. 32–33.
↑ Ernst Hairer, Gerhard Wanner: Analysis in historischer Entwicklung, Springer, S. 248.
↑ Herbert Amann, Joachim Escher: Analysis 1. 3. Auflage. Birkhäuser, S. 335.
↑ Herbert Amann, Joachim Escher: Analysis 1. 3. Auflage. Birkhäuser, S. 336.
↑ Herbert Amann, Joachim Escher: Analysis 1. 3. Auflage. Birkhäuser, S. 346.
↑ Terence Tao: Analysis II, Third Edition, Hindustan Book Agency, S. 64.
↑ Terence Tao: Analysis II, Third Edition, Hindustan Book Agency, S. 65.
↑ Jeremy Gray: The Real and the Complex: A History of Analysis in the 19th Century, Springer, S. 201.
↑ Eberhard Freitag, Rolf Busam: Funktionentheorie 1, 4. Auflage, Springer, S. 89.
↑ Eberhard Freitag, Rolf Busam: Funktionentheorie 1, 4. Auflage, Springer, S. 16 ff.
↑ Eberhard Freitag, Rolf Busam: Funktionentheorie 1, 4. Auflage, Springer, S. 35.
↑ Eberhard Freitag, Rolf Busam: Funktionentheorie 1, 4. Auflage, Springer, S. 42–43.
↑ Eberhard Freitag, Rolf Busam: Funktionentheorie 1, 4. Auflage, Springer, S. 45.
↑ ^a ^b Herbert Amann, Joachim Escher: Analysis 2. 2. Auflage. Birkhäuser, S. 157.
↑ Herbert Amann, Joachim Escher: Analysis 2. 2. Auflage. Birkhäuser, S. 158.
↑ Herbert Amann, Joachim Escher: Analysis 2. 2. Auflage. Birkhäuser, S. 159.
↑ Herbert Amann, Joachim Escher: Analysis 2. 2. Auflage. Birkhäuser, S. 165.
↑ Herbert Amann, Joachim Escher: Analysis 2. 2. Auflage. Birkhäuser, S. 154–157.
↑ Herbert Amann, Joachim Escher: Analysis 2. 2. Auflage. Birkhäuser, S. 158–163.
↑ Herbert Amann, Joachim Escher: Analysis 2. 2. Auflage. Birkhäuser, S. 173.
↑ Herbert Amann, Joachim Escher: Analysis 2. 2. Auflage. Birkhäuser, S. 175.
↑ Herbert Amann, Joachim Escher: Analysis 2. 2. Auflage. Birkhäuser, S. 177.
↑ Herbert Amann, Joachim Escher: Analysis 2. 2. Auflage. Birkhäuser, S. 192.
↑ Herbert Amann, Joachim Escher: Analysis 2. 2. Auflage. Birkhäuser, S. 230–232.
↑ Herbert Amann, Joachim Escher: Analysis 2. 2. Auflage. Birkhäuser, S. 176.
↑ Herbert Amann, Joachim Escher: Analysis 2. 2. Auflage. Birkhäuser, S. 188.
↑ ^a ^b T. Arens et al.: Mathematik. Spektrum, S. 794.
↑ T. Arens et al.: Mathematik. Spektrum, S. 803.
↑ T. Arens et al.: Mathematik. Spektrum, S. 811.
↑ T. Arens et al.: Mathematik. Spektrum, S. 812.
↑ T. Arens et al.: Mathematik. Spektrum, S. 1193–1195.
↑ T. Arens et al.: Mathematik. Spektrum, S. 1196.

[1] Herbert Amann, Joachim Escher: Analysis 1. 3. Auflage. Birkhäuser, S. 316.

[2] Serge Lang: A First Course in Calculus. Fifth Edition. Springer, S. 59–61.

[3] Fritz Wicke: Einführung in die Höhere Mathematik: unter besonderer Berücksichtigung der Bedürfnisse des Ingenieurs. Band 1. Springer, 1927, Seite 103.

[4] Carl Spitz: Erster Cursus der Differential- und Integralrechnung. C. F. Winter’sche Verlagshandlung, 1871, Seite 15

[5] Carl Spitz: Erster Cursus der Differential- und Integralrechnung. C. F. Winter’sche Verlagshandlung, 1871, Seite 16

[6] T. Arens et al.: Mathematik. Spektrum, S. 422.

[7] T. Arens et al.: Mathematik. Spektrum, S. 170.

[8] T. Arens et al.: Mathematik. Spektrum, S. 292.

[9] Serge Lang: A First Course in Calculus. Fifth Edition. Springer, S. 463–464.

[10] John Stillwell: Mathematics and Its History, Third Edition, Springer, S. 192–194.

[11] Serge Lang: Calculus of Several Variables, Third Edition, Springer, S. 439.

[12] Serge Lang: Calculus of Several Variables, Third Edition, Springer, S. 434.

[13] Herbert Amann, Joachim Escher: Analysis 2. 2. Auflage. Birkhäuser, S. 161.

[14] Serge Lang: Calculus of Several Variables, Third Edition, Springer, S. 435–436.

[15] Hans Wußing, Heinz-Wilhelm Alten, Heiko Wesemüller-Kock, Eberhard Zeidler: 6000 Jahre Mathematik: Von den Anfängen bis Newton und Leibniz. Springer, 2008, S. 429.

[16] Thomas Sonar: 3000 Jahre Analysis, Springer, S. 247–248.

[17] Thomas Sonar: 3000 Jahre Analysis, Springer, S. 378.

[18] Marquis de L’Hospital: Analyse des Infiniment Petits pour l’Intelligence des Lignes Courbes. Preface, S. ix–x: « L’Étendue de ce calcul est immense: … »; archive.org.

[19] Ernst Hairer, Gerhard Wanner: Analysis in historischer Entwicklung. Springer, S. 87.

[20] John Stillwell: Mathematics and its history, Third Edition, Springer, S. 157.

[21] Thomas Sonar: 3000 Jahre Analysis, Springer, S. 424–425.

[22] Hans Wußing, Heinz-Wilhelm Alten, Heiko Wesemüller-Kock, Eberhard Zeidler: 6000 Jahre Mathematik: Von Euler bis zur Gegenwart. Springer, 2008, S. 233.

[23] Thomas Sonar: 3000 Jahre Analysis, Springer, S. 506–514.

[24] Ernst Hairer, Gerhard Wanner: Analysis in historischer Entwicklung, Springer, S. 91.

[25] T. Arens et al.: Mathematik. Spektrum, S. 284.

[26] Bronstein et al.: Taschenbuch der Mathematik, Verlag Harri Deutsch, S. 394.

[AE318-27] Herbert Amann, Joachim Escher: Analysis 1. 3. Auflage. Birkhäuser, S. 318.

[28] Jeremy Gray: The Real and the Complex: A History of Analysis in the 19th Century, Springer, S. 271–272.

[29] Herbert Amann, Joachim Escher: Analysis 1. 3. Auflage. Birkhäuser, S. 323.

[AE324-30] Herbert Amann, Joachim Escher: Analysis 1. 3. Auflage. Birkhäuser, S. 324.

[31] Differentialrechnung. In: Guido Walz (Hrsg.): Lexikon der Mathematik. 1. Auflage. Spektrum Akademischer Verlag, Mannheim/Heidelberg 2000, ISBN 3-8274-0439-8.

[32] Ernst Hairer, Gerhard Wanner: Analysis in historischer Entwicklung, Springer, S. 90.

[33] Harro Heuser: Lehrbuch der Analysis. Teubner, Wiesbaden 2003, ISBN 3-519-62233-5, S. 269.

[34] Thomas Sonar: 3000 Jahre Analysis, Springer, S. 408.

[35] Lokenath Debnath: The Legacy of Leonhard Euler – A Tricentennial Tribute, Imperial College Press, S. 26.

[36] Ali Mason: Advanced Differential Equations. EDTECH, 1019, ISBN 1-83947-389-4, S. 67.

[37] Karl Bosch: Mathematik für Wirtschaftswissenschaftler. 14. Auflage, Oldenbourg, 2003, S. 77

[38] Klaus Hefft: Mathematischer Vorkurs zum Studium der Physik. 2. Auflage. Springer, 2018, S. 97.

[39] Herbert Amann, Joachim Escher: Analysis 1. 3. Auflage. Birkhäuser, S. 329.

[40] Herbert Amann, Joachim Escher: Analysis 1. 3. Auflage. S. 358.

[41] Herbert Amann, Joachim Escher: Analysis 1. 3. Auflage. Birkhäuser, S. 330–331.

[42] T. Arens et al.: Mathematik. Spektrum, S. 304.

[43] Herbert Amann, Joachim Escher: Analysis 2. 2. Auflage. Birkhäuser, S. 32–33.

[44] Ernst Hairer, Gerhard Wanner: Analysis in historischer Entwicklung, Springer, S. 248.

[45] Herbert Amann, Joachim Escher: Analysis 1. 3. Auflage. Birkhäuser, S. 335.

[46] Herbert Amann, Joachim Escher: Analysis 1. 3. Auflage. Birkhäuser, S. 336.

[47] Herbert Amann, Joachim Escher: Analysis 1. 3. Auflage. Birkhäuser, S. 346.

[48] Terence Tao: Analysis II, Third Edition, Hindustan Book Agency, S. 64.

[49] Terence Tao: Analysis II, Third Edition, Hindustan Book Agency, S. 65.

[50] Jeremy Gray: The Real and the Complex: A History of Analysis in the 19th Century, Springer, S. 201.

[51] Eberhard Freitag, Rolf Busam: Funktionentheorie 1, 4. Auflage, Springer, S. 89.

[52] Eberhard Freitag, Rolf Busam: Funktionentheorie 1, 4. Auflage, Springer, S. 16 ff.

[53] Eberhard Freitag, Rolf Busam: Funktionentheorie 1, 4. Auflage, Springer, S. 35.

[54] Eberhard Freitag, Rolf Busam: Funktionentheorie 1, 4. Auflage, Springer, S. 42–43.

[55] Eberhard Freitag, Rolf Busam: Funktionentheorie 1, 4. Auflage, Springer, S. 45.

[AE157-56] Herbert Amann, Joachim Escher: Analysis 2. 2. Auflage. Birkhäuser, S. 157.

[57] Herbert Amann, Joachim Escher: Analysis 2. 2. Auflage. Birkhäuser, S. 158.

[58] Herbert Amann, Joachim Escher: Analysis 2. 2. Auflage. Birkhäuser, S. 159.

[59] Herbert Amann, Joachim Escher: Analysis 2. 2. Auflage. Birkhäuser, S. 165.

[60] Herbert Amann, Joachim Escher: Analysis 2. 2. Auflage. Birkhäuser, S. 154–157.

[61] Herbert Amann, Joachim Escher: Analysis 2. 2. Auflage. Birkhäuser, S. 158–163.

[62] Herbert Amann, Joachim Escher: Analysis 2. 2. Auflage. Birkhäuser, S. 173.

[63] Herbert Amann, Joachim Escher: Analysis 2. 2. Auflage. Birkhäuser, S. 175.

[64] Herbert Amann, Joachim Escher: Analysis 2. 2. Auflage. Birkhäuser, S. 177.

[65] Herbert Amann, Joachim Escher: Analysis 2. 2. Auflage. Birkhäuser, S. 192.

[66] Herbert Amann, Joachim Escher: Analysis 2. 2. Auflage. Birkhäuser, S. 230–232.

[67] Herbert Amann, Joachim Escher: Analysis 2. 2. Auflage. Birkhäuser, S. 176.

[68] Herbert Amann, Joachim Escher: Analysis 2. 2. Auflage. Birkhäuser, S. 188.

[Arens794-69] T. Arens et al.: Mathematik. Spektrum, S. 794.

[Arens803-70] T. Arens et al.: Mathematik. Spektrum, S. 803.

[Arens811-71] T. Arens et al.: Mathematik. Spektrum, S. 811.

[Arens812-72] T. Arens et al.: Mathematik. Spektrum, S. 812.

[73] T. Arens et al.: Mathematik. Spektrum, S. 1193–1195.

[74] T. Arens et al.: Mathematik. Spektrum, S. 1196.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]

[46]

[47]

[48]

[49]

[50]

[51]

[52]

[53]

[54]

[55]

[56]

[57]

[58]

[59]

[60]

[61]

[62]

[63]

[64]

[65]

[66]

[67]

[68]

[69]

[70]

[71]

[72]

[73]

[74]

@@ Zeile 1: / Zeile 1: @@
 [[Datei:Tangent dynamic.gif|mini|[[Funktionsgraph|Graph]] einer Funktion (blau) und einer [[Tangente]] an den Graphen (rot). Die [[Steigung]] der Tangente ist die Ableitung der Funktion an dem markierten Punkt.]]
-Die '''Differential-''' oder '''Differenzialrechnung''' ist ein wesentlicher Bestandteil der [[Analysis]] und damit ein Gebiet der [[Mathematik]]. Zentrales Thema der Differentialrechnung ist die Berechnung lokaler Veränderungen von [[Funktion (Mathematik)|Funktionen]]. Während eine Funktion ihren Eingabewerten nach tabellarischem Prinzip gewisse Ausgangswerte zuordnet, wird durch die Differentialrechnung ermittelt, wie stark sich die Ausgabewerte nach sehr kleinen Veränderungen der Eingabewerte ändern. Sie ist eng verwandt mit der [[Integralrechnung]], mit der sie gemeinsam unter der Bezeichnung [[Infinitesimalrechnung]] zusammengefasst wird.
+Die '''Differential-''' oder '''Differenzialrechnung''' ist ein wesentlicher Bestandteil der [[Analysis]] und damit ein Gebiet der [[Mathematik]]. Zentrales Thema der Differentialrechnung ist die Berechnung lokaler Veränderungen von [[Funktion (Mathematik)|Funktionen]]. Während eine [[stetige Funktion]] ihren Eingabewerten kontinuierlich gewisse Ausgangswerte zuordnet, wird durch die Differentialrechnung ermittelt, wie stark sich die Ausgabewerte nach sehr kleinen Veränderungen der Eingabewerte ändern. Sie ist eng verwandt mit der [[Integralrechnung]], mit der sie gemeinsam unter der Bezeichnung [[Infinitesimalrechnung]] zusammengefasst wird.
-Die '''Ableitung''' einer Funktion dient der Untersuchung lokaler Veränderungen einer Funktion und ist gleichzeitig Grundbegriff der Differentialrechnung. Anstatt von der Ableitung spricht man auch vom '''Differentialquotienten''', dessen geometrische Entsprechung die [[Steigung|Tangentensteigung]] ist. Die Ableitung ist nach der Vorstellung von [[Gottfried Wilhelm Leibniz|Leibniz]] der [[Proportionalität]]sfaktor zwischen ''infinitesimalen'' Änderungen des Eingabewertes und den daraus resultierenden, ebenfalls ''infinitesimalen'' Änderungen des Funktionswertes. Wird beispielsweise nach Zunahme der Eingabe um eine sehr kleine Einheit die Ausgabe der Funktion um nahezu zwei Einheiten erhöht, so ist von einer Ableitung des Wertes 2 (= 2 Einheiten / 1 Einheit) auszugehen. Eine Funktion wird als [[Differenzierbarkeit|differenzierbar]] bezeichnet, wenn ein solcher Proportionalitätsfaktor existiert. [[Logische Äquivalenz|Äquivalent]] wird die Ableitung in einem Punkt als die Steigung derjenigen [[Lineare Funktion|linearen Funktion]] definiert, die unter allen linearen Funktionen die Änderung der Funktion am betrachteten Punkt lokal am besten [[Approximation|approximiert]]. Entsprechend wird die Ableitung auch die [[Linearisierung]] der Funktion genannt. Die Linearisierung einer möglicherweise komplizierten Funktion zur Bestimmung deren Veränderungsrate hat den Vorteil, dass lineare Funktionen besonders einfache Eigenschaften haben.
+Die '''Ableitung''' einer Funktion dient der Darstellung lokaler Veränderungen einer Funktion und ist gleichzeitig Grundbegriff der Differentialrechnung. Anstatt von der Ableitung spricht man auch vom '''Differentialquotienten''', dessen geometrische Entsprechung die [[Steigung|Tangentensteigung]] ist. Die Ableitung ist nach der Vorstellung von [[Gottfried Wilhelm Leibniz|Leibniz]] der [[Proportionalität]]sfaktor zwischen ''infinitesimalen'' Änderungen des Eingabewertes und den daraus resultierenden, ebenfalls ''infinitesimalen'' Änderungen des Funktionswertes. Eine Funktion wird als [[Differenzierbarkeit|differenzierbar]] bezeichnet, wenn ein solcher Proportionalitätsfaktor existiert. [[Logische Äquivalenz|Äquivalent]] wird die Ableitung in einem Punkt als die Steigung derjenigen [[Lineare Funktion|linearen Funktion]] definiert, die unter allen linearen Funktionen die Änderung der Funktion am betrachteten Punkt lokal am besten [[Approximation|approximiert]]. Entsprechend wird mit der Ableitung in dem Punkt eine lineare Näherung der Funktion gewonnen. Die [[Linearisierung]] einer möglicherweise komplizierten Funktion hat den Vorteil, dass eine einfacher behandelbare Funktion entsteht als die ursprüngliche Funktion oder überhaupt erst eine Handhabbarkeit.
-In vielen Fällen ist die Differentialrechnung ein unverzichtbares Hilfsmittel zur Bildung [[Mathematisches Modell|mathematischer Modelle]], die die Wirklichkeit möglichst genau abbilden sollen, sowie zu deren nachfolgender Analyse. Die Entsprechung der Ableitung im untersuchten Sachverhalt ist häufig die [[momentane Änderungsrate]]. So ist beispielsweise die Ableitung der Orts- beziehungsweise Weg-Zeit-Funktion eines Teilchens nach der Zeit seine Momentangeschwindigkeit und die Ableitung der Momentangeschwindigkeit nach der Zeit liefert die momentane Beschleunigung. In den Wirtschaftswissenschaften spricht man auch häufig von Grenzraten anstelle der Ableitung, zum Beispiel [[Grenzkosten]] oder Grenzproduktivität eines Produktionsfaktors.
+In vielen Fällen ist die Differentialrechnung ein unverzichtbares Hilfsmittel zur Bildung [[Mathematisches Modell|mathematischer Modelle]], die die Wirklichkeit möglichst genau abbilden sollen, sowie zu deren nachfolgender Analyse.
-In geometrischer Sprache ist die Ableitung eine verallgemeinerte Steigung. Der geometrische Begriff Steigung ist ursprünglich nur für [[Lineare Abbildung|lineare Funktionen]] definiert, deren [[Funktionsgraph]] eine Gerade ist. Die Ableitung einer beliebigen Funktion an einer Stelle <math>x_0</math> definiert man als die Steigung der [[Tangente]] im Punkt <math>(x_0,f(x_0))</math> des [[Funktionsgraph|Graphen]] von <math>f</math>.
+* Das Verhalten von Bauelementen mit nicht-linearer [[Kennlinie]] wird bei kleinen Signaländerungen in der Umgebung eines Bezugspunktes durch ihr [[Kleinsignalverhalten]] beschrieben; dieses basiert auf dem Verlauf der Tangente an die Kennlinie im Bezugspunkt.
+* Die Ableitung nach der Zeit ist im untersuchten Sachverhalt die [[momentane Änderungsrate]]. So ist beispielsweise die Ableitung der Orts- beziehungsweise Weg-Zeit-Funktion eines Teilchens nach der Zeit seine Momentangeschwindigkeit, und die Ableitung der Momentangeschwindigkeit nach der Zeit liefert die momentane Beschleunigung.
+* In den Wirtschaftswissenschaften spricht man auch häufig von Grenzraten anstelle der Ableitung, zum Beispiel [[Grenzkosten]] oder Grenzproduktivität eines Produktionsfaktors.
+In der Sprache der [[Geometrie]] ist die Ableitung eine verallgemeinerte Steigung. Der geometrische Begriff Steigung ist ursprünglich nur für [[Lineare Abbildung|lineare Funktionen]] definiert, deren [[Funktionsgraph]] eine Gerade ist. Die Ableitung einer beliebigen Funktion an einer Stelle <math>x_0</math> kann man als die Steigung der [[Tangente]] im Punkt <math>(x_0,f(x_0))</math> des [[Funktionsgraph|Graphen]] von <math>f</math> definieren.
-In [[Arithmetik|arithmetischer]] Sprache gibt die Ableitung einer Funktion <math>f</math> für jedes <math>x</math> an, wie groß der lineare Anteil der Änderung von <math>f(x)</math> ist (die Änderung 1.&nbsp;Ordnung), wenn sich <math>x</math> um einen beliebig kleinen Betrag <math>\Delta x</math> ändert. Für die exakte Formulierung dieses Sachverhalts wird der Begriff ''[[Grenzwert (Funktion)|Grenzwert]]'' oder ''Limes'' verwendet.
+In der Sprache der [[Arithmetik]] schreibt man <math>f'(x)</math> für die Ableitung einer Funktion <math>f(x)</math> an der Stelle <math>x</math>. Sie gibt an, um welchen Faktor von <math>\Delta x</math> sich <math>f(x)</math> ungefähr ändert, wenn sich <math>x</math> um einen „kleinen“ Betrag <math>\Delta x</math> ändert. Für die exakte Formulierung dieses Sachverhalts wird der Begriff ''[[Grenzwert (Funktion)|Grenzwert]]'' oder ''Limes'' verwendet.
 == Einführung ==
 === Heranführung anhand eines Beispiels ===
+Fährt ein Auto auf einer Straße, so kann anhand dieses Sachverhalts eine Tabelle erstellt werden, in der zu jedem Zeitpunkt die Strecke, die seit dem Beginn der Aufzeichnung zurückgelegt wurde, eingetragen wird. In der Praxis ist es zweckmäßig, eine solche Tabelle nicht zu engmaschig zu führen, d.&nbsp;h. zum Beispiel in einem Zeitraum von 1 Minute nur alle 3 Sekunden einen neuen Eintrag zu machen, was lediglich 20 Messungen erfordern würde. Jedoch kann eine solche Tabelle theoretisch beliebig engmaschig gestaltet werden, wenn jeder Zeitpunkt berücksichtigt werden soll. Dabei gehen die vormals diskreten, also mit einem Abstand behafteten Daten, in ein Kontinuum über. Die ''Gegenwart'' wird dann als Zeit''punkt'', d.&nbsp;h. als ein unendlich kurzer Zeitabschnitt, interpretiert. Gleichzeitig hat das Auto aber zu jedem Zeitpunkt eine theoretisch bekannte Strecke zurückgelegt, und wenn es nicht bis zum Stillstand abbremst oder gar zurück fährt, wird die Strecke kontinuierlich ansteigen, also zu keinem Zeitpunkt dieselbe sein wie zu einem anderen.
-[[Datei:Awesome blue flag! (17326840438).jpg|mini|Sich bewegenden Objekten, wie Autos, kann eine Zeit-Strecken-Funktion zugeordnet werden. In dieser ist tabellarisch verzeichnet, wie weit sich das Auto zu welchem Zeitpunkt bewegt hat. Die ''Ableitung'' dieser Funktion ordnet wiederum tabellarisch an, welche Geschwindigkeiten das Auto zu welchem Zeitpunkt hat, etwa zum Zeitpunkt der Fotoaufnahme.]]
-[[Datei:InnsbruckerPl B-Schoeneberg 12-2017 img1.jpg|mini|Bei Geschwindigkeitskontrollen werden ''momentane Geschwindig&shy;keiten'' stark angenähert]]
-Fährt ein Auto auf einer Straße, so kann anhand dieses Sachverhalts eine Tabelle erstellt werden, in der zu jedem Zeitpunkt die Strecke, die seit dem Beginn der Aufzeichnung zurückgelegt wurde, eingetragen wird. In der Praxis ist es zweckmäßig, eine solche Tabelle nicht zu engmaschig zu führen, d.&nbsp;h. zum Beispiel in einem Zeitraum von 1 Minute nur alle 3 Sekunden einen neuen Eintrag zu machen, was lediglich 20 Messungen erfordern würde. Jedoch kann eine solche Tabelle theoretisch beliebig engmaschig gestaltet werden, wenn jeder Zeitpunkt berücksichtigt werden soll. Dabei fließen die vormals diskreten, also mit einem Abstand behafteten Daten, in ein Kontinuum über. Die ''Gegenwart'' wird dann als Zeit''punkt'', d. h. als ein unendlich kurzer Zeitabschnitt, interpretiert. Gleichzeitig hat das Auto aber zu jedem Zeitpunkt eine theoretisch messbare exakte Strecke zurückgelegt, und wenn es nicht bis zum Stillstand abbremst oder gar zurück fährt, wird die Strecke kontinuierlich ansteigen, also zu keinem Zeitpunkt dieselbe sein wie zu einem anderen.
 <gallery mode="packed" widths="320" heights="200">
-AutoTabelle1.svg|<br />Exemplarische Darstellung einer Tabelle, alle 3 Sekunden wird eine neue Messung eingetragen. Unter solchen Voraussetzungen können lediglich durchschnittliche Geschwindigkeiten in den Zeiträumen 0 bis 3, 3 bis 6 usw. Sekunden berechnet werden. Da die zurückgelegte Strecke stets zunimmt, scheint der Wagen nur vorwärts zu fahren.
+   AutoTabelle1.svg|<br />Exemplarische Darstellung einer Tabelle, alle 3 Sekunden wird eine neue Messung eingetragen. Unter solchen Voraussetzungen können lediglich durchschnittliche Geschwindigkeiten in den Zeiträumen 0 bis 3, 3 bis 6 usw. Sekunden berechnet werden. Da die zurückgelegte Strecke stets zunimmt, scheint der Wagen nur vorwärts zu fahren.
-AutoTabelle2.svg|<br />Potenzieller Übergang zu einer beliebig engmaschigen Tabelle, die nach Eintragung aller Punkte die Gestalt einer Kurve annimmt. Nun wird ''jedem'' Zeitpunkt zwischen 0 und 60 Sekunden eine Strecke zugeordnet. Regionen, innerhalb derer die Kurve steiler nach oben verläuft, entsprechen Zeitabschnitten, in denen eine größere Meterzahl pro Zeiteinheit zurückgelegt wird. In Regionen mit nahezu gleich bleibender Meterzahl, zum Beispiel im Bereich 15–20 Sekunden, fährt das Auto langsam und die Kurve verläuft flach.
+   AutoTabelle2.svg|<br />Übergang zu einer beliebig engmaschigen Tabelle, die nach Eintragung aller Punkte die Gestalt einer Kurve annimmt. ''Jedem'' Zeitpunkt zwischen 0 und 60 Sekunden wird ein Punkt auf der Kurve zugeordnet. Regionen, innerhalb derer die Kurve steiler nach oben verläuft, entsprechen Zeitabschnitten, in denen eine größere Strecke pro Zeitspanne zurückgelegt wird. In Regionen mit nahezu gleich bleibender Strecke, zum Beispiel im Bereich 15–20 Sekunden, fährt das Auto langsam und die Kurve verläuft flach.
 </gallery>
-Die Motivation hinter dem Begriff der ''Ableitung'' einer Zeit-Strecken-Tabelle oder -Funktion ist, nun angeben zu können, ''wie schnell'' sich das Auto zu einem gewissen gegenwärtigen Zeitpunkt bewegt. Aus einer Zeit-Strecke-Tabelle soll also die passende Zeit-Geschwindigkeit-Tabelle ''abgeleitet'' werden. Hintergrund ist, dass die Geschwindigkeit ein Maß dafür ist, ''wie stark'' sich die zurückgelegte Strecke im Laufe der Zeit ''ändert''. Bei einer hohen Geschwindigkeit ist ein starker Anstieg in der Strecke zu sehen, während eine niedrige Geschwindigkeit zu wenig Veränderung führt. Da ''jedem'' Zeitpunkt auch eine Strecke zugeordnet wurde, sollte eine solche Analyse grundsätzlich möglich sein, denn mit dem Wissen über die zurückgelegte Strecke <math>s</math> innerhalb eines Zeitraumes <math>t</math> gilt für die Geschwindigkeit
+Die Motivation hinter dem Begriff der ''Ableitung'' einer Weg-Zeit-Kurve oder -Funktion ist, dass nun angegeben werden kann, ''wie schnell'' sich das Auto zu einem momentanen Zeitpunkt bewegt. Aus einem Weg-Zeit-Verlauf soll also der passende Geschwindigkeit-Zeit-Verlauf ''abgeleitet'' werden. Hintergrund ist, dass die Geschwindigkeit ein Maß dafür ist, ''wie stark'' sich die zurückgelegte Strecke im Laufe der Zeit ''ändert''. Bei einer hohen Geschwindigkeit ist ein starker Anstieg in der Kurve zu sehen, während eine niedrige Geschwindigkeit zu wenig Veränderung führt. Da ''jedem'' Messpunkt auch eine Strecke zugeordnet wurde, sollte eine solche Analyse grundsätzlich möglich sein, denn mit dem Wissen über die zurückgelegte Strecke <math>\Delta s</math> innerhalb einem Zeitintervall <math>\Delta t</math> gilt für die Geschwindigkeit
-:<math> v = \frac{s}{t}.</math>
+: <math>v=\frac{\Delta s}{\Delta t}.</math>
-Sind also <math>t_0</math> und <math>t_1</math> zwei unterschiedliche Zeitpunkte, so lautet „die Geschwindigkeit“ des Autos im Zeitraum zwischen diesen
+Sind also <math>t_0</math> und <math>t_1</math> zwei unterschiedliche Zeitpunkte, so lautet „die Geschwindigkeit“ des Autos im Zeitintervall zwischen diesen
-:<math> v = \frac{s(t_1) - s(t_0)}{t_1 - t_0}.</math>
+: <math>v=\frac{s(t_1) - s(t_0)}{t_1 - t_0}.</math>
-Die Differenzen in Zähler und Nenner müssen gebildet werden, da man sich nur für die innerhalb eines bestimmten Zeitraums <math>t_1 - t_0</math> zurückgelegte Strecke <math>s(t_1) - s(t_0)</math> interessiert. Dennoch liefert dieser Ansatz kein vollständiges Bild, da zunächst nur Geschwindigkeiten für „echte Zeiträume“ gemessen wurden. Eine ''gegenwärtige'' Geschwindigkeit, vergleichbar mit einem [[Geschwindigkeitskontrolle|Blitzerfoto]], hingegen bezöge sich auf ein ''unendlich kurzes Zeitintervall''. Ferner ist es sehr gut möglich, dass das Auto auch in sehr kurzen Intervallen noch seine Geschwindigkeit ändert, zum Beispiel bei einer [[Vollbremsung]]. Dementsprechend ist der obere Begriff der „Geschwindigkeit“ nicht zutreffend und muss durch „durchschnittliche Geschwindigkeit“ ersetzt werden.<ref>[[Serge Lang]]: ''A First Course in Calculus'', Fifth Edition, Springer, S. 106.</ref> Wird also mit echten Zeitintervallen, also diskreten Daten, gearbeitet, vereinfacht sich das Modell insofern, als für das Auto innerhalb der betrachteten Intervalle eine konstante Geschwindigkeit angenommen wird.
+Die Differenzen in Zähler und Nenner müssen gebildet werden, da man sich nur für die innerhalb eines bestimmten Zeitintervalls <math>t_1-t_0</math> zurückgelegte Strecke <math>s(t_1)-s(t_0)</math> interessiert. Dennoch liefert dieser Ansatz kein vollständiges Bild, da zunächst nur Geschwindigkeiten für Zeitintervalle mit auseinander liegendem Anfangs- und Endpunkt gemessen wurden. Eine ''momentane'' Geschwindigkeit, vergleichbar mit einem [[Geschwindigkeitskontrolle|Blitzerfoto]], hingegen bezöge sich auf ein ''unendlich kurzes Zeitintervall''. Dementsprechend ist der oben stehende Begriff „Geschwindigkeit“ durch „durchschnittliche Geschwindigkeit“ zu präzisieren. Auch wenn mit echten Zeitintervallen, also diskreten Daten, gearbeitet wird, vereinfacht sich das Modell insofern, als für ein Auto innerhalb der betrachteten Intervalle keine schlagartige Ortsänderung und keine schlagartige Geschwindigkeitsänderung möglich ist. (Auch eine Vollbremsung benötigt Zeit, und zwar länger als die Zeit, in der die Reifen quietschen.) Damit ist auch in der Zeichnung der stillschweigend ''durchgehend'' eingetragene Kurvenzug ohne Sprung und ohne Knick gerechtfertigt.
+[[Datei:AutoTabelle3.svg|mini|360px|Zum Zeit''punkt'' 25 Sekunden bewegt sich das Auto momentan mit ca. 7,6&nbsp;Metern pro Sekunde, umgerechnet 27&nbsp;km/h. Dieser Wert entspricht der Steigung der Tangente der Weg-Zeit-Kurve an der entsprechenden Stelle. Weitere detailliertere Erklärungen zu dieser ''geometrischen Interpretation'' werden weiter unten gegeben.]]
+Soll hingegen zu einem „perfekt passenden“ Geschwindigkeit-Zeit-Verlauf übergegangen werden, so muss der Terminus „durchschnittliche Geschwindigkeit in einem Zeitintervall“ durch „Geschwindigkeit zu einem Zeitpunkt“ ersetzt werden. Dazu muss zunächst ein Zeitpunkt <math>t_0</math> gewählt werden. Die Idee ist nun, „ausgedehnte Zeitintervalle“ in einem ''Grenzwertprozess'' gegen ein unendlich kurzes Zeitintervall laufen zu lassen und zu studieren, was mit den betroffenen durchschnittlichen Geschwindigkeiten passiert. Obwohl der Nenner <math>t_1-t_0</math> dabei gegen 0 strebt, ist dies anschaulich kein Problem, da sich das Auto in kürzer werdenden Zeitabschnitten bei [[Stetige Funktion|stetigem]] Verlauf immer weniger weit bewegen kann, womit sich Zähler und Nenner gleichzeitig verkleinern, und im Grenzprozess ein unbestimmter Term „<math>\tfrac00</math>“ entsteht. Dieser kann unter Umständen als Grenzwert Sinn ergeben, beispielsweise drücken
-[[Datei:AutoTabelle3.svg|mini|360px|Zum Zeit''punkt'' 25 Sekunden bewegt sich das Auto momentan mit ca. 7,62 Metern pro Sekunde, umgerechnet 27,43&nbsp;km/h. Dieser Wert entspricht der Steigung der Tangente der Zeit-Strecken-Kurve an der entsprechenden Stelle. Weitere detailliertere Erklärungen zu dieser ''geometrischen Interpretation'' werden weiter unten gegeben.]]
+: <math>\tfrac{5\ \mathrm{Meter}}{\mathrm{Sekunde}}\ \text{ und }\ \tfrac{5\ \mathrm{Millimeter}}{\mathrm{Millisekunde}}\ \text{ und }\ \tfrac{5\ \mathrm{Nanometer}}{\mathrm{Nanosekunde}}\ \text{ usw.}</math>
-Soll hingegen zu einer „perfekt passenden“ Zeit-Geschwindigkeit-Tabelle übergegangen werden, so muss der Terminus „durchschnittliche Geschwindigkeit in einem Zeitintervall“ durch „Geschwindigkeit zu einem Zeitpunkt“ ersetzt werden. Dazu muss zunächst ein Zeitpunkt <math>t_0</math> gewählt werden. Die Idee ist nun, „echte Zeitintervalle“ in einem ''Grenzwertprozess'' gegen ein unendlich kurzes Zeitintervall laufen zu lassen und zu studieren, was mit den betroffenen durchschnittlichen Geschwindigkeiten passiert. Obwohl der Nenner <math>t_1 - t_0</math> dabei gegen 0 strebt, ist dies anschaulich kein Problem, da sich das Auto in kürzer werdenden Zeitabschnitten bei [[Stetige Funktion|stetigem]] Verlauf, also ohne [[Teleportation]], immer weniger weit bewegen kann, womit sich Zähler und Nenner gleichzeitig verkleinern, und im Grenzprozess ein unbestimmter Term „<math>\tfrac{0}{0}</math>“ entsteht. Dieser kann unter Umständen als Grenzwert Sinn machen, beispielsweise drücken
+exakt ''dieselben'' Geschwindigkeiten aus. Nun gibt es zwei Möglichkeiten beim Studium der Geschwindigkeiten. Entweder, sie lassen in dem betrachteten Grenzwertprozess ''keine'' Tendenz erkennen, sich einem bestimmten endlichen Wert anzunähern. In diesem Fall kann der Bewegung des Autos ''keine zum Zeitpunkt <math>t_0</math> gültige Geschwindigkeit'' zugeordnet werden, d.&nbsp;h., der Term „<math>\tfrac00</math>“ hat hier keinen eindeutigen Sinn. Gibt es hingegen eine zunehmende Stabilisierung in Richtung auf einen festen Wert, so ''existiert'' der [[Grenzwert (Folge)|Grenzwert]]
-:<math> \frac{5 \, \, \mathrm{Meter}}{\mathrm{Sekunde}} \, \, \, \text{und} \, \, \, \frac{5 \, \, \mathrm{Millimeter}}{\mathrm{Millisekunde}} \, \, \, \text{und} \, \, \, \frac{5 \, \, \mathrm{Nanometer}}{\mathrm{Nanosekunde}} \, \, \, \text{usw.}</math>
+: <math>\frac{\mathrm ds}{\mathrm dt} (t_0) := \lim_{t_1 \to t_0} \frac{s(t_1) - s(t_0)}{t_1 - t_0} = \lim_{\Delta t \to 0} \frac{s(t_0+\Delta t) - s(t_0)}{\Delta t}</math>
-exakt die ''selben'' Geschwindigkeiten aus. Nun gibt es zwei Möglichkeiten beim Studium der Geschwindigkeiten. Entweder, sie lassen in dem betrachteten Grenzwertprozess ''keine'' Tendenz erkennen, sich einem bestimmten endlichen Wert anzunähern. In diesem Fall kann der Bewegung des Autos ''keine zum Zeitpunkt <math>t_0</math> gültige Geschwindigkeit'' zugeordnet werden, d. h., der Term „<math>\tfrac{0}{0}</math>“ hat hier keinen eindeutigen Sinn. Gibt es hingegen eine zunehmende Stabilisierung in Richtung eines festen Wertes, so ''existiert'' der [[Grenzwert (Folge)|Limes]]
+und drückt die exakt im Zeitpunkt <math>t_0</math> bestehende Geschwindigkeit aus. Der unbestimmte Term „<math>\tfrac00</math>“ nimmt in diesem Fall einen eindeutigen Wert an. Die dabei entstehende Momentangeschwindigkeit wird auch als Ableitung von <math>s</math> an der Stelle <math>t_0</math> bezeichnet; für diese wird häufig das Symbol <math>s'(t_0)</math> benutzt. Mit dem Grenzwert wird die Momentangeschwindigkeit zu einem beliebigen Zeitpunkt definiert als
-:<math> \frac{\mathrm{d}s}{\mathrm{d}t}(t_0) := \lim_{t_1 \to t_0} \frac{s(t_1) - s(t_0)}{t_1 - t_0} = \lim_{h \to 0} \frac{s(t_0 + h) - s(t_0)}{h}</math>
+:<math>v=\frac{\mathrm ds}{\mathrm dt}.</math>
+=== Prinzip der Differentialrechnung ===
-und drückt exakt die im Zeitpunkt <math>t_0</math> vorherrschende Geschwindigkeit des Autos aus. Der unbestimmte Term „<math>\tfrac{0}{0}</math>“ nimmt in diesem Fall einen eindeutigen Wert an. Der dabei entstehende Zahlenwert wird auch als Ableitung von <math>s</math> an der Stelle <math>t_0</math> bezeichnet und für ihn wird häufig das Symbol <math>s'(t_0)</math> benutzt.
+[[Datei:DifferentialExample02.svg|mini|hochkant=1.5|Schaubild der Zeit-Strecke-Funktion <math>s(t) = 2t</math> (in Blau). Verstreicht eine Sekunde (in Rot), so nimmt die zurückgelegte Strecke um 2 Meter zu (in Orange). Daher bewegt sich das Auto mit „2 Meter pro Sekunde“. Die Geschwindigkeit entspricht der [[Steigung]]. Das [[Steigungsdreieck]] lässt sich beliebig verkleinern, ohne dass sich an der Proportion von Höhe und Grundseite etwas ändert.]]
+Das Beispiel des letzten Abschnitts ist dann besonders einfach, wenn die Zunahme der zurückgelegten Strecke mit der Zeit ''gleichförmig'', also linear verläuft. Dann liegt speziell eine [[Proportionalität]] zwischen der ''Veränderung'' der Strecke und der ''Veränderung'' der Zeit vor. Die ''relative Veränderung'' der Strecke, also ihre Zunahme im Verhältnis zur Zunahme der Zeit, ist bei dieser Bewegung immer gleichbleibend. Die ''mittlere'' Geschwindigkeit ist zu jedem Zeitpunkt auch die ''momentane'' Geschwindigkeit. Beispielsweise legt das Auto zwischen 0 und 1&nbsp;Sekunden eine gleich lange Strecke zurück wie zwischen 9 und 10&nbsp;Sekunden und die zehnfache Strecke zwischen 0 und 10&nbsp;Sekunden. Als Proportionalitätsfaktor über den ganzen Weg gilt die konstante Geschwindigkeit <math>v</math>, wobei sie im nebenstehenden Bild <math>v=2\,\mathrm{m/s}</math> beträgt. Die zwischen beliebig weit auseinanderliegenden Zeitpunkten <math>t</math> und <math>t+\Delta t</math> zurückgelegte Strecke beträgt
-=== Das Prinzip der Differentialrechnung ===
-[[Datei:DifferentialExample02.svg|mini|350px|Schaubild der Zeit-Strecke-Funktion <math>s(t) = 2t</math> (in Blau). Verstreicht eine Sekunde (in Rot), so nimmt die zurückgelegte Strecke um 2 Meter zu (in Orange). Daher bewegt sich das Auto mit „2 Meter pro Sekunde“. Die Geschwindigkeit entspricht genau der [[Steigung]]. Es ist zu beachten, dass sich das [[Steigungsdreieck]] beliebig verkleinern lässt, ohne dass sich an der Proportion von Höhe und Grundseite etwas ändert, es könnte also auch von „2 [[Nanometer]] pro [[Nanosekunde]]“ usw. gesprochen werden. Daher ist es auch sinnvoll, zu jedem Zeit''punkt'' von einer ''momentanen'' Geschwindigkeit von 2 Meter pro Sekunde zu sprechen.]]
+:<math>\Delta s=s(t+\Delta t)-s(t) =v\cdot(t+\Delta t) -v\cdot t =v\cdot\Delta t</math>.
-Das Beispiel des letzten Abschnitts ist besonders einfach, wenn die Zunahme der Strecke des Autos mit der Zeit ''gleichförmig'', also linear verläuft. Man spricht in diesem Falle auch von einer [[Proportionalität]] zwischen Zeit und Strecke, wenn zu Beginn der Aufzeichnung (<math>t=0</math>) noch keine Strecke zurückgelegt wurde (<math>s(0) = 0</math>). Dies hat eine immer gleichbleibende Veränderung der Strecke in einem bestimmten Zeitintervall zur Folge, ''egal'' ab wann die Messung startet. Beispielsweise legt das Auto zwischen 0 und 1 die gleiche Strecke zurück wie zwischen 9 und 10 Sekunden. Nimmt man an, dass sich das Auto für jede verstrichene Sekunde 2 Meter weiter bewegt, so hat die Proportionalität zur Folge, dass es sich für jede halbe Sekunde nur um 1 Meter zurück legt usw. Allgemein gilt also <math>s(t) = 2t</math>, d. h., für jede weitere Zeiteinheit kommen zwei weitere Streckeneinheiten hinzu, womit die Veränderungsrate in jedem Punkt 2 „Meter pro (hinzukommende) Sekunde“ beträgt.
+Allgemein bewegt sich das Auto in der Zeitspanne <math>\Delta t</math> um die Strecke <math>\Delta s=v\,\Delta t</math> vorwärts. Speziell bei <math>\Delta t =5\,\mathrm s</math> ergibt sich ein Wegstück <math>\Delta s =v\,\Delta t =2\,\mathrm{\tfrac ms\cdot 5\,s =10\,m}</math>.
-Ersetzt man für den allgemeineren Fall 2 durch eine beliebige Zahl <math>m</math>, also <math>s(t) = mt</math>, so kommen für jede verstrichene Zeiteinheit weitere <math>m</math> Streckeneinheiten hinzu. Das ist schnell einzusehen, denn es gilt für die Streckendifferenz
+Falls der Startwert bei <math>t=0</math> nicht <math>s(0)=0</math> sondern <math>s(0) = c\neq 0</math> beträgt, ändert dies nichts, da sich in der Beziehung <math>s=v\,t+c</math> die Konstante <math>c</math> durch die [[Subtraktion#Sprachregelungen, Grundeigenschaften und Notation|Differenzbildung]] aus <math>\Delta s</math> stets heraussubtrahiert. Auch anschaulich ist dies bekannt: Die Startposition des Autos ist unerheblich für seine Geschwindigkeit.
-:<math>s(t + 1) - s(t) = m\cdot(t + 1) - mt = mt + m - mt = m.</math>
+Werden statt der [[Variable (Mathematik)|Variablen]] <math>t</math> und <math>s</math> allgemein die Variablen <math>x</math> und <math>y</math> betrachtet, so lässt sich also festhalten:
-Allgemein bewegt sich das Auto in <math>t_0</math> Zeiteinheiten um insgesamt <math>mt_0</math> Streckeneinheiten vorwärts – seine Geschwindigkeit beträgt daher, im Falle der getroffenen Wahl von Metern und Sekunden, konstant „<math>m</math> Meter pro Sekunde“. Falls der Startwert nicht <math>s(0)=0</math> sondern <math>s(0) = c</math> beträgt, ändert dies nichts, da sich die Konstante in der oberen [[Subtraktion#Sprachregelungen, Grundeigenschaften und Notation|Differenz]] stets heraussubtrahiert. Auch anschaulich ist dies vernünftig: Die Startposition des Autos sollte bei gleichförmiger Bewegung unerheblich für dessen Geschwindigkeit sein.
+* ''Lineare Funktionen'': Bei [[Linearität (Physik)|Linearität]] hat die betrachtete Funktion die Gestalt <math>y=f(x) = mx+c</math>. (Für eine lineare Funktion ist nicht notwendig eine [[Ursprungsgerade]] erforderlich!) Als Ableitung gilt hieran die ''relative Veränderung'', mit einem anderen Wort der [[Differenzenquotient]] <math>\tfrac{\Delta y}{\Delta x}</math>. Sie hat in jedem Punkt denselben Wert&nbsp;<math>m</math>. Die Ableitung lässt sich aus dem Ausdruck <math>mx+c</math> direkt ablesen. Insbesondere hat jede [[konstante Funktion]] <math>f(x) = c</math> die Ableitung <math>\tfrac{\Delta y}{\Delta x} = 0</math>, da sich mit einer Änderung des Eingabewertes nichts am Ausgabewert ändert.
-Es lässt sich also festhalten:
-* ''Lineare Funktionen''. Für lineare Funktionen (man beachte, dass es keine [[Ursprungsgerade]] sein muss) ist der Ableitungsbegriff wie folgt erklärt. Hat die betrachtete Funktion die Gestalt <math>f(x) = mx+c</math>, so hat die momentane Veränderungsrate in ''jedem Punkt'' den Wert <math>m</math>, es gilt also für die zugehörige Ableitungsfunktion <math>f'(x) = m</math>. Die Ableitung lässt sich aus den Daten <math>mx+c</math> also direkt ablesen. Insbesondere gilt: Jede [[konstante Funktion]] <math>f(x) = c</math> hat die Ableitung <math>f'(x) = 0</math>, da sich mit Abänderung der Eingabewerte nichts am Ausgabewert ändert. Das ''Maß der Veränderung'' beträgt also überall&nbsp;0.
-Mitunter deutlich schwieriger kann es werden, wenn eine Bewegung ''nicht gleichförmig'' verläuft. In diesem Falle sieht der Verlauf der Zeit-Strecken-Funktion ggf. ganz anders aus als eine Gerade. Aus der Beschaffenheit der Zeit-Strecken-Funktion lässt sich dann ablesen, dass die Bewegungsverläufe des Autos sehr vielseitig sind, was zum Beispiel mit Verkehrsampeln, Kurven, Staus und anderen Verkehrsteilnehmern zu tun haben kann. Da solche Arten von Verläufen besonders häufig in der Praxis anzutreffen sind, ist es zweckmäßig, den Ableitungsbegriff auch auf nicht-lineare Funktionen auszudehnen. Hier stößt man jedoch schnell auf das Problem, dass es auf den ersten Blick keinen klaren Proportionalitätsfaktor gibt, der genau die lokale Veränderungsrate ausdrückt. Die einzig mögliche Strategie sieht daher vor, eine ''[[Linearisierung]]'' der nicht-linearen Funktion vorzunehmen, um das Problem auf den einfachen Fall einer linearen Funktion ''zurückzuführen''. Diese Technik der Linearisierung bildet den eigentlichen [[Kalkül]] der Differentialrechnung und ist in der [[Analysis]] von sehr großer Bedeutung, da sie dabei hilft, komplizierte Prozesse lokal auf sehr leicht verständliche Prozesse, nämlich lineare Vorgänge, zu reduzieren.<ref>Herbert Amann, [[Joachim Escher (Mathematiker)|Joachim Escher]]: ''Analysis 1'', Dritte Auflage, Birkhäuser, S. 316.</ref>
+Schwieriger wird es, wenn eine Bewegung ''nicht gleichförmig'' verläuft. Dann ist das Diagramm der Zeit-Strecken-Funktion nicht geradlinig. Für derartige Verläufe muss der Ableitungsbegriff erweitert werden. Denn es gibt keinen Proportionalitätsfaktor, der ''überall'' die lokale relative Veränderung ausdrückt. Als einzig mögliche Strategie ist die Gewinnung einer [[Lineare Näherung|linearen Näherung]] für die nicht-lineare Funktion gefunden worden, zumindest an einer interessierenden Stelle. (Im nächsten Bild ist das die Stelle <math>x = 1</math>.) Damit wird das Problem auf eine wenigstens an dieser Stelle lineare Funktion zurückgeführt. Die Methode der [[Linearisierung]] ist die Grundlage für den eigentlichen [[Kalkül]] der Differentialrechnung. Sie ist in der [[Analysis]] von sehr großer Bedeutung, da sie dabei hilft, komplizierte Vorgänge lokal auf leichter verständliche Vorgänge, nämlich lineare Vorgänge, zu reduzieren.<ref>Herbert Amann, [[Joachim Escher (Mathematiker)|Joachim Escher]]: ''Analysis 1''. 3. Auflage. Birkhäuser, S. 316.</ref>
-[[Datei:DifferentialExample01.svg|mini|350px|Graphische Darstellung der Approximation von <math>f(x) = x^2</math> durch <math>g(x) = 2x-1</math>. Letztere ist die ''[[Tangente]]'' von <math>f</math> an der Stelle <math>x = 1</math>.]]
-Die Strategie kann exemplarisch an der nicht-linearen Funktion <math>f(x) = x^2</math> erläutert werden. Die folgende Tabelle zeigt die Linearisierung der quadratischen Funktion <math>f(x) = x^2</math> an der Stelle 1.
-{| class="wikitable" style="text-align:center"
+{| class="wikitable float-right" style="text-align:center"
 |-
 ! <math>x</math>
-|0,5||0,75||0,99||0,999||1||1,001||1,01||1,1||2||3||4||100
+|0,5||0,9||0,99||0,999||1||1,001||1,01||1,1||1,5||2
 |-
-! <math>x^2</math>
+! <math>f=x^2</math>
-|0,25||0,5625||0,9801||0,998001||1||1,002001||1,0201||1,21||4||9||16||10000
+|0,25||0,81||0,9801||0,998001||1||1,002001||1,0201||1,21||2,25||4
 |-
-! <math>2x-1</math>
+! <math>g=2x-1</math>
-|0||0,5||0,98||0,998||1||1,002||1,02||1,2||3||5||7||199
+|0||0,8||0,98||0,998||1||1,002||1,02||1,2||2||3
+|-
+| <math>g(x)-f(x)</math>||−0,25||−0,01||−0,0001||−0,000001|| 0||−0,000001||−0,0001||−0,01||−0,25||−1
+|-
+| <math>\Big|\tfrac{g(x)-f(x)}{x-1}\Big|</math> ||50 %||10 %||1 %||0,1 %|| ||0,1 %||1 %||10 %||50 %||100 %
 |}
+[[Datei:DifferentialExample01.svg|mini|hochkant=1.5|Graphische Darstellung der Approximation von <math>f(x) = x^2</math> an der Stelle <math>x = 1</math> durch <math>g(x) = 2x-1</math>. Letztere ist die Gleichung der [[Tangente]] von <math>f</math> an dieser Stelle.]]
+Die Strategie soll exemplarisch an der nicht-linearen Funktion <math>f(x) = x^2</math> erläutert werden.<ref>Serge Lang: ''A First Course in Calculus''. Fifth Edition. Springer, S. 59–61.</ref> Die Tabelle zeigt Werte für diese Funktion und für ihre Näherungsfunktion an der Stelle <math>x=1</math>, das ist <math>g(x)=2x-1</math>. Darunter enthält die Tabelle die Abweichung der Näherung von der ursprünglichen Funktion. (Die Werte sind negativ, weil in diesem Fall die Gerade immer ''unter'' der Kurve liegt&nbsp;– außer im Berührpunkt.) In der letzten Zeile steht der Betrag der ''relativen Abweichung'', das ist die Abweichung bezogen auf die Entfernung der Stelle <math>x</math> vom Berührpunkt bei <math>x=1</math>. Diese kann am Berührpunkt nicht berechnet werden. Aber die Werte in der Umgebung zeigen, wie sich die relative Abweichung einem Grenzwert nähert, hier dem Wert null. Diese Null bedeutet: Selbst wenn sich <math>x</math> ein wenig ([[infinitesimal]]) vom Berührpunkt entfernt, entsteht noch kein Unterschied zwischen <math>g(x)</math> und <math>f(x)</math>.
-Dass die Linearisierung nur ein ''lokales Phänomen'' ist, zeigt die größer werdende Abweichung der Funktionswerte bei entfernteren Eingabewerten. Die lineare Funktion <math>g(x) = 2x-1</math> ahmt das Verhalten von <math>f(x) = x^2</math> nahe der Eingabe 1 sehr gut nach (besser als jede andere lineare Funktion). Im Gegensatz zu <math>f(x) = x^2</math> hat man es bei <math>g(x) = 2x-1</math> jedoch einfach, die Veränderungsrate an der Stelle 1 zu interpretieren: Sie beträgt (wie überall) genau 2. Damit gilt <math>f'(1) = g'(1) = 2</math>.
+Die lineare Funktion <math>g(x)</math> ahmt das Verhalten von <math>f(x)</math> nahe der Stelle <math>x=1</math> gut nach (besser als jede andere lineare Funktion). Die relative Veränderung <math>\tfrac{\Delta g}{\Delta x}</math> hat überall den Wert <math>m=2</math>. Die nicht so einfach zu ermittelnde relative Veränderung <math>\tfrac{\Delta f}{\Delta x}</math> stimmt aber im Berührpunkt mit dem Wert <math>m=2</math> überein.
 Es lässt sich also festhalten:
-* ''Nicht-lineare Funktionen''. Soll die momentane Veränderungsrate einer nicht-linearen Funktion in einem bestimmten Punkt ermittelt werden, so muss diese (wenn möglich) dort linearisiert werden. Anschließend ist die Steigung der approximativen linearen Funktion die lokale Veränderungsrate der betrachteten nicht-linearen Funktion, und es gilt die gleiche Anschauung wie bei Ableitungen linearer Funktionen. Insbesondere gilt, dass die Veränderungsraten einer nicht-linearen Funktion nicht konstant sind, sondern sich von Punkt zu Punkt ändern werden.
+* ''Nicht-lineare Funktionen'': Soll die relative Veränderung einer nicht-linearen Funktion in einem bestimmten Punkt ermittelt werden, so wird sie (wenn möglich) dort linear genähert. Die Steigung der linearen Näherungsfunktion ist die an dieser Stelle vorliegende Steigung der betrachteten nicht-linearen Funktion, und es gilt dieselbe Anschauung wie bei Ableitungen linearer Funktionen. Dabei ist nur zu beachten, dass sich die relative Veränderung einer nicht-linearen Funktion von Punkt zu Punkt ändert.
+:Während im Beispiel oben (Fahrzeugbewegung) für die durchschnittliche Geschwindigkeit die Zeitspanne <math>\Delta t</math> angemessen willkürlich gewählt werden kann, ist die momentane Geschwindigkeit, wenn sie veränderlich ist, nur für ''kleine'' <math>\Delta t</math> angebbar. Wie klein <math>\Delta t</math> gewählt werden muss, hängt ab von der Anforderung an die Qualität der Näherung. In mathematischer Perfektion wird sie infinitesimal. Bei dieser wird für die relative Veränderung (wie schon oben angegeben) anstelle des Differenzenquotienten <math>\tfrac{\Delta y}{\Delta x}</math> der ''Differenzialquotient'' <math>\tfrac{\mathrm dy}{\mathrm dx}</math> geschrieben (in vereinfachter Schreibweise <math>y'</math> oder <math>f'</math>).
-Die ''genaue Bestimmung'' der richtigen Linearisierung einer nicht-linearen Funktion an einer bestimmten Stelle ist zentrale Aufgabe des Kalküls der Differentialrechnung. Es geht um die Frage, ob sich aus einer Kurve wie <math>f(x) = x^2</math> ''berechnen'' lässt, welche lineare Funktion sie an einem gegebenen Punkt am besten annähert. Im Idealfall ist diese Berechnung sogar so allgemein, dass sie auf alle Punkte des Definitionsbereichs angewendet werden kann. Im Falle von <math>f(x) = x^2</math> kann gezeigt werden, dass an der Stelle <math>x</math> die beste lineare Annäherung die Steigung <math>m = 2x</math> besitzen muss. Mit der Zusatzinformation, dass die lineare Funktion die Kurve im Punkt <math>(x, f(x))</math> schneiden muss, kann dann die vollständige Funktionsgleichung der approximierenden linearen Funktion ermittelt werden. In vielen Fällen reicht jedoch die Angabe der Steigung, also die Ableitung, aus.
+Die Gewinnung der linearen Näherung einer nicht-linearen Funktion an einer bestimmten Stelle ist zentrale Aufgabe des Kalküls der Differentialrechnung. Bei einer mathematisch angebbaren Funktion (im Beispiel war das <math>f(x) = x^2</math>) sollte sich die Ableitung ''ausrechnen'' lassen. Im Idealfall ist diese Berechnung sogar so allgemein, dass sie auf alle Punkte des Definitionsbereichs angewendet werden kann. Im Falle von <math>f(x) = x^2</math> besitzt jede Stelle <math>x</math> als beste lineare Näherung die Steigung <math>m = 2x</math>. Mit der Zusatzinformation, dass die lineare Funktion mit der Kurve im Punkt <math>(x_0, f(x_0))</math> übereinstimmen muss, kann dann die vollständige Funktionsgleichung der linearen Näherungsfunktion aufgestellt werden.
-Als Ansatzpunkt gilt die ''explizite Bestimmung'' des Grenzwerts des ''Differentialquotienten''
+Der Ansatz zur Bestimmung des Differentialquotienten liegt in der Berechnung des Grenzwerts (wie oben bei der momentanen Geschwindigkeit):
-:<math> \lim_{h \to 0} \frac{f(x_0 + h) - f(x_0)}{h} = f'(x_0),</math>
+: <math> \lim_{\Delta x\to 0} \frac{f(x_0 + \Delta x) - f(x_0)}{\Delta x} = f'(x_0)\quad</math> oder in anderer Schreibweise <math>\quad \lim_{h\to 0} \frac{f(x + h) - f(x)}h = f'(x).</math>
+Bei einigen elementaren Funktionen wie [[Potenzfunktion]], [[Exponentialfunktion]], [[Logarithmusfunktion]] oder [[Sinusfunktion]] ist jeweils der Grenzwertprozess durchgeführt worden. Dabei ergibt sich jeweils eine [[#Ableitungen elementarer Funktionen|Ableitungsfunktion]]. Darauf aufbauend sind [[#Ableitungsregeln|''Ableitungsregeln'']] für die elementaren und auch für weitere Funktionen wie [[Summe]]n, [[Produkt (Mathematik)|Produkte]] oder [[Komposition (Mathematik)|Verkettungen elementarer Funktionen]] aufgestellt worden.
-woraus ''für sehr kleine h'' durch einfache Umformung der Ausdruck
+Damit werden die Grenzübergänge nicht in jeder Anwendung neu vollzogen, sondern für die Rechenpraxis werden Ableitungsregeln angewendet. Die „Kunst“ der Differentialrechnung besteht „nur“ darin, kompliziertere Funktionen zu strukturieren und auf die Strukturelemente die jeweils zutreffende Ableitungsregel anzuwenden. Ein Beispiel folgt [[#Zusammengesetzte Funktion|weiter hinten]].
-:<math> f(x_0 + h) \approx f'(x_0)h + f(x_0)</math>
+=== {{Anker|Exemplarische Berechnung der Ableitung}} Berechnung von Grenzwerten ===
-hervorgeht. Die rechte Seite ist eine in <math>h</math> ''lineare Funktion'' mit ''Steigung'' <math>m = f'(x_0)</math> und ahmt <math>f</math> in der Nähe von <math>x_0</math> sehr gut nach. Bei einigen elementaren Funktionen wie [[Polynomfunktion]]en, [[Trigonometrische Funktion|trigonometrischen Funktionen]], [[Exponentialfunktion]]en oder [[Logarithmusfunktion]]en kann durch diesen Grenzwertprozess eine [[#Ableitungen elementarer Funktionen|Ableitungsfunktion bestimmt werden]]. Mit Hilfe sog. [[#Ableitungsregeln|''Ableitungsregeln'']] kann dieser Prozess dann auf viele weitere Funktionen verallgemeinert werden, wie [[Summe]]n, [[Produkt (Mathematik)|Produkte]] oder [[Komposition (Mathematik)|Verkettungen]] elementarer Funktionen wie der oben genannten.
+Jeder Differenzialquotient an einer vorgesehenen Stelle erscheint als unbestimmter Ausdruck vom Typ „<math>\tfrac00</math>“. Zu seiner Berechnung wird vom ''Differenzenquotient'' ausgegangen, und dessen Verhalten in der Umgebung der vorgesehenen Stelle wird untersucht, ob er die Tendenz hat, einen bestimmten Wert anzunehmen. Einige Grenzwerte, die für Ableitungsregeln benötigt werden, werden nachfolgend hergeleitet. Selbstverständlich dürfen dazu keine Regeln der Differenzialrechnung verwendet werden, da diese erst nach der Kenntnis der Grenzwerte aufgestellt werden können.
+;Ein einfacher Fall 1 <math>\quad f(x)=x^2</math>
-Exemplarisch: Ist <math>f(x_0 + h) \approx f'(x_0)h + f(x_0)</math> und <math>g(x_0 + h) \approx g'(x_0)h + g(x_0)</math>, so wird das Produkt <math>f(x_0+h)g(x_0+h)</math> durch das Produkt der linearen Funktionen angenähert: <math> f(x_0+h)g(x_0+h) \approx (f'(x_0)h+f(x_0))(g'(x_0)h+g(x_0))</math>, und durch Ausmultiplizieren:
+Ausgangspunkt ist der Differenzenquotient für die vorgesehene Funktion.
-:<math> f(x_0+h)g(x_0+h) \approx f(x_0)g(x_0) + (f(x_0)g'(x_0) + f'(x_0)g(x_0))h + f'(x_0)g'(x_0)h^2,</math>
+: <math>\frac{\Delta f}{\Delta x} =\frac{f(x+h) - f(x)}{(x+h)-x} = \frac{(x+h)^2 - x^2}{h}</math>
-womit die Steigung von <math>f \cdot g</math> bei <math>x = x_0</math> genau <math>f(x_0)g'(x_0) + f'(x_0)g(x_0)</math> entspricht.<ref>Serge Lang: ''A First Course in Calculus'', Fifth Edition, Springer, S. 83.</ref>
+Wird die [[binomische Formel]] <math>(x+h)^2 = x^2 + 2xh + h^2</math> eingesetzt, so kürzt sich ein Summand heraus.
-Ferner helfen die Ableitungsregeln dabei, die mitunter aufwändigen Grenzwertbestimmungen durch einen „direkten Rechenkalkül“ zu ersetzen und damit den Ableitungsprozess zu vereinfachen. Aus diesem Grund werden Differentialquotienten in der Lehre zum fundamentalen Verständnis studiert und zum Beweisen der Ableitungsregeln verwendet, jedoch in der Rechenpraxis nicht angewendet.
+: <math>\frac{\Delta f}{\Delta x} =\frac{x^2 + 2xh + h^2 - x^2}h =\frac{2xh + h^2}h</math>
+Für <math>h=0</math> ist dieser Bruch unbestimmt. Aber für <math>h\neq 0</math> (dann und nur dann!) können Zähler und Nenner durch <math>h</math> dividiert werden.
+: <math>\frac{\Delta f}{\Delta x} =2x + h</math>
+Für jedes <math>h\neq0</math> ist dieser Ausdruck bestimmt, auch wenn man dem Wert <math>h=0</math> nahe kommt. Er strebt im Grenzübergang nach
+: <math>\lim_{h \to 0}\frac{\Delta f}{\Delta x} =2x</math>
+Im Weiteren werden hier nur Grenzwerte berechnet, und ihre Einsetzung in Differenzenquotienten erfolgt weiter hinten im Abschnitt [[#Ableitungsberechnung|Ableitungsberechnung]].
-=== Exemplarische Berechnung der Ableitung ===
-Der Ansatz zur Ableitungsberechnung ist zunächst der ''Differenzenquotient''. Dies kann exemplarisch an den Funktionen <math>f(x) = x^2</math> und <math>g(x) = 10^x</math> vorgeführt werden.
+[[Datei:Grenzübergang sinxx.png|mini|Veranschaulichung zur Grenzwertableitung am [[Einheitskreis]]]]
-Im Falle von <math>x^2</math> hilft die [[binomische Formel]] <math>(x+h)^2 = x^2 + 2xh + h^2</math>. Damit ergibt sich
+;Fall 2 <math>\quad\frac{\sin h}h</math>
-:<math> f'(x) = \lim_{h \to 0} \frac{f(x+h) - f(x)}{h} = \lim_{h \to 0} \frac{(x+h)^2 - x^2}{h} = \lim_{h \to 0} \frac{x^2 + 2xh + h^2 - x^2}{h} = \lim_{h \to 0} (2x + h).</math>
+Für <math>h=0</math> ist dieser Bruch unbestimmt. Zur Berechnung bei <math>h>0</math> wird die Fläche eines [[Kreissektor]]s mit dem Bogen <math>h</math> verglichen mit den Flächen eines innen liegenden und eines außen liegenden Dreiecks gemäß der Zeichnung. Im gezeigten Quadranten gilt offensichtlich<ref>Fritz Wicke: ''Einführung in die Höhere Mathematik: unter besonderer Berücksichtigung der Bedürfnisse des Ingenieurs.'' Band 1. Springer, 1927, Seite 103.</ref>
-Im letzten Schritt wurde der Term <math>x^2</math> in der Differenz absorbiert, und ein Faktor <math>h</math> kürzte sich heraus. Strebt nun <math>h</math> gegen 0, bleibt im Grenzwert von der „Sekantensteigung“ <math>2x+h</math> nur noch <math>2x</math> übrig – dies ist die gesuchte exakte Tangentensteigung <math>f'(x) = 2x</math>.<ref>Serge Lang: ''A First Course in Calculus'', Fifth Edition, Springer, S. 62.</ref> Generell verringert sich bei Polynomfunktionen durch Ableiten der Grad um Eins.
+: <math>\frac12\sin h\cdot\cos h <\pi\cdot\frac h{2\pi} <\frac12\tan h\cdot1</math>
+Bei <math>\sin h\neq 0</math> kann diese Ungleichung mit <math>\frac2{\sin h}</math> multipliziert werden.
+: <math>\cos h <\frac h{\sin h} <\frac1{\cos h}</math>
+Für <math>h\to 0</math> streben sowohl der linke als auch der rechte Ausdruck gegen eins. Damit muss auch der dazwischen liegende Ausdruck gegen eins streben. Für seinen Kehrwert gilt das ebenfalls. Für <math>h>0</math> strebt er im Grenzübergang nach
+: <math>\lim_{h \to 0} \frac{\sin h}h =1</math>
+;Zwischenüberlegung <math>\quad \left(1+\frac1n\right)^n</math>
-Ein anderer, wichtiger Funktionstyp sind Exponentialfunktionen, wie zum Beispiel <math>g(x) = 10^x</math>. Für jeden Input <math>x</math> werden hier <math>x</math> Faktoren 10 miteinander multipliziert, zum Beispiel <math>g(1) = 10</math>, <math>g(2) = 100</math> oder <math>g(5) = 100\,000</math>. Dies kann auch auf nicht-ganze Anzahlen <math>x</math> verallgemeinert werden mittels „Aufspaltens“ von Faktoren in Wurzeln (z.&nbsp;B. <math>g(\tfrac12) = \sqrt{10}</math>). Exponentialfunktionen ist die charakteristische [[Funktionalgleichung|Gleichung]]
+Der Logarithmus dieses Ausdrucks, das ist <math>n\cdot\log(1+\frac1n)</math>, strebt für <math>n\to\infty</math> gegen „<math>\infty\cdot0</math>“. Dieser Logarithmus ist dort unbestimmt und damit auch der Ausdruck selber. Es ist aber bewiesen, dass
-:<math>g(x)g(y) = g(x+y)</math>
+: <math>\lim_{n\to\infty} \left(1+\frac1n\right)^n</math>
-gemein, die auf dem Prinzip beruht, dass das Produkt aus <math>x</math> Faktoren 10 und <math>y</math> Faktoren 10 aus <math>x+y</math> Faktoren 10 besteht. Insbesondere existiert eine direkte Verbindung zwischen beliebigen Differenzen <math>10^{x+h} - 10^x</math> und <math>10^h - 10^0 = 10^h - 1</math> durch
+einen bestimmten endlichen Wert annimmt, der als [[Eulersche Zahl]] <math>\mathrm e</math> bezeichnet wird. Dieses wird unter dem verlinkten Stichwort behandelt und hier als bekannt vorausgesetzt.
-:<math>10^{x+h} - 10^x = 10^x \cdot (10^h - 1).</math>
-Dies löst bei der Ableitungsfunktion den wichtigen (und für Exponentialfunktionen eigentümlichen) Effekt aus, dass diese bis auf einen Faktor der abgeleiteten Funktion entsprechen muss:<ref>Serge Lang: ''A First Course in Calculus'', Fifth Edition, Springer, S. 238.</ref>
-:<math>g'(x) = \lim_{h\to 0} \frac{g(x+h) - g(x)}{h} = \lim_{h\to 0} \frac{10^{x+h} - 10^x}{h} = 10^x \lim_{h \to 0} \frac{10^h-1}{h} = 10^x g'(0) = g'(0)g(x).</math>
-Der Faktor, bis auf den Funktion und Ableitung gleich sind, ist die Ableitung im Punkt 0. Es muss streng genommen verifiziert werden, dass dieser überhaupt existiert. Wenn ja, ist <math>g</math> bereits überall ableitbar.
+;Fall 3 <math>\quad \frac{a^h-1}h</math>
-Die Rechenregeln hierzu sind im Abschnitt [[#Ableitungsberechnung|Ableitungsberechnung]] im Detail ausgeführt.
+Für <math>h=0</math> ist dieser Bruch unbestimmt. Aber für <math>a>1</math> und <math>h>0</math> ist die [[Substitution (Mathematik)|Substitution]]<ref>Carl Spitz: ''Erster Cursus der Differential- und Integralrechnung.'' C. F. Winter’sche Verlagshandlung, 1871, Seite 15</ref>
+: <math>a^h-1=\frac1z</math>, <math>\quad a^h=1+\frac1z</math>
+zulässig. Aufgelöst nach <math>h</math> unter Verwendung des [[Natürlicher Logarithmus|natürlichen Logarithmus]] ergibt das
+: <math>h=\frac{\ln(1+\frac1z)}{\ln a}</math>
+: <math>\frac{a^h-1}h =\frac{\ln a}{z\,\ln(1+\frac1z)} =\frac{\ln a}{\ln\left(1+\frac1z\right)^z}</math>
+Für <math>h\to 0</math> streben <math>z\to\infty</math> und der Nenner gegen <math>\ln\mathrm e =1</math>. Für jedes <math>h>0</math> ist dieser Ausdruck bestimmt, auch wenn man dem Wert <math>h=0</math> nahe kommt. Er strebt im Grenzübergang nach
+: <math>\lim_{h \to 0} \frac{a^h-1}h =\ln a</math>
+Als Voraussetzung für diese Herleitung muss <math>z</math> positiv sein. Für <math>0<a<1</math> ist dieses erfüllt mit negativem <math>h</math>. Nähert man sich bei <math>0<a<1</math> dem Wert <math>h=0</math> von der Seite <math>h<0</math> her, so gilt derselbe Grenzübergang.
+;Fall 4 <math>\quad \frac{\log(1+h)}h</math>
+Für <math>h=0</math> ist dieser Bruch unbestimmt. Aber für <math>h>0</math> ist die Substitution <math>h=\frac1z</math> zulässig.<ref>Carl Spitz: ''Erster Cursus der Differential- und Integralrechnung.'' C. F. Winter’sche Verlagshandlung, 1871, Seite 16</ref>
+: <math>\frac{\log(1+h)}h =z\,\log\left(1+\frac1z\right) =\log\left(1+\frac1z\right)^z</math>
+Für <math>h\to 0</math> strebt <math>z\to\infty</math>. Für jedes <math>h>0</math> ist dieser Ausdruck bestimmt, auch wenn man dem Wert <math>h=0</math> nahe kommt. Er strebt im Grenzübergang nach
+: <math>\lim_{h \to 0} \frac{\log(1+h)}h =\log\mathrm e</math>
 === Einordnung der Anwendungsmöglichkeiten ===
@@ Zeile 126: / Zeile 155: @@
 Besonders im Umfeld sog. ''[[Differentialgleichung]]en'' ist die Differentialrechnung zentrales Werkzeug bei der Modellierung. Diese Gleichungen treten zum Beispiel auf, wenn es eine kausale Beziehung zwischen dem ''Bestand'' einer Größe und deren ''zeitlicher Veränderung'' gibt. Ein alltägliches Beispiel könnte sein:
-:''Je mehr Einwohner eine Stadt besitzt, desto mehr Leute wollen dort hinziehen.''
+: ''Je mehr Einwohner eine Stadt besitzt, desto mehr Leute wollen dort hinziehen.''
-Etwas konkreter ''könnte'' dies zum Beispiel heißen, dass bei <math>1 \, 000 \, 000</math> jetzigen Einwohnern durchschnittlich <math>1 \, 000 \, 000</math> Personen in den kommenden 10 Jahren zuziehen werden, bei <math>1 \, 000 \, 001</math> Einwohnern durchschnittlich <math>1 \, 000 \, 001</math> Personen in den kommenden 10 Jahren usw. – um nicht alle Zahlen einzeln ausführen zu müssen: Leben <math>n</math> Personen in der Stadt, so wollen so viele Menschen hinzuziehen, dass nach 10 Jahren weitere <math>n</math> hinzukommen würden. Besteht eine derartige Kausalität zwischen Bestand und zeitlicher Veränderung, so kann gefragt werden, ob aus diesen Daten eine Prognose für die Einwohnerzahl nach 10 Jahren abgeleitet werden kann, wenn die Stadt im Jahr 2020 zum Beispiel <math>1 \, 000 \, 000</math> Einwohner hatte. Es wäre dabei falsch zu glauben, dass dies <math>2 \, 000 \, 000</math> sein werden, da sich mit steigender Einwohnerzahl auch die Nachfrage nach Wohnraum wiederum zunehmend steigern wird. Der Knackpunkt zum Verständnis des Zusammenhangs ist demnach erneut dessen ''Lokalität'': Besitzt die Stadt <math>1 \, 000 \, 000</math> Einwohner, so wollen ''zu diesem Zeitpunkt'' <math>1 \, 000 \, 000</math> Menschen pro 10 Jahre hinzuziehen. Aber einen kurzen Augenblick später, wenn weitere Menschen hinzugezogen ''sind'', sieht die Lage wieder anders aus. Wird dieses Phänomen zeitlich beliebig engmaschig gedacht, ergibt sich ein „differentieller“ Zusammenhang. Allerdings eignet sich die kontinuierliche Herangehensweise in vielen Fällen auch bei diskreten Problemstellungen.<ref>T. Arens et al.: ''Mathematik'', Spektrum, S. 422.</ref>
+Etwas konkreter ''könnte'' dies zum Beispiel heißen, dass bei <math>1 \, 000 \, 000</math> jetzigen Einwohnern durchschnittlich <math>1 \, 000 \, 000</math> Personen in den kommenden 10 Jahren zuziehen werden, bei <math>1 \, 000 \, 001</math> Einwohnern durchschnittlich <math>1 \, 000 \, 001</math> Personen in den kommenden 10 Jahren usw. – um nicht alle Zahlen einzeln ausführen zu müssen: Leben <math>n</math> Personen in der Stadt, so wollen so viele Menschen hinzuziehen, dass nach 10 Jahren weitere <math>n</math> hinzukommen würden. Besteht eine derartige Kausalität zwischen Bestand und zeitlicher Veränderung, so kann gefragt werden, ob aus diesen Daten eine Prognose für die Einwohnerzahl nach 10 Jahren abgeleitet werden kann, wenn die Stadt im Jahr 2020 zum Beispiel <math>1 \, 000 \, 000</math> Einwohner hatte. Es wäre dabei falsch zu glauben, dass dies <math>2 \, 000 \, 000</math> sein werden, da sich mit steigender Einwohnerzahl auch die Nachfrage nach Wohnraum wiederum zunehmend steigern wird. Der Knackpunkt zum Verständnis des Zusammenhangs ist demnach erneut dessen ''Lokalität'': Besitzt die Stadt <math>1 \, 000 \, 000</math> Einwohner, so wollen ''zu diesem Zeitpunkt'' <math>1 \, 000 \, 000</math> Menschen pro 10 Jahre hinzuziehen. Aber einen kurzen Augenblick später, wenn weitere Menschen hinzugezogen ''sind'', sieht die Lage wieder anders aus. Wird dieses Phänomen zeitlich beliebig engmaschig gedacht, ergibt sich ein „differentieller“ Zusammenhang. Allerdings eignet sich die kontinuierliche Herangehensweise in vielen Fällen auch bei diskreten Problemstellungen.<ref>T. Arens et al.: ''Mathematik''. Spektrum, S. 422.</ref>
 Mit Hilfe der Differentialrechnung kann aus so einem kausalen Zusammenhang zwischen Bestand und Veränderung in vielen Fällen ein Modell hergeleitet werden, was den komplexen Zusammenhang ''auflöst'', und zwar in dem Sinne, dass zum Schluss eine Bestandsfunktion ''explizit angegeben werden kann''. Setzt man in diese Funktion dann zum Beispiel den Wert 10 Jahre ein, so ergibt sich eine Prognose für die Stadtbewohneranzahl im Jahr 2030. Im Falle oberen Modells wird eine Bestandsfunktion <math>B</math> gesucht mit <math>B(t) = B'(t)</math>, <math>t</math> in 10 Jahren, und <math>B(0) = 1 \, 000 \, 000</math>. Die Lösung ist dann
-:<math>B(t) = 1 \, 000 \, 000 \, e^{t}</math>
+: <math>B(t) = 1 \, 000 \, 000 \, e^{t}</math>
-mit der [[Natürliche Exponentialfunktion|natürlichen Exponentialfunktion]] (''natürlich'' bedeutet, dass der Proportionalitätsfaktor zwischen Bestand und Veränderung einfach gleich 1 ist) und für das Jahr 2030 lautet die geschätzte Prognose <math>B(1) \approx 2{,}718</math> Mio. Einwohner. Die Proportionalität zwischen Bestand und Veränderungsrate führt also zu [[Exponentielles Wachstum|exponentiellem Wachstum]] und ist klassisches Beispiel eines [[Positive Rückkopplung|selbstverstärkenden Effektes]]. Analoge Modelle funktionieren beim [[Populationsdynamik|Populationswachstum]] (''Je mehr Individuen, desto mehr Geburten'') oder der Verbreitung einer ansteckenden Krankheit (''Je mehr Erkrankte, desto mehr Ansteckungen''). In vielen Fällen stoßen diese Modelle jedoch an eine Grenze, wenn sich der Prozess aufgrund natürlicher Beschränkungen (wie eine Obergrenze der Gesamtbevölkerung) nicht beliebig fortsetzen lässt. In diesen Fällen sind ähnliche Modelle, wie das [[Logistische Funktion|logistische Wachstum]], geeigneter.<ref>T. Arens et al.: ''Mathematik'', Spektrum, S. 170.</ref>
+mit der [[Natürliche Exponentialfunktion|natürlichen Exponentialfunktion]] (''natürlich'' bedeutet, dass der Proportionalitätsfaktor zwischen Bestand und Veränderung einfach gleich 1 ist) und für das Jahr 2030 lautet die geschätzte Prognose <math>B(1) \approx 2{,}718</math> Mio. Einwohner. Die Proportionalität zwischen Bestand und Veränderungsrate führt also zu [[Exponentielles Wachstum|exponentiellem Wachstum]] und ist klassisches Beispiel eines [[Positive Rückkopplung|selbstverstärkenden Effektes]]. Analoge Modelle funktionieren beim [[Populationsdynamik|Populationswachstum]] (''Je mehr Individuen, desto mehr Geburten'') oder der Verbreitung einer ansteckenden Krankheit (''Je mehr Erkrankte, desto mehr Ansteckungen''). In vielen Fällen stoßen diese Modelle jedoch an eine Grenze, wenn sich der Prozess aufgrund natürlicher Beschränkungen (wie eine Obergrenze der Gesamtbevölkerung) nicht beliebig fortsetzen lässt. In diesen Fällen sind ähnliche Modelle, wie das [[Logistische Funktion|logistische Wachstum]], geeigneter.<ref>T. Arens et al.: ''Mathematik''. Spektrum, S. 170.</ref>
 ==== Numerische Verfahren ====
-Die Eigenschaft einer Funktion, differenzierbar zu sein, ist bei vielen Anwendungen von Vorteil, da dies der Funktion mehr Struktur verleiht. Ein Beispiel ist das Lösen von Gleichungen. Bei einigen mathematischen Anwendungen ist es notwendig, den Wert einer (oder mehrerer) Unbekannten <math>x</math> zu finden, die Nullstelle einer Funktion <math>f</math> ist. Es ist dann <math>f(x) = 0</math>. Je nach Beschaffenheit von <math>f</math> können Strategien entwickelt werden, eine Nullstelle zumindest näherungsweise anzugeben, was in der Praxis meist vollkommen ausreicht. Ist <math>f</math> in jedem Punkt differenzierbar mit Ableitung <math>f'</math>, so kann in vielen Fällen das [[Newton-Verfahren]] helfen. Bei diesem spielt die Differentialrechnung insofern eine direkte Rolle, als beim schrittweisen Vorgehen immer wieder eine Ableitung explizit berechnet werden muss.<ref>T. Arens et al.: ''Mathematik'', Spektrum, S. 292.</ref>
+Die Eigenschaft einer Funktion, differenzierbar zu sein, ist bei vielen Anwendungen von Vorteil, da dies der Funktion mehr Struktur verleiht. Ein Beispiel ist das Lösen von Gleichungen. Bei einigen mathematischen Anwendungen ist es notwendig, den Wert einer (oder mehrerer) Unbekannten <math>x</math> zu finden, die Nullstelle einer Funktion <math>f</math> ist. Es ist dann <math>f(x) = 0</math>. Je nach Beschaffenheit von <math>f</math> können Strategien entwickelt werden, eine Nullstelle zumindest näherungsweise anzugeben, was in der Praxis meist vollkommen ausreicht. Ist <math>f</math> in jedem Punkt differenzierbar mit Ableitung <math>f'</math>, so kann in vielen Fällen das [[Newton-Verfahren]] helfen. Bei diesem spielt die Differentialrechnung insofern eine direkte Rolle, als beim schrittweisen Vorgehen immer wieder eine Ableitung explizit berechnet werden muss.<ref>T. Arens et al.: ''Mathematik''. Spektrum, S. 292.</ref>
 Ein weiterer Vorteil der Differentialrechnung ist, dass in vielen Fällen komplizierte Funktionen, wie Wurzeln oder auch Sinus und Kosinus, anhand einfacher Rechenregeln wie Addition und Multiplikation gut angenähert werden können. Ist die Funktion an einem benachbarten Wert leicht auszuwerten, ist dies von großem Nutzen. Wird zum Beispiel nach einem Näherungswert für die Zahl <math>\sqrt{26}</math> gesucht, so liefert die Differentialrechnung für <math>f(x) = \sqrt{x}</math> die Linearisierung
-:<math> f(25 + h) \approx f(25) + hf'(25) = \sqrt{25} + \frac{h}{2\sqrt{25}} = 5 + \frac{h}{10},</math>
+: <math> f(25 + h) \approx f(25) + hf'(25) = \sqrt{25} + \frac{h}{2\sqrt{25}} = 5 + \frac{h}{10},</math>
-denn es gilt nachweislich <math>f'(x) = \tfrac{1}{2\sqrt{x}}</math>. Sowohl Funktion als auch erste Ableitung konnten an der Stelle <math>25</math> gut berechnet werden, weil es sich dabei um eine [[Quadratzahl]] handelt. Einsetzen von <math>h=1</math> ergibt <math>\sqrt{26} \approx 5 + \tfrac{1}{10} = 5{,}1</math>, was mit dem exakten Ergebnis <math>\sqrt{26} = 5{,}09901\dots</math> bis auf einen Fehler kleiner als <math>\tfrac{1}{1000}</math> übereinstimmt.<ref>Serge Lang: ''A First Course in Calculus'', Fifth Edition, Springer, S. 463–464.</ref> Unter Einbezug ''höherer'' Ableitungen kann die Genauigkeit solcher Approximationen zusätzlich gesteigert werden, da dann nicht nur linear, sondern ''quadratisch, kubisch'', usw. angenähert wird, siehe auch [[Taylor-Reihe]].
+denn es gilt nachweislich <math>f'(x) = \tfrac{1}{2\sqrt{x}}</math>. Sowohl Funktion als auch erste Ableitung konnten an der Stelle <math>25</math> gut berechnet werden, weil es sich dabei um eine [[Quadratzahl]] handelt. Einsetzen von <math>h=1</math> ergibt <math>\sqrt{26} \approx 5 + \tfrac{1}{10} = 5{,}1</math>, was mit dem exakten Ergebnis <math>\sqrt{26} = 5{,}09901\dots</math> bis auf einen Fehler kleiner als <math>\tfrac{1}{1000}</math> übereinstimmt.<ref>Serge Lang: ''A First Course in Calculus''. Fifth Edition. Springer, S. 463–464.</ref> Unter Einbezug ''höherer'' Ableitungen kann die Genauigkeit solcher Approximationen zusätzlich gesteigert werden, da dann nicht nur linear, sondern ''quadratisch, kubisch'' usw. angenähert wird, siehe auch [[Taylor-Reihe]].
 ==== Reine Mathematik ====
-[[Datei:Image Tangent-plane.svg|260px|right|mini|Tangentialebene, platziert an einem Punkt einer Kugeloberfläche]]
+[[Datei:Image Tangent-plane.svg|260px|mini|Tangentialebene, platziert an einem Punkt einer Kugeloberfläche]]
 Auch in der [[Reine Mathematik|reinen Mathematik]] spielt die Differentialrechnung als ein Kern der Analysis eine bedeutende Rolle. Ein Beispiel ist die [[Differentialgeometrie]], die sich mit Figuren beschäftigt, die eine differenzierbare Oberfläche (ohne Knicke usw.) haben. Zum Beispiel kann auf eine [[Kugeloberfläche]] in jedem Punkt tangential eine [[Ebene (Mathematik)|Ebene]] platziert werden. Anschaulich: Steht man an einem Erdpunkt, so hat man das Gefühl, die Erde sei flach, wenn man seinen Blick in der [[Tangentialebene]] schweifen lässt. In Wahrheit ist die Erde jedoch nur ''lokal flach'': Die angelegte Ebene dient der (durch ''Linearisierung'') vereinfachten Darstellung der komplizierteren Krümmung. ''Global'' hat sie als Kugeloberfläche eine völlig andere Gestalt.
 Die Methoden der Differentialgeometrie sind äußerst bedeutend für die [[theoretische Physik]]. So können Phänomene wie [[Krümmung]] oder [[Raumzeit]] über Methoden der Differentialrechnung beschrieben werden. Auch die Frage, was der kürzeste Abstand zwischen zwei Punkten auf einer gekrümmten Fläche (zum Beispiel der Erdoberfläche) ist, kann mit diesen Techniken formuliert und oft auch beantwortet werden.
-Auch bei der Erforschung von Zahlen als solchen, also im Rahmen der [[Zahlentheorie]], hat sich die Differentialrechnung in der [[Analytische Zahlentheorie|analytischen Zahlentheorie]] bewährt. Die grundlegende Idee der analytischen Zahlentheorie ist die Umwandlung von bestimmten Zahlen, über die man etwas lernen möchte, ''in Funktionen''. Haben diese Funktionen „gute Eigenschaften“ wie etwa Differenzierbarkeit, so hofft man, über die damit einhergehenden Strukturen Rückschlüsse auf die ursprünglichen Zahlen ziehen zu können. Es hat sich dabei häufig bewährt, zur Perfektionierung der Analysis von den reellen zu den komplexen Zahlen überzugehen (siehe auch [[komplexe Analysis]]), also die Funktionen über einem größeren Zahlenbereich zu studieren. Ein Beispiel ist die Analyse der [[Fibonacci-Zahl]]en <math>0, 1, 1, 2, 3, 5, 8, 13, 21,\dots</math>, deren Bildungsgesetz vorschreibt, dass eine neue Zahl stets aus der Summe der beiden vorangehenden entstehen soll. Ansatz der analytischen Zahlentheorie ist die Bildung der [[erzeugende Funktion|erzeugenden Funktion]]
+Auch bei der Erforschung von Zahlen als solchen, also im Rahmen der [[Zahlentheorie]], hat sich die Differentialrechnung in der [[Analytische Zahlentheorie|analytischen Zahlentheorie]] bewährt. Die grundlegende Idee der analytischen Zahlentheorie ist die Umwandlung von bestimmten Zahlen, über die man etwas lernen möchte, ''in Funktionen''. Haben diese Funktionen „gute Eigenschaften“ wie etwa Differenzierbarkeit, so hofft man, über die damit einhergehenden Strukturen Rückschlüsse auf die ursprünglichen Zahlen ziehen zu können. Es hat sich dabei häufig bewährt, zur Perfektionierung der Analysis von den reellen zu den komplexen Zahlen überzugehen (siehe auch [[komplexe Analysis]]), also die Funktionen über einem größeren Zahlenbereich zu studieren. Ein Beispiel ist die Analyse der [[Fibonacci-Zahl]]en <math>0, 1, 1, 2, 3, 5, 8, 13, 21,\dots</math>, deren Bildungsgesetz vorschreibt, dass eine neue Zahl stets aus der Summe der beiden vorangehenden entstehen soll. Ansatz der analytischen Zahlentheorie ist die Bildung der [[Erzeugende Funktion|erzeugenden Funktion]]
-:<math> F(x) = 0 + 1x + 1x^2 + 2x^3 + 3x^4 + 5x^5 + 8x^6 + 13x^7 + \dotsb,</math>
+: <math> F(x) = 0 + 1x + 1x^2 + 2x^3 + 3x^4 + 5x^5 + 8x^6 + 13x^7 + \dotsb,</math>
 also eines „unendlich langen“ [[Polynom]]s (einer sog. [[Potenzreihe]]), dessen [[Koeffizient]]en genau die Fibonacci-Zahlen sind. Für hinreichend kleine Zahlen <math>x</math> ist dieser Ausdruck sinnvoll, weil die Potenzen <math>x^n</math> dann viel schneller gegen 0 gehen als die Fibonacci-Zahlen gegen Unendlich, womit sich langfristig alles bei einem endlichen Wert einpendelt. Es ist für diese Werte möglich, die Funktion <math>F</math> explizit zu berechnen durch
-:<math> F(x) = \frac{x}{1-x-x^2}.</math>
+: <math> F(x) = \frac{x}{1-x-x^2}.</math>
 Das Nennerpolynom <math>1-x-x^2</math> „spiegelt“ dabei genau das Verhalten <math>f_{n} - f_{n-1} - f_{n-2} = 0</math> der Fibonacci-Zahlen <math>f_n</math> „wider“ – es ergibt sich in der Tat <math>F(x) - xF(x) - x^2F(x) = x</math> durch termweises Verrechnen. Mit Hilfe der Differentialrechnung lässt sich andererseits zeigen, dass die Funktion <math>F</math> ausreicht, um die Fibonacci-Zahlen (ihre Koeffizienten) eindeutig zu charakterisieren. Da es sich aber um eine schlichte [[rationale Funktion]] handelt, lässt sich dadurch die für jede Fibonacci-Zahl <math>f_n</math> gültige ''exakte Formel''
-:<math> f_n = \frac{\Phi^n - \left(-\frac{1}{\Phi}\right)^n }{\sqrt{5}}</math>
+: <math> f_n = \frac{\Phi^n - \left(-\frac{1}{\Phi}\right)^n }{\sqrt{5}}</math>
 mit dem [[Goldener Schnitt|goldenen Schnitt]] <math>\Phi = \tfrac{1+\sqrt{5}}{2}</math> herleiten, wenn <math>f_0 = 0, f_1 = 1</math> und <math>f_{n} = f_{n-1} + f_{n-2}</math> gesetzt wird. Die exakte Formel vermag eine Fibonacci-Zahl zu berechnen, ohne die vorherigen zu kennen. Der Schluss wird über einen sog. [[Koeffizientenvergleich]] gezogen und nutzt aus, dass das Polynom <math>x^2 + x - 1</math> als Nullstellen <math>-\Phi</math> und <math>\tfrac{1}{\Phi}</math> besitzt.<ref>[[John Stillwell]]: ''Mathematics and Its History'', Third Edition, Springer, S. 192–194.</ref>
 === Der höherdimensionale Fall ===
 Die Differentialrechnung kann auf den Fall „höherdimensionaler Funktionen“ verallgemeinert werden. Damit ist gemeint, dass sowohl Eingabe- als auch Ausgabewerte der Funktion nicht bloß Teil des eindimensionalen reellen [[Zahlenstrahl]]s, sondern auch Punkte eines höherdimensionalen Raums sind. Ein Beispiel ist die Vorschrift
-:<math> \left( {x \atop y} \right) \mapsto \left( {x^2 + y^2 \atop x^2 - 2y} \right)</math>
+: <math> \left( {x \atop y} \right) \mapsto \left( {x^2 + y^2 \atop x^2 - 2y} \right)</math>
 zwischen jeweils zweidimensionalen Räumen. Das Funktionsverständnis als Tabelle bleibt hier identisch, nur dass diese mit „vier Spalten“ <math>(x,y,x^2+y^2,x^2-2y)</math> „deutlich mehr“ Einträge besitzt. Auch mehrdimensionale Abbildungen können in manchen Fällen an einem Punkt linearisiert werden. Allerdings ist dabei nun angemessen zu beachten, dass es sowohl mehrere Eingabedimensionen als auch mehrere Ausgabedimensionen geben kann: Der korrekte Verallgemeinerungsweg liegt darin, dass die Linearisierung in ''jeder Komponente'' der Ausgabe ''jede Variable'' auf ''lineare Weise'' berücksichtigt. Das zieht für obere Beispielfunktion eine Approximation der Form
-:<math>
+: <math>
 f(x,y) := \left( {x^2 + y^2 \atop x^2 - 2y} \right) \approx \left( {m_1 (x-x_0) + m_2 (y-y_0) + c_1 \atop m_3(x-x_0) + m_4(y-y_0) + c_2} \right)
 </math>
 nach sich. Diese ahmt dann die gesamte Funktion in der Nähe der Eingabe <math>(x_0,y_0)</math> sehr gut nach.<ref>Serge Lang: ''Calculus of Several Variables'', Third Edition, Springer, S. 439.</ref> In ''jeder'' Komponente wird demnach für jede Variable eine „Steigung“ angegeben – diese wird dann das lokale Verhalten der Komponentenfunktion bei kleiner Änderung in dieser Variablen messen. Diese Steigung wird auch als ''[[partielle Ableitung]]'' bezeichnet.<ref>Serge Lang: ''Calculus of Several Variables'', Third Edition, Springer, S. 434.</ref> Die korrekten konstanten Abschnitte <math>c_1, c_2</math> berechnen sich exemplarisch durch <math>c_1 = x_0^2 + y_0^2</math> bzw. <math>c_2 = x_0^2 - 2y_0</math>. Wie auch im eindimensionalen Fall hängen die Steigungen (hier <math>m_1, m_2, m_3, m_4</math>) stark von der Wahl des Punktes (hier <math>(x_0, y_0)</math>) ab, an dem abgeleitet wird. Die Ableitung ist demnach keine Zahl mehr, sondern ein Verband aus mehreren Zahlen – in diesem Beispiel sind es vier – und diese Zahlen sind im Regelfall bei allen Eingaben unterschiedlich. Es wird allgemein für die Ableitung auch
-:<math>f'(x_0,y_0) = \begin{pmatrix} m_1 & m_2 \\ m_3 & m_4\end{pmatrix}</math>
+: <math>f'(x_0,y_0) = \begin{pmatrix} m_1 & m_2 \\ m_3 & m_4\end{pmatrix}</math>
-geschrieben, womit alle „Steigungen“ in einer sog. [[Matrix (Mathematik)|Matrix]] versammelt sind. Man bezeichnet diesen Term auch als ''[[Jacobi-Matrix]]'' oder ''Funktionalmatrix''.<ref>Herbert Amann, Joachim Escher: ''Analysis 2'', Zweite Auflage, Birkhäuser, S. 161.</ref>
+geschrieben, womit alle „Steigungen“ in einer sog. [[Matrix (Mathematik)|Matrix]] versammelt sind. Man bezeichnet diesen Term auch als ''[[Jacobi-Matrix]]'' oder ''Funktionalmatrix''.<ref>Herbert Amann, Joachim Escher: ''Analysis 2''. 2. Auflage. Birkhäuser, S. 161.</ref>
 '''Beispiel:''' Wird oben <math>(x_0,y_0) = (1,0)</math> gesetzt, so kann man zeigen, dass folgende lineare Approximation bei sehr kleinen Änderungen von <math>x</math> ''und'' <math>y</math> sehr gut ist:
-:<math> f(x,y) = \left( {x^2 + y^2 \atop x^2 - 2y} \right) \approx \left( {2x - 1 \atop 2x - 2y - 1} \right).</math>
+: <math> f(x,y) = \left( {x^2 + y^2 \atop x^2 - 2y} \right) \approx \left( {2x - 1 \atop 2x - 2y - 1} \right).</math>
 Zum Beispiel gilt
-:<math> f(1{,}003; 0{,}002) = \left( {1{,}006013 \atop 1{,}002009} \right)</math>
+: <math> f(1{,}003; 0{,}002) = \left( {1{,}006013 \atop 1{,}002009} \right)</math>
 und
-:<math> \left( {2 \cdot 1{,}003 - 1 \atop 2 \cdot 1{,}003 - 2\cdot 0{,}002 - 1} \right) = \left( {1{,}006 \atop 1{,}002} \right).</math>
+: <math> \left( {2 \cdot 1{,}003 - 1 \atop 2 \cdot 1{,}003 - 2\cdot 0{,}002 - 1} \right) = \left( {1{,}006 \atop 1{,}002} \right).</math>
 Hat man im ganz allgemeinen Fall <math>n</math> Variablen und <math>m</math> Ausgabekomponenten, so gibt es kombinatorisch gesehen insgesamt <math>n\cdot m</math> „Steigungen“, also partielle Ableitungen. Im klassischen Fall <math>n = m = 1</math> gibt es wegen <math>1 \cdot 1 = 1</math> eine Steigung <math>f'(x_0)</math> und im oberen Beispiel <math>n = m = 2</math> sind es <math>2 \cdot 2 = 4</math> „Steigungen“.<ref>Serge Lang: ''Calculus of Several Variables'', Third Edition, Springer, S. 435–436.</ref>
@@ Zeile 178: / Zeile 208: @@
 [[Datei:Gottfried Wilhelm von Leibniz.jpg|mini|Gottfried Wilhelm Leibniz]]
 [[Datei:Sir Isaac Newton by Sir Godfrey Kneller, Bt.jpg|mini|Isaac Newton]]
-{{Hauptartikel|Infinitesimalrechnung#Geschichte der Infinitesimalrechnung}}
+{{Hauptartikel|Infinitesimalrechnung#Geschichte}}
-Die Aufgabenstellung der Differentialrechnung bildete sich als ''[[#Einführung|Tangentenproblem]]'' ab dem 17.&nbsp;Jahrhundert heraus.<ref>[[Hans Wußing]], [[Heinz-Wilhelm Alten]], Heiko Wesemüller-Kock, [[Eberhard Zeidler (Mathematiker)|Eberhard Zeidler]]: ''6000 Jahre Mathematik: Von den Anfängen bis Newton und Leibniz.'' Springer, 2008, S.&nbsp;427/428.</ref> Ein naheliegender Lösungsansatz bestand darin, die Tangente an eine Kurve durch ihre [[Sekante]] über einem endlichen (''endlich'' heißt hier: größer als null), aber beliebig kleinen [[Intervall (Mathematik)|Intervall]] zu approximieren. Dabei war die technische Schwierigkeit zu überwinden, mit einer solchen ''infinitesimal'' kleinen Intervallbreite zu rechnen. Die ersten Anfänge der Differentialrechnung gehen auf [[Pierre de Fermat]] zurück. Er entwickelte um 1628 eine Methode, Extremstellen algebraischer Terme zu bestimmen und Tangenten an Kegelschnitte und andere Kurven zu berechnen. Seine „Methode“ war rein algebraisch. Fermat betrachtete keine Grenzübergänge und schon gar keine Ableitungen. Gleichwohl lässt sich seine „Methode“ mit modernen Mitteln der Analysis interpretieren und rechtfertigen, und sie hat Mathematiker wie Newton und Leibniz nachweislich inspiriert. Einige Jahre später wählte [[René Descartes]] einen anderen algebraischen Zugang, indem er an eine Kurve einen Kreis anlegte. Dieser schneidet die Kurve in zwei nahe beieinanderliegenden Punkten; es sei denn, er berührt die Kurve. Dieser Ansatz ermöglichte es ihm, für spezielle Kurven die Steigung der Tangente zu bestimmen.<ref>[[Thomas Sonar]]: ''3000 Jahre Analysis'', Springer, S. 247–248.</ref>
+Die Aufgabenstellung der Differentialrechnung bildete sich als ''Tangentenproblem'' ab dem 17.&nbsp;Jahrhundert heraus. Hierunter versteht man die Aufgabe, bei einer beliebigen Kurve in einem beliebigen Punkt die Tangente zu bestimmen.<ref>[[Hans Wußing]], [[Heinz-Wilhelm Alten]], Heiko Wesemüller-Kock, [[Eberhard Zeidler (Mathematiker)|Eberhard Zeidler]]: ''6000 Jahre Mathematik: Von den Anfängen bis Newton und Leibniz.'' Springer, 2008, S.&nbsp;429.</ref> Ein naheliegender Lösungsansatz bestand darin, die Tangente an eine Kurve durch ihre [[Sekante]] über einem endlichen (''endlich'' heißt hier: größer als null), aber beliebig kleinen [[Intervall (Mathematik)|Intervall]] zu approximieren. Dabei war die technische Schwierigkeit zu überwinden, mit einer solchen ''infinitesimal'' kleinen Intervallbreite zu rechnen. Die ersten Anfänge der Differentialrechnung gehen auf [[Pierre de Fermat]] zurück. Er entwickelte um 1628 eine Methode, Extremstellen algebraischer Terme zu bestimmen und Tangenten an Kegelschnitte und andere Kurven zu berechnen. Seine „Methode“ war rein algebraisch. Fermat betrachtete keine Grenzübergänge und schon gar keine Ableitungen. Gleichwohl lässt sich seine „Methode“ mit modernen Mitteln der Analysis interpretieren und rechtfertigen, und sie hat Mathematiker wie Newton und Leibniz nachweislich inspiriert. Einige Jahre später wählte [[René Descartes]] einen anderen algebraischen Zugang, indem er an eine Kurve einen Kreis anlegte. Dieser schneidet die Kurve in zwei nahe beieinanderliegenden Punkten; es sei denn, er berührt die Kurve. Dieser Ansatz ermöglichte es ihm, für spezielle Kurven die Steigung der Tangente zu bestimmen.<ref>[[Thomas Sonar]]: ''3000 Jahre Analysis'', Springer, S. 247–248.</ref>
-Ende des 17.&nbsp;Jahrhunderts gelang es [[Isaac Newton]] und [[Gottfried Wilhelm Leibniz]] mit unterschiedlichen Ansätzen unabhängig voneinander, widerspruchsfrei funktionierende Kalküle zu entwickeln. Während Newton das Problem physikalisch über das Momentangeschwindigkeitsproblem anging,<ref>Thomas Sonar: ''3000 Jahre Analysis'', Springer, S. 378.</ref> löste es Leibniz geometrisch über das Tangentenproblem. Ihre Arbeiten erlaubten das Abstrahieren von rein geometrischer Vorstellung und werden deshalb als Beginn der Analysis betrachtet. Bekannt wurden sie vor allem durch das Buch ''Analyse des Infiniment Petits pour l’Intelligence des Lignes Courbes''<ref>{{Internetquelle |autor=[[Guillaume François Antoine, Marquis de L’Hospital|Marquis de L’Hospital]] |url=https://archive.org/download/infinimentpetits1716lhos00uoft/infinimentpetits1716lhos00uoft.pdf |titel=Analyse des Infiniment Petits pour l’Intelligence des Lignes Courbes |format=PDF; 9,5&nbsp;MB |werk=archive.org |abruf=2021-04-10 |kommentar=Siehe Preface, S. ix–x: „L’Étendue de ce calcul est immense: …“}}</ref> des Adligen [[Guillaume François Antoine, Marquis de L’Hospital]], der bei [[Johann I Bernoulli]] Privatunterricht nahm und dessen Forschung zur Analysis so publizierte. Darin heißt es:
+Ende des 17.&nbsp;Jahrhunderts gelang es [[Isaac Newton]] und [[Gottfried Wilhelm Leibniz]] mit unterschiedlichen Ansätzen unabhängig voneinander, widerspruchsfrei funktionierende Kalküle zu entwickeln. Während Newton das Problem physikalisch über das Momentangeschwindigkeitsproblem anging,<ref>Thomas Sonar: ''3000 Jahre Analysis'', Springer, S. 378.</ref> löste es Leibniz geometrisch über das Tangentenproblem. Ihre Arbeiten erlaubten das Abstrahieren von rein geometrischer Vorstellung und werden deshalb als Beginn der Analysis betrachtet. Bekannt wurden sie vor allem durch das Buch ''Analyse des Infiniment Petits pour l’Intelligence des Lignes Courbes''<ref>[[Guillaume François Antoine, Marquis de L’Hospital|Marquis de L’Hospital]]: ''Analyse des Infiniment Petits pour l’Intelligence des Lignes Courbes''. Preface, S. ix–x: « L’Étendue de ce calcul est immense:&nbsp;… »; {{archive.org |infinimentpetits1716lhos00uoft |Blatt=}}.</ref> des Adligen [[Guillaume François Antoine, Marquis de L’Hospital]], der bei [[Johann&nbsp;I Bernoulli]] Privatunterricht nahm und dessen Forschung zur Analysis so publizierte. Darin heißt es:
 {{Zitat
  |Text=Die Reichweite dieses Kalküls ist unermesslich: Er lässt sich sowohl auf mechanische als auch geometrische Kurven anwenden; Wurzelzeichen bereiten ihm keine Schwierigkeiten und sind oftmals sogar angenehm im Umgang; er lässt sich auf so viele Variablen erweitern, wie man sich nur wünschen kann; der Vergleich unendlich kleiner Größen aller Art gelingt mühelos. Und er erlaubt eine unendliche Zahl an überraschenden Entdeckungen über gekrümmte wie geradlinige Tangenten, Fragen ''De maximis & minimis'', Wendepunkte und Spitzen von Kurven, Evoluten, Spiegelungs- und Brechungskaustiken, &c. wie wir in diesem Buch sehen werden.
- |ref=<!-- müsste es nicht "zitiert nach ..." heißen? --><ref>[[Ernst Hairer]], [[Gerhard Wanner (Mathematiker)|Gerhard Wanner]]: ''Analysis in historischer Entwicklung'', Springer, S. 87.</ref>}}
+ |ref=<!-- müsste es nicht "zitiert nach ..." heißen? --><ref>[[Ernst Hairer]], [[Gerhard Wanner (Mathematiker)|Gerhard Wanner]]: ''Analysis in historischer Entwicklung''. Springer, S. 87.</ref>}}
 Die heute bekannten Ableitungsregeln basieren vor allem auf den Werken von [[Leonhard Euler]], der den Funktionsbegriff prägte.
@@ Zeile 202: / Zeile 232: @@
 Ausgangspunkt für die Definition der Ableitung ist die Näherung der Tangentensteigung durch eine Sekantensteigung (manchmal auch Sehnensteigung genannt). Gesucht sei die Steigung einer Funktion <math>f</math> in einem Punkt <math>(x_0,f(x_0))</math>. Man berechnet zunächst die Steigung der [[Sekante]] an <math>f</math> über einem endlichen [[Intervall (Mathematik)|Intervall]] <math>[x_0,x_0+\Delta x]</math> der Länge <math>\Delta x</math>:
-:Sekantensteigung = <math>\frac{f(x_0+\Delta x)-f(x_0)}{(x_0+\Delta x)-x_0}=\frac{f(x_0+\Delta x)-f(x_0)}{\Delta x}</math>.
+: Sekantensteigung = <math>\frac{f(x_0+\Delta x)-f(x_0)}{(x_0+\Delta x)-x_0}=\frac{f(x_0+\Delta x)-f(x_0)}{\Delta x}</math>.
 Die Sekantensteigung ist also der Quotient zweier Differenzen; sie wird deshalb auch ''[[Differenzenquotient]]'' genannt. Mit der Kurznotation <math>\Delta y</math> für <math>f(x_0+\Delta x)-f(x_0)</math> kann man die Sekantensteigung abgekürzt als <math>\tfrac{\Delta y}{\Delta x}</math> schreiben. Der Ausdruck <math>\Delta x</math> verdeutlicht also die beliebig klein werdende [[Subtraktion|Differenz]] zwischen der Stelle, an der abgeleitet werden soll, und einem benachbarten Punkt. In der Literatur wird jedoch, wie auch im Folgenden, in vielen Fällen aus Gründen der Einfachheit das Symbol <math>h</math> statt <math>\Delta x</math> verwendet.
-[[Datei:Differencial quotient of a function.svg|800px|Differentialquotient einer Funktion]]
+[[Datei:Differencial quotient of a function.svg|600x600px|Differentialquotient einer Funktion]]
 Um eine Tangentensteigung zu berechnen, muss man die beiden Punkte, durch die die Sekante gezogen wird, immer weiter aneinander rücken. Dabei gehen sowohl <math>\Delta x</math> als auch <math>\Delta y</math> gegen Null. Der Quotient <math>\tfrac{\Delta y}{\Delta x}</math> bleibt aber in vielen Fällen endlich. Auf diesem [[Grenzwert (Funktion)|Grenzübergang]] beruht die folgende Definition.
@@ Zeile 218: / Zeile 248: @@
 Eine Funktion <math>f \colon U \to \mathbb{R}</math>, die ein [[offenes Intervall]] <math>U</math> in die reellen Zahlen abbildet, heißt [[Differenzierbarkeit|differenzierbar]] an der Stelle <math>x_0 \in U</math>, falls der [[Grenzwert (Funktion)|Grenzwert]]
-:<math>\lim_{x\to x_0} \frac{f(x) - f(x_0)}{x - x_0} = \lim_{h\to 0} \frac{f(x_0+h) - f(x_0)}{h}</math> &nbsp;&nbsp;(mit <math>h = x - x_0</math>)
+: <math>\lim_{x\to x_0} \frac{f(x) - f(x_0)}{x - x_0} = \lim_{h\to 0} \frac{f(x_0+h) - f(x_0)}{h}</math> &nbsp;&nbsp;(mit <math>h = x - x_0</math>)
 existiert. Dieser Grenzwert heißt Differentialquotient oder Ableitung von <math>f</math> nach <math>x</math> an der Stelle <math>x_0</math> und wird als
-:<math>f'(x_0)</math> &nbsp;&nbsp;oder &nbsp;&nbsp;<math>\left.\frac{\mathrm df(x)}{\mathrm dx}\right|_{x=x_0}</math> &nbsp;&nbsp;oder &nbsp;&nbsp;<math>\frac{\mathrm df}{\mathrm dx}(x_0)</math> &nbsp;&nbsp;oder &nbsp;&nbsp;<math>\frac{\mathrm d}{\mathrm dx}f(x_0)</math>
+: <math>f'(x_0)</math> &nbsp;&nbsp;oder &nbsp;&nbsp;<math>\left.\frac{\mathrm df(x)}{\mathrm dx}\right|_{x=x_0}</math> &nbsp;&nbsp;oder &nbsp;&nbsp;<math>\frac{\mathrm df}{\mathrm dx}(x_0)</math> &nbsp;&nbsp;oder &nbsp;&nbsp;<math>\frac{\mathrm d}{\mathrm dx}f(x_0)</math>
-notiert.<ref>T. Arens et al.: ''Mathematik'', Spektrum, S. 284.</ref><ref>[[Ilja Nikolajewitsch Bronstein|Bronstein]] et al.: ''[[Taschenbuch der Mathematik]]'', Verlag Harri Deutsch, S. 394.</ref> Gesprochen werden diese Notationen als „f Strich von x null“, „d f von x nach d x an der Stelle x gleich x null“, „d f nach d x von x null“ respektive „d nach d x von f von x null“. Im später folgenden Abschnitt [[#Notationen|Notationen]] werden noch weitere Varianten angeführt, um die Ableitung einer Funktion zu notieren.
+notiert.<ref>T. Arens et al.: ''Mathematik''. Spektrum, S. 284.</ref><ref>[[Ilja Nikolajewitsch Bronstein|Bronstein]] et al.: ''[[Taschenbuch der Mathematik]]'', Verlag Harri Deutsch, S. 394.</ref> Gesprochen werden diese Notationen als „f Strich von x null“, „d f von x nach d x an der Stelle x gleich x null“, „d f nach d x von x null“ respektive „d nach d x von f von x null“. Im später folgenden Abschnitt [[#Notationen|Notationen]] werden noch weitere Varianten angeführt, um die Ableitung einer Funktion zu notieren.
 Im Laufe der Zeit wurde folgende gleichwertige Definition gefunden, die sich im allgemeineren Kontext komplexer oder mehrdimensionaler Funktionen als leistungsfähiger erwiesen hat: Eine Funktion heißt an einer Stelle <math>x_0</math> differenzierbar, falls eine Konstante <math>L</math> existiert, sodass
-:<math>\lim_{h \to 0} \frac{f(x_{0}+h)-f(x_0)-Lh}{h}=0.</math>
+: <math>\lim_{h \to 0} \frac{f(x_{0}+h)-f(x_0)-Lh}{h}=0.</math>
-Der Zuwachs der Funktion <math>f</math>, wenn man sich von <math>x_0</math> nur wenig entfernt, etwa um den Wert <math>h</math>, lässt sich also durch <math>Lh</math> sehr gut approximieren. Man nennt deshalb die ''lineare'' Funktion <math>g\colon x\mapsto f(x_0)+L(x-x_0)</math>, für die also <math>g(x_0+h)=f(x_0)+Lh</math> für alle <math>h</math> gilt, auch die ''Linearisierung'' von <math>f</math> an der Stelle <math>x_0</math>.<ref name="AE318">Herbert Amann, Joachim Escher: ''Analysis 1'', Dritte Auflage, Birkhäuser, S. 318.</ref>
+Der Zuwachs der Funktion <math>f</math>, wenn man sich von <math>x_0</math> nur wenig entfernt, etwa um den Wert <math>h</math>, lässt sich also durch <math>Lh</math> sehr gut approximieren. Man nennt deshalb die ''lineare'' Funktion <math>g\colon x\mapsto f(x_0)+L(x-x_0)</math>, für die also <math>g(x_0+h)=f(x_0)+Lh</math> für alle <math>h</math> gilt, auch die ''Linearisierung'' von <math>f</math> an der Stelle <math>x_0</math>.<ref name="AE318">Herbert Amann, Joachim Escher: ''Analysis 1''. 3. Auflage. Birkhäuser, S. 318.</ref>
 Eine weitere Definition ist: Es gibt eine an der Stelle <math>x_0</math> [[stetige Funktion]] <math>r</math> mit <math>r(x_0)=0</math> und eine Konstante <math>L</math>, sodass für alle <math>x</math> gilt
-:<math>f(x) = f(x_0) + L(x - x_0) + r(x)(x - x_0)</math>.
+: <math>f(x) = f(x_0) + L(x - x_0) + r(x)(x - x_0)</math>.
 Die Bedingungen <math>r(x_0) = 0</math> und dass <math>r</math> an der Stelle <math>x_0</math> stetig ist, bedeuten gerade, dass das „Restglied“ <math>r(x)</math> für <math>x</math> gegen <math>x_0</math> gegen <math>0</math> konvergiert.<ref name="AE318" />
-In beiden Fällen ist die Konstante <math>L</math> eindeutig bestimmt und es gilt <math>f'(x_0) = L</math>. Der Vorteil dieser Formulierung ist, dass Beweise einfacher zu führen sind, da kein Quotient betrachtet werden muss. Diese Darstellung der besten linearen Approximation wurde schon von [[Karl Weierstraß]], [[Henri Cartan]] und [[Jean Dieudonné]] konsequent angewandt.
+In beiden Fällen ist die Konstante <math>L</math> eindeutig bestimmt und es gilt <math>f'(x_0) = L</math>. Der Vorteil dieser Formulierung ist, dass Beweise einfacher zu führen sind, da kein Quotient betrachtet werden muss. Diese Darstellung der besten linearen Approximation wurde schon von [[Karl Weierstraß]], [[Henri Cartan]] und [[Jean Dieudonné]] konsequent angewandt und wird auch [[Weierstraßsche Zerlegungsformel]] genannt.
 Bezeichnet man eine Funktion als differenzierbar, ohne sich auf eine bestimmte Stelle zu beziehen, dann bedeutet dies die Differenzierbarkeit an jeder Stelle des Definitionsbereiches, also die Existenz einer eindeutigen Tangente für jeden Punkt des Graphen.
-Jede differenzierbare Funktion ist [[Stetige Funktion|stetig]], die Umkehrung gilt jedoch nicht.<ref name="AE318" /> Noch Anfang des 19.&nbsp;Jahrhunderts war man überzeugt, dass eine stetige Funktion höchstens an wenigen Stellen nicht differenzierbar sein könne (wie die Betragsfunktion). [[Bernard Bolzano]] konstruierte dann als erster Mathematiker tatsächlich eine Funktion, welche später [[Bolzanofunktion]] genannt wurde, die überall stetig, aber nirgends differenzierbar ist, was in der Fachwelt allerdings nicht bekannt wurde. Karl Weierstraß fand dann in den 1860er Jahren ebenfalls eine derartige Funktion (siehe [[Weierstraß-Funktion]]), was diesmal unter Mathematikern Wellen schlug. Ein bekanntes mehrdimensionales Beispiel für eine stetige, nicht differenzierbare Funktion ist die von [[Helge von Koch]] 1904 vorgestellte [[Koch-Kurve]].<ref>[[Jeremy Gray]]: ''The Real and the Complex: A History of Analysis in the 19th Century'', Springer, S. 271–272.</ref>
+Jede differenzierbare Funktion ist [[Stetige Funktion|stetig]], die Umkehrung gilt jedoch nicht.<ref name="AE318" /> Noch Anfang des 19.&nbsp;Jahrhunderts war man überzeugt, dass eine stetige Funktion höchstens an wenigen Stellen nicht differenzierbar sein könne (wie die Betragsfunktion). [[Bernard Bolzano]] konstruierte dann als erster Mathematiker tatsächlich eine Funktion, die später [[Bolzanofunktion]] genannt wurde, die überall stetig, aber nirgends differenzierbar ist, was in der Fachwelt allerdings nicht bekannt wurde. Karl Weierstraß fand dann in den 1860er Jahren ebenfalls eine derartige Funktion (siehe [[Weierstraß-Funktion]]), was diesmal unter Mathematikern Wellen schlug. Ein bekanntes mehrdimensionales Beispiel für eine stetige, nicht differenzierbare Funktion ist die von [[Helge von Koch]] 1904 vorgestellte [[Koch-Kurve]].<ref>[[Jeremy Gray]]: ''The Real and the Complex: A History of Analysis in the 19th Century'', Springer, S. 271–272.</ref>
 === {{Anker|Ableitung als eine Funktion}} Ableitungsfunktion ===
 [[Datei:Tangent function animation.gif|mini|Die Ableitung an verschiedenen Stellen einer differenzierbaren Funktion]]
-Die Ableitung der Funktion <math>f\colon U \to \mathbb{R}</math> an der Stelle <math>x_0</math>, bezeichnet mit <math>f'(x_0)</math>, beschreibt lokal das Verhalten der Funktion in der Umgebung der betrachteten Stelle <math>x_0</math>. In einigen Fällen ist es möglich, an ''jedem'' Punkt des [[Funktionsgraph]]en eine Linearisierung vorzunehmen. Dies erlaubt die Definition einer Ableitungsfunktion (oder kurz Ableitung) <math>f'\colon U \to \mathbb{R}</math>, die jedem Element des Definitionsbereichs <math>U</math> der Ausgangsfunktion <math>f</math> die Steigung der dortigen Linearisierung zuordnet. Man sagt in diesem Falle, „<math>f</math> ist in <math>U</math> differenzierbar“.<ref>Herbert Amann, Joachim Escher: ''Analysis 1'', Dritte Auflage, Birkhäuser, S. 323.</ref>
+Die Ableitung der Funktion <math>f\colon U \to \mathbb{R}</math> an der Stelle <math>x_0</math>, bezeichnet mit <math>f'(x_0)</math>, beschreibt lokal das Verhalten der Funktion in der Umgebung der betrachteten Stelle <math>x_0</math>. In einigen Fällen ist es möglich, an ''jedem'' Punkt des [[Funktionsgraph]]en eine Linearisierung vorzunehmen. Dies erlaubt die Definition einer '''Ableitungsfunktion''' (oder kurz '''Ableitung''') <math>f'\colon U \to \mathbb{R}</math>, die jedem Element des Definitionsbereichs <math>U</math> der Ausgangsfunktion <math>f</math> die Steigung der dortigen Linearisierung zuordnet. Man sagt in diesem Falle, „<math>f</math> ist in <math>U</math> differenzierbar“.<ref>Herbert Amann, Joachim Escher: ''Analysis 1''. 3. Auflage. Birkhäuser, S. 323.</ref>
 Beispielsweise hat die Quadratfunktion <math>f\colon \mathbb{R} \to \mathbb{R}</math> mit <math>f(x) = x^2</math> an einer beliebigen Stelle <math>x_0</math> die Ableitung <math>f'(x_0) = 2 x_0,</math> die Quadratfunktion ist also auf der Menge der reellen Zahlen differenzierbar. Die zugehörige Ableitungsfunktion <math>f'</math> ist gegeben durch <math>f'\colon \mathbb{R} \to \mathbb{R}</math> mit <math>f'(x) = 2x</math>.
@@ Zeile 253: / Zeile 283: @@
 Die Ableitungsfunktion ist im Normalfall eine andere Funktion als die ursprünglich betrachtete. Einzige Ausnahme sind die Vielfachen <math>x \mapsto k\cdot e^x</math> der natürlichen [[Exponentialfunktion]] mit beliebigem <math>k \in \mathbb{R}</math> – unter denen, wie die Wahl <math>k = e^{-a}</math> zeigt, auch alle Funktionen <math>x \mapsto e^{x-a}</math> mit beliebigem <math>a \in \mathbb{R}</math> enthalten sind (deren Graph aus dem der Exponentialfunktion <math>x \mapsto e^x</math> durch „seitliche“ [[Parallelverschiebung|Verschiebung]] um <math>a</math> entsteht und zu diesem daher kongruent ist).
-Ist die Ableitung stetig, dann heißt <math>f</math> stetig differenzierbar. In Anlehnung an die Bezeichnung <math>C(U)</math> für die Gesamtheit (den [[Funktionenraum|Raum]]) der stetigen Funktionen mit Definitionsmenge <math>U</math> wird der Raum der auf <math>U</math> stetig differenzierbaren Funktionen mit <math>C^1(U)</math> abgekürzt.<ref name="AE324">Herbert Amann, Joachim Escher: ''Analysis 1'', Dritte Auflage, Birkhäuser, S. 324.</ref>
+Ist die Ableitung stetig, dann heißt <math>f</math> stetig differenzierbar. In Anlehnung an die Bezeichnung <math>C(U)</math> für die Gesamtheit (den [[Funktionenraum|Raum]]) der stetigen Funktionen mit Definitionsmenge <math>U</math> wird der Raum der auf <math>U</math> stetig differenzierbaren Funktionen mit <math>C^1(U)</math> abgekürzt.<ref name="AE324">Herbert Amann, Joachim Escher: ''Analysis 1''. 3. Auflage. Birkhäuser, S. 324.</ref>
 === Notationen ===
@@ Zeile 262: / Zeile 292: @@
 ==== Newton-Notation ====
-[[Isaac Newton]] – neben Leibniz der Begründer der Differentialrechnung – notierte die erste Ableitung von <math>x</math> mit <math>\dot x</math>, entsprechend notierte er die [[#Höhere Ableitungen|zweite Ableitung]] durch <math>\ddot x</math>.<ref>Ernst Hairer, Gerhard Wanner: ''Analysis in historischer Entwicklung'', Springer, S. 90.</ref> Heutzutage wird diese Schreibweise häufig in der Physik, insbesondere in der [[Mechanik]], für die Ableitung nach der Zeit verwendet.<ref>[[Harro Heuser]]: ''Lehrbuch der Analysis''. Teubner, Wiesbaden 2003, ISBN 3-519-62233-5, S. 269.</ref>
+[[Isaac Newton]] – neben Leibniz der Begründer der Differentialrechnung – notierte die erste Ableitung von <math>x</math> mit <math>\dot x</math>, entsprechend notierte er die [[#Höhere Ableitungen|zweite Ableitung]] durch <math>\ddot x</math>.<ref>Ernst Hairer, Gerhard Wanner: ''Analysis in historischer Entwicklung'', Springer, S. 90.</ref> Heutzutage wird diese Schreibweise häufig in der Physik, insbesondere in der [[Mechanik]], für die [[Zeitableitung|Ableitung nach der Zeit]] verwendet.<ref>[[Harro Heuser]]: ''Lehrbuch der Analysis''. Teubner, Wiesbaden 2003, ISBN 3-519-62233-5, S. 269.</ref>
 ==== Leibniz-Notation ====
-[[Gottfried Wilhelm Leibniz]] führte für die erste Ableitung von <math>f</math> (nach der Variablen <math>x</math>) die Notation <math>\tfrac{\mathrm df(x)}{\mathrm dx}</math> ein.<ref>Thomas Sonar: ''3000 Jahre Analysis'', Springer, S. 408.</ref> Gelesen wird dieser Ausdruck als „d f von x nach d x“. Für die [[#Höhere Ableitungen|zweite Ableitung]] notierte Leibniz <math>\tfrac{\mathrm d^2f(x)}{\mathrm dx^2}</math> und die <math>n</math>-te Ableitung wird mittels <math>\tfrac{\mathrm d^nf(x)}{\mathrm dx^n}</math> bezeichnet.<ref>Lokenath Debnath: ''The Legacy of Leonhard Euler – A Tricentennial Tribute'', Imperial College Press, S. 26.</ref> Bei der Schreibweise von Leibniz handelt es sich nicht um einen Bruch. Die Symbole <math>\mathrm df(x)</math> und <math>\mathrm dx</math> werden „[[Differential (Mathematik)|Differentiale]]“ genannt, haben aber in der modernen Differentialrechnung (abgesehen von der Theorie der [[Differentialform]]en) lediglich eine symbolische Bedeutung und sind nur in dieser Schreibweise als formaler Differentialquotient erlaubt. In manchen Anwendungen ([[Kettenregel]], Integration mancher [[Differentialgleichung]]en, [[Integration durch Substitution]]) rechnet man mit ihnen aber fast so, als seien sie gewöhnliche Terme.
+[[Gottfried Wilhelm Leibniz]] führte für die erste Ableitung von <math>f</math> (nach der Variablen <math>x</math>) die Notation <math>\tfrac{\mathrm df(x)}{\mathrm dx}</math> ein.<ref>Thomas Sonar: ''3000 Jahre Analysis'', Springer, S. 408.</ref> Gelesen wird dieser Ausdruck als „d f von x nach d x“. Für die [[#Höhere Ableitungen|zweite Ableitung]] notierte Leibniz <math>\tfrac{\mathrm d^2f(x)}{\mathrm dx^2}</math> und die <math>n</math>-te Ableitung wird mittels <math>\tfrac{\mathrm d^nf(x)}{\mathrm dx^n}</math> bezeichnet.<ref>Lokenath Debnath: ''The Legacy of Leonhard Euler – A Tricentennial Tribute'', Imperial College Press, S. 26.</ref> Bei der Schreibweise von Leibniz handelt es sich nicht um einen Bruch. Die Symbole <math>\mathrm df(x)</math> und <math>\mathrm dx</math> werden „[[Differential (Mathematik)|Differentiale]]“ genannt, haben aber in der modernen Differentialrechnung (abgesehen von der Theorie der [[Differentialform]]en) lediglich eine symbolische Bedeutung und sind nur in dieser Schreibweise als formaler Differentialquotient erlaubt. In manchen Anwendungen ([[Kettenregel]], Integration mancher [[Differentialgleichung]]en, [[Integration durch Substitution]]) rechnet man mit ihnen aber so, als wären sie gewöhnliche Terme.
 ==== Euler-Notation ====
-Die Notation <math>\mathrm Df</math> oder <math>\mathrm D_x f(x)</math> für die erste Ableitung von <math>f</math> geht auf [[Leonhard Euler]] zurück. Dabei wird die Ableitung als [[Linearer Operator|Operator]] – also als eine besondere Funktion, die selbst auf Funktionen arbeitet, aufgefasst. Diese Idee geht auf den Mathematiker [[Louis François Antoine Arbogast]] zurück. Die [[#Höhere Ableitungen|zweite Ableitung]] wird in dieser Notation mittels <math>\mathrm D^2f</math> oder <math>\mathrm D_x^2f(x)</math> und die <math>n</math>-te Ableitung durch <math>\mathrm D^nf</math> oder <math>\mathrm D_x^nf(x)</math> dargestellt.<ref>{{Literatur |Autor=Ali Mason |Titel=Advanced Differential Equations |Verlag=EDTECH |Datum=1019 |ISBN=1839473894 |Seiten=67}}</ref>
+Die Notation <math>\mathrm Df</math> oder <math>\mathrm D_x f(x)</math> für die erste Ableitung von <math>f</math> geht auf [[Leonhard Euler]] zurück. Dabei wird die Ableitung als [[Linearer Operator|Operator]] – also als eine besondere Funktion, die selbst auf Funktionen arbeitet, aufgefasst. Diese Idee geht auf den Mathematiker [[Louis François Antoine Arbogast]] zurück. Die [[#Höhere Ableitungen|zweite Ableitung]] wird in dieser Notation mittels <math>\mathrm D^2f</math> oder <math>\mathrm D_x^2f(x)</math> und die <math>n</math>-te Ableitung durch <math>\mathrm D^nf</math> oder <math>\mathrm D_x^nf(x)</math> dargestellt.<ref>{{Literatur |Autor=Ali Mason |Titel=Advanced Differential Equations |Verlag=EDTECH |Datum=1019 |ISBN=1-83947-389-4 |Seiten=67}}</ref>
 == Ableitungsberechnung ==
@@ Zeile 276: / Zeile 306: @@
 === Ableitungen elementarer Funktionen ===
-Für die exakte Berechnung der Ableitungsfunktionen elementarer Funktionen wird der Differenzenquotient gebildet und im Grenzübergang <math>h \to 0</math> ausgerechnet. Je nach Funktionstyp müssen hierfür unterschiedliche Strategien angewendet werden.
+Für die Berechnung der Ableitungsfunktion einer elementaren Funktion an einer vorgesehenen Stelle <math>x</math> wird der zugehörige Differenzenquotient gebildet, der in der Umgebung <math>x+h</math> mit <math>h\neq0</math> gültig ist, und dann wird der Grenzübergang <math>h \to 0</math> vollzogen.
 ==== Natürliche Potenzen ====
-Der Fall <math>f(x) = x^2</math> kann durch Anwendung der ersten [[Binomische Formeln|binomischen Formel]] behandelt werden:
+Der Fall <math>f(x) = x^2</math> ist bereits weiter [[#Berechnung von Grenzwerten|oben]] behandelt worden.  Der zugehörige Differenzenquotient ergibt sich zu
-:<math> f'(x) = \lim_{h \to 0} \frac{f(x+h) - f(x)}{h} = \lim_{h \to 0} \frac{(x+h)^2 - x^2}{h} = \lim_{h \to 0} \frac{x^2 + 2xh + h^2 - x^2}{h} = \lim_{h \to 0} \left( 2x + h \right) = 2x.</math>
+: <math>\frac{\Delta f}{\Delta x} =\frac{f(x+h) - f(x)}{(x+h)-x} =\frac{x^2 + 2xh + h^2 - x^2}h.</math>
+Wenn <math>h\neq0</math> ist, lässt sich <math>h</math> kürzen,
-Allgemein muss für eine natürliche Zahl <math>n</math> mit <math>f(x) = x^n</math> auf den [[Binomischer Lehrsatz|binomischen Lehrsatz]] zurückgegriffen werden:
-:<math> (x + h)^n = \sum_{k=0}^n \binom{n}{k} x^{n-k} h^k = x^n + nhx^{n-1} + h^2 g_n(x,h),</math>
+: <math>\frac{\Delta f}{\Delta x} =2x+h,</math>
+und die Annäherung <math>h\to 0</math> führt auf
-wobei das Polynom <math>g_n(x,h)</math> in zwei Variablen nur von <math>n</math> abhängt. Es folgt:
-:<math> f'(x) = \lim_{h \to 0} \frac{(x + h)^n - x^n}{h} = \lim_{h \to 0} \frac{x^n + nhx^{n-1} + h^2 g_n(x,h)- x^n}{h} = \lim_{h \to 0} \left( nx^{n-1} + hg_n(x,h)\right) = nx^{n-1},</math>
+: <math> f'(x) = \lim_{h \to 0} \frac{\Delta f}{\Delta x} = 2x.</math>
+Allgemein für eine natürliche Zahl <math>n</math> mit <math>f(x) = x^n</math> wird der [[Binomischer Lehrsatz|binomische Lehrsatz]] herangezogen:
-denn offenbar gilt <math>hg_n(x,h) \overset{h \to 0}{\longrightarrow}0</math>.<ref>Serge Lang: ''A First Course in Calculus'', Fifth Edition, Springer, S. 76–77.</ref>
+: <math> (x + h)^n = \sum_{k=0}^n \binom{n}{k} x^{n-k} h^k = x^n + nhx^{n-1} + h^2 g_n(x,h).</math>
-==== Exponentialfunktion ====
-[[Datei:Exp e.svg|mini|220px|right|Graph der Exponentialfunktion <math>y=e^x</math> (rot) mit der Tangente (der hellblau gestrichelten Linie) durch den Punkt (0,1)]]
+: <math> \frac{\Delta f}{\Delta x} =\frac{(x + h)^n - x^n}{h} =\frac{x^n + nhx^{n-1} + h^2 g_n(x,h)- x^n}{h} =nx^{n-1} + hg_n(x,h).</math>
-Für jedes <math>a > 0</math> erfüllt die zugehörige Exponentialfunktion <math>\exp_a(x) = a^x</math> die Funktionalgleichung
+Wenn <math>(x+h)^n</math> für alle endlichen Werte von <math>h</math> endlich ist, ist auch <math>g_n(x,h)</math> endlich. Der in der letzten Gleichung vor <math>g_n(x,h)</math> stehende Faktor <math>h</math> führt auf <math>hg_n(x,h) \overset{h \to 0}{\longrightarrow}0</math>. Damit entsteht
-:<math> \exp_a(x+y) = \exp_a(x)\exp_a(y).</math>
+: <math> f'(x) = \lim_{h \to 0} \frac{\Delta f}{\Delta x} =nx^{n-1}</math>
-Dies ist darin begründet, dass ein Produkt aus ''x'' Faktoren mit ''y'' Faktoren ''a'' insgesamt aus ''x+y'' Faktoren ''a'' besteht. Aus dieser Eigenschaft wird schnell ersichtlich, dass ihre Ableitung bis auf einen konstanten Faktor mit der ursprünglichen Funktion übereinstimmen muss. Es gilt nämlich
+''Zwei Ergänzungen'':
-:<math> \exp'_a(x) = \lim_{h \to 0} \frac{\exp_a(x+h) - \exp_a(x)}{h} = \lim_{h \to 0} \frac{\exp_a(h) - \exp_a(0)}{h}\exp_a(x) = \exp_a'(0) \exp_a(x).</math>
+# Ein konstanter Summand <math>m</math> in <math>\quad f(x) = x^n+m\quad</math> kürzt sich in <math>f(x+h)-f(x)</math> heraus, noch bevor der Grenzübergang vollzogen wird.
+# Ein konstanter Faktor <math>m</math> in <math>\quad f(x) =m\,x^n\quad</math> kann in <math>f(x+h)-f(x)</math> ausgeklammert und vor den Bruch gezogen werden.
+==== Exponentialfunktion ====
-Es muss demnach nur die Existenz der Ableitung in <math>x=0</math> geklärt werden, was sich durch
+[[Datei:Exp e.svg|mini|Graph der Exponentialfunktion <math>y=\mathrm e^x</math> (rot) mit der Tangente (der hellblau gestrichelten Linie) durch den Punkt (0,1)]]
-:<math> \lim_{h\to 0}\frac{a^h-1}{h} = \log(a)</math>
+Mit der [[Exponentialfunktion]] <math>f(x)=a^x =\exp_a x</math> ergibt sich der Differenzenquotient
-erledigt, mit dem [[Natürlicher Logarithmus|natürlichen Logarithmus]] <math>\log(a)</math> von <math>a</math>. Existiert nun ferner eine Basis <math>e > 0</math> mit der Eigenschaft <math>\exp_e'(0) = 1</math>, so gilt sogar <math>\exp'_e(x) = \exp_e(x)</math> für alle <math>x</math>, also <math>\exp'_e = \exp_e</math> . Ein solches <math>e</math> ist die [[Eulersche Zahl]]: Für diese gilt <math>\log(e)=1</math> und sie ist durch diese Eigenschaft sogar eindeutig bestimmt. Wegen dieser auszeichnenden Zusatzeigenschaft wird <math>\exp_e</math> einfach mit <math>\exp</math> abgekürzt und als [[natürliche Exponentialfunktion]] bezeichnet.
+: <math>\frac{\Delta f}{\Delta x} =\frac{f(x+h) - f(x)}{(x+h)-x} =\frac{a^{x+h}- a^x}h</math>
-==== Logarithmus ====
-[[Datei:Logarithm inversefunctiontoexp.svg|right|mini|Der Logarithmus zur Basis <math>b</math> ist Umkehrfunktion zur entsprechenden Exponentialfunktion <math>b^x</math>]]
-Für den [[Logarithmus]] <math>\log_a</math> zur Basis <math>a>0, a \not=1</math> kann das Gesetz
+Für jedes <math>a > 0</math> gilt
-:<math>\log_a(xy) = \log_a(x) + \log_a(y)</math>
+: <math> a^{x+h} = a^x\cdot a^h.</math>
+Damit kann im Zähler <math>a^x</math> ausgeklammert werden.
-genutzt werden. Dies entsteht aus der Überlegung: Wenn ''u'' Faktoren von ''a'' den Wert ''x'' und ''v'' Faktoren von ''a'' den Wert ''y'' erzeugen, wenn also <math>a^u = x, a^v = y</math> gilt, dann erzeugen ''u+v'' Faktoren von ''a'' den Wert ''xy''.<ref>Serge Lang: ''A First Course in Calculus'', Fifth Edition, Springer, S. 248.</ref> Damit gilt für <math>x > 0</math>:
+: <math>\frac{\Delta f}{\Delta x} =a^x\,\frac{a^h-1}h.</math>
-:<math> \begin{align}
- \log'_a(x) &= \lim_{h \to 0} \frac{\log_a(x + h) - \log_a(x)}{h} = \lim_{h \to 0} \frac{\log_a\left(x \left(1 + \frac{h}{x}\right)\right) - \log_a(x)}{h} \\
-            &= \lim_{h \to 0} \frac{\log_a(x) + \log_a\left(1 + \frac{h}{x}\right) - \log_a(x)}{h} = \lim_{h \to 0} \frac{\log_a\left(1 + \frac{h}{x}\right) - \log_a(1)}{x \cdot \frac{h}{x}} = \frac{\log'_a(1)}{x}.
-\end{align}</math>
+Mit dem [[#Berechnung von Grenzwerten|oben]] hergeleiteten Grenzübergang
-Dabei wurde neben <math>\log_a(1) = 0</math> benutzt, dass mit <math>h</math> auch <math>\tfrac{h}{x}</math> gegen 0 strebt. Der [[Natürlicher Logarithmus|natürliche Logarithmus]], außerhalb der Schulmathematik – vor allem in der [[Zahlentheorie]] – oft nur <math>\log(x)</math>, sonst manchmal auch <math>\ln(x)</math> geschrieben, erfüllt <math>\log'(1) = 1</math>.<ref>Serge Lang: ''A First Course in Calculus'', Fifth Edition, Springer, S. 259.</ref> Daraus ergibt sich das Gesetz:
-:<math> \log'(x) = \frac{1}{x}.</math>
+: <math> \lim_{h\to 0}\frac{a^h-1}h = \ln a</math>
+entsteht
+: <math> f'(x) = \lim_{h \to 0} \frac{\Delta f}{\Delta x} =a^x\,\ln a.</math>
+Darin ist <math>\ln a =\log_\mathrm e a</math> der [[Natürlicher Logarithmus|natürliche Logarithmus]] von <math>a</math>. Speziell für die [[Eulersche Zahl]] <math>\mathrm e</math> ist <math>\ln \mathrm e=1</math>. Damit entsteht die auszeichnende Zusatzeigenschaft
-Er ist die [[Umkehrfunktion]] der natürlichen Exponentialfunktion, und sein Graph entsteht durch Spiegelung des Graphen der Funktion <math>\exp(x)</math> an der [[Winkelhalbierende]]n <math>y=x</math>. Aus <math>\exp'(0) = 1</math> folgt geometrisch <math>\log'(1) = 1</math>.
+: <math> \exp'_\mathrm e x =\exp_\mathrm e x.</math>
-==== Sinus und Kosinus ====
-Benötigt für die Ableitungsgesetze hinter [[Sinus und Kosinus]] werden die [[Formelsammlung Trigonometrie #Additionstheoreme|Additionstheoreme]]
+==== Logarithmus ====
-:<math>\sin(x+y) = \sin(x)\cos(y) + \cos(x)\sin(y)</math>
+Mit der [[Logarithmusfunktion]] <math>f(x) = \log_a x</math> zur Basis <math>a>0,\ a\neq1</math> ergibt sich der Differenzenquotient
-:<math>\cos(x+y) = \cos(x)\cos(y) - \sin(x)\sin(y)</math>
+[[Datei:Naturliga-logaritmen.png|mini|Der Logarithmus von <math>x</math> (hier der natürliche Logarithmus <math>\ln x</math>) existiert nur bei <math>x>0</math>]]
+: <math>\frac{\Delta f}{\Delta x} =\frac{\log_a(x+h) -\log_a x}{(x+h)-x} =\frac{\log_a\left(x\cdot(1 + \frac hx)\right) - \log_a x}h</math>
+Für jedes <math>a>0</math> gilt
-und die Relationen
-:<math>\sin'(0) = \lim_{h \to 0} \frac{\sin(h)}{h} = 1,</math>
+: <math>\log_a(u\cdot v) = \log_a u + \log_a v.</math>
-:<math>\cos'(0) = \lim_{h \to 0} \frac{\cos(h)-1}{h} = 0.</math>
+: <math>\frac{\Delta f}{\Delta x} =\frac{\log_a x +\log_a(1 + \frac hx) -\log_a x}h =\frac{\log_a(1 + \frac hx)}{\frac hx\;x}.</math>
-Diese können sämtlich elementar-geometrisch anhand der Definitionen von Sinus und Kosinus bewiesen werden.<ref>Serge Lang: ''A First Course in Calculus'', Fifth Edition, Springer, S. 136–140 u. S. 147–150.</ref> Damit ergibt sich:
+Mit dem [[#Berechnung von Grenzwerten|oben]] hergeleiteten Grenzübergang
-:<math> \sin'(x) = \lim_{h \to 0} \frac{\sin(x + h) - \sin(x)}{h} = \lim_{h \to 0} \frac{\sin(x)\cos(h) + \cos(x)\sin(h) - \sin(x)}{h} = \lim_{h \to 0} \left(\frac{\sin(h)}{h}\cos(x) + \frac{\cos(h) - 1}{h}\sin(x)\right) = \cos(x).</math>
+: <math>\lim_{u \to 0} \frac{\log(1+u)}u =\log \mathrm e</math>
-Ähnlich folgert man <math>\cos'(x) = - \sin(x).</math><ref>Serge Lang: ''A First Course in Calculus'', Fifth Edition, Springer, S. 141–142.</ref>
+und mit der [[Logarithmus#Basisumrechnung|Basisumrechnung]] <math>\log_a \mathrm e = \frac1{\log_\mathrm ea}</math> entsteht
-=== Ableitungsregeln ===
-Ableitungen zusammengesetzter Funktionen, z.&nbsp;B. <math>\sin(2x)</math> oder <math>x^2 \cdot \exp(-x^2)</math>, führt man mit Hilfe von ''Ableitungsregeln'' auf die Differentiation elementarer Funktionen zurück (siehe auch: [[Tabelle von Ableitungs- und Stammfunktionen]]).
+: <math>f'(x) =\lim_{h \to 0} \frac{\Delta f}{\Delta x} =\frac1x\,\log_a \mathrm e =\frac1{x\,\ln a}</math>
-Mit den folgenden Regeln kann man die Ableitung zusammengesetzter Funktionen auf Ableitungen einfacherer Funktionen zurückführen. Seien <math>f</math>, <math>g</math> und <math>h</math> (im Definitionsbereich) differenzierbare, [[reelle Funktion]]en, <math>n</math> und <math>a</math> reelle Zahlen, dann gilt:
+Dieses existiert nur für <math>x>0</math>. Für <math>x<0</math> existiert die Funktion <math>g(x) = \log_a (-x)</math>.<ref>Karl Bosch: ''Mathematik für Wirtschaftswissenschaftler.'' 14. Auflage, Oldenbourg, 2003, S. 77</ref> Mit der Substitution <math>z(x)=-x>0</math> und der [[Kettenregel]] ergibt ihre Ableitung
-;[[Konstante Funktion]]
+: <math>g'(x) =\frac{\mathrm dg}{\mathrm dz}\,\frac{\mathrm dz}{\mathrm dx} =\frac1{z\,\ln a} \cdot (-1) =\frac1{x\,\ln a}.</math>
-:<math>\left(a\right)' = 0</math>
+Beide Ableitungen können zusammengefasst werden für <math>x\neq0</math> zu
-;[[Faktorregel]]
-:<math>(a\cdot f)' = a\cdot f'</math>
+: <math>\frac{\mathrm d\log_a|x|}{\mathrm dx}  =\frac1{x\,\ln a}.</math>
+Speziell für den natürlichen Logarithmus gilt
-;[[Summenregel]]
-:<math>\left(g \pm h\right)' = g' \pm h'</math>
+: <math> \ln'|x| = \frac1x.</math>
+==== Sinus und Kosinus ====
-;[[Produktregel]]
+Mit der [[Sinusfunktion]] <math>f(x) =\sin x</math> ergibt sich der Differenzenquotient
-:<math>(g\cdot h)' = g' \cdot h + g \cdot h'</math>
+: <math>\frac{\Delta f}{\Delta x} =\frac{\sin(x+h)-\sin x}{(x+h)-x}.</math>
+Mit dem [[Formelsammlung Trigonometrie #Summen zweier trigonometrischer Funktionen (Identitäten)|Additionstheorem]]
-;[[Quotientenregel]]
-:<math>\left(\frac{g}{h}\right)' = \frac{g' \cdot h - g \cdot h'}{h^2}</math>
+: <math>\sin u-\sin v =2\cos\frac{u+v}2 \sin\frac{u-v}2</math>
+gilt
+: <math>\frac{\Delta f}{\Delta x} =2\frac{\cos\frac{2x+h}2 \sin\frac h2}h =\cos\tfrac{2x+h}2 \cdot\frac{\sin\frac h2}{\tfrac h2}.</math>
+Mit dem [[#Berechnung von Grenzwerten|oben]] hergeleiteten Grenzübergang
-;[[Reziprokenregel]]
-:<math>\left(\frac{1}{h}\right)' = \frac{-h'}{h^2}</math>
+: <math>\lim_{u \to 0} \frac{\sin u}u =1</math>
+und mit <math>u=\tfrac h2</math> entsteht
-;[[Potenzregel]]
+: <math> f'(x) = \lim_{h \to 0} \frac{\Delta f}{\Delta x} =\cos\frac{2x}2\cdot1 =\cos x.</math>
+Für die [[Kosinusfunktion]] führt eine entsprechende Rechnung mit
-:<math>\left(x^n\right)' = n x^{n-1}</math>, für natürliche Zahlen <math>n</math>.
+: <math>\cos u-\cos v=-2\sin \frac{u+v}2 \sin \frac{u-v}2</math>
-;[[Kettenregel]]
-:<math>(g \circ h)'(x) = (g(h(x)))' = g'(h(x))\cdot h'(x)</math>
+auf <math>\quad\frac{\Delta f}{\Delta x} =\frac{\cos(x+h)-\cos x}{(x+h)-x} =-\sin\tfrac{2x+h}2 \cdot\frac{\sin\frac h2}{\tfrac h2}.</math>
+: <math> f'(x) = \lim_{h \to 0} \frac{\Delta f}{\Delta x} =-\sin x.</math>
-;[[Umkehrregel]]
-Ist <math>f</math> eine an der Stelle <math>x_0</math> differenzierbare, [[bijektiv]]e Funktion mit <math>f'(x_0)\neq 0</math>, und ihre [[Umkehrfunktion]] <math>f^{-1}</math> bei <math>f(x_0)</math> differenzierbar, dann gilt:
+=== Weitere elementare Funktionen ===
-:<math>(f^{-1})'(f(x_0)) = \frac{1}{f'(x_0)}.</math>
+Mit den vorstehenden Ableitungen können Ableitungsfunktionen für weitere Funktionen aufgestellt werden. Dazu werden zusätzlich die Ableitungsregeln für die Grundrechenarten, die [[Kettenregel]] und die [[Umkehrregel]] benötigt.
+==== Allgemeine Potenzen ====
-Spiegelt man einen Punkt <math>P</math> des [[Funktionsgraph|Graphen]] von <math>f</math> an der 1.&nbsp;[[Winkelhalbierende]]n und erhält damit <math>P^*</math> auf <math>f^{-1}</math>, so ist die Steigung von <math>f^{-1}</math> in <math>P^*</math> der [[Kehrwert]] der Steigung von <math>f</math> in <math>P</math>
+Die Funktion <math>f(x) = x^n</math> ist bisher nur für <math>n</math> als natürliche Zahl abgeleitet worden. Die Anwendbarkeit der zugehörigen Ableitungsregel lässt sich bei <math>x>0</math> auf reelle Exponenten erweitern. Mit der Substitution<ref>Klaus Hefft: ''Mathematischer Vorkurs zum Studium der Physik.'' 2. Auflage. Springer, 2018, S. 97.</ref>
+: <math>z(x)=n\,\ln x</math>
+ist <math>\;f(x) =x^n=\mathrm e^z.</math>
+Wird dieses mit der Kettenregel differenziert, so entsteht das bekannte Ergebnis:
-;[[Logarithmische Ableitung]]
-Aus der Kettenregel folgt für die Ableitung des natürlichen Logarithmus einer Funktion <math>f</math>:
+: <math>f'(x)= \frac{\mathrm df}{\mathrm dz}\,\frac{\mathrm dz}{\mathrm dx}= \mathrm e^z\cdot n\;\frac1x =n\;\frac fx =n\,x^{n-1}.</math>
-:<math>(\ln(|f|))' = \frac{f'}{f}</math>
+Eine Anwendung ist die Ableitung der [[Wurzelfunktion]].
-Ein Bruch der Form <math>f'/f</math> wird logarithmische Ableitung genannt.
+Für <math>f(x) = \sqrt[m]{x} = x^{\frac1m}</math> gilt mit <math>n=\tfrac1m</math>
+: <math>f'(x) = \frac1m\frac fx =\frac1m\; \frac{\sqrt[m]{x}}x.</math>
+Der Fall <math>m=2</math> betrifft die [[Quadratwurzel]]:
+Für <math>f(x) = \sqrt x\quad</math> gilt <math>\quad f'(x) = \frac1{2\sqrt x}.</math>
-;Ableitung von [[Potenzfunktion|Potenz-]] und [[Exponentialfunktion]]en:
-Um <math>f(x) = g(x)^{h(x)}</math> abzuleiten, erinnert man sich, dass [[Potenz (Mathematik)|Potenzen]] mit reellen Exponenten auf dem Umweg über die [[Exponentialfunktion]] definiert sind: <math>f(x) = \exp\Big(h(x)\cdot \ln(g(x))\Big)</math>. Anwendung der Kettenregel und – für die innere Ableitung – der Produktregel ergibt
-:<math>f'(x) = \left(h'(x)\ln(g(x)) + h(x) \frac{g'(x)}{g(x)}\right) g(x)^{h(x)}</math>.
-=== Weitere elementare Funktionen ===
-Hat man die Regeln des Rechenkalküls zur Hand, so können zu vielen weiteren elementaren Funktionen Ableitungsfunktionen bestimmt werden. Dies betrifft besonders wichtige Verkettungen als auch Umkehrfunktionen zu bedeutenden elementaren Funktionen.
-==== Allgemeine Potenzen ====
-Für ''jeden'' Wert <math>s</math> besitzt die Funktion <math>f\colon \mathbb{R}_{>0} \to \mathbb{R}</math> mit <math>f(x) = x^s</math> die Ableitung <math>f'(x) = sx^{s-1}</math>. Dies lässt sich unter Anwendung der Kettenregel zeigen.<ref>Herbert Amann, Joachim Escher: ''Analysis 1'', Dritte Auflage, Birkhäuser, S. 327.</ref> Nutzt man die Schreibweise <math>f(x) = e^{s\log(x)}</math>, so ergibt sich
-:<math>f'(x) = (s \log(x))' \cdot e^{s\log(x)} = \frac{s}{x} \cdot x^s = sx^{s-1}.</math>
-Insbesondere ergeben sich daraus Ableitungsgesetze für allgemeine [[Wurzel (Mathematik)|Wurzelfunktionen]]: Für jede natürliche Zahl <math>n</math> ist <math>\sqrt[n]{x} = x^{\frac1n}</math>, und somit folgt
-:<math>(\sqrt[n]{x})' = \left( x^{\frac1n}\right)' = \frac{1}{n}x^{\frac{1}{n} - 1} = \frac{1}{n x^{1 - \frac{1}{n}}} = \frac{\sqrt[n]{x}}{nx}.</math>
-Der Fall <math>n=2</math> betrifft die [[Quadratwurzel]]:
-:<math>\left( \sqrt{x}\right)' = \frac{1}{2\sqrt{x}}.</math>
 ==== Tangens und Kotangens ====
-Mit Hilfe der Quotientenregel können über die Ableitungsregeln für Sinus und Kosinus auch Ableitungen von [[Tangens und Kotangens]] bestimmt werden. Es gilt
+Mit Hilfe der [[Quotientenregel]] und den Ableitungsfunktionen für Sinus und Kosinus können auch die Ableitungsfunktionen für [[Tangens und Kotangens]] aufgestellt werden. Es gilt
-:<math> \tan'(x) = \left( \frac{\sin(x)}{\cos(x)}\right)' = \frac{\cos(x)^2+\sin(x)^2}{\cos(x)^2} = \frac{1}{\cos(x)^2} = 1 + \tan(x)^2.</math>
+: <math>\tan'x =\left(\frac{\sin x}{\cos x}\right)' = \frac{\sin'x\cos x-\cos'x\sin x}{\cos^2x} = \frac{\cos^2x+\sin^2x}{\cos^2x} = \frac1{\cos^2x} = 1 + \tan^2x.</math>
-Dabei wurde der [[Satz des Pythagoras]] <math>\sin(x)^2+\cos(x)^2 = 1</math> verwendet. Ganz ähnlich zeigt man <math>\cot'(x) = -1-\cot(x)^2</math>.<ref>Herbert Amann, Joachim Escher: ''Analysis 1'', Birkhäuser, S. 328.</ref>
+Dabei wurde die als „[[Trigonometrischer Pythagoras]]“ bezeichnete Formel <math>\sin^2x+\cos^2x =1</math> verwendet. Ebenso wird gewonnen
+: <math>\cot'x = \frac{-\sin^2x-\cos^2x}{\sin^2x} = \frac{-1}{\sin^2x} = -1-\cot^2x.</math>
 ==== Arkussinus und Arkuskosinus ====
-[[Arkussinus und Arkuskosinus]] definieren Umkehrfunktionen von [[Sinus und Kosinus]]. Im Innern <math>(-1,1)</math> ihres Definitionsbereichs <math>[-1,1]</math> können die Ableitungen mittels der Umkehrregel berechnet werden. Setzt man etwa <math>x = \sin(y)</math>, so folgt dort
+[[Arkussinus und Arkuskosinus]] sind als Umkehrfunktionen von [[Sinus und Kosinus]] definiert. Die Ableitungen werden mittels der Umkehrregel berechnet. Setzt man <math>x = \sin y</math>, so folgt im Bereich <math>|x|<1</math>
-:<math>\arcsin'(x) = \frac{1}{\sin'(y)} = \frac{1}{\cos(y)} = \frac{1}{\sqrt{1 - \sin(y)^2}} = \frac{1}{\sqrt{1-x^2}}.</math>
+: <math>\arcsin'x =\frac1{\sin'y} = \frac1{\cos y} =\frac1{\sqrt{1 -\sin^2y}} =\frac1{\sqrt{1-x^2}}.</math>
-Es ist zu beachten, dass der Hauptzweig des Arkussinus betrachtet wurde und die Ableitung an den Randstellen <math>\pm1</math> nicht existiert. Für den Arkuskosinus ergibt sich mit <math>x = \cos(y)</math> analog
+Für den Arkuskosinus ergibt sich mit <math>x = \cos y</math> ebenso
-:<math>\arccos'(x) = \frac{1}{\cos'(y)} = \frac{1}{-\sin(y)} = - \frac{1}{\sqrt{1 - \cos(y)^2}} = - \frac{1}{\sqrt{1-x^2}}</math>
+: <math>\arccos'x =\frac1{\cos'y} =\frac1{-\sin y} =-\frac1{\sqrt{1 -\cos^2y}} =-\frac1{\sqrt{1-x^2}}.</math>
-im offenen Intervall <math>(-1,1)</math>.<ref>Herbert Amann, Joachim Escher: ''Analysis 1'', Dritte Auflage, Birkhäuser, S. 337–338.</ref>
 ==== Arkustangens und Arkuskotangens ====
-[[Arkustangens und Arkuskotangens]] definieren Umkehrfunktionen von [[Tangens und Kotangens]]. In ihrem Definitionsbereich <math>\mathbb {R}</math> können die Ableitungen mittels der Umkehrregel berechnet werden. Setzt man etwa <math>x = \tan(y)</math>, so folgt
+[[Arkustangens und Arkuskotangens]] sind als Umkehrfunktionen von [[Tangens und Kotangens]] definiert. Setzt man <math>x = \tan y</math>, so folgt mittels der Umkehrregel
-:<math>\arctan'(x) = \frac{1}{\tan'(y)} = \frac{1}{1+\tan(y)^2} = \frac{1}{1+x^2}.</math>
+: <math>\arctan'x = \frac{1}{\tan'y} = \frac{1}{1+\tan^2y} = \frac{1}{1+x^2}.</math>
-Für den Arkuskotangens ergibt sich mit <math>x = \cot(y)</math> analog
+Für den Arkuskotangens ergibt sich mit <math>x = \cot y</math> ebenso
-:<math>\arccot'(x) = \frac{1}{\cot'(y)} = \frac{1}{-1-\cot(y)^2} = - \frac{1}{1+x^2}.</math>
+: <math>\arccot'x = \frac1{\cot'y} = \frac1{-1-\cot^2y} = -\frac1{1+x^2}.</math>
-Beide Ableitungsfunktionen sind, wie Arkustangens und Arkuskotangens selbst, überall in den reellen Zahlen definiert.<ref>Herbert Amann, Joachim Escher: ''Analysis 1'', Dritte Auflage, Birkhäuser, S. 338.</ref>
+=== Zusammengesetzte Funktion ===
+Zusammengesetzte Funktionen lassen sich so weit strukturieren, bis sich zu jedem Strukturelement die jeweils zutreffende elementare Ableitungsregel finden lässt. Dazu gibt es die [[Summenregel]], die [[Produktregel]], die [[Quotientenregel]] und die [[Kettenregel]]. Da diese in eigenen Artikeln erläutert werden, wird hier nur ein Beispiel vorgestellt.
+:<math>f(x)= (1+\sin 2x)^2</math>
+:{|
+| <math>f(x)= f(u) =u^2 \quad</math> || mit <math>u=1+\sin 2x \quad</math> || <math>f(u)</math> ist ableitbar nach <math>u</math> als Potenz || <math>f'=2u</math>
+|-
+| <math>u=u(v) =1+v</math> || mit <math>v=\sin 2x</math> || <math>u(v)</math> ist ableitbar nach <math>v</math> als Summe mit einer Konstanten || <math>u'=1</math>
+|-
+| <math>v=v(w) =\sin w</math> || mit <math>w=2x</math> || <math>v(w)</math> ist ableitbar nach <math>w</math> als trigonometrische Funktion || <math>v'=\cos w</math>
+|-
+| <math>w=w(x) =2x</math> || || <math>w(x)</math> ist ableitbar nach <math>x</math> als Potenz mit konstantem Faktor &nbsp; || <math>w'=2</math>
+|}
+Nach der Kettenregel ergibt sich
+:<math>f'(x)= 4\,(1+\sin 2x)\,\cos 2x</math>
+=== {{Anker|Ableitungsregeln}} Zusammenfassung ===
+Hier werden die Ableitungsregeln elementarer und zusammengesetzter Funktionen zusammengefasst. Eine ausführliche Liste findet sich unter [[Tabelle von Ableitungs- und Stammfunktionen]].
+{| class="wikitable"
+|-
+! <math>f(x)</math> || <math>f'(x)</math> || Anmerkung
+|-
+| <math>x</math> || <math>1</math> || '''Elementares'''
+|-
+|<math>ax</math> || <math>a</math> || konstanter Faktor bleibt erhalten
+|-
+|<math>x+a</math> || <math>1</math> || konstanter Summand verschwindet
+|-
+| <math>x^n</math> || <math>n\,x^{n-1}</math> || '''Potenzfunktion'''
+|-
+| <math>\mathrm e^x</math> || <math>\mathrm e^x</math> || rowspan="2" | '''Exponentialfunktion'''
+|-
+| <math>a^x</math> || <math>a^x\,\ln a\quad (a>0)</math>
+|-
+| <math>\ln |x|</math> || <math>\frac 1x</math> || rowspan="2" | '''Logarithmusfunktion'''
+|-
+| <math>\log_a |x|</math> || <math>\frac1x\, \frac1{\ln a}</math>
+|-
+|<math>\sin x</math> || <math>\cos x</math> || rowspan="8" | '''Trigonometrische Funktionen'''
+|-
+|<math>\cos x</math> || <math>-\sin x</math>
+|-
+|<math>\tan x</math> || <math>\frac1{\cos^2x}=1 +\tan^2x</math>
+|-
+|<math>\cot x</math> || <math>-\frac1{\sin^2x}=-(1 + \cot^2x)</math>
+|-
+| <math>\arcsin x</math> || <math>\frac1{\sqrt{1-x^2}} \quad (|x|<1)</math>
+|-
+| <math>\arccos x</math> || <math>\frac{-1}{\sqrt{1-x^2}} \quad (|x|<1)</math>
+|-
+| <math>\arctan x</math> || <math>\frac1{x^2+1}</math>
+|-
+| <math>\arccot x</math> || <math>\frac{-1}{x^2+1}</math>
+|-
+| <math>\sinh x</math> || <math>\cosh x</math> || rowspan="8"| '''Hyperbelfunktionen'''
+|-
+| <math>\cosh x</math> || <math>\sinh x</math>
+|-
+| <math>\tanh x</math> || <math>\frac1{\cosh^2 x} =1-\tanh^2 x</math>
+|-
+| <math>\coth x</math> || <math>\frac{-1}{\sinh^2 x} =1-\coth^2 x</math>
+|-
+| <math>\operatorname{arsinh} x</math> || <math>\frac1{\sqrt {x^2+1}}</math>
+|-
+| <math>\operatorname{arcosh} x</math> || <math>\frac1{\sqrt {x^2-1}} \quad (x>1)</math>
+|-
+| <math>\operatorname{artanh} x</math> || <math>\frac1{1-x^2} \quad (|x|<1)</math>
+|-
+| <math>\operatorname{arcoth} x</math> || <math>\frac{1}{1-x^2} \quad (|x|>1)</math>
+|-
+| <math>u(x)+v(x)</math> || <math>u'+v'</math> || '''[[Summenregel]]'''
+|-
+| <math>u(x)\cdot v(x)</math> || <math>u'v+v'u</math> || '''[[Produktregel]]'''
+|-
+| <math>u(x):v(x)</math> || <math>\frac{u'v-v'u}{v^2}</math> || '''[[Quotientenregel]]'''
+|-
+| <math>u[v(x)]</math> || <math>f'(u)\cdot u'(v)\cdot v'(x)</math><br />oder <math>\frac{\mathrm df}{\mathrm dx} =\frac{\mathrm df}{\mathrm du}\, \frac{\mathrm du}{\mathrm dv}\, \frac{\mathrm dv}{\mathrm dx}</math> || '''[[Kettenregel]]'''<br />mit <math>f=f(u), u=u(v), v=v(x)</math>
+|-
+| <math>f(x)</math> || <math>\frac1{(f^{-1})'(y)}</math><br /> oder <math>\frac{\mathrm dy}{\mathrm dx} = \frac1{\frac{\mathrm dx}{\mathrm dy}}</math> || '''[[Umkehrregel]]'''<br /> mit <math>y = f(x)</math> oder nach <math>x</math> aufgelöst<br /><math>\quad\ x=f^{-1}(y)</math>
+|}
 == {{Anker|Höhere}} Höhere Ableitungen ==
 Ist die Ableitung <math>f'</math> einer Funktion <math>f</math> wiederum differenzierbar, so lässt sich die zweite Ableitung von <math>f</math> als Ableitung der ersten definieren. Auf dieselbe Weise können dann auch dritte, vierte etc. Ableitungen definiert werden. Eine Funktion kann dementsprechend einmal differenzierbar, zweimal differenzierbar etc. sein.
-Ist die erste Ableitung nach der Zeit eine [[Geschwindigkeit]], so kann die zweite Ableitung als [[Beschleunigung]] und die dritte Ableitung als [[Ruck]] interpretiert werden.
+Ist die erste Ableitung eines [[Weg (Physik)|Weges]] nach der Zeit eine [[Geschwindigkeit]], so kann die zweite Ableitung als [[Beschleunigung]] und die dritte Ableitung als [[Ruck]] interpretiert werden.
 Wenn Politiker sich über den „Rückgang des Anstiegs der Arbeitslosenzahl“ äußern, dann sprechen sie von der zweiten Ableitung (Änderung des Anstiegs), um die Aussage der ersten Ableitung (Anstieg der Arbeitslosenzahl) zu relativieren.
@@ Zeile 440: / Zeile 542: @@
 Höhere Ableitungen können auf verschiedene Weisen geschrieben werden:
-:<math>f'' = f^{(2)} = \frac{\mathrm d^2f}{\mathrm dx^2}, \quad f''' = f^{(3)} = \frac{\mathrm d^3f}{\mathrm dx^3}, \quad \ldots</math>
+: <math>f'' = f^{(2)} = \frac{\mathrm d^2f}{\mathrm dx^2}, \quad f''' = f^{(3)} = \frac{\mathrm d^3f}{\mathrm dx^3}, \quad \ldots</math>
 oder im physikalischen Fall (bei einer Ableitung nach der Zeit)
-:<math>\ddot x(t)= \frac{\mathrm d^2 x}{\mathrm d t^2}, \quad \overset{\dots} x(t)= \frac{\mathrm d^3 x}{\mathrm d t^3}.</math>
+: <math>\ddot x(t)= \frac{\mathrm d^2 x}{\mathrm d t^2}, \quad \overset{...} x(t)= \frac{\mathrm d^3 x}{\mathrm d t^3}.</math>
 Für die formale Bezeichnung beliebiger Ableitungen <math>f^{(n)}</math> legt man außerdem <math>f^{(1)}=f'</math> und <math>f^{(0)}=f</math> fest.
@@ Zeile 452: / Zeile 554: @@
 Ist <math>n</math> eine natürliche Zahl und <math>U \subset \mathbb{R}</math> offen, so wird der Raum der in <math>U</math> <math>n</math>-mal stetig differenzierbaren Funktionen mit <math>C^n(U)</math> bezeichnet. Der [[Differentialoperator]] <math>\tfrac{\mathrm{d}}{\mathrm{d}x}</math> induziert damit eine Kette von [[Lineare Abbildung|linearen Abbildungen]]
-:<math> C^n(U) \, \, \, \, \overset{\tfrac{\mathrm{d}}{\mathrm{d}x}}{\longrightarrow} \, \, \, \, C^{n-1}(U) \, \, \, \, \overset{\tfrac{\mathrm{d}}{\mathrm{d}x}}{\longrightarrow} \, \, \, \, C^{n-2}(U) \, \, \, \, \overset{\tfrac{\mathrm{d}}{\mathrm{d}x}}{\longrightarrow} \, \, \, \, \cdots \, \, \, \, \overset{\tfrac{\mathrm{d}}{\mathrm{d}x}}{\longrightarrow} \, \, \, \, C^0(U),</math>
+: <math> C^n(U) \, \, \, \, \overset{\tfrac{\mathrm{d}}{\mathrm{d}x}}{\longrightarrow} \, \, \, \, C^{n-1}(U) \, \, \, \, \overset{\tfrac{\mathrm{d}}{\mathrm{d}x}}{\longrightarrow} \, \, \, \, C^{n-2}(U) \, \, \, \, \overset{\tfrac{\mathrm{d}}{\mathrm{d}x}}{\longrightarrow} \, \, \, \, \cdots \, \, \, \, \overset{\tfrac{\mathrm{d}}{\mathrm{d}x}}{\longrightarrow} \, \, \, \, C^0(U),</math>
 und damit allgemein für <math>k \leq n</math>:
-:<math>C^n(U) \, \, \, \, \overset{\tfrac{\mathrm{d}^k}{\mathrm{d}x^k}}{\longrightarrow} \, \, \, \, C^{n-k}(U).</math>
+: <math>C^n(U) \, \, \, \, \overset{\tfrac{\mathrm{d}^k}{\mathrm{d}x^k}}{\longrightarrow} \, \, \, \, C^{n-k}(U).</math>
 Dabei bezeichnet <math>C^0(U)</math> den Raum der in <math>U</math> [[Stetige Funktion|stetigen Funktionen]]. Exemplarisch: Wird ein <math>f \in C^n(U)</math> durch Anwenden von <math>\tfrac{\mathrm{d}}{\mathrm{d}x}</math> einmal abgeleitet, kann das Ergebnis <math>f'</math> im Allgemeinen nur noch <math>(n-1)</math>-mal abgeleitet werden usw. Jeder Raum <math>C^k(U)</math> ist eine <math>\mathbb{R}</math>-[[Algebra über einem Körper|Algebra]], da nach der Summen- bzw. der Produktregel Summen und auch Produkte von <math>k</math>-mal stetig differenzierbaren Funktionen wieder <math>k</math>-mal stetig differenzierbar sind. Es gilt zudem die aufsteigende Kette von echten [[Teilmenge|Inklusionen]]
-:<math> \cdots \, \, \, \, C^n(U) \, \, \, \, \subsetneq \, \, \, \, C^{n-1}(U) \, \, \, \, \subsetneq \, \, \, \, C^{n-2}(U) \, \, \, \, \subsetneq \, \, \, \, \cdots \, \, \, \, \subsetneq \, \, \, \, C^0(U),</math>
+: <math> \cdots \, \, \, \, C^n(U) \, \, \, \, \subsetneq \, \, \, \, C^{n-1}(U) \, \, \, \, \subsetneq \, \, \, \, C^{n-2}(U) \, \, \, \, \subsetneq \, \, \, \, \cdots \, \, \, \, \subsetneq \, \, \, \, C^0(U),</math>
 denn offenbar ist jede mindestens <math>n</math>-mal stetig differenzierbare Funktion auch <math>(n-1)</math>-mal stetig differenzierbar usw., jedoch zeigen die Funktionen
-:<math> f_n(x) = \begin{cases} x^{n+1} \sin\left(\frac{1}{x}\right), & x \in U \setminus \{0\}, \\ 0, & x = 0,\end{cases}</math>
+: <math> f_n(x) = \begin{cases} x^{n+1} \sin\left(\frac{1}{x}\right), & x \in U \setminus \{0\}, \\ 0, & x = 0,\end{cases}</math>
-exemplarisch Beispiele für Funktionen aus <math>C^{n-1}(U)\setminus C^{n}(U)</math>, wenn – was [[ohne Beschränkung der Allgemeinheit]] möglich ist – <math>0 \in U</math> angenommen wird.<ref>Herbert Amann, Joachim Escher: ''Analysis 1'', Dritte Auflage, Birkhäuser, S. 329.</ref>
+exemplarisch Beispiele für Funktionen aus <math>C^{n-1}(U)\setminus C^{n}(U)</math>, wenn – was [[ohne Beschränkung der Allgemeinheit]] möglich ist – <math>0 \in U</math> angenommen wird.<ref>Herbert Amann, Joachim Escher: ''Analysis 1''. 3. Auflage. Birkhäuser, S. 329.</ref>
 === Höhere Ableitungsregeln ===
-;[[Produktregel#Höhere Ableitungen|Leibnizsche Regel]]
+; [[Produktregel#Leibniz-Regel für dividierte Differenzen|Leibnizsche Regel]]
 Die Ableitung <math>n</math>-ter Ordnung für ein Produkt aus zwei <math>n</math>-mal differenzierbaren Funktionen <math>f</math> und <math>g</math> ergibt sich aus
-:<math>(fg)^{(n)} = \sum_{k=0}^n {n \choose k} f^{(k)} g^{(n-k)}</math>.
+: <math>(fg)^{(n)} = \sum_{k=0}^n {n \choose k} f^{(k)} g^{(n-k)}</math>.
 Die hier auftretenden Ausdrücke der Form <math>\tbinom{n}{k}</math> sind [[Binomialkoeffizient]]en. Die Formel ist eine Verallgemeinerung der Produktregel.
-;[[Formel von Faà di Bruno]]
+; [[Formel von Faà di Bruno]]
 Diese Formel ermöglicht die geschlossene Darstellung der <math>n</math>-ten Ableitung der Komposition zweier <math>n</math>-mal differenzierbarer Funktionen. Sie verallgemeinert die Kettenregel auf höhere Ableitungen.
@@ Zeile 477: / Zeile 579: @@
 Ist <math>f</math> eine in einem Intervall <math>I</math> <math>(n+1)</math>-mal stetig differenzierbare Funktion, dann gilt für alle <math>a</math> und <math>x</math> aus <math>I</math> die sogenannte Taylorformel:
-:<math>f(x) = T_n(a;x) + R_{n+1}(a;x)</math>
+: <math>f(x) = T_n(a;x) + R_{n+1}(a;x)</math>
 mit dem <math>n</math>-ten ''Taylorpolynom'' an der Entwicklungsstelle <math>a</math>
-:<math>\begin{align}
+: <math>\begin{align}
   T_n(a;x) &= \sum_{k=0}^n \frac{f^{(k)}(a)}{k!}(x-a)^k \\
            &= f(a) + \frac{f'(a)}{1!}(x-a) + \frac{f''(a)}{2!}(x-a)^2 + \dotsb + \frac{f^{(n)}(a)}{n!}(x-a)^n
@@ Zeile 488: / Zeile 590: @@
 und dem <math>(n+1)</math>-ten ''Restglied''
-:<math>R_{n+1}(a; x) = \frac{f^{(n+1)}(\xi)}{(n+1)!}(x-a)^{n+1}</math>
+: <math>R_{n+1}(a; x) = \frac{f^{(n+1)}(\xi)}{(n+1)!}(x-a)^{n+1}</math>
-mit einem <math>\xi = \xi(x) \in (\min\{a,x\}, \max\{a,x\}) \subset I</math>.<ref>Herbert Amann, Joachim Escher: ''Analysis 1'', Dritte Auflage, S. 358.</ref> Eine beliebig oft differenzierbare Funktion wird [[glatte Funktion]] genannt. Da sie alle Ableitungen besitzt, kann die oben angegebene Taylorformel zur [[Taylorreihe]] von <math>f</math> mit Entwicklungspunkt <math>a</math> erweitert werden:
+mit einem <math>\xi = \xi(x) \in (\min\{a,x\}, \max\{a,x\}) \subset I</math>.<ref>Herbert Amann, Joachim Escher: ''Analysis 1''. 3. Auflage. S. 358.</ref> Eine beliebig oft differenzierbare Funktion wird [[glatte Funktion]] genannt. Da sie alle Ableitungen besitzt, kann die oben angegebene Taylorformel zur [[Taylorreihe]] von <math>f</math> mit Entwicklungspunkt <math>a</math> erweitert werden:
-:<math>\begin{align}
+: <math>\begin{align}
   (Tf)(a;x) &:= f(a) + f'(a) (x-a) + \frac{f''(a)}{2} (x-a)^2 + \dotsb + \frac{f^{(n)}(a)}{n!} (x-a)^n + \dotsb \\
             & = \sum_{n=0}^\infty \frac{f^{(n)}(a)}{n!} (x-a)^n.
@@ Zeile 502: / Zeile 604: @@
 Funktionen, die an jeder Stelle ihres Definitionsbereichs ''beliebig oft'' differenzierbar sind, bezeichnet man auch als ''glatte Funktionen''. Die Menge aller in einer offenen Menge <math>U \subset \mathbb{R}</math> glatten Funktionen <math>f\colon U \to \mathbb{R}</math> wird meist mit <math>C^\infty(U)</math> bezeichnet. Sie trägt die Struktur einer <math>\mathbb{R}</math>-[[Algebra über einem Körper|Algebra]] (skalare Vielfache, Summen und Produkte glatter Funktionen sind wieder glatt) und ist gegeben durch
-:<math> C^\infty(U) = \bigcap_{n \in \N} C^n(U),</math>
+: <math> C^\infty(U) = \bigcap_{n \in \N} C^n(U),</math>
-wobei <math>C^n(U)</math> alle in <math>U</math> <math>n</math>-mal stetig differenzierbaren Funktionen bezeichnet.<ref name="AE324"/> Häufig findet man in mathematischen Betrachtungen den Begriff ''hinreichend glatt.'' Damit ist gemeint, dass die Funktion mindestens so oft differenzierbar ist, wie es nötig ist, um den aktuellen Gedankengang durchzuführen.
+wobei <math>C^n(U)</math> alle in <math>U</math> <math>n</math>-mal stetig differenzierbaren Funktionen bezeichnet.<ref name="AE324" /> Häufig findet man in mathematischen Betrachtungen den Begriff ''hinreichend glatt.'' Damit ist gemeint, dass die Funktion mindestens so oft differenzierbar ist, wie es nötig ist, um den aktuellen Gedankengang durchzuführen.
 === Analytische Funktionen ===
@@ Zeile 509: / Zeile 611: @@
 Der obere Begriff der Glattheit kann weiter verschärft werden. Eine Funktion <math>f\colon U \to \mathbb{R}</math> heißt reell analytisch, wenn sie sich in jedem Punkt lokal in eine Taylorreihe entwickeln lässt, also
-:<math>f(x) = \sum_{n=0}^\infty \frac{f^{(n)}(a)}{n!} (x - a)^n</math>
+: <math>f(x) = \sum_{n=0}^\infty \frac{f^{(n)}(a)}{n!} (x - a)^n</math>
 für alle <math>a \in U</math> und alle hinreichend kleinen Werte von <math>|x - a|</math>. Analytische Funktionen haben starke Eigenschaften und finden besondere Aufmerksamkeit in der komplexen Analysis. Dort werden dementsprechend keine reell, sondern komplex analytischen Funktionen studiert. Ihre Menge wird meist mit <math>C^\omega(U)</math> bezeichnet und es gilt <math>C^\omega(U) \subsetneq C^\infty(U)</math>. Insbesondere ist jede analytische Funktion glatt, aber ''nicht umgekehrt''. Die Existenz aller Ableitungen ist also ''nicht hinreichend'' dafür, dass die Taylorreihe die Funktion ''darstellt'', wie das folgende Gegenbeispiel
-:<math>f(x) = \begin{cases}
+: <math>f(x) = \begin{cases}
 & \text{falls } x = 0 \\
   \mathrm{e}^{-1/x^2} & \text{falls } x \neq 0
 \end{cases}</math>
-einer nicht analytischen glatten Funktion zeigt.<ref>Herbert Amann, Joachim Escher: ''Analysis 1'', Dritte Auflage, Birkhäuser, S. 330–331.</ref> Alle reellen Ableitungen dieser Funktion verschwinden in 0, aber es handelt sich nicht um die Nullfunktion. Daher wird sie an der Stelle 0 nicht durch ihre Taylorreihe dargestellt.
+einer nicht analytischen glatten Funktion zeigt.<ref>Herbert Amann, Joachim Escher: ''Analysis 1''. 3. Auflage. Birkhäuser, S. 330–331.</ref> Alle reellen Ableitungen dieser Funktion verschwinden in 0, aber es handelt sich nicht um die Nullfunktion. Daher wird sie an der Stelle 0 nicht durch ihre Taylorreihe dargestellt.
 === Anwendungen ===
 [[Datei:Ableitungsss.svg|rechts|Kurvendiskussion]]
-Eine wichtige Anwendung der Differentialrechnung in einer Variablen ist die Bestimmung von [[Extremwert]]en, meist zur [[Optimierung (Mathematik)|Optimierung]] von Prozessen, wie etwa im Kontext von Kosten, Material oder Energieaufwand.<ref>T. Arens et al.: ''Mathematik'', Spektrum, S. 304.</ref> Die Differentialrechnung stellt eine Methode bereit, Extremstellen zu finden, ohne dabei unter Aufwand numerisch suchen zu müssen. Man macht sich zu Nutze, dass an einer lokalen Extremstelle <math>x_0</math> notwendigerweise die erste Ableitung der Funktion <math>f</math> gleich 0 sein muss. Es muss also <math>f'(x_0) = 0</math> gelten, wenn <math>x_0</math> eine lokale Extremstelle ist. Allerdings bedeutet andersherum <math>f'(x_0) = 0</math> noch nicht, dass es sich bei <math>f(x_0)</math> um ein Maximum oder Minimum handelt. In diesem Fall werden mehr Informationen benötigt, um eine eindeutige Entscheidung treffen zu können, was meist durch Betrachten höherer Ableitungen bei <math>x_0</math> möglich ist.
+Eine wichtige Anwendung der Differentialrechnung in einer Variablen ist die Bestimmung von [[Extremwert]]en, meist zur [[Optimierung (Mathematik)|Optimierung]] von Prozessen, wie etwa im Kontext von Kosten, Material oder Energieaufwand.<ref>T. Arens et al.: ''Mathematik''. Spektrum, S. 304.</ref> Die Differentialrechnung stellt eine Methode bereit, Extremstellen zu finden, ohne dabei unter Aufwand numerisch suchen zu müssen. Man macht sich zu Nutze, dass an einer lokalen Extremstelle <math>x_0</math> notwendigerweise die erste Ableitung der Funktion <math>f</math> gleich 0 sein muss. Es muss also <math>f'(x_0) = 0</math> gelten, wenn <math>x_0</math> eine lokale Extremstelle ist. Allerdings bedeutet andersherum <math>f'(x_0) = 0</math> noch nicht, dass es sich bei <math>f(x_0)</math> um ein Maximum oder Minimum handelt. In diesem Fall werden mehr Informationen benötigt, um eine eindeutige Entscheidung treffen zu können, was meist durch Betrachten höherer Ableitungen bei <math>x_0</math> möglich ist.
 Eine Funktion kann einen Maximal- oder Minimalwert haben, ohne dass die Ableitung an dieser Stelle existiert, jedoch kann in diesem Falle die Differentialrechnung nicht verwendet werden. Im Folgenden werden daher nur zumindest lokal differenzierbare Funktionen betrachtet. Als Beispiel nehmen wir die [[Polynom]]funktion <math>f</math> mit dem Funktionsterm
-:<math>f(x) = \frac 13 x^3 - 2 x^2 + 3 x = \frac x3 (x-3)^2.</math>
+: <math>f(x) = \frac 13 x^3 - 2 x^2 + 3 x = \frac x3 (x-3)^2.</math>
 Die Abbildung zeigt den Verlauf der Graphen von <math>f</math>, <math>f'</math> und <math>f''</math>.
@@ Zeile 537: / Zeile 639: @@
 Es ist somit für differenzierbare Funktionen eine [[notwendige Bedingung]] für das Vorliegen einer Extremstelle, dass die Ableitung an der betreffenden Stelle den Wert 0 annimmt:
-:<math>f^{\prime}(x_0) = 0</math>
+: <math>f^{\prime}(x_0) = 0</math>
 Umgekehrt kann aber daraus, dass die Ableitung an einer Stelle den Wert Null hat, noch nicht auf eine Extremstelle geschlossen werden, es könnte auch beispielsweise ein [[Sattelpunkt]] vorliegen. Eine Liste verschiedener hinreichender Kriterien, deren Erfüllung sicher auf eine Extremstelle schließen lässt, findet sich im Artikel [[Extremwert]]. Diese Kriterien benutzen meist die zweite oder noch höhere Ableitungen.
@@ Zeile 544: / Zeile 646: @@
 Im Beispiel ist
-:<math>f'(x) = x^2 - 4 \cdot x + 3 = (x - 1) \cdot (x - 3).</math>
+: <math>f'(x) = x^2 - 4 \cdot x + 3 = (x - 1) \cdot (x - 3).</math>
 Daraus folgt, dass <math>f^{\prime}(x)=0</math> genau für <math>x=1</math> und <math>x=3</math> gilt. Die Funktionswerte an diesen Stellen sind <math>f(1)=\tfrac43</math> und <math>f(3)=0</math>, d.&nbsp;h., die Kurve hat in den Punkten <math>(1,\tfrac43)</math> und <math>(3,0)</math> waagerechte Tangenten, und nur in diesen.
@@ Zeile 550: / Zeile 652: @@
 Da die Folge
-:<math>f(0) = 0, \quad f(1) = \frac{4}{3}, \quad f(3) = 0, \quad f(4) = \frac{4}{3}</math>
+: <math>f(0) = 0, \quad f(1) = \frac{4}{3}, \quad f(3) = 0, \quad f(4) = \frac{4}{3}</math>
 abwechselnd aus kleinen und großen Werten besteht, muss in diesem Bereich ein Hoch- und ein Tiefpunkt liegen. Nach dem Satz von Fermat hat die Kurve in diesen Punkten eine waagerechte Tangente, es kommen also nur die oben ermittelten Punkte in Frage: Also ist <math>(1,\tfrac43)</math> ein Hochpunkt und <math>(3,0)</math> ein Tiefpunkt.
@@ Zeile 564: / Zeile 666: @@
 Aus der bekannten Partialsumme
-:<math>\sum_{k=0}^n x^k = 1 + x + x^2 + \dotsb + x^n = \frac {x^{n+1}-1}{x-1}</math>
+: <math>\sum_{k=0}^n x^k = 1 + x + x^2 + \dotsb + x^n = \frac {x^{n+1}-1}{x-1}</math>
 der [[Geometrische Reihe|geometrischen Reihe]] soll die Summe
-:<math>\sum_{k=1}^n kx^{k-1} = 1 + 2x + 3x^2 + \dotsb + nx^{n-1}</math>
+: <math>\sum_{k=1}^n kx^{k-1} = 1 + 2x + 3x^2 + \dotsb + nx^{n-1}</math>
 berechnet werden. Dies gelingt durch Differentiation mit Hilfe der [[Quotientenregel]]:
-:<math>\sum_{k=1}^n kx^{k-1}
+: <math>\sum_{k=1}^n kx^{k-1}
  = \sum_{k=0}^n kx^{k-1}
  = \frac{\mathrm d}{\mathrm dx}\sum_{k=0}^n x^k
@@ Zeile 590: / Zeile 692: @@
 Ist <math>I\subset\mathbb R</math> ein Intervall, <math>f\colon I\to\mathbb R</math> eine stetige Funktion und <math>a\in I</math> eine beliebige Zahl aus <math>I</math>, so ist die Funktion
-:<math>F\colon I\to\mathbb R,\; x\mapsto \int_a^x f(t)\,\mathrm{d}t</math>
+: <math>F\colon I\to\mathbb R,\; x\mapsto \int_a^x f(t)\,\mathrm{d}t</math>
 stetig differenzierbar, und ihre Ableitung <math>F'</math> ist gleich <math>f</math>.
-Hiermit ist also eine Anleitung zum Integrieren gegeben: Gesucht ist eine Funktion <math>F</math>, deren Ableitung <math>F'</math> der Integrand <math>f</math> ist. Dann gilt:<ref>Herbert Amann, Joachim Escher: ''Analysis 2'', Zweite Auflage, Birkhäuser, S. 32–33.</ref>
+Hiermit ist also eine Anleitung zum Integrieren gegeben: Gesucht ist eine Funktion <math>F</math>, deren Ableitung <math>F'</math> der Integrand <math>f</math> ist. Dann gilt:<ref>Herbert Amann, Joachim Escher: ''Analysis 2''. 2. Auflage. Birkhäuser, S. 32–33.</ref>
-:<math>\int_a^b f(x)\,\mathrm dx = F(b)-F(a).</math>
+: <math>\int_a^b f(x)\,\mathrm dx = F(b)-F(a).</math>
 === Mittelwertsatz der Differentialrechnung ===
@@ Zeile 605: / Zeile 707: @@
 Es sei <math>f\colon [a,b] \to \mathbb{R}</math> eine Funktion, die auf dem abgeschlossenen Intervall <math>[a,b]</math> (mit <math>a < b</math>) definiert und stetig ist. Außerdem sei die Funktion <math>f</math> im offenen Intervall <math>(a,b)</math> differenzierbar. Unter diesen Voraussetzungen gibt es mindestens ein <math>x_0 \in (a,b)</math>, sodass
-:<math>f'(x_0) = \frac{f(b)-f(a)}{b-a}</math>
+: <math>f'(x_0) = \frac{f(b)-f(a)}{b-a}</math>
-gilt – geometrisch-anschaulich: Zwischen zwei Schnittpunkten einer [[Sekante]] gibt es auf der Kurve einen Punkt mit zur Sekante paralleler [[Tangente]].<ref>Herbert Amann, Joachim Escher: ''Analysis 1'', Dritte Auflage, Birkhäuser, S. 335.</ref>
+gilt – geometrisch-anschaulich: Zwischen zwei Schnittpunkten einer [[Sekante]] gibt es auf der Kurve einen Punkt mit zur Sekante paralleler [[Tangente]].<ref>Herbert Amann, Joachim Escher: ''Analysis 1''. 3. Auflage. Birkhäuser, S. 335.</ref>
 === Monotonie und Differenzierbarkeit ===
-Ist <math>a < b</math> und <math>f\colon (a,b) \to \mathbb{R}</math> eine differenzierbare Funktion mit <math>f'(x) \not= 0</math> für alle <math>a < x < b</math>, so gelten folgende Aussagen:<ref>Herbert Amann, Joachim Escher: ''Analysis 1'', Dritte Auflage, Birkhäuser, S. 336.</ref>
+Ist <math>a < b</math> und <math>f\colon (a,b) \to \mathbb{R}</math> eine differenzierbare Funktion mit <math>f'(x) \not= 0</math> für alle <math>a < x < b</math>, so gelten folgende Aussagen:<ref>Herbert Amann, Joachim Escher: ''Analysis 1''. 3. Auflage. Birkhäuser, S. 336.</ref>
 * Die Funktion <math>f</math> ist strikt [[Monotone Funktion|monoton]].
 * Es ist <math>f((a,b)) = (c,d)</math> mit irgendwelchen <math>c < d</math>.
@@ Zeile 621: / Zeile 723: @@
 {{Hauptartikel|Regel von de L’Hospital}}
-Als eine Anwendung des Mittelwertsatzes lässt sich eine Beziehung herleiten, die es in manchen Fällen erlaubt, unbestimmte Terme der Gestalt <math>\tfrac00</math> oder <math>\tfrac{\infty}{\infty}</math> zu berechnen.<ref>Herbert Amann, Joachim Escher: ''Analysis 1'', Dritte Auflage, Birkhäuser, S. 346.</ref>
+Als eine Anwendung des [[Mittelwertsatz der Differentialrechnung|Mittelwertsatzes]] lässt sich eine Beziehung herleiten, die es in manchen Fällen erlaubt, unbestimmte Terme der Gestalt <math>\tfrac00</math> oder <math>\tfrac{\infty}{\infty}</math> zu berechnen.<ref>Herbert Amann, Joachim Escher: ''Analysis 1''. 3. Auflage. Birkhäuser, S. 346.</ref>
 Seien <math>f,g\colon (a,b) \to \mathbb{R}</math> differenzierbar und <math>g</math> habe keine Nullstelle. Ferner gelte entweder
-:<math> \lim_{x \to a} f(x) = \lim_{x \to a} g(x) = 0</math>
+: <math> \lim_{x \to a} f(x) = \lim_{x \to a} g(x) = 0</math>
 oder
-:<math> \lim_{x \to a} g(x) = \pm \infty</math>.
+: <math> \lim_{x \to a} f(x) = \lim_{x \to a} g(x) = \pm \infty</math>.
 Dann gilt
-:<math> \lim_{x \to a} \frac{f(x)}{g(x)} = \lim_{x \to a} \frac{f'(x)}{g'(x)},</math>
+: <math> \lim_{x \to a} \frac{f(x)}{g(x)} = \lim_{x \to a} \frac{f'(x)}{g'(x)},</math>
-falls der letzte Grenzwert in <math>\mathbb{R} \cup \{\pm\infty \}</math> existiert.
+unter der Bedingung, dass der letzte [[Grenzwert (Funktion)|Grenzwert]] in <math>\mathbb{R} \cup \{\pm\infty \}</math> existiert.
 == Differentialrechnung bei Funktionenfolgen und Integralen ==
@@ Zeile 637: / Zeile 739: @@
 Bei einer konvergenten, differenzierbaren Funktionenfolge <math>(f_n)_{n \in \mathbb{N}}</math> ist es im Allgemeinen nicht möglich, Rückschlüsse auf den Grenzwert der Folge <math>(f_n')_{n \in \mathbb{N}}</math> zu ziehen, selbst dann nicht, wenn <math>(f_n)_{n \in \mathbb{N}}</math> [[Gleichmäßige Konvergenz|gleichmäßig konvergiert]]. Die analoge Aussage in der Integralrechnung ist hingegen richtig: Bei gleichmäßiger Konvergenz können Limes und Integral vertauscht werden, zumindest dann, wenn die Grenzfunktion „gutartig“ ist.
-Aus dieser Tatsache kann zumindest Folgendes geschlossen werden: Sei <math>f_n\colon [a,b] \to \mathbb{R}</math> eine Folge stetig differenzierbarer Funktionen, sodass die Folge der Ableitungen <math>f_n'\colon [a,b] \to \mathbb{R}</math> ''gleichmäßig'' gegen eine Funktion <math>g\colon [a,b] \to \mathbb{R}</math> konvergiert. Es gelte außerdem, dass die Folge <math>f_n(x_0)</math> für ''mindestens einen'' Punkt <math>x_0 \in [a,b]</math> konvergiert. Dann konvergiert <math>f_n\colon [a,b] \to \mathbb{R}</math> bereits gleichmäßig gegen eine differenzierbare Funktion <math>f\colon [a,b] \to \mathbb{R}</math> und es gilt <math>f' = g</math>.<ref>[[Terence Tao]]: ''Analysis II'', Third Edition, Hindustan Book Agency, S. 64.</ref>
+Aus dieser Tatsache kann zumindest Folgendes geschlossen werden: Sei <math>f_n\colon [a,b] \to \mathbb{R}</math> eine Folge stetig differenzierbarer Funktionen, sodass die Folge der Ableitungen <math>f_n'\colon [a,b] \to \mathbb{R}</math> ''gleichmäßig'' gegen eine Funktion <math>g\colon [a,b] \to \mathbb{R}</math> konvergiert. Es gelte außerdem, dass die Folge <math>f_n(x_0)</math> für ''mindestens einen'' Punkt <math>x_0 \in [a,b]</math> konvergiert. Dann konvergiert <math>f_n\colon [a,b] \to \mathbb{R}</math> bereits gleichmäßig gegen eine differenzierbare Funktion <math>g\colon [a,b] \to \mathbb{R}</math> und es gilt <math>f' = g</math>.<ref>[[Terence Tao]]: ''Analysis II'', Third Edition, Hindustan Book Agency, S. 64.</ref>
 === Vertauschen mit unendlichen Reihen ===
-Sei <math>f_n\colon [a,b] \to \mathbb{R}</math> eine Folge stetig differenzierbarer Funktionen, sodass die Reihe <math>\textstyle \sum_{n=1}^\infty ||f_n'||_\infty</math> konvergiert, wobei <math>||f_n'||_\infty := \sup_{x \in [a,b]} |f_n'(x)|</math> die [[Supremumsnorm]] bezeichnet. Konvergiert außerdem die Reihe <math>\textstyle \sum_{n=1}^\infty f_n(x_0)</math> für ein <math>x_0 \in [a,b]</math>, dann konvergiert die Folge <math>\textstyle g_N := \sum_{n=1}^N f_n</math> gleichmäßig gegen eine differenzierbare Funktion, und es gilt<ref>Terence Tao: ''Analysis II'', Third Edition, Hindustan Book Agency, S. 65.</ref>
+Sei <math>f_n\colon [a,b] \to \mathbb{R}</math> eine Folge stetig differenzierbarer Funktionen, sodass die Reihe <math>\textstyle \sum_{n=1}^\infty ||f_n'||_\infty</math> konvergiert, wobei <math>||f_n'||_\infty := \sup_{x \in [a,b]} |f_n'(x)|</math> die [[Supremumsnorm]] bezeichnet. Konvergiert außerdem die Reihe <math>\textstyle \sum_{n=1}^\infty f_n(x_0)</math> für ein <math>x_0 \in [a,b]</math>, dann konvergiert die Funktionenreihe  <math>\textstyle g_N := \sum_{n=1}^N f_n</math> gleichmäßig gegen eine differenzierbare Funktion, und es gilt<ref>Terence Tao: ''Analysis II'', Third Edition, Hindustan Book Agency, S. 65.</ref>
-:<math> \left( \sum_{n=1}^\infty f_n(x)\right)' = \sum_{n=1}^\infty f_n'(x).</math>
+: <math> \left( \sum_{n=1}^\infty f_n\right)'(x) = \sum_{n=1}^\infty f_n'(x).</math>
 Das Resultat geht auf [[Karl Weierstraß]] zurück.<ref>Jeremy Gray: ''The Real and the Complex: A History of Analysis in the 19th Century'', Springer, S. 201.</ref>
 === Vertauschen mit Integration ===
 Es sei <math>f\colon [a,b] \times [c,d] \to \mathbb{R}</math> eine stetige Funktion, sodass die [[partielle Ableitung]]
-:<math>(t,x) \mapsto \frac{\partial}{\partial x}f(t,x)</math>
+: <math>(t,x) \mapsto \frac{\partial}{\partial x}f(t,x)</math>
 existiert und stetig ist. Dann ist auch
-:<math> g(x) := \int_a^b f(t,x)\mathrm{d}t</math>
+: <math> g(x) := \int_a^b f(t,x)\mathrm{d}t</math>
 differenzierbar, und es gilt
-:<math> g'(x) = \int_a^b \frac{\partial}{\partial x} f(t,x)\mathrm{d}t.</math>
+: <math> g'(x) = \int_a^b \frac{\partial}{\partial x} f(t,x)\mathrm{d}t.</math>
 Diese Regel wird auch als ''Leibnizsche Regel'' bezeichnet.<ref>[[Eberhard Freitag]], Rolf Busam: ''Funktionentheorie 1'', 4. Auflage, Springer, S. 89.</ref>
@@ Zeile 656: / Zeile 758: @@
 Bisher wurde nur von [[Reelle Zahl|reellen]] Funktionen gesprochen. Alle behandelten Regeln lassen sich jedoch auf Funktionen mit [[Komplexe Zahl|komplexen]] Eingaben und Werten übertragen. Dies hat den Hintergrund, dass die komplexen Zahlen <math>\mathbb{C}</math> genau wie die reellen Zahlen einen [[Körper (Algebra)|Körper]] bilden, dort also Addition, Multiplikation und Division erklärt ist. Diese zusätzliche Struktur bildet den entscheidenden Unterschied zu einer Herangehensweise mehrdimensionaler reeller Ableitungen, wenn <math>\mathbb{C}</math> bloß als zweidimensionaler <math>\mathbb{R}</math>-[[Vektorraum]] aufgefasst wird. Ferner lassen sich die euklidischen Abstandsbegriffe der reellen Zahlen (siehe auch [[Euklidischer Raum]]) auf natürliche Weise auf komplexe Zahlen übertragen. Dies erlaubt eine analoge Definition und Behandlung der für die Differentialrechnung wichtigen Begriffe wie [[Folge (Mathematik)|Folge]] und [[Grenzwert (Folge)|Grenzwert]].<ref>Eberhard Freitag, Rolf Busam: ''Funktionentheorie 1'', 4. Auflage, Springer, S. 16 ff.</ref>
-Ist also <math>U \subset \mathbb{C}</math> offen, <math>f\colon U \to \mathbb{C}</math> eine komplexwertige Funktion, so heißt <math>f</math> an der Stelle <math>z \in U</math> '''komplex differenzierbar''', wenn der Grenzwert
+Ist also <math>U \subset \mathbb{C}</math> offen, <math>f\colon U \to \mathbb{C}</math> eine komplexwertige Funktion, so heißt <math>f</math> an der Stelle <math>z \in U</math> ''komplex differenzierbar'', wenn der Grenzwert
-:<math> \lim_{h \to 0} \frac{f(z+h) - f(z)}{h}</math>
+: <math> \lim_{h \to 0} \frac{f(z+h) - f(z)}{h}</math>
-existiert.<ref>Eberhard Freitag, Rolf Busam: ''Funktionentheorie 1'', 4. Auflage, Springer, S. 35.</ref> Dieser wird mit <math>f'(z)</math> bezeichnet und (komplexe) Ableitung von <math>f</math> an der Stelle <math>z</math> genannt. Es ist demnach möglich, den Begriff der Linearisierung ins Komplexe weiterzutragen: Die Ableitung <math>f'(z)</math> ist die „Steigung“ der linearen Funktion, die <math>f</math> bei <math>z</math> optimal approximiert. Allerdings ist darauf zu achten, dass der Wert <math>h</math> im Grenzwert nicht nur reelle, sondern auch komplexe Zahlen (nahe bei 0) annehmen kann. Dies hat zur Folge, dass der Terminus der komplexen Differenzierbarkeit wesentlich restriktiver ist als jener der reellen Differenzierbarkeit. Während im Reellen nur zwei Richtungen im Differenzenquotienten betrachtet werden mussten, sind es im Komplexen unendlich viele Richtungen, da diese keine Gerade, sondern eine Ebene aufspannen. So ist beispielsweise die Betragsfunktion <math>z \mapsto |z|</math> ''nirgends'' komplex differenzierbar. Eine komplexe Funktion ist genau dann komplex differenzierbar in einem Punkt, wenn sie dort die [[Cauchy-Riemannsche partielle Differentialgleichungen|Cauchy-Riemannschen Differentialgleichungen]] erfüllt.<ref>Eberhard Freitag, Rolf Busam: ''Funktionentheorie 1'', 4. Auflage, Springer, S. 42–43.</ref>
+existiert.<ref>Eberhard Freitag, Rolf Busam: ''Funktionentheorie 1'', 4. Auflage, Springer, S. 35.</ref> Dieser wird mit <math>f'(z)</math> bezeichnet und ''(komplexe) Ableitung von <math>f</math> an der Stelle <math>z</math>'' genannt. Es ist demnach möglich, den Begriff der Linearisierung ins Komplexe weiterzutragen: Die Ableitung <math>f'(z)</math> ist die „Steigung“ der linearen Funktion, die <math>f</math> bei <math>z</math> optimal approximiert. Allerdings ist darauf zu achten, dass der Wert <math>h</math> im Grenzwert nicht nur reelle, sondern auch komplexe Zahlen (nahe bei 0) annehmen kann. Dies hat zur Folge, dass der Terminus der komplexen Differenzierbarkeit wesentlich restriktiver ist als jener der reellen Differenzierbarkeit. Während im Reellen nur zwei Richtungen im Differenzenquotienten betrachtet werden mussten, sind es im Komplexen unendlich viele Richtungen, da diese keine Gerade, sondern eine Ebene aufspannen. So ist beispielsweise die Betragsfunktion <math>z \mapsto |z|</math> nirgends komplex differenzierbar. Eine komplexe Funktion ist genau dann komplex differenzierbar in einem Punkt, wenn sie dort die [[Cauchy-Riemannsche partielle Differentialgleichungen|Cauchy-Riemannschen Differentialgleichungen]] erfüllt und [[total differenzierbar]] ist.<ref>Eberhard Freitag, Rolf Busam: ''Funktionentheorie 1'', 4. Auflage, Springer, S. 42–43.</ref>
-Trotz (bzw. ''gerade wegen'') des viel einschränkenderen Begriffs der komplexen Differenzierbarkeit übertragen sich alle üblichen Rechenregeln der reellen Differentialrechnung in die komplexe Differentialrechnung. Dazu gehören die Ableitungsregeln, also zum Beispiel Summen-, Produkt- und Kettenregel, wie auch die Umkehrregel für inverse Funktionen. Viele Funktionen, wie Potenzen, die Exponentialfunktion oder der Logarithmus, haben natürliche Fortsetzungen in die komplexen Zahlen und besitzen weiterhin ihre charakteristischen Eigenschaften. Von diesem Gesichtspunkt her ist die komplexe Differentialrechnung mit ihrem reellen Analogon identisch.
+Trotz (bzw. gerade wegen) des viel einschränkenderen Begriffs der komplexen Differenzierbarkeit übertragen sich alle üblichen Rechenregeln der reellen Differentialrechnung in die komplexe Differentialrechnung. Dazu gehören die Ableitungsregeln, also zum Beispiel Summen-, Produkt- und Kettenregel, wie auch die Umkehrregel für inverse Funktionen. Viele Funktionen, wie Potenzen, die Exponentialfunktion oder der Logarithmus, haben natürliche Fortsetzungen in die komplexen Zahlen und besitzen weiterhin ihre charakteristischen Eigenschaften. Von diesem Gesichtspunkt her ist die komplexe Differentialrechnung mit ihrem reellen Analogon identisch.
-Wenn eine Funktion <math>f</math> in ''ganz'' <math>U</math> komplex differenzierbar ist, nennt man sie auch eine „in <math>U</math> [[holomorphe Funktion]]“.<ref>Eberhard Freitag, Rolf Busam: ''Funktionentheorie 1'', 4. Auflage, Springer, S. 45.</ref> Holomorphe Funktionen haben bedeutende Eigenschaften. So ist zum Beispiel jede holomorphe Funktion bereits (in jedem Punkt) beliebig oft differenzierbar. Die daraus aufkommende Klassifizierungfrage holomorpher Funktionen ist Gegenstand der [[Funktionentheorie]]. Es stellt sich heraus, dass im komplex-eindimensionalen Fall der Begriff holomorph genau äquivalent zum Begriff [[Analytische Funktion|analytisch]] ist. Demnach ist jede holomorphe Funktion analytisch, und umgekehrt. Ist eine Funktion sogar in ganz <math>\mathbb{C}</math> holomorph, so nennt man sie ''[[Ganze Funktion|ganz]]''. Beispiele für ganze Funktionen sind die Potenzfunktionen <math>z \mapsto z^n</math> mit natürlichen Zahlen <math>n</math> sowie <math>z \mapsto e^z</math>, <math>z \mapsto \sin(z)</math> und <math>z \mapsto \cos(z)</math>.
+Wenn eine Funktion <math>f</math> in ganz <math>U</math> komplex differenzierbar ist, nennt man sie auch eine ''in <math>U</math> [[holomorphe Funktion]]''.<ref>Eberhard Freitag, Rolf Busam: ''Funktionentheorie 1'', 4. Auflage, Springer, S. 45.</ref> Holomorphe Funktionen haben bedeutende Eigenschaften. So ist zum Beispiel jede holomorphe Funktion bereits (in jedem Punkt) beliebig oft differenzierbar. Die daraus aufkommende Klassifizierungfrage holomorpher Funktionen ist Gegenstand der [[Funktionentheorie]]. Es stellt sich heraus, dass im komplex-eindimensionalen Fall der Begriff holomorph äquivalent zum Begriff [[Analytische Funktion|analytisch]] ist. Demnach ist jede holomorphe Funktion analytisch, und umgekehrt. Ist eine Funktion sogar in ganz <math>\mathbb{C}</math> holomorph, so nennt man sie ''[[Ganze Funktion|ganz]]''. Beispiele für ganze Funktionen sind die Potenzfunktionen <math>z \mapsto z^n</math> mit natürlichen Zahlen <math>n</math> sowie <math>z \mapsto e^z</math>, <math>z \mapsto \sin(z)</math> und <math>z \mapsto \cos(z)</math>.
 == Differentialrechnung mehrdimensionaler Funktionen ==
@@ Zeile 672: / Zeile 774: @@
 Es sei <math>U \subset \R^n</math> offen, <math>f\colon U \to \R^m</math> eine Funktion, <math>x_0 \in U</math> und <math>v \in \R^n \setminus \{0\}</math> ein (Richtungs-)Vektor. Aufgrund der Offenheit von <math>U</math> gibt es ein <math>\varepsilon > 0</math> mit <math>x_0 + hv \in U</math> für alle <math>|h| < \varepsilon</math>, weshalb die Funktion <math>(-\varepsilon, \varepsilon) \to \R^m</math> mit <math>h \mapsto f(x_0 + hv)</math> wohldefiniert ist. Ist diese Funktion in <math>h=0</math> differenzierbar, so heißt ihre Ableitung '''Richtungsableitung''' von <math>f</math> an der Stelle <math>x_0</math> '''in der Richtung''' <math>v</math> und wird meistens mit <math>D_vf(x_0)</math> bezeichnet.<ref name="AE157" /> Es gilt:
-:<math> D_vf(x_0) = \lim_{h\to 0} \frac{f(x_0 + hv) - f(x_0)}{h}.</math>
+: <math> D_vf(x_0) = \lim_{h\to 0} \frac{f(x_0 + hv) - f(x_0)}{h}.</math>
 Es besteht ein Zusammenhang zwischen der Richtungsableitung und der Jacobi-Matrix. Ist <math>f</math> differenzierbar, dann existiert <math>D_vf(x_0)</math> und es gilt in einer Umgebung von <math>x_0</math>:
-:<math>f(x_0 + hv) = f(x_0) + J_f(x_0)(hv) + o(|| hv ||) = f(x_0) + h J_f(x_0)v + o(|h|),</math>
+: <math>f(x_0 + hv) = f(x_0) + J_f(x_0)(hv) + o(|| hv ||) = f(x_0) + h J_f(x_0)v + o(|h|),</math>
-wobei die Schreibweise <math>o</math> das entsprechende [[Landau-Symbol]] bezeichnet.<ref>Herbert Amann, Joachim Escher: ''Analysis 2'', Zweite Auflage, Birkhäuser, S. 158.</ref>
+wobei die Schreibweise <math>o</math> das entsprechende [[Landau-Symbol]] bezeichnet.<ref>Herbert Amann, Joachim Escher: ''Analysis 2''. 2. Auflage. Birkhäuser, S. 158.</ref>
 Es werde als Beispiel eine Funktion <math>\mathbb{R}^3\to\mathbb{R}</math> betrachtet, also ein [[Skalarfeld]]. Diese könnte eine [[Temperatur]]funktion sein: In Abhängigkeit vom Ort wird die Temperatur im Zimmer gemessen, um zu beurteilen, wie effektiv die Heizung ist. Wird das [[Thermometer]] in eine bestimmte Raumrichtung bewegt, ist eine Veränderung der Temperatur festzustellen. Dies entspricht genau der entsprechenden Richtungsableitung.
@@ Zeile 684: / Zeile 786: @@
 Die Richtungsableitungen in spezielle Richtungen <math>e_j</math>, nämlich in die der Koordinatenachsen mit der Länge <math>||e_j|| = ||v|| = 1</math>, nennt man die '''partiellen Ableitungen'''.
-Insgesamt lassen sich für eine Funktion in <math>n</math> Variablen <math>n</math> partielle Ableitungen errechnen:<ref>Herbert Amann, Joachim Escher: ''Analysis 2'', Zweite Auflage, Birkhäuser, S. 159.</ref>
+Insgesamt lassen sich für eine Funktion in <math>n</math> Variablen <math>n</math> partielle Ableitungen errechnen:<ref>Herbert Amann, Joachim Escher: ''Analysis 2''. 2. Auflage. Birkhäuser, S. 159.</ref>
-:<math>\frac{\partial f(x_1, \dots, x_n)}{\partial x_i} =
+: <math>\frac{\partial f(x_1, \dots, x_n)}{\partial x_i} =
   \lim_{h_i \to 0}
   \frac{f(x_1, \dots, x_i+h_i, \dots, x_n)
@@ Zeile 693: / Zeile 795: @@
 </math>
-Die einzelnen partiellen Ableitungen einer Funktion lassen sich auch gebündelt als [[Gradient (Mathematik)|Gradient]] oder [[Nablavektor]] anschreiben:<ref>Herbert Amann, Joachim Escher: ''Analysis 2'', Zweite Auflage, Birkhäuser, S. 165.</ref>
+Die einzelnen partiellen Ableitungen einer Funktion lassen sich auch gebündelt als [[Gradient (Mathematik)|Gradient]] oder [[Nablavektor]] anschreiben:<ref>Herbert Amann, Joachim Escher: ''Analysis 2''. 2. Auflage. Birkhäuser, S. 165.</ref>
-:<math>\mathrm{grad}(f)(x_1, \dots, x_n) = \nabla f(x_1, \dots, x_n) = \left( \frac{\partial f(x_1, \dots, x_n)}{\partial x_1}, \frac{\partial f(x_1, \dots, x_n)}{\partial x_2}, \dots, \frac{\partial f(x_1, \dots, x_n)}{\partial x_n}\right).</math>
+: <math>\mathrm{grad}(f)(x_1, \dots, x_n) = \nabla f(x_1, \dots, x_n) = \left( \frac{\partial f(x_1, \dots, x_n)}{\partial x_1}, \frac{\partial f(x_1, \dots, x_n)}{\partial x_2}, \dots, \frac{\partial f(x_1, \dots, x_n)}{\partial x_n}\right).</math>
 Meist wird der Gradient als [[Zeilenvektor]] (also „liegend“) geschrieben. In manchen Anwendungen, besonders in der Physik, ist jedoch auch die Schreibweise als [[Spaltenvektor]] (also „stehend“) üblich. Partielle Ableitungen können selbst differenzierbar sein und ihre partiellen Ableitungen lassen sich dann in der sogenannten [[Hesse-Matrix]] anordnen.
@@ Zeile 700: / Zeile 802: @@
 {{Hauptartikel|Totale Differenzierbarkeit}}
-Eine Funktion <math>f\colon U \subset \mathbb{R}^n \to \mathbb{R}^m</math> mit <math>(x_1, \dots, x_n) \mapsto (f_1(x_1, \dots, x_n), \dots, f_m(x_1, \dots, x_n))</math>, wobei <math>U</math> eine [[offene Menge]] ist, heißt in einem Punkt <math>x_0 \in U</math> '''total differenzierbar''' (oder auch nur '''differenzierbar''', manchmal auch '''Fréchet-differenzierbar'''<ref name="AE157">Herbert Amann, Joachim Escher: ''Analysis 2'', Zweite Auflage, Birkhäuser, S. 157.</ref>), falls eine [[lineare Abbildung]] <math>L\colon \mathbb{R}^n \to \mathbb{R}^m</math> existiert, sodass
+Eine Funktion <math>f\colon U \subset \mathbb{R}^n \to \mathbb{R}^m</math> mit <math>(x_1, \dots, x_n) \mapsto (f_1(x_1, \dots, x_n), \dots, f_m(x_1, \dots, x_n))</math>, wobei <math>U</math> eine [[offene Menge]] ist, heißt in einem Punkt <math>x_0 \in U</math> '''total differenzierbar''' (oder auch nur '''differenzierbar''', manchmal auch '''Fréchet-differenzierbar'''<ref name="AE157">Herbert Amann, Joachim Escher: ''Analysis 2''. 2. Auflage. Birkhäuser, S. 157.</ref>), falls eine [[lineare Abbildung]] <math>L\colon \mathbb{R}^n \to \mathbb{R}^m</math> existiert, sodass
-:<math>\lim_{h \to 0} \frac{f(x_{0}+h)-f(x_0)-L(h)}{\|h\|} = 0</math>
+: <math>\lim_{h \to 0} \frac{f(x_{0}+h)-f(x_0)-L(h)}{\|h\|} = 0</math>
-gilt.<ref>Herbert Amann, Joachim Escher: ''Analysis 2'', Zweite Auflage, Birkhäuser, S. 154–157.</ref> Für den eindimensionalen Fall stimmt diese Definition mit der oben angegebenen überein. Die lineare Abbildung <math>L</math> ist bei Existenz eindeutig bestimmt, ist also insbesondere unabhängig von der Wahl [[Äquivalente Normen|äquivalenter Normen]]. Die Tangente wird daher durch die lokale Linearisierung der Funktion abstrahiert. Die Matrixdarstellung der ersten Ableitung von <math>f</math> nennt man [[Jacobi-Matrix]]. Es handelt sich um eine <math>(m \times n)</math>-Matrix. Für <math>m=1</math> erhält man den [[#Partielle Ableitungen|weiter oben]] beschriebenen Gradienten.
+gilt.<ref>Herbert Amann, Joachim Escher: ''Analysis 2''. 2. Auflage. Birkhäuser, S. 154–157.</ref> Für den eindimensionalen Fall stimmt diese Definition mit der oben angegebenen überein. Die lineare Abbildung <math>L</math> ist bei Existenz eindeutig bestimmt, ist also insbesondere unabhängig von der Wahl [[Äquivalente Normen|äquivalenter Normen]]. Die Tangente wird daher durch die lokale Linearisierung der Funktion abstrahiert. Die Matrixdarstellung der ersten Ableitung von <math>f</math> nennt man [[Jacobi-Matrix]]. Es handelt sich um eine <math>(m \times n)</math>-Matrix. Für <math>m=1</math> erhält man den [[#Partielle Ableitungen|weiter oben]] beschriebenen Gradienten.
 Zwischen den partiellen Ableitungen und der totalen Ableitung besteht folgender Zusammenhang: Existiert in einem Punkt die totale Ableitung, so existieren dort auch alle partiellen Ableitungen. In diesem Fall stimmen die partiellen Ableitungen mit den Koeffizienten der Jacobi-Matrix überein:
-:<math>L = J_f(x_0) = \begin{pmatrix}
+: <math>L = J_f(x_0) = \begin{pmatrix}
 \frac{\partial f_1}{\partial x_1}(x_0) & \frac{\partial f_1}{\partial x_2}(x_0) & \ldots & \frac{\partial f_1}{\partial x_n}(x_0) \\
 \vdots & \vdots & \ddots & \vdots \\
 \frac{\partial f_m}{\partial x_1}(x_0) & \frac{\partial f_m}{\partial x_2}(x_0) & \ldots & \frac{\partial f_m}{\partial x_n} (x_0)
 \end{pmatrix}.</math>
-Umgekehrt folgt aus der Existenz der partiellen Ableitungen in einem Punkt <math>x_0</math> nicht zwingend die totale Differenzierbarkeit, ja nicht einmal die Stetigkeit. Sind die partiellen Ableitungen jedoch zusätzlich in einer Umgebung von <math>x_0</math> [[Stetige Funktion|stetig]], dann ist die Funktion in <math>x_0</math> auch total differenzierbar.<ref>Herbert Amann, Joachim Escher: ''Analysis 2'', Zweite Auflage, Birkhäuser, S. 158–163.</ref>
+Umgekehrt folgt aus der Existenz der partiellen Ableitungen in einem Punkt <math>x_0</math> nicht zwingend die totale Differenzierbarkeit, ja nicht einmal die Stetigkeit. Sind die partiellen Ableitungen jedoch zusätzlich in einer Umgebung von <math>x_0</math> [[Stetige Funktion|stetig]], dann ist die Funktion in <math>x_0</math> auch total differenzierbar.<ref>Herbert Amann, Joachim Escher: ''Analysis 2''. 2. Auflage. Birkhäuser, S. 158–163.</ref>
 === Rechenregeln der mehrdimensionalen Differentialrechnung ===
@@ Zeile 719: / Zeile 821: @@
 Es seien <math>U \subset \mathbb{R}^n</math> und <math>V \subset \mathbb{R}^m</math> offen sowie <math>f\colon U \to \R^m</math> und <math>g\colon V \to \R^\ell</math> in <math>x_0 \in U</math> bzw. <math>y_0 := f(x_0)</math> differenzierbar, wobei <math>f(U) \subset V</math>. Dann ist <math>h\colon U \to \R^\ell</math> mit <math>h(x) := g(f(x))</math> in <math>x_0</math> differenzierbar mit Jacobi-Matrix
-:<math> J_h(x_0) = J_{g \circ f}(x_0) = J_g(f(x_0)) J_f(x_0).</math>
+: <math> J_h(x_0) = J_{g \circ f}(x_0) = J_g(f(x_0)) J_f(x_0).</math>
-Mit anderen Worten, die Jacobi-Matrix der Komposition <math>h = g \circ f</math> ist das Produkt der Jacobi-Matrizen von <math>g</math> und <math>f</math>.<ref>Herbert Amann, Joachim Escher: ''Analysis 2'', Zweite Auflage, Birkhäuser, S. 173.</ref> Es ist zu beachten, dass die Reihenfolge der Faktoren im Gegensatz zum klassischen eindimensionalen Fall eine Rolle spielt.
+Mit anderen Worten, die Jacobi-Matrix der Komposition <math>h = g \circ f</math> ist das Produkt der Jacobi-Matrizen von <math>g</math> und <math>f</math>.<ref>Herbert Amann, Joachim Escher: ''Analysis 2''. 2. Auflage. Birkhäuser, S. 173.</ref> Es ist zu beachten, dass die Reihenfolge der Faktoren im Gegensatz zum klassischen eindimensionalen Fall eine Rolle spielt.
 ==== Produktregel ====
 {{Siehe auch|Produktregel#Höherdimensionaler Definitionsbereich|titel1=Mehrdimensionale Produktregel}}
-Mit Hilfe der Kettenregel kann die Produktregel auf ''reellwertige'' Funktionen mit höherdimensionalem Definitionsbereich verallgemeinert werden.<ref>Herbert Amann, Joachim Escher: ''Analysis 2'', Zweite Auflage, Birkhäuser, S. 175.</ref> Ist <math>U \subset \R^n</math> offen und sind <math>f, g\colon U \to \R</math> beide in <math>x_0 \in U</math> differenzierbar, so folgt
+Mit Hilfe der Kettenregel kann die Produktregel auf ''reellwertige'' Funktionen mit höherdimensionalem Definitionsbereich verallgemeinert werden.<ref>Herbert Amann, Joachim Escher: ''Analysis 2''. 2. Auflage. Birkhäuser, S. 175.</ref> Ist <math>U \subset \R^n</math> offen und sind <math>f, g\colon U \to \R</math> beide in <math>x_0 \in U</math> differenzierbar, so folgt
-:<math>J_{fg}(x_0) = f(x_0)J_g(x_0) + g(x_0)J_f(x_0)</math>
+: <math>J_{fg}(x_0) = f(x_0)J_g(x_0) + g(x_0)J_f(x_0)</math>
 oder in der Gradientenschreibweise
-:<math>\nabla(fg)(x_0) = f(x_0)\nabla g(x_0) + g(x_0)\nabla f(x_0).</math>
+: <math>\nabla(fg)(x_0) = f(x_0)\nabla g(x_0) + g(x_0)\nabla f(x_0).</math>
 ==== Funktionenfolgen ====
@@ Zeile 734: / Zeile 836: @@
 * <math>(f_k)</math> konvergiert punktweise gegen <math>f</math>,
 * <math>(J_{f_k})</math> konvergiert lokal gleichmäßig gegen <math>g</math>.
-Dann ist <math>f</math> stetig differenzierbar auf <math>U</math> und es gilt <math>J_f(x) = g(x)</math>.<ref>Herbert Amann, Joachim Escher: ''Analysis 2'', Zweite Auflage, Birkhäuser, S. 177.</ref>
+Dann ist <math>f</math> stetig differenzierbar auf <math>U</math> und es gilt <math>J_f(x) = g(x)</math>.<ref>Herbert Amann, Joachim Escher: ''Analysis 2''. 2. Auflage. Birkhäuser, S. 177.</ref>
 === Implizite Differentiation ===
@@ Zeile 741: / Zeile 843: @@
 Ist eine Funktion <math>x \mapsto y(x)</math> durch eine implizite Gleichung <math>F(x,y(x)) = 0</math> gegeben, so folgt aus der [[Mehrdimensionale Kettenregel|mehrdimensionalen Kettenregel]], die für Funktionen mehrerer Variablen gilt,
-:<math>F_x + F_yy' = 0.</math>
+: <math>F_x + F_yy' = 0.</math>
 Für die Ableitung der Funktion <math>y</math> ergibt sich daher
-:<math>y' = -\frac{F_x}{F_y}</math>
+: <math>y' = -\frac{F_x}{F_y}</math>
 mit <math>F_x = \frac{\partial F}{\partial x}, F_y = \frac{\partial F}{\partial y}</math> und <math>F_y \neq 0.</math>
@@ Zeile 754: / Zeile 856: @@
 Die Differentiationsreihenfolge ist bei der Berechnung partieller Ableitungen höherer Ordnung unerheblich, wenn alle partiellen Ableitungen bis zu dieser Ordnung (einschließlich) stetig sind. Dies bedeutet konkret: Ist <math>U \subset \R^n</math> offen und die Funktion <math>f\colon U \to \R</math> zweimal stetig differenzierbar (d.&nbsp;h., alle zweifachen partiellen Ableitungen existieren und sind stetig), so gilt für alle <math>1 \leq j,k \leq n</math> und <math>x \in U</math>:
-:<math> \frac{\partial}{\partial x_j} \frac{\partial}{\partial x_k} f(x_1, \dots, x_n) = \frac{\partial}{\partial x_k} \frac{\partial}{\partial x_j} f(x_1, \dots, x_n).</math>
+: <math> \frac{\partial}{\partial x_j} \frac{\partial}{\partial x_k} f(x_1, \dots, x_n) = \frac{\partial}{\partial x_k} \frac{\partial}{\partial x_j} f(x_1, \dots, x_n).</math>
-Der Satz wird falsch, wenn die Stetigkeit der zweifachen partiellen Ableitungen weggelassen wird.<ref>Herbert Amann, Joachim Escher: ''Analysis 2'', Zweite Auflage, Birkhäuser, S. 192.</ref>
+Der Satz wird falsch, wenn die Stetigkeit der zweifachen partiellen Ableitungen weggelassen wird.<ref>Herbert Amann, Joachim Escher: ''Analysis 2''. 2. Auflage. Birkhäuser, S. 192.</ref>
 ==== Satz von der impliziten Funktion ====
 {{Hauptartikel|Satz von der impliziten Funktion}}
-Der Satz von der impliziten Funktion besagt, dass Funktionsgleichungen auflösbar sind, falls die [[Jacobi-Matrix]] bezüglich bestimmter Variablen lokal invertierbar ist.<ref>Herbert Amann, Joachim Escher: ''Analysis 2'', Zweite Auflage, Birkhäuser, S. 230–232.</ref>
+Der Satz von der impliziten Funktion besagt, dass Funktionsgleichungen auflösbar sind, falls die [[Jacobi-Matrix]] bezüglich bestimmter Variablen lokal invertierbar ist.<ref>Herbert Amann, Joachim Escher: ''Analysis 2''. 2. Auflage. Birkhäuser, S. 230–232.</ref>
 ==== Mittelwertsatz ====
-Über den höherdimensionalen Mittelwertsatz gelingt es, eine Funktion entlang einer Verbindungsstrecke abzuschätzen, wenn die dortigen Ableitungen bekannt sind. Seien <math>U \subset \R^n</math> offen und <math>f\colon U \to \R^m</math> differenzierbar. Gegeben seien zudem zwei Punkte <math>x,y \in U</math>, sodass die Verbindungsstrecke <math>\{ x + t(y-x) \mid 0 \leq t \leq 1 \}</math> eine Teilmenge von <math>U</math> ist. Dann postuliert der Mittelwertsatz die Ungleichung:<ref>Herbert Amann, Joachim Escher: ''Analysis 2'', Zweite Auflage, Birkhäuser, S. 176.</ref>
+Über den höherdimensionalen Mittelwertsatz gelingt es, eine Funktion entlang einer Verbindungsstrecke abzuschätzen, wenn die dortigen Ableitungen bekannt sind. Seien <math>U \subset \R^n</math> offen und <math>f\colon U \to \R^m</math> differenzierbar. Gegeben seien zudem zwei Punkte <math>x,y \in U</math>, sodass die Verbindungsstrecke <math>\{ x + t(y-x) \mid 0 \leq t \leq 1 \}</math> eine Teilmenge von <math>U</math> ist. Dann postuliert der Mittelwertsatz die Ungleichung:<ref>Herbert Amann, Joachim Escher: ''Analysis 2''. 2. Auflage. Birkhäuser, S. 176.</ref>
-:<math> ||f(y) - f(x) || \leq \sup_{0 \leq t \leq 1} || J_f(x + t(y-x))|| \cdot ||y - x||.</math>
+: <math> ||f(y) - f(x) || \leq \sup_{0 \leq t \leq 1} || J_f(x + t(y-x))|| \cdot ||y - x||.</math>
 Eine präzisere Aussage ist indes für den Fall ''reellwertiger'' Funktionen in mehreren Veränderlichen möglich, siehe auch [[Mittelwertsatz der Differentialrechnung#Mittelwertsatz für reellwertige Funktionen mehrerer Variablen|Mittelwertsatz für reellwertige Funktionen mehrerer Variablen]].
 === Höhere Ableitungen im Mehrdimensionalen ===
 Auch im Fall höherdimensionaler Funktionen können höhere Ableitungen betrachtet werden. Die Konzepte haben jedoch einige starke Unterschiede zum klassischen Fall, die besonders im Falle mehrerer Veränderlicher in Erscheinung treten. Bereits die Jacobi-Matrix lässt erkennen, dass die Ableitung einer höherdimensionalen Funktion an einer Stelle nicht mehr die gleiche Gestalt wie der dortige Funktionswert haben muss. Wird nun die erste Ableitung <math>x \mapsto J_f(x)</math> erneut abgeleitet, so ist die erneute „Jacobi-Matrix“ im Allgemeinen ein noch umfangreicheres Objekt. Für dessen Beschreibung ist das Konzept der [[Multilineare Abbildung|multilinearen Abbildungen]] bzw. des [[Tensor]]s erforderlich. Ist <math>\partial^0 f := f</math>, so ordnet <math>\partial f\colon U \to \mathcal{L}(\R^n, \R^m)</math> jedem Punkt eine <math>(m\times n)</math>-Matrix (lineare Abbildung von <math>\R^n</math> nach <math>\R^m</math>) zu. Induktiv definiert man für die höheren Ableitungen
-:<math> \partial^\ell f(x_0) := \partial (\partial^{\ell-1} f)(x_0) \in \mathcal{L}(\R^n, \mathcal{L}^{\ell-1}(\R^n, \R^m)) = \mathcal{L}^{\ell}(\R^n, \R^m),</math>
+: <math> \partial^\ell f(x_0) := \partial (\partial^{\ell-1} f)(x_0) \in \mathcal{L}(\R^n, \mathcal{L}^{\ell-1}(\R^n, \R^m)) = \mathcal{L}^{\ell}(\R^n, \R^m),</math>
-wobei <math> \mathcal{L}^{\ell}(\R^n, \R^m)</math> der Raum der <math>\ell</math>-multilinearen Abbildungen von <math>\underbrace{\R^n \times \cdots \times \R^n}_{\ell-\mathrm{mal}}</math> nach <math>\R^m</math> bezeichnet. Analog wie im eindimensionalen Fall definiert man die Räume der <math>\ell</math>-mal stetig differenzierbaren Funktionen auf <math>U \subset \R^n</math> durch <math>C^\ell(U, \R^m)</math>, und die glatten Funktion via<ref>Herbert Amann, Joachim Escher: ''Analysis 2'', Zweite Auflage, Birkhäuser, S. 188.</ref>
+wobei <math> \mathcal{L}^{\ell}(\R^n, \R^m)</math> der Raum der <math>\ell</math>-multilinearen Abbildungen von <math>\underbrace{\R^n \times \cdots \times \R^n}_{\ell-\mathrm{mal}}</math> nach <math>\R^m</math> bezeichnet. Analog wie im eindimensionalen Fall definiert man die Räume der <math>\ell</math>-mal stetig differenzierbaren Funktionen auf <math>U \subset \R^n</math> durch <math>C^\ell(U, \R^m)</math>, und die glatten Funktion via<ref>Herbert Amann, Joachim Escher: ''Analysis 2''. 2. Auflage. Birkhäuser, S. 188.</ref>
-:<math>C^\infty(U, \R^m) := \bigcap_{\ell = 1}^\infty C^\ell(U, \R^m).</math>
+: <math>C^\infty(U, \R^m) := \bigcap_{\ell = 1}^\infty C^\ell(U, \R^m).</math>
 Auch die Konzepte der Taylor-Formeln und der Taylorreihe lassen sich auf den höherdimensionalen Fall verallgemeinern, siehe auch [[Taylor-Formel#Taylor-Formel im Mehrdimensionalen|Taylor-Formel im Mehrdimensionalen]] bzw. [[Taylorreihe#Mehrdimensionale Taylorreihe|mehrdimensionale Taylorreihe]].
 === Anwendungen ===
 ==== Fehlerrechnung ====
-Ein Anwendungsbeispiel der Differentialrechnung mehrerer Veränderlicher betrifft die [[Fehlerrechnung]], zum Beispiel im Kontext der [[Experimentalphysik]]. Während man im einfachsten Falle die zu bestimmende Größe direkt messen kann, wird es meistens der Fall sein, dass sie sich durch einen funktionalen Zusammenhang aus einfacher zu messenden Größen ergibt. Typischerweise hat jede Messung eine gewisse Unsicherheit, die man durch Angabe des ''Messfehlers'' zu quantifizieren versucht.<ref name="Arens794">T. Arens et al.: ''Mathematik'', Spektrum, S. 794.</ref>
+Ein Anwendungsbeispiel der Differentialrechnung mehrerer Veränderlicher betrifft die [[Fehlerrechnung]], zum Beispiel im Kontext der [[Experimentalphysik]]. Während man im einfachsten Falle die zu bestimmende Größe direkt messen kann, wird es meistens der Fall sein, dass sie sich durch einen funktionalen Zusammenhang aus einfacher zu messenden Größen ergibt. Typischerweise hat jede Messung eine gewisse Unsicherheit, die man durch Angabe des ''Messfehlers'' zu quantifizieren versucht.<ref name="Arens794">T. Arens et al.: ''Mathematik''. Spektrum, S. 794.</ref>
 Bezeichnet zum Beispiel <math>V\colon \R_{>0}^3 \to \R</math> mit <math>(l,b,h) \mapsto lbh</math> das Volumen eines [[Quader]]s, so könnte das Ergebnis <math>V</math> experimentell ermittelt werden, indem man Länge <math>l</math>, Breite <math>b</math> und Höhe <math>h</math> einzeln misst. Treten bei diesen die Fehler <math>\Delta l</math>, <math>\Delta b</math> und <math>\Delta h</math> auf, so gilt für den Fehler in der Volumenberechnung:
-:<math> \Delta V = bh \Delta l + hl \Delta b + lb \Delta h.</math>
+: <math> \Delta V = bh \Delta l + hl \Delta b + lb \Delta h.</math>
 Allgemein gilt, dass wenn eine zu messende Größe funktional von einzeln gemessenen Größen <math>x_1, \dots, x_n</math> durch <math>f\colon \R^n \to \R</math> abhängt und bei deren Messungen jeweils die Fehler <math>\Delta x_k</math> entstehen, der Fehler der daraus errechneten Größe ungefähr bei
-:<math> \Delta f = \sum_{k=1}^n \left| \frac{\partial f}{\partial x_k}(\boldsymbol{m})\right| \Delta x_k</math>
+: <math> \Delta f = \sum_{k=1}^n \left| \frac{\partial f}{\partial x_k}(\boldsymbol{m})\right| \Delta x_k</math>
 liegen wird. Dabei bezeichnet der Vektor <math>\boldsymbol{m}</math> die exakten Terme der einzelnen Messungen.<ref name="Arens794" />
 ==== Lösungsnäherung von Gleichungssystemen ====
 Viele höhere Gleichungssysteme lassen sich nicht algebraisch geschlossen lösen. In manchen Fällen kann man aber zumindest eine ungefähre Lösung ermitteln. Ist das System durch <math>f(\boldsymbol{x}) = \boldsymbol{0}</math> gegeben, mit einer stetig differenzierbaren Funktion <math>f\colon \R^m \to \R^m</math>, so konvergiert die Iterationsvorschrift
-:<math> \boldsymbol{x}_{n+1} := \boldsymbol{x}_n - J_f(\boldsymbol{x}_n)^{-1} f(\boldsymbol{x}_n)</math>
+: <math> \boldsymbol{x}_{n+1} := \boldsymbol{x}_n - J_f(\boldsymbol{x}_n)^{-1} f(\boldsymbol{x}_n)</math>
-unter gewissen Voraussetzungen gegen eine Nullstelle. Dabei bezeichnet <math>J_f(\boldsymbol{x}_n)^{-1}</math> das [[Inverse Matrix|Inverse]] der Jacobi-Matrix zu <math>f</math>. Der Prozess stellt eine Verallgemeinerung des klassischen eindimensionalen [[Newton-Verfahren]]s dar. Aufwendig ist allerdings die Berechnung dieser Inversen in jedem Schritt. Unter Verschlechterung der Konvergenzrate kann in manchen Fällen die Modifikation <math>J_f(\boldsymbol{x}_0)^{-1}</math> statt <math>J_f(\boldsymbol{x}_n)^{-1}</math> vorgenommen werden, womit nur eine Matrix invertiert werden muss.<ref name="Arens803">T. Arens et al.: ''Mathematik'', Spektrum, S. 803.</ref>
+unter gewissen Voraussetzungen gegen eine Nullstelle. Dabei bezeichnet <math>J_f(\boldsymbol{x}_n)^{-1}</math> das [[Inverse Matrix|Inverse]] der Jacobi-Matrix zu <math>f</math>. Der Prozess stellt eine Verallgemeinerung des klassischen eindimensionalen [[Newton-Verfahren]]s dar. Aufwendig ist allerdings die Berechnung dieser Inversen in jedem Schritt. Unter Verschlechterung der Konvergenzrate kann in manchen Fällen die Modifikation <math>J_f(\boldsymbol{x}_0)^{-1}</math> statt <math>J_f(\boldsymbol{x}_n)^{-1}</math> vorgenommen werden, womit nur eine Matrix invertiert werden muss.<ref name="Arens803">T. Arens et al.: ''Mathematik''. Spektrum, S. 803.</ref>
 ==== Extremwertaufgaben ====
 Auch für die Kurvendiskussion von Funktionen <math>f\colon \R^m \to \R</math> ist die Auffindung von Minima bzw. Maxima, zusammengefasst ''Extrema'', ein wesentliches Anliegen. Die mehrdimensionale Differentialrechnung liefert Möglichkeiten, diese zu bestimmen, sofern die betrachtete Funktion zweimal stetig differenzierbar ist. Analog zum Eindimensionalen besagt die notwendige Bedingung für die Existenz für Extrema, dass im besagten Punkt <math>\boldsymbol{x}</math> alle partiellen Ableitungen 0 sein müssen, also
-:<math> \frac{\partial f}{\partial x_j}(\boldsymbol{x}) = 0</math>
+: <math> \frac{\partial f}{\partial x_j}(\boldsymbol{x}) = 0</math>
-für alle <math>1 \leq j \leq m</math>. Dieses Kriterium ist nicht hinreichend, dient aber dazu, diese ''kritischen Punkte'' als mögliche Kandidaten für Extrema zu ermitteln. Unter Bestimmung der Hesse-Matrix, der zweiten Ableitung, kann anschließend in manchen Fällen entschieden werden, um welche Art Extremstelle es sich handelt.<ref name="Arens811">T. Arens et al.: ''Mathematik'', Spektrum, S. 811.</ref> Im Gegensatz zum Eindimensionalen ist die Formenvielfalt kritischer Punkte größer. Mittels einer [[Hauptachsentransformation]], also einer detaillierten Untersuchung der Eigenwerte, der durch eine mehrdimensionale Taylor-Entwicklung im betrachteten Punkt gegebenen [[Quadratische Form|quadratischen Form]] lassen sich die verschiedenen Fälle klassifizieren.<ref name="Arens812">T. Arens et al.: ''Mathematik'', Spektrum, S. 812.</ref>
+für alle <math>1 \leq j \leq m</math>. Dieses Kriterium ist nicht hinreichend, dient aber dazu, diese ''kritischen Punkte'' als mögliche Kandidaten für Extrema zu ermitteln. Unter Bestimmung der Hesse-Matrix, der zweiten Ableitung, kann anschließend in manchen Fällen entschieden werden, um welche Art Extremstelle es sich handelt.<ref name="Arens811">T. Arens et al.: ''Mathematik''. Spektrum, S. 811.</ref> Im Gegensatz zum Eindimensionalen ist die Formenvielfalt kritischer Punkte größer. Mittels einer [[Hauptachsentransformation]], also einer detaillierten Untersuchung der Eigenwerte, der durch eine mehrdimensionale Taylor-Entwicklung im betrachteten Punkt gegebenen [[Quadratische Form|quadratischen Form]] lassen sich die verschiedenen Fälle klassifizieren.<ref name="Arens812">T. Arens et al.: ''Mathematik''. Spektrum, S. 812.</ref>
 ==== Optimierung unter Nebenbedingungen ====
+Häufig ist bei Optimierungsproblemen die Zielfunktion <math>f\colon \R^m \to \R</math> lediglich auf einer [[Teilmenge]] <math>D \subset \R^m</math> zu minimieren, wobei <math>D</math> durch sog. ''[[Nebenbedingung]]en'' bzw. ''Restriktionen'' bestimmt ist. Ein Verfahren, das zur Lösung solcher Probleme herangezogen werden kann, ist die [[Lagrange-Multiplikator|Lagrangesche Multiplikatorregel]].<ref>T. Arens et al.: ''Mathematik''. Spektrum, S. 1193–1195.</ref> Diese nutzt die mehrdimensionale Differentialrechnung und lässt sich sogar auf Ungleichungsnebenbedingungen ausweiten.<ref>T. Arens et al.: ''Mathematik''. Spektrum, S. 1196.</ref>
-Häufig ist bei Optimierungsproblemen die Zielfunktion <math>f\colon \R^m \to \R</math> lediglich auf einer [[Teilmenge]] <math>D \subset \R^m</math> zu minimieren, wobei <math>D</math> durch sog. ''[[Nebenbedingung]]en'' bzw. ''Restriktionen'' bestimmt ist. Ein Verfahren, welches zur Lösung solcher Probleme herangezogen werden kann, ist die [[Lagrange-Multiplikator|Lagrangesche Multiplikatorregel]].<ref>T. Arens et al.: ''Mathematik'', Spektrum, S. 1193–1195.</ref> Diese nutzt die mehrdimensionale Differentialrechnung und lässt sich sogar auf Ungleichungsnebenbedingungen ausweiten.<ref>T. Arens et al.: ''Mathematik'', Spektrum, S. 1196.</ref>
 ==== Beispiel aus der Mikroökonomie ====
@@ Zeile 808: / Zeile 907: @@
 Ein Grundtyp einer Produktionsfunktion ist etwa die [[neoklassische Produktionsfunktion]]. Sie zeichnet sich unter anderem dadurch aus, dass der Output bei jedem zusätzlichen Input steigt, dass aber die Zuwächse abnehmend sind. Es sei beispielsweise für eine Volkswirtschaft die [[Cobb-Douglas-Funktion]]
-:<math>F(K,L) = T\cdot K^\alpha L^{1-\alpha}</math> mit <math>\alpha \in (0,1)</math>
+: <math>F(K,L) = T\cdot K^\alpha L^{1-\alpha}</math> mit <math>\alpha \in (0,1)</math>
 maßgebend. Zu jedem Zeitpunkt wird in der Volkswirtschaft unter dem Einsatz der Produktionsfaktoren Arbeit <math>L</math> und Kapital <math>K</math> mithilfe eines gegebenen Technologielevels <math>T</math> Output produziert. Die erste Ableitung dieser Funktion nach den Produktionsfaktoren ergibt:
-:<math>\frac{\partial F(K,L)}{\partial L} = (1-\alpha)\cdot T\cdot K^\alpha L^{-\alpha}</math>
+: <math>\frac{\partial F(K,L)}{\partial L} = (1-\alpha)\cdot T\cdot K^\alpha L^{-\alpha}</math>
-:<math>\frac{\partial F(K,L)}{\partial K} = \alpha\cdot T\cdot K^{-(1-\alpha)} L^{1-\alpha}</math>.
+: <math>\frac{\partial F(K,L)}{\partial K} = \alpha\cdot T\cdot K^{-(1-\alpha)} L^{1-\alpha}</math>.
 Da die partiellen Ableitungen aufgrund der Beschränkung <math>\alpha \in (0,1)</math> nur positiv werden können, sieht man, dass der Output bei einer Erhöhung der jeweiligen Inputfaktoren steigt. Die partiellen Ableitungen 2.&nbsp;Ordnung ergeben:
-:<math>\frac{\partial^2 F(K,L)}{\partial L^2} = -\alpha(1-\alpha)\cdot T\cdot K^\alpha L^{-(1+\alpha)}</math>
+: <math>\frac{\partial^2 F(K,L)}{\partial L^2} = -\alpha(1-\alpha)\cdot T\cdot K^\alpha L^{-(1+\alpha)}</math>
-:<math>\frac{\partial^2 F(K,L)}{\partial K^2} = -\alpha(1-\alpha)\cdot T\cdot K^{-(2-\alpha)} L^{1-\alpha}</math>.
+: <math>\frac{\partial^2 F(K,L)}{\partial K^2} = -\alpha(1-\alpha)\cdot T\cdot K^{-(2-\alpha)} L^{1-\alpha}</math>.
 Sie werden für alle Inputs negativ sein, also fallen die Zuwachsraten. Man könnte also sagen, dass bei steigendem Input der Output unter[[proportional]] steigt. Die [[relative Änderung]] des Outputs im Verhältnis zu einer relativen Änderung des Inputs ist hier durch die [[Elastizität (Wirtschaft)|Elastizität]] <math>\eta_{i}\equiv\tfrac{\partial f(x)}{\partial x_i}\tfrac{x_i}{f(x)}</math> gegeben. Vorliegend bezeichnet <math>\eta_{K}\equiv\tfrac{\partial F(K,L)}{\partial K}\tfrac{K}{F(K,L)}</math> die Produktionselastizität des Kapitals, die bei dieser Produktionsfunktion dem Exponenten <math>\alpha</math> entspricht, der wiederum die Kapitaleinkommensquote repräsentiert. Folglich steigt der Output bei einer infinitesimal kleinen Erhöhung des Kapitals um die Kapitaleinkommensquote.
@@ Zeile 832: / Zeile 931: @@
 Beispielsweise verknüpft das [[Newtonsche Gesetze|newtonsche Bewegungsgesetz]]
-:<math>\vec{F}(t) = m \vec{a}(t) = m \ddot{\vec{s}}(t) = m\frac{\mathrm{d}^2\vec{s}(t)} {\mathrm{d}t^2}</math>
+: <math>\vec{F}(t) = m \vec{a}(t) = m \ddot{\vec{r}}(t) = m\frac{\mathrm{d}^2\vec{r}(t)} {\mathrm{d}t^2}</math>
-die Beschleunigung <math>\vec{a}</math> eines Körpers mit seiner Masse <math>m</math> und der auf ihn einwirkenden Kraft <math>\vec{F}</math>. Das Grundproblem der Mechanik lautet deshalb, aus einer gegebenen Beschleunigung die Ortsfunktion eines Körpers herzuleiten. Diese Aufgabe, eine Umkehrung der zweifachen Differentiation, hat die mathematische Gestalt einer Differentialgleichung zweiter Ordnung. Die mathematische Schwierigkeit dieses Problems rührt daher, dass Ort, Geschwindigkeit und Beschleunigung [[Vektor]]en sind, die im Allgemeinen nicht in die gleiche Richtung zeigen, und dass die Kraft von der Zeit <math>t</math> und vom Ort <math>\vec{s}</math> abhängen kann.
+die Beschleunigung <math>\vec{a}</math> eines Körpers mit seiner Masse <math>m</math> und der auf ihn einwirkenden Kraft <math>\vec{F}</math>. Das Grundproblem der Mechanik lautet deshalb, aus einer gegebenen Beschleunigung die [[Ort (Physik)|Ortsfunktion]] eines Körpers herzuleiten. Diese Aufgabe, eine Umkehrung der zweifachen Differentiation, hat die mathematische Gestalt einer Differentialgleichung zweiter Ordnung. Die mathematische Schwierigkeit dieses Problems rührt daher, dass Ort, Geschwindigkeit und Beschleunigung [[Vektor]]en sind, die im Allgemeinen nicht in die gleiche Richtung zeigen, und dass die Kraft von der Zeit <math>t</math> und vom Ort <math>\vec{r}</math> abhängen kann.
 Da viele Modelle mehrdimensional sind, sind bei der Formulierung häufig die weiter oben erklärten partiellen Ableitungen sehr wichtig, mit denen sich [[partielle Differentialgleichung]]en formulieren lassen. Mathematisch kompakt werden diese mittels [[Differentialoperator]]en beschrieben und analysiert.
@@ Zeile 850: / Zeile 949: @@
 Der Begriff der Ableitung als Linearisierung lässt sich analog auf Funktionen <math>f</math> zwischen zwei [[Normierbarer Raum|normierbaren]] [[Topologischer Vektorraum|topologischen Vektorräumen]] <math>X</math> und <math>Y</math> übertragen (''s. Hauptartikel'' [[Fréchet-Ableitung]], [[Gâteaux-Differential]], [[Lorch-Ableitung]]): <math>f</math> heißt in <math>\xi</math> ''Fréchet-differenzierbar,'' wenn ein stetiger [[linearer Operator]] <math>L_\xi \in \mathcal L(X,Y)</math> existiert, sodass
-:<math>\lim_{h \to 0} \frac{\|f(\xi + h) - f(\xi) - L_{\xi}h\|}{\|h\|} = 0</math>.
+: <math>\lim_{h \to 0} \frac{\|f(\xi + h) - f(\xi) - L_{\xi}h\|}{\|h\|} = 0</math>.
 Eine Übertragung des Begriffes der Ableitung auf andere Ringe als <math>\mathbb R</math> und <math>\mathbb C</math> (und Algebren darüber) führt zur [[Derivation (Mathematik)|Derivation]].
+== Siehe auch ==
+* [[Formelsammlung Analysis]]
 == Literatur ==
 Differentialrechnung ist ein zentraler Unterrichtsgegenstand in der [[Sekundarstufe II]] und wird somit in allen Mathematik-Lehrbüchern dieser Stufe behandelt.
-=== Lehrbücher für Mathematik-Studenten ===
+=== Lehrbücher für Mathematik-Studierende ===
 * [[Henri Cartan]]: ''Differentialrechnung.'' Bibliographisches Institut, Mannheim 1974, ISBN 3-411-01442-3.
 * Henri Cartan: ''Differentialformen.'' Bibliographisches Institut, Mannheim 1974, ISBN 3-411-01443-1.
@@ Zeile 875: / Zeile 977: @@
 * [[Günter Bärwolff]] (unter Mitarbeit von G. Seifert): ''Höhere Mathematik für Naturwissenschaftler und Ingenieure.'' Elsevier Spektrum Akademischer Verlag, München 2006, ISBN 3-8274-1688-4.
 * [[Lothar Papula]]: ''Mathematik für Naturwissenschaftler und Ingenieure.'' Band 1. Vieweg, Wiesbaden 2004, ISBN 3-528-44355-3.
-* Klaus Weltner: ''Mathematik für Physiker.'' Band 1. Springer, Berlin 2006, ISBN 3-540-29842-8.
+* Klaus Weltner: ''Mathematik für Physiker 1.'' Springer, Berlin 2011, ISBN 978-3-642-15527-7.
 * [[Peter Dörsam]]: ''Mathematik anschaulich dargestellt für Studierende der Wirtschaftswissenschaften.'' 15. Auflage. PD-Verlag, Heidenau 2010, ISBN 978-3-86707-015-7.
@@ Zeile 890: / Zeile 992: @@
 <references />
-{{Exzellent|19. Februar 2005|4621149}}
+{{Exzellent|18. April 2021|211049352}}
-{{Kandidat}}
 {{Normdaten|TYP=s|GND=4012252-9}}
 [[Kategorie:Analysis]]