Was ist Overfitting bzw. Underfitting? - 100 SECONDS FUTURE TECH

Overfitting und Underfitting sind zwei häufige Probleme im Bereich des maschinellen Lernens und der künstlichen Intelligenz (KI). Sie treten auf, wenn ein Modell entweder zu stark oder zu schwach an die Trainingsdaten angepasst ist.

Overfitting

Overfitting tritt auf, wenn ein Modell die Trainingsdaten zu gut lernt, einschließlich des Rauschens (Zufälligkeiten) und der Ausreißer in den Daten. Das Modell wird dadurch sehr präzise auf die Trainingsdaten abgestimmt, verliert jedoch die Fähigkeit, gut auf neuen, unbekannten Daten zu generalisieren. Das Modell ist also „überangepasst“ und liefert auf neuen Daten schlechtere Ergebnisse.

Beispiel: Ein Modell zur Unterscheidung von Hunden und Katzen lernt, nicht nur die Tiere, sondern auch irrelevante Details wie den Hintergrund der Trainingsbilder. Es erzielt 99 % Genauigkeit bei den Trainingsdaten, versagt aber bei neuen Bildern (z. B. mit anderem Hintergrund) mit nur 60 % Genauigkeit.
Ursachen: Ein zu komplexes Modell (z. B. ein sehr tiefes neuronales Netzwerk) im Verhältnis zur Menge oder Qualität der Daten.
Lösungen:
- Reduzierung der Modellkomplexität.
- Erhöhung der Datenmenge.

Underfitting

Underfitting tritt auf, wenn ein Modell nicht ausreichend komplex ist, um die zugrunde liegende Struktur der Daten zu erfassen. Das bedeutet, das Modell ist nicht in der Lage, selbst die Trainingsdaten gut zu lernen, wodurch es sowohl auf den Trainingsdaten als auch auf neuen Daten schlecht abschneidet.

Beispiel: Ein lineares Modell zur Unterscheidung von Hunden und Katzen erkennt nur sehr einfache Muster. Es erreicht nur 50 % Genauigkeit, weil die Komplexität der Bilder die Fähigkeiten des Modells übersteigt.
Ursachen: Ein zu einfaches Modell (z. B. eine lineare Regression für ein nicht-lineares Problem) oder unzureichende Trainingszeit.
Lösungen:
- Erhöhung der Modellkomplexität.
- Bessere Features oder Feature-Engineering.
- Mehr Trainingszeit bzw. Hyperparameter-Tuning.

Zusammenfassung

Ein KI-Modell ist beim Overfitting so sehr auf die Trainingsdaten angepasst, dass es nicht auf andere Datenbeispiele übertragbar ist und somit eine Verallgemeinerung auf die Realität nicht möglich ist. Beim Underfitting ist das trainierte Modell ist zu generalisierend und weist deshalb eine große Fehlerrate bei Trainingsdaten und unbekannten Daten auf.

Cookie	Dauer	Beschreibung
cookielawinfo-checkbox-advertisement	1 year	Set by the GDPR Cookie Consent plugin, this cookie is used to record the user consent for the cookies in the "Advertisement" category .
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
CookieLawInfoConsent	1 year	Records the default button state of the corresponding category & the status of CCPA. It works only in coordination with the primary cookie.
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

Cookie	Dauer	Beschreibung
__gads	1 year 24 days	The __gads cookie, set by Google, is stored under DoubleClick domain and tracks the number of times users see an advert, measures the success of the campaign and calculates its revenue. This cookie can only be read from the domain they are set on and will not track any data while browsing through other sites.
_ga	2 years	The _ga cookie, installed by Google Analytics, calculates visitor, session and campaign data and also keeps track of site usage for the site's analytics report. The cookie stores information anonymously and assigns a randomly generated number to recognize unique visitors.
_ga_8EVYKBJE0L	2 years	This cookie is installed by Google Analytics.
_ga_ECCBGK6LZQ	2 years	This cookie is installed by Google Analytics.
_gat_gtag_UA_216518707_1	1 minute	Set by Google to distinguish users.
_gid	1 day	Installed by Google Analytics, _gid cookie stores information on how visitors use a website, while also creating an analytics report of the website's performance. Some of the data that are collected include the number of visitors, their source, and the pages they visit anonymously.