Waarom is gegevensaantekening belangrijk in sommige machine learning-projecten?

Schrijver: Roger Morrison
Datum Van Creatie: 27 September 2021
Updatedatum: 7 Kunnen 2024
Anonim
Data Annotation for Machine Learning
Video: Data Annotation for Machine Learning

Inhoud

Q:

Waarom is gegevensaantekening belangrijk in sommige machine learning-projecten?


EEN:

Gegevensannotatie is belangrijk bij machine learning omdat het in veel gevallen het werk van het machine learning-programma veel eenvoudiger maakt.

Dit heeft te maken met het verschil tussen begeleide en niet-begeleide machine learning. Bij begeleide machine learning zijn de trainingsgegevens al gelabeld, zodat de machine meer inzicht heeft in de gewenste resultaten. Als het programma bijvoorbeeld bedoeld is om katten in afbeeldingen te identificeren, heeft het systeem al een groot aantal foto's gelabeld als kat of niet. Vervolgens gebruikt het die voorbeelden om nieuwe gegevens te contrasteren om de resultaten te maken.


Bij machinaal leren zonder toezicht zijn er geen labels en daarom moet het systeem attributen en andere technieken gebruiken om de katten te identificeren. Ingenieurs kunnen het programma trainen in het herkennen van visuele kenmerken van katten zoals snorharen of staarten, maar het proces is bijna nooit zo eenvoudig als bij supervised machine learning waar die labels een zeer belangrijke rol spelen.


Gegevensannotatie is het proces van het aanbrengen van labels op de trainingsgegevenssets. Deze kunnen op veel verschillende manieren worden toegepast - hierboven hebben we het gehad over binaire gegevensannotatie - katten of niet katten - maar andere soorten gegevensannotatie zijn ook belangrijk. Op medisch gebied kan data-annotatie bijvoorbeeld het taggen van specifieke biologische afbeeldingen met tags die pathologie of ziektemarkers voor andere medische eigenschappen identificeren, omvatten.

Gegevensannotatie kost werk - en wordt vaak gedaan door teams van mensen - maar het is een fundamenteel onderdeel van wat veel machine learning-projecten nauwkeurig laat werken. Het biedt die eerste instelling om een ​​programma te leren wat het moet leren en hoe verschillende invoer kan worden gediscrimineerd om tot nauwkeurige uitvoer te komen.