Hoe gestructureerd zijn uw gegevens? Gestructureerde, ongestructureerde en semi-gestructureerde gegevens onderzoeken

Inhoud

Wat zijn gestructureerde gegevens?
Wat zijn ongestructureerde gegevens?
Geen bugs, geen stress - Uw stapsgewijze handleiding voor het creëren van levensveranderende software zonder uw leven te vernietigen
Falling Between: Semi-gestructureerde gegevens
Kunnen ongestructureerde gegevens worden omgezet in gestructureerde gegevens?

Bron: monsitj / iStockphoto

Afhaal:

Meer informatie over gestructureerde, ongestructureerde en semi-gestructureerde gegevens.

Historisch gezien waren data-analisten in staat om informatie te ontsleutelen en extraheren uit slechts één type gegevens: gestructureerde gegevens. Dit type gegevens was eenvoudig doorzoekbaar vanwege de duidelijke patronen, maar vertegenwoordigde een klein percentage van de totale beschikbare gegevens.

Ongestructureerde gegevens omvatten ook video, audio, s en gegevens afkomstig van sociale media en mobiele apparaten. Het was zonder twijfel de grootste reserve aan onbewerkte informatie die beschikbaar was, maar niemand was in staat om op betrouwbare wijze gebruik te maken van deze bron.

De dingen zijn echter veranderd, omdat de toegenomen beschikbaarheid van opslag en superieure verwerkingsmogelijkheden hebben geleid tot ongestructureerde data-analyse - een nieuwe, en dus onvolwassen, vorm van technologie. Betere bedrijfsinformatie maakt optimaal gebruik van deze mogelijkheid en er worden aanzienlijke investeringen gedaan om gestructureerde en ongestructureerde gegevensanalyses samen te voegen om toegang te krijgen tot deze schijnbaar eindeloze goudmijn van informatie.

Laten we deze twee gegevensindelingen eens bekijken om hun verschillen te begrijpen, en wat de toekomst voor alle gegevensanalisten in petto heeft.

Wat zijn gestructureerde gegevens?

Gestructureerde gegevens zijn door mensen of machines gegenereerde en sterk georganiseerde informatie die gemakkelijk kan worden opgeslagen in rijdatabasestructuren die bekend staan als relationele databases (RDB's). Het is alles dat bestaat in een formaat dat gemakkelijk kan worden vastgelegd, opgeslagen en georganiseerd in een RDB-structuur om later te worden geanalyseerd. (Bekijk onze Inleiding tot databases voor meer informatie over databases.)

Voorbeelden zijn postcodes, telefoonnummers en demografische gegevens van gebruikers, zoals leeftijd of geslacht. Gegevens in deze databases kunnen worden opgevraagd met Structured Query Language (SQL) of VLOOKUP-functies in Excel-spreadsheets. Algoritmen kunnen ook worden gemaakt om snel gegevens te zoeken in de verschillende velden met behulp van hun indexen, of hun numerieke en alfabetische gegevens. Alle gegevens zijn echter strikt gedefinieerd in termen van veldtype en naam, en de mogelijkheid om ze op te slaan, op te vragen en te analyseren is dus tot op zekere hoogte beperkt.

Typische toepassingen die gestructureerde gegevens gebruiken, zijn onder andere software voor ziekenhuisbeheer, CRM-toepassingen (Customer Relationship Management) en reserveringssystemen voor luchtvaartmaatschappijen. Vanwege de overzichtelijke organisatie en gemakkelijke toegankelijkheid zijn gestructureerde gegevens nuttig en efficiënt bij het omgaan met grote hoeveelheden informatie. Bij het boren naar de zwarte olie die is verborgen in de oneindige hoeveelheid gegevens die de mensheid dagelijks produceert, is het zoeken naar gestructureerde gegevens echter niets anders dan krassen op het oppervlak.

Wat zijn ongestructureerde gegevens?

Het overgrote deel van de gegevens in een organisatie is ongestructureerd en sommigen schatten dat dit tot 80 procent van de totale gegevens is die momenteel beschikbaar zijn. Per definitie zijn ongestructureerde gegevens alles dat geen identificeerbare interne structuur heeft. Sommige soorten gegevens vallen echter in deze categorie hebben een vorm van vage interne structuur, maar deze voldoet niet aan een database of spreadsheet.

Geen bugs, geen stress - Uw stapsgewijze handleiding voor het creëren van levensveranderende software zonder uw leven te vernietigen

U kunt uw programmeervaardigheden niet verbeteren als niemand om softwarekwaliteit geeft.

De meeste bedrijfsgegevens zijn ongestructureerd, variërend van klantinteractie-interacties, bestanden, weblogs, video's en andere multimedia-inhoud, verkoopautomatisering en sociale media-berichten. Het is niet nodig uit te leggen hoe waardevol deze gegevens kunnen zijn als deze kunnen worden gedolven, georganiseerd en geanalyseerd.

De meeste ongestructureerde gegevens worden door mensen gegenereerd en zijn dus door andere mensen begrepen. Dit betekent dat de nettere computerintelligentie dit soort informatie niet begrijpt, omdat het te ver verwijderd is van de lineariteit van machinetaal en gestructureerde databases.

Falling Between: Semi-gestructureerde gegevens

Semi-gestructureerde gegevens zijn een derde type gegevens dat een veel kleiner deel van de hele taart vertegenwoordigt (5-10 procent). Semi-gestructureerde gegevens, letterlijk gevangen tussen beide werelden, bevatten interne semantische tags en markeringen die afzonderlijke elementen identificeren, maar missen de structuur die nodig is om in een relationele database te passen.

S lijkt bijvoorbeeld gestructureerde gegevens, omdat ze kunnen worden gecategoriseerd op datum, bestandsgrootte of tijd. Dat zijn ze echter niet, omdat de meest waardevolle informatie in hen wordt gevonden in plaats van de relatief eenvoudige labels. s kunnen niet echt gerangschikt zijn op inhoud en onderwerp, omdat mensen niet in zulke strikte patronen spreken dat een machine ze ondubbelzinnig begrijpt. Andere voorbeelden van semi-gestructureerde gegevens zijn NoSQL-databases, de open standaard JSON en de opmaaktaal XML.

Semi-gestructureerde gegevens worden meestal opgevraagd en gecatalogiseerd voor analyse met behulp van metagegevensanalyse. Een röntgenscan bestaat bijvoorbeeld uit een groot aantal pixels die de afbeelding vormen - inherent ongestructureerde gegevens die niet toegankelijk zijn. Het scanbestand bevat echter nog steeds een metagegevensgedeelte dat hierover informatie biedt, zoals annotaties en gebruikers-ID.

Kunnen ongestructureerde gegevens worden omgezet in gestructureerde gegevens?

De fundamentele uitdaging waar elke data-analist voor staat, is om de beschikbare informatie op een nette, ordelijke manier te ordenen, zodat deze toegankelijk en begrijpelijk is. Dataminingtools zijn meestal niet uitgerust om informatie te analyseren die per definitie te verwant is aan menselijke taal, wat betekent dat alleen een andere mens deze kan verzamelen en categoriseren.

Het enorme volume aan ongestructureerde gegevens maakt echter elke poging om deze op te slaan of te organiseren buitengewoon arbeidsintensief en duur. De hoeveelheid informatie afkomstig van bijvoorbeeld een webgebaseerde zoekmachine is zo enorm, dat de meeste elementen een enorme investering vereisen in termen van werk en middelen om de meest elementaire te extraheren. Zelfs de meest efficiënte dataminingtechnieken missen nog steeds een aanzienlijke hoeveelheid informatie op internet en, erger nog, op het deep web.

Maar technieken bestaan wel. En ze worden met een verbazingwekkende snelheid ontwikkeld. Metadata kunnen bijvoorbeeld worden gebruikt om gestructureerde en ongestructureerde gegevens met elkaar te verbinden. De verzamelde informatie kan door zowel gebruikers als algoritmen worden gefilterd en geïndexeerd om alleen relevante gegevens te analyseren. Andere oplossingen zijn 'data wrangling', een proces waarbij complexe gegevens stapsgewijs door niet-technische gebruikers worden georganiseerd. (Zie Hoe big data kan helpen in Self-Service Analytics voor meer informatie over gewone gebruikers die met gegevens omgaan.)

Op een gegeven moment kunnen we deze enorm ongeorganiseerde hoeveelheden informatie efficiënt omzetten in een meer georganiseerd en geherstructureerd formaat. Misschien niet vandaag, misschien niet morgen, maar binnenkort kunnen we de grootste kluis die de mensheid ooit heeft gezien overvallen: big data.