Skip to content
All posts

Måste man ha massa data för att använda AI?

Det går att komma igång med AI även med liten skruttig datamängd. Genom att avgränsa utmaningen, använda en förtränad modell och späda ut egen data med extern eller syntetisk data kommer ni fortare fram till ert första AI-case.

Använd förtränade modeller

Träning av AI-modeller börjar med att samla in stora datamängder från olika källor. Förträningsdatan (t.ex. texter, ljud, bild eller kod) tvättas sedan. Datatvätten innebär till exempel avidentifiering och bortfiltrering av till brus, bias och skadligt innehåll.

En förtränad modell är en AI-modell som redan har lärt sig ett specifikt område genom att tränas på stora datamängder av någon annan. Du slipper alltså själv samla in massor av data och träna upp en modell från noll. 

Det finns en massa branschspecifika förtränade modeller för: 

  • Sjukvård; medicinsk bildanalys, diagnostik och prognoser, personliga behandlingsrekommendationer, förutsägelser av patientutfall.
  • Finans; bedrägeridetektion, riskbedömning och kreditscoring, algoritmisk handel, sentimentanalys och investeringsrådgivning
  • Retail; Effterfrågeprognoser och lageroptimering, kundsegmentering och rekommendationer, personanpassad marknadsföring, analys av kundfeedback och omdömen
  • Fordonsindustrin; Självkörande teknik och objektigenkänning, trafikprognoser och underhållsvarningar, anomalidetektion i fordonssystem, prediktivt underhåll
  • Marknadsföring; kundbeteende- och sentimentsanalys, förutsägelse av kundbortfall (churn), kampanjoptimering och målgruppsstyrning, personanpassade kommunikationsstrategier

Du kan till exempel använda ChatGPT out of the box för att skapa en FAQ-bot utan att själv träna en språklig AI, eller använda en färdig bildmodell från Landing AI för att sortera bilder efter innehåll eller kvalitet.

Börja med små, specifika problem

Ett av de bästa sätten att komma igång med AI är att börja med ett litet avgränsat problem. AI behöver inte förändra hela verksamheten över en natt, det är bättre att starta i det lilla och få med organisationen på tåget med ett konkret snabbt exempel som visar på större möjligheter.

Börja till exempel med "Kan vi förutsäga om en kund kommer att återkomma?" Det är en konkret fråga som många företag redan har viss data kring, och som kan göra verklig skillnad i när det kommer till att bearbeta kunder. Andra exempel kan vara att automatiskt kategorisera supportärenden, förutspå vilka produkter som behöver fyllas på i lager, eller hitta mönster i avbokningar. Genom att ta er an en väl avgränsad uppgift kan ni snabbt testa AI i praktiken, få konkreta resultat och bygga kunskap utan att behöva göra om hela affärsmodellen.

choose-one-1

Kombinera er egen data med extern eller syntetisk data

Om ni har begränsat med egen data kan ni förstärka den med data från andra källor. Antingen verkliga eller syntetiska.

Extern data

Ett effektivt sätt att komma igång med AI om er egen data är begränsad är att komplettera den med öppen eller köpt data. Det finns idag massor av färdiga datamängder som kan användas direkt i analys, träning av modeller eller som referens för att förbättra egna insikter.

Befolkningsstatistik från SCB kan användas för att skapa mer lokalt anpassade marknadsföringsinsatser. Väderdata från SMHI:s öppna API lämpar sig väl för prognoser inom till exempel försäljning, logistik eller planering. Produktspecifikationer från öppna källor som Kaggle eller OpenML kan användas för att träna modeller som ska känna igen eller kategorisera produkter, särskilt i e-handel.

För företag som behöver mer specialiserad eller aktuell information finns även möjlighet att köpa data. Kreditupplysningstjänster kan användas som grund för riskbedömningar eller kreditmodeller. Det finns även köpbeteendedata som ger insikter i konsumenttrender, och API-tjänster som har branschanpassade data om fastigheter, fordon eller finansmarknadsdata. Genom att kombinera externa källor med er egen interna data får ni en kickstart i AI-bygget.

Syntetisk data

Syntetisk data består av konstgjorda, men realistiska, datapunkter som kan användas för att träna och testa modeller. Man "hittar på" data som liknar den man skulle kunna samla in i verkligheten. Man kan till exempel generera fiktiva kundcase med ålder, köpbeteende eller preferenser för att testa hur en AI-modell skulle kunna rekommendera produkter. Eller så kan man skapa simulerad sensordata för att utveckla och testa system för prediktivt underhåll i maskinparker eller fordon.

datapunkter-syntetisk

Syntetisk data passar bra i tidiga utvecklingsfaser, när man har en tydlig idé men ännu inte tillräckligt med verklig data. Det gör det möjligt att snabbt bygga prototyper eller göra förstudier innan man gör större insatser i datainsamling.

Syntetisk data är också värdefullt när man vill bygga AI-lösningar som uppfyller GDPR-krav, eftersom den inte innehåller någon information som kan kopplas till riktiga personer. Värdefull i branscher där dataskydd är extra viktigt, som inom finans, vård och HR. Det finns flera verktyg som hjälper till att skapa syntetisk data, till exempel Gretel, Mostly AI och Synthetic Data Vault.

Så, räcker det du har?

Det behöver inte vara tusentals rader i ett Excelark, ibland räcker det med 50 till 100 relevanta exempel. Det viktiga är att datan är någorlunda strukturerad och tillgänglig, och att man har ett tydligt problem i sikte.

Kanske vill du förutspå något, gruppera något, eller få bättre beslutsunderlag i en specifik process. Då har du redan en bra startpunkt. Det viktigaste är alltså inte mängden data, utan att du börjar smart med ett konkret syfte och en nyfikenhet att utforska vad som är möjligt.

Vill du veta vad som går att göra med just er data? Hör av dig så bollar vi gärna!