Ändra marknad

Global North America Middle East United Kingdom Sweden Norway Denmark

2026-07-01 – 2026-07-02

SicherheitsExpo – Munich, Germany

2026-08-25 – 2026-08-25

SkyddGolfen Detektor Open 2026 – Nykvarn, Sweden

2026-08-26 – 2026-08-28

ESS – Bogotá, Colombia

Företagsevent

2026-06-17 Online

InOne Design Training webinar

2026-07-14 Online

InOne Powered Fiber Solution Webinar

2026-07-16 Online

InOne Design Training webinar

Läs Detektor International online

Tidigare nummer »

Annons

Umbo Light: AI vs traditionell videoanalys

Taipei, Taiwan

Kunder i säkerhetsbranschen har länge varit tvungna att hantera utmaningen att övervaka och bearbeta miljontals timmar videomaterial. Att ha operatörer är dyrt, det är ansträngande för dem som jobbar och de är ofta ineffektiva. Genom att automatisera övervakning och larm för när något händer i kamerabilderna kan företag spara pengar och tillåta säkerhetschefer att i stället arbeta med andra viktiga arbetsuppgifter.

Inledning

Ett antal olika lösningar har lanseras på marknaden med målet att uppfylla dessa behov. De traditionella IVS-system (Intelligent Video Surveillance) har ofta gett upphov till en mängd falsklarm som gjort att säkerhetsansvariga fått så mycket att göra att lösningens värde blivit tveksam.

Problemet är att endast skapa en box runt en person – som många "intelligenta videoövervakningssystem” gör – inte är tillräckligt bra. En box ger väldigt lite sammanhang om vad som faktiskt finns i bilderna. För att kunna kategorisera en människa som en människa i säkerhetsvideo måste Umbos datorvisions-baserade modeller ”se” konturerna av en människa.

Bakgrund
Nästan varje kommersiellt intelligent videoövervakningssystem bygger på rörelsedetektering – och svarar på och flaggar rörliga objekt i ett videomaterial. Det finns ett antal tillvägagångssätt för att uppnå detta. Det mest använda sättet är ”background subtraction”. Anledningen att det blev populärt är dess noggrannhet och snabba beräkning. Algoritmen tittar på skillnaden mellan den aktuella bilden (till exempel en stillbild i en video) och en referensbild – ofta kallad bakgrundsbilden. Bakgrundsbilden är i princip en bild av scenen utan att någon eller någonting rör sig i den. Skillnaden mellan vad kameran för närvarande ser och bakgrundsbilden antas vara ett rörligt föremål som till exempel en person. Det finns flera olika variationer av denna algoritm med justeringar som används på grund av specifika skäl, till exempel för att skilja mellan objekt och deras skugga.

“Temporal differencing” är den näst mest använda tekniken. Den tittar på skillnaderna mellan två eller tre olika bilder – bildrutor i en video – pixel för pixel. Matematiskt sett tar den första bildrutan och ”subtraherar” pixlarnas positioner från bildrutan precis före.

“Temporal differencing” identifierar “rörelse" genom att subtrahera de stationära pixlarna i dessa två bildrutor.

Fördelarna med denna algoritm är att det går snabbt att beräkna och anpassa sig till omväxlande miljöer – en viktig egenskap för en säkerhetskamera. Men om scenen förändras (till exempel genom att kameran rör sig eller flyttas) krävs en andra algoritm för att kompensera för det.

Det största gemensamma felet med dessa algoritmers kapacitet för objektigenkänning (speciellt för att känna igen människor) är att de verkar under en symbolisk AI-paradigm – deras ”computer vision” är regelbaserad. De bygger på att mänskliga programmerare ska skapa regler som sedan triggas i videobilden. För att illustrera detta så ser en regelbaserad strategi för modellering av en människokropp först en människa som en cylinder, ett band eller en blob (ett binärt stort objekt). Men i varje enskilt fall måste en programmerare berätta för datorn att man söker efter en sekvens av kartonger, band eller blobs i videobilden. Det fungerar bra vid en enkel scen med väldefinierade aktiviteter men krackelerar i komplexa situationer där man måste vara flexibel i sina tolkningar.

I motsats till symbolisk artificiell intelligens närmar sig statistisk artificiell intelligens dessa svåra problem på ett helt annat sätt. Metoderna representerar vetenskapliga och matematiska försök att ”programmera” en algoritm för att fatta beslut som annars skulle anses vara för svåra eller komplexa med ett symboliskt tillvägagångssätt. I grund och botten programmerar datorn sig själv. Statistisk AI har legat bakom många av de senaste framgångarna i branschen, inklusive AlphaGo och Googles självkörande bil. Det är också tekniken bakom Umbo Light.

Light och IVS: en jämförelse
Det traditionella IVS-systemet identifierade många saker som människor trots att det i själva verket var andra saker. En av de stora svårigheterna som detta system hade var att bestämma huruvida den rörliga bilden var en människa eller reflektionen av en människa i en glasruta.

Att avgöra en speglad reflektion utan sammanhang kan vara svårt även för en person. Den stora majoriteten av de traditionella IVS-systemens falska positiva fel kan tillskrivas de här reflektionerna. Även om båda typerna av system flaggade för en spegelreflektion vid ett eller flera tillfällen under testperioden så gjorde Umbo Lights neurala nätverksbaserade modeller det färre gånger. Till skillnad från traditionella IVS-system kan Umbo Light förbättra sin felprocent med lite mänsklig feedback – säkerhetschefer kan flagga falsklarm och kameran justeras utifrån det och prestandan förbättras snabbt.

Den här spegelbilden kategoriserades mycket riktigt inte som människor av Umbo Light.

En intressant utmaning som traditionella ”motion tracking” IVS-system inte kunde övervinna var att undvika att flagga reflekterat ljus som rörelse.

Detta fel var något som Umbo Light lätt kunde undvika och det beror på de specifika sätt som rörelsedetektering programmeras i traditionella IVS-system.

En viktig sak som tabeller med statistik inte kan förmedla är datakvalitetens rikedom mellan två larm.

Identiska bilder visar skillnader i hur mycket information som traditionell IVS och Umbo Light ger till användaren.

Den traditionella IVS-bilden till vänster visar att ”motion tracking”-systemet kan ”identifiera” några av människorna i bilden. Men sättet på vilket det gör det – genom att placera en box runt det aktuella området – berättar mycket lite om rörelsen i själva boxen. Om det är många pixlar som rör sig, är det då en folkmassa eller en bil? Om det är en folkmassa, hur många människor består den av?

Eftersom Umbo Lights neurala nätverksmodeller bygger specifikt på den synliga videobildsdatan, registrerar den saker på samma sätt som en människa. Det kan varna för specifika mänskliga former som en mänsklig operatör och identifierar 19 av 21 människor i scenen korrekt.

Utöver denna enkla demonstration finns det ett antal spännande möjligheter för framtiden. En box är bara en box, men Umbo Lights visuella modeller kan tränas för att identifiera beteenden. Att identifiera och varna om beteenden som att stå och hänga eller driva omkring, slagsmål och kvarlämnade föremål, är bara början på vad visuellt baserade IVS-system som Umbo Light kan utföra.

Källor

Kim, In Su, et al. “Intelligent visual surveillance – a survey.” International Journal of Control, Automation and Systems 8.5 (2010): 926–939.
Hu, Weiming, et al. “A survey on visual surveillance of object motion and behaviors.” IEEE Transactions on Systems, Man, and Cybernetics, Part C (Applications and Reviews) 34.3 (2004): 334–352.
Lipton, Alan J., Hironobu Fujiyoshi, och Raju S. Patil. “Moving target classification and tracking from real-time video.” Applications of Computer Vision, 1998. WACV’98. Proceedings., Fourth IEEE Workshop on. IEEE, 1998.

Om Umbo Computer Vision

Umbo CV är ett företag – specialiserat på artificiellt intelligens – som tillverkar autonoma videosäkerhetssystem för företag. Företaget har blivit omskrivet i Forbes av Ralph Jennings. Författaren förklarade i sin text med exakthet varför säkerhetsvakterna har nytta av Umbos lösning: "En vanlig videoövervakningskamera monterad på en byggnad kan förväxla en inbrottstjuv med en hund, vilken kan föranleda att falsklarm skickas till larmmottagaren. Det beror på att kameran inte alltid kan läsa av former i realtid, bara upptäcka rörelse. Falsklarm kan medverka till att säkerhetsvakterna bara avmarkerar kamerornas varningar och inte reagerar när en skarp händelse inträffar. Umbo Computer Vision, som är ett uppstartsföretag, har designat en lösning som gör att kamerorna kan läsa av situationer bättre och därmed reducera falsklarmsbenägenheten med upp till 20 gånger, enligt en av företagets grundare.

Läs mer här