SecurityWorldMarket

2009-12-01

Intelligent videoanalys

Av Matts Lilja, Frode Berg Olsen (OPAX) och Leif Haglund, Amritpal Singh (Saab).

Om man ska välja ett ämne där själva utmaningen är att höja medvetenheten och kunskapsnivån i säkerhetsbranschen, då ligger intelligent video bra till. Det finns många frågetecken att räta ut när det gäller denna relativt nya och potentiellt kraftfulla teknologi. Vad kan förväntas av intelligent video? Hur fungerar det? Vilken ’Return on Investment’ (ROI) kan användarna hoppas på? Dessa och en mängd andra frågor får sina svar i denna artikel.

Det finns flera alternativa rubriceringar till ”Intelligent video”. Redan här röjs det faktum att vi talar om något relativt nytt. De alternativa termer som används mest är intelligent videoanalys (IVA) och videoinnehållsanalys (VCA=Video Content Analysis). Därutöver finns en mängd olika variationer på ovanstående uttryck, men VCA är den bästa termen för att beskriva vad det egentligen handlar om. Att benämna ett teknologiskt system som intelligent, i ordets sanna betydelse, är inte korrekt. Gemensamt för alla olika termer som beskriver VCA är att de har att göra med den teknologi som används för att analysera video genom specifik data, beteende, objekt och attityd.


Skapa nytta genom förenkling

Stora mängder videodata återfinns idag i konsument- och företagsapplikationer, men interaktion med denna lagrade video kräver bättre verktyg för att beskriva, organisera och sköta videodata. På grund av detta behov har företag tillsammans med forskningsinstitut samarbetat i syfte att utforska möjligheterna i att automatisera beskrivning och kategorisering av multimedia i allmänhet, och video i synnerhet. Arbetet med att manuellt beskriva videodata är naturligtvis mycket tidskrävande, därför behövs automatiserade metoder. Målet är att automatiskt skapa videosammanfattningar eftersom strukturerad media är mer lämplig att söka efter.


Säkerhetsvideo
Stora mängder video kan också hittas i säkerhetsanläggningar med kameraövervakning. Intresset för VCA har ökat under senare år, och är denna artikels fokus. Inom säkerhet används VCA främst för analys av realtidsvideo, men kan med fördel också användas för att söka på inspelat material genom att sätta vissa parametrar för mjukvaran att söka efter. Detta är en funktionalitet som sparar väldigt mycket tid och på så sätt ytterligare bidrar med nytta i en VCA-installation.


”Ointelligent” videoövervakning
För att exemplifiera vad som utgör ett typiskt videoövervakningssystem och varför detta varken kan klassas som intelligent eller analytiskt, utgår vi ifrån en stormarknad. Ett antal kameror är mer eller mindre direkt kopplade till ett antal monitorer, som i vissa fall är övervakade av operatörer och i vissa fall också spelas in. Den videoförädling som på sin höjd sker är av bildförbättrande art. All analys och förståelse för vad som pågår i det övervakade området är upp till operatörerna. Lyckligtvis händer det oftast ingenting speciellt eller hotfullt, det är tur. Studier visar nämligen på att operatörerna förlorar upp till 90 procent av sin uppmärksamhet efter bara 22 minuter av manuell videoövervakning. Om det då sker en händelse som behöver åtgärdas ger videoövervakningssystemet inget annat stöd än att det går att titta på förloppet i efterhand, om det har spelats in. Om man beaktar tidigare nämnda siffror för en operatörs uppmärksamhet så är det inte svårt att inse att risken är överhängande att en incident, eller annan viktig händelse, går obemärkt förbi även då videoövervakning är installerad. Undersökandet av vad som pågått innan, under och efter en incident måste göras genom att manuellt gå igenom inspelad video. Eftersom ingen riktig support erbjuds av system online eller offline, så kan inte ett sådant system klassas som analytiskt eller intelligent.

Skillnaden mellan en traditionell kameraövervakning och en anläggning VCA är att man i det senare fallet får automatiserade funktioner som förenklar och till viss del överkommer problemen med operatörer, såväl offline som online.


Rörelsedetektion
Innan vi går in djupare på hur teknologin bakom VCA fungerar så tar vi upp en enklare typ av videoanalys som har funnits i mer än 20 år, nämligen rörelsedetektion (motion detection). Rörelsedetektion är idag en integrerad del av många digitala övervakningskameror och övervakningsmjukvaror. Rörelsedetektion tittar på förändringar i pixelvärden (rörelse) i en videoström och triggas igång av en händelse om rörelsen ligger över en viss nivå. I mer avancerade anläggningar kan systemet kräva att rörelsen ska ske inom ett visst bestämt område i bilden, eller om objektet är av en viss storlek, för att larm/inspelning ska triggas igång.

Eftersom rörelsedetektion är relativt osofistikerad är dess användning begränsad, inte minst på grund av den mängd falsklarm som den skapar. Med falsklarm menar vi händelser som triggar igång larmet/inspelningen trots det att inget riktigt objekt rört sig i bilden. Den viktigaste fördelen med rörelsedetektion är att den ofta används för att kontrollera när video spelas in och inte, eftersom en statisk bild sällan är av intresse. På detta sätt sparas en hel del lagringsutrymme.


Vad är intelligent?
Så rörelsedetektion är alltså inte speciellt intelligent. Vad är det då som gör att VCA betraktas som intelligent? Är det överhuvudtaget rimligt att kalla ett VCA-system för intelligent?
Om vi återvänder till stormarknaden igen och nu förser systemet med VCA så kan vi se ett antal förbättringar.

  • Eftersom att stormarknaden består av ett antal affärer, entrér/utgångar, öppna ytor osv är det en utmaning för ett konventionellt system att hålla reda på hela gallerian.
    I ett VCA-system vet systemet relationen mellan kamerorna i nätverket och dess positionering i förhållande till vissa platser i gallerian. Dessutom kan VCA-system följa människor och objekt genom nätverket på ett konsekvent sätt. På detta sätt så kan operatörerna få en klart förbättrad överblick av gallerian. Det blir t ex möjligt att fråga VCA-systemet vart en förövare kommit ifrån och – kanske ännu viktigare – vart han kan ta vägen och vart man kan stoppa honom?
  • Titt som tätt kan det uppkomma behov av att specialbevaka ett visst område i gallerian. I ett konventionellt system betyder det att en operatör måste vara extra uppmärksam på ett visst område. Detta kräver att han minskar sin uppmärksamhet på övriga områden eller att ytterligare en operatör tillsätts. I ett VCA-system kan operatören själv definiera ett virtuellt säkerhetsområde med tillhörande regler för att trigga ett alarm. Han kan alltså fortsätta att utföra sina normala plikter medan VCA-systemet ser till att ha särskild koll på ett speciellt område.
  • Om en incident uppstår som leder till att ett larm går av via VCA-systemet kommer inte bara operatörerna att meddelas, utan även en PTZ-kapabel HDTV kamera kan automatiskt zooma in på händelsen som utlöst larmet och skapa högkvalitetsbilder på objektet.
  • Ett VCA-system kan också integreras med biometrisk identifikation. Det innebär att operatörerna själva måste identifiera sig innan de går in i ett känsligt område.


Innan någon analys kan ske måste meta-data tas från videoströmmen. Meta-datan  innehåller information om t ex objektets hastighet, storlek och position.
Innan någon analys kan ske måste meta-data tas från videoströmmen. Meta-datan innehåller information om t ex objektets hastighet, storlek och position.

Så fungerar VCA  
VCA är möjligt tack vare skapandet och analyserandet av meta-data. Typiska exempel av meta-data är: 

  • Objektets storlek och position i bilden.
  • Objektets hastighet.
  • Nummerplåtar.

Meta-datans betydelse
Betydelsen av att meta-datan har hög precision kan belysas om man utgår från en applikation som t ex automatisk nummerplåtsigenkänning (ANPR). Om precisionen är låg i ett ANPR-system och tillförlitligheten i identifieringen av ID är undermålig kommer ANPR-systemet att vara värdelöst. Det kan också leda till problem om ett objekts storlek felbedöms så att t ex en person kan äntra ett förbjudet område utan att larmet triggas igång. Ju högre säkerhet som krävs av VCA-systemet, ju högre krav måste man följaktligen ställa på skapandet av korrekt meta-data. Själva datan i bilden är naturligtvis också viktig att ta i beaktande. Är det tillräckligt att veta ett objekts position i bilden för att kunna implementera en steril zon eller ett ’trip wire’ alarm? Tänk vilka möjligheter som skulle finnas om olika objekts position kunde plottas på en karta via koordinater och vidare om man kunde klassificera dem som människor, bilar, djur etc.

När det gäller värdet för slutanvändaren är meta-data analysen av naturligtvis av yttersta intresse. Det är ju resultatet av den som presenteras som händelser för användaren.

Analysen av en människas position över tid kan resultera i områdesöverträdelse, beroende på personens rörelser och typen av analys som används. Om meta-data innehåller information om objektets geografiska position kan meta-datan avgöra om det rör sig om en för snabbt körandes bil eller en människa som springer. Informationen om varje bils hastighet kan sedan användas för att beräkna medelhastigheten på ett vägavsnitt eller för att detektera och larma när det börjar bildas köer.

I en högsäkerhetsanläggning kan ett organiserat inbrott detekteras tidigare om t ex systemet är programmerat att larma i händelse av att ett visst antal personer samtidigt rör sig mot ett visst område från olika håll. Om meta-data insamlingen är precis och robust kan en person, teoretiskt sett, följas mellan kamerorna i en stad eller byggnad.

Original VideoFeed
Original VideoFeed.

Bakgrundsdifferentiering
När man beskriver hur VCA fungerar är det viktigt att belysa separationen av objekt från dess bakgrund i en videoström. Det finns stora skillnader i detaljer när det gäller själva implementeringen av bakgrundsdifferentiering, speciellt de metoder som används för att filtrera bort bildstörningar, orsakade av ljusförändringar och vädereffekter så som vind, regn och snö. De grundläggande stegen för en bakgrundsdifferentiering beskrivs nedan.

Segmentering
Segmentering.

Segmentering
Systemet håller en långsamt förändrad bild i minnet och kodar denna som bildens statiska bakgrund. För varje ny bild i videoströmmen så uppdateras bakgrundsbilden för att anpassa sig till förändrade ljusnivåer osv. Pixlar i den innevarande bilden som är annorlunda jämfört med bakgrundsbilden segmenteras bort. Det finns olika metoder för att minska effekterna från förändrade ljusförhållanden, dåliga kontraster och naturliga förändringar som orsakas av väder. Nivån på den bakomliggande algoritmen för detta skiljer de enklare teknologierna från de mer avancerade.

Klustring
Klustring.

Klustring
Kluster av segmenterade pixlar grupperas ihop för att forma objekt. De mer avancerade systemen är också kapabla att justera bort kastskuggor, men kan också följa objekt som är delvis skymda eller där de, i de enklare systemen, lätt blandas ihop med bakgrunden.

Klassificering –  stående person.
Klassificering –
stående person..

Klassificering
Långt ifrån alla VCA-system klarar av att skapa objektklassificering, men en mängd olika teknologier för detta finns. Ett sätt att göra det är att estimera ett antal parametrar för varje objekt, inkluderande storlek, hastighet och position. Parametervärdena jämförs sedan med fördefinierade värden, och objekten stoppas därefter in i respektive klass. Detta gör att antalet falskalarm kan minimeras då VCA-systemet slipper larma för exempelvis kastskuggor och fåglar.

En annan variant är att använda vad som vanligen kallas mallmatchnings-teknologier. Gemensamt för dessa teknologier är att de jämför objekten med en databas av olika mallar, för att sedan beräkna sannolikheten att ett objekt passar in i en viss klass. Denna metod kan vidareutvecklas till att bara behöva en bild för att plocka ut objekt ur bilden, på så sätt blir bakgrundsdifferentieringen oviktig. Men enligt vår vetskap har dessa metoder hittills bara testats i forskningsprojekts och ännu inte implementerats i någon kommersiellt tillgängligt VCA-produkt.

Nackdelarna med direktklassificeringsteknologier är att de kräver mer datorkraft och högre upplösning (fler pixlar) på objekten. Det betyder att vissa VCA-system klarar av att detektera och klassificera objekt på långa avstånd (200 m med 640x480 upplösning) medan andra system stannar vid 50-70 meter på grund av teknologiska begränsningar.

Spårning – stående person
Spårning – stående person.

Spårning
Det sista steget i processen är spårningen, där uppgiften är att tilldela varje objekt ett visst ID och hålla objektet i systemet så länge det uppehåller sig i kamerans synfält. Det finns olika tekniker för att spåra objekt där de är fullt synliga och delvis synliga, men de olika VCA-system skiljer sig mycket åt på denna punkt.


Skillnaden mellan ’Features & Functions’  
Så vad är det då för funktioner som faktiskt kan detekteras? BSIA (British Security Industry Association) uttrycker det på följande sätt: Teoretiskt sett kan vilket beteende som helst, som kan ses och precist beskrivas på en videobild, bli automatiskt identifierat och sedan larmat.

Alltså, beteende som ska detekteras måste kunna ses. Detta betyder att om man inte kan se om en person bär ett vapen så kan det inte heller detekteras med VCA. Det är faktiskt ett vanligt missförstånd att så är fallet. Det hörs ofta att ”vi vet inte vad militären klarar av” som ett skäl till att berättiga en tro att videoanalys kan utföra magi.

Ett mer alldagligt exempel är det s k ”left item detection”. Denna ”feature” är till för att detektera potentiellt farliga objekt, t ex en bomb som har lämnats kvar på en flygplats eller annat område där många människor reser. Problemet är att en videokamera inte kan se vad som är bakom en papperskorg, eller objekt som skyms av förbipasserande människor. Detta tar oss till distinktionen mellan ”feature” och funktion.

Med ’feature’ (mer precist capability feature) menas att ett system är kapabelt att göra vissa saker. Funktion är en mer komplex sak eftersom den rör hur ”featuren” är implementerad och till vilken grad det faktiskt fungerar, dvs användbarheten. Ett vanligt använt exempel är en bils förmåga att stanna. Denna ”feature” måste finnas i alla bilar, men själva bromsfunktionen är implementerad i form av en pedal, inte en knapp i handskfacket, för att funktionen ska vara användbar. Vidare, om vi använder en sportbil i exemplet ställs ytterligare krav på hur snabbt bilen måste stanna, att jämföras med en familjebil. Det finns klara skillnader i funktioner.

Features
Om vi tittar på alla ”features” som en samling VCA-företag utger sig för att ha så får vi en förvirrande lista av engelska termer:

• Asset Protector • Virtual Fence
• Loitering • Wrong Direction Detection
• Left Item Detection • Suspicious Directional Movement
• Tracking • Unusual Crowd Formation Detection
• Tailgating • People Counting
• Intelli-Search • Intrusion Detection
• Removed Item Detection • Crowd & Queue Management
• Perimeter Defence • Tripwire Detection
 • Traditional Video Motion Detection (VMD) • Unauthorised Activity Detection
• Camera Obstruction • Running Detection
• Slip & Fall Detection

Vi får nu ställa oss frågan vilket beteende som faktiskt kan ses, och om det i så fall kan beskrivas på ett precist sätt. Om vi tittar på ”left item detection” har vi tidigare i artikeln kommit fram till att beteendet kan ses om objektet inte skyms. Med andra ord så kan objektet ses, men bara ibland. Kan detta beteende beskrivas precist? Hur definierar vi ett kvarglömt föremål? Hur länge måste objektet vara lämnat, och hur långt ifrån en person måste föremålet vara? Om en person lämnar en portfölj i närheten av en annan person, är då portföljen ett kvarglömt föremål? Kan beteendet beskrivas precist? Ja, men bara ibland.

Många VCA-företag hävdar att deras system kan detektera kvarglömda föremål, ett beteende som ibland kan beskrivas och ibland ses av en kamera. Låt oss vara ärliga, detta är en ”feature” med usel funktionalitet. Vad gäller då de övriga ”features” som nämns på sidan? Vad är egentligen ”unusual crowd formation movement”? Hur väl kan systemen leva upp till dessa utlovade ”features”? 


Arbetsprinciper för VCA

Som tidigare nämns så skiljer sig de olika VCA-systemen åt vad gäller förmågan att generera och analysera meta-data. Med meta-data, i detta sammanhang, avses data som beskriver innehållet av en videoström på så sätt att man kan bilda en uppfattning om vad som pågår i bilden. Om systemet till exempel har förmågan att informera operatören så fort en person springer så behöver den kunna extrahera åtminstone följande data från video strömmen (analysdelen):

  • Extrahera förgrundsobjekt.
  • Estimera storlek och andra särskiljande värden på förgrundsobjekten.
  • Estimera hastigheten av varje objekt (observera att det för att detta ska fungera krävs att systemet klarar av att spåra objekt genom kommande videobilder).

Denna extraherade data är alltså meta-datan. I nästa steg så kommer VCA-systemet att analysera meta-datan, snarare än själva rå-videodatan. I detta exempel består meta-data analysen av:

  • Klassificering av förgrundsobjekt och indelning i kategorierna ”människor” och ”icke-människor”.
  • Information som gör att man kan  skilja normal gång från att stå still och så vidare.
Figur 1: Stereosensorer från Saab används i det tracking-system för fotbollsarenor som Tracab levererar.
Figur 1: Stereosensorer från Saab används i det tracking-system för fotbollsarenor som Tracab levererar. 


Affärsmöjligheter med VCA
Det finns åtskilliga exempel på hur affärsverksamheter kan tjäna på att använda VCA i sina säkerhetsinstallationer. Fördelen med att ett VCA-system kan detektera stöld och andra oönskade beteenden i en stormarknad är uppenbar, men VCA-systemet kan också användas för att t ex följa upp butikskampanjer och se vilka produkter eller vilka reklamskyltplaceringar som attraherar flest kunder.

Ett annat exempel skulle kunna vara att använda videoanalys i en bankmiljö, där säkerhetsfunktionen består i att förebygga stöld och bedrägeri, men samtidigt kunna användas för att optimera effektiviteten i köandet till kassan genom att informera personalen när mer folk behövs i kassalinjen.


Investeringsavkastning (ROI)
När ett CCTV-system köps in i dag handlar diskussionen i regel enbart om säkerhet, och kanske är det så det ska vara. Det kan komma en tid när affärsanalytiker och statistik äntrar CCTV-scenen och begär avkastning från säkerhetsinstallationer. Om detta är nu, senare eller aldrig, vet vi inte riktigt. Vad vi vet är att hela säkerhetsindustrin borde lära sig att applicera samma idéer och fundamentala värden i vilken CCTV-installation som helst. Beräknandet av avkastningen på en investering är ett kritiskt verktyg för att tillse att man har rätt att existera i en fri ekonomi. Så hur mäter vi vilken avkastning en investering i videoanalys kan ha i en säkerhetsapplikation? Som för alla andra affärsscenarion så handlar det om att kalkylera kostnad jämfört med investeringen effekt på intäkterna och kostnadsbesparningarna.

Typiska applikationer
En skola, som implementerar videoanalys, kan ha för avsikt att minska skadegörelser och kostnaderna för säkerhetspersonal, eller helt enkelt sätta stopp för de avbrott som förekommer under skolans vanliga drift. Deras investeringsavkastning kan beräknas genom att undersöka den totala kostnaden för skadegörelse i skolan jämfört med besparningen som ett alarm med videoanalys skulle kunna bidra med.

I dagens moderna samhälle är ofta skolor ett mål för unga människors skadegörelse, något som allvarligt tär på offentliga medel. Larm och säkerhetsinstallationer av idag stoppar sällan skadegörelse, utan påkallar snarare uppmärksamhet så att säkerhetspersonal kan agera med åtgärdsinsats. Oftast rör det sig om ungdomar som håller på med sporter och lekar på skolgårdar, och inte riktiga hot. Med hjälp av VCA så skulle varje irrelevant larm kunna filtreras bort genom videoanalys. På så sätt sparas utryckningskostnader för säkerhetspersonal.

En annan typisk arena för VCA är när det gäller att följa lagar och regler. Vi har idag ett ökande antal lagstiftande organ som sätter upp regler för olika typer av verksamheter och organisationer. Många av dessa regler har ett säkerhetsfokus. Tillverkare som framställer biologiska substanser måste exempelvis följa amerikanska FDA:s olika regler för säkerhet i tillverkningslokalerna även om fabriken befinner sig utanför USA. FDA reglerar till exempel hur mycket och vilken typ av trafik som får röra sig inom ett visst område. Det är allt som oftast ett måste att följa dessa regler eftersom att den amerikanska marknaden är alldeles för värdefull för att överge. Detta gör att tillverkarna mer eller mindre tvingas köpa in system som klarar av att mäta hastighet och riktning för fordon som rör sig inom fabrikens område. I den typen av fall så krävs det ett bättre VCA system som kan lösa hela problematiken på ett kostnadseffektivt sätt. Beräkningen av avkastning på investeringen blir i dessa fall mycket lätt att acceptera.

 
Att beräkna avkastning på investering

Att beräkna avkastning på en VCA-investering är vanligen ganska enkelt; ökad säkerhet leder oftast till minskade kostnader för skadegörelse och stöld. Men tid är också pengar och tidsåtgången är ofta stor när säkerhetspersonal ska undersöka rycka ut och undersöka orsaken till ett larm, trots att ingen skadegörelse eller stöld ägt rum. Om VCA kan användas för att minska antalet falsklarm existerar det en klar och uppenbar avkastning på VCA-installationen.

Ett kraftöverföringsstation är normalt sett en obemannad högsäkerhetsinstallation i ett landskap med farliga elledningar som dragits i ofta öppna landskap. Kostnaden för att skicka säkerhetspersonal till en sådan installation är är hög men nödvändig eftersom att området är livsfarligt för civila att uppehålla sig i. Genom att använda videoanalys i en sådan installation skulle man kunna minska antalet falsklarm väsentligt genom att bara larma på människor. Detta sparar helt klart tid och pengar i och med att man bara behöver skicka ut säkerhetspersonal när det verkligen behövs.

Liknande applikationer existerar överallt i världen, det kan handla om telefonnäts basstationer och tågtunnlar.


Stereoavbildning 

I videoövervakningssystem täcker vanligen en kamera ett område. Videosensorerna fungerar alltså på ett monokulärt sätt. I kontrast till dessa tvådimensionskameror har människors ögon stereoseende för att se och förstå sin omgivning, dvs en uppfattning av verkligheten i 3D. Monokulär syn förmedlar en 2D-projektion av en 3D-värld, alltså en platt beskrivning. Det är uppenbart att en sådan projektion begränsar vilken typ av information som kan extraheras ur en videoström. Information om distans och djup förloras i en 2D-projektion, vilket medför att beräkningen av objekts storlek är omöjligt såvida det inte finns en kartmodell över det övervakade området. Stereosyn lider inte av samma begränsning. Vanliga kameror kan konfigureras för att förmedla en 3D-bild av verkligheten. Liksom ögonens uppbyggnad åstadkoms detta genom att sätta två videokameror bredvid

varandra med ett visst avstånd (t ex 50 cm) riktade åt samma håll. Saabs stereosensor är ett exempel på en sådan bildsensor som klarar av att hantera stereoavbildningar i realtid. Kamerorna sätts på små och klart definierade avstånd ifrån varandra och observerar samma område. Signalprocessorerna förmedlar sedan informationen från de två kamerorna och skapar en karta över området (se figur 1).

En stereosensor kan baseras på nästan vilken videokamera som helst, det som krävs är att kamerornas parametrar och distans ifrån varandra är känt. För övervakning av dynamiska områden är det också viktigt att kamerorna är synkroniserade. Precisionen i synkroniseringen måste vara något bättre än den typiska tidskonstanten för de klassificerade objekten.

Tillgängligheten av mer information (djup) jämfört med en vanlig kamerabild är mycket användbart för ett VCA-system. Detta kan exempelvis användas för att noggrant mäta de faktiskt fysiska proportionerna av ett objekt, såväl som att separera delvis blockerade objekt från varandra. Dessutom så kan detta åstadkommas utan en kartbild över det bevakade området. Utöver denna stora fördel så ökar också stereoavbildning kraften i den grundläggande processkedjan. Eftersom att stereo medför en 3D bild av verkligheten kan fåglar och andra distraktioner lätt sorteras bort och därmed minskas antalet falsklarm. Ett objekt kan också lätt skiljas från sin kastskugga, något som är mycket svår för en enskild kamera. Detektion och klustring blir också mycket mindre beroende av förändrade ljusförhållanden.

Figur 2: En schematisk översikt av ett kameranätverk och dess relation till det geografiska nätverket. Bilden visar möjliga   kamera-till-kamera övergångar.(höger) Ett exempel av hur rörelsespår från individuella kameror kan kopplas ihop för att   skapa globala spår genom ett kameranätverk.
Figur 2: En schematisk översikt av ett kameranätverk och dess relation till det geografiska nätverket. Bilden visar möjliga
kamera-till-kamera övergångar.(höger) Ett exempel av hur rörelsespår från individuella kameror kan kopplas ihop för att
skapa globala spår genom ett kameranätverk. 

Konsekvent spårning genom kameror

Vi beskrev tidigare i artikeln behovet av att kunna spåra objekt i en kameravy. En typisk videoinstallation består av ett antal kameror, där vissa enheter har överlappande bevakningsområden medan andra kameror kan vara installerade med stora avstånd sinsemellan och med helt olika bevakningsområden. Det är uppenbart att det är mycket svårare att följa objekt som rör sig mellan kameror jämfört med att följa ett objekt i en och samma videoström:

  • Kamerorna kan vara separerade av stora avstånd och objekten kan hamna utanför bild i långa perioder.
  • Ljusförhållandena kan också variera kraftigt vilket medför en svårighet för olika kameror att förstå att det rör sig om ett och samma objekt.
  • Kamerorna kan vara av olika modeller och fabrikat, vilket ytterligare komplicerar implementeringen. 

Som framgår av ovanstående är problemet svårlösligt. Om man skulle använda datorers råstyrka skulle detta kräva exponentiellt ökande beräkningar, i takt med att fler kameror och objekt involveras. Idag utvecklas emellertid metoder för konsekvent spårning emellan kameror som så smått börjar bli användbara i verkliga installationer. Det mest lyckade av dessa metoder tar med i beräkningen med hur det fysiska nätverket av entréer, utgångar och öppna ytor ser ut och hur dessa är relaterade till kamerornas positioner. På detta sätt så behöver vi bara koppla objekt mellan dessa synfält som faktiskt är anslutna (se figur 2).


Många fördelar
Ett fungerande nätverk med konsekvent spårning kan väsentligt öka operatörens förmåga att utföra sina säkerhetsrutiner. Först och främst skapar detta en betydligt bättre överblick över det bevakade området. Dessutom blir det möjligt att se vart ett objekt har varit innan man blev intresserad av det. Slutligen leder denna typ av funktionalitet till att det blir enklare att även gå igenom inspelat material, då det blir möjligt att koppla inspelad video med objektdata. Eftersom meta-datan är mycket mer koncentrerad jämfört med råvideodata blir det enklare att söka i det inspelade materialet.    



Leverantörer
Till toppen av sidan