Strona główna Rynek SECURITY Sztuczna inteligencja w telewizji dozorowej

Sztuczna inteligencja w telewizji dozorowej

Łukasz Lik


Systemy dozoru wizyjnego (VSS – Video Surveillance System) są dzisiaj najszybciej zmieniającym się segmentem w branży zabezpieczeń technicznych. Ze względu na coraz szersze zastosowanie kamer o wysokich rozdzielczościach budowanie coraz większych systemów VSS wiąże się ze znacznym zwiększeniem ilości danych związanych z prowadzonym dozorem wizyjnym.

Gromadzenie, analiza i wykorzystanie danych z systemów dozorowych staje się coraz ważniejsze dla branży security. To właśnie ilość danych pozyskiwanych i przetwarzanych w systemach wizyjnych stała się motorem wprowadzania inteligentnych rozwiązań umożliwiających szybszą i skuteczniejszą ich analizę.

Użytkownicy systemów oczekują, że inwestycja w nowe produkty zapewni znacznie więcej niż tylko rejestracja obrazu, śledzenie obiektów czy zgrywanie materiału wizyjnego po zaistnieniu zdarzenia alarmowego. Od najnowszych technologii wymaga się m.in. ograniczenia siły roboczej i czasu potrzebnego na przeszukiwanie nagrań czy wykrywanie nieprawidłowych zachowań, a także stopniowego przechodzenia od alarmowania po wykryciu zdarzenia po alarmy w jego trakcie lub nawet przed incydentem. Zaspokojenie tych oczekiwań wymaga zaawansowanych technologii. Inteligentne funkcje analityki obrazu są dostępne od wielu lat, jednak wyniki ich zastosowania nie były idealne. Wprowadzenie technologii opartych na sztucznej inteligencji (AI), takich jak deep learning (głębokie uczenie) otwiera nowe, realne możliwości zastosowania analizy obrazu wideo.

Przewaga głębokiego uczenia
Funkcje zaprojektowane w tradycyjnych algorytmach analizy obrazu mogą być subiektywne. Bardziej abstrakcyjne cechy, które są trudne do opisania językiem programowania, często były pomijane. Dlatego algorytmy te dobrze działają w ściśle określonych środowiskach. Subtelne zmiany, takie jak jakość obrazu, gra świateł czy większa dynamika na scenie mogą powodować spadek dokładności rozpoznania. Czy jest zatem możliwe, by to maszyny wykrywały pewne „abstrakcyjne” cechy obiektu, pomocne w jego klasyfikacji i rozpoznaniu? Tak, jest możliwe! W rzeczywistości to właśnie cel sztuczniej inteligencji.
Inspiracją dla technologii głębokiego uczenia jest budowa mózgu człowieka. Mózg można postrzegać jako bardzo złożony model głębokiego uczenia. Wielowarstwowa sieć neuronowa mózgu składa się z miliardów wzajemnie połączonych neuronów, a tych połączeń jest więcej niż neuronów. Głębokie uczenie symuluje tę strukturę, wykorzystując sztuczną sieć neuronową, w której każdy sztuczny neuron to mały „program” ściśle połączony cyfrowo z innymi neuronami, tworząc kolejne warstwy.

Podobnie jak w mózgu człowieka są obszary odpowiadające za pewne funkcje życiowe, tak w sztucznych sieciach neuronowych występują warstwy odpowiadające za określone zadania. Te wielowarstwowe sieci mogą zbierać informacje i wykonywać odpowiednie działania, przede wszystkim automatyczną ekstrakcję i reprezentację cech (wzorców) występujących w danych uczących sieć, m.in. rozpoznawać twarze, marki pojazdów, gatunki zwierząt czy też zdarzenia, np. upadek.

Skąd ta „głębia”
Dzisiejsze algorytmy głębokiego uczenia mają bardzo złożoną strukturę. Czasami liczba warstw może przekraczać 100, co pozwala na przetwarzanie dużych ilości danych, np. w celu skomplikowanej klasyfikacji. Dane są analizowane warstwa po warstwie – im wyższy poziom warstwy, tym bardziej dostrzegane są szczegółowe cechy i analizowane od początkowego zrozumienia po dokładne rozpoznanie obiektu.

Głębokie uczenie jest oparte na algorytmie do samodzielnego wyodrębniania wzorców czy cech. W ten sposób jest w stanie wyodrębnić jak najwięcej elementów rozpoznawego celu, które są trudne lub niemożliwe do opisania. Posłużmy się krótkim przykładem. Powiedzmy, że kilkuletnie dziecko chcemy nauczyć, co to jest drzewo. Pokazujemy mu je w parku po kolei: dąb, buk, sosna. Gdy po pewnym czasie zapytamy, wskazując na świerk, co to takiego, otrzymamy odpowiedź – drzewo. Dziecko będzie później potrafiło rozpoznać ten obiekt na zdjęciu, kolorowance czy w filmie animowanym. W ten sam sposób działa technologia głębokiego uczenia.

Jedne z najbardziej bezpośrednich korzyści, jakie mogą zapewnić algorytmy głębokiego uczenia, to osiągnięcie porównywalnej lub nawet lepszej niż w przypadku człowieka dokładności rozpoznawania wzorców oraz możliwości klasyfikacji i rozpoznawania tysięcy cech.

Głębokie uczenie w systemach telewizji dozorowej
Technologie związane z głębokim uczeniem powoli wkraczają w codzienne życie – rozpoznawanie mowy w telefonach komórkowych czy pisma odręcznego itp. Pojawienie się tej technologii na rynku security było tylko kwestią czasu. Stosując algorytmy sztucznej inteligencji, można wzbogacić system telewizji dozorowej o takie funkcje analityki, jak rozpoznawanie twarzy, rozpoznawanie marek i typów pojazdów, wykrywanie cech ciała człowieka (np. płeć, wiek), analizowanie zachowania tłumu, śledzenie wielu celów jednocześnie itp.

Wszystkie inteligentne funkcje analizy obrazu wymagają odpowiednich urządzeń, począwszy od inteligentnych kamer, które w mniejszych aplikacjach mogą już same, bez użycia serwerów wykonywać zaawansowaną analizę. W dużych aplikacjach inteligentne kamery wstępną obróbką danych wspierają serwery, które dzięki temu mogą obsługiwać większą liczbę urządzeń.

Podsumowanie
Głębokie uczenie to kolejny poziom rozwoju sztucznej inteligencji. Nowe zaawansowane funkcje analityczne coraz częściej będą się pojawiać w systemach wizyjnego monitoringu miast czy budynków, usprawniając skuteczność i pracę całego systemu. Należy jednak pamiętać, iż integralnym i ciągle najważniejszym ich elementem jest człowiek. Dopiero perfekcyjna symbioza obu elementów: ludzkiego i technicznego zagwarantuje najwyższy poziom bezpieczeństwa.

Łukasz Lik
W branży zabezpieczeń od 7 lat, od 2014 r. w Hikvision Poland. Obecnie jest dyrektorem ds. technicznych.
Specjalizuje się w projektowaniu i wdrożeniach systemów zabezpieczeń. Prowadzi liczne szkolenia techniczne.