#COVER STORY #Polecane #Smart City

Sztuczna inteligencja w wielkim mieście

Kobieta idąca ulicą z zaznaczoną przez Sztuczną inteligencję ramka do rozpoznawania twarzy

Wiele miast na całym świecie wykorzystuje sztuczną inteligencję oraz techniki uczenia maszynowego w celu zbierania danych, usprawniania nadzoru oraz utrzymywania bezpieczeństwa publicznego. Szlachetnemu celowi, jakim jest bezpieczeństwo, muszą towarzyszyć odpowiednie przepisy. Inaczej obudzimy się w świecie z „Raportu mniejszości”.

Zacznijmy od tego, że przywykliśmy do widoku kamer monitoringu wizyjnego w przestrzeni publicznej. Stały się już  powszechnym narzędziem zapobiegania przestępczości i wykroczeniom w miejscach publicznych i prywatnych. Większość z nich pomaga w rozwiązywaniu spraw związanych z przestępstwami po ich popełnieniu lub w identyfikacji sprawców.

Daj palec, wezmą rękę. Tak trochę jest z kamerami. Przywykliśmy do tego, że są pomocne, teraz chcemy, by potrafiły jeszcze więcej. W związku z tym rośnie zapotrzebowanie na bardziej zaawansowane i inteligentne środki monitorowania naruszeń, zapobiegania przestępstwom i udzielania pomocy ofiarom. Stąd coraz większa popularność uczenia maszynowego (ML) oraz sztucznej inteligencji, które rewolucjonizują funkcje kamer, powodując poszerzenie zakresu zastosowań kamer, które wykracza poza tradycyjny dozór. Dzięki algorytmom uczenia maszynowego i sztucznej inteligenci możliwa jest m.in. analiza danych w czasie rzeczywistym, co redefiniuje podejście do bezpieczeństwa. Nim jednak przejdziemy do tego, jakie konsekwencje ma stała obecność inteligentnego monitoringu w miastach, przyjrzyjmy się dokładnie, co tak naprawdę potrafi.

Kamery inteligentne, czyli jakie?

Najczęściej, gdy mowa jest o tzw. inteligentnych kamerach, pierwsze skojarzenie dotyczy klasyfikacji obiektów, ewentualnie wykrywania nietypowych zachowań, jak nagłe gromadzenie się tłumu, czyjaś paniczna ucieczka bądź pojawienie się intruza w strefie zazwyczaj niedostępnej dla osób postronnych. Tymczasem inteligentne kamery potrafią o wiele więcej. Algorytmy SI analizują zmiany jakości obrazu i powiadamiają o znacznym jego zubożeniu. Analizują obraz pod kątem tła oraz przestrzeni o dużej częstotliwości zmian, aby odpowiednio dobrać parametry kompresji, naświetlenia lub wzmocnienia, zapewniając optymalny poziom jakościowy danych wejściowych.

Algorytmy SI w kamerach nieprzerwanie analizują strumień danych, aby docelowo zbudować model obserwowanej sceny.

Dzięki temu zapewniają lepszy poziom detekcji obiektów, ponieważ automatycznie ogranicza analizowany obszar, nakładając na niego siatkę 3D. I chociaż takie informacje nie są w żaden sposób „rysowane” na obrazie, to są dostępne w postaci strumienia metadanych wysyłanych równolegle do strumienia wideo. Metadane są złożonym opisem zawartości obrazu wykorzystywanym na potrzeby dalszej analizy. Coraz częściej mają format zestandaryzowany zaproponowany przez organizację ONVIF w profilu M, przez co stały się rozwiązaniem agnostycznym sprzętowo. Zaznaczam tutaj, że liczba przesyłanych danych zależy od samego modelu kamery. Nie można też zapomnieć, że dzięki funkcjom predykcyjnym algorytmy zawczasu informują o możliwej awarii urządzenia.

Moc obliczeniowa kamer dozoru wizyjnego nieprzerwanie rośnie, jednak mają one swoje ograniczenia. Przykładem są kamery do odczytu tablic rejestracyjnych. W wielu przypadkach potrafią podać informację o marce, modelu i kolorze pojazdu – problem pojawia się, gdy trzeba zidentyfikować pojazd bez tablic rejestracyjnych. W przeważających systemach algorytmy najpierw próbują odczytać tablicę rejestracyjną. Dopiero potem przystępują do zbierania dalszych danych o pojeździe. Efekt? Nie ma tablicy – nie ma pojazdu. Innym przykładem jest rozpoznanie twarzy (Facial Recognition – FR). Współczesne kamery całkiem dobrze radzą sobie z wykrywaniem twarzy na obrazie. Jednak nie dysponują wystarczającą mocą obliczeniowej, aby prawidłowo i w krótkim czasie mogły ją rozpoznać. Czym innym bowiem „zrozumienie”, że fragment obrazu to twarz człowieka, a czym innym jej rozpoznanie i przypisanie do konkretnej osoby.

Gdy doba jest za krótka, przydaje się meta­analiza

Systemy dozoru wizyjnego są znacząco pomocne podczas prowadzenia różnego rodzaju dochodzeń. Zapis obrazu z kamer jest o tyle istotny, że pokazuje zdarzenie takim, jakie rzeczywiście było. Pamięć naocznych świadków, o ile są, bywa bardzo często zawodna. Pod tym względem zapis wideo jest bezkonkurencyjny. Ale… im więcej nagrań, tym więcej danych do analizy. Wyzwaniem dla operatorów monitoringów miejskich jest zatem analiza coraz większych zbiorów danych. Czas potrzebny na odnalezienie właściwego nagrania staje się coraz dłuższy. W odróżnieniu od doby, która – jak świat światem – trwa 24 godziny. W tym przypadku pomocne okazują się rozwiązania wykorzystujące połączenie analizy wideo (po stronie kamer i serwera) z algorytmami głębokiego uczenia do wykrywania, klasyfikowania i wyszukiwania. Wspomniane wcześniej metadane zasadniczo przypisują cyfrowe znaczenie każdej klatce wideo, skupiając się na obiektach w niej zawartych. Innymi słowy, dodają opis sceny.

Metadane mogą obejmować lokalizację, czas, kolory, rozmiary, kształty, współrzędne, trasę, prędkość, czas trwania sceny, kierunek przemieszczania, typ, klasę i podklasę obiektu itd.

Dzięki filtrom wyszukiwania operator może szybko przejrzeć wideo, aby znaleźć interesujące osoby, przedmioty i pojazdy. Możliwość przejrzenia godzin nagrań w ciągu kilku sekund jest bezcenna.

Metadane są ułatwieniem także dla instytucji zarządzający miastem, choćby do badania wzorców zachowań w czasie. Kompleksowe oprogramowanie do analizy wizyjnej gromadzi i agreguje dane, takie jak natężenie i wzorce ruchu, statystyki zajętości i czas przebywania – prezentując je na łatwych w użyciu pulpitach nawigacyjnych z wykresami i tzw. mapami ciepła (heat maps), będących graficznym przedstawienie danych, w którym wartości są reprezentowane kolorami, zwykle na tle obrazu lub planu przestrzeni (np. sklepu, hali, parkingu, lotniska). Heat mapa pokazuje miejsca, gdzie ruch ludzi był największy (najczęściej uczęszczane obszary), zaznaczając te miejsca ciepłymi kolorami (np. czerwony, pomarańczowy). Miejsca mniej uczęszczane są przedstawiane jako zimniejsze kolory (np. niebieski, zielony). Choć heat mapa może też dotyczyć innego rodzaju aktywności.

Dzięki tym statystykom możliwe jest opracowanie trendów służących potem do skonfigurowania alarmów dla sytuacji odbiegających od tych trendów, anormalnych.

Słowa mają moc

Na atrakcyjności zyskuje nowy sposób wyszukiwania materiału wizyjnego – wyszukiwanie tekstowe. Brzmi dziwnie, ale jest sensowne. Wyszukiwanie tekstowe również korzysta z metadanych generowanych przez kamery. Obejmują one typ obiektu (osoba, typ pojazdu, obiekt nieznany, itp.) oraz jego atrybuty, takie jak kolor, prędkość, lokalizacja i sygnatura czasowa. Tradycyjnie wyszukiwanie przy użyciu metadanych wykonywane jest za pomocą predefiniowanych filtrów wyszukiwania, zawierających stałe opisy obiektów z listy, np. typ obiektu (np. „pojazd”), typ pojazdu (jeśli dotyczy, np. „samochód”), kolor (np. „niebieski”) i inne. Metoda wyszukiwania tekstowego pozwala natomiast na tworzenie własnych filtrów wyszukiwania. Jeśli bowiem wyszukiwanie ograniczone jest tylko do wstępnie sklasyfikowanych danych, to wprawdzie da precyzyjne wyniki, ale nie umożliwi wykrycia tych obiektów, które wcześniej nie zostały zdefiniowane. Wyszukiwanie tekstowe zapewnia swobodę i elastyczność wyszukiwania przy użyciu własnych słów. Można opisać dowolny obiekt bardziej szczegółowo, używając języka naturalnego i skojarzeń, aby doprecyzować wyszukiwanie i uzyskać więcej wyników. Przykładem zapytania jest choćby „osoba w czerwonej kurtce i z plecakiem”.

Przechodnie na ulicy z zaznaczonymi przez sztuczną inteligencję ramkami w celu rozpoznawania twarzy
Fot. Shutterstock

Przeszukiwanie wideo za pomocą pytań w języku naturalnym oznacza możliwość zastosowania niemal nieograniczonych kryteriów wyszukiwania. Za rozwiązaniem stoi model podstawowy tekst-obraz, który został wytrenowany na dużych zbiorach danych zawierających taką parę informacji, czyli tekst plus obraz. Jest to model typu zero-shot, który dopasowuje tekst do odpowiednich obrazów. Model typu zero-shot (zero-shot model) to taki model uczenia maszynowego, który potrafi rozwiązywać zadanie, którego nigdy wcześniej nie widział w danych treningowych, bez dodatkowego uczenia. Na przykład, mając zestaw obrazów zwierząt do sklasyfikowania, wraz z pomocniczymi opisami tekstowymi tego, jak wyglądają zwierzęta, model sztucznej inteligencji, który został wyszkolony do rozpoznawania koni, ale nigdy nie otrzymał zebry, potrafi znaleźć zebrę na obrazie, gdyż wie, że zebra wygląda jak niewielki koń w biało czarne pasy. Ta umiejętność ma zasadnicze znaczenie dla zapewnienia optymalnej wydajności w dopasowywaniu języka naturalnego do obrazów. 

Zawsze jest jakieś „ale”

Miasta wykorzystują SI, aby zapewnić swoim obywatelom bezpieczeństwo. Co nie znaczy, że mogą nie przejmować się ich prywatnością. Nadzór i predykcyjne działania za pomocą sztucznej inteligencji to najbardziej kontrowersyjny trend w systemach dozoru wizyjnego, który ma ważne implikacje dla przyszłości miast i społeczeństw.  Istnieją pewne wątpliwości, czy wpływ sztucznej inteligencji na funkcjonowanie miast to wyłącznie „cud, miód i orzeszki”. Najbardziej podstawowym problemem jest prywatność, ale często toczą się debaty na temat sztucznej inteligencji z innych perspektyw, takich jak jej wpływ na miejsca pracy, gospodarkę i przyszłość pracy. Nie można zatem oddzielić dyskusji na temat inwigilacji i predykcyjnych działań od niedawnych debat na temat wymiaru społecznego i etycznego wprowadzenia sztucznej inteligencji do nadzoru nad miejską przestrzenią.

Sam dozór wizyjny w domenie publicznej został już społecznie zaakceptowany, ale miasta badają możliwości przewidywania przestępczości poprzez analizę danych z systemów dozoru wizyjnego w celu poprawy bezpieczeństwa.

Dzięki wykorzystaniu SI analiza obrazów zapewnia szybsze podejmowanie działań. Uczenie maszynowe i analiza dużych zbiorów danych umożliwiają poruszanie się po ogromnych ilościach danych w celu identyfikacji wzorców, korelacji i trendów. Kiedy istnieją właściwe relacje, technologia jest warstwą, która wspiera organy ścigania w lepszym wykonywaniu ich pracy. Ostatecznym celem jest stworzenie elastycznych systemów bezpieczeństwa, które będą w stanie wykrywać sieci przestępcze lub terrorystyczne oraz podejrzaną aktywność, a nawet przyczyniać się do skuteczności systemów wymiaru sprawiedliwości. Kluczowym pytaniem pozostaje, w jaki sposób osiągnąć te cele przy jednoczesnym poszanowaniu prywatności i praw obywatelskich.

Eksperci twierdzą, że prawie niemożliwe jest zaprojektowanie powszechnie stosowanych etycznych systemów sztucznej inteligencji ze względu na ogromną złożoność różnorodnych kontekstów, które muszą one obejmować. Wszelkim postępom w dziedzinie sztucznej inteligencji w zakresie nadzoru i predykcyjnego dozoru muszą towarzyszyć dyskusje na temat kwestii etycznych i regulacyjnych. Mimo że propozycja wartości tych technologii może wydawać się atrakcyjna z perspektywy przypadków użycia, wolności i prawa obywatelskie muszą być chronione przez odpowiednie przepisy dotyczące prywatności i praw człowieka. Chociaż jest to kontrowersyjna kwestia w krajach zachodnich, w krajach azjatyckich, a szczególnie w Chinach, podobnych wątpliwości jest zdecydowanie mniej. Badanie przeprowadzone przez Deloitte wykazało znaczne różnice w akceptacji i atrakcyjności tych technologii między regionami. Zarówno inwigilacja, jak i predykcyjne działania policyjne są uważane za niepożądane w regionach geograficznych bardziej dbających o prywatność, takich jak UE i Ameryka Północna. Obywatele krajów Ameryki Łacińskiej i Azji wykazują się w tej kwestii większą wyrozumiałością.

Sztuczna inteligencja ma swoje prawa

Unia Europejska przygotowała ustawę o sztucznej inteligencji, która jest znana jako AI Act. Ma ona zapewnić rozwój i wykorzystywanie sztucznej inteligencji w sposób bezpieczny, niezawodny i przejrzysty. Unijna ustawa ma chronić przed wszelkimi negatywnymi konsekwencjami sztucznej inteligencji. Dlatego też w pewien sposób wymusza na organizacjach korzystających z takich systemów zapewnienie, że ich SI nie dyskryminuje ludzi, nie wprowadza ich w błąd oraz że ich aplikacje nie są wykorzystywane w sposób nieetyczny lub nawet niezgodny z prawem. Użytkownicy powinni być świadomi, że wchodzą w interakcję ze sztuczną inteligencją, bez względu na rodzaj systemu – czy jest to aplikacja generująca obrazy, są to treści audio lub wideo, manipulacje za pomocą deep fake, czy systemy dozoru wizyjnego.

AI Act wprowadza przepisy, które mają na celu ochronę prywatności użytkowników i danych, na których opierają się systemy AI.

Szczególną uwagę poświęca się zapewnieniu, że dane osobowe są zbierane, przetwarzane i przechowywane zgodnie z ogólnymi zasadami ochrony danych osobowych, takimi jak Rozporządzenie o Ochronie Danych Osobowych (RODO). Dotyczy to m.in. zabezpieczenia danych wykorzystywanych przez systemy AI, minimalizacji ryzyka nieuprawnionego dostępu do nich oraz zapewnienia przejrzystości w zakresie ich wykorzystania. W tym przypadku warto wrócić do systemów FR, tj. systemów AI, które stosują biometrię, takie jak rozpoznawanie twarzy i są objęte szczególnymi regulacjami. AI Act wprowadza rygorystyczne zasady stosowania takich technologii, szczególnie w kontekście ochrony prywatności obywateli. W niektórych przypadkach (np. w przestrzeni publicznej) wprowadza całkowity zakaz stosowania rozpoznawania twarzy, chyba że istnieją wyraźne uzasadnienia (np. w walce z terroryzmem).

Co do zasady zgodnie z przepisami unijnego AI Act określone praktyki wykorzystujące systemy sztucznej inteligencji zostały uznane za sprzeczne z unijnymi wartościami i zasadami ochrony podstawowych praw oraz wolności. Zdecydowanie zakazane jest stosowanie systemów AI do oceny ryzyka popełnienia przestępstwa przez osoby fizyczne wyłącznie na podstawie ich profilu lub cech osobowościowych („Raport mniejszości” pozostać ma więc w dalszym ciągu filmową fikcją). Profilowanie tego typu może prowadzić do nieproporcjonalnych i nieuzasadnionych decyzji, które mogą stygmatyzować jednostki na podstawie ich osobistych cech lub przewidywań, a nie na podstawie rzeczywistych, weryfikowalnych faktów związanych z ich działalnością przestępczą. Zakazane jest również tworzenie lub rozbudowywanie baz danych do rozpoznawania twarzy, zwłaszcza gdy wizerunki są pozyskiwane w sposób niekontrolowany (np. poprzez hurtowe pobieranie danych z Internetu, tzw. scrapowanie czy nagrań systemów dozoru wizyjnego). Zakazane jest również stosowanie systemów AI do zdalnej identyfikacji biometrycznej w czasie rzeczywistym w przestrzeni publicznej, z wyjątkiem sytuacji, gdy jest to absolutnie konieczne do celów takich jak:

  • poszukiwanie ofiar uprowadzeń, handlu ludźmi lub wykorzystywania seksualnego,
  • zapobieganie poważnemu zagrożeniu życia lub bezpieczeństwa fizycznego,
  • lokowanie lub identyfikowanie osób podejrzanych o popełnienie przestępstw.

Tego typu identyfikacja musi odbywać się zgodnie z przepisami prawa krajowego, a jej wykorzystanie wymaga uprzedniego zezwolenia przez organ wymiaru sprawiedliwości lub inny niezależny organ administracyjny. Przepisy prawa mają jednak to do siebie, że zawsze znajdzie się ktoś, kto zechce je obejść.

Sztuczna inteligencja w wielkim mieście

Biometria – oko w oko z deepfake’ami

Sztuczna inteligencja w wielkim mieście

Sztuczna inteligencja w wielkim mieście

Zostaw komentarz

Serwis wykorzystuje pliki cookies. Korzystając ze strony wyrażasz zgodę na wykorzystywanie plików cookies.