Co to jest Deep Learning AF: jak działa autofokus firmy Canon oparty na sztucznej inteligencji?

Canon narobił wiele hałasu na temat swojego nowego systemu Deep Learning AF, który jest sercem najnowszego flagowego profesjonalnego aparatu tego producenta. Brzmi niesamowicie sprytnie, ale jest mnóstwo pytań - czym jest Deep Learning? Kto uczy? Czy system uczy się podczas strzelania? Czy to naprawdę sztuczna inteligencja w aparacie? Czy faktycznie poprawia to autofokus?

Jeśli przeczytałeś naszą recenzję Canon EOS-1D X Mark III, wiesz, że odpowiedź na ostatnie pytanie brzmi tak. Jeśli chodzi o odpowiedzi na inne pytania dotyczące Deep Learning AF, weź sobie drinka i przekąskę i czytaj dalej…

Mechanika autofokusa w Canon EOS-1D X Mark III jest niesamowicie sprytna, obsługując dwa indywidualne systemy AF. Pierwszy to układ optyczny, który wykonuje 16 klatek na sekundę przez wizjer, używając czujnika pomiarowego o rozdzielczości 400 000 pikseli w połączeniu z dedykowanym procesorem Digic 8, dla 191-punktowego AF z możliwością śledzenia twarzy.

Jest też system Live View, który może rejestrować 20 klatek na sekundę, wykorzystując wszystkie 20,1 miliona pikseli czujnika obrazu w połączeniu z nowym procesorem Digic X, dla 3869 punktów Dual Pixel CMOS, które mogą wykonywać AF z pełną detekcją oka.

Oba te systemy zasilane są przez podstawową technologię Canon EOS iTR AFX - najnowszą iterację jego Intelligent Tracking and Recognition Auto Focus, która zadebiutowała w oryginalnym aparacie EOS-1D X (a następnie trafiła do rodziny 7D Mark II i 5D). W jego obwodzie jest ukryty algorytm głębokiego uczenia.

Głębokie uczenie to NIE to samo, co sztuczna inteligencja

Przede wszystkim należy wyjaśnić, że głębokiego uczenia nie należy mylić ze sztuczną inteligencją (AI). System sztucznej inteligencji to coś, co jest w ciągłym rozwoju. Deep Learning, czyli uczenie maszynowe, to podzbiór sztucznej inteligencji.

W przeciwieństwie do prawdziwej sztucznej inteligencji, głębokie uczenie się jest procesem zamkniętym. Jest to algorytm wstępnego montażu, który pozwala architekturze kamery uczyć się sama, znacznie szybciej, niż mogłoby to zostać zaprogramowane ręcznie przez inżynierów. Po zakończeniu uczenia jest on blokowany i ładowany do aparatu.

Od tego momentu żadna nauka nie jest możliwa; pomimo nazwy - a Deep Learning to nazwa technologii, a nie opis procesu - aparat nie uczy się nieustannie i nie będzie `` lepszy '', im więcej strzelisz (w rzeczywistości prawdziwy system sztucznej inteligencji nauczyłby się tyle samo swoich złych nawyków, tak jak dobre!).

„Nauczyliśmy się tego” - wyjaśnia Mike Burnhill, kierownik ds. Wsparcia technicznego w Canon Europe. „Umieszczasz go w komputerze, tworzy algorytm, który jest następnie ładowany do aparatu. Różni się więc od sztucznej inteligencji - sztuczna inteligencja to ciągłe uczenie się; głębokie uczenie się polega na tym, że uczy się sam, i daje wynik końcowy, który jest następnie ładowany do kamery ”.

Co nasuwa pytanie: przy tak wielu firmach krzyczących o funkcjach opartych na sztucznej inteligencji, czy kamera faktycznie jest w stanie wspierać sztuczną inteligencję?

„Moc obliczeniowa potrzebna do prawdziwej sztucznej inteligencji jest niewykonalna w aparacie” - mówi Burnhill. „Jeśli chcesz to zrobić, są telefony - ale danych nie ma w Twoim telefonie, są w Dolinie Krzemowej. Tam jest system AI. Po prostu łączy się z nim połączenie telefoniczne - nie ma go tutaj, jest tam (w chmura), ponieważ potrzebujesz serwera. Moglibyśmy zrobić aparat, ale cały czas nosiłbyś ze sobą gigantyczną walizkę lotniczą ”.

W jaki sposób uczenie głębokie samo się uczy?

Tak więc algorytm Deep Learning uczy się sam - ale skąd właściwie się uczy? Odpowiedź, najprościej, brzmi „od najlepszych”.

„Canon współpracował z naszymi agencjami” - mówi nam Burnhill. „Otrzymaliśmy w zasadzie dostęp do całej ich bazy danych zdjęć sportowych od wszystkich głównych agencji, współpracowaliśmy z naszymi ambasadorami, którzy zajmują się fotografowaniem sportu, a oni udostępnili swoje zdjęcia na różne tematy, co pozwoliło nam nauczyć ten system AF rozpoznawania ludzie uprawiający sport ”.

Sport jest oczywiście ukierunkowaną metodą nauczania, ponieważ Canon EOS-1D X Mark III to przede wszystkim aparat sportowy. Problem polega na tym, że niezależnie od tego, czy jest to koszykarz odwrócony od aparatu, narciarz noszący gogle, czy kierowca Formuły 1 w kasku, sportowcy często mają zasłonięte twarze - co oznacza, że ​​tradycyjny AF z wykrywaniem twarzy i oczu tego nie robi. t działa, a kamera zamiast tego ustawi się na takie rzeczy, jak cyfry na stroju gracza.

Dając algorytmowi Deep Learning dostęp do ogromnej biblioteki obrazów, od odwróconych gimnastyczek po hokeistów noszących ochraniacze i kaski, jest w stanie uczyć się i różnicować ludzką postać w nieskończonej różnorodności sytuacji - i ostatecznie jest w stanie wykonać to „wykrywanie głowy”, tak aby nawet jeśli twarz osoby nie była widoczna, głowa zawsze była głównym punktem skupienia.

„Uczenie głębokie to w zasadzie obrazy, tworzysz zestaw reguł, na podstawie których ma się uczyć, a następnie odchodzi i tworzy swój własny algorytm” - kontynuuje Burnhill. „Więc ustawiasz parametry tego, jak osoba będzie wyglądać, mówisz:„ Oto osoba ”, a następnie analizuje wszystkie obrazy ludzi i mówi:„ To jest osoba ”,„ To jest osoba ”. przechodzi przez miliony obrazów w okresie, tworzy bazę danych i sama się uczy ”.

W rzeczywistości algorytm tworzy dwie bazy danych - jedną do obsługi systemu AF wizjera optycznego i pomiarów przy użyciu aparatu Digic 8, a drugą do obsługi systemu AF Live View wykorzystującego Digic X. Ponieważ to Digic X wykonuje wszystkie obliczenia dla śledzenie głowy, gdy algorytm AF wykryje osobę w kadrze, wszystko jest przekazywane do nowego procesora.

„Po przyjęciu osoby mamy do czynienia z podwójnym przetwarzaniem” - mówi Burnhill. „Są tu dwie bazy danych, ponieważ dane wejściowe z obu czujników będą nieco inne, więc sposób ich rozpoznania będzie nieco inny, więc są to podzbiory tego samego algorytmu. Podstawowe dane dla obu czujników są takie same, to po prostu w jaki sposób zostanie rozpoznany i jakie dane zostaną do niego zastosowane ”.

Jeśli nie może nauczyć się nowych rzeczy… co z AF u zwierząt?

Oczywiście Canon EOS-1D X Mark III to nie tylko aparat sportowy - jego drugą kluczową publicznością są strzelcy dzikiej przyrody. Jednak aparat nie ma funkcji autofokusa dla zwierząt i ustaliliśmy, że głębokie uczenie nie może w rzeczywistości nauczyć się żadnych nowych sztuczek, gdy zostanie już wprowadzony do aparatu. Więc o to chodzi? Czy przy całej tej nowej technologii kamera nie skupi się nawet na psie rodzinnym?

To prawda, że ​​w tej chwili aparat nie ma funkcji AF zwierząt (ani oczu zwierzęcych). „Zasadniczo koncentrujemy się na ludziach, od których powinniśmy zacząć, aby ten rodzaj algorytmu działał jako pierwszy” - odpowiada Burnhill. „Dlatego w pewnym sensie skupiliśmy się na sporcie, ponieważ jest to ustalony parametr i możemy go uczyć w określonym czasie”,

Odpowiedź tkwi zatem w oprogramowaniu sprzętowym. Burnhill potwierdził, że istnieje potencjał, aby kamera przeszła więcej głębokiego uczenia się w przypadku ptaków i dzikich zwierząt, a zaktualizowany algorytm zostanie rozpowszechniony wśród użytkowników za pośrednictwem aktualizacji oprogramowania układowego - chociaż nie ma konkretnych planów do ogłoszenia.

„Będziemy go rozwijać przez cały czas, więc w tej chwili wciąż nie wiadomo, jak i dokąd pójdziemy. Ale zespół programistów idzie i przygląda się innym fotografiom zwierząt - zdajemy sobie sprawę, że istnieje wiele dziedzin, ale oczywiście duże ten aparat skupia się na sporcie, a następnie na dzikiej przyrodzie i oczywiście w przypadku Tokio 2022-2023 był to priorytet ”.

To słuszna uwaga; gdyby Canon czekał, aż Deep Learning nauczy się wszystkiego, wypuszczenie aparatu zajęłoby więcej czasu. I chociaż producenci tacy jak Sony chwalą się w swoich aparatach selektywnym AF dla zwierząt, Burnhill zauważa, że ​​Canon wolałby raczej wypuścić kompletne rozwiązanie AF dla zwierząt niż selektywne, fragmentaryczne. I tu właśnie Deep Learning stanie się nieoceniony.

„Problem jest z dziką przyrodą, jest wiele różnych zwierząt - oczywiście masz drapieżników z oczami z przodu, a potem masz króliki (oczy) z boku, masz węże, masz ptaki… nie ma systemu, który rozpoznaje twarze wszystkich zwierząt. I w tym miejscu wkraczasz w całe głębokie uczenie się, ucząc system rozpoznawania tych złożonych rzeczy ”.

Tak więc, podczas gdy Sony może być w stanie śledzić Twojego psa lub kota, ale nie salamandrę czy flaminga, Canon chce wyprodukować aparat, który robi wszystko albo nic. „Gdybyśmy mieli to zrobić, chcielibyśmy to zrobić dla tak szerokiego spektrum - nie chcemy robić aparatu przyjaznego dla psów i kotów, chcemy zrobić aparat przyjazny dla zwierząt która sprawdza się w przypadku szerokiej gamy zwierząt, które (profesjonaliści) będą strzelać ”.

Recenzja Canon EOS-1D X Mark III
W jaki sposób Canon stworzył najszybszą lustrzankę cyfrową w historii? Przeprojektowując obudowę lustra
102 aktualizacje dotyczące aparatu Canon EOS-1D X Mark III

Interesujące artykuły...