Свежие заметки из Гонконга

54 views
Skip to first unread message

Dmitriy Vatolin

unread,
Jul 13, 2017, 10:54:35 AM7/13/17
to Курс `Методы обработки и сжатия видео` ВМиК МГУ
Коллеги, ловите, в качестве пятничного чтения )


Всем привет из жаркого и душного Гонконга, где сейчас проходит 18-я
International Conference on Multimedia & Expo (ICME 2017), которая
гордится, что с 2000 (т.е. со второй конференции) она проходит в
кооперации аж с четырьмя сообществами IEEE. Ее девиз: "The new media
experience" и он вполне отражает суть конференции. Масса докладов про
работу с глубиной, айтрекерами, шлемами виртуальной реальности,
дополненной реальностью и т.п. Есть и "обычные" наши темы, типа сжатия
и обработки видео, впрочем, про это позже.


Аэропорт Гонконга, снимал на утюг )

Вообще многие, ездящие в разгар лета в Юго-Восточную Азию отмечают
духоту. Я про это читал и слышал много раз. Но честно говоря
представить себе не мог, что оно выглядит вот так... кошмарно ). Мне
нравится много ходить пешком и я довольно часто в поездках нахожу
маршруты для хайкинга. Здесь по прибытии было примерно полдня
свободных, я наметил маршрут, порадовался, что не было обещанной грозы
и... вернулся меньше чем с четверти пути. И, главное, температура,
казалось, не зашкаливала и небольшие облака были, т.е. солнце не
парило, но сочетание жары с почти 100% влажностью вызвало ощущение
попадания в турецкую баню и организм отреагировал обильным
потоотделением. Пришлось срочно эвакуироваться под кондиционеры,
будучи мокрым практически как после дождя. В такое я первый раз влетал
). До этого в Гонконге бывать приходилось, но весной - оно совсем не
так было. Понятно, что через некоторое время организм к такой
влажности адаптируется, но первое время - реальная жесть.

Еще в прошлый раз я в Гонконге обратил внимание, что местные дети -
полностью компьютерные. В том плане, что массово сутулые и их внимание
поглощено планшетами и смартфонами. Благо все светофоры в городе со
звуком, т.е. не пропустишь, когда тебе зеленый, а на асфальте перед
пешеходным переходом написано "Look left" или "Look right". Забавно,
что перед эскалаторами (которых в городе тоже хватает) написано
"Please look not only to smartphone" ))))

Положительным следствием этого является то, что жизнь с планшетом там
весьма комфортна. Так USB розетка была в спинке впереди стоящего
кресла в самолете (причем тянувшая зарядку планшета), дальше метро от
аэропорта в город также в каждом кресле были USB зарядки, причем около
каждой заботливо было написано "USB 2A" (кто в теме поймут, как это
круто). Забавно, что я купил SIM-карту в планшет еще в аэропорту
(благо они там продаются без наценки и есть очень хорошие по цене
гостевые тарифы), а в номере гостиницы обнаружил смартфон, который
выдается каждому постояльцу, причем с бесплатным безлимитным
интернетом и возможностью этот интернет раздать. В общем - если у вас
интернет-зависимость, то Гонконг - один из лучших городов для
посещения. ))) Power Bank, конечно, желателен (предыдущий постоялец
передо мной разрядил телефон в нулину), но забота о том, чтобы вы
остались в матрице (и получили свою порцию местной рекламы, причем по
местным гастрономическим традициям - порцию огромную) - просто
фантастическая ))).


Место проведения конференции

Конференция проходила в пафосном отеле на берегу пролива с видом на
основную часть Гонконга на другом берегу. Как известно для азиатов
понты намного дороже денег, поэтому когда полвека назад начали активно
распространяться кондиционеры, в Азии вообще и в Гонконге в частности
их ставили на самую низкую температуру. И чем была ниже температура в
помещении, тем ты круче и богаче. Зная про этот прикол я взял с собой
теплую рубашку из Polartec. И наивно думал, что должно хватить. В
итоге сидя на сессии конференции натурально страдал от холода.
По-моему они сжалились над непривычными к такому контрасту
европеоидами и выставили в помещении 18 градусов вместо привычных 16,
но реально мерзли руки. В итоге я потратил драгоценное время
кофебрейка на то, чтобы выскочить на улицу и согреться, потом выдул
залпом пару стаканов горячего чай и, наконец, наплевав на приличия,
надел предусмотрительно взятую с собой куртку (на случай обещанных
ежедневных гроз сезона дождей). Народ косился, азиаты (сидевшие в
футболках) снисходительно улыбались, но в целом познал нирвану.
Недовольно косился только один европеец, который пришел в шортах и
сидел позади меня скрестив руки и ноги в безуспешных попытках удержать
уходящее тепло. Его можно было понять. Такой вот cultural experience.



Кстати - легко сходить за одеждой могли немногие, поскольку
большинство (и я в том числе) жили в недорогом отеле в 10 минутах
хотьбы. А в пафосном отеле с бассейном на крыше 21 этажа просто был
удобный Conference center. Бассейн отдельно в перерыве сходил заснял )
Что забавно - встретил на крыше французского аспиранта, который уже
нашел девушку и что-то ей активно рассказывал, пропуская доклады.
Думаю, они говорили про науку ).


Бассейн на 20-м этаже

Панорама от бассейна (почти 360)))

Секции первого дня моего потока были полностью посвящены 3D и,
конечно, главной моде сезона - Light Fields. Те, кто серьезно
интересуются видео знают, что сегодня 3D уже давно не круто, сегодня
круто 5D, 6D и 7D, как разновидности Light Fields. Это работа на
будущее, хотя техника постепенно подтягивается. В частности в прошлом
году была создана камера Lytro Cinema с разрешением 755 мегапикселей.
Очень забавно было рассказывать про нее в докладе на конференции во
ВГИК. Специально спросил аудиторию - с каким максимальным разрешением
вы снимали. Оказалось, что только несколько человек снимали 4К видео,
т.е. 8 мегапикселей, большинство 2К, т.е. 2 мегапикселя. Увеличение
разрешение на 2 порядка (т.е. в 10 раз по каждому измерению) позволяет
поставить массив микролиз и снимать в каждый условный пиксель
двухмерную картинку (т.е. 5D видео), что позволяет в дальнейшем
творить полные чудеса. Менять фокусное расстояние, разрешение,
автоматически строить карту глубины, маски объектов, менять освещение
сцены, менять в определенных пределах точку съемки (добавляя или
убирая шейкинг), делать идеальную стереопару, причем с произвольным (в
пределах допустимого) расстоянием между оптическими осями камер и
т.д. и т.п. Это принципиально другой подход к съемке видео. Также
отдельная большая тема это разреженные Light Fields - плавное изменение
положения камеры между далеко стоящими камерами. Тема тоже очень
активно развивается. Причем, повторюсь, многие достижения в этой
области технически стали возможны буквально в последние годы. Один
Keynote был посвящен первой теме, второй - второй (разрешенном
световому потоку). Было видно, как темы смыкаются и как много там
крайне сложных задач. Возможно я на эту тему как-нибудь отдельно
напишу, там много интересного.

Что реально забавно - в первый же день в коридоре встретил выпускника
нашей лаборатории, который закончил МГУ два года назад (был у Антона
Конушина), а сейчас учится в аспирантуре в Германии. Мы с ним
пообедали + потом еще пересекались. Он забавные вещи рассказал про
аспирантуру вообще и про Баварию в частности. У него тоже много
cultural experience ))).


Фотофакт ), кстати, при мне азиаты спрашивали Михаила, что это за страна такая - Дойчленд?)

В приличных домах Лондона и Парижа труды конференции выдают при
регистрации на флэшке. Причем модно заказывать флэшки маленькими и на
флэшки не похожими. В частности на 3DTV-CON месяц назад я оконфузился,
поскольку не сразу понял, что за небольшая резиновая фигня (больше
всего походящая на брелок) прикреплена к бэджу - это труды
конференции. Только в конце первого дня я увидел там кнопку и
заподозрил неладное ) (после чего там нашелся USB разъем))). Тут все
было проще - была обычная металлическая компактная флэшка (где-то 1х3
см) на 30 гигов, из которых был занят только один.

На конференции все шло максимум в 6 потоков, т.е. конференция по западным
меркам среднего размера (около 400 человек).

Много докладов было посвящено картам салиентности. И если для обычного
видео их использование позволяет поднять сжатие в лучшем случае в 2
раза по нашим замерам четырехлетней давности, то для видео 360 речь
может идти про 5-6 раз. И это уже крайне интересно для индустрии.
Вообще теме уже пара десятков лет, но похоже на то, что реальным
драйвером, который вытащит карты салиентности на нормальный
практический уровень, будет именно video 360. Благо тема набирает
популярность везде, а особенно в Азии.

Ну и, наконец, (а то и так получилось длинно), не могу удержаться и не
уделить внимания одной теме... А именно нейросетям. ))) (делаю паузу,
чтобы продолжить, тщательно подбирая слова). Выглядит все так, как
будто (научный) мир... сошел с ума. Нейросети применяют все и везде. И
если смотреть на результаты все выглядит так, как будто они
действительно работают тоже в любой ситуации. 8-))) В том числе с их
помощью решают традиционные задачи Video Processing. И если с темами
Computer Vision мне как-то легче поверить в чудеса, то в своей родной
области глядя на доклады есть о чем задуматься. Собственно я люблю
рассказывать про аналогичный хайп, правда, меньшего размера который
был 15 лет назад. Тогда была масса публикаций на тему Wavelet video
coding, при том, что реально вейвлеты ни в один стандарт не вошли,
поскольку проигрывали по эффективности другим подходам. Но статей
(математически красивых) было много тысяч.


Одна из постерных секций

Данный хайп (кстати, hype на английском разговорном, это обман,
очковтирательство и беззастенчивая реклама))), будет посильнее и если
присмотреться понятно почему. В области обработки видео в отличие от
компьютерного зрения по ряду причин не так распространены датасеты, а
тем более большие датасеты. В итоге люди создают свой датасет того
размера, который им удобен и показываю любые чудеса. Т.е. наблюдается
поставленная на поток заточка. Массовая. Вспоминается анекдот про
Василия Ивановича и англичан: "Джентльмен джентльмену верит на
слово, тут-то мне карта и поперла". Причем даже просто в силу места
проведения конференции (напомню, в этом году Гонконг, в следующем
будет Сан-Диего, США), было очень много азиатов. Я активно общался и в
разговорах всплывала тема выхода Китая на 1 место в мире по количеству
статей в рецензируемых местах. В прошлом году Китай обогнал США и стал
научной державой номер один. Для страны, которая была аграрной еще 30
лет назад - это фантастическое достижение. Люди (например, европейцы)
дружно отмечают сильный прогресс китайцев, но при этом деликатно
отмечают, что воспроизводимость результатов китайских статей находится
существенно ниже среднего уровня.

Вообще тема больная. Обсуждать ее можно только на Conference Social
Events после принятия собеседником на грудь эквивалента стакана водки.
Раньше пытаться рискованно. Не секрет, что результаты научных статей
часто не воспроизводятся. Иногда поскольку не описываются важные
компоненты алгоритма (которые цинично описываются только в патенте),
иногда в силу заточки. Даже у ведущих лабораторий результаты нередко
не воспроизводятся на альтернативных датасетах. В принципе к этому
относятся, как к неизбежному злу и серьезность (и, если угодно,
научная честность) во многом проявляется как раз в предоставлении
результата для сравнения на другому датасете. В общем по отзывам тут у
многих китайцев все пока довольно плохо. Из-за чего некоторые люди в
принципе не рассматривают статьи китайских университетов при обзорах.
Причем ровно нейросети сейчас дают феерическую возможность для
спекулятивных статей по теме. Такие интересные дела.

К слову - собственно нейросети успешны благодаря великолепным
результатам в задачах классификации. При этом порождаемый ими хайп
приводит к усложнению отбора мусорных статей. Там фееричные случаи,
кстати, были. У одной китаянки была очень неплохо выглядящая статья,
при этом по факту она с большим трудом говорила по-английски и начала
свое выступление с гордой констатации, что учится в магистратуре
китайского университета. На вопросы ответить не смогла, фактически в
зале добрые люди пытались за нее ответить домысливая сюжет. Похоже
работу-то делала она, но писала статью точно не она. При этом в Китае
образуется что-то типа индустрии по написанию внешне качественных
статей.

А теперь внимание вопрос - можно ли обучить нейросети классифицировать
статьи по уровню качества на "практически работающие", "не очень" и
"очень не очень"? ))) Это не такая простая задача, учитывая, что
система оценки трудов в большинстве университетах построена на
поощрении мусорных статей. Опять же по опыту научный мейнстрим обычно
в одной области, а хорошие работающие алгоритмы в другой, более
маргинальной. Но и признаки вполне есть. И уровень качества
рецензирования статей разных конференций известен, и известна разная
продуктивность (назовем это так) разных лабораторий. Опять же -
наличие соавтора из Adobe, Microsoft, Google - заведомо сильный
классификационный признак в пользу того, что алгоритм будет работать.
В общем - я верю в способности нейросетей в решении этой непростой
задачи. )))

Это, безусловно, далеко не все впечатления, но уже получилось долго, а
потому на этой оптимистичной ноте - до связи! )


Вечерний Гонконг

--
Yours,
Dmitriy                          
mailto:dmi...@graphics.cs.msu.ru
Reply all
Reply to author
Forward
0 new messages