Институт Инновационного Проектирования | Задача поиска лица в изображениях
 
Гл
Пс
Кс
 
Изобретателями не рождаются, ими становятся
МЕНЮ
 
   
ВХОД
 
Пароль
ОПРОС
 
 
    Слышали ли Вы о ТРИЗ?

    Хотел бы изучить.:
    Нет, не слышал.:
    ТРИЗ умер...:
    Я изучаю ТРИЗ.:
    Я изучил, изучаю и применяю ТРИЗ для решения задач.:

 
ПОИСК
 
 



 


Все системы оплаты на сайте








ИННОВАЦИОННОЕ ОБРАЗОВАНИЕ
сертификация инноваторов
инновационные технологии
БИБЛИОТЕКА ИЗОБРЕТАТЕЛЯ
Это интересно
ПРОДУКЦИЯ
 

 


Инновационное
обучение

Об авторе

Отзывы
участников

Программа
обучения

Вопрос
Ю.Саламатову

Поступить на обучение

Общественное
объединение



Молодому инноватору

FAQ
 

Сертификация
специалистов

Примеры заданий

Заявка на
сертификацию

Аттестационная
комиссия

Список
аттестованных
инноваторов

Инновационное
проектирование

О компании

Клиенты

Образцы проектов

Заявка
на проект

Семинары

Экспертиза проектов

   

Книги и статьи Ю.Саламатова

Теория Решения Изобретательских Задач

Развитие Творческого Воображения

ТРИЗ в нетехнических областях

Инновации 
в жизни науке и технике

Книги по теории творчества

Архивариус РТВ-ТРИЗ-ФСА

Научная Фантастика
 
 
Статьи о патентовани
   

Наука и Техника

Политика

Экономика

Изобретательские блоги 

Юмор 
 
Полигон задач

ТРИЗ в виртуальном мире
медиатехнологий
       

Книги для
инноваторов

CD/DVD видеокурсы для инноваторов

Програмное обеспечение
инноваторов

Покупка
товаров

Отзывы о
товарах
           

Задача поиска лица в изображениях

 

Перед участниками Олимпиады задача Поиска Лица поставлена в нескольких частных формулировках. Соответственно, к участию в Олимпиаде принимаются алгоритмы по трем различным номинациям:

  1. Определение положения лица в статичном изображении
  2. Определение положения лица в видеопотоке
  3. Поиск элементов (антропометрических точек) лица – глаза, нос, рот, уши и т.д.

Введение в проблему
Задача, поиска лица в изображениях (Face Detection) признана одной из классических в области обработки изображений и компьютерного зрения. Спектр возможных применений таких алгоритмов широк – это и игровые приложения, медиа-технологии, системы видео-коммуникации, системы дистанционного обучения и системы безопасности. Особенно интересно решение этой задачи для компрессии видео изображений в условиях ограниченной пропускной способности коммуникационных каналов. Например, стандартом MPEG-4 уже приняты схемы синтеза трехмерных лиц по двумерным изображениям, стандартизованы координаты расположения антропометрических точек, виземы, модели анимации и многое другое.
Схема работы алгоритма кодирования лица, принятого в стандарте MPEG-4, приведена ниже, суть же его сводится к тому, чтобы передавать не живое видео, а только анимацию модели лица. Это может быть очень полезно, например, при проведении телеконференций для уменьшения объема передаваемых данных в условиях ограниченной пропускной способности коммуникационных каналов. Реализуется это следующим образом: на начальном изображении кодером ищется лицо, выделяются антропометрические точки (feature points) и строится текстурированная 3D модель человеческого лица. Далее весь видеопоток кодируется набором анимаций лица. После этого на другом конце приемник принимает информацию о изменении положения антропометрических точек, анимирует модель и воспроизводит её на экране. Конечно, такая схема сжатия информации применима только в том случае, когда хорошо известно заранее, что будет подвержено компрессии, т.е. объект кодирования ( в данном случае - изображение лица человека ).
Подобных применений алгоритмов автоматического поиска лиц на изображениях известно немало. Данная задача признана одной из классических в области обработки изображений.
За последние 10 – 15 лет были предложены сотни алгоритмов, начиная от нейронных сетей, сложных статистических моделей и заканчивая методами поиска эллиптических объектов в изображениях, но в общем случае исследователи так и не смогли справиться с задачами неоднородной освещенности лиц, всевозможных наклонов и поворотов, возможных частичных перекрытий лица другими объектами и множеством других проблем. Поэтому для того, чтобы победить в нашей олимпиаде, участникам придется проявить немало изобретательности, "прочесать" немало статей и учебников, вообщем - серьезно "погрузиться" в тематику. (В конце этой статьи Вы можете найти список литературы, где в частности есть ссылка на Face Detection Home Page доктора Robert’a Frischholz’a, содержащую большое количество информации об исследованиях в этой области, собранной по всему миру.)
Схема работы кодирования/декодирования видеопотока области лица.
В общем случае алгоритмы определения положения лица на изображении можно разделить на 2 категории:
1. Алгоритмы, обрабатывающие статичные изображения.
2. Алгоритмы, работающие с видео потоком.
Эти две категории существенно отличаются, потому что в первом и во втором случае алгоритмы преследует разные цели и оперируют разными наборами исходных данных.
В первом случае алгоритмы и методы, обычно несколько сложнее, поскольку не используют никакой дополнительной информации помимо статического изображения, которое у них имеется. На них обычно накладываются менее жесткие ограничения по скорости, требования к точности – высокие. Они в принципе также могут использоваться и для обработки видеопотоков, если видеопоток рассматривать как последовательность несвязанных между собой кадров. Во втором случае задачу облегчает наличие дополнительной информации, которую можно извлечь из видео. Для поиска положения лица в новом кадре в качестве начального приближения может быть использована информация из предыдущего кадра (возможно в комбинации с предикторами движения). Алгоритмы этого класса обычно должны работать быстрее из-за того, что им приходится проводить анализ в реальном масштабе времени. Часто методы, используемые здесь, определяют положение лица с меньшей точностью, но позволяют уточнять и адаптировать это положение по последовательности кадров.
Отдельное место занимают алгоритмы поиска и оконтуривания деталей лица. Они начинают работать на той фазе процесса, когда положение каких-то опорных точек (например глаз) уже определено. Их основной целью является выделение таких элементов как глаза, нос, рот, уши и т.д., а также контуров этих элементов. Эти алгоритмы могут осуществлять антропометрический анализ области лица, а именно – выделение антропометрических признаков, поиск характерных областей и опорных точек, а также выполнение некоторых измерений пропорций лица. Очень часто встречаются различные комбинации алгоритмов поиска и оконтуривания лица, объединенных в одну сложную модель.
 Итак!
К участию в Олимпиаде принимаются алгоритмы по трем номинациям:

    1. Определение положения лица в статичном изображении.
    2. Определение положения лица в видеопотоке.
    3. Поиск элементов (антропометрических точек) лица – глаза, нос, рот, уши и т.д.

 

  1. Поиск лица в статичном изображении

В данной номинации принимают участие алгоритмы, целью которых является поиск лица по фотографии. Возможны 2 критических положения лица: фас и профиль. Известны модели (методики), способные искать лицо повернутое на любой угол в диапазоне ±90?. Алгоритмы, детектирующие лицо только в фас, только в профиль и комплексные алгоритмы, допускающие произвольный поворот лица, будут судиться раздельно.
Целью является поиск положения лица и наибольшего возможного количества деталей в нем (нос, рот, уши и т.д.) по одной фотографии с наилучшей возможной точностью. В кадре может быть несколько лиц, лица могут быть различного масштаба и ориентации. В кадре могут находиться другие объекты, помимо лиц. Лица могут частично перекрываться другими объектами или лицами. Лицо может занимать от четверти площади кадра до одной двадцатцатой (примерно в 5 раз меньше изображения по каждому измерению).
Никаких допущений о свойствах фона (его цвета или монотонности) не делается. Особых ограничений или условий на размер и цветность изображения не накладывается.
Одним из наиболее критичных параметров при оценке алгоритма будет являться его чувствительность к поворотам, масштабам, и условиям освещенности.

  1. Отслеживание положения лица в видеопотоке

В данной номинации участвуют алгоритмы, на вход которых передается серия кадров видеопотока. Кадры передаются последовательно, при получении каждого кадра алгоритм производит обработку и должен выдать результат о найденном положении лица в кадре. Возможна выдача результатов не каждый кадр (каждые N кадров, где N > 1 – постоянное значение; по мере готовности в темпе, выбираемом алгоритмом) – см функцию FDT_GetResultsInfo и ее возвращаемые значения.
В кадре может быть несколько лиц, может не быть ни одного лица, лица могут быть различного масштаба и ориентации. Можно допускать предположение, что при инизиализации алгоритма, в первых кадрах видеопотока лицо присутствует, и человек смотрит прямо в камеру. В кадре могут находиться другие объекты, помимо лиц. Лица могут частично перекрываться другими объектами или лицами. Лицо может занимать от четверти площади кадра до одной двадцатцатой (примерно в 5 раз меньше изображения по каждому измерению).
О требованиях к фону см. п. 1. Поиск лица в статичном изображении.
Изображение цветное, в формате RGB или YCrCb.

  1. Поиск и оконтуривание элементов лица в статичном изображении

В данной номинации участвуют алгоритмы, служащие для точного определения местоположения и контуров элементов лица, таких как глаза, нос, уши, рот, подбородок, либо другие, определяемые алгоритмом (брови, щеки) и контуров лица (линия профиля и т.п.). Целью является наилучшая точность и наибольшее количество элементов лица. Для алгоритмов этого класса положение лица (ограничивающий прямоугольник) и положение глаз (“центры” глаз) на изображении считаются известными. Алгоритм может пользоваться этой информацией по необходимости. Известно также, что в изображении полностью присутствуе только одно лицо.
Лица могут быть повернуты на небольшой ±15 угол относительно двух положений – фаса и профиля. Алгоритмы, анализирующие лицо в фас и профиль, судятся отдельно. Для профиля алгоритму передается положение одного глаза, а не двух.
Алгоритмы могут определять положение каких-либо других, не указанных в спецификации, элементов лица, контуров, характерных точек, пропорций. Эти дополнительные элементы изображаются графически на изображении (копия переданного) условными символами, смысл и содержание которых раскрывает сопроводительная документация (см функцию FDT_GetFaceFeaturesDrawn)
О требованиях к фону, размеру и цветности изображений см. п. 1. Поиск лица в статичном изображении

Оценка присланных работ:

Оценка работ будет производиться отдельно в следующих категориях (установка типа алгоритма производится функцией FDT_GetAlgorithmInfo):

  1. Определение положения лица в статичном изображении
    1. Фас (FDT_ALG_STATIC_FACE)
    2. Профиль (FDT_ALG_STATIC_PROFILE)
    3. Сложные модели (FDT_ALG_STATIC_ALL)
  1. Определение положения лица в видеопотоке (FDT_ALG_VIDEO)
  1. Поиск элементов (антропометрических точек) лица – глаза, нос, рот, уши и т.д.
    1. Фас (FDT_ALG_ELEMENTS_FACE)
    2. Профиль (FDT_ALG_ELEMENTS_PROFILE)

 

В случае статичного изображения тестирование будет производиться на базах данных цветных и/или черно-белых изображений (в зависимости от того, с каким типом изображений работает алгоритм) различного размера.
Во втором случае тест будет производиться на заранее отснятых роликах, записанных с помощью обычной веб камеры. На вход алгоритма будет подаваться цветное изображение.
Критерии оценки алгоритмов:
1. Точность нахождения/отслеживания объекта
2. Чувствительность алгоритма к:
а) поворотам вокруг вертикальной оси
б) поворотам вокруг горизонтальной оси
в) поворотам вокруг оси камеры
г) изменению условий освещения
д) изменению масштабов
е) цвету кожи
ж) макияжу (возможно)
в случае с видео дополнительно:
з) быстрым движениям
и) (временному) перекрытию лица другими объектами
к) отсутствию лица в кадре, “выходу” лица из кадра
л) способности восстанавливаться после сбоев

3. Скорость работы алгоритма
 Формат входных данных:

  1. RGB, YCrCb – 3 channels, 8 bit per channel, 24 bit per pixel или Grayscale (1 channel, 8 bit per pixel)
  2. разрешение видео - 640x480 точек, разрешение статичного изображения – произвольное.
  3. изображение хранится в массиве байт (слева направо, сверху вниз), каждый пиксель представляется тремя байтами в случае с цветным изображением и одним байтом в случае полутонов серого.
  4. Изображение хранится в виде двумерного массива, строки которого выровнены по границе слова (4 байта).
  5. Видеопоток подается на вход библиотеки в виде последовательности кадров.

 Работающая версия алгоритма посылается на тестирование в виде DLL-библиотеки. Интерфейс библиотеки отсылается участнику после получения от него АНКЕТЫ. Вместе с работающей версией должна быть отправлена документация (описание алгоритма, пояснительная записка). Наличие исходных текстов не обязательно.
 Ссылки на литературу:

  1. The MPEG Home Page - http://mpeg.telecomitalialab.com
  2. Face Detection Home Page - http://home.t-online.de/home/Robert.Frischholz/face.htm
  3. Face Recognition Home Page - http://www.cs.rug.nl/users/peterkr/FACE/face.html

 ВНИМАНИЕ !!!

Срок предоставления АНКЕТ - до 30 апреля 2002 года

Срок предоставления работ - до 30 мая 2002 года

Рассмотрение работ и подведение итогов –  30 июня 2002 года

Анкеты и Работы присылать на:

1.       boleg@buka.ru

2.       115230 Москва, Каширское шоссе 1 кор. 2, компания “БУКА”. С пометкой “ОЛИМПИАДА”

Справки по тел. +7(095)111-5156
+7(095)111-5440
+7(095)111-7060

 


Записаться на тренинг ТРИЗ по развитию творческого, сильного мышления от Мастера ТРИЗ Ю.Саламатова >>>

Новости RSSНовости в формате RSS

Статьи RSSСтатьи в формате RSS

Рейтинг – 753 голосов


Главная » Это интересно » ТРИЗ в виртуальном мире медиатехнологий » Задача поиска лица в изображениях
© Институт Инновационного Проектирования, 1989-2015, 660018, г. Красноярск,
ул. Д.Бедного, 11-10, e-mail
ysal@triz-guide.com, info@triz-guide.com
 
 

 

Хочешь найти работу? Jooble