[БЕЗ_ЗВУКА] Всем привет! Меня зовут Антон Слесарев, я руководитель группы распознавания образов в компании «Яндекс», и последние несколько лет я занимаюсь компьютерным зрением. И ближайшие несколько лекций мы с вами как раз будем говорить про компьютерное зрение. Компьютерным зрением я занимаюсь в основном в практической области, использую его для решения индустриальных задач. Соотвественно, лекции мы тоже будем делать более практическими. Что такое компьютерное зрение? Компьютерное зрение — это достаточно широкое понятие, это область науки, которая занимается совершенно разнообразными задачами, связанными с анализом изображения и видео. Но можно все эти задачи считать, что они отвечают на один-единственный вопрос: что изображено на картинке? Несмотря на то что вопрос достаточно тривиальный, ответ на него не такой простой, как может показаться на первый взгляд. Чтобы оценить, насколько сложно отвечать на этот вопрос, давайте это попробуем сделать вместе. Вот мы видим картинку. Что на ней изображено? Мы можем говорить про сцену в целом. Мы понимаем, что картинка сделана на свежем воздухе, на улице. Она сделана где-то в азиатской стране, кто-то может узнать Пекин, что это центральная площадь. Мы можем говорить про конкретные объекты, которые мы видим на этом изображении. Мы видим автобус, портрет, крышу, небо. Мы можем пойти дальше и говорить про физические свойства отдельных объектов. Мы понимаем, что крыша наклонная, что автобус едет, что он твердый, на картине изображен Мао Цзэдун, и ветер дует справа налево — мы это можем понять по соответствующему движению флага. То есть смотрите, что происходит: для того чтобы ответить на вопрос, что изображено на картинке, мы не просто смотрим на картинку, мы используем свой весь жизненный опыт. Мы понимаем, что существует ветер, хотя на картинке его в явном виде увидеть нельзя. Мы знаем, что такое транспорт, и должны понимать про историю Китая, чтобы ответить на определенные вопросы. Соответственно, задача — не просто смотреть на пиксели, но и использовать знания. Другой пример. Что такое стул? Можно ответить первое, что пришло в голову: стул — это нечто с четырьмя ножками и со спинкой. Но, глядя на разнообразие стульев на этой картинке, мы можем понять, что это нет так. На самом деле, достаточно сложно описать стул в терминах формы. Стул — это некий концепт, то, на чем сидят. А теперь представьте, что нам нужно объяснить инопланетному существу, которое даже не знает, что такое сидеть, и сидеть не умеет, что такое стул. То есть, прежде чем объяснить и научить это существо по картинкам находить стул, неплохо бы это существо сначала, чтобы оно поняло концепцию «сидеть». И ровно это происходит, когда мы обучаем компьютер распознавать изображения. То есть в идеале, чтобы компьютер отвечал на вопрос про стулья так же хорошо, как человек, он должен концепцию «сидеть» понимать. В науке об искусственном интеллекте есть такое понятие, как ИИ-сложные задачи. То есть это класс задач, которые эквивалентны созданию искусственного интеллекта. Так вот, считается, что компьютерное зрение в общем и в постановке — вот в такой, что нужно ответить на вопрос, что изображено на картинке, и уметь отвечать на все вопросы про это изображение — эта задача эквивалентна созданию искусственного интеллекта. И мы так с вами убедились, что нужно действительно, помимо просто умения смотреть, нужно использовать весь свой жизненный опыт, образование и даже иногда интуицию, чтобы отвечать на вопросы про изображение. Поэтому, да, это действительно сложная задача. К сожалению, мы сейчас еще не умеем создавать искусственный интеллект, поэтому наука компьютерного зрения, она решает определенные подзадачи этой большой задачи. И про эти задачи мы как раз поговорим на ближайших лекциях.