Поисковый индекс Яндекс.Картинок отладили

"Сегодня ночью мы обновили поисковый индекс Яндекс.Картинок. Теперь поиск ведется по 3,9 млрд изображений. При этом 2,3 млрд из них – с зарубежных сайтов.  Для сравнения: всего три месяца назад мы искали по 1,8 млрд изображений. Это самое большое обновление зарубежной части индекса Картинок", - об этом сегодня, 29 марта, сообщается в  блоге одного из сотрудников компании.

Напомним, ранее сообщалось, что интернет-пользователи обнаружили, что в результатах поиска системы по картинкам отсутствуют актуальные политические сюжеты. Первым это обнаружил пользователь ЖЖ Игорь Бигдан, который обратил внимание на разницу между поисковыми результатами "Яндекса" и Google при одинаковом поисковом запросе.

Позднее "Яндекс" так прокомментировал это наблюдение:

- Мы запустили поиск по картинкам летом 2002 года, и тогда в нашей базе было примерно 12 миллионов изображений. К декабрю 2010 года их количество увеличилось до 1,8 миллиардов. При этом мы преимущественно индексировали картинки, размещенные на русскоязычных ресурсах, а в зарубежном интернете отбирали самые популярные картинки с самых интересных сайтов. Но для качественного ответа нашему пользователю нужно хорошо находить и индексировать картинки со всего мирового интернета.

Поэтому в декабре прошлого года команда Яндекс.Картинок приступила к масштабной индексации картинок в мировом интернете. Она поставила перед собой цель увеличить количество зарубежных картинок в 5 раз, при этом не забывая о повышении качества сервиса. Это большая и интересная задача, которая требует архитектурных изменений в поиске по картинкам.

Раньше в поиске по картинкам новая поисковая база выкладывалась раз в неделю. Чтобы выложить новую поисковую базу, недостаточно просто скачать картинки со всего интернета. Для них ещё нужно построить уменьшенные копии, найти и связать между собой дубликаты, удалить спам и т.д. Достаточно сказать, что размер нашего картиночного индекса сейчас - 3 терабайта, а уменьшенных копий картинок, которые тоже хранятся у нас на серверах, - 25 терабайт.

К сожалению, при таком резком расширении индекса случилась болезнь роста. Об этом сообщил руководитель мультимедийных поисков Яндекса Дмитрий Беляев.

"Впервые количество "иностранных" изображений превысило количество "отечественных". Это вполне закономерно, ведь рунет – это часть мирового интернета", - пояснила сегодня в своем блоге Лия Карепова (команда Яндекс.Картинок).

Также она пояснила, для чего пополнять индекс Яндекс.Картинок изображениями с зарубежных сайтов:

Во-первых, очень часто изображение – это универсальный ответ, понятный человеку вне зависимости от того, на каком языке он разговаривает. Вы можете не знать итальянского, но это не помешает вам восхищаться творениями итальянских  архитекторов и живописцев. Также  совсем не обязательно знать английский, чтобы рассматривать фотографии знаменитостей. И неважно, на каких сайтах расположены эти фотографии и изображения – российских или зарубежных.

Во-вторых, в поиск Яндекс.Картинок  поступает все больше  запросов  на иностранных языках. В первую очередь – на английском.  Хотя среди этих запросов большую долю составляют имена собственные, но встречаются и вполне типичные для поиска по изображениям более "широкие" запросы:  например, [spring summer 2011 collection], [eye makeup trends] или [bedroom design] :). 

Сегодняшнее обновление индекса Картинок – большой прорыв для нас, хотя оно и было сопряжено с некоторыми непредвиденными сложностями. Но тем не менее  Яндекс.Картинки растут и учатся отвечать на вопросы пользователей все более полно и разнообразно, - отметили в компании "Яндекс".
Читайте полную версию на сайте