Поисковый индекс Яндекс.Картинок отладили
Напомним, ранее сообщалось, что интернет-пользователи обнаружили, что в результатах поиска системы по картинкам отсутствуют актуальные политические сюжеты. Первым это обнаружил пользователь ЖЖ Игорь Бигдан, который обратил внимание на разницу между поисковыми результатами "Яндекса" и Google при одинаковом поисковом запросе.
Позднее "Яндекс" так прокомментировал это наблюдение:
- Мы запустили поиск по картинкам летом 2002 года, и тогда в нашей базе было примерно 12 миллионов изображений. К декабрю 2010 года их количество увеличилось до 1,8 миллиардов. При этом мы преимущественно индексировали картинки, размещенные на русскоязычных ресурсах, а в зарубежном интернете отбирали самые популярные картинки с самых интересных сайтов. Но для качественного ответа нашему пользователю нужно хорошо находить и индексировать картинки со всего мирового интернета.
Поэтому в декабре прошлого года команда Яндекс.Картинок приступила к масштабной индексации картинок в мировом интернете. Она поставила перед собой цель увеличить количество зарубежных картинок в 5 раз, при этом не забывая о повышении качества сервиса. Это большая и интересная задача, которая требует архитектурных изменений в поиске по картинкам.
Раньше в поиске по картинкам новая поисковая база выкладывалась раз в неделю. Чтобы выложить новую поисковую базу, недостаточно просто скачать картинки со всего интернета. Для них ещё нужно построить уменьшенные копии, найти и связать между собой дубликаты, удалить спам и т.д. Достаточно сказать, что размер нашего картиночного индекса сейчас - 3 терабайта, а уменьшенных копий картинок, которые тоже хранятся у нас на серверах, - 25 терабайт.
К сожалению, при таком резком расширении индекса случилась болезнь роста. Об этом сообщил руководитель мультимедийных поисков Яндекса Дмитрий Беляев.
"Впервые количество "иностранных" изображений превысило количество "отечественных". Это вполне закономерно, ведь рунет – это часть мирового интернета", - пояснила сегодня в своем блоге Лия Карепова (команда Яндекс.Картинок).
Также она пояснила, для чего пополнять индекс Яндекс.Картинок изображениями с зарубежных сайтов:
Во-первых, очень часто изображение – это универсальный ответ, понятный человеку вне зависимости от того, на каком языке он разговаривает. Вы можете не знать итальянского, но это не помешает вам восхищаться творениями итальянских архитекторов и живописцев. Также совсем не обязательно знать английский, чтобы рассматривать фотографии знаменитостей. И неважно, на каких сайтах расположены эти фотографии и изображения – российских или зарубежных.
Во-вторых, в поиск Яндекс.Картинок поступает все больше запросов на иностранных языках. В первую очередь – на английском. Хотя среди этих запросов большую долю составляют имена собственные, но встречаются и вполне типичные для поиска по изображениям более "широкие" запросы: например, [spring summer 2011 collection], [eye makeup trends] или [bedroom design] :).
Сегодняшнее обновление индекса Картинок – большой прорыв для нас, хотя оно и было сопряжено с некоторыми непредвиденными сложностями. Но тем не менее Яндекс.Картинки растут и учатся отвечать на вопросы пользователей все более полно и разнообразно, - отметили в компании "Яндекс".