Оставить заявку
 

Google и русская морфология

09 февраля 2006
вот тут некоторые говорят, что Google научился понимать русскую морфологию Идем на Google (и Yandex для сравнения). Yandex: Канада и в Канаду Google: Канада и в Канаду
 
Комментарии: 14Оставить комментарий

iseg
09 февраля 2006, 21:49
Ответить
деревня изба архангельск
iaudio x5 прошивка
Leonid
09 февраля 2006, 22:08
Ответить
ИМХО, работает только на гугл.РУ. А, вообще, есть подозрение, то принципиально это ничего не изменит. Впрочем, время покажет.
Сергей Пасечник
10 февраля 2006, 16:13
Ответить
У кого-то подсмотрел. :)

- Google уже научился понимать русскую орфографию?
- Нет, он купил Яндекс.XML
Ашманов
12 февраля 2006, 00:12
Ответить
Илья, а при чём тут изба в деревне?
Гугл далеко не всякий раз расширяет запрос словоформами. Но часто расширяет.
Например, спроси "простой" - не расширяет, спроси "простой фон" - расширяет.
"Секреты простого фона" - ещё больше расширяет.

Как я уже писал в ЕЖЕ-лист, разница с Яндексом хорошо видна на запросе "обмен банок на деньги" - у Гугла финансовые учреждения в результатах не появляются.
iseg
12 февраля 2006, 09:53
Ответить
Я не понимаю что значит первый запрос. что тут ищут?

Но тем не менее, если ты хочешь сказать аудитории, что гагл ищет только существительное "простой", то ты ввел аудиторию в заблуждение: у гагла в десятке "простой пользователь", "простая розетка" и "простая семья". И ни разу ни "простой вагонов". Ни одного. У нас же - "простой сайт", "простой телефон" и "простой хостинг". Женский род в гагле "лезет" (доминирует в выдаче) в косвенных падежах, что по-моему неправильно. У нас по крайней мере род соблюден.

Что касается второго запроса, то это очень специальная конструкция, составленная опытным лингвистом, и призванная продемонстрировать принипиальные проблемы полисемии, но и здесь в десятке яндекса стеклянные банки и бутылки - 5 ответов из 10 (включая данный постинг). Вообще, такой запрос конечно же не задают: людям свойственно избегать полисемии даже в устной речи, не говоря уже про человеко-машинный диалог, из опасений быть не понятым. Например, есть такое слово в английском "hare" - заяц. Оно практически не используется в речи из за пересечения с "hair", которое есть волосы.
Ашманов
12 февраля 2006, 14:57
Ответить
Нет, я имел в виду, что Гугл не всегда использует морфологию, только и всего.

Что касается банок,  Илья,  то это вполне реальный запрос. Я его до того спрашивал в другом поисковике, чтобы понять, что это за автоматы везде поставили.

И вообще-то, в нём нет никакой полисемии - какая же полисемия в словах " обмен банок на деньги"? Даже омонимии никакой нет в принципе. Все три значимых слова НЕ ИМЕЮТ ГРАММАТИЧЕСКИХ ОМОНИМОВ.
Это у тебя в поисковике возникает излишняя, наведённая полисемия, а ты уже сам думаешь, как Яндекс.

Я не хочу сказать, что Гугл всё сделал сильно лучше, или что он ищет сильно лучше. Я хочу сказать, что сама идея препроцессинга запроса с целью решить для каждого слова, применять ли морфологическое расширение запроса - это хорошая идея. Заметим, что лично мне она в Рамблере в голову не пришла, я точно так же, как и Яндекс, подключил там  морфологию  механически, для всех слов, во всех ситуациях.
А гугловцы долго вообще не подключали, а теперь подключили разборчиво, с оглядкой. Это правильно.

Там может быть много подходов  - различать частые и редкие формы (не давать повелительным наклонениям всё портить), различать словосочетания в запросе и расширять только согласованными формами, учитывать статистику распределения омонимов по корпусу и редкие давить по весу, проводить предварительный запрос к индексу и оценивать перспективность омонимов (так делал Следопыт). Ну и так далее.
Просто у русских поисковиков подключение морфлогии как-то остановилось на самом первом очевидном этапе.
Или в Яндексе это уже не так?
Ашманов
12 февраля 2006, 23:48
Ответить
Пардон, нужно уточнение: я не заметил одного грамматического омонима - у слова "банок" есть два объяснения - множественный родительный от "банка" (посудина) и множественный родительный от singularia tantum "банки" (средство от простуды).

Но это роли в данном случае никакой не играет, ибо и то и другое - это именно банка, а с банком как финансовой организаций слово "банок" нельзя перепутать ну просто никак.
Потому что у него нет такой формы в парадигме.

Поэтому, когда  в этот запрос про БАНКУ  всё-таки лезет  "банк", это не принципиальная проблема многозначности языка или специально подобранный недоброжелателем хитрый запрос, а просто элементарно неправильная работа Яндекса.
Ашманов
12 февраля 2006, 23:50
Ответить
Тьфу, грипп и температура сказываются, опять нужна поправка. "Банки" - это Pluralia tantum, конечно.
iseg
13 февраля 2006, 10:33
Ответить
У нас давным-давно немало правил, когда морфлогия отключается (точнее деприоретизируется), вот примеры однословных запросов:

Сравни [духи] и [дух], [ноты] и [нота], [имена] и [имя]

Для многословных запросов тоже есть правила приоритезации, например при работе с фамилиями.
iseg
13 февраля 2006, 10:36
Ответить
По повоу [банок] -> [банк]. Такой связи в Яндексе вообще нет. Слово [банк] не находится. Никак и совсем.

Находятся именно [банка] и [банки], то есть родительный падеж или множественное число от [банка].
iseg
13 февраля 2006, 10:37
Ответить
Сорри: "родительный" заменить на "именительный"
Ашманов
13 февраля 2006, 11:11
Ответить
Ну, это же не очень важно, какой именно падеж-число находятся.
Важно, релевантные ли документы выдаются.
Ясно, что в данной ситуации любой документ про финансовые учреждения - нерелевантен (если только это не то место, куда деньги от банок поступают).

А ты по сути сейчас рассуждаешь чисто механически, как сама поисковая машина. Я помню, когда-то давно я разговаривал с Димой Крюковым про релевантность. Он мне говорил "ну, эти два слова на этой странице есть? Есть. Значит, я правильно её выдаю". Ты сейчас говоришь " эти два слова совпадают по форме "банки"? Совпадают. Значит, я правильно их выдаю".
А релевантность же  про другое, верно?

А Гугл в этой ситуации вообще форму "банок" не превращает в основу, ищет как есть, и поэтому про финансовые банки не находит ничего, что и правильно.
Леонид
13 февраля 2006, 12:17
Ответить
Забавно, но по слову "банок" Гугл не находит ничего о банках :-) Я уж было подумал, что Яндекса работа, но однако по запросу "канаду" гугл и яндекс ведут себя по-разному. По запросу канада гугл включает поиск по словоформам:

а вот по запросу "канаду" уже нет!!!!

вот и думай теперь, то ли это супер-пупер интеллектуальный алгоритм, то ли бага. Яндекс, кстати, по обоим словам ищет со всеми словоформами.
GreenWood
13 марта 2006, 20:20
Ответить
Запрос "Коса"
В русском языке я знаю три значения этого слова:
1. Девичья коса (более пожилые кос не носят :) )
2. Коса для покоса трав
3. Песчаная коса

Гугль дал по топу 10 :
1. Обичайте себе си и своята коса (что это не понял, но наверное что-то из трех вышеперечисленных)
2. Парфюмерия и козметика/Боя за коса ( наверное то-же около дела)
3. песчаная коса
4. Гладките кокове, прибраната назад коса
5. за изтощена коса (что-то с косметикой)
6. Бленд за контрол на увредена коса (косметика)

в результате пункт второй выпал

Yandex по топу 10 :
1.Расти, коса, за три часа или Секреты наращивания волос
2.Антон Чехов. Зеленая коса
3. и .всёёёё .. больше нету

все остальное как и в гугле мусор, типа названия фирм и бутиков

		
		

 
Заказ коммерческого предложения

  • Ваша бизнес-задача
  • Бюджет, руб./мес. *

Я согласен на передачу и обработку моих персональных данных.

Нажимая «Заказать», вы подтверждаете, что ознакомились, приняли и согласны с «Политикой по работе с персональными данными».

* Заполните обязательно

Заказать

К вашим услугам
 
ОАО "Седьмой Континент"
Наше сотрудничество с iConText неизменно проходит в условиях максимального комфорта. Отменное качестве предоставляемых услуг и отличные результаты позволяют с уверенностью говорить: в iConText работают настоящие профессионалы!
Мельникова Вероника,
Директор департамента рекламы и спецпроектов ОАО "Седьмой Континент"


iCover
ООО "Айковер ПРО" (интернет-магазин iCover.ru) подтверждает факт сотрудничества с агенством performance-маркетинга iConText с 2015 года по планированию и оптимизации рекламных кампаний на площадке Яндекс.Маркет. На текущий момент мы успешно размещаем более 20 00 товарных предложений через данный сервис. Также iCover сотрудничает с iConText по Яндекс.Директ и Google Adwords. Мы рекомендуем iConText как професcионала своего дела всем компаниям, заботящимся об эффективном расходовании рекламного бюджета.
Дмитрий Шконда,
Генеральный директор ООО "Айковер ПРО""



Читать все отзывы
 
Форма регистрации клиента iCTurbo

Отправляя данные, Вы соглашаетесь на условия оферты.

Отправить

Запрос обратного звонка

Я согласен на передачу и обработку моих персональных данных.

Нажимая «Отправить», вы подтверждаете, что ознакомились, приняли и согласны с «Политикой по работе с персональными данными».

* Заполните обязательно

Отправить

Заказ коммерческого предложения

  • Ваша бизнес-задача
  • Бюджет, руб./мес. *

Я согласен на передачу и обработку моих персональных данных.

Нажимая «Заказать», вы подтверждаете, что ознакомились, приняли и согласны с «Политикой по работе с персональными данными».

* Заполните обязательно

Заказать

Мы используем файлы «cookie» для улучшения пользования веб-сайтом, персонализации, а также в статистических и исследовательских целях. Если вы продолжите пользоваться нашим сайтом, то мы будем считать, что вы согласны с использование cookie-файлов. Подробнее - о нашей Политике по работе с персональными данными.