+7 (499) 929-85-95
Оставьте номер, и мы позвоним вам!
 

Google и русская морфология

09 февраля 2006
вот тут некоторые говорят, что Google научился понимать русскую морфологию Идем на Google (и Yandex для сравнения). Yandex: Канада и в Канаду Google: Канада и в Канаду
 
Комментарии: 14Оставить комментарий

iseg
09 февраля 2006, 21:49
Ответить
деревня изба архангельск
iaudio x5 прошивка
Leonid
09 февраля 2006, 22:08
Ответить
ИМХО, работает только на гугл.РУ. А, вообще, есть подозрение, то принципиально это ничего не изменит. Впрочем, время покажет.
Сергей Пасечник
10 февраля 2006, 16:13
Ответить
У кого-то подсмотрел. smile:)

- Google уже научился понимать русскую орфографию?
- Нет, он купил Яндекс.XML
Ашманов
12 февраля 2006, 00:12
Ответить
Илья, а при чём тут изба в деревне?
Гугл далеко не всякий раз расширяет запрос словоформами. Но часто расширяет.
Например, спроси "простой" - не расширяет, спроси "простой фон" - расширяет.
"Секреты простого фона" - ещё больше расширяет.

Как я уже писал в ЕЖЕ-лист, разница с Яндексом хорошо видна на запросе "обмен банок на деньги" - у Гугла финансовые учреждения в результатах не появляются.
iseg
12 февраля 2006, 09:53
Ответить
Я не понимаю что значит первый запрос. что тут ищут?

Но тем не менее, если ты хочешь сказать аудитории, что гагл ищет только существительное "простой", то ты ввел аудиторию в заблуждение: у гагла в десятке "простой пользователь", "простая розетка" и "простая семья". И ни разу ни "простой вагонов". Ни одного. У нас же - "простой сайт", "простой телефон" и "простой хостинг". Женский род в гагле "лезет" (доминирует в выдаче) в косвенных падежах, что по-моему неправильно. У нас по крайней мере род соблюден.

Что касается второго запроса, то это очень специальная конструкция, составленная опытным лингвистом, и призванная продемонстрировать принипиальные проблемы полисемии, но и здесь в десятке яндекса стеклянные банки и бутылки - 5 ответов из 10 (включая данный постинг). Вообще, такой запрос конечно же не задают: людям свойственно избегать полисемии даже в устной речи, не говоря уже про человеко-машинный диалог, из опасений быть не понятым. Например, есть такое слово в английском "hare" - заяц. Оно практически не используется в речи из за пересечения с "hair", которое есть волосы.
Ашманов
12 февраля 2006, 14:57
Ответить
Нет, я имел в виду, что Гугл не всегда использует морфологию, только и всего.

Что касается банок, Илья, то это вполне реальный запрос. Я его до того спрашивал в другом поисковике, чтобы понять, что это за автоматы везде поставили.

И вообще-то, в нём нет никакой полисемии - какая же полисемия в словах " обмен банок на деньги"? Даже омонимии никакой нет в принципе. Все три значимых слова НЕ ИМЕЮТ ГРАММАТИЧЕСКИХ ОМОНИМОВ.
Это у тебя в поисковике возникает излишняя, наведённая полисемия, а ты уже сам думаешь, как Яндекс.

Я не хочу сказать, что Гугл всё сделал сильно лучше, или что он ищет сильно лучше. Я хочу сказать, что сама идея препроцессинга запроса с целью решить для каждого слова, применять ли морфологическое расширение запроса - это хорошая идея. Заметим, что лично мне она в Рамблере в голову не пришла, я точно так же, как и Яндекс, подключил там морфологию механически, для всех слов, во всех ситуациях.
А гугловцы долго вообще не подключали, а теперь подключили разборчиво, с оглядкой. Это правильно.

Там может быть много подходов - различать частые и редкие формы (не давать повелительным наклонениям всё портить), различать словосочетания в запросе и расширять только согласованными формами, учитывать статистику распределения омонимов по корпусу и редкие давить по весу, проводить предварительный запрос к индексу и оценивать перспективность омонимов (так делал Следопыт). Ну и так далее.
Просто у русских поисковиков подключение морфлогии как-то остановилось на самом первом очевидном этапе.
Или в Яндексе это уже не так?
Ашманов
12 февраля 2006, 23:48
Ответить
Пардон, нужно уточнение: я не заметил одного грамматического омонима - у слова "банок" есть два объяснения - множественный родительный от "банка" (посудина) и множественный родительный от singularia tantum "банки" (средство от простуды).

Но это роли в данном случае никакой не играет, ибо и то и другое - это именно банка, а с банком как финансовой организаций слово "банок" нельзя перепутать ну просто никак.
Потому что у него нет такой формы в парадигме.

Поэтому, когда в этот запрос про БАНКУ всё-таки лезет "банк", это не принципиальная проблема многозначности языка или специально подобранный недоброжелателем хитрый запрос, а просто элементарно неправильная работа Яндекса.
Ашманов
12 февраля 2006, 23:50
Ответить
Тьфу, грипп и температура сказываются, опять нужна поправка. "Банки" - это Pluralia tantum, конечно.
iseg
13 февраля 2006, 10:33
Ответить
У нас давным-давно немало правил, когда морфлогия отключается (точнее деприоретизируется), вот примеры однословных запросов:

Сравни [духи] и [дух], [ноты] и [нота], [имена] и [имя]

Для многословных запросов тоже есть правила приоритезации, например при работе с фамилиями.
iseg
13 февраля 2006, 10:36
Ответить
По повоу [банок] -> [банк]. Такой связи в Яндексе вообще нет. Слово [банк] не находится. Никак и совсем.

Находятся именно [банка] и [банки], то есть родительный падеж или множественное число от [банка].
iseg
13 февраля 2006, 10:37
Ответить
Сорри: "родительный" заменить на "именительный"
Ашманов
13 февраля 2006, 11:11
Ответить
Ну, это же не очень важно, какой именно падеж-число находятся.
Важно, релевантные ли документы выдаются.
Ясно, что в данной ситуации любой документ про финансовые учреждения - нерелевантен (если только это не то место, куда деньги от банок поступают).

А ты по сути сейчас рассуждаешь чисто механически, как сама поисковая машина. Я помню, когда-то давно я разговаривал с Димой Крюковым про релевантность. Он мне говорил "ну, эти два слова на этой странице есть? Есть. Значит, я правильно её выдаю". Ты сейчас говоришь " эти два слова совпадают по форме "банки"? Совпадают. Значит, я правильно их выдаю".
А релевантность же про другое, верно?

А Гугл в этой ситуации вообще форму "банок" не превращает в основу, ищет как есть, и поэтому про финансовые банки не находит ничего, что и правильно.
Леонид
13 февраля 2006, 12:17
Ответить
Забавно, но по слову "банок" Гугл не находит ничего о банках smile:-) Я уж было подумал, что Яндекса работа, но однако по запросу "канаду" гугл и яндекс ведут себя по-разному. По запросу канада гугл включает поиск по словоформам:

а вот по запросу "канаду" уже нет!!!!

вот и думай теперь, то ли это супер-пупер интеллектуальный алгоритм, то ли бага. Яндекс, кстати, по обоим словам ищет со всеми словоформами.
GreenWood
13 марта 2006, 20:20
Ответить
Запрос "Коса"
В русском языке я знаю три значения этого слова:
1. Девичья коса (более пожилые кос не носят smile:) )
2. Коса для покоса трав
3. Песчаная коса

Гугль дал по топу 10 :
1. Обичайте себе си и своята коса (что это не понял, но наверное что-то из трех вышеперечисленных)
2. Парфюмерия и козметика/Боя за коса ( наверное то-же около дела)
3. песчаная коса
4. Гладките кокове, прибраната назад коса
5. за изтощена коса (что-то с косметикой)
6. Бленд за контрол на увредена коса (косметика)

в результате пункт второй выпал

Yandex по топу 10 :
1.Расти, коса, за три часа или Секреты наращивания волос
2.Антон Чехов. Зеленая коса
3. и .всёёёё .. больше нету

все остальное как и в гугле мусор, типа названия фирм и бутиков

		
		

 

Заказ коммерческого предложения

  • Вас интересует

Я согласен на передачу и обработку моих персональных данных.

Нажимая «Заказать», вы подтверждаете, что ознакомились, приняли и согласны с «Политикой по работе с персональными данными».

* Заполните обязательно

Заказать

 
Юлмарт
У нашей компании сильный собственный департамент маркетинга, мы четко знаем, каких результатов ждать от рекламы. С агентством iConText сотрудничаем с 2013 года по рекламе во ВКонтакте и Таргет Mail.Ru. Уже первые результаты ретаргетинговой кампании во ВКонтакте превзошли наши ожидания как минимум втрое. Благодаря грамотной настройке удалось получить низкую стоимость заказа, повысить количество конверсий, а также повысить ROI. Также приятно, что специалисты агентства оперативно отвечают на все наши вопросы и выполняют задачи в срок. iConText как наш партнер показывает высокую эффективность и участвует в росте нашей компании.
Роман Осокин,
Руководитель отдела онлайн продвижения компании «Юлмарт»


MILI
Компания MILI (OOO «Панда») сотрудничает с агентством performance marketing iConText с июля 2015 года. Были запущены рекламные кампании в системах Яндекс.Директ и Google Adwords, в рамках размещения достигнуты стабильные результаты кампаний. Стоимость целевого действия в результате оптимизации снизилась более чем в 2 раза и продолжает снижаться при сохранении желаемых объемов заявок. За все время работы команда агентства доказала профессиональный подход к ведению рекламных кампаний нашего бренда в интернете, умение быстро и на высоком уровне погружаться в задачи клиента, эффективно настраивать инструменты для мониторинга эффективности размещения. Хотелось бы отдельно отметить оперативность команды iConText в решении возникающих задач. С уверенностью можем рекомендовать iConText и команду агентства как профессионалов своего дела, ответственного партнёра для продвижения бренда в интернете
Назаров Леван ,
Генеральный директор



Читать все отзывы
 

Форма регистрации клиента iCTurbo

Отправляя данные, Вы соглашаетесь на условия оферты.

Отправить


Запрос обратного звонка

Я согласен на передачу и обработку моих персональных данных.

Нажимая «Отправить», вы подтверждаете, что ознакомились, приняли и согласны с «Политикой по работе с персональными данными».

* Заполните обязательно

Отправить


Заказ коммерческого предложения

  • Вас интересует

Я согласен на передачу и обработку моих персональных данных.

Нажимая «Заказать», вы подтверждаете, что ознакомились, приняли и согласны с «Политикой по работе с персональными данными».

* Заполните обязательно

Заказать

Мы используем файлы «cookie» для улучшения пользования веб-сайтом, персонализации, а также в статистических и исследовательских целях. Если вы продолжите пользоваться нашим сайтом, то мы будем считать, что вы согласны с использование cookie-файлов. Подробнее - о нашей Политике по работе с персональными данными.