разное Параметры URL страницы выдачи Яндекса и Гугла 

Дата публикации  Дата изменения02.09.16  КомментарииНет   Просмотры692

Автор: Сергей Людкевич. Помимо использования операторов языка запроса, в поисковой системе Яндекс существует возможность регулировать результаты выдачи по базовому запросу (в URL страницы выдачи ему соответствует значение параметра text) с помощью целого ряда get -параметров формата переменная=значение, используемых в URL страницы выдачи.
Подобные возможности имеются и у Гугла.

Базовый набор этих параметров можно определить с помощью использования фильтров расширенного поиска, а также индивидуальных настроек поиска.

С помощью "настройки региона" (https://tune.yandex.ru/region/) поиска происходит управление параметром

lr (регион выдачи) – в качестве значения используется номер региона. Числовые значения номеров некоторых распространенных регионов можно найти на странице https://yandex.ru/yaca/geo.c2n, но используемая база значительно полней (в ней по различным оценкам, полученным методом перебора значений, содержится несколько десятков тысяч регионов). Этот параметр не имеет аналога в языке запросов.

Фильтры расширенного поиска активируются по нажатию соответствующей кнопки в поисковой форме: https://yandex.ru/support/search/how-to-search/advanced-search.xml. Также отдельно форма расширенного поиска Яндекса в несколько ином формате находится по адресу https://www.yandex.ru/search/advanced, но, не исключено, что она уже не относится к документированным возможностям поиска, а является позабытым артефактом. С помощью расширенного поиска возможно определить ряд параметров URL страницы выдачи. Некоторые из них по сути дублируют соответствующие операторы языка запросов, а некоторые в языке запросов не имеют аналогов. Следует отметить, что мне представляется более предпочтительным при исследовании выдачи, где это возможно, применять именно get-параметры, а не операторы языка запроса. Так как при этом сам базовый запрос формально остается неизменным, что обеспечивает, на мой взгляд, большую чистоту исследования.

rstr (поиск по сайтам из заданного региона) – в качестве значения используется номер региона аналогично оператору lr с одним отличием, что перед номером региона необходимо поместить знак «минус», например: rstr=-15. К сожалению, на самом деле в выдаче с использованием этого параметра содержатся не документы, привязанные к заданному региону, а документы, которые содержат в тексте или анкор-файле упоминание заданного региона, т.е. по сути происходит некоторая модификация базового запроса путем добавления к нему названия региона.

site (поиск на заданном сайте) – в качестве значения используется имя домена или поддомена. По принципу действия аналогичен оператору site:, однако результаты выдачи могут отличаться друг от друга

lang (язык документа) – принимает значения:

ru (русский)
en (английский)
fr (французский)
de (немецкий)
uk (украинский)
be (белорусский)
tt (татарский)
kk (казахский)
tr (турецкий)
id (индонезийский)

По принципу действия аналогичен оператору lang:, однако результаты выдачи могут отличаться друг от друга

mime (формат документа) – принимает значения html, pdf, rtf, doc, swf, xls, ppt, docx, odt, odp, ods, odg, xlsx, pptx.
По принципу действия аналогичен оператору mime:, однако этот оператор, в отличие от параметра, не поддерживает значение html

zone (зона документа) – принимает значения
all (где угодно)
title (в заголовке), по принципу действия аналогично оператору title:, однако результаты выдачи могут отличаться друг от друга

wordforms (употребление слов) – принимает значения
all (в любой форме)
exact (как в запросе), по принципу действия аналогично оператору “” (поиск по цитате), однако результаты выдачи могут отличаться друг от друга

numdoc (количество результатов на странице выдачи) – принимает значения 10, 20, 30 и 50. При использовании чисел, отличных от этих значений, меньших 50, происходит округление вверх до ближайшего из них. При использовании чисел более 50, происходит округление до 50.

Также существует ряд параметров даты обновления документа, по принципу действия аналогичных операторуdate:

from_date_full (начальное значение диапазона дат) – принимает значения в виде ДД.ММ.ГГГГ

to_date_full (конечное значение диапазона дат) – принимает значения в виде ДД.ММ.ГГГГ

within (диапазон дат) – принимает значения

1 (за две недели)
2 (за месяц)
3 (за три месяца)
4 (за полгода)
5 (за год)
6 (за два года)
7 (за сутки)
77 (за сутки)
8 (за трое суток)
9 (за неделю)

Оператор within имеет приоритет над операторами from_date_full и to_date_full при совместном использовании

В основном поиске также поддерживается один из параметров, указанных в документации get-запросов (https://tech.yandex.ru/xml/doc/dg/concepts/get-request-docpage/) для сервиса Яндекс.XML

l10n (язык уведомлений) – устанавливает язык интерфейса страницы с результатами поиска, принимает значения:

ru (русский)
uk (украинский)
be (белорусский)
kk (казахский)

Кроме того, в различных служебных сообщениях на странице выдачи можно обнаружить ссылки на страницы выдачи, содержащие следующие параметры:

page (номер страницы выдачи) – принимает значения от 0 (первая страница) до 18

noreask=1 – отключение автоматического исправления опечаток, добавления результатов выдачи по схожим запросам

Также продолжают работать некоторые параметры-артефакты, которые некогда содержались в ссылках из различных служебных сообщений на странице выдачи, но со временем эти сообщения перестали показываться:

nomisspell=1 – в настоящий момент по действию аналогичен параметру noreask=1

how=tm – сортировка выдачи по дате первичной индексации документа

rd=0 – отключение фильтра дубликатов (в терминах Яндекса – «слишком похожих страниц»)

pag=u – разгруппировка результатов выдачи по сайтам

Учитывая тот факт, что при этом также происходит и разгруппировка аффилиатов, этот параметр можно использовать для поиска отфильтрованных аффилиатов в выдаче, правда здесь нужно учитывать, что разгруппированные страницы с некоторых сайтов могут занять много мест в топе, что затруднит поиск аффилиатов.

В завершении стоит, пожалуй, заметить, что есть еще один параметр-артефакт, который некоторым образом изменяет результаты поиска по базовому запросу. Это параметр hodreq, значение которого представляет собой некоторый поисковый запрос. Когда-то это параметр использовался в режиме «Искать в найденном», фиксируя предыдущий поисковый запрос, который ограничивал выборку документов для применения базового запроса. Однако на данный момент корректно интерпретировать действие этого параметра мне, к сожалению, не удалось.


Теперь рассмотрим тот же вопрос для поисковой системы Google. Там так же, как и в Яндексе, существует возможность регулировать результаты выдачи по базовому запросу (которому соответствует значение параметра q или as_q) с помощью целого ряда get-параметров формата переменная=значение, используемых в URL страницы поисковой выдачи после подстроки /search? . Использование этих параметров может быть весьма полезно при парсинге поисковой выдачи.

Также, как и в случае Яндекса, базовый набор этих параметров можно определить с помощью использования фильтров расширенного поиска, режима «Инструменты поиска», а также индивидуальных настроек поиска.

Примечательно, что некоторые параметры URL страницы выдачи Google сопровождаются появлением соответствующих им поисковых операторов в форме поиска (в Яндексе подобного не происходит). Таковым является набор параметров со значением в виде поисковой фразы:

as_epq – поиск по фразе в точной форме, аналог оператора “” (кавычки)
as_oq – поиск по любому слову фразы, аналог оператора OR
as_eq – исключаемая из запроса фраза, аналог оператора – (минус)

А также параметры с другими типами значений:

as_nlo и as_nhi – задают начало и конец цифрового диапазона соответственно, аналог оператора .. (две точки)
as_sitesearch – сужают область поиска на заданный сайт, аналог оператора site:
as_rq – ищет страницы, похожие на заданный документ (в качестве значения используется URL документа), аналог оператора related:
as_occt – задает область документа для поиска, принимает значения – as_occt=title (поиск в теге title, аналог оператора allintitle:)
- as_occt=body (поиск в тексте страницы, аналог оператора allintext:)
- as_occt=url (поиск в URL страницы, аналог оператора allinurl:)
- as_occt=links (поиск в текстах ссылок на страницу, аналог оператора allinanchor:)
as_filetype – задает формат документов для поиска (аналог оператора filetype:) и принимающий значения pdf, ps, dwf, kml, kmz, xls, ppt, doc, rtf, swf.

Другие типы параметров не производят изменений в поисковой строке.

Языковые параметры:

lr – язык документа (принимают значения в виде lr=lang_ru, где последние две буквы означают индекс языка, в данном примере – русский)

hl – язык интерфейса (приминает значения в виде двухбуквенного индекса языка, например, hl=ru – для русского). Примечательно, что этот параметр влияет на выдачу, некоторое преимущество получают документы на языке интерфейса.

Региональные параметры:

cr – страна документа (принимает значения в виде cr=countryRU, где последние две буквы означают индекс страны, в данном примере – Россия).

gl – страна документа, принимает значения в виде двухбуквенного индекса страны (например, gl=ru для России), аналог оператора cr, однако выдачу строит отличную от него). Стоит заметить, что при использовании операторов cr и gl в топ выдачи подмешиваются сайты из региона или страны пользователя, если она не совпадает со страной, заданной оператором.

near – весьма любопытный недокументированный параметр, которому можно указывать в качестве значения название населенного пункта (на английском или русском языке, например, near=Moscow или near=екатеринбург). Однако, эта выдача не является выдачей для указанного населенного пункта. Судя по всему, этот параметр в выдаче, построенной для региона пользователя, дает сайтам из указанного в качестве его значения населенного пункта некоторое преимущество.

Временные параметры:

as_qdr и tbs – поиск по документам, имеющим определенную дату обновления (при совместном использовании приоритет имеет параметр tbs). Принимают базовые значения:

Если же к базовым значениям (кроме значений за все время) добавить число, то можно получить выдачу за несколько соответствующих временных промежутков, например, комбинация as_qdr=h9 сузит выдачу на документы, обновленную за последние 9 часов, а комбинация tbs=m24 – за последние 24 месяца.

Также с помощью оператора tbs можно задавать произвольный диапазон дат обновления документа, в этом случае, он принимает значение следующего формата: tbs=cdr:1,cd_min:01.07.2016,cd_max:01.08.2016 (в данном примере указан диапазон от 01.07.1016 до 01.08.2016)

Если при использовании временных параметров с указанными значениями задать для параметра tbs дополнительное значение sbd:1, то результаты будут ранжироваться не по релевантности, а по времени обновления. Этот способ не работает только в том случае, если параметр as_qdr принимает значение all. Поэтому получить выдачу за все время, отсортированную по времени обновления, можно только с использованием комбинацииtbs=sbd:1,qdr:all

Операторtbs, являющий универсальным, может также принимать значениеli:1 – поиск по запросу в точной форме (аналог оператора “”), однако в этом случае в поисковой форме не происходит появления соответствующего оператора.

Параметры фильтрации контента:

safe – значения active и on включают фильтрацию непристойных результатов с помощью безопасного поиска, значение off отключает фильтрацию в случае, если в настройках поиска был включен режим «Безопасный поиск»; этот параметр может быть весьма полезен для определения, не попал ли конкретный сайт или документ под данный фильтр

as_rights – задание различных вариантов прав на использование контента

tbm – поиск по различным типам контента, принимает значения

-
app – поиск по приложениям
-bks – поиск по книгам
-isch – поиск по изображениям
-nws – поиск по новостям
-pts – поиск по патентам
-shop – поиск по магазинам
-vid – поиск по видео

Параметры управления результатами поиска:

num – количество результатов на странице поиска, принимает значения от 1 до 100

start – показ выдачи, начиная с заданной позиции (например, start=100)

newwindow=1 – открывать ссылки в новом окне

filter=0 – показать скрытые результаты, которые очень похожи на уже представленные

pws – управление персональными результатами поиска, принимает значения 0 (персональные результаты скрыты) и 1 (персональные результаты включены)

*Источник: рассылка SearchEngines.ru

Бесплатные курсы

Категории

Теги: , , , , , , ,

Оцените материал:

Рейтинг: 10.0/10 (2)


КомментарииКомментарии:

Нет комментариев к этой статье.


Поля, обозначенные как *, обязательны.





Максимальная длина сообщения 900 символов. Осталось   символов

 

Старые →← Новые