Поиск информации с использованием Интернета
Интернет - уникальный источник данных для бизнеса. В частности, он незаменим для отделов экономической безопасности и подразделений конкурентной разведки*(1). Несколько практических советов, приведенных в статье, помогут более эффективно использовать колоссальный скрытый потенциал Всемирной паутины.
Итак, где же найти необходимую информацию? Можно пытаться найти знающего человека (эксперта) и получить так называемую первичную информацию. Можно пойти в библиотеку или пробовать найти подходящий справочник. А можно искать решение во Всемирной паутине.
Интернет представляет собой совокупность компьютерных сетей, которая содержит свыше 20 миллионов баз данных. В них на сегодняшний день хранится огромное количество документов - 1012. Причем, по некоторым оценкам, объем Интернета удваивается каждые три года.
Доступ к текстам через Интернет возможен в основном тремя способами: по гипертекстовым ссылкам, через поисковые каталоги и посредством поисковых систем и баз данных.
Три способа поиска информации в Сети
Ходить по гипертекстовым ссылкам среди миллиардов документов в поисках нужного - дело совершенно безнадежное. Однако гипертекст может оказать неоценимую помощь при сборе латентной (скрытой) информации об изучаемом объекте, которую никакими другими методами поиска получить нельзя. Такой способ называется обратной стратегией поиска. Для его реализации используется оператор link поисковых систем. Он обеспечивает нахождение всех страниц, ссылающихся на объект исследования. Например, поисковые сервера http://www.google.com, http://www.alltheweb.com, http://www.altavista.com и http://search.msn.com по запросу: link:www.berator.ru выдадут подборку страниц, ссылающихся на любую страницу сайта http://www.berator.ru. Для поисковой системы "Яндекс" (http://www.yandex.ru) аналогичный запрос имеет несколько другую запись: #link="www.berator.ru*"
Поиск в интернет-каталогах, как правило, непродуктивен. Крупнейший из них - проект "Открытый каталог" (http://dmoz.org). Он содержит информацию о 4 миллионах сайтов в 590 тысяч рубрик. Проект поддерживают свыше 67 тысяч редакторов-добровольцев. Естественно, он наследует все пороки библиотек. Полнота представления информации в каталогах чрезвычайно низкая. Кроме того, средняя задержка с момента опубликования документа в Сети до момента его учета в каталогах может составлять кварталы.
Полнотекстовый поиск - еще один способ доступа к нужной информации через Интернет. Крупнейшие зарубежные поисковые системы Интернета и службы баз данных обеспечивают оперативный доступ к огромному количеству документов. Например, "Гугл" (http://www.google.com) - к 8 миллиардам, а одна из крупнейших коммерческих служб баз данных "Лексис-Нексис" (http://www.lexisnexis.com) - к 4,5 миллиарда текстов в 30 тысяч баз данных.
Национальные ресурсы Интернета также весьма солидны. В частности, "Яндекс" (http://www.yandex.ru) имеет объем основной базы известных русскоязычных документов более 320 миллионов. А крупнейшая коммерческая служба баз данных "Интегрум" (http://www.integrum.ru) - более 75 миллионов единиц хранения. В отличие от поисковых каталогов нахождение новых документов и их учет в полнотекстовых базах данных производится автоматически программами-роботами. Полнота даже самых объемных баз данных составляет доли процента от числа доступных через Интернет текстов.
Для систем полнотекстового поиска среднее время задержки доступности для поиска нового документа с момента его публикации в Сети варьируется от нескольких минут до месяцев. Минимальную задержку обеспечивают так называемые агрегаторы новостей. Например, британский сервер "Новости сейчас" (http://www.newsnow.co.uk) индексирует почти 20 тысяч источников новостей с задержкой пять минут. Поисковые системы сайтов обеспечивают доступ к новой информации на сайте с опозданием, как правило, не более суток. Поисковые системы общего назначения вынуждены перекачивать огромные объемы информации, и поэтому обеспечивают доступ к ней с запаздыванием в десятки дней и месяцы: "Яндекс" - 14 дней, "Гугл" - 30 дней.
Итак, мы разобрались в том, что по существу единственный способ доступа к проблемно ориентированной информации через Интернет - это полнотекстовый поиск.
Где искать?
Заметная доля (более 97 процентов) нужных документов по разным причинам не попадает в поле видения заинтересованных пользователей и условно называется "невидимый Интернет". Невидимой эта часть Интернета является не потому, что там нельзя увидеть нужный документ, а потому, что доступ осуществляется в два этапа. Сначала требуется подобрать подходящие поисковые системы и базы данных, затем суметь найти в этих коллекциях требуемые материалы.
Для построения реестра открытых источников может применяться приведенная ниже классификация и один из 12 способов построения реестра проблемно ориентированных ресурсов Интернета - авторские поисковые шаблоны. Работа с конкретным шаблоном состоит в его загрузке в текстовый редактор (Блокнот, MS Word...), замене всех значений параметров (начинаются со знака "#") на характерные для специализации базы данных слова. Например, #отрасль заменить на нефтехимия, а #отраслевой на нефтехимический. Затем получившийся запрос использовать для поиска.
Один из шаблонов "Рамблера" (http://www.rambler.ru) для поиска средств массовой информации:
(4,(#отрасль || #отраслевой) & (брошюра || бюллетень || ведомости || вести || вестник || газета || дайджест || ежемесячник || ежемесячный || еженедельная || еженедельник || журнал || записки || издание))
Пояснение: "Рамблер" по запросу брошюра || бюллетень || ведомости находит все тексты, содержащие любые словоформы "брошюра" или "бюллетень" или "ведомости". "Рамблер" по запросу 4, нефтехимия & брошюра находит все документы, включающие одновременно любые словоформы "нефтехимия" и "брошюра" рядом в любом порядке (в группе из 4 смежных слов).
Один из шаблонов "Гугл" для поиска баз данных:
#отрасль OR #отраслевой "расширенный поиск" OR "базы данных" OR "база данных" OR "поисковая система"
Перечислим некоторые классы лучших в своем роде открытых источников, часто используемых для поиска информации о конкретном объекте или для разрешения проблемной ситуации.
Класс 1. Национальные и глобальные метапоисковые системы общего и специального назначения: IxQuick (http://www.IxQuick.com), "МетаБот" (http://www.metabot.ru/), глобальный патентный метапоиск SurfIP (http://www.surfip.gov.sg/sip/site/ sip_home.htm)... Метапоиск - параллельный поиск по нескольким базам данных с формированием сводного результата.
Пример проблемы. Найти учебник НАТО по использованию Интернета для военной разведки (английский язык, IxQuick):
intelligence exploitation of the internet
Пояснение: все поисковые системы имеют свои правила написания запросов (обычно фирменное описание дается на сайте). По умолчанию IxQuick найдет тексты, содержащие все слова запроса. Если между ключевыми словами стоит пробел, поисковая система, как правило, воспринимает его как требование одновременного присутствия в тексте обоих терминов (оператор, действующий по умолчанию)*(2).
Класс 2. Глобальные поисковые системы и службы баз данных общего назначения: "Гугл" (http://www.google.com), AllTheWeb (http:// www.alltheweb.com), "Яху" (http:// search.yahoo.com), LexisNexis (http:// www.lexisnexis.com)...
Пример проблемы. Мониторинг сайтов конкурентов (английский язык, "Гугл"):
competitors-web-sites OR competitor-web-site monitor OR monitors OR monitoring
Пояснение: "Гугл" по запросу duty-free находит все документы, содержащие фразу "duty free"; по запросу персонал OR сотрудники находит все тексты, включающие любую из заданных словоформ.
Пример проблемы. История радиовещания в Австрии (немецкий язык, AllTheWeb - булевый расширенный поиск):
("Osterreicher Rundfunk" OR "Osterreichischer Rundfunk") AND (Abwi-cklung OR Behandlung OR Chronik OR Chronologisch OR Entfaltung OR Entstanden OR Entstehen OR Entstehung OR Entwicklung OR Intensivierung OR Epoche OR Evolution OR Geschichte OR Historische OR Historischer OR Histori-sches OR Periode OR Periodendauer OR Zeitdauer).
Пояснение: AllTheWeb по запросу Osterreicher Rundfunk находит все документы, содержащие в тексте требуемую последовательность заданных словоформ "Osterreicher Rundfunk" (точную фразу). AllTheWeb по запросу Rundfunk AND Abwicklung находит все документы, содержащие в тексте все требуемые словоформы "Rundfunk" и "Abwicklung".
Класс 3. Национальные поисковые системы и службы баз данных общего назначения: "Яндекс", "Рамблер", "Интегрум", Публичная интернет-библиотека (http://www.public.ru)...
Пример проблемы. Стратегии портфельного инвестирования ("Интегрум"):
((стратегия или субстратегия) (Dow или Forex или арбитражер или аукцион или биржа или биржевой или брокер или брокерский или валютный или вексель или вексельный или голубые :2 фишки или денежный или индексного :2 фонда или кривая :2 (доходности или доход) или ММВБ!Т или облигация или пассивное :2 управление или портфель или портфельный или РТС!Т или рыночного :2 опережения или спекулятивный или спекуляция или спекулянт или трейдер или фондовый или хедж или хеджер или хеджирование или ценные :2 бумаги) \с10)
Пояснение: Поисковая система "Артефакт" ("Интегрум") по запросу Dow или Forex находит все тексты, содержащие либо слово "Dow", либо "Forex", либо оба слова. "Артефакт" сначала выполняет инструкцию запроса во внутренних круглых скобках, затем все прочие "вышестоящие" инструкции.
"Артефакт" по запросу голубые :2 фишки находит все документы, включающие последовательность любых словоформ в одном предложении, причем за словом "голубые" следует слово "фишка", а между ними может попасть не более двух слов.
По запросу ММВБ!Т "Артефакт" находит все документы, содержащие сокращение "ММВБ" без словоизменений.
А по запросу стратегия портфельный \с10 "Артефакт" найдет все тексты, включающие хотя бы одно предложение с любыми словоформами "стратегия" и "портфельный" в любом порядке в группе из 10 смежных слов.
С. Кузнецов,
независимый консультант и тренер
Как проверить достоверность информации
Борис Косарев,
аналитический обозреватель ИА REGNUM:
"Информация, которую можно найти о компаниях, в том числе и в сети Интернет, в основном представлена материалами СМИ. Чтобы проверить их достоверность, прежде всего необходимо обратить внимание на имя автора статьи. В большинстве случаев редакции отказываются давать негативные статьи за именами собственных журналистов либо предпочитают давать их вообще без подписи. Базы данных СМИ - www.public.ru, www.integrum.ru, www.mlg.ru - позволяют проверить, является ли автор материала сотрудником редакции. Если же журналист работает и активно пишет в газете, то подборка статей за его именем может и должна стать информацией к размышлению о том, насколько можно доверять его рассуждениям. И тут в общем-то анализ только начинается. Не всегда, но часто можно выяснить, от кого пришла информация, составить перечень экспертов, которые давали личные комментарии журналисту, и круг тех, кому он оказывал поддержку и кого критиковал. Сопоставив все это, можно сделать вывод о том, насколько достоверна та или иная информация и с какой целью она распространяется".
"Консультант", N 9, май 2005 г.
-------------------------------------------------------------------------
*(1) Подробнее о конкурентной разведке читайте на стр. 40.
*(2) По поисковым системам, имеющим синтаксис языка запросов, аналогичный уже описанному, повторные пояснения ниже приводиться не будут.
Если вы являетесь пользователем интернет-версии системы ГАРАНТ, вы можете открыть этот документ прямо сейчас или запросить по Горячей линии в системе.
Журнал "Консультант"
ООО "Международное агентство бухгалтерской информации"
Свидетельство о регистрации: ПИ N ФС77-31559 от 04.04.08.