Xreferat.com » Рефераты по информатике и программированию » Методы поиска и анализа информации

Методы поиска и анализа информации

1. За чем мы ходим в Internet?"

В этом разделе мы ответим на следующий вопрос: если мы используем Internet для поиска информации, то какую именно информацию мы можем там найти?

Что говорит статистика?

Вновь обратимся к опыту тех, кто уже использует Internet в своей деятельности. Один из ресурсов сети, специализирующийся на проведении опросов по заказам пользователей (этот же ресурс может оказаться полезным и для Вас, если Вы когда-нибудь решите сами провести опрос), провел исследование с целью узнать, информацию по каким направлениям пользователи чаще всего ищут через Internet? Ответы приведены в алфавитном порядке и напротив каждого из них указан процент участников (из общего числа 100%), которые отметили данное направление.

Какая информация в Internet для Вас наиболее интересна?

Бизнес 31%
Дом, семья 18%
Интернет 42%
Компьютеры 29%
Культура и искусство 20%
Медицина и здоровье 19%
Наука и образование 25%
Общество 27%
Развлечения, отдых 44%
Информация справочного характера (погода, курсы валют, расписание движения поездов, самолетов и др.) 23%
Другое 5%

Необходимо заметить, что это мнение достаточно активно "живущей" в Internet аудитории, так как опрос проводится на сервере голосований. Для участия в голосовании требуется заполнить соответствующую анкету, что уже предполагает некоторую заинтересованность и активность участников опроса.

Ниже приведены данные статистики посещений одной из популярных русскоязычных поисковых систем Rambler - рейтинг популярности ресурсов, где информация о посещаемости соответствующих разделов собирается и обрабатывается автоматически. Эти данные Вы можете увидеть в разделе TOP100 (данные приведены на 18.06.2001). Здесь мы привели первые 10 позиций рейтинга.

Раздел Популярность, %
Развлечения 12,90
СМИ и периодика 11,29
Бизнес и финансы 5,95
Сервисы 4,97
Классификаторы 4,13
Спорт 3,58
Игры 3,40
МР3 (компьютерные музыкальные записи) 2,86
Политика 2,76
Компьютеры 2,70

Приведенная статистика, дает Вам некоторую возможность понять круг интересов и рейтинг пристрастий пользователей Internet, а если Вы вспомните приводившиеся выше цифры о том, что число пользователей русскоязычной части Internet превышает 3 миллиона, то легко сможете перевести проценты в абсолютные показатели в интересующем Вас сегменте рынка.

А вот данные о распределении ресурсов по разделам каталога одной из самых популярных поисковых систем Яндекс (по данным на 18.06.2001).

Раздел каталога Число зарегистрированных ресурсов
Компьютеры и связь 3 500
Дом и семья 2 792
Наука и образование 2 472
Организация бизнеса 2 232
Культура и искусство 1 882
Производство и поставки 1 843
Общество и политика 1 751
Развлечения и отдых 1 683
СМИ 1 617
Инфраструктура экономики 1 471
ВСЕГО: 21 243

Необходимо отметить, что владельцем ресурса обычно является весьма активно ведущая деятельность, в том числе и в Internet фирма. Поэтому, анализируя данную статистику, Вы сможете реально оценить количество предприятий и организаций, с которыми Вы можете эффективно контактировать, используя Internet.

Таким образом, Вы видите, что каким бы вопросом Вы ни задались (в зависимости от направления Вашего бизнеса), вы наверняка сможете в той или иной степени получить на него ответ через Internet. А если учесть, что за каждым ресурсом стоят конкретные специалисты, то Вы еще и получаете возможность обратиться к ним с вопросом (например, используя электронную почту).

Это все, что касается «вопросов широкого профиля». А если Вам нужна специализированная информация? Ну что ж, в этом случае Internet может оказаться вообще единственным источником сведений (в особенности, для малого бизнеса). Дело в том, что специалисты узкого профиля разбросаны по всему миру достаточно «разреженно». Кроме того, у них не всегда есть возможность, регулярно публиковать свои материалы в научной или специальной литературе. Поэтому иногда бывает достаточно трудно найти интересующего Вас специалиста, используя традиционные печатные источники информации. Через Internet сделать это гораздо проще, поскольку существуют специализированные телеконференции, листы подписки и т.д. Да и публикация материалов обходится специалистам значительно дешевле, так как существуют ресурсы, бесплатно предоставляющие пользователю место для размещения своей странички.

Но ведь часто бывает важно не только найти необходимую информацию или специалиста, но и иметь возможность задавать вопросы! В этом случае Вам на помощь придет электронная почта, которая гарантирует Вам не только оперативность, но и надежность связи. Кроме того, психологически гораздо легче ответить на почтовое сообщение «невидимому собеседнику», чем в беседе по телефону или при личной встрече.

Итак, в Internet можно найти либо уже готовый ответ на любой интересующий Вас вопрос либо, по крайней мере, специалистов, которые смогли бы ответить Вам на него (а чаще всего и то и другое).

2. Что такое поиск информации в сети?

Итак, что же такое поиск информации в сети и чем он отличается от поиска информации в других источниках?

Поиск информации в сети - это последовательность действий, от определения предмета поиска, до получения ответа на имеющиеся вопросы с использованием всех поисковых сервисов, которые предоставляет сегодня Internet.

Перечислим основные преимущества использования сети Internet при поиске информации.

Использование максимально возможного «пространства поиска» информации. Ни один из существующих на сегодня несетевых ресурсов не обладает тем объемом информации, который представлен в Internet;

Ни один другой источник не обладает такой оперативностью и доступностью. Internet предоставляет Вам доступ круглосуточно вне зависимости от Вашего места нахождения;

Информацию, полученную через Internet можно легко переслать своим коллегам для обсуждения или, например, распечатать в нужном числе экземпляров.

Только эти, перечисленные свойства, уже показывают, что в большинстве случаев себестоимость получения информации в сети будет заведомо ниже, чем при ее получении из любого другого источника. А в случае, если информация редкая (например, в узкоспециализированной области) или нужна срочно, то Internet может вообще оказаться единственно возможным источником ее получения.

И если крупный бизнес может себе позволить содержание целых информационно-аналитических служб, то для малого бизнеса Internet оказывается уникальным инструментом информационного обеспечения.

В целом поиск информации в сети - это достаточно специфическая и кропотливая работа, требующая определенных знаний и навыков. Для проведения поисковых работ Вам пригодятся: знания основных информационных ресурсов и умение хорошо в них ориентироваться, практические навыки работы - это приходит со временем, хорошая зрительная память и умение быстро читать, а так же некоторые навыки аналитической работы.

Приготовьтесь к тому, что при проведении поиска необходимой Вам информации, Вы вынуждены будете просмотреть и обработать достаточно большой объем документов. Конечно, бывает и так, что ответ на Ваш вопрос находится в первом же документе и заключен в рамки одного абзаца, состоящего из трех строк. Но чаще всего - ответ формируется Вами на основе «тридцати трех» разноплановых документов, хотя состоит все из тех же трех строк. В основном сказанное касается поиска различных сведений достаточно общего характера или при необходимости составления аналитического отчета по интересующему Вас вопросу. Поиск более конкретных сведений - например, составление списка адресов Ваших потенциальных партнеров - потребует от Вас значительно меньше времени и усилий.

Основной проблемой при поиске можно назвать неумение пользователя эффективно искать информацию в сети.

Как правило, у начинающих поисковиков или у пользователей, которые только начинают «жить» в сети, существует несколько ошибочных мнений:

Поисковые машины ищут информацию по всему Internet;

Не составляет большой проблемы еще раз найти заинтересовавший Вас материал;

Если начальный поиск закончился неудачей, то данной информации в сети нет.

Остановимся несколько подробнее на каждом из этих моментов.

А. Поисковые машины ищут информацию по всей сети Internet. На самом деле это не совсем верно. Если бы при реализации алгоритма работы поисковых машин был использован такой подход, то для обработки только одного запроса и выдачи результатов потребовалось бы несколько дней.

Поэтому, практически реализована иная схема работы поисковой машины. Каждая поисковая машина имеет и постоянно пополняет свою (локальную) базу данных. База данных поисковой машины содержит основные параметры (индексы) каждого известного данной машине (проиндексированного) документа. Каждая поисковая машина использует свои методы индексации. Кроме того, различные поисковые машины имеют разные объемы базы данных.

В результате, механизм обработки запроса пользователя поисковой машиной выглядит следующим образом:

в соответствии с заданным в запросе ключевым словом или словосочетанием, машина проводит поиск в своей локальной базе данных, сверяя ключевое слово с наборами ключевых слов, соответствующих каждому документу из её базы данных;

затем, используя соответствующие алгоритмы, поисковая машина сортирует результаты поиска и выдает их пользователю;

в результате сортировки результатов, в начало списка помещаются наиболее соответствующие (с точки зрения поисковой машины) ключевым словам документы.

В связи с огромным количеством информации, размещенной в сети, ни одна из поисковых машин не в состоянии просмотреть все документы. Каждая поисковая машина индексирует только часть их. Все остальные документы, а к сожалению это большая часть ресурсов, найти с ее помощью не удастся.

Б. Не составляет большой проблемы еще раз найти заинтересовавший Вас материал. Это второе очень большое заблуждение начинающих пользователей, приносящее немало вреда и значительно осложняющее жизнь. Достаточно часто бывает так, что интересные Вам материалы встречаются совершенно случайно, в процессе поиска по другой теме или при просмотре указанных в материалах сервера ссылок. А Internet, "увлекая и заманивая" иногда лишает Вас возможности вернуться. Отвлекаясь на более интересную информацию, Вы забываете адреса, которые вам нужны и тратите немало времени на их повторный поиск. И надо отметить, что не всегда Вы вновь сможете найти именно ту, потерянную информацию.

Для того чтобы избежать подобных ошибок, стоит сразу записывать адреса заинтересовавших Вас ресурсов в раздел "Избранное" браузера, либо в текстовый файл. Если Вы все же не смогли сохранить адрес, то постарайтесь вспомнить какое-либо "кодовое" слово или словосочетание, которое точно было на "потерянном" сайте. Главное - чтобы эта информация была оригинальной, так как использование сочетаний вида "стиральный порошок" или "коврик для мышки" не сильно продвинет Вас на пути повторного поиска. Если же, например, Вы используете запомнившееся Вам название заголовка статьи "Храните Ваши денежки по банкам и углам!", то у Вас есть шанс найти сайт с помощью поисковой машины. Задайте соответствующий запрос и помните - фразу надо вводить в кавычках. В том случае, если ничего очень оригинального и своеобразного Вы не запомнили, попробуйте следующий вариант: в окне браузера найдите кнопку "журнал" и нажмите её. В левой части окна возникнет колонка, в которой будут надписи "сегодня, вчера, …5 дней назад". Выберите мышкой надпись "сегодня" и нажмите на неё. В результате Вы получите список серверов, которые Вы посетили за сегодняшний день. Если их число не слишком велико, то Вы можете заново просмотреть все страницы.

В. Если начальный поиск закончился неудачей, то данной информации в сети нет. Еще одно заблуждение, обусловленное в основном малым опытом поиска. В Internet найти можно практически любую информацию, главное знать, что, где и как необходимо искать. Кроме того, очень важно научиться грамотно формулировать запрос поисковой машине. И если на начальном этапе Вы не можете найти то, что Вам необходимо это вовсе не означает, что данная информация отсутствует. Это значит, что Вы либо не достаточно четко формулируете запрос поисковой машине, либо ищете необходимую информацию не там где её стоит искать.

3. Полнота, достоверность и скорость поиска

Для того, чтобы найденная Вами информация действительно отражала реальное положение дел, поиск должен удовлетворять следующим критериям:

полнота охвата ресурсов;

достоверность информации;

высокая скорость проведения поиска.

Почему важна полнота охвата и достоверность информации, видимо, объяснять не нужно. По поводу скорости проведения поиска можно сказать лишь то, что чем меньше времени Вы затратите на проведение поисковых мероприятий, тем меньшими будут Ваши издержки (на оплату услуг сети, на оплату времени работы специалистов и т.д.).

Гораздо сложнее вопрос проверки: насколько Вам удается достигнуть полноты охвата и достоверности информации? Ответить на этот вопрос заранее и со стопроцентной уверенностью вряд ли возможно. Можно лишь дать рекомендации, основанные на опыте тех специалистов, которые занимаются поиском профессионально - что надо делать, чтобы вероятность достижения заданных критериев была максимальной.

Контроль полноты охвата ресурсов - достаточно серьезная проблема, в том случае если Вам необходимо не просто найти любую информацию об интересующем Вас предмете, а Вы хотите иметь полное представление о предмете поиска и состоянии дел по данному вопросу. В этом случае лучше не ограничиваться использованием только одной поисковой машины или просмотром одного, пусть даже самого любимого Вашего каталога. Для того чтобы провести полномасштабный сбор информации необходимо работать со всеми известными Вам каталогами, поисковыми машинами, базами данных, региональными телеконференциями, электронными досками объявлений и листами рассылок. Только в этом случае Вы будете уверены, что нашли если не всю, то хотя бы большую часть существующей информации. При этом не стоит забывать и об электронных СМИ.

Контроль достоверности информации. Еще одна важная и достаточно сложная часть процесса поиска. В силу своей специфики, Internet содержит достаточное количество устаревшей либо не достоверной информации. Во многом это объясняется возможностью анонимного размещения материалов, особенно на бесплатных сервисах. В основном, контроль достоверности информации - это аналитическая работа. При этом важно произвести сверку найденного Вами фактического материала, выяснить статус документов, получить информацию о компетентности автора материала и т.д.

Но есть и более очевидные вещи. Например, вряд ли стоит доверять фирме, на сайте которой нет других координат связи, кроме адреса электронной почты, но которая предлагает товар по предоплате. Либо сайту, который не встречается в рейтингах популярности в первой сотне, но авторы которого утверждают, что он имеет грандиозный успех и пытаются продать Вам рекламное место по баснословным расценкам.

Результаты поиска.

Как уже отмечалось выше, при поиске в Internet важны:

полнота охвата - ничего не потеряно из имеющейся информации

точность - не найдено лишней или недостоверной информации.

Получив нужную информацию по сети, постарайтесь для начала ее проверить.

Если это цены на товарную продукцию или услуги, - обязательно свяжитесь с продавцом и уточните их (а заодно проверьте наличие необходимой продукции на складе в достаточном количестве). Так же проверяется любая адресная информация: какими бы возможностями ни обладала

Если Вам нужна помощь с академической работой (курсовая, контрольная, диплом, реферат и т.д.), обратитесь к нашим специалистам. Более 90000 специалистов готовы Вам помочь.
Бесплатные корректировки и доработки. Бесплатная оценка стоимости работы.

Поможем написать работу на аналогичную тему

Получить выполненную работу или консультацию специалиста по вашему учебному проекту
Нужна помощь в написании работы?
Мы - биржа профессиональных авторов (преподавателей и доцентов вузов). Пишем статьи РИНЦ, ВАК, Scopus. Помогаем в публикации. Правки вносим бесплатно.

Похожие рефераты: