Реферат: Сетевые средства поиска информации
Сетевые
средства поиска информации
Каталоги
Объем
информации Интернет переживает стремительный рост: по оценкам экспертов,
количество Web-страниц увеличилось от нескольких десятков тысяч в 1996 г. до
нескольких сотен тысяч к концу 1998 г. В этих условиях ни одно отдельно взятое
средство поиска информации не сможет охватить всех ресурсов Сети. Поэтому для
эффективного решения задачи поиска пользователю необходимо свободно ориентироваться
в сложном и многообразном мире поисковых инструментов. Правильный выбор
средства поиска информации в каждом конкретном случае является существенным,
если не определяющим, фактором успешного выполнения задачи.
Каталоги
представляют собой систематизированные группы адресов, объединенные, как
правило, по тематике. К удобству их применения можно отнести то, что, если
пользователю известна тема искомого документа, он будет исследовать
соответствующую ветвь каталога, не отвлекаясь на посторонние, не относящиеся к
делу документы. Однако, объем каталога ограничен физическими возможностями
редакторской группы и ее субъективностью в выборе материала. В них отсутствует
информация на узкие, специальные темы, да и саму тематику искомого документа не
всегда можно сформулировать в пределах классификации каталога.
Название
|
Описание
|
Yahoo!
|
Самый популярный каталог, содержащий
обширную информацию о десятках тысяч Web-узлов. Первый уровень иерархии
содержит 14 тематических категорий, которые разветвляются еще на 4 - 5 подуровней.
Имеет собственную машину поиска, позволяющую: 1) искать по базе Yahoo!, по
Usenet или по адресам электронной почты; 2) ограничить поиск материалами,
размещенными за последний день, неделю, месяц, год или 3 года; 3) выдать
статьи, содержащие хотя бы одно ключевое слово или все ключевые слова; 4)
искать по однокоренным словам или только по указанным ключевым; 5) выдать
результаты по 10, 25, 50 или 100 на одной странице.
|
Excite Reviews
|
Содержит обзоры 60 тыс. узлов Интернет,
систематизированные в иерархический каталог.
|
City.Net
|
Каталог сведений о разных странах и
городах.
|
Galaxy
|
Иерархический каталог с подробным
описанием тематических категорий на первой странице. Осуществляет поиск по категории поиска, по одному или
нескольким ключевым словам, краткий и подробный вывод результатов поиска,
переход на страницы Gopher и Telnet.
|
Yellow Pages
|
Поиск информации о 16 млн. американских
компаниях в различных областях деятельности, а также персональные данные и
электронные адреса частных лиц.
|
Поисковые
машины
В разделе курса
"Поиск
информации в Интернет"
мы рассмотрели принцип работы поисковых
машин: часть машины, называемая «пауком» (или «спайдером»), постоянно путешествует
по узлам сети, собирая и обновляя информацию, кодирует ее (индексация) и
записывает в специализированную базу данных. При поступлении от пользователя
запроса в виде набора ключевых слов машина исследует свою базу данных и выдает
список документов, содержащих ключевые слова, как правило, ранжированный в
зависимости от частоты вхождения ключевых слов и других характеристик.
К достоинствам
применения поисковых машин можно отнести огромный объем информации, исследуемой
ими, и ее периодическую актуализацию. Однако, при этом не учитываются
документы, не содержащие ключевых слов, а, с другой стороны, в списке
содержится много шумовой, не относящейся к делу информации, отсеивание которой
занимает немалое время.
Название
|
Описание
|
Lycos
|
Охватывает 68 млн. страниц. Можно
выбрать параметры поиска: одно, несколько ключевых слов или фраза; усечение
терминов; ограничения на число совпадений; степень соответствия результатов
поиска ключевым словам; форму вывода результатов ( краткую или подробную );
количество найденных терминов на каждой странице. Невысокие быстродействие и
оперативность обновления информации.
|
Alta Vista
|
Охватывает более 30 млн. страниц на
225000 серверах, обеспечивает доступ к 3 млн. статей в 14000 телеконференциях
Usenet. Имеет два режима: Simple query и Advanced query.
В режиме Simple можно
вводить шаблоны для поиска не менее, чем с тремя указанными символами в
начале слова. Если слово содержит хотя бы одну заглавную букву, ведется поиск
с учетом регистра. Ниже строки ввода выдаются советы по поиску. В режиме
Advanced можно создавать сложные запросы, основанные на логических операторах
AND, OR, NOT, NEAR и указывать критерии сортировки полученных результатов.
Можно указывать диапазон дат опубликования. Предоставляет возможность поиска
изображений. Удобный интерфейс. Высокое быстродействие, многовариантное
поисковое предписание, возможность поиска на русском языке с учетом
морфологии. Система не упорядочивает результаты поиска, поэтому ее
целесообразно применять для специфического или исчерпывающего поиска.
|
Infoseek Guide
|
Охватывает 1,5 млн. страниц. Язык
запросов позволяет использовать все возможные варианты логических выражений.
Менее полные, чем на других серверах, результаты поиска, неудобный интерфейс.
|
Infoseek Ultra
|
50 млн. страниц WWW, возможен поиск на
русском языке, поиск изображений.
|
WebCrawler
|
Охватывает WWW, Usenet, Gopher, FTP,
Telnet. Возможен поиск на русском языке. Простота в обращении, быстрота.
Менее обширная база узлов, чем на других серверах.
|
HotBot
|
Охватывает 54 млн. страниц. Многовариантное
поисковое предписание. Возможен поиск на русском языке.
|
Мета-средства
поиска
Мета-средства
поиска позволяют усовершенствовать процесс путем запуска одновременно
нескольких средств поиска. Этот способ значительно повышает качество поиска, объединяя
достоинства и возможности всех используемых средств.
Однако, иногда
поиск с применением мета-средств может оказаться очень медленным, так как им
приходиться координировать во времени поступления результатов обработки запроса
от нескольких серверов и проблемы, возникшие у одного из них, могут
приостановить работу всей системы. Еще одним недостатком мета-средств является
то, что они не позволяют использовать возможности языка запроса каждого из
применяемых поисковых средств и не дают возможности заглянуть в их справочные
руководства.
Название
|
Описание
|
MetaCrawler
|
Подключает 9 поисковых систем
одновременно. Проверяется возможность доступа к найденной информации,
соответствие содержимого заданному критерию. Можно сортировать информацию по
территориальной близости, по близости к определенному узлу, по отношению к
компании и т.д. Возможен поиск на русском языке. Есть возможность
персональной настройки интерфейса.
|
SavvySearch
|
Запускает одну из 4 групп, состоящих из
трех поисковых систем:
|
-
|
WebCrawler,
Yahoo!, Lycos
|
|
-
|
Galaxy,
Excite, DejaNews
|
|
-
|
FTPSearch95,
Yellow Pages, Infoseek
|
|
-
|
Magellan,
NlightN, PointSearch
|
Поисковое предписание с использованием
операторов AND и OR. Возможен поиск на многих языках, в том числе на русском.
|
All-in-One
|
Хорошо структурированная мета-машина,
имеющая древовидную классификационную структуру, на верхнем уровне которой
размещены группы: , весь Internet, личные интересы, ПО, странички частных
лиц, новости и погода, литература и прочее. Уточняя содержание каждой группы,
можно попасть на следующий уровень.
Использует около 200 поисковых средств.
|
Internet Sleuth
|
Охватывает 1500 баз данных. Можно
запустить одновременно до 10 поисковых систем из 24, имеющихся в меню.
Использует операторы AND, OR, NOT, усечение терминов. Для каждой поисковой
машины можно задать свой критерий и свое ограничение времени поиска.
Возможен поиск на русском языке.
Тематический поиск ведется по большому количеству периодических изданий и
информационных служб многих стран. Для группы "НОВОСТИ"
используется 39 источников.
|
Русскоязычные
средства поиска
Каталоги
Название
|
Описание
|
ПАУК
|
Широкий охват русскоязычного WWW.
Глубина поиска: название, первые строки, электронный адрес документов.
Поддерживает все русские кодировки, возможность усечения терминов. Большой
объем, разветвленная иерархическая структура. Слабая оперативность обновления
информации.
|
Созвездие Интернет
|
Охватывает около 400 серверов.
Возможность усечения терминов. Содержит названия и краткие характеристики
серверов. Привлекательная графика. Небольшая зона поиска, слабая иерархия.
|
Желтые страницы Интернет
|
Около 1200 Web-серверов. Большой объем
информации, хорошо продуманная структура.
|
Russia
on the Net
|
Первый каталог русских ресурсов.
|
АУ!
|
Молодой, быстроразвивающийся каталог.
|
Сокровища Интернет
|
Каталог Web-ресурсов на сервере Relcom.
|
Поисковые машины
Название
|
1. Зона поиска
|
2. Глубина поиска
|
3. Язык запроса
|
4. Вывод результата
|
5. Достоинства и недостатки
|
Rambler
|
1. Около 4000 Web-узлов, недельный архив
телеконференций Relcom.
|
2. Все слова в документе.
|
3. Операторы AND, OR, NOT. Возможность усечения терминов.
Ограничения по дате. Простой запрос - 30 ссылок, углубленный - 1000.
|
4. Название документа, резюме, размер
файла, адрес, дата последнего обновления, степень соответствия, кодировка.
|
5. Удобный интерфейс, высокое
быстродействие, полная информация на выходе. Слабая оперативность обновления
информации.
|
Апорт!
|
1. 16 серверов.
|
2. Все слова в документе.
|
3.
AND и OR. Поиск по фразе (в двойных кавычках).
Возможность усечения терминов. Чувствительность к строчным и прописным
буквам.
|
4. Название документа, резюме, размер
файла, адрес, дата последнего обновления, степень соответствия запросу,
кодировка.
|
5. Удобство для пользователя, высокое
быстродействие.
|
Русская Машина Поиска
|
1. Более 900 русскоязычных узлов.
|
2. Все слова в документе.
|
3.
AND и OR. Поиск по отдельной фразе. Ограничения
поиска определенными элементами Web-страниц (название, ключевые слова, автор
и т.д.). пользователь может установить или отменить чувствительность к
строчным и прописным буквам и указать количество возможных ошибок в искомом
слове, если нет уверенности в его написании.
|
4. Название документа, резюме, адрес,
степень соответствия запросу.
|
5. Многовариантность поискового
предписания. Непривычная форма выдачи результата.
|
Яndex-Web
|
1. 5000 серверов - вся русская часть
Интернет, включая домены "RU", "SU", а также
русскоязычные ресурсы в других доменах.
|
2. Все слова в документе.
|
3.
AND, OR, NOT. Позволяет
осуществлять поиск внутри абзаца, документа, в заголовках и других полях, а
также с указанием расстояния между словами. Поиск по фразе. Учет морфологии
русского языка. Чувствительность к строчным и прописным буквам. Возможность
простого и сложного запроса. Поиск в найденном.
|
4. Заголовок, начало текста документа,
размер файла, дата и адрес, степень соответствия запросу, кодировка.
Возможность "подсвечивания" слов в тексте, соответствующих
поисковому предписанию.
|
5. Индексация обеспечивает нормализацию
слов и уникальность документа. Широкий охват, удобный интерфейс, высокое
быстродействие, высокая оперативность обновления информации (раз в неделю).
|
Данное
описание не претендует на исчерпывающий охват средств поиска. Более подробную
информацию можно получить, изучая иные варианты списков поисковых средств,
доступные в Интернет.
Список
литературы
Для подготовки
данной работы были использованы материалы с сайта http://www.dist-cons.ru/
|