Технологии всемирной паутины. WWW – всемирная паутина Всемирная паутина примеры

Для улучшения визуального восприятия веба стала широко применяться технология CSS, которая позволяет задавать единые стили оформления для множества веб-страниц. Ещё одно нововведение, на которое стоит обратить внимание, - система обозначения ресурсов URN (англ. Uniform Resource Name).

Популярная концепция развития Всемирной паутины - создание семантической паутины. Семантическая паутина - это надстройка над существующей Всемирной паутиной, которая призвана сделать размещённую в сети информацию более понятной для компьютеров. Семантическая паутина - это концепция сети, в которой каждый ресурс на человеческом языке был бы снабжён описанием, понятным компьютеру. Семантическая паутина открывает доступ к чётко структурированной информации для любых приложений, независимо от платформы и независимо от языков программирования. Программы смогут сами находить нужные ресурсы, обрабатывать информацию, классифицировать данные, выявлять логические связи, делать выводы и даже принимать решения на основе этих выводов. При широком распространении и грамотном внедрении семантическая паутина может вызвать революцию в Интернете. Для создания понятного компьютеру описания ресурса, в семантической паутине используется формат RDF (англ. Resource Description Framework), который основан на синтаксисе XML и использует идентификаторы URI для обозначения ресурсов. Новинки в этой области - это RDFS (англ.) русск. (англ. RDF Schema) и SPARQL (англ. Protocol And RDF Query Language) (произносится как «спа́ркл»), новый язык запросов для быстрого доступа к данным RDF.

2.1 Адреса и протоколы

Для организации взаимодействия компьютеров все они должны иметь уникальные числовые адреса. Подобный адрес (называемый IP-адресом) состоит из 4-х целых чисел в диапазоне от 0 до 255, отделенных друг от друга точками. Например: 190.169.200.5. Видно, что для кодирования такого адреса необходимо 4 байта, что теоретически позволяет охватить около 4 миллиардов компьютеров. Каждый провайдер получает в свое распоряжение от вышестоящего провайдера диапазон подобных адресов, которые он использует при взаимодействии со своими клиентами. В повседневной работе использование числовых адресов неудобно, поэтому они заменяются более понятными и легче запоминаемыми текстовыми (доменными) адресами. Основой взаимодействия компьютеров в Сети являются так называемые протоколы.

Протокол - это набор единых формализованных правил, по которым должны общаться между собой компьютеры, даже если они относятся к разным типам и используют разные операционные системы. Базовым протоколом для сети Интернет является протокол TCP/IP . Для реализации различных сетевых услуг существуют различные дополнительные протоколы - почтовые, передачи файлов, передачи гипертекста и т.д.

Все серверы Сети имеют специальные текстовые имена или адреса, заменяющие числовые адреса. Подобный адрес состоит из нескольких частей - сегментов (обычно 3, иногда - 4), отделенных друг от друга точками: сегмент. сегмент. сегмент

Сегменты образуют иерархическую структуру (аналогично иерархии каталогов на диске). Крайний правый сегмент имеет самый высокий уровень и обычно обозначает страну или тип организации–владельца сервера. Например: ru - Россия, com - коммерческая организация (в основном – США), edu - образовательная организация (университеты, институты США), org - неправительственная организация (например, ЮНЕСКО).

Сегмент слева от него часто обозначает саму организацию. Например:

- www.stanford.edu - Стэнфордский университет США,

- www.microsoft.com - корпорация Microsoft,

- www.infoart.ru - сервер Российского информационного агентства Инфоарт.

Задание имени сервера в Сети является первым шагом в поиске необходимой информации. Второй шаг - это поиск на дисках выбранного сервера. Вся доступная в Интернет информация распределена по дискам сотен тысяч узловых серверов. Естественно, что вся информация на дисках серверов хранится в файлах, которые сгруппированы в каталоги, образующие дерево каталогов. Поскольку большинство серверов работают под управлением операционных систем типа UNIX, то правила задания полного имени файла немного отличаются от привычных правил MS DOS и Windows.

Нельзя использовать русские буквы и пробелы, строчные и заглавные буквы различаются, имена каталогов отделяются символом / (а не символом \), корневой каталог обозначается символом /. В итоге для задания полного имени файла в сети Internet необходимо указать:

1. Тип используемого для передачи информации протокола (при работе с WWW это имя задается символами http:), имя сервера в Сети и путь к нужному файлу.

2. Путь к файлу на диске сервера принято называть URL-адресом ресурса в Сети или унифицированным указателем на ресурс. Примеры URL-адресов:

- http://www.microsoft.com/kb/softlib/prog.exe

- http://www.infoart.ru/mainmenu.

12 ноября 1990 года британский ученый Тим Бернесс-Ли опубликовал официальное предложение по созданию Всемирной паутины. Его изобретение стало настоящей революцией в развитии Интернета. Многие считают, что Всемирная паутина и Интернет — одно и то же. Однако это не совсем так. Впрочем, они неразрывно связаны (Паутина работает на основе Интернета и предоставляет доступ к документам, расположенным на различных компьютерах, подключенных к Интернету).

Мы решили собрать интересные факты о Всемирной паутине и Интернете.

В первые дни существования Всемирной паутины весь Интернет был размещен на персональном компьютере ее создателя Тима Бернесса-Ли.
Первая компьютерная сеть называлась Arpanet и объединяла четыре американских научных учреждения, которые занимались разработками передовых технологий для Министерства обороны США.

Первый веб-браузер под названием Mosaic был выпущен в 1993 году.

Первый веб-браузер (главный инструмент Всемирной паутины) под названием Mosaic был выпущен в 1993 году. Он стал основой для известного браузера Internet Explorer.
Первой фотографией, размещенной во Всемирной паутине, стал снимок пародийной группы Les Horrible Cernettes.

В свое время радио потребовалось 38 лет, чтобы достигнуть рубежа в 50 миллионов слушателей. Телевидению потребовалось 13 лет для привлечения такого количества зрителей, а Интернетом стали пользоваться 50 миллионов человек уже через 4 года после его создания.
Если оценить информацию, которой владел человек в XVIII веке, то вся она может быть выложена на сайте в течение недели.

80% населения мира не пользуется Интернетом.

Несмотря на большое число пользователей, 80% населения мира не пользуется Интернетом.
Финляндия отмечена в «Книге рекордов Гиннеса», так как в ней проживает лидирующее число пользователей Интернетом.
Самый быстрый Интернет в мире у жителей Южной Кореи и Японии.

Около 70% пользователей Интернета составляют мужчины.
Каждый день в мире по Интернету рассылается 247 миллиардов электронных писем, 81% из которых — спам. 28% из общего количества спама рассылается из Северной Америки, на втором месте — Россия, 7%.
Согласно статистике, каждый восьмой брак в США заключается благодаря Интернету. Именно там происходит знакомство будущих супругов.

Cамый странный гаджет с выходом в Паутину — холодильник с wi-fi.
В 2011 году в Санкт-Петербурге планировали установить памятник Всемирной паутине. Композиция должна была представлять собой уличную скамейку в виде аббревиатуры WWW с бесплатным доступом в Сеть.

ВСЕМИ́РНАЯ ПАУТИ́НА [англ. World Wide Web, сокр. – WWW или Web (веб)] – распределённая неоднородная компьютерная система коллективного пользования гипермедийными документами, действующая на базе сети Интернет . Связанные гиперссылками документы этой системы, образующие сложную разветвлённую структуру, образно названы «паутиной» (web). Один из наиболее популярных интернет-сервисов (наряду с электронной почтой , поисковыми системами и др.).

Веб-страницы и веб-сайты

Гипермедийные документы Веба, называемые веб-страницами , являются развитием гипертекстовых (см. Гипертекст ). Они могут содержать текст, изображения, аудио, видео и др. составляющие. Каждая веб-страница имеет уникальный адрес – URL (сокр. Universal Resource Locator – унифицированный указатель ресурса), по которому её можно найти. Напр., www.webopedia.com – URL главной веб-страницы электронного компьютерного словаря. Любая совокупность смежных символов веб-страницы может быть гиперссылкой на др. веб‑страницу или др. информационный ресурс Интернета. Гиперссылки могут указывать не только на документы Веба, но и на другие информационные ресурсы, предоставляемые интернет-сервисами. Совокупность связанных гиперссылками веб‑страниц, которые имеют общую часть URL (и, как правило, объединены тематически), называют веб-сайтом. Напр., сайт электронного компьютерного словаря Webopedia имеет адрес www.webopedia.com, а веб-страница статьи с определением термина Web - http://www.webopedia.com/TERM/W/World_Wide_Web.html . Общей частью адреса всех страниц сайта является адрес сайта.

Веб-серверы и браузеры

Веб-сайты хранятся на веб-серверах (компьютерах со спец. программным обеспечением). Веб-серверами могут быть компьютеры разл. архитектуры, удовлетворяющие требованиям надёжности и производительности. Они могут работать под управлением разных операционных систем и использовать разнообразные серверные программы . Поэтому Веб является неоднородной компьютерной системой. Глобальная распределённость Веба выражается в том, что веб-серверы могут находиться в любой точке мира, где есть возможность подключения к Интернету.

Для получения веб-страниц пользователь применяет браузер (программу веб-клиент). С помощью браузера он формирует и отправляет запросы на получение интересующих его информационных ресурсов. Браузер интерпретирует полученные от веб-серверов ответные сообщения и отображает результаты интерпретации на устройстве в составе компьютера или компьютерного устройства пользователя (дисплее компьютера, смартфона или др.). С ростом числа различных веб-приложений (веб-почты, поиска, различных фото-, графических и текстовых веб-редакторов, а также др. прикладных программ) браузеры стали использовать как платформы для веб-приложений. Для работы с любым из веб-приложений пользователю достаточно иметь соответствующий браузер, знать адрес приложения и иметь право доступа. С ростом числа веб-приложений браузеры берут на себя растущую долю задач операционной системы (напр., Google Chrome OS основана на браузере Google Chrome).

Интерпретацию сообщений, поступающих от браузеров, выполняют серверные программы, установленные на веб-серверах. Обмен сообщениями между этими программами осуществляется по правилам (протоколам), соответствующим архитектуре клиент–сервер (см. Компьютерная сеть ). В Вебе действует протокол передачи гипертекста – HTTP (Hypertext transfer protocol).

Изобретение Веба и реализация проекта

В марте 1989 британский физик Т. Бернерс-Ли (Tim Berners-Lee) предложил проект, впоследствии названный проектом Веба [в то время изобретатель Веба был сотрудником Европейской организации ядерных исследований CERN (англ. European Organization for Nuclear Researchnbsp)]. При реализации проекта Веба его первым помощником был системный инженер Robert Cailliau. В наст. время изобретатель Веба является директором международного консорциума World Wide Web Consortium (W3C). Цель W3C – увеличение потенциала Веба (путём разработки более совершенных протоколов и технологий) и обеспечение его непрерывного устойчивого роста.

С кон. 1993 (после создания первого браузера Mosaic с графическим интерфейсом) начался быстрый рост популярности Веба.

К нач. 21 в. Веб стал самым популярным и наиболее динамично развивающимся сервисом Интернета. Простота взаимодействия с Вебом и тематич. разнообразие веб-ресурсов определили масштаб его применения в различных областях человеческой деятельности (дистанционное обучение, электронная торговля, социальные сети, электронные издания и др.).

Всемирная паутина Работу выполнил: Джамбулатов Альберт 11»А» Учитель: Чернова Анна Петровна

Всеми́рная паути́на (англ. World Wide Web) - распределённая система, предоставляющая доступ к связанным между собой документам, расположенным на различных компьютерах, подключённых к Интернету. Для обозначения Всемирной паутины также используют слово веб (англ. web «паутина») и аббревиатуру WWW .

Всемирную паутину образуют сотни миллионов веб-серверов. Большинство ресурсов Всемирной паутины основаны на технологии гипертекста. Гипертекстовые документы, размещаемые во Всемирной паутине, называются веб-страницами. Несколько веб-страниц, объединённых общей темой, дизайном, а также связанных между собой ссылками и обычно находящихся на одном и том же веб-сервере, называются веб-сайтом. Для загрузки и просмотра веб-страниц используются специальные программы - браузеры (англ. browser).

Всемирная паутина вызвала настоящую революцию в информационных технологиях и взрыв в развитии Интернета. В повседневной речи, говоря об Интернете, часто имеют в виду именно Всемирную паутину. Однако важно понимать, что это не одно и то же.

История: Изобретателями всемирной паутины считаются Тим Бернерс-Ли и, в меньшей степени, Роберт Кайо. Тим Бернерс-Ли является автором технологий HTTP , URI / URL и HTML . В 1980 году он работал в Европейском совете по ядерным исследованиям (фр. conseil européen pour la recherche nucléaire , CERN) консультантом по программному обеспечению. Именно там, в Женеве (Швейцария), он для собственных нужд написал программу « Энквайр » (англ. Enquire , можно вольно перевести как «Дознаватель»), которая использовала случайные ассоциации для хранения данных и заложила концептуальную основу для Всемирной паутины.

В 1989 году, работая в CERN над внутренней сетью организации, Тим Бернерс-Ли предложил глобальный гипертекстовый проект, теперь известный как «Всемирная паутина». Проект подразумевал публикацию гипертекстовых документов, связанных между собой гиперссылками, что облегчило бы поиск и консолидацию информации для учёных CERN. Для осуществления проекта Тимом Бернерсом-Ли (совместно с его помощниками) были изобретены идентификаторы URI , протокол HTTP и язык HTML . Это технологии, без которых уже нельзя себе представить современный Интернет. В период с 1991 по 1993 год Бернерс-Ли усовершенствовал технические спецификации этих стандартов и опубликовал их. Но, всё же, официально годом рождения Всемирной паутины нужно считать 1989 год.

С 1994 года основную работу по развитию Всемирной паутины взял на себя консорциум Всемирной паутины (англ. world wide web consortium , три буквы «W» и «C», W3C), основанный и до сих пор возглавляемый Тимом Бернерсом-Ли. Данный консорциум - организация, разрабатывающая и внедряющая технологические стандарты для Интернета и Всемирной паутины. Миссия W3C: «Полностью раскрыть потенциал Всемирной паутины путём создания протоколов и принципов, гарантирующих долгосрочное развитие Сети». Две другие важнейшие задачи консорциума - обеспечить полную « интернационализа́цию Сети́» и сделать Сеть доступной для людей с ограниченными возможностями. W3C разрабатывает для Интернета единые принципы и стандарты (называемые «рекомендациями», англ. W3C recommendations), которые затем внедряются производителями программ и оборудования. Таким образом достигается совместимость между программными продуктами и аппаратурой различных компаний, что делает Всемирную сеть более совершенной, универсальной и удобной. Все рекомендации консорциума Всемирной паутины открыты, то есть не защищены патентами и могут внедряться любым человеком без всяких финансовых отчислений консорциуму.

Безопасность:Для киберпреступников Всемирная паутина стала ключевым способом распространения вредоносного программного обеспечения. Кроме того, под понятие сетевой преступности подпадают кража личных данных, мошенничество, шпионаж и незаконный сбор сведений о тех или иных субъектах или объектах . Веб- уязвимости, по некоторым данным, в настоящее время превосходят по количеству любые традиционные проявления проблем компьютерной безопасности; по оценкам Google , примерно одна из десяти страниц во Всемирной паутине может содержать вредоносный код . По данным компании Sophos , британского производителя антивирусных решений, большинство кибератак в веб-пространстве совершается со стороны легитимных ресурсов, размещённых по преимуществу в США, Китае и России . Наиболее распространённым видом подобных нападений, по сведениям от той же компании, является SQL-инъекция - злонамеренный ввод прямых запросов к базе данных в текстовые поля на страницах ресурса, что при недостаточном уровне защищённости может привести к раскрытию содержимого БД . Другой распространённой угрозой, использующей возможности HTML и уникальных идентификаторов ресурсов, для сайтов Всемирной паутины является межсайтовое выполнение сценариев (XSS), которое стало возможным с введением технологии JavaScript и набрало обороты в связи с развитием Web 2.0 и Ajax - новые стандарты веб-дизайна поощряли использование интерактивных сценариев . По оценкам 2008 года, до 70 % всех веб-сайтов в мире были уязвимы для XSS-атак против их пользователей .

Распространение: В период с 2005 по 2010 год количество веб-пользователей удвоилось и достигло отметки двух миллиардов . Согласно ранним исследованиям 1998 и 1999 годов, большинство существующих веб-сайтов не индексировались корректно поисковыми системами, а сама веб-сеть оказалась крупнее, чем ожидалось . По данным на 2001 год было создано уже более 550 миллионов веб-документов, большинство из которых однако находились в пределах невидимой сети . По данным на 2002 год было создано более 2 миллиардов веб-страниц , 56,4 % всего интернет-содержимого было на английском языке, после него шёл немецкий (7.7 %), французский (5.6 %) и японский (4.9 %). Согласно исследованиям, проводимым в конце января 2005 года на 75 разных языках было определено более 11,5 миллиардов веб-страниц, которые были индексированы в открытой сети . А по данным на март 2009 года, количество страниц увеличилось до 25.21 миллиардов . 25 июля 2008 года инженеры программного обеспечения Google Джессе Альперт и Ниссан Хайай объявили, что поисковик Google засёк более миллиарда уникальных URL -ссылок .

Всемирная паутина (сокращенно World Wide Web или WWW) - это единство информационных ресурсов, которые связаны между собой средствами телекоммуникаций и основаны на гипертекстовом представлении данных, разбросанных по всему миру.

Годом рождения Всемирной паутины считается 1989 год. Именно в этом году Тим Бернерс-Ли предложил общий гипертекстовый проект, который получил впоследствии название Всемирной паутины.

Создатель «паутины» Тим Бернес-Ли, работая в лаборатории физики элементарных частиц европейского центра ядерных исследований «CERN» В Женеве (Швейцария), совместно с партнером Робертом Кайо занимались проблемами применения идей гипертекста для построения информационной среды, которая упростила бы обмен информацией между физиками.

Итогом данной работы явился документ, в котором рассматривались понятия, имеющие принципиальное значение для «паутины» в ее современном виде, и были предложены идентификаторы URI, протокол HTTR и язык HTML. Без данных технологий уже нельзя представить современный Интернет.

Бернерс-Ли создал первый в мире веб-сервер и первый в мире гипертекстовый веб-браузер. На первом в мире веб-сайте он описал, что такое Всемирная паутина и как установить веб-сервер, как использовать браузер и т.п. Этот сайт являлся и первым в мире Интернет-каталогом.

Начиная с 1994 года самые главные задачи по развитию Всемирной паутины взял на себя Консорциум Всемирной паутины (World Wide Web Consortium, WЗС ), который организовал и до сих пор возглавляет Ким Бернес-Ли. Консорциум разрабатывает и внедряет технологические стандарты для Интернета и Всемирной паутины. Миссия WЗС: «Полностью раскрыть потенциал Всемирной паутины, путем создания протоколов и принципов, гарантирующих долгосрочное развитие Сети» . WЗС разрабатывает «Рекомендации», что бы достичь совместимость между программными продуктами и аппаратурой различных компаний, что делает Всемирную сеть более совершенной, универсальной и удобной.

Поисковые системы: состав, функции, принципы работы.

Поисковая система - это программно-аппаратный комплекс, предназначенный для осуществления поиска в сети Интернет и реагирующий на запрос пользователя, задаваемый в виде текстовой фразы (поискового запроса), выдачей списка ссылок на источники информации, в порядке релевантности (в соответствии запросу). Наиболее крупные международные поисковые системы: «Google» , «Yahoo» , «MSN» . В русском Интернете это – «Яндекс» , «Рамблер» , «Апорт» .

Опишем основные характеристики поисковых систем :

Полнота

Полнота - одна из основных характеристик поисковой системы, представляющая собой отношение количества найденных по запросу документов к общему числу документов в сети Интернет, удовлетворяющих данному запросу. К примеру, если в Интернете имеется 100 страниц, содержащих словосочетание «как выбрать автомобиль», а по соответствующему запросу было найдено всего 60 из них, то полнота поиска будет 0,6. Очевидно, что чем полнее поиск, тем меньше вероятность того, что пользователь не найдет нужный ему документ, при условии, что он вообще существует в Интернете.

Точность

Точность - еще одна основная характеристика поисковой машины, которая определяется степенью соответствия найденных документов запросу пользователя. Например, если по запросу «как выбрать автомобиль» находится 100 документов, в 50 из них содержится словосочетание «как выбрать автомобиль», а в остальных просто наличествуют эти слова («как правильно выбрать магнитолу и установить в автомобиль»), то точность поиска считается равной 50/100 (=0,5). Чем точнее поиск, тем быстрее пользователь найдет нужные ему документы, тем меньше различного рода «мусора» среди них будет встречаться, тем реже найденные документы не будут соответствовать запросу.

Актуальность

Актуальность - не менее важная составляющая поиска, которая характеризуется временем, проходящим с момента публикации документов в сети Интернет, до занесения их в индексную базу поисковой системы. Например, на следующий день после появления интересной новости, большое количество пользователей обратились к поисковым системам с соответствующими запросами. Объективно с момента публикации новостной информации на эту тему прошло меньше суток, однако основные документы уже были проиндексированы и доступны для поиска, благодаря существованию у крупных поисковых систем так называемой «быстрой базы», которая обновляется несколько раз в день.

Скорость поиска

Скорость поиска тесно связана с его устойчивостью к нагрузкам. Например, по данным ООО «Рамблер Интернет Холдинг», на сегодняшний день в рабочие часы к поисковой машине Рамблер приходит около 60 запросов в секунду. Такая загруженность требует сокращения времени обработки отдельного запроса. Здесь интересы пользователя и поисковой системы совпадают: посетитель желает получить результаты как можно быстрее, а поисковая машина должна отрабатывать запрос максимально оперативно, чтобы не тормозить вычисление следующих запросов.

Наглядность

Наглядность представления результатов является важным компонентом удобного поиска. По большинству запросов поисковая машина находит сотни, а то и тысячи документов. Вследствие нечеткости составления запросов или неточности поиска, даже первые страницы выдачи не всегда содержат только нужную информацию. Это означает, что пользователю зачастую приходится производить свой собственный поиск внутри найденного списка. Различные элементы страницы выдачи поисковой системы помогают ориентироваться в результатах поиска.одробные пояснения по странице результатов поиска, например у «Яндекса» можно посмотреть по ссылке http://help.yandex.ru/search/?id=481937 .

Краткая история развития поисковых систем

В начальный период развития Интернет, число его пользователей было невелико, а объем доступной информации сравнительно небольшим. В большинстве своем, доступ к сети Интернет имели лишь сотрудники научно-исследовательской сферы. В это время задача поиска информации в Интернете не была столь актуальной, как в настоящее время.

Одним из первых способов организации доступа к информационным ресурсам сети стало создание открытых каталогов сайтов, ссылки на ресурсы в которых группировались согласно тематике. Первым таким проектом стал сайт Yahoo.com, открывшийся весной 1994 года. После того, как количество сайтов в каталоге Yahoo значительно увеличилось, была добавлена возможность поиска нужной информации по каталогу. В полном смысле это еще не было поисковой системой, так как поисковая область была ограничена только ресурсами, присутствующими в каталоге, а не всеми Интернет ресурсами.

Каталоги ссылок широко использовались ранее, однако практически полностью утратили свою популярность в настоящее время. Так как даже современные, огромные по своему объему каталоги, содержат информацию лишь о ничтожно малой части сети Интернет. Самый большой каталог сети DMOZ (его еще называют Open Directory Project) содержит информацию о 5 миллионах ресурсов, тогда как база поисковой системы Google состоит из более чем 8 миллиардов документов.

Первой полноценной поисковой системой стал проект WebCrawler, вышедший в свет в 1994 году.

В 1995 году появились поисковые системы Lycos и AltaVista. Последняя долгие годы была лидером в области поиска информации в сети Интернет.

В 1997 году Сергей Брин и Ларри Пейдж создали поисковую машину Google в рамках исследовательского проекта в Стэндфордском университете. В настоящий момент Google - самая популярная поисковая система в мире!

В сентябре 1997 года была официально анонсирована поисковая система Yandex, являющаяся самой популярной в русскоязычном Интернете.

В настоящее время существуют три основные международные поисковые системы – Google, Yahoo и MSN, имеющих собственные базы и алгоритмы поиска. Большинство остальных поисковых систем (коих насчитывается большое количество) использует в том или ином виде результаты трех перечисленных. Например, поиск AOL (search.aol.com) использует базу Google, а AltaVista, Lycos и AllTheWeb – базу Yahoo.

Состав и принципы работы поисковой системы

В России основной поисковой системой является «Яндекс», далее - Rambler.ru, Google.ru, Aport.ru, Mail.ru. Причем, на данный момент, Mail.ru использует механизм и базу поиска «Яндекса».

Практически все крупные поисковые системы имеют свою собственную структуру, отличную от других. Однако можно выделить общие для всех поисковых машин основные компоненты. Различия в структуре могут быть лишь в виде реализации механизмов взаимодействия этих компонентов.

Модуль индексирования

Модуль индексирования состоит из трех вспомогательных программ (роботов):

Spider (паук) – программа, предназначенная для скачивания веб-страниц. «Паук» обеспечивает скачивание страницы и извлекает все внутренние ссылки с этой страницы. Скачивается html-код каждой страницы. Для скачивания страниц роботы используют протоколы HTTP. Работает «паук» следующим образом. Робот на сервер передает запрос “get/path/document” и некоторые другие команды HTTP-запроса. В ответ робот получает текстовый поток, содержащий служебную информацию и непосредственно сам документ.

URL страницы

дата, когда страница была скачана

http-заголовок ответа сервера

тело страницы (html-код)

Crawler («путешествующий» паук) – программа, которая автоматически проходит по всем ссылкам, найденным на странице. Выделяет все ссылки, присутствующие на странице. Его задача - определить, куда дальше должен идти паук, основываясь на ссылках или исходя из заранее заданного списка адресов. Crawler, следуя по найденным ссылкам, осуществляет поиск новых документов, еще неизвестных поисковой системе.

Indexer (робот- индексатор) - программа, которая анализирует веб-страницы, скаченные пауками. Индексатор разбирает страницу на составные части и анализирует их, применяя собственные лексические и морфологические алгоритмы. Анализу подвергаются различные элементы страницы, такие как текст, заголовки, ссылки структурные и стилевые особенности, специальные служебные html-теги и т.д.

Таким образом, модуль индексирования позволяет обходить по ссылкам заданное множество ресурсов, скачивать встречающиеся страницы, извлекать ссылки на новые страницы из получаемых документов и производить полный анализ этих документов.

База данных

База данных, или индекс поисковой системы - это система хранения данных, информационный массив, в котором хранятся специальным образом преобразованные параметры всех скачанных и обработанных модулем индексирования документов.

Поисковый сервер

Поисковый сервер является важнейшим элементом всей системы, так как от алгоритмов, которые лежат в основе ее функционирования, напрямую зависит качество и скорость поиска.

Поисковый сервер работает следующим образом:

Полученный от пользователя запрос подвергается морфологическому анализу. Генерируется информационное окружение каждого документа, содержащегося в базе (которое и будет впоследствии отображено в виде сниппета, то есть соответствующей запросу текстовой информации на странице выдачи результатов поиска).

Полученные данные передаются в качестве входных параметров специальному модулю ранжирования. Происходит обработка данных по всем документам, в результате чего, для каждого документа рассчитывается собственный рейтинг, характеризующий релевантность запроса, введенного пользователем, и различных составляющих этого документа, хранящихся в индексе поисковой системы.

В зависимости от выбора пользователя этот рейтинг может быть скорректирован дополнительными условиями (например, так называемый «расширенный поиск»).

Далее генерируется сниппет, то есть, для каждого найденного документа из таблицы документов извлекаются заголовок, краткая аннотация, наиболее соответствующая запросу и ссылка на сам документ, причем найденные слова подсвечиваются.

Полученные результаты поиска передаются пользователю в виде SERP (Search Engine Result Page) – страницы выдачи поисковых результатов.

Как видно, все эти компоненты тесно связаны друг с другом и работают во взаимодействии, образовывая четкий, достаточно сложный механизм работы поисковой системы, требующий огромных затрат ресурсов.

Ни одна поисковая система не охватывает все ресурсы Интернет.

Каждая поисковая система собирает сведения о ресурсах Интернет, применяя свои уникальные методы, и формирует собственную периодически обновляемую базу данных. Доступ к этой базе предоставляется пользователю.

Поисковые системы реализуют два способа поиска ресурса:

Поиск по тематическим каталогам - информация представляется в виде иерархической структуры. На верхнем уровне - общие категории (“Интернет”, “Бизнес”, “Искусство”, “Образование” и т.д.), на следующем уровне категории делятся на разделы и т.д. Самый нижний уровень - ссылки на конкретные веб-страницы или другие информационные ресурсы.

Поиск по ключевым словам (индексный поиск или детальный) - пользователь отправляет поисковой системе запрос , состоящий из ключевых слов. Система возвращает пользователю перечень найденных по запросу ресурсов.

Большинство поисковых систем сочетают оба способа поиска.

Поисковые системы могут быть локальными, глобальными, региональными и специализированными.

В русской части Интернет (Рунет) наиболее популярны сейчас поисковые системы общего назначения Rambler (www.rambler.ru), Яндекс (www.yandex.ru), Апорт (www.aport.ru), Гугл (www.google.ru).

Большинство поисковых систем реализовано в виде порталов.

Портал (от англ. portal - главный вход, ворота) -это веб-сайт, который интегрирует различные сервисы Интернет: средства поиска, почту, новости, словари и т.д.

Порталы могут быть специализированными (как, www . museum . ru ) и общими (например, www . km . ru ).

Поиск по ключевым словам

Набор ключевых слов, по которым ведется поиск, называют также критерием поиска или темой поиска.

Запрос может состоять как из одного слова, так и из сочетания слов, объединенных операторами - символами, по которым система определяет, какое действие ей нужно произвести. Например: запрос “Москва Питер” содержит оператор И (так воспринимается пробел), который указывает, что надо искать документы, в которых есть оба слова - и Москва, и Питер.

Для того, чтобы поиск был релевантным (от англ. relevant -уместный, относящийся к делу), следует учитывать несколько общих правил:

Независимо от того, в какой форме употреблено слово в запросе, поиск учитывает все его словоформы по правилам русского языка. Например, по запросу “билет” будут найдены и слова “билетом”, “билету” и т.д.

Заглавные буквы следует использовать только в именах собственных, чтобы не просматривать лишние ссылки. По запросу “кузнецов”, например, будут найдены документы, где говорится и о кузнецах, и о Кузнецовых.

Желательно сужать круг поиска, используя несколько ключевых слов.

Если нужного адреса нет среди первой двадцатки найденных адресов, следует изменить запрос.

Каждая поисковая система использует свой язык запросов. Для знакомства с ним, пользуйтесь встроенной справкой поисковой системы

Крупные сайты могут иметь встроенные системы поиска информации в пределах своих веб-страниц.

Запросы в подобных системах поиска, как правило, строятся по тем же правилам, что и в глобальных поисковых системах, однако знакомство со справкой и здесь не будет лишним.

Расширенный поиск

Поисковые системы могут предоставлять в распоряжение пользователя механизм, позволяющий формировать сложный запрос. Переход по ссылке Расширенный поиск дает возможность редактировать параметры поиска, указывать дополнительные параметры и выбирать наиболее удобную форму показа результатов поиска. Ниже описаны параметры, которые могут быть заданы при расширенном поиске в системах Япс1ех и Rambler.

Описание параметра	Название в Яндекс	Название в Rambler
Где искать ключевые слова (заголовок документа, основной текст и т.д.)	Словарный фильтр	Поиск по тексту...
Какие слова должны или не должны присутствовать в документе и насколько точным должно быть совпадение	Словарный фильтр	Искать слова запроса... Исключить документы, содержащие следующие слова...
На каком расстоянии друг от друга должны располагаться ключевые слова	Словарный фильтр	Расстояние между словами запроса...
Ограничение на дату документа		Дата документа...
Ограничение поиска пределами одного или нескольких сайтов	Сайт/Вершина	Искать документы только на следующих сайтах...

Ограничение поиска по языку документа		Язык документа...
Поиск документов, содержащих картинку с определенным именем или подписью	Изображение
Поиск страниц, содержащих объекты	Специальные объекты
Форма представления результатов поиска	Формат выдачи	Вывод результатов поиска

Некоторые поисковые системы (например, Яндекс) позволяют вводить запросы на естественном языке. Вы пишите, что нужно найти (например: заказ билетов на поезд из Москвы в Питер). Система анализирует запрос и выдает результат. Если он Вас не устраивает, переходите на язык запросов.