КАТЕГОРИИ:
АстрономияБиологияГеографияДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРиторикаСоциологияСпортСтроительствоТехнологияФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника
|
ЗАСОБИ ПОШУКУ ПОТРІБНОЇ ІНФОРМАЦІЇ В КОМП’ЮТЕРНИХ МЕРЕЖАХ.⇐ ПредыдущаяСтр 13 из 13
Основним “продуктом”,який можна знайти в Internet,є інформація. Ця інформація зберігається на так званих WEB-серверах. Ключем для одержання інформації в Internet є адреси ресурсів. До них відносяться поштові адреси (mail address), що використовуються для пересилання повідомлень по електронній пошті, і адреси WEB-серверів – для з’єднання з ними й одержання інформації. Мережа Internet забезпечує передачу інформації між комп’ютерами, що входять до неї, незалежно від їх типу і операційної системи. Для того, щоб усі комп’ютери мережі “розуміли один одного”, вони мають використовувати єдиний набір правил, що визначає спосіб передачі інформації від одного комп’ютера до іншого. Такий набір правил називається протоколом. Internet є сукупнiстю мереж, що пiдтримують обмiн iнформацiєю на основi протоколу TCP/IP – основному транспортному протоколу передавання даних в Інтернеті. По суті це не один протокол, а два протоколи різних рівнів (стек протоколів). Протокол ТCP (Transmission Control Protocol - протокол управління передачею) - протокол транспортного рівня, або протокол керування передаванням даних, що подiляє дані на порції - пакети невеликого розміру, кожному з яких надає номер для правильного відновлення інформації під час одержання. Пакети, якими оперує Internet, ще називаються датаграмами. Далі інша складова (протокол ІР - скорочення від англ Internet Protocol – міжмережевий протокол) додає до кожного пакета службову інформацію з адресами відправників і одержувачів, забезпечуючи доставку всіх пакетів одержувачеві. Протокол IP належить мережевому рівню. Він визначає куди здійснюється передача. Сутність протоколу у тому, що кожному комп'ютеру, що входить у Internet, привласнена унiкальна адреса - двiйкове 32-бiтне число. Звичайно ця адреса записується у виглядi послiдовностi з чотирьох десяткових чисел (вiд 0 до 255), роздiлених крапкою, i називається IP-адресою (IP - це Internet Protocol). Окремі пакети можуть подорожувати різними шляхами Інтернету та дістатися до одержувача у будь-якому порядку. По надходженні всіх пакетів протокол ТСР розміщує їх один за одним і забезпечує складання повідомлення. Якщо деякі пакети загубилися – протокол ТСР вирішує і цю проблему. Маршрути руху пакетів мережею розраховує спеціальна програма – маршрутизатор. Протокол ТСР/ІР застосовується не лише в Інтернеті, а й, наприклад, для зв’язку локальних мереж на одному великому підприємстві, в якому можуть бути відсутні зв’язки із зовнішніми мережами. ТСР/ІР іноді застосовується для зв’язку двох віддалених один від одного комп’ютерів. Протоколи ТСР і ІР “працюють у парі”: протокол ТСР відповідає за розбивку повідомлення на пакети і його правильне відновлення; протокол ІР визначає адресу комп’ютера і контролює переміщення пакетів в Internet, обираючи маршрут пересилання даних від одного комп’ютера до іншого. Кожний комп’ютер, підключений до Internet, має свою адресу. В Internet використовуються два типи адрес: цифрові (або ІР-адреси) і доменні(від англ. domain – область, сфера). Усі комп’ютери, підключені до Інтернету, знаходять один одного в автоматичному режимі за адресою[11] комп’ютера, яка називається ІР-адресою. ІР-адреса – запис, який точно визначає місцезнаходження комп’ютера в Інтернеті і є послідовним записом чотирьох чисел у діапазоні від 0 до 255, відділених крапками, наприклад, 220.17.67.35. Ліва частина IP-адреси визначає конкретну мережу в Internet і називається ідентифікатором мережі. Права частина IP-адреси визначає конкретний комп’ютер у цій мережі і називається ідентифікатором комп’ютера. Для передачі повідомлень на конкретні комп’ютери в Internet протокол TCP/IP і програми-клієнти використовують IP-адреси. ІР-адреси зручні для ідентифікації комп’ютерів в Інтернеті, але неприйнятні для роботи користувачів (не наочні, погано запам’ятовуються, велика ймовірність помилки при введенні). Тому замість числових ІР-адрес застосовується літерна система доменних імен DNS (Domain Name Server – доменне ім’я серверу). Тобто користувачі у більшості працюють із доменними адресами – унікальними іменами комп’ютерів в Internet. Доменна адреса, так само як і IP-адреса, складається з частин, розділених крапками. Але на відміну від IP-адреси, що уточнює місце призначення зліва направо, доменна адреса робить це у зворотньому порядку – справа наліво: спочатку вказується ім’я комп’ютера, а потім – ім’я мережі, в якій він знаходиться. Весь простір адрес в Internet розділений на області – домени. Доменна адреса комп’ютера складається з кількох рівнів (доменів), які розташовуються зліва направо від імені комп’ютера і включає в себе, як мінімум, два рівні доменів:
Домен першого рівня визначає країну або тип організації, до якої належить комп’ютер: .com – комерційні підприємства; .edu – навчальні заклади; .gov – державні установи; .mil – військові заклади; .net – провайдери; .org – некомерційні організації; .firm – комерційні організації; .web – організації, що пропонують Web-інформацію; .rec – розваги та відпочинок; .info – доступ до інформаційних ресурсів; .nom – індивідуальні вузли; .ua – Україна; .ru – Росія. Домен другого рівня визначає організацію, яка володіє або керує мережею, що містить даний комп’ютер. У більшості випадків ім’я цього домену збігається з назвою відповідної фірми або її торговою маркою. Ім’я комп’ютера вказує конкретний комп’ютер у мережі, визначеної доменами першого і другого (а, можливо, і наступних) рівнів. Воно реєструється лише в цій мережі і тільки ця мережа “відповідальна” за передачу інформації конкретному комп’ютеру-адресату. Наприклад: www.naiau.kiev.ua. У цьому прикладі назви доменів означають: 1) www – комп’ютер з іменем www в Національній академії внутрішніх справ України (www – це типове ім’я комп’ютера, яке використовують, якщо є тільки один комп’ютер); 2) naiau – Національна академія внутрішніх справ України (в місті Києві); 3) kiev – місто Київ (в Україні); 4) ua – Україна. Для того, щоб мережевий комп’ютер “зрозумів”, куди слід передати повідомлення, доменна адреса має бути перетворена на IP-адресу. Отже, десь в Internet повинні зберігатися таблиці відповідності доменних і IP-адрес. Звісно, що “звичайний” комп’ютер користувача мережі не може і не повинен знати всі IP-адреси в Internet. Такі таблиці зберігаються на спеціальних серверах, які називаються DNS-серверами (скорочення від англ. Domain Name System — система доменних імен). DNS-сервери розкидані по всьому Internet. Кожний з них зберігає інформацію про велику кількість комп’ютерів в Internet і здатний миттєво перетворити доменне ім’я на IP-адресу. Якщо IP-адреса запитаного комп’ютера не відома даному DNS-серверу, він звернеться до найближчого DNS-серверу і далі за ланцюжком, доки потрібна адреса не буде знайдена. Весь процес забиратиме лише кілька секунд. Під час налагоджування комп’ютера для роботи в Internet користувач повинен вказати адресу одного із DNS-серверів (таку адресу можна отримати у провайдера послуг Internet або в адміністратора локальної мережі). Таким чином, усіWEB-сервера ідентифікуються відповідно унікальномудоменному імені(domain name), якескладається з декількох частин: 1) конкретного WEB-серверу; 2)назви організації, якій він належить; 3) ієрархії доменів(тобто об’єднань комп’ютерів і мереж). Служба WWW використовує протокол HTTP (або малими буквами – http, скорочення від англ. – Hyper Text Transfer Protocol – протокол передавання гіпертексту), тому адрес Web-сторінки починається з http, далі записують знаки “://”, які відокремлюють назву протоколу від доменної адреси сервера. Після доменної адреси записують розділовий знак “/”, після якого записують шлях до файлу або тільки ім’я файлу. Наприклад, http://www.naiau.kiev.ua – це адреса початкової сторінки web-сайту Національної академії внутрішніх справ України. Для доступу до файлових ресурсів застосовується протокол FTP тощо. На відміну від НТТР, який призначений для передавання HTML-файлів, FTP застосовується для обміну довільними файлами, часто великого розміру. FTP-сервери[12] належать великим організаціям та відомствам. Обсяг інформації, яка надається FTP-вузлами, дуже великий, тому їх ще називають FTP-архівами. Для отримання доступу до FTP-архівів на комп’ютері користувача встановлюється програма FTP-клієнт (наприклад, CuteFTP, FAR або найпростіші FTP-кліенти – браузери Internet Explorer і Netscape Navigator). Під час підключення до FTP-серверу користувач реєструється: вказує своє ім’я (login) і пароль(password). Взаємодія клієнта з Web-сервером відбувається за протоколом НТТР , що визначає мову, якою програма клієнта “розмовляє” з сервером, а також формат відповідей сервера клієнтові. Приклад роботи протоколу НТТР користувач бачить щоразу, клацаючи мишею по будь-якому посиланню – пошук і завантаження потрібного документу відбуваються за допомогою протоколу НТТР. Не слід плутати НТТР з транспортним базовим протоколом ТСР/ІР. Протокол НТТР – це найпростіший протокол рівня додатків, який, на відміну від ТСР/ІР, не пов’язаний з технологією пересилання пакетів даних. Для того, щоб знайти необхідну Web-сторінку у гіперпросторі, необхідно, по-перше, щоб вона мала унікальну адресу. В її якості виступають URI (Uniform Resourse Indentifier, iдентифiкатор ресурсу), URL (Uniform Resource Locator, локатор (покажчик) ресурсу), URN (Uniform Resource Name, iм'я ресурсу) - це рiзнi iмена того самого сервiсу, що призначений для iдентифiкацiї типiв, методiв роботи i комп'ютерiв, на яких знаходяться визначенi ресурси, доступнi через Internet. URI ресурсу може мiстити не тiльки iм'я ресурсу, але i параметри, необхiднi для його роботи. Iм'я ресурсу вiддiлено вiд рядка параметрiв символом "i ". Рядок параметрiв складається з лексем, що роздiляються символом "&". Кожна така лексема складається з iменi параметра i його значення, роздiлених символом "=". Символи, що не входять у набiр символiв ASCII, замiнюються знаком "%" i шiстнадцятковим значенням цього символу. Наприклад, символ прогалини " " замiнюється на "%20". Ми можемо бачити URI або у рядку стану вікна броузера, коли виконується пошук ресурсу, або у адресному рядку, наприклад, при переміщенні, за гіперпосиланнями. Частіше використовують адресу у вигляді URL. URL – це скорочення від Uniform Resource Locator (уніфікований чи універсальний локатор ресурсу) – це певна система імен для ідентифікації ресурсів (файлів) у Інтернеті. Будь-яка інформація, розміщена в ньому, має свій URL. У запису URL зазначаються такі дані (зліва направо): 1. Протокол доступу до ресурсу (НТТР, FTP, GOPHER тощо). Для служби WWW - http:// 2. Доменне ім’я комп’ютера (сервера), на якому зберігається ресурс. Наприклад, http://www.naiau.kiev.ua. 3. Адреса порту, використовуваного для зв’язку 4. Специфікація ресурсу на жорсткому диску серверу (шлях до файлу, його ім.’я та мітка), тобто зазначення повного шляху доступу до файла на даному комп’ютері (повного імені файла): http://www.naiau.kiev.ua/Files/New/abcdef.zip. Для запису URL важливо точно дотримуватись регістра символів. Для доступу користувачів до мережі Internet необхідно: - фізично приєднати комп’ютер до одного з вузлів мережі Internet; - одержати IP-адресу на постійній або тимчасовій основі; - встановити та налагодити програмне забезпечення - програми-клієнти тих служб, послугами яких має намір користатися користувач. Організації, які надають можливість підключення до свого вузла та надають IP-адреси називають провайдерами. Відомо, що близько 90% усієї потрібної інформації, що передається через Internet, була виявлена споживачами з використанням пошукових систем, інші 10% даних знайшли свого адресата завдяки радам знайомих, посиланням у журналах, банерній рекламі тощо. Інформаційно-пошукова система – це додаток БД (баз даних) який обирає інформацію на основі переданих йому ключових слів та висловів. Доосновних засобів пошуку,що існують в Internet належать: 1) пошукові сервери (машини, портали) Internet; 2) пошукові директорії; 3) метапошукові системи; 4) спеціалізовані списки посилань по визначеній тематиці; 5) пошукові агенти. Пошуковий сервер (машина) містить у собі базу даних і програму для їхньої обробки. БД найчастіше містить сторінки, прислані користувачами. Програма обробки даних, як правило, складається з двох частин: 1) аналізатора змісту Web-сторінки, що здійснює її “захоплення” і тому іменується спайдером (англ. spider – павук); 2) визначника рейтингу, що виконує сортування посилань, знайдених по визначеному ключовому слову. У результаті трансформації пошукових серверів в “інформаційні конгломерати” (сайт новин, біржові зведення, розважальну й іншу інформацію від відомих агентств, безкоштовне одержання адреси електронної пошти, місце для розміщення Web-сторінок і інше), на ринку Internet-послуг з’явилося те, що нині стало модно називатиWeb-порталами чи просто порталами, наприклад: http://www.yahoo.com http://www.altavista.com http://www.excite.com http://home.netscape.com http://www.lycos.com http://infoseek.go.com http://www.hotbot.com У директоріях чи каталогах інформація відбирається набагато жорсткіше, ніж у пошукових серверах, тому їхніх баз даних, звичайно, в багато разів менше, але імовірність знаходження потрібних відомостей з їхньою допомогою значно вище. Звичайно складанням директорій займаються не програми, а люди, тому, крім посилання на потрібний ресурс, швидше за все можна одержати короткий опис його змісту. Багато директорій також містять у собі внутрішні пошукові машини, наприклад: Weblist.gu.net Метапошукові системи не містять власної бази даних і при пошуку по визначеному ключовому слову роблять опитування декількох зовнішніх пошукових машин, аналізують отримані результати, за ними видають користувачу список посилань, порядок яких визначається співвідношенням рейтингів сайту в декількох машинах. Розходження в середовищі метапошукових машин менш помітні, ніж серед “класичних” пошукових систем. Практично усі вони забезпечать пошук у 10-15 могутніх системах, а результати звичайно не дуже відрізняються один від одного, наприклад: http://www.allru.ru http://www.savvysearch.com http://www.metacrawler.com http://www.isleuth.com(Internet Sleuth) http://www.metasearch.com http://www.mamma.com http://www.oneseek.com http://www.google.com Ще одним популярним засобом пошуку потрібної інформації є спеціалізовані спискипосилань на приватних Web-сторінках, наприклад, під заголовками “Улюблені посилання”. Однак про їхнє місцезнаходження в Internet і змісті відомо лише вузькому колу користувачів, більш того, деякі з них можуть включати застарілі відомості. Варто також пам’ятати, що дані добірки складаються у більшості випадків однією людиною, а тому носять суб’єктивний характер. Пошукові агенти – це спеціальні самостійні програми, що передають запит відразу декільком пошуковим сайтам і самостійно обробляють отримані результати, видаючи тільки перевірені посилання. Їхня кількість звичайно виявляється на кілька порядків менше, ніж у простих пошукових механізмів. Слухачам корисно знати, що така програма, як Search+,працює з 130 пошуковими службами, об’єднаними в 50 категорій. За її допомогою можна шукати програмне забезпечення, різні мультимедійні файли, звичайні HTML-сторінки і багато чого іншого. Search+ знає усі відносно великі російські “пошуковики” і трохи українські. Основні можливості програми досить типові: 1.) одночасна робота з декількома серверами; 2.) перевірка некоректних посилань; 3.) об’єднання дублікатів. Кількість ресурсів в Internet останнім часом росте досить інтенсивно, нові сервери з’являються практично щодня. Сьогодні можна зустріти і щоденні електронні видання новин, і аналітичні матеріали, і музичні сервери, і безліч персональних Web-сторінок. “Класичних” пошукових систем, побудованих за схемою “індексатор-база даних-рейтинг” порівняно небагато. Трохи інші аспекти справ з тематичними каталогами, число яких безупинно зростає завдяки ентузіазму найбільш активних користувачів мережі Internet: http://www.rambler.ru http://www.aport.ru http://www.yandex.ru http://www.au.ru http://www.list.ru http://www.hi.ru http://www.weblist.ru http://www.yahoo.ru http://www.diamondteam.ru/catalog/ “Весь Росіянин Інтернет” http://www.susanin.net “Іван Сусанін” http://www.ulitka.ru “Равлик” – цей проект також являє собою колекцію тематичних посилань, число яких сьогодні біля 9 тисяч. Найбільш розповсюдженими українськими пошуковими системами є такі: Ping ( http://www.topping.com.ua ) Sesna ( http://www.uazone.net/sesna/ ) Ua.hoo ( http://uahoo.gu.net/ ) "Мета" ( http://meta-ukraine.com/ ) "Український портал" ( http://www.uaportal.com/ ) Існують також спеціалізовані пошукові системи. Досить часто користувач знає, що конкретно йому потрібно знайти. Чи є сенс при цьому звертатися до великих “пошуковиків”? Незважаючи на те, що в результаті ми одержуємо безліч різноманітних посилань, потрібну серед них відшукати буде непросто. Спеціалізовані ж пошукові системи індексують лише сайти, які містять інформацію із якоїсь визначеної теми. Цiлеспрямований пошук ( навігація ) у величезнiй кiлькостi документiв неможливий без спецiалiзованих пошукових систем, що можна роздiлити на двi групи: категоричнi та iндексацiйнi. Основу категоричних пошукових систем складають вiртуальнi бiблiотеки, тобто Web-сторiнки, присвяченi якiйсь тематицi, iз стислим описом джерел iнформацiї, та гiперпосилань на них. YAHOO - http://www.yahoo.com дотепер неперевершена категорична пошукова система, тому що час iснування подiбної структури - головний критерiй її популярностi, у тому числi й за охопленням джерел. Iнший тип пошукової системи - iндексацiйнa. Перший дiйсно ефективний iз подiбних комплексiв AltaVista - http://www.altavista.com, створений компанiєю DEC, допускає аналiз усiх текстових документiв iз WWW i news group, а також можливiсть пошуку в них за ключовими словами, тобто за будь-якими словами i виразами, що зустрiчаються. На жаль, AltaVista, надаючи бiльш широке коло можливостей, не має зручного iнтерфейсу i пропонує користувачу малозрозумiлi вирази мовою алгебри. З цих причин створені комбінації категоричних та iндексацiйних систем. Це, наприклад, такi системи як: Яndex - www.yandex.ru Rambler -www.rambler.ru Апорт - www.aport.ru Openweb -www.openweb.ru
[1] Термінал забезпечує віддалений доступ до ресурсів ЕОМ та є робочим місцем користувача, обладнаним простими пристроями введення-виведення інформації. [2] Телекомунікація - процес передавання та приймання інформації на відстані по загальних або спеціальних каналах зв’язку (акустичний, кабельний, радіо). [3] Мережна технологія – це набір стандартних протоколів, апаратних і програмних засобів, на основі яких можна створити комп’ютерну мережу. [4] Протокол – це сукупність правил, у відповідності з якими виконується передача інформації через мережу. [5] Гіпертекст – це спосіб організації тексту, графіки й інших даних, у якому елементи пов’язані між собою. Пов’язані можуть бути як елементи одного документа, так і різних документів. Гіпертекстова структура є основою World Wide Web [6] Зв’язки (links) в гіпертекстовій структурі здійснюються за допомогою посилань.Керуючись ними, користувач може з одного документа викликати інший, з нього - наступний і т.д. [7] WEB – це графічна, мультимедійна частина Internet. WEB складається з WEB-сторінок. Для їх перегляду необхідно установити WEB-оглядач. [8] WEB-сторінка –це місце розташування в Internet, звичайно є частиною WEB-сайту (WEB-вузла). Іноді термін “WEB-сторінка” використовується для позначення будь-якого документу HTML. [9] Web-сервер – комп’ютер, підключений до Internet, який зберігає Web-сторінки (гіпертекстові документи у WWW розміщаються на Web-серверах і подаються у вигляді WEB-сторінок (інакше кажучи WEB-документів)) й інші файли і “що віддає” їх по запитах користувачів. Кожен Web-сервер має IP-адресу. В принципі, будь-який комп’ютер можна зробити Web-сервером, якщо встановити на нього відповідне серверне програмне забезпечення і підключити до мережі. Існують як комерційні, так і безкоштовні й умовно-безкоштовні серверні пакети. [10] Слово “броузер” походить від англійського browse – “читати безладно”. [11] Адреса – це місцезнаходження файлу або комп’ютера. [12] Вузол FTP (FTP-сервер) – це комп’ютер в Інтернеті, який містить каталоги з файлами (програмами, текстами, графікою тощо) і забезпечує доступ користувачам до цих каталогів за протоколом FTP.
|