КАТЕГОРИИ:
АстрономияБиологияГеографияДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРиторикаСоциологияСпортСтроительствоТехнологияФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника
|
Концепція структурованого документа та SGMLТекст - достатньо значуще явище нашої культури. Деколи він розглядається як витвір мистецтва, для якого, як відомо, важливий не тільки зміст, але і оформлення. Для прикраси своїх текстів автори використовують різні шрифти і інші візуальні ефекти. Документи, які виникають і які застосовуються в економічній діяльності також характеризуються структурованістю, характерним стандартизованим оформленням. Способи оформлення тексту давно відомі, але як їх перенести на електронні документи? Мова розмітки, яку використовують для опису зовнішнього вигляду документа, ще не встоялась. Зараз має ходіння безліч всіляких форматів електронних документів, які не завжди можна перетворити один в інший, а необхідність у такому перетворенні виникає досить часто. Активне використання в економічній діяльності мереж і мережних технологій, глобалізація економіки потребує стандартизації методів подання електронних документів. Електронний документ має три іпостасі, три різновиди – 1) документ, підготовлений до друку, 2)набраний в текстовому редакторі і 3)поширюваний по мережі. Хоча багато текстових редакторів і мають широкі можливості по форматуванню і розмітці документа, але до спеціалізованих програм верстки їм ще далеко. Мові ж опису документів, яка використовується для публікацій в Web, властиві більш обмежені функції по форматуванню документів. Зараз для кожного з перерахованих різновидів електронного документу існує свій найпоширеніший формат. Для друкарських документів це PostScript - алгоритмічна мова промальовування сторінки, що інтерпретується. Ця мова розроблена компанією Adobe, він має реалізації практично на всіх платформах і сучасних принтерах. Він найточніше описує друкарську сторінку, проте PostScript-файли мають дуже великий розмір. Особливо це стосується російськомовних текстів, оскільки вони, як правило, містять опис російських шрифтів. Розвиток всесвітньої мережі INTERNET, а точніше інформаційний бум, який не спадає впродовж останніх років, нерозривно пов’язаний з World Wide Web (WWW) – першою інформаційною гіпертекстовою службою планетарного масштабу. Кількість і доступність інформації помножені на зручність гіпертекстової організації цієї величезної бази даних зробили так, що велика кількість людей вже не уявляють своє повсякдення без INTERNET. Гіпертекст як технологія, з його інтуїтивно зрозумілими, наближеним до людського способу мислення інтерфейсом, став одним з найефективніших способів представлення інформації. Ідеологія гіпертекстового представлення інформації дедалі поширюється на спосіб організації інтерфейсу будь-якого сучасного програмного продукту, від іграшки до системи банківського обліку. Гіпертекст - сучасна інформаційна, комп'ютерно-підтримувана технологія організації текстових, графічних, відео- та звукових матеріалів, а також їх споживання, що відзначається двома особливостями: 1. в ній поєднуються нелінійний, асоціативно - фрагментарний та сітковий принципи репрезентації інформаційного середовища; 2. формування та вилучення потрібної інформації здійснюється шляхом вільної навігації за нелінійними зв'язками, зафіксованими в гіпертекстовому середовищі. Гіпертекст : 1. створює можливості, як засобу представлення інформації, комбінувати структуру вихідного документа, забезпечувати їх гнучкість, автоматизувати перегляд групи документів і вивчати механізм утворення асоціативних зв'язків; 2. дозволяє здійснювати навігацію у великих базах даних, незалежно від їхнього обсягу, забезпечуючи доступ до необхідної інформації, пропонувати пошукову стратегію, побудовану з врахуванням інтересів конкретного користувача; 3. надає можливості застосовувати будь-які типи дискретних носіїв для забезпечення багатосередовищності (тексту, звуку, відео, графіки). Для публікацій в Web використовується гіпертекстова мова розмітки HTML, яка описує не тільки зовнішній вигляд документів, але і зв'язки між ними і програмним забезпеченням. Разом з HTML з'явився і гіпертекстовий транспортний протокол - HTTP, який дозволяє передавати HTML-документи у мережі Інтернет , запускати на сервері програми і підтримувати діалог з користувачем. Завдяки гіпертекстовій технології стало можливим створювати дійсно розподілені системи з універсальним, призначеним для користувача інтерфейсом. Крім того, за розміром HTML-документ виходив не дуже великим, що важливе для мережі Інтернет. Проте з розвитком Web виявилися серйозні обмеження HTML в області представлення документів і діалогів з користувачем. Оскільки перераховані мови орієнтовані на різні форми представлення, їх практично неможливо "зібрати" в єдину і універсальну мову. При цьому часто виникає задача підготовки однакових документів для різних форм, а перетворити текст з одного формату в інший не завжди можливо. Хоча документ, підготовлений в текстовому редакторі типу Word, можна перетворити в будь-який з перерахованих форматів, проте такі формати, як правило, важко перенести у інший текстовий редактор або платформу. Тому використовувати його як універсальний засіб підготовки документів у великій організації неможливо. Таким чином, пред'являються наступні вимоги до корпоративного засобу підготовки документів: · переносимість на різні платформи; · перетворення в три найпопулярніші формати документів - PostScript, Word і HTML; · мінімальна ціна ПО. Всім цим вимогам задовольняє узагальнена мова розмітки SGML (Standard Generalized Markup Language). Документи, підготовлені в цьому форматі, можна перетворити у всі перераховані формати, для нього є програмне забезпечення на найпоширеніших платформах, і навіть безкоштовне. Мова розмітки SGML (Standart Generalised Markup Language, ISO 8879) була прійнята комітетом ISO у 1986 році як міжнародний стандарт для візначення незалежніх від пристроїв вводу/виводу, обчислювального середовіща методів подання текстів в електронній формі. Поява стандарту SGML була обумовлена необхідністю сумісного використання даних різними додатками і операційними системами. Навіть в далеких 60-х роках у користувачів комп'ютерів виникало чимало проблем з сумісністю. Проаналізувавши недоліки багатьох нестандартних мов розмітки, троє учених з IBM - Чарльз Гольдфарб(Charles Goldfarb), Ед Мошер(Ed Mosher) і Рей Лорі (Ray Lorie) - сформулювали три загальні принципи, що забезпечують можливість спільної роботи з документами в різних операційних системах: · Використання єдиних принципів форматування у всіх програмах, що виконують обробку документів. · Спеціалізація мов форматування. Завдяки можливості побудови спеціалізованої мови на базі набору стандартних правил програміст перестає залежати від зовнішніх реалізацій і їх уявлень про потреби кінцевого користувача. · Чітке визначення формату документа. Правила, що визначають формат документа, задають кількість і маркіровку мовних конструкцій, що використовуються в документі. Вживання стандартного формату гарантує, що користувач точно знатиме структуру вмісту документа. Зверніть увагу: йдеться не про формат відображення документа, а про його структурний формат. Набір правил, що описують цей формат, називається «визначенням типу документа»(document type definition, DTL надає користувачам механізм заміни одного рядка символів на іншу, що дозволяє визначати для різних платформ однакові спецсимволи. SGML - Міжнародний Стандарт Всесвітньої Організації Стандартів - ISO 8879-1986: Information processing--Text and office systems--Standard Generalized Markup Language (SGML). SGML - міжнародний стандарт для визначення системно-незалежного методу маркапа. Для представлення тексту в електронному виді. Незважаючи на всю складність і глобальність поставленої мети, SGML є вкрай простим по ідеї стандартом. Ця ідея може бути представлена так: Створити чітку і формальну систему, що визначає єдиний, головний метод для виконання дій; і, у той же час, залишити можливість для будь-яких інших методів. Перш ніж перейти до формального опису стандарту, буде представлений неформальний опис, що фактично є перекладом стандарту. Визначити неформально, чим насправді є SGML, досить важко. Це мова, що може бути використана, щоб побудувати інфраструктуру для обміну і довгострокового збереження інформації. Використовуючи аналогію, її можна визначити як "SGML і мистецтво збереження й обробки інформації - Розуміння значення Інформації". Таким чином, це спосіб життя після того, як ми зрозуміли, що інформацію, що ми створюємо, живе своїм власним життям і може вмерти, якщо ми не доглядаємо за нею і не годуємо її правильним образом. SGML дотепер розглядається як формат для представлення інформації для публікації тексту друкованих документів, або як засіб представлення тих же документів на CD-ROM і т.д. Публікація – була початкова ціль стандарту, однак незабаром стало ясним, що він має набагато великий потенціал (у зв'язку з чим навіть народилася нова розшифровка акронима SGML - Sounds Great, Maybe Later (Звучить чудово, може бути, пізніше)). SGML є метамовою. Це значить, що він призначений для опису мови, мови маркапа тексту. Історично, слово маркап (розмітка) використовувалося для опису спеціальних позначок, що призначалися машиністу для друкування конкретного фрагменту тексту. У міру того, як форматування і друк тексту стали автоматизовані, значення терміна маркап було розширено для позначення всіх типів спеціальних маркап-кодів, що вставляються в електронний текст для керування процесом чи форматування тексту, чи іншої обробки. Узагальнюючи цей зміст, ми визначаємо маркап, чи розмітку, як будь-який спосіб вказівки явного способу інтерпретації тексту. На тривіальному рівні, весь друкований текст розмічений у цьому змісті: пунктуація, використання заголовних букв, розташування літер на сторінці, навіть пробіли між словами можуть вважатися як деякий вид маркапа, призначення якого полягає в тому, щоб допомогти людині визначити де закінчується одне слово і починається інше, чи як інтерпретувати більш глобальні структури - такі, як заголовки, абзаци і т.д. Маркап тексту в принципі, також як і стенографія, - процес вказівки того, яким чином повинен інтерпретуватися зміст тексту. Під мовою маркапа розуміється сукупність угод про маркап, використаних для розмітки тексту. Мова маркапа повинна визначати: · синтаксис маркапа · який маркап є припустимим · який маркап необхідний · як маркап відрізняється від тексту · семантика маркапа · що маркап означає. SGML дозволяє визначити три перші, синтаксичні обмеження на маркап. Для визначення семантики використовується додатковий стандарт, наприклад HTML, TEI, CES чи іншої. Схема маркапа, що вводиться SGML (далі просто SGML) має три основних відмінності від "класичних" схем: · орієнтація на дескриптивний маркап, · об‘єктно-оріентована модель, · незалежність від конкретного фізичного представлення тексту. Орієнтація на дескриптивний маркап. SGML по визначенню припускає використання дескриптивної схеми маркапа. Дані, необхідні для якої-небудь конкретної обробки документа (наприклад форматування), чітко відокремлюються від дескриптивного маркапа, що міститься в документі. Звичайно вони зібрані за межами документа у виді відповідних алгоритмів і програм. Існують стандарти, що визначають їхній (DSSSL, HyTime). При використанні дескриптивного маркапа один і той же документ, як вже відзначалося, може оброблятися різними способами за допомогою різних програм, кожна з який приділяє увагу тим частинам документа, що є важливими для даного методу обробки. SGML, як стандарт, підтримує і робить реально реалізованим такий принцип роботи. Наприклад, програма аналізу змісту тексту може цілком ігнорувати виноски і примітки, що зустрічаються в тексті, у той час як форматуюча програма може витягати їх з тексту і збирати всі разом, щоб потім вивести наприкінці розділу. Різні методи обробки можуть застосовуватися для тих самих частин документа. Одна програма може робити вибірку з документа всіх особистих імен і назв місць і створювати по них базу даних, у той час як інша, для тих же елементів документа, виконує їхнє форматування таким чином, щоб вони виділялися з тексту. Об‘ектно-орієнтовна модель. SGML вводить поняття класу, чи типу, документа і спосіб його завдання й опису - Document Type Definition (DTD). Документи вважаються визначеного типу, як і будь-які інші об'єкти, які обробляються комп'ютером. Тип документа формально визначається його складовими частинами і структурою. Якщо тип документа відомий, спеціальна програма (парсер) може бути використана для перевірки того, що вміст документа відповідає його типу - всі його необхідні частини присутні і розташовані у потрібному порядку. Більш важливо, що різні документи того самого типу можуть оброблятися однаковим способом. Можуть бути написані програми, що використовують інформацію, задану у визначеному типу документа і здатні завдяки цьому робити більш значимі дії. Незалежність від низькорівневих представлення даних. Базовою метою, що ставилася при розробці SGML, була задача забезпечення перенесення документів між різними програмними й апаратними платформами без втрати інформації. Завдяки попереднім двом особливостям ця вимога досягається на абстрактному рівні. Розглянута тут можливість забезпечує цю вимогу на фізичному рівні, за допомогою визначення значення послідовностей байтів, з яких складається документ. SGML надає механізм загального призначення для заміни рядків, тобто простий машинно-незалежний спосіб для вказівки того, що конкретна послідовність символів у документі повинна бути замінена на іншу під час обробки документа. Одне з застосувань цієї можливості - забезпечення однаковості термінології й інших параметрів документів; інше, більш важливе - забезпечення можливості переносу тексту, що містить нестандартні і т.п. символи між різними платформами, що мають різні набори символів, можливості по їхньому відображенню і т.д. Це досягається за допомогою заміни нестандартних символів на рядки, що задають їхні коди. Послідовності символів, визначені для описаної вище заміни називаються entities ("поняття"). Елемент - термін, використовуваний у SGML для позначення якої-небудь структурної одиниці тексту. Різним типам елементів даються різні імена, але SGML не надає ніякого способу визначення змісту і значення конкретного типу елемента, крім завдання його відносин з іншими елементами. Таким чином, єдине, що можна сказати про елемент (наприклад) <blort> - це те, чи можуть екземпляри цього елемента зустрічатися усередині елементів типу <farble>, і те, чи може він сам бути декомпозован на елементи типу <blortette>. Варто підкреслити, що SGML ніяким чиним не визначає семантику елементів; по стандарті вона залежить від додатка.Створення SGML-сумісного набору тегів і завдання їхнього змісту саме і є тією задачею, що вирішують додаткові стандарти, такі як HTML і XML, XSL; саме вони задають конкретну схему маркапа й у частині синтаксису роблять це в термінах SGML. При визначенні елемента йому необхідно привласнити ім'я, що відбиває його призначення; таке ім'я називається generic identifier (GI). У тексті (document instance, екземплярі документа) кожен елемент повинний бути явно позначений деяким чином. Стандарт надає безліч можливостей зробити це, найбільше часто використовуваним є вставка тега на початку елемента (start-tag) і іншого наприкінці (end-tag). Старт- і енд- теги використовуються щоб узяти в дужки текст, що входить в елемент, точно так само, як різні дужки і лапки в звичайній пунктуації. Наприклад, цитата може бути позначена в такий спосіб: ... Rosalind's remarks <quote>This is the silliest stuff that ere I heard of!</quote> clearly indicate ... Як видно з цього приклада, старт-тег має форму <gi>, де кутові дужки задають початок і кінець самого старт-тега, а gi - ідентифікатор тега. Енд-тег відрізняється від старт-тега тільки тим, що перед ідентифікатором ставиться коса риса: </gi>. Можливість завдання правил, що визначають, які елементи можуть бути вкладені в інші елементи - одна з найважливіших характеристик SGML.
|