textualheritage.org

А.В.Коваленин

Мечта об Уникоде в нашем деле - следствие некоторой путаницы.

Есть три разных проблемы:
1. Инвентаризация необходимых сущностей.
2. Способы их фиксации в электронном виде.
3. Способы отображения, в частности - приближенного к оригиналу.

Первая проблема - составление перечня различаемых знаков, способов их комбинирования, способов выделения текста, способов выражения связей между частями текста, и всё такое прочее. Здесь надо определяться в принципах - что мы хотим различать: внешнюю форму или какую-то сущность. В обоих вариантах есть свои серьезные вопросы (сущности, к тому же, многоплановы). В обоих случаях впереди стоит вопрос нулевой: а для чего мы это хотим, ибо надо определиться с критерием разумной достаточности тонкости различения, ибо всё зафиксировать можно только в формате TIFF.
Ответы на этот вопрос кажутся простыми, но только на первый взгляд -их надо формулировать строго, и это надо делать сообща. Может быть, в лингвистике есть какой-то типичный перечень задач, относительно которыго можно было бы судить в этом вопросе?

Вторая проблема - способ фиксации текста. 1. Самый примитивный - дать всем отобранным сущностям номера, например (в простом случае) придумать шрифтовую кодировку. 2. Мнемонично/наглядный вариант - типа HIP. 3. Взять набор базовых символов, а их модификации отображать цветом (шучу). 4. Слово - это продукт сложного действия над некой БД...

Третья проблема - отображение, если это нужно и смотря что и для чего нужо отобразить. Часто это не нужно - наглядная распечатка непреобразованного текста - лишь одна задача, причем отнюдь не самая нужная, когда есть TIFF. Задачи поиска, сравнения, получения выборок, указателей, разного рода анализ - все решаются алгоритмически над любой формой фиксации; сама по себе кодировка (даже Уникод) ещё ничего не решает. Решением третьей задачи является создание и использование шрифтов и шрифтовых технологий; создание конверторов из формы хранения.

Вот когда эти три задачи не различаются (потому что мы привыкли, набирая по-русски, одним нажатием клавиши фиксировать и отображать известную сущность), тогда, по-моему, чаще всего и возникает мечта о некотором Уникоде, который наведёт порядок, если мы только поднатужимся и всё продумаем. Но Уникод уже запутался в своих принципах (это мне показалось из обсуждения в ССТ) - именно потому, что три задачи были плохо разделены и продуманы. Действовали по аналогии - а в разных языках обнаруживались прецеденты из взаимоисключающих подходов.

Мне кажется, нам здесь надо заниматься только первой проблемой, и второй проблемой пока только для внутренней задачи организации обсуждения первой. Это вот и есть проблема для филологов и палеографов. Она абсолютно никак не связана с компьютерами и шрифтами. Есть например, перечень знаков у Карского - вот пример решения, которое можно взять за отправную точку для разговора после ответа на фундаментальные "зачем?".

Я бы сказал резче: именно "древники" да "рукописники" и должны заниматься первой проблемой, а не "компьютерщики": 1) их кругозор шире, и поэтому, теоретически, у них больше шансов найти общее решение, 2) только они могут и обязаны выразить свои нужды. Напомню: Владислав Дорош взялся было, да снял с себя хлопоты по разработке кодировки для древников именно потому, что не нашел тех, кто ему бы внятно ответил, что нужно. Вот эту работу мы и должны проделать.

Самое трудное в обсуждении первой задачи, на мой взгляд - не скатиться ко второй и третьей. Потому что у нас в подкорке сидит модель wysiwig - что можно просто "набирать шрифтом". В результате обсуждение такого рода сваливается в нюансы возможностей сегодняшних шрифтовых технологий или психологии членов комитета Уникода.

А к унификации можно стремиться и на уровне второй задачи (фиксации), и то, может быть, не абсолютной (...). Тогда множество интересных шрифтов, которые сделаны и ещё будут сделаны, ещё найдут своё применение.

Пример. Мы захотели (а что?) работать с заголовочной вязью.
(2) Представление a la HIP сделать, наверное, нетрудно.
(3a) Шрифты (хорошие, восьмибитовые Smile

какой-нибудь умелец сделает.
(3b) За программой-преобразователем дело не станет.
То есть проблему можно решить.
Но при чём тут Уникод?

Илья

Очень хочу согласиться с Вами, что нам нужен "поэтапный" подход, иначе можно наломать дров в Unicode.
А что касается способов фиксации сущностей в электронном виде, то по мере возрастания сложности способов фиксации, по-моему, увеличиваются проблемы, а не появляются новые возможности. Этим с моей точки зрения обусловлены мечты о Юникоде. Если проиндексировать лишнего, большого вреда не будет. Однако, как Вы заметили, по выполнении пункта 1 будет виднее: что имеет, а что не имеет смысл индексировать. Тогда помимо индексации нужно будет придумать разметку, теги которой будут понятны специализированным системам. В качестве самого примитивного примера: почерки абсурдно передавать при помощи кодировки, на это существуют шрифты, тогда шрифт указывается в теге. Аналогично поступаем с разновидностями символов, для которых Unicode откажется выделять отдельные знакоместа. Получается условно-фиксированный способ отображения.
Таким образом, 2-й пункт ("Способы фиксации в электронном виде") будет представлять собой комбинацию двух методов: что-то индексируем, а что-то фиксируем другим образом. При этом максимально, что возможно, нужно выжать из Unicode. Если он запутался в своих принципах, будем распутывать Smile

.

Victor Baranov

Соглашаюсь с тем, что решение первой задачи зависит от активности в первую очередь палеографов и лингвистов. Задача, по-моему, формулируется так: выявления максимально полного перечня значимых (фонетическое, фонологическое, графическое, орфографическое значение) графем. Сложным является сам 1) сбор/поиск редких графем и 2) разделение значимых и незначимых(?) вариантов. (Критерий разделения необходимо также вырабатывать совместно).
Понятно, что первая задача должна решаться не просто на основе выявления и перечисления вариантов начертания, но на основе знания/анализа фонологической и графико-орфографической систем корпуса древних славянских рукописных текстов.
(Например, с самого начала в ИАС "Манускрипт" был выделен третий диапазон букв - надстрочные буквы, так как понятно, что использование выносных есть орфографический прием, который требует решения на уровне кодировки. Ср. существование поддиапазона заглавных символов.)
Вторая задача - способы объединения составных символов (букв с диакритикой, написаний под титлом, лигатур) - также должна обсуждаться, так как желательны договоренности уже на уровне перечня символов.
Именно эти задачи вновь поставили сербские коллеги.
Конечной целью является обеспечение миграции документов между технологическими платформами, применяемыми разными группами для хранения, обработки, публикации и исследования документов.