🏠  > Яролит - правильный транслит

Исходный текст


   

Транслитерированный текст


Яролитерация - обратимая транслитерация, пригодная для идентификаторов, E-mail, веб-страниц

Ни один из упомянутых в Википедии стандартов транслитерации кириллицы непригоден для кодирования имён пользователей, E-mail, идентификаторов в программах. Эти стандарты либо превращают некоторые буквы в знаки препинания, либо по преобразованному тексту нельзя восстановить исходный (например, «эй» нельзя отличить от «ей», а Пашу - от Пасхи). Лучший стандарт - это ГОСТ 16876-71, таблица 2, ныне упразднённый. Я добавил к нему кодировку мягкого и твёрдого знака в виде латиницы и получился «Яролит». Помимо кириллицы, он позволяет кодировать некириллические символы юникода. Буквы основной латиницы кодируются с применением переключающих последовательности «xe» и «xr», что означает «переключиться на английский» и «переключиться на русский». Символы за пределом русской кириллицы и основной латиницы представляются с помощью кода символа в кодировке Unicode, в виде xuNNNNx, где N - 16-ричные цифры в количестве не более 6. Легко доопределить «Яролит», чтобы он включил в себя Украинский, Белорусский, Монгольский, Сербско-хорватский и Македонский кириллические алфавиты.

Что надо/можно улучшить?

  • Исправить баг развёртывания: скрипты теряются
  • Доделать кодировку для нерусской кириллицы, входящей в ГОСТ
  • Добавить иные нерусские кирилловские буквы и дореформенные буквы, если они поместятся
  • Определить коды иных языков для переключения, например, xg можно использовать для переключения на греческий
  • Создать библиотеки для реализации яролита на разных языках программирования
  • Улучшить обработку ошибок, чтобы можно было продолжать чтение после ошибки, или не продолжать, по выбору программиста

При этом нужно учесть, что буква «w» никак не задействована в ГОСТ 16876-71, табл 2, и её тоже можно использовать «в мирных целях».

🏠  > Русификация  > Яролит - правильный транслит