Ремесло программиста

Объявление

форум на движке phpBB доступен для тестирования
www.strategia.space
www.strategia.space/forum/
по предложению Лиса - канал на Matrix - #remdev:matrix.org

Информация о пользователе

Привет, Гость! Войдите или зарегистрируйтесь.


Вы здесь » Ремесло программиста » Кодирование символов » РСКОД - Русский Стандард Кодирования для Обмена Данными


РСКОД - Русский Стандард Кодирования для Обмена Данными

Сообщений 1 страница 15 из 15

1

РСКОД - Русский Стандард Кодирования для Обмена Данными

какие уже есть варианты подобной кодировки?
что мы можем предложить в подобный стандарт?
есть ли у нас силы и возможности составить такой стандарт?

размер 2^8=256, где первые  2^7=128 начиональный наш алфовит

2

размер 2^8=256, где первые  2^7=128 начиональный наш алфовит

А почему именно так?
У нас по 33 заглавные и строчные буквы.

Юрий написал(а):

Первый символ русского алфавита - буква "А" имеет кодировку "0", маленькая "а" - кодировку "1", "Б" - "2", "б" - "3" и т.д.

Удобно, если буквы будут отличаться одним разрядом и сделать перевод безусловным, т.е. простым изменением этого разряда,
но тогда нужно задавать последовательность букв как единое целое и отличать от других знаков.
А вот насчёт удобства именно младшего разряда можно поспорить:
тогда буквы перечисляются уже через 2, а не 1 и приведение к 1-33 (или 0-32) потребует действий,
поэтому нужно рассмотреть в свете различных обработок.

РСКОД - Русский Стандард Кодирования для Обмена Данными

Данные всё-таки более общее понятие, чем строчный знакоряд.
Поэтому тут нужно определиться, о каких данных может идти речь.

И желательно либо выкинуть О, либо вставить У.

Отредактировано MihalNik (2016-12-28 16:15:39)

3

Яр написал(а):

какие уже есть варианты подобной кодировки?


ГОСТ 19768-93, Наборы 8-битных кодированных символов (введен взамен ГОСТ ГОСТ 19768-74)
http://vak.ru/pub/gost/gost-19768-93.pdf

Яр написал(а):

есть ли у нас силы и возможности составить такой стандарт?


Сила нужна, чтобы составить документ на 12 страниц (по аналогии с имеющимся), это на неделю работы школьнику.
Возможности для составления любезно предоставит программа LibreOffice Write (или OpenOffice Write - что там у вас установлено).

Сможем ли мы его принять как ГОСТ - рассматривается в отдельной теме - Что надо сделать, чтобы опубликовать синтаксис как ГОСТ?

MihalNik написал(а):

У нас по 33 заглавные и строчные буквы.


Ну или 32 - в белорусском языке (беларускай мове). Поскольку мы живём в одном союзном государстве, надо учитывать два алфавита.

Отредактировано ВежливыйЛис (2016-12-28 17:41:31)

4

Зачем сразу ГОСТ? Просто должно быть оно понятным, быстрым и надёжным.
Что в ГОСТах сейчас принимается - это давно разработано и массово распространено, не нужно навязываться народу через гос. предприятия.

Ну или 32 - в белорусском языке (беларускай мове). Поскольку мы живём в одном союзном государстве, надо учитывать два алфавита.

Не надо смешивать их м/у собой. Конечно, можно было бы перевести с одного языка на другой, поправив руками несколько букв, но так делать не нужно.

Отредактировано MihalNik (2016-12-28 18:35:30)

5

Удобно, если буквы будут отличаться одним разрядом и сделать перевод безусловным, т.е. простым изменением этого разряда,
но тогда нужно задавать последовательность букв как единое целое и отличать от других знаков.
А вот насчёт удобства именно младшего разряда можно поспорить:


рассмотрите пожалуйста английский аналог (ASCII).у всего есть своя логика.
цифры вначале потом спецсимволы (частично)
потом верхний регистр алфомита
снова група спецсимволов
нижний регистр алфовита

при таком расположении удобно по коду символа делать различные проверки и сравнения.
причем стоит отметить, что между малым и большим регистром есть тесная связь ("M" - 4D, "m" - 6D , "Z"-5A,  "z"- 7A)
сколько алгоритмов строилось в виндовс опираясь на эти знания

Данные всё-таки более общее понятие, чем строчный знакоряд.
Поэтому тут нужно определиться, о каких данных может идти речь

фактически обмен данными в сети идет в виде символов.
большая часть протоколов работает с символами . и любые наборы данных представляются в символьном виде, по определенным правилам.

И желательно либо выкинуть О, либо вставить У.

а чем "О" не угадила?  и почему "У")

Ну или 32 - в белорусском языке (беларускай мове). Поскольку мы живём в одном союзном государстве, надо учитывать два алфавита.

национальные алфовиты (беларуский, украинский, казахский и др) будут представлены во второй части ( другие 127 значений в двух байтах)

6

а чем "О" не угадила?  и почему "У")

РСКОД фонетически не хорошее сочетание и вызывает нарушение языка, лучше РСКД.
Не надо придумывать плохо произносимых сокращений.

рассмотрите пожалуйста английский аналог (ASCII).у всего есть своя логика.

У ASCII, на котором куча соглашений, есть вторая половина, которую можно по человечески использовать и её, в принципе, для русского языка достаточно.
Или можно забыть про него, на зачем тогда делать через то же заднее место?

национальные алфовиты (беларуский, украинский, казахский и др) будут представлены во второй части ( другие 127 значений в двух байтах)

По-человечески все они туда не войдут, т.е. получатся жуткие грабли. Они не захотят с этими граблями работать, а значит, это выкидывание половины значений на ветер.
По раздельности все 4 алфавита проще и надёжнее всего нумеровать с одного и того же места, используя определённый разряд под регистр.

фактически обмен данными в сети идет в виде символов.
большая часть протоколов работает с символами . и любые наборы данных представляются в символьном виде, по определенным правилам.

Фактически не любыми символами, а только ASCII. Поэтому, если забить на ASCII, можно передавать данные в любом виде, а не только ассоциируемым со знакорядом.

Отредактировано MihalNik (2016-12-28 22:10:05)

7

хорошо, предложите вариант в котором нет тех грабоей которые вы обозначили.

8

MihalNik написал(а):

По раздельности все 4 алфавита проще и надёжнее всего нумеровать с одного и того же места, используя определённый разряд под регистр.

Вообще все алфавиты с различием строчных и прописных. Единственный хороший вопрос это спецзнаки и цифры. Нужно ли их соединять с буквенным алфавитом, или держать в отдельном. Цифры в неупакованном BCD довольно удобны. Всё это потребует выделение места под дополнительные обозначения, но зато они будут явные.
Уже написал, что надо составлять перечень основных алгоритмов и смотреть что и как будет выглядеть в свете их, а так судить слишком сложно.

Отредактировано MihalNik (2016-12-28 22:10:18)

9

как по мне то иметь один стандарт в одной таблице гораздо удобнее чем размазывать данные по разным таблицам.

10

Алгоритм любой можно записать. От алгоритмов это вообще никак независит.
Самый быстрый тексторез у яндекса 500-1000 мбит/с  и он использует табличный метод представления регулярных выражений.
Для цифр важно лишь, чтобы они шли по порядку.

Акод черновик 0.01

00-1F Команды не символы

20-61 Русский алфовит

62-63 символы отсутсвующих см unicode

64-6D цифры

знаки припинания и основные символы

1000 Греческая и Византийская

1100-11FF Латинская (Американская)

1141-1157 Строчные Латинские 23 буквы A B C D E F G H I K L M N O P Q R S T V X Y Z

113D-113F Американские J U W

1161-1177 Прописные Латинские

113D-113F Американские j u w

Немецкая

Казахская

Испанская

Индийская Пункха

3040-309F Японская Хирага

30A0-30FF Японская Катанага

Корейская

4000-AFFF Китайская упрощенная???

B000-FFFF Китака-Японска-Корейская(КЯК) не вошедшие в прошлые

одинакова как в Unicod или gb2312 или gb18030 размещение один в один.

http://ash.jp/code/cn/gb2312tbl.htm

http://www.rikai.com/library/kanjitable … code.shtml

ftp://ftp.software.ibm.com/software/glo … 18030m.pdf

http://www.iana.org/assignments/charset-reg/GB18030

http://unicode-table.com/ru/blocks/cjk- … deographs/

p://www.unicode.org/Public/8.0.0/

Гречиский

https://el.wikipedia.org/wiki/%CE%95%CE … F%84%CE%BF

11

Вообще все алфавиты с различием строчных и прописных.

А как же французкий или испанский алфовит? Там есть символы неимеющие порядковых номеров, но обязательные к используемые при письме. И я неуверен, что французы для этих знаков различают строчные и прописные.

Возьмем русския язык и старословянский и белорусский и сербский. Алфовиты у них совпадают на 90%  и как потом отличить белорускую букву О о т русской О или сербской. Или ижицу i в украинком и английском. Ведь алгоритмы сортировки должны понимать как упорядычивать.

А немецкий алфовит с его диаклетическими знаками? В разных языках этот набор разный, у немцев боллее полный.

Самый простой вариант остановиттся на Юникоде. А кто хочет чтобы буква ё была на своём месте на китайской  gb18030

Отредактировано Павиа (2016-12-28 23:34:52)

12

Самый простой вариант остановиттся на Юникоде.


я вполне согласен, но в основном сейчас я хотел бывыяснить момент когда у нас нет unicode, ascii, utf-(8,16), 125(1,2)
вот GRUB передал управление на ядро, наше ядро, и мне стооило бы намалякать на экране хотя бы словечко в текстовом режиме.
чему мне учить знакогенератор?

переход в графический режим я пока не рассматриваю.
какие есть предложения в данном случае?

13

Пара соов о Уникоде. Нетакой он уни секция КЯК зависит от выбранного шрифта. У японского отличается начертание от китайсконо. И нетолько начертанием но и произношением и смыслом слов. И это всю приодном и томже порядковом номере.

14

У меня проблем с GRUB нету. Он сам пепеводит в графический режим.  Во-вторых UEFI  использует Unicod.
Нет смысла цепляться за знакогенератор который устарел поэтому уже 2000 - его невключили в EFI/UEFi. А следовательно его в любой момент могут выпелить с видеокарты.
Версию своей кодировке я привёл. Хотя странно гдето у меня набор симвооов ещё был.видимо несмог остановиться и выбрать. Мне набор z80 нравится. Я бы их взял. И видимо управляющие коды тоже задействовать. Доллар и прочии с мой раскладки клавиатуры.

15

Павиа написал(а):

Самый простой вариант остановиттся на Юникоде. А кто хочет чтобы буква ё была на своём месте на китайской  gb18030


Вот ещё почитать:
http://manuscripts.ru/mns/docs/Margulis.pdf
И.С.Маргулис, Проект ГИПЕРАЗБУКА, Объединённый алфавит славянских символов,

(особо хотелось бы отметить, что в нём 267 глифов, то есть в один байт не поместятся, и это при том что там нет цифр, в том числе шестнадцатеричных)

Отредактировано ВежливыйЛис (2016-12-29 04:42:13)


Вы здесь » Ремесло программиста » Кодирование символов » РСКОД - Русский Стандард Кодирования для Обмена Данными