индекс кирилличности

Научно-технические вопросы применения русского языка в программировании. Проекты с сайта программирование-по-русски.рф, кроме ЯОС . Информация об организациях и людях, использующих или изучающих русский язык в программировании. Сравнение операционных систем.
Ответить
БудДен
Сообщения: 2839
Зарегистрирован: 07.10.18 14:01

индекс кирилличности

Сообщение БудДен » 09.12.20 02:14

Мера того, в какой степени данный код является русскоязычным. Например, отношение числа букв кириллицы в тексте к общему числу букв в тексте (цифры и прочее не учитываем).

MihalNik
Сообщения: 244
Зарегистрирован: 05.11.18 11:02

Re: индекс кирилличности

Сообщение MihalNik » 09.12.20 15:26

Это плохой индекс, потому что исходники объективно не измеримы в знаках или строках.
Например, если заменить русское слово на более краткое, то, при наличии латиницы в тексте, такой индекс кирилличности снизится. Основная латиномасса (3/4) для ББ было несколько сотен лексем, для А2 это несколько тысяч, а 500 дает половину.
Последний раз редактировалось MihalNik 09.12.20 23:04, всего редактировалось 1 раз.

БудДен
Сообщения: 2839
Зарегистрирован: 07.10.18 14:01

Re: индекс кирилличности

Сообщение БудДен » 09.12.20 19:16

Любой индекс плохой. Когда я сказал, что в ЯОС 100000 слов и нужно считать долю от переведённых слов, мне сказали, что это фигня и нужно считать с учётом повторяемости:

https://forum.oberoncore.ru/viewtopic.p ... 60#p112802

Причём люди вообще не утруждали себя аргументацией :) Просто постулировали, что мой индекс плохой. Данный индекс с учётом повторяемости, но всё равно его критикуют. Будут критиковать в любом случае, поэтому неважно, какой индекс. Важен сам факт того, что существует движение в направлении кириллизации-русификации, и что у него можно определить текущее состояние и скорость движения, и эта скорость будет положительной (в ЯОС, во всяком случае). Для этой цели подходит любой индекс.

MihalNik
Сообщения: 244
Зарегистрирован: 05.11.18 11:02

Re: индекс кирилличности

Сообщение MihalNik » 09.12.20 20:53

Индекс как показатель наличия продвижения сам по себе бесполезен. С точки зрения трудозотрат важно общее кол-во разных единиц - это около 90 тыс, которую нельзя корректно умножить на частоту их использования. А с точки зрения значимости с одной стороны важен перевод в порядке уменьшения частоты, с другой - в порядке наиболее используемых модулей, более того - открываемых из них связующих наименований. Т.е. последних уже достаточно для программирования по-русски, хотя внути модулей может оставаться латиница, ассемблерные вставки, машинокод и пр.

БудДен
Сообщения: 2839
Зарегистрирован: 07.10.18 14:01

Re: индекс кирилличности

Сообщение БудДен » 10.12.20 00:07

Ну так и что Вы предлагаете? Просто отказаться от этой затеи? Так я могу сказать "в исходниках ОС сегодня эн процентов кириллицы, а вчера было вэ процентов". А Вы предлагаете просто сказать "мы работаем"? Или я что-то не так понял?

MihalNik
Сообщения: 244
Зарегистрирован: 05.11.18 11:02

Re: индекс кирилличности

Сообщение MihalNik » 10.12.20 12:48

БудДен писал(а):
10.12.20 00:07
Ну так и что Вы предлагаете? Просто отказаться от этой затеи? Так я могу сказать "в исходниках ОС сегодня эн процентов кириллицы, а вчера было вэ процентов". А Вы предлагаете просто сказать "мы работаем"? Или я что-то не так понял?
Перевести вначале экспортные идентификаторы + ключевые слова. Это во-первых, меньше чем все, во-вторых, другое качественное состояние русификации в отличие от %, которые никто не пощупает и которые говорят о незавершенности, т.е. звучат не привлекательно. А в-третьих, после этого уже намного проще работать с разными модулями, даже если внутри осталась латиница и сложнее что-то сломать на уровне их взаимодействия, тем более машинокод/ассемблер никуда не денется.

БудДен
Сообщения: 2839
Зарегистрирован: 07.10.18 14:01

Re: индекс кирилличности

Сообщение БудДен » 10.12.20 17:47

Речь-то не про то, как устроить процесс (я сейчас как раз и перевожу ключевые слова и встроенные типы). А про то, как его визуализировать, в т.ч. в рекламных целях. Даже перевод ключевых слов - это процесс, который длится уже не один месяц, и даже ему нужна мера прогресса. А уж перевод идентификаторов, которых много тысяч, однозначно требует какой-то меры, иначе со стороны прогресса вообще не будет видно. Помогать на уровне идеи точно никто не будет (судя по наблюдаемой реальности). Если прогресс будет виден, то шансы увеличиваются. Даже в случае подачи на гранты задел важен. Да и вообще.

MihalNik
Сообщения: 244
Зарегистрирован: 05.11.18 11:02

Re: индекс кирилличности

Сообщение MihalNik » 10.12.20 18:50

Прогресс должен быть качественный. Например, ключевые слова - качественный показатель. Экспортные ид-ры - качественный показатель. А % - некачественный, который выглядет двояко и его проверять/учитывать никто не будет. В рекламных целях если 95% переведено - надо говорить что все 100, с поправкой на задержку рассмотрения запроса) Вы в рекламных целях на % от автомобиля сможете потенциального заказчика покатать?

БудДен
Сообщения: 2839
Зарегистрирован: 07.10.18 14:01

Re: индекс кирилличности

Сообщение БудДен » 11.12.20 03:23

Количественный тоже должен. Индекс кирилличности в такой форме может в каком-то приближении показывать, как часто человеку придётся пользоваться англо-русским словарём при чтении этого текста. Если он равен 80%, то это оценка - примерно 4 слова из 5 будут понятны. Отличие от 30% кирилличности тут уже скорее качественное. Кроме того, волшебный индекс 50% означат порог, при котором начинает обретать смысл "яро-раскладка". До этого порога удобнее либо переключаться, либо использование по умолчанию в раскладке английского, а не русского. Например, в текущем состоянии в ЯОС у меня яро-раскладка есть, но я всё равно переключаюсь, т.к. энергетически неэффективно работать с почти полностью англоязычным текстом, если для ввода латиницы нужно постоянно удерживать клавишу-модификатор. Так что вопрос о 50% имеет большой практический смысл.

Дальше, исходный текст состоит из ключевых слов (включая теги html), экспортируемых, импортируемых, внешних идентификаторов, строковых литералов и комментариев. Т.е. 6 вариантов использования. Не все из этих вариантов использования слов я бы вообще взялся машинно перевести. Интегральный показатель, показывающий в сумме, написанным на каком языке выглядит в итоге этот текст для профана - это тоже вещь, ясно показывающая смысл проделанной работы. Собственно, здесь есть утопическая цель в 100%, она недостижима, но в какой же момент можно считать, что "русификация данного модуля завершена"? Так определённый индекс кирилличности, на мой взгляд, может это хорошо показать. Конечно, оценка не точная, но хоть какая-то. 100% недостижимы, т.к. останутся всяческие "http" и прочие латинизмы, вшитые в стандарты взаимодействия компьютеров между собой. При достаточно революционном походе можно и их переводить. А вдруг окажется, что таких слов больше 50%, то смысл русификации с т.з. облегчения ввода вообще становится под вопрос.

Касаемо вот этих вот сложных понятий типа "ключевые слова" или "экспортируемые имена", для людей со стороны вообще может быть неясно, какую задачу мы решаем, переводя исходники на русский язык, потому что они могут не знать, что такое исходники и думают, что программы пишутся в машинных кодах или в каких-то абстрактных крокозяблах, а не на словах человеческого языка. Как им объяснить, что русский windows или русский альт линукс написан на английском языке? Это требует разъяснений. Да и многие люди не со стороны это упускают и вообще сводят вопрос русификации к переводу одних только ключевых слов, хотя доля ключевых слов среди всех ключевых слов ничтожна.

Далее, ясно, что чем больше %, тем труднее его достичь. Встретится один раз в программе диск C: - и всё, приехали, 100% недостижимо. Значит, нужно вовремя остановиться, чтобы не лезть на вертикальную стенку. Т.е. так определённый индекс можно использовать и для целеполагания, и для локализации проблемных мест, когда текст не поддаётся русификации, для анализа причин этого и определения мер борьбы.

Ответить