Национальный корпус русского языка

С.Т. · Сообщение **С.Т.** » 22.04.21 06:11

Корпус русского языка — это информационно-справочная система, основанная на собрании русских текстов в электронной форме.

Корпус предназначен для всех, кто интересуется самыми разными вопросами, связанными с русским языком: профессиональных лингвистов, преподавателей языка, школьников и студентов, иностранцев, изучающих русский язык.

Национальный корпус имеет две важные особенности. Во-первых, он характеризуется представительностью, или сбалансированным составом текстов. Это означает, что корпус содержит по возможности все типы письменных и устных текстов, представленные в данном языке (художественные разных жанров, публицистические, учебные, научные, деловые, разговорные, диалектные и т.п.), и что все эти тексты входят в корпус по возможности пропорционально их доле в языке соответствующего периода. Следует иметь в виду, что хорошая представительность достигается только при значительном объеме корпуса (десятки и сотни миллионов словоупотреблений).

Во-вторых, корпус содержит особую дополнительную информацию о свойствах входящих в него текстов (так называемую разметку, или аннотацию). Разметка — главная характеристика корпуса; она отличает корпус от простых коллекций (или «библиотек») текстов, в изобилии представленных в современном интернете, в том числе и на русском языке (таких, как, по-видимому, наиболее известная «библиотека Максима Мошкова» или, например, «Русская виртуальная библиотека»). В настоящее время специалистами создана и пополняется также «Фундаментальная электронная библиотека» русской классической литературы, ориентированная на академический режим подачи текстов, максимально точное воспроизведение авторитетных печатных изданий. Однако такие библиотеки в необработанном виде для научных исследований языка пригодны очень ограниченно. Не следует забывать также, что библиотеки создаются теми, кому интересно в большей степени содержание текстов, чем их языковые качества. Для составителей Национального корпуса такие факторы, как увлекательность или полезность книги, ее высокие художественные или научные достоинства являются важными, но не первостепенными. Национальный корпус, в отличие от электронной библиотеки, — это не собрание «интересных» или «полезных» текстов; это собрание текстов, интересных или полезных для изучения языка. А такими могут оказаться и роман второстепенного писателя, и запись обычного телефонного разговора, и типовой договор аренды и т.п. — наряду, конечно, с классическими произведениями художественной литературы.

Чем богаче и разнообразнее разметка, тем выше научная и учебная ценность корпуса. В Национальном корпусе русского языка в настоящее время используется пять типов разметки: метатекстовая, морфологическая (словоизменительная), синтаксическая, акцентная и семантическая. В ближайшее время планируется внедрение словообразовательной разметки, а также упрощённой синтаксической разметки в основном корпусе (отличной от той, которая представлена в синтаксическом Глубоко аннотированном корпусе). Система разметки постоянно совершенствуется.

https://ruscorpora.ru

БудДен · Сообщение **БудДен** » 22.04.21 22:35

А как это можно применить для наших задач?

С.Т. · Сообщение **С.Т.** » 23.04.21 08:30

В неясных и неоднозначных случаях можно посмотреть контекст, в котором слово прижилось в языке. Либо парировать экспертов по внутрям.

БудДен · Сообщение **БудДен** » 24.04.21 12:11

А тексты по ИТ там есть?

С.Т. · Сообщение **С.Т.** » 24.04.21 16:19

Кое-что есть в основном корпусе, например, по "компилятор":

Конечно, было бы заманчиво сэкономить труд экспертов и создать универсальный компилятор, однозначно транслирующий тексты нормативно-правовых документов на некий формальный язык. [Формализованный язык описания нормативных требований (язык регламентов) // «Информационные технологии», 2004.07.26] [омонимия не снята] ←…→

Если при исполнении программы значение условия будет ИСТИНА, то, несмотря на то, что правильное входное значение (результат выполнения множества S (T)) будет готово раньше альтернативного входного значения (результат выполнения множества S (F)), операция «смеситель» будет исполняться всегда по готовности более долгого операнда, так как компилятор должен статически, не зная результата условия, спланировать операции. [В. Ю. Волконский, С. К. Окунев. Оптимизация критического пути на предикатном представлении программы // «Информационные технологии», 2003.09.29] [омонимия не снята] ←…→
― 072. sc ― электронные таблицы ― 085. gcc ― компилятор с языка C Тесты из пакета SPECint95 [В. Ю. Волконский, С. К. Окунев. Оптимизация критического пути на предикатном представлении программы // «Информационные технологии», 2003.09.29] [омонимия не снята] ←…→

Иной раз стоит посмотреть на художественные тексты. "Low level programming" принято переводить как "низкоуровневое программирование", тогда как люди без профессиональной деформации видят в словосочетании кардинально отличающийся смысл. "Нижнеуровневое" же понимается без кривотолков, несмотря на попытки Яндекса исправить опечатку.

Национальный корпус русского языка

Национальный корпус русского языка

Re: Национальный корпус русского языка

Re: Национальный корпус русского языка

Re: Национальный корпус русского языка

Re: Национальный корпус русского языка