В корпус входят как письменные тексты (художественные, мемуары, публицистика, научная, религиозная литература, повседневная печатная продукция), так и записи устных текстов (публичной речи и частных бесед).
Объём основного корпуса на 7 апреля 2018 года составлял 283 млн словоупотреблений, а общий объём корпусов превышает 600 млн слов.
В настоящее времясвободнымибесплатнымявляетсятолько поискпо корпусу. Доступ ко всему корпусу невозможен в связи с законом об авторских правах. Для получения доступа к 1/6 размеченной части подкорпуса необходимо зарегистрироваться и принять лицензионное соглашение.
В сегменте Новостей собраны материалы из источников:РИА Новости,Регнум,Лента.ру,Росбалт. Тексты снабжены метаразметкой (по дате создания текста, полу, месту и году рождения автора, интернет-жанру и так далее); все тексты снабжены автоматической морфологической разметкой и лемматизированы[5].
Большую часть текстов создают записи за2013—2014годы, хотя на некоторых сегментах, например, в Журнальном зале, собраны тексты, начиная с1994года.