ПРАКТИЧЕСКИЕ ОСНОВЫ ПОДГОТОВКИ ОБУЧАЮЩИХСЯ В ВУЗЕ ПО БОЛЬШИМ ДАННЫМ (ОБРАБОТКА БОЛЬШИХ ДАННЫХ ЧАСТЯМИ НА ЯЗЫКЕ ПРОГРАММИРОВАНИЯ R)
DOI:
https://doi.org/10.52269/RWEP2522187Ключевые слова:
большие данные, анализ больших данных, язык программирования R, пакет Nycflights13, файлы flightsАннотация
В статье рассматривается подготовка специалистов в области больших данных, повышение знаний обучающихся в высших учебных заведениях на основе обработки, хранения и анализа больших данных в среде программирования R. Представленные результаты являются частью исследовательской работы, направленной на всестороннее изучение и внедрение знаний в содержание материалов об аппаратно-программном обеспечении и языках программирования. Особое внимание уделяется ознакомлению студентов с пакетами языка R и форматами хранения данных. Показано, что данные могут быть сохранены двумя разными способами – в форматах .rds и .csv, каждый из которых имеет свои особенности и преимущества при последующей обработке больших данных. Большие данные делятся на структурированные, полуструктурированные (XML и JSON) и неструктурированные (тексты, изображения и видео), что затрудняет их хранение, обработку и анализ. Задача: рассмотреть случай, когда невозможно сразу загрузить полный набор данных в память R, возможность обработки данных фрагментами при невозможности сразу загрузить полный набор данных в память R при анализе больших данных, в данном случае упоминается использование функции chunk.apply из пакета iotools Саймона Урбанека и Тейлора Арнольда. Проведен анализ по большим данным, связанный с подготовкой обучающихся в вузе, приведены данные результативной работы из практической части нашей исследовательской работы.