Цифровизация — это явление, которое сегодня пронизывает практически все сферы человеческой деятельности и большинство аспектов повседневной жизни, охватывая сферы образования, финансов, здравоохранения, промышленности и культуры. Теперь стало возможным собирать данные в масштабах экзабайта (1 миллиард гигабайт) из невероятно широкого спектра цифровых источников, таких как камеры, датчики (тепловые, световые, движения), смартфоны и медицинские приборы. Помимо источников данных, мы располагаем огромными объемами рутинных транзакционных данных оцифрованной повседневной жизни, которые ранее не собирались или, если и собирались, то игнорировались.
Не только данные, но и метаданные о них, включая детали того, как, когда и где они были собраны, облегчают выявление закономерностей и, наоборот, аномалий, что становится все более полезным. Этот феномен сбора большого количества данных побуждает к созданию передовых методов анализа, которые позволяют достичь результатов, не ограничиваясь рамками одной дисциплины. То, что начиналось как «Большие данные», превратилось в «Науку данных», позволяющую добиться значительных успехов в самых разных областях применения — от здравоохранения (улучшение диагностики и результатов) до энергопотребления (умные дома, фабрики и города).
Повсеместное распространение цифровых устройств значительно увеличивает как качество, так и количество генерируемых данных, причём этот эффект усиливается благодаря быстрому появлению и использованию протоколов IPv6 и появлению множества приложений для «интернета вещей». Экспоненциальный рост источников и объема данных ставит нетривиальные задачи на каждом этапе управления данными: сбор, хранение, проверка, сохранение, передача, доступ, анализ, а также поднимает новые проблемы, связанные с анонимностью, конфиденциальностью и безопасностью.
Наука о данных — это научная дисциплина, которая охватывает весь жизненный цикл данных. Она включает в себя как теоретические, так и практические методы организации, обработки и анализа данных, а также преобразования данных в информацию и, все чаще, информации в действенный «интеллект». В этом отношении «интеллект» становится возможным благодаря крупным инновациям в прикладных областях искусственного интеллекта, машинного обучения и глубокого обучения, которые опираются на новые модели познания и обучения, а также существенному улучшению вычислительных ресурсов и методов управления вычислительной сложностью.
В результате наука о данных достигает результатов, которые раньше представлялись лишь умозрительно или в научно-фантастической литературе. В качестве одного из примеров можно привести случай, когда машина за выходные сама обучила себя игре в шахматы и обыграла лучших в мире игроков-людей. Аналогичные демонстрации появляются и в более практических областях применения, таких как диагностика медицинских изображений, где аналитики ИИ добиваются более точного распознавания, чем эксперты-люди.
Наука о данных — это быстро развивающаяся междисциплинарная специальность, которая имеет непосредственное отношение к национальным приоритетам развития Казахстана. Магистр наук в области науки о данных в Назарбаев Университете предоставит углубленное образование в области науки о данных, включающее ключевые концепции из различных областей. Программа включает в себя следующие предметные области: базы данных, добыча данных, большие данные, бизнес-аналитика, искусственный интеллект, информационный поиск, машинное обучение, глубокое обучение, обработка изображений и видео, биоинформатика, кибербезопасность, анализ и визуализация данных, математическое и статистическое моделирование, инфраструктуры хранения и обработки данных, облачные решения.
Цели и задачи
Магистр наук в области науки о данных (MSc - DS)— это двухлетняя очная программа (120 кредитов ECTS) в Школе инженерии и цифровых наук (ШИЦН) Назарбаев Университета. Первый семестр обучения предназначен для того, чтобы дать основы фундаментальных знаний в данной области и обеспечить базовый уровень для всех поступающих из нескольких смежных, но разных областей бакалавриата. Программа включает в себя основные дисциплины и набор тематических элективных курсов, которые обеспечивают непрерывность обучения в течение двух лет. Дисциплинарные курсы дополнены рядом курсов, которые обеспечивают этапы для продвижения по программе и завершения магистерской дипломной работы. Эта дуга состоит из курса по методам исследования, исследовательского семинара, предложения по дипломной работе, а затем заключительного семестра для завершения и защиты работы.
Программа соответствует рекомендациям профессиональных обществ ACM и IEEE, а также включает в себя специальные тематические материалы по запросу казахстанского правительства и промышленных партнеров. Программа обеспечивает основу для сотрудничества с партнерами из сферы образования, правительства и промышленности, чтобы согласовать возможности для целевых исследований и сотрудничества по проектам, связанным с приоритетами национального развития, сформулированными в ряде документов национальной стратегии, таких как «Цифровой Казахстан», «Казахстан 2030», «100 шагов» и «Казахстан 2050».
Программа «Наука о данных» является уникальной в Казахстане благодаря своей междисциплинарной направленности и педагогическому подходу, который объединяет исследования и делает акцент на инновациях. Начиная с первого семестра студенты тесно взаимодействуют с преподавателями. Выпускники программы готовятся к тому, чтобы стать профессионалами в области науки о данных, готовыми к карьере в промышленности, правительстве или образовании.