Big data hr: 9 Ways to Use HR Analytics and Big Data in the Workplace

Содержание

Как используют big data в маркетинге, ритейле, промышленности и других отраслях

Big data в финансах: оценка платежеспособности и повышение качества сервиса

Оценка платежеспособности. Банкам важно выдавать кредиты только тем, кто точно сможет их вернуть, чтобы не понести убытки. Анализ больших данных помогает анализировать платежеспособность клиентов и оценивать риски.

Например, Mastercard работает не только как платежная система — она собирает данные, которые помогают выявлять неплатежеспособных контрагентов, не возвращающих кредиты. Mastercard предупреждает финансовые организации, что с этими организациями не стоит вести дела.

Улучшение клиентского сервиса. Big data в банках также используют для того, чтобы делать клиентам персонализированные предложения. Это как в интернет-магазинах, только в качестве «рекомендуемых товаров» выступают банковские продукты и услуги.

Так, Альфа-Банк собирает данные обо всех своих клиентах. Затем с помощью анализа и сегментации делит их на группы. Например, клиент раз в неделю покупает подгузники или детские смеси, значит, скорее всего, у него есть ребенок. И можно предложить кредит или бонусную программу на детские товары.

Big data в HR: наем сотрудников и предупреждение увольнений

Наем сотрудников. На начальном этапе найма сотрудников часто требуется отсеять тех, кто мало заинтересован в работе или совсем для нее не подходит. Эту задачу можно решать с помощью больших данных: собирать информацию о кандидатах и резюме, выявлять в них закономерности, использовать эти данные для разработки скриптов или обучения роботов и нейросетей.

Например, компания Stafory разработала робота-рекрутера Веру. Он умеет сортировать резюме, обзванивать сотрудников, распознавать голос и выделять наиболее заинтересованных кандидатов. Компании уже используют робота для подбора персонала. В частности, Вера помогла PepsiCo заполнить 10% от необходимых вакансий.

Оптимизация HR-стратегии. Компании часто анализируют поведение клиентов, и по тем же принципам можно анализировать поведение сотрудников: отслеживать эффективность их работы, переработки, признаки усталости или выгорания.

В Google есть отдел People Analytics, который анализирует большие данные, связанные с поведением сотрудников. У них есть несколько успешных кейсов применения big data:

  1. Еще в 2002 году в компании проанализировали работу тысяч менеджеров и создали «8 стратегий поведения менеджеров Google». Сейчас стратегии регулярно дополняют и используют при найме и обучении сотрудников.
  2. Аналитики постоянно отслеживают поведение и состояние сотрудников: сколько они зарабатывают, часто ли задерживаются на работе, насколько эффективны. На основе этого принимают решение о дополнительных выплатах или продлении отпусков.
  3. Специальные алгоритмы предупреждают, что конкретный сотрудник в ближайшее время захочет уволиться. Это помогает менеджерам вовремя среагировать.

Big data в медицине: прогноз заболеваний и сбор данных о пациентах

В медицинской сфере большие данные в перспективе можно использовать для диагностики и лечения, большинство интересных проектов пока находятся на стадии разработки или тестирования, но есть и уже реализованные.

Прогнозирование заболеваний. Если собрать достаточно данных о пациентах, можно делать предположения о том, чем они больны сейчас или могут заболеть в ближайшее время.

Так, в детской больнице Торонто внедрили проект Artemis. Больничная система собирает и анализирует данные по новорожденным — она каждую секунду анализирует 1260 показателей. На основе этих данных система может предсказать нестабильное состояние ребенка, чтобы ему смогли вовремя помочь.

Ведение базы пациентов. У многих пациентов длинная история болезни, которая часто хранится в разных больницах и у разных врачей. Чтобы увидеть полную картину, нужно собрать данные в единую базу. С помощью технологий big data можно не только организовать такую базу, но и настроить в ней удобный поиск и аналитику.

Например, в Массачусетской больнице общего профиля создали систему QPID, которая собирает электронные данные о пациентах и быстро предоставляет нужную информацию: и пациентам, и врачам. К примеру, пациент может посмотреть информацию по своей болезни: анализы, диагнозы, снимки, назначенные лекарства. А врач может увидеть информацию о хронических заболеваниях и прошлом лечении.

Big data в образовании: помощь в выборе курсов и предотвращение отчислений

Помощь в выборе курсов. В образовании проекты big data помогают студентам с профориентацией: анализируют их способности и помогают выбрать направление обучения и будущую профессию.

Так, в американском университете Остин Пии разработали рекомендательную систему подбора курсов. Она собирает данные об успеваемости, находит «похожих» студентов, и на основе этого подбирает курсы для конкретного человека. Предсказания устраивают студентов в 90% случаев.

Предотвращение отчислений. В США из университетов отчисляются 400 тысяч студентов в год. Чтобы решить эту проблему, в Университете Содружества Виргинии проанализировали данные об отчислениях и построили алгоритм, который выявляет студентов в группе риска.

Система оповещает, когда студент становится проблемным. И тогда с ним работают индивидуально, например, предлагают перевод на другой курс или помощь репетитора. По итогам семестра число студентов, закончивших курс, увеличилось на 16%.

Big data в маркетинге: повышение прибыли и привлечение клиентов

Создание коммерчески успешных продуктов. Большие данные о поведении клиентов помогут предсказывать спрос и позволяют до вывода продукта на рынок понять, будет ли он успешным.

Например, такие технологии использует Netflix. Этой платформой для просмотра фильмов и сериалов пользуются более 150 миллионов человек. В компании анализируют поведение клиентов: какие сериалы они смотрят, какие бросают, какие моменты перематывают. Это помогает лучше понимать психологию зрителей и грамотно рекомендовать им новые сериалы.

Еще Netflix анализирует поведение зрителей, чтобы снимать успешные сериалы и эффективно их продвигать. Например, перед созданием «Карточного домика» в компании проанализировали 30 миллионов сценариев, 4 миллиона зрительских оценок и 3 миллиона поисковых запросов.

Таргетированная реклама и снижение стоимости привлечения клиента. Big data помогает лучше настраивать целевые аудитории и показывать таргетированную рекламу более точечно.

Например, ритейлер Ozon использует большие данные для таргетированной рекламы и рекомендации товаров. Для этого на сайте и в мобильном приложении собирают логи пользователей — фиксируют всё, что они просмотрели, пролистали, на что кликнули. На основе данных составляют прогноз: планирует ли пользователь покупку, товар какой категории, скорее всего, его заинтересует. Релевантные товары показывают в таргетированной рекламе.

Также в Ozon тестировали полки рекомендаций для различных товаров. Пользователей разделили на две группы: для первой рекомендации вручную составили эксперты, для второй — собрали автоматически на основе данных логов. В итоге во второй группе продажи оказались в 10 раз ваше.

В компании Nestle Purina начали использовать платформу для сбора данных о клиентах. Они проанализировали поведение покупателей и выделили в отдельную категорию людей, которые недавно искали в интернете щенков. С помощью таргетированной рекламы в Facebook этим клиентам показывали товары для щенков. Благодаря такому подходу конверсия выросла на 300%, а стоимость привлечения клиента снизилась на 90%.

Что такое Big Data простыми словами? Применение больших данных

Через 10 лет мир перейдет в новую эпоху — эпоху больших данных. Вместо виджета погоды на экране смартфона, он сам подскажет вам, что лучше одеть. За завтраком телефон покажет дорогу, по которой вы быстрее доберетесь до работы и когда нужно будет выехать.

Под влиянием Big Data изменится все, чего бы не коснулся человек. Разберемся, что это такое, а также рассмотрим реальное применение и перспективы технологии.

Навигация по материалу:

Что такое Big data?

Большие данные — технология обработки информации, которая превосходит сотни терабайт и со временем растет в геометрической прогрессии.

Такие данные настолько велики и сложны, что ни один из традиционных инструментов управления данными не может их хранить или эффективно обрабатывать. Проанализировать этот объем человек не способен. Для этого разработаны специальные алгоритмы, которые после анализа больших данных дают человеку понятные результаты.

В Big Data входят петабайты (1024 терабайта) или эксабайты (1024 петабайта) информации, из которых состоят миллиарды или триллионы записей миллионов людей и все из разных источников (Интернет, продажи, контакт-центр, социальные сети, мобильные устройства). Как правило, информация слабо структурирована и часто неполная и недоступная.

Как работает технология Big-Data?

Как работает технология Big-Data?

Пользователи социальной сети Facebook загружают фото, видео и выполняют действия каждый день на сотни терабайт. Сколько бы человек не участвовало в разработке, они не справятся с постоянным потоком информации. Чтобы дальше развивать сервис и делать сайты комфортнее — внедрять умные рекомендации контента, показывать актуальную для пользователя рекламу, сотни тысяч терабайт пропускают через алгоритм и получают структурированную и понятную информацию.

Сравнивая огромный объем информации, в нем находят взаимосвязи. Эти взаимосвязи с определенной вероятностью могут предсказать будущее. Находить и анализировать человеку помогает искусственный интеллект.

Нейросеть сканирует тысячи фотографий, видео, комментариев — те самые сотни терабайт больших данных и выдает результат: сколько довольных покупателей уходит из магазина, будет ли в ближайшие часы пробка на дороге, какие обсуждения популярны в социальной сети и многое другое.

Методы работы с большими данными:

  • Машинное обучение
  • Анализ настроений
  • Анализ социальной сети
  • Ассоциация правил обучения
  • Анализ дерева классификации
  • Генетические алгоритмы
  • Регрессионный анализ

Машинное обучение

Вы просматриваете ленту новостей, лайкаете посты в Instagram, а алгоритм изучает ваш контент и рекомендует похожий. Искусственный интеллект учится без явного программирования и сфокусирован на прогнозировании на основе известных свойств, извлеченных из наборов «обучающих данных».

Машинное обучение помогает:

  • Различать спам и не спам в электронной почте
  • Изучать пользовательские предпочтения и давать рекомендации
  • Определять лучший контент для привлечения потенциальных клиентов
  • Определять вероятность выигрыша дела и устанавливать юридические тарифы

Анализ настроений

Анализ настроений помогает:

  • Улучшать обслуживание в гостиничной сети, анализируя комментарии гостей
  • Настраивать стимулы и услуги для удовлетворения потребностей клиента
  • Определить по мнениям в социальной сети о чем думают клиенты.

Анализ социальных сетей

Анализ социальных сетей впервые использовали в телекоммуникационной отрасли. Метод  применяется социологами для анализа отношений между людьми во многих областях и коммерческой деятельности.

Этот анализ используют чтобы:

  • Увидеть, как люди из разных групп населения формируют связи с посторонними лицами  
  • Выяснить важность и влияние конкретного человека в группе
  • Найти минимальное количество прямых связей  для соединения двух людей
  • Понять социальную структуру клиентской базы

Изучение правил ассоциации

Люди, которые не покупают алкоголь, берут соки чаще, чем любители горячительных напитков?

Изучение правил ассоциации — метод обнаружения интересных взаимосвязей между переменными в больших базах данных. Впервые его использовали крупные сети супермаркетов для обнаружения интересных связей между продуктами, используя информацию из систем торговых точек супермаркетов (POS).

С помощью правил ассоциации:

  • Размещают продукты в большей близости друг к другу, чтобы увеличились продажи
  • Извлекают информацию о посетителях веб-сайтов из журналов веб-сервера
  • Анализируют биологические данные
  • Отслеживают системные журналы для обнаружения злоумышленников
  • Определяют чаще ли покупатели чая берут газированные напитки

Анализ дерева классификации

Статистическая классификация определяет категории, к которым относится новое наблюдение.

Статистическая классификация используется для:

  • Автоматического присвоения документов категориям
  • Классификации организмов по группам
  • Разработки профилей студентов, проходящих онлайн-курсы

Генетические алгоритмы

Генетические алгоритмы вдохновлены тем, как работает эволюция, то есть с помощью таких механизмов, как наследование, мутация и естественный отбор.

Генетические алгоритмы используют для:

  • Составления расписания врачей для отделений неотложной помощи в больницах 
  • Расчет оптимальных материалов для разработки экономичных автомобилей
  • Создания «искусственно творческого» контента, такого как игра слов и шутки

Регрессионный анализ

Как возраст человека влияет на тип автомобиля, который он покупает?

На базовом уровне регрессионный анализ включает в себя манипулирование некоторой независимой переменной (например, фоновой музыкой) чтобы увидеть, как она влияет на зависимую переменную (время, проведенное в магазине).

Регрессионный анализ используют для определения:

  • Уровней удовлетворенности клиентов
  • Как прогноз погоды за предыдущий день влияет на количество полученных звонков в службу поддержки
  • Как район и размер домов влияют на цену жилья

Data Mining — как собирается и обрабатывается Биг Дата

Загрузка больших данных в традиционную реляционную базу для анализа занимает много времени и денег. По этой причине появились специальные подходы для сбора и анализа информации. Для получения и последующего извлечения информацию объединяют и помещают в “озеро данных”. Оттуда программы искусственного интеллекта, используя сложные алгоритмы, ищут повторяющиеся паттерны.

Хранение и обработка происходит следующими инструментами:

  • Apache HADOOP — пакетно-ориентированная система обработки данных. Система хранит и отслеживает информацию на нескольких машинах и масштабируется до нескольких тысяч серверов.
  • HPPC — платформа с открытым исходным кодом, разработанная LexisNexis Risk Solutions. HPPC известна как суперкомпьютер Data Analytics (DAS), поддерживающая обработку данных как в пакетном режиме, так и в режиме реального времени. Система использует суперкомпьютеры и кластеры из обычных компьютеров.
  • Storm — обрабатывает информацию в реальном времени. Использует Eclipse Public License с открытым исходным кодом.

Реальное применение Big Data

Реальное применение Big Data

Самый быстрый рост расходов на технологии больших данных происходит в банковской сфере, здравоохранении, страховании, ценных бумагах и инвестиционных услугах, а также в области телекоммуникаций. Три из этих отраслей относятся к финансовому сектору, который имеет множество полезных вариантов для анализа Big Data: обнаружение мошенничества, управление рисками и оптимизация обслуживания клиентов.

Банки и компании, выпускающие кредитные карты, используют большие данные, чтобы выявлять закономерности, которые указывают на преступную деятельность. Из-за чего некоторые аналитики считают, что большие данные могут принести пользу криптовалюте. Алгоритмы смогут выявить мошенничество и незаконную деятельность в крипто-индустрии.

Благодаря криптовалюте такой как Биткойн и Эфириум блокчейн может фактически поддерживать любой тип оцифрованной информации. Его можно использовать в области Big Data, особенно для повышения безопасности или качества информации.

Например, больница может использовать его для обеспечения безопасности, актуальности данных пациента и полного сохранения их качества. Размещая базы данных о здоровьи в блокчейн, больница обеспечивает всем своим сотрудникам доступ к единому, неизменяемому источнику информации.

Также, как люди связывают криптовалюту с волатильностью, они часто связывают большие данные со способностью просеивать большие объемы информации. Big Data поможет отслеживать тенденции. На цену влияет множество факторов и алгоритмы больших данных учтут это, а затем предоставят решение.

Перспективы использования Биг Дата

Blockchain и Big Data — две развивающиеся и взаимодополняющие друг друга технологии. С 2016 блокчейн часто обсуждается в СМИ. Это криптографически безопасная технология распределенных баз данных для хранения и передачи информации. Защита частной и конфиденциальной информации — актуальная и будущая проблема больших данных, которую способен решить блокчейн.

Почти каждая отрасль начала инвестировать в аналитику Big Data, но некоторые инвестируют больше, чем другие. По информации IDC, больше тратят на банковские услуги, дискретное производство, процессное производство и профессиональные услуги. По исследованиям Wikibon, выручка от продаж программ и услуг на мировом рынке в 2018 году составила $42 млрд, а в 2027 году преодолеет отметку в $100 млрд.

По оценкам Neimeth, блокчейн составит до 20% общего рынка больших данных к 2030 году, принося до $100 млрд. годового дохода. Это превосходит прибыль PayPal, Visa и Mastercard вместе взятые.

Аналитика Big Data будет важна для отслеживания транзакций и позволит компаниям, использующим блокчейн, выявлять скрытые схемы и выяснять с кем они взаимодействуют в блокчейне.

Рынок Big data в России

Big data в России

Весь мир и в том числе Россия используют технологию Big Data в банковской сфере, услугах связи и розничной торговле. Эксперты считают, что в будущем технологию будут использовать транспортная отрасль, нефтегазовая и пищевая промышленность, а также энергетика. 

Аналитики IDC признали Россию крупнейшим региональным рынком BDA. По расчетам в текущем году выручка приблизится к 1,4 миллиардам долларов и будет составлять 40% общего объема инвестиций в секторе больших данных и приложений бизнес-аналитики.

Где можно получить образование по Big Data (анализу больших данных)?

GeekUniversity совместно с Mail.ru Group открыли первый в России факультет Аналитики Big Data.

Для учебы достаточно школьных знаний. У вас будут все необходимые ресурсы и инструменты + целая программа по высшей математике. Не абстрактная, как в обычных вузах, а построенная на практике. Обучение познакомит вас с технологиями машинного обучения и нейронными сетями, научит решать настоящие бизнес-задачи.

Обучение Big Data

После учебы вы сможете работать по специальностям:

Особенности изучения Big Data в GeekUniversity

Через полтора года практического обучения вы освоите современные технологии Data Science и приобретете компетенции, необходимые для работы в крупной IT-компании. Получите диплом о профессиональной переподготовке и сертификат.

Обучение проводится на основании государственной лицензии № 040485. По результатам успешного завершения обучения выдаем выпускникам диплом о профессиональной переподготовке и электронный сертификат на портале GeekBrains и Mail.ru Group.

Проектно-ориентированное обучение

Обучение происходит на практике, программы разрабатываются совместно со специалистами из компаний-лидеров рынка. Вы решите четыре проектные задачи по работе с данными и примените полученные навыки на практике. Полтора года обучения в GeekUniversity = полтора года реального опыта работы с большими данными для вашего резюме.

Наставник

В течение всего обучения у вас будет личный помощник-куратор. С ним вы сможете быстро разобраться со всеми проблемами, на которые в ином случае ушли бы недели. Работа с наставником удваивает скорость и качество обучения.

Основательная математическая подготовка

Профессионализм в Data Science — это на 50% умение строить математические модели и еще

Принципы работы с большими данными, парадигма MapReduce / Блог компании DCA (Data-Centric Alliance) / Хабр

Привет, Хабр! Этой статьёй я открываю цикл материалов, посвящённых работе с большими данными. Зачем? Хочется сохранить накопленный опыт, свой и команды, так скажем, в энциклопедическом формате – наверняка кому-то он будет полезен.

Проблематику больших данных постараемся описывать с разных сторон: основные принципы работы с данными, инструменты, примеры решения практических задач. Отдельное внимание окажем теме машинного обучения.

Начинать надо от простого к сложному, поэтому первая статья – о принципах работы с большими данными и парадигме MapReduce.



История вопроса и определение термина

Термин Big Data появился сравнительно недавно. Google Trends показывает начало активного роста употребления словосочетания начиная с 2011 года (ссылка):


При этом уже сейчас термин не использует только ленивый. Особенно часто не по делу термин используют маркетологи. Так что же такое Big Data на самом деле? Раз уж я решил системно изложить и освятить вопрос – необходимо определиться с понятием.

В своей практике я встречался с разными определениями:

· Big Data – это когда данных больше, чем 100Гб (500Гб, 1ТБ, кому что нравится)

· Big Data – это такие данные, которые невозможно обрабатывать в Excel

· Big Data – это такие данные, которые невозможно обработать на одном компьютере

И даже такие:

· Вig Data – это вообще любые данные.

· Big Data не существует, ее придумали маркетологи.

В этом цикле статей я буду придерживаться определения с wikipedia:

Большие данные (англ. big data) — серия подходов, инструментов и методов обработки структурированных и неструктурированных данных огромных объёмов и значительного многообразия для получения воспринимаемых человеком результатов, эффективных в условиях непрерывного прироста, распределения по многочисленным узлам вычислительной сети, сформировавшихся в конце 2000-х годов, альтернативных традиционным системам управления базами данных и решениям класса Business Intelligence.

Таким образом под Big Data я буду понимать не какой-то конкретный объём данных и даже не сами данные, а методы их обработки, которые позволяют распредёлено обрабатывать информацию. Эти методы можно применить как к огромным массивам данных (таким как содержание всех страниц в интернете), так и к маленьким (таким как содержимое этой статьи).

Приведу несколько примеров того, что может быть источником данных, для которых необходимы методы работы с большими данными:

· Логи поведения пользователей в интернете

· GPS-сигналы от автомобилей для транспортной компании

· Данные, снимаемые с датчиков в большом адронном коллайдере

· Оцифрованные книги в Российской Государственной Библиотеке

· Информация о транзакциях всех клиентов банка

· Информация о всех покупках в крупной ритейл сети и т.д.

Количество источников данных стремительно растёт, а значит технологии их обработки становятся всё более востребованными.

Принципы работы с большими данными

Исходя из определения Big Data, можно сформулировать основные принципы работы с такими данными:

1. Горизонтальная масштабируемость. Поскольку данных может быть сколь угодно много – любая система, которая подразумевает обработку больших данных, должна быть расширяемой. В 2 раза вырос объём данных – в 2 раза увеличили количество железа в кластере и всё продолжило работать.

2. Отказоустойчивость. Принцип горизонтальной масштабируемости подразумевает, что машин в кластере может быть много. Например, Hadoop-кластер Yahoo имеет более 42000 машин (по этой ссылке можно посмотреть размеры кластера в разных организациях). Это означает, что часть этих машин будет гарантированно выходить из строя. Методы работы с большими данными должны учитывать возможность таких сбоев и переживать их без каких-либо значимых последствий.

3. Локальность данных. В больших распределённых системах данные распределены по большому количеству машин. Если данные физически находятся на одном сервере, а обрабатываются на другом – расходы на передачу данных могут превысить расходы на саму обработку. Поэтому одним из важнейших принципов проектирования BigData-решений является принцип локальности данных – по возможности обрабатываем данные на той же машине, на которой их храним.

Все современные средства работы с большими данными так или иначе следуют этим трём принципам. Для того, чтобы им следовать – необходимо придумывать какие-то методы, способы и парадигмы разработки средств разработки данных. Один из самых классических методов я разберу в сегодняшней статье.

MapReduce

Про MapReduce на хабре уже писали (раз, два, три), но раз уж цикл статей претендует на системное изложение вопросов Big Data – без MapReduce в первой статье не обойтись J

MapReduce – это модель распределенной обработки данных, предложенная компанией Google для обработки больших объёмов данных на компьютерных кластерах. MapReduce неплохо иллюстрируется следующей картинкой (взято по ссылке):


MapReduce предполагает, что данные организованы в виде некоторых записей. Обработка данных происходит в 3 стадии:

1. Стадия Map. На этой стадии данные предобрабатываются при помощи функции map(), которую определяет пользователь. Работа этой стадии заключается в предобработке и фильтрации данных. Работа очень похожа на операцию map в функциональных языках программирования – пользовательская функция применяется к каждой входной записи.

Функция map() примененная к одной входной записи и выдаёт множество пар ключ-значение. Множество – т.е. может выдать только одну запись, может не выдать ничего, а может выдать несколько пар ключ-значение. Что будет находится в ключе и в значении – решать пользователю, но ключ – очень важная вещь, так как данные с одним ключом в будущем попадут в один экземпляр функции reduce.

2. Стадия Shuffle. Проходит незаметно для пользователя. В этой стадии вывод функции map «разбирается по корзинам» – каждая корзина соответствует одному ключу вывода стадии map. В дальнейшем эти корзины послужат входом для reduce.

3. Стадия Reduce. Каждая «корзина» со значениями, сформированная на стадии shuffle, попадает на вход функции reduce().

Функция reduce задаётся пользователем и вычисляет финальный результат для отдельной «корзины». Множество всех значений, возвращённых функцией reduce(), является финальным результатом MapReduce-задачи.

Несколько дополнительных фактов про MapReduce:

1) Все запуски функции map работают независимо и могут работать параллельно, в том числе на разных машинах кластера.

2) Все запуски функции reduce работают независимо и могут работать параллельно, в том числе на разных машинах кластера.

3) Shuffle внутри себя представляет параллельную сортировку, поэтому также может работать на разных машинах кластера. Пункты 1-3 позволяют выполнить принцип горизонтальной масштабируемости.

4) Функция map, как правило, применяется на той же машине, на которой хранятся данные – это позволяет снизить передачу данных по сети (принцип локальности данных).

5) MapReduce – это всегда полное сканирование данных, никаких индексов нет. Это означает, что MapReduce плохо применим, когда ответ требуется очень быстро.

Примеры задач, эффективно решаемых при помощи MapReduce

Word Count

Начнём с классической задачи – Word Count. Задача формулируется следующим образом: имеется большой корпус документов. Задача – для каждого слова, хотя бы один раз встречающегося в корпусе, посчитать суммарное количество раз, которое оно встретилось в корпусе.

Решение:

Раз имеем большой корпус документов – пусть один документ будет одной входной записью для MapRreduce–задачи. В MapReduce мы можем только задавать пользовательские функции, что мы и сделаем (будем использовать python-like псевдокод):

def map(doc):
	for word in doc:
		yield word, 1
def reduce(word, values):
	yield word, sum(values)

Функция map превращает входной документ в набор пар (слово, 1), shuffle прозрачно для нас превращает это в пары (слово, [1,1,1,1,1,1]), reduce суммирует эти единички, возвращая финальный ответ для слова.

Обработка логов рекламной системы

Второй пример взят из реальной практики Data-Centric Alliance.

Задача: имеется csv-лог рекламной системы вида:

<user_id>,<country>,<city>,<campaign_id>,<creative_id>,<payment></p>

11111,RU,Moscow,2,4,0.3
22222,RU,Voronezh,2,3,0.2
13413,UA,Kiev,4,11,0.7
…

Необходимо рассчитать среднюю стоимость показа рекламы по городам России.

Решение:

def map(record):
	user_id, country, city, campaign_id, creative_id, payment = record.split(",")
	payment=float(payment)
	if country == "RU":
		yield city, payment


def reduce(city, payments):
	yield city, sum(payments)/len(payments)

Функция map проверяет, нужна ли нам данная запись – и если нужна, оставляет только нужную информацию (город и размер платежа). Функция reduce вычисляет финальный ответ по городу, имея список всех платежей в этом городе.

Резюме

В статье мы рассмотрели несколько вводных моментов про большие данные:

· Что такое Big Data и откуда берётся;

· Каким основным принципам следуют все средства и парадигмы работы с большими данными;

· Рассмотрели парадигму MapReduce и разобрали несколько задач, в которой она может быть применена.

Первая статья была больше теоретической, во второй статье мы перейдем к практике, рассмотрим Hadoop – одну из самых известных технологий для работы с большими данными и покажем, как запускать MapReduce-задачи на Hadoop.

В последующих статьях цикла мы рассмотрим более сложные задачи, решаемые при помощи MapReduce, расскажем об ограничениях MapReduce и о том, какими инструментами и техниками можно обходить эти ограничения.


Спасибо за внимание, готовы ответить на ваши вопросы.

Youtube-Канал автора об анализе данных

Ссылки на другие части цикла:


Часть 2: Hadoop
Часть 3: Приемы и стратегии разработки MapReduce-приложений
Часть 4: Hbase

Big Data — большая ответственность, большой стресс и деньги | GeekBrains

Подробная информация о Big Data (Большие данные): технологии big data, применение, методы обработки больших данных.

https://d2xzmw6cctk25h.cloudfront.net/post/1959/og_image/069d4ef4f1a6ea909efbb5449d11fb3c.png

Термин Big Data (большие данные) подпорчен современным фантастическим преувеличением новых вещей. Как ИИ поработит людей, а блокчейн построит идеальную экономику — так и большие данные позволят знать абсолютно все про всех и видеть будущее. 

Но реальность, как всегда, скучнее и прагматичнее. В больших данных нет никакой магии — как нет ее нигде — просто информации и связей между разными данными становится так много, что обрабатывать и анализировать все старыми способами становится слишком долго.

Появляются новые методы, вместе с ними — новые профессии. Декан факультета Big Data в GeekBrains Сергей Ширкин рассказал, что это за профессии, где они нужны, чем там надо заниматься и что надо уметь. Какие используются методы и технологии обработки больших данных, инструменты и сколько обычно платят специалистам.

Что такое «большие данные»

Вопрос «что называть большими данными» довольно путаный. Даже в публикациях научных журналов описания расходятся. Где-то миллионы наблюдений считаются «обычными» данными, а где-то большими называют уже сотни тысяч, потому что у каждого из наблюдений есть тысяча признаков. Поэтому данные решили условно разбить на три части — малые, средние и большие — по самому простому принципу: объему, который они занимают.

Малые данные — это считанные гигабайты. Средние — все, что около терабайта. Одна из основных характеристик больших данных — вес, который составляет примерно петабайт. Но путаницу это не убрало. Поэтому вот критерий еще проще: все, что не помещается на одном сервере — большие данные.

В малых, средних и больших данных разные принципы работы. Большие данные как правило хранятся в кластере сразу на нескольких серверах. Из-за этого даже простые действия выполняются сложнее.

Например, простая задача — найти среднее значение величины. Если это малые данные, мы просто все складываем и делим на количество. А в больших данных мы не можем собрать сразу всю информацию со всех серверов. Это сложно. Зачастую надо не данные тянуть к себе, а отправлять отдельную программу на каждый сервер. После работы этих программ образуются промежуточные результаты, и среднее значение определяется по ним.

Сергей Ширкин 

Какие компании занимаются большими данными

Первыми с большими данными, либо с «биг дата», начали работать сотовые операторы и поисковые системы. У поисковиков становилось все больше и больше запросов, а текст тяжелее, чем цифры. На работу с абзацем текста уходит больше времени, чем с финансовой транзакцией. Пользователь ждет, что поисковик отработает запрос за долю секунды — недопустимо, чтобы он работал даже полминуты. Поэтому поисковики первые начали работать с распараллеливанием при работе с данными.

Чуть позже подключились различные финансовые организации и ритейл. Сами транзакции у них не такие объемные, но большие данные появляются за счет того, что транзакций очень много.

Количество данных растет вообще у всех. Например, у банков и раньше было много данных, но для них не всегда требовались принципы работы, как с большими. Затем банки стали больше работать с данными клиентов. Стали придумывать более гибкие вклады, кредиты, разные тарифы, стали плотнее анализировать транзакции. Для этого уже требовались быстрые способы работы.

Сейчас банки хотят анализировать не только внутреннюю информацию, но и стороннюю. Они хотят получать большие данные от того же ритейла, хотят знать, на что человек тратит деньги. На основе этой информации они пытаются делать коммерческие предложения.

Сейчас вся информация связывается между собой. Ритейлу, банкам, операторам связи и даже поисковикам — всем теперь интересны данные друг друга.

Каким должен быть специалист по большим данным

Поскольку данные расположены на кластере серверов, для их обработки используется более сложная инфраструктура. Это оказывает большую нагрузку на человека, который с ней работает — система должна быть очень надежной. 

Сделать надежным один сервер легко. Но когда их несколько — вероятность падения возрастает пропорционально количеству, и так же растет и ответственность дата-инженера, который с этими данными работает.

Аналитик big data должен понимать, что он всегда может получить неполные или даже неправильные данные. Он написал программу, доверился ее результатам, а потом узнал, что из-за падения одного сервера из тысячи часть данных была отключена, и все выводы неверны.

Взять, к примеру, текстовый поиск. Допустим все слова расположены в алфавитном порядке на нескольких серверах (если говорить очень просто и условно). И вот отключился один из них, пропали все слова на букву «К». Поиск перестал выдавать слово «Кино». Следом пропадают все киноновости, и аналитик делает ложный вывод, что людей больше не интересуют кинотеатры.

Поэтому специалист по большим данным должен знать принципы работы от самых нижних уровней — серверов, экосистем, планировщиков задач — до самых верхнеуровневых программ — библиотек машинного обучения, статистического анализа и прочего. Он должен понимать принципы работы железа, компьютерного оборудования и всего, что настроено поверх него.

В остальном нужно знать все то же, что и при работе с малыми данным. Нужна математика, нужно уметь программировать и особенно хорошо знать алгоритмы распределенных вычислений, уметь приложить их к обычным принципам работы с данными и машинного обучения.

Какие используются инструменты и технологии big data

Поскольку данные хранятся на кластере, для работы с ними нужна особая инфраструктура. Самая популярная экосистема — это Hadoop. В ней может работать очень много разных систем: специальных библиотек, планировщиков, инструментов для машинного обучения и многого другое. Но в первую очередь эта система нужна, чтобы анализировать большие объемы данных за счет распределенных вычислений. 

Например, мы ищем самый популярный твит среди данных разбитых на тысяче серверов. На одном сервере мы бы просто сделали таблицу и все. Здесь мы можем притащить все данные к себе и пересчитать. Но это не правильно, потому что очень долго.

Поэтому есть Hadoop с парадигмами Map Reduce и фреймворком Spark. Вместо того, чтобы тянуть данные к себе, они отправляют к этим данным участки программы. Работа идет параллельно, в тысячу потоков. Потом получается выборка из тысячи серверов на основе которой можно выбрать самый популярный твит.

Map Reduce более старая парадигма, Spark — новее. С его помощью достают данные из кластеров, и в нем же строят модели машинного обучения. 

Какие профессии есть в сфере больших данных

Две основные профессии — это аналитики и дата-инженеры. 

Аналитик прежде всего работает с информацией. Его интересуют табличные данные, он занимается моделями. В его обязанности входит агрегация, очистка, дополнение и визуализация данных. То есть, аналитик в биг дата — это связующее звено между информацией в сыром виде и бизнесом. 

У аналитика есть два основных направления работы. Первое — он может преобразовывать полученную информацию, делать выводы и представлять ее в понятном виде.

Второе — аналитики разрабатывают приложения, которые будет работать и выдавать результат автоматически. Например, делать прогноз по рынку ценных бумаг каждый день. 

Дата инженер — это более низкоуровневая специальность. Это человек, который должен обеспечить хранение, обработку и доставку информации аналитику. Но там, где идет поставка и очистка — их обязанности могут пересекаться

Bigdata-инженеру достается вся черная работа. Если отказали системы, или из кластера пропал один из серверов — подключается он. Это очень ответственная и стрессовая работа. Система может отключиться и в выходные, и в нерабочее время, и инженер должен оперативно предпринять меры.

Это две основные профессии, но есть и другие. Они появляются, когда к задачам, связанным с искусственным интеллектом, добавляются алгоритмы параллельных вычислений. Например, NLP-инженер. Это программист, который занимается обработкой естественного языка, особенно в случаях, когда надо не просто найти слова, а уловить смысл текста. Такие инженеры пишут программы для чат-ботов и диалоговых систем, голосовых помощников и автоматизированных колл-центров. 

Есть ситуации, когда надо проклассифицировать миллиарды картинок, сделать модерацию, отсеять лишнее и найти похожее. Эти профессии больше пересекаются с компьютерным зрением. 

Сколько времени занимает обучение

У нас обучение идет полтора года. Они разбиты на шесть четвертей. В одних идет упор на программирование, в других — на работу с базами данных, в третьих — на математику.

В отличии, например, от факультета ИИ, здесь поменьше математики. Нет такого сильного упора на математический анализ и линейную алгебру. Знания алгоритмов распределенных вычислений нужны больше, чем принципы матанализа. 

Но полтора года достаточно для реальной работы с обработкой больших данных только если у человека был опыт работы с обычными данными и вообще в ИТ. Остальным студентам после окончания факультета рекомендуется поработать с малыми и средними данными. Только после этого специалиста могут допустить к работе с большими. После обучения стоит поработать дата-саентистом — поприменять машинное обучение на разных объемах данных.

Когда человек устраивается в большую компанию — даже если у него был опыт — чаще всего его не допустят до больших объемов данных сразу, потому что цена ошибки там намного выше. Ошибки в алгоритмах могут обнаружиться не сразу, и это приведет к большим потерям.

Какая зарплата считается адекватной для специалистов по большим данным

Сейчас есть очень большой кадровый голод среди дата-инженеров. Работа сложная, на человека ложится много ответственности, много стресса. Поэтому специалист со средним опытом получает около двухсот тысяч. Джуниор — от ста до двухсот. 

У аналитика данных стартовая зарплата может быть чуть меньше. Но там нет работы сверх рабочего времени, и ему не будут звонить в нерабочее время из-за экстренных случаев.

Как готовиться к собеседованиям

Не нужно углубляться только в один предмет. На собеседованиях задают вопросы по статистике, по машинному обучению, программированию. Могут спросить про структуры больших данных, алгоритмы, применение, технологии, про кейсы из реальной жизни: упали сервера, случилась авария — как устранять? Могут быть вопросы по предметной сфере — то, что ближе к бизнесу

И если человек слишком углубился в одну математику, и на собеседовании не сделал простое задание по программированию, то шансы на трудоустройство снижаются. Лучше иметь средний уровень по каждому направлению, чем показать себя хорошо в одном, а в другом провалиться полностью.

Есть список вопросов, которые задают на 80 процентах собеседований. Если это машинное обучение — обязательно спросят про градиентный спуск. Если статистика — нужно будет рассказать про корреляцию и проверку гипотез. По программированию скорее всего дадут небольшую задачу средней сложности. А на задачах можно легко набить руку — просто побольше их решать. 

Где набираться опыта самостоятельно

Python можно подтянуть на Питонтьютор, работы с базой данных — на SQL-EX. Там даются задачи, по которым на практике учатся делать запросы. 

Высшая математика — Mathprofi. Там можно получить понятную информацию по математическому анализу, статистике и линейной алгебре. А если плохо со школьной программой, то есть сайт youclever.org

Распределенные же вычисления тренировать получится только на практике. Во-первых для этого нужна инфраструктура, во-вторых алгоритмы могут быстро устаревать. Сейчас постоянно появляется что-то новое. 

Какие тренды обсуждает сообщество

Постепенно набирает силу еще одно направление, которое может привести к бурному росту количества данных — Интернет вещей (IoT). Большие данные такого рода поступают с датчиков устройств, объединенных в сеть, причем количество датчиков в начале следующего десятилетия должно достигнуть десятков миллиардов. 

Устройства самые разные — от бытовых приборов до транспортных средств и промышленных станков, непрерывный поток информации от которых потребует дополнительной инфраструктуры и большого числа высококвалифицированных специалистов. Это означает, что в ближайшее время возникнет острый дефицит дата инженеров и аналитиков больших данных.

📈 Стать аналитиком Big Data: пошаговое руководство

Анализ больших данных – относительно новая, но довольно востребованная сфера рынка труда. Спрос на специалистов по работе с данными постоянно растет. Big Data – это наборы данных очень больших размеров, которые также характеризуются многообразием и высокой скоростью обновления.

Аналитик больших данных – это специалист, который выявляет и исследует закономерности в данных с помощью специальных программных средств.

О том, чем занимаются специалисты по анализу больших данных, мы писали в статье Big Data: размер имеет значение. В этом материале, подготовленном при поддержке Факультета Аналитики Big Data онлайн-университета GeekBrains, мы сосредоточимся на навыках, необходимых для овладения профессией.

Английский язык

Актуальная информация по анализу больших данных в первую очередь появляется в англоязычных сообществах. Знание английского языка необходимо не только для чтения литературы по теме, но и для общения с зарубежными коллегами.

Soft skills

Работа в проектах над большими данными обычно разделяется между специалистами из разных сфер. Поэтому немаловажным является умение работать в команде. Развить свои soft skills помогут следующие курсы и книги:

Математика

Если вы начинаете свой карьерный путь из другой сферы, необходимо прокачать знания в дискретной математике и статистике. Так вы сможете лучше понимать алгоритмы обработки и методы анализа больших данных.

На русском:

На английском:

Программирование

Далее нужно изучить SQL – язык создания, модификации и управления базами данных.

Чаще всего для обработки и анализа больших данных используются такие языки программирования, как Python или R. Изучить их основы совершенно бесплатно можно с помощью онлайн-платформ.

На русском:

На английском:

Теория

Для того чтобы строить и интерпретировать прогностические модели, необходима сильная теоретическая база. В соответствующих онлайн-курсах включены основы статистики, высшей математики, необходимая теория и практические задания.

На русском:

На английском:

В дополнение:

Литература по Big Data

После просмотра курсов и освоения базы приступайте к чтению научно-технической литературы по теме. Не стесняйтесь читать и научно-популярную литературу – это позволит посмотреть на область свежим взглядом.

Подкасты

Подкасты и Youtube-каналы – одни из лучших способов быть в курсе последних новостей Big Data. Относительно YouTube обязательно изучите нашу подборку из 30 YouTube-каналов и плейлистов о Data Science. А ниже мы собрали подборку подкастов.

На русском:

На английском:

  • Data Skeptic – эксперты о статистике, машинном обучении, ИИ и Big Data;
  • Code Newbie – об успешных программистах и людях, сумевших стать профессионалами с нуля;
  • Learn to Code with Me – для новичков об основах программирования;
  • Coding Blocks – о лучших практиках программирования, алгоритмах и ООП;
  • Programming Throwdown – для разработчиков о работе на разных языках программирования;
  • Arrested DevOps – новое о практиках разработки;
  • Software Engineering Daily – о работе программного обеспечения.

После знакомства с теорией и основами программирования закрепите полученные знания на практике. Начните анализировать реальные данные. В этом вам помогут онлайн-курсы и популярные ресурсы:

Потребуются также и специальные инструменты для решения проблем, связанных с огромными объемами данных и их распределенной обработки:

LinkedIn

В первую очередь подпишитесь на сообщество Big Data and Analytics на LinkedIn. Там собраны не только курсы и офферы для аналитиков, но и вся актуальная информация от ведущих экспертов области. А также советуем следить за публикациями Ronald van Loon, Jules Polonetsky, DJ Patil и Bernard Marr. Они активно рассказывают о своем карьерном пути и делятся новостями из мира Data Science.

Сообщество

  • Stack Overflow Big Data – огромный ресурс с вопросами и ответами о проблемах, связанных с кодом;
  • Хабрахабр Big Data – статьи по анализу данных и машинному обучению;
  • Women in Big Data – форум для женщин в сфере больших данных;
  • Open Data Science – русскоязычное сообщество для специалистов из разных областей науки о данных;
  • MachineLearning.ru – вики-страница, посвященная машинному обучению на русском;
  • Cross Validated – вопросы и ответы по статистике и выбору лучших моделей;
  • R-bloggers – все, что вы хотели знать о R.

Направления в карьере

Мое видение – это мир, наполненный грамотными профессионалами в сфере данных. Профессионалы, которые могут использовать данные для разработки идей и принятия решений, основанных на данных

Дэвид Лангер (Вице-президент отдела Аналитики в Schedulicity)

По данным отчета LinkedIn 2020 г., специалисты по анализу данных на протяжении последних трех лет остаются одними из самых востребованных в таких отраслях, как информационные технологии и услуги, программное обеспечение, интернет, финансовые услуги, высшее образование, а также в научно-исследовательской сфере. Вакансии варьируются от младших разработчиков до старших вице-президентов и директоров по инжинирингу.

Средняя зарплата специалиста в области Data Science находится в диапазоне от $89 тыс. до $242 тыс. в США, а Европейская комиссия в своем отчете за 2019 г. объявила, что к 2020 г. в Европе будет создано 100 000 новых рабочих мест, связанных с данными.

Если вы только начинаете свой путь в Data Science, хотите получить диплом и помощь в трудоустройстве, мы рекомендуем записаться на курс Факультета Аналитики Big Data онлайн-университета GeekBrainsy. Программа курса даст основательную математическую и базу, основы языка Python и навыки работы с базами данных, а также научит работе с Hadoop и Apache Spark – востребованными инструментами работы с большими данными. Обучение на курсах ориентировано на применение навыков машинного обучения в бизнесе и построено по принципам практической работы над проектами с ведущими специалистами сферы и личным помощником-куратором.

Что такое «Big Data»?

Термин «большие данные» или «big data» начал набирать популярность с 2011 года. Сегодня его хотя бы раз слышал каждый. Проблема в том, что часто понятие используют не по определению. Поэтому давайте подробно разберемся, что это такое.

С развитием технологий количество данных стало увеличиваться в геометрической прогрессии. Традиционные инструменты перестали покрывать потребность в обработке и хранении информации. Для обработки данных, объем которых превышает сотни терабайт и постоянно увеличивается, были созданы специальные алгоритмы. Их принято называть «big data».

Сегодня информация собирается огромными объемами из разных источников: интернет, контакт-центры, мобильные устройства и т.д. Чаще всего такие данные не имеют четкой структуры и упорядоченности, поэтому человек не может использовать их для какой-либо деятельности. Для автоматизации анализа применяют технологии «big data».

Когда появились первые большие данные?

Большие данные появились в 60-70 годах прошлого столетия вместе с первыми ЦОД (центры обработки данных). В 2005 году компании начали понимать масштабы создаваемого контента пользователями интернет-сервисов (Facebook, YouTube и др.). Тогда же начала работу первая платформа, предназначенная для взаимодействия с большими наборами данных, — Hadoop. Сегодня она представляет собой большой стек технологий для обработки информации. Чуть позже популярность начала набирать NoSQL — совокупность методов для создания систем управления большими данными.

Объем генерируемой информации стал увеличиваться с появлением крупных интернет-сервисов. Пользователи загружают фотографии, просматривают контент, ставят «лайки» и т.п. Вся эта информация собирается в больших объемах для дальнейшего анализа, после которого можно вносить улучшения в работу сервисов. Например, социальные сети используют большие данные для показа пользователям релевантной рекламы (то есть той, которая соответствует их потребностям и интересам) в таргете. Это позволяет соцсетям продавать бизнесу возможность проведения точных рекламных кампаний.

Основные свойства больших данных

В самом начале статьи мы определили три основных свойства больших данных из общепринятого определения. Давайте раскроем их более подробно:

  • Объем. Из названия «большие данные» становится понятно, что они содержат в себе много информации. И это действительно так: компании могут ежедневно получать десятки терабайт различных данных, некоторые — сотни петабайт. То есть «большие данные» не были бы таковыми без объема.
  • Скорость. Большие данные поступают и обрабатываются из разных источников с высокой скоростью. При отсутствии этого свойства информацию уже нельзя будет назвать «big data». А еще они генерируются без остановки.
  • Разнообразие. Большие данные содержат в себе информацию, относящуюся к разным типам. Это одно из главных отличий от простых данных — они всегда структурированы и могут быть сразу сохранены в базе данных.

За последние несколько лет популярность больших данных увеличилась, в результате чего они получили два дополнительных свойства (характеристики): ценность и достоверность. Ценность определяется каждой компанией по-своему. Специал

московские госслужащие узнали, как и для чего управлять большими данными

ГлавнаяО проектеНовостиBig Data: московские госслужащие узнали, как и для чего управлять большими данными

06.12.2018

Со стороны бизнеса и правительств сегодня наблюдается повышенный интерес к науке о данных (Data Science) и большим данным (Big Data). Развиваются технологии для сбора, обработки и анализа огромного объема информации, которую затем используют не только для отчетов. Создаются цифровые портреты клиентов и избирателей, прогнозируется будущее, формируются команды и профили лояльности клиентов. Как работать с большими данными и чем они могут помочь в городском управлении? Об этом госслужащим столицы рассказали на семинаре «Большие данные в современном городе». В нем приняли участие более 100 человек.

Объем информации в Сети стремительно растет. Масштаб и скорость ее обработки продемонстрировал проректор по повышению квалификации Университета Правительства Москвы Сергей Журихин.

«В 2022 году объем данных в интернете будет составлять более 44 зеттабайт. С чем это сравнить? Все пляжи земли содержат 700 500 000 000 000 000 000 (семь квинтильонов пять квадриллионов) песчинок. 44 зеттабайт превосходят это число в 57 раз. Чтобы представить себе этот размер, возьмем обычные жесткие диски для компьютера. Для хранения 1 зеттабайта требуется около 83 миллионов жестких дисков емкостью 12 терабайт. С одного жесткого диска на 1 зеттабайт можно 63 миллиона лет смотреть видео с высоким разрешением 4K. А 44 зеттабайта — это уже 3 652 000 000 жестких дисков и 2 772 000 000 лет в 4К», — сказал он.

«Big Вata помогает предсказать будущее»

Более подробно о том, что же такое большие данные и как с ними работать, рассказала Наталья Полковникова — руководитель новых направлений Global Innovation Labs LLC, автор первых в России онлайн-курсов по обучению большим данным в АПК.

Big Data характеризуют пять элементов: объем (сейчас он превосходит то, что может обработать наш мозг), высокая скорость изменения данных, их разнообразие, достоверность и ценность.

Чего ждут от больших данных? На их основе делается предсказательная аналитика (поиск причинно-следственной связи). Можно спрогнозировать, как люди, техника, природа поведут себя в будущем. Например, большие данные могут быть предвестниками эпидемий. Есть сервисы, которые анализируют соцсети (посты, настроение, статус), ключевые слова в поисковике (какие лекарства ищут, способы лечения). Таким образом, можно понять, в каких районах пик заболеваемости. Эту информацию, к примеру, используют для активной рекламы лекарственных средств.

Большие данные помогают создать цифровой портрет гражданина (сколько энергии он потребляет в день, какое у него эмоциональное состояние, здоровье, что покупает и т. д.). Банки, например, выявляют сомнительных клиентов (с помощью больших данных анализируются платежи). HR-специалисты могут выявлять лидеров компании, подбирать команды, просчитывать ее слаженность и эффективность.

Город тоже видит и оценивает информацию о жителях. С проездных билетов, которые мы прикладываем в общественном транспорте, через камеры видеорегистрации, через сервисы госуслуг и т. д.

«Мы, например, работали с Департаментом науки и промышленности г. Москвы. Проводили анализ эффективности распределения субсидий. Мы взяли данные от компаний, получавших субсидии за последние 5 лет, и сделали идеальный профиль тех, кто может их эффективно использовать. Также выделили компании, которым не стоит давать субсидии», — рассказала Наталья Полковникова.

Она привела много примеров других стран, которые используют большие данные в госсекторе. Например, в Китае работает система оценки благонадежности. В США с помощью искусственного интеллекта повышают занятость иммигрантов, помогают им устроиться на ту работу, где они лучше адаптируются и выполняют свои функции эффективнее.

«Для начала мы должны накопить опыт и нужную базу данных, чтобы разрабатывать полезные рекомендательные системы жителям»

О том, как искусственный интеллект может помогать в управлении городом и стоит ли сегодня полностью полагаться на него, рассказала Мария Анисимова — заместитель руководителя продукта «Большие данные» Департамента информационных технологий г. Москвы.

«Применение искусственного интеллекта в решении городских задач не всегда является панацеей. Зачастую во всех промышленных решениях больше используются математические модели, таблицы в Excel (для предоставления оперативной отчетности и проверки гипотез) и, в редких случаях, нейросети. Почему? У них есть минус: непонятно, почему нейросетка приходит к тому или иному выводу, то есть остается неизвестным, какие факторы значимы. Это допустимо в анализе текстовой информации или изображений. Но, например, стоит задача выяснить, почему пациент пришел к одному терапевту, а не к другому. Нейросетка не даст ответа, почему. Таким образом, чтобы выбрать оптимальную модель прогнозирования, необходимо сначала конкретизировать итоговую цель, для которой вы разрабатываете решение», — сказала спикер.

Но при этом преимущества анализа больших данных очевидны. Он позволяет увидеть скрытые закономерности, незаметные человеческому восприятию. Это дает хорошие возможности оптимизации всех сфер жизни: государственного управления, медицины, безопасности, финансов, транспорта, образования и т. д. Большие данные могут обрабатываться в режиме реального времени, что повышает качество и скорость принятия решений.

Отдельно Мария Анисимова остановилась на теме накопления данных.

«Сейчас все хотят данные накопить впрок, и никто не знает, когда и где они понадобятся. 80% времени занимает нормализация, очистка, структурирование собранных данных, и далеко не всегда это можно решить IT-методами. Например, когда вы боту пишете какой-то вопрос, а он не может качественно найти на него ответ, это значит, что в базе данных нет накопленных ответов по этой тематике. Поэтому мы не можем использовать и выводить их жителям Москвы, т. к. репутационный риск намного выше. Для начала мы должны накопить опыт и нужную базу данных, чтобы на вопрос, куда сегодня пойти вечером, ответ от бота был полезным и расширенным».

По мнению участников, семинар помог расширить кругозор, узнать больше про Big Data, дал понимание, какие технологии используются в Москве для сбора, обработки и анализа данных и как это влияет на социальную и экономическую ситуацию. Некоторые отметили, что использование специальных сервисов для сбора информации о жителях может помочь повысить качество предоставляемых услуг.

Возврат к списку

Работают ли большие данные для HR-аналитики?

Большие данные изменили правила игры во всех отраслях и организационных подразделениях, особенно в сфере человеческих ресурсов (HR). Использование больших данных с помощью аналитики данных HR может помочь информировать и улучшить практически все области HR, включая набор, обучение, развитие, производительность и компенсацию. Используя большие данные, менеджеры по персоналу могут принимать более разумные решения и помогать организации более эффективно достигать своих целей.

Скачать Как работают большие данные для HR-аналитики? сейчас.
Смотри сейчас

Нужны ли HR большие данные?

Раньше было относительно легко собрать определенные данные о сотрудниках, такие как зарплаты и льготы. Однако большие данные в HR позволили собирать и оценивать данные до, во время и после процесса найма, чтобы помочь обосновать решения о найме и создать более эффективный персонал.

Большие данные могут дать менеджерам по персоналу возможность отслеживать и отслеживать эффективность усилий по найму, чтобы лучше определять наиболее эффективные стратегии, которые привлекают идеальных кандидатов.Таким образом, большие данные могут упростить процессы найма и упростить сужение больших пулов кандидатов до меньшего, более квалифицированного пула.

Кроме того, большие данные могут дать отделам кадров возможность выявлять модели и тенденции сотрудников и разрабатывать программы, направленные на повышение лояльности и сокращение текучести кадров. С большими данными менеджеры по персоналу могут понять, что необходимо не только для удержания лучших талантов, но и для их сохранения.

7 способов использования больших данных в HR-аналитике

Есть несколько способов использования больших данных в HR и HR-аналитике.Давайте углубимся в семь самых интересных из них.

1. Нанимайте лучших специалистов

Поскольку у большинства организаций много конкурентов, привлечение самых талантливых профессионалов может стать настоящей проблемой. Используя большие данные, менеджеры по персоналу могут фильтровать тысячи резюме и сужать поиск до наиболее многообещающих перспектив. Без использования больших данных набор лучших специалистов был бы гораздо более неэффективным и трудоемким процессом.

2. Определите приоритетность каналов найма

В наши дни организации используют различные каналы найма для заполнения вакантных должностей.Использование больших данных может выявить, какие каналы найма дают результаты, а какие не очень эффективны. Если организация обнаруживает, что у нее больше успехов при внутреннем найме, чем на онлайн-форумах по трудоустройству, она может отдать приоритет внутренним усилиям по набору персонала над внешними инициативами.

3. Выявить здоровье и травмы сотрудников

Реальность такова, что если многие сотрудники столкнутся с проблемами со здоровьем и травмами, организация будет менее продуктивной и прибыльной.Большие данные позволяют менеджерам по персоналу выявлять общие проблемы со здоровьем в своих организациях и должным образом готовиться к ним. Например, он может выявить, что сотрудники часто болеют в период с ноября по январь, что побудит нанять дополнительный временный персонал в этот период.

4. Повышение квалификации

Обучение может быть дорогой и требующей много времени частью процесса найма. Большие данные дают организациям возможность измерить, насколько эффективна потенциальная инициатива по обучению, что может снизить риск программ обучения, ведущих к плохому удержанию сотрудников.

5. Повышение мотивации и вовлеченности сотрудников

Используя большие данные, организации могут определять и вознаграждать лучших исполнителей. С помощью решений для управления данными можно выявлять нарушения политик или стандартов и принимать оперативные меры для решения этих проблем. Кроме того, большие данные могут выявить, сталкиваются ли сотрудники с проблемами производительности и нуждаются ли они в дополнительном обучении и / или ресурсах.

6. Увеличить удержание

Наем нужных сотрудников — один из аспектов HR, но заставить их остаться — это совершенно новая игра.Используя большие данные, менеджеры по персоналу могут быстро выяснить, что заставляет сотрудников увольняться, и внедрять программы по увеличению удержания. Хотя набор и обучение нового сотрудника обходятся дорого, потеря сотрудника может стоить еще больше.

7. Прогноз на будущее

Посредством анализа больших данных организации могут просматривать модели и тенденции кадровых ресурсов и использовать эту информацию для прогнозирования будущего. Прогнозирование будущего дает менеджерам по персоналу возможность улучшить свою долгосрочную кадровую стратегию и избежать проблем с наймом, удержанием персонала и производительностью в будущем.

Скачать Как работают большие данные для HR-аналитики? сейчас.
Смотри сейчас

Большие данные уже улучшают HR-аналитику: 3 реальных примера

HR-отделов различных организаций уже используют большие данные в своих интересах.

Как строительная компания использует большие данные для HR

VINCI, мировой лидер в области концессий и строительства со штатом более 185 000 сотрудников в 2100 компаниях, использует большие данные для улучшения своих HR-функций.Используя большие данные, VINCI может эффективно управлять данными о сотрудниках, а также повышать эффективность взаимодействия, адаптации и увольнения сотрудников.

Теперь организация может легко адаптироваться к изменениям в масштабах компании, лучше понять HR и повысить общую эффективность человеческого капитала.

Как коммуникационный бренд оптимизирует HR-задачи с помощью больших данных

RingCentral — ведущий поставщик глобальных корпоративных облачных решений для связи и совместной работы.Компания использует большие данные для сокращения административных задач HR и позволяет HR сосредоточиться на стратегических инициативах на рабочем месте, предоставляя сотрудникам и менеджерам доступ к информации о сотрудниках в режиме самообслуживания.

Как поставщик консалтинговых услуг и технологий оптимизирует использование больших данных для оптимизации HR

Capemini, мировой лидер в области консалтинга, технологических услуг и цифровой трансформации, ежегодно принимает на работу более 20 000 человек, в основном в Индии. Благодаря большим данным Capemini может предвидеть и оптимизировать управление персоналом и планирование, чтобы направить нужные команды на нужные проекты в нужное время.Теперь у компании есть шестимесячный обзор спроса и предложения.

Скачать Как работают большие данные для HR-аналитики? сейчас.
Смотри сейчас

Облако и будущее больших данных для HR

Организации, желающие использовать большие данные для улучшения своих кадровых ресурсов, могут приобрести дополнительные серверы или увеличить емкость своих внутренних хранилищ данных. Однако для того, чтобы действительно успевать за растущей сложностью и требованиями к аналитике больших данных, необходимо облако.

Когда данные размещаются в облаке, они хранятся на удаленных серверах и могут быть доступны с любого устройства, подключенного к Интернету. Облако устраняет необходимость в хранилищах данных и позволяет менеджерам по персоналу эффективно собирать данные и действовать с ними. Чтобы извлечь максимальную пользу из HR-аналитики больших данных, необходим комплексный облачный инструмент для управления данными и их интеграции.

Начало работы с большими данными для HR

Большие данные необходимы организациям, которые хотят обеспечить эффективное управление сотрудниками и достижение бизнес-целей.Полностью интегрированный набор приложений самообслуживания Talend может изменить способ работы отделов кадров.

Talend Data Fabric предлагает услуги интеграции и обеспечения целостности данных, позволяя менеджерам по персоналу собирать, управлять, преобразовывать и обмениваться данными в режиме реального времени. Попробуйте Talend Data Fabric сегодня, чтобы преобразовать HR-функции в вашей организации.

.

Большие данные, бизнес-аналитика и HR-аналитика: как они связаны?

Большие данные, бизнес-аналитика и HR-аналитика — три модных слова, о которых часто говорят. Вы действительно понимаете, что они означают? И какую дополнительную ценность большие данные и бизнес-аналитика привносят в сферу управления персоналом? Эта статья объяснит все, что вам нужно знать, чтобы ответить на эти вопросы, на различных примерах.

Большие данные

Что такое большие данные?

Большие данные традиционно характеризуются четырьмя элементами, также называемыми четырьмя буквами V.

  1. Объем: большие данные должны быть большими. И мы имеем в виду действительно большие. Мы не говорим о гигабайтах, мы говорим о терабайтах и ​​петабайтах. «Большой» в больших данных представляет собой миллионы и миллионы ячеек в таблице Excel. На самом деле, он часто бывает настолько большим, что вообще не помещается в Excel.
  2. Скорость: большие данные не статичны, они имеют определенную динамику. Он постоянно собирает новые данные. В качестве примера возьмем данные твиттера: большие объемы данных представляют собой сотни твитов и ретвитов в секунду.
  3. Разнообразие: большие данные имеют определенное разнообразие. Мы говорим не только о хорошо структурированных данных (данных, упорядоченных в аккуратные столбцы и строки). Мы также говорим о неструктурированных данных (например, данных в вашем среднем электронном письме).
  4. Достоверность: большие данные беспорядочные, и им не всегда можно доверять. Качество и точность не всегда присутствуют в больших данных. Очистка данных — это часть процесса анализа больших данных. Однако из-за большого количества данных некоторые из этих небольших ошибок могут быть сведены на нет.Таким образом, большой объем данных компенсирует снижение надежности отдельных точек данных.


Бернард Марр добавляет пятую букву V: Value. Доступ к большим данным бесполезен, если вы не можете превратить их в ценность!

Как большие данные применяются в HR

Существуют разные мнения о том, действительно ли большие данные применимы к HR. Простой ответ: да.

Однако есть более тонкий ответ: это зависит от обстоятельств. Есть причина, по которой специалисты по персоналу не разбираются в данных: объем данных, с которыми они работают, ограничен.Давайте посмотрим, как выглядят HR-данные, если принять во внимание пять V McKinsey и Марра для больших данных:

  1. HR имеет доступ к большому количеству разнообразных данных. Системы, содержащие данные о сотрудниках, информацию о заработной плате, показатели вовлеченности и т. Д., Являются примерами структурированных данных. Такие вещи, как обзоры производительности и контент электронной почты, могут содержать интересную информацию для анализа — и они часто неструктурированы.
  2. С точки зрения правдивости данные HR часто довольно беспорядочные и ненадежные.Такие данные, как чья-то карьера в организации, часто отсутствуют: старая дата просто переписана. Кроме того, многочисленные реорганизации и усилия по реструктуризации затрудняют отслеживание того, как долго кто-то оставался на должности. Пример: откуда вы знаете, что кто-то сохранил те же обязанности, если название его должности менялось дважды за последние 3 года?
  3. В целом объем данных в HR довольно мал. Я не видел большой базы данных, в которой записи о сотрудниках превышали бы несколько гигабайт.Это не обязательно плохо, но делает данные HR исключением. Обычно большие данные… больше. Однако для среднестатистического HR-профессионала несколько гигабайт данных — это уже нечто!
  4. Скорость данных в HR также довольно низкая. Данные HR обычно довольно статичны. Записи изменяются только тогда, когда кто-то переключает функции или когда разные отделы перемешиваются. В остальном данные остаются в основном статичными.
  5. Данные HR определенно содержат значение .При правильном использовании его можно использовать для выявления кадровых рисков, принятия более эффективных кадровых решений и помощи в создании конкурентного преимущества для фирмы.

Применимы ли большие данные к HR?

БЕСПЛАТНОЕ ПОШАГОВОЕ РУКОВОДСТВО

Разнообразие и инклюзивность
Руководство по опросу

Разнообразие и инклюзивность — это очевидная выгода для бизнеса. Загрузите бесплатное руководство по опросу, которое поможет выявить слепые зоны инклюзивности, которые могут повлиять на ваших сотрудников и ваш бизнес в целом.

Скачать бесплатно pdf

Опять же, думаю, да.HR-аналитика — это способ получить ценную информацию о сотрудниках. Это можно сделать за счет использования наборов данных, которые больше, чем когда-либо работали большинство специалистов по персоналу. В этом суть больших данных в HR.

Illustration big data

Примеры больших данных в HR

Давайте возьмем обработку естественного языка и объединим ее с HR. Большинство отделов кадров сидят на огромных кучах непроанализированных письменных обзоров эффективности. Вы можете использовать обработку естественного языка для анализа этих обзоров, чтобы создать профили компетенций сотрудников или автоматически генерировать оценки производительности как для сотрудников, так и для менеджеров.

Вы также можете использовать это, например, для анализа тональности трафика электронной почты. Можете ли вы измерить вовлеченность с помощью анализа сообщений электронной почты? Это сложно сделать, но люди могут получить очень интересные выводы.

Keencorp — пример организации, которая занималась этим последние несколько лет. Они утверждают, что могут предсказать вовлеченность и отношение сотрудников в различных группах, просматривая данные электронной почты.

Связь больших данных с HR-аналитикой

Всякий раз, когда мы говорим о прогнозировании текучести кадров или о количестве заявок на самообслуживание кадровых служб для оптимизации времени обработки, мы работаем с большими объемами данных, которые помогают нам генерировать новые идеи о кадрах.Это означает, что большие (HR) данные являются исходными данными для HR-аналитики.

Business intelligence in HR

Бизнес-аналитика

Что такое бизнес-аналитика?

Согласно Gartner, бизнес-аналитика — это общий термин, который включает приложение, инфраструктуру и инструменты, а также передовой опыт, обеспечивающий доступ к информации и ее анализ для улучшения и оптимизации решений и производительности.

Организационные данные часто хранятся в разных, отдельных системах.Эти системы не взаимодействуют друг с другом. Это означает, что ваши данные о продажах обычно не объединяются с данными о ваших запасах или посетителями вашего сайта.

Инструменты

, объединяющие эти данные, могут показать вам, какие клиенты на самом деле что-то купили (объединяя данные об объекте с данными о продажах) или какие товары продаются лучше всего (объединяя запасы с данными о продажах). Это отличные примеры инструментов бизнес-аналитики.

Как бизнес-аналитика применима к HR

Подобно нашему примеру продаж, бизнес-аналитика также может использоваться для данных HR.Ваша система отслеживания кандидатов и ваша система управления эффективностью обычно не объединяются. Это мешает вам проанализировать, какие сотрудники работают лучше всего.

Инструменты бизнес-аналитики (BI)

(см. Пример ниже) могут помочь вам объединить эти данные. После объединения этих данных будет намного проще сделать три вещи.

  1. Агрегирование данных: большая часть HR-отчетов состоит из специальных отчетов. Различные экстракты комбинируются вручную. Инструменты бизнес-аналитики помогают в агрегировании данных и позволяют создавать автоматические отчеты.
  2. Визуализация данных: большинство HR-систем являются транзакционными системами, которые генерируют транзакционные данные. Данные транзакции описывают событие с использованием измерения времени и значения, которое относится к одному или нескольким объектам. См. Пример ниже: кандидат принят на работу в определенный день, а контракт сотрудника расторгается в определенный день. Оба действия регистрируются в системе как отдельные записи (транзакции). Example of Business intelligence (BI) tools Эти системы созданы для ведения записей, а не для составления отчетов или визуализации данных. Инструменты бизнес-аналитики действительно хороши для агрегирования данных из нескольких систем и их визуализации.
  3. Анализ данных: последний шаг — анализ данных. Инструменты бизнес-аналитики намного лучше анализируют данные, чем обычная HR-система. Примеры: Power BI и SAS. Они позволяют вам статистически анализировать большие объемы данных.

Короче говоря, инструменты бизнес-аналитики созданы для агрегирования, визуализации, анализа и составления отчетов. В ролике ниже вы найдете краткое объяснение разницы между BI и HR-аналитикой.

Example of Business intelligence (BI) tools

ПРОГРАММА СЕРТИФИКАТА DIGITAL HR

Мастер новейших навыков
Digital HR

Научитесь выстраивать цифровую HR-стратегию и возглавить цифровую трансформацию в HR

Загрузить Syllabus

В этом уроке Джефф углубляется в отношения между Business Intelligence и HR

Примеры инструментов Business Intelligence

Некоторые из самых известных инструментов бизнес-аналитики в HR — это Qlik, Visier, Tableau и Power BI.

  • Visier позиционирует себя как решение для аналитики персонала с аналогичным приложением. Он объединяет данные из различных систем и помогает в анализе этих данных.
  • Qlik и Tableau позиционируют себя как инструменты визуализации данных, которые служат соединителями для всех ваших информационных систем.
  • Microsoft Power BI будет более естественным для аналитиков, которые привыкли работать в Excel. Power BI особенно полезен, когда большая часть отчетов выполняется в Excel.Мы включили Power BI в наш курс HR-аналитика, поскольку он прост в использовании. Посмотрите курс, если вы еще не сделали этого!
Gartner’s 2016 Magic Quadrant for Business Intelligence platforms Магический квадрант Gartner для платформ бизнес-аналитики за 2016 г.

Связь больших данных с HR-аналитикой

Многие инструменты бизнес-аналитики делают то, что большинство людей называют HR-аналитикой. Однако на самом деле это немного сложнее.

Инструменты бизнес-аналитики

в HR очень хороши для подключения различных систем, визуализации данных и помощи в составлении отчетов по этим данным.

Однако эти инструменты не так хороши для реальной аналитики данных (настоящей HR-аналитики). Программные пакеты, которые специализируются на этой аналитике, такие как SPSS и R, делают это намного лучше. Если вам интересно узнать больше об этих и других инструментах, ознакомьтесь с нашим обзором 5 лучших инструментов HR-аналитики.

Технически эти инструменты могут входить в категорию «бизнес-аналитика». Однако они обычно рассматриваются как автономные инструменты.

Это связано с тем, что процесс аналитики требует четко сформулированного исследовательского вопроса, который зависит от контекста, культуры и особенностей данных организации.Это очень сложно автоматизировать в системе бизнес-аналитики — и поэтому настоящий анализ в HR выполняется вручную экспертами по данным.

В этом уроке мы объясняем разницу между бизнес-аналитикой и прогнозной (кадровой) аналитикой

HR-аналитика

Что такое HR-аналитика?

HR-аналитика — это систематическая идентификация и количественная оценка людей, влияющих на результаты бизнеса. Другими словами, это подход к управлению человеческими ресурсами, основанный на данных.

HR-аналитика позволяет нам ответить на такие вопросы, как:

  • Какой у меня будет оборот в следующем году?
  • Какая часть текучести моих сотрудников состоит из сожаленных потерь?
  • Как я могу оптимизировать укомплектование персоналом для наших заявок клиентов на самообслуживание HR?
  • Какие факторы влияют на текучесть кадров?
  • Каковы мои самые большие риски для персонала?
  • И так далее

Я могу продолжать и говорить об HR-аналитике, но для получения более подробной информации, вам лучше прочитать наш блог Что такое HR-аналитика?

Как это применяется в HR

Примеры HR-аналитики включают Keencorp и прогнозную аналитику текучести кадров.Здесь можно найти отличный обзор приложений прогнозной аналитики в HR.

Как HR-аналитика связана с большими данными и бизнес-аналитикой

Как вы теперь понимаете, большие данные и бизнес-аналитика — это общие бизнес-термины. Применительно к HR они составляют основу аналитики данных HR.

Существует некоторая дискуссия о том, подпадает ли анализ типа «кусочек и кости», который характерен для многих приложений бизнес-аналитики, в категорию аналитики HR.Некоторые эксперты утверждают, что термин HR-аналитика следует использовать только тогда, когда мы говорим о продвинутой аналитике, например о более сложной прогнозной аналитике.

Другие, включая меня, имеют более широкое определение HR-аналитики: HR-аналитика — это управление людьми на основе данных. Я считаю, что приложения бизнес-аналитики являются фундаментальной частью HR-аналитики, поскольку они помогают подключать источники данных и позволяют специалистам по персоналу получать информацию с помощью интегрированной отчетности по данным HR.

Заключение

Этот обзор о том, как большие данные и бизнес-аналитика связаны с HR-аналитикой, оказался длиннее, чем ожидалось.Но это не проблема, важно знать разницу между разными терминами.

Несмотря на то, что эти термины часто используются как модные слова, теперь вы можете определить, как они могут повысить ценность вашей организации. Большие данные, бизнес-аналитика и HR-аналитика — все это части одной большой семьи: более ориентированный на данные подход к управлению человеческими ресурсами!

Сертификат программы HR Analytics

Поднимите себе карьеру. Станьте
специалистом по HR-аналитике!

Загрузить Syllabus

.
0 0 vote
Article Rating
Подписаться
Уведомление о
guest
0 Комментарий
Inline Feedbacks
View all comments