Специализация Yandex «Машинное обучение и анализ данных»
Алексей
Швец
Очень хороший старт, позволил многое вспомнить и систематизировать. Если есть понимание из мат. анализа, линейной алгебры и статистики, то можно смело браться за курс, если нет, то лучше где-то приобрести перед началом. Команде, работавшим над курсом хочется сказать слова благодарности и пожелания не снижать планку в дальнейшем.
Вадим
Аюев
Отличный курс от одного из лучших учебных заведений России. Прекрасно подойдёт для желающих начать изучение Machine Learning. В достаточной степени образно объяснены базовые понятия, приведены примеры и ссылки для дальнейшего самостоятельного изучения материала (или повторения забытого после вуза). Практические задания просты и снабжены исчерпывающими примерами.
Курс рассчитан на аудиторию с навыками программирования, хотя задания более чем на 20 строк кода здесь не встречаются.
Степан
Леонтенко
Курс позволяет освежить в памяти основы математики, которые были успешно забыты после полученных зачетов и экзаменов в институте.
Анна
Зверева
Большое спасибо за курс!
Я в данный момент приближаюсь к завершению своей подготовки по машинному обучению и вскоре буду искать работу. Ваша серия курсов очень помогла в освоении этого тернистого пути. Хотелось получить именно глубокое понимание обсуждаемых тем. И 41 из 1058 (надеюсь, только пока) место в конкурсе kaggle от Bosch, на мой взгляд, подтверждает высокое качество освоения материала.
К сожалению, лично для меня освоение такой масштабной области как машинное обучение, оказалось физически и психически слишком неподъёмным при совмещении с основной работой. Поэтому бросила работу и последние месяцы плотно занимаюсь обучением. О чём, кстати, не жалею. Качество усвоения намного выше, чем при учёбе только по выходным.
Василий
Гречихин
Хочу поделиться несколькими мыслями о курсе «Математика и Python для анализа данных».
Я увидел рекламу этой специализации на хабре и решил пройти её в качестве знакомства с анализом данных и машинным обучением.
Очень понравилась адекватная разбивка по неделям, удается идти по графику без спешки, в отличие от многих других курсов.
Большое спасибо за курс!
Иванов
Александр
Шикарный курс. Особо благодарен за задачу про червивые яблоки из Турции. Благодаря ей я до сих пор не помню формулу Байеса, но теперь пониманию и в любой момент могу воспроизвести. Почему-то это главный восторг. Спасибо, Евгений. Так же хочется еще раз поблагодарить Евгения за отзывчивость в слэке и объяснение отличий доверительных интвервалов от предсказательных.
Помимо статистики, очень классное и внятное объяснение математики было в целом. Может только про определитель и свд западает, я скоро забуду опять, как-то интуитивного понимание не сложилось в голове. Зато понял методы оптимизации и матричные операции. Спасибо!
Андрей
Лаврененко
Хочу поблагодарить преподавателей за очень и очень приятную подачу, приятную в том плане, что они рассказывают достаточно доступно, интересно и в то же время после просмотра ты понимаешь, что узнал что-то реально полезное и, по обычным меркам, сложное, хотя вот сложность из-за подачи как раз и не ощущается, потому что приводятся очень хорошие примеры и аналогии.
Приятно, что преподаватели сами по себе очень компетентные люди, интересующиеся тем, чем занимаются. Понравился раздел «Дополнительные материалы», где приводятся различные интересные ссылки на ресурсы, статьи и картиночки. В общем, огромное Вам СПАСИБО!
Foreign
student
As a former MIPT alumni, I enjoyed with brilliant teaching of Emely Drayl, Viktor Kantor, Evgeniy Sokolov and Evgeniy Ryabchenko. They helped me to brush up my knowledge in Linear Algebra and Probability and begin to learn Python at last (currently I work on C++). Great thanks!
Hope to prolong this spec study with enthusiasm, hope to realize my future projects with help of taken courses.
Дмитрий
Васильев
Были очень интересные практические задания. Некоторые из них потребовали довольно много времени, но это того стоило. Параллельно пришлось подтягивать математику, что очень полезно само по себе. Тем, кто будет проходит этот курс в будущем, рекомендую освежить знания по статистике и теории вероятностей — это сильно пригодится.
Из преподавателей отдельно отмечу Евгения Соколова, который очень просто и доступно объяснил тему решающих деревьев. Еще запомнилась одна из лекций Эмели Драль, где она на примерах показала типичные ошибки начинающих специалистов по анализу данных. Остальные ребята тоже отлично справились со своим делом.
Курс очень крутой. Ни разу не пожалел, что записался.
Анна
25 лет, по образованию специалист по информационной безопасности, около 3 лет работала разработчиком.
«Взяла этот курс, так как очень люблю машинное обучение и анализ данных. До этого проходила курсы от зарубежных ВУЗов, как только появился курс на русском языке — сразу записалась. Хотя многие темы были мне известны, все равно было интересно и полезно (особенно статистика!), и были новые материалы, с которыми не работала.
Выполнила первый проект — хорошо документированный, интересный, наиболее приближенный к науке и практике.
Огромное спасибо создателям курса за проделанную работу!»
Сергей
«Ребята, вас бы к нам в МГТУ им. Баумана (лет 5 назад). Спасибо за специализацию! Эмели и Евгений Соколов очень просто и понятно объясняют, хочется увидеть вас в живую .Евгений Рябенко и весёлая статистика — неразделимые вещи. Виктор умеет очень непринужденным тоном говорить о мат. анализе, как будто это тапочки, которые он вчера оставил на обувной полке».
Константин
Окончил экономический факультет МГУ в 1989 году. Занимался внедрением систем ERP, экономическими исследованиями.
«Многое из курса нам преподавали еще в 80-х. С удовольствием осознал, что метод опорных векторов, SVM, мы проходили вскоре после его открытия, математика ведь не была нашим профильным предметом!
На курсе оценил практичность и простоту реализации некоторых вещей. Меня интересуют анализ временных рядов и методы кластеризации. Очень понравилось, как было сделано занятие по тематическому моделированию, но я лично не знаю, где это применять.
Почему-то я больше слышал про R , а не про Python, вначале это настораживало. У меня был неплохой опыт программирования на С, меньше С#, С++.
Это был мой первый опыт онлайн-курсов, мне понравилось. Спасибо!».Александр
Студент киевского политеха, факультет прикладной математики.
«Очень крутой курс, все понравилось! Преподаватели просто топ, единственное — добавил бы еще практики. Курс сделан на высоком уровне, особенно понравилось преподавание Виктора и Евгения, импонирует их стиль подачи информации.
Курс сделан доступно, понятно. Здорово, что всегда есть возможность получить ответ на свой вопрос в чате.».
У Yandex есть интересная программа по Machine Learning для программистов
У Yandex есть интересная программа для ОПЫТНЫХ программистовЕсли вы опытный бэкендер и интересуетесь машинным обучением, мы будем рады с вами пообщаться. Наши эксперты по компьютерному зрению, обработке естественного языка, речевым технология и рекомендательным системам помогут вам окунуться в решение перспективных задач и развиваться
в интересном направлении.Мы приглашаем бэкенд-разработчиков, которые уже приобрели достаточно опыта и точно знают, что в своих компетенциях им нужно сдвигаться в сторону ML, получить практические навыки — а не навыки учёного — в решении промышленных задач машинного обучения.
Ну что же, хорошая программа.
Но я хочу обратить внимание, что они ищут опытных прогеров.
Видимо, после их обучения огромного кол-ва желающих изучить Machine Learning, выясняется,
что эти люди Mаchine Learning осваивают хорошо, «к пуговицам претензий нет»,
а вот пальто сшить с «перламутровыми пуговицами» не могут,
потому что программировать то не умеют.
Не могут разработать сервис, запустить его в Prod. Добиться, чтобы сервис работал 24 x 7.
Yandex:
В первые месяцы обучение по программе курса будет составлять примерно 30% вашего рабочего времени, затем — около 10%. Однако важно понимать,что работа с самими ML-моделями продолжит занимать примерно вчетверо меньше, чем все сопутствующие процессы. К ним относится подготовка бэкенда, получение данных, написание pipeline для их предобработки, оптимизация кода, адаптация под специфическое железо и т. д. ML-инженер — это, если хотите, fullstack-разработчик (только с больши́м уклоном в машинное обучение), способный решить задачу от начала и до конца. Даже с готовой моделью наверняка потребуется проделать ещё ряд действий: распараллелить её выполнение по нескольким машинам, подготовить реализацию в виде ручки, библиотеки или компоненты самого сервиса.
Вот такие дела.
Так что изучайте программирование, а ML само к Вам постучится.
Желаю всем успехов.
7 курсов, которые помогли мне войти в профессию
Уже почти год я занимаюсь машинным обучением и анализом данных, а не контекстной рекламой. Почему — это тема отдельной статьи, которую я, пожалуй, оставлю на потом 🙂 В основном, делюсь своими успехами в FB. Там же, в комментариях я пообещал написать небольшой обзор курсов, которые прошел, чтобы войти в профессию специалиста по машинному обучению и анализа данных. Собственно, вот этот обзор.
Войти в профессию в моем понимании — это начать зарабатывать этим деньги, если что.
С наскока не получится. Будет сложноПеред тем, как я влез во все это, я думал: раз умею работать с трафиком, google certified trainer, разбираюсь в аналитике, пишу на JavaScript, PHP, когда-то писал на Java и вообще весь из себя такой крутой, то и с машинным обучением быстро разберусь. Месяц-два и я в теме. Редко я так сильно заблуждался 🙂
Машинное обучение и анализ данных тянет за собой целый хвост дисциплин, в которых стоит разбираться хотя бы на уровне «могу примерно понять, что здесь происходит»:
- статистика
- линейная алгебра
- математический анализ
- комбинаторика
- теория вероятности
- алгоритмы и структуры данных
- методы численной оптимизации
- … список неполный, если что 🙂
Ну и само собой, придется писать код. Скорее всего, это будет Python или R. А если собираетесь стать хардкорным ML-инженером — то еще и на C++.
В общем, если вы, в отличие от меня, олимпиадник и PhD по математике, то все просто.
Итак, поехали.
1. Специализация «Машинное обучение и анализ данных» от Яндекса и МФТИ на Coursera
Не зря это называется «специализация». 5 полноценных курсов + последний — финальный проект. Рассчитана на 8 месяцев, хотя я довольно спокойно прошел за 5, проходя параллельно другие курсы и добирая знаний там, где их было недостаточно.
По каждой теме курса — отличные конспекты и довольно интересные задания. В чатике курса — на момент написания статьи 5754 человека. Мне помогали даже глубокой ночью в пятницу 🙂
Единственное, что может смутить кого-то — это то, что видео курса записан для Python 2. Но задания уже переделали под 3-й питон. Реальная разница в коде в 99% случаев — это наличие или отсутствие скобочек у оператора print. Поэтому я забил на это и спокойно проходил. Актуальность в порядке.
Пройдемся по каждому курсу по отдельности:
a). Математика и Python для анализа данных
Супрекомпактный курс, в котором всего по чуть-чуть: основы Pandas, Numpy, Matplotlib, немного про матрицы и линейную алгебру, оптимизацию функций в scipy, градиентный спуск и другие методы оптимизации, основные понятия статистики и центральную предельную теорему.
Что такое производная и как писать на Python «Hello World», никто объяснять не будет, поэтому будьте готовы к тому, что придется вспомнить что-то из программы математики старших классов и посмотреть самую бузе про то, как писать на Python. Что-то вроде «Python с нуля за 20 секунд» вполне сойдет.
b). Обучение на размеченных данных
Здесь уже начинается само машинное обучение: будете обучать алгоритмы на размеченных данных и потом ими что-то предсказывать 🙂 Будет про линейные модели, деревья и ансамбли алгоритмов. Ну и конечно, про то, как оценивать качество моделей.
После этого курса уже будете знать, как, к примеру, обучить алгоритм на данных о квартирах (площадь, адрес, этаж и т.д.) и их стоимости. И потом предсказывать цену на новую квартиру, которой еще нет в базе данных.
c). Поиск структуры в данных
Если в предыдущем курсе говорили о данных с «ответами» (ценой), то здесь речь о том, что можно сделать с данными, у которых «ответа» нет. К примеру, как разбить всех клиентов клиентской базы на 8 сегментов (кластеров), каждый из которых обладает какими-то своими особенностями. Или найти клиентов из базы, выбивающихся из общей массы (поиск аномалий). Или научить алгоритм выделять в куче разных текстов темы и разделять тексты по этим темам (тематическое моделирование).
d). Построение выводов по данным
Здесь о статистике. Я полюбил и возненавидел этот курс одновременно 🙂 Полюбил за интересные задания. А возненавидел за то, как сухо и без объяснений «почему именно так» подается теория. Про проверку статистических гипотез, различные статистические критерии, АБ-тестирование и т.д. Мне с нуля было сложно. В общем, это нужно просто пережить 🙂
e). Прикладные задачи анализа данных
Курс очень кратко по верхам про 4 больших раздела в машинном обучении: прогнозирование временных рядов (продажи, погода, курс биткойна), компьютерное зрение (это о том, как, к примеру, научить алгоритм отделять фоточки енотов от своих селфи), анализ текстов (к примеру, как научить алгоритм отличать позитивный отзыв в соцсетях от негативного) и рекомендательные системы. Лента в фейсбучке, рекомендации в яндекс.музыке, рекомендации фильмов в Netflix — это все работа рекомендательных систем.
f). Финальный проект
Берете на выбор один из 4-х проектов и доводите его по шагам до точки, в которой проект можно положить к себе в портфолио. Можно сделать и все 4, если к этому моменту у вас еще будет на это время 🙂
Если резюмировать, то именно эти 6 курсов помогли мне разобраться в основах классического машинного обучения. С одной стороны, здесь не совсем детская сложность подачи и заданий. С другой, в курсах и конспектах есть все, чтобы эти задания решить.
И да, к каждой неделе есть конспект. И эти конспекты шикарны: все кратко и в одном месте. Я до сих пор в них иногда заглядываю.
2. «Линейная алгебра» от Высшей школы экономики на CourseraНаверное, не самый лучший курс по линейной алгебре в мире 🙂 У меня осталось впечатление излишнего формализма: очень правильно и точно рассказывают и доказывают формулы, но не объясняют, почему так и откуда эти формулы взялись. Т.е. понятно, что рассказали, но не понятно, для чего это и почему так. Но для вводной подойдет.
По содержанию — разбирают самые азы: как найти определитель, собственные векторы и собственные значения матрицы, решить СЛАУ, решить уравнение в матричном виде, отличать отображение от ядра и т.д. Для того, чтобы без особого ужаса читать формулы и не пугаться фраз типа «матрица плохо обусловлена» более чем достаточно.
Проходить стоит, потому что линейной алгебры в машинном обучении много.
3. «Основы статистики» на StepikШикарный вводный курс от института биоинформатики. Ведет Анатолий Карпов, и ведет просто замечательно.
Чаще всего я встречал случаи, когда даже простые вещи на курсах преподаватели объясняют сложно. Почему так — большой вопрос. Может, стараются так поднять свой авторитет. Или следуют принципу «я страдал — и ты будешь». Это не преподавание, а способ потешить свое эго. Сам через это проходил и представляю, соблазн велик 🙂
Здесь же обратная ситуация: объясняют для того, чтобы мы поняли. Получается просто, понятно и интересно. Прошел курс быстро и с огромным удовольствием. Пока что, по мне, лучший курс по основам статистики. Если быть точным, там 3 части курса, со 2-й части начинаются задания на R.
Просто настоятельно рекомендую этот курс пройти. Хотя бы 1-ю часть. Я его начал проходить вместе с курсом «Построение выводов по данным» специализации Яндекса и МФТИ, ибо хотел понимать, что происходит 🙂 Это секретная техника «пройти курс, чтобы пройти курс.»
Проходить стоит, потому что в машинном обучении и анализе данных статистика нужна.
4. «Комбинаторика для начинающих» на CourseraЕще один отличный курс как по содержанию, так и по преподавателю. Мистер Райдогорский преподает и в ШАД, и в МФТИ и где-то еще, и делает это хорошо. Очень последовательно, от очевидных вещей до не очень, постепенно наслаивая за каждый урок ровно по одному слою новых знаний и объясняя все с азов.
Обычно, комбинаторные задачи отвечают на вопрос «сколько всего существует комбинаций чего-то». Пример простейшей комбинаторной задачи: сколькими способами могут рассесться 30 учеников в классе.
Проходить рекомендую по 3-м причинам:
- Решение многих задач по теории вероятности (в машинном обучении это встречается) часто сводится к комбинаторным задачам.
- Комбинаторные задачи вполне могут попасться на собеседовании или при поступлении в условный ШАД / MADE / Ozon Masters.
- Это просто забавно и интересно 🙂
Обычно, этот предмет называется «Алгоритмы и структуры данных». Так вот в курсе — про первую часть, алгоритмы.
Курс для тех, кто любит «пожестче». Здесь не про то, как писать код. Здесь именно про сами алгоритмы: сортировки, расстояние Левенштейна, жадные алгоритмы, динамическое программирование и т.д. То, что обычно спрашивают на собеседованиях в условный Яндекс и Google, но в реальной работе применяется редко.
Подразумевается, что вы уже знаете любой популярный язык программирования, от Python и Ruby до C и C++, хотя бы на самом базовом уровне (даже без ООП, просто функции, переменные и т.д.). А большего здесь и не понадобится. Сложность будет не в том, как писать код, а в том, что же писать 🙂
Крус «Algorithmic Toolbox» на английском, но в его делали и русскоязычные ребята, которые еще запустили аналог этого курса на stepik: «Алгоритмы: теория и практика. Методы».
В каком случае рекомендую проходить:
- Если будете поступать куда-то, где нужны базовые знания алгоритмов
- Если собираетесь ходить по собеседованиям в большие компании
Продолжение курса алгоритмов. Здесь про стеки, очереди, кучи, хэш-таблицы, самобалансирующиеся деревья. После него становится понятно, что же «под капотом», к примеру, list и dict в Python и почему до Python 3.6 dict не сохранял порядок элементов, а теперь сохраняет, и чем за это приходится платить.
Для тех, кто хочет «пожестче», проходите на C++. Так получится ощутить на себе все нюансы по работе с памятью, про которые рассказывают в курсе.
Именно этот курс я проходил уже после того, как поступил в MADE. Без него бы было сложнее сдавать там алгоритмы.
У обоих курсов по алгоритмам есть пробел: к сожалению, в них нет ничего про алгоритмы на графах. Но, если что, под это есть отдельный курс специализации, из которой курс «Algorithmic Toolbox» на Coursera. Я сам его не проходил, но слышал, люди хвалили.
7. «Нейронные сети и компьютерное зрение» от Samsung Research Center на stepikОтличный базовый курс про нейронки: как они устроенны, что такое нейрон, как нейроны складываются в слои, какие слои бывают, какие бывают функции активации, как нейросети учатся, как работает backprop и т.д.
Все на PyTorch, что очень здорово и наглядно.
Создатели курса поступили довольно мудро: тем, кто хочет попроще, сделали основной курс. В конце обучить нейросеть, которая сможет отличать фотки мытых тарелок от грязных, уже сможете 🙂
А тем, кому нужно «пожестче», добавили в каждую неделю блоки теоретических заданий. Там будет и про матричное дифференцирование, и ручками производные сложных функций для алгоритма обратного распространения ошибки придется считать, и много еще всего. Лично я исписал далеко не одну страницу блокнота 🙂
И это все?
Нет, нет, еще раз нет и даже близко нет. Это только начало. Есть еще куча интересных и полезных курсов так или иначе связанных с машинным обучением и анализом данных.
К тому же, у больших IT-компаний — еще и свои программы подготовки специалистов по машинному обучению и анализу данных (ШАД, MADE, Ozon Masters). Попасть туда обычно непросто (конкурс 20-30+ человек на место), учиться обычно 1.5-2 года.
Учиться сложно. К примеру, я поступил в MADE (data.mail.ru). Был приличный конкурс и попали далеко не случайные люди. И все равно, из-за алгоритмов после первого семестра вылетела примерно половина. Нагрузка местами приличная, в сложные недели на учебу и ДЗ уходило в районе 30+ часов.
Но, по мне, это чертовски интересно и того стоит.
Connectica Lab. Telecoms Loyalty & Customer Data. Сергей Чернов, Yandex Data Factory: machine learning и абонентская лояльность — Конференции в России
Почему BigData – это история про машинное обучение, а не про аналитику. Результаты реальных кейсов Yandex Data Factory по предсказанию абонентского оттока и повышению лояльности.
Вконтакте
Google+
Нравится 1
11 Декабря 2015 14:32
3975
Вконтакте
Google+
Нравится 1
11 Декабря 2015 14:32
3975
Сергей Чернов, руководитель проектов в Yandex Data Factory, выступает с докладом «Аналитика без аналитиков: что machine learning нам готовит?». В рамках VII Форума «TELECOMS LOYALTY & Customer Data Monetization.
Слешайте подкаст программы:
7 декабря 2016 года компания Connectica Lab провела VII Форум «TELECOMS LOYALTY & Customer Data Monetization: Удержание клиентов и маркетинговая аналитика». Мероприятие собрало более 150 представителей бизнеса, операторов и регулятора, интернет-компаний, сервис-провайдеров, системных интеграторов и других игроков ИКТ-рынка Москвы, российских регионов и стран СНГ.
{ «prev»:»/ict_video_watch/connectica_lab-telecoms_loyalty_customer_data-olga_maksimova-mts-20151211023203″, «prev_topic»:»Connectica+Lab.+Telecoms+Loyalty+%26+Customer+Data.+%D0%9E%D0%BB%D1%8C%D0%B3%D0%B0+%D0%9C%D0%B0%D0%BA%D1%81%D0%B8%D0%BC%D0%BE%D0%B2%D0%B0%2C+%D0%9C%D0%A2%D0%A1%3A+%D0%B8%D0%B7%D0%BC%D0%B5%D1%80%D0%B5%D0%BD%D0%B8%D0%B5+NPS%2C+%D1%83%D0%B4%D0%BE%D0%B2%D0%BB%D0%B5%D1%82%D0%B2%D0%BE%D1%80%D0%B5%D0%BD%D0%BD%D0%BE%D1%81%D1%82%D1%8C+%D0%BA%D0%BB%D0%B8%D0%B5%D0%BD%D1%82%D0%BE%D0%B2+%D0%B8+%D1%80%D0%BE%D1%81%D1%82+%D0%B2%D1%8B%D1%80%D1%83%D1%87%D0%BA%D0%B8″, «next»:»/ict_video_watch/id-konnekt-ix-forum-it-na-slujbe-oboronno-promyshlennogo-kompleksa-20200819105310″, «next_topic»:»%D0%98%D0%94+%D0%9A%D0%BE%D0%BD%D0%BD%D0%B5%D0%BA%D1%82+-+IX+%D0%A4%D0%BE%D1%80%D1%83%D0%BC+%C2%AB%D0%98%D0%A2+%D0%BD%D0%B0+%D1%81%D0%BB%D1%83%D0%B6%D0%B1%D0%B5+%D0%BE%D0%B1%D0%BE%D1%80%D0%BE%D0%BD%D0%BD%D0%BE-%D0%BF%D1%80%D0%BE%D0%BC%D1%8B%D1%88%D0%BB%D0%B5%D0%BD%D0%BD%D0%BE%D0%B3%D0%BE+%D0%BA%D0%BE%D0%BC%D0%BF%D0%BB%D0%B5%D0%BA%D1%81%D0%B0%C2%BB» }
10 онлайн-курсов по машинному обучению
Теплица социальных технологий составила небольшую подборку онлайн-курсов по машинному обучению. В материале представлены российские и иностранные учебные программы, большая часть которых бесплатные.
1. Neural Networks for Machine Learning от University of Toronto
Бесплатный 4-месячный курс на Coursera. Лектор – когнитивный психолог. В программе курса – обучение персептронов (модель восприятия информации мозгом), распознавание объектов с помощью нейронных сетей, нейронные сети Deep Belief. После рассмотрения каждого из алгоритмов даются практические советы по его применению для решения задач машинного обучения. Однако у курса высокий порог вхождения – участников ждет много математики.
Страница курса
2. Machine Learning With Big Data от University of California
Курс подойдет всем тем, кто хочет узнать основы работы с большими данными и с помощью каких инструментов можно создавать прогностические модели.
Страница курса
3. «Введение в машинное обучение» от НИУ ВШЭ и «Яндекс»
Курс НИУ ВШЭ создавался при участии специалистов «Школы данных Яндекса», поэтому в его основе задачи, основанные на реальных данных. Слушатели узнают об основных методах машинного обучения и их особенностях, научатся оценивать качество моделей и их пригодность для решения конкретной задачи. От студентов ожидают знаний об основных понятиях математики и базовых навыков программирования.
Страница курса
Еще по теме: Топ-10 технологий 2017 года: искусственный интеллект, «умные» вещи и машинное обучение
4. «Machine Learning» от Stanford University
Курс познакомит с наиболее эффективными алгоритмами машинного обучения, у слушателей будет возможность получить опыт их практического применения. Стэнфордский курс также обещает лучшие инновационные практики Кремниевой Долины. Максимально широкое введение в машинное обучение, data mining и статистические методы распознавания образов. Однако нужно учесть, что практические задания слушатели выполняют не при помощи Python, а в Octave.
Страница курса
5. «Machine Learning Foundations: A Case Study Approach» от University of Washington
Профессоры из Университета Вашингтона дают по ходу курса практические примеры с реальными наборами данных, не перегружая курс углубленным изучением, сосредоточившись именно на знакомстве с темой.
Страница курса
6. «Машинное обучение» от «Школы данных Яндекса»
В рамках курса рассматриваются основные задачи обучения по прецедентам: классификация, кластеризация, регрессия, понижение размерности. Изучаются методы их решения, как классические, так и новые, созданные за последние 10-15 лет. По сути это более продвинутая версия совместного курса «Яндекса» и ВШЭ.
Страница курса
7. «Машинное обучение и анализ данных» от МФТИ и Yandex Data Factory
Ученые Московского физико-технического института (МФТИ) и практики из «Яндекса» объединили свои усилия для создания этого курса по анализу данных и машинному обучению. Курс поделен на несколько частей: «Математика и Python для анализа данных», «Обучение на размеченных данных», «Поиск структуры в данных», «Построение выводов по данным», «Прикладные задачи анализа данных».
Страница курса
8. Practical Machine Learning от Johns Hopkins University
Курс от частного исследовательского университета, занимающего высокие позиции в рейтингах вузов. Занятия продлятся 4 недели, авторы — профессора биостатистики из Bloomberg School of Public Health.
Страница курса
9. Cognitive Services APIs от Microsoft
Ведущий мировой производитель софта расскажет о возможностях машинного обучения на примере своей платформы для распознавания Cognitive Service.
Страница курса
10. Intro to machine learning
Наиболее карьероориентированный курс по машинному обучению. На Udacity он встроен в цепочку курсов, которая называется Nanodegree Program и, в конечном счете, позволяет получить знания, необходимые для работы на позиции data analyst. Один из кураторов курса – профессор Стэнфорда и сооснователь Udacity Sebastian Thrun.
Страница курса
«Яндекс» использует Big Data для оптимизации плавки стали
Плавка металлаYandex Data Factory, подразделение «Яндекса», занимающееся внедрением технологий анализа больших данных (Big Data), заключила контракт с Магнитогорским металлургическим комбинатом (ММК) по созданию проекта «Снайпер», оптимизирующего процессы плавки стали, сообщает ММК.
IT-специалисты Yandex Data Factory и ООО «ММК-Информсервис» (общество Группы ОАО «ММК») совместно со специалистами кислородно-конвертерного цеха и научно-технического центра ОАО «ММК» сейчас анализируют информацию, накопленную за предыдущие годы работы ККЦ и создают математическую модель плавок с помощью алгоритмов машинного обучения (Machine Learning), говорится в сообщении.
Конечный программный продукт будет принимать данные по исходному составу, исходной массе и требованиям по содержанию химических элементов в готовой стали, а в качестве результата, используя математическую модель, выдавать оптимальное количество ферросплавов и добавочных материалов при производстве стали.
Для проверки качества построенной модели будет проведена серия экспериментальных плавок, в которых решения о составе добавок будут приниматься на основе рекомендаций системы.
Как говорится в сообщении, ММК стал для Yandex Data Factory первым клиентом среди компаний тяжелой промышленности. Комбинат рассчитывает “на серьезный эффект за счет экономии на сырье”. По результатам пилотного проекта планируется распространить его на другие производственные объекты комбината.
“Яндекс” запустил Yandex Data Factory в ноябре 2014 года. На сегодня среди клиентов YDF – Росавтодор (система прогнозирования заторов и ДТП), Wargaming (предсказание оттока пользователей компьютерной онлайн-игры World of Tanks на основе их игровых успехов), «АстраЗенека» (для применения в эпидемиологии, патофизиологии, диагностике и лечении заболеваний) и Сбербанк (консультации по «анализу супермассивов данных»).
Как сообщал Экспертный центр электронного государства, еще до запуска YDF “Яндекс” сотрудничал в области Big Data с ЦЕРН (Европейский центр ядерных исследований). В июле партнеры пригласили специалистов по анализу данных поучаствовать в конкурсе Flavour of Physics: участники конкурса должны написать алгоритм, способный обработать огромный массив данных — информацию о событиях эксперимента LHCb, который проводится на Большом адронном коллайдере (БАК).
Кто такой Data Scientist и как им стать. Часть 1: советы от «Яндекса»
Серия успешных сделок белорусских стартапов в области компьютерного зрения и машинного обучения подтолкнула нас к запуску цикла материалов о том, как стать специалистом в этих областях. Сегодня сотрудники минского подразделения «Яндекс» расскажут, чем у них занимаются Data Scientist’ы и что учить, чтобы попасть к ним в команду. Слово — руководителю группы разработки факторов Тимофею Хаткевичу и руководителю бригады акустических моделей Алексею Колесову.
Читать далее
Перед Data Scientist’ом в «Яндексе» стоит много разных задач: от моделирования человеческой речи до подтверждения или опровержения гипотез о том, делает ли пользователя счастливее дополнительная кнопка на странице почты. Продукты «Яндекса» ежедневно используют миллионы человек, без Data Science проанализировать такой поток данных невозможно.
Одна из главных задач, которую решает минская группа разработки факторов: глядя на текст запроса пользователя, определяет, есть ли у некоторого документа общая с запросом семантика. Мы решаем эту задачу с помощью нейронных сетей и уже получили неплохие результаты, о чём сообщали в публикациях: первой и второй.
Если хочется заниматься такого рода проектами, приходите собеседоваться, в минском офисе открыта вакансия.
Нельзя сказать, что белорусские вузы не выпускают специалистов в области Data Science. Но их действительно меньше, чем хотелось бы. На наш взгляд, основные проблемы следующие:
- Учёные и специалисты (и вообще молодые люди) по понятным причинам неохотно идут преподавать. В итоге связь образования и производства, образования и науки слаба.
- Набор в вузы слишком велик, но далеко не все приходят туда действительно учиться. В итоге преподавателям сложно читать что-то выше среднего уровня — 95% даже не будет пытаться понять.
Поэтому можем посоветовать практико-ориентированную магистратуру «Алгоритмы и Системы обработки больших объёмов информации», которая уже третий год работает на базе ФПМИ БГУ. Её идейный руководитель, наш коллега Алексей Толстиков делает очень сложное и очень полезное дело по созданию современной специальности. Там читают сложные, современные курсы про алгоритмы обработки больших данных, информационный поиск, unix-системы, machine learning и другое. Занятия ведут ребята, которые используют свои знания в работе, так что иногда программа опережает университетскую на десятилетия. Кроме того, Алексей курирует минский филиал Школы анализа данных Яндекса.
Существует целая научная область, которая занимается вопросами применения Computer Science, Data Science и Machine Learning в задачах информационного поиска. Она так и называется — Information Retrieval. Классическая книга про информационный поиск, с которой можно начать знакомство, — «An Introduction to Information Retrieval». Эта книга была переведена на русский язык при поддержке «Яндекса». В книге в основном рассказывается о поиске текстовой информации, о том, как функционируют системы веб-поиска и их элементы. Другая хорошая книга про веб-поиск — от Stefan Buttcher из Google.
В задачах инфопоиска используются методы обработки текстов (natural language processing), машинное обучение (machine learning), статистический анализ данных, а также алгоритмы, эффективно работающие на больших объёмах данных, и распределённые системы. В зависимости от задач, которыми вы хотите заниматься, нужно глубже погрузиться в изучение некоторых из этих дисциплин. Если речь идёт не о поиске текстовой информации, а о видео или изображениях, то полезно познакомиться с дисциплинами про обработку изображений.
Сейчас в Минске есть две возможности получить образование в Information Retrieval:
- Магистратура «Алгоритмы и Системы обработки больших объёмов информации» ФПМИ БГУ. В программе читают курсы по информационному поиску и смежным дисциплинам.
- Школа анализа данных «Яндекса». Курсы в ШАД читают одни из лучших специалистов в своих областях, многие из них работают в «Яндексе». С некоторыми курсами можно ознакомиться в открытом доступе.
Если хочется узнать о последних достижениях в области информационного поиска, то советуем следить за публикациями на тематических конференциях. Основные: SIGIR, WSDM, CIKM, WWW, KDD. Также есть летние школы, посещение которых может быть полезно как студентам и аспирантам, так и начинающим специалистам: European Summer School in Information Retrieval и Russian Summer School in Information Retrieval.
Курсы по Data Science
Если говорить в целом про Data Science/Machine Learning, то для серьёзного понимания и работы нужен фундаментальный курс теории вероятности (а значит, и математического анализа как необходимого инструмента в теории вероятности), линейной алгебры и, конечно, математической статистики. Фундаментальные математические знания важны для того, чтобы уметь анализировать результаты применения алгоритмов обработки данных. Есть примеры сравнительно сильных инженеров в machine learning без такого бекграунда, но это, скорее, исключение.
Если университетское образование оставило много пробелов, рекомендуем книгу «The Elements of Statistical Learning» от Hastie, Tibshirani и Friedman. В этой книге классические разделы машинного обучения изложены с точки зрения математической статистики со строгими математическими выкладками. Несмотря на обилие математических формулировок и доказательств, все методы сопровождаются практическими примерами и упражнениями.
Лучшая книга на данный момент, чтобы разобраться в математических принципах, лежащих в основе нейронных сетей — «Deep Learning» от Ian Goodfellow. В ней во введении есть целый раздел про всю математику, которая нужна для хорошего понимания нейронных сетей. Еще очень хорош сайт-книга от Michael Nielsen — это может и не фундаментальный труд, но для понимания основных принципов очень пригодится.
Для аналитики и экспериментов с ML-моделями хорошим выбором будет ipython и python-библиотеки scikit-learn, scipy, matplotlib, numpy, pandas. Если хочется развернуть поисковую систему на каком-то наборе данных, то можно воспользоваться достаточно мощными open-source движками elasticsearch или apache solr.
Касательно алгоритмов машинного обучения, для задач ранжирования результатов поиска хорошо работают алгоритмы градиентного бустинга на деревьях. Одна из наиболее популярных реализаций на данный момент — xgboost. Яндекс недавно выложил в opensource свою версию алгоритма — CatBoost, которая в большинстве задач не уступает конкурентам.
Группа разработки факторов в «Яндексе» занимается задачами веб-поиска, т. е. по текстовому запросу пользователя мы должны найти интернет-страницу, содержащую релевантную информацию (как правило, тоже текстовую). Соответственно, интересны те архитектуры нейронных сетей, которые позволяют хорошо описывать закономерности в текстовых данных. В основном это рекуррентные нейронные сети, использующиеся для sequence-to-sequence learning, word2vec и архитектуры наподобие DSSM.
Вот очень хороший обзор нейросетевых технологий в задачах информационного поиска. В обзоре есть ссылки на большинство последних достижений в предметной области. Также можно ознакомиться с презентацией коллег из Microsoft Research c конференции WSDM’17.
Каждая нейронная сеть решает свою очень узкую задачу. Сеть, которая различает котиков и собак, отличается не только от сети, которая распознаёт речь, но даже от сети, которая различает котиков и кроликов. А значит, для каждой сети данные нужно брать из разных источников. Хотите обучить сеть, которая отличает ваш голос от лая вашей собаки, — запишите в домашних условиях по 10 часов того и другого — обучите сеть.
Захотели сеть, которая понимает, какой фильм вы имеете в виду, когда не можете вспомнить название — сохраните на компьютере петабайт пользовательских запросов и правильных ответов — обучите сеть. Ну, а чтобы научиться работать с нейронными сетями (и другими алгоритмами machine learning), можно взять данные, которые есть в открытом доступе, например, на соревновательном сайте Kaggle или специализированном.
Нейросети — это мощный инструмент, но у него есть свои ограничения. Он нужен и полезен далеко не во всех задачах. Машинное обучение тоже важно и полезно, но есть много других не менее важных инструментов. Само по себе машинное обучение — это всего лишь один из методов решения задач. Причем не всегда самый подходящий. Например, интерпретация результатов применения нейронных сетей до сих пор вызывает большие трудности. Сами технологии становятся все доступнее широкому кругу людей, специалистов также становится больше. Со временем всё, что связано с машинном обучении, будет вызывать всё меньший ажиотаж.
Яндекс.Алгоритмы искусственного интеллекта и машинного обучения
Ранее в этом месяце Google представила свой последний алгоритм искусственного интеллекта, BERT, который считается крупнейшим обновлением Google со времен RankBrain и затрагивает 10% всех поисковых запросов.
BERT — это двунаправленный кодировщик изображений с трансформаторов. Трансформаторы относятся к моделям, которые обрабатывают слова по отношению ко всем другим словам в предложении, например, ключевые слова сопоставления и синонимы.
BERT подробно освещался в Search Engine Journal как Роджер Монтти, так и Мэтт Саузерн.
Однако алгоритмы искусственного интеллекта и машинного обучения Google — не единственные, которые используются поисковыми системами по всему миру.
Машинное обучение — это общий термин, охватывающий широкий спектр алгоритмов, которые учатся на наборах данных, чтобы предоставить:
Реклама
Продолжить чтение ниже
- Рекомендации.
- Решения.
- Прогнозы.
Широко используется для решения ряда задач не только поисковыми системами, но и:
- Рекомендации по музыке и фильмам на стриминговых платформах.
- Прогнозы использования энергии в разных штатах.
Поисковые системы используют это для обработки данных из Интернета и некоторых автономных источников в случае Яндекса, чтобы предоставить пользователям лучшие результаты поиска и удобство работы.
Реклама
Читать ниже
Прошло десять лет с тех пор, как Яндекс впервые ввел машинное обучение в поиск, запустив Matrixnet.
С тех пор поисковая система продолжила улучшать свои возможности AI и ML с дальнейшими обновлениями, включая Palekh и Korolyov.
Matrixnet, 2009
Matrixnet работает, принимая тысячи переменных и «факторов ранжирования» и присваивая им разные веса в зависимости от:
- Местоположение пользователя.
- Поисковый запрос.
- Установленные намерения пользователя
Это сделано для того, чтобы возвращать пользователю более релевантные и точные результаты.
Ощутимое влияние Matrixnet заключалось в том, что для более коротких запросов с множеством общих интерпретаций некоммерческий контент стал занимать более заметное место на страницах результатов поиска по сравнению с более коммерческим контентом (и коммерческими веб-сайтами).
Это связано с тем, что новый основной алгоритм начал учитывать домен в целом экосистему, а не отдельные страницы и их непосредственные ссылки.
В тот же период, когда Яндекс запустил Matrixnet, поисковая система также принимала меры для обеспечения лучших результатов для пользователей в зависимости от местоположения. (Для кого-то во Владивостоке нет смысла получать местные результаты для Москвы, так как это 113 часов на машине!)
Реклама
Продолжить чтение Ниже
Они сделали это с помощью алгоритма Арзамас, который в том году был заменен Снежинском, и затем в 2010 году через Обинск.
Последнее позволило Яндексу лучше понять регион, в котором находится веб-сайт, даже если веб-мастера не указали регион в Инструментах для веб-мастеров Яндекса.
Это заметно повлияло на веб-сайты с дорвеями местоположения и местным спамом с цитированием.
Палех, 2016
В 2016 году (через год после RankBrain) Яндекс представил алгоритм Палеха. Палех использовал глубокие нейронные сети, чтобы лучше понять смысл поискового запроса.
Алгоритм использует нейронные сети, чтобы увидеть связи между запросом и документом, даже если они не содержат общих слов.
Реклама
Продолжить чтение ниже
Эта технология наиболее полезна для сложных запросов, таких как поиск фильмов по неточным описаниям их сюжетов.
Королев, 2017
На основе алгоритма Палеха Яндекс выпустил обновление Королева в августе 2017 года.
По словам Андрея Стыскина, руководителя поиска Яндекса:
«Королев умеет сопоставить значение запроса с смысл страниц, в отличие от того, как Палех работал только с заголовками.Он также улучшает 150 страниц, которые анализировал Палех, благодаря своей способности работать с 200 000 страниц одновременно ».
Подобно тому, как работает RankBrain, Королев становится более эффективным и точным с каждой получаемой инкрементной точкой данных, а все результаты затем передаются в основной алгоритм Matrixnet.
Реклама
Продолжить чтение ниже
Одновременно с объявлением Королева Яндекс также объявил, что Matrixnet начала:
- Принимать во внимание данные своей краудсорсинговой платформы Toloka (представьте себе версию Amazon Mechanical Turks).
- Обработка больших объемов анонимных пользовательских данных для дальнейшего улучшения и изменения наборов данных, из которых были доступны алгоритмы машинного обучения.
Королев также ввел понятие семантических (контекстных) векторов в поиске, что позволило ему выполнять «анализ смысла», когда пользователь отправляет запрос. Это позволило поиску учитывать предполагаемое значение всех запросов, которые привели пользователей на определенные страницы.
Объявление
Продолжить чтение ниже
Это означало, что:
- На этапе индексации каждая страница была преобразована в семантические / контекстные векторы.
- Новые запросы могут быть поняты быстрее и эффективнее, с более точными результатами, чтобы не создавать негативных впечатлений от поиска.
CatBoost, 2017
В 2018 году Яндекс представил преемника алгоритма машинного обучения Matrixnet — CatBoost.
По сравнению с Matrixnet, CatBoost (с открытым исходным кодом) может:
- Более точные прогнозы.
- Большая диверсификация результатов.
- Вспомогательные переменные, которые не являются числовыми, например типы облаков, породы кошек и виды растений.
Объявление
Продолжить чтение ниже
CatBoost использует технику машинного обучения, известную как повышение градиента, и обычно решает проблемы регрессии и классификации, которые визуально проявляются в виде деревьев решений.
На сегодняшний день CatBoost также используется вне поисковой системы Яндекса такими организациями, как Cloudflare и CERN.
Используется там, где требуется усиление градиента на деревьях решений с уменьшенным риском переобучения, для таких задач, как борьба с заполнением учетных данных ботами.
Оптимизация для алгоритмов искусственного интеллекта Яндекса
Алгоритмы машинного обучения Яндекса — это лишь небольшая часть обновлений, которые поисковая система внесла за эти годы для борьбы со ссылочным спамом и некачественным контентом, как и в Google.
Реклама
Продолжить чтение ниже
Как и в случае с процессами RankBrain от Google (а теперь и с BERT), нет реального способа напрямую оптимизировать алгоритмы машинного обучения, поскольку они учитывают Интернет в целом.
Как всегда, важно, чтобы вы создавали контент, который повышает ценность для пользователя, соответствует цели поиска и написан на естественном языке и предназначен для людей, а не для машин.
Дополнительные ресурсы:
Яндекс с открытыми исходными кодами CatBoost, библиотека машинного обучения для повышения градиента — TechCrunch
Искусственный интеллект в настоящее время обеспечивает все большее количество вычислительных функций, и сегодня сообщество разработчиков получает еще один импульс искусственного интеллекта благодаря Яндекс.Сегодня российский поисковый гигант, который, как и его американский аналог Google, расширил множество других бизнес-направлений, от мобильных устройств до карт и т. Д., Объявил о запуске CatBoost, библиотеки машинного обучения с открытым исходным кодом, основанной на повышении градиента — ветвь машинного обучения, специально разработанная, чтобы помочь «обучить» системы, когда у вас очень скудный объем данных, и особенно когда не все данные могут быть сенсорными (например, аудио, текст или изображения), но включают транзакционные или исторические данные, тоже.
CatBoost сегодня дебютирует в двух направлениях. (Я, кстати, думаю, что «кошка» — это сокращение от «категории», а не ваш кошачий друг, хотя Яндекс любит играть словами. Если вы посетите сайт CatBoost, вы поймете, что я имею в виду.)
Во-первых, Яндекс заявляет, что начинает использовать новую структуру в своих собственных сервисах, чтобы заменить MatrixNet, алгоритм машинного обучения, который до сих пор использовался в компании для всего, от задач ранжирования, прогнозирования погоды и т. Д. Яндекс.службы такси (которые сейчас выделяются в совместное предприятие с Uber на российском рынке с оборотом 3,7 млрд долларов) и рекомендации. Переход с MatrixNet на CatBoost происходит сейчас и будет продолжаться в ближайшие месяцы.
Во-вторых, Яндекс предлагает библиотеку CatBoost как бесплатную услугу, выпущенную под лицензией Apache, всем, кто нуждается или хочет использовать технологию повышения градиента в своих программах. «Это вершина многолетней работы», — сказал в интервью Миша Биленко, руководитель отдела машинного интеллекта и исследований Яндекса.«Мы сами использовали много инструментов машинного обучения с открытым исходным кодом, поэтому давать что-то взамен — хорошая карма». Он упомянул переход Google к Tensorflow с открытым исходным кодом еще в 2015 году, а также создание и развитие Linux как два источника вдохновения.
Биленко добавил, что «нет планов» коммерциализировать CatBoost или закрыть его каким-либо другим собственным способом. «Это не вопрос конкурентов», — сказал он. «Мы были бы рады, если бы конкуренты использовали его в качестве основы».
Конечно, по мере того, как Яндекс продолжает расти, он уже давно ищет способы повысить свой международный авторитет за пределами русскоязычного мира.Подобные шаги подчеркивают не только приверженность компании сообществу разработчиков ПО с открытым исходным кодом, но и ее надежду на то, что она будет в центре его развития как среди крупных технологических компаний, так и среди более широкого сообщества разработчиков.
Так же, как Google продолжал расширять и обновлять Tensorflow, идея состоит в том, что сегодняшняя версия CatBoost — это первая итерация, которая будет обновляться и развиваться дальше, сказал мне Биленко. Сегодня библиотека имеет три основных функции:
«Снижение переобучения», которое, по словам Яндекса, помогает вам добиться лучших результатов в программе обучения.Он «основан на запатентованном алгоритме построения моделей, который отличается от стандартной схемы повышения градиента».
«Поддержка категориальных функций», в которой результаты обучения улучшаются, позволяя использовать нечисловые коэффициенты, «вместо того, чтобы предварительно обрабатывать данные или тратить время и усилия на преобразование их в числа».
Он также использует интерфейс API, который позволяет использовать CatBoost из командной строки или через API для Python или R, включая инструменты для анализа формул и визуализации обучения.
Хотя существует ряд других библиотек, которые помогают с повышением градиента или другими решениями для обучения систем машинного обучения (например, XGBoost), Биленко утверждал, что преимущество CatBoost и других фреймворков, предлагаемых крупными компаниями, такими как Яндекс, заключается в что они прошли «боевую проверку» на точность.
«Грязный секрет большого количества кода машинного обучения в том, что он требует довольно обширной настройки», — сказал он. «Нашему требуется немного, и он обеспечивает довольно хорошую производительность прямо из коробки.Это ключевое отличие ».
Безопасность | Стеклянная дверь
Мы получаем подозрительную активность от вас или кого-то, кто пользуется вашей интернет-сетью. Подождите, пока мы подтвердим, что вы настоящий человек. Ваш контент появится в ближайшее время. Если вы продолжаете видеть это сообщение, напишите нам чтобы сообщить нам, что у вас возникли проблемы.
Nous aider à garder Glassdoor sécurisée
Nous avons reçu des activités suspectes venant de quelqu’un utilisant votre réseau internet.Подвеска Veuillez Patient que nous vérifions que vous êtes une vraie personne. Вотре содержание apparaîtra bientôt. Si vous continuez à voir ce message, veuillez envoyer un электронная почта à pour nous informer du désagrément.
Unterstützen Sie uns beim Schutz von Glassdoor
Wir haben einige verdächtige Aktivitäten von Ihnen oder von jemandem, der in ihrem Интернет-Netzwerk angemeldet ist, festgestellt. Bitte warten Sie, während wir überprüfen, ob Sie ein Mensch und kein Bot sind.Ihr Inhalt wird в Kürze angezeigt. Wenn Sie weiterhin diese Meldung erhalten, informieren Sie uns darüber bitte по электронной почте: .
We hebben verdachte activiteiten waargenomen op Glassdoor van iemand of iemand die uw internet netwerk deelt. Een momentje geduld totdat, мы выяснили, что u daadwerkelijk een persoon bent. Uw bijdrage zal spoedig te zien zijn. Als u deze melding blijft zien, электронная почта: om ons te laten weten dat uw проблема zich nog steeds voordoet.
Hemos estado detectando actividad sospechosa tuya o de alguien con quien compare tu red de Internet. Эспера mientras verificamos que eres una persona real. Tu contenido se mostrará en breve. Si Continúas recibiendo este mensaje, envía un correo electrónico a para informarnos de que tienes problemas.
Hemos estado percibiendo actividad sospechosa de ti o de alguien con quien compare tu red de Internet. Эспера mientras verificamos que eres una persona real.Tu contenido se mostrará en breve. Si Continúas recibiendo este mensaje, envía un correo electrónico a para hacernos saber que estás teniendo problemas.
Temos Recebido algumas atividades suspeitas de voiceê ou de alguém que esteja usando a mesma rede. Aguarde enquanto confirmamos que Você é Uma Pessoa de Verdade. Сеу контексто апаресера эм бреве. Caso продолжить Recebendo esta mensagem, envie um email para пункт нет informar sobre o проблема.
Abbiamo notato alcune attività sospette da parte tua o di una persona che condivide la tua rete Internet.Attendi mentre verifichiamo Che sei una persona reale. Il tuo contenuto verrà visualizzato a breve. Secontini visualizzare questo messaggio, invia un’e-mail all’indirizzo per informarci del проблема.
Пожалуйста, включите куки и перезагрузите страницу.
Это автоматический процесс. Ваш браузер в ближайшее время перенаправит вас на запрошенный контент.
Подождите до 5 секунд…
Перенаправление…
Заводское обозначение: CF-102 / 671a2d0aecf14ab5.
Инициатива Яндекса в области машинного обучения | Школа информатики им. Блаватника
Можем ли мы создать машины, которые будут такими же умными, как люди, и которые могут учиться, как люди?
Машинное обучение — это область компьютерных наук, которая задает этот вопрос и разрабатывает соответствующую теорию и алгоритмы для достижения этой цели.
В последние годы машинное обучение произвело революцию за счет использования «искусственных нейронных сетей» (также известных как глубокое обучение). В таких приложениях, как распознавание изображений и речи, было значительно улучшено состояние дел. Однако мы все еще очень далеки от создания машин, которые могут понимать текст и изображения, как люди, разговаривать на естественных языках, и от создания роботов, которые выполняют сложное двигательное поведение.
Настали захватывающие времена для машинного обучения, и оно стало одной из самых активных и интеллектуально привлекательных областей компьютерных наук.
Тель-Авивский университет является домом для многих исследователей мирового уровня, которые занимаются всеми аспектами машинного обучения: от теории обучения до обработки естественного языка, машинного зрения, интеллектуального анализа данных, робототехники и глубокого обучения.
Наша цель — не только проводить исследования в области машинного обучения на самом высоком уровне, но и обучать студентов (студентов и выпускников) машинному обучению, чтобы они могли стать будущими лидерами в отрасли и академических кругах.
Инициатива Яндекса в области машинного обучения — уникальная программа, основанная на сотрудничестве Тель-Авивского университета и Яндекс, крупнейшей технологической компании в России и одного из пионеров технологий поиска в Интернете.Яндекс также много лет занимается машинным обучением и обучением в области науки о данных через свою Школу анализа данных Яндекса (YSDA) и программы магистратуры.
Инициатива Яндекс поможет стимулировать машинное обучение в Тель-Авивском университете во многих аспектах. Например, финансируя исследования, связанные с машинным обучением, поддерживая преподавательский состав и ресурсы по машинному обучению, а также поддерживая серию выдающихся лекций Яндекса , где ведущие мировые эксперты по машинному обучению посетят Тель-Авив и расскажут о своих исследованиях.
В рамках инициативы Школа компьютерных наук предлагает обширную программу на ML , выраженную в кластере курсов машинного обучения (см. Yedion), которая предоставит студентам самые современные знания во всех аспектах машинного обучения. . Кластер состоит из следующих курсов:
Введение в машинное обучение (преподаватель: профессор Амир Глоберсон): курс предоставляет всестороннее введение в теорию и алгоритмы машинного обучения, включая такие темы, как: обучение PAC, измерения VC, контролируемое и неконтролируемое обучение, машины опорных векторов, глубокое обучение. , повышение, PCA и кластеризация.
Deep Learning (преподаватель: профессор Лиор Вольф): курс представляет собой всестороннее введение в современные алгоритмы глубокого обучения, включая сверточные сети, генеративные модели, трансферное обучение, временные модели (например, RNN и LSTM) и глубокое обучение с подкреплением. Студенты также работают над сложными индивидуальными исследовательскими проектами, которые позже могут быть опубликованы на ведущих конференциях в данной области.
Обработка естественного языка (Учитель: проф.Джонатан Берант): курс представляет собой всестороннее введение в область обработки естественного языка. Он охватывает различные темы, такие как основы лингвистики, синтаксический анализ, ответы на вопросы, вложения слов и языковые модели. Здесь студенты также работают над интересными индивидуальными исследовательскими проектами, которые впоследствии могут быть опубликованы на ведущих конференциях в данной области.
Обучение с подкреплением (Учитель: профессор Ишай Мансур): Одна из целей машинного обучения — разработать автономных агентов, которые могут действовать в мире (например,g., боты, которые разговаривают на естественном языке, роботы, которые могут выполнять домашние дела). Обучение с подкреплением (RL) — это подраздел в машинном обучении, которое разрабатывает теорию и алгоритмы, лежащие в основе таких агентов. Курс предоставит студентам прекрасную теорию, лежащую в основе машинного обучения, и самые современные практические навыки для создания инструментов RL на основе глубокого обучения. Последний проект этого года — создать алгоритм, который сможет играть в компьютерные игры на человеческом уровне.
Advanced Machine Learning (Учитель: проф.Амир Глоберсон): Понимание семантики — один из самых сложных аспектов машинного обучения. Например, как мы можем вывести значение текста или полное содержание изображения. Этот курс предоставляет формальные инструменты и алгоритмы для решения этого вопроса. В частности, он охватывает такие темы, как графические модели, байесовские сети, структурированное прогнозирование, MCMC, неконтролируемое глубокое обучение и продвинутые теоретические темы. Здесь студенты также работают над исследовательскими проектами, которые впоследствии могут быть опубликованы на ведущих конференциях в данной области.
Кроме того, школа информатики и другие факультеты TAU предлагают широкий спектр курсов машинного обучения по таким темам, как большие данные, робототехника, машинное зрение и биоинформатика.
Студенты, завершившие кластер курсов, будут обладать самыми современными знаниями в этой области и станут идеальными кандидатами как на ведущие должности в отрасли в области машинного обучения, так и в качестве студентов-исследователей в нашей аспирантуре.
Мы очень рады этой уникальной и своевременной инициативе и с нетерпением ждем возможности обучить следующее поколение исследователей машинного обучения в Тель-Авивском университете.
День искусственного интеллекта в кампусе Тель-Авивского университета 6.1.2019 — см. Здесь
ФреймворкCatBoost Machine Learning от Яндекса расширяет диапазон AI
Сфера искусственного интеллекта меняется день ото дня.(Изображение: Шивон Зилис и Джеймс Чам, дизайн Хайди Скиннер. Увеличенную версию можно найти на веб-сайте Шивона Зилиса.)
Трудно избежать шума от ИИ. Помимо шумихи, нельзя отрицать, что прогресс идет семимильными шагами. Мы находимся в середине 2017 года, и уже в образе машинного интеллекта, нарисованном на 2016 год, появились заметные новые записи.
Просто оставаясь в стеке технологий, мы видели введение Caffe2 от Facebook, Core ML только что от Apple, которая вошла в игру, и давайте не будем забывать широко амбициозный NeoPulse.
У всех них есть одна общая черта: глубокое обучение. Caffe2 и NeoPulse являются исключительно структурами DL, и DL также занимает центральное место в Core ML. Хотя DL, безусловно, ценен, ML — это еще не все. И в игре также больше игроков, чем обычно подозреваемые.
Встречайте CatBoost, новую библиотеку машинного обучения, основанную на повышении градиента (GB) и стремящуюся найти свою золотую середину в области искусственного интеллекта.
CatBoost, ваш дружелюбный представитель семейства кошачьих
Сегодня было официально объявлено о выпуске CatBoost с открытым исходным кодом, но CatBoost появился не на пустом месте.Он был разработан российской компанией Яндекс. Яндекс, известный многим как «русский Google», позиционирует себя как технологическая компания, создающая интеллектуальные продукты и услуги на основе машинного обучения.
«Машинное обучение работает более чем на 70% продуктов и услуг Яндекса», — говорит Миша Биленко, руководитель отдела машинного интеллекта и исследований (МИР) Яндекс. Хотя его библиотеки MatrixNet и DaNet не так хорошо известны, как другие в этой области, они существуют уже некоторое время и активно используются такими организациями, как ЦЕРН и Газпром.
«CatBoost — это следующее поколение MatrixNet, и Яндекс будет внедрять CatBoost почти везде, где уже есть MatrixNet», — говорит Биленко.
Отлично. Но что такое CatBoost и почему это должно вас волновать?
Яндекс описывает CatBoost как «современную библиотеку повышения градиента с открытым исходным кодом» и уточняет, что, хотя DL действительно полезен и у кого-то был большой опыт работы с ним, в жизни и искусственном интеллекте есть нечто большее, чем DL, например ГБ.
Яндекс применяет ГБ для решения тех проблем, с которыми компании сталкиваются каждый день, например для обнаружения мошенничества, прогнозирования взаимодействия с клиентами и ранжирования рекомендуемых элементов.Яндекс утверждает, что ключевым преимуществом GB перед DL является возможность предоставлять высокоточные результаты даже при относительно небольшом объеме данных.
Это, по словам Яндекса, делает его идеальным для прогнозных моделей, которые анализируют множество различных форм данных, и особенно описательных форматов данных с категориальными характеристиками (функции с дискретными, а не непрерывными значениями). Яндекс пропагандирует CatBoost как единую модель, которая управляет ими всеми, интегрируя данные из множества различных методов машинного обучения.
Яндекс позаботился о том, чтобы структура CatBoost могла поддерживать их историю, поскольку в нее могут входить модели из фреймворков DL, таких как TensorFlow или Keras.Более того, он, в свою очередь, может передавать данные в Core ML, тем самым предоставляя приложения на базе CatBoost для широкого спектра устройств по всему миру.
CatBoost может похвастаться лучшей в своем классе точностью среди алгоритмов GB, и Яндекс заявляет, что он улучшает возможность создания прогнозных моделей с использованием различных источников данных, таких как сенсорные, исторические и транзакционные данные.
Яндекс называет CatBoost самой мощной «ультимативной» моделью. Хотя такие утверждения должны быть подтверждены на практике, нельзя не заметить, что Яндекс, похоже, вкладывает деньги туда, где им нужно.Начнем с того, что Яндекс ориентирует свое будущее развитие на CatBoost.
Яндекс уверенно стоит за CatBoost
CatBoost может иметь шутливое название и красиво продаваться, но не заблуждайтесь относительно серьезности, с которой Яндекс подходит к этому. (Изображение: Яндекс)
Яндекс будет внедрять CatBoost почти везде, где уже есть MatrixNet, — говорит Биленко. Это что-то значит, поскольку MatrixNet была ключом к Яндекс. Что касается других, Яндекс пытается сделать CatBoost привлекательным, предоставляя для него дополнительные возможности.
Помимо интеграции TensorFlow и Core ML, CatBoost может использоваться в Python и R или с помощью инструмента командной строки, имеет средства визуализации и автоматический расчет важности функций, а также предлагает варианты настройки параметров и может похвастаться превосходством в тестах.
По общему признанию, Яндекс приводит веские аргументы. Есть пара вещей, которые могут вас заинтересовать.
Один, кто снова Яндекс и что делает их такими экспертами в ML? И, во-вторых, если CatBoost настолько хорош, почему бы не оставить его при себе? Что ж, на самом деле они могут быть связаны.
Мы уже упоминали, как Яндекс в просторечии известен как русский Google. Хотя определенные основания для этого, безусловно, есть, специалисты «Яндекса», и в первую очередь его генеральный директор, не согласны с этим. Во-первых, они говорят, что Яндекс был основан в 1997 году, «на год раньше Google, поэтому мы не последовали за ними».
Яндекс начинал как поисковая система, как и Google, но затем перешел на другие домены. Да, очень похоже на Google, но также на Amazon и Uber. Яндекс, помимо 54-процентной доли рынка онлайн-поиска в России, расширился и предлагает такие услуги, как Покупки (Яндекс.Маркетом пользуются 19 млн человек в месяц) и такси (Яндекс.Такси принадлежит 60% этого рынка в Москве).
Отчасти это может быть связано с российским протекционизмом, но, вероятно, не полностью. Яндекс накопил ряд преимуществ на местном рынке и расширяется и на другие рынки. Наем бывшего сотрудника Microsoft Биленко, в дополнение к другим высокопоставленным сотрудникам и внутренней реорганизации, кажется, является частью плана по завоеванию мира.
На вопрос, какие препятствия необходимо устранить на этом пути, Биленко ответил, отметив, что «Яндекс стремится поддерживать высокое качество продуктов и услуг для пользователей на наших основных рынках, но как глобальная технологическая компания мы считаем это бесценным. вносить более широкий вклад в более широкое технологическое сообщество.
«Учитывая фундаментальную важность и широкое распространение ГБ, мы хотели внести свой вклад в удовлетворение основных потребностей и создать что-то, что специалисты по данным легко интегрируются с другими структурами машинного обучения. Предлагая сообществу отличный готовый инструмент это то, что, как мы ожидаем, будет широко использоваться и очень полезно «.
Тяжеловес в области машинного обучения
Биленко упомянул Yandex Clickhouse в качестве примера инструментов, которые Яндекс сделал доступными для открытого сообщества.Биленко говорит, что надеется, что CatBoost положительно повлияет на технологическое сообщество, будь то для розничной торговли, страхования или любого другого коммерческого использования, и он подчеркивает богатство талантов разработчиков в России.
Яндекс использует машинное обучение в ряде приложений, ориентированных на потребителя, таких как перевод, распознавание изображений, веб-поиск, реклама, прогнозирование погоды, распознавание речи и борьба с мошенничеством. Более того, Биленко говорит, что Яндекс будет внедрять машинное обучение вместе с командой Яндекс.Облака. Так что ожидайте увидеть больше машинного обучения в облаке от Яндекса в ближайшее время, идя в ногу со временем.
Другой интересный и малоизвестный факт, однако, заключается в том, что у Яндекса также есть корпоративная сторона, и данные являются движущей силой этого. CatBoost также предназначен для успеха MatrixNet в таких областях, как оптимизация промышленных процессов или повышение эффективности исследований физики элементарных частиц.
CatBoost имеет готовые к работе функции, и это неудивительно, учитывая его происхождение и применение. (Изображение: Яндекс)
Фабрика данных Яндекса (YDF) — это подразделение Яндекса, которое предоставляет решения на основе искусственного интеллекта для повышения производительности, снижения затрат и повышения энергоэффективности.Он работает с такими компаниями, как «Газпром», CERN и Intel, и именно там была усилена MatrixNet, изначально разработанная Яндексом в 2009 году.
Хотя Биленко говорит, что его подразделение MIR обычно не связано с YDF, CatBoost использовался для создания модели прогнозирования для клиента YDF, крупной сталелитейной компании.
Эта модель прогнозирования качества была обучена на прошлых данных о производстве стальных слябов, чтобы предсказать вероятное количество дефектной массы в каждой отдельной слябе на основе имеющихся измерений.В результате снизились общие производственные затраты и количество брака.
Перерабатывающая промышленность на рынках внутренних дворов Яндекса является тяжеловесной, и сочетание доступа к этой отрасли, ноу-хау и таланта может дать Яндексу возможность использовать свою опорную базу для выхода на другие рынки.
Итак, стоит ли вам рассматривать CatBoost? Возможно — да. Как это вписывается в стратегию Яндекса? Похоже, это ключевой шаг к привлечению внимания, накоплению опыта и привлечению талантов и клиентов при ускорении его развития.Также выглядит интересный поворот в сюжете продолжающейся саги об ИИ; посмотрим, как будут катиться кости.
Яндекс — KDnuggets
Вы хотите изучить обработку естественного языка? Эта коллекция из 10 бесплатных первоклассных курсов позволит вам сделать именно это, предлагая что-то для каждого подхода к изучению НЛП и его разнообразным темам.
Теги: быстро.ai, NLP, Oxford, spaCy, Stanford, U. of Washington, UC Berkeley, Yandex
CatBoost — это быстрая реализация GBDT с поддержкой графического процессора «из коробки». Google Colaboratory — очень полезный инструмент с бесплатной поддержкой графического процессора.
Теги: CatBoost, Google Colab, GPU, Повышение градиента, Машинное обучение, Python, Яндекс
Взгляните на эту последующую коллекцию бесплатных курсов по машинному обучению и науке о данных, чтобы дать вам несколько идей для зимних исследований.
Теги: AI, Алгоритмы, Big Data, Data Science, Deep Learning, Machine Learning, MIT, NLP, Reinforcement Learning, U. of Washington, UC Berkeley, Yandex
Ознакомьтесь с коллекцией бесплатных курсов по машинному обучению и науке о данных, чтобы начать зимний учебный сезон.
Теги: Data Science, Deep Learning, fast.ai, Google, Linear Algebra, Machine Learning, MIT, NLP, Reinforcement Learning, Stanford, Yandex
Применение машинного обучения в производстве стали действительно сложно! Вот несколько уроков от исследователей Яндекса о том, как сбалансировать потребность в том, чтобы результаты были точными, полезными и понятными одновременно.
Теги: Приложения, Система рекомендаций, Регрессия, Россия, Сталь, Яндекс
Глубокое обучение произвело революцию в компьютерном зрении и обработке естественного языка. Однако математика, объясняющая его успех, остается неуловимой. На конференции Яндекса, посвященной перспективам и приложениям машинного обучения, Владимир Вапник высказал критическую точку зрения.
Теги: Берлин, Глубокое обучение, Машинное обучение, Машины опорных векторов, SVM, Владимир Вапник, Яндекс, Захари Липтон
ИТ-гигант, о котором вы, возможно, никогда не слышали
Ранее в этом году я впервые сел в беспилотный автомобиль.Я был одним из сотен, которые терпеливо ждали своей очереди, чтобы покрутиться. Некоторые даже загорели во время ожидания, но чувствовали, что боль того стоила. В итоге каждый из нас получил значок с надписью «Пассажир первого беспилотного автомобиля».
Трюк состоялся во время конференции, проводимой одной из крупнейших интернет-компаний мира. Сейчас он работает в таких областях, как искусственный интеллект, беспилотные автомобили, личные помощники, онлайн-переводчики и словари, онлайн-магазины и — совсем недавно — интеллектуальные колонки.Но это был не Google. И этого не было даже в Кремниевой долине.
В мире существует несколько поисковых систем. Самыми крупными из них являются Google, Bing от Microsoft, китайский Baidu и первый пионер Yahoo. Google является наиболее доминирующим, став намного больше, чем просто поисковая система. Но есть еще один претендент на добавление к этому списку, о котором мало кто слышал за пределами страны, где он работает. Эта страна — Россия. Поисковая машина? Яндекс.
Вам также может понравиться:
Как и его аналог из Кремниевой долины, «Русский Google» — это больше, чем просто поисковая система.Он начал свою жизнь в конце 1990-х как домашняя страница Яндекс.ру. С тех пор он превратился в крупного ИТ-гиганта.
«На Западе нас любят называть Google в России, но у нас уже давно есть нечто большее: мы — Uber в России, Spotify в России и многие другие российские компании», — основатель и глава Яндекс. Аркадий Волож сказал в мае 2017 года.
USB-накопитель с объемом памяти 4 Гб в 2018 году стоит всего несколько долларов. Когда был основан Яндекс, жесткий диск с таким объемом памяти мог стоить вам тысячи долларов.Примерно столько памяти пришлось закупить Воложу для установки поисковой системы Яндекс в 1997 году.