пятница, 20 февраля 2015 г.

Как бесплатно выучиться работе с Big Data

Сегодня все чаще в Рунете появляется одна за одной статьи про Big Data, про необходимость приобретать навыки работы с массивами информации, в частности для специалистов по управлению персоналом.
В сегодняшнем посте хочу дать небольшой обзор, где можно почерпнуть подобные знания.
В большинстве свое эти ресурсы на английском языке. На русском пока бесплатно никто не делиться. Но, если Вы знаете таких, то буду благодарна за ссылку, которую обязательно сделаю общедоступной.
Итак.
Вашингтонский Университете предлагает Вводный курс  Introduction to Data Science. Он состоит из 4 частей, рассчитан на 8 недель, по 10-12 часов занятий каждая. Это достаточно много и нагрузка получается немалая. Но данный ВУЗ отличается хорошей подготовленностью педагогического состава. Однако, авторы курса рассчитывают, что Вы подойдете к изучению курса с уже некоторой базой знаний по предлагаемой теме.
Гарвардский Университет также готов поделиться своими знаниями в области массивов данных (Big Data), предложив нам курс Data Science course. Нашему вниманию предстают  лекции. слайды, задания для домашней работы, даже лабораторные работы. Дополнено все списком рекомендуемой литературы, ссылками на дополнительные ресурсы.

Университет Принстона не отстает и предлагает свой вариант курса про массивы данных - "Статистика".

Калифорнийский Технологический Университет также выложил в свободный доступ свой материал, их курс Learning from Data выложен в виде 18 лекций с видео и слайдами, доступными для скачивания.

Университет Хопкинса представляет не менее любопытный курс Data Analysis. Предполагается, что Вы затратите 8 недель по 3-5 часов занятий еженедельно. От Вас также потребуются предварительные знания в области R программирования. Это же учебное заведение предлагает в рамках проекта Coursera.org еще парочку курсов, способных дополнить Ваш багаж относительно статистики, анализа и работы с массивом информации. Например, Getting and Cleaning Data. А пройдя все предложенные курсы в рамках специализации и заплатив небольшой взнос (fee) Вы сможете стать счастливым обладателем сертификата.
Можно заняться самообучением и работать с электронной версией учебника Learning Statistics with R или с r-bootcamp. В случае, если Вы совсем тяготитесь материалами на английском языке то можно почитать любопытную книжку на русском: Наглядная статистика.
Используем R! (дата обращения: март 2015 г.)

Хочется еще добавить, что несмотря на английский язык, на котором ведется преподавание, представленный учебным материал подается по возможности максимально полезно и интересно без излишнего занудства и академичности, а также личного отношения и скрытых продаж.
Успехов!

четверг, 19 февраля 2015 г.

Datafication или оцифровывание

Наткнулась в очередной раз на статью на русском языке, где упоминается калька с английского языка - датафикация (datafication). И даже как-то расстроилась. Почему спросите Вы? Все потому, что в России продолжается слепое снятие кальки с английского языка без попытки найти аналог/ перевод слова. Несомненно, мы уже много заимствовали из разных языков и продолжаем это делать. Но я за то, чтобы находить аналоги в русском и использовать их, если такое возможно.
Сегодня хочу поговорить с Вами про пресловутую "датафикацию". Есть замечательный аналог этого английского термина - оцифровка.
Как на языке оригинала звучит определение этого понятия: "Datafication is a modern technological trend turning many aspects of our life into computerised data [1] and transforming this information into new forms of value.." (спасибо, Wikipedia)

Перевожу:
... современная технологическая тенденция превращения многих аспектов нашей жизни в компьютеризированные данные  и преобразование этой информации в новые смысловые формы (придание смысла).
По сути это термин, позволяющий описать любые вещи и явления через превращение их в данные и в базу данных – то есть оцифровывание. Всю имеющуюся сегодня информацию можно дигитализировать (т.е. оцифровать), измерить, скопировать. И это продукт информационной революции.
      И если хорошо поискать на просторах Интернета, то можно найти, что впервые этот термин ввели в Оксфордском университете для крупных баз данных. Необходимость этого термина появилась благодаря возрастающему интересу к массивам информации (Big data). И такой интерес объясняется достаточно просто: гигантскими шагами увеличивается информация, которую мы с Вами получаем ежедневно и с ней надо что-то делать. Алгоритмисты первые начали искать корреляцию, причинно-следственные связи между теми или иными явлениями, чтобы хоть как-то навести порядок в накапливающихся данных.
Эти массивы информации (Big data) имеют три ключевые характеристики, которые оказывают принципиальное влияние на рост популярности данной тематики. Это три V  -  большой объем (high Volume), высокая скорость (high Velocity), большое многообразие (high Variety). Говоря про высокую скорость, имеется ввиду скорость прироста и обработки информации. Опять же отправлю Вас к первоисточнику Forbes.

И если маркетинг еще 25 лет назад стал использовать массивы данных, оцифровывать их (например, сегментация рынка), то специалисты в области управления персоналом только сегодня активно за это берутся. Заглядывая в будущее, не удивлюсь, что появятся эксперты, занимающиеся управлением данными в управлении персоналом, уже сегодня появляются аналитики в отделах персонала.  Множество поставщиков программного обеспечения бросятся предлагать массово соответствующие продукты. Полученные в ходе анализа данные лягут в основу принятия кадровых решений.
Помните, некоторое время назад была мода на метрики в подборе персонала, а потом и для всех процессов в области управления персоналом? Не торопитесь выкидывать собранный материал. Метрики, если они правильно подобранные, замечательно подойдут при анализе массива данных. Хотя метрика - это оперативный, а иногда тактический уровень , то аналитика - это уже стратегический уровень.
Успехов!