Что такое R Software?
R - это язык программирования и бесплатное программное обеспечение, разработанное Россом Ихакой и Робертом Джентльманом в 1993 году. R обладает обширным каталогом статистических и графических методов. Он включает в себя алгоритмы машинного обучения, линейную регрессию, временные ряды, статистический вывод и многие другие. Большинство библиотек R написано на R, но для тяжелых вычислительных задач предпочтительны коды C, C ++ и Fortran.
R доверяют не только ученые, но многие крупные компании также используют язык программирования R, включая Uber, Google, Airbnb, Facebook и так далее.
Анализ данных с помощью R выполняется в несколько этапов; программирование, преобразование, открытие, моделирование и передача результатов
- Программа : R - понятный и доступный инструмент программирования
- Преобразование : R состоит из набора библиотек, разработанных специально для науки о данных.
- Откройте для себя : исследуйте данные, уточните свои гипотезы и проанализируйте их
- Модель : R предоставляет широкий набор инструментов для захвата правильной модели для ваших данных.
- Общайтесь : интегрируйте коды, графики и выходные данные в отчет с помощью R Markdown или создавайте блестящие приложения, чтобы поделиться им со всем миром.
В этом вводном руководстве вы изучите R
- Для чего используется R?
- R по отраслям
- Пакет R
- Общайтесь с R
- Зачем использовать R?
- Стоит ли выбирать R?
- R сложно?
Для чего используется R?
- Статистические выводы
- Анализ данных
- Алгоритм машинного обучения
R по отраслям
Если мы разберем использование R по отраслям, мы увидим, что на первом месте стоят ученые. R - это язык для статистики. R - лучший выбор в отрасли здравоохранения, за ним следуют правительство и консалтинг.
Пакет R
Основными видами использования R являются и всегда будут статистика, визуализация и машинное обучение. На рисунке ниже показано, какой пакет R получил больше всего вопросов в Stack Overflow. В топ-10 большинство из них связаны с рабочим процессом специалиста по данным: подготовкой данных и сообщением результатов.
Все библиотеки R, почти 12k, хранятся в CRAN. CRAN - это бесплатный и открытый исходный код. Вы можете загрузить и использовать многочисленные библиотеки для выполнения машинного обучения или анализа временных рядов.
Общайтесь с R
В R есть несколько способов представить и поделиться своей работой, будь то документ с уценкой или блестящее приложение. Все может быть размещено в Rpub, GitHub или на веб-сайте компании.
Ниже приведен пример презентации, размещенной на Rpub.
Rstudio принимает уценку для написания документа. Вы можете экспортировать документы в разных форматах:
- Документ:
- HTML
- PDF / латекс
- Слово
- Презентация
- HTML
- PDF-проектор
Rstudio имеет отличный инструмент для простого создания приложений. Ниже приведен пример приложения с данными Всемирного банка.
Зачем использовать R?
Наука о данных влияет на то, как компании ведут свой бизнес. Несомненно, отказ от искусственного интеллекта и машин приведет компанию к краху. Большой вопрос в том, какой инструмент / язык вам следует использовать?
На рынке доступно множество инструментов для анализа данных. Изучение нового языка требует некоторого времени. На рисунке ниже изображена кривая обучения в сравнении с бизнес-возможностями, которые предлагает язык. Отрицательные отношения подразумевают, что бесплатного обеда нет. Если вы хотите получить наилучшее представление о данных, вам нужно потратить некоторое время на изучение соответствующего инструмента, которым является R.
В левом верхнем углу графика вы можете увидеть Excel и PowerBI. Эти два инструмента просты в освоении, но они не предлагают выдающихся бизнес-возможностей, особенно с точки зрения моделирования. Посередине вы можете увидеть Python и SAS. SAS - это специальный инструмент для статистического анализа бизнеса, но он платный. SAS - это программное обеспечение, работающее по принципу «щелкни и запусти». Однако Python - это язык с монотонной кривой обучения. Python - фантастический инструмент для развертывания машинного обучения и искусственного интеллекта, но ему не хватает коммуникационных функций. Обладая идентичной кривой обучения, R представляет собой хороший компромисс между реализацией и анализом данных.
Что касается визуализации данных (DataViz), вы наверняка слышали о Tableau. Tableau, без сомнения, отличный инструмент для обнаружения закономерностей с помощью графиков и диаграмм. Кроме того, изучение Tableau не требует много времени. Одна из больших проблем с визуализацией данных заключается в том, что вы можете никогда не найти закономерность или просто создать множество бесполезных диаграмм. Tableau - хороший инструмент для быстрой визуализации данных или бизнес-аналитики. Когда дело доходит до статистики и инструмента принятия решений, R более подходит.
Stack Overflow - это большое сообщество языков программирования. Если у вас есть проблема с кодированием или вам нужно понять модель, Stack Overflow здесь, чтобы помочь. За год процент просмотров вопросов для R резко увеличился по сравнению с другими языками. Эта тенденция, конечно, тесно связана с быстро развивающейся эпохой науки о данных, но она отражает потребность языка R в науке о данных.
В науке о данных есть два инструмента, конкурирующих друг с другом. R и Python, вероятно, являются языками программирования, которые определяют науку о данных.
Стоит ли выбирать R?
Специалист по данным может использовать два отличных инструмента: R и Python. Возможно, у вас не будет времени изучить их оба, особенно если вы только начинаете изучать науку о данных. Обучение статистическому моделированию и алгоритмугораздо важнее, чем выучить язык программирования. Язык программирования - это инструмент для вычисления и передачи вашего открытия. Самая важная задача в науке о данных - это способ работы с данными: импорт, очистка, подготовка, разработка функций, выбор функций. Это должно быть вашей основной целью. Если вы пытаетесь изучить R и Python одновременно, не имея солидного опыта в статистике, это просто глупо. Специалисты по анализу данных - не программисты. Их работа - понимать данные, манипулировать ими и предлагать лучший подход. Если вы думаете, какой язык изучать, давайте посмотрим, какой язык вам больше всего подходит.
Основная аудитория Data Science - профессионалы в сфере бизнеса. В бизнесе одно важное значение - это общение. Есть много способов общения: отчет, веб-приложение, панель управления. Вам нужен инструмент, который сделает все это вместе.
R сложно?
Много лет назад R был трудным языком для освоения. Язык был запутанным и не таким структурированным, как другие инструменты программирования. Чтобы преодолеть эту серьезную проблему, Хэдли Викхэм разработал коллекцию пакетов под названием tidyverse. Правила игры изменились к лучшему. Управление данными становится тривиальным и интуитивно понятным. Создание графика стало не так уж и сложно.
Лучшие алгоритмы машинного обучения могут быть реализованы с помощью R. Пакеты, такие как Keras и TensorFlow, позволяют создавать высокотехнологичные методы машинного обучения. У R также есть пакет для выполнения Xgboost, одного из лучших алгоритмов для соревнований Kaggle.
R может общаться с другим языком. Можно вызывать Python, Java, C ++ в R. Мир больших данных также доступен для R. Вы можете подключить R к различным базам данных, таким как Spark или Hadoop.
Наконец, R эволюционировал и позволил распараллеливать операции для ускорения вычислений. Фактически, R критиковали за использование только одного процессора одновременно. Параллельный пакет позволяет выполнять задачи в разных ядрах машины.
Резюме
Короче говоря, R - отличный инструмент для исследования и исследования данных. Сложный анализ, такой как кластеризация, корреляция и сокращение данных, выполняется с помощью R. Это самая важная часть, без хорошей разработки функций и модели развертывание машинного обучения не даст значимых результатов.