Что такое язык программирования R? Введение & Основы R

Содержание:

Anonim

Что такое R Software?

R - это язык программирования и бесплатное программное обеспечение, разработанное Россом Ихакой и Робертом Джентльманом в 1993 году. R обладает обширным каталогом статистических и графических методов. Он включает в себя алгоритмы машинного обучения, линейную регрессию, временные ряды, статистический вывод и многие другие. Большинство библиотек R написано на R, но для тяжелых вычислительных задач предпочтительны коды C, C ++ и Fortran.

R доверяют не только ученые, но многие крупные компании также используют язык программирования R, включая Uber, Google, Airbnb, Facebook и так далее.

Анализ данных с помощью R выполняется в несколько этапов; программирование, преобразование, открытие, моделирование и передача результатов

  • Программа : R - понятный и доступный инструмент программирования
  • Преобразование : R состоит из набора библиотек, разработанных специально для науки о данных.
  • Откройте для себя : исследуйте данные, уточните свои гипотезы и проанализируйте их
  • Модель : R предоставляет широкий набор инструментов для захвата правильной модели для ваших данных.
  • Общайтесь : интегрируйте коды, графики и выходные данные в отчет с помощью R Markdown или создавайте блестящие приложения, чтобы поделиться им со всем миром.

В этом вводном руководстве вы изучите R

  • Для чего используется R?
  • R по отраслям
  • Пакет R
  • Общайтесь с R
  • Зачем использовать R?
  • Стоит ли выбирать R?
  • R сложно?

Для чего используется R?

  • Статистические выводы
  • Анализ данных
  • Алгоритм машинного обучения

R по отраслям

Если мы разберем использование R по отраслям, мы увидим, что на первом месте стоят ученые. R - это язык для статистики. R - лучший выбор в отрасли здравоохранения, за ним следуют правительство и консалтинг.

Пакет R

Основными видами использования R являются и всегда будут статистика, визуализация и машинное обучение. На рисунке ниже показано, какой пакет R получил больше всего вопросов в Stack Overflow. В топ-10 большинство из них связаны с рабочим процессом специалиста по данным: подготовкой данных и сообщением результатов.

Все библиотеки R, почти 12k, хранятся в CRAN. CRAN - это бесплатный и открытый исходный код. Вы можете загрузить и использовать многочисленные библиотеки для выполнения машинного обучения или анализа временных рядов.

Общайтесь с R

В R есть несколько способов представить и поделиться своей работой, будь то документ с уценкой или блестящее приложение. Все может быть размещено в Rpub, GitHub или на веб-сайте компании.

Ниже приведен пример презентации, размещенной на Rpub.

Rstudio принимает уценку для написания документа. Вы можете экспортировать документы в разных форматах:

  • Документ:
    • HTML
    • PDF / латекс
    • Слово
  • Презентация
    • HTML
    • PDF-проектор

Rstudio имеет отличный инструмент для простого создания приложений. Ниже приведен пример приложения с данными Всемирного банка.

Зачем использовать R?

Наука о данных влияет на то, как компании ведут свой бизнес. Несомненно, отказ от искусственного интеллекта и машин приведет компанию к краху. Большой вопрос в том, какой инструмент / язык вам следует использовать?

На рынке доступно множество инструментов для анализа данных. Изучение нового языка требует некоторого времени. На рисунке ниже изображена кривая обучения в сравнении с бизнес-возможностями, которые предлагает язык. Отрицательные отношения подразумевают, что бесплатного обеда нет. Если вы хотите получить наилучшее представление о данных, вам нужно потратить некоторое время на изучение соответствующего инструмента, которым является R.

В левом верхнем углу графика вы можете увидеть Excel и PowerBI. Эти два инструмента просты в освоении, но они не предлагают выдающихся бизнес-возможностей, особенно с точки зрения моделирования. Посередине вы можете увидеть Python и SAS. SAS - это специальный инструмент для статистического анализа бизнеса, но он платный. SAS - это программное обеспечение, работающее по принципу «щелкни и запусти». Однако Python - это язык с монотонной кривой обучения. Python - фантастический инструмент для развертывания машинного обучения и искусственного интеллекта, но ему не хватает коммуникационных функций. Обладая идентичной кривой обучения, R представляет собой хороший компромисс между реализацией и анализом данных.

Что касается визуализации данных (DataViz), вы наверняка слышали о Tableau. Tableau, без сомнения, отличный инструмент для обнаружения закономерностей с помощью графиков и диаграмм. Кроме того, изучение Tableau не требует много времени. Одна из больших проблем с визуализацией данных заключается в том, что вы можете никогда не найти закономерность или просто создать множество бесполезных диаграмм. Tableau - хороший инструмент для быстрой визуализации данных или бизнес-аналитики. Когда дело доходит до статистики и инструмента принятия решений, R более подходит.

Stack Overflow - это большое сообщество языков программирования. Если у вас есть проблема с кодированием или вам нужно понять модель, Stack Overflow здесь, чтобы помочь. За год процент просмотров вопросов для R резко увеличился по сравнению с другими языками. Эта тенденция, конечно, тесно связана с быстро развивающейся эпохой науки о данных, но она отражает потребность языка R в науке о данных.

В науке о данных есть два инструмента, конкурирующих друг с другом. R и Python, вероятно, являются языками программирования, которые определяют науку о данных.

Стоит ли выбирать R?

Специалист по данным может использовать два отличных инструмента: R и Python. Возможно, у вас не будет времени изучить их оба, особенно если вы только начинаете изучать науку о данных. Обучение статистическому моделированию и алгоритмугораздо важнее, чем выучить язык программирования. Язык программирования - это инструмент для вычисления и передачи вашего открытия. Самая важная задача в науке о данных - это способ работы с данными: импорт, очистка, подготовка, разработка функций, выбор функций. Это должно быть вашей основной целью. Если вы пытаетесь изучить R и Python одновременно, не имея солидного опыта в статистике, это просто глупо. Специалисты по анализу данных - не программисты. Их работа - понимать данные, манипулировать ими и предлагать лучший подход. Если вы думаете, какой язык изучать, давайте посмотрим, какой язык вам больше всего подходит.

Основная аудитория Data Science - профессионалы в сфере бизнеса. В бизнесе одно важное значение - это общение. Есть много способов общения: отчет, веб-приложение, панель управления. Вам нужен инструмент, который сделает все это вместе.

R сложно?

Много лет назад R был трудным языком для освоения. Язык был запутанным и не таким структурированным, как другие инструменты программирования. Чтобы преодолеть эту серьезную проблему, Хэдли Викхэм разработал коллекцию пакетов под названием tidyverse. Правила игры изменились к лучшему. Управление данными становится тривиальным и интуитивно понятным. Создание графика стало не так уж и сложно.

Лучшие алгоритмы машинного обучения могут быть реализованы с помощью R. Пакеты, такие как Keras и TensorFlow, позволяют создавать высокотехнологичные методы машинного обучения. У R также есть пакет для выполнения Xgboost, одного из лучших алгоритмов для соревнований Kaggle.

R может общаться с другим языком. Можно вызывать Python, Java, C ++ в R. Мир больших данных также доступен для R. Вы можете подключить R к различным базам данных, таким как Spark или Hadoop.

Наконец, R эволюционировал и позволил распараллеливать операции для ускорения вычислений. Фактически, R критиковали за использование только одного процессора одновременно. Параллельный пакет позволяет выполнять задачи в разных ядрах машины.

Резюме

Короче говоря, R - отличный инструмент для исследования и исследования данных. Сложный анализ, такой как кластеризация, корреляция и сокращение данных, выполняется с помощью R. Это самая важная часть, без хорошей разработки функций и модели развертывание машинного обучения не даст значимых результатов.