Какие data-стартапы бывают и успешно развиваются.

Стартапов основанных на данных по всему миру возникает довольно много. Некоторые из них основаны на открытых данных данных, другие на создании удобных интерфейсах работы с данными компаний и частных лиц, третьи на алгоритмах помогающих придавать любым данным новое качество.

Какие data-стартапы бывают и успешно развиваются.

Стартапов основанных на данных по всему миру возникает довольно много. Некоторые из них основаны на открытых данных данных, другие на создании удобных интерфейсах работы с данными компаний и частных лиц, третьи на алгоритмах помогающих придавать любым данным новое качество.

В этой заметке я подготовил краткий обзор некоторых актуальных стартапов формирующих экосистему работы с данными.

Соревнования для разработчиков, дата аналитиков и data scientists.

У всех проектов в этой области похожая модель работы, они дают возможность компаниям решать сложные задачи на данных собирая их на специализированной платформе. Для компаний это снижение издержек на привлечение дорогостоящих специалистов по data science, для разработчиков это возможность проверить навыки и заработать неплохие деньги.

  • Kaggle - крупнейший и наиболее известный, его используют, в том числе, российские компании такие как Avito.
  • CrowdAI - проект от Digital Epidemiology Laboratory (Лаборатории цифровой эпидемиологии) в Лозанне. Акцент на анализе мединцинских данных, снимкой и иной структурированной и неструктурированной информации
  • CrowdAnalytix - проект с большим сообществом и более 100 конкурсов идущих одновременно. Большая часть с относительно небольшими призами и с большим разбросом тем.
  • DrivenData - ещё один стартап в этой области от команды которая и сама оказывает услуги анализа данных.

Платформы для работы с данными

Многим хочется создать аналог Github для данных, стать платформой де-факто для публикации данных, заменить локальные приложения и корпоративную инфраструктуру на собственную платформу.

  • Data.world - один из крупнейших стартапов позиционирующихся как рабочее место для data science. Модель работы очень похожа на Github, с возможностью публиковать данные в открытом доступе или же работать с ними взакрытую с возможностью взаимодействия команды. Инвестиции в проект составили более 32 миллионов USD за 2016-2017 годы
  • AirTable - онлайн замена Microsoft Access. Для тех кому совместно надо собирать базы данных вручную или автоматизированно и возможностей Google Spreadsheets недостаточно.
  • FigShare - платформа для публикации научных данных с акцентом на открытые научные данные. Учитывают потребности учёных в цитировании данных, интеграции данных с учётными системами в научных учреждениях и многое другое.
  • ModeAnalytics - позиционируют себя как collaborative data analytics, помогают анализу данных и совместной работе аналитиков. Позволяют подключать корпоративные базы данных к их облаку.

Образовательные курсы
То что многие интересуются работой с данными, но не рискуют передавать их кому-либо на сторону, привело к всплеску отдельных курсов и стартапов специализирующихся обучению data science.

  • DataCamp - поднявший 6 миллионов USD инвестиций стартап целевым образом обучающий только работе с данными на языках Python и R. Сейчас успешно строят сообщество преподавателей и дают возможность создавать свои курсы.
  • DataQuest - один из конкурентов DataCamp, также имеют специализацию только данных и data science. Учат Python, R, Spark, Jypiter, языкам программирования и дата продуктам и платформам.
  • PluralSight - платформа для обучения технологиям вцелом, с акцентом на корпоративные продукты и технологии Microsoft, Oracle и других. Включают направление "Data Professional"

Визуализация
Расцвет журналистики данных, потребность большого числа аналитиков в публикации красивых графиков и интерактивных материалов подчёркивающих или заменяющих текст привело к появлению большого числа стартапов специализирующихся на визуализации данных.

  • Flourish Studio - специализируются именно на дата журналистике, дают возможность представить данные в разных визуальных формах, в том числе в интерактивных. Отличаются высоким качеством визуализации
  • Infogram - сервис специализирующийся на встраиваемой в сайты инфографике и визуальных отчётах. Практически не требует умения программировать.
  • Plotly - платформа визуализации с акцентом на аналитику. Не так много видов визуализации как у других платформ, но тщательно проработанные механизмы визуализации ключевых графиков. Многое публикуют как open source.
  • LiveStories - продукт для тех кто рассказывает дата-истории. Форма журналистики данных с нанесением на карту и не только.
  • DataHero - переносят в онлайн корпоративные KPI и дашборды
  • Datawrapper - германский стартап по визуализации, близкий скорее к дата-журналистике и дата-историям.

В этом обзоре я практически не затронул тематические проекты в ритейле, интернете вещей, стартапы на госданных или на данных финансового сектора. Сегодня было больше о стартапах существующих в экосистеме данных и формирующих значительную часть этой экосистемы.

Вопросы можно присылать мне по электронной почте или в телеграм @ibegtin.

Подписывайтесь на мой канал в Телеграме https://t.me/begtin