很多优点。它是一种动态编程语言,具有与 Scala 类似的优点,例如函数式编程、简洁的语法等。
在过去的几年中,Python 在数据科学家中的使用率迅速上升,超越了长期竞争对手 R 成为数据科学的整体首选语言,这一点可以在 Google Trend 上快速搜索“Python 数据科学”、“Python 机器学习”、“R 数据科学”和“R 机器学习”这些术语时看到:
python 用于数据科学
2017 年兴趣趋势
在良性循环中,Python 的日益普及催生了一个庞大且不断增长的生态系统,生态系统中包含各种库,可以使用 PIP Python 包安装程序轻松将其导入到您的项目中。数据科学家现在可以访问许多强大的开源 Python 库,如数据操作、数据 哥伦比亚电报数据库 可视化、统计、数学、机器学习、自然语言处理等等。
即使是初学者,无需成为机器学习专家,也可以使用流行的Scikit-learn 包快速构建机器学习分类器,或者使用Matplotlib或Bokeh快速绘制丰富的图表。
此外,根据IEEE Spectrum 2017 调查显示,Python 也已成为开发人员最喜爱的语言之一:
python 用于数据科学
编程语言使用情况统计
这一趋势在 GitHub 上也得到了证实,Python 现在在存储库总数中排名第三,仅次于 Java 和 JavaScript:
python 用于数据科学
GitHub 存储库统计(按编程语言)
上图显示了一些有趣的统计数据,表明 Python 开发者社区的活跃程度。GitHub 上活跃的 Python 相关存储库规模位居第三,每个存储库的总代码推送量和未解决的问题量也同样健康。
Python 在网络上也变得无处不在,它为许多知名网站提供了 Django、Tornado 和 TurboGears 等 Web 开发框架。最近有迹象表明,Python 也正在进入云服务领域,所有主要云提供商都以某种方式将其纳入其产品中。
Python 在数据科学领域显然有着光明的未来,尤其是与 Jupyter Notebooks 等强大的工具结合使用时,Jupyter Notebooks 在数据科学家社区中非常受欢迎。Notebooks 的价值主张是它们非常容易创建,非常适合快速运行实验。此外,Notebooks 支持多种高保真序列化格式,可以捕获指令、代码和结果,然后可以非常轻松地与团队中的其他数据科学家共享,或作为开源供所有人使用。例如,我们看到 GitHub 上共享的 Jupyter Notebooks 数量激增,超过 250 万个,并且还在不断增加。