10天吃掉那只pyspark

10天吃掉那只pyspark
  • 文档标签
  • 文档概述
    pyspark强于分析,spark-scala强于工程。如果应用场景有非常高的性能需求,应该选择spark-scala。如果应用场景有非常多的可视化和机器学习算法需求,推荐使用pyspark,可以更好地和python中的相关库配合使用。此外spark-scala支持spark graphx图计算模块,而pyspark是不支持的。pyspark学习曲线平缓,spark-scala学习曲线陡峭。如果读者学习时间有限,并对Python情有独钟,建议选择pyspark。pyspark在工业界的使用目前也越来越普遍。