2024年11月PiFlow(大数据流水线系统) V0.9 官方版

发布时间:

  ⑴PiFlow是一款非常强大的大数据流水线系统,混合型科学大数据流水线系统,这款系统将数据采集、储存的等环节封装成组件,软件简单使用容易,提供+的数据处理组件,如果有需要朋友的可以来本站下载试试。

  ⑵可视化配置流水线。

  ⑶查看流水线日志。

  ⑷支持自定义开发数据处理组件。

  ⑸基于分布式计算引擎Spark开发。

  ⑹提供+的数据处理组件。

  ⑺包括Hadoop 、Spark、MLlib、Hive、Solr、Redis、MemCache、ElasticSearch、JDBC、MongoDB、HTTP、FTP、XML、CSV、JSON等。

  ⑻集成了微生物领域的相关算法。

  ⑼解压piflow-server-v..tar.gz。

  ⑽tar -zxvf piflow-server-v..tar.gz。

  ⑾编辑配置文件config.properties。

  ⑿运行、停止、重启PiFlow Server。

  ⒀start.sh、stop.sh、 restart.sh、 status.sh。

  ⒁测试 PiFlow Server。

  ⒂设置环境变量 PIFLOW_HOME。

  ⒃vim /etc/profile。

  ⒄export PIFLOW_HOME=/yourPiflowPath/bin。

  ⒅export PATH=PATH:PIFLOW_HOME/bin。

  ⒆piflow flow start example/mockDataFlow.json。

  ⒇piflow flow stop appID。

  ⒈piflow flow info appID。

  ⒉piflow flow log appID。

  ⒊piflow flowGroup start example/mockDataGroup.json。

  ⒋piflow flowGroup stop groupId。

  ⒌piflow flowGroup info groupId。

  ⒍如何配置config.properties。

  ⒎#spark and yarn config。

  ⒏spark.master=yarn。

  ⒐spark.deploy.mode=cluster。

  ⒑#hdfs default file system。

  ⒒fs.defaultFS=

  ⒓#yarn resourcemanager.hostname。

  ⒔yarn.resourcemanager.hostname=...。

  ⒕#if you want to use hive, set hive metastore uris。

  ⒖#hive.metastore.uris=

  ⒗#show data in log, set if you do not want to show data in logs。

  ⒘data.show=。

  ⒙#server port

  ⒚server.port=

  ⒛#hdb port