2024年11月PiFlow(大数据流水线系统) V0.9 官方版-权权小可爱

　　⑴PiFlow是一款非常强大的大数据流水线系统，混合型科学大数据流水线系统，这款系统将数据采集、储存的等环节封装成组件，软件简单使用容易，提供+的数据处理组件，如果有需要朋友的可以来本站下载试试。

　　⑵可视化配置流水线。

　　⑶查看流水线日志。

　　⑷支持自定义开发数据处理组件。

　　⑸基于分布式计算引擎Spark开发。

　　⑹提供+的数据处理组件。

　　⑺包括Hadoop 、Spark、MLlib、Hive、Solr、Redis、MemCache、ElasticSearch、JDBC、MongoDB、HTTP、FTP、XML、CSV、JSON等。

　　⑻集成了微生物领域的相关算法。

　　⑼解压piflow-server-v..tar.gz。

　　⑽tar -zxvf piflow-server-v..tar.gz。

　　⑾编辑配置文件config.properties。

　　⑿运行、停止、重启PiFlow Server。

　　⒀start.sh、stop.sh、 restart.sh、 status.sh。

　　⒁测试 PiFlow Server。

　　⒂设置环境变量 PIFLOW_HOME。

　　⒃vim /etc/profile。

　　⒄export PIFLOW_HOME=/yourPiflowPath/bin。

　　⒅export PATH=PATH:PIFLOW_HOME/bin。

　　⒆piflow flow start example/mockDataFlow.json。

　　⒇piflow flow stop appID。

　　⒈piflow flow info appID。

　　⒉piflow flow log appID。

　　⒊piflow flowGroup start example/mockDataGroup.json。

　　⒋piflow flowGroup stop groupId。

　　⒌piflow flowGroup info groupId。

　　⒍如何配置config.properties。

　　⒎#spark and yarn config。

　　⒏spark.master=yarn。

　　⒐spark.deploy.mode=cluster。

　　⒑#hdfs default file system。

　　⒒fs.defaultFS=

　　⒓#yarn resourcemanager.hostname。

　　⒔yarn.resourcemanager.hostname=...。

　　⒕#if you want to use hive, set hive metastore uris。

　　⒖#hive.metastore.uris=

　　⒗#show data in log, set if you do not want to show data in logs。

　　⒘data.show=。

　　⒙#server port

　　⒚server.port=

　　⒛#hdb port

2024年11月PiFlow(大数据流水线系统) V0.9 官方版