⑴PiFlow是一款非常强大的大数据流水线系统,混合型科学大数据流水线系统,这款系统将数据采集、储存的等环节封装成组件,软件简单使用容易,提供+的数据处理组件,如果有需要朋友的可以来本站下载试试。
⑵可视化配置流水线。
⑶查看流水线日志。
⑷支持自定义开发数据处理组件。
⑸基于分布式计算引擎Spark开发。
⑹提供+的数据处理组件。
⑺包括Hadoop 、Spark、MLlib、Hive、Solr、Redis、MemCache、ElasticSearch、JDBC、MongoDB、HTTP、FTP、XML、CSV、JSON等。
⑻集成了微生物领域的相关算法。
⑼解压piflow-server-v..tar.gz。
⑽tar -zxvf piflow-server-v..tar.gz。
⑾编辑配置文件config.properties。
⑿运行、停止、重启PiFlow Server。
⒀start.sh、stop.sh、 restart.sh、 status.sh。
⒁测试 PiFlow Server。
⒂设置环境变量 PIFLOW_HOME。
⒃vim /etc/profile。
⒄export PIFLOW_HOME=/yourPiflowPath/bin。
⒅export PATH=PATH:PIFLOW_HOME/bin。
⒆piflow flow start example/mockDataFlow.json。
⒇piflow flow stop appID。
⒈piflow flow info appID。
⒉piflow flow log appID。
⒊piflow flowGroup start example/mockDataGroup.json。
⒋piflow flowGroup stop groupId。
⒌piflow flowGroup info groupId。
⒍如何配置config.properties。
⒎#spark and yarn config。
⒏spark.master=yarn。
⒐spark.deploy.mode=cluster。
⒑#hdfs default file system。
⒒fs.defaultFS=
⒓#yarn resourcemanager.hostname。
⒔yarn.resourcemanager.hostname=...。
⒕#if you want to use hive, set hive metastore uris。
⒖#hive.metastore.uris=
⒗#show data in log, set if you do not want to show data in logs。
⒘data.show=。
⒙#server port
⒚server.port=
⒛#hdb port