怎么用PHP写Hadoop的MapReduce程序

这篇文章主要介绍“怎么用PHP写Hadoop的MapReduce程序”，在日常操作中，相信很多人在怎么用PHP写Hadoop的MapReduce程序问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”怎么用PHP写Hadoop的MapReduce程序”的疑惑有所帮助！接下来，请跟着小编一起来学习吧！

Hadoop流

虽然Hadoop是用java写的，但是Hadoop提供了Hadoop流，Hadoop流提供一个API, 允许用户使用任何语言编写map函数和reduce函数.
Hadoop流动关键是，它使用UNIX标准流作为程序与Hadoop之间的接口。因此，任何程序只要可以从标准输入流中读取数据，并且可以把数据写入标准输出流中，那么就可以通过Hadoop流使用任何语言编写MapReduce程序的map函数和reduce函数。
例如：bin/hadoop jar contrib/streaming/hadoop-streaming-0.20.203.0.jar -mapper /usr/local/hadoop/mapper.php -reducer /usr/local/hadoop/reducer.php -input test/* -output out4
Hadoop流引入的包：hadoop-streaming-0.20.203.0.jar,Hadoop根目录下是没有hadoop-streaming.jar的，因为 streaming是一个contrib，所以要去contrib下面找，以hadoop-0.20.2为例，它在这里：
-input：指明输入hdfs文件的路径
-output：指明输出hdfs文件的路径
-mapper：指明map函数
-reducer：指明reduce函数

mapper函数

mapper.php文件，写入如下代码：

[php]

#!/usr/local/php/bin/php

<?php

$word2count = array();

// input comes from STDIN (standard input)

// You can this code :$stdin = fopen(“php://stdin”, “r”);

while (($line = fgets(STDIN)) !== false) {

// remove leading and trailing whitespace and lowercase

$line = strtolower(trim($line));

// split the line into words while removing any empty string