用PHP编写Hadoop的MapReduce程序

博主： cto.wang
发布时间：2014 年 07 月 20 日
485次浏览
暂无评论
5503字数
分类： NOSQL

<h1>Hadoop流</h1>
<blockquote>虽然Hadoop是用java写的，但是Hadoop提供了Hadoop流，Hadoop流提供一个API, 允许用户使用任何语言编写map函数和reduce函数. Hadoop流动关键是，它使用UNIX标准流作为程序与Hadoop之间的接口。因此，任何程序只要可以从标准输入流中读取数据，并且可以把数据写入标准输出流中，那么就可以通过Hadoop流使用任何语言编写MapReduce程序的map函数和reduce函数。 例如：bin/hadoop jar contrib/streaming/hadoop-streaming-0.20.203.0.jar -mapper /usr/local/hadoop/mapper.php -reducer /usr/local/hadoop/reducer.php -input test/* -output out4 Hadoop流引入的包：hadoop-streaming-0.20.203.0.jar,Hadoop根目录下是没有hadoop-streaming.jar的，因为streaming是一个contrib，所以要去contrib下面找，以hadoop-0.20.2为例，它在这里： -input：指明输入hdfs文件的路径 -output：指明输出hdfs文件的路径 -mapper：指明map函数 -reducer：指明reduce函数
</blockquote>
<h1>mapper函数</h1>
<blockquote>mapper.php文件，写入如下代码：
<pre class="brush:python;toolbar:false">#!/usr/local/php/bin/php&nbsp;&nbsp;
&lt;?php&nbsp;&nbsp;
$word2count&nbsp;=&nbsp;array();&nbsp;&nbsp;
//&nbsp;input&nbsp;comes&nbsp;from&nbsp;STDIN&nbsp;(standard&nbsp;input)&nbsp;&nbsp;
//&nbsp;You&nbsp;can&nbsp;this&nbsp;code&nbsp;:$stdin&nbsp;=&nbsp;fopen(“php://stdin”,&nbsp;“r”);&nbsp;&nbsp;
while&nbsp;(($line&nbsp;=&nbsp;fgets(STDIN))&nbsp;!==&nbsp;false)&nbsp;{&nbsp;&nbsp;
&nbsp;&nbsp;&nbsp;&nbsp;//&nbsp;remove&nbsp;leading&nbsp;and&nbsp;trailing&nbsp;whitespace&nbsp;and&nbsp;lowercase&nbsp;&nbsp;
&nbsp;&nbsp;&nbsp;&nbsp;$line&nbsp;=&nbsp;strtolower(trim($line));&nbsp;&nbsp;
&nbsp;&nbsp;&nbsp;&nbsp;//&nbsp;split&nbsp;the&nbsp;line&nbsp;into&nbsp;words&nbsp;while&nbsp;removing&nbsp;any&nbsp;empty&nbsp;string&nbsp;&nbsp;
&nbsp;&nbsp;&nbsp;&nbsp;$words&nbsp;=&nbsp;preg_split(&#039;/\W/&#039;,&nbsp;$line,&nbsp;0,&nbsp;PREG_SPLIT_NO_EMPTY);&nbsp;&nbsp;
&nbsp;&nbsp;&nbsp;&nbsp;//&nbsp;increase&nbsp;counters&nbsp;&nbsp;
&nbsp;&nbsp;&nbsp;&nbsp;foreach&nbsp;($words&nbsp;as&nbsp;$word)&nbsp;{&nbsp;&nbsp;
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;$word2count[$word]&nbsp;+=&nbsp;1;&nbsp;&nbsp;
&nbsp;&nbsp;&nbsp;&nbsp;}&nbsp;&nbsp;
}&nbsp;&nbsp;
//&nbsp;write&nbsp;the&nbsp;results&nbsp;to&nbsp;STDOUT&nbsp;(standard&nbsp;output)&nbsp;&nbsp;
//&nbsp;what&nbsp;we&nbsp;output&nbsp;here&nbsp;will&nbsp;be&nbsp;the&nbsp;input&nbsp;for&nbsp;the&nbsp;&nbsp;
//&nbsp;Reduce&nbsp;step,&nbsp;i.e.&nbsp;the&nbsp;input&nbsp;for&nbsp;reducer.py&nbsp;&nbsp;
foreach&nbsp;($word2count&nbsp;as&nbsp;$word&nbsp;=&gt;&nbsp;$count)&nbsp;{&nbsp;&nbsp;
&nbsp;&nbsp;&nbsp;&nbsp;//&nbsp;tab-delimited&nbsp;&nbsp;
&nbsp;&nbsp;&nbsp;&nbsp;echo&nbsp;$word,&nbsp;chr(9),&nbsp;$count,&nbsp;PHP_EOL;&nbsp;&nbsp;
}&nbsp;&nbsp;
?&gt;</pre>
</blockquote>
<blockquote>这段代码的大致意思是：把输入的每行文本中的单词找出来，并以”
</blockquote>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; hello&nbsp;&nbsp;&nbsp; 1 &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; &nbsp;&nbsp; world&nbsp; 1″
<blockquote>这样的形式输出出来。
</blockquote>
<blockquote>和之前写的PHP基本没有什么不同，对吧，可能稍微让你感到陌生有两个地方：
</blockquote>
<h1>PHP作为可执行程序</h1>
<blockquote>第一行的
<pre class="brush:python;toolbar:false">#!/usr/local/php/bin/php</pre>
告诉linux，要用#!/usr/local/php/bin/php这个程序作为以下代码的解释器。写过linux shell的人应该很熟悉这种写法了，每个shell脚本的第一行都是这样: #!/bin/bash, #!/usr/bin/python
有了这一行，保存好这个文件以后，就可以像这样直接把mapper.php当作cat, grep一样的命令执行了：./mapper.php
</blockquote>
<h1>使用stdin接收输入</h1>
<blockquote>PHP支持多种参数传入的方法，大家最熟悉的应该是从$_GET, $_POST超全局变量里面取通过Web传递的参数，次之是从$_SERVER[&#039;argv&#039;]里取通过命令行传入的参数，这里，采用的是标准输入stdin
它的使用效果是：
在linux控制台输入 ./mapper.php
mapper.php运行，控制台进入等候用户键盘输入状态
用户通过键盘输入文本
用户按下Ctrl + D终止输入，mapper.php开始执行真正的业务逻辑，并将执行结果输出
那么stdout在哪呢？print本身已经就是stdout啦，跟我们以前写web程序和CLI脚本没有任何不同。
</blockquote>
<h1>reducer函数</h1>
<blockquote>创建reducer.php文件，写入如下代码：
<pre class="brush:python;toolbar:false">#!/usr/local/php/bin/php&nbsp;&nbsp;
&lt;?php&nbsp;&nbsp;
$word2count&nbsp;=&nbsp;array();&nbsp;&nbsp;
//&nbsp;input&nbsp;comes&nbsp;from&nbsp;STDIN&nbsp;&nbsp;
while&nbsp;(($line&nbsp;=&nbsp;fgets(STDIN))&nbsp;!==&nbsp;false)&nbsp;{&nbsp;&nbsp;
&nbsp;&nbsp;&nbsp;&nbsp;//&nbsp;remove&nbsp;leading&nbsp;and&nbsp;trailing&nbsp;whitespace&nbsp;&nbsp;
&nbsp;&nbsp;&nbsp;&nbsp;$line&nbsp;=&nbsp;trim($line);&nbsp;&nbsp;
&nbsp;&nbsp;&nbsp;&nbsp;//&nbsp;parse&nbsp;the&nbsp;input&nbsp;we&nbsp;got&nbsp;from&nbsp;mapper.php&nbsp;&nbsp;
&nbsp;&nbsp;&nbsp;&nbsp;list($word,&nbsp;$count)&nbsp;=&nbsp;explode(chr(9),&nbsp;$line);&nbsp;&nbsp;
&nbsp;&nbsp;&nbsp;&nbsp;//&nbsp;convert&nbsp;count&nbsp;(currently&nbsp;a&nbsp;string)&nbsp;to&nbsp;int&nbsp;&nbsp;
&nbsp;&nbsp;&nbsp;&nbsp;$count&nbsp;=&nbsp;intval($count);&nbsp;&nbsp;
&nbsp;&nbsp;&nbsp;&nbsp;//&nbsp;sum&nbsp;counts&nbsp;&nbsp;
&nbsp;&nbsp;&nbsp;&nbsp;if&nbsp;($count&nbsp;&gt;&nbsp;0)&nbsp;$word2count[$word]&nbsp;+=&nbsp;$count;&nbsp;&nbsp;
}&nbsp;&nbsp;
//&nbsp;sort&nbsp;the&nbsp;words&nbsp;lexigraphically&nbsp;&nbsp;
//&nbsp;&nbsp;
//&nbsp;this&nbsp;set&nbsp;is&nbsp;NOT&nbsp;required,&nbsp;we&nbsp;just&nbsp;do&nbsp;it&nbsp;so&nbsp;that&nbsp;our&nbsp;&nbsp;
//&nbsp;final&nbsp;output&nbsp;will&nbsp;look&nbsp;more&nbsp;like&nbsp;the&nbsp;official&nbsp;Hadoop&nbsp;&nbsp;
//&nbsp;word&nbsp;count&nbsp;examples&nbsp;&nbsp;
ksort($word2count);&nbsp;&nbsp;
//&nbsp;write&nbsp;the&nbsp;results&nbsp;to&nbsp;STDOUT&nbsp;(standard&nbsp;output)&nbsp;&nbsp;
foreach&nbsp;($word2count&nbsp;as&nbsp;$word&nbsp;=&gt;&nbsp;$count)&nbsp;{&nbsp;&nbsp;
&nbsp;&nbsp;&nbsp;&nbsp;echo&nbsp;$word,&nbsp;chr(9),&nbsp;$count,&nbsp;PHP_EOL;&nbsp;&nbsp;
}&nbsp;&nbsp;
?&gt;</pre>
</blockquote>
<blockquote>这段代码的大意是统计每个单词出现了多少次数，并以”
hello &nbsp; 2
world &nbsp;1″
这样的形式输出
</blockquote>
<h1>用Hadoop来运行</h1>
<blockquote>把文件放入 Hadoop 的 DFS 中：
<pre class="code">bin/hadoop&nbsp;dfs&nbsp;-put&nbsp;test.log&nbsp;test</pre>
执行 php 程序处理这些文本(以Streaming方式执行PHP mapreduce程序:):
bin/hadoop jar contrib/streaming/hadoop-streaming-0.20.203.0.jar -mapper /usr/local/hadoop/mapper.php -reducer /usr/local/hadoop/reducer.php -input test/* -output out
注意：
1) input和output目录是在hdfs上的路径
2) mapper和reducer是在本地机器的路径，一定要写绝对路径，不要写相对路径，以免到时候hadoop报错说找不到mapreduce程序
3 ) mapper.php 和 reducer.php 必须复制到所有 DataNode 服务器上的相同路径下, 所有的服务器都已经安装php.且安装路径一样.
</blockquote>
<h1>查看结果</h1>
<blockquote>bin/hadoop d fs -cat /tmp/out/part-00000
</blockquote>

最后修改：2021 年 12 月 10 日 10 : 53 AM

如果觉得我的文章对你有用，请随意赞赏