ブログのHTMLからトラックバックをしたブログのURLの抽出

Question

ブログのHTMLから、そのブログのある記事にトラックバックをしたブログのURLを抽出するプログラムを作りたいと思います。例えば、URLがhttp://blogs.yahoo.co.jp/example/1234というヤフーのブログの記事に、 http://blog.goo.ne.jp/example/1234 http://blogs.yahoo.co.jp/example2.html の二つのブログがトラックバックをしたとします。このヤフーのブログの記事のHTMLは以下のようになります。 … http://blogs.yahoo.co.jp/example/1234/trackback … … … … … … そこで、トラックバックをしたURLを抽出するときに、例えば、http://blog.goo.ne.jp/example/1234を抽出するのに、 target=_blankを参照して、 HTML中のから http://blog.goo.ne.jp/example/1234を抜き出すようにして、トラックバック先のURLを抽出するプログラムを作成したいです。このようなプログラムを作成するにはどのようにプログラムを組めばいいのでしょうか？また、HTML中には、target=_blankで参照すると、以下のような [ 余分な情報も抜き出してしまうので、上記を抽出しないように、 rssを含むもの、http:で始まらないものは抽出しないという条件で抽出できるようなら、こちらの方法も教えていただきたいです。よろしくお願いします。

BLUEPIXY · Accepted Answer

import java.io.*;

import java.net.*;
import java.util.regex.*;

class GetTBAddrYAHOO {
//トラックバックされているアドレスを抜き出す
public static String[] getTBaddrYAHOO(String urlString){
String addr="";
boolean flag=false;
try{
URL url = new URL(urlString);
InputStream input = url.openStream();
BufferedReader reader = new BufferedReader(new InputStreamReader(input));
String aLine;
Pattern trackBack = Pattern.compile("<a href=\"(http://.+)\" target=_blank>");
while((aLine = reader.readLine())!=null){
// if(aLine.indexOf("tb_tab")>=0){
if(aLine.indexOf("<tr id=\"tb_tab\" style=\"display:block\">") >=0){
flag=true;//ここからマッチングテスト開始
} else {
if(flag && aLine.indexOf("<td class=\"sub_bg\">")>=0)
break;//上記が表れたら、該当エリア終わり、処理止め
}
if(flag==false)
continue;//該当エリアまで、読み飛ばし
Matcher m = trackBack.matcher(aLine);
if(m.find()){
addr+=m.group(1)+",";
}
}
reader.close();
input.close();
}
catch(MalformedURLException e){
e.printStackTrace();
}
catch(IOException e){
e.printStackTrace();
}
return addr.split(",");
}
public static void main(String[] args){
String[] TBaddr = getTBaddrYAHOO("http://blogs.yahoo.co.jp/****/13882500.html");
for(int i=0;i<TBaddr.length;i++)
System.out.println(TBaddr[i]);
TBaddr = getTBaddrYAHOO("http://blogs.yahoo.co.jp/****/archive/2005/10/19 …
for(String addr : TBaddr)
System.out.println(addr);
}
}

omni2 · Answer

正規表現は詳しくないので、他の方にお譲りします。
まずは、参考までに下記を・・
http://java.sun.com/developer/technicalArticles/releases/1.4regex/

http://www.atmarkit.co.jp/fjava/javatips/108java016.html

http://homepage2.nifty.com/tokushima/java/core/regex/BasicRegrexExample.html

http://www.hellohiro.com/regex.htm

http://634.ayumu-baby.com/javawork/re2.html

http://www.moriwaki.net/wiki/index.php?[[%C0%B5%B5%AC%C9%BD%B8%BD]]

ざっとこんなところが参考になるでしょうか？
リンク抽出とかで検索すればもっとでてくるかもしれません。
また、Perl等の正規表現もおなじような感じなので、そちらを参考にされてもいいとおもいます。

omni2 · Answer

javascriptや独自タグが入っているときは動作するかどうか未確認ですが、（多分おもったように抽出できないのではと・・）

http://blog.goo.ne.jp/example/1234
から＜A＞タグのHREFからURLを抽出するばあいですが、

URLクラスのインスタンス作成。
URL url = new URL("http://blog.goo.ne.jp/example/1234
");
InputStreamReader クラスのインスタンスを作成。
InputStreamReader in = new InputStreamReader(url.openStream());

javax.swing.text.html.parser.ParserDelegator
クラスのインスタンスを作成。

parseメソッドを使用。
APIを参照してください。

Readerには先ほど作成したinを指定してやればいいです。
booleanにはtrueを指定してやればいいのかな？？
HTMLEditorKit.ParserCallbackはHTMLEditorKit.ParserCallbackクラスをextendsした
無名クラスを作成してやって、つまり、
new HTMLEditorKit.ParserCallback(){}と記述してやります。
handleStartTagメソッドの中に、
HTML.Tag tがHTML.Tag.Aの場合、
MutableAttributeSet aから、
a.getAttribute(HTML.Attribute.HREF);
してやるという記述をすれば、HREFからURLが抽出できるのではないかと・・

ただ、冒頭にも書きましたが、独自タグや、
Javascriptが入った場合などはうまく動作してくれないとおもいますので、この方法でやるとかえって遠回りになります。

正規表現などで抽出するのがいいかもしれません。

BLUEPIXY · Answer

target=_blankがあるというだけでは、本文中のリンクが該当してしまうので、うまくないと思います。以降で検索するとかライブドアで言えば

ブログのHTMLからトラックバックをしたブログのURLの抽出

import java.io.*;

正規表現は詳しくないので、他の方にお譲りします。

javascriptや独自タグが入っているときは動作するかどうか未確認ですが、（多分おもったように抽出できないのではと・・）

target=_blankがある<a～>というだけでは、本文中のリンクが該当してしまうので、うまくないと思います。

この回答への補足

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング