|
<!DOCTYPE HTML PUBLIC "-//W3C//DTD Compact HTML 1.0 Draft //EN">と宣言されている。同様に google.com/xhtml では
<!DOCTYPE html PUBLIC "-//WAPFORUM//DTD XHTML Mobile 1.0//EN" "http://www.wapforum.org/DTD/xhtml-mobile10.dtd">と宣言されている。 これに倣ってDOCTYPEをCHTMLにしたものとXHTMLにしたものを用意する(on ku0522nositemaps.homelinux.net)。これが携帯サイトとしてインデックスされるかどうかを調べる。
| ドメイン | DOCTYPE | charset | chtml sitemap | xhtml sitemap |
| 3zai.costcentre.net | - | sjis | O | O |
| costcentre.net | Compact HTML 1.0 Draft | sjis | ||
| ku0522chtml.dyndns.org | Compact HTML 1.0 Draft | sjis | O | |
| ku0522xhtml.mine.nu | XHTML Mobile 1.0 | sjis | O | |
| ku0522nositemaps.homelinux.net | - | sjis |
66.249.66.69 - - [08/Nov/2006:06:01:35 +0900] "GET /nodoctype.html HTTP/1.1" 200 458 "-" "DoCoMo/1.0/N505i/c20/TB/W20H10 (compatible; Googlebot-Mobile/2.1; +http://www.google.com/bot.html)"
クロールしているのはCHTMLサイトマップに記述しておいた3ページ。
携帯の検索インデックスにはまだ反映されていなかった。
xhtmlのサイトマップだけを登録していた ku0522xhtml.mine.nu に
66.249.66.97 - - [14/Nov/2006:13:24:25 +0900] "GET /nodoctype.html HTTP/1.1" 200 393 "-" "Nokia6820/2.0 (4.83) Profile/MIDP-1.0 Configuration/CLDC-1.0 (compatible; Googlebot-Mobile/2.1; +http://www.google.com/bot.html)"
がきていた。やはりxhtmlサイトはnokiaが見に来るのかもしれない。
11/8にクロールされたCHTMLも未だインデックスには反映されない。
66.249.65.167 - - [17/Nov/2006:03:30:23 +0900] "GET / HTTP/1.1" 200 504 "-" "Nokia6820/2.0 (4.83) Profile/MIDP-1.0 Configuration/CLDC-1.0 (compatible; Googlebot-Mobile/2.1; +http://www.google.com/bot.html)"
インデックスにはまだ登録されない。
ku0522chtml.dyndns.orgにDoCoMoのgooglebot-mobileが来た。ランクの低いページは隔週でクロールすることになっているのだろうか。11-08にindex.htmlからリンクをはっておいたfollowme.htmlというページもクロールされていたので、サイトマップに記述したページを起点にしたクロールもしているようだ。(ファイル名を間違って作っていたため404になっていたけど、リンクをたどってはくれている)
66.249.66.79 - - [22/Nov/2006:08:57:50 +0900] "GET /followme.html HTTP/1.1" 404 298 "-" "DoCoMo/1.0/N505i/c20/TB/W20H10 (compatible; Googlebot-Mobile/2.1; +http://www.google.com/bot.html)"
今回CHTMLサイトマップを設定したサイトにまたもDoCoMoがきたことで、CHTML-DoCoMoでXHTML-Nokiaという役割分担になっているのはほぼ確実だと思われる。
このページ、googlebot-mobileで検索すると、上から4つめになっててびっくり。その割にアクセスがないのでgooglebot-mobileなんぞ誰も気にしていないのだと思われる。(アクセスがあるとログの解析が面倒になるのでないほうがいい)
ついに検索でヒットするようになりました! ku0522chtml.dyndns.org/nodoctype.html と http://ku0522xhtml.mine.nu/がヒットするようになりました。それぞれについて細かく見てみます。
| ページ | mrestrict=chtml検索結果 | DOCTYPE | CHTMLサイトマップ |
| index.html | ヒットしない | HTML PUBLIC "-//W3C//DTD Compact HTML 1.0 Draft //EN | 記載 |
| xhtml.html | ヒットしない |
html PUBLIC "-//WAPFORUM//DTD XHTML Mobile 1.0//EN"
"http://www.wapforum.org/DTD/xhtml-mobile10.dtd"
|
記載 |
| nodoctype.html | ヒットする | なし | 記載 |
| followme.html | ヒットしない | HTML PUBLIC "-//W3C//DTD Compact HTML 1.0 Draft //EN | なし |
このサイトには3つのページがあり、すべてのページをxhtmlサイトマップで知らせてありました。結果は以下のとおり。
| ページ | mrestrict=xhtml検索結果 | DOCTYPE | XHTMLサイトマップ |
| index.html |
ヒットする (ただし文字化けしている) |
html PUBLIC "-//WAPFORUM//DTD XHTML Mobile 1.0//EN"
"http://www.wapforum.org/DTD/xhtml-mobile10.dtd"
|
記載 |
| chtml.html | ヒットしない | HTML PUBLIC "-//W3C//DTD Compact HTML 1.0 Draft //EN | 記載 |
| nodoctype.html | ヒットしない | なし | 記載 |
検索にヒットするようになったものの、文字化けしているのはindex.htmlのHTML内で文字コードの指定をしていなかったためだと思われます。
この結果からわかるのは
219.192.4.59 - - [27/Nov/2006:11:35:48 +0900] "GET / HTTP/1.1" 200 8308 "-" "DoCoMo/1.0/N505i/c20/TB/W20H10 (compatible; Googlebot-Mobile/2.1)"
が回ってきていました。
ほかのサイトのログを見てみたところ googlebot-mobile DOCOMO は、PCサイトとしてインデックスされていればたまに(週に1回程度?)回ってくるようです。
ku0522xhtml.mine.nuにも
66.249.66.79 - - [28/Nov/2006:08:17:27 +0900] "GET /robots.txt HTTP/1.1" 404 292 "-" "Nokia6820/2.0 (4.83) Profile/MIDP-1.0 Configuration/CLDC-1.0 (compatible; Googlebot-Mobile/2.1; +http://www.google.com/bot.html)"
がきていました。
DOCTYPEについては、昨日DoCoMoの場合には出力しないように変更したが、この変更後にはgooglebot-mobileは(googlebotも)来ていないのでインデックスされた時点ではCHTMLが出力されていたことになる。DOCTYPEをCHTMLに設定していたけどインデックスされたというこの結果はそのほかのサイトでDOCTYPEをCHTMLにしているとCHTMLサイトとしてインデックスされなかったのと相反する。
XHTMLとしてもインデックスされていることから、出しわけをすれば両方でインデックスされるようにすることは可能なようだ。
インデックスされたこととは関係ないが、昨日の変更は以下のとおり。変更前のものがコミットされていなかったのでメモとして残しておく。
--- /home/kuma/.backup/vim/index.php3.bak Mon Oct 30 18:36:42 2006
+++ index.php3 Tue Nov 28 17:20:27 2006
@@ -1,8 +1,9 @@
<?php
if ( preg_match( '/DoCoMo/', $_SERVER["HTTP_USER_AGENT"] ) ) {
- print '<!DOCTYPE HTML PUBLIC "-//W3C//DTD Compact HTML 1.0 Draft //EN">';
+ #print '<!DOCTYPE HTML PUBLIC "-//W3C//DTD Compact HTML 1.0 Draft //EN">';
} elseif ( preg_match( '/Nokia/', $_SERVER["HTTP_USER_AGENT"] ) ) {
print '<!DOCTYPE html PUBLIC "-//WAPFORUM//DTD XHTML Mobile 1.0//EN" "http://www.wapforum.org/DTD/xhtml-mobile10.dtd">';
+ print "\n";
}
?><html>
<meta http-equiv="content-type" content="text/html; charset=SHIFT_JIS" />
DOCTYPEがないものと、あるものとでインデックスされる順番が違うのかもしれないが、index/htmlと同じようにDOCTYPEを設定していたfollowme.htmlは現時点でインデックスされていない。ただし、followme.htmlはCHTMLサイトマップに記載していないので、サイトマップにあるものと、そこからクロールしたものとで処理に際がある可能性もある。
とりあえず、昨日の時点で矛盾しているように思えた、DOCTYPEがCHTMLだとインデックスされないが、されているページもある、というのはインデックスのタイミングでそう見えていただけのようだ。
<!DOCTYPE html PUBLIC "-//i-mode group (ja)//DTD XHTML i-XHTML(Locale/Ver.=ja/2.1) 1.0//EN" "i-xhtml_4ja_10.dtd">にしてねと書いてあったのでこれにしたimode.htmlというファイルを ku0522chtml.dyndns.org と ku0522xhtml.mine.nu に用意してインデックスされるかを調べることにしました。
両方のドメインとも、それぞれのサイトマップに追加しました。
年末年始をはさんであいだが空いたあいだにインデックスが更新されていました。 更新されたのは12/28の昼間のようです。前回も11/28に更新がかかっているので毎月28日に更新されるのでしょうか。2月が28日しかないことを考慮した上での月末ということなのかもしれません。 インデックスに追加されていたのは ku0522chtml.dyndns.org で size1k.html, size5k.html, size10k.html, imode.html の4ページ、 ku0522xhtml.mine.nu で imode.html の1ページです。
この結果から
<!DOCTYPE html PUBLIC "-//i-mode group (ja)//DTD XHTML i-XHTML(Locale/Ver.=ja/2.1) 1.0//EN" "i-xhtml_4ja_10.dtd"> にしているとchtmlでもxhtmlでもインデックスされる<!DOCTYPE html PUBLIC "-//i-mode group (ja)//DTD XHTML i-XHTML(Locale/Ver.=ja/2.1) 1.0//EN" "i-xhtml_4ja_10.dtd">にするのがよい。CHTMLでインデックスさせるにはDOCTYPEをCHTMLにするか設定しないのがよい。XHTMLではインデックスされるにはDOCTYPEが必要。DOCTYPEでXHTMLと明示的に記述していないとインデックスされない<!DOCTYPE html PUBLIC "-//i-mode group (ja)//DTD XHTML i-XHTML(Locale/Ver.=ja/2.1) 1.0//EN" "i-xhtml_4ja_10.dtd">)にすればひとつのページをCHTML, XHTML両方でヒットさせることが可能Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0; Google Wireless Transcoder;)になっている。