ビデオ: ä¸è¦å²ç¬æåçæ§ (十一月 2024)
ニュースを入手するために、Googleニュースをよくスキャンします。Googleニュースは、「ロボット」がトレンドと判断したものに基づいて世界中の記事を集約します。 トレンドのすべてです。 私のコラムのように、一般的にニュース速報を逃し、重要な解説を完全に無視します。 代わりに、デッドリンクに行くことを好むようです。つまり、読むには購読が必要な Wall Street Journal です。
今日はその好例です。 CESからは、Dish NetworkがClearwireを購入するという入札についての最新ニュースがありました。 ただし、Googleは無料で読みやすいWebサイトで関連するストーリーにリンクする代わりに、トップストーリーは Wall Street Journal からのものと判断します。
過去には、Googleはユーザーがペイウォールにブロックされる前に、少なくとも先頭の段落、または記事全体を読むことを許可する何らかの取引を行っていました。 バイパストリック(以下で説明)を知らない限り、これは適用されません。 今、あなたはペイウォールに出くわし、完了です。 実際の購読者はこれを乗り越えると思いますが、そもそもGoogleのボットがどうやってそれを手に入れてストーリーを見つけるのか疑問に思います。 Googleは有料ですか? 疑わしい。 したがって、Googleボットには何らかのバックドアが必要になりますよね?
これは偽であり、Googleユーザーに損害を与えます。 Googleはこの問題をすべて乗り越えてシステムをゲームしようとしている人々を打ち負かしていますが、 ウォールストリートジャーナルは このスタントを引っ張っていますか? これは、本質的に Wall Street Journal サブスクリプションの有料です。 それはGoogleが望んでいることですか? Googleは削減されていますか?
Googleがこの煩わしさを単に修正するのはそれほど難しくありません。 トップが5つあるのに1分かかります。 仕事が多すぎますか?
会社のサービスにペイウォールが組み込まれている場合、Googleはサイトをまったく検索しないでください。 ボットはペイウォールがあることを知り、単に検索を避ける必要があります。 そして、はい、ボットがペイウォールによってブロックされているサイトをどのように正確に検索できるかについて説明したいと思います。 それは謎です。
ペイウォールは、クローラーボットに消えるように指示する「robots.txt」とまったく同じである必要があります。 しかし、 WSJと Googleの関係には何か怪しいものがあります。 すべてのボットを殺す最も簡単な方法は、robots.txtファイルのメタタグです。したがって、 。
代わりに、 WSJは 特定のサブディレクトリを明確にブロックしますが、明らかにすべてではありません。 さらに奇妙なことに、ランダウンのリンクをクリックするだけでなく、まったく同じ記事をGoogleニュースで検索した場合、他のメカニズムで記事を取得できます。
WSJが 採用しているrobots.txtファイルを調べることで、より技術的な読者にこれら2つで何が起こっているかを理解するように挑戦します。 公開文書はこちらから入手できます。
いずれにせよ、サイトには金銭的な理由でペイウォールがあります。 彼らが自分のコンテンツでゲームをプレイしたい場合、それは一つのことですが、Googleがシステムをゲームしようとしている人々を妨害しようとするのと同じ方法で検索結果から禁止されるべきです。 Googleは、いくつかの大ざっぱな振る舞いのために、不運なブロガーを禁止します。 同じように大きなサイトを扱うのはどうですか?
Twitter @therealdvorakでJohn C. Dvorakをフォローできます。
ジョン・C・ドヴォルザーク:
ジョンC.ドヴォルザークとトピックを外します。
ギャラリーですべての写真を見る