原子カ(カタカナ)問題は誤報ではないか?

2014/6/9 28209hit

原子カ(カタカナ)で検索すると原子力関連のPDFが大量にヒットし、東京電力は検索対策で隠蔽を測っているという話が問題になっていますがどうも違和感があります。

・東京電カなどのように隠すまでもない言葉が変換されている
・PDFしかヒットしない(検索対策ならHTMLでもやるはず)
・そもそもrobots.txt使うでしょ?

電力会社が原子力、東京電力の力(ちから)をカタカナのカにしてネットで検索避けをしていると話題に
原子力村が重要な資料の言葉を変えて、ネット対策をしていることが判明!東京電力⇒東京電カ(か)柏崎原発⇒ネ白崎 new!!


実際に原子カ(カタカナ)で検索してヒットしたPDFを見てみたのですが、普通に漢字で原子力って書いてあるように見える。
しかしPDF内検索で原子力で検索してもヒットしない。
コピーしてみようと思ったらコピー出来ない。

どうもPDFがセキュリティでテキストを抽出できないようにしているぽい。

次に水カ(カタカナ) 火カ (カタカナ)で検索すると同じように水力や火力のPDFがヒットする。
ということで、1つの仮説が出てくる。
テキストを抽出できないPDFについてGoogleがOCRでテキストを抽出して検索Indexに加えているのではないか
その性能がイマイチなので誤認識したのではないかと

検証

原子カ(カタカナ)でヒットした下のPDFをダウンロードしGoogleDriveのOCRにかけてみました。
検索エンジンのOCRとGoogleDriveのOCRが同じ性能であるという確証はありませんが、一つの目安にはなるとおもいます。
GoogleDriveのアップロード設定で「アップロード前に毎回設定を確認する」にチェックを入れるとOCRを有効にできます。(アップロードしたPDFや画像ファイルからテキストに変換にチェックを入れた場合は日本語が読み込まれないことが有りました)
OCRを日本語で有効にしPDFをアップロードするとPDF画像ファイルからの文字を認識して書き出します。
検証に使用したPDF

結論は(著作権の問題があるので一部抜粋 より詳細を見たい人は実際にご自身でお試しください)

「国内外の最新情報を収集࡮分析し、各事業者がエクセレンスを目指して取 り組むよう、原子カ安全レࡌルを引き上げていくための提言を行います。」

カタカナになった!
ということで、これは隠蔽でも何でも無く、GoogleのOCRがイマイチでしたよって事みたい

その他いくつかのファイルを試してみたのですが、全ての原子力が原子カになるわけではなく文字のフォントやサイズにもよるようです。




前:始めてのSketch3 チュートリアル 次:日本一手抜きなWeb Compornents入門

関連キーワード

[IT]

コメント

名前:名無しさん|投稿日:2014/06/11 10:51

「泊原発」を「シ白原発」と誤認識するのか…

名前:名無しさん|投稿日:2014/06/12 14:20

>実際に原子カ(カタカナ)で検索してヒットしたPDFを見てみたのですが、普通に漢字で原子力って書いてあるように見える。

…ここが問題。それは違います。PDFの書面自体がカタカナですから。

コメントを投稿する