< | >

DM後のエラーメールからメアド抽出
  • (2012-03-21 17:22:24)
去年DMメールを流した。7,000件がエラーメールとなった。エラー通知からメルアドを抽出しメンテナンスする(2012/03/21 小平探検隊)

Becky!のエクスポート


単一テキストファイルに落としてメールアドレス抽出するつもりでエクスポート。Becky!は無反応になる。

Core2DuoのPCで、CPU効率は50%で推移。1時間経過してもエクスポート未完了。うち切ると生成されたファイルは56MB。もう少し待てば完了したかもしれないが、現実的でない。

Becky!「bml」ファイルの直接操作


エクスポートがムリなので、フォルダーの「bml」ファイル(600k程度)を結合してテキストファイル化

→ 結合ソフトは「TXTJOIN 1.5」(複数テキスト結合ユーティリティ)を使用。この結合ソフトには「ある語が含まれた行だけを抽出」という選択項目があり、

・これをチェックせずに結合すると → 70MB → 100万行を越えて扱いが大変
・これをチェック(「@」指定)して結合すると → 10MB → 20万行 → それでもExcel2003では扱いできない

※100万行超えのテキストファイルは生まれて初めて扱った。秀丸ではデフォルトで100万行までしか扱えないので、設定変更が求められる。

ビッグデータの時代って、こんなこと?


「100万行超えか」、感無量。

一般人でもこんな行数のデータを扱う時代なのだ。

とはいえ、これはビッグデータとは意味が違うか?






<< みよう見まねのGoogle+< | >iframeでFacebookオリジナルページの作成方法 >>
search
layout
admin

[▲page top]