Database
Database List
-
このデータベースはAutoPagerizeを更新するまでもない思いついたコードを書くためのものです。
喧々諤々の議論をするとかユーザーに新たな選択肢を提供するとかよりも行き場のないコードを供養する場と考えてください。Last Update: 2023-11-04T14:37:16+09:00 History
-
Last Update: 2024-02-26T10:59:45+09:00 History
-
Test.
Last Update: 2022-07-14T01:50:39+09:00 History
-
Settings and history of online shows.
Last Update: 2021-06-08T23:10:01+09:00 History
-
CAPTCHA_INFO
* URL String 対象となるサイトのURLにマッチする正規表現
* image String CAPTCHA画像のセレクタ
* input String 結果を入力するフィールドのセレクタ
* button (optional) String 実行ボタンのセレクタ
* calculate (optional) boolean 認識したものを評価できるようにする正規表現
* exampleUrl (optional) String URLの具体例Last Update: 2020-09-26T13:48:30+09:00 History
-
Last Update: 2020-05-25T09:32:58+09:00 History
-
test
Last Update: 2020-03-16T10:15:24+09:00 History
-
Last Update: 2020-01-06T23:02:20+09:00 History
-
multilookupのテスト用
Last Update: 2019-12-31T00:01:49+09:00 History
-
Last Update: 2019-12-17T18:37:57+09:00 History
-
もとは、androidのN2TTSやVocalizerという読み上げアプリ用に作ったユーザー辞書(読み替え単語集)です。
最近のTTSエンジンは十分に賢いので、このユーザー辞書を使うと、かえって読み上げ精度や抑揚が悪くなるかも。
(例:「青瓦台」は、googleテキスト読み上げでは「セイガダイ」と正しく読めるが、マイクロソフトのHarukaでは「アオガワラダイ」と読んでしまうなど、TTSエンジンによって得意・不得意がある)
ベクターのフリー辞書などを転用して、時代小説などに頻出する地名や人名などを登録してみました。
TabSpeechというChromeプラグインでユーザー辞書(読み替え)のデータベースを指定できるので、このデータベースも利用できると思います。
★ユーザー辞書を充実させるため、単語追加歓迎します。
ただ、隆盛(人名でのタカモリ、普通名詞のリュウセイ)とか意味によって読み方が変わる言葉は、下手に登録せず、読み上げエンジンのアルゴリズムに任せたほうがよい気がします。
表(ひょう、おもて)とか明(あきら、国名のミン)など、一文字の漢字も登録しないでください。一括して登録した読みに置き換わる結果、「説明」を「せつミン」と読んだり、かえっておかしくなるので。
Last Update: 2019-12-01T07:54:08+09:00 History
-
Appleの読み上げエンジン(Siri等の奴)での読み上げを修正するテーブルです。こちらは from 部が正規表現であると仮定したデータベースとなります。
正規表現を使わない読み替えの場合は
http://wedata.net/databases/TTS%20Convert%20Table%20for%20Apple%20TTS%20Engine%20(jp)/items
に追加してもらえると嬉しいです。
to部 には $1 $2 等を書けるとは思いますが、正規表現を解釈するものによっては利用できない正規表現があるかと思うので、できるだけどんな正規表現エンジン(?)でも動くような正規表現を使うと良い気がします。
このデータベースは今の所、TabSpeech という Chrome Extension
https://chrome.google.com/webstore/detail/tabspeech/ccojlmmbakjcoddbepmmogiobbmmhmjc?hl=ja
から利用されています。Last Update: 2020-02-16T12:04:11+09:00 History
-
Appleの読み上げエンジン(Siri等の奴)での読み上げを修正するテーブルです。
正規表現を使って書き換えたい場合には
http://wedata.net/databases/TTS%20Regulaer%20Expression%20Convert%20Table%20for%20Apple%20TTS%20Engine%20(jp)
に追加してもらえると嬉しいです。
このデータベースは今の所、TabSpeech という Chrome Extension
https://chrome.google.com/webstore/detail/tabspeech/ccojlmmbakjcoddbepmmogiobbmmhmjc?hl=ja
から利用されています。Last Update: 2023-12-30T21:29:02+09:00 History
-
Last Update: 2019-09-05T15:00:38+09:00 History
-
Last Update: 2018-07-28T16:39:42+09:00 History
-
Last Update: 2018-03-30T15:19:23+09:00 History
-
Last Update: 2018-02-07T15:34:09+09:00 History
-
I'm from Taiwan
Last Update: 2017-12-07T15:49:44+09:00 History
-
ことせかい という読み上げアプリで利用するデータです。
Webで読める小説を取り込むために、文書の場所や次のページへのlinkなどをさすxpathを記述します。
幾つかの項目はAutopagerizeとほぼ同じ意味です。
ことせかい については以下のURLを参照してください。
http://limura.github.io/NovelSpeaker/
以下、個々の属性についての概ねの方針を書いておきます。
url
対象のURLしてヒットする正規表現を書きます。
pageElement
読み上げ対象となる文字列が含まれるエレメントを取り出すxpathを書きます。複数hitするようなxpathを書いた場合、その全てが取り出されます。
nextLink
次のページに続く場合のaタグを指定するxpathを書きます。複数hitするものを書いた場合、最初のエレメントだけが採用されます。
Autopagerize側では必須属性になっていますが、こちらでは必須ではありません。つまり、Autopagerizeは(その目的から)1ページに全てが入っているサイトは登録されていませんので、そのようなサイトはこちらに登録する必要があります。また、Autopagerize側で主題が違う記事へのnextLinkが指定されているものについて、こちら側のデータベースにnextLinkが無い状態で登録することによって、主題が違う記事を読み込まないようにする事もできなくもありません。
title
本棚に登録される時の名前として採用される文字列を含むエレメントを取り出すためのxpathを書きます。
subtitle
(2017/12/18: 将来的に利用するための項目です)小説の個々の章にあたるサブタイトルを抽出できるエレメントを取り出すためのxpathを書きます。
author
作者名として採用される文字列を含むエレメントを指定するxpathを書きます。
firstPageLink
小説のタイトルページ(本文は含まない)がある場合、そのタイトルページから本文のページに遷移するためのaタグを指定します。複数hitするものを書いた場合、最初のエレメントだけが採用されます。
注意:firstPageLink にヒットした場合、そのURLを読み直して評価をし直すため、無限に firstPageLink の読み込み先を読んで場合があります。そのようにならないように firstPageLink の xpath を指定してください。
tag
その小説等に関する文字列タグが列挙されているエレメントがある場合は指定します。将来的に小説の検索などに使われるタグとして利用されるつもりのものになります。幾つかターゲットを書いてみたところ、どうやら Aレコード でタグへのlinkになっているものが多いようで、その場合は内部にスペースがあるタグなども見受けられましたため、Aレコードのようなエレメント毎に一つのタグとして取り込めないかな?と思っています。ということでできればAレコードそのものを取り出すように(a/text() のような XPath を書いてテキストだけにしないように)して頂ければ幸いです。
isNeedHeadless
JavaScriptが動作した後に本文部分(pageElement)が生成される場合には何らかの値("true"が推奨)を入れます。"false" や "False", "nil", "0", ""(何も入れない) の場合には単にGETリクエストで取得された値について評価して良いという意味になります。
nextButton
isNeedHeadless が有効になっている場合、ここで指定される要素の最初の物を次へのリンクとみなして .click() が実行されます。なお、この要素については xpath ではなく CSS selector で表記します(できればxpathにしたいのですが……)。なお、nextLink よりも nextButton の方が先に評価されます(nextButton と nextLink が両方共に存在する場合は nextButton が優先されます)。
firstPageButton
isNeedHeadless が有効になっている場合、ここで指定される要素の最初の物を最初の本文へのリンクとみなして .click() が実行されます。なお、この要素については xpath ではなく CSS selector で表記します(できればxpathにしたいのですが……)。なお、firstPageLink よりも firstPageButton の方が先に評価されます(firstPageButton と firstPageLink が両方共に存在する場合は firstPageButton が優先されます)。
forceClickButton
(実験的機能なので将来的に変更される可能性があります)isNeedHeadless が有効になっている場合、ここで指定される要素が存在した場合はその要素に対して .click() が実行された後、改めて内容を評価し直します。特定のボタンを押さないと先に進めない場合などに利用します。
waitSecondInHeadless
isNeedHeadless が有効になっている場合、ページが読み込まれたと思われる後、さらにここで指定される数値で指定される秒数待った後にinnerHTMLを評価します。
injectStyle
pageElement で取り出した後のHTMLに対して強制的に適用するstyleを記述します。これは、pageElementで取り出した後のHTMLにはstyleが適用されない(パスが違うのでstyleが適用されないであるとか、pageElementで取り出されたHTMLにはstyleが無いであるとか、styleは別のファイルになっているのでGETリクエスト一回では取り出せないであるといったときに、white-space:pre-wrap; で指定されるようなコンテンツが入っているとHTMLからStringに変換した時に改行周りとかが省略されてしまって悲しいことになるという問題を回避するための物になります。(例えば、pageElement として <div class="content xxx yyy">...</div> が取り出されるのがわかっている場合、"div.content{white-space:pre-wrap;}" といったような値を指定する事を期待しています。
exampleUrl
対象のURLを書きます。後で動作確認などをする時に利用します。複数書く場合は半角スペースで区切ってください。
memo
何らかのメモ書きを残すべきと思った場合は書いておいてください。日本語でOKです。
また、次のページや最初のページを判定するための要素がいくつかあるのでそれらの優先順位を別途書き記しておきます。
優先される順序は
1. forceClickButton
2. nextButton
3. firstPageButton
4. nextLink
5. firstPageLink
の順(数字が若い方が優先)になります。
なお、ことせかい の動作としては、このデータベースとAutopagerizeのデータベースの両方を使ってデータを読み込むように作られています。
動作としては対象のURLについて、まずこちらのデータベースにあるものが優先され、こちらのデータベースに載っていないURLのものについてはAutopagerizeのデータベースを参照することになります。
ですので、Autopagerize側で定義されている情報で十分なものの場合は改めてこちら側のデータベースに登録する必要は無いかもしれません。Last Update: 2024-03-19T12:54:14+09:00 History
-
Last Update: 2017-09-24T11:29:08+09:00 History
-
感情語が文章にいくつ含まれているかをカウントするために
感情語を登録しておくデータベースですLast Update: 2017-09-06T16:15:44+09:00 History
-
Last Update: 2017-05-26T05:53:03+09:00 History
-
imgsrc
Last Update: 2017-03-18T19:57:20+09:00 History
-
Newz-Complex
Last Update: 2016-11-12T23:57:37+09:00 History
-
Last Update: 2016-08-18T14:01:41+09:00 History
-
Last Update: 2016-05-12T06:30:32+09:00 History
-
bookmarklet app db for reading comic
Last Update: 2016-05-07T00:59:10+09:00 History
-
ROAD TO DRAGONS(ロード・トゥ・ドラゴン)
http://spsv.acquire.co.jp/rtd/
オフ会ビンゴ大会用DBLast Update: 2016-03-22T18:07:13+09:00 History
-
ROAD TO DRAGONS(ロード・トゥ・ドラゴン)
http://spsv.acquire.co.jp/rtd/
各アクセサリ性能データ
※ネタバレするのでストーリーは含まず
Last Update: 2016-03-27T22:47:26+09:00 History
-
ROAD TO DRAGONS(ロード・トゥ・ドラゴン)
http://spsv.acquire.co.jp/rtd/
各ユニットステータスデータLast Update: 2016-03-27T22:36:51+09:00 History
-
Last Update: 2016-01-27T15:45:15+09:00 History
-
Last Update: 2016-01-15T18:20:39+09:00 History
-
nzb
Last Update: 2015-12-01T01:24:56+09:00 History
-
Last Update: 2017-07-30T18:15:06+09:00 History
-
Last Update: 2014-11-26T16:58:12+09:00 History
-
Last Update: 2014-10-05T05:25:59+09:00 History
-
詳細
Last Update: 2014-10-03T04:57:09+09:00 History
-
Last Update: 2014-09-29T16:32:45+09:00 History
-
general News 1
Last Update: 2014-07-03T20:29:42+09:00 History
-
Last Update: 2014-06-17T05:31:13+09:00 History
-
Für Seitensprung
Last Update: 2013-10-19T11:35:10+09:00 History
-
http\:\/\/kanasoku\.info
Last Update: 2013-10-14T18:14:35+09:00 History
-
Last Update: 2013-10-03T14:15:18+09:00 History
-
Last Update: 2014-05-14T17:41:49+09:00 History
-
Last Update: 2013-10-22T13:23:09+09:00 History
-
Last Update: 2013-07-10T05:44:14+09:00 History
-
渋谷シアターオーブで上演されている演目情報です
Last Update: 2013-10-15T11:44:08+09:00 History
-
Last Update: 2013-10-15T11:37:36+09:00 History
-
Last Update: 2013-05-24T11:09:01+09:00 History
-
Last Update: 2013-06-10T12:58:16+09:00 History